Nederwaartse wateren doorkruist De ontwikkeling van een applicatie voor het analyseren van sentiment
Scriptie Informatiekunde Rijksuniversiteit Groningen Augustus 2007
S. de Valk s1245309
Begeleider en eerste lezer: dr. E.H. Klein Tweede lezer: dr. G.M. Welling
Inhoudsopgave Hoofdstuk 1: Inleiding ................................................................................. 1 Hoofdstuk 2: Theoretisch kader................................................................ 4 Introductie op content analysis................................................................ 5 Karakteristieken van content analysis ..................................................... 6 Content analysis gedefinieerd .................................................................... 6 Eenheden en soorten van content analysis .................................................. 7 Implicaties van content analysis................................................................. 9 Sentiment analysis .................................................................................... 10 Toepassingen van sentiment analysis ....................................................... 11 Onderzoek en ontwikkelingen ................................................................ 12 Implicaties van sentiment analysis........................................................... 16 Hoofdstuk 3: Bespreking applicatie....................................................... 19 Bestaande toepassingen........................................................................... 19 Karakteristieken van Styx........................................................................ 21 Samenstellen van een corpus.................................................................... 22 Formuleren van analyses ........................................................................ 24 Analyseren van het corpus ...................................................................... 26 Implementatie ........................................................................................ 31 Hoofdstuk 4: Opzet experiment .............................................................. 35 Eerder onderzoek..................................................................................... 36 Bespreking corpus.................................................................................... 39 Typen toespraken ................................................................................... 39 Bronnen en wijzigingen........................................................................... 40 Onderzoeksvragen en zoektermen........................................................ 42 Hoofdstuk 5: Evaluatie............................................................................... 46
Inhoudsopgave
ii
Evaluatievragen en richtlijnen voor beantwoording........................... 47 1. Is de term gerelateerd aan (één van) de zoektermen? ............................ 47 2. Is de term correct gecategoriseerd? ........................................................ 48 3. Is de term gerelateerd aan (één van) de zoektermen? ............................ 49 4. Is de term informatief? ....................................................................... 50 Evaluatieprogramma................................................................................ 51 Steekproef en uitvoering evaluatie......................................................... 52 Resultaten evaluatie.................................................................................. 53 Uitkomsten betrouwbaarheid.................................................................. 53 Bespreking betrouwbaarheid ................................................................... 54 Uitkomsten objectiviteit .......................................................................... 56 Bespreking objectiviteit ........................................................................... 58 Hoofdstuk 6: Historische resultaten ...................................................... 62 Indeling periodes...................................................................................... 62 Beantwoording onderzoeksvragen ........................................................ 65 Onderzoeksvraag 1 ................................................................................ 65 Onderzoeksvraag 2 ................................................................................ 72 Onderzoeksvraag 3 ................................................................................ 78 Conclusies ................................................................................................. 80 Hoofdstuk 7: Conclusies............................................................................ 83 Polaire woorden ....................................................................................... 83 Tekortkomingen..................................................................................... 84 Verbeteringen ........................................................................................ 84 Contexttermen.......................................................................................... 85 Corpus ....................................................................................................... 86 Tot besluit ................................................................................................. 87 Hoofdstuk 8: Bibliografie .......................................................................... 88 Bijlage 1: Toespraken corpus ................................................................... 94 Bijlage 2: Uitkomsten evaluatie ............................................................. 100 Bijlage 3: Frequentietabel contexttermen........................................... 104 Bijlage 4: Frequentietabel positieve woorden.................................... 105 Bijlage 5: Frequentietabel negatieve woorden .................................. 107
Inhoudsopgave
iii
Hoofdstuk 1:
Inleiding LEVERT HET EEN BIJDRAGE aan de staatsveiligheid of is het “creepy and Orwellian”? Deze vraag plaatst de onderzoeksinspanningen van een consortium van Amerikaanse universiteiten in een interessant licht. Om meer grip te krijgen op de wijze waarop er over de Verenigde Staten en haar leiders wordt gesproken, ontwikkelt het consortium software waarmee buitenlandse kranten geanalyseerd en gemonitord kunnen worden. De software, bekostigd door het Department of Homeland Security, speurt naar misprijzende opvattingen en tracht op die manier potentiële dreigingen te identificeren.1 Het vakgebied dat ten grondslag ligt aan de software is tevens het onderwerp van deze scriptie: sentiment analysis. Sentiment analysis probeert de houding van een auteur van een tekst vast te stellen. Uit deze houding blijkt of de auteur positief of negatief over een bepaalde zaak schrijft. Sentiment kan sterk verschillen en is afhankelijk van de intenties en stijl van de auteur. Filmrecensies, bijvoorbeeld, kunnen expliciet uitdrukking geven aan de ervaring van de bioscoopbezoeker. Zo vindt een gebruiker van Answerbag.com de film Open Water “utterly distasteful and pointless”.2 Het sentiment in deze zin is zowel voor mensen als computers betrekkelijk eenvoudig te herkennen. Bij andere zinnen is dit lastiger. Over de film Glory merkt een gebruiker van Epinions.com op: “How underappreciated is this movie by critics?”. Hoewel de zin een negatieve connotatie heeft, is het sentiment gericht op de critici van de film; de film zelf wordt door de gebruiker als “pretty much perfect” beoordeeld.3 Mensen kunnen dit onderscheid waarnemen, maar voor computers is dit
Hoofdstuk 1: Inleiding
1
geen vanzelfsprekendheid. Sentiment kan ook tegenstrijdig en impliciet zijn, zoals de volgende zin laat zien: “I propose that we discuss this problem at the Russia-NATO Council”.4 Deze zin, uitgesproken door president Poetin, bevat zowel een positief (“discuss”) als een negatief woord (“problem”): er is kennelijk een probleem maar tegelijkertijd ook de bereidheid om erover te praten. Echter, voor mensen noch computers wordt duidelijk welke polaire richting de overhand heeft. Wordt er gestreefd naar een oplossing of zijn de woorden eufemistisch bedoeld? Van alle mogelijke vormen van sentiment die zich kunnen voordoen, concentreert deze scriptie zich op een specifiek onderdeel: polaire woorden. Polaire woorden zijn primaire indicators van sentiment in teksten. Desondanks tonen bovenstaande voorbeelden aan dat de kous daarmee niet af is. Dit roept de vraag op in hoeverre polaire woorden geschikt zijn om sentiment te identificeren. Of vertaald naar de vraagstelling van de scriptie: “Kunnen polaire woorden duidelijk maken wat de houding van een auteur is over een bepaald onderwerp?” Ter beantwoording van deze vraagstelling is Styx ontwikkeld, een applicatie voor het analyseren van sentiment. De applicatie maakt het mogelijk om een corpus met teksten te compileren en te doorzoeken met een bepaald onderwerp. De polaire woorden in de omgeving van dit onderwerp worden aansluitend geëxtraheerd. Daarnaast worden zogenaamde contexttermen verwerkt ― betekenisvolle termen, zoals zelfstandig naamwoorden, die onthullen wat het verband is tussen de gevonden polaire woorden en het onderwerp. Het doel van deze operaties is om inzichtelijk te maken of auteurs zich positief of negatief over het onderwerp uitlaten en in welke context dat gebeurt. Om te onderzoeken in welke mate aan dit doel kan worden beantwoord, wordt Styx aangewend voor een historisch experiment. Voor het experiment wordt een corpus met toespraken van Amerikaanse presidenten doorzocht met onderwerp ‘Rusland’. Applicatie en experiment worden in de navolgende hoofdstukken besproken. In hoofdstuk 2 wordt het theoretisch kader van de scriptie uiteengezet en stilgestaan bij eerdere onderzoeken en actuele ontwikkelingen. Hoofdstuk 3 gaat in op de functionaliteit van Styx. In hoofdstuk 4 wordt het experiment en het corpus met toespraken gepresenteerd. Aan de hand van dit corpus wordt in hoofdstuk 5 de betrouwbaarheid van de applicatie geëvalueerd. Hoofdstuk 6 onderzoekt de bruikbaarheid van de applicatie door antwoorden te geven op
Hoofdstuk 1: Inleiding
2
historische onderzoeksvragen. In hoofdstuk 7 wordt het onderzoek besloten met de conclusies en mogelijke verbeteringen.
1
http://www.nytimes.com/2006/10/04/us/04monitor.html? ex=1317614400&en=f56ed0a299bbe0f2&ei=5090 2 http://www.answerbag.com/q_view/98074 3 http://www0.epinions.com/content_1325965444 4 http://www.kremlin.ru/eng/speeches/2007/04/26/ 1209_type70029_125494.shtml
Hoofdstuk 1: Inleiding
3
Hoofdstuk 2:
Theoretisch kader JOURNALISTEN ZIJN LINKSE RAKKERS. Dat is geen prikkelende propositie maar de uitkomst van onderzoek naar de opvattingen van journalisten. Zowel in Nederland als in de Verenigde Staten beschouwt een meerderheid van de verslaggevers zich respectievelijk als ‘links’ of ‘links van het midden’1 of als Democrat of liberal of neigend naar die kant2. De hamvraag is nu of een voorkeur voor politieke gezindte ook tot gekleurde berichtgeving leidt. Oftewel: zijn journalisten partijdig? Die vraag is niet eenvoudig te beantwoorden. Een rapport van het Project for Excellence in Journalism (PEJ), verbonden aan de Universiteit van Columbia, bevat echter een interessante conclusie. Het PEJ onderzoekt jaarlijks de toestand van de media in de Verenigde Staten. In het onderzoek over 2004 is de media-aandacht geanalyseerd voor de verkiezingsstrijd tussen president George Bush en zijn Democratische uitdager, senator John Kerry. Voor de analyse zijn kranten, nieuwssites en televisieprogramma’s als bronnen gebruikt. Eén van de conclusies van het onderzoek is dat Bush drie keer zoveel negatieve aandacht in de media heeft gekregen als Kerry (Rosenstiel, 2005). Zegt dit iets over de partijdigheid van journalisten? De krant The Washington Times suggereert van wel. In een artikel noemt de krant zowel de hoeveelheid kritiek op Bush als de linkse voorkeur van journalisten in één adem, zonder een relatie tussen beiden te opperen. Maar juist door de feiten gezamenlijk te noemen wordt er een causaal verband geïmpliceerd.3 De website The Left Coaster heeft een andere kijk. De site merkt op dat in het onderzoek van het PEJ alleen de toon van de aandacht is geanalyseerd, niet de accuraatheid van de berichtgeving: “So,
Hoofdstuk 2: Theoretisch kader
4
while some of the coverage on Bush may have been "negative", it was almost always FACT”.4
Introductie op content analysis Bovenstaand onderzoek is illustratief voor content analysis. Content analysis is een methodiek om de betekenis van communicatie te onthullen en maakt het mogelijk om omvangrijke datavolumes, zowel tekstueel als audiovisueel, op systematische en transparante wijze te analyseren. De invoer bestaat vrijwel altijd uit “naturally occurring raw data”, zoals kranten, toespraken en brieven. In tegenstelling tot andere onderzoeksmethodieken is content analysis hierdoor niet afhankelijk van invoer van respondenten noch gevoelig voor bijkomende problemen (Schonhardt-Bailey, 2005). Met de verkregen resultaten van content analysis kunnen aansluitend inferenties worden gemaakt over de boodschappen in de data, over de auteur of spreker, over de doelgroep en over de cultuur en het tijdperk waarvan zij onderdeel uitmaken (Palmquist, 2005). Als methodiek is content analysis betrekkelijk gevorderd. De officieuze oorsprong van content analysis is een Zweeds onderzoek uit 1774 naar een verzameling religieuze hymnes. De hymnes waren controversieel omdat ze indruisten tegen de leer van de orthodoxe staatskerk. Verschillende analyses zijn daarop uitgevoerd om het vermeende gevaar van de hymnes te onderzoeken. Voor deze analyses, hoewel primitief, zijn technieken aangewend die in nakomende eeuwen gebruikt zouden gaan worden voor content analysis (Garrad, 2003: 11). Rond 1900 komt content analysis tot bloei in de journalistiek en worden kranten het lijdend voorwerp van analyse. De uitgevoerde studies kenmerken zich door eenvoud, waarbij het registreren van het voorkomen van specifieke onderwerpen, zoals nieuws, mode en sport, centraal staat. De gebruikte meeteenheden zijn onder meer de hoeveelheid ruimte die een onderwerp op een pagina inneemt, de plaats op de pagina en de grootte van de headline (Garrad, 2003: 12). In de jaren ’30 van de twintigste eeuw wordt het mediaspectrum van content analysis uitgebreid met radio, later gevolgd door film en televisie. De Tweede Wereldoorlog zorgt vervolgens voor verdere groei, zowel in technieken als in het aantal onderzoeken ― in het bijzonder propaganda studies. Vanaf de jaren ’50 is content analysis niet langer het exclusieve domein van mediaonderzoekers en wordt de methodiek aangewend door andere disciplines, met name in de psychologie (Garrad, 2003: 12; 16).
Hoofdstuk 2: Theoretisch kader
5
De zestiger jaren zorgen ook bij content analysis voor oproer: de computer doet zijn intrede en daarmee verschillende nieuwe benaderingen van de methodiek. Met name de ontwikkeling van General Inquirer in 1966 is van belang, een thematic text analysis software protocol waarmee onderzoekers tal van acties als sorteren en categoriseren door de computer kunnen laten uitvoeren (Garrad, 2003: 15). Ondanks de noviteit van de computer is automatisering voor content analysis eerder vanzelfsprekend dan opmerkelijk. Content analysis gaat bijna altijd gepaard met grote hoeveelheden gegevens. Analyse van dit materiaal gebeurde voorheen handmatig, maar deze aanpak was tijdverslindend en gevoelig voor menselijke fouten (Palmquist, 2005). Gecomputeriseerde verwerking ondervangt dergelijke problemen en is daardoor inherent aan de methodiek geworden.5 Tegen de jaren tachtig is content analysis uitgegroeid tot “a set of full-blown research procedures”. De methodiek is met name populair onder communicatiewetenschappers. Zo constateert een onderzoek naar artikelen over politieke communicatie dat content analysis de meest gebruikte methode is, ingezet door eenderde van alle studies (Kaid, 1989). Met de groei van content analysis zijn de toepassingsmogelijkheden vrijwel onbegrensd geworden. Tegenwoordig kan elke vorm of voorkomen van communicatie worden gebruikt voor analyse. Het aantal disciplines dat content analysis inschakelt is dan ook navenant, “from marketing and media studies, to literature and rhetoric, ethnography and cultural studies, gender and age issues, sociology and political science, psychology and cognitive science” (Palmquist, 2005).6
Karakteristieken van content analysis Met bovenstaande introductie op content analysis is getracht de geschiedenis, mogelijkheden en toepassingen van de methodiek in kaart te brengen. De introductie maakt de weg vrij voor een bespreking van de karakteristieken van content analysis. Achtereenvolgens wordt de methodiek gedefinieerd, haar analysesoorten behandeld en stilgestaan bij de implicaties van content analysis. Content analysis gedefinieerd 7
De klassieke en meest gebruikte definitie is door Berelson (1952) geformuleerd: “Content analysis is a research technique for the objective, systematic, and quantitative description of the manifest content of communication”. Deze definitie bevat vier kernwoorden. Volgens (Kaid, 1989) wordt het belang van de eerste twee, objectiviteit en systematiek, niet betwist; het zijn
Hoofdstuk 2: Theoretisch kader
6
elementaire voorwaarden voor zorgvuldig onderzoek. De noodzaak van kwantificatie staat daarentegen wel ter discussie, evenals de zienswijze dat content analysis zich alleen moet bemoeien met (evident) waarneembare gegevens. Door deze twistpunten lijkt de uiterste houdbaarheidsdatum van de definitie overschreden en worden andere omschrijvingen relevant. Zo is content analysis volgens Holsti (1969) “any technique for making inferences by objectively and systematically identifying specified characteristics of messages”. Deze definitie eerbiedigt de objectiviteit en systematiek, maar rept met geen woord over kwantificatie. Holsti meent dan ook dat “the content analyst should use qualitative and quantitative methods to supplement each other. It is by moving back and forth between these approaches the investigator is most likely to gain insight into the meaning of his data”. Deze opvatting wordt toegelicht door (Kaid, 1989). Zij stelt: “[T]he assumption that numerical counting and summing are the only ways to characterize communication content may seem unreasonable”. Ter onderbouwing geeft zij een voorbeeld over het analyseren van televisieprogramma’s voor kinderen. Uit deze analyse kan blijken dat hulpvaardig gedrag twintig keer voorkomt in de programma’s en dat er twee gewelddadige voorvallen zijn. Maar als de impact van deze voorvallen substantieel is, dan is kwantificatie op basis van voorkomen ontoereikend om de inhoud van de programma’s te beschrijven. Een andere definitie komt van Krippendorff (1980). Content analysis is volgens hem “a research technique for making replicable and valid inferences from data to their context”. Krippendorff benoemt geen van de twistpunten en wijst ze daardoor af, in het bijzonder het nut van manifest content: het kan voor content analysis wenselijk zijn om conclusies te trekken over hoe een persoon communicatie ontvangt en interpreteert en om de context van de communicatiezender in beschouwing te nemen (zoals motief en doel). Een dergelijke benadering buigt zich over andere gegevens dan de direct-waarneembare. Wel maant (Kaid, 1989) hierbij tot voorzichtigheid; door verder te kijken dan de zuivere boodschap kan de objectiviteit van het onderzoek in gevaar komen. Eenheden en soorten van content analysis
De kern van content analysis wordt gevormd door het registreren van een unit of analysis. De vorm van deze unit is afhankelijk van het medium dat onderzocht wordt. Exponenten zijn bijvoorbeeld fysieke eenheden (zoals boeken of bladzijden) en syntactische eenheden (zoals zinnen of woorden). Sterk verwant aan deze eenheid is de unit of enumeration. Deze unit bepaalt hoe de unit of analysis wordt gekwantificeerd. Voor teksten is dat bijvoorbeeld een woordfrequentie, voor kranten de ruimte die artikelen op een pagina beslaan en voor televisie de hoeveelheid tijd die er aan een onderwerp wordt besteed (Kaid, 1989).
Hoofdstuk 2: Theoretisch kader
7
Conceptual analysis is één van de twee soorten van content analysis die onderscheiden worden. Deze analyse heeft als doel om de aanwezigheid en/of de frequentie van bepaalde concepten vast te stellen. (Palmquist, 2005) noemt hierbij een voorbeeld over een dichter. Als het vermoeden bestaat dat een dichter regelmatig over honger schrijft, kan dat getoetst worden door te tellen hoe vaak woorden als “hunger”, “hungry”, “famished” of “starving” figureren in zijn werk. Voor een dergelijke analyse is het van belang om de te signaleren termen te definiëren ― inclusief synoniemen en toegestane variaties, zoals adjectieven en samenstellingen. De vastgestelde termen dienen aansluitend gecodificeerd te worden in een codeboek (Kaid, 1989). Dit boek bevat alle coderingsregels en maakt het voor menselijke en elektronische codeerders mogelijk om de analyse consistent en coherent uit te voeren, desgewenst meerdere keren. Vervolgens kan de dataset in kwestie aan de hand van het codeboek geanalyseerd worden. De tweede soort van content analysis, relational analysis, gaat een stap verder. Bij relational analysis gaat het niet langer om het sec signaleren van concepten, maar om het achterhalen van de relaties tussen concepten. Deze vorm van analyse heeft verschillende gradaties. Een kenmerkende benadering is de syntactische analyse: door de inzet van natuurlijke taalverwerking kunnen onder meer synoniemen en negaties waargenomen worden. Ter illustratie: de termen “lucrative” en “well paid” hebben vrijwel dezelfde betekenis. Voor analyse kan het van belang zijn dergelijke termen als identiek te registreren; ze zijn meer van hetzelfde en hebben afzonderlijk slechts geringe meerwaarde. Een ander voorbeeld is de zin “payments are not good”. Door negaties op te sporen wordt de ‘werkelijke’ betekenis van de woorden in kaart gebracht; immers, als de “not” in de genoemde zin wordt overgeslagen, krijgt deze een onbedoelde wending (Wilson, 1993). Proximity analysis is een andere benadering van relational analysis en gaat uit van het gezamenlijk voorkomen van bepaalde concepten. Hiervoor wordt een window gedefinieerd, een sequentie van woorden die doorzocht wordt op de aanwezigheid van twee of meer concepten. Komen de concepten in één window voor, dan suggereert dat een bepaalde relatie. Cognitive mapping is een geavanceerde benadering van relational analysis. Mapping probeert een (grafisch) model van de algehele betekenis van een tekst te maken en de verschillende relaties tussen concepten te visualiseren. Mapping kan onder meer worden gebruikt voor het weergeven van mentale modellen en vindt vooral voedingsbodem in de socio- en psycholinguïstiek (Palmquist, 2005).
Hoofdstuk 2: Theoretisch kader
8
Implicaties van content analysis
Er zijn vier implicaties aan content analysis verbonden, enerzijds aandachtspunten, anderzijds valkuilen. De eerste implicatie betreft het formuleren van categorieën. Categorieën zijn noodzakelijk om de termen te kunnen herbergen die gezocht worden in een dataset. Ter illustratie: (Turney, 2002) heeft onderzoek gedaan naar de automatische classificatie van consumentenrecensies, onder meer over auto’s en films. Deze recensies kunnen in twee categorieën geplaatst worden: recommended (“thumbs up”) of not recommended (“thumbs down”). Alle relevante termen in de recensies, van ondubbelzinnig (“terrible score”) tot wazig (“simple”), worden hiertoe gewogen en gebruikt voor de categorisering. Complexe, niet-binaire indelingen zijn evenwel ook mogelijk. Zo haalt (Kaid, 1989) een voorbeeld aan over het categoriseren van termen die in de media verschijnen, om te onderzoeken hoeveel aandacht bepaalde onderwerpen krijgen. De termen worden ondergebracht in groepen als foreign policy, law and order, fiscal policy, public welfare en civil rights. Deze voorbeelden laten zien dat categorieën zowel twee- als meerledig kunnen zijn. Echter, ongeacht de complexiteit dienen ze in elk geval uitputtend en exclusief te zijn. Idealiter kunnen alle betekenisvolle termen in een dataset dan ook ondergebracht worden in uitsluitend één van de categorieën (Kaid, 1989). Is dit niet mogelijk ― omdat categorieën ontbreken of overlappen ― dan kan de veelkleurigheid van de dataset verloren gaan en de deugdelijkheid van de resultaten betwist worden (Palmquist, 2005). De betrouwbaarheid van het coderingsproces is de tweede implicatie. Het coderingsproces betreft de effectieve uitvoering van de analyse. Aan de hand van het eerder genoemde codeboek wordt de dataset ontleed en worden de significante termen gecategoriseerd. Dit proces is onderhevig aan drie factoren: stabiliteit, reproduceerbaarheid en accuraatheid. De eerste twee factoren bepalen of de analyse consequent dezelfde resultaten oplevert, zowel bij één codeerder als bij meerdere. Blijken de resultaten wisselvallig, dan zitten er fouten, in het bijzonder ambiguïteiten, in het codeboek of is er sprake van cognitieve verschillen tussen de betrokken codeerders (Weber, 1985: 16, 17). Toepassing van de computer als coderingsinstrument garandeert stabiliteit, maar kan eventuele fouten in het door mensenhanden geproduceerde codeboek niet verhelpen. De derde factor van het coderingsproces, accuraatheid, betreft volgens (Weber, 1985: 17) de mate waarin het coderingsresultaat overeenkomt met een bepaalde standaard of norm. Helaas is accuratesse geen trivialiteit. Ofschoon het een buitengewoon krachtige manier is om de betrouwbaarheid vast te stellen, zijn er maar weinig gouden standaarden ontwikkeld om te benutten.
Hoofdstuk 2: Theoretisch kader
9
De derde implicatie van content analysis betreft de validiteit van de resultaten. De validiteit heeft betrekking op twee aspecten. Het eerste, algemene aspect is de generaliseerbaarheid van de resultaten: de onafhankelijkheid van de resultaten ten opzichte van de verrichte operaties. Met andere woorden: als dezelfde dataset door twee verschillende methodes wordt gebruikt, zouden de uitkomsten correlatief moeten zijn (Weber, 1985: 18). Het tweede aspect is specifieker voor content analysis: de mate waarin de resultaten corresponderen met de eerder gedefinieerde categorieën. (Palmquist, 2005) haalt hierbij een voorbeeld aan over het woord “mine”. “Mine” is in het Engels (maar ook in het Nederlands) zowel een voornaamwoord, een explosief als een plaats waar ertsen worden gedolven. Als “mine” onderwerp van onderzoek is, kan content analysis de aanwezigheid van het woord betrouwbaar vaststellen. Echter, als het onderzoek alleen geïnteresseerd is in een mijn als ontplofbaar toestel, dan kan de validiteit van de resultaten verstoord raken als er geen rekening wordt gehouden met de verschillende betekenissen. De vierde en ultieme implicatie is generiek van aard en betreft het intrinsieke karakter van content analysis. Content analysis is een methode van data-reduction (Weber, 1985: 15) of selective reduction (Palmquist, 2005). Elke dataset die onderworpen wordt aan analyse, zal kwaliteitsverlies moeten incasseren: de methodiek is niet in staat om de volle rijkdom van de oorspronkelijke invoer te vatten. Dat is geen onoverkomelijk gegeven, maar het vereist wel een bepaald bewustzijn. Desondanks waarschuwt (Weber, 1985: 15) voor de gevolgen: “The central problems of content analysis originate mainly in the data-reduction process by which the many words of texts are classified into much fewer content categories”.
Sentiment analysis Deze scriptie concentreert zich op een specifieke vorm van content analysis: sentiment analysis. Sentiment analysis houdt zich bezig met het signaleren, extraheren en categoriseren van subjectieve uitdrukkingen. Dergelijke uitdrukkingen bevatten de emoties en zienswijze van de auteur van een tekst over een bepaald onderwerp en kunnen ondergebracht worden in categorieën als for of against, positive of negative, favorable of unfavorable en criticism of praise (Kaid, 1989). Sentiment analysis verschilt van de reguliere content analysis (en gelieerde vakgebieden als text classification en information extraction) doordat de benadering non-topical is: het gaat niet (langer) om het ordenen van informatie op basis van onderwerp (politiek, sport, enzovoort), maar om de wijze waarop erover gesproken wordt. (Whitelaw, 2005) noemt sentiment analysis dan ook
Hoofdstuk 2: Theoretisch kader
10
wel non-topical text analysis en (Pang, 2002) heeft het over non-topic-based text categorization. Helaas zijn formele definities van sentiment analysis bijzonder schaars. Sterker nog, de literatuur is zelfs niet eensgezind over het gebruik van de term ‘sentiment analysis’. Zo heeft (Turney, 2002) het bijvoorbeeld over semantic orientation. Frases in een tekst hebben volgens hem een positieve semantische oriëntatie als de woorden in de frases een ‘goede’ associatie met elkaar hebben (en vice versa voor negatieve oriëntatie). Het onderzoek van (Pang, 2002) is verwant aan dat van Turney, maar hanteert daarvoor een nieuwe term, sentiment classification. Een gelijksoortige term wordt geïntroduceerd door (Salvetti, 2004): polarity classification. (Whitelaw, 2005) en (Nasukawa, 2003) maken wel gebruik van sentiment analysis als term, alhoewel Nasukawa het niet kan nalaten nóg een variatie te introduceren: favorability analysis. Ook de onderzoeken van (Bolasco, 2004) en (Wiebe, 2001) verkondigen hun eigen termen. Onder de noemer semantic categorisation probeert Bolasco de positieve of negatieve connotatie van woorden vast te stellen. De variatie van Wiebe heet subjectivity tagging. Bij subjectivity tagging gaat het om het identificeren van zinnen die een mening weergeven en het scheiden van zinnen die feitelijke informatie bevatten. Deze scriptie gaat uit van sentiment analysis als naam om het proces te benadrukken: het gaat niet enkel om het extraheren en classificeren van sentiment, maar om alle stadia in het onderzoek. Toepassingen van sentiment analysis
Sentiment analysis heeft de laatste jaren een hoge vlucht genomen. Er is een groeiende interesse om teksten te kunnen karakteriseren op basis van “the opinions, feelings, and attitudes expressed in a text, rather than just the facts” (Whitelaw, 2005). (Pang, 2002) signaleert een verwantschap tussen deze interesse en de snelle groei van het aantal online discussiegroepen en recensiesites, zoals de movie-reaction-site Rottentomatoes.com en de website van de New York Times Book Review. (Salvetti, 2004) illustreert dit met een voorbeeld over een klant die geïnteresseerd is in een bepaald product. De klant wil enkele negatieve recensies lezen “just to pinpoint possible drawbacks”, maar heeft daarom geen belangstelling voor positieve recensies. Door de inzet van sentiment analysis worden lezers in staat gesteld om de relevantie van teksten te beoordelen en te rangschikken op basis van polariteit ― met als ultiem doel: minder tijd besteden aan nietinteressante informatie. (Nasukawa, 2003) ziet voor sentiment analysis “enormous opportunities for various applications”, onder meer voor het achterhalen van klanttevredenheid. Traditioneel worden dergelijke onderzoeken verricht
Hoofdstuk 2: Theoretisch kader
11
met enquêtes, maar die zijn volgens Nasukawa duur en weinig effectief. Hij stelt dat het analyseren van websites om de meningen van klanten te vergaren een natuurlijker aanpak is dan om speciale vragenlijsten te ontwikkelen. Vergelijkbare mogelijkheden worden door (Hurst, 2004) waargenomen. Hurst noemt sentiment analysis “an emerging field of research” en constateert toepassingen binnen brand management en marketing, met name voor het evalueren van “the public’s impression of a product”. Een geheel andere toepassing komt van (Spertus, 1997). Spertus heeft Smokey ontwikkeld, een applicatie voor het herkennen van flames in berichten; dergelijke krachttermen zijn bij uitstek een uiting van sentiment. Smokey gebruikt grammaticale regels om vijandig taalgebruik van polite speech te onderscheiden. Weer een andere, psycho-sociologische toepassing komt van (Hogenraad, 2005). Hogenraad heeft een thesaurus samengesteld waarmee de aanvang van oorlogen voorspeld kan worden door teksten, zoals toespraken van betrokken personen, te analyseren en de gebezigde affiliation and power words op te merken. Hoe meer power words en hoe minder affiliation, hoe waarschijnlijker het begin van een oorlog is. Onderzoek en ontwikkelingen
Voor het verder doorgronden van sentiment analysis worden hierna een aantal onderzoeken besproken die gerelateerd zijn aan de scriptie. Het doel is niet om een alomvattend panorama van de mogelijkheden of samenvattingen van voorgaande studies te geven, wél om eerdere benaderingen, methodieken, overwegingen en knelpunten te signaleren. De contemplaties van (Ray, 1999) concentreren zich op de standpunten van politieke partijen over bepaalde onderwerpen. Ray heeft een techniek bedacht (maar nog niet geïmplementeerd) waarmee political party manifestos geanalyseerd en ingedeeld kunnen worden op basis van polariteit. De techniek bestaat uit drie stappen. De eerste stap is het samenstellen van een woordenboek met partijpolitieke onderwerpen. Hiervoor beoordelen menselijke codeerders een aantal teksten en bepalen ze tot welk onderwerp elke zin behoort. Vervolgens worden de zinnen gegroepeerd per onderwerp en alle woorden verwijderd met minder dan vier tokens. De overgebleven woorden krijgen per onderwerp een frequentiegewicht toegekend. Stap twee is het loslaten van het woordenboek op de te analyseren, niet-gecodeerde teksten. Hiertoe worden deze teksten gesplitst in zinnen en elk woord opgezocht in het woordenboek. Wordt het woord gevonden, dan ontvangt het per onderwerp een bepaald gewicht. Alle aan de woorden toegekende gewichten worden vervolgens opgeteld. Op deze manier kan voor elke zin een uitspraak worden gedaan over de waarschijnlijkheid dat de zin
Hoofdstuk 2: Theoretisch kader
12
over een bepaald onderwerp gaat. De derde stap betreft het identificeren van de polariteit van een politiek standpunt. Ray stelt hierbij voor om het Stanford Political Dictionary te gebruiken, een woordenboek dat onder meer de sterkte van de positieve of negatieve richting van woorden aangeeft. Ter illustratie: de zin “Our party opposes the reduction of the powers of the European Union” bevat twee negatieve woorden, “opposes” en “reduction”. Desondanks is de valentie van de zin niet negatief; eigenlijk staat er dat de partij vóór het behoud van de bevoegdheden van de EU is. Daarom stelt Ray voor om de sterkte van de afzonderlijke woorden op te zoeken en vervolgens te vermenigvuldigen in plaats van op te tellen. “Opposes” (1) en “reduction” (-1) resulteren zo niet in een negatieve zin (-1 + -1 = -2), maar in een positieve (-1 * -1 = 1). (Turney, 2002) heeft een algoritme ontwikkeld voor het automatisch classificeren van recensies als recommended of not recommended. Het algoritme begint met het part-of-speech taggen van de invoer, het vaststellen van de grammaticale functies van alle woorden. Vervolgens worden opeenvolgende combinaties van adjectieven en bijwoorden geëxtraheerd. Volgens Turney zijn geïsoleerde adjectieven “good indicators of subjective, evaluative sentences”, maar moet ook hun context in beschouwing worden genomen. Ter illustratie: “unpredictable” oogt negatief, maar kan in combinatie met “plot” juist positief bedoeld zijn ― zeker voor een filmrecensie. De volgende stap betreft het taxeren van de semantische oriëntatie van de geëxtraheerde frases. Hiervoor wordt het pointwise mutual information-algoritme (PMI) ingezet. PMI kent aan elke frase een numerieke waarde toe. Deze waarde wordt vastgesteld door te berekenen wat de afstand van de frase tot het woord “excellent” is, minus de afstand tot het woord “poor”. Tot besluit wordt voor alle frases in een recensie de gemiddelde semantische oriëntatie becijferd. Op basis hiervan kan een recensie als thumbs up of thumbs down worden geclassificeerd. Turney heeft het algoritme losgelaten op 410 willekeurige consumentenrecensies over onderwerpen als films en auto’s. De resultaten zijn vergeleken met de numerieke waardering die de auteurs zelf hebben toegekend aan hun recensies. De uitkomst hiervan is dat het algoritme een gemiddelde accuratesse van 74% behaalt, met 84% voor de auto- en 66% voor filmrecensies als uitschieters. Deze laatste baart zorgen. Het algoritme blijkt niet in staat om onderscheid te maken tussen de beschrijving van het filmplot en de mening van de recensent (of zoals Turney opmerkt: “an evil character does not make a bad movie”). Tegelijkertijd constateert hij dat dit probleem niet eenvoudig opgelost kan worden. (Pang, 2002) heeft zich voor het classificeren van sentiment gericht op “prior-knowledge-free supervised machine learning methods”. Voor zijn onderzoek gebruikt hij 2.053 filmrecensies van de Internet Movie Database
Hoofdstuk 2: Theoretisch kader
13
(IMDb). Pang begint het onderzoek met het definiëren van een menselijke baseline. Hij laat studenten intuïtief een lijst met polaire termen samenstellen en telt vervolgens de tokens in de dataset. Deze ‘triviale’ aanpak blijkt een accuratesse van 58% tot 69% te behalen. Pang zet aansluitend Naive Bayes, maximum entropy en support vector machines in om de accuratesse van geautomatiseerde verwerking te testen, algoritmes die traditioneel voor topic classification worden aangewend. Hiervoor worden willekeurig 700 positieve en 700 negatieve recensies geselecteerd. Pang probeert vervolgens het sentiment van deze recensies te bepalen door een aantal experimenten te lanceren. Voorbeelden hiervan zijn selectie op basis van veelvoorkomende uni- of bigrammen, het gebruik van een part-of-speech-tagger en selectie aan de hand van de positie ― begin, midden of einde ― van een term in een document. Uit de experimenten blijkt dat de drie algoritmes wisselende effecteren sorteren, maar dat de accuratesse in alle gevallen beter is dan de hoogste menselijke baseline, variërend van 72,8% tot 82,9%. Opvallend is dat bigrammen geen betere resultaten opleveren dan unigrammen, ook al bevatten ze meer contextuele informatie. Hetzelfde intuïtief-teleurstellende resultaat blijkt voor adjectieven en de positie van termen te gelden; ze verbeteren de accuratesse niet wezenlijk. Een interessante observatie is dat het registreren van de aanwezigheid van termen betere resultaten oplevert dan het tellen van hun frequentie. Al met al concludeert Pang dat “unigram presence information turned out to be the most effective”. Maar hij constateert tevens dat de algoritmes niet de accuratesse bereiken van traditionele, niet-polaire classificatie (90% of hoger). Het experiment van (Bolasco, 2004) heeft zich geconcentreerd op het vaststellen van de positieve of negatieve connotatie van teksten. Hiervoor zijn 2.000 korte verhalen van Italiaanse kinderen gebruikt. De verhalen zijn vervaardigd voor een door de politie georganiseerde schrijfwedstrijd. Voor het bepalen van de connotatie is het (Engelstalige) woordenboek van de eerder aangehaalde General Inquirer als basis genomen. Dit woordenboek bevat ruim duizend adjectieven die als ‘positief’ of ‘negatief’ gecategoriseerd zijn. Adjectieven worden beschouwd als “the most important grammatical element to define the evaluative terminology” en zijn daardoor bij uitstek geschikt voor het vaststellen van connotaties. De adjectieven zijn voor het experiment in het Italiaans vertaald en samengevoegd met adjectieven uit andere bronnen. Vervolgens zijn ze vergeleken met het vocabulaire van de verhalen. (Ofschoon Bolasco rept over text mining en automatic classification, wordt helaas niet besproken op welke manier dat is gedaan.) De resultaten zijn verrassend: negatieve termen komen vaker voor dan positieve. Dit is in tegenspraak met de Pollyanna Hypothesis, die stelt dat mensen een
Hoofdstuk 2: Theoretisch kader
14
voorkeur hebben voor positieve termen (waarover later meer). De verklaring hiervoor ligt volgens Bolasco in het onderwerp van de verhalen: de politie. De schrijvers gebruiken negatieve termen om aan te geven waar de handelingen plaatsvinden (“hidden”, “dark”, “abandoned”), wat de karakteristieken van de daders zijn (“delinquent”, “murderer”, “dangerous”) en wat de toestand van de slachtoffers is (“poor”, “dead”, “injured”). Gelukkig voor de politie wordt er in positieve bewoordingen over het plot en de sterke arm gesproken (“good”, “brave”, “strong”). Desondanks blijven affreuze termen met een ratio van 114% vaker voorkomen, waardoor de verhalen een overwegend negatieve connotatie hebben. Het onderzoek van (Hurst, 2004) is vernieuwend omdat het zogenaamde topical sentiments achterhaalt. Het idee is dat het signaleren van polariteit onvoldoende is: het gaat niet enkel om positieve of negatieve bewoordingen, maar óók om de relatie van deze bewoordingen tot een bepaald onderwerp. Ter illustratie: de zin “It has a BrightScreen LCD screen and awesome battery life” zegt niets positiefs over het scherm. Edoch, als het scherm wél het onderwerp van analyse is, moet deze zin niet als positief geclassificeerd worden. Voor het signaleren van topical sentiments heeft Hurst twee modules ontwikkeld: een topic module en een polarity module. De topic module achterhaalt of de invoer on topic of off topic is. Hiervoor gebruikt Hurst het Winnow-algoritme, een zogenaamde machine learning classifier. Winnow is voor het onderzoek getraind op een verzameling documenten waarvan de topicality handmatig is beoordeeld. Hierdoor wordt het mogelijk die zinnen te selecteren die betrekking hebben op een bepaald onderwerp van analyse. De polarity module beoordeelt de polariteit van de invoer. Voor de beoordeling wordt allereerst een lexicon met polaire termen samengesteld. Aansluitend wordt de dataset in kwestie gesplitst in zinnen en voorzien van part-ofspeech-tags. De woorden in de zinnen worden vervolgens opgezocht in het lexicon en, indien aanwezig, als positief of negatief gemarkeerd. Beide modules zijn door Hurst afzonderlijk getest: vergeleken met handmatige beoordeling blijkt de precisie van de topic module 79% te zijn en die van de polarity module 82%. Vervolgens heeft Hurst de modules gecombineerd tot één analyse: zijn aanname is dat topische zinnen met polaire inhoud, polair zijn over het onderwerp in kwestie. Om dit te toetsen heeft hij een dataset van 20.000 berichten gecompileerd, afkomstig van onder meer nieuwsgroepen. Uit het daaropvolgende resultaat blijkt dat een gecombineerde analyse een precisie van 72% oplevert. Dit is weliswaar minder dan de afzonderlijke analyses, maar Hurst concludeert dat zijn aanname “holds in most instances”.
Hoofdstuk 2: Theoretisch kader
15
Implicaties van sentiment analysis
Naast de eerder genoemde implicaties van content analysis, zijn er aan sentiment analysis drie additionele implicaties verbonden. De eerste implicatie is de eerder aangestipte Pollyanna Hypothesis. Deze hypothese stelt dat positieve woorden aanzienlijk vaker worden gebruikt dan negatieve woorden, zelfs in uiteenlopende talen en culturen als Chinees, Fins en Turks. De reden hiervoor, zoals verwoord door (Bolasco, 2004): “The prevalence of positive terminology is associated with a general positive tendency, identified as a basic and universal characteristic of human nature”. Het gevolg van deze constatering kan zijn dat sentiment analysis niet in staat is om de volledige reikwijdte van subjectieve uitdrukkingen te vatten. Negatieve termen kunnen in de verdrukking komen door het overwicht van positieve termen, waardoor de indruk kan ontstaan dat er geen keerzijde van de medaille is. Ter illustratie: de Pollyanna Hypothesis is bevestigd in een onderzoek naar het gebruik van positieve en negatieve woorden in jaarverslagen van ondernemingen. In het onderzoek wordt geconcludeerd dat “regardless of the financial state of the company, the language in the annual letters will be predominantly positive” (Kloptchenko, 2002).8 De taalkundige complexiteit van de te analyseren teksten is de tweede implicatie. (Hurst, 2004) stelt dat teksten gecategoriseerd kunnen worden als objectief of subjectief. Sentiment analysis richt zich op subjectieve uitdrukkingen, maar dient met zorg om te gaan met beladen woorden. “It is broken”, bijvoorbeeld, verwijst naar een ongewenste toestand en bezit daardoor een bepaalde gevoelslading. De zin lijkt evenwel een constatering van een feitelijke toestand te zijn ― en is daardoor strikt geredeneerd objectief. De taalkundige complexiteit komt ook tot uiting bij ambiguïteiten. Hurst illustreert dit met de zin “There was a huge stain on my trousers”. Het woord “huge” is in deze context negatief. Toch wordt hetzelfde woord in de zin “This washing machine can deal with huge loads” in een positieve context gebruikt. Hurst merkt hierover op: “There is no gurantee (sic) that the information required to resolve such ambiguities will be present in the observable segment of the document”. Het disambigueren van zinnen is derhalve niet eenvoudig. Desondanks stelt (Bolasco, 2004): “in long texts, the error produced by an ambiguous classification is negligible”. De derde en laatste implicatie is verwant aan de tweede implicatie, maar gaat een stap verder: de algehele moeilijkheid om sentiment te signaleren en te classificeren. Zo constateert (Pang, 2002) dat “sentiment seems to require more understanding than the usual topic-based classification”. Hij verduidelijkt dit met de zin “How could anyone sit through this movie?”. Deze zin is voor menselijke lezers als negatief te herkennen, maar bevat geen evident negatieve woorden. Beter begrip van sentiment
Hoofdstuk 2: Theoretisch kader
16
is daarom noodzakelijk om tot geautomatiseerde verwerking van dergelijke zinnen te komen. Daarentegen stelt (Nasukawa, 2003) dat zelfs mensen moeite hebben met het analyseren van sentiment, een taak waarvoor “high intelligence and deep understanding” vereist is: “[W]hen we tried to determine if each specific document was on balance favorable or unfavorable toward a subject after reading an entire group of such documents, we often found it difficult to reach a consensus, even for very small groups of evaluators”. Met deze woorden is het slotakkoord van het hoofdstuk gespeeld. In dit theoretisch kader is getracht de eerdere en actuele ontwikkelingen omtrent content- en sentiment analysis weer te geven. In het volgende hoofdstuk worden deze ontwikkelingen gebruikt voor een nieuw onderwerp: de bespreking van de applicatie.
1
http://www.villamedia.nl/journalist/n/dossiers/journalisten1.shtm http://www.asne.org/index.cfm?id=2480 3 http://www.washtimes.com/national/20050314-102933-3162r.htm 4 http://www.theleftcoaster.com/archives/003973.php 5 Desondanks wordt er in bepaalde literatuur nog consequent over computer-aided content analysis gesproken, een onbestemd verlangen om een irrelevant onderscheid te benadrukken. 6 Enkele interessante ― maar voor het hoofdstuk overvloedige ― toepassingen van content analysis zijn de volgende: • In zijn boek haalt (Weber, 1985: 21) een onderzoek aan over de analyse van Duitse radio-uitzendingen in de Tweede Wereldoorlog. Uit het onderzoek is gebleken dat inlichtingendiensten van de Geallieerden de veranderende oorlogstactieken en – strategieën van de Duitsers konden voorspellen door wijzigingen in hun berichtgeving te signaleren. • In een onderzoek van (Kim, 1994) zijn patronen in de berichtgeving van kranten ontdekt over incidenten met dodelijke afloop. Hiervoor zijn artikelen uit twee New Yorkse dagbladen geanalyseerd. Eén van de conclusies is dat de sociale status en rijkdom van een slachtoffer bepalend is voor de wijze waarop kranten over het overlijden schrijven. Ter illustratie: mensen afkomstig uit high society ‘sterven’ in de media. Lower people daarentegen ‘zijn gedood’. • Onderzoek van Don Foster illustreert een niet-mediagerelateerde toepassing van content analysis. Foster is een literary forensic en gebruikt statistische technieken voor tekstanalyse om de auteurs van anoniem-gepubliceerde geschriften te identificeren. Met behulp van de computer kunnen patronen in teksten ontrafeld en toegekend worden aan een schrijver. Op deze manier heeft Foster onder meer Anonymous achterhaald, de auteur van de roman Primary Colors (Allen, 2000). • Voor het project The Quantitative Study of Dreams van de Universiteit van Californië is een systeem ontwikkeld voor het wetenschappelijk bestuderen van (de betekenis van) dromen. Content analysis vormt daarbij het fundament. In tegenstelling tot andere benaderingen wordt het hierdoor mogelijk om “completely objective and quantitative” onderzoek naar dromen te doen, zonder uit te gaan van onmeetbare invoer als vrije associaties, amplificaties of symbolische interpretaties (Schneider, 2005). 2
Hoofdstuk 2: Theoretisch kader
17
7
De definities van en de discussie over Berelson en Krippendorff zijn afkomstig uit (Kaid, 1989). De definitie en het citaat van Holsti zijn overgenomen uit respectievelijk (Stemler, 2001) en (Morkevičius, 2003). Helaas konden de originele bronnen redelijkerwijs niet bemachtigd worden. Omwille van de leesbaarheid worden deze spaghettiverwijzingen als voetnoot en niet in de tekst genoemd. 8 Het onderzoek is in 1981 uitgevoerd door Hildebrandt & Snyder, maar deze originele bron was redelijkerwijs niet vindbaar.
Hoofdstuk 2: Theoretisch kader
18
Hoofdstuk 3:
Bespreking applicatie DE STYX IS IN de Griekse mythologie een rivier die de bovenwereld van de onderwereld scheidt. De rivier werd dusdanig gerespecteerd door de goden dat zij hun plechtigste eden op haar naam zwoeren. Maar als een godheid zijn woord brak, dwong oppergod Zeus hem om uit de rivier te drinken. Door het onreine water verloor de god zijn stem voor negen jaren.1 Styx is tevens de naam van de applicatie die voor deze scriptie ontwikkeld is. De naam betekent letterlijk ‘haatstroom’, een suggestieve indicatie van de kernfunctionaliteit van de applicatie: sentiment analysis. Met Styx kan een corpus met teksten samengesteld en thematisch geanalyseerd worden. De applicatie wil duidelijk maken met welke positieve en negatieve woorden een auteur over een gegeven thema spreekt en in welke context dat gebeurt. In dit hoofdstuk wordt Styx besproken. Ter introductie worden de reeds bestaande toepassingen benoemd en hun functionaliteit aangestipt. Vervolgens worden de karakteristieken van Styx in detail uiteengezet.
Bestaande toepassingen Styx is geenszins enig in zijn soort; integendeel. Er bestaan talloze applicaties voor content analysis voor evenzoveel doeleinden. Te midden van deze verscheidenheid biedt (Lowe, 2002) houvast door drie typen toepassingen te onderscheiden. Het eerste type betreft dictionary-based content analysis. Dergelijke programma’s concentreren zich op het tellen
Hoofdstuk 3: Bespreking applicatie
19
van woorden, de visualisatie van resultaten en eenvoudige statistische tests. Zogenaamde development environments vormen het tweede type. Deze programma’s zijn in staat om de ontwikkeling van woordenboeken, grammatica’s en andere gereedschappen voor tekstanalyse (gedeeltelijk) te automatiseren. Ze zijn vooral een hulpmiddel en verrichten zelf geen analyses. Het derde en laatste type is de annotation aids. Programma’s van dit type bieden onderzoekers de mogelijkheid om notities en referenties over analyses op te slaan, vooral van belang indien teksten handmatig worden onderzocht. Styx is een programma van het eerste type, dictionary-based content analysis. Hiermee behoort het tot dezelfde categorie als veelgebruikte toepassingen als TEXTPACK, VBPro, WordSmith en WordStat.2 Geen van deze applicaties richt zich echter op sentiment analysis. Sterker nog, er zijn nauwelijks applicaties die dat doen. Dit blijkt bijvoorbeeld uit (Lowe, 2002), waarin een inventarisatie van bestaande programmatuur wordt gegeven ― van klein tot groot en van freeware tot commercieel. Deze inventarisatie laat weliswaar zien dat de meeste applicaties functies bevatten die nuttig zijn voor sentiment analysis, maar ook dat slechts een enkeling zich ervoor in dienst stelt. Een specifieke focus is kennelijk ongewoon. Voor zover bekend zijn er twee applicaties die expliciet ondersteuning bieden voor het analyseren van sentiment: Diction en General Inquirer.3 Diction is een applicatie voor het vaststellen van de toon van teksten. Teksten worden doorzocht op het voorkomen van vijf semantische kenmerken (activity, optimism, certainty, realism en commonality) en 35 subkenmerken (zoals ambivalence, blame, passivity, familiarity en diversity). Aan deze indeling ligt een corpus van 10.000 woorden ten grondslag dat standaard bij de applicatie wordt geleverd. Gebruikers kunnen desgewenst eigen woordenlijsten toevoegen voor specifieke analyses. Een distinctive feature van Diction is de aanwezigheid van zogenaamde normatieve profielen. Deze profielen zijn door de makers vastgesteld na bestudering van teksten over onderwerpen als entertainment, literatuur en politiek. Gebruikers kunnen een profiel selecteren en de resultaten van hun eigen teksten ermee vergelijken. Diction genereert daarnaast overzichten en aggregaties van geanalyseerde teksten, in het bijzonder karakterfrequenties en veelvoorkomende woorden. De applicatie biedt verder mogelijkheden voor het aanpassen van de wijze waarop de scores van teksten worden berekend en een exportoptie naar SPSS voor statistische verwerking (Digitext, 2000). Diction is een commercieel product van Digitext, Inc. en kan alleen na aanschaf van een licentie verworven worden. Wel biedt Digitext
Hoofdstuk 3: Bespreking applicatie
20
een free trial van het product aan4, maar helaas betreft dit een oude versie met een interface ― en navenante gebruiksvriendelijkheid ― uit het Windows 3.1-tijdperk. Hierdoor is het niet mogelijk om een actuele hands-on-indruk van Diction te krijgen. De handleiding van de applicatie is wel vrij te downloaden en de daarin verwerkte schermafdrukken lichten een tipje van de sluier op.5 De oorsprong van General Inquirer dateert uit de jaren zestig van de vorige eeuw. Het is de nestor onder de geautomatiseerde toepassingen en heeft met het voortschrijden der tijd verschillende vormen gekend. Tegenwoordig is General Inquirer beschikbaar als stand-alone Javaprogramma en als server-based webapplicatie. De kernfunctionaliteit van de toepassing is echter onveranderd gebleven. General Inquirer is in staat om teksten te analyseren en de betrokken woorden in te delen in 182 mogelijke categorieën. Op deze manier wordt bijvoorbeeld inzichtelijk of teksten strong of weak zijn, of ze pleasure, pain, virtue of vice uitdrukken, of ze handelen over economie, krijgsmacht of politiek ― enzovoort. Belangrijk in deze is dat er twee algemene categorieën worden onderscheiden waarmee woorden als ‘positief’ of ‘negatief’ kunnen worden gekenmerkt. Een zeer waardevol instrument is daarnaast de disambiguatiecomponent van de toepassing, waardoor eventuele meerduidige invoer opgespoord en vatbaar gemaakt kan worden voor eenduidige verwerking (Stone, 2002). De interface van de Java-applicatie van General Inquirer is Spartaans maar rechtdoorzee. Dit geldt eveneens voor de geboden functionaliteit; veel meer dan het selecteren van in- en uitvoerbestanden is het niet. Verder dient de gebruiker zelf de handschoen op te nemen om de (rauwe) resultaten van de applicatie te verwerken en inzichtelijk te maken; enige vorm van visualisatie ontbreekt kortom. General Inquirer is exclusief beschikbaar voor onderwijs- en wetenschappelijke doeleinden en alleen op aanvraag verkrijgbaar bij de makers. De broncode van de applicatie is niet toegankelijk. De staat van General Inquirer is voorts enigszins diffuus. De ter beschikking gestelde applicatie en handleiding stammen uit december 2001, de “last extensive revision” van de website vond plaats in september 2002 en het bijbehorende weblog verwelkomde z’n laatste bijdrage in juni 2004.6
Karakteristieken van Styx In de navolgende secties worden de karakteristieken van Styx besproken. Allereerst wordt ontvouwd op welke manier gebruikers een eigen corpus kunnen samenstellen aan de hand van de applicatie. Aansluitend wordt
Hoofdstuk 3: Bespreking applicatie
21
stilgestaan bij de mogelijkheden voor en implicaties van het analyseren van dit corpus. Tot besluit worden de implementatie-technische details van Styx benoemd. Samenstellen van een corpus
Styx is een generieke en contextonafhankelijke toepassing wier voedingsbodem wordt gevormd door een corpus met teksten. De samenstelling van dit corpus ligt in handen van de gebruikers; zij kunnen eigenmachtig teksten toevoegen, bewerken en verwijderen. De applicatie is niet gebonden aan een bepaald type tekst en kan in principe elke Engelstalige invoer verwerken. Er is wel een praktische nuance. In het licht van de doelstelling van de scriptie staat het analyseren van documenten met volwaardige zinsstructuren centraal. In dit kader is Styx getest met artikelen en (transcripties van) toespraken. Andersoortige teksten, zoals dialogen of vrije invoer als consumentenrecensies, zijn geen onderwerp van analyse geweest. Voor de compilatie van een corpus kan Styx tekst-, HTML-, XML- en PDF-documenten lezen en verwerken. Met deze typen accepteert de applicatie grosso modo de meest waarschijnlijke bestanden als invoer. Hieraan is wel de implicatie verbonden dat alle teksten een bronbestand hebben ― met andere woorden: handmatige invoer door de gebruiker is niet mogelijk. Toe te voegen bestanden kunnen afkomstig zijn van een lokale computer of van internet. In het eerste geval kan de gebruiker een locatie op zijn bestandssysteem selecteren. In het tweede geval dient de gebruiker een URL naar een webpagina in te voeren. Na het specificeren van een bestand wordt diens inhoud ingelezen en voorbewerkt. Het doel van voorbewerking is om overtollige gegevens te verwijderen en de pure tekst van het bestand te vergaren. De mate van voorbewerking is afhankelijk van het bestandstype. Zo worden HTMLen PDF-documenten ontdaan van afbeeldingen en opmaakkenmerken als lettertypes en kleurdefinities. Daarnaast worden de zogenaamde entities in HTML- en XML-bestanden vertaald naar hun corresponderende karakters. Entities zijn gecodeerde representaties van complexe of gevoelige tekens; het woord “résumé”, bijvoorbeeld, wordt in HTML als “résumé” weergegeven. Tevens worden alle bestanden genormaliseerd door overbodige witruimte te verwijderen: tabs worden vervangen door spaties, opeenvolgende spaties teruggebracht tot één, en drie of meer witregels gereduceerd tot twee. Voorbewerking vindt plaats op een best effort-basis. Styx garandeert niet dat alle overtollige gegevens verwijderd zullen zijn. De conditie van de invoer is hier debet aan en mismatches doen zich
Hoofdstuk 3: Bespreking applicatie
22
voornamelijk voor bij HTML-bestanden met discutabele broncode. Na de automatische reiniging wordt de gebruiker daarom de gelegenheid geboden om handmatig wijzigingen aan te brengen in de tekst. Met de afronding van deze fase is de tekst gereed voor opslag. Maar in tegenstelling tot verwante applicaties als Diction of General Inquirer, vraagt Styx de gebruiker eerst om metadata aan de tekst toe te voegen: de titel, auteur, jaar van publicatie en eventuele opmerkingen. Met deze gegevens kan een tekst eenvoudiger herkend en uniek geïdentificeerd worden in het corpus. Ter ondersteuning biedt Styx een voorziening waarmee gebruikers de namen van auteurs eenmalig kunnen opslaan. Tijdens het toevoegen van metadata kan de gewenste auteur daardoor uit een voorgedefinieerde lijst worden gekozen. Hiermee wordt redundante toevoer vermeden en consistente invoer gegarandeerd. Aan de inzet van metadata kleeft ook een nadeel: het is niet mogelijk om meerdere teksten gelijktijdig toe te voegen aan het corpus. Ter vergelijk: met TextSTAT7 kan een gebruiker verschillende bestanden selecteren en met één handeling en masse importeren. Styx ondersteunt dit niet; elke tekst moet voorzien zijn van metadata alvorens de volgende tekst verwerkt kan worden. Met het invoeren van metadata kan de tekst worden opgeslagen. Dat gebeurt in HSQLDB, het relationele databasemanagementsysteem van Styx.8 Dergelijk gebruik van een database is een noviteit onder content analysis-toepassingen, waar teksten veelal als afzonderlijke bestanden worden bewaard in een bepaalde map. Deze benadering was voor Styx niet praktisch. Ter illustratie: Styx presenteert alle opgeslagen teksten in een sorteerbaar overzicht aan de gebruiker. Dit overzicht kan met één aanroep gegenereerd worden vanuit één databasebestand. Het componeren van hetzelfde overzicht binnen de traditionele benadering zou ondoenlijk zijn. In dat geval dienen er evenzoveel bestanden te worden geopend als er teksten zijn opgeslagen ― met alle capaciteitsproblemen van dien. HSQLDB is een embedded database. De database opereert niet autonoom, zoals gebruikelijk, maar wordt exclusief bestuurd door Styx. Voor deze implementatie is om twee redenen gekozen. Ten eerste uit gebruiksvriendelijkheid. HSQLDB wordt geïnitieerd en geconfigureerd door Styx, waardoor de gebruiker niet belast wordt met deze taken. Idealiter merkt de gebruiker zelfs niets van het bestaan van de database. Ten tweede omdat Styx geen mission-critical applicatie met duizenden records is. Het aanwenden van grootschalige opslagsystemen als Oracle of MySQL is daarom niet nodig en zelfs ongewenst. Na het samenstellen van een corpus is Styx voorbereid op de volgende stap: het formuleren van analyses.
Hoofdstuk 3: Bespreking applicatie
23
Formuleren van analyses
Thematische analyse van het corpus is een kernfunctie van Styx. Hiertoe dient de gebruiker het gewenste analysethema te bepalen en af te bakenen. Het resultaat van deze bespiegeling kan aansluitend vertaald worden naar parameters. De parameters definiëren de zoektermen, tijdseenheden en auteurs die betrekking hebben op het thema. Het vaststellen van de parameters van een analyse geschiedt in vijf, hierna genoemde stappen. De gebruiker kan deze stappen middels een step-bystep wizard doorlopen. De eerste stap is het opgeven van een titel. Aan de hand van de titel kan een analyse uniek geïdentificeerd worden. Styx legt de gebruiker geen beperkingen op ten aanzien van de inhoud van de titel, ofschoon een descriptieve benaming wordt aanbevolen. Stap twee betreft het formuleren van zoektermen die het analysethema in woorden vatten. In de praktijk zullen de termen veelal synoniemen zijn of termen die binnen een bepaalde context als zodanig beschouwd kunnen worden. Ter illustratie: in zijn toespraak Cuba and the Nazi-Fascism heeft (Castro, 2003) het over zowel “America”, de “United States” als de “U.S.”, verschillende vormen met dezelfde betekenis. Tegelijkertijd verwijst Castro frequent naar “President Bush”. Afhankelijk van het analysethema kan deze samenstelling als synoniem worden gezien van voornoemde termen en als zoekterm worden meegenomen. Deze inzet van zoektermen onthult echter ook een kardinaal punt: de relatieve complexiteit van het stileren van de relevante termen uit de teksten. Een toespraak als die van Castro is goed te ontleden, maar het inspecteren van een heel corpus met toespraken is geen sinecure. (Miller, 1994) constateert dan ook: “The effort to find meaningful terms and their synonyms can consume an enormous amount of time”. Om dit proces te vergemakkelijken distilleert het programma VBPro9 woordfrequentielijsten uit het corpus. Betekenisvolle termen kunnen zo eenvoudiger worden geselecteerd. Styx kent een dergelijk hulpmiddel niet; gebruikers dienen de selectie van zoektermen zelf ter hand te nemen. In bepaalde situaties is het sec gebruik van zoektermen ontoereikend. De term “revolution”, bijvoorbeeld, komt in de toespraak van Castro vijftien keer voor, maar verschijnt daarnaast ook in variaties als “revolutionary” en “revolutionaries”. Dit kan ongewenst zijn. Om in deze situaties te voorzien ondersteunt Styx reguliere expressies. Een reguliere expressie is een krachtig gereedschap om conditionele tekenreeksen in een tekst te vinden. Op deze manier kan “revolution” vertaald worden als “revolution\b”. De \b zorgt ervoor dat het woord
Hoofdstuk 3: Bespreking applicatie
24
alleen meegeteld wordt indien het wordt gevolgd door een word boundary, zoals een spatie. De genoemde variaties worden hierdoor genegeerd. Een ander voorbeeld: de zoekterm “America\b” komt in de toespraak vijf keer voor. Uit de tekst blijkt echter dat de term in twee gevallen voorafgegaan wordt door “Latin”. Als de gebruiker alleen geïnteresseerd is in verwijzingen naar de Verenigde Staten, biedt een expressie als “(?
Hoofdstuk 3: Bespreking applicatie
25
binnen de gekozen publicatieinterval. De gebruiker kan in dit overzicht aangeven welke auteurs al dan niet geanalyseerd dienen te worden. Deze stap biedt een verfijning van de analysecriteria en maakt het mogelijk om auteurs voorwaardelijk te vergelijken. De vijfde en laatste stap toont een overzicht van de teksten die voldoen aan de voorgaande criteria en is primair een verificatieinstrument om het resultaat van de selecties te aanschouwen. In aanvulling daarop kan de gebruiker desgewenst aangeven dat bepaalde teksten, om welke reden ook, niet in beschouwing moeten worden genomen voor analyse. Met het doorlopen van de stappen zijn de parameters van een analyse geformuleerd. Styx verzorgt aansluitend de opslag van de analyse in de database en kan op deze manier een onbeperkt aantal analyses bewaren. Toegevoegde analyses worden middels een lijstweergave ontsloten, waardoor gebruikers individuele analyses eenvoudig kunnen zien, bewerken en uitvoeren. Hoewel deze functionaliteit triviaal lijkt, is de achterliggende gedachte dat niet. Doordat de applicatie, en niet de gebruiker, verantwoordelijk is voor de opslag van de gegevens, kan Styx instaan voor stabiliteit. De applicatie garandeert dat de ingevoerde gegevens onveranderlijk zijn en derhalve consequent dezelfde resultaten opleveren. Hiermee passeert de applicatie mogelijke problemen die zich tijdens het codificeren van analyses kunnen voordoen (zie hoofdstuk 2). Na het formuleren van analyses is Styx voorbereid op de volgende stap: het analyseren van het corpus. Analyseren van het corpus
Het corpus kan geanalyseerd worden door één van de toegevoegde analyses uit te voeren. Voor een gegeven thema, vervat in de zoektermen, wordt aansluitend inzichtelijk gemaakt of er positief of negatief naar gerefereerd wordt en in welke context dat gebeurt. Tot dit doel verzamelt Styx alle teksten die door de gebruiker zijn geselecteerd voor analyse. Deze teksten worden één voor één ontleed. Dit proces begint met het splitsen van de inhoud van een tekst in zinnen, de primaire unit of analysis van de applicatie. Styx detecteert zinseinden met inachtneming van uitzonderingen als afkortingen (“U.S.”, “Dr.”) en numerieke waardes (“12.45”). In aanvulling daarop is Styx in staat om een aantal syntactische onregelmatigheden te verschalken om tot een robuust resultaat te komen. Na splitsing probeert Styx de zoektermen te lokaliseren door elke zin individueel te inspecteren. Om solide aggregaties te kunnen vergaren,
Hoofdstuk 3: Bespreking applicatie
26
worden alle tokens van de zoektermen geteld. Woorden hebben in dit stadium dan ook de plaats van zinnen ingenomen als unit of analysis. Dat verandert weer bij de volgende stap, het extraheren van de analysecontexten. Een analysecontext bestaat uit de zin waarin één of meerdere zoektermen zijn aangetroffen én diens voor- en nakomende zinnen. Dit is een vorm van proximity analysis, waarbij een window wordt gehanteerd waarbinnen zinnen moeten voorkomen om relevant te worden geacht voor verdere ontleding (zie ook hoofdstuk 2). De zinnen bevatten periferische gegevens die mogelijk gerelateerd zijn aan de zoektermen en een rijker beeld kunnen geven van het verband waarin de termen zich voordoen. Het aantal te extraheren zinnen staat bij een standaardconfiguratie van Styx op drie, maar kan desgewenst aangepast worden door de gebruiker. Dit betekent dat van elke zin waarin ten minste één zoekterm voorkomt, de drie voorliggende en de drie achterliggende zinnen worden gepakt. In totaal bestaat een willekeurige analysecontext hierdoor uit zeven zinnen, de onderhavige zin incluis. Wel zijn hierop twee uitzonderingen van toepassing. De eerste uitzondering doet zich voor als een zoekterm wordt gevonden in een zin die aan het begin of einde van de tekst in kwestie grenst. In deze gevallen worden er nul, één of twee voorliggende, respectievelijk achterliggende zinnen meegenomen in plaats van de gebruikelijke drie. De tweede uitzondering openbaart zich als een zoekterm voorkomt in een zin die tot het window van de voorgaande analysecontext behoort. Dergelijke overlapping van contexten dient tijdig verholpen te worden, om te voorkomen dat dezelfde zinnen meerdere malen worden geëxtraheerd en de resultaten verstoren. De consequentie hiervan is dat een overlappende analysecontext nul, één of twee voorliggende zinnen kan bevatten.11 Het inkorten van analysecontexten heeft overigens geen nadelige invloed op het verdere verloop van de analyse. Met het extraheren van de analysecontexten is Styx gereed voor de sleuteloperatie van de applicatie, het achterhalen van polaire termen. Hiertoe ontleedt Styx elke context door de betrokken zinnen in woorden te splitsen. Van elk woord wordt aansluitend diens semantische oriëntatie vastgesteld en overeenkomstig ingedeeld in de categorie ‘positief’ of ‘negatief’. Dankzij deze antonimische indeling wordt voldaan aan de eis van uitputtendheid der categorieën, zoals gesignaleerd in hoofdstuk 2. Daarnaast garandeert Styx dat de categorieën exclusief zijn; polaire termen zijn onwrikbaar vast en kunnen niet zowel positief als negatief beschouwd worden. Toch is er wel een nuance. Om de omvang van de scriptie beheersbaar te houden, verricht Styx geen taalkundige analyses tijdens
Hoofdstuk 3: Bespreking applicatie
27
het opsporen van polaire termen. Hierdoor kan het bijvoorbeeld gebeuren dat negaties in een zin genegeerd worden en polaire termen onterecht als positief of negatief worden gemarkeerd. Ter illustratie: in zijn eerder genoemde toespraak refereert Castro op een gegeven moment aan paus Johannes Paulus II met de zin “He knows perfectly well that this is not a problem between Cubans”. Deze woorden hebben een positief karakter, totdat Styx “problem” tegenkomt en als negatief registreert. Deze handeling vindt rücksichtslos plaats, want nalezing toont aan dat het woord voorafgegaan wordt door een negatie. Oftewel, wat voor Styx een “problem” lijkt, is binnen de context bedoeld als “not a problem”. De applicatie is echter niet geprepareerd voor dergelijke verfijnde beschouwing. Desondanks kunnen soortgelijke zinnen ook een andere wending krijgen. Zo bezigt Castro eveneens de woorden “We do not want the blood of Cubans and Americans to be shed in a war”. Deze zin bevat (gemakshalve) twee negatieve termen, “bloodshed” en “war”, die door Styx dan ook als zodanig geregistreerd worden. Maar de zin bevat tevens een ontkenning: Castro wenst geen bloedvergieten. Styx ziet deze nuancering over het hoofd. Toch bevestigt dit geen omissie van de applicatie. Iemand die expressieve termen als ‘bloedvergieten’ en ‘oorlog’ in de mond neemt, doet dat niet omdat hij weet dat ze geneutraliseerd worden door een voorafgaand ‘geen’. In dit geval weet Styx middels rechtdoorzee-analyse retoriek te vatten die bij linguïstische ontleding wellicht verloren was gegaan. Voor het signaleren van de positieve en negatieve termen maakt Styx gebruik van de woordenlijst van General Inquirer.12 De woordenlijst kent een lange geschiedenis en kan in zijn soort als de facto standaard worden beschouwd. De lijst omvat 11.788 termen, waarvan er 1.633 positief en 1.993 negatief zijn.13 Met behulp van een extractieroutine zijn de polaire woorden uit de lijst gefilterd en geschikt gemaakt voor opslag in de database van Styx. Tijdens de initiële start van de applicatie worden deze woorden automatisch in de database van Styx geïmporteerd en vervolgens aangewend bij elke analyse die de gebruiker uitvoert. De woorden zijn echter niet statisch. De applicatie is voorzien van een faciliteit waarmee gebruikers zelfstandig woorden kunnen toevoegen, bewerken of verwijderen. Dit is met name relevant voor teksten met polaire woorden die niet hun conventionele oriëntatie hebben. Het woord “revolution”, bijvoorbeeld, wordt door General Inquirer als negatief gezien. Maar in de toespraak van Castro is revolutie ― en dan bij voorkeur gespeld met hoofdletter ‘R’ ― juist positief bedoeld. Om te voorkomen dat de toespraak door dit verschil een negatieve lading krijgt, kan het wenselijk
Hoofdstuk 3: Bespreking applicatie
28
zijn om “revolution” positief te bezien of te verwijderen en de woordenlijst overeenkomstig aan te passen. Behalve voor het inventariseren van polaire woorden, gebruikt Styx de analysecontexten voor het vergaren van contexttermen. Deze termen geven een resumé van een context en een indruk van het kader waarbinnen de polaire woorden gebezigd worden. Een voorbeeld: het positieve “protection” wordt door Castro gebruikt, maar heeft als geïsoleerd woord geen meerwaarde. Het woord kan in allerhande verbanden worden aangewend, van gezondheidsbescherming tot landsverdediging. Door de omgeving van het woord te betrekken, wordt een descriptieve dimensie toegevoegd en de betekenis onthuld: “environmental protection”. Voor het vergaren van de contexttermen bedient Styx zich van een part-of-speech-tagger, een werktuig voor het vaststellen van grammaticale functies. De tagger kent aan elk woord in een zin een tag toe die diens vermoedelijke functie aanduidt. De zin “In no other people has the spirit of international solidarity become so deeply rooted.” resulteert zo in de zin “In/IN no/DT other/JJ people/NNS has/VBZ the/DT spirit/NN of/IN international/JJ solidarity/NN become/VBN so/RB deeply/RB rooted./VB”.14 De resultaten van de tagger worden door Styx opgevangen en verwerkt. Zoals geconstateerd in hoofdstuk 2 wijzen een beperkt aantal grammaticale functies op betekenisvolle termen. Dientengevolge extraheert Styx alle adjectieven en substantieven uit de analysecontexten; in voornoemde zin betreft dat de woorden die voorzien zijn van de tags /JJ, /NN en /NNS. Daarnaast gaat de applicatie een stap verder door termsequenties zo veel mogelijk intact te laten. Ter illustratie: “international” en “solidarity” verschijnen in de zin naast elkaar. Als combinatie zijn ze veelzeggender dan als gescheiden gedaantes. Om dit descriptieve karakter te behouden worden beide woorden als één contextterm bewaard. Om deze reden extraheert Styx ook voorzetsels, als tag aangeduid met /IN. In de voorbeeldzin wordt het hierdoor mogelijk om het zelfstandig naamwoord “spirit” te verbinden met “international solidarity”. Ook deze samenvoeging ― “spirit of international solidarity” ― zegt meer over het verband waarin de woorden voorkomen dan als ze afzonderlijk worden beschouwd. Gelijktijdig met de mogelijkheden van tagging arriveren ook enkele beperkingen. Zo kan vooral het aantal contexttermen dat geëxtraheerd wordt aanzienlijk zijn en de samenvattende gesteldheid ervan vertroebelen. De oorzaak hiervan ligt deels in de door de gebruiker gedefinieerde omvang van de analysecontexten. Door te experimenteren met deze parameter kan een balans worden gevonden tussen kwantiteit
Hoofdstuk 3: Bespreking applicatie
29
en kwaliteit van de extractie. Ook speelt het type invoer een rol. Styx is ontwikkeld voor het analyseren van artikelen en toespraken. Door de bank genomen hebben dergelijke teksten een inhoudelijk of retorisch karakter en worden er relatief veel substantieven toegepast. Tevens kunnen de teksten, en toespraken in het bijzonder, de nodige uitweidingen bevatten die het aantal woorden per zin doen vermeerderen. Een andere beperking is dat niet elke contextterm toegevoegde waarde heeft. Ter illustratie: de zoekterm “Cuba\b” produceert in de toespraak van Castro contexten als “such acts” en “evergreater degree”. De bijdrage van deze combinaties aan een beter begrip van de zoekterm is dubieus; tegelijkertijd is Styx niet voorzien van een functie waarmee dergelijke termen gewogen en gefilterd kunnen worden. Daarnaast zijn er contexten die mogelijk relevant zijn, maar waarvan de ziel door het taggen is ontnomen. Voorbeelden hiervan zijn “hopes of progress on luck” en “defenseless humanity ten times”. Door de woordvolgorde in de achterliggende zinnen heeft de applicatie afzonderlijke termen onterecht samengevoegd en tot termsequentie bestempeld.15 Voor het taggen van zinnen gebruikt Styx de Log-linear part-ofspeech-tagger van de Natural Language Processing Group van Stanford University.16 Aan deze keuze liggen verschillende redenen ten grondslag, de correctheid van de resultaten voorop. De tagger behaalt een accuratesse van 97,24% per woord en 56,34% per zin. “This is the best automatically learned part-of-speech tagging result known to us”, aldus de ontwikkelaars (Toutanova, 2003). Een ander sterk punt van de tagger betreft de technische implementatie. De tagger is ontwikkeld met de programmeertaal Java, wat tevens de grondslag van Styx is (waarover dadelijk meer). Hierdoor is een communicatieproces tussen beide applicaties eenvoudig tot stand te brengen. In deze context pleit de actualiteit van de tagger ook in zijn voordeel ― in tegenstelling tot andere Java-implementaties17 brengen de ontwikkelaars met enige regelmaat nieuwe versies van het programma uit en ondersteunt de tagger hedendaagse edities van de Java Runtime Environment, de omgeving waarbinnen de applicaties draaien. Tot besluit kan de tagger kosteloos gebruikt worden voor niet-commerciële doeleinden. Geheel volmaakt is de tagger echter niet: het is een notoire veelgebruiker van random access memory van de computer. Bij een standaardinstallatie blokkeert de tagger regelmatig als gevolg van geheugentekort. Dit slaat helaas ook terug op Styx. Tijdens het opstarten wijzigt Styx daarom uit voorzorg de standaardomvang van het aan de applicatie toebedeelde geheugen; hierdoor kan er maximaal 192 MB geconsumeerd worden in plaats van de gebruikelijke 64 MB.18
Hoofdstuk 3: Bespreking applicatie
30
Na het taggen zijn alle stappen van het analyseproces doorlopen. Ter afronding presenteert Styx de resultaten van de analyse aan de gebruiker. De resultaten kunnen in geaggregeerde vorm en in detail bekeken worden, zowel voor afzonderlijke teksten als voor de totaaluitkomsten. Bij elke geanalyseerde tekst worden vier tabellen getoond. De eerste tabel bevat de gevonden zoektermen en hun frequenties. Het primaire doel hiervan is om te visualiseren welke termen effect hebben gesorteerd en welke niet. Op basis hiervan kan de gebruiker de termen corrigeren en de analyse opnieuw uitvoeren. Daarnaast toont de tabel de verschillende vormen waarin de zoektermen aangetroffen zijn. Dit is met name interessant indien er reguliere expressies zijn ingezet. Een term als “America(\w+)?\b”, bijvoorbeeld, levert in de toespraak van Castro drie vormen op: “America”, “American” en “Americans”. De tweede en derde tabel openbaren de positieve, respectievelijk negatieve woorden die zijn gesignaleerd in de omgeving van de zoektermen. De woorden brengen de omvang van het polaire vocabulaire van de auteur aan het licht en trachten duidelijk te maken welke houding de auteur aanneemt ten aanzien van de zoektermen. De vierde en laatste tabel toont de contexttermen die voorkomen rond de zoektermen en probeert duidelijkheid te verschaffen over het verband waarin de termen zijn aangewend. Naast de tabellen wordt bij de resultaten tevens de integrale inhoud van elke tekst weergegeven. Op deze manier kan de gebruiker de bronbestanden nalezen, de resultaten met de inhoud verbinden en eventuele verbeteringen opsporen. Ter bevordering van het leesgemak zijn de teksten vervat in een rich text display en de toepasselijke zoektermen en polaire woorden van herkenbare kleuren voorzien.19 Implementatie
Styx is geïmplementeerd met de programmeertaal Java. Sun Microsystems, de peetvader van de taal, heeft Java de mantra “write once, run anywhere” toebedeeld.20 Dat is geen onbezonnen belijdenis; Java wordt gekenmerkt door een hoge mate van platformonafhankelijkheid. Hierdoor kan Styx op vrijwel elk besturingssysteem draaien waarop een zogenaamde Java Virtual Machine geïnstalleerd kan worden ― waaronder, maar niet beperkt tot, de hedendaagse Windows-varianten, Mac OS X en diverse Linux-distributies. Styx maakt daarnaast gebruik van SWT, de Standard Widget Toolkit.21 SWT verzorgt de grafische schil van de applicatie en heeft als primair voordeel dat het zich automatisch conformeert aan het uiterlijk van het besturingssysteem waarop het draait.
Hoofdstuk 3: Bespreking applicatie
31
Java en SWT zijn een programmer’s delight, maar ook een rationele keuze. Dankzij deze werktuigen is Styx een breed toegankelijk onderzoeksinstrument dat eenvoudig bediend kan worden. Hierin zit ook een meerwaarde van de applicatie vervat ten opzichte van bestaande toepassingen. Ter illustratie: VBPro heeft zijn wortels in vergane DOSera’s, General Inquirer vraagt onpraktische gebruikersinvoer voor het parsen van bestandsnamen, TextSTAT gebruikt een niet-conventionele interface en vrijwel alle applicaties zijn volgens (Lowe, 2002) alleen geschikt voor Windows. Met een herkenbare look-and-feel en een hoog black box-gehalte om allerhande details af te schermen, tracht Styx laagdrempelig en gebruiksvriendelijk te zijn. Styx is te downloaden via http://styx.escina.nl/. Voor Windowsgebruikers is de applicatie verpakt in een installatieprogramma. Mac- en Linux-adepten kunnen het ZIP-bestand aanwenden. De broncode van de applicatie, te omvangrijk om als bijlage aan de scriptie toe te voegen, is eveneens beschikbaar in een ZIP-bestand en kan voor elk platform gedownload worden. In dit hoofdstuk zijn de mogelijkheden en implicaties van Styx besproken. In het volgende hoofdstuk wordt de applicatie gebruikt voor een experimentele toepassing: het samenstellen van een corpus met toespraken van Amerikaanse presidenten.
1
http://www.pantheon.org/articles/s/styx_river.html en http://nl.wikipedia.org/wiki/Styx_(mythologie)
2
Voor een overzicht van bestaande applicaties zie http://academic.csuohio.edu/kneuendorf/content/cpuca/ccap.htm 3 Er zijn meerdere applicaties voor sentiment analysis, alleen niet met de gewenste contextonafhankelijke focus. Ze zijn bijvoorbeeld voor een specifiek onderzoek of specifieke teksten ontwikkeld en daarmee niet generiek inzetbaar noch zonder meer te verkrijgen (zie onder meer de sectie “Onderzoek en ontwikkelingen” in hoofdstuk 2). Overigens bezigen noch Diction, noch General Inquirer de term “sentiment analysis”. Het in hoofdstuk 2 opgemerkte gebrek aan uniteit in definities en terminologieën zal hieraan ten grondslag liggen. 4 http://www.dictionsoftware.com/files/dictdemo.exe 5 Opvallend is dat de handleiding een copyright uit 2000 bevat en de schermafdrukken pre-Windows XP zijn. Dit suggereert dat de ontwikkeling van de applicatie stil ligt. 6 Genoemde data zijn laatstelijk gecontroleerd op 9 februari 2007. Het weblog is te benaderen via http://blogs.law.harvard.edu/inquirer/ . De reactiepanelen zijn voorzien van spam, wat de afwezigheid van een moderator of überhaupt serieuze bezoekers impliceert. 7 http://www.niederlandistik.fu-berlin.de/textstat/software-en.html 8 HSQLDB is een “Lightweight 100% Java SQL Database Engine” (http://www.hsqldb.org/). HSQLDB is klein, krachtig, stabiel en open source. Styx gebruikt versie 1.8.0.4.
Hoofdstuk 3: Bespreking applicatie
32
Vergelijkbare alternatieven zijn Berkeley DB Java Edition (http://www.sleepycat.com/products/bdbje.html), Derby (http://db.apache.org/derby/) en One$DB (http://www.daffodildb.com/one-dollar-db.html). 9 http://mmmiller.com/vbpro/vbpro.html 10 Een aardige tutorial is te vinden op http://www.regular-expressions.info/tutorialcnt.html 11 In een uiterst geval kunnen beide uitzonderingen ook gezamenlijk voorkomen en kan het gebeuren dat een analysecontext uit nul zinnen bestaat. Deze context heeft geen voor- en nakomende zinnen en ook geen centrale zin met zoekterm. Deze situatie doet zich voor als de centrale zin de laatste zin van een tekst is en als het window van de voorgaande analysecontext de centrale zin reeds omvat. 12 De woordenlijst is te downloaden via http://www.wjh.harvard.edu/~inquirer/spreadsheet_guide.htm. De lijst is intellectueel eigendom maar vrijelijk te gebruiken en aan te passen voor niet-commerciële onderzoeksdoeleinden. Styx maakt gebruik van de Tab-delimited Basic Spreadsheet, versie 1.02, direct te benaderen via http://www.wjh.harvard.edu/~inquirer/inqtabs.txt. 13 Feitelijk omvat de lijst 1.915 positieve en 2.291 negatieve woorden. Bepaalde woorden komen echter meerdere keren voor. Deze woorden hebben meer dan één betekenis en moeten door General Inquirer als zodanig herkend kunnen worden om in aanmerking te komen voor disambiguatie. Edoch, omdat dergelijke taalkundige analyses niet door Styx gearrangeerd worden, is het niet relevant om identieke verschijningen te registreren. Daarenboven zijn er zestien woorden die, afhankelijk van hun context, zowel positief als negatief zijn (“arrest”, “board”, “deal”, “even”, “fine”, “fun”, “hand”, “help”, “hit”, “laugh”, “make”, “matter”, “mind”, “order”, “particular” en “pass”). Ook voor deze niet-exclusieve indeling is binnen Styx geen ruimte. Tot heil van de applicatie hebben de makers van General Inquirer bij deze woorden vermeld wat hun dominante semantische oriëntatie is. De woorden zijn op basis hiervan handmatig toegekend aan één van beide categorieën. Overigens heeft de term “board” volgens General Inquirer geen beslissende voorkeur voor een positieve of negatieve context. De term is daarom at random toegekend aan de lijst met positieve woorden ($> perl -e "print int(rand() + .5) ? 'p' : 'n';"). 14 De tags volgen de notatie van de Penn Treebank Tag Set (http://www.cis.upenn.edu/~treebank/). Voor een overzicht van de betekenis van de tags zie http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html. 15 De achterliggende zinnen luiden: “Lottery and other forms of gambling have been banned since the first years of the Revolution to ensure that no one pins their hopes of progress on luck” en “We wonder how many have recognized, denounced and condemned the policy announced in the speeches by Mr. Bush that I have quoted, which reveal a sinister Nazi-fascist international policy on the part of the leader of the country with the most powerful military force ever imagined, whose weapons could destroy the defenseless humanity ten times over”. 16 De tagger, zowel in binaire vorm als de broncode, kan gedownload worden via http://nlp.stanford.edu/software/tagger.shtml. Styx gebruikt versie 2006-01-10. 17 Andere implementaties zijn QTag (http://www.english.bham.ac.uk/staff/omason/software/qtag.html), MXPOST (http://www.cogsci.ed.ac.uk/~jamesc/taggers/MXPOST.html) en MontyLingua (http://web.media.mit.edu/~hugo/montylingua/index.html). 18 Dit is van toepassing op de Windows-versie van Styx. De kale, binaire distributie van Styx komt echter zonder opstartbestand die het geheugen voordefinieert. Aanhangers van andere besturingssystemen dienen het geheugenbeheer van de applicatie dan ook zelf ter hand te nemen door de applicatie via de command line aan te roepen:
Hoofdstuk 3: Bespreking applicatie
33
$> java -Xmx192M –Djava.library.path=./lib/ -jar Styx.jar
De applicatie waarschuwt tijdig indien het toebedeelde geheugen ontoereikend is. 19 De inkleuringen van de rich text display hoeven niet overeen te komen met de gegevens in de tabellen. Een zoekterm kan bijvoorbeeld een polair woord bevatten, maar tegelijkertijd kan één term niet twee kleuren krijgen. In dergelijke conflictsituaties prefereert Styx de zoekterm en kleurt deze als zodanig in. Om deze reden zouden er geen tellingen moeten plaatsvinden of conclusies moeten worden getrokken op basis van deze weergave. 20 http://en.wikipedia.org/wiki/Write_once,_run_anywhere 21 http://www.eclipse.org/swt/
Hoofdstuk 3: Bespreking applicatie
34
Hoofdstuk 4:
Opzet experiment HET KAN VERKEREN. Tijdens de Amerikaanse verkiezingscampagne van 1996 presenteerde senator Bob Dole, de Republikeinse uitdager, zichzelf als “the most optimistic man in America”. Een respectabele bewering, maar ook een onweerstaanbare inkopper voor de Democraten. Mogelijk doorzag vice-president Al Gore de luchtledigheid van de proclamatie van Dole toen hij hem van repliek diende met de woorden “If he’s the most optimistic man in America, I’d hate to see the pessimists”.1 Ook (Hart, 2000: 34) laat in zijn beschouwing van de verkiezingsstrijd weinig heel van Dole. De senator “ran a campaign as plain as his name” en bezigde het minst optimistische taalgebruik van alle Republikeinen sinds 1964. De conclusie: “his speech was a disaster area”. In dit hoofdstuk wordt het experiment van de scriptie besproken. Het doel van het experiment is om de betrouwbaarheid en bruikbaarheid van Styx te onderzoeken. Bovenstaand voorbeeld laat zien dat toespraken van Amerikaanse politici hiervoor als invoer gebruikt kunnen worden. Hoewel het experiment geen conventioneel historisch onderzoek betreft, zijn de redevoeringen interessant studiemateriaal en kunnen ze navenante resultaten opleveren. Om tot een concrete analyse van dit materiaal te komen, is het corpus afgebakend tot toespraken van de belangrijkste spelers in de Amerikaanse politiek: de presidenten. De rode draad van het experiment is ‘Rusland’, het centrale analysethema.2 De kernvraag van de onderzoeking is of Styx in staat is om duidelijk te maken of presidenten positief of negatief over dit thema spreken en in welke context zij dat doen. Ter voorbereiding wordt in de navolgende secties eerder onderzoek naar presidentiële toespraken aangestipt, de
Hoofdstuk 4: Opzet experiment
35
inhoud van het corpus besproken en de onderzoeksvragen en zoektermen geformuleerd.
Eerder onderzoek Studies over de Amerikaanse politiek zijn manifestaties van waarachtige oneindigheid. Zo constateert (Hart, 2000: 6) dat de analyse van verkiezingscampagnes “a cottage industry” is geworden. Elke vier jaar wordt de National Science Foundation bestookt met nieuwe aanvragen voor stipendia (“and this agency has been generous with its funds”). Daarnaast bestaan er talloze tijdschriften die zich ― soms al bijna een eeuw ― wijden aan de Amerikaanse politiek in de breedste zin van het woord; van rechtsgeleerdheid naar bestuur & beleid tot psychologie.3 Indien het onderzoeksgebied het rechtvaardigt, worden er zelfs speciale instituten voor opgericht (zoals het Center for the Study of the Presidency) en specifieke publicaties voor uitgegeven (zoals de Presidential Studies Quarterly). Toch is dit niet vreemd. In een land waar iedere president sinds Herbert Hoover (1929) een eigen bibliotheek heeft (“to preserve the documents and artifacts of our Presidents”4), is het onderzoeksmateriaal niet bepaald ontoegankelijk. De keerzijde is dat elke inventarisatie van eerder onderzoek, zelfs van een specifiek onderdeel, hierdoor per definitie incompleet zal zijn. En daarmee ook deze. De aanstaande bespreking is dan ook primair bedoeld om recente ontwikkelingen omtrent presidentiële toespraken aan te stippen. De retoriek van Amerikaanse presidenten is met behulp van General Inquirer onderzocht door (Lim, 2002). Voor het onderzoek zijn alle inaugurele redes en State of the Union-boodschappen tussen 1789 en 2000 in beschouwing genomen. Uit de analyse blijkt dat er een scherp onderscheid bestaat tussen presidenten van voor en na 1900: het taalgebruik van na de eeuwwisseling is anti-intellectueel, abstract, assertief, democratisch en conversationeel. Zo gebruiken presidenten weinig cognitieve en causale formuleringen meer en hanteren ze in afnemende mate juridische termen. Tegelijkertijd is de retoriek informeler geworden. Opmerkelijk genoeg gaat deze gemeenzaamheid gepaard met talloze verwijzingen naar religieuze, poëtische en idealistische abstracties. Woorden als “God” en “dream”, bijvoorbeeld, worden in de twintigste eeuw aanzienlijk meer gebezigd dan daarvoor. Het taalgebruik is daarnaast assertiever van aard. Woorden die duiden op onzekerheid (“if”, “fate”) zijn afgenomen of verdwenen en vervangen door een actiever vocabulaire waaruit (zelf-) vertrouwen spreekt (“competition”, “reform”, “begin”). Ook zijn de toespraken mensgerichter
Hoofdstuk 4: Opzet experiment
36
geworden. Termen als “republic”, “citizen” en “duty” kennen een significante afname, terwijl referenties naar “democracy”, “leader” en “people” dramatisch zijn toegenomen. Tot besluit toont het onderzoek aan dat de retoriek “a certain chattiness” heeft gekregen. Presidenten richten zich vaker tot hun publiek met woorden als “you”, “I”, “we” en vertellen anekdotes over bijzondere burgers. (Richardson, 2003) heeft de continuïteit en variaties in de inaugurele redes van presidenten onderzocht. Hiertoe zijn alle toespraken van George Washington tot en met George W. Bush geanalyseerd met het in hoofdstuk 3 geafficheerde programma Diction. In het onderzoek is met name stilgestaan bij het politieke tijdperk waarin de presidenten het ambt bekleedden. De resultaten tonen aan dat presidenten hun retoriek afstemmen op de mate waarin zij de huidige politieke klasse steunen of bestrijden, en of deze klasse kwetsbaar of veerkrachtig is. Ter illustratie: presidenten die weerstrevende politici tegenover zich vinden, hanteren in mindere mate de taal van uitsluiting of ontzegging. Daarnaast bezigen ze vaker constitutionele bewoordingen, “an effort to grant legitimacy to their oppositional stance”. Een ander voorbeeld: presidenten die het Witte Huis van de andere partij hebben overgenomen, spreken vaker de taal der verandering en verwoorden meer kritiek en ontbering. Ook zijn hun toespraken langer en zetten ze hun presidentiële thema’s ruimer uiteen dan presidenten wier partij het Witte Huis heeft behouden. Over het geheel genomen constateert het onderzoek dat de inhoud van de inaugurele redes door de jaren heen minder optimistisch en tegelijkertijd meer realistisch is geworden. Het doel en de karakteristieken van wartime rhetoric zijn onderzocht door (Tarosky, 2003). Voor het onderzoek zijn de belangrijkste toespraken van de presidenten Lincoln (Burgeroorlog), Wilson (Eerste Wereldoorlog), Roosevelt (Tweede Wereldoorlog) en Bush (war on terror) geanalyseerd. Hieruit blijkt dat alle toespraken drie gemeenschappelijke kenmerken hebben. Het eerste kenmerk is de morele rechtvaardiging van oorlog. Alle presidenten appelleren aan een “greater good” en beperken oorlog zelden tot een nationale aangelegenheid. Amerikaans optreden is noodzakelijk “to keep the world safe for democracy”. Het tweede kenmerk is de historische significantie van de onderhavige crisis. De presidenten benadrukken de uniekheid van de situatie en de betrokken generatie. In de woorden van Bush: “Our nation―this generation―will lift a dark threat of violence from our people and our future”. Het derde en laatste kenmerk betreft de karakterisering van de vijand. Presidenten maken een onderscheid tussen de leiders en de inwoners van de vijandige natie. Wilson, bijvoorbeeld, onderstreept de twist met de Duitse overheid door te zeggen: “We are, let me say again, the sincere friends of
Hoofdstuk 4: Opzet experiment
37
the German people”. De reden waarom de genoemde kenmerken zich consistent manifesteren, wordt volgens Tarosky ingegeven door de socio-politieke functie van woorden. Woorden als “freedom”, “rights” en “equality” zijn symbolen van de Amerikaanse doctrine en maken het mogelijk om ten tijde van crisis een gevoel van eenheid te kweken. Want zoals het onderzoek besluit: “words speak louder than actions”. (Slatcher, 2007) heeft onderzoek gedaan naar de linguïstische stijl van de presidentskandidaten van de verkiezingen van 2004, George Bush en John Kerry, en hun vice-presidentskandidaten, Dick Cheney en John Edwards. De stijl van de kandidaten is onderzocht aan de hand van zes kenmerken: cognitive complexity, femininity, depression, age, presidentiality en honesty. Bij elk kenmerk hoort specifiek taalgebruik. Een feminien vocabulaire, bijvoorbeeld, kent veel positieve emoties en verwijzingen naar anderen maar bevat weinig negaties en vloekwoorden. Tegelijkertijd onderscheidt een presidentiële woordenschat zich door grote aantallen voorzetsels, positieve emoties en big words (woorden met zes letters en meer). Voor het onderzoek zijn 271 transcripties van televisie-interviews, persconferenties en debatten als invoer gebruikt en geanalyseerd met een text analysis-programma. Hieruit blijkt onder meer dat de taal van Bush plain-spoken en vergelijkbaar met dat van een oudere is. Kerry valt op omdat zijn stijl overeenkomsten vertoont met een depressieveling. Verder drukt Cheney zich complex en presidentieel uit, terwijl de stijl van Edwards feminien is; beiden scoren evenwel goed op eerlijkheid. Uit bovenstaande onderzoeken kunnen twee observaties afgeleid worden. Ten eerste onthullen ze enkele implicaties van het corpus die van invloed kunnen zijn op de resultaten van het experiment. De onderzoeken laten zien dat het taalgebruik van presidenten ― en daarmee de inhoud van de toespraken ― niet sec bepaald wordt door ontwikkelingen in tijd. Het taalgebruik blijkt ook afhankelijk van de persoonlijkheid, leeftijd en de voorganger van de president, evenals van de politieke bijval die hij krijgt en eventuele crisissen die spelen ten tijde van het presidentschap. De tweede observatie is dat geen van de onderzoeken zich concentreert op het analysethema van het experiment, Rusland. De reden hiervoor is prozaïsch: er zijn geen analyses gevonden die dit thema als uitgangspunt hebben genomen. Dit kan enerzijds duiden op de uniekheid van het thema en anderzijds op een restrictieve ontsluiting van de relevante literatuur. In het licht van de eerdere constatering dat er onnoemelijk veel onderzoeksinspanningen zijn, lijkt de tweede suggestie aannemelijker. Dit verandert het experiment echter niet. Dat is spijtig, aangezien het primaire doel van het experiment het evalueren van Styx is,
Hoofdstuk 4: Opzet experiment
38
niet de beantwoording van historische onderzoeksvragen. De evaluatie had waarschijnlijk kunnen profiteren van analyses die zich daar wél onvoorwaardelijk op zouden hebben gericht.
Bespreking corpus Tijdens hun ambtstermijn vervaardigen presidenten duizenden documenten, van beknopt tot omvangrijk en van triviaal tot legendarisch. Desondanks bestaat het corpus van het experiment uit een bescheiden selectie toespraken. Hiervoor is gekozen omdat toespraken begrensd worden door tijd en doelgroep en doorgaans een aanzienlijke invloed hebben op media en publiek. Presidenten worden hierdoor gedwongen om de belangrijkste gebeurtenissen van het moment in klare taal te presenteren. Het lijkt dan ook redelijk te veronderstellen dat als een boodschap niet wordt uitgedragen in een toespraak, het betreffende onderwerp geen of weinig betekenis heeft voor de president of het volk. Het corpus van het experiment bestaat uit 94 toespraken5 van twaalf Amerikaanse presidenten, uitgesproken over een periode van 62 jaar. De eerste toespraak is de State of the Union uit 1942 van Franklin Roosevelt. In deze rede wordt Rusland voor het eerst sinds jaren en op niet-incidentele wijze aangehaald door een president.6 Daarnaast is 1942 het jaar waarin Amerika, na de Japanse aanval op Pearl Harbor en de oorlogsverklaringen door Duitsland en Italië in december 1941, formeel gaat deelnemen aan de Tweede Wereldoorlog. Hiermee is het een jaartal van betekenis. De laatste toespraak is de State of the Union uit 2004 van George Bush. Dit jaartal markeert de afsluiting van de eerste termijn van zijn presidentschap. Op het moment van schrijven is dit de laatste volgemaakte term of office van een president en daarmee een coherent eindpunt. Bovendien maakt dit eindpunt het mogelijk om de periode na de Koude Oorlog in het experiment te betrekken en zo mogelijke veranderingen in ontwikkelingen te signaleren. Een overzicht van alle toespraken in het corpus is als bijlage 1 opgenomen. Typen toespraken
Het corpus omvat vijf typen toespraken. Het eerste type betreft de Inaugural Address, de rede die iedere president bij zijn inauguratie uitspreekt.7 Deze redes zijn opgenomen omdat ze een prominente rol spelen in de Amerikaanse geschiedenis en politiek (Richardson, 2003). Ze bieden “a fairly unique insight into the fundamental orientation of each president toward their political environment” en zijn “perhaps the most enduring single rhetorical legacy” van de presidenten.8
Hoofdstuk 4: Opzet experiment
39
Het tweede type toespraak is de State of the Union, de toespraak die de president één keer per jaar houdt ten overstaan van het congres.9 De rede “stands as the only occasion of presidential rhetoric that is prescribed by the Constitution” (Lim, 2002) en is in dat opzicht uniek. Toch verbindt de grondwet geen bijzondere voorwaarden aan de toespraak, ook niet qua vorm of inhoud. Om toch enig houvast te bieden, stelt het Witte Huis dat de State of the Union “a backdrop for national unity” is die de president de mogelijkheid geeft om terug te kijken naar het verleden “while presenting his hopes for the future to Congress, the American people and the world”.10 Hoewel State of the Union-boodschappen een obligaat karakter hebben en zich volgens (Lim, 2002) bekommeren om “duller matters of day-to-day governance”, zijn ze onontbeerlijk voor het waarnemen van trends. Het derde type toespraak betreft de zogenaamde Administration Goals. Deze toespraken zijn een betrekkelijke noviteit en door de laatste drie presidenten direct na hun inauguratie voor het congres gehouden. Ze hebben een plek in het corpus verworven omdat hun impact vergelijkbaar is met de State of the Union-boodschappen en zelfs als zodanig gecategoriseerd kunnen worden (Peters, 2005). Het vierde type is de Farewell Address, de peroratie waarin enkele reflectieve woorden van de president zijn vervat. In tegenstelling tot de hiervoor genoemde redes, wordt een Farewell Address exclusief tot het Amerikaanse publiek ― “My fellow Americans” ― gericht. De redes zijn, met de woorden van Eisenhower (1961), “a message of leave-taking and farewell”, maar ook bedoeld om “a few final thoughts” te delen.11 Om deze laatste reden zijn de toespraken verwerkt in het corpus. Hoewel slotredes geen traditie zijn en weinig presidenten er gebruik van hebben gemaakt12, kunnen ze een indicatie geven van de, in de ogen van de president, primaire gebeurtenissen van het tijdperk. Het vijfde en laatste type betreft toespraken met een historische significantie, hetzij qua inhoud, hetzij qua aanleiding. Hiervoor is gebruik gemaakt van de Top 100 American speeches of the 20th century13, samengesteld onder auspiciën van de Universiteit van Wisconsin-Madison. In totaal zijn er acht toespraken uit deze lijst opgenomen in het corpus. Deze toespraken zijn na 1942 en tijdens de ambtsperiode van de presidenten gehouden.14 Daarnaast bevatten ze ten minste twee verwijzingen naar het thema Rusland. Voorbeelden zijn de “Atoms for Peace”-oratie van Eisenhower (1953) en “The Evil Empire”-speech van Reagan (1983). Bronnen en wijzigingen
Voor het samenstellen van het corpus is gebruik gemaakt van twee project-websites, From Revolution to Reconstruction15 van George Welling, Rijksuniversiteit Groningen en The American Presidency16 van Gerhard
Hoofdstuk 4: Opzet experiment
40
Peters, Universiteit van Californië. De eerste is beperkter in aanbod maar toegankelijk in gebruik; de tweede is veelomvattend maar minder goed ontsloten. De website American Rhetoric17 van Michael Eidenmuller, Universiteit van Texas, is gebruikt voor het achterhalen van enkele toespraken die niet of gedeeltelijk voorhanden waren op de genoemde sites. In bijlage 1 staat bij elke toespraak vermeld welke bron is benut. Alle toespraken in het corpus zijn één voor één opgeslagen in Styx, volgens de in hoofdstuk 3 beschreven procedure. Tijdens dit proces zijn de teksten voorbewerkt door de applicatie. In aanvulling daarop zijn er een aantal handmatige wijzigingen in de teksten aangebracht: • Redactionele intro’s en outro’s zijn verwijderd. Voorbeelden hiervan zijn opmerkingen als “[ Released January 21, 1946. Dated January 14, 1946 ]” en “NOTE: The President spoke at the John M. Reeves Athletic Field on the campus of American University after being awarded an honorary degree of doctor of laws”. • Woorden die het gedrag van toeschouwers in de zaal duiden zijn geschrapt. Voorbeelden: “(Laugther)”, “[Applause]”, “(Moment of silent prayer.)” en “[At this point, the President paused to acknowledge applause from the audience. He then resumed speaking.]”. • Redactionele correcties of verduidelijkingen zijn gehandhaafd en volwaardig opgenomen. Ter illustratie: in de zinsnede “I am submitting Clean Air [Act] amendments” is het woord “[Act]” vervangen door “Act”. Een ander voorbeeld betreft versprekingen, zoals “It’s fragile; it needs production [protection]”. Het woord “production” is verwijderd en vervangen door “protection”. • Puntkomma’s in lange opsommingen zijn vervangen door punten. Hierdoor interpreteert Styx elk onderdeel van een opsomming als een aparte, behapbare zin; van belang voor de in hoofdstuk 3 opgemerkte extractie van analysecontexten. • Aandachtsstrepen zonder omliggende spaties zijn voorzien van tussenruimte. Hiermee wordt voorkomen dat Styx de strepen als koppeltekens ziet en woorden onterecht als samenstelling verwerkt. In een fragment als “(…) in which the people of America created - and filled - 19 million new jobs” zijn de woorden “created” en “19” hierdoor niet langer verbonden met de tussenzin. • Sectietitels in schriftelijke State of the Union-boodschapen zijn verwijderd, zoals “I. ENSURING ECONOMIC STRENGTH” en “Housing”. Dergelijke titels tellen als één zin, maar zijn veelal te kort om van waarde te zijn voor een analysecontext. De woorden in de titels komen evenwel vaak terug in de bijbehorende tekst, waardoor ze alsnog aangewend kunnen worden door Styx.
Hoofdstuk 4: Opzet experiment
41
•
President Nixon heeft zijn State of the Union van 1973 schriftelijk en in zes delen gepresenteerd (“a single, all-embracing State of the Union Message would not appear to be adequate”18). Deze aanpak is echter niet praktisch voor het experiment en belemmert een totaalanalyse van de tekst. Om deze reden zijn de delen samengevoegd tot één integrale boodschap.
Styx is voorzien van een functie om het corpus met toespraken en masse in de applicatie te importeren. Hierdoor kan het experiment meerdere keren en met identieke gegevens uitgevoerd worden, desgewenst op verschillende computers.
Onderzoeksvragen en zoektermen Het thema van het experiment is Rusland. Voor dit thema is gekozen omdat het land in de afgelopen decennia, en in het bijzonder tijdens de Koude Oorlog, een machts- en nieuwsfactor van betekenis is geweest. Rusland heeft de tweede helft van de twintigste eeuw gedeeltelijk gedefinieerd en daarmee de Amerikaanse politiek beïnvloed. De veronderstelling is dat Rusland een overeenkomstige weerslag heeft gehad op Amerikaanse presidenten en dit tot uiting zal komen in hun toespraken. Het experiment probeert dit te verifiëren en antwoorden te geven op de volgende onderzoeksvragen: 1. Hoe vaak en binnen welke contexten wordt er naar Rusland verwezen? 2. Welke trends zijn er zichtbaar in de polaire woorden die naar Rusland verwijzen en welke positieve en negatieve woorden worden hiervoor gebruikt? 3. Komen de verwijzingen naar Rusland en de gesignaleerde contexttermen en polaire woorden overeen met historische gebeurtenissen? Ter voorbereiding op het experiment zijn alle toespraken in het corpus handmatig bestudeerd en de karakteristieken van verwijzingen naar Rusland genoteerd. De relevante verwijzingen zijn aansluitend vertaald naar vijf zoektermen en als analyse opgeslagen in Styx. Deze termen worden hieronder besproken. De eerste zoekterm is “Russia(\w+)?”. De essentie van deze term is “Russia”, de informele naam voor Rusland. De toevoeging van de expressie “(\w+)?” maakt het mogelijk afleidingen van de term te vinden. Dit levert twee variaties op: “Russian” en “Russians”. De eerste
Hoofdstuk 4: Opzet experiment
42
variatie verschijnt in combinaties als “Russian people” en “Russian missile”, maar ook als “Russian Federation”, de huidige officiële naam van het land. De tweede variatie verwijst naar de inwoners van het land en komt voor in contexten als “(…) we and the British and the Russians will hit them from the air heavily and relentlessly”. De tweede zoekterm is “Soviet(\w+)?” en probeert de verwijzingen naar de federatie van Sovjetrepublieken te vatten. De term levert twee variaties op: “Soviet” en “Soviets”. De eerste variatie komt voor in combinaties als “Soviet regime” en “Soviet-dominated”. De tweede variatie verwijst naar de inwoners van de federatie. Merk op dat de benamingen “Soviet Union” en “Union of Soviet Socialist Republics” geen onderdeel van de zoekterm zijn. Hiervoor is gekozen omdat beide namen het woord “Soviet” bevatten en dit woord wél door de zoekterm wordt gedekt; toevoeging van de volledige benamingen zou de zoekterm onnodig complex maken. De derde zoekterm betreft de afkorting van de Sovjet-Unie, “U\.?S\.?S\.?R\.?”. Deze term weet de twee meest voorkomende types te vatten, “USSR” en “U.S.S.R.”. De vierde zoekterm is “Kremlin”. Hoewel verschillende Russische steden hun eigen kremlin hebben, slaat het woord meestal op de regeringszetel in Moskou. Deze betekenis heeft het woord ook in het corpus, maar wordt daarin consequent vergezeld door verwijzingen naar de leiding van de Sovjet-Unie ― zoals “the masters of the Kremlin” en “the rulers in the Kremlin”. Daarnaast wordt het woord gebruikt als synoniem van de Sovjet-Unie, bijvoorbeeld in contexten als “the underground agents of the Kremlin” en “subversion by the Kremlin”. Het woord is als zoekterm opgenomen omdat alle verwijzingen naar het Kremlin uiteindelijk zijn terug te voeren tot het land of haar leiders (er zijn bijvoorbeeld geen zinnen als “We stopped near the Kremlin walls”). De vijfde en laatste zoekterm bevat de namen van leiders van de Sovjet-Unie of Rusland die in het corpus voorkomen: “(Stalin| Khrushchev|Brezhnev|Gorbachev|Yeltsin)\b”. De namen zijn opgenomen omdat de leiders de menselijke verschijningen en representanten van het land zijn. Een voorbeeld hiervan is Reagan’s exclamatie “Mr. Gorbachev, tear down this wall!”, waarbij Gorbatsjov wordt neergezet als de personificatie van de Sovjet-Unie. De redenering achter de zoekterm is dat wanneer een algemene term als “Soviet rulers” meetelt in het experiment, het redelijk lijkt dat voor een specifieke term als “General Secretary Brezhnev” hetzelfde geldt. Net zoals de toespraken kunnen de zoektermen met één handeling geïmporteerd worden in Styx. Daardoor zijn de termen niet
Hoofdstuk 4: Opzet experiment
43
afhankelijk van handmatige invoer van de gebruiker en kan het experiment consequent gereproduceerd worden. In contrast met bovenstaande termen zijn er twee zoektermen gediskwalificeerd op grond van meerduidigheid.19 Ten eerste is dit “Moscow”. In het corpus wordt de term gebruikt als synoniem voor de (leiding van de) Sovjet-Unie, zoals in de zin “This is the glass through which Moscow and Peiping look out upon the world”. Echter, in tegenstelling tot het vergelijkbare “Kremlin” wordt Moskou ook herhaaldelijk aangewend in een niet-symbolische context: “the highly successful American Exhibition in Moscow” en “Moscow’s main shopping area”. Deze ambiguïteit maakt de term ongeschikt als zoekterm. De tweede zoekterm, “[Cc]ommunis(\w+)?”, kampt met hetzelfde probleem. De zoekterm vindt drie variaties: “communism”, “communist” en “communists”. Alle variaties kunnen betrekking hebben op de Sovjet-Unie, zoals in de zin “The "cold war" between the communists and the free world is nothing more or less than the Soviet attempt to checkmate and defeat our peaceful purpose”. Tegelijkertijd komt de term ook voor in relatie tot landen als China en Vietnam of als abstractie (“That false philosophy is communism”). Door de wisselende toepassingsmogelijkheden is de term geen adequate zoekterm. Deze woorden besluiten de opzet van het experiment. In het volgende hoofdstuk wordt het experiment gebruikt voor het evalueren van de betrouwbaarheid van Styx.
1
http://www.pbs.org/newshour/convention96/floor_speeches/gore_8-28.html Omwille van de leesbaarheid wordt met ‘Rusland’ alle verschillende en voor het corpus relevante staatsvormen en benamingen van het land bedoeld. 3 Zoals American Politics Research (http://www.sagepub.com/ journalsProdDesc.nav?prodId=Journal20089), The American Journal of Political Science (http://www.utdallas.edu/dept/socsci/ajps/) en The American Political Science Review (http://www.jstor.org/journals/00030554.html). Helaas stellen dergelijke tijdschriften hun artikelen veelal niet, beperkt of alleen tegen betaling beschikbaar. 4 http://www.archives.gov/presidential-libraries/about/ 5 Bepaalde documenten in het corpus zijn schriftelijk verstrekt. Dit geldt in het bijzonder voor enkele State of the Union-boodschappen. In de woorden van (Peters, 2005): “A seemingly well-established misconception found even in some academic literature, is that the State of the Union is an orally delivered message presented to a joint session of Congress”. Het merendeel van de documenten is evenwel door middel van gesproken woord gepresenteerd en omwille van de leesbaarheid wordt de term ‘toespraak’ ook gebruikt voor schriftelijke uitingen. 6 De tot dan toe laatste verwijzing stamt uit 1930 (http://www.presidency.ucsb.edu/ws/index.php?pid=22458). 2
Hoofdstuk 4: Opzet experiment
44
7
Tenzij de president de opvolger is van een president die is afgetreden of al dan niet op natuurlijke wijze is gestorven. Van de presidenten die zijn opgenomen in het corpus, heeft alleen Ford (1974) geen inaugurele rede gehouden. Daarnaast hebben Truman (1945) en Johnson (1963) geen rede uitgesproken na hun initiële installatie, maar wel na hun beider herverkiezing (Peters, 2005). 8 Overigens kan niet iedereen de redes waarderen. (Lim, 2002) citeert de woorden van een criticus: “[T]he inaugural address is an inferior art form. It is rarely an occasion for original thought or stimulating reflection. The platitude quotient tends to be high, the rhetoric stately and selfserving, the ritual obsessive, and the surprises few”. 9 De State of the Union-boodschappen van Truman (in 1946 en 1953), Eisenhower (in 1961), Nixon (in 1973) en Carter (in 1981) zijn schriftelijk ter beschikking gesteld. Daarnaast zijn de redes van Roosevelt (in 1945) en Eisenhower (in 1956) in geschreven vorm aangeleverd, maar hebben beide presidenten via radio een samenvatting gegeven (Peters, 2005). 10 http://www.whitehouse.gov/stateoftheunion/history.html 11 http://www.let.rug.nl/usa/P/de34/speeches/farew.htm 12 In het corpus zijn de Farewell Addresses van Truman (1953), Eisenhower (1961), Carter (1981), Reagan (1989) en Clinton (2001) opgenomen. Daarnaast is de “Resignation Speech” van Nixon (1974) ook onder deze categorie geschaard. Hoewel de toespraak niet te boek staat als Farewell Address, kan deze wel worden beschouwd als een contemplatieve slotrede. 13 Zie http://www.news.wisc.edu/misc/speeches/. Het bijbehorende persbericht is te bereiken via http://www.news.wisc.edu/releases/3504.html 14 Nixon (in 1952) en Reagan (in 1964) hebben voorafgaand aan hun presidentschap al toespraken van belang gehouden. 15 http://odur.let.rug.nl/~usa/ 16 http://www.presidency.ucsb.edu/ 17 http://www.americanrhetoric.com/ 18 http://www.presidency.ucsb.edu/ws/index.php?pid=3996 19 De applicatie is niet uitgerust met een disambiguatiecomponent (zie hoofdstuk 3). Het accepteren van ambigue zoektermen zou derhalve tot aanvechtbare resultaten geleid hebben. Daarnaast zouden dergelijke termen de aanstaande evaluatie hebben bemoeilijkt: bij elke analysecontext zou de evaluators gevraagd moeten worden of de zoekterm überhaupt betrekking heeft op het analysethema. Zo’n beoordeling valt buiten het bereik van de doelstellingen van de scriptie.
Hoofdstuk 4: Opzet experiment
45
Hoofdstuk 5:
Evaluatie OP DE VRAAG WAT hij van critici vindt, antwoordde de vooraanstaande Californische wijnmaker Robert Mondavi: “[T]he problem is they often imply that their view or evaluation of a wine is the only one, and I disagree”.1 Dit citaat laat in een notendop enkele implicaties van het evalueren van producten zien ― en is daarmee ook van toepassing op Styx. In dit hoofdstuk komen de voorgaande besprekingen van applicatie en experiment samen en wordt het resultaat van deze convergentie geëvalueerd. Het primaire doel van de evaluatie is het vaststellen van de betrouwbaarheid van Styx. Met andere woorden: hoe goed is de applicatie in het presenteren van de juiste gegevens? De betrouwbaarheid van deze gegevens kan bepaald worden door een vergelijking te maken met andere resultaten. Idealiter zijn deze resultaten een gold standard of het product van een eerder onderzoek. Geen van beide zijn echter beschikbaar voor de evaluatie van Styx. Daarom wordt de betrouwbaarheid van de applicatie vastgesteld door de uitkomsten af te meten tegen die van menselijke evaluators. Het secundaire doel van de evaluatie komt voort uit de inzet van deze evaluators en betreft de uniformiteit van de beoordeling. Oftewel: hoe objectief zijn de oordelen van de evaluators over de betrouwbaarheid van Styx? Een dergelijke vraagstelling is noodzakelijk om de deugdelijkheid van de evaluatiemethodiek te kunnen aanschouwen en uitspraken over de betrouwbaarheid in het juiste perspectief te kunnen plaatsen. In de navolgende secties wordt uiteengezet hoe beantwoord gaat worden aan de doelstellingen. Allereerst worden de vragen en richtlijnen
Hoofdstuk 5: Evaluatie
46
weergegeven waarmee de evaluators het corpus kunnen beoordelen. Vervolgens wordt stilgestaan bij het evaluatieprogramma dat de evaluators gebruiken en aangegeven welke keuzes ten grondslag liggen aan de steekproef. Tot besluit worden de resultaten van de evaluatie gepresenteerd en geïnterpreteerd.
Evaluatievragen en richtlijnen voor beantwoording De unit of analysis van Styx bestaat in dit stadium van het onderzoek uit woorden. Deze woorden zijn het elementaire bestanddeel van de resultaten van de applicatie. Styx onderscheidt twee typen woorden en daarmee twee typen resultaten: polaire woorden en contexttermen. Beide typen worden onderworpen aan evaluatie. Hiertoe dienen de evaluators twee binaire vragen te beantwoorden voor elk woord dat door Styx gedestilleerd is. Ter bevordering van de eenduidigheid van dit proces, zijn er voor elke vraag een aantal richtlijnen geformuleerd waaraan de evaluators hun antwoorden kunnen toetsen. De richtlijnen zijn proefondervindelijk vastgesteld middels enkele pilot tests, met gebruikmaking van het in hoofdstuk 4 besproken corpus. In de navolgende bespreking van de vragen en richtlijnen worden voorbeeldzinnen uit dit corpus aangehaald, waar toepasselijk voorzien van zoektermen als “Russia” en “Soviet”. Voor polaire termen worden de volgende twee vragen voorgelegd: 1. Is de term gerelateerd aan (één van) de zoektermen?
Het doel van deze vraag is om de zogenaamde topicality van polaire termen te achterhalen en vast te stellen of een term on topic of off topic is. Deze vraag vloeit voort uit één van de uitgangspunten van Styx, zoals verwoord in hoofdstuk 3. Dit uitgangspunt stelt dat er een verwantschap moet bestaan tussen de polaire termen en het analysethema. Styx neemt aan dat dit voor alle gevonden termen het geval is. De evaluators wordt verzocht deze aanname te verifiëren met behulp van drie richtlijnen: a. Wordt de term in direct verband gebracht met een zoekterm? Rechtstreekse betrekkingen tussen termen zijn veelal te herkennen aan de aanwezigheid van voorzetsels, zoals in de zinsnede “the request of the United States (…) to negotiate with the Soviet Union”. Het voorzetsel “with” maakt duidelijk dat de polaire term “negotiate” verband houdt met de Sovjet-Unie. b. Behoort de term tot een onderwerp dat gerelateerd is aan een zoekterm? Deze richtlijn probeert de minder-directe betrekkingen tussen termen te vatten. Twee voorbeelden hiervan komen tot uiting in de zin “The
Hoofdstuk 5: Evaluatie
47
United States has made serious, fair, and far-reaching proposals to the Soviet Union, and this is a moment of rare opportunity for arms reduction”. Ten eerste duidt het bijvoeglijk naamwoord annex polair woord “fair” op een eigenschap van het zelfstandig naamwoord “proposals”, dat op zijn beurt weer is verbonden met “Soviet Union”. Ten tweede kan uit de zin opgemaakt worden dat “arms reduction” samenhangt met de Sovjet-Unie. Hierdoor kan de begeleidende polaire term “opportunity” ook als verwant worden gezien. c. Is de term toe te schrijven aan een zoekterm? In tegenstelling tot de hiervoor genoemde richtlijnen, is het bestaan van een relatie tussen termen niet altijd toereikend. Polaire termen kunnen alleen toegeschreven worden aan een zoekterm indien deze term de aanleiding of oorzaak van het voorkomen van de polaire termen is. Dit manifesteert zich bijvoorbeeld in de zin “The development of this ambitious conspiracy was marked by (…) the war against Russia in 1904”. Hoewel de zin weinig contextuele informatie prijsgeeft, blijkt dat Rusland niet wordt beschouwd als agressor. Om onterechte projecties te vermijden, mogen de polaire termen “conspiracy”, “war” en “against” derhalve niet met het land geassocieerd worden. 2. Is de term correct gecategoriseerd?
Deze vraag heeft ten doel om de semantiek van de polaire termen in ogenschouw te nemen. Positieve en negatieve termen mogen alleen als zodanig gecategoriseerd worden als uit de context van de zin blijkt dat hun betekenis correspondeert met hun feitelijke polariteit. Styx veronderstelt dat dit het geval is. De evaluators wordt gevraagd dit te controleren aan de hand van vijf richtlijnen. Deze controle is conditioneel en hoeft alleen verricht te worden als de evaluator de voorgaande vraag heeft bevestigd. a. Wordt de term gebruikt als polaire term? Het kan gebeuren dat Styx polaire termen vindt die dat bij nadere beschouwing niet blijken te zijn. Ter illustratie: in de zin “"Operation Just Cause" has achieved its objective” is “just” positief bedoeld, terwijl dezelfde term een geheel andere, niet-polaire betekenis heeft in de zinsnede “In these troubled years just past”. b. Wordt een positieve term positief gebruikt en een negatieve term negatief? Styx laat geen ruimte voor dubbelzinnigheid: elke term is hetzij positief, hetzij negatief. Toch is deze duiding niet altijd correct. Dit blijkt bijvoorbeeld uit de zin “The peoples of the earth face the future with grave uncertainty, composed almost equally of great hopes and great fears”. De term “great” heeft een overwegend positieve connotatie, zoals “great hopes”
Hoofdstuk 5: Evaluatie
48
laat zien. Tegelijkertijd toont “great fears” aan dat andere combinaties ook mogelijk zijn. c. Wordt de term niet omgedraaid in de zin? Er is sprake van omdraaiing als een polaire term een tegengestelde betekenis krijgt. Dit gebeurt bijvoorbeeld bij negaties, zoals in de zin “[T]he results demonstrated conclusively that the Soviet leaders are not yet willing to create the indispensable conditions for a secure and lasting peace”. De negatie in deze zin zorgt ervoor dat het positieve “willing” niet overeenkomstig beschouwd mag worden: de Sovjetleiders zijn niet bereidwillig. d. Wordt de term als gevolg van een eerdere omdraaiing terecht als positief of negatief geassocieerd met een zoekterm? Deze richtlijn vloeit voort uit de voorgaande en kan geïllustreerd worden met dezelfde voorbeeldzin. Uit de zin kan opgemaakt worden dat de term “peace” samenhangt met en toe te schrijven is aan de Sovjet-Unie. Dit is echter een conflicterende samenhang ― de Sovjetleiders zijn namelijk nog niet bereid tot vrede. “Peace” mag dan ook niet met het land geassocieerd worden. e. Wordt de term doelbewust gebezigd, ondanks verzachtende constructies in de zin? De ware betekenis van een term mag niet verloren gaan zelfs als de context van de term daartoe aanleiding geeft. Dit komt bijvoorbeeld tot uiting in de zin “[This] would result in the withdrawal of some Soviet forces, a re-opening of dialogue with the republics, and a move away from violence”. Deze zin ademt optimisme en ook het negatieve “violence” wordt in een positieve context gebruikt. Desondanks blijft deze term dusdanig veelzeggend dat deze niet positief beschouwd mag worden. Toch is deze richtlijn niet in alle gevallen van toepassing. Dit blijkt bijvoorbeeld uit de zin “In Northern Ireland, where Catholic and Protestant children now tell their parents, violence must never return”. In deze zin wordt “violence” gebruikt om naar een vroegere situatie te verwijzen die (gelukkig) voorbij is. Het doet dan ook geen recht aan de zin om het negatieve karakter van deze term te bevestigen. Voor contexttermen worden de volgende twee vragen voorgelegd: 3. Is de term gerelateerd aan (één van) de zoektermen?
Het doel van deze vraag is om de topicality van contexttermen te beoordelen. Contexttermen geven een indruk van het kader waarbinnen polaire termen gebruikt worden, maar vertroebelen de resultaten indien er geen verwantschap met de zoektermen is. De evaluators kunnen de door Styx vastgestelde verwantschap tegen het licht houden middels vijf richtlijnen.
Hoofdstuk 5: Evaluatie
49
a. Bevat de term een zoekterm? Contexttermen die een zoekterm bevatten, of zelfs geheel bestaan uit een zoekterm, zijn per definitie gerelateerd. Een zoekterm als “Soviet” laat dit zien in de context “Soviet military doctrine”. De woorden in deze context hebben direct betrekking op de zoekterm, ongeacht de verdere opbouw van de zin. b. Is de term eigendom, onderdeel of representant van een zoekterm? Deze richtlijn tracht alle contexttermen te vatten die hun oorsprong ontlenen aan het analysethema. Dit kan geïllustreerd worden met de zin “This new imperialism has powerful military forces”. De Sovjet-Unie wordt hierbij gezien als een imperialist die de beschikking heeft over een strijdmacht. Deze strijdmacht is een fabrikaat van het land en daardoor is “powerful military forces” gerelateerd aan de zoekterm. c. Is de term een persoon, organisatie of locatie die zich tot een zoekterm richt of waarmee een zoekterm zich bezighoudt? Indien er een zogenaamde named entity in de omgeving van een zoekterm voorkomt, is er een gerede kans dat beide gerelateerd zijn. Dit blijkt bijvoorbeeld uit de zin “(…) Russia by the legacy of communism, an economy in turmoil, a cruel and selfdefeating war in Chechnya”. Uit deze zin spreekt een relatie tussen zoekterm Rusland en contextterm Tsjetsjenië. d. Wordt de term in direct verband gebracht met een zoekterm? Met deze richtlijn kunnen de rechtstreekse betrekkingen tussen een zoekterm en een contextterm gevat worden. Net zoals bij richtlijn 1a het geval is, zijn deze betrekkingen onder meer te herkennen aan voorzetsels, zoals in de zin “Our policy toward the Soviet Union”. Het voorzetsel “toward” maakt duidelijk dat de contextterm “policy” verband houdt met de Sovjet-Unie. e. Behoort de term tot een onderwerp dat gerelateerd is aan een zoekterm? Gelijk aan richtlijn 1b wil deze richtlijn de minder-directe betrekkingen tussen termen opsporen. Een voorbeeld hiervan komt tot uiting in de zin “On the record has long stood the request of the United States (…) to negotiate with the Soviet Union the problems of a divided Germany”. Hieruit blijkt dat Duitsland inzet van onderhandeling is en dat de SovjetUnie daarbij een rol speelt. De begeleidende contextterm “problems” kan daardoor ook als gerelateerd worden gezien. 4. Is de term informatief?
Het aantal contexttermen dat gerelateerd is aan een zoekterm kan omvangrijk zijn, zeker indien de omvang van de analysecontext ― al dan niet met voor- en nakomende zinnen ― aanzienlijk is. Niet elke gerelateerde term is echter betekenisvol. Ter illustratie: in de zin “In this year 1974, we will be negotiating with the Soviet Union” heeft de contextterm “year” een relatie met de Sovjet-Unie; in dat jaar gaat er onderhandeld
Hoofdstuk 5: Evaluatie
50
worden. Echter, de term an sich is weinigzeggend. Daarom heeft deze vraag ten doel om de significantie van de termen te beoordelen. De evaluators kunnen dit doen middels twee richtlijnen. Net zoals bij vraag 2 is deze controle conditioneel en hoeft deze alleen verricht te worden als de evaluator vraag 3 positief heeft beantwoord. a. Is de term een naam van een persoon, organisatie, gebeurtenis of locatie? Contexttermen die een naam bevatten zijn veelal informatief van aard, zoals de term “fireside summit in Geneva” in de zin “It is my hope that our fireside summit in Geneva and Mr. Gorbachev’s upcoming visit to America can lead to a more stable relationship”. b. Is de term als zelfstandige eenheid veelzeggend in relatie tot een zoekterm? Informatieve contexttermen kunnen los van hun zin geassocieerd worden met een zoekterm. Ter vergelijk: termen als “treaty” en “soldiers” staan op een ‘natuurlijke manier’ in betrekking tot de Sovjet-Unie; met andere woorden: een betekenisvolle verwantschap is niet denkbeeldig. Dit gaat evenwel minder snel op voor termen als “table” en “decades”. Zonder verbindende schakels kan aan het informatieve karakter van deze termen getwijfeld worden.
Evaluatieprogramma Styx is voorzien van een programma waarmee de analyseresultaten geëvalueerd kunnen worden. Met dit programma kunnen de evaluators polaire woorden en contexttermen bestuderen en de hiervoor besproken evaluatievragen beantwoorden. Het programma is geïmplementeerd omdat Styx’ bestaande resultatenweergave, zoals besproken in hoofdstuk 3, hiervoor ontoereikend is. Deze weergave presenteert weliswaar de relevante aggregaties en voorziet de termen van herkenbare kleuren, maar vereist eveneens dat de evaluators de termen al lezend opsporen en hun antwoorden eigenhandig noteren. Deze benadering is niet gebruiksvriendelijk en werkt fouten in de hand. Het evaluatieprogramma lost deze beperkingen op. Het programma kan aangewend worden door in Styx een analyse te selecteren en een nieuwe evaluatie aan te maken. Vervolgens telt het programma alle zoektermen in de betrokken teksten. Op basis van deze telling wordt de gebruiker gevraagd de gewenste omvang van de evaluatie te bepalen. De gebruiker kan er hierbij voor kiezen om alle gevonden analysecontexten te evalueren of zich te beperken tot een deelverzameling. In het laatste geval kan handmatig een limiet worden aangegeven. Het programma trekt aansluitend een aselecte steekproef uit de populatie van analysecontexten. Deze steekproef vindt plaats op basis van toeval en laat de oorspronkelijke teksten buiten beschouwing: alle
Hoofdstuk 5: Evaluatie
51
contexten, ongeacht de tekst waartoe ze behoren, worden in één lijst verzameld en hebben daardoor een gelijke kans om geselecteerd te worden.2 3 Na het bepalen van de omvang van de evaluatie selecteert Styx de benodigde hoeveelheid analysecontexten. Deze contexten worden vervolgens integraal opgeslagen in een extern bestand. Dit bestand kan gedistribueerd worden onder de verschillende evaluators, zonder dat zij over het achterliggende corpus hoeven te beschikken. De evaluators kunnen het bestand aansluitend via Styx importeren. Daarop treedt de kernfunctie van het programma in werking: het presenteren van de te evalueren contexten. Tijdens deze presentatie wordt elke context één voor één aan de evaluator voorgelegd. De zinnen van de context worden in een rich text display getoond, waarbij de relevante termen zijn ingekleurd voor eenvoudige herkenning. De evaluator wordt verzocht om voor elk polair woord en elke contextterm de eerder besproken evaluatievragen te beantwoorden. Vervolgens wordt automatisch de volgende vraag gepresenteerd, een cyclus die zich herhaalt totdat alle vragen beantwoord zijn. Ter afronding presenteert Styx de resultaten aan de evaluator. Deze resultaten worden in geaggregeerde vorm weergegeven en vergelijken de antwoorden van Styx met die van de evaluator. De achterliggende aanname is dat de applicatie correct functioneert en elke evaluatievraag positief beantwoordt. Deze 100%-score wordt afgezet tegen die van de evaluator, wiens score het effectieve functioneren en daarmee de betrouwbaarheid van de applicatie representeert. Als deze score bijvoorbeeld 75% is, dan is de aanname van Styx in 25% van de gevallen onjuist geweest. Tot besluit kan de evaluator de analysecontexten en bijbehorende antwoorden opslaan in een commaseparated values-bestand (CSV). Dit bestand kan bijvoorbeeld met Excel geopend en gemanipuleerd worden. Daarnaast kan het worden gebruikt om de antwoorden van andere evaluators te vergelijken, zoals weldra zal blijken.
Steekproef en uitvoering evaluatie Met het bespreken van het evaluatieprogramma en bijbehorende vragen en richtlijnen zijn de instrumenten in kaart gebracht waarmee de betrouwbaarheid van Styx onderzocht kan worden. De volgende stap betreft het aanwenden van deze instrumenten voor de uitvoering van de evaluatie. Voorafgaand aan de evaluatie is een steekproef getrokken uit het corpus met toespraken van presidenten, volgens de in hoofdstuk 4
Hoofdstuk 5: Evaluatie
52
besproken opzet. Deze opzet gaat uit van ‘Rusland’ als centraal analysethema, waardoor alle analysecontexten zoektermen als “Russia”, “Soviet” of “Kremlin” bevatten. Op een totaal van 439 gevonden analysecontexten is een doorsnede van vijftig contexten ― ongeveer tien procent ― in de steekproef opgenomen. Elke context bestaat uit één zin. Hoewel Styx de mogelijkheid biedt om ook omliggende zinnen bij de contexten te betrekken, is ervoor gekozen om alleen zinnen te evalueren waarin ten minste één zoekterm gegarandeerd voorkomt. Deze keuze vereenvoudigt en concentreert de evaluatie: als de applicatie onbetrouwbaar blijkt bij één zin, is dit ook het geval bij meerdere zinnen. Daarnaast is het evalueren van meerdere zinnen een experiment op zich, bijvoorbeeld om de ‘meest ideale contextomvang’ te vinden. Een dergelijk doel overstijgt het vaststellen van de betrouwbaarheid en valt daardoor buiten het bereik van de scriptie. Bovengenoemde steekproef is op afzonderlijke momenten doorlopen door twee inhoudelijk-betrokken evaluators die beiden een rol hebben gespeeld bij het vaststellen van de evaluatievragen en richtlijnen. De resultaten worden hierna besproken.
Resultaten evaluatie De resultaten van de evaluatie zijn verkregen na het doorlopen van een aantal stappen. Allereerst zijn de eerder genoemde CSV-bestanden met de antwoorden van de evaluators verwerkt. Beide bestanden zijn geïmporteerd in Excel en samengevoegd tot parallelle lijsten. Met behulp van de sorteer- en filterroutines van Excel zijn de verschillende antwoorden aansluitend gegroepeerd en geteld. Deze groepering is gebaseerd op de vier evaluatievragen die onderscheiden worden: omdat de vragen op zichzelf staan dan wel voorwaardelijk beantwoord worden, is het niet mogelijk om de resultaten in één totaaluitkomst te vatten. Dientengevolge is voor elke vraag een afzonderlijk resultaat berekend. Dit proces van berekening is voor alle vragen evenwel gelijk: de antwoorden van de evaluators zijn gekwantificeerd en vertaald naar kruistabellen. Omwille van de leesbaarheid zijn deze gegevens overgeheveld naar bijlage 2. Hieronder worden de tabellen gebruikt voor het presenteren en bespreken van de betrouwbaarheid van de applicatie en van de objectiviteit van de oordelen van de evaluators. Uitkomsten betrouwbaarheid
De betrouwbaarheid van Styx, het leidmotief van de evaluatie, kan uitgerekend worden door het functioneren van de applicatie te vergelijken met de oordelen van de evaluators. Voor deze vergelijking
Hoofdstuk 5: Evaluatie
53
worden de instemmende, eensgezinde oordelen van de evaluators als uitgangspunt genomen. Met andere woorden: alleen de analysetermen die door beide evaluators bevestigd zijn tijdens de beantwoording van de evaluatievragen, duiden op de correctheid van Styx. Dit type oordelen kan afgeleid worden uit voornoemde kruistabellen en vertaald worden naar percentages door het aantal goedgekeurde termen te delen door het totale aantal termen. Dit levert de volgende tabel op: Evaluatievraag
Styx
Evaluators
Betrouwbaarheid
1. Polaire term gerelateerd?
127
80
63%
2. Polaire term correct gecategoriseerd?
127
51
40,2%
3. Contextterm gerelateerd?
283
212
74,9%
4. Contextterm informatief?
283
173
61,1%
Deze weergave laat zien dat de betrouwbaarheid van Styx wat betreft de vragen 1 en 3 vrij redelijk is; een meerderheid van de door de applicatie aangetroffen termen is door beide evaluators bekrachtigd. Bij de vragen 2 en 4 is deze betrouwbaarheid echter minder overtuigend. Beide vragen kunnen evenwel ook op een alternatieve manier worden berekend door de gerelateerde termen als noemer te nemen in plaats van het totale aantal termen. In geval van vraag 2 levert dit 63,8% op; van de 80 gerelateerde polaire termen zijn er 51 correct gecategoriseerd. Voor vraag 4 resulteert dit in 81,6%; van de 212 gerelateerde contexttermen zijn er 173 informatief. Deze benadering nuanceert het conditionele karakter van de vragen: strikt genomen zijn de termen bij deze vragen niet enkel op hun eigen merites beoordeeld, maar ook op hun afhankelijkheid van de andere vragen. De percentages in de tabel reflecteren daardoor uitsluitend de termen die achtereenvolgens zijn goedgekeurd door de evaluators. Kortom, een term kan als geïsoleerd voorkomen wel degelijk correct gecategoriseerd dan wel informatief zijn, maar in een conditionele context voortijdig zijn afgekeurd op grond van de vragen 1 of 3. Bespreking betrouwbaarheid
De geconstateerde betrouwbaarheid van Styx suggereert dat het functioneren van de applicatie op onderdelen tekortschiet. Deze sectie wil ontdekken waar en waarom het oordeel van de evaluators een andere richting heeft genomen. Deze afwijkingen zijn achterhaald door in de eerder ontworpen Excel-lijsten de termen te selecteren die door beide evaluators zijn afgekeurd. Dergelijke tweevoudige attesten zijn sterke aanwijzingen voor het disfunctioneren van Styx. Aan de hand van enkele
Hoofdstuk 5: Evaluatie
54
analysecontexten worden de afwijkingen hieronder per evaluatievraag uiteengezet.4 Bij evaluatievraag 1 is een duidelijk patroon zichtbaar, zoals met de volgende zin geïllustreerd kan worden: “Both are being held back today from reaching their full potential: Russia by the legacy of communism, an economy in turmoil, a cruel and self-defeating war in Chechnya; China by the illusion that it can buy stability at the expense of freedom”. De vier vetgedrukte polaire termen zijn niet gerelateerd aan zoekterm “Russia” maar aan China. Styx kan dit onderscheid tussen onderwerpen echter niet maken en kent alle polaire termen toe aan de zoekterm. Hetzelfde patroon manifesteert zich in andere zinsconstructies bij combinaties als “our allies” en “our ability”. In tegenstelling tot de evaluators ontbeert Styx de kennis van het corpus: de president is de spreker, waardoor polaire termen die in dergelijke combinaties voorkomen nooit zomaar toebehoren aan een zoekterm. De tweede evaluatievraag stelt vast of een polaire term correct gecategoriseerd is. Een eerste fout die Styx hierbij herhaaldelijk maakt blijkt uit de volgende zin: “For many months, the Soviets refused to bargain in earnestness”. Door het voorafgaande “refused to” worden de positieve termen omgedraaid en mogen ze niet met de Sovjet-Unie geassocieerd worden. De applicatie ziet dit soort constructies echter over het hoofd. Een tweede fout spreekt uit deze zin: “The U.S.-USSR environmental cooperation agreement which I signed in Moscow last year makes two of the world’s greatest industrial powers allies against pollution”. In deze zin ontgaat het Styx dat “against” op een ander onderwerp dan de Sovjet-Unie slaat en dat de connotatie van de zin eigenlijk positief is. Een derde en laatste fout komt minder frequent voor, maar wijst niettemin op een tekortkoming: “The potent new threat from an advancing Soviet Union, against the background of regional instability of which it can take advantage, requires that (…)”. Styx heeft “advantage” als positief bestempeld, terwijl uit de context blijkt dat de term behoort tot het (veelal negatieve) idioom “take advantage of”. Dergelijke woorden worden echter niet door de applicatie geregenereerd. Evaluatievraag 3 kampt met hetzelfde probleem als vraag 1: de applicatie weet geen onderscheid aan te brengen in onderwerpen. Dit openbaart zich in de volgende zin: “When it is remembered that our country has concentrated on the development of ballistic missiles for only about a third as long as the Soviets, these achievements show a rate of progress that speaks for itself”. De vier contexttermen hebben betrekking op de Verenigde Staten en zijn niet gerelateerd aan “Soviets”, zoals Styx meent. Dit soort dwalingen vindt vooral plaats in zinnen waar zoektermen een ondergeschikte rol spelen. Een andersoortige fout doet zich voor in een
Hoofdstuk 5: Evaluatie
55
zin als “For example, just one of our relatively invulnerable Poseidon submarines (…)”. Styx heeft verzuimd om “example” te verwerken en af te keuren als “for example”, een de facto ongebonden bijwoord. De vierde en laatste evaluatievraag beoordeelt de significantie van contexttermen. Styx maakt hier twee soorten fouten, zoals blijkt uit de volgende zin: “Only last Thursday, as evidence of this rapid offensive build-up was already in my hand, Soviet Foreign Minister Gromyko told me in my office that (…)”. De eerste fout betreft “last Thursday”, een contextterm zonder informatieve waarde. Soortgelijke tijdsaanduidingen komen veelvuldig voor in het corpus maar kunnen vrijwel zonder uitzondering gediskwalificeerd worden (vergelijk “today”, “year”, “years”, “many years”, “many months”). De tweede fout betreft “office”. Ook deze term is weinigzeggend in relatie tot de zoekterm. Desalniettemin kan Styx dergelijke termen niet zomaar afwijzen: de applicatie bevat geen functie waarmee de waarde van termen gewogen kan worden. Bovenstaande zinnen laten een aantal concrete verschillen tussen applicatie en evaluators zien. Op basis van deze verschillen kunnen drie observaties geformuleerd worden. Ten eerste tonen de uitkomsten aan dat de proximity analysis van Styx tamelijk effectief is; het gezamenlijk voorkomen van termen in een afgebakende context is indicatief voor een relatie. Dit geldt in het bijzonder voor de contexttermen bij evaluatievraag 3. Ten tweede onthullen evaluatievragen 1 en 2 dat analyse op woordniveau niet afdoende is om de strekking van polaire termen te kunnen vatten. De applicatie heeft aanvullende functies nodig om een verfijndere beschouwing van deze termen mogelijk te maken. Met name de inzet van natuurlijke taalverwerking lijkt zinvol, gezien de aard van de problemen waarmee Styx geconfronteerd wordt. Ten derde blijkt dat de betrouwbaarheid van de applicatie afneemt door het ontbreken van filters. Vooral evaluatievragen 3 en 4 kunnen baat hebben bij de implementatie van stopwoordenlijsten of termrelevantieformules als TF-IDF voor het verwijderen van ruis. Uitkomsten objectiviteit
Aan de geconstateerde betrouwbaarheid liggen de oordelen van de evaluators ten grondslag. Hierdoor verrijst de kardinale vraag hoe betrouwbaar de betrouwbaarheid is ― of anders gezegd: hoe objectief zijn de oordelen van de evaluators? Deze objectiviteit kan bepaald worden aan de hand van de zogenaamde intercoder reliability of interbeoordeelaarsbetrouwbaarheid. Dit betreft een bij content analysis veelgebruikte statistische maat waarmee de overeenstemming tussen
Hoofdstuk 5: Evaluatie
56
evaluators berekend kan worden: hoe meer overeenstemming, des te consistenter de oordelen zijn en des te sterker de samenhang tussen de getoetste variabelen is. Voor het berekenen van de interbeoordeelaarsbetrouwbaarheid is gebruik gemaakt van Cohens kappa.5 Kappa is een relatief robuuste coëfficiënt omdat toevalseffecten expliciet in de berekening worden betrokken. Dergelijke effecten manifesteren zich met name als een bepaald antwoord van de evaluators de boventoon voert en daardoor bij toeval gegeven kan zijn. Cohens kappa corrigeert dergelijke effecten door zowel de geobserveerde als de toevallige overeenstemming in acht te nemen. De uitkomsten van kappa vallen tussen -1 en 1 en kunnen met de volgende schaalverdeling geïnterpreteerd worden:6 kappa
Overeenstemming
<0
Geen tot slecht
0 – 0,20
Weinig
0,21 – 0,40
Matig
0,41 – 0,60
Redelijk
0,61 – 0,80
Substantieel
0,81 – 1
(Bijna) volledig
Net zoals bij het vaststellen van de betrouwbaarheid het geval was, dient aan elke evaluatievraag een eigen uitkomst en daarmee een eigen kappa toegekend te worden. Voor het bepalen van deze kappa’s zijn de eerder aangehaalde kruistabellen geraadpleegd; de bijbehorende berekeningen zijn uitgewerkt in bijlage 2. In onderstaande tabel worden de totaaluitkomsten weergegeven: Evaluatievraag
kappa
Overeenstemming
1. Polaire term gerelateerd?
0,51
Redelijk
2. Polaire term correct gecategoriseerd?
0,49
Redelijk
3. Contextterm gerelateerd?
0,61
Substantieel
4. Contextterm informatief?
0,63
Substantieel
Deze weergave laat zien dat de overeenstemming tussen de evaluators redelijk tot substantieel is. Toch komen de resultaten niet in de buurt van de hoogst haalbare groep, temeer daar de scores van vragen 3 en 4 zich in de ondergrens van hun groep bevinden. Kortom, er bestaat kennelijk tamelijk veel disagreement tussen de evaluators waardoor de objectiviteit
Hoofdstuk 5: Evaluatie
57
van de oordelen niet evident is. In de volgende sectie wordt getracht hier een verklaring voor te vinden. Bespreking objectiviteit
De kernvraag van deze bespreking is waarom er relatief veel onenigheid is tussen de evaluators. Deze vraag kan beantwoord worden door de onderlinge verschillen te achterhalen en de uiteenlopende gevolgtrekkingen te analyseren. Hiervoor zijn de antwoorden in de eerder ontworpen Excel-lijsten gefilterd op basis van tegenstelling. Ter illustratie wordt hieronder per evaluatievraag een context aangehaald en tweezijdig geïnterpreteerd. Bij evaluatievraag 1 komt een verschil tot uiting in de volgende zin: “We are ready to support a political solution that guarantees the rapid withdrawal of all Soviet troops and genuine self-determination for the Afghan people”. De vraag is of de polaire term “support” gerelateerd is aan de zoekterm “Soviet”. Volgens de ene interpretatie is dit het geval: de term hangt samen met “political solution” en die staat in relatie tot de Sovjet-Unie ― immers, zonder de medewerking van de Sovjets kan een oplossing niet verwezenlijkt worden. De andere interpretatie keurt deze relatie evenwel af omdat in de zin niet tot uitdrukking komt dat de Sovjet-Unie zo’n oplossing steunt. Om die reden is het voorbarig om het positieve “support” te verbinden aan het land. De tweede evaluatievraag openbaart andere verschillen, zoals in de zin “As we maintain our military strength during the coming year and draw closer the bonds with our allies, we shall be in an improved position to discuss outstanding issues with the Soviet Union”. Is de polaire term “outstanding” correct gecategoriseerd als positief? Niet volgens de eerste verklaring: de context suggereert precaire verhoudingen en de onafgeronde zaken die met de Sovjet-Unie besproken moeten worden, lijken geen frivoliteiten te betreffen. De tweede verklaring beziet dit anders: de Sovjets zijn gedurende bepaalde tijd de bondgenoten van de Verenigde Staten geweest; “allies” kan derhalve ook de Sovjet-Unie omvatten. Bovendien kan “outstanding” worden gezien als synoniem met “important” of “significant”, beide positieve woorden. Evaluatievraag 3 concentreert zich op de contexttermen en laat onder meer het volgende verschil zien: “In the 1940’s we took the lead in creating the Atlantic Alliance in response to the Soviet Union’s suppression and then consolidation of its East European empire and the resulting threat of the Warsaw Pact to Western Europe”. De vraag is of “1940’s” gerelateerd is aan “Soviet”. De ene interpretatie zegt van niet: de term wordt gebruikt om het moment te markeren waarop de Verenigde Staten, en niet de Sovjet-
Hoofdstuk 5: Evaluatie
58
Unie, actie onderneemt. De andere interpretatie zegt van wel: de acties van de Amerikanen zijn het gevolg van het handelen van de Sovjets ― handelingen die, historisch gezien, evenzeer in de jaren veertig hebben plaatsgevonden. De verschillen die zich bij de vierde en laatste evaluatievraag voordoen, kunnen geïllustreerd worden met de volgende zin: “[J]ust one of our relatively invulnerable Poseidon submarines (…) carries enough warheads to destroy every large- and medium-sized city in the Soviet Union”. Is “mediumsized city” een informatieve contextterm? Wel volgens de eerste verklaring: de term bestaat uit duidelijke naamwoorden en is opzichzelfstaand en ondubbelzinnig. De tweede verklaring stelt daarentegen dat de aanwijsbare samenhang met de Sovjet-Unie wegvalt zodra de term buiten zijn context wordt beschouwd. Bovenstaande zinnen ontsluieren een aantal concrete verschillen tussen de evaluators. Hoewel dit niet betekent dat elk verschil is te herleiden tot een polyinterpretabele zin, lijkt het redelijk te concluderen dat de evaluatie geen trivialiteit is. Aan deze conclusie liggen drie observaties ten grondslag. Ten eerste zijn de geformuleerde richtlijnen niet vrij van tekortkomingen. Bijvoorbeeld: als een evaluatievraag met twee uiteenlopende richtlijnen beantwoord kan worden, welke richtlijn heeft dan voorrang? Een dergelijke normering is niet vooraf vastgesteld en maakt de beoordeling afhankelijk van het inzicht van de evaluator. Een ander voorbeeld: wanneer staat een contextterm op een ‘natuurlijke manier’ in betrekking tot een zoekterm, zoals evaluatievraag 4 voorschrijft? Blijkens de resultaten is dit niet eenduidig te bepalen en laat de richtlijn meer ruimte dan verwacht voor persoonlijke oordelen. Ten tweede kan het corpus met toespraken een zekere subjectiviteit versterkt en verschillen tussen evaluators aangewakkerd hebben. De reden hiervoor is dat de zinnen appelleren aan een wereld die buiten het zinsverband bestaat. In tegenstelling tot Styx zullen de evaluators hun kennis van deze wereld aangewend hebben om tot beantwoording te komen; kennis die de evaluatie zowel bespoedigd als belemmerd kan hebben. Voorafgaand zijn echter geen expliciete afspraken gemaakt over de mate waarin historische gegevens veronderstelt en toegepast mogen worden. Tegelijkertijd werpt dit de vraag op of het mogelijk is om dergelijke grenzen te definiëren en of voorkomen kan worden dat de (al dan niet gekleurde) cognitieve bagage van een evaluator gaat overheersen. Ten derde is de complexiteit van de zinnen niet eenvoudig te vatten en te voorspellen. Uit de evaluatie blijkt dat de richtlijnen niet
Hoofdstuk 5: Evaluatie
59
onaantastbaar zijn, niettegenstaande de eerdere proefnemingen waar dit wel het geval was. Kennelijk hebben de zinnen dusdanig veel verschijningsvormen dat ze zich niet gemakkelijk laten vertalen naar richtlijnen. Het is dan ook de vraag of de richtlijnen überhaupt met enige zekerheid vastgesteld kunnen worden. Idealiter zouden ze uitputtend en gespeend van intuïtie moeten zijn om het experiment te kunnen reproduceren, maar gezien de evaluatie is daar niet volmondig aan te voldoen.7 Mogelijk speelt ook het corpus in kwestie hierbij een rol: misschien is een bepaalde abstractheid en meerduidigheid eigen aan toespraken van Amerikaanse presidenten en zijn interpretatiedisputen een inherent gevolg. Dit hoofdstuk heeft getracht de betrouwbaarheid van Styx en de objectiviteit van de oordelen vast te stellen en in perspectief te plaatsen. Met deze wetenschap wordt in het volgende hoofdstuk bekeken wat de bruikbaarheid van Styx is in een concrete onderzoekssituatie.
1
http://www.sunset.com/sunset/food/wine/article/0,20633,696788,00.html Deze benadering ondervangt het probleem van onevenredige spreiding van de zoektermen. Omdat de ene tekst één zoekterm kan bevatten en de andere tekst tien, moet de selectie van analysecontexten onafhankelijk van hun bron plaatsvinden. 3 De steekproef wordt automatisch getrokken met behulp van Java’s Collections.shuffle()-methode. Deze methode geeft de gevonden contexten een willekeurige plek in een lijst. Met de List.subList()-methode wordt vervolgens het gewenste aantal contexten geselecteerd. Voor meer informatie over de achterliggende randomness, zie http://java.sun.com/j2se/1.5.0/docs/api/java/util/Collections.html#shuffle(java.util.List) 4 In deze bespreking worden alleen terugkerende onjuistheden belicht en niet alle mogelijke fouten. Niet-repeterende fouten duiden op uitzonderingsgevallen die meer zeggen over het onderhavige corpus dan over Styx. Ter illustratie: als gevolg van de zinsopbouw heeft de applicatie bepaalde termen in zinnen verkeerd getagged. Resulterende contexttermen ogen daardoor wat onbeholpen (vergelijk “strategic nuclear weapons with great care”). Een ander voorbeeld: in een zin als “You know, tonight, this is the first State of the Union address ever delivered since (…)” is “know” onterecht als polaire term geregistreerd. Blijkens de context vormt de term in combinatie met “you” feitelijk een (te negeren) stopwoord. Dergelijke fouten zullen zich vaker voordoen naarmate het corpus meer spreektaal bevat. 5 De formule voor en uitwerking van Cohens kappa is overgenomen uit (Baarda, 1997: 179) 6 De indeling is in 1977 opgetekend door Landis & Koch in het artikel The measurement of observer agreement for categorical data. Deze originele bron was redelijkerwijs helaas niet vindbaar. De indeling, inclusief Nederlandse vertaling, is overgenomen van http://www.kennisbasisstatistiek.net. Zie bijvoorbeeld http://homepages.inf.ed.ac.uk/jeanc/maptask-coding-html/node23.html voor de originele benamingen. 2
Hoofdstuk 5: Evaluatie
60
7
Om deze reden worden termen als ‘criteria’ of ‘regels’ voor beantwoording bewust vermeden: ze suggereren alomvattendheid en rechtlijnigheid, maar dat bieden de richtlijnen niet.
Hoofdstuk 5: Evaluatie
61
Hoofdstuk 6:
Historische resultaten ALSOF DE TIJDEN VAN weleer herleefden. In zijn jaarlijkse toespraak tot het Russische parlement in april 2007, bekritiseerde president Poetin de plannen van de Verenigde Staten om raketafweerinstallaties in Europa te plaatsen. “De Koude Oorlog heet voorbij te zijn,” reageerde De Volkskrant in haar hoofdredactioneel commentaar, “maar het verbale geschut uit die tijd blijkt nog ruimschoots voorhanden”.1 Dit hoofdstuk onderzoekt de bruikbaarheid van Styx en beoordeelt of de applicatie betekenisvolle resultaten voortbrengt en of de functionaliteit afdoende is. Tot dit doel wordt het corpus met toespraken van Amerikaanse presidenten geanalyseerd. Voor deze analyse is het corpus opgedeeld in periodes. Aan de hand van de onderzoeksvragen uit hoofdstuk 4 worden de periodes met elkaar vergeleken en overeenkomsten en verschillen geregistreerd. Of in navolging van het Volkskrant-commentaar: komt het ‘verbale geschut’ tot uiting in de toespraken? En indien ja, levert dit bruikbare uitkomsten op?
Indeling periodes Voor de beantwoording van de onderzoeksvragen is het noodzakelijk om de ontwikkelingen in de relatie tussen de Verenigde Staten en Rusland te kunnen waarnemen. Hiertoe zijn de toespraken van de presidenten ingedeeld in chronologische periodes. Deze periodes zijn gebaseerd op de gebeurtenissen waar beide landen bij betrokken waren ― politiek, diplomatiek, militair of anderszins. De gebeurtenissen zijn gewaardeerd op polariteit en impact op de relaties. Elke periode markeert
Hoofdstuk 6: Historische resultaten
62
hierdoor een verandering in de onderlinge betrekkingen, ten goede of ten kwade. Schematisch ziet de indeling er als volgt uit: Begin
Einde
Kenmerk relatie
Periode 1
1942
1946
Onwennig en wantrouwend
Periode 2
1947
1955
Ernstig verstoord
Periode 3
1956
1974
Conflicterend, consoliderend
Periode 4
1975
1980
Geïrriteerd
Periode 5
1981
1989
Verschraald maar veranderend
Periode 6
1990
2004
Vreedzaam
Ter verduidelijking worden de gebeurtenissen die ten grondslag liggen aan de indeling per periode besproken.2 Op deze bespreking wordt later in het hoofdstuk teruggegrepen. Periode 1 wordt gekenmerkt door de Tweede Wereldoorlog. De Verenigde Staten en de Sovjet-Unie zijn onwennige bondgenoten. Tijdens een serie conferenties bespreken de landen hun toekomstige invloedssfeer in de wereld. Het einde van de oorlog markeert een omslagpunt in de relaties; het wantrouwen tussen de bondgenoten neemt toe. Een jaar later waarschuwt Winston Churchill in een toespraak voor een ‘ijzeren gordijn’ in Europa. Ondertussen worden tekenen van een nucleaire wapenwedloop manifest. In de tweede periode luidt de Truman-doctrine het begin van de Koude Oorlog in: de Amerikaanse politiek wordt harder en containment van communisme is het devies. De Sovjet-Unie doorbreekt niettemin het atoommonopolie van de Verenigde Staten en ontwikkelt een eigen nucleair arsenaal. In Europa culmineert de tweedeling tussen West en Oost in de oprichting van de NAVO en het Warschaupact. Tegelijkertijd zorgen conflicten in Azië, en de oorlog in Korea in het bijzonder, voor grootschalige militarisering van de tegenstellingen. Het aantreden van president Eisenhower en de dood van Sovjetleider Stalin leiden evenwel tot spanningsvermindering en consolidatie van de betrekkingen. Deze voorzichtige ontspanning zet door aan het begin van periode 3, ondanks het gewapende optreden van Sovjettroepen in Hongarije. Dit verandert als de Sovjet-Unie een Amerikaans spionagevliegtuig boven haar grondgebied neerhaalt. De bouw van de Berlijnse muur gooit kort daarna olie op het vuur. In Cuba escaleert de inrichting van raketbases door de Sovjet-Unie bijna tot een kernoorlog. Geschrokken door de crisis ontwikkelen de supermachten in de nakomende jaren een betere verstandhouding. Deze betrekkelijke rust
Hoofdstuk 6: Historische resultaten
63
wordt mede mogelijk gemaakt door de Amerikaanse interventie in en preoccupatie met Vietnam. De rust resulteert uiteindelijk in een nieuwe, nuchtere détentepolitiek. Een product hiervan is het SALT-verdrag voor het indammen van de wapenwedloop. Toch blijven de landen op gespannen voet met elkaar staan en al dan niet openlijk betrokken bij conflicten als de Praagse Lente, de oorlog tussen India en Pakistan en de Jom Kipoeroorlog. In de vierde periode erodeert de détente. Operaties van de Sovjet-Unie in Afrika en Azië wekken ergernis bij de Verenigde Staten. Op hun beurt irriteren de Sovjets zich aan het nieuwe mensenrechtenbeleid van de Amerikanen. De relaties verslechteren verder als de Sovjet-Unie Afghanistan binnenvalt; uit protest boycot Amerika de Olympische Spelen in Moskou. Daarnaast wordt de Carterdoctrine van kracht en keert Amerika terug naar de harde containmentpolitiek. De Sovjet-Unie voert ondertussen haar raketpotentieel op. De verhouding tussen de partijen is aan het begin van periode 5 ernstig verschraald. De Amerikaanse defensiebegroting expandeert en president Reagan ontvouwt zijn Star Wars-raketschildplannen. In de tussentijd opereert de Sovjet-Unie terughoudend en kampt het met troonopvolgingskwesties. Na de herverkiezing van Reagan en het aantreden van Sovjetleider Gorbatsjov nemen de tegenstellingen een nieuwe wending. De landen besluiten tot wapenvermindering en de leiders bezoeken elkaar. Niet veel later valt de Berlijnse muur en voltrekken fluwelen revoluties zich in Oost-Europa. De Koude Oorlog loopt ten einde. De zesde en laatste periode kenmerkt zich door het machtsverval van de Sovjet-Unie. Haar troepen trekken zich terug uit Oost-Europa, het Warschaupact wordt ontbonden en de Sovjet-Unie maakt plaats voor de Russische Federatie. In de daaropvolgende jaren committeren de Verenigde Staten en Rusland zich aan verschillende wapenverdragen. Onderlinge twisten daargelaten, zoals over de Russische interventie in Tsjetsjenië, blijven de betrekkingen tussen de landen vreedzaam. Met het lexical analysis-programma WordSmith3 zijn de toespraken in het corpus toegekend aan bovenstaande periodes en als woordenlijsten opgeslagen. Vervolgens zijn de lijsten door WordSmith geanalyseerd. De relevante aggregaties van deze analyse worden hierna gepresenteerd:
Hoofdstuk 6: Historische resultaten
64
Toespraken
Woorden
% STTR
1: 1942-1946
6
38.411
41,32%
2: 1947-1955
14
67.599
42,45%
3: 1956-1974
31
149.958
43,11%
4: 1975-1980
7
26.660
42,33%
5: 1981-1989
17
93.191
43,93%
6: 1990-2004
19
99.688
42,37%
Cumulatief
94
475.507
42,82%
Deze weergave laat zien dat er grote verschillen zijn in zowel het aantal toespraken als het aantal woorden in elke periode. Om deze variabiliteit in perspectief te plaatsen is de standardized type-token ratio (STTR) toegevoegd.4 Met deze ratio kan de verhouding tussen de unieke woorden en het totale aantal woorden in de betrokken teksten weergegeven worden. Hierdoor wordt het mogelijk om teksten van wisselende lengtes met elkaar te vergelijken. Uit de weergave blijkt dat de ratio nauwelijks uiteenlopen: ondanks de numerieke verschillen zijn de toespraken op lexicaal niveau vrijwel gelijk en daarmee verwerkbaar voor de volgende fase, de beantwoording van de onderzoeksvragen.
Beantwoording onderzoeksvragen Behalve in WordSmith is het corpus ook verwerkt in Styx. Hiervoor zijn de periodes als afzonderlijke analyses opgeslagen, voorzien van toespraken en toegerust met zoektermen als “Russia”, “Soviet” en “Kremlin”. Vervolgens zijn de analyses uitgevoerd en de resultaten van elke periode genoteerd.5 Hiermee zijn alle voorbereidingen getroffen om de onderzoeksvragen te beantwoorden. Deze antwoorden zijn het onderwerp van de navolgende secties. Onderzoeksvraag 1
Hoe vaak en binnen welke contexten wordt er naar Rusland verwezen? De verwijzingen naar Rusland kunnen achterhaald worden door de zoektermen te tellen die in elke periode voorkomen. Dit betreft echter een opzichzelfstaande, absolute telling. Door de eerder geconstateerde variabiliteit is dit aantal ongeschikt om periodes mee te vergelijken. Om deze reden zijn de zoektermen geconverteerd naar relatieve frequenties. De volgende tabel geeft zowel de absolute als de relatieve tokens van Rusland weer:
Hoofdstuk 6: Historische resultaten
65
Verwijzingen Rusland
% Verwijzingen Rusland
1: 1942-1946
24
0,07%
2: 1947-1955
102
0,13%
3: 1956-1974
119
0,10%
4: 1975-1980
45
0,18%
5: 1981-1989
158
0,17%
6: 1990-2004
47
0,04%
Cumulatief
495
0,12%
De frequenties zijn berekend door voor elke toespraak het aantal zoektermen te delen door het totale aantal woorden in de tekst. Aansluitend zijn deze uitkomsten vertaald naar bovenstaande periodegemiddeldes. Voor deze benadering is gekozen omdat de teksten een correlatie tussen zoektermen en woorden laten zien. Of anders gezegd: het synoptische karakter van de toespraken zorgt doorgaans voor een bepaald evenwicht in de onderwerpen; als er veel aandacht is voor Rusland, is er navenant veel aandacht voor andere kwesties. Deze afhankelijkheid moet expliciet in acht worden genomen om vertekeningen te voorkomen. Ter illustratie: de State of the Union uit 1981 bevat 63 verwijzingen naar Rusland. Dit is een aanzienlijk aantal en het land lijkt dan ook een hot-button issue te zijn. Ter vergelijk: de State of the Union uit 1987 bevat 13 verwijzingen. Toch laat deze vergelijking niet de werkelijke impact van de zoektermen zien. Bij nadere beschouwing blijkt dat de eerste toespraak uit 34.338 woorden bestaat. Na correctie heeft Rusland hierin een aandeel van 0,18%. Daarentegen bestaat de tweede toespraak uit 3.875 woorden, waarvan Rusland 0,34% vertegenwoordigt.6 Uit de frequentietabel kunnen de eerste gevolgtrekkingen afgeleid worden. Zo blijkt periode 4, het moment van de teloorgang van de détente, de meeste voorkomens van Rusland te hebben en periode 6, het tijdperk na de Koude Oorlog, de minste. Een beslissender vraag is evenwel of de geconstateerde verschillen ook statistisch significant zijn. Om dit te toetsen zijn de frequenties van de toespraken verwerkt in SPSS.7 Een visuele weergave hiervan is de volgende boxplot:
Hoofdstuk 6: Historische resultaten
66
De boxplot laat de spreiding van de gegevens zien. Per periode worden onder meer de kwartielen en de minimale en maximale waardes zichtbaar; de rondjes representeren hierbij de outliers en de sterretjes de extreme cases. Op basis van deze weergave kan geconcludeerd worden dat de periodes onderling sterk verschillen en de achterliggende frequenties niet-normaal verdeeld zijn.8 De consequentie van deze conclusie is dat de conventionele statistische methodes niet gebruikt kunnen worden om de periodes te analyseren. Daarom wordt een zogenaamde non-parametric fallback test ingezet: de Kruskal-Wallis H-toets. Deze toets is verdelingsvrij en is daardoor ook geschikt voor asymmetrische gegevensverzamelingen.9 Voor het vergelijken van de periodes zijn de volgende nulhypothese en alternatieve hypothese geformuleerd: H0: Het aantal verwijzingen naar Rusland is voor de zes periodes gelijk. Ha: Ten minste twee periodes verschillen in het aantal verwijzingen naar Rusland. Merk op dat Ha tweezijdig is: elk verschil in aantallen, zowel meer als minder, wordt geaccepteerd. Verder wordt bij het testen van de hypotheses uitgegaan van significantieniveau α = 0,05. Met deze bepalingen op zak kan Kruskal-Wallis uitgevoerd worden. Dit levert de overschrijdingskans p = 0,042 op (χ2 = 11,530; vrijheidsgraden = 5). Omdat de p-waarde kleiner is dan α, is er marginaal maar voldoende bewijs om H0 te verwerpen en te constateren dat er sprake is van een
Hoofdstuk 6: Historische resultaten
67
significant effect tussen de periodes. Kruskal-Wallis onthult echter niet welke periodes van elkaar verschillen. Om dit te ontdekken dienen de opeenvolgende periodes naast elkaar gezet te worden. Hiervoor wordt de Wilcoxon-toets gebruikt. Deze toets heeft dezelfde niet-parametrische kenmerken als KruskalWallis, maar beperkt zich tot paarsgewijze vergelijkingen. In totaal dient de toets vijf keer uitgevoerd te worden. Per vergelijking worden onderstaande hypotheses gehanteerd: H0: Het aantal verwijzingen naar Rusland is voor beide periodes gelijk. Ha: Beide periodes verschillen in het aantal verwijzingen naar Rusland. Ook hier wordt Ha tweezijdig getoetst: de ene periode moet meer of minder verwijzingen hebben dan de andere, zonder voorkeur voor richting. Daarnaast wordt wederom uitgegaan van α = 0,05. Dit leidt tot de volgende resultaten: Vergelijking
Uitkomst
Conclusie
Periode 1 – periode 2
p = 0,527
H0 aanvaard
Periode 2 – periode 3
p = 0,707
H0 aanvaard
Periode 3 – periode 4
p = 0,894
H0 aanvaard
Periode 4 – periode 5
p = 0,226
H0 aanvaard
Periode 5 – periode 6
p = 0,002
H0 verworpen
Hieruit blijkt dat de periodes 5 en 6 significant verschillen. Voor de overige periodes blijft de nulhypothese van toepassing. Met deze conclusie is het eerste deel van de onderzoeksvraag beantwoord. Het tweede deel concentreert zich op de contexttermen die in de omgeving van Rusland voorkomen. Deze contexten trachten een descriptieve dimensie aan zowel de zoektermen als de polaire termen toe te voegen. Het ontdekken van deze dimensie is echter geen eenvoudige opgave doordat het aantal contexttermen aanzienlijk is; gemiddeld wordt elke zoekterm vergezeld door 5,3 contexten, waarbij een context bestaat uit één tot negen woorden. Deze gegevensvloed maakt van kwalitatieve analyse een langdurig proces. Kwantitatieve ondersteuning kan dit proces verlichten. Het geëigende instrument daartoe betreft de frequentietabellen van Styx, in het bijzonder de meest voorkomende contexttermen per periode. Immers, hoe vaker een term voorkomt, hoe sterker het verband met Rusland. Desondanks is de bruikbaarheid van de tabellen op dit punt
Hoofdstuk 6: Historische resultaten
68
niet evident. Uit de frequenties blijkt dat het aantal unieke contexten tamelijk groot is; er zijn relatief veel termen met slechts één of enkele tokens. Duidelijke patronen komen zo moeizaam voor het voetlicht. Toch is Styx zelf hier in de eerste plaats debet aan, niet het corpus of de zoektermen. De lage frequenties zijn het gevolg van de voorbewerking door de applicatie, zoals beschreven in hoofdstuk 3: indien een term in een zin wordt omgeven door andere betekenisvolle termen, worden ze als gecombineerde context opgeslagen.10 Een voorbeeld hiervan is “war”. Hoewel de term diverse keren voorkomt in de toespraken, komt deze numerieke sterkte niet tot uiting in de frequentietabellen. Uit de tabellen blijkt wel dat Styx de term, waar toepasselijk, heeft gecombineerd met naastgelegen termen en verwerkt tot contexten als “Cold War” en “selfdefeating war in Chechnya”. Tegelijkertijd komen dergelijke combinaties, hoe veelzeggend ook, niet vaak genoeg voor om op te vallen in aggregaties. Daarnaast zorgen ze voor fragmentatie en afname van de geïsoleerde voorkomens van “war”. Dit leidt tot onzichtbaarheid, waardoor ten onrechte de indruk wordt gewekt dat de term weinig is gebezigd door presidenten. Kortom, de frequentietabellen van Styx kunnen niet de gewenste kwantitatieve ondersteuning bieden. Om toch tot een analyse van de contexten te kunnen komen, zijn de tabellen geïmporteerd in WordSmith. De samengestelde contexten zijn tijdens dit proces gesplitst op basis van word boundaries; een term als “Cold War” leeft daardoor voort als twee afzonderlijke woorden. Ofschoon deze benadering de rijkdom van de contexttermen aantast, wordt het aandeel van de woorden in het totale corpus beter zichtbaar. De nieuwe frequentietabel is gepresenteerd in bijlage 311 en laat, ondersteund door Styx’ integrale contexten, de volgende zeven patronen zien:12 Het eerste patroon betreft de verwijzingen naar Rusland. In veruit de meeste gevallen wordt het land aangeduid met “Soviet Union” of het bijvoeglijk naamwoord “Soviet” (“brutal Soviet repression”). Dit verklaart eveneens de termen “union” en “former” (periode 6) in de frequentietabel. Opmerkelijk is dat de variatie “Soviets” hoogtij viert in periodes 3 en 5, terwijl de overige periodes deze iets menselijker term nauwelijks hanteren. Daarnaast trekt periode 2 de aandacht met “Kremlin” (“Kremlin’s agents in Italy”) en met de (inaccurate) combinatie “Soviet Russia”. Ook wordt deze periode gekenmerkt door de term “rulers”, in het bijzonder “Soviet rulers”. Daarmee is het de enige periode die de Sovjetleiding herhaaldelijk vrij expliciet karakteriseert. Periode 3 bezigt een mildere variant en verwijst, met name tijdens de Cuba Crisis, geregeld naar “Soviet Government”. De namen van de leiders zelf komen verder amper voor.
Hoofdstuk 6: Historische resultaten
69
Uitzonderingen daarop zijn periode 1 (“Marshal Stalin”) en periode 5 (“Mr. Gorbachev”). Daarnaast richten alle periodes, maar vooral 3 en 5, zich enkele keren tot het Russische volk met combinaties als “People of the Soviet Union”. Tot besluit blijkt dat “Moscow”, in hoofdstuk 4 afgekeurd als zoekterm, alleen opvalt in periode 1 en dat zoekterm “USSR” nergens verschijnt. Patroon twee ontfermt zich over de verwijzingen naar de Verenigde Staten, in de frequentietabel te herkennen aan “united” en “states”. Het land is het complement van Rusland en daarmee verzekerd van meervoudige voorkomens ― precies het patroon dat periodes 1 t/m 5 laten zien. In 6 zijn de voorkomens echter minder overtuigend. Mogelijk wordt Rusland vanaf dat moment meer opzichzelfstaand besproken en minder in relatie tot de Verenigde Staten. In 3 ontplooit zich een variatie en refereren presidenten enkele keren naar zichzelf en hun land met combinaties als “this Government” of “your Government”. Opvallend is dat het synoniem “America” niet voorkomt in de tabel. Toch wordt de term ruim 1.200 keer genoemd in de toespraken. Kennelijk geven presidenten de voorkeur aan “United States” zodra Rusland ter tafel komt en is “America” voor andere onderwerpen gereserveerd. Naast de Verenigde Staten zijn er een drietal andere landen die regelmatig in de omgeving van Rusland verschijnen: Groot-Brittannië, China en Afghanistan. Deze landen vormen het derde patroon. Eerstgenoemde is alleen zichtbaar in periode 1 en wordt aangehaald met termen als “Britain”, “Great Britain” en “Churchill”. Deze laatste valt op: het is de enige niet-Sovjet die vaak genoeg bij naam wordt genoemd om de frequentietabel te halen, ook vergeleken met andere periodes. “China” komt voor in periodes 1 en 6. Daarnaast zijn er in periode 1 enkele verwijzingen naar “Generalissimo Chiang Kai-shek”, de toenmalig leider van het land. Afghanistan, tot besluit, is ruim vertegenwoordigd in periodes 4 en 5. Eén contextterm springt eruit: “Soviet invasion of Afghanistan”. In periode 5 heeft deze term zelfs meer tokens dan “Afghanistan” zelf, wat tevens de aanwezigheid van “invasion” in de tabel duidelijk maakt. Bovenop genoemde landen worden er, ongeacht de periode, nog verschillende andere naties met Rusland geassocieerd (“Iceland”, “India”), soms gepaard met “people” (“people of Tibet”, “Polish people”). Getalsmatig zijn deze verwijzingen evenwel gering. Wel valt op dat de verscheidenheid aan landen in periode 5 groter is dan in de andere. Patroon vier heeft de internationale verwijzingen tot onderwerp, zoals naar de Verenigde Naties. De VN komt meermaals voor in periodes 2 en 3 ― in de tabel te herkennen aan “united” en “nations” ― en sporadisch in 5 en 6. De NAVO is aanwezig in periodes 4 t/m 6,
Hoofdstuk 6: Historische resultaten
70
ofschoon te weinig om de frequentietabel te halen. Haar tegenhanger, het Warschaupact, is navenant onzichtbaar en verschijnt alleen in periode 4. Hetzelfde geldt voor de Europese Unie en haar voorgangers; alleen periode 5 verwijst naar “European Economic Community”. Ook regio’s en werelddelen worden nauwelijks met Rusland geassocieerd. Weliswaar komen termen als “Middle East”, “Africa” en “Asia” enkele keren voor, maar niet vaak genoeg om op te vallen. De uitzondering is “Europe”, zij het alleen in periode 6. In weerwil van deze constateringen blijken abstracte verwijzingen het juist wel goed te doen: “world” is prominent aanwezig in periodes 2 t/m 5 en “nations” in 2 en 3. De contexten waarin deze termen worden aangewend verschillen echter nogal. Zo komen “world peace” en “free nations” vaak voor, maar zijn combinaties als “Sovietdominated world” en “satellite nations” ook niet ongewoon. Opvallend is wel dat dergelijke abstracties floreren in de Koude Oorlog-periodes, maar niet ervoor en erna. Het vijfde patroon is een vreemde eend in de bijt en alleen zichtbaar in periode 5: “relations”. De term wordt primair gebruikt om de verstandhouding tussen Rusland en de Verenigde Staten tot uitdrukking te brengen. De context is overwegend positief, getuige combinaties als “constructive relations” en “positive change in Soviet-American relations”. Ietwat abstractere verwijzingen zijn er ook: “East-West relations”. Patroon zes verenigt een mengelmoes van termen die veelal herleid kunnen worden tot één thema: het krijgswezen. Dit thema wordt consequent, in elke periode, met Rusland in verband gebracht, ofschoon het onderliggende taalgebruik fluctueert. “War”, bijvoorbeeld, komt regelmatig voor in de periodes 1, 2, 3 en 5, maar is vrijwel afwezig in 4 en 6. Opmerkelijk is dat “threat”, toch een voorstadium van oorlog, alleen verschijnt in 3 en 5. De termen “nuclear” c.q. “atomic” zijn sterk aanwezig in periodes 2 t/m 6. Niettemin verschuift hun context: eerdere periodes praten over “fatal road toward atomic war”, latere periodes over “proliferation of nuclear weapons”. De term “strategic”, vooral verbreid in periode 4, valt op door zijn eufemistische karakter: waar periode 3 verwijst naar “offensive weapons of sudden mass destruction”, daar rept periode 4 over “strategic arms limitations”, terwijl het vermoedelijk over dezelfde wapens gaat. In de periodes 2, 4 en 5 worden “power” en “forces” regelmatig als synoniemen gebruikt, met contexten als “Soviet military power” en “Soviet military forces”. Dit verklaart eveneens de aanwezigheid van “military” in deze periodes. “Missile”, tot besluit, ontpopt zich in periode 6 als neologisme ― de voorgaande periodes hebben zich nauwelijks van de term bediend. Het zevende en laatste patroon concentreert zich op het antoniem van het bovenstaande thema, “peace”. De term komt consequent voor, maar bovenal in de periodes 3 en 4. Daarbij is de
Hoofdstuk 6: Historische resultaten
71
context vrijwel onveranderlijk: elke periode wil vrede, indien mogelijk “genuine peace”, bij voorkeur “peace with justice”, maar in elk geval “lasting peace” en “global peace”. Onderzoeksvraag 2
Welke trends zijn er zichtbaar in de polaire woorden die naar Rusland verwijzen en welke positieve en negatieve woorden worden hiervoor gebruikt? Trends kunnen waargenomen worden door na te gaan hoeveel polaire woorden er per periode in de nabijheid van Rusland voorkomen. Aan de hand van deze uitkomsten kunnen de periodes vervolgens met elkaar vergeleken worden. Echter, voor deze vergelijking mogen, zoals eerder al geconstateerd bij de zoektermen, niet de absolute uitkomsten gebruikt worden. Daarom zijn de woorden omgezet naar relatieve frequenties: Absoluut
Gemiddeld per zoekterm
Positief
Negatief
Positief
Negatief
1: 1942-1946
56
35
1,99
1,13
2: 1947-1955
153
117
0,94
0,68
3: 1956-1974
180
141
1,05
0,70
4: 1975-1980
64
39
1,49
0,43
5: 1981-1989
243
155
1,57
0,83
6: 1990-2004
66
25
0,93
0,34
Cumulatief
762
512
1,33
0,69
De frequenties zijn berekend door voor elke toespraak het aantal positieve, respectievelijk negatieve woorden te delen door het aantal zoektermen in de tekst.13 Aansluitend zijn deze uitkomsten vertaald naar bovenstaande periodegemiddeldes. Voor deze benadering is gekozen omdat de afhankelijkheid van de polaire woorden ten opzichte van de zoektermen zo tot uitdrukking komt; hoe meer woorden per zoekterm, hoe sterker het verband. Ter illustratie: de State of the Union uit 1967 heeft acht zoektermen en elf positieve woorden. Daarentegen bevat de State of the Union uit 1954 twee zoektermen en vijf positieve woorden. Hoewel de eerste toespraak in absolute zin meer ― en mogelijk gevarieerdere ― woorden voortbrengt, is het gewicht van deze woorden in relatieve zin beperkter dan bij de laatste toespraak; 1,38 versus 2,5 positieve woorden per zoekterm. In de frequentietabel komen de eerste patronen tot wasdom. Toch wordt de gewenste verhouding tussen de polaire woorden
Hoofdstuk 6: Historische resultaten
72
nauwelijks zichtbaar. Onderstaande staafdiagram probeert meer inzicht te verschaffen door de frequenties procentueel te presenteren:14
Het diagram laat zien dat positieve woorden structureel meer voorkomen dan negatieve. Het kleinste verschil manifesteert zich in periode 2: positieve woorden worden 16,05% vaker genoemd dan negatieve. Het grootste verschil is aanwezig in periode 4 en bedraagt 55,21%. Daarnaast toont het diagram een voorzichtige tweedeling in verschillen tussen de polaire woorden: enerzijds de gematigde periodes 1, 2, 3 en 5, anderzijds de radicalere periodes 4 en 6. Verder blijken de positieve woorden in de periodes maximaal 19,58% van elkaar te verschillen (en vice versa voor de negatieve). Kortom, ondanks de divergenties tussen positief en negatief, zijn de homogene woorden redelijk bestendig en ontplooien ze in elke periode ongeveer hetzelfde patroon. Ter controle van deze constateringen zijn de achterliggende frequenties verwerkt in SPSS. Op basis hiervan kan berekend worden of er sprake is van een significant verschil in polariteit. Om dit verschil vast te stellen worden twee toetsen uitgevoerd. De eerste toets onderzoekt de polaire verhouding in elke periode. Ter voorbereiding is de volgende boxplot gegenereerd. De weergave bestaat uit een samenvoeging van zowel de positieve als de negatieve woorden en representeert daarmee het geheel aan polaire woorden per zoekterm:
Hoofdstuk 6: Historische resultaten
73
De boxplot laat de spreiding van de gegevens zien. In navolging van onderzoeksvraag 1 kan hierin een niet-normaalverdeling ontwaard worden, zowel in als tussen de periodes. Voor het analyseren van de polaire verhouding wordt daarom de Wilcoxon-toets ingezet.15 In totaal dient de toets zes keer uitgevoerd te worden, één voor elke periode. Per keer worden onderstaande hypotheses gehanteerd: H0: Positieve en negatieve woorden in de periode komen evenredig voor. Ha: Positieve woorden in de periode komen vaker voor dan negatieve woorden. De alternatieve hypothese wordt enkelzijdig getoetst; het staafdiagram heeft reeds aangetoond dat negatieve woorden een lagere frequentie hebben dan positieve. Verder wordt bij het testen van de hypotheses uitgegaan van significantieniveau α = 0,05. Dit niveau wordt ― door de enkelzijdige Ha ― met de uitkomsten van de toets vergeleken door de pwaardes te delen door twee. Dit leidt tot de volgende resultaten:
Hoofdstuk 6: Historische resultaten
74
Vergelijking
Uitkomst
Conclusie
Positief – negatief periode 1
p = 0,149
H0 aanvaard
Positief – negatief periode 2
p = 0,227
H0 aanvaard
Positief – negatief periode 3
p = 0,080
H0 aanvaard
Positief – negatief periode 4
p = 0,058
H0 aanvaard
Positief – negatief periode 5
p = 0,028
H0 verworpen
Positief – negatief periode 6
p = 0,046
H0 verworpen
Uit de tabel blijkt dat de positieve woorden in de periodes 5 en 6 significant vaker voorkomen per zoekterm dan de negatieve woorden. Voor de andere periodes kan een dergelijke verhouding niet bewezen worden.16 De tweede toets onderzoekt de periodeverschillen. Hiertoe worden de positieve en negatieve woorden afzonderlijk beoordeeld en vergeleken met hun soortgenoten in de andere periodes. Omdat deze beoordeling voor beide woorden identiek is, wordt volstaan met het bespreken van de positieve woorden. De afwezigheid van een normaalverdeling in de boxplot met polaire woorden openbaart zich ook wanneer enkel de positieve woorden beschouwd worden.17 Dientengevolge wordt voor het vergelijken van de periodes een beroep gedaan op de Kruskal-Wallistoets. De volgende hypotheses zijn hierbij geformuleerd: H0: Het aantal positieve woorden is voor de zes periodes gelijk. Ha: Ten minste twee periodes verschillen in het aantal positieve woorden. Met α = 0,05 produceert Kruskal-Wallis de p-waarde = 0,223 (χ2 = 6,968; vrijheidsgraden = 5). Omdat p groter is dan α, is er onvoldoende bewijs om H0 te verwerpen: de periodes laten geen significant verschil in het aantal positieve woorden per zoekterm zien. Voor de negatieve woorden geldt dezelfde conclusie: bij p = 0,224 (χ2 = 6,961; vrijheidsgraden = 5) wordt de nulhypothese aanvaard. Bovenstaande constateringen maken de weg vrij voor de beantwoording van het tweede deel van de onderzoeksvraag. Hiervoor wordt onderzocht welke patronen zich voordoen in de polaire woorden die met Rusland geassocieerd worden. Ter ondersteuning worden de frequentietabellen van Styx ingezet; elke tabel bevat de meest voorkomende positieve en negatieve woorden en verschaft daarmee een fundering voor kwantitatieve analyse. Desondanks is deze analyse niet
Hoofdstuk 6: Historische resultaten
75
eenvoudig. De oorzaak hiervan is niet de applicatie, zoals eerder bij de zoektermen het geval was, maar het corpus: een meerderheid van de woorden, zowel positief als negatief, komt één of twee keer voor. Deze beperkte aanwezigheid maakt het lastig om frequentiegebaseerde oordelen te vellen. Een voorbeeld: het woord “overwhelming” verschijnt één keer in periode 4 en drie keer in periode 5. Duidt dit op een patroon? Enerzijds wel: het is een expressief woord dat betekenis heeft voor die periodes. Anderzijds niet: het aantal tokens is weinig opzienbarend en wellicht eerder een kenmerk van het vocabulaire van een bepaalde president dan van een periode. Kort gezegd: dit soort twijfelgevallen reduceren de bruikbaarheid van de frequentietabellen. Met deze kanttekening worden hierna de polaire patronen besproken; eerst vier positieve, daarna vier negatieve. De bijbehorende tabellen zijn gepresenteerd in bijlagen 4 en 5. De positieve woorden laten de volgende patronen zien: Het eerste patroon betreft de lijstaanvoerders van elke periode, “great” (1), “free” (2), “peace” (3, 4 en 5) en “help” (6). Afgezien van “peace” zijn deze woorden een toonbeeld van variabiliteit. Maar toch zijn ze verklaarbaar. “Great” dankt zijn ranking aan “Great Britain” en onthult daarmee een tekortkoming in de analyse; het woord heeft geen betrekking op Rusland en is evenmin bedoeld als polaire term. De dominantie van “free” kan bijna eigenhandig op het conto van president Truman worden geschreven en heeft hierdoor het karakter van een buzzword. Dit betekent overigens niet dat het woord een rariteit is. Integendeel, elke periode maakt gebruik van “free” (en van het gerelateerde “freedom”), ofschoon het aantal voorkomens schommelt. Van alle woorden is “peace” de meest constante. Het woord floreert tijdens de Koude Oorlog, maar ook de periodes 1 en 6 bedienen zich ervan. “Help” is een opmerkelijke verschijning. Weliswaar komt het woord ook voor in periodes 3, 4 en 5, maar nergens zo prominent. Mogelijk is het einde van de Koude Oorlog hier debet aan. Patroon twee geeft uitdrukking aan woorden die verwijzen naar toenadering. Hoewel ze verschillende verschijningsvormen kennen en niet altijd in het voorste gelid lopen, komen dergelijke woorden stelselmatig terug. De ene keer zijn ze aftastend, zoals “willing”, “meet” en “negotiate”. De andere keer hebben ze een coöperatief karakter, zoals “agreement”, “treaty” en “cooperation”. En soms duiden ze op gerichte verbintenissen, zoals “allies”, “alliance” en “partnership”. Desondanks gaat de toenadering niet zover dat een variatie als “friendship” wordt gebruikt. Het derde patroon ontfermt zich over veiligheid. Net zoals bij het voorgaande patroon ontpoppen deze woorden zich zelden als de
Hoofdstuk 6: Historische resultaten
76
gangmakers, maar zijn ze in alle periodes verzekerd van meerdere voorkomens. Voorbeelden zijn “secure”, “security”, “safety” en “safeguard”, maar ook “protect” en “protection”. Associaties als “defense” en “defend” zijn eveneens ruim vertegenwoordigd. Patroon vier bestaat uit woorden die in afwezigheid van een patroon verenigd zijn. Deze woorden komen meermaals voor, hetzij in een periode, hetzij tussen periodes, maar ontvouwen, anders dan hun positieve gestemdheid, geen aanwijsbaar leidmotief. Dit is onder meer het geval bij toptermen als “conquest” (periode 1), “know” (2), “interest” (3) en “encourage” (6). Het is ook van toepassing op infrequente maar terugkerende termen als “achieve”, “essential” en “hope”. Aan de ene kant geven dergelijke woorden kleur aan de Russische referenties. Aan de andere kant zijn ze zonder context moeilijk te classificeren. De negatieve woorden onderscheiden de volgende patronen: Het eerste patroon heeft de lijstaanvoerders van de periodes tot onderwerp, “war” (1, 2 en 5) en “threat” (3 en 4). Periode 6, daarentegen, ontbeert een topterm. In plaats daarvan delen vijf woorden deze positie ― waaronder zowel “war” als “threat”. Deze permanente aanwezigheid van beide woorden maakt ze meer dan karakteristiek voor Rusland; geen van de andere termen zijn dusdanig sterk met het land verbonden. Een runner-up is er evenwel ook, in de vorm van “against”: het woord verschijnt prominent in elke periode met uitzondering van 4. Niettemin is de impact van het woord, in lijn met diens grammaticale functie, minder overtuigend. De polemiek van de Koude Oorlog is het tweede patroon. Het patroon concentreert zich op de woorden die alleen voorkomen in de periodes 2 t/m 5 en geeft daarmee een beeld van de oorlogsretoriek. De mildste exponent hiervan is “revolution”. Rechtlijniger woorden maken zich kenbaar in de vorm van “conflict”, “confront” en “confrontation”. Ongesluierde variaties zijn “aggression”, “aggressive”, “domination” en “dominate”. Opvallend is wel dat termen als “afraid”, “crisis”, “danger”, “death”, “defeat” en “fear” slechts incidenteel worden gebruikt, ondanks hun verwantschap met oorlog. Kennelijk maakt de connotatie van dergelijke woorden ze niet voor herhaling vatbaar. Patroon drie betreft de woorden die zich uitspreken over handelingen of gedragingen. De woorden zelf zijn veelal infrequent maar trekken de aandacht in gecompileerde vorm. Voorbeelden hiervan zijn “deception”, “defy”, “impose”, “intimidate”, “manipulate” en “subversion”. Daarnaast zijn er woorden van minder inschikkelijke aard, zoals “coercion”, “exploit”, “oppose”, “oppression”, “subjugate” en “suppress”. Ook
Hoofdstuk 6: Historische resultaten
77
zijn er woorden die een duidelijke vorm van geweld suggereren, waaronder “attack”, “destruction”, “enslave”, “punish” en “retaliate”. Het vierde en laatste patroon verenigt de woorden die zich moeizaam laten onderbrengen in categorieën of waarvan de relatie met Rusland niet zonneklaar is. Dit betreft woorden als “fall”, “challenge” en “make”, maar ook “foreign”, “cold” en “even”. Net zoals bij de positieve patronen kunnen dit soort woorden de referenties verlevendigen, maar wordt hun bruikbaarheid ondermijnd door het gebrek aan samenhang. Onderzoeksvraag 3
Komen de verwijzingen naar Rusland en de gesignaleerde contexttermen en polaire woorden overeen met historische gebeurtenissen? Deze slotvraag combineert de uitkomsten van de voorgaande onderzoeksvragen en vergelijkt ze met de historische gebeurtenissen die zich in de periodes hebben voorgedaan. Hierdoor wordt inzichtelijk in welke mate de presidenten zich in hun toespraken uitlaten over de Russische betrokkenheid in de wereld. De vergelijkingen worden hierna per periode besproken. Periode 1 (1942-1946) bevat relatief weinig verwijzingen naar Rusland. Hoewel dit aantal niet significant verschilt van de andere periodes, komen de verwijzingen overeen met de verwachting: het land is een bondgenoot en geen primair gespreksonderwerp. De polaire woorden in de periode verschillen evenmin significant. Deze uitkomst is opmerkelijk: gezien de collegiale betrekkingen zouden de positieve woorden de overhand moeten hebben. Mogelijk worden de woorden geneutraliseerd door de geladen context van de Tweede Wereldoorlog. In periode 2 (1947-1955) is Rusland verworden tot vijand, maar toch leidt dit niet tot een groot aantal verwijzingen. Een oorzaak hiervan betreft vier toespraken van president Truman, uitgesproken tussen 1948 en 1950. In de toespraken wordt alleen onderhuids (“communism”), en dus onzichtbaar voor Styx, naar de Russen verwezen. Pas vanaf 1951, in reactie op het uitbreken van de Koreaanse oorlog, wordt het land weer bij naam genoemd. De contextterm “Korea” wordt overigens nauwelijks met Rusland geassocieerd. Dit geldt ook voor “NATO” en “Warsaw Pact”, ofschoon de organisaties in deze periode zijn opgericht. De polaire woorden doen zich duidelijker gelden, met name de negatieve. Weliswaar verschillen de negatieve woorden niet significant van de positieve, maar in geen van de andere periodes zijn ze zo talrijk. Periode 3 (1956-1974) verwijst van alle Koude Oorlog-periodes het minst naar Rusland. Dit is tot op zekere hoogte in lijn met de
Hoofdstuk 6: Historische resultaten
78
gebeurtenissen: zowel de détente, de aandacht voor Vietnam als de sluimerende conflicten tussen de protagonisten geven weinig aanleiding tot directe verwijzingen. Tegelijkertijd bestaat er geen significant verschil tussen de polaire woorden. Enerzijds is dit opvallend: in een periode zonder blijvende confrontaties zouden de positieve woorden de boventoon kunnen voeren. Anderzijds is dit niet opvallend: de periode kent momenten van escalatie, waardoor de positieve woorden niet de overhand kunnen krijgen. Dit lijkt overeen te komen met de achterliggende woorden. Nadere beschouwing onthult dat de negatieve woorden ― vooral toptermen als “threat” en “war” ― voortkomen uit enkele toespraken van de presidenten Eisenhower en Kennedy. Het aandeel van de andere toespraken, met relatief weinig maar overwegend positieve woorden, wordt hierdoor beperkt. In periode 4 (1975-1980) wordt, ongeveer naar verwachting, het meest naar Rusland verwezen: het land is weer een nieuwsfactor geworden, zeker nu de oorlog in Vietnam is beëindigd. Tegelijkertijd hebben de polaire woorden in de periode een voornamelijk positieve connotatie, terwijl een pessimistischer toon was voorzien. Kennelijk zijn de ontwikkelingen niet ernstig of zichtbaar genoeg om scherpe bewoordingen te rechtvaardigen. Periode 5 (1981-1989) telt relatief veel verwijzingen naar Rusland. Dit correspondeert met de gebeurtenissen: de oorlog in Afghanistan en de interne politieke veranderingen maken Rusland tot een voornaam gespreksonderwerp. De veranderingen in het land hebben hun weerslag op de polariteit van de periode: positieve woorden komen significant vaker voor dan negatieve. Dit is een opmerkelijke uitkomst. Het staat haaks op het schrikbeeld van het evil empire, maar ook op de veelal beladen onderwerpen die ter tafel komen (zoals “mutual reduction of military forces”). De retoriek is klaarblijkelijk in staat om deze onderwerpen een positieve ondertoon te geven of in elk geval te neutraliseren. In periode 6 (1990-2004) is de Koude Oorlog voorbij en wordt er significant minder vaak naar Rusland verwezen. In enkele gevallen wordt het land gedurende twee of drie jaar zelfs niet aangeroerd. Toch lijkt dit de contexten niet wezenlijk te veranderen; termen als “nuclear”, “missile” en “weapons” blijven met het land geassocieerd worden. De polaire woorden in de periode verschillen eveneens significant: positieve woorden komen vaker voor dan negatieve. Maar in tegenstelling tot de contexttermen veranderen deze woorden wel enigszins, vooral de positieve. Zo is “peace” voor het eerst sinds periode 3 niet langer het meest voorkomende positieve woord; die positie is overgenomen door “help”. Daarnaast komt een atypisch woord als “encourage” ineens opmerkelijk vaak voor in de nabijheid van Rusland.
Hoofdstuk 6: Historische resultaten
79
Conclusies Met de beantwoording van de onderzoeksvragen kan de balans over de bruikbaarheid van Styx opgemaakt worden. Hiervoor zijn drie observaties geformuleerd over de verwijzingen, de polaire woorden en de contexttermen: Ten eerste vormt het aantal verwijzingen naar het analysethema een goede indicator voor historische gebeurtenissen. Het corpus laat een samenhang zien tussen het doen en laten van Rusland en de aandacht die Amerikaanse presidenten eraan schenken. Toespraken die hier niet aan voldoen en onverwacht meer of minder vaak naar het land verwijzen, zijn te herleiden tot bepaalde presidenten en hun taalgebruik. Een kanttekening is evenwel dat de gebeurtenissen geen significante invloed op de verwijzingen hebben; op een uitzondering na tonen de periodes identieke uitkomsten. Ten tweede onthullen de polaire woorden vrij duidelijke patronen die een indruk geven van de manier waarop er over het analysethema gesproken wordt. Daar staat tegenover dat deze patronen soms moeizaam aan het licht komen: Styx biedt te weinig ondersteuning om ruis te filteren en het grote aantal woorden beter behapbaar te maken. Daarnaast kunnen polaire woorden niet eenvoudig aan historische gebeurtenissen gerelateerd worden; zowel de positieve als de negatieve woorden verschillen regelmatig van de verwachting. Dit kan echter een corpus-afhankelijk gevolg zijn en geen universeel gegeven. Enerzijds is Rusland immers een opponent dan wel een weerbarstige bondgenoot. Dit maakt het een ietwat eenzijdig analysethema, met betrekkelijk onveranderlijke polaire woorden. Anderzijds zijn de toespraken politiek van aard. De polariteit is hierdoor onderhevig aan het beeld dat de presidenten neerzetten ― een beeld dat niet noodzakelijk correspondeert met de ontwikkelingen. Ten derde geven de contexttermen een extra dimensie aan het analysethema. In het licht van de historische gebeurtenissen attenderen ze zelfs op een aantal opmerkelijkheden. Daarentegen zorgen de termen niet per se voor een beter begrip van de polaire woorden; daarvoor is vaak te onduidelijk welke contexten geassocieerd worden met welke polaire woorden. Een andere beperking komt voort uit de aanzienlijke hoeveelheid contexttermen. De frequentietabellen van Styx zijn ontoereikend om deze te analyseren. Kortom, ondanks het houvast dat de termen kunnen bieden voor een analyse, levert de applicatie niet de gewenste out of the box-resultaten.
Hoofdstuk 6: Historische resultaten
80
Deze woorden beëindigen de bespreking van de historische resultaten. In het volgende hoofdstuk wordt deze bespreking gebruikt voor het slotstuk van de scriptie: de conclusies.
1
http://www.kremlin.ru/eng/speeches/2007/04/26/1209_type70029_125494.shtml en http://extra.volkskrant.nl/opinie/commentaar.php?id=712 2 Voor de indeling en bespreking zijn (Van Rossem, 2001: 148-184; 231-259; 317-328; 372-385; 402-407; 469-486) en (Dittrich, 1991: 120-126; 193-217; 243-250) geraadpleegd. 3 http://www.lexically.net/wordsmith/ 4 De STTR is berekend met de standaardinstellingen van WordSmith. Woorden zijn hierdoor onder meer geteld met een N boundary van 1000. Voor meer informatie: http://www.lexically.net/downloads/version4/html/index.html?type_token_ratio_proc.htm 5 Overeenkomstig de steekproef in hoofdstuk 5, is de applicatie uitgegaan van een analysecontext van één zin. Alle contexttermen en polaire woorden die ter beantwoording van de onderzoeksvragen besproken worden, komen hierdoor in dezelfde zin voor als de zoektermen. 6 Merk op dat deze benadering niet verfijnd is omdat enkel de zoektermen meetellen. Andersoortige verwijzingen naar Rusland (bijvoorbeeld “our task is to convince them that (…)” of “It’s using its great military power (…)”) worden niet geregistreerd, ofschoon ze het aandeel van Rusland in de toespraken wel doen toenemen. 7 Daarnaast is gebruik gemaakt van (McClave, 2003: 575-581; 587-590) voor de uitwerking van Kruskal-Wallis en Wilcoxon. 8 De frequenties hebben een scheefheid van 3,453 (SE = 0,249) en een kurtosis van 13,346 (SE = 0,493). Beide uitkomsten vallen buiten het toegestane bereik van twee keer hun standaardfout. 9 Door het ontbreken van normaliteit kan Kruskal-Wallis niet uitgaan van de relatieve frequenties. Als alternatief gebruikt de toets rangnummers. Deze nummers worden vergaard door een lijst te genereren met daarin de frequenties van alle toespraken, ongeacht de periode waartoe ze behoren. Vervolgens wordt de lijst oplopend gesorteerd en krijgt elke frequentie een rangnummer toegekend op basis van haar lijstpositie; de kleinste frequentie correspondeert met nummer 1 en de grootste met nummer 94, de populatieomvang. (Wel verloopt de tussenliggende rangnummering iets grilliger omdat er wordt gecorrigeerd op gelijke meetwaardes.) Aansluitend worden de nummers herleid tot hun periodes en periodegewijs opgeteld tot rangnummersommen. Deze sommen worden gebruikt om de periodes te vergelijken. 10 Een aanvullende verklaring voor het aantal unieke termen kan het ontbreken van een stemmer zijn om woorden tot hun stam terug te brengen. Contexten als “Russian” en “Russians” hadden zo als één term geregistreerd kunnen worden. Gebruik van een stemmer is in de ontwerpfase wel overwogen, maar uiteindelijk niet meegenomen; de invloed op de contexttermen was onduidelijk en de directe relevantie voor de vraagstelling van de scriptie ontbrak. 11 De niet-informatieve bijwoorden, voorzetsels en bijvoeglijke naamwoorden in de frequentietabel zijn verwijderd (“in”, “new”, “of”, “other”, “own”, “with”). Daarnaast is de tabel niet gebalanceerd. Een balans kan alleen verkregen worden door de termen na een vaste positie af te kappen, maar dit leidt tot ongewenste uitsluiting van andere termen met gelijke frequenties.
Hoofdstuk 6: Historische resultaten
81
12
De patronen zijn vastgesteld op basis van de aanwezigheid van termen in de tabel, niet op basis van hun frequentie. Hiervoor is gekozen omdat de frequenties niet gecorrigeerd konden worden aan de hand van het totale aantal woorden in elke toespraak; Styx was niet voorbereid op een dergelijke correctie en handmatige berekening zou disproportioneel veel tijd vergen. De frequenties in de tabel zijn dan ook absolute en geen relatieve waardes en zouden alleen onder voorwaarden gebruikt mogen worden om periodes onderling mee te vergelijken. 13 Er zijn ook andere benaderingen. Zoektermen kunnen bijvoorbeeld per zin ― en niet per toespraak ― aan de polaire woorden gerelateerd worden. Niettemin, ofschoon dit tot accurate uitkomsten leidt, zijn deze uitkomsten sterk afhankelijk van de opbouw van de betreffende zinnen (met veel of weinig zoektermen en veel of weinig polaire woorden). Verwerking per toespraak, op een hoger aggregatieniveau, is minder fijnzinnig maar tegelijkertijd evenwichtiger. 14 Een alternatieve insteek was geweest om de frequenties te vergelijken met de polariteit in het gehele corpus. Met andere woorden: verschilt het polaire taalgebruik over Rusland met dat van andere onderwerpen? 15 De scheefheid van de polaire frequenties in periodes 1 en 2 is beperkt; respectievelijk 0,121 (SE = 0,637) en 0,585 (SE = 0,441). Bij periodes 3, 4, 5 en 6 komt de asymmetrie van de verdeling sterker naar voren; respectievelijk 0,897 (SE = 0,304), 2,034 (SE = 0,597), 1,158 (SE = 0,403) en 1,547 (SE = 0,383). Omwille van de methodische eenduidigheid worden ook de periodes 1 en 2 verdelingsvrij getoetst. 16 De gevolgen van niet-parametrische toetsing spelen hier op. In periode 4, bijvoorbeeld, zijn er meer positieve dan negatieve woorden. Uit de achterliggende gegevens blijkt echter dat dit verschil ontspruit aan specifieke toespraken; het numerieke overwicht van de positieve woorden is dan ook niet structureel. Wilcoxon nivelleert dit overwicht evenwel tijdens het toekennen van rangnummers: een toespraak met veel positieve woorden krijgt weliswaar een hoog rangnummer, maar tegelijkertijd overklast dit nummer de negatieve rangnummers niet zo sterk als bij een frequentiegebaseerde verhouding. 17 De positieve frequenties hebben een scheefheid van 0,685 (SE = 0,249) en een kurtosis van 0,037 (SE = 0,493). Voor de negatieve frequenties is dit respectievelijk 1,568 (SE = 0,249) en 3,170 (SE = 0,493).
Hoofdstuk 6: Historische resultaten
82
Hoofdstuk 7:
Conclusies IN DE VOORGAANDE HOOFDSTUKKEN is een antwoord gezocht op de vraagstelling van de scriptie: “Kunnen polaire woorden duidelijk maken wat de houding van een auteur is over een bepaald onderwerp?”. Ter beantwoording van deze vraagstelling is Styx ontwikkeld, een applicatie waarmee polaire woorden en contexttermen geëxtraheerd kunnen worden. De bruikbaarheid en betrouwbaarheid van de applicatie is vervolgens vastgesteld met een experiment. Voor het experiment is een corpus met toespraken van Amerikaanse presidenten samengesteld en onderzocht met analysethema ‘Rusland’. In dit hoofdstuk komen de bevindingen van het experiment samen en worden conclusies getrokken. De conclusies hebben betrekking op drie onderdelen: de polaire woorden, de contexttermen en het corpus. Deze onderdelen worden hierna besproken.
Polaire woorden Polaire woorden kunnen tot op zekere hoogte duidelijk maken wat de houding van een auteur is over een bepaald onderwerp. Uit het experiment blijkt dat de woorden gecompileerd kunnen worden tot patronen die een indruk geven van de manier waarop er over het analysethema gesproken wordt. De patronen onthullen overeenkomsten en verschillen die zich, zowel op woord- als geaggregeerd niveau, voordoen in het polaire taalgebruik van auteurs. Dit laat onverlet dat de patronen vaak weinig opzienbarend zijn. Karakteristieke positieve en negatieve woorden komen moeizaam aan
Hoofdstuk 7: Conclusies
83
het licht en dan ook nog op beperkte schaal. Bovendien zijn de gesignaleerde polaire trends in statistisch opzicht veelal niet-significant. Tekortkomingen
De applicatie slaagt er onvoldoende in om de polaire woorden ten volle te benutten. Er zijn drie tekortkomingen die aangepakt moeten worden om de kwaliteit en inzichtelijkheid van de resultaten te vergroten. In de eerste plaats is de betrouwbaarheid van de resultaten niet optimaal. Volgens de evaluatie in hoofdstuk 5 worden de resultaten aangetast doordat de applicatie geen onderwerpen in zinnen kan onderscheiden of veranderingen in polariteit kan detecteren. Grondiger zinsanalyse met natuurlijke taalverwerking kan dit probleem verhelpen. In de tweede plaats zijn de resultaten niet gevrijwaard van ruis. Hoofdstuk 6 heeft laten zien dat de applicatie relatief veel polaire woorden extraheert die geen duidelijke relatie met het analysethema hebben (“extraordinary”, “need”). Meer en betere filters, zoals stopwoordenlijsten en wegingsalgoritmes, kunnen de extractie verbeteren. In de derde plaats is de presentatie van de resultaten ontoereikend, zoals geconstateerd in hoofdstuk 6. Polaire woorden worden individueel getoond, waardoor de hoofdlijnen niet tot uiting komen. Dit verergert als er veel unieke woorden zijn en de frequentietabellen weinig grip geven. Classificatie kan uitkomst bieden door gerelateerde voorkomens (“enslave”, “subjugate”) automatisch te groeperen en te kwantificeren. Verbeteringen
Naast het oplossen van de tekortkomingen zijn er vijf suggesties die opgepakt kunnen worden om de applicatie verder te verbeteren. Deze worden hierna ter discussie voorgelegd. In de eerste plaats komen dubbelzinnigheden voor in de polaire woorden (vergelijk “polish” en “Polish”). Hoewel dit, voor zover bekend, geen grote gevolgen heeft gehad voor de betrouwbaarheid van de resultaten, loont het de moeite hiernaar te kijken en een vorm van disambiguatie te implementeren. Dit biedt ook mogelijkheden voor de zoektermen. Ambigue termen worden nu noodgedwongen geweerd, ongeacht hun onderzoeksurgentie. Een verfijnde zinsontleding kan deze beperking versoepelen (zie “Moscow” ― wordt de stad of de Sovjetleiding bedoeld?). In de tweede plaats bevestigt het corpus de Pollyanna Hypothesis uit hoofdstuk 2: het taalgebruik is overwegend positief. Toch is dit geen
Hoofdstuk 7: Conclusies
84
weerspiegeling van de soms precaire politieke verhoudingen. Mogelijk dienen de polaire woorden dan ook anders te worden genormeerd dan op basis van frequentie. Elk positieve woord kan bijvoorbeeld een 1 krijgen en elk negatieve woord een 2. De som van deze scores geeft vervolgens de polaire impact weer. In de derde plaats kan overwogen worden deze polaire impact te relateren aan het aantal voorkomens van het analysethema. Ter illustratie: het corpus kent relatief veel toespraken zonder verwijzingen naar Rusland. Dat kan een positief signaal zijn; kennelijk is er geen aanleiding om de opponent te benoemen. De aan- of afwezigheid van het analysethema kan dus evenveel zeggen over de polariteit als de polaire woorden zelf. In de vierde plaats kunnen de polaire gradaties verfijnd worden. Momenteel zijn woorden positief of negatief, maar is onbekend in welke mate. Connotaties kunnen echter verschillen; “friendship” is ruimhartiger dan “partnership”. Deze verschillen kunnen onthuld worden door elk woord een gewicht te geven, van zeer positief (+3) tot zeer negatief (-3). Idealiter zou hiervoor een bestaande database met classificatiegegevens gebruikt kunnen worden. In de vijfde plaats zou het polaire vocabulaire van Styx, ontleend aan de woordenlijst van General Inquirer, nader beschouwd kunnen worden. Het onderzoek heeft enkele afleidingen opgeleverd die niet in de lijst voorkomen. “Repression”, bijvoorbeeld, is niet herkend, terwijl “repress” maar ook “oppress” en “oppression” wel bekend zijn. Een revisie kan duidelijkheid verschaffen over de compleetheid van de lijst.
Contexttermen Contexttermen vormen een verrijking voor de applicatie. De termen zijn doorgaans informatieve samenstellingen die een descriptieve dimensie aan de resultaten toevoegen (“land-based multiple-warhead ballistic missiles”). Ook blijkt uit het experiment dat de termen een ― soms opmerkelijk ― beeld geven van het kader waarin het analysethema en de polaire woorden gebezigd worden. Desondanks zijn de termen geen fait accompli en is de functionaliteit van de applicatie vatbaar voor verbetering. In de eerste plaats dient de betrouwbaarheid van de resultaten aangescherpt te worden. De evaluatie heeft aangetoond dat bepaalde contexttermen, door het ontbreken van onderwerpsherkenning, ten onrechte aan het analysethema worden toegekend. Een grondiger zinsanalyse kan dit probleem verhelpen. In de tweede plaats dient de samenhang tussen contexttermen en polaire woorden versterkt te worden. Volgens de oorspronkelijke
Hoofdstuk 7: Conclusies
85
doelstelling moeten de termen duidelijk maken waarom polaire woorden geassocieerd worden met het analysethema. Dit lukt echter met moeite. Met een minutieuzere extractie, waarbij woorden niet langer op document- maar op zinsniveau worden onthouden, kan de samenhang behouden blijven. In de derde plaats dient de ruis in de resultaten verwijderd te worden. De applicatie extraheert relatief veel onbestemde termen, hoe fraai ze ook kunnen zijn (“polite terminology”, “thoughtful citizen”). Stopwoordenlijsten en wegingsalgoritmes kunnen hiervoor een oplossing bieden. In de vierde plaats dient de vorm van de contexttermen aangepast te worden. Termen bestaan veelal uit samengestelde woorden die niet tot hun recht komen in frequentietabellen en ongeschikt zijn voor kwantitatieve analyse. In plaats daarvan dienen de afzonderlijke woorden verwerkt te worden in tabellen en de samenstellingen te worden gebruikt voor kwalitatieve analyse.
Corpus Het corpus met toespraken van presidenten heeft een waardevolle bijdrage geleverd aan het signaleren van de sterke en zwakke punten van de onderzoeksopzet en applicatie. Bovendien heeft het experiment laten zien dat het corpus, zeker in informatiekundig-historisch perspectief, interessant studiemateriaal is voor sentiment analysis. Toch moeten er ook enkele nuances aangebracht worden. In de eerste plaats zijn de historische resultaten van het onderzoek gebaseerd op een analysecontext van één zin, de zin waarin Rusland bij naam wordt genoemd. Hoewel deze keuze het onderzoek heeft vereenvoudigd, geldt dit ook voor de gevolgtrekkingen. Zie bijvoorbeeld de vaststelling dat Korea nauwelijks voorkomt in relatie tot de Russen. Niettemin kan deze relatie wel degelijk bestaan in zinnen waarin Rusland met een voornaamwoord wordt aangeduid (“they”, “its leaders”) of met andersoortige termen wordt benoemd (“communists”). Styx heeft dergelijke verwijzingen niet bestudeerd. In de tweede plaats toont Rusland een buitengewoon grillig verloop in het corpus; de ene toespraak heeft veel tokens, de andere geen. Daarom zijn de resultaten onderworpen aan niet-parametrische toetsen. Deze toetsen kunnen geen gebruik maken van de feitelijke meetwaardes en zijn minder krachtig dan hun parametrische tegenhangers. Mogelijk ontplooit een ander analysethema een ander verloop en kan bij statistische toetsing de onderliggende verdeling wel gebruikt worden.
Hoofdstuk 7: Conclusies
86
In de derde plaats heeft het corpus een politiek-diplomatiek karakter. Hierdoor is het taalgebruik meerduidig en moeilijker te analyseren. Daarnaast benutten presidenten niet de volle breedte van het polaire spectrum; laaiend enthousiasme en defaitisme, bijvoorbeeld, worden niet snel tentoongespreid. Dit kan een verklaring zijn voor de bescheiden polaire patronen die zijn gevonden. Analysethema Rusland kan dit versterkt hebben: het thema is te eenzijdig gebleken om de veronderstelde polaire trends te kunnen waarnemen. Een nieuw onderzoek kan achterhalen of een ander thema of corpus zich anders gedraagt.
Tot besluit Kunnen polaire woorden duidelijk maken wat de houding van een auteur is over een bepaald onderwerp? Tot op zekere hoogte wel: het experiment heeft laten zien dat polaire woorden belangrijke aanwijzingen verschaffen voor het duiden van de houding van een auteur. Daar staat tegenover dat de gekozen onderzoeksopzet en implementatie ontoereikend zijn gebleken om de vraagstelling zonder omhaal te kunnen beantwoorden. Voor een overtuigender antwoord dient de applicatie te worden aangepast. De probleemanalyses in deze scriptie bieden verschillende handvaten om tot de gewenste verbetering te komen en Styx te gebruiken voor toekomstig onderzoek.
Hoofdstuk 7: Conclusies
87
Hoofdstuk 8:
Bibliografie 1. Allen, Jamie, Don Foster enlightens readers with ‘Author Unknown’. Gepubliceerd op CNN.com (6 december 2000). URL: http://archives.cnn.com/2000/books/news/12/06/foster.anonymous 2. Baarda, D.B. en M.P.M. de Goede, Basisboek Methoden en Technieken: praktische handleiding voor het opzetten en uitvoeren van onderzoek, Stenfert Kroese, Houten (1997). 3. Bolasco, Sergio, Francesca della Ratta-Rinaldi, Experiments on semantic categorisation of texts: analysis of positive and negative dimension. In: Journées internationales d’Analyse statistique des Données Textuelles (2004). URL: http://www.cavi.univparis3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_018.pdf 4. Castro, Fidel, Cuba and the Nazi-Fascism. Uitgesproken op 1 mei 2003 te Havana ter gelegenheid van de Dag van de Arbeid. URL: http://www.cuba.cu/gobierno/discursos/2003/ing/f010503i.html 5. Digitext, Diction 5.0 User’s Manual, Digitext, Inc., Austin, Texas (2000). URL: http://www.dictionsoftware.com/files/dictionmanual.pdf 6. Dittrich, Z.R. en A.P. van Goudoever, De geschiedenis van de Sovjetunie, SDU Uitgeverij, ‘s-Gravenhage (1991). 7. Garrad, Mark W., Computer Aided Text Analysis in Personnel Selection, PhD-thesis, School of Applied Psychology, Griffith University (2003). URL: http://www4.gu.edu.au:8080/adt-root/uploads/approved/adtQGU20040408.093133/public/02Whole.pdf 8. Hart, Roderick P., Campaign Talk: Why Elections Are Good for Us, Princeton University Press, New Jersey (2000). Het eerste hoofdstuk is beschikbaar via http://www.pupress.princeton.edu/chapters/s6797.pdf
Hoofdstuk 8: Bibliografie
88
9. Hogenraad, Robert, What the words of war can tell us about the risk of war. In: Peace and Conflict: Journal of Peace Psychology (nummer 11(2), 2005): blz. 137-151. URL: http://www.psor.ucl.ac.be/main_staff/PAC04010ms.pdf 10. Hurst, Matthew en Kamal Nigam, Retrieving Topical Sentiments from Online Document Collections. In: Document Recognition and Retrieval XI (2004): blz. 27-34. URL: http://www.kamalnigam.com/papers/polarityDRR04.pdf 11. Kaid, Lynda Lee en Anne Johnston Wadsworth, Content Analysis. In: Measurement of communication behavior, Longman, New York (hoofdstuk 10, 1989): blz 197-217. URL: http://www.udel.edu/communication/web/faculty/signorielli/259685.pdf 12. Kim, Joohoan, Killing and Dying in the Newspapers: A Content Analysis on New York Times and New York Newsday, paper, The Annenberg School for Communication, University of Pennsylvania (1994). URL: http://web.archive.org/web/19970715014459/http://www.cis.upenn.edu/~ sjokim/killing.txt. 13. Kloptchenko, A., C. Magnusson, B. Back, A. Visa en H. Vanharanta, Mining Textual Contents of Quarterly Reports, TUCS Technical Report No 515, Turku Centre for Computer Science (2002). URL: http://www.tucs.fi/publications/attachment.php?fname=TR515.pdf 14. Lim, Elvin T., Five Trends in Presidential Rhetoric: An Analysis of Rhetoric from George Washington to Bill Clinton. In: Presidential Studies Quarterly 32 (nummer 2, juni 2002). URL: http://www.personal.utulsa.edu/~elvinlim/5Trends.pdf 15. Lowe, Will, Software for content analysis: A review, Report for the Identity Project, Harvard University (2002). URL: http://people.iq.harvard.edu/~wlowe/Publications/rev.pdf 16. McClave, J.T., P.G. Benson en T. Sencich, Statistiek: een inleiding voor het hoger onderwijs, Pearson Education, Amsterdam (2003). 17. Miller, M. Mark en Bonnie P. Riechert, Identifying Themes via Concept Mapping: A New Method of Content Analysis, paper submitted for presentation to the Theory and Methodolgy Division, Association for Education in Journalism and Mass Communication Annual Meeting, University of Tennessee, Knoxville (augustus 1994). URL: http://darkwing.uoregon.edu/~vburris/soc613/miller.pdf 18. Morkevičius, Vaidas, Limits of Quantitative Content Analysis in Small-N Situations: Problems of Measurement in Estimating Policy Positions from Party Documents, paper, Public Policy Research Centre, Kaunas University of Technology (2003). URL: www.socforumas.lt/files/articles/limitsofqca.pdf.
Hoofdstuk 8: Bibliografie
89
19. Nasukawa, Tetsuya en Jeonghee Yi, Sentiment Analysis: Capturing Favorability Using Natural Language Processing. In: Proceedings of the Second International Conference on Knowledge Capture, New York (2003): blz. 70-77. URL: http://patty.isti.cnr.it/~esuli/research/sentiment/Nasukawa03.pdf 20. Pang, Bo, Lillian Lee en Shivakumar Vaithyanathan, Thumbs up? Sentiment Classification using Machine Learning Techniques. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (2002): blz. 79-86. URL: http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf 21. Palmquist, Mike (Red.), Carol Busch, Paul S. De Maret, Teresa Flynn, Rachel Kellum, Sheri Le, Brad Meyers, Matt Saunders en Robert White, Writing@CSU: Content Analysis, Colorado State University, Department of English (2005). URL: http://writing.colostate.edu/guides/research/content/ 22. Peters, Gerhard en John Woolley, The American Presidency Project, University of California, Santa Barbara (2005). URL: http://www.presidency.ucsb.edu/ 23. Ray, Leonard, A Natural Sentences Approach to the Computer Coding of Party Manifestos, conference paper European Consortium for Political Research Joint Sessions, Mannheim (1999). URL: http://www.essex.ac.uk/ecpr/events/jointsessions/paperarchive/mannheim/w5 /ray.pdf 24. Richardson, Glenn W. Jr., Presidents and Political Time: Evidence from Inaugural Addresses, paper prepared for presentation at the 61st Annual Meeting of the Midwest Political Science Association, Chicago (april 2003). URL: http://mpsa.indiana.edu/conf2003papers/1032114904.pdf 25. Rossem, Maarten van, De Verenigde Staten in de twintigste eeuw, Sdu Uitgevers, Den Haag (2001). 26. Salvetti, Franco, Stephen Lewis en Christoph Reichenbach, Automatic Opinion Polarity Classification of Movie Reviews. In: Colorado Research in Linguistics, University of Colorado, Boulder (nummer 17, nummer 1, juni 2004). URL: http://www.colorado.edu/ling/CRIL/Volume17_Issue1/paper_SALVET TI_LEWIS_REICHENBACH.pdf 27. Schneider, A. en G.W. Domhoff, The Quantitative Study of Dreams. Gepubliceerd op Dreamresearch.net (2005). URL: http://psych.ucsc.edu/dreams/Info/content_analysis.html. 28. Schonhardt-Bailey, Cheryl, Measuring Ideas More Effectively: An Analysis of Bush and Kerry’s National Security Speeches. In: Political Science and Politics (oktober 2005). URL:
Hoofdstuk 8: Bibliografie
90
29.
30.
31.
32. 33.
34.
35.
36.
37.
38.
http://personal.lse.ac.uk/schonhar/Bush%20%20Kerry%20article%20for%2 0PS%20_May%202005_.pdf Slatcher, R.B., C.K. Chung, J.W. Pennebaker, L.D. Stone, Winning words: Individual differences in linguistic style among U.S. presidential and vice presidential candidates. In: Journal of Research in Personality (nummer 41, 2007): blz. 63-75. URL: http://homepage.psy.utexas.edu/homepage/Students/Slatcher/cv/winningword s_jrp.pdf Spertus, Ellen, Smokey: Automatic Recognition of Hostile Messages. In: Proceedings of Innovative Applications of Artificial Intelligence, Providence, Rhode Island (1997): blz. 1085-1065. URL: http://people.mills.edu/spertus/Smokey/smokey.pdf Stemler, Steve, An overview of content analysis. Gepubliceerd op Practical Assessment, Research and Evaluation (2001). URL: http://PAREonline.net/getvn.asp?v=7&n=17 Stone, P.J., Website for the General Inquirer (laatste omvangrijke revisie: 12 september 2002). URL: http://www.wjh.harvard.edu/~inquirer/ Tarosky, Adam R., Presidential Rhetoric in Times of War: A Rhetorical Analysis of Major Wartime Speeches, paper voor het Center for the Study of the Presidency, Washington (2003). URL: http://www.thepresidency.org/pubs/Fellows03papers/sec3/section3.pdf Toutanova, Kristina, Dan Klein, Christopher D. Manning en Yoram Singer, Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In: Proceedings of the 2003 Human Language Technology Conference-NAACL, Edmonton (mei-juni 2003): blz. 173-180. URL: http://acl.ldc.upenn.edu/N/N03/N03-1033.pdf Turney, Peter D., Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia (juli 2002): blz. 417-424. URL: http://iititi.nrc-cnrc.gc.ca/iit-publications-iti/docs/NRC-44946.pdf Weber, Robert Philip, Basic Content Analysis, Sage Publications, Beverly Hills (1985). Helaas beperkt en onvolledig beschikbaar op Internet. URL: http://www.udel.edu/communication/web/faculty/signorielli/259689.pdf Wiebe, Janyce, Theresa Wilson en Matthew Bell, Identifying Collocations for Recognizing Opinions. In: Proceedings of ACL/EACL 2001 Workshop on Collocation (2001). URL: http://www.cs.pitt.edu/~wiebe/pubs/papers/acl01wkshop.ps Wilson, Andrew, Towards an Integration of Content Analysis and Discourse Analysis: The Automatic Linkage of Key Relations in Text, UCREL
Hoofdstuk 8: Bibliografie
91
Technical Paper 3, Linguistics Department, Lancaster University (1993). URL: http://www.comp.lancs.ac.uk/ucrel/papers/techpaper/vol3.pdf 39. Whitelaw, Casey, Navendu Garg en Shlomo Argamon, Using Appraisal Taxonomies for Sentiment Analysis. In: Proceedings of MCLC05, Second Midwest Computational Linguistic Colloquium, Ohio State University, Columbus (2005). URL: http://lingcog.iit.edu/doc/appraisal_sentiment.pdf
Hoofdstuk 8: Bibliografie
92
Bijlagen
Bijlagen
93
Bijlage 1: Toespraken corpus Franklin Roosevelt: 1. State of the Union 1942 http://www.presidency.ucsb.edu/ws/index.php?pid=16253 2. State of the Union 1943 http://www.presidency.ucsb.edu/ws/index.php?pid=16386 3. State of the Union 1944 http://www.presidency.ucsb.edu/ws/index.php?pid=16518 4. Inaugural Address 1945 http://www.presidency.ucsb.edu/ws/index.php?pid=16607 5. State of the Union 1945 http://www.let.rug.nl/usa/P/fr32/speeches/su45fdr.htm Harry Truman: 6. State of the Union 1946 http://www.let.rug.nl/usa/P/ht33/speeches/su46hst.htm 7. State of the Union 1947 http://www.presidency.ucsb.edu/ws/index.php?pid=12762 8. State of the Union 1948 http://www.presidency.ucsb.edu/ws/index.php?pid=13005 9. Inaugural Address 1949 http://www.let.rug.nl/usa/P/ht33/speeches/truman.htm 10. State of the Union 1949 http://www.presidency.ucsb.edu/ws/index.php?pid=13293 11. State of the Union 1950 http://www.presidency.ucsb.edu/ws/index.php?pid=13567 12. State of the Union 1951 http://www.presidency.ucsb.edu/ws/index.php?pid=14017 13. State of the Union 1952 http://www.presidency.ucsb.edu/ws/index.php?pid=14418 14. State of the Union 1953 http://www.presidency.ucsb.edu/ws/index.php?pid=14379 15. Farewell Address 1953 http://www.let.rug.nl/usa/P/ht33/speeches/farewell.htm Dwight Eisenhower: 16. Inaugural Address 1953 http://www.let.rug.nl/usa/P/de34/speeches/eis1.htm 17. State of the Union 1953
Bijlage 1: Toespraken corpus
94
18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28.
http://www.presidency.ucsb.edu/ws/index.php?pid=9829 Atoms for Peace 1953 www.americanrhetoric.com/speeches/dwightdeisenhoweratomsforpeace.html State of the Union 1954 http://www.presidency.ucsb.edu/ws/index.php?pid=10096 State of the Union 1955 http://www.presidency.ucsb.edu/ws/index.php?pid=10416 State of the Union 1956 http://www.presidency.ucsb.edu/ws/index.php?pid=10593 Inaugural Address 1957 http://www.let.rug.nl/usa/P/de34/speeches/eis2.htm State of the Union 1957 http://www.presidency.ucsb.edu/ws/index.php?pid=11029 State of the Union 1958 http://www.presidency.ucsb.edu/ws/index.php?pid=11162 State of the Union 1959 http://www.presidency.ucsb.edu/ws/index.php?pid=11685 State of the Union 1960 http://www.presidency.ucsb.edu/ws/index.php?pid=12061 State of the Union 1961 http://www.presidency.ucsb.edu/ws/index.php?pid=12074 Farewell Address 1961 http://www.let.rug.nl/usa/P/de34/speeches/farew.htm
John F. Kennedy: 29. Inaugural Address 1961 http://www.let.rug.nl/usa/P/jk35/speeches/jfk.htm 30. State of the Union 1961 http://www.let.rug.nl/usa/P/jk35/speeches/jfk61.htm 31. State of the Union 1962 http://www.let.rug.nl/usa/P/jk35/speeches/jfk62.htm 32. Cuban Missile Crisis 1962 http://odur.let.rug.nl/~usa/P/jk35/cuba/cuba01.htm 33. State of the Union 1963 http://www.let.rug.nl/usa/P/jk35/speeches/jfk63.htm 34. Commencement Address 1963 http://www.presidency.ucsb.edu/ws/index.php?pid=9266 35. Ich bin ein Berliner 1963 http://odur.let.rug.nl/~usa/P/jk35/speeches/berliner.htm
Bijlage 1: Toespraken corpus
95
Lyndon Johnson: 36. State of the Union 1964 http://www.let.rug.nl/usa/P/lj36/speeches/su64lbj.htm 37. Inaugural Address 1965 http://www.let.rug.nl/usa/P/lj36/speeches/lbj.htm 38. State of the Union 1965 http://www.let.rug.nl/usa/P/lj36/speeches/su65lbj.htm 39. State of the Union 1966 http://www.let.rug.nl/usa/P/lj36/speeches/su66lbj.htm 40. State of the Union 1967 http://www.let.rug.nl/usa/P/lj36/speeches/su67lbj.htm 41. State of the Union 1968 http://www.let.rug.nl/usa/P/lj36/speeches/su68lbj.htm 42. State of the Union 1969 http://www.let.rug.nl/usa/P/lj36/speeches/su69lbj.htm Richard Nixon: 43. Inaugural Address 1969 http://www.let.rug.nl/usa/P/rn37/speeches/nixon1.htm 44. Vietnamization 1969 http://www.let.rug.nl/usa/P/rn37/speeches/vietnam.htm 45. State of the Union 1970 http://www.presidency.ucsb.edu/ws/index.php?pid=2921 46. State of the Union 1971 http://www.presidency.ucsb.edu/ws/index.php?pid=3110 47. State of the Union 1972 http://www.presidency.ucsb.edu/ws/index.php?pid=3396 48. Inaugural Address 1973 http://www.let.rug.nl/usa/P/rn37/speeches/nixon2.htm 49. State of the Union 1973 http://www.presidency.ucsb.edu/ws/index.php?pid=3996 http://www.presidency.ucsb.edu/ws/index.php?pid=4102 http://www.presidency.ucsb.edu/ws/index.php?pid=4112 http://www.presidency.ucsb.edu/ws/index.php?pid=4121 http://www.presidency.ucsb.edu/ws/index.php?pid=4134 http://www.presidency.ucsb.edu/ws/index.php?pid=4140 50. State of the Union 1974 http://www.presidency.ucsb.edu/ws/index.php?pid=4327 51. Resignation 1974 http://www.let.rug.nl/usa/P/rn37/speeches/resign.htm
Bijlage 1: Toespraken corpus
96
Gerald Ford: 52. State of the Union 1975 http://www.let.rug.nl/usa/P/gf38/speeches/su75grf.htm 53. State of the Union 1976 http://www.let.rug.nl/usa/P/gf38/speeches/su76grf.htm 54. State of the Union 1977 http://www.let.rug.nl/usa/P/gf38/speeches/su77grf.htm Jimmy Carter: 55. Inaugural Address 1977 http://www.let.rug.nl/usa/P/jc39/speeches/carter.htm 56. State of the Union 1978 http://www.let.rug.nl/usa/P/jc39/speeches/su78jec.htm 57. State of the Union 1979 http://www.let.rug.nl/usa/P/jc39/speeches/su79jec.htm 58. State of the Union 1980 http://www.let.rug.nl/usa/P/jc39/speeches/su80jec.htm 59. State of the Union 1981 http://www.let.rug.nl/usa/P/jc39/speeches/su81jec.htm 60. Farewell Address 1981 http://www.presidency.ucsb.edu/ws/index.php?pid=44516 Ronald Reagan: 61. Inaugural Address 1981 http://www.let.rug.nl/usa/P/rr40/speeches/reagan1.htm 62. State of the Union 1982 http://www.let.rug.nl/usa/P/rr40/speeches/su82rwr.htm 63. The Evil Empire 1982 http://www.presidency.ucsb.edu/ws/index.php?pid=41023 64. State of the Union 1983 http://www.let.rug.nl/usa/P/rr40/speeches/su83rwr.htm 65. State of the Union 1984 http://www.let.rug.nl/usa/P/rr40/speeches/su84rwr.htm 66. Pointe du Hoc 1984 http://www.americanrhetoric.com/speeches/rreaganddayaddress.html 67. Inaugural Address 1985 http://www.let.rug.nl/usa/P/rr40/speeches/reagan2.htm 68. State of the Union 1985 http://www.let.rug.nl/usa/P/rr40/speeches/su85rwr.htm 69. State of the Union 1986 http://www.let.rug.nl/usa/P/rr40/speeches/su86rwr.htm
Bijlage 1: Toespraken corpus
97
70. State of the Union 1987 http://www.let.rug.nl/usa/P/rr40/speeches/su87rwr.htm 71. Brandenburg Gate 1987 http://www.presidency.ucsb.edu/ws/index.php?pid=34390 72. State of the Union 1988 http://www.let.rug.nl/usa/P/rr40/speeches/su88rwr.htm 73. Farewell Address 1989 http://www.presidency.ucsb.edu/ws/index.php?pid=29650 George H.W. Bush: 74. Inaugural Address 1989 http://www.let.rug.nl/usa/P/gb41/speeches/bush.htm 75. Administration Goals 1989 http://www.presidency.ucsb.edu/ws/index.php?pid=16660 76. State of the Union 1990 http://www.let.rug.nl/usa/P/gb41/speeches/su90ghwb.htm 77. State of the Union 1991 http://www.let.rug.nl/usa/P/gb41/speeches/su91ghwb.htm 78. State of the Union 1992 http://www.let.rug.nl/usa/P/gb41/speeches/su92ghwb.htm Bill Clinton: 79. Inaugural Address 1993 http://www.let.rug.nl/usa/P/bc42/speeches/clinton1.htm 80. Administration Goals 1993 http://www.presidency.ucsb.edu/ws/index.php?pid=47232 81. State of the Union 1994 http://www.let.rug.nl/usa/P/bc42/speeches/sud94wjc.htm 82. State of the Union 1995 http://www.let.rug.nl/usa/P/bc42/speeches/sud95wjc.htm 83. State of the Union 1996 http://www.let.rug.nl/usa/P/bc42/speeches/sud96wjc.htm 84. Inaugural Address 1997 http://www.let.rug.nl/usa/P/bc42/speeches/clinton2.htm 85. State of the Union 1997 http://www.let.rug.nl/usa/P/bc42/speeches/sud97wjc.htm 86. State of the Union 1998 http://www.let.rug.nl/usa/P/bc42/speeches/sud98wjc.htm 87. State of the Union 1999 http://www.let.rug.nl/usa/P/bc42/speeches/sud99wjc.htm 88. State of the Union 2000
Bijlage 1: Toespraken corpus
98
http://www.let.rug.nl/usa/P/bc42/speeches/sud00wjc.htm 89. Farewell Address 2001 http://www.let.rug.nl/usa/P/bc42/speeches/farewell.htm George W. Bush: 90. Inaugural Address 2001 http://www.let.rug.nl/usa/P/gwb43/speeches/gwbush1.htm 91. Administration Goals 2001 http://www.presidency.ucsb.edu/ws/index.php?pid=29643 92. State of the Union 2002 http://www.let.rug.nl/usa/P/gwb43/speeches/state_union_2002.htm 93. State of the Union 2003 http://www.let.rug.nl/usa/P/gwb43/speeches/state_union_2003.htm 94. State of the Union 2004 http://www.let.rug.nl/usa/P/gwb43/speeches/state_union_2004.htm
Bijlage 1: Toespraken corpus
99
Bijlage 2: Uitkomsten evaluatie Evaluatievraag 1: Is de polaire term gerelateerd aan (één van) de zoektermen?
1. Absolute aantallen Ja
Nee
Totaal
Evaluator I
81
46
127
Evaluator II
104
23
127
Te lezen als: Van de 127 door Styx gesignaleerde polaire termen zijn volgens evaluator I 81 van deze termen gerelateerd aan een zoekterm en 46 termen niet. 2. Kruistabel Evaluator II
Evaluator I
Ja
Nee
Totaal
Ja
80
1
81
Nee
24
22
46
Totaal
104
23
127
3. Cohens kappa
Po = (80 + 22) / 127 = 0,8
(104 * 81 + 23 * 46) Pc = 127
2
(8424 + 1058) = 16129
Po – Pc K=
Bijlage 2: Uitkomsten evaluatie
0,59
=
0,51
0,21 =
1 – 0,59
= 16129
0,8 – 0,59 =
1 - Pc
9482 =
0,41
100
Evaluatievraag 2: Is de polaire term correct gecategoriseerd als positief of negatief?
1. Absolute aantallen Ja
Nee
Totaal
Evaluator I
57
23
80
Evaluator II
61
19
80
Te lezen als: Van de 80 polaire termen die volgens beide evaluators gerelateerd zijn aan een zoekterm, zijn volgens evaluator I 57 van deze termen correct gecategoriseerd en 23 termen niet. 2. Kruistabel Evaluator II
Evaluator I
Ja
Nee
Totaal
Ja
51
6
57
Nee
10
13
23
Totaal
61
19
80
3. Cohens kappa
Po = (51 + 13) / 80 = 0,8
(61 * 57 + 19 * 23) Pc = 80
2
(3477 + 437) = 6400
Po – Pc K=
Bijlage 2: Uitkomsten evaluatie
0,61
=
0,49
0,19 =
1 – 0,61
= 6400
0,8 – 0,61 =
1 - Pc
3914 =
0,39
101
Evaluatievraag 3: Is de contextterm gerelateerd aan (één van) de zoektermen?
1. Absolute aantallen Ja
Nee
Totaal
Evaluator I
215
68
283
Evaluator II
243
40
283
Te lezen als: Van de 283 door Styx gesignaleerde contexttermen zijn volgens evaluator I 215 van deze termen gerelateerd aan een zoekterm en 68 termen niet. 2. Kruistabel Evaluator II
Evaluator I
Ja
Nee
Totaal
Ja
212
3
215
Nee
31
37
68
Totaal
243
40
283
3. Cohens kappa
Po = (212 + 37) / 283 = 0,88
(243 * 215 + 40 * 68) Pc =
283
2
(52245 + 2720) = 80089
Po – Pc K=
Bijlage 2: Uitkomsten evaluatie
= 0,69 80089
0,88 – 0,69 =
1 - Pc
54965 =
0,19 = 0,61
= 1 – 0,69
0,31
102
Evaluatievraag 4: Is de contextterm informatief?
1. Absolute aantallen Ja
Nee
Totaal
Evaluator I
175
37
212
Evaluator II
191
21
212
Te lezen als: Van de 212 contexttermen die volgens beide evaluators gerelateerd zijn aan een zoekterm, zijn volgens evaluator I 175 van deze termen correct gecategoriseerd en 37 termen niet. 2. Kruistabel Evaluator II
Evaluator I
Ja
Nee
Totaal
Ja
173
2
175
Nee
18
19
37
Totaal
191
21
212
3. Cohens kappa
Po = (173 + 19) / 212 = 0,91
(191 * 175 + 21 * 37) Pc = 212
2
(33425 + 777) = 44944
Po – Pc K=
Bijlage 2: Uitkomsten evaluatie
= 0,76 44944
0,91 – 0,76 =
1 - Pc
34202 =
0,15 = 0,63
= 1 – 0,76
0,24
103
Bijlage 3: Frequentietabel contexttermen Periode 1
#
Periode 2
#
Periode 3
#
Periode 4
#
Periode 5
1
russia
9
soviet
77
soviet
90
soviet
43
soviet
116 russia
17
2
china
8
union
35
union
53
union
26
union
44
soviet
16
3
britain
7
world
26
nations
19
world
8
soviets
28
nuclear
11
4
war
7
free
24
united
18
afghanistan
7
afghanistan
19
former
7
5
churchill
4
nations
18
peace
16
states
7
forces
18
russian
7
6
great
4
rulers
13
world
16
united
7
military
18
missile
6
7
moscow
4
kremlin
10
soviets
15
military
6
world
16
states
6
8
russian
4
power
10
people
14
nuclear
6
nuclear
14
china
5
9
soviet
4
united
10
states
14
peace
6
relations
12
europe
5
10
stalin
4
military
9
threat
14
strategic
6
war
12
union
5
11
states
4
war
9
government
12
forces
5
people
11
weapons
5
12
union
4
atomic
8
nation
10
threat
11
13
united
4
russia
8
nuclear
10
gorbachev
10
war
10
invasion
10
14
Bijlage 3: Frequentietabel contexttermen
#
Periode 6
#
104
Bijlage 4: Frequentietabel positieve woorden Periode 1
#
Periode 2
#
Periode 3
#
Periode 4
#
Periode 5
#
Periode 6
#
1
great
4
free
24
peace
17
peace
6
peace
9
help
5
2
conquest
3
know
5
agreement
7
agreement
2
defense
7
encourage
3
3
tribute
3
give
4
treaty
6
basic
2
agreement
6
peace
3
4
allies
2
live
4
interest
5
great
2
security
5
peaceful
3
5
clear
2
meet
4
cooperation
4
meet
2
support
5
achieve
2
6
defense
2
peaceful
4
freedom
4
peaceful
2
allies
4
allies
2
7
heroic
2
allies
3
peaceful
4
religious
2
clear
4
cooperation
2
8
pay
2
great
3
allies
3
steady
2
essential
4
just
2
9
peace
2
peace
3
assistance
3
great
4
major
2
10
prime
2
security
3
clear
3
meet
4
meet
2
11
progress
2
willing
3
common
3
real
4
partnership
2
12
free
3
serious
4
prosperous
2
13
great
3
treaty
4
safeguard
2
14
hope
3
well
4
solution
2
15
important
3
stable
2
16
join
3
support
2
Bijlage 4: Frequentietabel positieve woorden
105
17
know
3
18
security
3
19
serious
3
20
well
3
21
willing
3
Bijlage 4: Frequentietabel positieve woorden
treaty
2
106
Bijlage 5: Frequentietabel negatieve woorden Periode 1
#
Periode 2
#
Periode 3
#
Periode 4
#
Periode 5
#
Periode 6
#
1
war
7
war
8
threat
14
threat
4
war
12
against
2
2
against
6
aggression
5
war
10
challenge
3
threat
11
cut
2
3
battle
1
against
4
against
6
war
3
against
8
eliminate
2
4
conspiracy
1
fall
4
make
6
competition
2
aggression
7
threat
2
5
cut
1
threat
4
defensive
5
danger
2
make
6
war
2
6
divert
1
iron
3
offensive
5
force
2
even
5
attack
1
7
doom
1
veto
3
let
4
aggression
1
challenge
3
cold
1
8
evil
1
collapse
2
cold
3
aggressive
1
conflict
3
cruel
1
9
force
1
destroy
2
desire
3
close
1
destruction
3
destruction
1
10
foreign
1
domination
2
foreign
3
cold
1
force
3
expense
1
11
formidable
1
even
2
need
3
conflict
1
fought
3
fall
1
12
fought
1
explosion
2
confrontation
1
need
3
hardship
1
13
front
1
force
2
costly
1
overwhelming
3
point
1
14
hit
1
make
2
crisis
1
press
1
15
illegal
1
revolution
2
cut
1
punish
1
16
incredible
1
subversion
2
destroy
1
show
1
Bijlage 5: Frequentietabel negatieve woorden
107
17
reject
1
18
retreat
19
terrible
dominate
1
strict
1
1
domination
1
turmoil
1
shortsighted
1
grave
1
violence
1
20
strife
1
hard
1
wrong
1
21
strike
1
mean
1
22
suspicious
1
overwhelming
1
23
throw
1
press
1
24
wreck
1
quarrel
1
25
race
1
26
radical
1
27
revolution
1
28
subjugate
1
29
suppression
1
Bijlage 5: Frequentietabel negatieve woorden
2
108
My will must be strong, to rise with a different light. My will must belong, I’m still pushing for different heights. And the wisps of the winds blow with the Styx again. The river runs red, and I’m left alone. “The River” ― THE TEA PARTY