Inhoudsanalyse met AmCAT Wouter van Atteveldt Nel Ruigrok Janet Takens Carina Jacobi 9 januari 2014
2
Inhoudsopgave
I
Automatische Inhoudsanalyse
1 Inhoudsanalyse met AmCAT 1.1 Query: de zoekopdracht . 1.2 Selectie media en periode 1.3 Functies ‘Query’ . . . . . . 1.4 Hypothese toetsing . . . .
5 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
7 . 8 . 9 . 9 . 16
2 Zoektermen formuleren 2.1 Booleaans zoeken . . . . . . . . . . . . . . . . 2.2 Synoniemen . . . . . . . . . . . . . . . . . . . 2.3 Wildcards . . . . . . . . . . . . . . . . . . . . 2.4 Homoniemen . . . . . . . . . . . . . . . . . . 2.5 Frases . . . . . . . . . . . . . . . . . . . . . . 2.6 Controle zoektermen . . . . . . . . . . . . . . 2.7 Overzicht AmCAT Keyword Search operatoren
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
23 23 24 25 26 26 27 30
3 Berekening van de betrouwbaarheid van zoektermen 3.1 Face validity . . . . . . . . . . . . . . . . . . . . . . 3.2 Betrouwbaarheid . . . . . . . . . . . . . . . . . . . 3.3 Precision . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
31 32 33 34 35
II
. . . .
. . . .
. . . .
Handmatige Inhoudsanalyse
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
39
4 Het uitvoeren van Handmatige Inhoudsanalyse 41 4.1 Populatie en meeteenheid . . . . . . . . . . . . . . . . . . . . . . 41 4.2 Steekproeftrekking . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3 Coderen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3
4
INHOUDSOPGAVE 4.4 Relatie handmatige en automatische analyse . . . . . . . . . . . . 48 4.5 Coderen: praktische tips . . . . . . . . . . . . . . . . . . . . . . . 49
5 Betrouwbaarheid van handmatige inhoudsanalyse 5.1 Procedure . . . . . . . . . . . . . . . . . . . . . 5.2 Overeenstemming . . . . . . . . . . . . . . . . 5.3 Verwarringstabellen . . . . . . . . . . . . . . . 5.4 Cohen’s Kappa . . . . . . . . . . . . . . . . . .
III
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Statistiek voor Inhoudsanalyse
51 52 53 54 56
59
6 Statistiek: basiskennis 6.1 Populatie en steekproef . . . . . . . . . . . . . . . . . . . . . . . . 6.2 De keuze van de steekproef . . . . . . . . . . . . . . . . . . . . . 6.3 Meetniveau van variabelen . . . . . . . . . . . . . . . . . . . . . .
61 61 63 65
7 De normaalverdeling, toetsen en significantie 7.1 De normale verdeling . . . . . . . . . . . . . . . . . . . 7.2 De standaardnormale verdeling . . . . . . . . . . . . . . 7.3 Toetsen van een hypothese m.b.v. een normaalverdeling 7.4 De wortel–n wet en betrouwbaarheid van de steekproef 7.5 De centrale limietstelling . . . . . . . . . . . . . . . . . . 7.6 Significantie en substantie . . . . . . . . . . . . . . . . .
67 67 69 70 72 72 73
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
8 Hypothesen toetsen voor nominale variabelen 75 8.1 Kruistabellen en chi-kwadraat . . . . . . . . . . . . . . . . . . . . 75 8.2 Praktijkvoorbeelden van nominale toetsen . . . . . . . . . . . . . 76 9 Toetsen voor ratiovariabelen: t-test 9.1 Independent samples t-test . . . . . . . . . . . . . . . . . . . . . 9.2 Paired samples t-test . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Verdelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81 81 84 87
10 Samenhang tussen ratiovariabelen: correlatie
89
Deel I
Automatische Inhoudsanalyse
5
HOOFDSTUK
1
Inhoudsanalyse met AmCAT
Inhoudsanalyse is een analysemethode waarmee op systematische wijze relevante concepten in een tekst worden gemeten. Geautomatiseerde inhoudsanalyse verwijst naar inhoudsanalyse met behulp van een computer. Het grote voordeel van geautomatiseerde inhoudsanalyse is dat computers snel en goed kunnen tellen. Daardoor kunnen met behulp van geautomatiseerde inhoudsanalyse grote hoeveelheden tekst snel geanalyseerd worden. Het nadeel van geautomatiseerde inhoudsanalyse is dat computers woorden kunnen herkennen en tellen, maar dat ze niet kunnen lezen. Computers kunnen woorden herkennen, maar geen concepten. Daarom is aan onderzoekers de taak om zoektermen te formuleren om de computer te instrueren om concepten te herkennen op basis van woordcombinaties. Geautomatiseerde inhoudsanalyse kan uitgevoerd worden in AmCAT met behulp van de Query functie. De mogelijkheden van de Query worden in dit hoofdstuk besproken. U kunt inloggen op AmCAT met een browser, bijvoorbeeld Firefox of Google Chrome. U gaat daarvoor naar het adres: http://amcat.nl. Links ziet u invulvelden waar u de aan u verstrekte username en password kunt invoeren om in te loggen. Nadat u bent ingelogd komt u in het hoofdscherm van AmCAT. De Query functie kunt u bereiken door eerst uw project te selecteren via projects in het startmenu van AmCAT, en hierna op het tabblad Query te klikken. Dit brengt u in het keyword search scherm. Figuur 1.1 toont het keyword search scherm. Om de Query functie te gebruiken dient u allereerst een articleset te selecteren. Een articleset is een verzameling van documenten waarbinnen u gaat zoeken. Een voorbeeld van een articleset is een verzameling van alle politieke nieuwsberichten welke gedurende een verkiezingcampagne in alle landelijke dagbladen zijn verschenen. Een articleset kan echter ook andersoortige documenten bevatten, zoals beleidsdocumenten, Tweede kamer handelingen, pers7
8
Inhoudsanalyse met AmCAT
Figuur 1.1: Openingsscherm Query berichten of de transcripties van televisieprogramma’s. Als u bij articleset op all sets klikt, krijgt u een lijst te zien met articlesets binnen het betreffende project. De standaardinstelling is all sets, oftewel zoeken binnen alle articlesets van het geselecteerde project. De stappen die u moet zetten om een zoekopdracht uit te voeren worden nu stap voor stap besproken. Daarbij zal de volgorde van de invoervelden in het keyword search scherm worden gevolgd.
1.1
Query: de zoekopdracht
Om te beginnen met de geautomatiseerde inhoudsanalyse moet u een zoekopdracht invoeren in het Keyword Search String(s) veld. In dit veld kunt u meerdere zoektermen tegelijkertijd invoeren. U voert meerdere zoektermen in door op een nieuwe regel met een nieuwe zoekterm te beginnen. Als u geïnteresseerd bent in immigratie en integratie en het debat rond deze onderwerpen als één debat beschouwt, voert u uw zoektermen voor immigratie en integratie op één regel in. Als u daarentegen de aandacht voor immigratie en integratie met elkaar wilt vergelijken, dan voert u uw zoektermen voor deze concepten op twee verschillende regels in. De lengte van de zoektermen is onbeperkt. Stel dat u wilt weten hoe vaak er positief danwel negatief naar Geert Wilders verwezen wordt. U voert dan drie zoektermen in op afzonderlijke regels: een zoekterm voor Geert Wilders, een zoekterm met indicatoren voor positieve referenties en een zoekterm met indicatoren voor negatieve referenties. Aangezien er 1001 manieren zijn om positief danwel negatief naar iemand te refereren, hebben we een zeer lange zoekterm nodig. Deze zoekterm kan bijvoorbeeld bestaan uit honderden bijvoegelijke naamwoorden met een negatieve danwel positieve
1.2
Selectie media en periode
9
betekenis. In hoofdstuk 2 vindt u meer informatie over het formuleren van zoektermen.
1.2
Selectie media en periode
De zoekopdrachten worden standaard op de geselecteerde articleset(s) in hun geheel uitgevoerd. De Query functie biedt echter de mogelijkheid om uw analyse uit te voeren op een subset van uw articleset(s). U kunt deze subset definiëren door bepaalde media (Media) en/of data (Date) te selecteren. De standaard instelling voor media is All media. U selecteert media door deze aan te vinken in het drop-down menu dat verschijnt als u op All media klikt. De standaard instelling voor de periode is All Dates. U selecteert een periode door in het drop down menu Is, Between, From of Before te selecteren en de gewenste data aan te klikken. U kunt bijvoorbeeld media selecteren met een verschillend profiel en een vergelijking maken tussen de aandacht voor concepten, trends en patronen in deze media. U kunt bijvoorbeeld een vergelijking maken tussen de kwaliteitskrant NRC Handelsblad en de populaire krant De Telegraaf in de mate van personalisering, de aandacht voor individuele politici ten opzichte van politieke instituties. Tevens kunt u een periode selecteren waarvan u weet dat er een relevante gebeurtenis, zoals een verkiezing, een natuurramp of een aanslag, heeft plaatsgevonden. U kunt beginnen met een exploratie van de aandacht voor uw concepten gedurende de gehele periode. Als u vast heeft gesteld in welke periode er een verschuiving plaatsvindt in de aandacht voor uw concepten of als u een aandachtspiek vindt, kunt u de periode verkleinen om een gedetailleerder beeld te verkrijgen van de aandachtsverschuiving of de aandachtspiek. Het is in AmCAT eenvoudig om deze selectie van artikelen (dus artikelen over een bepaald onderwerp binnen een specifieke periode in een aantal geselecteerde media) op te slaan als aparte articleset. Dit doet u door na een zoekopdracht, de aanvullende optie Save as set te kiezen. Zie hiervoor pagina ‘Save as Set’ op pagina 13.
1.3
Functies ‘Query’
De Query kent meerdere zoekfuncties. De belangrijkste functies worden in dit hoofdstuk toegelicht. Het eerste gedeelte bevat een opsomming van drie zoekfuncties: Summary , Article List en Show Graph/Table. In het tweede gedeelte wordt uiteengezet hoe deze verschillende functies ingezet kunnen worden om verschillende soorten hypotheses te testen.
1.3.1
Summary
Deze functie geeft u de mogelijkheid om alle artikelen waarin de door u opgegeven zoektermen voorkomen weer te geven. Onder Summary staat het totale
10
Inhoudsanalyse met AmCAT
Figuur 1.2: De zoekterm ’Rutte’ in de artikeltekst aantal documenten waarin één of meerdere van de door u opgegeven zoektermen worden genoemd. Dit wordt gevolgd door een lijst van al deze documenten, onder Articles. Van elk van deze documenten ziet u de titel, de datum, het aantal woorden, het medium, indien bekend de sectie van het medium waarin het artikel is verschenen en de auteur, en ten slotte een stuk van de tekst waarin één of meerdere zoektermen zijn gevonden. De zoektermen zijn hierin rood gekleurd. Tevens staat er rechts in beeld (Aggregated data) een grafiek met daarin de ontwikkeling over tijd van het aantal documenten waarin één of meerdere zoektermen genoemd worden. De tabel onder Mediums geeft dit aantal documenten weer per medium. Als u op de titel van een van de artikelen in de Articles lijst klikt krijgt u de gehele tekst en enkele aanvullende metagegevens te zien. Deze functie is een handig middel om een eerste indruk te krijgen van de inhoud van het debat rond uw concepten in de onderzochte documenten. De Summary functie kan ook gebruikt worden om de validiteit en betrouwbaarheid van de geformuleerde zoektermen te controleren. Hierover leest u meer in hoofdstuk 3.
Aanvullende opties De Summary functie kent vijf extra mogelijkheden: Assign as codingjob, Export Articles, ClusterMap, Associations en Save as Set . Deze vijf opties geven u de
1.3
Functies ‘Query’
11
Figuur 1.3: Venn diagram met de overlap tussen Rutte en Balkenende mogelijkheid om de lijst met artikelen waarin de door u opgegeven zoektermen voorkomen verder te analyseren. Assign as codingjob Als u Assign as codingjob aanklikt slaat AmCAT de documenten die gevonden zijn door uw zoekopdracht op als nieuwe articleset en maakt daarvan tegelijkertijd een codingjob. Hiervoor moet u de gewenste codingschemas en een codeur aan de codingjob toewijzen. Show Cluster map De functie Show Cluster Map geeft u de mogelijkheid om een venn diagram te construeren. Met een venn diagram kunt u de overlap tussen verschillende verzamelingen weergeven. Om een venn diagram te maken moet u minstens twee zoektermen opgeven. Een venn diagram is een handig hulpmiddel om de mate waarin verschillende concepten met elkaar worden geassocieerd grafisch weer te geven. In andere woorden, met behulp van de venn diagram kunt u associative frames grafisch weergeven. Kies Show in navigator voor de grafische weergave van het venn diagram in AmCAT zelf. U krijgt een venn diagram te zien met geheel of gedeeltelijk overlappende deelverzamelingen. Bij kleinere aantallen artikelen worden bol-
12
Inhoudsanalyse met AmCAT
Figuur 1.4: Query scherm met Associations optie
Figuur 1.5: Associatietabel met de associatie tussen de VVD en de PvdA letjes weergegeven binnen een deelverzameling. Als u op één van deze bolletjes klikt krijgt een artikel uit deze deelverzameling te zien. De figuur 1.3 toont een voorbeeld van een venn diagram waarin de overlap tussen de aandacht voor de VVD, de PvdA en bezuingingen in Nederlandse media tijdens de campagne voor de Tweede Kamerverkiezingen in 2011 wordt weergegeven. Wanneer u een van de andere formaten (.csv, Excel of SPSS) als output kiest kunt u de kwantitatieve gegevens waarop de venn diagram gebaseerd is opslaan in csv-formaat, waarna u dit bestand kunt openen en bewerken in een ander programma. Het csv-bestand bevat een datamatrix waarin per combinatie van de door u ingevoerde zoektermen wordt weergegeven hoe vaak deze combinatie voorkomt. Show associations De Associations functie is vergelijkbaar met de ClusterMap functie. Het belangrijkste verschil is dat u met Associations de mate van overlap tussen verschillende concepten kunt kwantificeren. De figuur 1.5 toont een voorbeeld van een associatietabel. U kunt op verschillende manieren de mate van associatie tussen verschillende concepten weergeven. U kunt kiezen uit drie weergavemogelijkheden: Table, List en Network graph. Met de Table functie kunt u een tabel produceren waarin per combinatie
1.3
Functies ‘Query’
13
Figuur 1.6: Associatie tussen de VVD en de PvdA weergegeven als list
Figuur 1.7: Associatienetwerk met de associatie tussen de VVD en de PvdA van de door u opgegeven zoektermen wordt weergegeven wat de kans is dat u deze zoekterm B tegenkomt in een tekst wanneer de andere zoekterm A wordt genoemd. Zoekterm A, oftewel de conditie, staat in de rijen. Zoekterm B staat in de kolommen. De functie List levert een zelfde soort tabel op, alleen hier staat in woorden gespecificeerd welke zoekterm de conditie vormt. Oftewel, ‘from’ Samsom “to’ Rutte wil zeggen, de kans dat Samsom voorkomt in een document waarin ook Rutte genoemd wordt; ‘from’ Rutte ‘to’ Samsom is de kans dat Rutte voorkomt in een document waarin het ook over Rutte gaat. Network graph tenslotte geeft de associatie tussen twee zoektermen grafisch weer in de vorm van een netwerk. Elke zoekterm is een node in het netwerk; associaties ‘from’ zoekterm A ‘to’ zoekterm B worden weergegeven in de vorm van pijlen. Vink Graph:include association in label aan om de sterkte van de associatie weer te geven bij elke pijl in het netwerk. Met threshold kunt u een minimale sterkte voor de associatie opgeven; zwakkere associaties worden niet als pijl in het netwerk weergegeven. Save as Set Met de functie Save as Set kunt u de zoekresultaten opslaan als articleset in AmCAT. U kunt een nieuwe articleset maken van de zoekresultaten,
14
Inhoudsanalyse met AmCAT
Figuur 1.8: Een selectie van artikelen opslaan als articleset
deze geeft u een naam in het veld Setname. Op deze manier kunt u gemakkelijk uw eigen populatie en/of steekproef van artikelen bewaren in AmCAT, zonder steeds opnieuw te hoeven zoeken naar relevante artikelen. Wanneer u de zoekresultaten aan een bestaande articleset wilt toevoegen dan selecteert u deze onder Existingset .
1.3.2
Article List
De optie Article List geeft u de mogelijkheid om de zoekresultaten als lijst weer te geven. Er zijn twee weergaveopties voor deze lijst (te selecteren onder Output As): List with Snippets en Table. List with Snippets is een zelfde soort lijst als de lijst onder Articles onder de functie Summary , met de kop van het document, een aantal metadata en een stuk van de tekst met daarin de zoektermen weergegeven in het rood. Table geeft de zoekresultaten weer in tabelvorm, met kolommen voor de verschillende metadata (datum, medium, lengte enz.). Bij Columns kunt u selecteren welke metadata u in uw tabel wilt opnemen. Net als bij Summary kunt u ook hier de zoekresulaten toewijzen als codingjob of opslaan als nieuwe articleset, ze exporteren of verder analyseren met ClusterMap of Associations.
Download results Download results exporteert de tabel van gevonden documenten als .csv of JSON-bestand.
1.3
Functies ‘Query’
15
Figuur 1.9: Tabel met de aandacht voor Balkenende en Rutte in het aantal artikelen per medium
1.3.3
Graph/Table
Met de Graph/Table optie kunt u een tabel of een grafiek maken van de resultaten van uw zoekopdracht. Eerst specificeert u bij X axis en Y axis hoe u de data voor uw kruistabel of grafiek wilt weergeven. Opties voor de X-as zijn per medium of per tijdsinterval, voor de Y-as kunt u kiezen uit medium, totaal of per zoekterm (de combinatie van medium op de X-as en medium op de Y-as is niet mogelijk). Bij Date interval kunt u het tijdsinterval verder specificeren: per dag, per week, per maand, per kwartaal of per jaar. Bij Value selecteert u of u de zoekresultaten in het aantal documenten (Number of Articles) of het aantal keren dat uw zoekterm voorkomt (Number of Hits) wilt weergeven. Een lang artikel waarin een zoekterm drie maal voorkomt telt als 1 wanneer u Number of Articles kiest en als 3 wanneer u Number of Hits selecteert. Tenslotte kunt u bij Output type kiezen of u een tabel of een grafiek wilt produceren. Om een frequentielijst of kruistabel te produceren selecteert u de gewenste weergavemodus (table, onder Output type), het gewenste interval (Date interval ) en de gewenste eenheid (Value). Selectie van Medium of Date op de X-as en Total op de Y-as resulteert bijvoorbeeld in een frequentietabel: een overzicht van in hoe veel artikelen de zoektermen genoemd worden per, respectievelijk, medium of interval. Zoals gezegd kunt u bij Date interval het tijdsinterval selecteren. Dit zal afhankelijk zijn van de lengte van de tijdsperiode die u onderzoekt en het gewenste detail; via Value kunt u wisselen tussen het aantal artikelen waarin en het aantal keer dat de zoektermen gevonden worden. Een ander voorbeeld: selectie van de optie Date voor de X-as en Medium voor de Y-as resulteert in een kruistabel met de door u gekozen tijdseenheden in de rijen en de verschillende media als kolommen. Zo zijn er nog meer mogelijkheden. De keuze van variabele op de X-as, variabele op de Y-as en de Value zal afhangen van wat u precies wilt analyseren. Wanneer u in het veld Output type kiest voor een grafiek in plaats van een tabel, dan zal AmCAT dezelfde gegevens grafisch weergeven. Analyses over tijd worden weergegeven als lijngrafiek, analyses per medium als staafdiagram. Het klikken op een datapunt in een grafiek produceert een lijst met gevonden documenten voor dat datapunt, in tabelvorm. Het klikken op een rij in deze tabel
16
Inhoudsanalyse met AmCAT
Figuur 1.10: Grafiek van de media-aandacht voor Balkenende en Rutte over tijd produceert nog een pop-up, dit keer met de volledige tekst van het document in deze rij.
Export Aggregation De Graph/Table functie heeft de aanvullende optie Export Aggregation. Deze optie geeft u de mogelijkheid om de door u geproduceerde frequentielijst of kruistabel op te slaan in csv-, Excel, SPSS of HTML formaat, waarna u dit bestand kunt openen en bewerken in een ander programma. Voor de grafieken worden net als bij ClusterMaps de gegevens waarop de grafiek gebaseerd is geëxporteerd, niet de grafiek zelf.
1.4
Hypothese toetsing
Met behulp van inhoudsanalyse kunnen hypotheses worden getoetst. Voordat de inhoudsanalyse wordt uitgevoerd is het belangrijk om een heldere en concrete hypothese te formuleren. Met behulp van automatische inhoudsanalyse kunnen verschillende gevolgtrekkingen worden gedaan. emphExtrapolaties zijn generalisaties met betrekking tot niet direct waargenomen gevallen. Er wordt gegeneraliseerd naar een bredere context op basis van de gemeten data. Voorbeelden van extrapolaties zijn trends, patronen en verschillen. Op basis van de trends, patronen en verschillen die we waarnemen binnen de verzameling van documenten die we daadwerkelijk analyseren, trekken we conclusies over soortgelijke documenten die we niet daadwerkelijk hebben onderzocht.
1.4
Hypothese toetsing
17
Figuur 1.11: Staafdiagram van de aandacht voor het CDA, de VVD en de PvdA in drie media
1.4.1
Trends
Een trend is een verband tussen de tijd en een gemeten waarde. Een trendhypothese stelt dat een gemeten waarde afhankelijk is van de tijd. De nulhypothese luidt dat het gemiddelde van de gemeten waarde gelijk blijft of slechts ‘toevallig’ verschuift. AmCAT biedt vele mogelijkheden om een trend te analyseren. Met behulp van AmCAT kan een trend grafisch worden weergegeven, waarna voorlopige conclusies kunnen worden getrokken over de trends. Met behulp van de grafische weergave kan bijvoorbeeld getest worden of een trend linear of cyclisch is. Om een mogelijke trend weer te geven in een lijngrafiek gebruikt u de grafiekweergave in de Graph/Table functie. AmCAT biedt ook de mogelijkheid om data te produceren waarmee een formele test van de trendhypothese kan worden uitgevoerd. Een voorbeeld van een hypothese met betrekking tot een trend luidt als volgt: “De media-aandacht voor de Islam is afgenomen in de periode van 2010 tot 2012”. Figuur 1.12 toont de aandacht voor de Islam in het NRC in de periode van 1990 tot 2006. Deze grafiek is gemaakt met de Graph/Table functie. De zoekterm is als volgt geformuleerd: Islam#islam* moslim* koran imam burqa hoofddoek* moskee*. De lijngrafiek suggereert dat de media-aandacht voor de Islam inderdaad is afgenomen in de periode van 2010 tot 2012, hoewel er ook aandachtspieken te zien zijn. Pieken in een grafiek kunnen worden verklaard aan de hand van bepaalde gebeurtenissen. Om de pieken te verklaren moeten we dus op zoek naar gebeurtenissen die in verband worden gebracht met de Islam. Een goede methode om te achterhalen welke gebeurtenissen verband houden met een aandachtspiek is het lezen
18
Inhoudsanalyse met AmCAT
Figuur 1.12: Aandacht voor de Islam over tijd van de onderliggende documenten of de titels van deze documenten. U kunt eenvoudig toegang tot een lijst met titels krijgen door op de piek te klikken. Vervolgens kunt u doorklikken naar de tekst van het document door op één van de titels te klikken. Als we naar figuur 1.12 kijken zien we dat de aandacht voor de Islam een piek heeft in mei 2011. Door naar de artikelen in deze periode te kijken zien we dat dit de periode is waarin Osama bin Laden vermoord was. We zien dus dat met name terrorisme gerelateerde gebeurtenissen de aandacht voor de Islam tijdelijk doen stijgen, ondanks de geleidelijke afname. De lijngrafiek geeft een eerste indruk van de aandacht voor de Islam over de tijd. Om de nulhypothese dat de gemiddelde aandacht voor de Islam gelijk blijft of slechts ‘toevallig’ fluctueert te verwerpen kunnen we een formele statistische toets uitvoeren. Om de hypothese te testen produceert u eerst een tabel met de gemeten waarde per tijdseenheid. U produceert een dergelijke tabel door te kiezen voor een tabel in Graph/Table. Om de data te kunnen analyseren in een statistisch programma, zoals SPSS, exporteert u de gegevens uit AmCAT door in de Graph/Table functie op Export Aggregation te klikken. Het resulterende csv-, Excel of SPSS-bestand kunt u vervolgens openen in SPSS of een andere statistisch programma. Een exploratieve toets die u kunt uitvoeren om te testen of er daadwerkelijk sprake is van een trend is een correlatieberekening. In hoofdstuk 11 wordt uiteengezet hoe u een correlatie berekend.
1.4.2
Patronen
Een patroon is een veel voorkomend tekstelement of een veel voorkomende combinatie van tekstelementen. Een associatiepatroon verwijst naar het veel-
1.4
Hypothese toetsing
19
Figuur 1.13: Tabel met de overlap tussen VVD, PvdA en bezuinigingen
vuldig samen voorkomen van bepaalde concepten. Een associatiepatroon kan gemeten worden door op zoek te gaan naar co-occurentie van zoektermen binnen een bepaalde analyseenheid. AmCAT kan gebruikt worden om associatiepatronen grafisch weer te geven, maar ook om formele statistische tests met betrekking tot patronen uit te voeren. Met behulp van de ’ClusterMap kan een associatiepatroon grafisch worden weergegeven. De Associations functie kent een breed scala aan mogelijkheden om de mate van associatie tussen verschillende concepten te kwantificeren en vervolgens grafisch of in tabelvorm weer te geven. Een voorbeeld van een associatiepatroon-hypothese luidt als volgt: “De liberale partij VVD wordt vaker met bezuinigingen geassocieerd dan de sociaal democratische partij PvdA”. Eerder toonden we de associatie tussen bezuinigingen, de VVD en de PvdA in een venn diagram. Om een nauwkeuriger beeld te krijgen van de associatie tussen bezuinigingen en de VVD enerzijds en bezuinigingen en de PvdA anderzijds, slaan we de zoekresultaten op als Excelbestand. Op basis van deze gegevens kunnen we de associaties tussen bezuinigingen, de VVD en de PvdA vergelijken. Figuur 1.13 toont de associatietabel. In de rijen van de tabel wordt per combinatie van zoektermen weergegeven hoe vaak deze combinatie van zoektermen voorkomt in de dataset. Met een 0 wordt aangegeven dat een bepaalde zoekterm niet voorkomt in een document, terwijl met een 1 wordt weergegeven dat een bepaalde zoekterm wel voorkomt in dat document. In de eerste rij van figuur 1.13 zien we bijvoorbeeld dat de dataset 74 artikelen bevat waarin bezuinigingen en de PvdA worden genoemd, maar waarin de VVD niet wordt genoemd. Deze gegevens kunnen gebruikt worden om de mate van associatie te berekenen in andere programma’s zoals Excel en SPSS. Op basis van de gegevens in deze tabel kunnen we bijvoorbeeld berekenen dat als het over bezuinigingen gaat (N=772) het in 28,2 procent ((74+144)/772) ook over de PvdA gaat en in 29,7 procent ((85+144)/772) ook over de VVD gaat. 25,2 procent van de artikelen over de VVD gaan ook over bezuinigingen. 18,0 procent van de artikelen over de PvdA gaat ook over de bezuinigingen.
20
Inhoudsanalyse met AmCAT
Figuur 1.14: Tabel met de associatie tussen immigratie, pvv en vvd AmCAT biedt echter ook de mogelijkheid om associatiematen te berekenen en grafisch weer te geven binnen de Query omgeving. Daartoe gebruiken we de Associations functie onder Summary of Article List . De outputoptie Table binnen Associations laat een tabel zien waarin de associatie tussen de verschillende zoektermen wordt uitgedrukt. De tabel 1.14 toont de associatietabel voor de zoektermen vvd, pvv en immigr*.De tabel toont dat als immigratie wordt genoemd (tweede rij) de kans dat je ook over respectievelijk de PVV of de VVD leest 0.273 en 0.180 is. Om te toetsen of twee concepten significant vaker dan verwacht samen voorkomen kunnen we een chi2 toets uitvoeren. Hiervoor willen we in SPSS de data hebben met per regel een artikel, en per kolom een zoekterm. Dit bereiken we door in AmCAT te kiezen voor een tabel binnen Article List , met als metadata Article ID , en Hits. Exporteer dit bestand met Export Articles, open het in SPSS en voer een chi2 toets uit met de zoektermen als variabelen (zie hoofdstuk 8).
1.4.3
Verschillen
Tenslotte kan er geëxtrapoleerd worden op basis van geconstateerde verschillen tussen bepaalde eenheden. Er kan bijvoorbeeld een vergelijking worden gemaakt tussen de berichtgeving in verschillende media, tussen het debat in de politieke arena en in de media, tussen de aandacht voor een concept in periode A en periode B etc. Verschillen kunnen met AmCAT geanalyseerd worden met behulp van de Graph/Table functie, maar ook de Associations functie kent mogelijkheden om een vergelijking tussen media te maken. Tenslotte kunt u verschillen analyseren in SPSS gebaseerd op data die AmCAT in een handig formaat exporteert. Om te toetsen of in een bepaalde groep artikelen (bijvoorbeeld een periode of medium) een zoekterm significant vaker voorkomt dan in een andere groep, kunnen we ook een chi-2 toets uitvoeren. Ga hiervoor naar Article List , en maak een tabel met als metadata ‘Article ID’ en ‘Hits’, die u exporteert via Download results rechtsonder de tabel. Open dit bestand in SPSS. Als u per krant wilt kijken kunt u direct een chi2 toets uitvoeren met mediumid en uw zoekterm als variabelen (zie hoofdstuk 8). Als u per periode (of groep kranten) wilt kijken dan dient u eerst een nieuwe variabele aan te maken, bijvoorbeeld ‘groep’. Vul dan per artikel de juiste periode in, door het bestand te sorteren en handmatig in te vullen (als het niet teveel artikelen zijn), of met de SPSS commando’s
1.4
Hypothese toetsing
21
recode of compute. Voer daarna een chi2 toets uit met als variabelen groep en uw zoekterm. De drie extrapolatiemethoden trends, patronen en verschillen zijn hier afzonderlijk besproken. De voorbeeldhypotheses hebben slechts betrekking op één van deze extrapolatiemethoden. Vaak worden onderzoeksvragen en hypotheses pas echt interessant wanneer verschillende extrapolatiemethoden worden gecombineerd.
22
Inhoudsanalyse met AmCAT
HOOFDSTUK
2
Zoektermen formuleren
In uw analyses bent u geïnteresseerd in concepten. Een tekst bevat echter woorden. Om de aandacht voor concepten te meten moet u zoektermen formuleren waarmee u de aandacht voor uw concepten kunt meten. U beschrijft met een zoekterm een concept in termen van woorden. Dit hoofdstuk omschrijft hoe u goede zoektermen kunt formuleren. U kunt uw zoektermen optimaliseren door te zoeken op synoniemen, door zogenaamde wildcards te gebruiken, door condities in uw zoekterm op te nemen en door op frases in plaats van losse woorden te zoeken. Een goede zoekterm resulteert in alle artikelen waarin een bepaald concept voorkomt zonder dat er irrelevante artikelen bij staan. Zie voor een volledig overzicht van de regels voor het formuleren van correcte zoektermen de knop Search Syntax Help die in u in de rechterbovenhoek van het Query scherm vindt. AmCAT houdt geen rekening met hoofdletters en accenten: door te zoeken op rutte zult u ook artikelen met daarin het woord ‘Rutte’ vinden; tunesie vindt ook het woord ‘Tunesië’ etc cetera.
2.1
Booleaans zoeken
AmCAT biedt de mogelijkheid om booleaans te zoeken. Met booleaans zoeken kunt u zoektermen combineren met behulp van de booleaanse operatoren OR, AND en NOT te gebruiken. Met behulp van OR kunt u uw zoekterm verbreden. OR is de standaard instelling. De zoekterm premier#premier "minister-president" rutte kan dus gelezen worden als premier#premier OR "minister-president" OR rutte. Met behulp van AND en NOT kunt uw zoekopdracht vernauwen; met deze operatoren kunt u restricties aanbrengen. U kunt bijvoorbeeld aangeven dat u wilt zoeken naar 23
24
Zoektermen formuleren
verwijzingen naar premier Rutte, maar niet naar verwijzingen naar kabinet Rutte: premier rutte#rutte NOT "kabinet rutte". U kunt bijvoorbeeld ook aangeven dat u wilt zoeken naar Wilders, maar dat u alleen geïnteresseerd bent in aandacht voor Wilders in de context van het immigratiedebat: wilders immigratie#wilders and immigr*. Als u verschillende booleaanse operatoren in uw zoekopdracht gebruikt dan moet u met het gebruik van haakjes aangeven welke termen verbonden worden met de booleaanse operatoren. De logica is vergelijkbaar met wiskundige logica. Als u binnen een rekenkundige formule getallen wilt vermenigvuldigen en delen dan moet u aangeven welke functie prioriteit heeft. Met het gebruik van haakjes in uw zoekterm vertelt u de computer welke combinaties van zoektermen prioriteit hebben. Stel dat u geïnteresseerd bent in demonstraties in Tunesië en Egypte. U wilt dan zoeken naar het woord demonstratie in combinatie met ofwel het woord Tunesië ofwel het woord Egypte. Gebruik voor zoektermen (zoals Tunesië) nooit trema’s of hoofdletters: De correcte zoekterm is demonstratie* AND (tunesie OR egypte). Hierbij kan OR achterwege worden gelaten, omdat het de standaard instelling is. AmCAT zoekt naar teksten waarin 1) Tunesië óf Egypte wordt genoemd én 2) waarin het woord demonstratie wordt genoemd. Als u de haakjes op een andere plaats zou zetten, dan zou dit wezenlijk andere zoekresultaten opleveren. Als u bijvoorbeeld de zoekterm (demonstratie* AND tunesie) OR egypte zou invoeren, dan zoekt AmCAT naar teksten waarin 1) het woord demonstratie én het woord Tunesie wordt genoemd óf 2) waarin het woord Egypte wordt genoemd. De tweede zoekterm levert dus ook teksten op waarin Egypte wordt genoemd zonder verwijzing naar het woord demonstratie.
2.2
Synoniemen
De eerste stap bij het formuleren van goede zoektermen is het toevoegen van synoniemen. Vaak kent een taal meerdere woorden om een concept uit te drukken. Inflatie en geldontwaarding, premier en Rutte, en PVV en Partij voor de Vrijheid verwijzen bijvoorbeeld naar dezelfde concepten. Als u geïnteresseerd bent in de aandacht voor de premier, dan zou u veel verwijzingen naar de premier missen wanneer u alleen op het woord ‘premier’ zou zoeken. U kunt uw zoekterm verbeteren door synoniemen voor het woord premier op te nemen, zoals Minister-President. Tevens kan er in een tekst verwezen worden naar de premier door hem bij naam te noemen. Daarom is het aan te raden om ook de naam van de huidige premier toe te voegen. Een betere zoekterm voor de aandacht voor de premier in Nederlands nieuws in 2011 is daarom premier "minister-president" rutte. Stel dat u de aandacht voor premier Balkenende wilt meten. De onderstaande tabel laat de aandacht zien voor de afzonderlijke woorden premier, Minister-President en Balkenende en voor de zoekterm premier "ministerpresident" Balkenende zien. De tabel 2.1 laat zien dat er veel meer resultaten worden gevonden met de zoekterm waarin synoniemen zijn opgenomen. Het is
2.3
Wildcards
25
Figuur 2.1: Zoeken met behulp van synoniemen
dus erg belangrijk is om te zoeken naar synoniemen. Er zijn verschillende manieren om synoniemen te vinden. U kunt gebruik maken van uw eigen taalkundige kennis of een (online) woordenboek raadplegen. U kunt echter ook gebruik maken van AmCAT om synoniemen te vinden. Met de Summary functie kunt u een lijst met documenten genereren waarin uw zoekterm voorkomt. U kunt bijvoorbeeld zoeken op het woord ‘MinisterPresident’. Vervolgens kunt u een aantal artikelen waarin het woord ‘MinisterPresident’ wordt genoemd doorlezen op zoek naar synoniemen.
2.3
Wildcards
Veel synoniemen lijken veel op elkaar. De enkelvouds- en de meervoudsvormen van een zelfstandig naamwoord verwijzen doorgaans bijvoorbeeld naar hetzelfde concept. Om uw zoekterm zo kort mogelijk te houden kunt u daarom gebruik maken van wildcards. Wildcards zijn tekens die bij het zoeken door de computer vervangen mogen worden door ieder willekeurig karakter. In AmCAT kunt u gebuik maken van twee verschillende wildcards: ? en *. Het vraagteken vervangt één enkel karakter. De asterisk vervangt meerdere karakters. Beide wildcards mogen zowel binnen een woord als aan het eind van een woord worden gebruikt, maar niet aan het begin van een woord. Het is toegestaan om meerdere wildcards binnen één woord te gebruiken. • Als u bijvoorbeeld naar het concept onderwijzers wilt zoeken formuleert u de zoekterm onderwijzer?. Deze zoekterm resulteert in zoekresultaten voor zowel het woord onderwijzer als het woord onderwijzers, maar niet voor het woord onderwijzersbond. • Als u wilt zoeken naar aandacht voor reïntegratie formuleert u de zoekterm reintegr*. Deze zoekterm resulteert in zoekresultaten voor alle woorden die beginnen met de lettercombinatie ‘reintegr’, zoals reintegratie, reintegeren, reintegratiebureau, reintegratiedebat etc.
26
2.4
Zoektermen formuleren
Homoniemen
Homoniemen zijn woorden met meerdere betekenissen. In de Nederlandse taal kunt u denken aan woorden als bank en erg. Het komt ook voor dat een woord wel een eenduidige betekenis heeft, maar in verschillende contexten toch uiteenlopende associaties oproept, zoals migratie van vogels en van mensen. Tenslotte verwijzen sommige namen van politici en andere actoren naar bijvoeglijke of zelfstandige naamwoorden. De achternaam van ex-PvdA lijsttrekker Wouter Bos verwijst bijvoorbeeld ook naar een zelfstandig naamwoord. Met behulp van de booleaanse operatoren AND en NOT kan de zoekterm worden vernauwd, waarmee voorkomen wordt dat verwijzingen naar het zelfstandige naamwoord ‘bos’ ten onrechte meegeteld worden. De zoekterm ziet er als volgt uit: bos AND ... of eventueel bos AND ... (NOT . ..). Een voorbeeld van een zoekterm die gebruikt kan worden om teksten over Wouter Bos te onderscheiden van artikelen over bossen: bos AND (lijsttrekker* partijleider* minister staatssecretaris pvda wouter). Soms is het noodzakelijk of eenvoudiger om een zoekterm te vernauwen door bepaalde woorden uit te sluiten met behulp van de Booleaanse operator NOT. Als u bijvoorbeeld geïnteresseerd bent in de aandacht voor Minister-President Rutte als politicus is het noodzakelijk om aandacht voor zijn kabinet, ‘kabinet Rutte’, uit te sluiten. U kunt daartoe de volgende zoekterm gebruiken: rutte NOT "kabinet rutte"’.
2.5
Frases
Met behulp van aanhalingstekens kan gevraagd worden om een bepaalde frase, dat wil zeggen een combinatie van aaneengesloten woorden. Als u bijvoorbeeld de aandacht voor het ministerie van Buitenlandse Zaken dan is het nodig om deze frase tussen aanhalingstekens te plaatsen: "ministerie van buitenlandse zaken". Als u geen aanhalingstekens zou gebruiken dan zou AmCAT zoeken naar artikelen waarin het woord ‘ministerie’, het woord ‘van’, het woord ‘buitenlandse’ of het woord ‘zaken’ wordt genoemd. Soms wilt u zoeken naar twee woorden die samen één concept meten, maar die niet altijd in exact dezelfde volgorde worden gebruikt. Stel dat u op zoek bent naar de aandacht voor christelijke politici. U wilt dan zoeken naar referenties naar politici en referenties naar christelijk. Om te voorkomen dat uw zoekresultaten resultaten bevatten waarin beide woorden worden genoemd, maar niet bij elkaar in de buurt staan en dus niet als één concept gelden, kunt u de range waarbinnen beide woorden moeten voorkomen aangeven. U doet dit als volgt "term A term B"~N, waarbij N verwijst naar de range van woorden waarbinnen de combinatie zich moet bevinden. U kunt bijvoorbeeld zoeken op "christelijk* politic*"~5. Dit resulteert in alle artikelen waarin naar christelijk* en politic* verwezen wordt binnen een range van 5 woorden. U kunt met deze zoekmethode ook zoeken naar co-occurenties van term A en
2.6
Controle zoektermen
27
term B en haar synoniemen. Dit doet u door de volgende zoekstructuur toe te passen: "(term A OR synoniem A1 OR synoniem A2) (term B OR synoniem B1)"~5. Toegepast op het bovenstaande voorbeeld levert dit de volgende zoekterm op: "(christelijk* OR protestant* OR katholiek* OR gereformeerd* OR christenunie OR sgp) (politic* OR kamerl* OR minister* OR staatssecretaris* OR premier* OR senator* OR parlementarier*)"~5.
2.6
Controle zoektermen
Het is belangrijk om goed te controleren of u met uw zoekterm daadwerkelijk meet wat u beoogt te meten. De eerste vraag is of de geformuleerde zoekterm alleen zoekresultaten oplevert die betrekking hebben op het gezochte concept. U kunt uw zoekterm controleren met behulp van de Summary functie in de Query . Als u uw zoekterm invoert in het Keyword Search String(s) veld en de optie Summary selecteert krijgt u een lijst te zien met artikelen waarin uw zoekterm voorkomt. Onder de kop van elk artikel staat een paar regels artikeltekst met daarin de woorden die in de zoekterm voorkomen rood gemarkeerd. Op deze manier kunt u controleren of uw zoekterm scherp genoeg is geformuleerd. Figuur 2.2 toont een voorbeeld van de zoekresultaten van een opdracht om te zoeken naar ‘Balkenende’. Stel dat we de aandacht voor de politicus Jan Peter Balkenende willen meten. Deze resultaten tonen dat zoeken op het woord Balkenende geen goede zoekterm is. De context waarin het woord Balkenende op de eerste regel toont dat zoeken op het woord ‘Balkenende’ ook resultaten oplevert waarin verwezen wordt naar kabinet Balkenende in plaats van naar de politicus Jan Peter Balkenende. Tenslotte kunt u uw zoektermen ook controleren met behulp van de ‘ClusterMap’ functie, die verschijnt nadat u zoekt met de Summary functie. U doet dat door de termen die volgens u hetzelfde concept meten (en de termen die u uit wilt sluiten) ieder op een afzonderlijke regel in te voeren. Als u bijvoorbeeld de aandacht voor de premier wilt meten met de zoekterm premier#premier "ministerpresident" (balkenende NOT "kabinet Balkenende") dan voert u premier, "ministerpresident", balkenende en "kabinet balkenende" op vier afzonderlijke regels in in het Keyword Search String(s) veld. Als het goed is komen premier, ministerpresident en kabinet Balkenende dan behoorlijk vaak samen voor. U wilt hier drie dingen controleren: (1) Gaan de artikelen waarin slechts één van die zoektermen voorkomt echt over het onderwerp? Controleer of de artikelen waarin alleen premier of minister-president voorkomt en de overige termen niet wel echt over de premier gaan. (2) Gaan de artikelen waar Balkenende maar niet kabinet Balkenende voorkomt echt over de premier? en (3) gaan de artikelen waarin kabinet Balkenende voorkomt en niet één van de andere termen (premier, minister president) inderdaad niet over de premier? Als dat wel het geval is dan gooit de uitsluiting NOT "kabinet Balkenende" kennelijk toch ook relevante artikelen weg. Op deze manier kunt u een goed beeld krijgen van de kwaliteit van de booleaanse query. De figuur 2.3 toont het venn diagram bij dit voorbeeld.
28
Zoektermen formuleren
Figuur 2.2: Keyword-in-context resultaten voor ’Balkenende’
2.6
Controle zoektermen
Figuur 2.3: Venn diagram zoektermen Balkenende
29
30
Zoektermen formuleren
2.7
Overzicht AmCAT Keyword Search operatoren
• Met OR zoekt u naar de ene zoekterm of de andere: Balkenende OR premier. OR is echter de standaard in de Lucene syntax, waar de zoekfunctie in AmCAT gebruik van maakt. Balkenende OR premier levert hetzelfde resultaat op als Balkenende premier. Dus u kunt OR achterwege laten. • Met AND zoekt u naar het tegelijk voorkomen van twee zoektermen in één document: Bos AND PvdA. • Met NOT zoekt u naar zoektermen waarbij de tweede zoekterm niet mag voorkomen in het document. Bijvoorbeeld: Prodi NOT (Italie OR Italiaans? ), waarbij we zoeken naar de voorzitter van de EU en niet naar Prodi in functie in de Italiaanse politiek. •
~30
•
* Ieder woord mag worden gevolgd door een *. Hierdoor wordt elke extensie van dat woord meegeteld (partij* omvat partij, partijleden, partijbons, partijvoorzitter, etc.). De asterisk mag ook binnen het woord worden geplaatst, maar niet als eerste teken.
•
?
•
"..."
Zoekt naar zoektermen die 30 (of een ander aantal) of minder woorden van elkaar verwijderd zijn. Bijvoorbeeld: "Bos lijsttrekker"~30 . Het is ook mogelijk om tegelijk te zoeken naar waar Bos voorkomt in combinatie met andere zoektermen: "bos (lijsttrekker OR kamer* OR pvda OR parlement*)"~30.
Binnen of na elk woord mag een ? worden geplaatst. Er wordt dan gezocht naar elke variant van dat woord met op de plaats van het vraagteken 1 ander teken. Er mogen meerdere vraagtekens in een woord worden geplaatst. Plaats zoektermen die uit meerdere woorden bestaan tussen quotes: Let op: voeg de quotes in het zoekvenster van AmCAT in (of kopieer ze van daar), quotes uit ingevoegd in Word wijken iets af en werken niet. "ministerie van algemene zaken".
•
Met haakjes geeft u aan aan welke combinatie van zoektermen AmCAT prioriteit moet geven. Met behulp van haakjes geeft u bijvoorbeeld aan of AmCAT moet zoeken naar (zoekterm A AND zoekterm B) OR zoekterm C of naar zoekterm A AND (zoekterm B OR zoekterm C). In het eerste geval moet ofwel een combinatie van zoekterm A en B ofwel zoekterm C voorkomen. In het tweede geval moet zoekterm A in ieder geval voorkomen. Daarnaast moet zoekterm B of C worden genoemd. Als u verschillende booleaanse operatoren (AND, OR, NOT) gebruikt moet u altijd haakjes gebruiken. Daarbij moet u er rekening mee houden dat de standaardinstelling OR is. Ook als u OR impliciet opneemt in uw zoekterm in combinatie met AND of NOT moet u dus haakjes gebruiken. (...)
HOOFDSTUK
3
Berekening van de betrouwbaarheid van zoektermen
De kwaliteit van geautomatiseerde inhoudsanalyse is afhankelijk van de kwaliteit van uw zoektermen. De kwaliteit van uw zoektermen wordt bepaald door de betrouwbaarheid van de zoektermen. In dit hoofdstuk wordt uiteengezet hoe u de betrouwbaarheid van uw zoektermen kunt testen. Wanneer we spreken over de betrouwbaarheid van een onderzoek dan spreken we over de vraag of onderzoek repliceerbaar is. Andere onderzoekers zouden met uw omschrijving van de door u gehanteerde methode uw onderzoek moeten kunnen repliceren en tot dezelfde onderzoeksresultaten moeten komen. De door u gehanteerde methode moet naast betrouwbaar, ook valide zijn. Validiteit verwijst naar de vraag of u daadwerkelijk meet wat u beoogt te meten. Onbetrouwbare zoektermen leiden per definitie tot invalide onderzoeksresultaten. Er bestaat echter ook een zekere spanning tussen betrouwbaarheid en validiteit. Geautomatiseerde inhoudsanalyse leidt tot resultaten met een hoge betrouwbaarheid, omdat verschillende computers met identieke instructies dezelfde onderzoeksresultaten zullen genereren. Een computer herkent echter alleen woorden, geen concepten, waardoor de validiteit doorgaans lager is dan met manuele inhoudsanalyse. Menselijke codeurs zullen met identieke instructies niet altijd tot dezelfde resultaten komen. Menselijke codeurs worden immers beïnvloed door hun persoonlijke denkbeelden en hun culturele achtergronden. Hierdoor is de betrouwbaarheid van de resultaten van manuele inhoudsanalyse doorgaans lager dan de betrouwbaarheid van de resultaten van geautomatiseerde inhoudsanalyse. Menselijke codeurs zijn echter wel in staat om concepten te herkennen, wat de validiteit van onderzoeksresultaten bevordert. Een belangrijk onderscheid met betrekking tot de betrouwbaarheid van inhoudsanalyse is het onderscheid tussen precision en recall. 31
32
Berekening van de betrouwbaarheid van zoektermen • Precision verwijst naar de vraag of de gevonden resultaten terecht herkend zijn als positieve zoekresultaten, oftewel teksten die het door u gezochte concept bevatten. Zogenaamde type 1 fouten verkleinen de precision. Een type 1 fout is een ten onrechte als positief aangeduid zoekresultaat. • Recall verwijst naar de vraag of alle resultaten die uw concept meten daadwerkelijk gevonden zijn. Type 2 fouten verkleinen de recall. Een type 2 fout is een ten onrechte als negatief aangeduid zoekresultaat.
Er bestaat spanning tussen precision en recall. Wanneer de precision van uw zoekterm hoog is, is de recall doorgaans lager, en vice versa. Deze spanning kunnen we illustreren aan de hand van een voorbeeld. Stel dat we de aandacht voor de politicus Wouter Bos willen meten. Als we uitsluitend op zijn achternaam zouden zoeken met de zoekterm bos dan zou de recall hoog zijn. Er wordt waarschijnlijk weinig naar zijn persoon verwezen in bewoordingen die niet de term bos bevatten. De precision van deze zoekterm is echter laag. De term bos verwijst immers ook naar het zelfstandig naamwoord bos en bovendien is bos een veel voorkomende naam die ook naar andere prominenten kan verwijzen. Als we echter een nauwe zoekterm zouden gebruiken zoals minister Bos dan zou de precision hoog zijn, maar de recall laag. De gevonden resultaten zullen zonder twijfel naar de politicus Wouter Bos verwijzen. Met de zoekterm minister Bos worden echter alle resultaten waarin in andere bewoordingen naar Wouter Bos wordt verwezen, zoals Wouter Bos, PvdA lijsttrekker Bos, of simpelweg bos, gemist. De onderzoeker moet daarom een balans vinden tussen concessies met betrekking tot precision en concessies met betrekking tot recall.
3.1
Face validity
Voordat u de precision en recall van uw zoektermen berekent, is het belangrijk om de ‘face validity’ van de zoektermen en de resultaten te controleren. U kunt de ‘face validity’ van uw zoektermen controleren door de zoekresultaten te bekijken. U kunt dat doen door de documenten waarin uw zoektermen worden gevonden te lezen en te beoordelen of uw zoekresultaten op het eerste gezicht inderdaad de concepten bevatten die u wilt meten. AmCAT biedt verschillende mogelijkheden om de documenten die ten grondslag liggen aan uw zoekresultaten te openen. • Met behulp van de Show Summary functie kan een lijst van documenten waarin de gevraagde zoekterm genoemd wordt worden verkregen. Als u op een titel in de lijst klikt, krijgt u toegang tot het artikel. Uw zoekterm wordt vetgedrukt. • Als u met behulp van de Show Graph functie een lijngrafiek gemaakt hebt, kunt u op een willekeurig punt op de lijn klikken om toegang te krijgen tot een lijst van relevante artikelen. Ook hier kan weer doorgeklikt worden naar de tekst van de documenten door op een titel te klikken.
3.2
Betrouwbaarheid
33
• Als u een Venn diagram hebt gemaakt met behulp van de Show Cluster Map functie, dan kunt u op een van de bolletjes in het Venn diagram klikken om toegang te krijgen tot een artikel in deze deelverzameling. Als een deelverzameling uit een groot aantal artikelen bestaat wordt alleen het aantal artikelen weergegeven en verschijnen er geen bolletjes. U kunt uw zoekopdracht specificeren door bepaalde media of een bepaalde periode te selecteren, zodat de deelverzameling kleiner wordt en er wel bolletjes verschijnen. Een tweede manier om de ‘face validity’ van uw zoektermen controleren is door bedacht te zijn op ‘gekke uitkomsten’. Zijn er aandachtspieken die u niet kunt verklaren? Zijn er veel minder zoekresultaten dan u op basis van uw kennis over bepaalde events zou verwachten? De beantwoording van dergelijke vragen en het lezen van de teksten met uw zoekresultaten geven u een eerste indruk van de validiteit van uw zoektermen. Er zijn echter ook meer formele testen om de betrouwbaarheid van uw zoektermen te meten.
3.2
Betrouwbaarheid
De door u geformuleerde zoektermen resulteren in een verzameling gevonden zoekresultaten. Met uw zoektermen bent u op zoek naar een verzameling van onbekende doelteksten, de teksten waarin uw concepten worden genoemd. De verzameling van werkelijke zoekresultaten verwijst naar deze verzameling van correcte zoekresultaten, een verzameling die uitsluitend bestaat uit alle verwijzingen naar uw concept. Als u uw zoektermen correct hebt geformuleerd dan meet u met deze zoektermen de aanwezigheid van de concepten die u wilt onderzoeken in een tekst. In dat geval overlappen de verzameling gevonden zoekresultaten en de verzameling van doelartikelen, oftewel de werkelijke zoekresultaten, elkaar volledig. Incorrect of onvolledig geformuleerde zoektermen kunnen echter resulteren in gevonden zoekresultaten die afwijken van de werkelijke zoekresultaten. 3.1 toont de overlap tussen een verzameling van gevonden zoekresultaten en een verzameling werkelijke zoekresultaten. Het gebied waar de verzameling van gevonden en werkelijke zoekresultaten elkaar overlappen, aangeduid met TP (terecht positief), bevat de correcte zoekresultaten. Het gebied aangeduid met TN (terecht negatief) verwijst naar het gebied dat zowel buiten de verzameling van gevonden zoekresultaten als buiten het gebied van werkelijke zoekresultaten ligt. Dit zijn terecht niet gevonden zoekresultaten. De twee overige gebieden bevatten incorrecte resultaten. Het gebied aangeduid met OP (onterecht positief) verwijst naar teksten die wel gevonden zijn, maar die geen werkelijke zoekresultaten bevatten. Dit noemen we een type 1 fout. Het gebied aangeduid met ON (onterecht negatief) verwijst naar artikelen die wel tot de werkelijke zoekresultaten behoren, maar die niet gevonden zijn. Dit noemen we een type 2 fout.
34
Berekening van de betrouwbaarheid van zoektermen
Figuur 3.1: Overlap tussen gevonden en werkelijke zoekresultaten
3.3
Precision
Precision verwijst naar de mate waarin uw zoekresultaten daadwerkelijk het concept dat u wilt meten bevatten. Het gaat om de vraag of met uw zoekterm uitsluitend het beoogde concept wordt gemeten of dat de zoekterm ook irrelevante zoekresultaten oplevert. Bijvoorbeeld, wanneer u wilt zoeken naar artikelen over de oud-politicus Wouter Bos aan de hand van de zoekterm bos, en u vindt daarmee ook artikelen over het bos, dan zijn deze laatste artikelen irrelevante zoekresultaten. Echter, zowel de artikelen over Wouter Bos en de artikelen over bossen worden gevonden met de zoekterm bos, daarom noemen we beide positieve resultaten. De artikelen over Wouter Bos zijn terecht positief, want deze bevatten het concept waarnaar we willen zoeken (Wouter Bos). De artikelen waarin het over een bos gaat zijn onterecht positief; deze bevatten ons concept niet maar worden wel gevonden met de zoekterm. In andere woorden, precision verwijst naar het aantal terecht positieve resultaten ten opzichte van de totale verzameling van terechte en onterechte positieve resultaten. Figuur 3.2 geeft dit grafisch weer. Met een berekening van de precision van een zoekterm wordt nagegaan of een zoekterm correcte zoekresultaten oplevert. De precision van uw zoekterm wordt uitgedrukt in het percentage correcte zoekresultaten. De precision kan berekend worden door het aantal terecht positieve resultaten te delen door de som van de terecht en onterecht positieve resultaten. De vraag die hier op volgt is hoe het aantal terecht en onterecht positieve resultaten kan worden vastgesteld. De Query functie in AmCAT kan gebruikt worden om te beoorde-
3.4
Recall
35
Figuur 3.2: Precision len of gevonden resultaten terecht of onterecht positieve resultaten zijn. De eenvoudigste manier om te controleren of uw met uw zoektermen daadwerkelijk de beoogde concepten meet is door de zoekresultaten weer te geven in de context waarin ze worden gebruikt. Als u de Show Summary functie kiest krijgt u een lijst te zien met zoekresultaten en de context waarin de zoekterm voorkomt. Vervolgens kunt u de precision van uw zoekterm berekenen door voor een steekproef van een X aantal zoekresultaten te controleren of de zoekterm daadwerkelijk het beoogde concept meet of niet. U leest bijvoorbeeld de eerste 50 zoekresultaten en telt hoe vaak een zoekresultaat niet het beoogde concept meet en dus irrelevant is. Vervolgens kunt u de precision berekenen. Stel dat 13 van de 50 zoekresultaten in uw steekproef niet het beoogde concept meten. U berekent de precision dan door het aantal terecht positieve resultaten (50-13=37) te delen door de som van het aantal terecht en onterecht positieve resultaten, of eenvoudiger verwoord, het totale aantal zoekresultaten in uw steekproef (50). In dit voorbeeld is de precision van uw zoekterm (5013)/50=0.74, oftewel 74 procent.
3.4
Recall
De recall van uw zoekterm verwijst naar de mate waarin u erin slaagt om alle verwijzingen naar het beoogde concept te vinden met uw zoekterm. Om te zoeken naar Wouter Bos was de zoekterm bos wellicht niet nauwkeurig genoeg. De zoekterm "wouter bos" is preciezer - artikelen over "het bos"worden niet meer gevonden - maar deze nauwkeuriger zoekterm heeft het probleem dat niet alle verwijzingen in de tekst naar Wouter Bos gevonden zullen worden, bijvoorbeeld ’Bos (ex-PvdA)’ of ’PvdA-lijsttrekker Bos’. De artikelen die niet worden gevonden met de zoekterm noemen we negatieve zoekresultaten. Artikelen waarin
36
Berekening van de betrouwbaarheid van zoektermen
Wouter Bos ’Bos (ex-PvdA)’ of ’PvdA-lijsttrekker Bos’ wordt genoemd verwijzen wel naar het concept dat we willen meten maar worden met de zoekterm "wouter bos" niet gevonden, daarom noemen we deze onterecht negatief. De vraag die beantwoord moet worden bij de berekening van recall is de vraag of u verwijzingen naar uw concept in de tekst hebt gemist, oftewel wat het aandeel onterecht negatieve zoekresultaten is. Deze vraag is moeilijker te beantwoorden dan de vraag of uw zoekresultaten irrelevante resultaten bevat. De vraag heeft immers betrekking op datgene wat u niet hebt gemeten. De doelartikelen, de artikelen met alle artikelen waarin uw concept wordt genoemd, is onbekend. Figuur 3.2 geeft dit grafisch weer. Er zijn twee strategieën om de recall van uw zoekterm te bepalen. De eerste is gebaseerd op een formele berekening. U kunt de recall van uw zoekterm berekenen door het aantal terecht positieve resultaten te delen door de som van het aantal terecht positieve resultaten en het aantal onterecht negatieve resultaten. In de bovenstaande sectie 3.3 is reeds aangegeven hoe u het aantal terecht positieve resultaten kunt bepalen. De vraag rest echter hoe het aantal onterecht negatieve resultaten kunt meten. Deze resultaten bevinden zich namelijk niet in de verzameling gevonden resultaten, maar in de onbekende doelartikelen. De berekening is gebaseerd op een analyse van de artikelen in uw index waarin uw zoekterm niet wordt genoemd. U kunt het aantal onterecht negatieve resultaten schatten op basis van een analyse van de artikelen in uw index die niet tot de verzameling van gevonden zoekresultaten behoren. U leest de artikelen waarin uw zoekterm niet wordt genoemd (terecht en onterecht negatief) en bepaald hoe vaak uw concept wordt genoemd (on- terecht negatief). U kunt hiervoor de index search functie in AmCAT gebruiken. We willen AmCAT de opdracht geven om alle artikelen weer te geven waarin uw zoekterm niet voorkomt, we doen dit door te zoeken naar woorden die in ieder artikel in uw index genoemd zullen worden en uw zoekterm uit te sluiten. We doen dit met behulp van de volgende zoekterm: * NOT (ZOEKTERM). Vervolgens trekt leest u een steekproef van de gevonden artikelen, waarbij u controleert of het door u gezochte concept toch wordt genoemd. Stel dat de verzameling van documenten waarin uw zoekterm niet wordt genoemd uit 1200 teksten bestaat. U leest een steekproef ter grootte van bijvoorbeeld 50 artikelen. Stel dat het door u gezochte concept in 4 van deze artikelen wordt genoemd. U weet dan dat bij benadering 3/50 = .06 = 6 procent van de ar- tikelen een ten onrechte als negatief zoekresultaat aangeduide verwijzing naar uw concept bevat. Op basis daarvan kunt u berekenen dat .06 * 1200 = 72 artikelen een verwijzing naar uw concept bevatten die niet hebt gemeten met de door uw geformuleerde zoektermen (onterecht negatief). stel dat u eerder hebt bepaald dat u 400 terecht positieve zoekresultaten hebt gevonden. Met deze gegevens kunt u de recall van uw zoekterm berekenen: 400/(400+72) = .85 = 85 procent. Deze methode heeft echter twee nadelen. De methode werkt slechter naarmate uw zoekterm relatief minder vaak genoemd wordt in de onderzochte documenten. Als uw zoekterm relatief weinig wordt genoemd in de documenten in uw index dan is deze methode weinig effectief. U zou in dat geval namelijk zeer veel teksten uit uw index moeten lezen om betrouwbare uitspraken te doen
3.4
Recall
37
Figuur 3.3: Recall
over de recall van uw zoekterm. Stel dat u de aandacht voor hoofddoekjes meet in nieuwsartikelen over de Nederlandse politiek. Als het concept hoofddoekjes in slechts 1 op de 200 artikelen wordt genoemd, zou u een veelvoud van 200 artikelen moeten lezen om een betrouwbare uitspraak te kunnen doen over de recall van uw zoekterm. De effectiviteit van deze methode hangt dus af van de specificiteit van uw concept ten opzichte van de breedte van uw index (de articleset waarbinnen u zoekt). Wanneer u aan deze overwegingen voorbij zou gaan, zou het feit dat u weinig verwijzingen naar uw concept vindt niet automatisch beteken dat de recall hoog is. Een verdere complicatie is dat uw doelteksten onbekend zijn. Dit betekent dat u niet weet in hoeveel van de doelteksten uw concept wordt gemeten. U weet bijvoorbeeld niet hoe vaak hoofddoekjes meet in nieuwsartikelen over de Nederlandse politiek. Derhalve weet u ook niet hoeveel artikelen u zou moeten lezen om betrouwbare uitspraken te doen over de recall van uw zoekterm. Daarnaast werkt de bovengenoemde methode niet voor zoektermen waarin de booleaanse operator NOT wordt gebruikt. De zoekterm * NOT (ZOEKTERM bevat tweemaal de booleaanse operator NOT. Dit levert niet het gewenste resultaat op. Stel dat u wilt zoeken naar de aandacht voor ‘hoofddoekjes’, maar expliciet niet naar de aandacht voor hoofddoekjes in het debat over hoofddoekjes in Frankrijk. U zou dan de volgende zoekterm kunnen opstellen hoofddoek* NOT (frankrijk frans*). Als u de bovengenoemde strategie zou volgen bij het zoeken naar artikelen waarin uw concept niet genoemd wordt dan zou dit resulteren in de volgende zoekterm * NOT (hoofddoek* NOT (frankrijk frans*)). U zou AmCAT daarmee de opdracht geven om te zoeken naar artikelen waarin niet verwezen wordt naar hoofddoekjes en niet naar Frankrijk, terwijl u artikelen waarin Frankrijk wordt genoemd juist wel mee wilt nemen, omdat u op zoek bent naar irrelevante artikelen en u niet geïnteresseerd bent in Frankrijk.
38
Berekening van de betrouwbaarheid van zoektermen
U kunt dit probleem gedeeltelijk ondervangen met twee methodes. Voor concepten waarvan u vermoedt dat ze weinig voorkomen kunt u daarom ook uw recall controle zoekterm aanpassen door * te vervangen door andere woorden waarvan u kunt aannemen dat ze in (vrijwel) alle artikelen waarin uw concept wordt genoemd voorkomen. Bij het voorbeeld van de aandacht voor hoofddoekjes kunt u bijvoorbeeld denken aan verwijzingen naar de Islam of moslims. Uw kunt zoeken op (moslim* islam*) NOT (ZOEKTERM). Deze methode ondervangt echter niet het probleem van zoektermen die de booleaanse operator NOT bevatten. De tweede methode is een grotendeels theoretische methode. Deze methode bestaat uit het reflecteren op de vraag of uw zoekterm alle mogelijke verwijzingen naar uw concept omvat. De volgende vragen kunnen daarbij behulpzaam zijn: • Heeft u alle mogelijke synoniemen voor het concept dat u beoogt te meten opgenomen in uw zoekterm? Belangrijke vragen daarbij zijn of u alle ‘woordenboek’ synoniemen hebt toegevoegd, of u op afkortingen en de volledige naam van organisaties hebt gezocht (e.g. PvdA en Partij voor de Arbeid) en of u geen wildcards bent vergeten. • Hebt u geen onnodige en daarmee te beperkende restricties aangebracht in uw zoekterm? Een belangrijke vraag daarbij is of de basiszoekterm en de restrictiezoekterm overlappende verzamelingen zijn, of in andere woorden, of ze samen voorkomen in de onderzochte documenten. U kunt dit controleren met behulp van de Show Cluster map functie, zoals omschreven in sectie 2.6. • Hebt u alle hiërarchisch lager geordende onderdelen van uw concept opgenomen? Als u bijvoorbeeld de aandacht voor het kabinet meet is het bijvoorbeeld zaak om naast synoniemen voor het kabinet en de functies van politici binnen het kabinet, de namen van alle kabinetsleden toe te voegen. Als u op zoek bent naar de aandacht voor Ajax, dan wilt u controleren of u de namen van alle spelers en bestuurders hebt opgenomen in uw zoekterm.
Deel II
Handmatige Inhoudsanalyse
39
HOOFDSTUK
4
Het uitvoeren van Handmatige Inhoudsanalyse
Bij handmatige inhoudsanalyse zet een codeur een tekst om naar meetwaarden. Een codeur kan bijvoorbeeld turven hoeveel nieuwsprogramma’s positief (of rechts, of multicultureel, ...) zijn en hoeveel negatief. Eigenlijk gebruiken we dus de codeur als meetinstrument. Het grote voordeel van codeurs is dat zij de teksten waarin wij geïnteresseerd zijn kunnen lezen en begrijpen. Daarnaast kunnen we voor codeurs een codeerinstructie opstellen op een hoger niveau dan die voor de computer, omdat de codeur kan begrijpen wat we bedoelen, terwijl een computer alleen blind kan uitvoeren wat we zeggen. Deze voordelen hebben ook direct een nadeel: omdat een codeur zowel de tekst als de codeerinstructie interpreteert is er een groter risico op onbetrouwbaarheid dan bij automatische inhoudsanalyse. Dit risico kan ondervangen worden met een goede codeerinstructie. Hoofdstuk 5 laat zien hoe de intercodeurbetrouwbaarheid te meten om te bepalen hoe betrouwbaar de coderingen zijn. In dit hoofdstuk gaan we in op thematische inhoudsanalyse. Bij thematische inhoudsanalyse coderen we een of meerdere variabelen per tekst die min of meer onafhankelijk van elkaar zijn, bijvoorbeeld verschillende frames, het voorkomen van een onderwerp, of de algemene teneur van een artikel.
4.1
Populatie en meeteenheid
Voordat begonnen kan worden met coderen moet de populatie van te coderen eenheden worden bepaald. Alhoewel het mogelijk is om bijvoorbeeld een hele krant of TV-journaal te coderen, zijn we vaak maar in een bepaald deel hiervan geïnteresseerd. Als we onderzoek doen naar de verslaggeving van Irak, bijvoorbeeld, is het niet nodig om artikelen over voetbal te coderen. Voor een dergelijk 41
42
Het uitvoeren van Handmatige Inhoudsanalyse
onderzoek zou de onderzoekspopulatie kunnen bestaan uit alle artikelen over Irak. Daarnaast moet er gekozen worden welke bronnen (bijv. kranten) worden onderzocht en uit welke periode. Deze keuzes worden allemaal bepaald door de onderzoeksvraag. Als de onderzoeksvraag gaat over verschillen tussen bepaalde (typen) bronnen, dan moeten alle genoemde bron(typen) in de populatie opgenomen worden. Als de vraag zich richt op algemene patronen of effecten, dan dienen bronnen gekozen te worden die representatief zijn. Er kan bijvoorbeeld gekozen worden voor alle landelijke kranten, voor een populaire en een kwaliteitskrant, voor het meest bekeken journaal of voor een ‘links’ en een ‘rechts’ medium. Voor de periode is het belangrijk om een (kwalitatief) overzicht te hebben van wat er omtrent het thema is gebeurd, zodat niet per ongeluk een belangrijk gebeurtenis wordt gemist of juist de resultaten teveel beïnvloedt. Deze keuzes dienen te worden verantwoord in de methodensectie. Ten slotte moet bepaald worden wat de meeteenheid is. Voor onderzoek naar kranten is dat vaak een artikel, maar het kan ook een alinea of zelfs een zin zijn. Voor onderzoek naar TV-programma’s is het vaak moeilijker. Journaals zijn in te delen in items, maar het is niet altijd duidelijk waar een item begint of ophoudt. Ook kan gekozen worden een deel van de tekst te gebruiken, bijvoorbeeld alleen de koppen of plaatjes bij een artikel. De uiteindelijke formulering van de populatie is vaak iets als “alle artikelen in De Telegraaf en de Volkskrant van 2010 waarin zowel het woord Obama als het woord Osama voorkwam.”
4.2
Steekproeftrekking
Bij een automatische analyse hebben we meestal de luxe dat we al onze eenheden kunnen meten: omdat de computer snel grote hoeveelheden gegevens kan verwerken, is het vaak niet nodig om een steekproef te trekken. Bij handmatige analyse moet elk artikel door een codeur gelezen en gecodeerd worden. Om die reden zijn we bij handmatige meestal genoodzaakt om het coderen te beperken tot een (klein) deel van de populatie van teksten. De criteria voor goede steekproeftrekking zijn bij inhoudsanalyse hetzelfde als bij andere vormen van onderzoek, zoals surveys of experimenten. Deze criteria komen neer op betrouwbaarheid en validiteit: Om betrouwbaar onderzoek te doen moet de steekproef groot genoeg zijn dat de resultaten niet vertekend worden door toevalligheden in de selectie. Om valide onderzoek te doen moet de steekproef representatief zijn voor de populatie. Immers, we willen uitspraken doen over de populatie, en niet over de sample. Bij een niet-representatieve steekproef zou het kunnen dat de conclusies die we op de steekproef baseren niet opgaan voor de populatie. Hoofdstuk 6 bevat een kort overzicht bestaande technieken voor steekproeftrekking. Voor het doen van een steekproeftrekking van inhoudsanalyse worden drie strategieën veel gebruikt: de willekeurige steekproef, de gestratificeerde steekproef, en de systematische steekproef. Welke steekproef geschikt is hangt van de onderzoeksvraag af.
4.2
Steekproeftrekking
43
Willekeurige Steekproef (random sample ) De makkelijkste manier om een steekproef te trekken is door simpelweg het gewenste aantal teksten willekeurig uit de populatie te selecteren. Op deze manier krijgt u een steekproef die geen bepaalde bias bevat.
Gestratificeerde Steekproef (stratified sample ) Vaak willen we uitspraken doen over verschillen tussen kranten en/of periodes. In dat geval is het belangrijk dat elke krant of periode voldoende vertegenwoordigd is. Met een gestratificeerde steekproef selecteren we per medium of periode (een stratum) een aantal teksten. Binnen het medium of de periode nemen we dan weer een willekeurige steekproef.
Systematische Steekproef (systematic sample ) In veel media is er een interne systematiek in de verdeling van onderwerpen. Kranten hebben bijvoorbeeld op maandag veel sport, en kranten hebben vaak op bepaalde dagen bijlagen met bepaalde inhoud. Op zaterdag is er over het algemeen meer ruimte voor reflectie en analyse maar ook voor lifestyle. Om te voorkomen dat bepaalde dagen of rubrieken oververtegenwoordigd zijn kunnen we een systematisch sample nemen. Een techniek is die van de samengestelde week, door de maandag uit de eerste week te nemen, de dinsdag uit de tweede week en zo verder. Een andere mogelijkheid is om elk 10e artikel te nemen. Bij het trekken van een systmatisch steekproef moet altijd goed nagedacht worden of de systematiek niet een vertekening veroorzaakt.
Steekproeftrekking in AmCAT Om in AmCAT een steekproef te trekken gaat u als volgt te werk. De eerste stap is het opslaan van populatie: Selecteer de populatie van artikelen met behulp van Article List (kies Table bij Output As) onder het Query -tabblad, en sla deze op als nieuwe articleset middels de knop Save as Set . Ook kunt u een bestaande articleset selecteren onder het tabblad Articles. Om een steekproef te trekken uit deze articleset klikt u op de knop Sample die u ziet wanneer u een articleset geselecteerd heeft (zie figuur 4.1). Hier kunt u aangeven hoeveel artikelen dan wel hoeveel procent van de artikelen in de articleset er in de steekproef moeten komen (zie figuur 4.2). Geef de steekproef een naam en klik op ‘ Save’ . Hiermee creëert u wederom een nieuwe articleset, ditmaal met daarin uw steekproef. Open deze articleset via het tabblad articles. Vervolgens klikt u op ‘csv’ bij Download results rechtsonderaan de tabel. Figuur 4.3 toont u een voorbeeld van het exporteren van een populatie van artikelen op basis van een zoekactie in het Query -scherm. In dit geval bestond de populatie uit alle artikelen in de Volkskrant en Trouw in 2010 tot en met 2012 waarin zowel ‘pvv’ als ‘immigr*’ werden genoemd.
44
Het uitvoeren van Handmatige Inhoudsanalyse
Figuur 4.1: Articleset-overzicht met rechtsboven de sample-knop
Figuur 4.2: Het opslaan van een steekproef in AmCAT
4.2
Steekproeftrekking
Figuur 4.3: Een selectie van artikelen exporteren met AmCAT
45
46
Het uitvoeren van Handmatige Inhoudsanalyse
Figuur 4.4: Voorbeeld van een codeerblad in Excel gebaseerd op geëxporteerde artikelen
4.3
Coderen
Na het trekken van de steekproef heeft u een selectie van meeteenheden, bijvoorbeeld krantenartikelen. Deze meeteenheden zijn enigszins te vergelijken met respondenten in survey- of experimenteel onderzoek: per eenheid willen we een aantal variabelen meten. In thematische analyse zijn deze vari- abelen over het algemeen direct of als schaal de concepten waar we in geïnteresseerd zijn. We kunnen bijvoorbeeld per krantenartikel coderen wat de algemene teneur was, of er een politicus in voorkwam, en over welk onderwerp het ging. We meten dan dus drie variabelen: teneur, politicus, en onderwerp. Deze variabelen hebben elk een ander meetniveau: of een politicus voorkomt of niet is een dichotome variabele: alleen 1 (ja) of 0 (nee). De teneur zal een ordinale variabele zijn met een beperkt aantal keuzes, bijvoorbeeld sterk negatief, negatief, neutraal, positief of sterk positief. Onderwerp is een nominale variabele met een vooraf vast te stellen aantal keuzes. De codeerinstructie De belangrijkste stap in het uitvoeren van goede handmatige inhoudsanalyse is een heldere codeerinstructie. In die instructie moet staan welke variabelen gecodeerd moeten worden, wat de mogelijke keuzes zijn, en wanneer waarvoor gekozen moet worden. Als u codeert of er een politicus genoemd wordt, dan moet helder zijn of een lokale of buitenlandse politicus, of een kandidaat-politicus, ook meetellen. Codeert u teneur, dan moet duidelijk zijn of het gaat om de mening van de auteur of de beschrijving van het onderwerp op hoofdpersoon. Als de operatie om Osama bin Laden uit te schakelen is geslaagd, is dat dan positief (voor de operatie of de VS), negatief (voor Bin
4.3
Coderen
47
Laden), of afhankelijk van de precieze tekst? Bij onderwerp is het vaak belangrijk om aan te geven wat te doen als er meerdere onderwerpen zijn, en hoe om te gaan met specifieke moeilijke issues: is rekeningrijden een belasting-, infrastructuur-, of privacy-issue? Als de codeerinstructie veel overlaat aan de interpretatie van de codeur, dan leidt dat meestal tot onbetrouwbare coderingen. Bij een groot project is het bijna altijd aan te raden om de codeurs eerst een aantal artikelen te laten coderen, zodat blijkt waar de problemen zitten in de codeerinstructie.
Het praktisch uitvoeren van de codering Een eenvoudige manier om inhoudsanalyse praktisch uit te voeren is om een tabel te maken in bijvoorbeeld Excel of SPSS, met in de rijen de eenheden en in de kolommen de te coderen variabelen. Begin altijd met een aantal kolommen met ‘metagegevens’ zoals artikelnummer, kop, datum, en bron. Deze lijst met gegevens heeft u waarschijnlijk al als resultaat van het exporteren van de artikelen uit AmCAT. Maak vervolgens een kolom aan met de naam van de codeur, zodat die informatie niet verloren gaat. Daarna maakt u per te meten variabele een kolom aan. Het coderen bestaat dan uit het lezen van het artikel en het invullen van de nodige kolommen. In figuur 4.5 ziet u een voorbeeld van een codeerblad in Excel. Na het coderen kunnen de gegevens in Excel worden geanalyseerd of geëxporteerd naar SPSS. Vaak is het nodig om eerst de gegevens langs te lopen om typefouten etc. te verbeteren.
De procedure Om het coderen goed te laten verlopen moet een aantal stappen doorlopen worden. Allereerst moet bepaald worden welke variabelen gemeten dienen te worden, en een goede codeerinstructie opgesteld worden zodat per variabele duidelijk is wat er precies moet gebeuren. Daarna is het verstandig om eerst zelf als onderzoeker een klein aantal artikelen te coderen (proefcoderen) om zeker te zijn dat de variabelen en instructie helder zijn en aansluiten bij de te coderen tekst. Na eventuele aanpassingen aan de codeerinstructie kan begonnen worden met het coderen. Als u een set artikelen dubbel gaat coderen dan verdient het de aanbeveling om daarmee te beginnen, omdat dan eventuele onduidelijkheden of verschillen in interpretatie snel aan het ligt komen, en eventueel de codeerinstructie nog kan worden aangepast (waarna opnieuw een set artikelen dubbel gecodeerd moet worden; we willen immers de betrouwbaarheid van de uiteindelijk gebruikte codeerinstructie weten). Als u tevreden bent met de betrouwbaarheid dan kan het coderen echt van start gaan. Bij grote projecten is het verstandig om vaak samen te komen om probleemgevallen en keuzes te bespreken, zodat voorkomen wordt dat codeurs ‘uit elkaar groeien’. Wel is het belangrijk om de beslissingen van dergelijk ‘codeeroverleg’ goed te noteren en op te nemen in de codeerinstructie die uiteindelijk wordt gepubliceerd, anders kan een collega immers niet het onderzoek repliceren, omdat hij of zij die keuzes weer net anders zal maken.
48
Het uitvoeren van Handmatige Inhoudsanalyse
Figuur 4.5: Overzicht van verschillen tussen handmatige en automatische inhoudsanalyse
4.4
Relatie handmatige en automatische analyse
Handmatige en automatische inhoudsanalyse hebben elk eigen voor- en nadelen en zijn daardoor geschikt voor andere doeleinden. Kort gezegd is automatische inhoudsanalyse goed voor het zoeken naar makkelijk te operationaliseren concepten in grote hoeveelheden tekstuele bronnen, terwijl handmatige analyse beter is voor moeilijkere concepten of voor niet-tekstuele bronnen (zoals foto’s, radio of TV). Tabel 4.5 geeft een overzicht van de verschillen tussen handmatige en automatische inhoudsanalyse. Bij handmatige analyse heeft de codeur de rol van meetinstrument die bij de automatische inhoudsanalyse door een computerprogramma zoals AmCAT wordt vervuld. Bij automatische analyse dienen de zoektermen als operationalisatie van de te zoeken concepten (zie hoofdstuk 2), terwijl die bij handmatige analyse gebeurt met een (geschreven) codeerinstructie (zie paragraaf 4.3). Het voordeel van automatische analyse is dat het snel is en betrouwbaar, terwijl een handmatige analyse vaak diepgaander kan zijn en doorgaans een hogere validiteit kan hebben, omdat de codeur kan begrijpen wat we bedoelen met het concept. Het gevaar hierdoor is direct dat verschillende codeurs de concepten of teksten anders interpreteren, wat tot onbetrouwbaarheid kan leiden. Dit controleren we met een intercodeurbetrouwbaarheidstoets (zie hoofdstuk 5), terwijl we bij automatische analyse door het berekenen van de precision en recall de validiteit controleren (zie hoofdstuk 3). Nu moet gesteld worden dat automatische en handmatige analyse elkaar niet noodzakelijk uitsluiten. Door handmatige en automatische inhoudsanalyse te combineren kunnen de sterke kanten van beide methodes benut worden. Eigenlijk gebeurt dit al door de populatie van te onderzoeken artikelen te baseren op het voorkomen van bepaalde woorden: deze woorden zijn een zoekstring, en de selectie van de populatie is daarmee een automatische inhoudsanalyse. Het verdient dat ook aanbeveling om de technieken voor het opstellen en controleren van zoektermen (zie hoofdstuk 2) te gebruiken voor het bepalen van de populatie. De meest voorkomende manier van de combinatie van handmatige en au-
4.5
Coderen: praktische tips
49
tomatische analyse is het gebruik van de automatische analyse als exploratieve analyse voorafgaand aan de selectie van media, periode en sleutelwoorden voor de handmatige analyse. Op die manier wordt de (dure) handmatige analyse gebruikt voor het bekijken van de meest interessante artikelen. Welke periode of media geselecteerd worden hangt af van de onderzoeksvraag: soms is het nuttig om een bepaalde piek te onderzoeken (als die inhoudelijk interessant is), en soms is het juist goed om een piek te vermijden (omdat dan het nieuws sterk wordt bepaald door een bepaalde gebeurtenis). Als uit automatische analyse blijkt dat alle media op elkaar lijken dan kan het voldoende zijn om 1 bron te onderzoeken, terwijl als blijkt dat sommige media sterk van elkaar verschillen dan is het waarschijnlijk goed om die in ieder geval mee te nemen. Een laatste manier om handmatige en automatische analyse te combineren is om automatische analyse te gebruiken voor het bepalen van de omvang van een concept of relatie; en handmatige analyse van een steekproef voor het bepalen van de aard. Op die manier kan de omvang, en vooral trends en pieken in deze omvang, nauwkeuriger en voor een grotere periode vastgesteld worden dan met een handmatige analyse van een steekproef. Aan de andere kant geeft de handmatige analyse antwoord op de meestal prangende vraag van hoe er precies over het concept of de relatie gesproken wordt.
4.5
Coderen: praktische tips
Hieronder volgen enkele praktische tips om goed te coderen: • Maak een uitgebreide codeerinstructie, waarin u helder opschrijft wanneer iets wel of niet tot een concept behoort • Codeer vooraf zelf een klein aantal artikelen, om te testen of de instructie inderdaad helder is. • Begin met het dubbel coderen van artikelen voor de betrouwbaarheidsberekening. • Hou toezicht op het coderen: kom regelmatig bijeen en check het werk van onervaren codeurs. • Pas op voor een bias als sommige codes makkelijker of gedetailleerder zijn dan andere.
50
Het uitvoeren van Handmatige Inhoudsanalyse
HOOFDSTUK
5
Betrouwbaarheid van handmatige inhoudsanalyse
Zoals uiteengezet in hoofdstuk 3 moet onderzoek betrouwbaar zijn. Dit betekent dat de resultaten van uw onderzoek repliceerbaar moeten zijn. Daarnaast moet uw onderzoek valide zijn. Dit betekent dat u moet meten wat u daadwerkelijk beoogt te meten. Handmatige inhoudsanalyse leidt doorgaans tot uitkomsten met een hoge validiteit. Menselijke codeurs zijn, in tegenstelling tot computers, immers in staat om concepten te herkennen. Handmatige inhoudsanalyse zal in vergelijking met geautomatiseerde inhoudsanalyse doorgaans echter tot resultaten met een lagere betrouwbaarheid leiden, omdat verschillende codeurs, in tegenstelling tot computers, met identieke codeerinstructies niet altijd tot dezelfde conclusies zullen komen. Codeurs worden bij het herleiden van woorden of woordcombinaties tot concepten namelijk beïnvloed door vele factoren. Codeurs worden bijvoorbeeld beïnvloed door de tijdgeest, waardoor eenzelfde tekst in 2010 wellicht anders gecodeerd wordt dan dezelfde tekst in 2000 gecodeerd zou worden. Codeurs worden ook beïnvloed door hun culturele bagage. Een bepaalde woordcombinatie zal in de ene cultuur wellicht andere associaties oproepen dan in een andere cultuur en derhalve tot andere concepten herleid worden. Tenslotte worden individuele codeurs ook beïnvloed door hun persoonlijke opvattingen en denkbeelden. Door goede, nauwkeurige codeerinstructies op te stellen en de codeurs intensief te trainen kan de betrouwbaarheid van handmatige inhoudsanalyse worden vergroot. Het blijft echter noodzakelijk om na de uitvoering van het onderzoek ook daadwerkelijk te testen hoe groot de betrouwbaarheid van de uitgevoerde inhoudsanalyse is. Een betrouwbaarheidsanalyse dient verschillende doelen. Het eerste doel is nagaan welk deel van de codeerinstructie onduidelijk is en welke codeurs afwijken van de groep als totaal. Met deze gegevens kan de instructie beter worden geformuleerd en kunnen de zwakke codeurs extra 51
52
Betrouwbaarheid van handmatige inhoudsanalyse
training krijgen of, als dat niet kan of helpt, kunnen zij worden vervangen door betere codeurs. Een tweede doel is om vast te stellen welke soort evaluaties in teksten tot grote overeenstemming leiden en welke tot verdeeldheid bij de codeurs. Van politieke en bestuurlijke teksten is bijvoorbeeld bekend dat iets vaak bewust in het midden wordt gelaten, omdat betrokkenen niet duidelijk willen of kunnen zijn. Een derde doel is om een objectieve maat voor de betrouwbaarheid van de codering te kunnen rapporteren. In wetenschappelijke tijdschriften wordt dit vaak geëist, maar ook commerciële opdrachtgevers willen steeds vaker weten hoe sterk de gehanteerde methode is. Een betrouwbaarheidsmaat geeft een indicatie van de objectiviteit van de inhoudsanalyse. Er wordt met een betrouwbaarheidsanalyse gemeten in hoeverre intersubjectiviteit de betrouwbaarheid van de analyses heeft verkleind. Er wordt gestreefd naar objectiviteit, omdat objectiviteit de repliceerbaarheid van het onderzoek vergroot. Er zijn verschillende manieren om de betrouwbaarheid te meten. Een handmatig uitgevoerde inhoudsanalyse kan bijvoorbeeld vergeleken worden met een op andere wijze uitgevoerde analyse, zoals een geautomatiseerde inhoudsanalyse. De meest gehanteerde vorm van betrouwbaarheidsanalyse van handmatige inhoudsanalyse is echter een meting van de intercodeurbetrouwbaarheid (inter coder reliability ). Bij de berekening van de intercodeurbetrouwbaarheid worden de coderingen van verschillende codeurs met elkaar vergeleken. De basisgedachte bij de berekening van de intercodeurbetrouwbaarheid is de vraag of de codeurs op dezelfde manier coderen. Voor een valide berekening van de betrouwbaarheid is het belangrijk dat de codeurs de teksten onafhankelijk van elkaar coderen. Wanneer codeurs elkaar beïnvloeden tijdens het coderen dan tast dit de validiteit van de betrouwbaarheidsanalyse aan. Het is niet uitzonderlijk dat onderzoekers meerdere variabelen meten met behulp van een handmatige inhoudsanalyse, bijvoorbeeld het onderwerp en toon van een artikel. Aangezien een correcte identificatie van concept A niet betekent dat concept B ook correct geïdentificeerd wordt, is het noodzakelijk om een afzonderlijke betrouwbaarheidsanalyse uit te voeren voor alle variabelen.
5.1
Procedure
Het principe achter het uitvoeren van een intercodeur-betrouwbaarheidsanalyse in eenvoudig: 1. Neem een steekproef van artikelen 2. Laat twee of meer codeurs de artikelen onafhankelijk van elkaar coderen 3. Bereken de betrouwbaarheid Voor de steekproef voor de betrouwbaarheid gelden dezelfde regels als voor normale steekproeven en wordt in principe een willekeurige steekproef genomen. Een goede vuistregel is dat minimaal 30 eenheden dubbel gecodeerd moeten worden (zie Krippendorff (2004) voor een exacter advies). Voor het
5.2
Overeenstemming
53
coderen van deze eenheden gelden twee voorwaarden: Ten eerste moeten codeurs onafhankelijk coderen: ze mogen niet overleggen over de teksten. Ten tweede moeten de codeurs werken volgens de geschreven codeerinstructie. Het principe hierachter is dat het onderzoek repliceerbaar is: een andere onderzoeker moet met dezelfde codeerinstructie binnen de grenzen van de gevonden betrouwbaarheid op dezelfde resultaten uit kunnen komen. Voor de betrouwbaarheidsberekening bestaan verschillende methode. De volgende secties bespreken drie van deze methodes: percentage overeenstemming, Cohen’s kappa, en Krippendorff’s alpha.
5.2
Overeenstemming
De vraag die we bij de berekening van de betrouwbaarheid van een analyse stellen is in hoeverre codeurs op dezelfde wijze coderen. De eenvoudigste manier om de betrouwbaarheid te meten, is de berekening van het percentage gecodeerde items welke door de verschillende codeurs op gelijke wijze worden gecodeerd. Deze methode heeft echter twee nadelen: • De methode houdt geen rekening met toevallige overeenstemming tussen de codeurs, oftewel de toevalsovereenstemming. Dit is met name een probleem bij variabelen met een klein aantal categorieën en een klein aantal codeurs. Wanneer twee codeurs een keuze moeten maken uit slechts twee categorieën, dan is de toevalsovereenstemming bijvoorbeeld 50 procent. • De gepercenteerde overeenstemming is een slechte maat voor scheve verdelingen. Stel dat codeurs de aanwezigheid van een concept moeten meten dat slechts in 10 procent van de onderzochte items voorkomt. De gepercenteerde overeenstemming zal doorgaans groot zijn vanwege de overeenstemming in de identificatie van items waarin het concept niet wordt genoemd. De interessante vraag is echter juist in hoeverre de codeurs het eens zijn over de identificatie van de items waarin het concept wel wordt genoemd. Tabel 5.1 toont de coderingen van twee verschillende codeurs. De codeurs hadden als taak om aan te geven of een bepaalde krantenkop betrekking had op de Griekse crisis of niet. De coderingen tonen aan waarom het belangrijk is om de toevalsovereenstemming in ogenschouw te nemen. De vraag die nu rijst is hoe betrouwbaar deze analyses zijn. De mate van overeenstemming kan worden berekend door het aantal items waarover de codeurs het eens zijn te delen door het totale aantal items. Van de 6 items zijn er 3 gelijk gecodeerd. Dit levert de volgende berekening op: 3 = 50 procent. De overeenstemming tussen de codeurs bedraagt 50 procent. De toevalsovereenstemming bedraagt echter ook 50 procent. Als u twee muntjes opgooit is de kans 50 procent dat ze allebei kop of allebei munt zijn. Dit betekent dat de betrouwbaarheid van de bovenstaande coderingen niet groter is dan de toeval-
54
Betrouwbaarheid van handmatige inhoudsanalyse
Figuur 5.1: Voorbeeld: Nieuws over Griekse crisis skans. Deze betrouwbaarheid had ook behaald kunnen worden als Jan en Marie niet naar de teksten hadden gekeken maar elk een muntje op hebben geworpen. Bovenstaande voorbeeld toont aan dat het percentage overeenstemming als betrouwbaarheidsmaat een groot nadeel heeft. Er zijn echter ook omstandigheden waarin deze maat gebruikt kan worden. Dit is het geval als de gevonden betrouwbaarheid heel groot is, en/of de verwachte toevalskans heel klein is. Denk bij dat laatste bijvoorbeeld aan het coderen van onderwerp: als codeurs mogen kiezen uit 25 onderwerpen die allemaal ongeveer even vaak voorkomen, dan is toevalsovereenstemming rond de 4 procent.
5.3
Verwarringstabellen
Om overeenstemming en toevalsovereenstemming te berekenen is het handig om een verwarringstabel (confusion matrix ) te gebruiken. Zulke tabellen geven de mate van overeenstemming tussen verschillende codeurs overzichtelijk weer. Een verwarringstabel is een kruistabel waarin wordt weergegeven hoe vaak bepaalde combinaties van antwoorden van de verschillende codeurs voorkomen. Op basis van de bovenstaande coderingen kan bijvoorbeeld de onderstaande verwarringstabel worden opgesteld. De som van de waarden op de diagonale as, weergegeven in de linker onderhoek, verwijst naar het aantal items waarover de codeurs het eens zijn. In dit geval zijn de codeurs het eens over de codering van drie van de items. De randtotalen, marginalen genaamd, geven de distributie van de combinaties van antwoorden van de verschillende codeurs weer. Op basis van de marginalen kan de toevalsovereenstemming worden berekend. Tabel 5.2 geeft de verwarringstabel weer die hoort bij de voorbeeldcoderingen uit tabel 5.1. In de kolommen staan de coderingen van Jan, en in de rijen die van Marie. In de cel linksboven is bijvoorbeeld te lezen dat er twee artikelen zijn die door zowel Jan als Marie als positief zijn gecodeerd, terwijl in de cel rechtsboven staat dat er 1 artikel is dat door Jan negatief, maar door Marie positief is gecodeerd. In de totalenkolom rechts kunt u zien dat Marie 3 artikelen positief heeft gecodeerd en evenveel negatief. In de totalenrij onderin ziet u dat Jan 4 artikelen positief heeft gecodeerd, en twee negatief. In totaal zijn er 6 eenheden dubbel gecodeerd. Vanuit deze
5.3
Verwarringstabellen
55
Figuur 5.2: Leesvoorbeeld: 1 artikel is door Jan negatief gecodeerd en door Marie positief. In totaal heeft Marie 3 artikelen positief gecodeerd.
Figuur 5.3: Codering met meerdere categorieën tabel kunt u de getallen voor de berekening van de overeenstemming makkelijk aflezen: op de diagonaal staan de eenheden waarover overeenstemming is (2 + 1), terwijl de rechtsonderhoek het totaal aantal eenheden geeft (6). De overeenstemming is dus 2+1 = 50 procent, gelijk aan de berekening hierboven. Vaak wordt codeurs niet alleen gevraagd om te bepalen of een bepaald concept, zoals de Griekse crisis, wel of niet aanwezig is in een bepaalde tekst, maar moet er door de codeur een keuze worden gemaakt uit meerde categorieën. In andere woorden, handmatige inhoudsanalyse wordt niet alleen toegpast bij dichotome variabelen, maar ook bij nominale variabelen. Ook voor dergelijke variabelen kan een verwarringstabel opgesteld worden en het percentage ovreeenstemming berekend worden. Tabel 5.3 geeft een voorbeeld van een verwarringstabel afgeleid uit een lijst van vijf gecodeerde eenheden waarbij de codeurs een keuze konden maken uit drie verschillende categorieën. De mate van overeenstemming kan weer worden berekend door het aantal items waarover de codeurs het eens zijn te delen door het totale aantal items. De items waarover de codeurs het eens zijn staan weer op de diagonaal: 2 + 0 + 1 = 3. Dit levert de volgende berekening op: 3 = 60 procent. De overeenstemming tussen de codeurs bedraagt 60 procent. De toevalsovereenstemming bedraagt 33 procent. Zoals eerder aangegeven, houdt de berekening van de geobserveerde overeenstemming tussen codeurs geen rekening met toevallige overeenstem- ming. Dit probleem wordt echter kleiner naarmate het aantal categorieën stijgt. Het tweede nadeel van de gepercenteerde overeenstemming als
56
Betrouwbaarheid van handmatige inhoudsanalyse
Figuur 5.4: Geobserveerde overeenstemming bij scheve verdeling van de codes maat is dat de maat niet geschikt is voorresultaten met scheve verdelingen. Het onderstaande voorbeeld toont aan waarom dit het geval is. In dit voorbeeld bedraagt de percentage overeenstemming 70 procent. De codeurs zijn het in zeven van de tien gevallen met elkaar eens dat het gezochte concept afwezig is in de tekst. Echter, ze zijn het nooit eens over de aanwezigheid van het concept. We zeggen dat de verdeling van keuzes (hier + en -) scheef is als bepaalde categorieën (veel) vaker voorkomen dan anderen. De toevalsovereenstemming is dan veel groter dan 1 gedeeld door het aantal categorieën. Dit lijkt op bijvoorbeeld twee drugshonden die aan baggage ruiken en blaffen als er iets verdachts in zit. Zelfs als 1 van de honden totaal niet zou kunnen ruiken, zou hij het meestal toch met zijn collega eens zijn, omdat de meeste baggage nu eenmaal geen drugs bevat. Een toevalsovereenstemming van 50 procent is in dat geval dus misleidend: in werkelijkheid ligt die (veel) hoger.
5.4
Cohen’s Kappa
Cohen’s Kappa is een betrouwbaarheidsmaat die corrigeert voor toevalsovereenstemming, ook bij een scheve verdeling. Er wordt gecorrigeerd voor een hoge toevalsovereenstemming door deze overeenstemming te berekenen en expliciet mee te nemen in de berekening. De formule voor Cohen’s Kappa is als volgt: Waarbij P(a) de daadwerkelijke overeenstemming is, en P(e) de verwachte (expected) overeenstemming. P(a) wordt net als eerder afgelezen uit de diagonalen: 7 + 0 = 70 procent. P (e) wordt berekend vanuit de marginalen in de verwarringstabel. Per categorie willen we weten hoe hoog de kans is dat beide codeurs toevallig samen die categorie uitkiezen. Net zoals de kans op twee
5.4
Cohen’s Kappa
57
Figuur 5.5: Cohen’s Kappa voor meerdere categorieën zessen bij dobbelen gelijk is aan 1 · 1 = 1 is die kans het product van het percentage gevallen dat elke codeur aan die categorie toewijst. In het voorbeeld uit Tabel 5.5 is de kans dat Piet een willekeurig element met 0 codeert gelijk aan 10 = 80 procent. Voor Jan is deze kans 90 procent. De kans dat beide codeurs hier tegelijk 0 coderen is dus 0.8 · 0.9 = 0.72. De kans dat ze beiden 1 coderen is 0.2 · 0.1 = .02. De totale kans de de codeurs het toevallig eens zijn is dus 0.72 + 0.02 = 0.74. We kunnen nu de Kappa berekenen met de formule hierboven: We zien hier dus dat, ondanks de schijnbaar hoge overeenstemming van 70 procent, de betrouwbaarheid eigenlijk zeer laag is door de erg scheve verdeling. Cohen’s Kappa kan ook toegepast worden om de betrouwbaarheid van de coderingen van meer dan twee categorieën te meten. Het voorbeeld in tabel 5.5 geeft aan hoe Cohen’s Kappa berekend kan worden voor drie categorieën. Cohen’s Kappa heeft ook een belangrijk nadeel als betrouwbaarheidsmaat. Wanneer er geen overeenstemming is tussen de codeurs met betrekking tot de distributie van de items in categorieën, dan resulteert dit in een lage berekende
58
Betrouwbaarheid van handmatige inhoudsanalyse
Figuur 5.6: Overeenstemming over marginalen
Figuur 5.7: Geen overeenstemming over marginalen toevalsovereenstemming en daarmee tot een hoge Cohen’s Kappa. Dit wordt geillustreerd door de coderingen uit tabellen 5.6 en 5.7. In beide tabellen zijn de randverdelingen hetzelfde en zijn de codeurs het even vaak het over dezelfde categorieën eens. In de tweede tabel is er echter geen overeenstemming over de randverdeling: de codeur in de kolommen heeft veel vaker C terwijl de codeur in de rijen juist vaker A heeft gecodeerd. Intuïtief is de codering uit de eerste tabel dus beter: daar zijn de codeurs het in ieder geval eens over de randverdeling. De Kappa uit de tweede tabel is echter hoger doordat de toevalsovereenstemming lager is. Cohen’s Kappa is in andere woorden gevoelig voor verschillen in de distributie binnen categorieën.
Deel III
Statistiek voor Inhoudsanalyse
59
HOOFDSTUK
6
Statistiek: basiskennis
In de syllabus ‘Van onderzoeksvraag naar antwoord’ werd de volgende vraag opgeworpen: In hoeverre verschilt de berichtgeving over het conflict tussen Israel en Palestina in NRC Handelsblad en De Telegraaf? Met behulp van inhoudsanalysedata die we uit Amcat halen, kunnen we een antwoord geven op deze vraag. Echter, wat doen we met die data en hoe interpreteren we ze? Wanneer is een gevonden verschil ook daadwerkelijk een verschil (dat ertoe doet)? Dit is het moment dat statistische technieken om de hoek komen kijken. Maar voordat je die kan gaan gebruiken volgt eerst wat basiskennis. In hoofdstuk 6 en 7 gaan we in vogelvlucht door een paar belangrijke onderwerpen heen. Als je die snapt, dan ben je een heel eind op weg om daarna je eigen hypothesen te kunnen toetsen.
6.1
Populatie en steekproef
Als we willen weten hoe politiek geïnteresseerd de ‘gemiddelde Nederlander’ van 18-80 jaar is, dan kunnen we in de Gemeentelijke Basis Administratie (GBA) alle Nederlanders in de leeftijdscategorie 18-80 opsporen en die gaan ondervragen. Als je dat doet, dan heb je te maken met de populatie van 18- 80 jarige Nederlanders (de term populatie impliceert dat je ze allemaal ‘hebt’). Het statistische symbool dat we voor een populatie gebruiken is N. De vraag is echter of het efficiënt is om de hele populatie te bestuderen. We kunnen ook een representatieve steekproef uit die groep trekken, en aan hen vragen hoe politiek geïnteresseerd zij zijn. Een steekproef is een deelverzameling van de eenheden (in dit geval: personen van 18-80 jaar) in de populatie. Het statistische symbool dat we voor een steekproef gebruiken is n (en omdat n een deelverzameling is 61
62
Statistiek: basiskennis
Parameter
Populatie
Steekproef
Gemiddelde Variantie Standaarddeviatie Aantal cases
µ σ2 σ N (populatieomvang)
x s2 s n (steekproefomvang)
Tabel 6.1: Notatie van parameters voor populatie en steekproef van N, is per definitie n < N). De uitkomsten van deze steekproef zijn dan een indicatie voor hoe politiek geïnteresseerd de populatie is. Een indicatie, omdat er een bepaalde onbetrouwbaarheid aan een steekproef vast zit: je hebt immers niet de hele populatie ondervraagd — het kan dus zo zijn dat je steekproef niet helemaal precies de werkelijkheid weerspiegelt. Hoe groter de steekproef, hoe groter de betrouwbaarheid van de uitkomsten: Je kunt je voorstellen dat een steekproef van 100 mensen een kleinere betrouwbaarheid geeft dan een steekproef van 10.000 mensen. Een populatie en een steekproef hoeven niet per se betrekking te hebben op mensen. Het kan, in ons geval, bijvoorbeeld ook betrekking hebben op krantenartikelen. We kunnen als populatie bijvoorbeeld kiezen voor alle krantenartikelen in NRC Handelsblad in 2010 waarin Israel en/of Palestina voorkomt (N). We kunnen hieruit een representatieve steekproef (n) van een bepaalde omvang trekken. Doordat de steekproef representatief is, kunnen we op basis van de kenmerken van de artikelen in de steekproef een meer of minder betrouwbare indicatie krijgen van de kenmerken van de populatie van krantenartikelen. Statistiek gebruik je dus als je op basis van steekproefonderzoek iets wilt zeggen over de populatie. Stel: ik wil weten of De Telegraaf vaker een terreurframe hanteert in de verslaggeving over het conflict tussen Israel en Palestina dan NRC Handelsblad. Uit alle artikelen in 2010 waarin Israel en/of Palestina voorkomt neem ik een steekproef van 100 artikelen voor NRC Handelsblad en 100 voor De Telegraaf. Ik codeer het vóórkomen van het ‘terreurframe’ in de 200 artikelen in ‘wel een terreurframe’ (waarde 1), of ‘geen terreurframe’ (waarde 0). Nu vind ik dat 40 van de 100 artikelen in De Telegraaf een terreurframe hanteren. Voor NRC Handelsblad zijn dat er 20 van de 100. Nu is de vraag: is dit gevonden verschil in de steekproeven groot genoeg om aan te nemen dat er in de populaties van NRC Handelsblad en De Telegraaf ook daadwerkelijk een verschil bestaat tussen het gebruik van het terreurframe? Dat antwoord is met een bepaalde onzekerheid omgeven, want we hebben niet alle artikelen (de hele populatie) onderzocht. We hebben statistische technieken nodig om aan te kunnen geven hoe waarschijnlijk we het achten dat dit gevonden verschil tussen de twee steekproeven ook daadwerkelijk in de populatie zal bestaan. De notatie van verschillende statistische grootheden (parameters) verschilt voor populatie en steekproef. Tabel 6.1 geeft een overzicht van de belangrijkste. We komen in 7 terug op het gebruik van deze parameters. Op zich is het voor de efficiëntie niet nodig om een steekproef te trekken
6.2
De keuze van de steekproef
63
uit de populatie van krantenartikelen omdat Amcat die automatisch zoekt en analyseert voor ons. Dus of de computer er nu 10 of 10.000 analyseert, dat maakt niet uit. En als we een verschil vinden tussen framing in De Telegraaf en NRC Handelsblad op basis van de hele populatie, dan weten we dat dat verschil er ook echt ‘is’. En tóch gebruiken we statistische methodes, omdat we iets willen zeggen over de grootte van verschillen die we vinden tussen de populatie van artikelen in NRC Handelsblad en De Telegraaf. Daarnaast willen we gevonden verschillen kunnen vergelijken met uitkomsten uit andere onderzoeken. Om dat te doen hebben we statistische methoden nodig.
6.2
De keuze van de steekproef
Je kunt op een aantal verschillende manieren een steekproef uit een populatie trekken. De manier waarop je dit doet is onder andere afhankelijk van de onderzoeksvraag die je wilt beantwoorden. De meest gangbare steekproef is een a-selecte steekproef (Random Sampling). Hierbij kent de onderzoeker de hele populatie en trekt geheel willekeurig een vooraf gesteld aantal eenheden. We laten de computer bijvoorbeeld een willekeurige selectie (steekproef) maken uit de populatie van krantenartikelen in NRC Handelsblad in 2010 waarin Israel en/of Palestina voorkomt. Een a-selecte steekproef moet in ieder geval aan de volgende drie eisen voldoen: 1. De steekproef moet geheel willekeurig (a-select) zijn getrokken uit de hele populatie 2. De steekproef moet representatief zijn voor de populatie, dat wil zeggen dat de kenmerken van de eenheden in de steekproef vergelijkbaar zijn met die uit de populatie; 3. De uitkomsten van de steekproef moeten generaliseerbaar zijn voor de populatie: dit is een kenmerk van de conclusies, nl. dat ze algemeen geldig zijn, dus ook buiten de steekproef. Voor inhoudsanalyse zijn er verschillende soorten waarschijnlijkheids– (probability–) steekproeven te trekken. Hierbij gaat men ervan uit dat alle analyse-eenheden even informatief zijn. Ieder artikel heeft als het ware evenveel informatie toe te voegen (net als iedere respondent in een survey evenveel informatie heeft toe te voegen wanneer hij/zij een vragenlijst invult). Een probleem is echter dat de artikelen veelal een andere informatiedichtheid kennen. Het ene artikel is langer dan het andere en heeft dus meer of minder informatie toe te voegen aan het onderzoek. Hier kun je als onderzoeker bij het trekken van een steekproef rekening mee houden. Hieronder volgt een korte schets van een aantal andere steekproefprocedures die dan gebruikt kunnen worden.Er zijn nog meer vormen van steekproeven die we hier buiten beschouwing laten. Zie voor overzichten bijvoorbeeld Krippendorff (2004).
64
Statistiek: basiskennis
Systematische steekproef Hierbij neemt de onderzoeker iedere x-te eenheid op in de steekproef. Deze techniek komt veel voor bij inhoudsanalyse wanneer het gaat om regelmatig te verschijnen publicaties, zoals kranten. Iedere x-te dag wordt dan meegenomen in de steekproef. Probleem hierbij is dat je als onderzoeker wel uit moet kijken dat je de x niet laat vallen op steeds een zelfde moment. Wanneer je bijvoorbeeld iedere 7e dag zou nemen als je kijkt naar dagbladen, dan heb je iedere keer een maandag wat resulteert in een bias (richting sport waarschijnlijk) in je steekproef. Gestratificeerde steekproef Bij een dergelijke steekproef gaat men uit van duidelijk te onderscheiden subpopulaties, bijvoorbeeld naar kwartaal of naar merk. Binnen deze subpopulaties voert de onderzoeker dan weer een a- selecte of systematische steekproef uit. De gedachte hierachter is dat de variatie binnen een stratum (het woord dat meestal gebruikt wordt voor ‘subpopulatie’) veelal kleiner is dan de variatie over de hele populatie. Als je een steekproef neemt uit ieder stratum apart dan krijg je een betere representativiteit van je totale steekproef dan wanneer je geen onderscheid zou maken. Als je bijvoorbeeld nadenkt over de gemiddelde huurprijzen van een 2-kamerflat in Amsterdam dan is het verstandig de stad op te delen in verschillende wijken (strata) en uit iedere wijk een steekproef te trekken. Immers, de huurprijzen in het centrum zullen veel hoger uitkomen dan in Oost of in de Bijlmer. Op deze manier geef je een beter beeld van de werkelijkheid dan wanneer je geen rekening zou houden met de verschillende strata in je steekproef. Steekproef met variërende waarschijnlijkheid Bij het trekken van een dergelijke steekproef wordt er rekening gehouden met het feit dat de ene tekst meer informatie bezit dan de andere tekst en daardoor ook meer informatie heeft toe te voegen aan de onderzoeksvraag. Bij onderzoek naar dagbladen wordt bijvoorbeeld vaak gewerkt met een weging naar oplagecijfers. Deze weegfactor bepaalt dan de kans dat een artikel wordt meegenomen in de steekproef. Wanneer je uitgaat van de lezer dan is de kans dat een artikel in De Telegraaf een lezer bereikt aanzienlijk groter dan wanneer je uitgaat van een artikel in NRC Next. Wanneer je de steekproef trekt kun je derhalve rekening houden met de oplagecijfers en deze meenemen in de steekproef — je krijgt dan, naar rato van de lezersaantallen, meer artikelen uit De Telegraaf en minder artikelen uit NRC Next in je steekproef. Disproportionele steekproef Dit is een steekproef waarvan sommige categorieën (strata) zijn oververtegenwoordigd ten opzichte van de totale populatie. Op die manier kun je bepaalde strata ‘eruit lichten’, je krijgt meer informatie over die (relatief kleine) groepen. Wanneer bijvoorbeeld maar 5% van je 10000 artikelen gaan over Brand dan heb je grote kans dat bij een steekproef van 200 artikelen maar 10 artikelen gaan over Brand; een steekproef die te klein is om er iets zinnigs over te kunnen zeggen. Je zou dan kunnen overwegen om meer
6.3
Meetniveau van variabelen
65
artikelen in je steekproef mee te nemen die over Brand gaan (je ‘oversampletEen sample is de Engelse term voor een steekproef. Als je een stratum ‘over’of ‘onder-samplet’ dan trek je uit die groep een grotere of kleinere steekproef dan je bij een zuiver a-selecte steekproef zou doen.’ dan een bepaalde subpopulatie). Let wel op dat de steekproef dan niet meer representatief is voor de hele populatie. Dit kan technisch echter weer opgelost worden door de data te wegen naar het vóórkomen van subgroepen in de populatie.
6.3
Meetniveau van variabelen
In de statistiek is het begrip variabele heel belangrijk. Een variabele is een eigenschap van een populatie-eenheid die verschillende waarden aan kan nemen. De variabele Geslacht kan de waarden man/vrouw aannemen, de variabele Lichaamsgewicht kan van nul tot veel variëren, de variabele Gemiddeld aantal uren internetgebruik per dag kan waarden 0-24 aannemen. In de statistiek willen we graag waarden vergelijken met elkaar. Hoeveel uur besteedt de gemiddelde Nederlander per dag aan internet? En hoeveel uren besteden 65plussers aan internet, in vergelijking met 65-minners? In dit laatste geval zet je de variabele Uren internetgebruik af tegen de variabele Leeftijd. Het is belangrijk dat je variabelen kunt indelen naar hun meetniveau. Het meetniveau kan oplopen van weinig informatie tot veel informatie. Afhankelijk van de rijkheid van de informatie die je hebt in je variabelen, kun je er statistieken op loslaten. Vandaar dat we nu eerst uitgebreid stilstaan bij de verschillende meetniveaus. Als je dit snapt, dan is het straks gemakkelijk om een geschikte statistische methode uit te zoeken bij de vraag die je wilt beantwoorden. Nominale variabele Er is een verschil tussen de waarden maar er is geen sprake van ‘meer’ of ‘minder’. Een voorbeeld is de variabele Geslacht (met als waarden: m/v). Er is geen rangorde aan te geven tussen de twee waarden vrouw en man; dit is dus een nominale variabele. De variabele Woonplaats is een ander voorbeeld. Ook de variabele Type dagblad (met als waarden: NRC Handelsblad/De Telegraaf) is er één: NRC Handelsblad is niet ‘meer’ of ‘minder’ dan De Telegraaf. Je kunt ook artikelen onderzoeken op het gebruik van het terreurframe, met als waarden ja (er komt minimaal één keer een terreurframe in het artikel voor) of nee (er komt geen terreurframe in het artikel voor). Ook dit is een voorbeeld van een nominale variabele. Als er sprake is van een nominale variabele met maar twee waarden (zoals Geslacht (man/vrouw) of Gebruik van terreurframe in een artikel (Ja/Nee)), dan spreken we van een dichotome variabele. Ordinale variabele Er is een verschil tussen de waarden, en er is sprake van een rangorde. Dit betreft vaak schalen die worden gebruikt in enquêtes. Bijvoorbeeld de vraag: Kunt u aangeven hoe sterk u het met de volgende stelling
66
Statistiek: basiskennis
eens bent? Politici zijn over het algemeen betrouwbaar. Bent u het daar. . . (1) Zeer mee oneens; (2) Mee oneens; (3) Mee eens; (4) Zeer mee eens? De waarden (antwoorden) van de variabele Betrouwbaarheid van politici zijn gerangordend: antwoord 4 betekent dat men politici betrouwbaarder vindt dan antwoord 1, 2 of 3. Maar de ‘afstand’ tussen waarde (1) en (2) is niet gelijk aan de ‘afstand’ tussen waarde (2) en (3). Die ‘afstand’ zegt namelijk niks bij een ordinale variabele. Interval variabele Er is een verschil tussen de waarden, er is sprake van een rangorde, en ook van gelijke afstand. Een voorbeeld is de variabele Temperatuur. Als het 30 graden is dan is het warmer dan wanneer het 15 graden is (er is dus een rangorde). En het verschil tussen 15 graden en 30 graden is hetzelfde als het verschil tussen 30 en 45 graden (er is dus een gelijke afstand). Maar je kunt niet zeggen dat het vandaag (30 graden) twee keer zo warm is als gisteren (15 graden). Je kunt geen verhouding aangeven in het geval van een intervalvariabele omdat er geen natuurlijk nulpunt is. De temperatuur kan ook onder nul zijn (vandaar kun je niet spreken over ‘2x zo warm’). In praktijk heb je niet zo vaak te maken met een intervalvariabele; meestal is er wel een natuurlijk nulpunt aanwezig en dan heb je te maken met een ratiovariabele. Ratio variabele Er is een verschil tussen de waarden, er is sprake van een rangorde, en ook van gelijke afstand en verhouding. Dit laatste komt doordat er een natuurlijk nulpunt is. Een voorbeeld is Leeftijd. Als je 80 bent dan ben je twee keer zo oud als iemand van 40. Een ander voorbeeld is Aantal krantenartikelen over het conflict tussen Israel en Palestina. Als er 10 artikelen in de krant staan dan zijn dat er twee keer zoveel als wanneer er 5 in staan. Of het aantal keren dat een terreurframe gebruikt wordt per artikel. Merk op dat er een verschil zit tussen de nominale variabele ‘gebruik van het terreurframe in een artikel’ (met als waarden ja en nee) en de ratiovariabele ‘aantal keren dat een terreurframe wordt gebruikt per artikel’. Het is belangrijk dat je kunt afleiden wat voor meetniveau variabelen hebben. In de hoofdstukken 8 en 9 heb je die wetenschap nodig om uit te vinden welke statistische technieken nodig zijn om je onderzoeksvragen te beantwoorden en hypothesen te toetsen. Als je iets wilt zeggen over samenhang tussen nominale variabelen dan verwijzen we je naar hoofdstuk 8 van deze syllabus; voor toetsen voor intervalvariabelen naar hoofdstuk 9.
HOOFDSTUK
7
De normaalverdeling, toetsen en significantie
7.1
De normale verdeling
De normaalverdeling (of normale verdeling) is de meest gebruikte kansverdeling in de statistiek. Dat is niet zo gek, want veel interval- en ratiovariabelen volgen een normaalverdeling1 . Wat dat betekent zullen we uitleggen aan de hand van een voorbeeld, namelijk de verdeling van de lengte van krantenartikelen die over Israël en Palestina gaan (een ratiovariabele). Als je kijkt naar de lengte van krantenartikelen die over Israël en Palestina gaan, bijvoorbeeld in 2010, dan krijg je een bepaalde verdeling van de lengte van de artikelen. Je kunt de gemiddelde lengte uitrekenen en kijken hoe de spreiding om dat gemiddelde is. Ligt de lengte van de meeste artikelen dicht bij het gemiddelde of zijn er veel uitschieters, zowel veel kortere als veel langere artikelen? Het populatiegemiddelde — het rekenkundig gemiddelde van alle artikelen - geven we in de statistiek het symbool µ (spreek uit: mu; zie ook tabel 6.1). Als we 100 artikelen bekijken, dan kunnen we op basis van deze steekproef inschatten wat de gemiddelde lengte van een artikel is. Het steekproefgemiddelde x (x- gemiddeld) dient dan ook als schatting van µ. De spreiding wordt in de statistiek de variantie genoemd, en wordt genoteerd met het symbool σ 2 (sigma-kwadraat) als we het over de populatie 1 Soms is dat niet het geval. In praktijk wordt, bij grote steekproeven, toch vaak uitgegaan van een normaalverdeling en de bijbehorende toetsen (die in ** hoofdstuk 4 en 5 worden besproken), zolang er geen enorme uitschieters (of uitbijters) in je data zitten. Dit kan je bekijken door een scatterplot (puntenwolk) van je data te maken. Als je geen gekke ‘uitbijters’ ziet, en de steekproef is groot, dan kun je meestal behoorlijk betrouwbare toetsen gebruiken die gebaseerd zijn op de normaalverdeling. Als er wel een paar gekke uitschieters in je data zitten, zou je kunnen overwegen om die uit je data te halen en alsnog een toets voor normaal verdeelde variabelen te gebruiken.
67
68
De normaalverdeling, toetsen en significantie
Figuur 7.1: Voorbeelden van normaalverdelingen hebben, en s2 als het om een steekproef gaat. De steekproefvariantie s2 dient als een schatting van de populatievariantie σ 2 . Die wordt berekend door van elk artikel in de steekproef de afstand tot het gemiddelde te berekenen, en die afstanden te kwadrateren en op te tellen. Vervolgens wordt de gemiddelde afstand berekend, door de optelling te delen door het aantal artikelen minus één2 . In formule is dit: 2
variantie : s =
P
(xi − x)2 n−1
(7.1)
De variantie kun je standaardiseren. Men spreekt dan van de standaardde√ viatie oftewel de standaardafwijking. De standaardafwijking is de wortel ( ) van de variantie. De normale verdeling heeft altijd de vorm van een klok (in het Engels wordt die dan ook wel de bell curve genoemd), met een bepaald gemiddelde en een 2 Je deelt niet door het totale aantal, maar door het aantal -1. Dit heeft te maken met het aantal vrijheidsgraden. Het aantal vrijheidsgraden wordt gevormd door het aantal vrij te bepalen getallen voordat je op een — vooraf bepaald - gemiddelde uit moet komen. Alle getallen mogen verschillen maar het laatste getal dat je kiest ligt vast. Vergelijk het met een voetbalopstelling. De eerste persoon die komt mag nog kiezen op welk van de 11 beschikbare posities hij/zij gaat spelen, maar de laatste heeft geen keuze meer. Het aantal vrijheidsgraden in een dergelijke geval is daarom 10.
7.2
De standaardnormale verdeling
69
bepaalde standaarddeviatie. De klok is eigenlijk het resultaat van een histogram van frequenties: het gemiddelde komt het vaakst voor, wat resulteert in een hoge balk, en hoe verder je van het gemiddelde komt, zowel rechts als links daarvan, hoe minder vaak die waarden voorkomen (de balken worden dus steeds korter). Als je een lijn trekt door de frequentiebalken, dan krijg je een mooie ‘normaalcurve’. De kansen op bepaalde waarden kunnen in de vorm van oppervlakken worden afgelezen. Figuur 7.1 laat een aantal normaalverdelingen zien. Hoewel de vormen van de verschillende curves verschillend zijn, hebben ze heel veel elementen gemeen. Belangrijk is dat de kans op het gemiddelde het grootste is (de klok is daar op zijn top). Daar komt bij dat de curves symmetrisch zijn, oftewel de kans op een waarde onder het gemiddelde is precies even groot als een waarde boven het gemiddelde. Bovendien is de kans op extreme waarden, zowel onder als boven het gemiddelde het kleinst. De rode, groene en blauwe curve hebben allemaal hetzelfde gemiddelde, namelijk 0. De standaarddeviaties van de curves zijn echter verschillend, wat te maken heeft met de verdeling van de individuele metingen waaruit iedere curve is opgebouwd. Hoe meer zij onderling verschillen, hoe verder ze ook van het gemiddelde af kunnen komen te liggen. In de figuur is de standaarddeviatie van de rode normaalverdeling duidelijk kleiner dan die van de blauwe verdeling. De stijlheid van de rode lijn laat immers zien dat de meeste waarnemingen rondom het gemiddelde 0 liggen. Als je kijkt naar de oppervlakken, die de kansen op bepaalde waarden aangeven, zie je ook dat de kans op een individuele waarde van 1 of hoger veel groter is in de blauwe verdeling dan in de rode verdeling. Een kleinere standaarddeviatie betekent dus dat er minder, en minder extreme, afwijkingen van het gemiddelde zijn. Een normale verdeling kan ontelbaar veel verschillende gemiddelden en standaarddeviaties hebben, afhankelijk van de (interval- of ratio)variabele waarover we het hebben. Eigenlijk willen we in z’n algemeenheid iets kunnen zeggen over de kans dat bepaalde waarden kunnen voorkomen in de populatie. Daarvoor moeten we de desbetreffende normaalverdeling vertalen naar een standaardnormaalverdeling. De volgende paragraaf gaat daarover.
7.2
De standaardnormale verdeling
De standaardnormaalverdeling is een normale verdeling die wordt gekenmerkt door een gemiddelde (µ) van 0 en een standaardafwijking (σ) van 1 (zie @ Figuur 2). De horizontale as laat de zogenaamde z-waarden zien. Als z gelijk is aan nul dan zitten we op het gemiddelde (µ) van de standaardnormaalverdeling. Als z = 1 dan zitten we op 1 standaarddeviatie boven het gemiddelde, en z = −1 betekent dat we op 1 standaarddeviatie beneden het gemiddelde zitten. Als je bijvoorbeeld wilt weten hoe groot de kans is dat een steekproefeenheid uitkomt tussen z = 0 en z = 1, dan zie je in @ figuur 2 dat die 34,1% bedraagt (de oppervlakte van de klok tussen 0 en 1). Als je wilt weten wat de kans is dat
70
De normaalverdeling, toetsen en significantie
Figuur 7.2: Normaalverdeling en standaardafwijkingen
een steekproefeenheid uitkomt tussen z = −1 en z = 1, dan is dat precies het dubbele vanwege het symmetrische karakter van de klok. Dat is in dit voorbeeld dus 2 · 34, 1%, oftewel 68, 2%. Als we willen weten hoe groot de kans is dat een steekproefeenheid meer dan 1 standaarddeviatie afwijkt van µ (dus de kans op een z groter dan 1 of kleiner dan -1), dan is die kans gelijk aan de oppervlakte onder de klok vanaf een z van -1 en kleiner plus de oppervlakte onder de z van 1 of groter. Uit @ figuur 2 kunnen we aflezen dat dat gelijk is aan: 2 · (13, 6 + 2, 1 + 0, 1), oftewel 31.6%3 .
7.3
Toetsen van een hypothese m.b.v. maalverdeling
een nor-
Je kunt de normaalverdeling gebruiken bij het toetsen van theorieën. We kijken bijvoorbeeld naar de lengte van artikelen die gaan over het Israël–Palestina conflict. Men zegt dat de lengte van zulke artikelen over het algemeen 450 woorden is (de ‘theorie’). De standaarddeviatie bedraagt 25 woorden. Om erachter te komen of dit gemiddelde écht geldt voor de populatie, stellen we een nulhypothese op. In de nulhypothese gaan we er altijd vanuit dat eventuele verschillen die we vinden gebaseerd zijn op toeval. In dit geval stellen we dat het populatiegemiddelde gelijk is aan 450 woorden, zoals de theorie zegt. Voor interval- en ratiovariabelen staat er altijd een ‘=’-teken in de nulhypothese. 3 De kansen onder de belcurve tellen altijd op tot 1 (of 100%). In dit voorbeeld tellen de kansen op tot 99,8% (de kans op een afwijking van 1 standaarddeviatie of minder (68,2%) plus de kans op een afwijking van 1 standaarddevip een afwijking van 1 standaarddeviatie of meer (31,6%). Dit komt door afronding van de kanspercentages.
7.3
Toetsen van een hypothese m.b.v. een normaalverdeling
71
H0 µ = 450 (het gemiddelde aantal woorden in de populatie van krantenartikelen is 450). In een steekproef van n=100 artikelen over Israël en Palestina vinden we 100 keer een lengte van precies 500 woorden. Dat doet ons twijfelen aan de nulhypothese: is de gemiddelde lengte in de populatie wel écht 450 woorden, gegeven onze uitkomsten in de steekproef? Daarom stellen we een alternatieve hypothese op, die altijd zegt dat verschillen die we vinden niet gebaseerd zijn op toeval. Oftewel, de verschillen zijn zo groot dat we de nulhypothese niet geloven. De alternatieve hypothese is: H1 µ 6= 450 (het gemiddelde aantal woorden in de populatie van krantenartikelen is niet gelijk aan 450). Het ‘neq’-teken impliceert dat we tweezijdig toetsen (men zoekt naar afwijkingen in twee richtingen). Het betekent dat het gemiddelde zowel groter als kleiner dan 450 kan uitvallen. Test men slechts op een afwijking in één richting dan spreekt men van een one-sided test. Dat zou je hier kunnen doen omdat je in alle 100 gevallen een gemiddelde van 500 vindt, wat een eenzijdige toets aan de rechterkant zou rechtvaardigen. Tenzij je uit theoretische overwegingen zeker weet dat de afwijking echt maar één kant op kan zijn, gebruik je altijd de two-sided variant. In SPSS kun je aangeven of je one- of two-sided wilt testen. Om de nulhypothese te testen, kunnen we de standaardnormale verdeling met de bijbehorende kansen nu als volgt gebruiken. Daarvoor wil je weten wat de afstand van 50 woorden (het verschil tussen het aantal woorden in de steekproef en het gemiddelde aantal woorden) is, vertaald in een z-waarde. Immers, daarvan kunnen we de kansen aflezen vanuit @ figuur 2. We gebruiken daarvoor de volgende formule: z=
grenswaarde − µ σ
(7.2)
We nemen een kritiek gebied van 1%. Een kritiek gebied is een keuze die je maakt, en je zegt daarmee: als de kans op het vinden van een bepaalde waarde kleiner is dan x%, dan geloof ik de nulhypothese niet en neem ik de alternatieve hypothese aan (de uitkomst is zo extreem dat ik niet kan aannemen dat die gebaseerd is op toeval). De x (in x%) wordt meestal gesteld op 5% of 1%. Als de kans kleiner is dan dat percentage (of de z- waarde groter dan de ‘kritieke z’) dan verwerp je de nulhypothese. We toetsen tweezijdig, wat betekent dat het kritieke gebied 0,5% wordt aan beide kanten. In SPSS hoef je het kritieke gebied niet door twee te delen omdat je daar kunt kiezen tussen een one- en two-sided test. √ Eerst gaan we de z berekenen. z = (500 − 450)/(25/ 100)4 , dus z = 20. De kans op een z van 20 is heel erg klein, in ieder geval veel kleiner dan een √ we delen door 100 (de wortel van de steekproefomvang) daar gaan we op in in de volgende paragraaf, ‘de wortel–n wet’. 4 Waarom
72
De normaalverdeling, toetsen en significantie
procent (want daar was de ‘kritieke z-waarde’ 2,58 aan de rechterkant en -2,58 aan de linkerkant van het gemiddelde). Op basis van onze steekproefuitkomsten geloven we niet dat H0 waar is voor de populatie; het populatiegemiddelde is waarschijnlijk niet gelijk aan 450 woorden. Deze extreme uitkomst kunnen we namelijk niet op basis van toeval verklaren — we nemen dus H1 aan. We weten het echter nooit zeker (we zijn bezig met kansen!); je kunt altijd een fout maken en die is onder andere afhankelijk van de keuze van je kritieke gebied (zie de paragraaf ‘precision and recall’ in de syllabus ‘van onderzoeksvraag naar antwoord’).
7.4
De wortel–n wet en betrouwbaarheid van de steekproef
Naast de standaarddeviatie kennen we ook de standaardfout (standard error). Dat is de standaardafwijking van de kansverdeling van de steekproefgemiddelden. Hierbij ga je ervan uit dat je veel steekproeven uit de populatie zou kunnen nemen. De gemiddelden van deze steekproeven verschillen allemaal iets van elkaar. De verdeling van deze gemiddelden is echter ook weer normaal verdeeld (volgens de t-verdeling, een afleiding van de z-verdeling). De standaardfout wordt steeds kleiner naarmate de steekproefgrootte toeneemt — het idee erachter is namelijk dat hoe groter je steekproef wordt, hoe dichter je op de werkelijke spreiding komt. De standaardfout wordt berekend door de standaarddeviatie (σ) van de steekproef te delen door de wortel van de steekproefomvang. In formule: σ σx = √ n
(7.3)
Het belangrijkste om hier te onthouden is dat de standaardfout niet te groot moet zijn. Wanneer deze groot is, is er dus veel variatie in de verschillende steekproeven die je zou kunnen trekken. De kans is daardoor groot dat je een steekproef trekt die de populatie niet zo goed beschrijft: hij is minder representatief. Naarmate de standaardfout groter is heb je daarom een grotere steekproef nodig om een betrouwbare uitspraak te kunnen doen over de populatie, en andersom.
7.5
De centrale limietstelling
Je zal je vast afvragen hoe je de normaalverdeling kunt toepassen in je eigen onderzoek. Bij inhoudsanalyse hebben we namelijk vaak te maken met nominale variabelen, terwijl — zoals gezegd — de normale verdeling van toepassing is op interval- en ratiovariabelen. Echter, ook voor andere variabelen kun je het bovenstaande toepassen, mits wordt voldaan aan één voorwaarde: de steekproef moet groot zijn. Deze ‘wet van de grote aantallen’ wordt de centrale limietstelling genoemd. Deze zegt dat voor steekproeven van relatief grote
7.6
Significantie en substantie
73
omvang de verdeling van steekproefgemiddelden normaal verdeeld is. En dat geldt zelfs als de originele variabele helemaal niet normaal verdeeld is, zoals bijvoorbeeld bij een dichotome variabele. Als we echter naar het gemiddelde van steekproeven kijken, dan is die verdeling wel normaal, en dan mogen we gebruik maken van toetsen die geschikt zijn voor interval- en ratiovariabelen. We zullen dit zien in hoofdstuk 9 aan de hand van een praktijkvoorbeeld.5
7.6
Significantie en substantie
Zoals gezegd wordt in de statistiek een resultaat statistisch significant genoemd als het groter is dan wat op grond van een toevallige fout verwacht kan worden. Wanneer een uitkomst niet meer als toevallig beschouwd mag worden, concludeer je op basis van je kritieke gebied. Als de kans op je uitkomst kleiner is dan het kritieke gebied, dan nemen we aan dat de uitkomst niet op toeval is gebaseerd, en dus verwerpen we de nulhypothese. Naast deze statistische significantie is het echter belangrijk te kijken naar de substantie van je uitkomsten. Dat is iets wat weleens vergeten wordt. Een significant verschil is mooi, maar als je steekproef heel groot is dan zul je heel erg vaak significante resultaten tegenkomen (dit is een uitvloeisel van de wortel–n wet die we hierboven hebben besproken). Zelfs een heel klein verschil kan al significant zijn bij grote steekproeven. Het is dus ook belangrijk om te bekijken hoe substantieel je gevonden verschil eigenlijk is. In de praktijk heb je daar geen toetsen voor, maar moet je dat met common sense beargumenteren. In de volgende hoofdstukken zullen we aan de hand van praktijkvoorbeelden zien hoe we bepaalde hypothesen kunnen toetsen die van belang zijn bij inhoudsanalyse. Behalve de significantie wordt daar ook de substantie van de uitkomsten besproken. We beginnen met toetsen voor nominale variabelen (hoofdstuk 8), en vervolgen met toetsen voor ratiovariabelen (hoofdstuk 9). Hoofdstuk 10 bespreekt een maat voor samenhang voor ratiovariabelen.
5 Meer informatie over gebruik en kenmerken van de (standaard- )normaalverdeling kun je bijvoorbeeld vinden in (Buijs, 2008). Ook de meer technische kant van het verhaal kun je daar vinden.
74
De normaalverdeling, toetsen en significantie
HOOFDSTUK
8
Hypothesen toetsen voor nominale variabelen
Als je je hypothesen hebt opgesteld en je data verzameld, dan is de volgende stap dat je wilt testen of je data de hypothese steunen, of niet. De keuze van de test is afhankelijk van het meetniveau van de variabelen, en van wat je wilt weten natuurlijk. In dit hoofdstuk bespreken we de toets voor samenhang tussen nominale variabelen. We zullen ook aandacht besteden aan maten voor samenhang tussen nominale variabelen.
8.1
Kruistabellen en chi-kwadraat
In hoofdstuk 6 hebben we verschil gemaakt tussen vier soorten variabelen. Kruistabellen worden meestal gebruikt om weer te geven wat de samenhang is tussen twee nominale (en ook wel ordinale) variabelen. Als we uitspraken willen doen over interval- of ratiovariabelen, dan gebruiken we meer geavanceerde methoden (zie hoofdstuk 9). Voor ons onderzoek kun je kruistabellen gebruiken wanneer je kijkt naar het al dan niet voorkomen van een bepaald frame, met als waarden 0 (komt niet voor) en 1 (komt voor). In een kruistabel kunnen de frequenties van die variabele afgezet worden tegen de variabele ‘Dagblad’ (bijvoorbeeld De Telegraaf en NRC Handelsblad). Je kunt bij een kruistabel SPSS statistische maten laten berekenen om te toetsen of er samenhang is tussen de twee variabelen. De belangrijkste toets voor samenhang tussen nominale variabelen is χ2 (chi-kwadraat). Deze toets geeft aan wat de kans is dat er in de populatie geen sprake is van samenhang, gegeven je steekproefuitkomst. De nulhypothese H0 zegt altijd: ‘er is geen samenhang’. In andere woorden, de twee variabelen zijn onafhankelijk en eventuele verschillen die je vindt in je steekproef zijn dus te wijten aan toeval. De alternatieve hypothese H1 zegt dan: ‘er is wel samenhang’. Oftewel: de twee variabelen zijn 75
76
Hypothesen toetsen voor nominale variabelen
onderling afhankelijk want de verschillen in de steekproef zijn zo groot dat ze niet te wijten zijn aan toeval. Met de χ2 -methode kunnen we bijvoorbeeld toetsen of NRC·Next vaker een vredesframe hanteert dan De Telegraaf in de berichtgeving over Darfur. De variabelen — beide nominaal — zijn het al dan niet vóórkomen van een vredesframe in een artikel (met als waarden: wel gebruik van vredesframe, geen gebruik van vredesframe) en het dagblad (met als waarden De Telegraaf en NRC·Next). De χ2 vergelijkt de uitkomsten in jouw kruistabel (het resultaat van een steekproef) met een set van waarden die je zou verwachten als er geen samenhang zou zijn tussen de variabelen. Die verwachte waarden - die SPSS zelf uitrekent — worden vergeleken met de gevonden waarden in jouw kruistabel (en ze worden gestandaardiseerd). Als de nulhypothese ‘waar’ is, dan zijn de gevonden waarden en de verwachte waarden identiek aan elkaar. De χ2 is dan ook nul. Als er maar een heel klein verschil wordt gevonden, dan nemen we de nulhypothese waarschijnlijk nog steeds aan. Het kleine verschil wordt dan verklaard door toeval. Maar als de afstand tussen jouw waarden en de veronderstelde waarden heel groot is, dan wordt de nulhypothese ‘er is geen samenhang’ verworpen. We geloven dan niet meer dat de resultaten voortkomen uit toeval, er lijkt een bepaalde tendens te zijn. Echter, wanneer is een χ2 -waarde heel groot? Hoe groot moet de waarde zijn, willen we de nulhypothese verwerpen? SPSS geeft in de tabel met uitkomsten zelf weer wat de kans (de ‘significance’) is op de gevonden χ2 -waarde als de nulhypothese waar is. Als de χ2 -waarde heel erg groot is, dan is de bijbehorende kans erg klein. We nemen een kritiek gebied van 5%. Dus als de kans op een gevonden χ2 -waarde kleiner is dan 5% dan verwerpen we de nulhypothese en nemen we de alternatieve hypothese aan (er is samenhang!). Als de kans op een gevonden χ2 -waarde groter is dan 5% dan nemen we de nulhypothese aan (er is geen samenhang). Laten we kijken hoe dat in de praktijk werkt.
8.2
Praktijkvoorbeelden van nominale toetsen
Wanneer we willen kijken of bepaalde frames vaker in één krant vaker voorkomen dan in een andere, dan kunnen we de χ2 gebruiken. Je onderzoeksvraag kan dan luiden: Is er verschil in het gebruik van conflictframes tussen NRC Handelsblad en De Telegraaf in de berichtgeving over het conflict tussen Israël en Palestina? Je nulhypothese H0 is: H0 Er is geen verschil in het gebruik van conflictframes tussen NRC Handelsblad en De Telegraaf in de berichtgeving over het conflict tussen Israël en Palestina. Anders gezegd: er is geen samenhang tussen het gebruik van conflictframes en het dagblad, of anders gezegd, er is onafhankelijkheid tussen gebruik van conflictframes en dagblad. In het algemeen geldt dat als je een χ2 -test doet, H0 altijd uitgaat van onafhankelijkheid. Je alternatieve hypothese is:
8.2
Praktijkvoorbeelden van nominale toetsen
conflict
0.000 1.000
Total
Count % within sourceid Count % within sourceid Count % within sourceid
sourceid NRC De Handelsblad Telegraaf 616 200 62.2% 62.7% 374 119 37.8% 37.3% 990 319 100.0% 100.0%
77 Total
816 62.3% 493 37.7% 1309 100.0%
Tabel 8.1: Kruistabel: Conflictframes in NRC en Telegraaf H1 Er is verschil in het gebruik van conflictframes tussen NRC Handelsblad en De Telegraaf in de berichtgeving over het conflict tussen Israël en Palestina. Anders gezegd: er is samenhang tussen het gebruik van conflictframes en het dagblad, of anders gezegd, er is afhankelijkheid tussen gebruik van conflictframes en dagblad. Laten we deze nulhypothese gaan testen. Dat werkt in SPSS als volgt: Open het bestand frames.sav. Ga vervolgens naar Analyze, Descriptive statistics, Crosstabs. Je brengt de twee variabelen over naar de rechterkant (dus conflict en sourceid). Vervolgens klik je Statistics aan. Er verschijnt een nieuw pop-up venster waarin je de statistische toets kunt aanduiden die je wilt berekenen. Vink Phi/Cramers’ V aan. Als je vervolgens op Cells klikt, verschijnt het pop-up venster waarin je kan vragen om de percentages te berekenen (percentages: column). Je krijgt dan een overzicht van de percentuele verhouding tussen je groepen op de beschrijvende variabelen (zoals we meestal ook in de tabellen percenteren). Klik tenslotte op Continue en op OK. Tabel 8.1 laat de volgende uitkomsten zien. In totaal vind je 1309 artikelen in deze selectie. In totaal zijn ruim 3 keer zoveel artikelen geschreven over Israël en Palestina in NRC Handelsblad dan in De Telegraaf (990 vs. 319). Hoewel er in die artikelen ook ruim drie keer zoveel conflictframes gevonden zijn (374 vs. 119) zie je dat het relatief niet veel uitmaakt (37.8% vs. 37.3%). Er lijkt dus weinig samenhang te zijn tussen het framegebruik en het dagblad. Maar hoe weinig is weinig samenhang? Dat vraagt dus om een significantietest! Tabel 8.2 laat verschillende toetsen voor significantie zien. We kijken naar de uitkomsten van de Pearson chi-square voor 2-zijdige toetsen (in de tabel ‘2-sided’): H1 gaf immers geen richting aan van het verwachte verschil maar slechts een ‘niet gelijk aan’-stelling. We hebben vooraf namelijk geen verwachtingen of NRC Handelsblad meer of minder vaak het conflictframe hanteert dan De Telegraaf . Pearson chi square geeft een waarde aan van .879. Wat betekent dat? Het significantieniveau van die test is .879. Dat betekent dat, wanneer de nulhypothese waar is, je in 88 van de 100 keer (.879) verwacht dat je een χ2 -waarde van minimaal .023 (eerste kolom, onder ‘value’) zult vinden. De uitkomst is verre van significant, want ons kritieke gebied is 5%, of 0,05. Je ziet dat er geen reden is om aan te nemen dat er verschillen tussen de dag-
78
Pearson Chi-Square Continuity Correctionb Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of Valid Cases
Hypothesen toetsen voor nominale variabelen Value
df
.023a 0.007 0.023
1 1 1
Asymp. Sig. (2-sided) 0.879 0.932 0.879
0.023 1309
1
0.879
Exact Sig. (2-sided)
Exact Sig. (1-sided)
0.894
0.467
Tabel 8.2: Chi-kwadraattoets voor samenhang tussen gebruik conflictframe en dagblad
Nominal by Nominal N of Valid Cases
Phi Cramer’s V
Value 0.004 0.004 1309
Approx. Sig. 0.879 .879
Tabel 8.3: Associatiemaatstaven voor samenhang tussen dagblad en gebruik van conflictframe bladen zijn; de verschillen die we hebben gevonden wijten we aan toeval. We houden de nulhypothese dus aan. Er is geen verschil in het gebruik van conflictframes tussen NRC Handelsblad en De Telegraaf in de berichtgeving over het conflict tussen Israël en Palestina. Zoals gezegd is χ2 een toets om te kijken of de associatie in een kruistabel wel of niet statistisch significant is, maar hij kan niet gebruikt worden om de sterkte van het verband af te lezen. Chi-kwadraat is namelijk sterk afhankelijk van het aantal waarnemingen (de n) en het aantal cellen in de tabel. Bij een grote n zullen we snel een significante χ2 - waarde vinden, maar is de relatie dan ook substantieel? Daar kunnen we meer inzicht in krijgen door een associatiemaatstaf te berekenen. Om wel iets te kunnen zeggen over de sterkte van de samenhang, zijn er namelijk diverse van die maatstaven van χ2 afgeleid, waarvan Cramer’s V de meest gebruikte is. Cramer’s V kan gezien worden als een gestandaardiseerde vorm van χ2 . Hiervoor geldt dat hoe hoger de waarde, hoe sterker de relatie is tussen de twee variabelen. Hij varieert tussen 0 en 1: bij een waarde van nul is er geen samenhang en bij een waarde van 1 is er maximale samenhang. Tabel 8.3 laat de associatiemaatstaven Cramer’s V en Phi zien die behoren bij de uitkomsten van 8.2. Phi heeft dezelfde waarde als Cramer’s V en dat klopt, want Phi is een versimpelde versie van Cramer’s V en wordt alleen in 2x2 tabellen gebruikt. In 2x2-tabellen is Phi altijd gelijk aan Cramer’s V. Zoals verwacht vinden we een heel kleine waarde van V (.004), wat duidt op bijna geen samenhang. Dat verwachtten we al omdat we heel kleine (niet-significante) verschillen vonden in 8.2. Als je deze uitkomsten nu samenvattend wilt rapporteren dan doe je dat als volgt. Je kunt je inhoudelijke bevinding op een aantal manieren rapporteren, die allemaal dezelfde boodschap hebben (in je rapportage gebruik je er uiteraard maar één). ‘We hebben geen samenhang gevonden tussen de dagbladen
8.2
Praktijkvoorbeelden van nominale toetsen
Economic
0 1
Total
79
sourceid NRC De Handelsblad Telegraaf 798 235 80.6% 73.7% 192 84 19.4% 26.3% 990 319 100.0% 100.0%
Count % within sourceid Count % within sourceid Count % within sourceid
Total
1033 78.9% 276 21.1% 1309 100.0%
Tabel 8.4: Kruistabel: Economic consequences frames in NRC en Telegraaf
Pearson Chi-Square Continuity Correctionb Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of Valid Cases
Value
df
6.980a 6.569 6.732
1 1 1
Asymp. Sig. (2-sided) 0.008 0.01 0.009
6.975 1309
1
0.008
Exact Sig. (2-sided)
Exact Sig. (1-sided)
0.009
0.006
Tabel 8.5: Chi-kwadraattoetsen voor samenhang tussen gebruik economic consequences frame en dagblad en het gebruik van conflictframes’. Of: ‘Het gebruik van conflictframes verschilt niet tussen De Telegraaf en NRC Handelsblad’. Of: ‘De Telegraaf en NRC Handelsblad gebruiken het conflictframe relatief even vaak’. Vervolgens zet je daar tussen haakjes achter de χ2 -waarde, het aantal vrijheidsgraden (df), de significance (die noemen we hier p. Als p niet in het kritieke gebied valt dan schrijven we de waarde exact op; als die wel significant is, dan schrijven we p < .05) en de Cramer’s V. In het algemeen: (χ2 (df ) = . . . , p = . . . , V = . . .). In ons geval: (χ2 (1) = .023, p = .879, V = .004). We gaan nu hetzelfde doen voor het economic consequences frame. Tabel 8.4 laat zien wat de verschillen zijn tussen De Telegraaf en NRC Handelsblad als we kijken naar het gebruik van dit frame. Nu zie je tussen NRC Handelsblad en De Telegraaf een groter verschil. Het NRC Handelsblad gebruikt het economic consequences frame minder vaak dan De Telegraaf (19.4% vs 26.3%). Is dit gevonden verschil significant? Met andere woorden, is het gevonden verschil groot genoeg om aan te mogen nemen dat het ook in de populatie bestaat? Tabel 8.4 laat de uitkomsten van de χ2 - testen zien. Tabel 8.5 laat weer verschillende toetsen voor significantie zien, waarvan we kijken naar de Pearson χ2 . Ook hier kijken we naar de uitkomsten voor 2zijdige toetsen. De test laat een significantie zien van .008. Wat betekent dat? Het significantieniveau van die test is .008. Dat betekent dat, wanneer de nulhypothese waar is, je in 8 van de 1000 keer (.008) verwacht dat je een χ2 van minimaal 6.98 (eerste kolom, onder ‘value’) zult vinden. Deze waarde valt bin-
80
Nominal by Nominal N of Valid Cases
Hypothesen toetsen voor nominale variabelen
Phi Cramer’s V
Value 0.073 0.073 1309
Approx. Sig. 0.008 0.008
Tabel 8.6: Associatiemaatstaven voor samenhang tussen dagblad en gebruik van conflictframe nen het kritieke gebied van 5%; de uitkomst is significant en een reden om de nulhypothese te verwerpen. Er is een verschil in het gebruik van economic consequences frames tussen NRC Handelsblad en De Telegraaf in de berichtgeving over het conflict tussen Israël en Palestina (χ2 (1) = 6.980, p ≤ .05, V = .073). Als we vervolgens weer even terug kijken naar Tabel 8.4, dan kunnen we bovendien concluderen dat De Telegraaf significant vaker gebruik maakt van het economic consequences frame dan het NRC Handelsblad. Dus voor de inhoudelijke interpretatie ga je altijd weer even terug naar de kruistabel. En hoe zit het met de associatie tussen dagblad en economic consequences frame? We hebben op basis van chi-kwadraat de nulhypothese verworpen — we zien samenhang — maar is die samenhang echt noemenswaardig? Voor de χ2 geldt namelijk dat de resultaten snel significant bevonden worden als de steekproef vrij groot is. Om te kijken of de samenhang noemenswaardig is, berekenen we weer Cramer’s V (en Phi) (tabel 78.6). We zien nu dat V (en Phi) een grotere waarde hebben van .073. Let echter wel: de samenhangsmaat V kan een waarde aannemen tussen 0 en 1; .073 is dus best een lage waarde. Hier zie je de toegevoegde waarde van een associatiemaatstaf als Cramer’s V: we vonden een significant verschil, maar dit verschil is niet heel substantieel. Het is dus belangrijk om altijd verder te kijken als je een ‘significant’ verschil vindt! De boodschap is dus: plaats de uitkomst in de context (in dit geval bijvoorbeeld door te bedenken waar een waarde van V van .073 valt op een schaal van mogelijke waardes tussen 0 en 1) en staar je niet helemaal blind op significantie.
HOOFDSTUK
9
Toetsen voor ratiovariabelen: t-test
In hoofdstuk 8 hebben we gekeken of het framegebruik van NRC Handelsblad en De Telegraaf van elkaar verschilde. Daarbij maakten we gebruik van kruistabellen en χ2 als toetsingsinstrument. We konden toen geen andere toetsen gebruiken omdat we te maken hadden met nominale variabelen: het frame was of wel, of niet aanwezig in een artikel. We konden er geen gemiddelde of standaarddeviatie voor berekenen. Bij andere variabelen kan dat wel. Een voorbeeld is als je gaat kijken naar de mate van framing in artikelen. In sommige artikelen wordt een bepaald frame nul keer gebruikt, in andere 1 keer, 2 keer of nog vaker: het is een ratiovariabele. We kunnen daarover een gemiddelde berekenen (de mate van framing per artikel), met een standaarddeviatie erbij. Dat kan omdat we op basis van de centrale limietstelling (zie 7) mogen aannemen dat elke verdeling van gemiddelden (in dit geval: van framing per artikel) een normale verdeling zal aannemen, mits de steekproef groot genoeg is. Dat laatste is het geval bij onze steekproef van artikelen in De Telegraaf en NRC Handelsblad: dat waren er respectievelijk 319 en 990. Dat is groot genoeg.
9.1
Independent samples t-test
Stel, we hebben observaties van de mate van framing van artikelen die afkomstig zijn uit twee onafhankelijke subpopulaties (bijvoorbeeld uit NRC Handelsblad en De Telegraaf ). De gemiddelden in die twee groepen kunnen vergeleken worden met behulp van de independent samples t-test. De teststatistiek heet t, en is verdeeld volgens de t–verdeling, die is afgeleid van de normale (z–) verdeling. De uitkomsten zijn dan ook op precies dezelfde manier te interpreteren zoals we deden in hoofdstuk 7 bij de z–verdeling. Het gaat hier ook 81
82
Toetsen voor ratiovariabelen: t-test sourceid
conflictframetotaal economicconstotaal
NRC Handelsblad De Telegraaf NRC Handelsblad De Telegraaf
N
Mean
990 319 990 319
1.08 1.01 0.61 0.83
Std. Deviation 1.87 1.66 1.62 1.87
Std. Error Mean 0.06 0.09 0.05 0.10
Tabel 9.1: Statistieken voor framegebruik in NRC en Telegraaf om kritieke waarden (de kritieke z– waarde heet hier dan de kritieke t–waarde) en significanties die we vergelijken met een kritieke grens of een kritiek gebied. De nulhypothese die men kan testen is: het gemiddelde van de twee populaties is gelijk. In dit geval: H0
µDeT elegraaf = µN RC De alternatieve hypothese is: er is een verschil tussen die twee gemiddelden.
H1 µDeT elegraaf 6= µN RC We gaan een independent samples t-test uitvoeren op de gemiddelde framing per artikel in NRC Handelsblad en De Telegraaf . Dit kan omdat we hier te maken hebben met grote steekproeven (wat een t-test mogelijk maakt, zie ook hoofdstuk 7) en omdat we twee steekproeven hebben getrokken, allebei vanuit een andere populatie (dat maakt ze ‘onafhankelijk’, wat maakt dat we voor de ‘independent samples t-test’ kiezen). In praktijk werkt het als volgt. Ga in SPSS naar analyse, compare means en naar independent samples t-test. Vervolgens vul je de sourceid in bij grouped, dat zijn de groepen die met elkaar vergeleken moeten worden: de dagbladen dus (daar moet je nog even de nummers van de sourceid invullen, in dit geval 57 en 61) en bij de test-variables vul je de variabelen in waarvan je het verschil wilt testen. Hier vul je nu niet de conflict en economiccon in maar de conflictframetotaal en economicconstotaal — we gaan dus twee aparte testen doen. Je kiest hier voor de ‘totaal-’ variabelen omdat je hier niet wilt kijken naar OF een frame voorkomt ja of nee, maar je wilt de gemiddelde waardes per artikel tussen de kranten op het niveau van conflict- en economic frames meten. In de data kun je dit bereiken door per artikel te kijken naar het aantal hits voor een frame — en die variabele kan meer waarden aannemen dan louter 0 (afwezig) en 1 (aanwezig). We zien dat de mate van conflictframing niet zo heel erg verschilt tussen NRC Handelsblad en De Telegraaf : de gemiddelden zijn respectievelijk 1.08 en 1.01 (tabel 9.1). Bij het economic consequences frame is er een groter verschil, namelijk 0.22. Is dit verschil significant? We gaan een independent samples t-test uitvoeren. Dat doen we in twee stappen. De eerste stap leggen we uit aan de hand van de uitkomsten in tabel 9.2.
9.1
Independent samples t-test
conflictframetotaal
Equal variances assumed Equal variances not assumed economicconstotaal Equal variances assumed Equal variances not assumed
83 Levene’s Test for Equality of Variance F Sig. 1.192 0.275
7.832
0.005
t-test for Equality of Means t Df 0.565 1307 0.601
600.527
-2.016
1307
-1.877
482.369
Tabel 9.2: Levene’s test voor de gelijkheid van varianties tussen groepen
In tabel 9.2 kijken we eerst naar de varianties binnen de twee groepen, namelijk NRC Handelsblad en De Telegraaf . De steekproeven komen uit die twee onafhankelijke populaties waardoor we te maken hebben met twee verschillende gemiddelden, maar ook met twee verschillende varianties. De vraag is hoe verschillend die varianties zijn — een klein verschil kan namelijk nog te wijten zijn aan toeval. Als ze sterk van elkaar verschillen, dan moeten we de t-test iets aanpassen, want die gaat normaal uit van gelijke varianties. Omdat we de goede test willen doen, moeten we weten of we kunnen aannemen dat de varianties van de twee populaties gelijk, dan wel ongelijk zijn. Daarvoor doen we de Levene’s test for equality of variances — eigenlijk een tussenstap voor de ‘echte’ t-test - waarbij de nulhypothese is dat de varianties in de twee populaties gelijk zijn. De alternatieve hypothese luidt dat de varianties ongelijk zijn. Levene’s test vergelijkt de varianties uit de twee groepen met elkaar middels een zogenoemde F -test (F is weer een andere verdeling, naast de z– en de tverdeling), waarvan het voor nu alleen van belang is dat je de ‘significance’ kunt interpreteren. Het kritieke gebied zetten we op 5%, en we toetsen tweezijdig want we weten niet welke variantie groter zou kunnen zijn en welke kleiner (dat hoef je niet expliciet aan SPSS te vertellen; hij toetst bij deze test standaard tweezijdig). Als we kijken naar het conflictframe dan zien we dat de kans op gelijke varianties voor NRC Handelsblad en De Telegraaf gelijk is aan .275. Dat is niet significant op een niveau van 5%. We nemen de nulhypothese dus aan; de varianties in NRC Handelsblad en De Telegraaf voor het conflictframe zijn gelijk. Voor de economic consequences zien we een ander beeld: de F -waarde is wel degelijk significant (.005 ligt in het kritieke gebied van .05) en dus moeten we voor dat frame de nulhypothese verwerpen: de varianties voor het economic consequences frame zijn niet aan elkaar gelijk. Nu kunnen we verder met de eigenlijke toetsen: is er verschil in mate van framing tussen NRC Handelsblad en De Telegraaf ? Hiervoor kijken we naar Tabel 9.2 tabel 9b. We beginnen met het conflictframe. We moeten kijken naar de testuitkomsten in de rij met ‘equal variances assumed’ (zie de uitkomsten in tabel Tabel 9.2). We zien daar dat het gevonden verschil tussen de gemiddelden gelijk is aan .066. De kans van .572 (‘significance’) vertelt ons dat dit
84
Toetsen voor ratiovariabelen: t-test
conflictframetotaal economiccons totaal
Equal variances assumed Equal variances not assumed
Equal variances assumed Equal variances not assumed
t-test for Equality of Means Sig. Mean Std. Error (2-tailed) Difference Difference 0.572 0.066 0.117 0.548 0.066 0.110 0.044 -0.219 0.108 0.061 -0.219 0.116
Tabel 9.3: Uitkomsten van de independent samples t-tests voor 2 soorten frames verschil niet significant is bij een kritiek gebied van 5%. We nemen H0 dus aan: gemiddeld komt het conflictframe even vaak voor in De Telegraaf als in NRC Handelsblad. In je rapportage zet je achter deze inhoudelijke conclusie je bevindingen in cijfers tussen haakjes. Ten eerste de t-waarde, met het aantal cases (n) tussen haakjes - hier is n 990+319. Vervolgens noteer je de significance van de t-waarde (die p genoemd wordt. Als de t-waarde significant is dan schrijven we ‘p < .05’. Als die niet significant is dan schrijven we het hele getal uit achter een ‘=’-teken). De uitkomsten van Levene’s test hoef je niet te rapporteren. In het algemeen is de notatie ‘t = . . . , p = . . .’. Dat wordt hier voor het conflictframe (t(1309) = .565, p = .572). Waar vind ik die cijfers? De t-waarde voor het verschil tussen de gemiddelden vind je in @ tabel 9a, in de kolom ‘t’ onder t-test for equality of means. Je kijkt naar de eerste rij, omdat je aanneemt dat de varianties voor NRC Handelsblad en De Telegraaf gelijk zijn. Voor de ‘significance’ (p) kijk je in Tabel 9.2, wederom in de eerste rij (equal variances). Voor het economic consequences frame doen we een iets aangepaste test want we vonden in tabel 9.2 dat de varianties daar niet gelijk waren. De uitkomsten van die test staan in de rij bij ‘equal variances not assumed’ (tabel 9.3)). We zien dat het gevonden verschil van .22 niet significant is met een kans van .061 (‘significance’). We nemen ook hier H0 dus aan. We hebben geen aanwijzingen gevonden dat zowel de mate van conflictframegebruik als de mate van economic consequences-framegebruik verschilt tussen NRC Handelsblad en De Telegraaf . Voor het economic consequences frame wordt de cijfermatige notatie (t(1309) = −1.877, p = .061). Deze cijfers vind je respectievelijk in Tabel 9.2, derde kolom (‘t’), vierde rij (equal variances not assumed), en in Tabel 9.3, eerste kolom (significance), vierde rij.
9.2
Paired samples t-test
Soms wil je de gemiddelden van twee groepen vergelijken die niet onafhankelijk van elkaar zijn. In de vorige paragraaf hadden we als voorbeeld de gebruikte frames in NRC Handelsblad en De Telegraaf — die twee steekproeven waren onafhankelijk van elkaar. Stel dat we het gemiddelde gebruik van het conflict frame in De Telegraaf in de eerste en de tweede helft van 2010 willen vergelijken. Als we dat willen onderzoeken hebben we weer een t-test nodig. Maar
9.2
Paired samples t-test
85
i.t.t. het voorbeeld uit de vorige paragraaf zijn de twee steekproeven hier niet onderling onafhankelijk. We trekken de steekproeven wel uit twee verschillende perioden (de eerste helft en de tweede helft van 2010), maar het gebruik van het conflictframe in de eerste helft heeft wel degelijk iets te maken met die in de tweede helft. De redactionele gewoonten spelen hier bijvoorbeeld een rol: die verander je niet zomaar. Onderlinge afhankelijkheid treedt bijna altijd op als we te maken hebben met tijd: als we het gemiddelde op t = 1 willen vergelijken met dat op t = 2. Een ander voorbeeld waarbij je een paired samples t-test gebruikt, is als je wilt weten of in dezelfde set van artikelen de mate van framing in termen van genocide net zo vaak voorkomt als de mate waarin wordt geframed in termen van etnische zuivering. Waarom gebruik ik hier een paired samples t-test en geen independent samples t-test? Dat komt omdat het gebruik van frames in dezelfde artikelen afhankelijk van elkaar is (je trekt de steekproef uit dezelfde populatie van krantenartikelen). Als in een artikel het ene frame gebruikt wordt, heeft dat invloed op het gebruik van een ander frame: die kans wordt groter of kleiner. Het gebruik van het ene frame is dus niet onafhankelijk van het gebruik van het andere frame, dus moet je hier de paired samples t-test gebruiken. Bij de keuze voor een independent samples- of een paired samples t-test moet je dus van tevoren bedenken of de steekproeven afhankelijk zijn van elkaar of niet. Je nulhypothese is dan dat beide frames even vaak voorkomen. Oftewel, het verschil tussen de twee gemiddelden is gelijk aan nul. De alternatieve hypothese stelt dat beide frames niet gelijk voorkomen. H0
µgenocide = µetnischezuivering
H1
µgenocide 6= µetnischezuivering
Je laat SPSS het gemiddelde gebruik van de frames per artikel berekenen. Vervolgens ben je geïnteresseerd in het verschil tussen deze gemiddelden: wijkt dit significant af van 0? Dat kun je doen met 2 frames, maar je kunt ook meerdere frames met elkaar vergelijken in één keer. Je krijgt dan ook meerdere testuitkomsten in een output. Hieronder gaan we het doen voor data rondom de framing van artikelen die gaan over Darfur. In SPSS ga je naar Analyze, compare means, paired samples t-test. Daar kun je vervolgens Paired variables invullen. Dat doe je met drie paren voor de drie variabelen, want je wilt het gemiddelde gebruik van drie frames met elkaar vergelijken. Daarvoor gaan we drie toetsen uitvoeren: we vergelijken het etnische zuiveringsframe met het genocideframe, het etnische zuiveringsframe met het mensenrechtenframe en het genocideframe met het mensenrechtenframe (Figuur 9.1). Vervolgens klik je op OK en dan krijg je de volgende output (Tabel 9.4 en Tabel 9.5).
86
Toetsen voor ratiovariabelen: t-test
Figuur 9.1: SPSS-Scherm voor invoer Paired Sample T-Test
Tabel 9.4: Beschrijvende statistieken voor de drie paren
Tabel 9.5: Uitkomsten van de paired-samples t-test
9.3
Verdelingen
87
Tabel 9.4 laat de gemiddelden en de standaarddeviaties zien van het gebruik van de drie frames afzonderlijk. Je ziet dat het gemiddelde voor het genocideframe .64 is, voor etnisch zuiveren .24 en voor mensenrechten .34. De vraag is: verschillen de gemiddelden van de paren significant van elkaar? Daarvoor voeren we de paired samples t-test uit (Tabel 9.5). We nemen weer een kritiek gebied van 5% (tweezijdige toetsen). In het eerste deel van @ tabel 10b worden de verschillen tussen de gevonden waarden en de standaardfouten van de verschillen bekeken. De mean slaat op het verschil tussen de gevonden gemiddelden. Dat is voor etnisch zuiveren en genocide .24-.64=-.40 (of .40, als je het gemiddelde van etnisch zuiveren van genocide aftrekt). De standaardfout van het verschil is gelijk aan .030. In het tweede deel van @ tabel 10b wordt het verschil tussen de gemiddelden getoetst. We zien dat het verschil van .400 significant afwijkt van het veronderstelde verschil van nul (bij de ‘significance’ lezen we af dat de kans op het vóórkomen van een verschil van .4 in de steekproef, terwijl in de populatie een verschil bestaat van nul, .000 is en dat valt in ons kritieke gebied). Er is dus een significant verschil tussen het vóórkomen van de etnische zuiverings- en genocideframes. H0 wordt verworpen. Bovendien lijkt dit verschil behoorlijk substantieel, naast dat het significant is. Hetzelfde kunnen we doen voor de twee andere combinaties. We zien ook daar in allebei de gevallen significante verschillen, alhoewel het verschil substantiëler is in het geval van het verschil tussen mensenrechten en genocide dan tussen mensenrechten en etnische zuivering. We concluderen: µgenocide 6= µetnischezuivering µgenocide 6= µmensenrechten µetnischezuivering 6= µmensenrechten In Tabel 9.5 kun je ook ‘andersom’ tot dezelfde conclusies komen. In de upper en lower bound van het 95% betrouwbaarheidsinterval zie je dat je met 95% zekerheid kunt stellen dat het verschil tussen het etnische zuiveringsframe en genocideframe in de populatie zal liggen tussen de -.46 en -.34. Het veronderstelde verschil van nul ligt buiten dat interval, en dus kun je stellen (met 95% zekerheid) dat er sprake is van een significant verschil. Dezelfde redenering kun je toepassen op de andere twee paren. Of je het linksom of rechtsom beter snapt, dat maakt niet uit, want we komen tot dezelfde conclusies. Dus je kijkt of naar de t-waarde en de significantie daarvan, of naar de reikwijdte van het betrouwbaarheidsinterval. Neem vooral de manier die je het beste ligt. In je rapportage zet je na je inhoudelijke conclusie tussen haakjes de twaarde en de significance neer, net als bij de independent samples t-test. In het geval van de vergelijking tussen etnische zuivering en genocide is dit: Het genocideframe wordt vaker gebruikt dan het etnische zuiveringsframe; het verschil is .400. Dit is significant (t(590) = −13.190, p < .05).
9.3
Verdelingen
Tot slot van dit hoofdstuk: wat moet ik nu met al die verschillende verdelingen?! We hebben inmiddels de z-, de chi-kwadraat- de F -, en de t- verdeling langs zien
88
Toetsen voor ratiovariabelen: t-test
komen. Wanneer doe ik wat? • De z-verdeling is de standaardnormale verdeling (zie ook hoofdstuk 7) die je gebruikt om de significantie van een enkele waarneming van een normaal verdeelde variabele te toetsen. In de praktijk zul je die niet zo vaak gebruiken; • De t-verdeling is afgeleid van de standaardnormaalverdeling. Het is de verdeling van de steekproefgemiddelden waarbij de z-waarde wordt aangepast door die door wortel-n te delen (zie 7). Hij wordt gebruikt om afwijkingen van steekproefgemiddelden van een normaal verdeelde variabele te toetsen; • De chi-kwadraat (χ2 ) verdeling gebruik je voor het toetsen van de samenhang tussen twee nominale variabelen; • De F -verdeling gebruik je (onder andere) om te toetsen of twee varianties aan elkaar gelijk zijn, in het geval van two samples t-testen. Deze test heet Levene’s test en volgt zoals gezegd de F-verdeling. Ook ANOVA volgt de F-verdeling. Hoe interpreteer ik de uitkomsten? Eigenlijk maakt het niet uit wat voor verdeling er achter je test ligt. Het idee is dat als de kans op een gevonden z–, t–, F – of χ2 -waarde (de ‘significance’) kleiner is dan het door jou bepaalde kritieke gebied, dat we dan de H0 verwerpen. We nemen dan aan dat er samenhang is (bij χ2 ), of dat een gevonden verschil niet gelijk is aan nul (bij z, t en F ). Met andere woorden, de uitkomsten zijn dan niet op basis van toeval te verklaren, waardoor we de H0 niet meer geloven.
HOOFDSTUK
10
Samenhang tussen ratiovariabelen: correlatie
Ook voor interval- en ratiovariabelen hebben we maten voor samenhang, zoals we in hoofdstuk 8 de samenhangsmaat Cramer’s V bespraken voor nominale variabelen. Cramer’s V kan de samenhang laten zien tussen twee nominale variabelen en varieert daarbij tussen 0 en 1, waarbij 0 staat voor ‘geen samenhang’ en 1 voor ‘maximale samenhang’. Voor interval- en ratiovariabelen bestaan er ook maten van samenhang, waarvan de bekendste Pearson’s r heet (in het Nederlands: de productmomentcorrelatiecoëfficiënt, of kortweg de correlatiecoëfficiënt). Deze maat is interessant als je bijvoorbeeld wilt weten in welke mate twee frames samen vóórkomen binnen één artikel. De uitkomsten van de maat kunnen variëren tussen -1 en +1. Daarbij is er bij een waarde van 0 geen samenhang, bij een waarde van 1 maximale positieve samenhang en bij een waarde van -1 maximale negatieve samenhang. Een voorbeeld. Je wilt weten of de framing van een artikel in termen van conflict samenhangt met de framing in termen van economic consequences. Is het zo dat een conflictframe vaak voorkomt in combinatie met economic consequences, of juist niet (binnen een artikel)? Daar kunnen we inzicht in krijgen door de correlatiecoëfficiënt r te berekenen voor die samenhang. Een voorbeeld kan dit verduidelijken. Het vóórkomen van een conflictframe per artikel in NRC Handelsblad varieert van 0 tot 12. Het vóórkomen van het economic consequences frame in dezelfde artikelen in NRC Handelsblad varieert van 0 tot 9. Als we per artikel kijken, is het nu zo dat er vaker een economic consequences frame wordt gebruikt als er in dat artikel ook een conflictframe is gebruikt, of sluiten die twee elkaar juist vaker uit? Om dit te toetsen stellen we hier weer een nul- en een alternatieve hypothese op. 89
90
Samenhang tussen ratiovariabelen: correlatie
H0 r = 0 (er is geen samenhang tussen het vóórkomen van het conflictframe en het economic consequences frame).
H1 r 6= 0 (er is samenhang tussen het vóórkomen van het conflictframe en het economic consequences frame). De test kun je uitvoeren door in SPSS te gaan naar: Analyze – Correlate – Bivariate. Onder variables kies je dan voor ‘conflictframetotaal’ en ‘economicconstotaal’. Klik bij ‘correlation coefficients’ op ‘Pearson’. Vervolgens kies je bij ‘test of significance’ voor ‘two-tailed’ (deze test of de correlatie significant afwijkt van nul of niet, en aangezien die zowel positief als negatief kan afwijken van nul kies je two-tailed). Vervolgens krijg je de correlatiecoëfficiënt gepresenteerd als een cijfer tussen -1 en 1. Als r uitkomt op nul dan is er geen samenhang tussen het vóórkomen van het conflictframe en vóórkomen van het economic consequences frame. Komt er 1 uit, dan gaat het vóórkomen van het ene frame altijd en in gelijke mate samen met het voorkomen van het andere frame. Komt er -1 uit, dan is er sprake van maximale negatieve samenhang: als er economic consequences in voorkomen, dan komen er minder conflictframes in het artikel voor (en die aantallen lopen dan gelijkelijk op en af). Als de ‘significance’ kleiner is dan .05 dan is er sprake van samenhang tussen het vóórkomen van de 2 frames — de samenhang is dan dusdanig groot dat we die niet meer op basis van toeval kunnen verklaren. Afhankelijk van de + of de — van de r is die samenhang positief of negatief. Als r niet significant is, dan houden we de nulhypothese aan: r = 0. Maar vergeet niet te kijken of de samenhang ook wel substantieel is! Bij grote aantallen kan een r van bijvoorbeeld .07 (of -.07) gemakkelijk significant bevonden worden. Maar op een schaal van 0 tot 1 (of van 0 tot -1) is dat wel een heel kleine samenhang. In dit voorbeeld kan r nooit precies 1 of -1 worden, omdat er per artikel maximaal 12 conflictframes inzitten, terwijl dit voor dezelfde artikelen 9 bedraagt voor de economic consequences. Er kan dus nooit maximale samenhang bestaan in dit voorbeeld. Dat had theoretisch wel gekund als het minimum en het maximum voor beide frames hetzelfde getal was geweest. Er bestaat een techniek die is afgeleid van correlatie, en dat is regressie. Daarbij ga je ervan uit dat variatie in de ene variabele impact heeft op variatie in de andere. Bijvoorbeeld het effect van het jaarsalaris op de aantal vierkante meters dat iemands huis groot is. We gaan ervan uit dat daar een positieve samenhang is (mensen met een hoog salaris hebben vaak grotere huizen), en ook nog dat hier sprake is van een effect van de ene variabele op de andere: je salaris heeft effect op de grootte van je huis (en niet andersom). In praktijk kunnen we de regressietechniek voor inhoudsanalyse maar zelden toepassen, omdat je bijv. niet kunt zeggen dat het vóórkomen van het ene frame effect heeft op het vóórkomen van het andere frame (want je kunt net zo goed zeggen: het vóórkomen van het andere frame heeft impact op het vóórkomen van het ene frame!). Omdat we deze techniek zelden zullen gebruiken voor onze doelein-
91 den, zullen we regressie hier verder buiten beschouwing laten. Wil je meer lezen over correlatie (en regressie) in SPSS? Kijk bijvoorbeeld naar (Norusis, 2009).
92
Samenhang tussen ratiovariabelen: correlatie
Bibliografie
Buijs, A. (2008). Statistiek om mee te werken (8e dr.). Stenfert Kroese, Groningen. Krippendorff, K. (2004). Content Analysis: An Introduction to Its Methodology (second edition). Sage Publications, Thousand Oaks, CA. Norusis, M. (2009). PASW Statistics 18 Statistical Procedures Companion. Prentice Hall, Upper Saddle River, NJ.
93