okende pistolen 5.1 Data analyseren: twee strategieën

Rokende pistolen

5

Dit is het hoofdstuk waarin ‘data verwerken’ en ‘nieuws vinden’ samen komen. Eindelijk heb je spannende cijfers, maar de getallen dansen voor je ogen. In dit hoofdstuk vertellen we hoe je cijfers moet interpreteren en waar je op moet letten om nieuws te vinden. Je kunt een onderzoek van The New York Times stap voor stap zelf nadoen dankzij journalist Andy Lehren. S peciaal voor dit boek stelde hij al zijn materiaal ter beschikking. De Nederlandse datapionier Dick van Eijk (NRC Handelsblad) schreef aan dit hoofdstuk mee en onthult zijn twaalf beste tips. Tot slot heeft Pulitzer-prijswinnaar Sarah Cohen (ex-Washington Post) nog drie ijzersterke suggesties voor je. We hopen dat je straks geen enkel ontzag meer hebt voor enorme hoeveelheden cijfers. 5.1

Data analyseren: twee strategieën

Rommel je erop los totdat je iets ziet wat nog nooit iemand zag? Of heb je vooraf een hypothese die je probeert te bewijzen? Deze twee strategieën vullen elkaar meestal goed aan. Meestal leidt het rommelen tot een vaag v ermoeden. 5.1.1 ‘Rommelen’ Breek met de regels tijdens je rommelfase. Probeer altijd eerst zélf de cijfers te visualiseren via eenvoudige grafieken in Excel, zie http://forreporters.com/ grafiekenmetexcel. Pas dan vallen je bijzondere stijgingen of dalingen op. Maak gerust een grafiekje die niet begint bij 0, maar met 9.5 omdat je anders de nuances niet ziet. Hieronder zie je een lijst van klachten van werknemers bij een groot Nederlands bedrijf. Je ziet dat er tussen de jaren 2008, 2009, 2010, 2011 en 2012 nauwelijks verschil zit. Dat komt omdat je een schaal gebruik van 0 tot 100:

Handboekdatajournalistiek.indd 155

27-7-2012 12:42:04

156

Handboek datajournalistiek

Figuur 5.1

Niets aan de hand

Laten we de schaal nu eens beginnen in de buurt van het gemiddelde van die vijf jaren (dat is 10.94). We beginnen met 9.5 en eindigen bij 12.5. Dezelfde cijfers zien er nu opeens zo uit:

Figuur 5.2

Toch wat aan de hand

Je ziet dat er in 2012 meer klachten zijn geweest dan je kon zien in figuur 5.1. Het gaat erom dat je in de rommelfase de data zo presenteert voor jezelf dat je slimme vragen kan gaan stellen. Misschien gebruik je bovenstaande grafiek nooit in je verhaal. Maar het helpt je wel de cijfers te beoordelen. Dat doen veel datajournalisten: ze visualiseren de gegevens vaak voor zichzelf en niet voor het publiek. Pas helemaal aan het eind van de productie gaat de grafische afdeling misschien aan de slag met een illustratie of productie voor een breed publiek. Veel data-onderzoek kent de rommelfase waarin je de getallen op je laat inwerken en kijkt of je dingen ziet die niet meteen te plaatsen zijn. Dat zijn vaak de rokende pistolen om vage vermoedens te ontwikkelen. En die leiden in veel gevallen tot een hypothese. Hypothese Een hypothese is een vraag die je baseert op een (soms vaag) vermoeden.


27-7-2012 12:42:05

Rokende pistolen

157

Je hebt een lijst van alle oorspecialisten van Nederland waarin staat met welke verzekeraar ze zaken doen. Ook heb je rapportcijfers van patiënten. Wat zou je met deze lijst kunnen doen? Een hypothese kan zijn: ‘Zitten de slechtst beoordeelde oorartsen bij dezelfde verzekeraar?’ De sorteerfunctie in Excel helpt je hypotheses te toetsen. Je kijkt naar de onderste twintig artsen in de lijst en controleert of bepaalde verzekeraars misschien vaker voorkomen dan andere. Is dat niet het geval? Pas je hypothese dan aan: ‘Zitten de best scorende oorartsen bij dezelfde verzekeraar?’ In dit voorbeeld blijkt dat inderdaad zo te zijn. Deze constatering is op zichzelf nog geen nieuws. Het gaat om de reden: waarom scoort de ene verzekeraar zo goed en de rest niet? Als het de duurste verzekeraar is, dan lijkt de verklaring logisch. Mensen die meer betalen, krijgen betere zorg. Als het een gemiddeld dure verzekeraar of juist een goedkope verzekeraar is, dan wordt het al interessanter. Hoe kan het dat de goedkoopste verzekeraar ook de beste is? 5.2

Case: de marathon in New York

Ter ontspanning, na een serie inspannende onderzoeksverhalen, ging Andy Lehren van The New York Times aan de slag met een oude uitslagenlijst van de marathon van New York. Het zou uiteindelijk leiden tot interessant nieuws, maar het eerste artikel was dat bepaald niet. Speciaal voor dit boek vertelt Lehren hoe hij te werk is gegaan. Zo op het eerste oog zit er geen nieuws in een bestand dat al maanden geleden is gepubliceerd:

Figuur 5.3


Niets aan de hand

27-7-2012 12:42:05

158


5.2.1

De rommelfase

In deze rommelfase dacht Lehren: wat mis ik eigenlijk aan deze cijfers? Ik zie alleen de gefinishte mensen. Misschien is het interessant om te zien wie juist niet finishte en waarom. Hij vraagt een tweede database van de marathon op. Zijn interesse gaat uit naar de kolom DNF: Did Not Finish. Hij besluit 400 afgehaakte lopers nader te analyseren, want de nieuwe marathonloop in New York staat voor de deur. Zijn onderzoek leverde een leuk voorverhaal op voor de liefhebbers, zie http://forreporters.com/marathon.

Figuur 5.4

Voor de liefhebbers: wie haakt waar af bij de marathon van New York?

Lehren kon na de publicatie de data nog niet loslaten. Hij had een hypothese. Dat kun jij nu ook doen. Ga naar http://forreporters.com/nytdata en je krijgt de originele database die Lehren zelf samenstelde op grond van zijn onderzoek. Hij heeft deze op verzoek van de auteurs aan jou beschikbaar gesteld. Het eerste probleem dat je moet oplossen, is dat het bestand is weggeschreven in CSV. In paragraaf 3.1 lees je hoe dat moet. Als je het bestand hebt ingelezen, ziet het er nog niet helemaal goed uit. Vooral de vierde kolom irriteert: daar zijn de naam, leeftijd, sponsor en het land van de loper op één hoop gegooid.


27-7-2012 12:42:05

Rokende pistolen

159

NameAgeSponsorCountry Hoe los je dit op? 1. Zet je cursor in veld D1. 2. Ga in Excel naar Gegevens -> Tekst naar kolommen en klik op Volgende. 3. Probleem! Wil je scheiden op SPATIE, dan gaat het mis:

Figuur 5.5

De standaard scheidingstekens hebben hier geen zin

De lange namen, zoals Marilson Gomes Dos Santos, worden verkeerd over de kolommen verdeeld. 4. Maak het bestand in meerdere stappen schoon. Ga naar Overige en vul ( in:

Figuur 5.6


De schoonmaak moet in stappen

27-7-2012 12:42:05

160


5. Klik Volgende en Voltooien en ga akkoord met de vraag of je de cellen wilt vervangen. Het begin van je database moet er nu zo uitzien:

Figuur 5.7

De namen zijn nu netjes gesorteerd; nu nog de rest

6. We moeten nu wat ruimte maken voor de leeftijden van de marathonlopers, hun eventuele sponsor en de naam van het land of de Amerikaanse staat. Ga naar Invoegen – Cellen en voeg twee cellenrijen toe. 7. Klik op kolom E. Je moet Excel nu vertellen wat voor soort gegevens er in de nieuwe kolommen komen te staan. Doe je dat niet, dan krijg je na het importeren misschien rare gegevens te zien. Klik op CONTROL-1 en kies voor de categorie Algemeen -> OK. 8. Klik weer op kolom E en ga naar Gegevens -> Tekst naar kolommen en klik op Volgende. Ga naar Overige en vul ) in en klik op Volgende.

Figuur 5.8


De leeftijden netjes tonen

27-7-2012 12:42:06

Rokende pistolen

161

9. Het bestand moet er nu zo uitzien:

Figuur 5.9

Bijna klaar: sponsors en landen staan nog wel in één kolom

Klik op kolom F en ga via Gegevens weer naar Tekst naar Kolommen en Volgende. Nu kun je als scheidingsteken wel een komma aanvinken.

Figuur 5.10 Nu mag je wel een komma kiezen

Klik op Volgende en Voltooien. 10. Het laatste klusje dat je nu nog moet doen, is dat je boven de kolommen de juiste omschrijving zet.

Figuur 5.11

De klus is geklaard, we kunnen aan het werk

Onderzoek welke sponsor het beste scoort: wie heeft de hoogst geklasseerde lopers? Wie de laagst geklasseerde? Welke landen scoren het best? Welke het slechtst? Wie is de hoogst geklasseerde oudste deelnemer? Wie is de jongste?


27-7-2012 12:42:06

162


Al spelende met de database – we zitten nog steeds in de rommelfase – viel Lehren iets op. Als je voorbij de top 1000 scrollt, zie je bij de tussentijden (10, 15, 20 km, halverwege, 25, 30, 35 en 40 km) af en toe cijfers ontbreken. De tussentijden worden gemeten door een soort mat in de weg. 5.2.2

De hypothese

Nu kwam Lehren met een vraag: hebben de renners die meer dan een keer de mat hebben gemist, gefraudeerd? Sorteer de renners nu zo dat ze de eerste mat moeten hebben gemist, maar wel een eindtijd hebben (40K). Dat doe je zo: 1. Klik helemaal links op de 1 en kies voor Gegevens  Filteren. Je ziet dan dit:

Figuur 5.12 Filteren van gegevens 2. Ga naar veld I1 en klik op het kleine pijltje naast 10K: 3. Klik op Alles selecteren.

Figuur 5.13 Alles selecteren moet uit


27-7-2012 12:42:06

Rokende pistolen

163

Scroll naar beneden totdat je Lege Waarden ziet. Vink dit aan.

Figuur 5.14 Lege Waarden moet aan Je hebt nu een lijst van mensen die de eerste rondetijd hebben gemist. Je wilt echter alleen mensen zien die ook werkelijk de finish hebben gehaald. Klik op het pijltje in cel P1 en haal nu juist het vinkje weg bij Lege Waarden. Opeens ruik je nieuws. Sommige renners hebben twee, drie, vier en zelfs alle matten gemist, behalve de eindmat. Ze zijn toch geklasseerd. Hoe kan dit?

Figuur 5.15


Rokende pistolen in beeld: hoe kan het dat iemand vele matten mist en toch mag finishen?

27-7-2012 12:42:07

164


Lehrens tussendoortje (‘ik wilde een beetje ontspannen met cijfers over mijn favoriete sport’) wordt nu opeens een hoofdnummer. Hij wist de foto’s van de mensen te vinden die mogelijk gefraudeerd hebben – via een site waarop renners foto’s kunnen nabestellen. Het viel hem op dat een winnaar in de categorie ouderen een jonge, gebronsde Italiaan was. Het complete verhaal dat ontstond dankzij deze data, vind je op http://forreporters.com/verhaal. 5.3

Cijfers interpreteren

Hoe interpreteer je cijfers? We pakken een tweede voorbeeld op grond waarvan je zes algemene tips krijgt die je op databases kunt toepassen. We werken met een persbericht van Bejaardentehuis Het Rokende Pistool in Antwerpen, in de volksmond ‘De Snik’ geheten. Daarin staat dat de hoofdvleugel is verbouwd, dat ze heel tevreden zijn over hun zorgbeleid en, oh ja, ze melden wat cijfers over ongevallen in het tehuis. Kijk eens naar figuur 5.16.

Figuur 5.16 Bejaardentehuis Het Rokende Pistool: hoeveel ongelukken waren er in 2010 en 2011? Wat vind jij nieuws? Je ziet dat het aantal ongelukken is gedaald met 60.

Figuur 5.17 Minder ongelukken, dat is positief nieuws


27-7-2012 12:42:07

R o k e n d e p i s t o l e n

165

Afgezien van het flauwe woord ‘oudjes’ lijkt er niks mis te zijn met deze kop. Het aantal ongelukken is gedaald en dat staat ook in het artikel. Maar is dit het echte nieuws? Is een daling interessant genoeg voor een bericht? Dat hangt natuurlijk van de oorzaak af. Maar voordat je daarnaar op zoek gaat, moet je eerst onderzoeken hoe nieuw de cijfers zijn. Want anders word je misschien slachtoffer van de ‘De Goed Nieuws Show’. 5.3.1 Check de nieuwswaarde Sommige journalisten zullen het nieuws in figuur 5.17 niet melden omdat ze een daling niet spannend genoeg vinden. Ze willen liever een alarmerende stijging. Die lijkt niet aanwezig. Maar zo redenerend doen ze in de case van Bejaardentehuis Het Rokende Pistool precies wat de directie hoopt: de echte verhalen worden genegeerd. Het tehuis blijkt nog nooit in zijn bestaan cijfers over ongelukken naar buiten te hebben gebracht. Het is de allereerste keer dat ze het doen. Deze nieuwe cijfers zijn weggemoffeld in een persbericht over andere zaken. Controleer altijd of er al verhalen zijn gemaakt over je data. In dit voorbeeld heeft het bejaardentehuis voor de allereerste keer gemeld dat er ongelukken in eigen huis plaatsvinden. Dat las je nog nooit elders. Ze weten je aandacht af te leiden door ook het cijfer voor het jaar 2010 te melden. Daardoor ga je vanzelf denken: ach, het valt wel mee, het aantal ongelukken is met zestig gedaald. Dat is precies de bedoeling van de directie. Ze maken van slecht nieuws goed nieuws: dat er 180 ongelukken zijn geweest in één tehuis, is wellicht heel opmerkelijk. Stel dat er maar 200 mensen wonen? Dan heb je als oudere een hoge kans dat je een ongeluk gaat meemaken. Dat is een aardig nieuwtje. 5.3.2 Vraag aanvullende cijfers op Veel cijfers, vooral in gevoelige kwesties, worden zó gepresenteerd dat jij er niet van onder de indruk raakt. Neem de verstrekte cijfers niet klakkeloos aan, maar ga op zoek naar ontbrekende gegevens. Vraag zo veel mogelijk de achterliggende cijfers op. Neem geen genoegen met alleen een rekenkundig gemiddelde. Doe je dat niet, dan ontdek je niet dat er iets niet klopt. Neem de kop ‘Nederlander snapt Google niet’. Uit een internetonderzoek onder 4000 Nederlanders blijkt dat 80 procent van de mensen geen verschil ziet tussen de advertenties in Google en de zoekresultaten. Als je de cijfers opvraagt, zie je direct dat meer dan 80% van de deelnemers aan het


27-7-2012 12:42:07

166


onderzoek ouder is dan 60 jaar. Wat zegt dat? Dat vooral ouderen geen verschil zien tussen reclame en niet-gesponsorde zoekresultaten. Een van de simpelste, maar splijtende vragen die je aanbieders van cijfers kunt stellen, is: welke gegevens ontbreken? Wij onderzochten de sterfte in een kinderziekenhuis die ogenschijnlijk wel meeviel. Maar het ziekenhuis had de minst voorkomende operaties uit de statistieken gehaald om te voorkomen dat zeldzame ingrepen met dodelijke afloop te zwaar zouden meewegen. Dat kwamen wij pas te weten door de simpele vraag te stellen: zijn dit alle cijfers van alle operaties? Een ontkennend antwoord levert vaak de kiem voor nieuws. Waarom zijn de cijfers niet meegenomen? Waren ze soms te gevoelig? Zo ja, waarom dan? Om te beoordelen of Het Rokende Pistool nieuwswaardig is, moet je gaan vragen om meer data. Het eerste wat je opvraagt, is: hoeveel bewoners heeft het tehuis?

Figuur 5.18 Is het nieuws nu anders? Je ziet nu dat niet alleen het aantal ongelukken is gedaald, maar ook het aantal bewoners. Dat werpt een ander licht op de cijfers. 5.3.3

Maak cijfers vergelijkbaar

Probeer de cijfers vergelijkbaar te maken. Zet de data uit figuur 5.18 in Excel. We gaan nu bekijken hoe het aantal ongelukken zich verhoudt tot het aantal bewoners.

Figuur 5.19 Cijfers vergelijken. Sommen maken, stap 1


27-7-2012 12:42:07

Rokende pistolen

167

Stap 1 We gaan nu het aantal ongelukken delen door het aantal bewoners. Zet je muiscursor in D6 en klik op Stap 2 Klik op B6 en je krijgt figuur 5.4 te zien. Zet achter B6 het deelteken / en klik op cel C6. Dit is wat je ziet:

Figuur 5.20 Cijfers vergelijken. Sommen maken, stap 2 Stap 3 Tik ENTER. In kolom D6 komt nu een getal te staan: 240/1600 = 0.15. Herhaal de bovenstaande stappen, maar nu begin je de som in D7 en deel je B7 door C7. In kolom D7 komt nu een getal te staan: 180/1200 = 0.15 (zie figuur 5.21).

Figuur 5.21 Cijfers vergelijken. De resultaten van de vergelijking: er is geen relatieve stijging, er is geen relatieve daling Je ziet dat in beide jaren hetzelfde percentage bewoners een ongeluk kreeg. Er is dus geen sprake van minder ongelukken; ze bleven gelijk. De kop moet op dit moment zijn, als het al nieuws is:


27-7-2012 12:42:07

168


Figuur 5.22 Een heel andere kop, gebaseerd op dezelfde cijfers Ook met dit ‘nieuws’ is het bejaardentehuis blij. Er is niks aan de hand! Maar wacht even, weet je eigenlijk wel hoeveel bewoners een ongeluk hebben gehad? Nee, dat weet je niet. Kijk nog even naar figuur 5.19. Je weet alleen het aantal bewoners per huis en het aantal ongelukken. Vraag opnieuw aanvullende cijfers op. Dat is niet raar. Bij je onderzoek zal dat vaak gebeuren. Cijfers zijn net als zegslieden: antwoorden geven vaak aanleiding om door te vragen. 5.3.4

Beoordeel de ernst van de cijfers

De nieuwe cijfers zijn binnen: JAARTAL 2011 2010

ONGELUKKEN 180 240

BEWONERS 1200 1600

PERCENTAGE 0,15 0,15

SLACHTOFFERS 180 100

Figuur 5.23 Nog meer cijfers: nu met het aantal slachtoffers. Hoeveel mensen kregen een ongeluk? In 2011 zijn 180 verschillende bewoners betrokken geweest bij een ongeluk. In 2010 waren dat er maar 100. Dus sommige bewoners kregen vaker een ongeluk in dat jaar. Wat betekent dit voor het beoordelen van de ernst van de cijfers? Dat is aan jou. Ga je uit van ongelukken of mensen? Aan welke invalshoek hecht jij de meeste waarde en waarom? Waarschijnlijk gaat het je om de mensen in het tehuis, niet om het veel abstractere ‘ongelukken’. In 2011 waren er meer mensen die een ongeluk hadden (180) dan in 2010


27-7-2012 12:42:07

Rokende pistolen

169

(100). Het aantal slachtoffers is juist gestegen. Eindelijk ben je bij het nieuws dat het bejaardentehuis liever had verzwegen:

Figuur 5.24 Vergelijk deze kop met figuur 5.17. Bijna was je de mist ingegaan Misschien begrijp je nu waarom we in de inleiding van dit boek schreven dat cijfers vaak niet het hele verhaal vertellen. Dat moet jij doen. Je snapt inmiddels dat je de waarheid kan liegen, afhankelijk waarvan je stopt met je onderzoek. 5.3.5

Stel de ‘Nou en’-vraag

In datajournalistieke projecten is de blijdschap over een bijzonder verband of opmerkelijk verschil soms zó groot dat de vlag te snel uitgaat. Het wekenlange gezwoeg op de database heeft eindelijk een nieuwtje opgeleverd en dat moet meteen de wereld in. Stel, zeker bij cijfers, altijd de ‘Nou en’-vraag. Wat betekent figuur 5.23 nou eigenlijk? Hoe ernstig zijn de ongelukken? Dat weet je helemaal niet. Terug naar paragraaf 5.3.2: vraag aanvullende cijfers op. Hier zijn ze:

Figuur 5.25 Tien doden, dat wist je nog niet Je ziet dat er in 2011 tien mensen zijn overleden door een ongeluk. Bepaal eerst de nieuwswaarde (paragraaf 5.3.1). Is hier al eens over geschreven? Is er mis-


27-7-2012 12:42:08

170


schien een brand geweest? Of zijn dit compleet nieuwe cijfers? Het blijkt dat er nooit over is gepubliceerd. De meest ernstige kop heb je nu pas:

Figuur 5.26 De heftigste kop tot nu toe

5.3.6

Onderzoek vage uitsplitsingen

We vragen ook de onderverdeling op van het aantal lichtgewonde mensen in het tehuis.

Figuur 5.27 Uitsplitsing van het aantal lichtgewonden Je ziet dat de categorie Val in 2010 veel kleiner is dan de categorie Overig. Dat is soms ook een truc om je op een dwaalspoor te brengen. Het is vreemd om een categorie die het grootst is Overig te noemen en de kleinste categorie wel een naam te geven (Val). Vraag op dit soort momenten altijd een betere onderverdeling op:

Figuur 5.28 Aantal brandwonden in het tehuis


27-7-2012 12:42:08

Rokende pistolen

171

De categorie Overig bestaat volledig uit mensen met (lichte) brandwonden. Ook al is het cijfer al een tijdje oud, het blijft interessant om na te gaan waarom in een jaar tijd maar liefst 210 brandwonden optraden bij de ouderen in het bejaardentehuis. De oorzaak blijkt het bezuinigen op het verplegend personeel te zijn, waardoor ouderen niet altijd op tijd uit bad worden gehaald:

Figuur 5.29 Alweer nieuws, dit keer door de cijfers uit 2010 nog eens beter te bekijken Nog even terug naar figuur 5.27. Kijk naar het aantal mensen dat gevallen is. Onderzoek de oorzaken. In dit geval was er bezuinigd op schoonmaakpersoneel, waardoor de vloeren veel te glad waren:

Figuur 5.30 En nog een nieuwtje Hieronder staan nog even alle zes krantenkoppen die we tegenkwamen gedurende het onderzoek naar De Rokende Pistolen. De eerste twee koppen, ‘Minder oudjes gewond’ en ‘Evenveel oudjes gewond’, geven nieuws aan waarmee de directie van het bejaardentehuis niet ontevreden is: de journalist heeft nau-


27-7-2012 12:42:08

172


welijks meer gedaan dan het persbericht overschrijven. De andere vier koppen zijn natuurlijk interessanter dan de eerste twee.

Figuur 5.31

Zonder datajournalistiek was je bij de eerste twee nieuwsberichten blijven hangen

5.3.7

Controleer de methodiek

In bovenstaande cases ging het om absolute waarden en niet om meningen. Controleer bij meningen altijd hoe ze tot stand zijn gekomen. Alleen al het feit dat een onderzoek volledig via internet wordt afgehandeld, kan betekenen dat het niet representatief is. Probeer ook de vragen op te vragen. ‘Burgers waarderen onze dienstverlening het hoogst’, meldt een Nederlandse multinational trots. In werkelijkheid heeft een onderzoeksbureau de volgende vraag gesteld: Welke bewoording vindt u het beste passen bij ons bedrijf? a. dienstverlening; b. bereikbaarheid; c. snelheid; d. vriendelijkheid. De vraag is zo opgesteld, dat de geënquêteerde wel positief moet antwoorden.


27-7-2012 12:42:08


5.4

173

De tips van de pro’s

We vroegen Dick van Eijk, een van de eerste datajournalisten van Nederland, naar zijn beste tips om rokende pistolen te vinden. Ook Pulitzer-prijswinnaar Sarah Cohen gaf deze. Ze staan beiden op het standpunt dat cijfers net zo betrouwbaar zijn als een woordvoerder: soms wil de belanghebbende niet de vuile was buiten hangen. 5.4.1 Lees goed Bij de meeste kant-en-klare datasets hoort een toelichting. Daarin staat beschreven welke variabelen erin zitten en hoe. Lees die toelichting, het liefst een paar keer. Het is vaak erg taaie kost, trek er dus wat tijd voor uit en denk niet ‘het zal wel’. Let vooral op definities, ontbrekende waarden, afrondingen, meeteenheden, meetmomenten en identificerende velden. Als je zelf een dataset samenstelt, schrijf dan ook zo’n toelichting. Op het moment dat je keuzes maakt, weet je wat je doet, een paar maanden later ben je dat vergeten. Definities zijn belangrijk, omdat je vaak data uit verschillende bronnen met elkaar zult vergelijken. En verschillende bronnen willen nog wel eens verschillende definities hanteren. Als de ene dataset ‘gepensioneerden’ definieert als 65-plussers en de andere als ontvangers van een ouderdomspensioen, heb je een probleem. Niet elke 65-plusser ontvangt een ouderdomspensioen en niet elke ontvanger van een ouderdomspensioen is boven de 65. Daar gaat je vergelijking. Soms zijn zulke problemen op te lossen, maar lang niet altijd. Je bespaart jezelf veel werk door zo veel mogelijk aan te sluiten bij gangbare definities, bijvoorbeeld die van het CBS. Ja, er is ook kritiek op die definities – alleen al over de definitie van allochtoon zijn boekenplanken vol geschreven – maar ervan afwijken maakt het doorgaans erg lastig om goede data te krijgen.


27-7-2012 12:42:09

174


Statistiek in de krant: kansen zijn iets anders dan kansverhoudingen Door Sjoerd de Jong Ombudsman NRC Nederlanders, ook journalisten, gokken te weinig bij paardenraces. Anders zouden ze wel vertrouwder zijn met het verschil tussen kansen, odds en odds ratios. Kansen geven de waarschijnlijkheid aan dat iets al dan niet gebeurt. De odds geven de verhouding aan tussen die kansen. De odds ratio is de factor waarmee kansverhoudingen (de odds dus) verschillen. Een fictief voorbeeld. Stel dat Nederlandse mannen een kans van 20 procent hebben op haaruitval, en dus een kans van 80 procent dat dit niet gebeurt. De kansverhouding op haaruitval is dan 20/80 = 0,25. Stel dat Belgische mannen onder gelijke omstandigheden 50 procent kans hebben op haaruitval. Hun kans verhouding is dan 50/50 = 1,00. De kans voor de Belgen op haaruitval is dan 2,5 keer zo hoog als voor de Nederlanders (50 gedeeld door 20), maar hun odds zijn maar liefst 4 keer zo hoog (1 gedeeld door 0,25). En die 4 heet dan de odds ratio. Verwarring ligt hier op de loer – en journalisten zijn meestal al beter met woorden dan met cijfers. NRC Handelsblad maakte volgens briefschrijvers een ‘klassieke fout’ in de berichtgeving over een opzienbarend onderzoek in het Nederlands Juristenblad (‘Verdachte met buitenlands uiterlijk krijgt eerder celstraf’, 14 maart). De krant meldde dat verdachten met een ‘buitenlands’ uiterlijk ‘een vijf keer hogere kans [hebben] op onvoorwaardelijke celstraf dan Nederlanders, in plaats van een werkstraf of boete’. Spreken zij de taal niet, dan neemt die kans toe tot twintig keer hoger. Hier werden kansen, odds en odds ratios door elkaar gehaald, meenden diverse kenners. Was dat zo? Aanvankelijk schreven de verslaggevers inderdaad gewoon over grotere ‘kansen’ om in de cel te belanden. Op de valreep lieten ze zich overtuigen door onderzoeker Hilde Wermink dat dit niet correct was en pasten ze hun tekst aan. Het onderzoek stelt immers niet vast dat groep A een grotere kans heeft op y1 dan groep B, maar dat bij groep A de kans op y1 ten opzichte van de kans op y2 groter is dan bij groep B. Alleen, hoe vermijd je zulke formules en lastige Engelse termen? Wermink stelde de journalisten deze formulering voor: ‘De kans om wel veroordeeld te worden tot een onvoorwaardelijke gevangenisstraf versus de kans op geen onvoorwaardelijke gevangenisstraf is ruim 20 keer groter voor mensen met een buitenlands uiterlijk die niet de Nederlandse taal spreken in vergelijking met verdachten met een Nederlands uiterlijk die de Nederlandse taal spreken.’ Maar de onderzoekster waarschuwde al dat ook die formulering tot misverstanden kan leiden.


27-7-2012 12:42:09


175

Dat bleek, want na publicatie klommen de statistici in de pen. Manfred te Grotenhuis van de Radboud Universiteit Nijmegen schreef een uitvoerige reactie. Zijn uitleg begrijp ik als volgt: de kans dat een ‘buitenlander’ onvoorwaardelijke celstraf krijgt versus de kans op een boete of taakstraf is 5 keer hoger dan die voor Nederlanders; als hij de taal niet spreekt, 20 keer. Maar dat zijn odds ratios. Buitenlanders hebben dan niet meteen ook een 5 (en 20) maal hogere kans de gevangenis in te gaan dan Nederlanders. Twintig keer zou ook absurd zijn, want van de Nederlanders kreeg 11 procent celstraf en dan zou dus van de buitenlanders 220 procent (20 x 11 procent) achter de tralies verdwijnen. Odds en odds ratios kunnen groter zijn dan 100, kansen niet. Als de kans dat u bijvoorbeeld dit jaar niet aangereden wordt door een krantenbezorger 99,8 procent is, bedragen uw odds 99,8/0,2 = 499. De kans om in de cel te belanden is volgens Te Grotenhuis voor buitenlanders gemiddeld eerder 2,5 en 5 keer zo hoog; maar dat is dan weer gebaseerd op een tabel in het onderzoek die geen rekening houdt met andere relevante variabelen, zoals de zwaarte van het delict. En de onderzoekers drukten zich uit in odds ratios, omdat de statistische methode die ze gebruikten in het artikel een kansverhouding berekent en niet direct kansen. Zat de krant er nu naast? Niet wat de strekking betreft. Het bericht begon als volgt: ‘Politierechters straffen verdachten met een buitenlands uiterlijk strenger dan Nederlanders, in het bijzonder als de verdachten geen Nederlands spreken.’ Daar is geen speld tussen te krijgen, volgens dit onderzoek. Maar de formulering die op de valreep werd gekozen bij de cijfers (‘kans op celstraf in plaats van een boete of taakstraf’), werd niet uitgelegd, en ook niet overal gebruikt. Zo stond op de voorpagina: ‘Zijn ze ook het Nederlands niet machtig, dan lopen ze een twintig keer hogere kans op een vrijheidsstraf.’ En het achtergrondstuk signaleerde een andere ‘opvallende’ conclusie uit het onderzoek: ‘De kans om wel veroordeeld te worden tot een onvoorwaardelijke celstraf is voor mannen 6,5 keer zo groot als voor vrouwen.’ Maar ook hier ging het om odds ratios. Als leek onthoud je dan toch simpelweg dat de kans van buitenlanders om de cel in te gaan 5 en 20 keer hoger is dan die van Nederlanders. Een dag later stond het ook gewoon zo in het commentaar van de krant. En zo verspreidde het nieuws zich ook op internet. Moet de krant dan lastige wetenschappelijke termen gebruiken? Nee, als het maar helder en consequent wordt uitgelegd. Bij twijfel: raadpleeg de wetenschapsredactie. Of statistici natuurlijk. Dan neemt de kans dat het goed gaat toe. Dit stuk is met toestemming van de hoofdredactie van NRC Handelsblad opgenomen in dit boek.


27-7-2012 12:42:09

176


5.4.2 Ontdek wat ontbreekt Ontbrekende waarden zijn heel gebruikelijk in datasets. Ze kunnen verschillende oorzaken hebben en ze kunnen op verschillende manieren worden weergegeven. In datasets die stammen uit enquêteonderzoek, heb je bijvoorbeeld altijd te maken met respondenten die bepaalde vragen niet hebben beantwoord. Maar let op: niet beantwoord is niet hetzelfde als ‘geen mening’ of ‘weet niet’. In macrodatasets, bijvoorbeeld met gegevens over landen of regio’s, kan het zijn dat een bepaald gegeven gewoon niet voor elk land bekend is. Het drinkwaterverbruik in Nederland is vrij precies bekend, dat van Tsjaad niet. Maar er kunnen ook heel andere redenen zijn waarom een veld leeg is, bijvoorbeeld omdat de gegevens geheim zijn, of omdat ze om privacyredenen niet openbaar gemaakt worden. Dit laatste komt vaak voor in CBS-data over buurten: in sommige buurten wonen zo weinig mensen van een bepaalde categorie, dat gepubliceerde gegevens meteen tot personen herleidbaar zouden zijn. De manier waarop ontbrekende waarden in een dataset zijn opgenomen, verschilt: soms is een veld gewoon leeg, soms staat er een streepje of een kruisje, soms een numerieke code. Bij enquêtemateriaal betekent ‘99’ of ‘999’ vaak dat de waarde ontbreekt. Vervang zulke codes eventueel door iets anders, want als er in een veld een streepje staat, kun je er niet mee optellen of aftrekken. En als er ‘99’ staat en je gaat de inhoud van dat veld optellen bij dat van een ander veld, krijg je rare uitkomsten. 5.4.3 Afrondingen Afrondingen kunnen je op het verkeerde been zetten. Zo suggereren de cijfers uit de CBS-database Statline soms een mate van exactheid die ze helemaal niet hebben: een deel van de cijfers is at random afgerond. Je weet dan dus niet of er naar boven of naar beneden is afgerond. Dit speelt vooral bij lage aantallen. Of die afrondingen erg zijn, hangt af van je vragen. 5.4.4 Wat bedoelen ze? Meeteenheden zijn niet altijd helder, maar je moet precies weten wat de meet eenheid is om je data te kunnen interpreteren. Gaat het om individuen of huishoudens? Gaat het om buurten of postcodegebieden? Gaat het om kiezers of kiesgerechtigden? Om netto-inkomen, bruto-inkomen, belastbaar inkomen of besteedbaar inkomen?


27-7-2012 12:42:09


177

5.4.5 Wanneer hebben ze gemeten? Meetmomenten kunnen verschillen. Vooral in internationale datasets komt het voor dat een gegeven in het ene land reeds bekend is van 2011, terwijl van het andere land 2009 het meest recente jaar is waarvoor dat gegeven beschikbaar is. Of dat erg is, hangt maar net af van wat je precies wilt doen. De koninklijke weg is om voor alle gevallen hetzelfde meetmoment te gebruiken, maar soms kan dat niet, of verlies je daardoor te veel actualiteit. Weet wat je doet en waarom. 5.4.6 Let op de saaie nummervelden Identificerende velden zijn velden waarvan de waarde uniek is voor een bepaalde entiteit en daarmee een record kan identificeren. Veel datasets hebben zulke velden. Mocht je een dataset krijgen zonder zo’n veld, maak het dan zelf. Sluit waar mogelijk aan bij unieke nummers die gezaghebbende instanties gebruiken, zoals gemeente- of buurtnummers van het CBS, of BRINnummers van het ministerie van OC&W voor scholen. Het gebruik van zulke velden maakt het makkelijker om datasets te koppelen. Je gebruikt dan het unieke nummer als koppelveld. En unieke nummers voorkomen ook verwarring tussen bijvoorbeeld Bergen in Noord-Holland en Bergen in Limburg. Als je de toelichting hebt gelezen en hebt bekeken wat voor velden en records er in de database zitten, heb je een eerste idee van wat voor vlees je in de kuip hebt. Vaak heb je dan al lang een rij journalistieke vragen klaarliggen. Je had immers juist die dataset opgevraagd om je vragen te kunnen beantwoorden. Maar of je nu wel of geen vragenlijst hebt liggen, het kan nooit kwaad eerst eens wat te vissen in je data. Gewoon een beetje stoeien om te kijken of er iets interessants in zit. Hoe pak je dat aan? 5.4.7 Sorteren is leren Alle software om data te analyseren heeft mogelijkheden om records snel te rangschikken op de waarde in een bepaald veld. Zo kun je buurten rangschikken op aantal inwoners of oppervlakte, en landen op aantal telefoon aansluitingen of percentage van de bevolking met een universitaire opleiding. Maak vooral heel veel van zulke rangschikkingen. Je krijgt dan gevoel voor twee belangrijke aspecten van je dataset: het bereik van waarden en usual sus-


27-7-2012 12:42:09

178


pects. Dat zijn handige zaken om uit je hoofd te weten; ze maken het interpreteren van data eenvoudiger. 5.4.8 De bandbreedte Bereik vertelt je hoe groot de grootste zijn en hoe klein de kleinste. Hoeveel mensen wonen er in een grote buurt, hoeveel mensen in een kleine? Wat is het gemiddeld inkomen in een steenrijke buurt, wat in een straatarme? Probeer ook te kijken naar de verdeling. Zijn er een paar uitschieters? Of gaat een waarde van een veld heel geleidelijk van hoog naar laag? Dit kun je het snelst zien door even een grafiekje te maken. Met uitschieters is vaak iets bijzonders aan de hand. Wetenschappers proberen uitschieters in een dataset meestal weg te moffelen: die vinden ze lastig, omdat ze verbanden verstoren. Journalisten zijn dol op uitschieters, want daar zitten vaak verhalen in. Maar pas op: een uitschieter kan ook een artefact van de dataset zijn, of een fout. Juist bij uitschieters moet je extra goed kijken of dat cijfer wel klopt. 5.4.9 De gebruikelijke verdachten Usual suspects zijn records die je regelmatig tegenkomt als je rangschik kingen maakt op allerlei velden. Wanneer je bijvoorbeeld buurten rangschikt op inkomen, of op werkloosheid, of op allochtonen, of op opleidingsniveau, duiken sommige buurten in diverse top twintigs of top vijftigs op. Vaak kun je wel beredeneren waarom dat zo is (als er veel mensen werkloos zijn, zal het gemiddeld inkomen wel niet zo hoog zijn), soms is het verrassend. In elk geval liggen er bij de usual suspects potentiële verhalen. 5.4.10 Gevallen zoeken Tot dusverre hebben we alleen naar afzonderlijke velden gekeken. Als je naar meer velden tegelijk kijkt, kun je grofweg twee dingen doen: gevallen zoeken en verbanden leggen. Gevallen zoeken is typisch journalistiek werk. Neem een set buurtgegevens van het CBS. Zoals al is opgemerkt, zal het vaak zo zijn dat een buurt met veel werkloosheid een arme buurt is. Maar dat is niet per definitie zo. Door te filteren op meer dan één variabele kun je gericht op zoek gaan naar intrigerende


27-7-2012 12:42:09


179

gevallen, bijvoorbeeld rijke buurten met veel werkloosheid, of arme buurten waarin iedereen een baan heeft. Zijn die er? Dat blijkt uit je data. En zo ja, wat is daar dan aan de hand? Daarvoor moet je nader onderzoek doen, en daarvoor heb je vaak niet genoeg aan je data, maar moet je ter plekke gaan kijken. Het kan bijvoorbeeld zijn dat een buurt een rijk deel en een arm deel heeft. Dat zie je niet in de data, maar misschien wel op luchtfoto’s. En in elk geval in het echt. Wetenschappers die met dezelfde data in de weer zijn, kijken overigens zelden naar losse gevallen: ze zijn vooral geïnteresseerd in verbanden. 5.4.11 Verbanden vinden Verbanden kunnen ook journalistiek interessant zijn. Het gaat dan om de samenhang – al dan niet oorzakelijk bepaald – tussen twee of meer variabelen: hoe hangen citoscores van kinderen samen met etniciteit, hoe hangt het salaris van ambtenaren samen met hun geslacht, hoe hangt de aanwezigheid van Europarlementariërs bij debatten samen met hun herkomstland of politieke partij? De overeenkomst tussen al dit soort vragen is dat je je data moet groeperen op een variabele (etniciteit, geslacht, herkomstland) en voor elke groep een gemiddelde moet uitrekenen voor een andere variabele (citoscore, salaris, aanwezigheid). De meeste analysesoftware heeft hiervoor handig gereedschap, bijvoorbeeld draaitabellen (pivot tables) in Excel, en group-by queries in Access. Let wel, we zijn nog lang niet aan definitieve analyses bezig om antwoorden te kunnen geven op zulke vragen. We zijn alleen maar aan het vissen, aan het kijken of er mogelijk interessante verbanden opduiken waar je journalistiek gezien wellicht iets mee kunt, die nader onderzoek vergen omdat er op het eerste gezicht iets onverwachts of nieuwswaardigs uitkomt. 5.4.12 Heb kennis van zaken Bij zo’n nader onderzoek ga je preciezer kijken naar de manier waarop die categorieën zijn gedefinieerd, hoe het zit met ontbrekende variabelen. En natuurlijk ga je er meer over lezen: wat is er al bekend over citoscores van allerlei etnische categorieën, of over de salarissen van mannen en vrouwen? Niet alleen helpt het lezen van boeken, rapporten en artikelen je zoeken naar zinnige vragen en naar nieuws, het helpt je ook valkuilen vermijden. Is er rekening gehouden met leeftijd, met ervaring, met kinderen die de citotoets


27-7-2012 12:42:09

180


niet hebben gemaakt? Realiseer je dat je bij het onderzoeken van verbanden op het terrein begeeft waarop ook beleidsonderzoekers en wetenschappers actief zijn. Dat is handig, want dan is er al vergelijkbaar onderzoek. Maar het is ook link, omdat je gemakkelijk in methodologische haarkloverijen terechtkomt. Die gaan gegarandeerd over de hoofden van je lezers of kijkers heen, en doen de geloofwaardigheid van je verhaal zelden goed. Het analyseren van data biedt een waardevolle aanvulling op het journalistieke repertoire, maar het komt niet in de plaats van kennis van zaken over het onderwerp. Als je niet weet waar je het over hebt, ga je geheid de mist in, hoe handig je ook bent in het stoeien met datasets. Tot zover de tips van Dick van Eijk. Sarah Cohen werkte jarenlang als database-editor bij de Washington Post en won met haar werk de prestigieuze Pulitzer-prijs. Ze is nu werkzaam als professor journalistiek aan de Duke University in Durham. Voor dit boek vroegen we naar haar drie beste tips in de zoektocht naar rokende pistolen. 5.4.13 Bekijk het van twee kanten Cohen probeert dezelfde gegevens of gegevens die sterk op elkaar lijken van verschillende kanten te krijgen. Zo zijn nationale gegevens vaak opgebouwd uit lokale gegevens. Gegevens over scholen komen in eerste instantie van een individuele school, worden dan verwerkt in wijkdata, vervolgens naar gemeentelijke data en uiteindelijk becijferd op nationaal niveau. ‘Door de onderliggende gegevens te bestuderen zie je soms opvallende verschillen tussen datasets waardoor je interessante nieuwe vragen kunt stellen.’ Maar andersom kan ook: met een beetje geluk combineer je twee niet complete databases tot eentje die wel aardig volledig is. Deb Nelson van de Washington Post vroeg aan de National Institutes of Health en de Harvard University dezelfde gegevens. Beide clubs censureerden elk gegevens die ze niet publiek wilden hebben. Toen Nelson de twee gecensureerde databases kreeg, bleek dat de twee instituten niet precies dezelfde cijfers hadden verwijderd. Daardoor werden twee incomplete databases uiteindelijk wel compleet. Cohen merkt ook regelmatig dat ze cijfers soms eerder kan krijgen door bij verschillende leveranciers navraag te doen. De auteurs van dit boek hebben gemerkt dat sommige cijfers van het CBS die nog niet openbaar zijn, wel beschikbaar zijn bij Eurostat. Dat komt doordat de deadline voor bepaalde Nederlandse statistieken voor Europa strenger is dan voor het CBS zelf. Zo vind je via een omweg toch de cijfers.


27-7-2012 12:42:09

Rokende pistolen

181

5.4.14 Werk van beneden naar boven Sarah Cohen werkt liever ‘vanaf de grond omhoog’ dan vanaf ‘statistieken naar beneden’. ‘Wat ik daarmee bedoel, is dat ik het liefst individuele gevallen vind – door een straatinterview of gewoon vragen stellen – en dan omhoog ga om te berekenen hoe wijdverspreid het patroon is. Toen ik werkte aan onderzoek naar landbouwsubsidies, was ik in eerste instantie niet bezig met allerlei cijfers, maar met een tip dat mensen subsidie voor rijst kregen terwijl ze helemaal geen rijst verbouwen. Vervolgens ben ik gaan nadenken: kan ik zoiets ook terugvinden in een database? Waar moet ik dan op letten? Ergens moet zijn vastgelegd dat ze subsidies krijgen, maar dat ze kennelijk geen bewijs hoeven te leveren over wat er daadwerkelijk wordt verbouwd. Al gauw bleek dat nergens in de regels stond dat ze bewijs moeten leveren, zelfs niet om in aanmerking te komen voor aanvullende subsidies bij lage prijzen of weerrampen, zoals overstromingen of droogte. Door de databases goed te bestuderen vonden we honderdduizenden landbouwers die een beetje subsidie kregen voor helemaal niets doen. Het ging om een periode van vijf jaar, waarin ruim 1,3 miljard dollar werd uitgekeerd.’

Figuur 5.32 Het nieuwsitem van Sarah Cohen vind je op www.forreporters. com/sarah

5.4.15 Modus operandus Bedenk vooraf hoe een database is opgebouwd door na te denken wat wel en niet wordt bijgehouden. Kom vooraf met een modus operandi. Sarah Cohen: ‘Stel dat je op zoek bent naar fake overheidscontracten. Hoe zouden die zijn verwerkt in officiële data? Wat zou iemand moeten doen om het te verbergen? Is het misschien zo dat kleinere bedragen niet hoeven te worden gespecificeerd en dat je ze in de statistieken in een algemenere post terug


27-7-2012 12:42:09

182


kan vinden? Zo ja, wat is die post dan? Wordt er misschien een uitgavenpost bedacht die ongebruikelijk is?’ Sarah roemt een stuk van The New York Times over het omkopen van Mexicaanse ambtenaren door winkelketen Wall-Mart, zie http://forreporters.com/ walmart.

Figuur 5.33 Farmsubsidy.org houdt ook voor Nederland bij wie subsidie krijgt en waarom, zie http://forreporters.com/subsidie en http://www. hetlnvloket.nl/databank-eu-subsidiegegevens-2011 De journalisten van The New York Times ontdekten dat de bedragen voor omkoping werden weggewerkt via rekeningen met daarop steeds dezelfde, maar ongebruikelijke (want niet gangbare) code. ‘Kijk dus naar codes en omschrijvingen die je niet snapt omdat je ze nooit eerder zag. Roep desnoods vergelijkbare cijfers van een ander bedrijf in dezelfde branche op en vergelijk hun modus operandi. Wat afwijkt, is vaak een “smoking gun”: kijk naar de codes die een bepaalde ambtenaar gebruikt en verder niemand.’ Vrijwel alle cijfers bevatten omschrijvingen die je niet meteen begrijpt. Leer het speciale jargon kennen en durf bij voortduring te vragen om wat iets betekent. Vraag om een legenda, een ‘code book’, instructies of wat dan ook dat bijdraagt aan begrip van de database. Het helpt je dingen te zien in een database waarop je normaal gesproken niet let. Als jij het al niet begrijpt, hoe moet je lezer, luisteraar of kijker het dan begrijpen?


27-7-2012 12:42:09


183

Oefening: Smoking guns Hypothese bedenken Op vakantie ben je voor € 2,50 per boeking verzekerd tegen het niet doorgaan van je reis vanwege calamiteiten, zoals een faillissement. Dat geld wordt geïnd door de Stichting Garantiefonds Reisgelden. Je beschikt over een lijst van het aantal personen dat zich verzekerde tegen calamiteiten. Ook heb je het jaarverslag van de stichting waarin staat hoe vaak ze schade hebben gehad. Wat is nu een interessante hypothese?


27-7-2012 12:42:09


27-7-2012 12:42:09

okende pistolen 5.1 Data analyseren: twee strategieën

Recommend Documents