omslag rechtstreeks 4 03-12-09 16:27 Pagina 1
rechtstreeks 2009 nr 4
Rechtstreeks is een periodiek van de op de praktijk en de ontwikkeling van
2009 - nr 4
de rechtspraak in Nederland.
rechtstreeks
Raad voor de rechtspraak en richt zich
‘Iudex non calculat’ was lange tijd de uitdrukking. De rechter rekent niet. Maar zo is het niet. De rechter rekent wel degelijk. Maar hij vergist zich wel eens.
Raad voor de rechtspraak
Waartoe dat kan leiden, blijkt uit een experimenteel onderzoek naar beslissingen op grond van onzeker bewijs.
Recent verschenen 2009 - nr 3 2009 - nr 2 2009 - nr 1
Meesterlijk gedrag: leren van compareren Alledaagse rechtspraak: een pragmatische kijk op oordeelsvorming Na detentie: de gevolgen van rechtspraak
Kansrekening en strafrechtspraak: fouten bij beslissen onder onzekerheid
rechtstreeks 2009-4 03-12-09 16:27 Pagina 1
Kansrekening en strafrechtspraak: fouten bij beslissen onder onzekerheid
rechtstreeks 2009-4 03-12-09 16:27 Pagina 2
rechtstreeks 4/2009
Colofon Rechtstreeks is een periodiek van de Raad voor de rechtspraak en richt zich op de praktijk en de ontwikkeling van de rechtspraak in Nederland. Het blad stelt zich ten doel wetenschappelijke inzichten en bijdragen aan het publieke debat over de rechtspraak ter kennis te brengen van allen die beroepshalve bij de rechtspraak betrokken zijn. Opname in Rechtstreeks betekent niet dat de inhoud het standpunt van de Raad voor de rechtspraak weergeeft. Redactieraad Mr. Th. Groeneveld (voorzitter) Lid Raad voor de rechtspraak Mr. dr. M.I. Blagrove Rechter rechtbank Dordrecht
Uitgever Sdu Uitgevers BV, Den Haag Oplage 5000 exemplaren
Mr. W. Duitemeijer Raadsheer-plaatsvervanger gerechtshof Arnhem Prof. mr. J.L.M. Gribnau Bijzonder hoogleraar kwaliteit van fiscale regelgeving, Universiteit Leiden en hoofddocent fiscale methodologie, Universiteit van Tilburg Mr. R. Hartendorp Rechter in opleiding rechtbank Utrecht Dr. C.M. Klein Haarhuis Senior onderzoeker Wetenschappelijk onderzoek- en documentatiecentrum (WODC), Ministerie van Justitie, Den Haag Mr. J.J.M. de Laat Vice-president inhoudelijk adviseur, sector kanton Rechtbank Utrecht Mr. Th.C.M. Willemse Raadsheer gerechtshof Arnhem Redactie Dr. A. Klijn (hoofdredacteur) Adviseur wetenschappelijk onderzoek Raad voor de rechtspraak Mr. dr. R.P. Mulder (eindredacteur) Reinjan Mulder research & editing Mr. drs. E.C.M. Bouman Beleidsadviseur Raad voor de rechtspraak M.I. Scholtz (secretaris) Programmasecretaris wetenschappelijk onderzoek Raad voor de rechtspraak Redactieadres Redactie Rechtstreeks Raad voor de rechtspraak Afd. Ontwikkeling Postbus 90613 2509 LP Den Haag E-mail:
[email protected] 2
ISSN 1573-5322 Abonnementen Rechtstreeks wordt gratis toegezonden aan hen die tot de doelgroep behoren. Wie meent voor toezending in aanmerking te komen wordt verzocht zijn naam, postadres en functie kenbaar te maken aan het secretariaat van Rechtstreeks (
[email protected]). Adresmutaties Sdu Klantenservice Postbus 20014 2500 EA Den Haag tel. 070-3789880 of via: www.sdu.nl/service Retouren Bij onjuiste adressering verzoeken wij u gebruik te maken van de adresdrager en daarop de reden van retournering aan te geven. © Staat der Nederlanden (Raad voor de rechtspraak) Niets uit deze uitgave mag worden verveelvoudigd, in een voor anderen toegankelijk gegevensbestand worden opgeslagen of worden openbaar gemaakt zonder voorafgaande schriftelijke toestemming van de Raad voor de rechtspraak. De toestemming wordt hierbij verleend voor het verveelvoudigen, in een gegevensbestand toegankelijk maken of openbaar maken waarvoor geen geldelijke of andere tegenprestatie wordt gevraagd en ontvangen en waarbij deze uitgave als bron wordt vermeld.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 3
rechtstreeks 4/2009 Redactioneel
Redactioneel B1 of A1? Dat is een existentiële vraag van een zwaarte gelijk die van Hamlet, althans voor communicatiedeskundigen! Wat u of ik daarmee moet? Ik verklaar mij nader. Ter gelegenheid van de week van de alfabetisering kreeg in de rubriek ‘De stelling van’ communicatiedeskundige Ad Zuijdgeest in NRC Handelsblad van 12 september het woord. Hij bracht de opvallende boodschap dat de Nederlandse overheid, wanneer die met de burgers communiceert, qua taal op de hurken gaat zitten. De overheid doet net alsof heel Nederland laaggeletterd is, zo luidde de kop. De communicatielat ligt, anders dan men zou verwachten, te laag! Men hanteert een ‘niveau B1’. ‘Noem het jip- en janneketaal. Zinnen van zeg acht à tien woorden, zonder figuurlijk, formeel abstract of beeldend taalgebruik. De taal mag alleen gaan over de onmiddellijke omgeving. Zoals bij Annie M.G. Schmidt. Het gaat over een poes. Over een postzegel. Over de direct waarneembare werkelijkheid.’ Dat zou foutief zijn, want overheidsbeleid laat zich vaak niet in zulke eenvoudige taal uitdrukken. En wie denkt dat 60% van de bevolking de overheidstaal niet begrijpt, heeft het mis. Dat is een fabeltje, het communicatiebureau dat deze cijfers in omloop heeft gebracht – BureauTaal – heeft de verkeerde cijfers gepubliceerd, aldus Zuijdgeest. Die 60% betrof de allochtone Nederlander. Slechts een kleine 40% van de
Nederlanders komt niet verder dan niveau B1, en maar 10% kan de overheid niet begrijpen. Maar, zo werpt de interviewster tegen, geldt niet ‘Alles was sich sagen lässt, lässt sich klar sagen’ volgens Wittgenstein? Zuijdgeest riposteert: ‘The devil is in the detail.’ Een, althans qua zinslengte, communicatieve uitwisseling die ruimschoots onder de B1norm blijft, zo noteer ik even voor de goede orde. Ik kom daarop terug. Onzin, die beweringen van Zuijdgeest, zo stelde communicatiedeskundige Hans Bouman een week later per ingezonden brief. ‘Het taalniveau van laaggeletterden is namelijk A1, niet B1. Juist omdat de gemiddelde Nederlander taalniveau A1 te simpel vindt, kiezen veel overheden ervoor te communiceren op taalniveau B1. Dat Zuijdgeest deze taalniveaus door elkaar haalt, blijkt uit zijn beschrijving ervan. Taalniveau B1 betekent volgens hem: Zinnen van acht à tien woorden [...]. De taal mag alleen gaan over de onmiddellijke omgeving. Dat klopt niet. Bij B1 wordt een gemiddelde zinslengte van tien à twaalf woorden nagestreefd. Ook kun je met B1 wel degelijk abstracte zaken beschrijven, mits de boodschap aansluit bij de situatie van de lezer.’ Even afgezien van de in de staart schuilende duivel, een niet mis te verstane tegenwerping, dunkt me.
3
rechtstreeks 2009-4 03-12-09 16:27 Pagina 4
rechtstreeks 4/2009 Redactioneel
Beroepshalve komt u deze situatie waarschijnlijk bekend voor: twee diametraal tegenover elkaar staande deskundigen, elk gewapend met cijfers die zijn gebaseerd op wetenschappelijk, liefst statistisch, onderzoek. Wie heeft het sterkste bewijs? Ik voelde me voor een dilemma geplaatst. Wat te doen? Ik besloot een mailtje te sturen naar deskundige Bouman. Een handomdraai nadat ik de homepage van diens bureau ‘Hele Verhalen’ had gevonden. Mijn vraag aan hem was: kunt u mij het hele classificatiesysteem sturen, zodat ik zelf kan nagaan wie ik moet geloven. Na een aantal dagen tevergeefs wachten nog een mailtje gestuurd, en dat later laten volgen door een voicemailtje. Geen reactie. Toegegeven, dat deed hem bij mij dalen in communicatievaardigheid, subjectief gesproken, maar mijn ratio bleef erop hameren dat dit gedrag in objectieve zin niets afdeed aan de mogelijke juistheid van zijn stelling. Natuurlijk…1 Om toch in de gevoelde kennislacune te kunnen voorzien, besloot ik via dezelfde digitale weg het bureau van deskundige Zuijdgeest te bezoeken. Ik liet daar een identiek mailtje na. En werd optimistisch gestemd, want men beloofde vraagstellers antwoord binnen drie dagen.2 Tegelijkertijd realiseerde ik mij dat slechts een aantal toetsen mij van het eerder genoemde BureauTaal gescheiden hielden. Waarom ging ik niet ook daar nog heen? Ogenblikkelijk op weg gegaan, en aldaar aangekomen las ik: 1 2
4
Wat is eenvoudig Nederlands? Eenvoudig Nederlands is taalniveau B1. Taalniveau B1 is een punt op een meetlat van de Raad van Europa. De Raad van Europa heeft deze meetlat – het Common European Framework – gemaakt om het taalniveau van mensen en teksten te meten. Taalniveau A1 is het laagste niveau en taalniveau C2 het hoogste. Taalniveau B1 kan bijna iedereen begrijpen (zo’n 95% van de bevolking). Ook mensen die geen hoge opleiding hebben gehad en voor hun werk nooit hoeven te lezen. Daarom noemen we taalniveau B1 eenvoudig Nederlands. Overheden en bedrijven schrijven hun teksten meestal op taalniveau C1. Ongeveer 60% van onze bevolking kan die teksten niet goed begrijpen. Je kunt alles op taalniveau B1 schrijven. De voorwaarden van een beleggingshypotheek. Bijsluiters bij medicijnen. Formulieren van de overheid. Juridische teksten. Alles. Dat komt omdat taalniveau B1 net als taalniveau C1 taal van een volwassene is. Het verschil is dat taalniveau B1 voor veel meer mensen begrijpelijk is vanwege zijn specifieke tekstkenmerken: logische opbouw, korte, persoonlijke, actieve zinnen, hoogfrequente woorden. Ten slotte, eenvoudig Nederlands is niet alleen geschikt voor mensen met een lager opleidingsniveau. Ook hogeropgeleiden lezen meestal liever teksten op taalniveau B1 dan op taalniveau C1. Want een tekst op taalniveau B1 leest gemakkelijker en sneller.
Eureka – behalve dan dat we nog steeds niet weten wat nu de zinslengte van A1 is, en wat die van B1, en ook niet op welk niveau de overheid nu met ons communiceert. Maar goed, een kniesoor die daarover struikelt.
Terwijl ik bezig ben aan dit relaas, arriveert een mailtje: vakantie en ziekte veroorzaakten de vertraging. Waarvan akte. Gelukkig maar dat je een ratio hebt. Inmiddels is de termijn verstreken.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 5
rechtstreeks 4/2009 Redactioneel
Ik niet. Wat mij echter raakte, was de laatste mededeling, als een linkse directe, recht op de kin. Zou ik… zou u mij wel ooit begrepen hebben? Wie vraagt die antwoordt, en ik besloot tot de meest minimale toets van mijn communicatieve uitingen: de zinslengte-test. Nu we met dit nummer de zesde jaargang afsluiten, koos ik zes ‘Redactionelen’ van mijn hand, telde de zinnen en vervolgens het aantal woorden. De naar beneden afgeronde gemiddelde zinslengten in woorden waren: 25 (2004), 21 (2005), 19 (2006), 22 (2007), 16 (2008) en 20 (2009).3 Dat levert een overall gemiddelde van 20 woorden per zin. Hoewel verstoken van een richtinggevende maat vrees ik zelfs taalniveau C1 te overstijgen. Mocht de gemiddelde ambtenaar op z’n hurken zitten, ik ben kennelijk aan het hoogspringen. Het enige wat mij nog weerhoudt van een ogenblikkelijke terugtred is mijn nog altijd rotsvaste vertrouwen in de eerder gesignaleerde duivel. Ik sluit, al jumpend, toch wel aan bij uw situatie? Toch? Wat doet Rechtstreeks anders dan bruggen slaan? Neem nu dit nummer. Het is een publiek geheim dat de doorsnee rechter heus wel weet wat een rekenkundig gemiddelde is en hoe zich die maat verhoudt tot de mediaan. Ook kruistabellen leveren niet al te veel problemen op. Maar daarmee houdt het doorgaans, wat de kwantitatieve oriëntatie betreft, wel op. Er is ook vaak niet zoveel meer nodig om het onderzoek van sociale wetenschappers te begrijpen. Maar wat dan te doen met het werk van de econometristen, 3
met hun prognosemodellen en logistische regressies? En wat met de forensische rapportages? Wat zeggen die zo ongelooflijk klein lijkende kansen in deze stukken eigenlijk? Hoe moet de daarachter schuilgaande onzekerheid in de rechterlijke besluitvorming worden gehanteerd? Dat is het onderwerp van deze Rechtstreeks. Er wordt verslag in gedaan van een bijzonder experimenteel onderzoek dat binnen het kader van ons onderzoeksprogramma is gedaan. Bijzonder vanwege de opzet: een streng statistische setting waarin de besluitvorming van strafrechters is nagebootst, zij het op een nogal abstracte manier. Het experiment is ook bijzonder, omdat het zowel de besluitvorming zelf onderzoekt als het zoeken naar informatie op basis waarvan de besluitvorming kan plaatsvinden. Ten slotte is het bijzonder omdat het experiment de invloed van de disciplinaire training van de besluitnemers nagaat en het op die manier heel dicht bij u kan komen. Natuurlijk, natuurlijk, het is een laboratoriumexperiment, de werkelijkheid is anders, maar zo eenvoudig zullen de boodschappers zich – terecht – niet laten afserveren. En laat u nu niet weerhouden om verder te lezen omdat u in het vervolg ook enkele formules tegenkomt. Bedenk dat u, onderworpen aan de zinslengte-test van uw schriftelijke uitingen, waarschijnlijk een polstokhoogspringer bent. U moet dan ook in ander opzicht, via Rechtstreeks, een paar kennisspleetjes kunnen dichten. Albert Klijn
Voor de controleerbaarheid: het gaat om de Redactionelen van Rechtstreeks nr. 1-2004; nr. 3-2005; nr. 4-2006; nr. 2-2007; nr. 2-2008 en nr. 3-2009.
5
rechtstreeks 2009-4 03-12-09 16:27 Pagina 6
Frans van Dijk Frans van Dijk is hoofd van de afdeling Ontwikkeling van de Raad voor de rechtspraak. Daarvoor was hij werkzaam bij de Directie Algemene Justitiële Strategie van het Ministerie van Justitie en aan de Economische Faculteit van de Universiteit van Amsterdam. Hij is als onderzoeker vooral geïnteresseerd in de invloed van het recht en de rechtspraak op het gedrag van mensen in een economische context. Joep Sonnemans Joep Sonnemans is hoogleraar Behavioral Economics aan de Universiteit van Amsterdam en fellow van het Tinbergen Institute. Zijn belangstelling gaat voornamelijk uit naar de grensgebieden tussen de economie en andere sociale wetenschappen: het nemen van beslissingen door individuen en groepen, onderhandelen, de wijze waarop verwachtingen over de toekomst worden gevormd, zoekgedrag en de invloed van beloningsstructuren op gedrag. Het leeuwendeel van zijn werk bestaat uit laboratoriumexperimenten. Hij publiceerde in diverse internationale tijdschriften en is redacteur van de European Economic Review.
6
rechtstreeks 2009-4 03-12-09 16:27 Pagina 7
rechtstreeks 4/2009 Inleiding
Kansrekening en strafrechtspraak: fouten bij beslissen onder onzekerheid Frans van Dijk & Joep Sonnemans 1
Inleiding
1.1 De controle op het beslissingsproces Rechters moeten onder tijdsdruk en op grond van beperkte informatie beslissingen nemen. Voor civiele rechters en familie- en bestuursrechters betekent dit dat zij moeten beslissen of zij een vordering of verzoek toewijzen of niet; voor strafrechters is de beslissing: schuldig of niet, en zo ja, welke straf wordt dan opgelegd. Dat is niet altijd eenvoudig. Voor alle rechters is uiteraard de norm dat zij zo min mogelijk fouten moeten maken, maar voor strafrechters drukt deze norm wellicht nog zwaarder op hun werk, gezien de enorme consequenties die ‘foute’ beslissingen voor de verdachte en de maatschappij kunnen hebben. Een onschuldige kan veroordeeld worden en een feitelijke dader kan worden vrijgesproken. Daarom richten we ons in dit nummer op fouten in beslissingen in het strafrecht. Het gaat ons daarbij niet om juridische fouten, zoals een onjuiste uitleg van de wet, maar om foute beslissingen op grond van de beoordeling en weging van het bewijs. Om in een strafzaak tot een bewezenverklaring te komen, moet de rechter het beschikbare bewijs combineren om vast te stellen of het geheel aan bewijsmiddelen voldoet aan het criterium ‘wettig en overtuigend bewezen’. Daartoe moet hij zich een beeld vormen van de betekenis en de bewijskracht van de afzonderlijke bewijsmiddelen en deze beelden vervolgens combineren. Hoe dit combineren in de praktijk van de rechtspraak gebeurt, en of daarbij fouten worden gemaakt, is niet zo gemakkelijk te onderzoeken. Zo kan bij concrete zaken zelden los van de rechtsgang worden vastgesteld of een verdachte een misdrijf nu ook feitelijk heeft begaan. Alleen bij hoge uitzondering, zoals bij de Schiedammer parkmoord, komt de feitelijke toedracht onafhankelijk van het betreffende rechterlijk oordeel met aan zekerheid grenzende waarschijnlijkheid vast te staan. Absolute, feitelijke zekerheid bestaat niet in de rechtspraak. In de huidige samenleving is voor dit kenmerk van de rechtspraak vaak weinig oog en weinig waardering. Rechters mogen, kort gezegd, geen ‘fouten’ maken, zo is het algemene oordeel, en men stelt zich niet de vraag of dat wel mogelijk is. Ook wordt in de maatschappij vaak 7
rechtstreeks 2009-4 03-12-09 16:27 Pagina 8
rechtstreeks 4/2009 Inleiding
niet het verschil aangevoeld tussen het veroordelen van een onschuldige of het vrijspreken van een schuldige. Het eerste moet als een fout worden aangeduid, maar het tweede kan onder omstandigheden gerechtvaardigd zijn. Zolang er geen wettig en overtuigend bewijs is, moet een feitelijk schuldige worden vrijgesproken, hoe onwenselijk dat resultaat – voor een alwetende – misschien ook is. De veroordeling van een onschuldige is zeker een fout, maar ook niet noodzakelijkerwijs verwijtbaar. Beslissen onder onzekerheid betekent onvermijdelijk dat ook de best mogelijke beslissing op basis van alle beschikbare informatie achteraf soms fout kan zijn. De verkeerde kan dan veroordeeld zijn.1 Om fouten bij het beslissen onder onzekerheid tegen te gaan, zijn er verschillende controlemechanismen denkbaar. In de eerste plaats is er natuurlijk het geïnstitutionaliseerde hoger beroep, waarin de onzekere feiten door andere rechters opnieuw kunnen worden beoordeeld en gewogen. Het is echter niet uitgesloten dat die andere rechters dezelfde of andere fouten maken. De Commissie Evaluatie Afgesloten Strafzaken heeft in enkele zaken complexe systeemfouten aan het licht gebracht die tot foute vonnissen hebben geleid of ernstige twijfel hebben doen rijzen over de juistheid van vonnissen. De betreffende zaken hadden alle instanties doorlopen. De (te verruimen) herzieningsprocedure is dan een tweede controlemechanisme. Ook kan worden gedacht aan een controlemogelijkheid via de figuur van de zogeheten reflectie (Van Delden 2006), waarmee inmiddels is geëxperimenteerd in ressort Arnhem. Als het verschil in uitspraak tussen de eerste en tweede instantie opmerkelijk genoeg is, kan dit verschil nader onderzocht worden.2 Hierbij gaat het vooral om het leren van fouten. Deze methode blijkt daarvoor een nuttig instrument te zijn. Maar ook daar faalt de methode als in tweede instantie dezelfde fouten zijn gemaakt. Dat risico ontbreekt wanneer de controle wordt georganiseerd door (zelfbenoemde) buitenstaanders, zoals in het Maastrichtse project ‘Gerede twijfel’. Onder supervisie van medewerkers van de juridische faculteit en leden van de interfacultaire werkgroep Rechtspsychologie worden daar mogelijke rechterlijke dwalingen onderzocht in zaken waarin de veroordeelde met kracht van argumenten volhoudt onschuldig veroordeeld te zijn. Tot slot kan men fouten proberen te voorkomen door kennis te nemen van sociaalwetenschappelijk onderzoek naar beslissingsprocessen. Voorbeelden daarvan zijn te vinden in Dubieuze Zaken (Crombag e.a. 1992) en in het vorig jaar door de Raad voor de rechtspraak gepubliceerde onderzoek naar het ‘verankeringsproces’ binnen de raadkamer (Wagenaar 2008; Croes e.a. 2008). 1 2
8
Over de bevindingen van dit project verschijnt bij Boom Juridische uitgevers in Den Haag sinds enige tijd de reeks Gerede twijfel. Over de eerste ervaringen met deze vorm van controle zal dezer dagen worden gerapporteerd. Het betreft hier een controle op het niveau van specifieke zaken.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 9
rechtstreeks 4/2009 Inleiding
Ander interessant onderzoek is dat waarin op (semi-)experimentele wijze het beslissingsproces is nagebootst door rechters al dan niet gefingeerde, in elk geval gemanipuleerde, casus voor te leggen en hun dan te vragen naar hun oordeel. Twee minder bekende maar niettemin leerzame onderzoeken die in dit verband genoemd kunnen worden, zijn dat van de Rotterdamse rechtspsycholoog Rassin (2008) en dat van de NSCR-onderzoekers De Keijser en Van Koppen (2004). Deze beide onderzoeken worden kort samengevat in box 1 en 2.
Box 1 Rassin: de totstandkoming van de ‘rechterlijke overtuiging’ Rechtspsycholoog E. Rassin liet vijftig rechters een fictieve casus lezen over een roof bij een buurtwinkel – buit € 3.000 – door een verdachte B. De politie, zo was de instructie, had B gevonden omdat hij jaren eerder in dezelfde buurt een vergelijkbare overval had gepleegd. Op basis van deze informatie moesten de proefpersonen eerst via een getal tussen 0 (B is zeker onschuldig) en 100 (B is zeker schuldig) hun overtuigd zijn van zijn schuld aangeven. Gemiddeld gaven de rechters daarvoor het cijfer 43. Nadat ze dit gedaan hadden, kregen de proefpersonen meer informatie. Zeven bewijsmiddelen werden aangevoerd, maar in een verschillende volgorde van bekendmaking: (1) de bekentenis van B tijdens een verhoor, (2) een herkenning van B tijdens een Oslo-confrontatie, (3) de mededeling dat geen DNA kon worden veiliggesteld, (4) er was een mes gevonden zonder vingerafdrukken, (5) er waren een tweede en (6) een derde verhoor waarin B ontkent, en (7) er was een getuige die B een alibi verschafte. Een ander verschil waarmee de proefpersonen werden geconfronteerd was dat een deel van hen te lezen kreeg dat de winkelier door B met een mes gestoken was en in levensgevaar; een ander deel miste deze informatie. Steeds moesten de proefpersonen na elke nieuwe informatie hun overtuiging opnieuw in een cijfer uitdrukken. De vraag was nu of de proefpersonen op basis van de verschillende informatie zouden verschillen in hun inschatting van B’s schuld. Dat bleek niet het geval. Binnen de verschillende deelgroepen waren de rechters gemiddeld even overtuigd van zijn schuld. Wel bleek zijn schuld over het geheel genomen waarschijnlijker te zijn geworden. Na de extra informatie achtten 7 rechters B bovendien schuldig (gemiddelde overtuigingsscore 71) en 43 niet (overtuigingsscore 44). Waaruit tevens kan worden afgeleid dat een gemiddelde schuldkans van 71% voor deze eerste groep rechters voldoende was voor een (fictieve) veroordeling. 44% was dat uiteraard niet. Bron: Rassin 2008, p. 42-44.
9
rechtstreeks 2009-4 03-12-09 16:27 Pagina 10
rechtstreeks 4/2009 Inleiding
Box 2 De Keijser & Van Koppen: compensatoir straffen Een strafrechter moet krachtens art. 350 Sv eerst vaststellen of bewezen is of de verdachte het ten laste gelegde heeft gedaan. Pas als die vraag positief beantwoord is, volgt de straftoemetingsvraag. Juridisch gesproken zit er tussen die eerste en de laatste vraag een kloof. Maar psychologisch bezien valt te verwachten dat de rechter ook vooruitkijkt naar de gevolgen van zijn beslissing. Dat kan hem in de problemen brengen in het geval van een ernstig misdrijf. De passende straf zou ernstige consequenties hebben voor de verdachte waardoor het bewijs harder moet zijn. Maar anderzijds zou vrijspraak in zulke gevallen nogal naargeestige consequenties hebben voor de andere burgers. Deze ‘overtuigingsparadox’ zou ertoe kunnen leiden dat rechters hun lat inzake het overtuigend bewijs (onbewust) wat lager leggen, om tot veroordeling te kunnen komen, terwijl ze hun twijfel aan het bewijs draaglijker zouden kunnen maken door tegelijkertijd hun strafmaat iets te verlagen. In een experiment werd deze veronderstelling, dat zij ‘compensatoir’ zouden straffen, getoetst. Aan 640 strafrechters in rechtbanken en hoven werden at random 6 fictieve dossiers toegestuurd, en wel gemanipuleerde dossiers van 3 verschillende delicten in telkens twee varianten: een met sterk en een met zwak bewijs. A was een ernstig geweldsmisdrijf (A+: sterk bewijs; A- zwak bewijs); B een ernstig vermogensmisdrijf (B+: sterk bewijs; B- zwak bewijs); C een minder ernstig geweldsmisdrijf (C+: sterk bewijs; C- zwak bewijs). Aan de rechters werd vervolgens gevraagd of het ten laste gelegde bewezen was, of het strafbaar was, en welke straf men zou opleggen. De onderzoekers hadden verwacht dat bij A- meer rechters het ten laste gelegde bewezen achtten dan bij de minder ernstige maar even zwak beargumenteerde C-versie. Dat bleek niet het geval. Ook bleken de gemiddelde straffen bij alle – -gevallen niet lager te zijn dan bij alle +-gevallen. Conclusies: de overtuigingsparadox biedt geen verklaring voor beslissingen en voor compensatoir straffen is geen bewijs. Bron: De Keijser & Van Koppen 2004, p. 133-183.
1.2 Een statistisch experiment In deze Rechtstreeks doen wij verslag van een recent gehouden experimenteel onderzoek naar oordeelsvorming onder onzekerheid. Ook dat is opgezet om inzicht te krijgen in het beslissingsproces in rechtszaken. Het verschil met de twee hiervoor genoemde onderzoeken bestaat uit het laboratoriumkarakter en de invalshoek: de kansrekening. De achtergrond van het experiment vormt de algemene waarneming dat het denken over onzekerheid vaak verwarrend is, zeker voor mensen die daarin, zoals de meeste juristen, niet getraind zijn (Wagenaar 2006). Veel wetenschappelijke literatuur laat zien dat er niet-systematische factoren kunnen zijn, zoals een onvolledige concentratie of een gebrek aan rekenvaardigheid, die verhinderen dat wij onzekere informatie juist interpreteren en combineren. Maar er kunnen ook systematische afwijkingen optreden (Giard en Merkelbach 2009). Ook voor dergelijke tekortkomingen zijn rechters niet immuun (Guthrie e.a. 2001; id. 2007). Zie box 3.
10
rechtstreeks 2009-4 03-12-09 16:27 Pagina 11
rechtstreeks 4/2009 Inleiding
Box 3 Guthrie, Rachlinski & Wistrich: cognitieve illusies bij rechters Tijdens een conferentie van federale rechters van de VS werden de deelnemers problemen voorgelegd om na te gaan of rechters last hebben van een vijftal veelvoorkomende cognitieve illusies. Een van de casus die zij kregen voorgelegd was gebaseerd op een klassieke Engelse civiele zaak: ‘De eiser liep langs een pakhuis in eigendom van de gedaagde, toen hij getroffen werd door een vat met ernstig letsel als gevolg. Op dat moment werd het vat van de grond in het pakhuis getakeld. De werknemers van de gedaagde weten niet hoe het vat los is geraakt en gevallen, maar zij zijn het erover eens dat of het vat nalatig was vastgemaakt of het touw gebrekkig was. Veiligheidsinspecteurs van de overheid hebben een onderzoek van het pakhuis uitgevoerd en hebben vastgesteld dat in dit pakhuis: (1) als vaten nalatig zijn vastgemaakt, er 90% kans is dat zij losraken; (2) als vaten veilig zijn vastgemaakt, zij slechts in 1% van de keren losraken; (3) de werknemers slechts 1 op 1.000 vaten nalatig vastmaken.’ De vraag die de rechters daarop kregen voorgelegd was: ‘Gegeven deze feiten, hoe waarschijnlijk is het dat het vat de eiser trof door nalatigheid van een van de werknemers?’ De rechters konden kiezen uit vier graden van waarschijnlijkheid: 0-25%, 26-50%, 51-75% en 76-100%. Het gevaar dat in deze zaak dreigt, is de zogenoemde ’inverse fallacy’: de kans op nalatigheid gegeven het losraken van het vat wordt gelijkgesteld aan de kans op het losraken van het vat gegeven nalatigheid. Het (verkeerde) antwoord is dan 90%. De werkelijke kans is echter slechts 8,3%. Dit heeft ermee te maken dat de kans op een ongeluk bij nalatigheid wel erg groot is, maar dat nalatigheid zo weinig voorkomt dat de meeste ongelukken gebeuren als er niet nalatig wordt gehandeld. Via de formule van Bayes kan dit gecheckt worden (zie box 6). Van de 159 rechters die de vraag beantwoordden, gaf 40,9% het goede antwoord door 0-25% te kiezen, terwijl 40,3% als antwoord 75-100% gaf. De overigen waren ongeveer gelijk verdeeld over de andere graden van waarschijnlijkheid. Guthrie e.a. concluderen dat met deze antwoorden de rechters beter presteren dan andere beroepsgroepen aan wie vergelijkbare problemen zijn voorgelegd, maar dat desondanks 40,3% ten prooi is gevallen aan een denkfout en dat de resterende 18% ook fout zat, zij het in mindere mate. Kortom: denkfouten bij het redeneren in kansen komen ook bij (Amerikaanse) rechters veel voor. Bron: Guthrie e.a. 2001, p. 805-811.
De vraag die wij wilden onderzoeken was of hoogopgeleide maar niet specifiek in de toepasselijke statistiek geschoolde mensen in staat zijn op juiste wijze om te gaan met bewijs waarvan de inherente onzekerheid volledig is gekwantificeerd. Concreet wilden wij nagaan in welke mate beslissingen onder onzekerheid leiden tot fouten, of die fouten ernstig zijn en of er systeem is te onderkennen in dergelijke fouten. Tot slot waren we nieuwsgierig of een verschil in disciplinaire achtergrond daarbij een rol speelt. Gaan juristen anders om met onzekerheid dan mensen met een achtergrond in de exacte of sociale wetenschappen? Wat we in de komende paragrafen willen doen, is eerst, in paragraaf 2, kort ingaan op de relevante statistiek, in dit geval de Bayesiaanse statistiek, en op besluitvorming onder onzekerheid toegepast op de rechterlijke oordeelsvorming. Daarna werken we, in paragraaf 3, de onderzoeksvraag uit in een vijftal deelvragen. In paragraaf 4 geven we de opzet van ons 11
rechtstreeks 2009-4 03-12-09 16:27 Pagina 12
rechtstreeks 4/2009 Inleiding
experiment. De paragrafen 5 en 6 behandelen de uitkomsten van de twee deelexperimenten die we hebben verricht. In paragraaf 7 geven we ten slotte aan wat de relevantie van deze uitkomsten is in het licht van de Agenda van de rechtspraak. Tot slot nog een waarschuwing. Een experiment is een kunstmatige situatie. Tegenover de voordelen van de beheersbaarheid van factoren waarvan men de invloed wil bestuderen en de precisie van het inzicht, staat het nadeel dat men de uitkomsten niet zonder meer van toepassing kan verklaren op de praktische, complexe wereld daarbuiten. Niettemin zullen we in de slotparagraaf – waar de resultaten van het experiment worden weergegeven – laten zien hoe onze bevindingen voor de Rechtspraak wel degelijk van belang kunnen zijn, al was het maar doordat ze ons meer bewust maken van de omgang met onzekerheid bij het beslissen in gecompliceerde zaken.
12
rechtstreeks 2009-4 03-12-09 16:27 Pagina 13
rechtstreeks 4/2009 Statistiek in de rechtszaal
2
Statistiek in de rechtszaal
2.1 Het oprukken van de statistiek Het strafrechtelijk bewijs kan alleen tot stand komen via empirische waarneming. Bewijs leveren houdt in het strafrecht dan ook in dat er telkens weer feiten getest en gewaardeerd moeten worden (Nijboer 2000, p. 21-24). Op empirische waarneming gebaseerde redeneringen en bewijzen betreffen altijd waarschijnlijkheidsuitspraken en zijn daarmee betwistbaar en voorlopig. Ook het strafrechtelijk bewijs geeft slechts een waarschijnlijkheid weer. Het geeft informatie over de waarschijnlijkheid van een veronderstelde toedracht. Zodra die informatie enige vorm van kwantitatieve hardheid krijgt, komt statistiek om de hoek kijken. Al wordt vaak – en niet in de laatste plaats door rechters zelf – gezegd dat rechters niet kunnen rekenen (zie box 4), ze hebben zich op alle rechtsgebieden natuurlijk vanouds wel met cijfers beziggehouden, en, meestal impliciet, ook met kansrekening. Voor het burgerlijk recht hoeven we maar te wijzen op het aansprakelijkheids- en schadevergoedingsrecht. Ook het strafrecht verwijst al zeer lang naar feiten en verbanden die niet vaststaan maar redelijkerwijs aangenomen mogen worden. Maar lange tijd werd die waarschijnlijkheid op intuïtieve wijze ingeschat. Na verloop van tijd kon daarmee niet meer worden volstaan. Het strafrechtelijk bewijs moest preciezer en technischer worden.
Box 4 Iudex non calculat? ‘Iudex non calculat’: de rechter rekent niet. De Duitse wikipedia zegt daarover: ‘Deze uitdrukking wordt vaak spottend gebruikt in de betekenis dat rechters (of juristen) niet kunnen rekenen. Er wordt echter mee bedoeld dat de rechter niet besluit door argumenten op te tellen maar door ze al naar hun overtuigingskracht gewicht toe te kennen. De historische oorsprong van de uitdrukking ligt echter in een eerder technische uitspraak in de Digesten (Mac Dig. 49, 8, 1,1) volgens welke kennelijke rekenfouten een vonnis geen schade toebrengen en zonder meer verbeterd mogen worden (…).’ Bron: http://de.wikipedia.org/wiki/Latein_im_Recht.
Aan het einde van de negentiende eeuw was deze ontwikkeling naar een meer systematische benadering van bewijs al in volle gang. Lees er de avonturen van Sherlock Holmes maar op na, en zie hoe het systematisch denken in hypothesen, alternatieve scenario’s en kansen zeker geen nieuwlichterij is. In de twintigste eeuw is daarin lange tijd niet al te veel vooruitgang geboekt, maar in de laatste dertig jaar gaat het ineens weer erg hard. Bewijs gaat zich steeds meer lenen voor, of dwingt ons zelfs tot een precieze, kwantitatieve behandeling volgens de regels van de wiskunde en de statistiek. De onzekerheid van bewijs neemt af door het opkomen van nieuwe wetenschapsgebieden en nauwkeuriger onderzoeksmethoden. 13
rechtstreeks 2009-4 03-12-09 16:27 Pagina 14
rechtstreeks 4/2009 Statistiek in de rechtszaal
Bovendien wordt er steeds meer bekend over de mate van onzekerheid die met specifiek bewijs is verbonden. In het vervolg zullen we laten zien dat beslissen op basis van de overtuigingskracht waarnaar box 4 verwijst, rekenen vereist, en wel op een hoger plan dan alleen maar optellen en aftrekken. Daarmee worden ook de eisen die vanuit de samenleving aan de rechtspraak en de beoefenaren daarvan worden gesteld hoger. Het rechtspreken en met name de bewijsvoering is onder het vergrootglas komen te liggen. Dit is nog versterkt door de toegenomen deskundigheid bij geïnteresseerde leken en bij wetenschappers die als getuige-deskundige of anderszins bij een zaak betrokken zijn geraakt.3 Oprechte verontwaardiging – hoe kan de rechter van de schuld van een verdachte overtuigd zijn, als hij er in de rechtszaal blijk van geeft een deel van het bewijs niet te begrijpen? – gaat daarbij soms hand in hand met de persoonlijke profileringsdrang en artikelen over concrete twijfelgevallen vinden hun weg naar internationale, wetenschappelijke tijdschriften.4 Het ligt voor de hand dat deze ontwikkelingen zich de komende jaren verder zullen doorzetten. Gelet op de centrale plaats die onzekerheid bij het rechtspreken inneemt, zal een steeds explicietere en meer in de statistiek gefundeerde omgang met deze onzekerheid de kern gaan worden van de empirische oriëntatie die de strafrechtspraak kenmerkt. In het kader van de Toekomstverkenning voor de rechtspraak wordt op basis van gesprekken met een aantal wetenschappelijke deskundigen geconcludeerd dat de kansrekening – het rekenen met onzekerheid – in de ontwikkeling naar kwantificering van bewijskracht steeds belangrijker zal gaan worden (Van Dam e.a. 2009). 2.2 De rechterlijke overtuiging statistisch benaderd In een vonnis stelt de rechter vast of de schuld van een verdachte wettig en overtuigend is bewezen. Het gaat hierbij om een waarschijnlijkheidsoordeel met een aanzienlijk subjectief element, namelijk de eigen overtuiging. De vraag is wat die overtuiging inhoudt en hoe die wordt bereikt. Hartendorp (2009) sprak in een eerder nummer van Rechtstreeks van een betrekkelijk intuïtief proces van groeiende overtuiging dat gaande de behandeling van de zaak wordt doorlopen, uitmondend in een ‘sprong’ naar het weten wat het juiste vonnis is en het wijzen van het vonnis. De (precieze) motivering volgt dan pas later. Overtuiging kan echter ook een meer objectieve en daarmee toetsbare inhoud krijgen. Dan is er een meer rationele benadering van het proces van oordeelsvorming mogelijk. We kunnen daarbij twee fasen onderscheiden:
3 4
14
Vgl. Koelewijn en Rosenberg 2008. Vgl. Meester e.a. 2007.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 15
rechtstreeks 4/2009 Statistiek in de rechtszaal
1. De beoordeling (o.a. op wettigheid) en de weging van de individuele bewijsmiddelen en het combineren van al het bewijs. 2. De afweging of het gecombineerde bewijs de standaard van het wettig en overtuigend bewezen zijn al dan niet haalt. Goed beschouwd is objectiviteit in geen van beide stappen helemaal te bereiken, vooral niet in de tweede. Een rechter kan bij zijn motivering zijn toevlucht nemen tot omschrijvingen als dat schuld ‘buiten redelijke twijfel’ is, maar wat is dat anders dan hetzelfde zeggen met andere woorden? Er blijft altijd een moeilijk in omvang aan te geven ruimte voor subjectiviteit bestaan. En daarmee voor diversiteit. Het blijft denkbaar dat verschillende rechters de standaard die voor een veroordeling bestaat anders interpreteren, en ook dezelfde rechter kan de standaard in verschillende zaken en in de loop van de tijd verschillend toepassen. Dat wil zeggen dat de beslissing van de rechter om te veroordelen niet beschreven kan worden als een mechanische, logische toepassing van juridische regels. Hierna zullen we afzonderlijk op beide stappen ingaan. Daarbij maken we gebruik van de zogenoemde Bayesiaanse benadering van de statistiek. Op zich zijn er meerdere benaderingswijzen mogelijk voor het geven van waarschijnlijkheidsoordelen, waaraan vaak dieperliggende kennisfilosofische en conceptuele uitgangspunten ten grondslag liggen. Zie box 5. Maar velen kiezen tegenwoordig impliciet of expliciet – en op goede gronden – voor de Bayesiaanse benadering van de statistiek (NFI 2007; Kerkmeester 2005). Die benadering is dan ook de norm geworden voor het forensisch vakgebied (Van Dam e.a. 2009). Box 5 Verschillende benaderingen van statistiek
Klassieke statistiek: ontleent conclusies over de kans op gebeurtenissen aan gegevens over de populatie waartoe de gebeurtenissen behoren. Frequentiegegevens, veelal gebaseerd op steekproeven, staan centraal in een zogenoemd objectief kansbegrip. Bijvoorbeeld: de kans dat iemand een bepaalde ziekte krijgt, wordt afgeleid uit het aantal lijders aan de ziekte in de gehele bevolking of uit een steekproef daaruit. Andere, subjectieve informatie wordt niet gebruikt. Bayesiaanse statistiek: ook hier gaat het om het bereiken van conclusies over de kans op gebeurtenissen. Maar hier wordt alle relevante informatie gecombineerd. Frequentiegegevens kunnen gebruikt en gecombineerd worden met andere frequentiegegevens, maar er kunnen ook subjectieve inschattingen worden gebruikt. Bij de bepaling van de kans dat een persoon een bepaalde ziekte krijgt, kunnen bijvoorbeeld ook zijn persoonlijke kenmerken worden betrokken. Beslistheorie: deze benadering is gericht op regels voor besluitvorming onder onzekerheid. Onderdeel daarvan is het evalueren van de gevolgen van alternatieve beslissingen en het waarderen daarvan, veelal in de vorm van verwacht verlies ofwel risico. Er is aangetoond dat volledige rationele beslissingen het incorporeren van de Bayesiaanse benadering van onzekerheid vereisen. Besluitvorming onder onzekerheid is aan de orde van de dag: in het werk van de dokter, die medicijnen voorschrijft, de ondernemer, die investeringsbeslissingen neemt, en de rechter, die vonnis wijst. Bron: Barnett 1999. 15
rechtstreeks 2009-4 03-12-09 16:27 Pagina 16
rechtstreeks 4/2009 Statistiek in de rechtszaal
2.3 De Bayesiaanse benadering van onzekerheid In de Bayesiaanse benadering die wij in ons experiment hebben gevolgd, staat het denkproces van de beslisser centraal. Dit proces valt uiteen in drie fasen. De rechter begint aan een strafzaak met een vermoeden over het al dan niet aanwezig zijn van schuld van de verdachte, de zogenoemde a priori-kans op schuld. Volgens de beginselen van ons strafrechtstelsel, die uitgaan van de onschuld van een verdachte, zou zijn opvatting aan het begin eigenlijk moeten luiden: de kans op schuld van de verdachte is niet groter dan die van een willekeurig ander lid van de betreffende gemeenschap. De rechter weet echter door zijn ervaring en zijn kennis van de vervolgende instanties dat er geen willekeurige burgers voor de rechter worden gebracht. Er wordt niet vervolgd zonder een vermoeden van schuld. Het is dus zeer wel denkbaar dat de rechter de zaak al begint met een opvatting over de schuld, waarbij de kans dat de verdachte schuldig is aanzienlijk groter is dan de kans die zou bestaan bij de presumptio innocentiae.5 Dit gegeven veronderstelt dat de rechter deze subjectieve kans op schuld innerlijk kwantificeert. Dat wil zeggen dat hij, technisch gesproken, aan de schuld van de verdachte al een a priori-waarschijnlijkheid toekent. Vervolgens krijgt de rechter ter voorbereiding van de zitting resultaten van onderzoeken te zien die bewijsmiddelen kunnen vormen. Die resultaten moet hij interpreteren als nadere aanwijzingen in de richting van schuld of onschuld, de twee basishypothesen die aan de orde zijn. Tijdens de zitting worden deze interpretaties vervolgens besproken met zowel de verdediging als het Openbaar Ministerie, veelal in termen van aannemelijkheid of waarschijnlijkheid. Wat de verschillende bewijsmiddelen daarbij steeds weer onderscheidt, zijn twee kansen: de kans op het vinden van het bewijs als de verdachte het misdrijf heeft begaan, en de kans op het vinden van het bewijs als hij het misdrijf niet heeft begaan. Als beide kansen gelijk zijn – als de verhouding van beide kansen 1 is – is het bewijs niet onderscheidend en geeft het geen enkele informatie over de eventuele schuld van de verdachte. Het is dan feitelijk geen bewijs. Is de eerste kans groter dan de tweede, dan is het bewijs belastend. Is de eerste kans kleiner dan de tweede, dan is het bewijs ontlastend. Daarbij kan de tweede kans, de kans op het vinden van het bewijs als de verdachte het niet gedaan heeft, vaak veel informatie vragen. Ter illustratie: er worden bij een verdachte sporen gevonden van vloerbedekking die overeenstemmen met de vloerbedekking op de plaats van het delict. Hoe ontkracht je die indicatie? Door aan te tonen dat die vloerbedekking in een groot deel van de (relevante) huizen te vinden is. Hoe zeldzamer de vloerbedekking is, des meer zegt de vondst, en des te kleiner is de kans dat de verdachte het delict niet begaan heeft.
5
16
Gezien het geringe aandeel van vrijspraken op het totaal van de vonnissen (6,9% bij de politiererechter en 8,0% bij de meervoudige kamer in 2008) bestaat er in de praktijk een spanning tussen de aanname van onschuld en de feitelijke uitkomst van processen. De cijfers zijn afkomstig van het Parket Generaal.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 17
rechtstreeks 4/2009 Statistiek in de rechtszaal
Deze verhouding tussen de kans op het bewijs ‘gegeven schuld’ en de kans op het bewijs ‘gegeven onschuld’ wordt wel aangeduid als de diagnostische waarde van het bewijs, ofwel de: likelihood ratio. Hier gebruiken we de term bewijskracht. Een bewijsmiddel is dan via zijn ‘bewijskracht’ tot zijn essentie teruggebracht, namelijk tot dat wat het bewijs ons feitelijk leert over de schuld of de onschuld van de verdachte. Wij abstraheren zo van wat zich allemaal aan feiten achter het kille cijfer van de bewijskracht bevindt. In het experiment volstaan we met het geven van de bewijskracht van bewijzen aan de proefpersonen. Als derde en laatste stap brengt de rechter daarna nog de aannemelijkheid die zo is ontstaan in samenhang met zijn a priori-inschatting van de kans op schuld. Dit combineren resulteert dan in een uiteindelijke inschatting van de kans op schuld, die ook wel de a posteriori-kans wordt genoemd. Naarmate die laatste kans groter is, is het aannemelijker dat de verdachte ook werkelijk de dader is en komt zijn veroordeling dichterbij.6 Dit proces geeft al aan hoe belangrijk het is wat er in een strafzaak precies aan bewijsmateriaal aan de rechter wordt voorgelegd. Er moet in ieder geval belastend bewijs worden aangeleverd, anders zou een zaak niet voor de rechter zijn gebracht. Het is in de alledaagse praktijk echter minder evident dat ook al het beschikbare ontlastend bewijs systematisch aan de rechter wordt gepresenteerd. Met name onderzoek dat geen belastend bewijs heeft opgeleverd, zoals de afwezigheid van sporen waar deze wel verwacht werden, kan wel eens worden weggelaten. Dergelijke negatieve uitkomsten zijn echter bepaald niet zonder betekenis, omdat ze steun zouden kunnen bieden aan de hypothese van onschuld. In een strafzaak zou dan ook beter het volledige verloop van het politieonderzoek kunnen worden geschetst, zodat de rechter zich ook een beter beeld kan vormen van mogelijk aanwezig ontlastend bewijs. In ons experiment is er om die reden in ieder geval nadrukkelijk rekening mee gehouden dat onderzoek zowel tot belastend als ontlastend bewijs kan leiden.
6
Overigens moet aangetekend worden dat op de toepassing van de Bayesiaanse benadering op dit terrein ook praktische kritiek mogelijk is. Deze betreft vooral de veronderstelde nauwkeurigheid die niet altijd in verhouding staat met de huidige kennis over de bewijskracht van veel specifieke vormen van bewijs onder de feitelijke omstandigheden waaronder het bewijs is verzameld en de fouten die daarbij gemaakt worden. De aantrekkelijkheid van de benadering zit daarin, dat men begint met een oordeel en dat dit stukje bij beetje door het aangedragen materiaal wordt verstevigd dan wel ondergraven en daarmee goed aansluit bij hoe mensen denken.
17
rechtstreeks 2009-4 03-12-09 16:27 Pagina 18
rechtstreeks 4/2009 Statistiek in de rechtszaal
Box 6 De Bayesiaanse formule De kern van de Bayesiaanse benadering is uit te drukken in een formule. Stel dat de a priori-opvatting over schuld van de verdachte P(s) is. De a priori-opvatting over de kans op onschuld is dan 1- P(s) = P(o). Daaruit kan men de verhouding tussen de twee kansen uitrekenen en die verhouding vormt het uitgangspunt bij de volgende formule. Nu krijgt de rechter bewijs b. Wat is nu de opvatting over schuld, nadat de informatie uit dit bewijs is gecombineerd met de initiële opvatting over schuld? Noemen we de kans op schuld, gegeven dit bewijs, P(s|b) en de kans op onschuld, gegeven dit bewijs: P(o|b). Dan is de verhouding tussen beide kansen, bij dit bewijs, uit te drukken in de formule (1):
P(s|b) / P(o|b) = P(b|s) / P(b|o) ● P(s) / P(o)
(1)
Daarbij geldt: P(b|s) staat voor de kans op het bewijs, gegeven schuld, en P(b|o) staat voor de kans op het bewijs, gegeven onschuld. Formule (1) betekent dan in woorden: de initiële kansverhouding wordt aangepast met de verhouding van twee conditionele kansen [P(s|b) en P(o|b)], respectievelijk de kans op schuld, gegeven bewijs b, en de kans op onschuld, gegeven bewijs b. Deze laatste verhouding is dan de bewijskracht van het bewijs. Als er meerdere bewijzen zijn [b1 en b2] en die bewijzen zijn onafhankelijk van elkaar verkregen, dan moet men de bewijskracht van beide bewijzen vermenigvuldigen om tot de a posteriori-kans op schuld te komen. Dat staat weergegeven in formule (2):
P(s|b) / P(o|b) = P(b1|s) / P(b1|o) ● P(b2|s) / P(b2|o) ● P(s) / P(o)
(2)
Omdat de kans op schuld, gegeven het bewijs, en de kans op onschuld, gegeven het bewijs, samen optellen tot 1 [of wel: P(s|b) + P(o|b)= 1] en de verhouding tussen die twee kansen is gegeven door formule (2), kan men zo de kans op schuld gegeven het bewijs uitrekenen.
2.4 Beslissen onder onzekerheid In ons experiment zijn we ervan uitgegaan dat de afzonderlijke feiten zijn beoordeeld en gewogen op hun bewijskracht, die vervolgens in de vorm van een cijfer aan de proefpersonen is meegedeeld. Op die manier konden de proefpersonen een inschatting maken van de kans dat de verdachte het misdrijf had begaan. Zoals eerder opgemerkt, is die kans nooit 100%. Maar wanneer is de rechter nu genoeg overtuigd van de schuld van de verdachte? Concreter: hoe hoog moet voor een beslisser de kans op schuld zijn om tot veroordeling over te gaan? Is er 95% kans nodig, of is 75% kans al voldoende (vgl. box 1)? In de meeste zaken in de praktijk zal een dergelijke vraag niet aan de orde komen, omdat de feiten daar al duidelijk en onbetwist zijn en de kans op schuld dicht de 100% nadert. Maar er zijn ook moeilijker zaken, waarbij het bewijs schaars is of tegenstrijdig, en waar de vraag wel degelijk relevant wordt.
18
rechtstreeks 2009-4 03-12-09 16:27 Pagina 19
rechtstreeks 4/2009 Statistiek in de rechtszaal
Bij de besluitvorming in deze moeilijke zaken zullen, zoals geschetst in box 5, de gevolgen moeten worden meegewogen van de verschillende gewenste en ongewenste alternatieven. Er zijn twee ongewenste uitkomsten mogelijk. Die zullen dan als ‘fouten’ worden aangeduid: 1. Er wordt een onschuldige verdachte veroordeeld. Dit is uiteraard onrechtvaardig jegens de onschuldig veroordeelde en voegt hem ten onrechte leed toe, maar laat ook de echte dader vrij rondlopen met het risico van herhaling van het misdrijf. Deze fout duiden we aan als een type 1-fout. 2. Er wordt een schuldige verdachte vrijgesproken. Dat is onrechtvaardig jegens de slachtoffers en hun familie en vrienden en voegt eveneens leed toe. Ook blijft de dader vrij rondlopen met het risico van herhaling. Dit is een fout van type 2. Daarnaast zijn er natuurlijk twee mogelijke gewenste uitkomsten. De rechter: 3. Veroordeelt een schuldige verdachte; 4. Spreekt een onschuldige verdachte vrij. Wanneer deze vier verschillende mogelijkheden in kaart worden gebracht, kunnen we tot een twee-bij-twee matrix komen (figuur 1). Hoewel de werkelijke situatie daarbij uiteraard verborgen is voor de rechter, kunnen we wel nagaan hoe de rechter de vier mogelijke uitkomsten in beginsel waardeert. De beide gewenste uitkomsten hebben dan een positieve waardering (a>0 en d>0), waarbij de rechter op grond van zijn onpartijdigheid tussen de beide uitkomsten geen onderscheid zal maken. Dat geldt waarschijnlijk niet voor de beide andere uitkomsten. Het zal onder rechters onomstreden zijn dat de veroordeling van een onschuldige verdachte sterk negatief moet worden gewaardeerd en ook de slechtst mogelijke uitkomst is. Maar vrijspraak van een schuldige verdachte zal op zich genomen ook een ongewenste uitkomst zijn, maar op zichzelf toch minder ongewenst.7 Figuur 1: waardering van potentiële uitkomsten van vonnissen door de rechter Werkelijke situatie: de verdachte is
Vonnis:
7
de dader
niet de dader
Veroordeling
a>0
b<0
Vrijspraak
c<0
d>0
Voor een goed begrip: de stelling dat vrijspraak van een schuldige verdachte niet erg is als er onvoldoende bewijs is, is hier geen antwoord. Het gaat hier immers om de vraag wat voldoende is. De al meerdere malen genoemde juridische standaard ‘wettig en overtuigend bewezen’ geeft enige richting aan de afweging tussen beide fouten. Immers, zou het vermijden van de eerste fout volstrekt overheersend zijn, dan zou de standaard anders moeten luiden. Bijvoorbeeld: veroordeling kan alleen plaatsvinden als schuld met aan zekerheid grenzende waarschijnlijkheid is vastgesteld. Omgekeerd, als het vermijden van de tweede fout dominant zou zijn, zou ook een andere formulering zijn gekozen, bijvoorbeeld: schuld is aannemelijk gemaakt.
19
rechtstreeks 2009-4 03-12-09 16:27 Pagina 20
rechtstreeks 4/2009 Statistiek in de rechtszaal
De gewichten die rechters in de praktijk aan dergelijke uitkomsten toekennen zijn uiteraard nooit exact vast te stellen,8 maar het lijkt niet te gewaagd om te stellen dat fouten van type 1 veel negatiever worden gewaardeerd dan die van type 2. In een formule uitgedrukt: b << c<0. De vier waarderingen van de factoren a, b, c en d bepalen, in hun combinatie, hoe groot de bewijslast en daarmee de kans op schuld moet zijn, wil de rechter de verdachte schuldig verklaren. Daaruit volgt tevens welk type fout het meeste zal worden gemaakt. Naarmate de waardering van de veroordeling van een onschuldige (b) sterker negatief is, in verhouding tot de waardering van de vrijspraak van een schuldige (c), zal de rechter vaker een fout van het tweede type maken en minder vaak een fout van het eerste type. Een aanwijzing voor de praktische betekenis van dit mechanisme is te vinden in de plotselinge toename van het percentage vrijspraken na de commotie die over de Schiedammer parkmoord is ontstaan (box 7). Het lijkt er sterk op dat rechters terughoudender werden met veroordelingen. Nader onderzoek van het Parket Generaal van het Openbaar Ministerie heeft ook geen andere verklaring voor de verschuivingen kunnen vinden dan deze. Ook het jurisprudentie-onderzoek van Dubelaar (2009) bevestigt dit beeld.
Box 7 Verandering in de rechterlijke afweging van risico’s na commotie Tot het jaar 2004 was het percentage vrijspraken bij strafzaken stabiel, op circa 4% op het totale aantal misdrijven. Daarna steeg het in vrij korte tijd tot ongeveer 7%. Uit een analyse van de schuldigverklaringen en vrijspraken per maand bleek dat sinds september 2005 het percentage vrijspraken bij geweld steeg met 1,7%-punt, bij vermogensmisdrijven met 1,2%-punt en bij misdrijven tegen de Opiumwet met 1,1%-punt. Dat is opmerkelijk gezien het feit dat juist in de maand september van dat jaar het parlementaire debat over de Schiedammer parkmoord plaatsvond. De meest voor de hand liggende verklaring is dat het maatschappelijke en politieke debat de afweging van rechters heeft veranderd. Het feit dat de toename bij alle rechters plaatsvond, maakt deze aanname waarschijnlijk. Bron: Van der Heide, Van Tulder & Wiebrens 2007, p. 34.
Het is aannemelijk dat rechters zich door de commotie rond de zaak hebben gerealiseerd dat de kosten (b) van een onschuldig veroordeelde hoger zijn dan zij hadden verwacht. Ook is denkbaar dat rechters (meer) risicomijdend zijn geworden en een risicomarge hebben 8
20
Natuurlijk worden zulke waarderingen door rechters zelden openbaar gemaakt, maar ze zijn af te leiden uit min of meer algemeen geaccepteerde uitingen die men hoort of leest. Zo stelt het hoofdcommentaar van Trouw (21-07-2008): ‘Het idee van rechtsstaat is zo sterk dat daaruit het adagium is voortgekomen “liever 10 schuldigen op straat dan één onschuldige in de cel”.’ Wagenaar (2005) verwijst naar de Amerikaanse rechter Wigmore die als norm het vrijspreken van 20 schuldigen tegen het veroordelen van 1 onschuldige noemt. Juryleden in de VS zouden volgens hem 90-95% zekerheid over schuld als norm hanteren.
rechtstreeks 2009-4 03-12-09 16:27 Pagina 21
rechtstreeks 4/2009 Statistiek in de rechtszaal
ingebouwd. In beide gevallen leidt dit ertoe dat rechters zowel het bewijs kritischer toetsen als de drempel voor veroordeling hoger stellen. Dat leidt onvermijdelijk tot meer vrijspraken van schuldige verdachten (fouten van type 2) en tot minder veroordelingen van onschuldige verdachten (fout van type 1). Op basis van figuur 1 kunnen we nu proberen de voorgaande beschouwing weer te geven via een optimale beslisregel. Wat kan een rationele, risiconeutrale beslisser – lees: rechter – , die niet wordt geremd door cognitieve beperkingen en niet door emoties wordt geleid, het beste doen? We duiden bij het formuleren van deze regel de a posteriori-kans op schuld aan met p. De rechter moet op dat moment beslissen tussen veroordelen of vrijspreken. Als hij veroordeelt, kan het (met kans p) zijn dat dit de goede beslissing is, te waarderen met a. Maar het kan ook de foute beslissing zijn (kans 1-p), met een negatieve waardering van b. De verwachte waardering van de veroordeling is daarmee: ap+b(1-p). Op dezelfde manier is de verwachte waardering van een vrijspraak te berekenen als: cp+d(1-p). Voor een risiconeutrale beslisser is veroordelen en vrijspreken gelijkwaardig als beide waarderingen gelijk zijn: ap+b(1-p)=cp+d(1-p). Daarmee wordt het mogelijk de kans op schuld (p*) waarvoor de waarderingen van de beide uitkomsten gelijkwaardig zijn af te leiden uit de waardering van de verschillende mogelijke gevolgen: p* = (d-b)/(a-b-c+d). De optimale beslisregel wordt dan dat, als de a posteriori-kans op schuld groter is dan de evenwicht- of drempelwaarde p*, er besloten wordt tot veroordeling. Deze beslisregel vormt zo de norm waartegen het feitelijke beslisgedrag in theorie van rechters en in de praktijk van de deelnemers aan ons experiment afgezet en gewaardeerd kan worden. In ons experiment hebben we nagegaan hoe de beslissingen van de proefpersonen zich verhielden tot de optimale beslissingen bij toepassing van deze beslisregel. 2.5 De mogelijkheid van nader onderzoek In het voorgaande hebben we de werkelijkheid van de rechterlijke oordeelsvorming versimpeld door uit te gaan van voor de rechter gegeven bewijs. In inquisitoire rechtssystemen, zoals het Nederlandse,9 krijgt de rechter bewijs voorgelegd maar kan hij het ook zelf verzamelen, door nader onderzoek te (laten) doen. De rechter heeft zo de mogelijkheid een actievere rol bij de verzameling van bewijs te spelen. Het OM en de verdediging komen met bewijs, maar de rechter ondervraagt de getuigen en getuige-deskundigen, hij kan besluiten ter zitting meer getuigen te horen en hij kan nader onderzoek gelasten. Hoewel de Nederlandse rechter vanouds betrekkelijk weinig gebruikmaakt van deze laatste bevoegdheid, 9
Overigens ook in mildere vormen van accusatoire stelsels, vgl. Way 2003.
21
rechtstreeks 2009-4 03-12-09 16:27 Pagina 22
rechtstreeks 4/2009 Statistiek in de rechtszaal
bestaat de indruk dat hij dat na de commotie over de Schiedammer parkmoord vaker is gaan doen. Hoe dan ook, in de dagelijkse praktijk moet de rechter tijdens de behandeling van de zaak beslissen of nader onderzoek nodig is dan wel eindvonnis gewezen kan worden. De beslissing al dan niet nader onderzoek te (laten) doen brengt uiteraard extra complicaties met zich mee. De rechter moet de mogelijke vermindering van de onzekerheid door het extra onderzoek afwegen tegen de tijd, moeite en kosten die dit onderzoek van hem en van de andere betrokkenen bij de zaak vraagt. Bovendien kan er hierdoor vertraging ontstaan bij de behandeling van andere zaken. Naast de waardering van de mogelijke uitkomsten, zoals weergegeven in figuur 1, moet nu ook de waardering van die kosten en baten in de beschouwing worden betrokken. Het extra onderzoek dat een optimale risiconeutrale, rationele beslisser zou laten doen, hangt daarbij af van de uit het reeds beschikbare bewijs verkregen informatie. Als deze informatie duidelijk wijst in de richting van schuld of onschuld, zal de beslisser eerder stoppen met het (laten) doen van nader onderzoek dan wanneer het beschikbare bewijs tegenstrijdig is. Dit beslisprobleem wordt in de economische literatuur aangeduid als sequentieel zoeken (Sonnemans 1998) en heeft geen oplossing in de vorm van een eenvoudige, algemeen geldende beslisregel, maar in de vorm van een beslisboom. Meer daarover in paragraaf 4.2, waar de opzet van het experiment wordt besproken. In deze situatie is het vaak mogelijk om de onzekerheid van beslissingen te reduceren. Ter illustratie: als rechters de beide eerder genoemde typen fouten van figuur 1 zo veel mogelijk willen vermijden, zullen ze sterk negatieve waarden toekennen aan de gewichten b en c in verhouding tot de gewichten a en d. Rechters laten zich dan heel moeilijk overtuigen van schuld en van onschuld. Zij bestuderen de dossiers uiterst grondig, beperken zich niet tot de procesverbalen van verhoren, maar kijken ook naar beschikbare videovastleggingen of liever nog, ze horen de verdachten en getuigen ter zitting en zoeken alle ‘losse eindjes’ uit. Kortom: zij doen zo grondig mogelijk onderzoek, ook in zaken die op het eerste gezicht eenvoudig schijnen.10 Verwacht mag worden dat de hogere kosten en de langduriger procedures zich daarna zullen terugbetalen in minder fouten. Al weet iedere rechter ook dat fouten nooit helemaal zullen worden uitgebannen en dat extra inspanningen er lang niet altijd toe zullen leiden dat er ook daadwerkelijk meer bewijs wordt gevonden.
10 Deze aanpak lijkt op de Duitse praktijk, waar in vergelijking met Nederland veel meer tijd besteed wordt aan strafzaken (Tak & Fiselier 2002).
22
rechtstreeks 2009-4 03-12-09 16:27 Pagina 23
rechtstreeks 4/2009 De onderzoeksvragen
3
De onderzoeksvragen
In ons experiment gaat het om de vraag: In welke mate zijn hoogopgeleide maar niet specifiek in de toepasselijke statistiek geschoolde mensen in staat om op juiste wijze om te gaan met bewijs, waarvan de inherente onzekerheid volledig is gekwantificeerd? Met het kader dat wij in de voorgaande paragraaf hebben ontwikkeld kan deze algemene onderzoeksvraag nu nader worden uitgewerkt in vijf deelvragen. Deze deelvragen zullen wij in de paragrafen 5 en 6 proberen te beantwoorden door de beslissingen van de proefpersonen in ons experiment te vergelijken met de optimale beslissingen die in de aan hen voorgelegde casus mogelijk zijn, en de oorzaken van optredende verschillen te analyseren. Onze deelvragen zijn: 1. In welke mate zijn beslissers in staat nauwkeurige beslissingen te nemen, bij gegeven bewijs en gegeven waardering van de mogelijke uitkomsten? 2. In welke mate redeneren beslissers bij deze beslissingen volgens de twee fasen die in 2.2 zijn beschreven? Of komen zij op intuïtieve wijze tot hun beslissingen? Bij het beslissen in twee fasen wordt eerst het bewijs beoordeeld, gewaardeerd en gecombineerd tot een inschatting van de kans op schuld en pas daarna wordt over de schuld beslist op basis van een vergelijking van deze inschatting met de kans die hiervoor minimaal noodzakelijk wordt geacht. 3. Voor zover beslissers in deze twee fasen redeneren, verschilt hun subjectieve inschatting van de kans op schuld van de objectief te berekenen kans op schuld? Vervolgens is de vraag in welke mate, uitgaande van de subjectieve inschatting van de kans op schuld, het oordeel over de schuldvraag verschilt van de optimale beslissing. De objectieve kans op schuld wordt daarbij berekend met de methode beschreven in paragraaf 2.3 (box 6). Op basis van de literatuur (o.a. Thompson & Schumann 1987) zouden we verwachten dat beslissers de bewijskracht van zowel belastend als ontlastend bewijs onderschatten, waardoor er systematische verschillen tussen de subjectieve en objectieve kansen kunnen gaan optreden. Ook is het denkbaar dat juist het ontlastend bewijs wordt onderschat. De optimale beslissing over de schuldvraag volgt uit de in paragraaf 2.4 afgeleide beslisregel.
23
rechtstreeks 2009-4 03-12-09 16:27 Pagina 24
rechtstreeks 4/2009 De onderzoeksvragen
Op basis van deze twee deelvragen kunnen we dan nagaan of de afwijkingen van de optimale beslissingen komen door een verkeerde inschatting van de kans op schuld, of door foute beslissingen, gegeven de inschatting van de kans op schuld. 4. In welke mate maken beslissers optimaal gebruik van de mogelijkheid nader onderzoek te gelasten, als die mogelijkheid wordt geboden? Anders gezegd: worden de verschillen tussen feitelijke beslissingen en optimale beslissingen in deze situatie veroorzaakt door het niet laten uitvoeren van een optimaal aantal onderzoeken of door het nemen van foute beslissingen op basis van beschikbare informatie? Uit de economische literatuur over sequentieel zoeken weten we dat er in veel situaties niet voldoende gezocht wordt. Box 8 geeft een voorbeeld uit een ander dan het economische domein. Box 8 Doorvragen of snel beslissen
‘Avonddienst van huisarts onder de maat.’ Onder deze vette kop werden in de wetenschapsbijlage van NRC Handelsblad (16-9-2008) de resultaten van een experiment onder 17 huisartsenposten samengevat. De Maastrichtse onderzoeker had 14 personen laten trainen zich aan de telefoon voor te doen als een patiënt met klachten die daarvoor de huisartspost belde. Ze speelden de rol van 7 verschillende patiënten en de opzet van het onderzoek was zodanig dat elke huisartsenpost drie keer dezelfde neppatiënt aan de lijn kreeg. Er werden 375 gesprekken gevoerd op 84 avonden. De bedoeling van het onderzoek was de kwaliteit van het telefonisch schatten van de ernst van medische klachten – in vaktermen: triage – te toetsen. Wat bleek? De patiënten werden zeer vriendelijk te woord gestaan. Maar de kwaliteit was minder. Van alle door de triagist gestelde vragen behoorde ongeveer de helft tot de categorie (krachtens een bestaand protocol) verplichte vragen. Van die verplichte vragen werd echter maar 21% gesteld. Daardoor maakten ze in slechts 58% van de gevallen een correcte schatting van de ernst van de medische situatie; in 41% van de gevallen schatten ze de urgentie te laag en voor 1% te hoog. “Wat ons onderzoek vooral laat zien is dat het erg belangrijk is om door te vragen. (…) Triagisten hebben de neiging om te snel een conclusie te trekken. Dat is niet alleen in Nederland zo, in het buitenland komen vergelijkbare getallen uit onderzoeken naar voren.” Bron: Derkx 2008.
5. Maakt de achtergrond van beslissers verschil uit met betrekking tot het beslissingsgedrag? De achtergrond van deze vraag is bekend: sommige auteurs menen dat met name personen met een juridische achtergrond minder goed presteren, waar het gaat om beslissen onder onzekerheid. 24
rechtstreeks 2009-4 03-12-09 16:27 Pagina 25
rechtstreeks 4/2009 De opzet van het experiment
4
De opzet van het experiment
4.1 De algemene setting Het experiment dat we hebben uitgevoerd bestond uit twee delen die na elkaar plaatsvonden met dezelfde proefpersonen. In het eerste deel moesten de deelnemers in 30 fictieve casus op basis van informatie over de bewijzen, verkregen uit eveneens fictief opsporingsonderzoek, beslissen over schuld of onschuld. In het tweede deel, eveneens 30 casus, konden de deelnemers besluiten om extra onderzoek te laten doen, alvorens over schuld of onschuld te beslissen. De informatie over de casus kregen de deelnemers in beide delen voorgelegd via de computer, die na afloop ook hun antwoorden bekeek en beoordeelde. Afhankelijk van hun prestaties kregen ze daarbij punten toegekend, waarvoor ze aan het einde van het experiment werden betaald (100 punten is 1 euro). Hoe meer punten ze scoorden, hoe hoger hun beloning was. Op deze manier werd een persoonlijk belang bij het nemen van goede beslissingen gecreëerd, waarvan werd verondersteld dat dit ook in de werkelijkheid van de rechtspraak aanwezig is. Aan het experiment deden in totaal 216 deelnemers mee, die waren gerekruteerd uit vijf verschillende groepen: vier groepen universitaire studenten – 25 exacte wetenschappen, 54 economie, 32 sociale wetenschappen en 51 rechten – en 54 rechterlijke ambtenaren in opleiding (raio’s). Daarbij waren de meeste rechtenstudenten zogeheten ‘honors students’ die de top 10% van hun jaar vormden. De groep sociale wetenschappen betrof vooral psychologiestudenten. Bij de raio’s ging het om afgestudeerde juristen, die een half tot een heel jaar in opleiding waren. De invloed van de rechtersopleiding was bij hen dus nog beperkt. 4.2 Twee deelexperimenten In het eerste deel van het experiment ging het puur om het beslissen op basis van gegeven bewijs. In het tweede deel ging het om het kiezen voor aanvullend onderzoek, leidend tot extra bewijs, bij te grote onzekerheid. Deel 1: meteen beslissen De computer bepaalde eerst voor ieder van de 30 casus willekeurig of de fictieve verdachte schuldig was of niet. Daarbij was gegeven dat de beide uitkomsten even veel voor moesten komen. Er was dus 50% kans dat de verdachte het misdrijf daadwerkelijk had begaan en dit was bekend bij de proefpersonen. Die kennis betekende dat als de deelnemers rationeel zouden handelen, zij (anders dan in de strafrechtelijke werkelijkheid) de a priori-kans op schuld op 50% zouden stellen.
25
rechtstreeks 2009-4 03-12-09 16:27 Pagina 26
rechtstreeks 4/2009 De opzet van het experiment
Figuur 2: Opzet van het experiment Computer bepaalt: verdachte is dader
Computer genereert onderzoeksuitslag met: hoge kans op belastend bewijs lage kans op ontlastend bewijs
Mens
Computer
beslist
checkt goed of fout
verdachte is onschuldig
lage kans op belastend bewijs hoge kans op ontlastend bewijs
beslist
checkt goed of fout
Hun informatie over de aanwezige bewijskracht kregen de deelnemers steeds uit drie typen (fictief) opsporingsonderzoek, die altijd resulteerden in hetzij belastend hetzij ontlastend bewijs. De mate waarin van het ene dan wel het andere sprake was, verschilde per bewijs en daarmee dus de bewijskracht. Omdat er drie typen onderzoek mogelijk waren met ieder twee uitkomsten, kwamen er zes verschillende soorten bewijs voor. Figuur 3 geeft deze zes typen schematisch weer, evenals de codenamen die zij hadden gekregen. Zoals gezegd werd daarbij bewust afgezien van enige feitelijke inkleuring van de onderzoeken en de daaraan te ontlenen bewijzen. De hiervoor noodzakelijke beschrijvingen zouden anders een oncontroleerbare invloed op de beslissingen van proefpersonen kunnen hebben. Figuur 3: Typen bewijsmiddelen Type onderzoek
Mogelijke uitkomst
Code in experiment
Kans op bewijs als de verdachte de dader is
Kans op bewijs als de verdachte niet de dader is
Bewijskracht
1
Belastend Ontlastend Belastend Ontlastend Belastend Ontlastend
1BEL 1ONT 2BEL 2ONT 3BEL 3ONT
84% 16% 64% 36% 60% 40%
36% 64% 16% 84% 40% 60%
84/36=2,33 16/64=0,25 64/16=4,00 36/84=0,43 60/40=1,50 40/60=0,66
2 3
Hoeveel bewijs in elke casus aanwezig was, of dat belastend of ontlastend was, en welke type onderzoek11 daarvoor had plaatsgevonden, dat alles was at random door de computer bepaald. Om dit toe te lichten kijken we naar één voorbeeldcasus. In die casus bepaalde de computer eerst dat de verdachte het misdrijf had begaan, en vervolgens dat er drie onderzoeken hadden plaatsgevonden, en wel één van type 1 en twee van type 2, en ten slotte dat het type 1-onderzoek en één van de type 2-onderzoeken belastend bewijs hadden opgeleverd en het andere 11 Van elk type onderzoek kunnen er meerdere plaatsvinden.
26
rechtstreeks 2009-4 03-12-09 16:27 Pagina 27
rechtstreeks 4/2009 De opzet van het experiment
type 2-onderzoek ontlastend bewijs. Dat de uitkomst van het type 1-onderzoek belastend was, had de computer met 84% kans ‘gekozen’. Dit percentage staat in de vierde kolom van figuur 3 bij onderzoek van type 1 in het geval de verdachte de dader is. (De computer had bij dit type onderzoek en feitelijke schuld van de verdachte dus ook met 16% kans op een ontlastend bewijs kunnen uitkomen.) Als de verdachte de dader was, was de kans dat er belastend bewijs werd gegenereerd uiteraard groter dan wanneer de verdachte onschuldig was. Op deze manier werd er in het experiment een variëteit aan exact te berekenen a posteriorikansen op schuld gegenereerd. Op basis van de aldus gegenereerde bewijsmiddelen moesten de deelnemers vervolgens tot veroordeling of vrijspraak beslissen. Ook werd hun gevraagd de kans op schuld te schatten. In het geschetste voorbeeld baseerden proefpersonen hun beslissingen tot veroordeling of vrijspraak op twee belastende bewijzen en één ontlastend bewijs. Voor die beslissingen kregen of verloren zij punten, waarvoor zij aan het eind werden uitbetaald. De toekenning van de punten vond daarbij plaats volgens het schema van figuur 1, waarbij de gewichten als volgt waren vastgesteld: a = d = 100; b = -1500; c = -300. Veroordeling van een onschuldige verdachte kreeg zo een hoge prijs. De keuze van de verschillende gewichten spoort met de analyse zoals die in paragraaf 2.4 is gemaakt.12 Volgens de in paragraaf 2.4 afgeleide beslisregel moest bij de aldus gekozen gewichten veroordeling plaatsvinden bij een a posteriori-kans op schuld hoger dan 80%. Deze grens, die aanzienlijk lager ligt dan in de praktijk van het strafrecht wordt gehanteerd (zie voetnoot 8) heeft een experimentele achtergrond13 en heeft geen praktische betekenis voor de resultaten.
12 Aan de precieze keuze van de gewichten hoeft overigens geen bijzondere betekenis te worden toegekend. Het gaat hier immers niet om de beslissingen van de proefpersonen als zodanig, maar om hun prestaties ten opzichte van de ‘optimale’ beslissingen. 13 Voor het observeren van het gedrag van proefpersonen zijn immers feitelijk alleen moeilijke casus met weinig of tegenstrijdig bewijs interessant. Als al het bewijs wijst in de richting van schuld of onschuld, zijn de daaropvolgende beslissingen triviaal. De aard van de onzekerheid in strafzaken, zoals tot uitdrukking is gebracht in het bovengeschetste kansmechanisme voor het genereren van de casus, is echter van dien aard dat moeilijke casus (gelukkig) weinig voorkwamen. Bij de gekozen gewichten zijn er van de 30 casus 9 te classificeren als moeilijk. Zou er dichter bij de praktijk zijn aangesloten, dan zou een veel groter aantal casus voorgelegd moeten zijn om toch nog een redelijk aantal moeilijke zaken te verkrijgen. Dat zou het uithoudingsvermogen van de proefpersonen hebben overstegen. Daarbij is vanuit wetenschappelijke integriteit en wegens de reputatiegevolgen voor andere experimenten ons uitgangspunt geweest dat proefpersonen er volledig op moesten kunnen vertrouwen dat het experiment geheel volgens de instructies werd uitgevoerd. Dit uitgangspunt sloot uit om alleen of vooral moeilijke zaken aan de proefpersonen voor te leggen.
27
rechtstreeks 2009-4 03-12-09 16:27 Pagina 28
rechtstreeks 4/2009 De opzet van het experiment
Deel 2: beslissen na zoeken In iedere casus kregen de proefpersonen in de tweede fase van het experiment slechts de uitkomst van één enkel onderzoek voorgelegd. Daarna konden zij tegen vaste kosten extra onderzoeken gelasten, tot een totaal van zeven (met inbegrip van de vooraf gegeven uitkomst van een onderzoek). Ter vereenvoudiging waren al die onderzoeken slechts van één type (figuur 3, type 2). De computer genereerde daarbij op dezelfde wijze als in het eerste deel de verschillende casus: eerst werd willekeurig in een casus bepaald of de verdachte het misdrijf al dan niet had begaan. En afhankelijk hiervan genereerde de computer dan de uitkomst van het eerste onderzoek: belastend of ontlastend bewijs. Vervolgens kreeg de deelnemer de keuze of hij in ruil voor tien punten een extra onderzoek wilde gelasten. Wilde hij geen onderzoek, dan vroeg de computer de deelnemer te beslissen: veroordeling of vrijspraak. Wilde hij wel een onderzoek, dan genereerde de computer op boven geschetste wijze nog een belastend of ontlastend bewijs en kreeg de deelnemer opnieuw de vraag gesteld of hij nu nog een onderzoek wilde. En zo maar door tot een maximum van zeven bewijzen. Ook hier werden de deelnemers aan het eind weer naar rato van hun prestaties beloond. Wat zijn nu de optimale beslissingen in dit experiment? In deze context is daar wel een simpele vuistregel voor te geven (zoek verder bij tegenstrijdig bewijs). Maar dat is nog niet hetzelfde als een precieze beslisregel. Hoelang moet gezocht worden? Die optimale beslissingen kunnen het best in een beslisboom worden weergegeven (figuur 4). Na ontvangst van een eerste bewijs, dat belastend of ontlastend is, staat de proefpersoon voor de keus extra onderzoeken te laten uitvoeren. De beslisboom geeft de mogelijke uitkomsten weer van de onderzoeken die achtereenvolgens uitgevoerd kunnen worden. Volgt bijvoorbeeld uit het eerste onderzoek een belastend bewijs (in de top van de boom), dan zijn na het tweede onderzoek de mogelijke uitkomsten (1) twee belastende bewijzen en (2) één belastend en één ontlastend bewijs. Op deze wijze kan de boom naar beneden gelezen worden. Als het vergaarde bewijs voldoende eenduidig is, is het voor een risiconeutrale beslisser optimaal niet alle mogelijkheden voor onderzoek uit te putten. Leveren de eerste drie onderzoeken drie belastende of drie ontlastende bewijzen op, dan is het niet rationeel nog verder onderzoek te doen en kan er vonnis worden gewezen. Leveren de onderzoeken aan de andere kant bewijzen op die met elkaar in tegenstrijd zijn, dan is het het beste al het mogelijke onderzoek te laten plaatsvinden. Alleen omdat het aantal mogelijke onderzoeken begrensd is, stopt de bewijsgaring en moet noodgedwongen vonnis gewezen worden. De rode kaders geven de bewijscombinaties weer waarbij het optimaal is te stoppen met onderzoek en vonnis te wijzen.
28
rechtstreeks 2009-4 03-12-09 16:27 Pagina 29
rechtstreeks 4/2009 De opzet van het experiment
Figuur 4: Beslisboom: de optimale strategie en uitkomsten bij ‘beslissen na zoeken’
0
20
30
40
50
60
70
60 1B
10 1B 20 1B
30 1B 40 1B
50 1B
2B
10 2B 20 2B
30 2B 40 2B
50 2B
B
10 1B 20 3B
30 3B 40 3B
3B
4B
10 4B 20 4B
30 4B
5B
10 5B 20 5B
6B
10 6B
7B
In de beslisboom wordt elke mogelijke combinatie van bewijsmiddelen voorgesteld door een vierkant. De pijlen geven de mogelijke uitkomsten van een extra onderzoek weer. De uitkomsten – belastend of ontlastend – worden aangeduid met corresponderende hoofdletters en pijlen: een belastend bewijsmiddel wordt aangeduid met een B en een pijl; een ontlastend bewijsmiddel met een O en een gebroken pijl. De combinaties van bewijsmiddelen waarbij het optimaal is om te beslissen zijn vet gedrukt. In de andere gevallen is het optimaal meer bewijs te verzamelen. De combinaties met een dikke, rode rand zijn de enige optimale beslissingen. Bijvoorbeeld: de beste beslissing bij vier ontlastende bewijsmiddelen (4O) is het vrijspreken van de verdachte, maar dit is, in termen van zoekstrategie, niet optimaal, omdat de deelnemer bij optimaal gedrag eerder had moeten stoppen en de verdachte had moeten vrijspreken bij drie ontlastende bewijsmiddelen (3O).
29
rechtstreeks 2009-4 03-12-09 16:27 Pagina 30
rechtstreeks 4/2009 De opzet van het experiment
We herinneren er hier nogmaals aan dat om de prestaties van rechters – hier: de deelnemers aan het experiment – bij besluitvorming onder onzekerheid te beoordelen, er een andere standaard nodig is dan de volledige afwezigheid van fouten. Immers, fouten zullen altijd worden gemaakt. Een reëlere hoge standaard is dan ook wat genoemd kan worden: de optimale beslissing onder volledige rationaliteit en risiconeutraliteit, gegeven redelijke drijfveren. In het navolgende zetten we de prestaties van de deelnemers aan het experiment steeds af tegen de standaard van optimaal gedrag onder volledige rationaliteit en risiconeutraliteit. Gelet op de vele afwijkingen van rationaliteit die we in de inleiding al hebben aangeduid, is te verwachten dat deze standaard in de praktijk niet gehaald zal worden. Redelijke drijfveren zijn in het experiment niet van belang, omdat de deelnemers deze door ons kregen ‘opgelegd’ in de vorm van de waardering van de mogelijke uitkomsten, maar in de praktijk ligt dit anders. Zou een rechter een extreem negatief gewicht toekennen aan het veroordelen van onschuldigen, dan zou hij uit angst voor deze fout waarschijnlijk nauwelijks tot veroordelingen komen en daarmee ernstig uit de pas raken met zijn collega’s en de verwachtingen die de samenleving van hem heeft.
30
rechtstreeks 2009-4 03-12-09 16:27 Pagina 31
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
5
De uitkomst van het experiment: het beslissen
5.1 De resultaten In het eerste deel van het experiment was het beschikbare bewijs gegeven en behoefden proefpersonen ‘slechts’ te beslissen over schuld of onschuld van de fictieve verdachten. Daarbij had in 50% van de zaken de verdachte het misdrijf waarvan hij beschuldigd werd begaan. Doordat de computer in een deel van de zaken weinig of tegenstrijdig bewijs genereerde en vanwege de hoge kosten van het veroordelen van een onschuldige verdachte (zie paragraaf 2.4), was het het beste slechts in ongeveer een kwart (27%) van de casus verdachten te veroordelen. Dit betekende dat in het experiment ook bij de best mogelijke (optimale) beslissingen veel van deze beslissingen achteraf fout zouden blijken te zijn. Maar dat waren dan wel bijna altijd fouten van het minder zware type (type 2), het vrijspreken van een schuldige verdachte. Bij deze optimale beslissingen zou in de dertig casus één onschuldige veroordeeld worden en zouden acht schuldigen worden vrijgesproken. Dit was dan ook de standaard waartegen we de beslissingen van de proefpersonen hebben afgemeten. In ons experiment bleken de meeste van de door de deelnemers genomen beslissingen optimaal te zijn: 83%. Dit resultaat oogt niet slecht. De deelnemers kwamen echter in 41% van de zaken tot een veroordeling. Dit percentage is veel hoger dan het percentage van 27% bij optimale beslissingen. Van de in totaal 1099 afwijkingen van optimale beslissingen leidde het merendeel (1015 ofwel 92%) tot fouten van de ernstigste soort: ongegronde veroordeling. Figuur 5 geeft het gemiddelde percentage veroordelingen per zaak, afgezet tegen de objectieve kans op schuld zoals die berekend kan worden.14 Perfect rationele en risiconeutrale deelnemers zouden alleen veroordelen in die acht zaken waarin de objectieve kans op schuld groter is dan (de in paragraaf 2.4 berekende drempel van) 80%. In het experiment vonden we dat 95% van de beslissingen van de proefpersonen in deze zaken veroordelingen waren. De fout van ongegronde vrijspraak was dus heel klein. Aan de andere extreme kant van de figuur, daar waar de objectieve kans op schuld 40% of minder was, werd slechts 4% van de verdachten feitelijk veroordeeld. Ook in dat gebied worden dus heel weinig fouten gemaakt. Echter, in een groot gebied waar het bewijs wees in de richting van schuld maar niet sterk genoeg was om op rationele gronden de verdachte te veroordelen – negen moeilijke zaken, 14 De objectieve kans wordt berekend met behulp van vergelijking (2) van box 6, gegeven de a priori-kansverhouding en de bewijskracht van de bewijsmiddelen conform figuur 3.
31
rechtstreeks 2009-4 03-12-09 16:27 Pagina 32
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
waarbij de kans op schuld tussen 40 en 80% ligt – werd te veel veroordeeld, namelijk in 48% van deze beslissingen. Figuur 5: Veroordelingen per zaak als percentage van alle beslissingen afgezet tegen de objectieve kans op schuld (n=30) 1
aandeel veroordelingen
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0
0,2
0,4
0,6
0,8
1
objectieve kans op schuld
In rood zijn de optimale beslissingen weergegeven, dat wil zeggen dat links van de roze lijn vrijspraak optimaal is, en rechts, bij een kans op schuld van 80% of hoger, een veroordeling.
In welke mate zijn beslissers nu in staat nauwkeurige beslissingen te nemen, bij gegeven bewijs en een gegeven waardering van de mogelijke uitkomsten? In antwoord op deze eerste onderzoeksvraag kunnen we nu constateren dat in moeilijke zaken de beslissingen van de deelnemers onnauwkeurig waren en dat daardoor veel meer fouten van het ernstigste type – type 1 – werden gemaakt dan optimaal is. Deze onnauwkeurigheid deed zich voor ondanks het eveneens belangrijke, maar hier niet geadstrueerde resultaat dat proefpersonen het verband tussen bewijs en (on)schuld goed begrepen.15 Hoe komt dat? Om de oorzaken te achterhalen van deze vele, ernstige fouten in moeilijke zaken moeten we nader kijken naar subjectieve schatting van de kans op schuld die de deelnemers in iedere zaak hebben gegeven, op basis van hun a priori-kans op schuld en het bewijs. Deze schatting zou sterk moeten correleren met de objectieve berekening van de 15 Alle relaties tussen bewijs en vonnis, zoals deze blijken uit de beslissingen van de deelnemers, wijzen kwalitatief in de juiste richting. Zo vergroot belastend bewijs steeds de kans op veroordeling en verlaagt ontlastend bewijs de kans. Sterker bewijs legt systematisch een groter gewicht in de schaal dan zwakker bewijs, zowel bij belastend als ontlastend bewijs. Ook is er geen neiging een verschillend gewicht toe te kennen aan belastend en ontlastend bewijs. Zie: Sonnemans & Van Dijk 2009.
32
rechtstreeks 2009-4 03-12-09 16:27 Pagina 33
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
kans op schuld op basis van dezelfde informatie. Die samenhang wisselde echter. De deelnemers zijn in drie categorieën te groeperen. Bij 54% van de deelnemers (categorie 1) is er een consistente samenhang; bij 30% van de deelnemers (categorie 2) is die samenhang minder goed, en bij 16% van de deelnemers (categorie 3) is die er helemaal niet. Slechts de helft van de deelnemers vormde dus op consistente wijze verwachtingen; bijna een derde deed dat niet systematisch en de resterende categorie redeneerde kennelijk op andere wijze. Hoe, dat valt niet te zeggen op grond van de verzamelde gegevens. Hiermee is meteen het antwoord op de tweede onderzoeksvraag gegeven. In welke mate redeneren beslissers bij hun beslissingen volgens de twee fasen die wij veronderstelden? Of komen zij eerder op intuïtieve wijze tot hun beslissingen? Het blijkt dat van de deelnemers 16% niet redeneerde van de inschatting van de kans op schuld naar het besluit tot een al dan niet bewezenverklaring, terwijl 30% van deelnemers dit denkmodel niet systematisch gebruikte. De derde onderzoeksvraag richt zich specifiek op de proefpersonen die wel volgens dit denkmodel redeneren en bestaat uit twee subvragen. De eerste betreft het eventuele verschil tussen de subjectieve inschatting van de kans op schuld en de objectieve kans op schuld. In overeenstemming met de eerder aangestipte literatuur bleek nu dat de subjectieve inschatting de bewijskracht onderschatte. Daardoor lag zowel bij belastend als bij ontlastend bewijs de inschatting van de kans op schuld te dicht bij 50%. Met behulp van regressieanalyse konden we voor de proefpersonen nagaan welke bewijskracht zij feitelijke toekenden aan de zes bewijsmiddelen die hen werden voorgelegd. Zie figuur 6. Figuur 6: Feitelijk door deelnemers toegekende, subjectieve bewijskracht en de objectieve bewijskracht16
Categorie
Alleen 1 (N=118)
1 en 2 (N=182)
Bewijsmiddel
Subjectieve bewijskracht
Objectieve bewijskracht
Subjectieve bewijskracht
Objectieve bewijskracht
1BEL 2BEL 3BEL 1ONT 2ONT 3ONT A priori-kansverhouding
2,02 3,00 1,36 0,49 0,56 0,70 0,85
2,33 4 1,5 0,25 0,43 0,67 1
1,95 2,84 1,31 0,60 0,68 0,74 0,80
2,33 4 1,5 0,25 0,43 0,67 1
16 Subjectieve bewijskracht is gebaseerd op logliniaire regressie van de subjectieve bewijskracht met als afhankelijke variabelen het aantal keren dat de typen bewijzen voorkomen. Gecorrigeerde R-kwadraat is, respectievelijk, 0,68 en 0,48.
33
rechtstreeks 2009-4 03-12-09 16:27 Pagina 34
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
Uit figuur 6 blijkt dat proefpersonen, voor zover zij een kwantitatieve schatting maakten van de kans op schuld, daarbij de kracht van het bewijs onderschatten, ongeacht of het bewijs belastend of ontlastend was. Uit de figuur blijkt bovendien dat ontlastend en belastend bewijs ongeveer gelijkelijk werden ondergewaardeerd. Hierop was alleen het ontlastende bewijs bij onderzoek van type 1 (1ONT) een uitzondering. Objectief neutrale combinaties van belastend en ontlastend bewijs (gecombineerde bewijskracht ligt in de buurt van 1) leidden tot subjectieve bewijskracht die ook dicht bij 1 ligt, zolang 1ONT geen deel uitmaakt van het bewijs. Zie bijvoorbeeld de neutrale combinatie van 1BEL en 2ONT en die van 3ONT en 3BEL. Ten slotte vonden we dat de subjectieve a priori-kansverhouding iets kleiner is dan 1. Dit betekent dat a priori de deelnemers de kans dat de verdachte schuldig was beschouwden als iets lager dan 50%, ongeveer 46% (44% voor categorieën 1 en 2 gezamelijk). Proefpersonen gedroegen zich op deze punten dus keurig rationeel. Kijken we nu naar de tweede stap in de redenering: de relatie tussen de subjectieve kans op schuld en de beslissing tot al dan niet schuldigverklaring. Voor iedere deelnemer hebben wij de drempel berekend die het beste past bij de gegevens. Gemiddeld lag die drempel niet bij 80%, maar bij 63%. In combinatie met de bevinding dat in 8 van de 9 moeilijke zaken de gemiddelde subjectieve kans op schuld lager was dan de objectieve kans op schuld – al ging het om een klein verschil – kunnen we hieruit concluderen dat het grote aantal ongegronde veroordelingen in ons experiment juist niet veroorzaakt werd door een foute, te hoge schatting van de kans op schuld, maar door foute beslissingen, gebaseerd op een te voorzichtige schatting van de kans op schuld. Deze uitkomst is niet gemakkelijk te verklaren. Het lijkt erop dat deelnemers zich bij hun uiteindelijke beslissingen te veel lieten leiden door de wetenschap dat in het experiment 50% van de beklaagden daadwerkelijk schuldig was, ondanks het redelijke beeld dat zij hadden van de a posteriori-kans op schuld. De druk die kennelijk uitgaat van de 50% komt dus niet tot uitdrukking in de inschatting van de kans op schuld, maar alleen in de beslissingen. Proefpersonen lijken grote moeite te hebben meer dan 50% van de verdachten vrij te spreken, met als gevolg dat veel onschuldigen werden veroordeeld. Omdat ook hun verdiensten daardoor sterk negatief werden beïnvloed, blijkt de beslissing tot veroordelen of vrijspreken – ook bij categorieën 1 en 2 – uiteindelijk niet op volledig rationele gronden te worden genomen. 5.2 De achtergrond van de proefpersonen Wat betreft de beantwoording van vraag 5, naar het verband met de achtergrond van de deelnemers, levert dit deel van het experiment een interessant resultaat. Er is geen verschil bij de inschatting van de kans op schuld tussen de verschillende categorieën deelnemers. Als het 34
rechtstreeks 2009-4 03-12-09 16:27 Pagina 35
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
gaat om het nemen van de goede beslissing presteerden rechtenstudenten echter wel slechter dan andere studenten.17 Daarbij is het verschil in prestaties tussen raio’s en rechtenstudenten statistisch niet van betekenis.18 Deze uitkomsten zijn opmerkelijk: nog minder dan de andere deelnemers onderkennen de juristen kennelijk de negatieve gevolgen van het veroordelen van onschuldige verdachten. Omdat de anderen ook veel fouten maken, is het echter geen oplossing om juristen dan maar door andere academici te vervangen.19 Figuur 7: Gemiddelde fout in de beoordeling van de kans op schuld en in de beslissing per zaak naar achtergrond van deelnemers Beoordeling kans op schuld
Beslissing
Studenten
Gemiddelde fout
N
Gemiddelde fout
N
Rechten Exacte wetenschappen Economie Andere sociale wetenschappen Raio’s
2,8 2,8 2,8 3,1 2,8
25 14 28 15 36
76,9 49,8 53,2 49,5 67,8
51 25 54 32 54
Totaal
2,8
118
61,5
216
Fout is in dit overzicht gedefinieerd respectievelijk als het verschil tussen de door proefpersonen gerapporteerde kans en de objectieve kans (in percentage) en als het verschil tussen de verwachte verdienste (in euro’s) van de feitelijke beslissingen en de verwachte opbrengst van optimale beslissingen. Voor de beoordeling van de kans op schuld zijn alleen deelnemers uit categorie 1 in de beschouwing betrokken.20
5.3 Conclusie Wat leert ons dit deel van het experiment? Het is duidelijk dat het denken in kansen niet gemakkelijk is voor de meeste mensen, ook als zij hoog zijn opgeleid. In moeilijke zaken worden veel ernstige fouten gemaakt. Slechts ongeveer de helft van de deelnemers (118) 17 Voor de vergelijking tussen rechtenstudenten enerzijds en respectievelijk de studenten exacte wetenschappen, economie en overige sociale wetenschappen is gebruikgemaakt van de 2-zijdige Mann Whitney-test p<0,05, p<0,01 en p<0,01. 18 De raio’s presteren significant slechter dan de studenten uit de exacte wetenschappen (p<0,06); de verschillen met de andere groepen zijn niet significant. 19 Ter zijde wordt opgemerkt dat de categorieën van deelnemers die we hierboven hebben geconstrueerd op basis van de consistentie van hun subjectieve inschatting van de kans op schuld ook geen verband houdt met de achtergrond van de deelnemers. 20 Het opnemen van categorie 2-deelnemers vergroot de fouten, maar leidt niet tot verandering in de verschillen tussen de disciplines van de subjecten.
35
rechtstreeks 2009-4 03-12-09 16:27 Pagina 36
rechtstreeks 4/2009 De uitkomst van het experiment: het beslissen
rapporteert op consistente wijze subjectieve kansen die redelijk zijn in het licht van het beschikbare bewijs. De andere deelnemers volgen niet of niet systematisch het rationele pad van bewijs via subjectieve kans naar beslissing, maar komen tot een beslissing op andere en noodzakelijkerwijs intuïtieve manieren. Wij hadden verwacht dat dit gedrag, dat verder verwijderd is van rationaliteit, tot minder nauwkeurige beslissingen leidt en dus tot lagere verdiensten. Hoewel er een verschil is in verdienste tussen de drie categorieën deelnemers (gemiddelde beslisfout is 54, 65 en 80 cent), is het verschil verre van statistisch significant. De deelnemers in categorieën 2 en 3 begrijpen kennelijk het karakter van het bewijs en nemen redelijke beslissingen, maar zij doen dat niet op de manier van rationele besluitvorming: eerst de subjectieve kans op schuld bepalen en dan beslissen. Tegelijk bepalen de deelnemers in categorie 1 wel op consistente wijze de kans op schuld, wat een hele prestatie is, maar raken vervolgens van het pad door zich daardoor in hun beslissingen niet te laten leiden. Preciezer: deze deelnemers onderschatten de sterkte van het bewijs, waardoor hun subjectieve inschatting van de kans op schuld een afwijking heeft in de richting van neutraliteit. Voor de belangrijke groep van zaken met bewijs dat wijst in de richting van schuld (gecombineerde bewijskracht groter dan 1) betekent dit een onderschatting van de kans op schuld. Als de deelnemers hun verdienste proberen te maximaliseren, zouden te weinig veroordelingen het gevolg zijn. Hun drempel voor veroordeling is echter lager dan 80%, en dit biedt overcompensatie van de onderschatting van de kans op schuld. Het nettoresultaat is dan ook voor hen dat te veel verdachten veroordeeld worden.
36
rechtstreeks 2009-4 03-12-09 16:27 Pagina 37
rechtstreeks 4/2009 De uitkomst van het experiment: het effect van nader onderzoek
6
De uitkomst van het experiment: het effect van nader onderzoek
6.1 De resultaten In het tweede deel van het experiment konden de deelnemers (fictieve) nadere onderzoeken doen plaatsvinden en daardoor extra bewijs vergaren. Daarbij gaat het weer om de analyse van beslissingen in onzekere situaties en de daarbij gemaakte fouten, maar dit zoekgedrag is een nieuw element. Nu gaat het om het al dan niet laten doen van nader onderzoek als potentiële bron van fouten. Waarbij we ook hier kijken naar de verschillende achtergronden van deelnemers. In de 30 casus die aan de deelnemers werden voorgelegd waren, door toeval bepaald, 13 verdachten tevoren als schuldig en 17 als onschuldig gedefinieerd. Dat wil zeggen dat 43% schuldig was. In de gekozen opzet is het optimaal om 5,3 bewijzen te verzamelen. De hierbij behorende, optimale vonnissen, zoals een rationele, risiconeutrale beslisser die zou wijzen, zouden dan resulteren in de veroordeling van 12 verdachten (40% van de zaken) en de vrijspraak van 18 verdachten. Daarbij zouden drie verdachten ten onrechte worden veroordeeld en vier verdachten ten onrechte worden vrijgesproken. Dit mechanisme leidt (bij optimale beslissingen) dus vooral tot minder fouten van de ergste soort dan in deel 1 van het experiment. Dat komt, omdat in deel 1 gemiddeld minder informatie beschikbaar is: 4,3 bewijzen. De deelnemers bleken verdachten in 41% van de zaken te veroordelen. Dit betekent dat er bij de proefpersonen geen algemene tendens was om te weinig of te veel verdachten te veroordelen. Zij doen dat echter vaak zonder voldoende bewijs te verzamelen. Waar de optimale beslisser gemiddeld 5,3 bewijsmiddelen zou opvragen, gebruikten de deelnemers aan ons experiment gemiddeld slechts 4,4 bewijzen. Dit betekent dat deelnemers hun beslissingen op te weinig informatie baseren. De gevolgen voor de nauwkeurigheid van hun beslissingen zijn groot. Dat wordt in ons experiment geïllustreerd door de verdiensten die de deelnemers hadden. De gemiddelde verdienste per zaak zou voor de optimale beslisser ongeveer 67 cent bedragen, maar de gemiddelde opbrengst van de deelnemers bedroeg slechts 17 cent.21 Ook blijkt de variatie in verdienste enorm: 23% van de deelnemers realiseerde zelfs een negatieve opbrengst.
21 In deze paragraaf wordt steeds uitgegaan van de verwachte opbrengst per zaak over de beide mogelijke situaties (schuld en onschuld van de verdachte). De feitelijke opbrengst heeft een toevallig karakter en is daarom geen juiste maatstaf.
37
rechtstreeks 2009-4 03-12-09 16:27 Pagina 38
rechtstreeks 4/2009 De uitkomst van het experiment: het effect van nader onderzoek
Er zijn twee soorten fouten die deelnemers kunnen maken. In de eerste plaats kunnen zij te veel of te weinig bewijs verzamelen. In de tweede plaats kunnen zij foute beslissingen nemen op basis van het bewijs dat zij hebben verzameld. Laten we eerst het verzamelde bewijs vergelijken met de optimale omvang van het bewijs. Figuur 8 laat zien dat bij de meeste beslissingen (53%) de deelnemers te vroeg stopten met zoeken, bij 29% van de beslissingen stopten ze precies op het goede moment en in 18% werd te veel bewijs verzameld. Deze uitkomst komt overeen met onderzoek naar sequentieel zoeken op andere terreinen. Figuur 8 werpt ook licht op het gevolg van deze beslissingen. Als de optimale hoeveelheid bewijs werd verzameld, waren de daaropvolgende beslissingen ten aanzien van de schuldig verklaring ook bijna altijd de optimale, namelijk in 95% van die beslissingen. Werd te veel bewijs verzameld, dan waren 88% van de daaropvolgende beslissingen de beste die gegeven het verzamelde bewijs genomen konden worden. Van de fouten die de betreffende deelnemers maakten bestond dan ongeveer 60% uit ongegronde vrijspraken en 40% uit ongegronde veroordelingen. Dit suggereert dat deze deelnemers graag aan de veilige kant wilden blijven: zij verzamelden meer informatie dan optimaal en spraken relatief vaak vrij. De meeste fouten – en de ernstigste – werden, zoals verwacht mocht worden, gemaakt door deelnemers die te weinig nader onderzoek lieten doen. Slechts in 74% van hun beslissingen werd de optimale beslissing genomen. Bovendien was er bij hen een duidelijke afwijking in de richting van ongegronde veroordeling. Die volgde in 56% van de foute beslissingen. Figuur 8: De juistheid van de beslissing naar de verzamelde hoeveelheid bewijs De juistheid van de beslissing is gebaseerd op het feitelijk verzamelde bewijs 4000
aantal beslissingen
3500 Juiste veroordeling
3000
Juiste vrijspraak Onjuiste veroordeling
2500
Onjuiste vrijspraak 2000 1500 1000 500 0 Te weinig
Correct hoeveelheid informatie
38
Te veel
rechtstreeks 2009-4 03-12-09 16:27 Pagina 39
rechtstreeks 4/2009 De uitkomst van het experiment: het effect van nader onderzoek
Er zijn grote verschillen in de gevolgen van mogelijke fouten. Als er met nader onderzoek gestopt wordt na twee ontlastende bewijzen en de verdachte wordt daarop ten onrechte vrijgesproken, dan zijn de kosten voor de proefpersoon minimaal (ongeveer 2 cent). Maar als er bijvoorbeeld gestopt wordt na twee belastende bewijzen en de verdachte wordt ten onrechte veroordeeld, dan waren de kosten ‘hoog’ (ongeveer 30 cent). Om zicht te krijgen op de feitelijke ernst van zoek- en beslisfouten, kwantificeerden we beide soorten fouten in termen van de opbrengst die de proefpersonen hierdoor mislopen. De ‘zoekfout’ is dan de opbrengst van de optimale zoekstrategie minus de opbrengst van de optimale beslissing gegeven het feitelijk verzamelde bewijs. De ‘beslisfout’ is het verschil tussen de opbrengst van de optimale beslissing gegeven het feitelijk verzamelde bewijs en de opbrengst van de feitelijke beslissing. De som van beide fouten is de ‘totale fout’. Wat we vonden was dat de bewijsfout en de beslisfout ongeveer dezelfde grootte hadden. Zie figuur 9. Deze figuur toont bovendien de fouten voor de deelnemers met verschillende achtergronden. Hoewel de beslisfout en de totale fout van de rechtenstudenten groter lijken dan die van de studenten in de exacte wetenschappen, zijn de verschillen niet significant. Ook de score van de raio’s verschilt niet van die van de andere groepen. Figuur 9: Gemiddelde bewijs- en beslisfout (in centen per zaak) naar achtergrond van de deelnemers Deelnemers
Zoekfout
Beslisfout
Totale fout
N
Rechten Exacte wetenschappen Economie Andere sociale wetenschappen Raio’s
22 21 23 30 25
30 21 24 28 21
52 42 47 57 45
51 25 54 32 53
Totaal
24
25
49
215
De beslisfout is opvallend groot. Gegeven het beschikbare bewijs was 17% van de beslissingen fout. Dit percentage is hoog als het vergeleken wordt met het percentage foute beslissingen in het eerste deel van het experiment: eveneens 17%. Als deelnemers een beslissing immers moeilijk vonden, hadden zij in dit deel van het experiment de mogelijkheid meer onderzoek te laten uitvoeren. Dat zou leiden tot meer bewijs en dus tot betere beslissingen. De beslisfouten waren in dit laatste deel wel gemiddeld minder ernstig dan in deel 1. In deel 2 kwamen de ongegronde vrijspraak en de ongegronde veroordeling ongeveer even vaak voor, terwijl in deel 1 verreweg de meeste fouten ongegronde veroordelingen betroffen. Dit heeft de gemiddelde kosten van de beslisfouten met meer dan de helft verlaagd. 39
rechtstreeks 2009-4 03-12-09 16:27 Pagina 40
rechtstreeks 4/2009 De uitkomst van het experiment: het effect van nader onderzoek
6.2 Conclusie De vierde onderzoeksvraag die wij in paragraaf 3 hebben geformuleerd, betrof de mate waarin beslissers optimaal gebruikmaken van de mogelijkheid nader onderzoek te gelasten. Het antwoord is eenduidig: zij maken onvoldoende gebruik van deze mogelijkheid en dat veroorzaakt meer fouten dan mogelijk is bij optimale beslissingen. Wel is het zo dat de fouten die de deelnemers maken minder ernstig zijn dan de fouten die in het eerste deel worden gemaakt. Ook in dit deel van het experiment hebben we ter beantwoording van de vijfde onderzoeksvraag onderzocht of de achtergrond van de proefpersonen van belang is. Wij vinden geen significante verschillen tussen juristen en deelnemers uit andere disciplines.
40
rechtstreeks 2009-4 03-12-09 16:27 Pagina 41
rechtstreeks 4/2009 Samenvatting en relevantie voor de praktijk
7
Samenvatting en relevantie voor de praktijk
7.1 Vijf vragen beantwoord Wat wij in ons onderzoek in de eerste plaats te weten wilden komen, was in welke mate beslissers in staat zijn nauwkeurige beslissingen te nemen, bij voor hen gegeven bewijs en gegeven hun waardering van de gevolgen van hun mogelijke beslissingen. Het antwoord op deze vraag is ondubbelzinnig: in moeilijke zaken met weinig en/of tegenstrijdig bewijs zijn beslissingen onnauwkeurig. De fouten die gemaakt werden, waren daarbij overwegend van het ernstigste type: onterechte veroordelingen. Doordat het overgrote deel van de zaken die wij voorlegden eenvoudig was, verdoezelt het hoge percentage optimale beslissingen (86%) deze uitkomsten. In de dagelijkse strafrechtpraktijk zal zich ditzelfde verschijnsel kunnen voordoen, omdat daar in nog veel grotere mate de eenvoudige zaken zullen overheersen. Deze gebleken onnauwkeurigheid deed zich voor ondanks het – belangrijke – resultaat dat de proefpersonen er blijk van gaven de betekenis van bewijs – het ontlastende zowel als het belastende – voor de beoordeling van de kans op schuld goed te begrijpen. De basale afwegingen die moesten worden gemaakt werden goed begrepen, maar ze werden onnauwkeurig toegepast. Een tweede vraag richtte zich op de wijze waarop deelnemers tot hun beslissingen komen. Redeneren beslissers volgens de stappen die een rationele benadering vereist? In concreto: vormen zij zich eerst een oordeel over de kans op schuld en baseren zij daarop hun beslissing of gaan ze op intuïtieve wijze te werk? Wij vonden dat slechts de helft van de deelnemers op consistente wijze een schatting van de kans op schuld maakte. 16% van de deelnemers maakte geen consistente kwantitatieve inschatting van de kans op schuld en kon het oordeel daar dus niet op baseren. De resterende 30% nam een tussenpositie in: de consistentie is onvolledig. De beslisfouten verschilden overigens niet significant tussen deze groepen. Hierna gaan we in op de oorzaak. De derde vraag beperkte zich tot de deelnemers die minimaal een zekere mate van consistentie tentoonspreidden ten aanzien van hun inschatting van de kans op schuld en richtte zich op hun denkproces. Wat we hier vonden was in overeenstemming met eerder onderzoek: deelnemers onderschatten de sterkte van het bewijs, of dit nu belastend of ontlastend was. In de casus waarbij het belastend bewijs overheerste, had dit moeten leiden tot te veel vrijspraken. Deze deelnemers veroordeelden verdachten echter systematisch bij een lagere kans op schuld dan een rationele aanpak zou vergen. Dit laatste effect overtrof het eerste en maakte dat deze deelnemers te veel veroordelingen uitspraken. Het lijkt erop dat deelnemers zich bij hun uiteindelijke beslissingen hier te veel hebben laten leiden door de wetenschap dat in het experiment 50% van de beklaagden daadwerkelijk 41
rechtstreeks 2009-4 03-12-09 16:27 Pagina 42
rechtstreeks 4/2009 Samenvatting en relevantie voor de praktijk
schuldig was, ook al hadden ze een redelijk beeld van hun (a posteriori) kans op schuld. Als men weet dat 50% van de verdachten schuldig moet zijn, streeft men er kennelijk ook naar bij het vonnissen in de buurt van dit percentage uit te komen. Kortom, ook hier is de beslissing tot veroordelen of vrijspreken niet volledig op rationele gronden genomen. De deelnemers zaten op het ‘goede’ pad, maar zij lieten zich daarvan afbrengen bij hun uiteindelijke beslissingen. De voorgaande vragen gingen uit van een gegeven hoeveelheid bewijs, op basis waarvan beslissingen genomen moesten worden. Deze experimentele situatie doet echter niet volledig recht aan ons rechtsstelsel, waarin de rechter de bevoegdheid heeft nader onderzoek te gelasten. Daarom hebben we daar nog apart naar gekeken in het tweede deel van het experiment. Als vierde vraag wilden we weten of deelnemers die extra bewijs kunnen verkrijgen, daarvan ook op optimale wijze gebruik zouden maken. In overeenstemming met de economische experimentele literatuur over sequentieel zoekgedrag vonden we dat deelnemers aan het experiment te weinig onderzoek lieten doen. Zij verzamelden te weinig informatie en maakten daardoor veel fouten. Een belangrijk verschil met de fouten gemaakt in het eerste deel was echter dat deze fouten minder ernstig waren. Het aantal ongegronde veroordelingen was ongeveer gelijk aan het aantal ongegronde vrijspraken. De afwijkingen ten opzichte van optimale beslissingen werden ruwweg gelijkelijk veroorzaakt doordat deelnemers te weinig bewijs verzamelden en doordat zij foute beslissingen namen op basis van het bewijs dat zij hadden verzameld. De vijfde vraag betrof de kwestie of de disciplinaire achtergrond van personen invloed heeft op het beslissingsgedrag en het zoekgedrag. In het eerste deel van het experiment bleek dat rechtenstudenten slechter presteren dan de andere studenten en dat ook raio’s het niet beter doen. De juristen schatten daarbij niet de kans op schuld slechter in dan de andere studenten, maar zij spreken te snel het schuldig uit, gegeven hun subjectieve inschatting van de kans op schuld. Het is echter bepaald niet zo dat de andere deelnemers goed presteren: zij benaderen evenmin het maximaal bereikbare prestatieniveau. In het tweede deel van het experiment bleken geen significante verschillen op te treden tussen de verschillende deelnemersgroepen. 7.2 Deskundige rechtspraak In ons experiment hebben we de taak van de rechter onderzocht vanuit een specifiek perspectief: het rationeel omgaan met onzekerheid. Het werk van de rechter is echter veel rijker dan alleen maar statistisch redeneren en vraagt ook veel meer vaardigheden. Niettemin, onzekerheid is een zo fundamenteel gegeven in de strafpraktijk (en ook in andere rechtsgebieden) dat zonder een competente benadering van onzekerheid andere vaardigheden veel van hun relevantie kunnen verliezen. 42
rechtstreeks 2009-4 03-12-09 16:27 Pagina 43
rechtstreeks 4/2009 Samenvatting en relevantie voor de praktijk
Ook kan gesteld worden dat de abstractie in ons onderzoek generalisering van de uitkomsten in de weg kan staan. Experimentele methoden richten zich echter op basismechanismen. Om die bloot te leggen moet de complexiteit van de praktijk gereduceerd worden. Dit is de zwakte maar tegelijk ook de sterkte van deze methoden. In het onderhavige exploratieve onderzoek is de abstractie ver doorgevoerd, maar dit kan hooguit reden zijn voor vervolgonderzoek dat dichter aansluit bij de praktijk. Een andere tegenwerping zou kunnen zijn dat wij het experiment niet hebben gedaan met ervaren strafrechters. Of daarom de bevindingen minder relevant zijn, valt echter niet zonder meer te beamen. Enerzijds is er geen reden aan te nemen dat zij in aanleg zullen verschillen van de proefpersonen uit de juridische hoek. Rechters worden immers uit deze groep van getalenteerde juristen (honors studenten en raio’s) gerekruteerd. Anderzijds kan men veronderstellen dat hun gerichte opleiding en ervaring in hun geval tot betere prestaties leiden. De aandacht voor de statistische benadering van onzekerheid – Bayesiaans redeneren – neemt onder rechters immers onmiskenbaar toe. Tegelijk moet echter ook geconstateerd worden dat deze benadering zeker nog niet prominent is en dat er nog heel verschillend wordt gedacht over de wenselijke rol van de rechter op dit terrein. Ondanks deze kanttekeningen menen wij dan ook dat de resultaten van ons onderzoek zo duidelijk zijn dat deze niet terzijde gelegd kunnen worden. Integendeel, de implicaties ervan raken aan de eerste prioriteit van de Agenda van de Rechtspraak 2008-2011: deskundige rechtspraak. Ons experiment heeft laten zien dat, hoewel de deelnemers de onderliggende principes begrijpen, de meesten van hen de kennis en vaardigheden missen om die principes nauwkeurig toe te passen bij moeilijke zaken. De conclusie lijkt dan ook gerechtvaardigd dat zelfs hoogopgeleide mensen veel training moeten hebben om op correcte wijze met onzekerheid om te gaan. Veel deelnemers blijken op een intuïtieve manier beslissingen te nemen, waardoor veel fouten ontstaan. In moeilijke zaken zijn beslissingen niet nauwkeurig. Er worden veel fouten gemaakt, met hoge kosten als gevolg. In het experiment zijn deze kosten materieel. In de praktijk van de rechtspraak zouden deze materieel en immaterieel zijn en in ieder geval veel ernstiger. Dat in de praktijk de overgrote meerderheid van zaken eenvoudig is en er dus op het totale aantal zaken betrekkelijk weinig fouten zullen worden gemaakt, is geen argument om te accepteren dat, als het erom spant, beslissingen vaak fout zouden kunnen zijn. Het grote aantal eenvoudige zaken is inherent aan de materie: consistent bewijs komt vaker voor dan tegenstrijdig bewijs. Enigszins provocerend menen wij dat in ieder geval de behandeling van strafzaken, in het bijzonder de ‘moeilijke’ zaken, op andere leest geschoeid zal moeten worden. De kwalitatieve traditie van juridische besluitvorming zal steeds minder gaan voldoen, en deze zal op 43
rechtstreeks 2009-4 03-12-09 16:27 Pagina 44
rechtstreeks 4/2009 Samenvatting en relevantie voor de praktijk
enig moment aangevuld moeten worden met een meer kwantitatieve, op kansrekening gebaseerde benadering. Daarbij zal het model van rationele besluitvorming onder onzekerheid, zoals hier gepresenteerd, expliciet door hierin geschoolde juristen moeten worden toegepast, waar nodig ondersteund door specialisten uit andere disciplines, zoals statistici. Hun aandacht dient hierbij bepaald niet alleen uit te gaan naar kansrekening. De rechtelijke oordeelsvorming valt of staat met de volledigheid van het bewijs. Bij de opzet van het experiment is er dan ook van uitgegaan dat het dossier van een strafzaak een volledig inzicht geeft in de uitkomsten van het opsporingsonderzoek. Ook onderzoek met negatief resultaat is immers informatief: het biedt doorgaans ontlastend bewijs. De meest geavanceerde toepassing van statistiek leidt niet tot minder fouten zolang niet de volledige presentatie van het bewijs is gewaarborgd. Interessant is verder dat in het experiment is onderzocht hoe deelnemers omgaan met de mogelijkheid extra onderzoek te laten plaatsvinden en zodoende meer bewijs te vergaren. Van deze mogelijkheid blijkt veel te weinig gebruik te worden gemaakt. Daardoor ontstaan er onnodig veel fouten. Aan de andere kant zijn er ook deelnemers die juist méér onderzoek laten doen dan optimaal: zij zijn te voorzichtig, en het opmerkelijke is dat zij ook daardoor meer fouten maken dan degenen die precies optimaal onderzoek laten doen. Dit is een materie die evenzeer onze aandacht behoeft. Wij merken in dit verband nog op dat vaak wordt gesteld dat de rechter niet de kennis van de getuige-deskundige hoeft te hebben, maar hem wel kritisch moet kunnen bevragen. Naar onze mening is op sommige terreinen echter meer nodig. De rechter moet uiteindelijk zelf vaststellen welke standaarden gelden voor (politie)onderzoek, (forensisch) bewijs en de presentatie daarvan. Daarmee komt de rechter boven de deskundige te staan als het gaat om algemene aspecten van methoden van onderzoek, inclusief statistiek. Hij heeft daarvoor extra kennis nodig, om te voorkomen dat zittingen in verwarring over cijfers verzanden, en in onzekerheid over de berekeningen daarachter. Met onze bijdrage hebben we de door ons voorgestane, alternatieve benadering inzichtelijk willen maken. Het hoeft geen betoog dat, als deze richting wordt ingeslagen, nuancering en verdieping van deze aanpak vanzelf aan bod komen. Ook komen er dan moeilijke vragen aan de orde, zoals de vraag wanneer schuld nu ‘overtuigend bewezen’ mag worden geacht. De geschetste benadering biedt naar onze overtuiging de mogelijkheid om op dit cruciale punt, vanuit het belang van de rechtseenheid, tot een objectivering te komen. Dit levert dan tevens de mogelijkheid tot een meer publieke verantwoording te komen en een discussie over dergelijke vraagstukken. Publiek en media lijken nu grotendeels nog in de verwachting of hoop te leven dat de rechter onfeilbaar is. Juist een discussie over de onmogelijkheid om fouten van het eerste en tweede type tegelijkertijd volledig te vermijden en de afwegingen van de rechter daarbij kan bijdragen aan meer realistische verwachtingen 44
rechtstreeks 2009-4 03-12-09 16:27 Pagina 45
rechtstreeks 4/2009 Samenvatting en relevantie voor de praktijk
op dit gebied. Al blijft het een netelige kwestie wat de normen bij die afwegingen zouden moeten zijn. Tot slot: ons experiment laat zien dat ook de beste juristen in opleiding niet goed zijn in het beslissen onder onzekerheid. Maar anderen, ook hoogopgeleid maar dan in andere disciplines, maken eveneens veel fouten. De oplossing van de problemen ligt dus niet in het vervangen van juristen door academici uit andere disciplines, laat staan door leken in het algemeen, zelfs niet als we het belang van de juiste toepassing van het recht daarbij buiten beschouwing zouden laten. Het is noodzakelijk dat iedere rechter de basiskennis verwerft van de besluitvorming onder onzekerheid, en weet hoe hij onzekerheid kan reduceren. De weerstand die juristen hier en daar nog tegen cijfers hebben, zou snel mogen verdwijnen: na de calculerende burger is het tijd voor de calculerende rechter. Iudex calculat.
45
rechtstreeks 2009-4 03-12-09 16:27 Pagina 46
rechtstreeks 4/2009 Literatuur
Literatuur Barnett, V. (1999), Comparative statistical inference. Chichester: John Wiley & Sons Ltd. Croes, M.T., Elffers, H. & Klijn, A. (2008), Leken en strafrechters vergeleken. Wagenaars raadkameronderzoek en de discussie over punitiviteit en lekeninbreng. Rechtstreeks, nr. 3, Den Haag: Sdu Uitgevers. Crombach, H.F.M., Koppen, P.J. van & Wagenaar, W.A. (1992/2006), Dubieuze zaken. Amsterdam: Contact. Dam, P. van, Bauw, E. & Dijk, F. van (2009), Verkenning empirisch-wetenschappelijke orientatie van de rechter. Den Haag: Raad voor de rechtspraak. Derkx, H.P.Th. (2008), For your ears only. Quality of telephone triage at out-of-hours centres in the Netherlands. Maastricht: proefschrift Universiteit van Maastricht (uitgave in eigen beheer). Dubelaar, M.J. (2009), Betrouwbaarheid versus rechtmatigheid in strafzaken. Themis 2009, 3, p. 93-105. Giard, R. & Merckelbach, H. (2009), Nietzsches gelijk: waarom wijsheid achteraf onbillijk is. NJB 2009, p. 1014-1021. Guthrie, C., Rachlinski, J.J. & Wistrich, A.J. (2001), Inside the judicial mind. Cornell Law Review, 93, p. 1-43. Guthrie, C., Rachlinski, J.J. & Wistrich A.J. (2007), Blinking on the bench: how judges decide cases. Cornell Law Review, 86, p. 777-830. Hartendorp, R. (2008), Alledaagse rechtspraak: een pragmatische kijk op oordeelsvorming. Rechtstreeks, nr. 2, Den Haag: Sdu. Heide, W. van der, Tulder, F. van & Wiebrens, C. (2007), Strafrechter en strafketen: de gang van de zaken, 1995-2006. Rechtstreeks nr. 3, Den Haag: Sdu Uitgevers. Keijser, J.W. de & Koppen, P.J. van (2004), Compensatoir straffen: over de relatie tussen bewijs, overtuiging en straf, in: De Keijser, J.W. & Elffers, H. (red), Het maatschappelijk oordeel van de strafrechter. De wisselwerking tussen rechter en samenleving. Den Haag: Boom Juridische uitgevers, p. 133-183. Kerkmeester, H.O. (2005), Het gebruik van Bayesiaanse statistiek in strafprocessen, in: Sjerps, M.J. & Coster van Voorhout, J.A. (red.), Het onzekere bewijs. Gebruik van statistiek en kansrekening in strafrecht. Deventer: Kluwer, p. 99-129. Koelewijn, R. & Rosenberg, E. (2008), ‘Hoogleraren beginnen zich meer en meer in rechtszaken te mengen. Eerst nieuwsgierig, dan wantrouwend en dan boos’, NRC Handelsblad 24-05-2008. Meester, R., Collins, M., Gill, R. & Lambalgen, M. van (2006), On the (ab)use of statistics in the legal case against the nurse Lucia de B. Law, Probability and Risk, 5, p. 233-250. NFI (2007), Vakbijlage. Reeks waarschijnlijkheidstermen. September 2007. Den Haag: NFI. Nijboer, J.F. (2000), Strafrechtelijk bewijsrecht. Nijmegen: Ars Aequi.
46
rechtstreeks 2009-4 03-12-09 16:27 Pagina 47
rechtstreeks 4/2009 Literatuur
Rassin, E. (2008), Tussen sofa en toga. Een inleiding in de rechtspsychologie, Den Haag: Boom Juridische uitgevers. Sonnemans, J. & Dijk, F. van (2009), Errors in judicial decisions: experimental results. In voorbereiding. Zie www.rechtspraak.nl. Sonnemans, J. (1998), Strategies of Search. Journal of Economic Behavior and Organization, 35, p. 309-332. Tak, P.J.P. & Fiselier, J.P.S. (2002), Duitsland-Nederland en de afdoening van strafzaken. Nijmegen: Wolf Legal Publishers. Thompson, W.C. & Schumann, E.L. (1987), Interpretation of statistical evidence in criminal trials. Law and Human Behavior, 11, p. 167-187. Wagenaar, W.A. (2008), Strafrechtelijke oordelen van rechters en leken. Bewijsbeslissingen, straffen en hun argumentatie. Research memoranda, jrg. 4, nr. 2. Den Haag: Raad voor de rechtspraak. Way, V. (2003), Judicial fact-finding by judges alone in serious criminal cases. Melbourne University Law Review, 27, 2, p. 423-457.
47