Úvod do inferenční logiky pro interpretaci forenzních (forenzněgenetických) důkazů Nejistota ve forenzních vědách „Nejistota není příjemný stav, ale naprostá určitost je zcela absurdní.” Francois Marie (Arouet) Voltaire V posledních desetiletích forenzní věda prožívá velké změny, hlavně díky rychlému vývoji v oblasti forenzní genetiky. Dříve byly pokusy, usvědčující nebo naopak zprošťující podezřelého viny, prováděny přímo v soudní síni pro lepší názornost a efekt. V roce 1986 byl poprvé použit DNA důkaz v případu vraždy dvou mladých žen v hrabství Leicestershire ve Velké Británii. Pomocí hromadného odběru vzorků DNA u cca 5000 mužů byla identifikována shoda mezi vzorkem z místa činu a vzorkem Colina Pitchforka, který byl později odsouzen (Goodwin, 2011). Dalším velkým milníkem ve forenzní genetice byl objev polymerázové řetězové reakce (PCR), který podstatně snížil požadavky na vstupní množství DNA. Objev nových DNA markerů a pufrů umožnilo analýzu degradované DNA z kostní tkáně. Dnes jsou vyřešeny případy, které byly původně odloženy kvůli nedostatku důkazů, konkrétně nedostatku genetického materiálu pro provedení DNA analýzy. V populární knize o životě Steva Jobse se můžeme dočíst, že byl usvědčen z otcovství na základě posudku, jehož výsledkem byla 94,41% pravděpodobnost otcovství. Dnes by byla tato pravděpodobnost pro přiznání otcovství nedostatečnou. Pokrok jak ve výzkumu, tak i v laboratorní technice, dovoluje v současné době úspěšně analyzovat DNA jenom z jedné buňky. Použití vhodných metodických postupů a DNA markerů může pomoci identifikovat osoby ze vzorku směsi DNA několika osob. Lze říci, že metodická stránka forenzní genetiky se pomalu stává rutinní záležitostí. Kromě toho je metodika analýzy nukleových kyselin důkladně probírána během vysokoškolského vzdělání v molekulární biologii a genetice. Ovšem kromě metodické části existuje ještě jedna, neméně důležitá část – interpretace získaných výsledků. Ne nadarmo jsou jedním ze symbolů spravedlnosti váhy. Všem výsledkům, které získáme pomocí genetické analýzy, musíme přiřadit nějakou hodnotu neboli váhu. Tato váha záleží na použité metodice a detailech případu a může být jak slovní, tak i číselná. Protože je snahou, aby rozhodnutí soudce, založené na důkazním materiálu, bylo spravedlivé, musíme postup přiřazení váhy získaným výsledkům racionálně standardizovat. Takovýmto postupem je logické uvažování. Možných způsobů logického uvažování je několik, my se budeme zabývat způsoby, které využívají statistické a genetické modely. Právě díky biologické povaze genetických markerů, metodickým postupům, logickému a racionálnímu uvažování a následné statistické analýze dat je genetický důkazní materiál často velmi silným důkazem. Je to mocná, a tedy i velmi nebezpečná zbraň. Proto je potřeba důkladně rozumět jak metodické, tak i interpretační stránce. Existuje obecný názor, že statistika je těžko pochopitelná a vyžaduje dobrý matematický základ. Toto tvrzení je pravdivé jen zčásti. Jedním z hlavních kroků pro snadné používání forenzní statistiky je naučit se logicky uvažovat při interpretaci důkazů. Způsobů takového uvažování je hodně a neexistuje žádný „jediný správný“. Důležité ale je, aby 1
forenzní znalec neporušil pravidla inferenční logiky a byl schopen odůvodnit svůj vybraný způsob. Pokusím se zčásti popsat jeden, z mého pohledu nejpřirozenější a ve forenzních vědách nejrozšířenější, způsob uvažování. Žijeme ve 21. století a je jasné, že doby výpočtů s použitím papíru a tužky jsou pryč. Proto není třeba - a ani to není v silách forenzního znalce - umět odvodit vzorec pro každý případ. Je ale nutné, aby znalec věděl, kde má jaký vzorec použít, a při použití více vzorců rozumět, proč a jak se mění výsledná hodnota. Čím jsou používané laboratorní metody přesnější a citlivější, tím více se zabýváme otázkou, nakolik jsou výsledky těchto metod bezchybné. Jinak řečeno, jak jsme si jisti závěrem, který z těchto výsledků vyvodíme? Když v současné době ztotožňujeme vzorek z místa činu a vzorek podezřelého a oba vzorky se shodují, výsledkem bude pravděpodobně číslo, které je vysoko na škále hodnocení důkazu. Co znamená toto číslo? Existuje v tomto případě alespoň malá nejistota, anebo se za žádných okolností nemohlo nic stát jinak? Nejistota je běžnou součástí našeho každodenního života. Její přítomnost je neustálým připomenutím našeho ohraničeného poznání a neschopnosti kontrolovat každý jev, který nás ovlivňuje. V analýze forenzních důkazů hraje určování nejistoty jednu z klíčových rolí. Při interpretaci výsledků ve forenzních vědách se míra nejistoty ohledně souzeného činu mění. Nejistota klesá anebo roste, ale nikdy nemizí úplně. Přehlédnutá nejistota ve znaleckém posudku může během soudního procesu vyústit v nespravedlivé odsouzení. Z pohledu soudce však tato nejistota musí být transformována do jednoznačného rozhodnutí: vinen nebo nevinen. Na obrázku 1 je schéma vytvoření konečného rozsudku z dílčích znaleckých posudků nebo dílčích (i neexpertních) důkazů. Výsledky DNA profilování se dají vyjádřit jak slovním, tak číselným vyjádřením, přičemž použití čísel má jednoznačné výhody: slabý, středně silný, silný důkaz může znamenat různé stavy pro různé lidi.
Obrázek 1: Tok informace při hodnocení důkazů (připomíná uzel neuronové sítě). O to více je potřeba myslet na nejistotu během psaní znaleckého posudku. Cílem forenzní statistiky je uchopit nejistotu pomocí nástrojů matematiky. Jedním z těchto nástrojů je tvorba modelů.
2
Použití modelů ve forenzní genetice „Všechny modely jsou špatné. Některé modely jsou užitečné.“ George Box, Edwards Deming Důvodem, proč používáme statistiku pro analýzu forenzních důkazů, je standardizace výsledků různých znalců a laboratoří a snaha interpretovat výsledky co nejobjektivněji. Každý znalec má určitá kritéria, aby posoudil, zda důkaz svědčí pro jednu z uvažovaných hypotéz. Forenzní statistika a s ní spojené logické uvažování se snaží tato kritéria popsat matematicky. Nejistota je vždy přítomná, pokud se snažíme kvantifikovat jev pomocí testování, experimentů anebo modelování. Právě míra shody mezi modelem a experimentálními daty je popisována pomocí nejistoty (Taroni, 2010). Někdy se nejistota považuje za chybu, například chybu metody. Nejistota a chyba mají různé významy v rámci analýzy nejistoty při použití modelů. Nejistota modelování je definována jako možná nedostatečnost způsobená nedostatkem znalosti. Chyba modelování je definována jako rozpoznatelná nedostatečnost nezpůsobená nedostatkem znalosti. Je potřeba mít stále na paměti, že používáme model, který aproximujeme k reálnému světu. Na obrázku 2 jsou schematicky znázorněny oblasti hodnot modelu, pokusu a skutečnosti. Někdy jsou rozdíly mezi zvoleným modelem a skutečným světem zanedbatelné, jindy však nejsou. Záleží na předpokladech, které jsou obsaženy v modelu. Pokud víme o úskalích námi zvoleného modelu, dokážeme poznat, kdy tento model neodpovídá skutečnému světu, a je potřeba zahrnout tento fakt do interpretace výsledků, anebo vybrat jiný, vhodnější model.
Obrázek 2: Schematický nákres překryvů oblastí hodnot získaných modelováním a skutečných a experimentálních hodnot.
3
Příkladem použití několika modelů může sloužit následující případ. Pokud chceme spočítat pravděpodobnost náhodné shody profilu podezřelého s profilem z místa činu, spočítáme frekvenci genotypu v dané populaci v každém lokusu a následně vynásobíme lokusy mezi sebou. Při provedení tohoto výpočtu používáme dva modely: Hardy-Weinbergův model a vazebnou rovnováhu lokusů. Pro platnost Hardy-Weinbergova zákona musí populace splňovat určitá kritéria: značná početnost, náhodné křížení, nepřítomnost mutací, nepřítomnost selekce a/nebo migrace. Z výše uvedených kritérii je zřejmé, že žádná populace nesplňuje všechna kritéria. To je první bod, kde může dojít k problémům. Hardy-Weinbergův model je vhodný pro velké populace, kde je efekt mutací, selekce a migrace zanedbatelný. Jestliže se ale jedná o malou izolovanou populaci, ve které může dojít ke genetickému driftu, není výše zmíněný model vhodný, protože se hodně rozchází se skutečností a může vést k chybným závěrům. Dále předpokládáme, že lokusy nejsou ve vazbě a jejich alely se volně kombinují. Pokud víme, že lokusy jsou na různých chromozómech, máme větší jistotu, že se skutečně kombinují volně. V případě, že jsou lokusy na jednom chromozómu, situace se stává složitější. V tomto případě můžeme stanovit vzdálenost mezi lokusy, po jejímž přesažení lze považovat lokusy za nezávislé, tj. považujeme vazbu mezi lokusy za zanedbatelnou. Poslední problémový bod, o kterém se zmíním, je výpočet frekvence alely, který se určuje ze vzorku populace složené z nepříbuzných osob. Víme, že tomuto neodpovídá žádná populace. Na tomto případu jsem chtěla ukázat, že mnohé analýzy, které rutinně provádíme, obsahují modely snažící se popsat nebo standardizovat skutečnost. Pokud srovnáváme modely mezi sebou, tak obecně neexistuje žádný „nejlepší“ model. Konkrétně může být určitý model lepší než jiný, protože lépe zohledňuje naše znalosti o reálném světě, lépe se realitě přibližuje. Znalec by však měl být vždy schopen vysvětlit a odborně obhájit, proč v konkrétním případě vybral právě tento model. Základní principy ve forenzních vědách. Relevantnost důkazů. Forenzní vědy jsou průnikem tří oblastí: 1) odborné znalosti, např. poznatky z genetiky, chemie nebo medicíny; 2) logické uvažování, poznatky z kriminalistiky, znalost metod, které se používají pro hodnocení důkazního materiálu; 3) právní oblast, povinnosti znalce, náležitosti znaleckého posudku. Všechny forenzní metody se zakládají na dvou hlavních principech v kriminalistice: Locardův princip a princip individuality. Locardův princip zní následovně: „Každý kontakt zanechá stopu.“ To znamená, že pachatel vždy na místě činu něco zanechá a něco si vezme s sebou. Další zásada je princip individuality: „Dva předměty (osoby) mohou být nerozlišitelné, ovšem žádné dva předměty (osoby) nejsou identické.“ Tento princip se hodně uplatňuje ve forenzní genetice, kde si často pokládáme otázku: „Mohou se dva genetické profily shodovat náhodou?“ V tomto textu se již několikrát objevilo slovo důkaz nebo důkazní materiál. Co znamená toto slovo? Důkazem jsou veškeré skutečnosti, které se týkají případů. V trestním řádu se můžeme dočíst, že „za důkaz může sloužit vše, co může přispět k objasnění věci“ (§ 89 odst. 2 zákona č. 141/1961 Sb., tr. ř.). Důkazy lze rozdělit do dvou skupin: svědecké neboli přímé důkazy, například výpovědi svědků a obviněného, a fyzické (nepřímé) důkazy, což je veškerý materiál nebo předměty, které jsou relevantní k případu. 4
Fyzické důkazy lze rozdělit podle několika hledisek do skupin, například na markantní, okem viditelné, detekovatelné a zcela latentní. Důležité je, že mezi důkazy nejsou činěny rozdíly podle jejich druhů a zásadně není předepsáno, jaké skutečnosti mají být prokázány kterými důkazními prostředky. Fyzické důkazy jsou zpracovávány pomocí znaleckých posudků. Genetický důkazní materiál se obvykle skládá ze stop zajištěných z místa činu a referenčních vzorků odebraných u oběti nebo u podezřelého. Příkladem může být stopa krve pachatele na oblečení. Další nedílnou součástí genetického důkazního materiálu jsou výsledky genetické analýzy, například DNA profil stopy krve z místa činu a z epiteliálních buněk oběti a podezřelého. Cílem zajištění a následné analýzy důkazního materiálu je vytvoření relevantních důkazů, jinak řečeno důkazů, které snižují původní nejistotu vůči jedné ze zvažovaných hypotéz. Proto vzniká otázka: co je „ideální“ forenzní důkaz, anebo jaké vlastnosti by měly mít „ideální“ forenzní identifikační metody? Taková metoda by měla: 1) Určovat jedinečné osobní znaky, které se v čase nemění 2) Určovat tyto znaky jednoznačně, tzn. tak, že dva znalci popíší znak stejně 3) Být schopna spojit osobu s místem činu 4) Být relativně jednoduše proveditelná a levná (Robertson, 1995). Soupis těchto vlastností je odpovědí na otázku, proč mají obvykle výsledky forenzně genetické analýzy velkou důkazní sílu. Co znamená síla důkazu? Znalci nepřísluší hodnotit důkazy v rámci celého případu, proto v tomto článku daný pojem znamená určení síly důkazu v rámci analýzy v příslušném oboru forenzní vědy. Velmi často genetický důkazní materiál platí (má vysokou pravděpodobnost) za předpokladu jenom jednoho tvrzení a téměř nikdy se nevyskytuje za předpokladů tvrzení jiných. Tato skutečnost je právě jednou z vlastností „dobrých“ důkazů. Příklad „dobrého“ a „špatného“ důkazu je na obrázku 3. Na tomto obrázku jsou dva Vennovy diagramy. První ukazuje „špatný“ nebo irelevantní důkaz, druhý ukazuje „dobrý“ nebo relevantní důkaz. Na diagramu vlevo uvažujeme o dvou možnostech: buď prší, nebo neprší. V tomto případě přítomnost mraku není nejlepším důkazem, protože mraky se často vyskytují i za suchého počasí. Pokud víme, že jsou mraky, náš odhad, zda prší nebo ne, se skoro nemění (přestože z čistého nebe prší méně často než z nebe podmračeného). Lepším důkazem je v tomto případě dopad kapek do kaluží na zemi. Vpravo je „dobrý“ důkaz: pokud máme bonbon, můžeme říct, že bude téměř vždy sladký (přestože jsou i kyselé bonbóny). Příkladem ještě „lepšího“ důkazu, který by do pravé, bílé části obrázku 3 skoro nezasahoval, by byla shoda mezi dítětem a mužem žalovaným z otcovství ve všech 15 testovaných STR lokusech. Příkladem ze skutečného života je případ Jiřího Kajínka, jemuž v roce 2011 Ústavní soud zamítnul návrh na povolení nového řízení. Důvodem bylo to, že Kajínek neposkytnul nové relevantní důkazy. Obhajoba Kajínka předkládala jako důkaz skutečnost, že na klice auta, ve kterém byli oběti zavražděny, nebyly nalezeny jeho otisky. Nepřítomnost důkazu však není důkazem nepřítomnosti jevu. Důkaz, že na klice nebyly otisky podezřelého, není příliš relevantní, neboť tato skutečnost mohla být způsobena buď tím, že podezřelý se této kliky dotýkal v rukavicích, nebo po sobě otisky otřel, anebo tím, že se podezřelý této kliky nikdy nedotkl. Oproti tomu důkaz, že na klice jsou otisky podezřelého, je velmi relevantní, neboť tato skutečnost může nastat, jenom když se podezřelý této kliky dotýkal.
5
Obrázek 3: Vennovy diagramy zobrazující „dobrý“ a „špatný“ důkaz. Otázky vztahující se k biologickému důkaznímu materiálu lze rozdělit do třech úrovní (Aitken, 2004): 1) zdroj: ze které osoby pochází biologický materiál? Vzorek spermatu pochází z osoby X. Vzorek spermatu pochází z jiné neznámé osoby. Krevní stopa na oblečení osoby Y pochází z osoby N. Krevní stopa na oblečení osoby Y pochází z neznámé osoby. 2) čin: která činnost vedla k zanechání biologického materiálu? Osoba X měla pohlavní styk s osobou Z. Osoba X neměla pohlavní styk s osobou Z. Osoba Y kopala do osoby N. Osoba Y nekopala do osoby N. 3) přestupek: spáchala podezřelá osoba tento přestupek? Osoba X znásilnila osobu Z. Osoba X neznásilnila osobu Z. Osoba Y se zúčastnila napadení osoby N. Osoba Y se neúčastnila napadení osoby N. Tyto otázky mohou být aplikovány, například pokud máme případ vraždy zastřelením a na pravém rukávu bundy podezřelého byly nalezeny stopy lidské krve. Analýza DNA může určit zdroj biologického materiálu. Biologická analýza identifikující skvrny jako lidskou krev a následná analýza tvaru těchto skvrn pomůže zjistit, zda se skvrny ocitly na bundě z důvodu výstřelu z malé vzdálenosti. Třetí otázka, zda podezřelý spáchal tento trestný čin je určena soudci nebo porotě a není v oblasti znalecké kompetence. Abychom mohli přejít k vlastní interpretaci výsledků genetické analýzy, musíme zjistit, jaké vlastnosti má pravděpodobnost a jaké operace lze provádět s pravděpodobnostmi.
6
Pravděpodobnost Když řekneme „pravděpodobně“, máme na mysli odhad toho, že nastane jedna určitá situace ze všech možných situací. Existují dva typy pravděpodobnosti (Lucy, 2005). První typ pravděpodobnosti určujeme, pokud dokonale známe zkoumaný systém. Tuto pravděpodobnost zjistíme, pokud vydělíme počet případů, kdy nastal jev, celkovým počtem případů. Příkladem takovéto situace je například určování pravděpodobnosti toho, v kolika případech padne šestka při hodu kostkou. Známe všechny jevy, které mohou nastat, a pravděpodobnost toho, že nastanou. Víme taky, že dlouhodobě je pravděpodobnost toho, že padne šestka, 1/6. Druhý typ pravděpodobnosti nastává tehdy, pokud nemáme znalost o systému, ale snažíme se odvodit pravděpodobnost pozorováním tohoto sytému. Například, provedli jste průzkum reprezentativního počtu lidí a zjistili jste, že 30% z nich jsou kuřáci. Protože jste nezkoumali celou populaci ČR, váš odhad počtu kuřáků je založen na lidech, kteří se zúčastnili průzkumu. Takovéto zobecňování je potřeba pro vysvětlení mechanismu, který způsobuje zkoumaný jev. Předpokládáme jakousi uniformitu, která je základním kamenem statistiky. Bez toho, abychom předpokládali, že populace má ve větším měřítku určité charakteristiky, není možné používat nástroje statistiky a modelování. Jako příklad uvedu Schellingův model segregace, který se používá v sociologii a ekonomice. Tento model předpokládá, že v multikulturních městech lidé rádi bydlí v sousedství s lidmi stejného původu. Tito lidé mají určitý práh, kolik sousedů jiného původu jsou schopní tolerovat, a po překročení tohoto prahu se stěhují. Byť v malém měřítku tento model nemusí fungovat, protože se ne všichni lidé chovají stejně, ve velkém měřítku tento model funguje, což dokazuje obrázek 4, na kterém je uvedena mapa Detroitu. Modře zabarvené části označují oblasti, kde je více černochů, v červených oblastech je více bělochů.
Obrázek 4: Segregační mapa Detroitu. V modrých zónách bydlí více černochů, v červených více bělochů. (zdroj: https://sites.google.com/site/schellingsegmodel/) 7
Výše zmíněný první druh pravděpodobnosti může existovat jenom v teoretické rovině (Lucy, 2005). Jakmile vezmeme jakoukoliv kostku, bude – byť nepatrně – „cinknutá“, což pozmění pravděpodobnosti pádu šestky. Další problém nastává, pokud chceme určit pravděpodobnost jedinečného jevu. Pokud hodíme kostkou jednou, nemůže na kostce z 1/6 padnout šestka a z 5/6 ostatní čísla. Na kostce buď padne šestka, nebo ne. Proto jediný způsob, jak lze určit pravděpodobnost jedinečného jevu, je vytvořit produkt mysli, náš odhad toho, co nastane v jednom konkrétním případu. Tato pravděpodobnost se nazývá personální, subjektivní, protože existuje jenom v mysli toho, kdo se zabývá otázkou výsledku jedinečného jevu. Je to interpretace idealistické pravděpodobnosti. Frekventistická nebo klasická pravděpodobnost se týká četností a dlouhodobých výsledků opakujících se pokusů. Tato pravděpodobnost je schopná určit relativní proporce ve velkém počtu jevů, ale není schopná určit výsledek jedinečného jevu. Takový výrok znamená, že provádíme odhad, který je vždy subjektivní. Subjektivní ale nemusí znamenat vymyšlený a ve vědních oborech je velmi často založen na výsledcích výzkumu. Forenzní genetika v tomto smyslu stojí na pomezí dvou pravděpodobností. Z jedné strany je její základ tvořen výzkumem v laboratoři, kde může být uplatněna klasická pravděpodobnost, protože pokusy jsou dělány na velkém vzorku. Na druhé straně analýza konkrétního případu zjišťuje subjektivní pravděpodobnost, protože každý případ může nastat jenom jednou. K otázce subjektivity pravděpodobnosti se vrátíme ještě jednou, až se budeme zabývat Bayesovou větou. Další věc, kterou je potřeba brát v potaz, je, že ať určujeme jakoukoliv pravděpodobnost, je vždy podmíněna informací, kterou máme k dispozici. Náš odhad pravděpodobnosti toho, že Veronika bude mít dva metry, závisí na tom, zda máme k dispozici informace, že Veronika je žirafa (Evett, 1998). Vždy odhadujeme pravděpodobnost jakéhokoliv jevu na základě podpůrné informace, kterou máme k dispozici. Zákony pravděpodobnosti Předtím než se seznámíme se zákony pravděpodobnosti, musíme se naučit symboly, které budeme používat. P(A|B) je pravděpodobnost jevu A za předpokladu B. B v tomto případě značí předpoklad, informace týkající se jevu A nebo tvrzení, o kterém víme, že platí. Výraz P(A) lze v závislosti na kontextu přečíst jako: • pravděpodobnost, že nastal jev A • pravděpodobnost, že nastane jev A • pravděpodobnost, že jev A platí c A značí doplňkový jev k A. Pravděpodobnost P(Ac) • pravděpodobnost, že jev A nenastal • pravděpodobnost, že jev A nenastane • pravděpodobnost, že jev A neplatí. Dále budeme používat následující symboly • Hp – hypotéza obžaloby • Hd – hypotéza obhajoby • E – důkazní materiál, například výsledky genetické analýzy • I – veškeré ostatní relevantní informace o případu 8
První zákon pravděpodobnosti je velmi snadný: pravděpodobnost může nabývat hodnot od 0 do 1, včetně. Ovšem pravděpodobnost jevu v reálném světě se nikdy nerovná 0 nebo 1 z důvodu všudypřítomné nejistoty. Je třeba si pamatovat, že oblast hodnot pravděpodobnosti je [0,1] a oblast hodnot podílů pravděpodobností je [0, ∞). Pravděpodobnost nemůže být nikdy větší než 1 neboli 100 %, zatímco podíl pravděpodobností může být nekonečně velké číslo. Druhý zákon se zabývá sčítáním pravděpodobností. Existuje obecný tvar tohoto zákona a speciální tvar pro vzájemně neslučitelné jevy. Příkladem vzájemně neslučitelných jevů je semafor. Když svítí červená, nemůže zároveň svítit zelená a obráceně. Příkladem vzájemně neslučitelných jevů ve forenzní genetice jsou dvoualelní genotypy jedné osoby v jenom lokusu. U homozygota jsou alely shodné, u heterozygota rozdílné. Pokud neuvažujeme o mozaice anebo o tříalelických genotypech, může mít osoba v jenom lokusu maximálně dvě alely, pouze jeden genotyp. V tomto případě jsou různé genotypy jednoho lokusu vzájemně vylučující se jevy. Chceme zjistit, jaká je pravděpodobnost, že nastane jev A nebo jev B. Tento výraz se zapisuje P(AUB). Pokud se jedná o jevy, které se vzájemně vylučují, potom abychom spočítali pravděpodobnost jevu A nebo jevu B, sečteme pravděpodobnost jevu A a pravděpodobnost jevu B (Obrázek 5). Na tomto obrázku vidíme obdélník S, který obsahuje množinu všech jevů, které mohou nastat. Plocha neboli pravděpodobnost tohoto obdélníku se rovná 1.
Obrázek 5: Druhý zákon pravděpodobnosti pro vzájemně neslučitelné jevy.
9
Takto zjednodušený výraz nemůžeme použít, pokud se jedná o slučitelné jevy. Důvodem je to, že oblast průniku bychom započítávali dvakrát. Proto od součtu dvou pravděpodobností odečteme oblast průniku pravděpodobností (Obrázek 6). Průnik pravděpodobností se zapisuje jako P(A∩B) nebo P(A,B). Oblast průniku je taková oblast, kde nastane jak jev A, tak i jev B. Takovýto vzorec je obecný jak pro slučitelné jevy, tak i pro neslučitelné jevy. Ovšem v případě neslučitelných jevů se oblast průniku rovná nule. Příklad z forenzní genetiky: Matka má v lokusu 1 genotyp 9, 11, dítě má v lokusu 1 stejný genotyp. Kolik procent mužů v populaci je možnými otci tohoto dítěte? Frekvence alely 9 je 30% a alely 11 – 15%. Dítě od matky zdědilo buď alelu 9 nebo 11, takže od otce muselo zdědit alelu 11 nebo 9. Otec nemůže předat dítěti dvě alely zároveň, proto jsou předání alely 9 nebo 11 vzájemně vylučující se jevy. Odpovědí na otázku tedy bude součet frekvencí těchto alel v populaci, který se rovná 45%. Třetí zákon pravděpodobnosti se zabývá průnikem pravděpodobností jevů. Tento zákon má také dvě verze: obecnou a pro nezávislé jevy. Nejprve určíme, co jsou nezávislé jevy. Jevy jsou nezávislé, když pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu jiného jevu. Matematicky to lze zapsat takto: P(A)=P(A|B).
Obrázek 6: Obecný tvar druhého zákona pravděpodobnosti. Barva očí a barva vlasů je příklad dvojice závislých jevů. Máme určit, jaká je pravděpodobnost, že kolemjdoucí osoba má modré oči. Odpověď na tuto otázku bude frekvence modrookých lidí v české populaci. Pokud ovšem víme, že tato osoba má blond vlasy, pravděpodobnost toho, že je modrooká, je větší, než kdybychom tuto skutečnost nevěděli. V genetice jsou závislými jevy například STR markery na X chromosomu v jedné vazebné skupině. Příklad nezávislých jevů – genotypy v různých lokusech, pokud tyto lokusy nejsou ve vazbě. 10
Abychom spočítali, jaká je pravděpodobnost, že jev A a jev B nastanou zároveň, musíme vynásobit pravděpodobnost jevu A a pravděpodobnost jevu B za předpokladu, že nastal jev A (Obrázek 7). V případě nezávislých jevů platí, že P(B)=P(B|A), potom P(A∩B) = P(A) * P(B). Příklad: Jaká je pravděpodobnost (N), že kolemjdoucí bude Španěl a bude mít genotyp (G) CSF1PO 8,12, FGA 21, 22? V hypotetickém městě je 10% Španělů (S), P(S)=0,1. Frekvence CSF1PO 8, 12 je ve španělské populaci 5% (G1) a FGA 21, 22 jsou 3% (G2). Zkusíme zapsat řešení tohoto problému matematicky. P(N) = P(S)* P(G=G1, G2|S) = P(S)*P(G1|S)*P(G2|G1, S). Genotyp se skládá ze dvou lokusů, které nejsou ve vazbě, takže se považují za nezávislé jevy. Proto je P(G2|G1, S) = P(G2|S). Ale národnost a genotyp jsou závislé jevy, protože v různých populacích jsou různé frekvence stejného genotypu. Proto je pravděpodobnost genotypů podmíněna tím, že frekvence pocházejí ze španělské populace. Z toho vyplývá, že P(G=G1, G2|S)=0,05*0,03=0,0015. Výsledná pravděpodobnost N se rovná 0,00015.
Obrázek 7: Třetí zákon pravděpodobnosti. Následující příklad popisuje pozměněný problém „zločinu na ostrově“, crime on the island (Balding, 2005). Předpokládejme, že se trestný čin stal na izolovaném ostrově se 100 000 obyvateli. Víme, že byl jenom jeden pachatel, proto je 99 999 obyvatel ostrova nevinných a 1 je vinný. Víme také, že pachatel měl zrzavé vlasy. Na ostrově žije 100 lidí se zrzavými vlasy. To znamená, že 99 lidí se zrzavými vlasy je nevinných a 1 je vinný. Dále jsme zjistili, že pachatel byl vysoký přes 2 metry. Na ostrově žije jenom 9 lidí, jež mají zrzavé vlasy a výšku přes 2 metry. Matematicky lze toto schéma zapsat takto: P(E|Hp) = P(V, Z|Hp) = P(Z|Hp) * P(V|Z, Hp) a P(E|Hd) = P(V, Z|Hd) = P(Z|Hd) * P(V|Z, Hd). Na tomto příkladu je znázorněn vliv relevantních důkazů na nejistotu. Relevantní důkazy snižují nejenom nejistotu, ale i okruh možných pachatelů. 11
Obrázek 8: Vliv relevantních důkazů na okruh možných pachatelů. Hd – hypotéza obhajoby, Hp – hypotéza obžaloby, Z – zrzavé vlasy, V – výška přes 2 metry. Probrali jsme tři základní zákony. Zákon o úplné pravděpodobnosti vyplývá z výše uvedených zákonů. Pomocí tohoto zákona můžeme zjistit pravděpodobnost jevu součtem jeho dílčích částí. Tyto části představují průniky s ostatními jevy. Abychom mohli tento zákon použít, musí se jevy B, C a D vzájemně vylučovat a P(B) + P(C) + P(D) = 1. To znamená, že jevy B, C a D tvoří úplnou skupinu jevů: pokud nenastane jev B, musí nastat buď jev C nebo jev D. Tyto jevy se nazývají doplňkové. Na Obrázku 9 je uveden postup výpočtu úplné pravděpodobnosti. Chceme vypočítat pravděpodobnost jevu A; tento jev má průnik s třemi jevy – B, C a D, proto lze pomyslně rozdělit vzorec na tři části P(A) = P(A,B) + P(A,C) + P(A,D). První část jevu A má průnik s jevem B, proto abychom spočítali pravděpodobnost tohoto dílu, tak P(A,B) = P(B)*P(A|B). Tento výraz určuje pravděpodobnost toho, že nastane jev B a zároveň jev A. Obdobně lze spočítat dvě zbývající části P(A,C) = P(C)*P(A|C), P(A,D) = P(D)*P(A|D). Příklad: Jaká je pravděpodobnost, že kolemjdoucí v hypotetickém městě bude mít genotyp CSF1PO 8,12 (G) nezávisle na národnosti? Ve městě je 10% Španělů (S) (frekvence genotypu ve španělské populaci je 5% (G|S)), 60% Francouzů (F) (frekvence genotypu ve francouzské populaci 15% (G|F)) a 30% Němců (N) (frekvence genotypu v německé populaci 10% (G|N)). Výpočet je následující: P(G) = P(S) * P(G|S) + P(F) * P(G|F) + P(N) * P(G|N) = 0,1 * 0,05 + 0,6 * 0,15 + 0,3 * 0,1 = 0,005 + 0,09 + 0,03 = 0,125.
12
Obrázek 9: Zákon o úplné pravděpodobnosti.
Bayesova věta Bayesova věta je ve forenzních vědách a obzvlášť ve forenzní genetice jedním z klíčových nástrojů pro analýzu důkazů. Tato věta umožňuje logickou analýzu důkazů a jejich kombinací. Podstatou této věty je spojování podmíněných a nepodmíněných pravděpodobností. Ve své podstatě je intuitivní, protože aktualizuje náš původní předpoklad o novou informaci, kterou jsme zjistili. Nejdůležitější vlastností Bayesovy věty je skutečnost, že dovoluje přejít od výchozích pravděpodobností k výsledným. Ve forenzní genetice Bayesova věta zaujímá velmi důležité postavení, protože je to velmi flexibilní metoda analýzy forenzních důkazů. Odvodíme tuto větu ve forenzním kontextu. Uvažujeme o dvou hypotézách: hypotéza obžaloby (Hp) – vzorek z místa činu pochází z podezřelého, hypotéza obhajoby (Hd) – vzorek z místa činu pochází z jiné neznámé osoby; máme informaci o případu (I) a důkazní materiál k případu (E). Chceme určit, zda je za předpokladu všech informací, které máme k dispozici, pravděpodobnější hypotéza obžaloby nebo hypotéza obhajoby. Dle třetího zákonu pravděpodobnosti rozepíšeme pravděpodobnost hypotézy obhajoby, za předpokladu veškerých důkazů a informací o případu: P(Hp|E, I) = P(Hp, E|I) / P(E|I) Obdobně rozepíšeme i pravděpodobnost hypotézy obhajoby: P(Hd|E, I) = P(Hd, E|I) / P(E|I) P(Hp, E|I) a P(Hd, E|I) rozepíšeme znovu dle třetího zákona
P(Hp E , I ) =
P( Hp, E | I ) P( E | Hp, I ) × P( Hp | I ) = P( E | I ) P( E | I )
13
P (Hd E , I ) =
P( Hd , E | I ) P( E | Hd , I ) × P( Hd | I ) = P( E | I ) P( E | I )
Poté dáme rovnice do poměru, takže se P(E|I) vyruší: P ( E | Hp , I ) × P ( Hp | I ) P (Hp E , I ) P ( E | Hp , I ) P ( Hp | I ) P(E | I ) = = × P (Hd E , I ) P ( E | Hd , I ) × P ( Hd | I ) P ( E | Hd , I ) P ( Hd | I ) P(E | I ) Výsledný vzorec vypadá takto: P (Hp E , I ) P ( E | Hp, I ) P ( Hp | I ) = × P (Hd E , I ) P ( E | Hd , I ) P ( Hd | I ) Toto je tvar Bayesovy věty, pokud uvažujeme o dvou vzájemně se vylučujících hypotézách (Obrázek 10). Bayesova věta v tomto tvaru je velmi často používána ve forenzních vědách a lze ji rozdělit na tři části: Výchozí podíl šancí * Věrohodnostní poměr ⇒ Výsledný podíl šancí Výchozí podíl šancí (prior odds) je P(Hp|I) / (P(Hd|I). Věrohodnostní poměr (likelihood ratio – LR) je P(E|Hp, I) / P(E|Hd, I). Výsledný podíl šancí: P(Hp|E, I) / P(Hd|E, I). Vysvětlíme princip Bayesovy věty na klasickém příkladu z lékařské genetiky. Provádíte genetický screening a vyšetřujete, zda pacient onemocnění má (Hp), nebo nemá (Hd). Incidence tohoto onemocnění je v české populaci 0,5%. Po provedení genetické analýzy máte pozitivní nález (E). Víte ale, že jenom 95% nemocných má pozitivní nález (E|Hp, I). Jaká je pravděpodobnost, že, pokud u pacienta bude pozitivní nález, bude nemocný (Hp|E, I)?
Obrázek 10: Bayesova věta. Cílem je určit výsledný podíl šancí P(Hp|E, I) / P(Hd|E, I). Za výchozí podíl pravděpodobnosti lze zvolit incidenci onemocnění v populaci. O takovém riziku uvažujeme 14
předtím, než provedeme vyšetření. Výchozí pravděpodobnost, že je člověk nemocný, je 0,5% = 0,005. Výchozí pravděpodobnost, že člověk není nemocný, je 1 – 0,005 = 0,995. Proto P(Hp| I) / P(Hd| I) = 0,005/0,995 ≈ 0,005. To znamená, že před screeningem je 200 (1/0,005) krát pravděpodobnější, že je vyšetřovaná osoba zdravá. Dále spočítáme věrohodnostní poměr P(E|Hp, I) / P(E|Hd, I). Čitatel je pravděpodobnost, že když je člověk nemocný, bude mít pozitivní výsledek testu. To je 95% nebo 0,95. Jmenovatel je šance, že vyjde pozitivní nález, pokud je člověk zdravý. P(E|Hd, I) = 0,05. Proto se věrohodnostní poměr rovná 0,95 / 0,05 = 19. Pravděpodobnost pozitivního nálezu je 19 krát větší, pokud je člověk nemocný, než pokud je zdravý. Výsledný podíl šancí spočítáme vynásobením výchozího podílu šancí a věrohodnostního poměru. Výsledný podíl šancí aktualizuje výchozí podíl pravděpodobností P(Hp|E, I) / P(Hd|E, I) = (P(Hp|I) * P(E|Hp, I)) / (P(Hd|I) * P(E|Hd, I)) = 0,005 * 19 = 0,095 Tento pro neznalého překvapivý výsledek znamená, že i přes to, že má pacient pozitivní nález, je více než 10 krát pravděpodobnější, že je zdravý, než že je nemocný. Posledním krokem je výpočet P(Hp|E, I) z výsledného podílu šancí. Pro to použijeme následující vzorec počítání pravděpodobnosti z podílu šancí: P(Hp|E, I) = O(Hp)/(1+O(Hp)), kde O(Hp) = P(Hp|E, I) / P(Hd|E, I) P(Hp|E, I) = 0,095 / (1+0,095) = 0,09 = 9% Takže pravděpodobnost toho, že je člověk nemocný, když má pozitivní nález, je 9%. Vysvětlením tohoto výsledku je skutečnost, že vzácný výskyt onemocnění je silnějším důkazem než výsledek genetického testu. Změnit výslednou pravděpodobnost P(Hp|E, I) lze zvýšením senzitivity a specificity testu. Pomocí toho se pak v případě pozitivního nálezu zvýší P(E|Hp, I) a sníží P(E|Hd, I).
Části Bayesovy věty ve forenzní genetice Jak již víme, Bayesova věta se skládá ze tří částí. Vynásobením věrohodnostního poměru a výchozího poměru šancí vzniká výsledný podíl šancí. Probereme každou část, její význam a interpretaci. Výchozí podíl šancí je nejsubjektivnější a nejdiskutovanější složkou Bayesovy věty. Určování výchozího podílu šancí znalci nepřísluší, protože tato složka závisí na veškerých, obvykle nevědeckých informacích o případu. Při určování výchozího podílu šancí neexistuje jediný správný postup. Při srovnávání vzorku z místa činu a vzorku podezřelého lze zvolit výchozí podíl šancí P(Hp|I) / (P(Hd|I) = 1/N, kde N je relevantní populace, například počet obyvatel ve městě, kde byl spáchán trestný čin. Velmi často znalci zvolí výchozí podíl šancí 1/1 nebo 50% / 50% ve snaze být co nejobjektivnější. Ovšem zvolení jakéhokoliv výchozího podílu šancí je subjektivní volba, na kterou nemá znalec právo, neboť nemá dostatek znalostí o případu. „Znalci nepřísluší provádět hodnocení důkazů a řešit právní otázky. Znalec se nemůže zabývat otázkou viny nebo neviny obviněného. Skutečnost, že znalec ve svém posudku zaujme stanovisko k otázce, jejíž zodpovězení přísluší soudu, nečiní tento posudek nepoužitelným, jestliže obsahuje odborné poznatky a zjištění, ze kterých znalec tento právní závěr učinil, a které umožňují, aby si soud sám dovodil tentýž nebo jiný takový závěr.“ 15
(Nejvyšší soud ČR, Rt 1/98 2 Tzn 19/97 [Sb.NS 98, 1: 5] (ASPI: 8911)) Toto rozhodnutí Nejvyššího soudu lze interpretovat tak, že pokud znalec zvolí výchozí podíl šancí, měl by být schopný vysvětlit, proč tomuto podílu přiřadil určitou hodnotu. Nejdůležitější částí Bayesovy věty je pro znalce věrohodnostní poměr. Pokud se podíváme na Bayesovu větu, věrohodnostní poměr je jediná její složka, která neurčuje pravděpodobnost hypotéz obžaloby nebo obhajoby, ale zjišťuje relevantnost důkazů. Výchozí a výsledný podíl šancí lze schematicky zapsat takto: Podíl šancí = pravděpodobnost, že platí Hp / pravděpodobnost, že platí Hd. P(Hp) a P(Hd) tvoří úplnou skupinu jevů, jsou to doplňkové jevy. To znamená, že P(Hp) ≈ 1 – P(Hd), a P(Hp|E, I) ≈ 1 – P(Hd|E, I), kdežto u věrohodnostního poměru P(E|Hp, I) + P(E|Hd, I) ≠ 1, neboť se nejedná o doplňkové jevy. Věrohodnostní poměr dovoluje dívat se na důkaz ve světle zvolených hypotéz. Pokud je LR > 1, důkaz podporuje hypotézu v čitateli. Pokud je LR < 1, důkaz podporuje hypotézu ve jmenovateli. Čím více je LR vzdáleno od 1 v obou směrech, tím je důkaz relevantnější. Pokud LR = 1, důkaz je nerelevantní, neboť stejně podporuje jak hypotézu v čitateli, tak i ve jmenovateli. Důkaz je tedy stejně pravděpodobný jak za předpokladu hypotézy v čitateli, tak i hypotézy ve jmenovateli. Poslední a rozhodující část je výsledný podíl šancí, což je výchozí podíl šancí, který byl aktualizován pomocí věrohodnostního poměru. Výpočet této části náleží soudci nebo porotě. Existují námitky, že soudce není schopen vyjádřit výchozí podíl šancí číselně, a z toho důvodu nemůže spočítat výsledný podíl šancí. Ovšem protože rozsudek soudce není číselný, kombinace důkazů může proběhnout jenom v soudcově hlavě. Tento aspekt Bayesovy věty ji dělá pro člověka přirozenou. V každodenním životě neustále odhadujeme, jak pravděpodobný je určitý scénář. Máme nejprve odhad, který je tvořen našimi životními zkušenostmi, a potom analýzou konkrétní situace. Chyby interpretace Chyby interpretace výsledků forenzní analýzy lze rozdělit do dvou skupin: první je způsobena špatným pochopením statistiky, druhá vzniká na základní úrovni interpretace. Nejčastější chyba, která se vyskytuje jak u soudních znalců, tak i u soudců, ale hlavně u žalobců, je chyba záměny příčiny a důsledku. Tato chyba se taky nazývá chyba žalobců. Příkladem takovéto chyby je výrok znalce: „Pravděpodobnost toho, že někdo jiný než pachatel zanechal DNA profil na místě činu, je 1/1 000 000.“ Tento výrok je platný pouze tehdy, pokud znalec při LR = 1 000 000 zvolil výchozí podíl šancí 1/1, který by neměl určovat; v opačném případě je toto tvrzení chybné. Tabulka 1 ukazuje, jak je záměna příčiny a důsledku zjevná na příkladu, který si dokážeme představit, ale ve forenzní genetice tato chyba už tak zjevná není. Zatímco první dva řádky popisují P(E|Hp), poslední dva řádky popisují P(Hp|E). Evett doporučuje při psaní posudku používat výrazy „pokud“ nebo „za předpokladu“, aby bylo zřetelné, jaký jev je v podmínce (Evett, 1998). Proto správný tvar výše uvedeného výroku bude: „Pravděpodobnost tohoto DNA profilu, pokud ho zanechal na místě činu někdo jiný než pachatel, je 1/1 000 000.“
16
Pokud jsem opice Mám dvě nohy a dvě ruce Pokud mám dvě nohy a dvě ruce Jsem opice?
Pokud jsem vinen Můj DNA profil se shoduje s profilem z místa činu Pokud se můj DNA profil shoduje s profilem z místa činu Jsem vinen?
Tab. 1: Příklad chyby záměny příčiny a důsledku. (zdroj: Aitken, 2001) Další častou chybou je chyba obhájce, kterou ilustruje následující výrok. Předpokládejme, že pravděpodobnost náhodné shody DNA profilu je 1 ze 100 000. Trestný čin byl spáchán ve městě s 1 000 000 obyvatel. Výrok obhájce je: „Obžalovaný je s pravděpodobností 1:10 vinný.“ Problém tohoto tvrzení spočívá v tom, že ne všichni lidé s daným profilem mají stejnou pravděpodobnost viny. Správný závěr by měl znít: „Lze očekávat, že 10 lidí ve městě bude mít daný DNA profil.“ Další lidé se stejným profilem jako má obžalovaný nemusí existovat. Chyba pochopení významu frekvence DNA profilu se vyskytuje velmi často, pokud je tato frekvence velmi malá. Předpokládejme, že pravděpodobnost náhodné shody DNA profilu je 1 z 1 000 000. Trestný čin byl spáchán ve městě s 1 000 000 obyvateli. Nesprávný závěr: Obžalovaný (ten kdo má daný profil) je vinný. Frekvence DNA profilu je tvořená kombinací dílčích frekvencí genotypů v jednotlivých lokusech a odkazuje na teoretickou, nekonečně velkou populaci. I přesto, že frekvence profilu je 1 z 1 000 000, mohou existovat další lidé, kteří mají takovýto profil. Frekvence profilu v populaci znamená očekávaný počet lidí v populaci, kteří mají tento profil. Proto správný závěr by měl znít: „Lze očekávat, že 1 člověk ve městě bude mít daný DNA profil.“ Velmi známý příklad chyby záměny příčiny a důsledku a zároveň nerespektování závislosti dat je případ Stát vs Collinsovi (Kaye, 2010). Jednalo se o krádež kabelky. Očitá svědkyně vypověděla, že v okamžiku krádeže viděla bělošskou ženu, blondýnu s ohonem, jak sedá do žlutého auta, kde na ni čekal černoch, který měl vousy a knír. Na základě tohoto svědectví policie zadržela manželský par Collinsových, kteří odpovídali popisu údajných pachatelů. Protože v případu nebyly žádné vědecké důkazy jako otisky prstů nebo krevní stopy, se žalobce, který měl tento případ na starosti, obrátil na katedru matematiky, aby mu pomohli vypočítat pravděpodobnost shody. K soudu byl přivolán pracovník této katedry, který určil frekvenci rasově smíšeného páru jako 1/1000, ženy s ohonem 1/10, částečně žlutého auta 1/10, muže s knírem 1/4 a černocha s plnovousem 1/10. Žalobce poté určil pravděpodobnost náhodné shody pomocí třetího zákona pravděpodobnosti jako 1 z 12 000 000. Soud odmítl použít tyto důkazy. Prvním důvodem bylo nepochopení skutečnosti, že předložená data nejsou nezávislá, a proto pravděpodobnost shody nemůže být pouhým vynásobením těchto dat. Dále žalobce udělal závěr, že pravděpodobnost toho, že má jiný pár zjištěné charakteristiky, je 1 z 12 000 000. To je chyba obžaloby a správný závěr (pokud pomineme chybu závislých dat) by měl být: pravděpodobnost pozorování zjištěných charakteristik je 1 z 12 000 000, pokud trestný čin spáchal jiný pár. Pokud nechceme pominout chybu závislých dat, tak musíme ještě počítat s asociací kníru s plnovousem, ženy s ohonem s kníratým mužem a podobně.
17
Výběr hypotéz Volba hypotéz by měla být individuální pro každý případ a záviset na informacích o případu, které se nemusí týkat našeho oboru nebo linie obhajoby. Uvedu to na následujícím případu určování otcovství. Máme standardní trio: matka M, její biologické dítě D a nařčený otec O1. Uvažujeme o dvou hypotézách: H1 – O1 je biologickým otcem dítěte D, H2 – neznámý nepříbuzný muž je biologickým otcem dítěte. U matky, dítěte a nařčeného otce byla provedena molekulárně-genetická analýza, pomocí které byly zjištěny genotypy osob. Matka měla v lokusu 1 genotyp AA, dítě AB. Alelu B tedy dítě muselo zdědit od otce. O1 má genotyp AB. Výsledkem molekulárněgenetické analýzy je v našem případě důkaz (E), který zkoumáme za předpokladů různých námi navržených hypotéz. Pravděpodobnost E, pokud platí hypotéza H1, je 0,5. Je to pravděpodobnost toho, že pokud je O1 biologický otec dítěte D, předá svému dítěti alelu B. Pravděpodobnost E, za předpokladů H2, je četnost alely B v relevantní populaci. Předpokládejme, že tato četnost se rovná 20%. Potom LR = (P(E|H1))/(P(E|H2)) = 0,5/0,2 = 2,5 To znamená, že výsledky provedené analýzy 2,5 krát posilují H1 před H2. Neboli pravděpodobnost výsledků analýzy je 2,5 krát větší, pokud platí H1 než H2. Ovšem poté, co obhájce O1 zjistil, že provedená analýza 2,5 krát podporuje hypotézu, že právě jeho klient je otcem dítěte než jiný neznámý muž, předložil soudu jména dalších dvou mužů (O2 a O3), se kterými měla matka styk v předpokládané době početí dítěte. O2 a O3 podstoupili genetickou analýzu, O2 měl v lokusu 1 genotyp AC, O3 – BB. Důkazní materiál se rozšířil, protože teď zahrnoval genotypy O2 a O3. Musíme tedy uvažovat o dalších hypotézách: H3 – O2 je biologickým otcem dítěte D, H4 – O3 je biologickým otcem dítěte D. Pokud by oba nařčení otcové nepodstoupili genetickou analýzu, nebylo by potřeba vytvářet další hypotézy, protože pravděpodobnost E, za předpokladu toho, že O2 nebo O3 je biologickým otcem dítěte D, by se rovnala pravděpodobnosti E za předpokladu toho, že biologickým otcem dítěte D je neznámý muž (P(E|H2)), nebo-li muž, u nějž neznáme genotyp. Protože víme, jaký genotyp má v lokusu 1 muž O2, je P(E|H3) hodně malá. Dítě muselo od otce zdědit alelu B, to znamená, že možný biologický otec musí mít minimálně jednu alelu B. Genotyp O2 v lokusu 1 je AC, takže P(E|H3) se rovná mutační frekvenci (mutace u otce během vytváření gamet) plus míra chybovosti použité analýzy (bohužel velmi obtížně zjistitelný údaj). P(E|H4) je téměř jedna, snížena o míru chybovosti metody, pokud tento údaj lze zjistit. O3, který má v lokusu 1 genotyp BB, může předat svému dítěti jenom alelu B. Pokud by O3 měl v lokusu 1 stejný genotyp jako O1, je tento důkaz irelevantní, protože nijak neovlivňuje pravděpodobnost H1 a H4. Níže uvedená tabulka ukazuje pravděpodobnosti důkazu za předpokladu různých hypotéz (Tab. 1).
18
Na tomto příkladu vidíme, že relevantnost neboli síla důkazu se mění v závislosti na zvolených hypotézách. Tab. 1: Změna pravděpodobnosti důkazu v závislosti na zvolených hypotézách. Jmenovatel→ Čitatel ↓ E|H1 E|H2 E|H3 E|H4
E|H1
E|H2
E|H3
E|H4
0,4 ≈0 2
2,5 ≈0 5
∞ ∞ ∞
0,5 0,4 ≈0 -
Srovnání frekventistického přístupu s Bayesovským Na začátku bych chtěla zdůraznit, že každý z přístupů se hodí na jiný okruh problémů a jak jsem již psala, forenzní genetika stojí na pomezí klasických pokusů v laboratoři a analýzy jedinečných případů. Abychom mohli srovnávat tyto dva přístupy, musíme nejprve vědět, co definuje slovo „pravděpodobnost“ v těchto dvou přístupech. Bayesovská pravděpodobnost je subjektivní odhad. Pravděpodobnost v Bayesovské analýze je subjektivní kvantita vyjadřující sílu víry (míru důvěry) v pravdivost výroku. Frekventisté, jak je již patrné z názvu, vymezují pojem „pravděpodobnost“, jako dlouhodobou četnost neboli frekvenci určitého jevu. Frekventistický přístup ve forenzních vědách je spojen s frekventistickým přístupem v teorii pravděpodobnosti, ale není úplně totožný. Na první pohled se frekventistická definice pravděpodobnosti může zdát jako zcela objektivní. Ovšem není tomu tak úplně. Frekvence nějakého jevu je počet případů, kdy tento jev nastal z celkového počtu případů. Otázkou je, z jaké celkové množiny případů tuto frekvenci určujeme. Uvedu příklad: máte případ znásilnění, násilník zanechal na místě činu vzorek DNA. Použijete frekventistický přístup a určíte frekvenci profilu. Subjektivita spočívá v tom, jak budete tuto frekvenci určovat. Zda ji určujete z celkové populace ČR, nebo jenom z kraje či z města, kde se případ stal. Shrňme rozdíl mezi frekventistickým a Bayesovským přístupem. Výrok frekventistů: pokud je pravděpodobnost, že padne orel, 50%, potom v 50% případů padne orel. Výrok Bayesovců: pravděpodobnost toho, že zítra bude pršet, je 50%. Pro frekventisty je toto tvrzení nepochopitelné, protože určuje pravděpodobnost jedinečného jevu a nemůže odkazovat na relativní dlouhodobou frekvenci velkého počtu pokusů. Frekventistický postup ve forenzních vědách obsahuje sadu intuitivních kroků, které lze rozdělit do dvou částí: pravděpodobnost náhodné shody a pravděpodobnost vyloučení (Buckleton, 2005). Pro zjištění obou těchto pravděpodobností jsou důkazy testovány jenom za předpokladu jedné hypotézy. Pokud jsou důkazy za předpokladu této nulové hypotézy málo pravděpodobné, potom podporují alternativní hypotézu. Pravděpodobnost náhodné shody kupříkladu určuje, zda vzorek pochází z podezřelého, a nebo je tato shoda náhodná. Příklad: na místě činu je nalezena krevní stopa, která má v lokusu 1 genotyp AA (E). Genotyp podezřelého a vzorku z místa činu se shodují. Testujeme H0: stopa nalezená na místě činu pochází z osoby, která není příbuzná 19
s podezřelým. Pokud je v relevantní populaci tento genotyp u jedné z 100 000 osob, potom P(E|H0) = 1/1000000. Protože je tato pravděpodobnost malá, je zřejmé, že důkazy podporují alternativní hypotézu. V tomto kontextu je alternativní hypotéza H1: stopa nalezená na místě činu pochází z podezřelého. Slovní závěr této analýzy zní: „DNA profil se u přibližně 1 z 1 000 000 lidí bude shodovat s DNA profilem krevní stopy.“ Pravděpodobnost vyloučení je založená na stejném principu. Pomocí ní určujeme, jaká je pravděpodobnost, že je náhodná osoba vyloučena jako zdroj DNA, biologický otec, atd.. Postup logického uvažování v případě shody DNA podezřelého a stopy je následující: „Podezřelý není vyloučen. Existuje pravděpodobnost, že náhodná osoba je vyloučena. Z toho lze předpokládat, že podezřelý není náhodná osoba. Důkazy tedy podporují alternativní hypotézu, že vzorek pochází z podezřelého. Čím větší je pravděpodobnost vyloučení, tím více je podporována alternativní hypotéza.“ Slovní závěr pravděpodobnosti vyloučení zní: „Přibližně 99,99999% mužů je vyloučeno jako zdroj DNA krevní stopy z místa činu.“ Aplikace frekventistického přístupu na DNA profilování je nevhodné. V mnoha případech podává zavádějící nebo nesprávnou informaci a jen v málo případech dokáže to, co Bayesovský přístup vždy. Úloha znalce Na závěr bych ráda shrnula, co by mělo a nemělo být úlohou znalce. Pokud znalec používá Bayesovu větu pro analýzu DNA profilů, potom by měl počítat pouze věrohodnostní poměr. Tato část Bayesovy věty analyzuje získané důkazy ve světle dvou zvolených hypotéz. Pokud chce podávat jako výsledek výslednou pravděpodobnost (například otcovství), je dobré soudci tabulkově předložit výpočet pro rozdílné výchozí pravděpodobnosti, ze kterých si může vybrat. Znalci se často setkávají s tím, že soudce od nich požaduje buď deterministickou odpověď, anebo pravděpodobnost viny nebo například otcovství. Otázka, zda má znalec takový posudek poskytnout, i když ví, že k tomu nemá právo a dostatek informací, přechází do oblasti znalecké etiky a netýká se již statistiky. Na tuto otázku musí každý znalec odpovědět samostatně. Je potřeba si vybrat, zda je lepší „nesprávný, ale snadno pochopitelný“ závěr, nebo správný, který vyžaduje dodatečné vysvětlení a nebo uvedení příkladů pro snadnější pochopení. Seznam použité a doporučené literatury Aiken Colin (2001), Interpretation of the value of evidence, Problems of Forensic Sciences, vol. XLVI, 2001, 14–23 Tento článek se podrobně zabývá chybami v interpretaci Bayesovy věty. Aitken Colin, Taroni Franco (2004), Statistics and the Evaluation of Evidence for Forensic Scientists. John Wiley & Sons, ISBN 0-470- 84367-5 Kniha, která kombinuje jak statistiku potřebnou pro populační studie, tak i Bayesovskou statistiku a její následnou interpretaci.
20
Balding David (2005), Weight-of-Evidence for Forensic DNA Profiles. John Wiley & Sons, ISBN 0-470-86764-7 Kniha se nejvíce specializuje na problém “crime on island”. Buckleton John, Triggs Christopher, Walsh Simon (2005), Forensic DNA Evidence Interpretation. CRC Press, ISBN 0-8493-3017-3 Velmi srozumitelná kniha, obsahuje velké množství příkladů určování příbuznosti. Butler John (2010), Fundamentals of Forensic DNA Typing. Elsevier Academic Press, San Diego, ISBN 0-123-74999-4 Bible forenzní genetiky. Drábek Jiří (2011), Interpretace DNA profilů při určování otcovství a příbuznosti. ISBN 978-80-263-0066-3 První forenzně-genetická kniha v češtině, kde jsou v kostce vysvětleny téměř všechny postupy určování příbuznosti. Evett Ian, Weir Bruce (1998), Interpreting DNA evidence. Sinauer Associates, ISBN 087893-155-4 Jedna z mých nejoblíbenějších knih. Má několik částí: populační genetika, určování příbuznosti, identifikace, směsi. Fung Wing-Kam, Hu Yue-Qing (2008), Statistical DNA Forensics: Theory, Methods and Computation. John Wiley & Sons, ISBN 0-470-06636-2 Vhodná pomůcka pro určování příbuzenských vztahů, obsahuje návody k volně dostupnému programu pro určování příbuznosti a identifikaci. Goodwin William, Linacre Adrian, Hadi Sibte (2011), An introduction to forensic genetics. John Wiley & Sons, ISBN 0-470-71018-7 Snadno pochopitelná kniha, vhodná pro seznámení s forenzní genetikou. Kaye David (2010), The Double Helix and the Law of Evidence. President and Fellows of Harvard College, ISBN 0-674-03588-7 Kniha obsahuje hodně příkladů soudních líčení, ve kterých byly použity DNA důkazy. Lucy David (2005), Introduction to Statistics for Forensic Scientists. John Wiley & Sons, ISBN 0-470-02201-9 Dobrá kniha pro seznámení se statistikou, obsahuje příklady z forenzních věd. Robertson Bernard, Vignaux Tony (1995), Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley & Sons, ISBN 0-471-96026-8 Přestože se tato kniha zabývá nejrůznějšími problémy interpretace forenzních důkazů a předkládá všechny základní pravidla intepretace, neobsahuje téměř žádné vzorce a je velmi čtivá.
21
Scheck Barry, Neufeld Peter, Dwyer Jim (2003), Actual Innocence: When Justice Goes Wrong and How to Make it Right. New American Library, ISBN 0-451-20982-6 Beletrie, která popisuje osudy lidí, kteří byli neprávem odsouzeni. Motivační čtení pro pochopení důležitosti správné interpretace důkazů. Šimková Halina (2012), Breviář forenzní genetiky: forenzní genetika v otázkách a odpovědích, Tribun EU, s.r.o. 978-80-263-0247-6 Nejlepší česká popularizující kniha o forenzní genetice se základními principy pro právnickou veřejnost, se šťavnatými historkami a nepřekonatelnými obrázky. Taroni Franco, Bozza Silvia, Garbolino Paolo, BiedermannAlex, Aitken Colin (2010), Data Analysis in Forensic Science: A Bayesian Decision Perspective. John Wiley & Sons, ISBN 0-470-99835-0 Kniha hlouběji seznamuje s Bayesovou větou a její aplikací ve forenzních vědách.
22