cs44
Původní práce
Stochastické modely v procesu identifikace Dalibor Slovák1 , Jana Zvárová1,2 1 2
Centrum biomedicínské informatiky, Ústav informatiky AV ČR, Praha, Česká republika
Ústav hygieny a epidemiologie, 1. lékařská fakulta, Karlova univerzita, Praha, Česká republika
Souhrn Cíl: Analýza DNA je dnes širokou veřejností přijímána jako zcela standardní a bezchybná metoda, ale za některých okolností může její spolehlivost výrazně klesat. Tento příspěvek se zabývá procesem identifikace a stanovením váhy evidence proti podezřelému a uvedeme v něm hlavní stochastické přístupy k identifikaci osob. Metody: Z Bayesovy věty jsme odvodili vzorec pro stanovení váhy evidence a ukázali jeho použití v modelu ostrovního problému. K výpočtům složitějších situací jsme použili z Dirichletova rozdělení odvozenou beta-binomickou formuli. Výsledky: Z mnoha různých komplikací v modelu ostrovního problému jsme ukázali, jak se vypořádat s nejistotou ve velikosti populace. Beta-binomickou formuli jsme využili k zahrnutí subpopulační struktury a v problematice DNA směsí. Závěry: Zejména vliv populační struktury je dnes nedostatečně prozkoumán. S využitím výsledků H. Kubátové jsme v této oblasti odvodili nové vzorce.
Mgr. Dalibor Slovák
Klíčová slova proces identifikace, vzorec pro stanovení váhy evidence, coancestry koeficient, beta-binomická výběrová formule, DNA směsi
Kontakt: EJBI 2011; 7(1):44–50 Mgr. Dalibor Slovák Centrum biomedicínské informatiky, Ústav informatiky AV ČR, v.v.i. Adresa: Pod Vodárenskou věží 2, 182 07 Praha
zasláno: 20. září 2011 přijato: 24. října 2011 publikováno: 20. listopadu 2011
E–mail:
[email protected]
1
Úvod
Když Alec Jeffreys v polovině 80. let objevil způsob, jak spolehlivě odlišit DNA dvou osob, způsobil tím v kriminalistice doslova revoluci. Využití DNA profilů pomohlo usvědčit pachatele zločinů, které se již zdály být nevyřešitelné, a naopak poukázalo na nevinu lidí již odsouzených. Analýza DNA je dnes širokou veřejností přijímána jako zcela běžný postup, který spolehlivě usvědčí pachatele. Právě tady se ovšem skrývá jeden z hlavních problémů použití DNA - ani tento důkaz není stoprocentní. Může dojít k umístění falešné stopy (pachatelem odhozený nedopalek cigarety, který předtím kouřil někdo jiný), ke špatnému odběru biologických vzorků či jejich poškození, k druhotnému přenosu biologického materiálu. Zabývat se těmito skutečnostmi však není věcí matematiků. Ti jsou postaveni před následující úkol: jestliže vyloučíme EJBI – Ročník 7 (2011), číslo 1
všechny výše uvedené možnosti, jaká je pravděpodobnost, že pachatelem je konkrétní zadržená osoba, máme-li k dispozici DNA profily pachatele a podezřelého? Jak uvidíme dále, odpověď závisí zejména na počtu lokusů, z nichž sestavujeme DNA profil, a variabilitě v každém z nich. Ve forenzní praxi se v současné době využívají genetické profily sestavené z tzv. STR polymorfismů, kde STR značí short tandem repeat (opakované krátké sekvence nukleotidů). STR polymorfismy v sobě jednak ukrývají značnou variabilitu, jednak se vyskytují v oblastech DNA, které nekódují žádný vnější znak, takže z nich nelze získat žádnou informaci např. o zdravotním stavu či predispozici k nějaké chorobě. Díky tomu jsou STR polymorfismy velmi vhodné k identifikaci pro forenzní účely. Numerickou reprezentaci DNA profilu tvoří v každém lokusu dvojice čísel označujících příslušné alely (jednu zděděnou od matky, jednu od otce). Na závěr následují písmena XX nebo XY informující o pohlaví zkoumané osoby. c
2011 EuroMISE s.r.o.
cs45
Slovák, Zvárová – Stochastické modely v procesu identifikace
Počet lokusů se liší stát od státu, od 7 užívaných v Německu až po 16 v České republice. Příkladem systému sloužícího k vytvoření profilu DNA je SGM Plus užívaný ve Velké Británii, který využívá k identifikaci deset lokusů a informaci o pohlaví. Výsledný DNA profil může mít například následující tvar:
Naším cílem je určit podmíněnou pravděpodobnost P(G|E), že za daných okolností je podezřelý skutečně pachatelem vyšetřovaného zločinu. Podle Bayesovy věty platí P(E|G)P(G) . (1) P(G|E) = P(E|G)P(G) + P(E|I)P(I)
Avšak výraz P(E|I) nelze spočítat přímo. Podezřelý je nevinen právě tehdy, když existuje index i ∈ I, že nastává jev Ci . Jev I je tedy ekvivalentní s jevem ∪i∈I Ci a díky Čísla udávají informaci, kolikrát se na daném místě disjunktnosti jevů C platí i opakuje příslušná repetitivní sekvence. Pokud není v poX sledním úseku přítomen celý opakující se motiv, ale pouze P(I) = P (∪i∈I Ci ) = P(Ci ). jeho část, uvede se počet úplných úseků a počet bází i∈I tvořících neúplný úsek. Například alela 32.2 obsahuje 32 po sobě jdoucích stejných úseků a poté ještě dvě báze Odtud úseku dalšího ([10]). Ačkoli DNA každé osoby je unikátní (s výjimkou jed- P(E|I)P(I) = P (E| ∪i∈I Ci ) P (∪i∈I Ci ) = P (E ∩ (∪i∈I Ci )) novaječných dvojčat), DNA profil je pouze restrikcí celé P (∪i∈I Ci ) = = DNA, takže existuje sice malá, ale přesto konečná šance P (∪i∈I Ci ) X (u systému SGM Plus se udává 1 ku miliardě), že dvě neP (E ∩ Ci ) = = P (∪i∈I (E ∩ Ci )) = příbuzné osoby budou mít stejný DNA profil. Z tohoto i∈I X důvodu není možné obvinit nějakou osobu pouze na zá= P(E|Ci )P(Ci ). kladě DNA - vždy zde musí být ještě další usvědčující i∈I evidence. DNA z místa činu může také velmi rychle podléhat Definujme věrohodnostní poměr degradaci, ať už působením bakterií, UV záření či nepříznivých přírodních podmínek. Kvůli kvalitě biologického P(E|Ci ) Ri = , (2) materiálu a/nebo jeho množství není vždy možné zkoumat P(E|G) všechny polymorfismy. Neúplný DNA profil může vypadat jenž vyjadřuje, kolikrát je pravděpodobnost vzniku evinapř. takto: dence E větší za podmínky, že pachatelem je osoba i, než 15, ; 6,9; 11,13; , ; 31,32.2; 14,17; za podmínky, že pachatelem je podezřelý. ,20; ,12; 13,16.3; 15,16; XY. Dále definujme věrohodnostní váhy 15,18; 6,9; 11,13; 22,22; 31,32.2; 14,17; 17,20; 11,12; 13,16.3; 15,16; XY.
Pravděpodobnost jednoznačné identifikace v takovémto P(Ci ) wi = , případě odpovídajícím způsobem klesá, nicméně i velmi P(G) neúplné profily mohou být použity alespoň k vyloučení některých osob. jež vyjadřují, kolikrát je apriorní pravděpodobnost V dalším textu budeme předpokládat, že vyšetřujeme spáchání zločinu osobou i větší než apriorní pravděpodobjen jeden lokus. Zobecnění na větší množství lokusů lze nost spáchání zločinu podezřelým. za předpokladu nezávislosti jednotlivých lokusů provést Potom platí pomocí součinového pravidla, tedy vynásobením jednotli1 vých marginálních pravděpodobností. P . (3) P(G|E) = 1 + i∈I wi Ri
2
Metody Označme • E (evidence) - informace o zločinu (okolnosti, výpovědi svědků, důkazní materiál nalezený na místě činu,. . . ),
Vzorec (3) se obvykle nazývá vzorec pro stanovení váhy evidence.
3
Ostrovní problém
Nejjednodušší aplikací předchozí části je tzv. ostrovní problém. Jedná se o modelovou situaci, kdy je na nepřístupném ostrově s N vzájemně nepříbuznými obyva• I - jev, že podezřelý je nevinen, teli spáchán zločin. Na počátku nemáme žádné informace o pachateli, a tak každému z ostrovanů přidělíme stejnou • Ci - jev, že pachatelem je osoba i, (apriorní) pravděpodobnost spáchání zločinu. Je zjištěno, • I - populace alternativních podezřelých, tj. další že pachatel je nositelem jistého znaku Υ (tímto znakem může být např. alela, resp. dvojice alel, na vybraném lomožní pachatelé vyjma podezřelého. • G - jev, že podezřelý je vinen,
c
2011 EuroMISE s.r.o.
EJBI – Ročník 7 (2011), číslo 1
cs46
Slovák, Zvárová – Stochastické modely v procesu identifikace
kusu), a u podezřelého byl tento znak rovněž nalezen. Jak becné presumpci neviny, můžeme různým osobám moc si můžeme být jisti, že námi nalezený podezřelý je přiřadit rozdílnou apriorní pravděpodobnost, kupřískutečně pachatel? kladu na základě vzdálenosti od místa činu, časové Nejprve pomocí vzorce (2) vypočítáme věrohodnostní dostupnosti nebo možnému alibi. poměr. Buď p frekvence znaku Υ v populaci a předpokláV následujících kapitolách si některé tyto případy rodejme, že evidence E sestává pouze z informace, že DNA zebereme podrobněji. profil podezřelého se shoduje s DNA profilem nalezeným na místě činu. Za platnosti hypotézy G pochází oba tyto Nejistota ohledně N profily od stejné osoby, tudíž je jmenovatel Ri roven 1. 4 Je-li pachatelem osoba i ∈ I, pravděpodobnost vzniku Nejistota ohledně velikosti populace možných alterevidence E lze odhadnout jako p. Protože wi = 1 ∀i ∈ I, nativních podezřelých působí na apriorní pravděpodobje podle vzorce (3) ˜ je náhodná veličina nost P(G). Nechť velikost populace N 1 se střední hodnotou N . Apriorní pravděpodobnost viny . (4) P(G|E) = ˜ je 1+N ·p podmíněně při hodnotě N Je-li například p = 0.01 a N = 100, potom P(G|E) = 1/2. ˜ ) = 1/(N ˜ + 1), P(G|N Předchozí výsledek může být modifikován pro mnoho ˜ neznáme, použijeme střední hodnotu: složitějších (a reálnějších) situací. Podívejme se, pro které ale protože N situace je tento jednoduchý model nedostačující: h i 1 ˜ =E P(G) = E G| N • Bezchybnost testu na znak Υ ˜ +1 N Kromě toho, že test může v malém procentu dávat chybné výsledky, je možné uvažovat i chyby způso˜ +1) není symetrická, ale je alespoň na inFunkce 1/(N bené takzvaně „lidským faktorem“ : kontaminace či tervalu (0, ∞) konvexní. Z Jensenovy nerovnosti pro konzáměna vzorku, z nějž je stav Υ zjišťován, chybné vexní funkci (E[f (x)] ≥ f (E[x])) plyne vyhodnocení výsledku či dokonce záměrná dezinter 1 1 pretace. P(G) = E ≥ , ˜ N +1 N + 1 • Počet obyvatel N Velikost populace N je často pouze odhadnuta a po- neboť E[N ˜] = N. kud dochází u vyšetřované populace k migraci, je Opomenutí nejistoty ohledně hodnoty N tedy působí třeba při stanovení počtu obyvatel počítat s o to ve prospěch obžalovaného. Navíc je tento efekt obvykle vevětší nejistotou. lice malý; pojďme si to ukázat na konkrétních případech. Položme pro ε ∈ (0; 0, 5) • Pravděpodobnost p výskytu znaku Υ v populaci Rovněž hodnota p je obvykle neznámá, a proto se odhaduje na základě relativní četnosti výskytu Υ N − 1 s pravděpodobností ε v podobné populaci, o níž máme více informací. ˜ = N s pravděpodobností 1 − 2ε N Ovšem tato pomocná data mohou být již zastaralá N + 1 s pravděpodobností ε nebo vystihují naši populaci jen zčásti. Potom • Výběr podezřelého Podezřelý obvykle není vybírán z populace náhodně, 1 ε 1 − 2ε ε ale na základě dalších indicií, které zvyšují pravděP(G) = E = + + = ˜ N N + 1 N +2 N +1 podobnost viny. Jinou možností je vybírání pode1 2ε 1 zřelého na základě testování osob z populace na pří= + ≥ N + 1 N (N + 1)(N + 2) N +1 tomnost znaku Υ. Tímto způsobem může dojít k vyloučení osob, u nichž znak Υ nebyl nalezen, a tím a položíme-li ε = 0, 25 a N = 100, potom P(G) je větší ke zmenšení velikosti populace podezřelých osob. než 1/(N + 1) o pouhých 0, 000000485. Podívejme se, co způsobí nejistota ve velikosti popu• Příbuznost a příslušnost ke stejné subpopulaci Pokud je podezřelý (nebo jiná testovaná osoba) no- lace ve vzorci (4): sitelem Υ a zároveň jsou v populaci zahrnuti nějací 1 1 jeho příbuzní, v případě profilu DNA se díky dědič- P(G|E) = X = = P P(Ci ) 1 1 + i Ri P(G) 1 + p P(G) P(Ci ) nosti zvyšuje pravděpodobnost výskytu Υ. Nezvykle i vysoká relativní četnost obvykle vzácného znaku se | {z } často vyskytuje i v rámci stejné subpopulace. =1−P(G) • Stejná apriorní pravděpodobnost spáchání zločinu Ačkoli tento požadavek intuitivně odpovídá všeoEJBI – Ročník 7 (2011), číslo 1
1
= 1+
(N +1)(N +2) p NN 2 +2N +2ε (1
−
N 2 +2N +2ε N (N +1)(N +2) )
=
c
2011 EuroMISE s.r.o.
cs47
Slovák, Zvárová – Stochastické modely v procesu identifikace
= =
1 1+
3 +2N 2 −2ε N p NN3 +2N 2 +2N ε
=
1 . N +1 1 + N p 1 − 2ε N 3 +2N 2 +2N ε
Dosadíme-li opět ε = 0, 25 a N = 100, vychází P(G|E) = 0, 5000124, což se i přes vysokou hodnotu ε liší od původního výsledku 50 %, při jehož výpočtu jsme hodnotu N brali jako pevnou, v řádu pouhé jedné tisíciny procenta. Pokud budeme chtít přesto počítat s nejistotou ohledně N , lze jako velice dobrou aproximaci brát P(G|E) ≈
1 ; 1 + N p (1 − 2ε/N 2 )
v našem příkladě dává tato aproximace výsledek P(G|E) = 0, 5000125, tedy 50, 00125 %. Balding v [1] používá řádově horší aproximaci P(G|E) ≈
5
6
1 , 1 + N p (1 − 4ε/N 3 )
která dává v našem příkladě hodnotu P(G|E) 0, 5000003, to znamená 50, 00003 %.
=
DNA databáze
DNA profily jakožto alfanumerický sled dat umožňují poměrně snadné uchovávání v databázích, od poloviny 90. let proto vznikají národní databáze. V současnosti existují tři hlavní forenzní DNA databáze: CODIS (Combined DNA Indexing System), který spravuje americká FBI, evropská databáze ENFSI (European Network of Forensic Science Institutes) a databáze ISSOL (Interpol Standard Set of Loci) spravovaná Interpolem. Všechny tyto databázové systémy rozdělují získané genetické profily do dvou dílčích databází. Ve forenzní databázi se ukládají biologické vzorky získané na místě činu, v databázi odsouzených potom figurují genetické profily osob v minulosti odsouzených. Tyto dvě databáze jsou pak vzájemně porovnávány a případné shody profilů jsou prověřeny kvalifikovanými odborníky. Každá země má vlastní pravidla, kteří lidé mohou být zařazeni do databáze. Zpočátku byly uchovávány vzorky pouze od pachatelů násilných trestných činů (znásilnění, násilné přepadení či vražda). Postupem času se ovšem zjistilo, že je prospěšné uchovávat vzorky i od pachatelů méně závažných činů. I pachatelé násilných činů totiž obvykle začínají svou trestnou činnost méně závažnými zločiny. Rozsáhlá databáze proto může sloužit rovněž jako odstrašující prostředek. Pokud dojde ke shodě DNA z místa činu se záznamem z databáze odsouzených, obvykle to výrazně napomáhá vyřešení zločinu, navíc za úspory času, úsilí i peněz ([3]). V absolutních číslech je největší národní databází DNA americký National DNA Index System (NDIS). V červenci 2011 obsahovala databáze odsouzených téměř deset miliónů profilů a forenzní databáze přes 380 000 profilů ([7]). c
2011 EuroMISE s.r.o.
V poměru k počtu obyvatel je však největší databází ta nejstarší - britská NDNAD eviduje v databázi odsouzených přibližně šest a půl miliónu profilů. Ve Velké Británii zvedlo vytvoření DNA databáze počet vyřešených zločinů z 24 % na 43 %. O prospěšnosti rozsáhlé databáze svědčí také skutečnost, že šance, že se bude nově získaný DNA profil shodovat s nějakým záznamem z databáze odsouzených, vzrostla ze 45 % v sezóně 2002/03 na 60 % v sezóně 2008/09 ([8]). I z tohoto důvodu má DNA databáze podporu široké veřejnosti. Na druhou stranu se z DNA dají zjistit velmi citlivé osobní údaje, proto je nutné zajistit důkladnou ochranu databáze proti zneužití. Rovněž v České republice došlo po vytvoření DNA databáze v roce 2002 k jejímu rychlému rozvoji a v současnosti národní databáze obsahuje přibližně 90 000 genetických profilů.
Příbuznost a příslušnost k subpopulaci
Alely, které jsou shodné a pocházejí od společného předka, nazýváme ibd alely. Společná nedávná evoluční historie dvou osob, ať už se jedná o příbuzné jedince nebo o příslušníky stejné subpopulace, zvyšuje pravděpodobnost výskytu ibd alel. Jako míra příbuznosti uvnitř subpopulace se proto používá coancestry coefficient θ, udávající pravděpodobnost, že dvě náhodně vybrané alely na pevně zvoleném lokusu jsou ibd. Zanedbání vlivu příbuznosti a populační struktury vede k nadhodnocení aposteriorní pravděpodobnosti viny podezřelého. Ignorování takovéto informace mluví v neprospěch podezřelého, proto je tomuto tématu věnována značná pozornost. Balding a Nichols v [2] navrhli metodu, která skrze coancestry koeficient umožňuje vypočítat pravděpodobnost pozorování daného genotypu ve strukturované populaci. Podrobnější matematické odvození metody včetně několika oprav provedla Helena Kubátová v [6]. Buď pA , pB frekvence alel A a B v celé populaci, k podíl velikosti subpopulace na velikosti celé populace a θ coancestry koeficient pro danou subpopulaci. Potom se pravděpodobnost pozorování genotypu v daném lokusu homozygotním vypočte jako pA − θk (5) P(AA) = pA θ + (1 − θ) 1 − θk a podobně pravděpodobnost pozorování genotypu heterozygotního jako P(AB) = 2pA pB
1−θ . 1 − θk
(6)
Balding a Nichols ve svém odvození nepoužívali proměnnou k. Jejich vzorce dostaneme, pokud položíme k ≡ 1, pravděpodobnosti homozygotních genotypů tedy klesly a pravděpodobnosti heterozygotních genotypů naopak vzrostly. EJBI – Ročník 7 (2011), číslo 1
cs48 7
Slovák, Zvárová – Stochastické modely v procesu identifikace
Beta-binomická formule
příští pozorovaná alela bude Aj :
Vzorce (5) a (6) dostaneme také tehdy, pokud zvolíme obecnější postup navržený Wrightem ([11]). Mějme na daném lokusu J alel A1 , . . . , AJ , majících pravděpodobnost PJ výskytu v populaci p1 , . . . , pJ , i=1 pi = 1. Zastoupení jednotlivých alel v subpopulaci můžeme modelovat Di1−θ . richletovým rozdělením s parametry λpi , kde λ = θ(1−k) P Pravděpodobnost pozorování mi alel Ai ( i mi = n) je potom dána P(m1 , . . . , mJ ) =
J Γ (λ) Y Γ (λpi + mi ) . Γ (λ + n) i=1 Γ (λpi )
(7)
Položme m = (m1 , . . . , mJ ). Vzorec (7) lze upravit na j −1 J mQ Q
P(m) =
P (Gi = GS = D) P (GC = GS = D|Ci ) = = P (GC = GS = D|G) P (GS = D) = P (Gi = D|GS = D) .
Ri
=
Předpokládejme nejprve, že pachatel má homozygotní profil Aj Aj , a vypočtěme, jaká je na základě znalosti této informace pravděpodobnost, že podezřelý má stejný homozygotní profil:
[(1 − θ) pj + θi (1 − k)]
j=1 i=0 n−1 Q
(1 − θ) pj + mj θ (1 − k) . 1 − θ + nθ (1 − k) (9) Označme GC a GS genotyp podezřelého a pachatele a Gi obecně genotyp osoby i. Věrohodnostní poměr (2) můžeme přepsat do tvaru P(mj +1|m1 , . . . , mj , . . . , mJ ) =
= P(Gi = Aj Aj |GS = Aj Aj ) ≡ P(A2j |A2j ) =
Ri .
(8)
= P(Aj |A3j ) · P(Aj |A2j )
[1 − θ + θi (1 − k)]
i=0
Tyto podmíněné pravděpodobnosti dokážeme vypočítat Vzorec (8) se obvykle nazývá betabinomická výběrová pomocí vzorce (9); nejprve do něj dosadíme mj = n = 2, formule a platí pro uspořádané výběry. Budeme-li chtít poté mj = n = 3. Celkem tedy platí pracovat s neuspořádaným výběrem, je třeba výsledek vy[(1 − θ) pj + 2θ (1 − k)] [(1 − θ) pj + 3θ (1 − k)] n! násobit m1 !···m . . Ri = J! [1 − θ + 2θ (1 − k)] [1 − θ + 3θ (1 − k)] Ze vzorce (8) můžeme odvodit i pravděpodobnost pozorování dané kombinace alel: pro J = 2, mA = 2 a mB = 0 dostáváme P(AA)
= = = = =
(1 − θ) pA [(1 − θ) pA + θ (1 − k)] = (1 − θ) [1 − θ + θ (1 − k)] (1 − θ) pA + θ − θk θ − θ2 k pA +θ− = 1 − θk 1 − θk (1 − θ) pA + θ − θk − θ + θ2 k pA θ + = 1 − θk (1 − θ) pA − θk (1 − θ) pA θ + = 1 − θk pA − θk pA θ + (1 − θ) , 1 − θk
což je v souladu se vzorcem (5). Podobně pro J = 2, mA = 1 a mB = 1 dostaneme P(AB) = 2
(1 − θ) pA (1 − θ) pB 1−θ = 2pA pB , (1 − θ) (1 − θ + θ (1 − k)) 1 − θk
což souhlasí s (6).
8
Aplikace beta-binomické formule
Podobně postupujeme pro heterozygotní profil Aj Ak : Ri
= P(Gi = Aj Ak |GS = Aj Ak ) ≡ P(Aj Ak |Aj Ak ) = = P(Ak |A2j A1k )P(Aj |A1j A1k ) + +P(Aj |A1j A2k )P(Ak |A1j A1k ).
Pro vyčíslení obou výrazů na spodním řádku dosadíme mj = 1, n = 2 a mk = 1, n = 3, resp. mk = 1, n = 2 a mj = 1, n = 3. Celkem vychází Ri = 2
9
Směsi DNA
Jestliže ve vzorku DNA nalezneme na jednom lokusu více jak dvě alely, je zřejmé, že se jedná o směs. Počet přispěvatelů do může být známý, nebo se odhadne, směsi obvykle jako n2 , kde n je maximální počet zjištěných alel. Z velkého množství situací, které mohou nastat, ukážeme pro ilustraci případ, kdy do směsi přispívá oběť (V ) a jedna další osoba. Věrohodnostní poměr Ri definovaný vzorcem (2) můžeme nyní napsat jako Ri
Pomocí vzorce (8) můžeme při znalosti dosud pozorovaných alel spočítat podmíněnou pravděpodobnost, že EJBI – Ročník 7 (2011), číslo 1
[(1 − θ) pj + θ (1 − k)] [(1 − θ) pk + θ (1 − k)] . [1 − θ + 2θ (1 − k)] [1 − θ + 3θ (1 − k)]
= =
P (EC , GS , GV |Ci ) = P (EC , GS , GV |G) P (EC |GS , GV , Ci ) P (GS , GV |Ci ) · = P (EC |GS , GV , G) P (GS , GV |G) c
2011 EuroMISE s.r.o.
cs49
Slovák, Zvárová – Stochastické modely v procesu identifikace
=
9.1
P (EC |GS , GV , Ci ) P (EC |GV , Ci ) = .(10) P (EC |GS , GV , G) P (EC |GS , GV , G)
+
Směs čtyř alel
Nejprve se podíváme na případ, kdy je směs tvořena čtyřmi alelami. Předpokládejme, že platí následující podmínky:
[(1 − θ) pC + 3θ (1 − k)] [(1 − θ) pC + 2θ (1 − k)] [1 − θ + 4θ (1 − k)] [1 − θ + 5θ (1 − k)] [(1 − θ) pC + 2θ (1 − k)] = × [1 − θ + 4θ (1 − k)] [(1 − θ) (2pA + 2pB + pC ) + 7θ (1 − k)] × . [1 − θ + 5θ (1 − k)]
V předcházejícím výpočtu jsme předpokládali, že podezřelý je homozygot pro alelu C. Je-li heterozygotem 1. Žádné dvě uvažované osoby nejsou v příbuzenském s alelami A a C, respektive B a C, za platnosti podmínek vztahu. 1 až 3 vzorec (11) zůstává nezměněn; v případě zahrnutí 2. Populace je homogenní (tj. θ = 0). populační struktury dostaneme stejným postupem v obou 3. V populaci platí Hardyova-Weinbergova rovnováha. případech věrohodnostní poměr
Nechť je směs tvořena alelami A, B, C, D se známými celkovými pravděpodobnostmi výskytu v populaci pA , pB , pC , pD ; nechť podezřelý má alely A, B a oběť C, D. Jmenovatel ve vzorci (10) je roven jedné, čitatel je roven pravděpodobnosti pozorování osoby s alelami A, B, což za výše uvedených předpokladů je 2pA pB . Věrohodnostní poměr je tedy roven
Ri
= ×
10
[(1 − θ) pC + θ (1 − k)] × [1 − θ + 4θ (1 − k)] [(1 − θ) (2pA + 2pB + pC ) + 8θ (1 − k)] . [1 − θ + 5θ (1 − k)]
Závěr
Odvodili jsme vzorec pro stanovení váhy evidence a jeho nejjednodušší aplikace. Pro zahrnutí nejistoty ve Předpokládejme nyní, že všechny tři uvažované osoby velikosti populace jsme navrhli lepší aproximaci než Balmají navzájem stejný stupeň příbuznosti vyjádřený coan- ding v ([1]). Ukázali jsme, jak do výpočtu zahrnout subpopulační strukturu, za pomoci nových výsledků z ([6]), cestry koeficientem θ. Potom podle (9) které si v budoucnu jistě zaslouží podrobnější zpracování. Ri = P (AB|ABCD) = 2 [(1 − θ) pA + θ (1 − k)] [(1 − θ) pB + θ (1 − k)] Poděkování . = [1 − θ + 4θ (1 − k)] [1 − θ + 5θ (1 − k)] Tato práce byla podpořena projektem 1M06014 MŠMT ČR a SVV-2011-262514 Univerzity Karlovy 9.2 Směs tří alel v Praze. Ri = 2pA pB .
V případě výskytu tří alel ve vzorku je rovněž potřeba předpokládat minimálně dva přispěvatele do směsi. Uvažujme tedy alely A, B, C s pravděpodobnostmi výskytu v populaci pA , pB , pC . Je-li oběť homozygot pro alelu C, pak dostaneme stejné výsledky jako v případě směsi čtyř alel. Předpokládejme tedy, že oběť je heterozygot s alelami A, B. Nechť podezřelý je homozygot pro alelu C a jsou splněny podmínky 1 až 3. Jmenovatel vzorce (10) je opět roven jedné, čitatel je tentokrát roven pravděpodobnosti pozorování osoby, která má alelu C a zároveň nemá jinou alelu než A, B nebo C. Proto Ri
= P(AC) + P(BC) + P(CC) = = 2pA pC + 2pB pC + p2C .
(11)
K zahrnutí populační struktury využijeme vzorce (9): Ri
=
P (AC|ABCC) + P (BC|ABCC) + + P (CC|ABCC) = 2 [(1 − θ) pA + θ (1 − k)] [(1 − θ) pC + 2θ (1 − k)] = [1 − θ + 4θ (1 − k)] [1 − θ + 5θ (1 − k)] 2 [(1 − θ) pB + θ (1 − k)] [(1 − θ) pC + 2θ (1 − k)] + [1 − θ + 4θ (1 − k)] [1 − θ + 5θ (1 − k)] c
2011 EuroMISE s.r.o.
Literatura [1] Balding D.J.: Weight-of-evidence for forensic DNA profiles, John Wiley & Sons, Ltd, 2005, pp. 15-63 [2] Balding D.J., Nichols R.A.: DNA profile match probability calculation: how to allow for population stratification, relatedness, database selection and single bands, Forensic Science International 64, 1994, pp. 125-140 [3] eNotes. World of Forensic Science. DNA Evidence, Social Issues [online]. 2011 [cit. 2011-9-15]. Available at www.enotes.com/forensic-science/dna-evidence-social-issues. [4] Slovák Dalibor: Stochastic Approaches to Identification Process in Forensic Medicine and Criminalistics, in Doktorandské dny ’11, Matfyzpress, Praha, 2011 [5] The office for personal data protection. Otevřete ústa, prosím... & Databáze DNA [online, in czech]. February 2007 [cit. 20119-15]. Available at www.uoou.cz/uoou.aspx?menu=287 &submenu=288. [6] Kubátová H., Zvárová J. (supervisor): Statistical methods for interpreting forensic DNA mixtures, MFF UK, Praha 2010, pp. 20-26 [7] The Federal Bureau of Investigation. CODIS—NDIS Statistics [online]. July 2011 [cit. 2011-9-15]. Available at www.fbi.gov /about-us/lab/codis/ndis-statistics.
EJBI – Ročník 7 (2011), číslo 1
cs50 [8] The National Policing Improvement Agency. The National DNA atabase [online]. 2010 [cit. 2011-9-15]. Available at www.npia.police.uk/en/8934.htm.
[9] Slovák D., Zvárová J. (supervisor): Statistické metody stanovení váhy evidence v procesu identifikace jedince, MFF UK, Praha, 2009
EJBI – Ročník 7 (2011), číslo 1
Slovák, Zvárová – Stochastické modely v procesu identifikace
[10] The Applied Biosystems. AmpF`STR SGM Plus. PCR Amplification Kit. User’s Manual [online]. 2011 [cit. 2011-915]. Available at www3.appliedbiosystems.com/cms/groups /applied_ markets_support/documents/generaldocuments /cms_041049.pdf, pp. 178. [11] Wright S.: The genetical structure of populations, Ann. Eugen. 15, 1951, pp. 323-354
c
2011 EuroMISE s.r.o.