Filogenetika
Az evolúció az adatok mögött
Ortutay Csaba, PhD 2013 április 9
Miről lesz ma szó? Nukleotid szubsztitúciós modellek
Kiegészítő módszerek □
Távolság alapú módszerek □
UPGMA
□
□
Neighbor joining
□
Modell alapú filogenetika □
Maximum likelihood
□
Bayesian inference
Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping)
2
A modell fogalma a filogenetikában □
Parszimónia ◊
□
Távolság alapú módszerek ◊
□
Fa-topológia Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák)
Modell alapú filogenetika (ML + Bayes) ◊ ◊
◊
Fa-topológia + ághosszak Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák) Egyéb paraméterek (pozíciók variabilitása)
A mutációk telítődnek
Nukleotid szubsztitúciós modellek □
DNS szintű evolúció
□
Szilárd matematikai alapok
□
Egyes modellek különbözőképpen veszik figyelembe ◊
Nukleotid frekvenciákat ◊ ◊ ◊
◊
1/4 Adatokban mért Modellel becsült
Mutációs rátákat ◊ ◊ ◊
Uniform Tranzíciók/transzverziók Időfüggetlen/függő
Jukes-Cantor modell
□
JC69 modell (Jukes és Cantor, 1969)
□
Egységes (1/4) bázisfrekvencia
□
Egyetlen mutációs ráta: μ
A JC modell tulajdonságai
A JC modell tulajdonságai
További modellek □
K80 model (Kimura, 1980) ◊
□
Tranzíciók és transzverziók
TN93 model (Tamura és Nei 1993) ◊
HKY model (Hasegawa, Kishino és Yano 1985) ◊
◊
□
□
Egyedi bázisfrekvenciák Gyakran használt ML-hez
T92 model (Tamura 1992) ◊
GC tartalom
□
Több féle mutációs ráta + Egyedi bázisfrekvenciák
Általános időreverzibilis model (Generalised timereversible – GTR) ◊
Összes lehetséges mutációs ráta külön kezelve
Különféle szubsztitúciós modellek kapcsolatai
Szubsztitúciós modellek használata □
Távolság alapú módszerekben szekvenciatávolságok számolására ◊
□
Modell kiválasztása: kevesebb paraméter, kevesebb zaj: JC vagy K80
Modell alapú filogenetikában a szekvencia evolúció modellezésére ◊ ◊
Modellt illeszteni kell az adatokhoz A szükséges legkevesebb paramétert kell használni
Távolság alapú filogenetika Az alap megközelítés 1. Karakterek szelekciója/szekvenciák illesztése 2. Köztes távolság mátrix generálása 3. Fa gyártása a távolság mátrixból
Két szekvencia/gén/faj távolsága
0.1 0.3
c 0.05
0.03
b a
a b c
a 0.08 0.45
b 0.08 0.43
c 0.45 0.43 -
Egyszerű távolság mátrix létrehozása Archeop Allosa teryx urus
Plateosaurus
Tricer atops
Különböző karakterek száma ● Metrikák Nukleotid szubsztitúciós modellek ● Modell variánsok Aminosav szubsztitúciós mátrixok ● PAM vs BLOSUM
●
●
A
1
1
1
1
B
0
0
0
1
C
0
0
0
1
D
0
0
0
1
E
1
1
1
0
F
1
1
G
1
3
0 Archeo 0 3 pteryx3
●
Archeo pteryx
Allosaur Plateous saurus
Tricerat ops
-
2
3
7
Allosaur us
2
-
1
5
Plateosaurus
2.24
1
-
4
Tricerat ops
3
2.24
2
-
Aminosav szubsztitúciós mátrixok
□
Az aminosavak kémiai (töltés, polaritás) és fizikai struktúrális tulajdonságok alapján ◊
□
A genetikai kód és a kémiai tulajdonságok alapján ◊
□
Karlin és Ghandour (1985, PNAS 82:8597) Dooloittle (Feng et al., 1985 J. Mol. Evol. 21: 112)
Empirikus mátrixok ◊
PAM & BLOSUM
PAM vs. BLOSUM mátrixok PAM □
□
□
Explicit evolúciós modellek (valódi fák) alapján – parszimónia Teljes hosszú szekvenciák illesztése résekkel Csak PAM1 számolt, a többi mátrix ennek extrapolációja
BLOSUM □
□
□
Nincs mögötte evolúciós modell Szekvencia részletek résmentes illesztése Különféle mátrixok különböző mértékben hasonló fehérje csoportból számoltak
Hogyan lesz a távolság mátrixból fa? □
Számos matematikai lehetőség ◊
□
Clustering
Leggyakoribb módszerek ◊
UPGMA
◊
Least squares (LS)
◊
Minimum evolution (ME)
◊
Neighbor Joining (NJ) ◊
Számos fejlettebb módszerhez kiindulási fa
UPGMA mint módszer □
Unweighted Pair Group Method with Arithmetic mean
□
Átlagos kapcsoltásg modell
□
Egyszerű klaszterező módszer
□
Gyökeres fát ad! ◊
Tie (ütközés): Több egyforma távolság a mátrixban
Maga az algoritmus nem kezeli ◊ A megoldás implementáció függő Egyelő mutációs rátát feltételez az adatokon ◊
□
UPGMA fa Ar Archeoptery x Allosaurus
Al -
Pl
Ar
Tr
2
3
7
-
1
5
-
4
Plateosaurus Triceratops
-
Ar
(Pl,Al) Tr -
(Pl,Al) Tr
2.5
7
-
4.5 -
Newick formula (Tr,(Ar,(Pl,Al)))
(Ar,(Pl,Al)) (Ar,(Pl,Al)) Tr
-
Tr 5.3 -
Triceratops Archeopteryx Plateosaurus Allosaurus
Neighbour-joining □
Mohó (Greedy) algoritmus ◊
A helyi optimumok megvalósításával próbálja megtalálni a globális optimumot
□
Csillag alakú fából indul ki
□
Lépésenként két taxont kapcsol össze
□
Gyökértelen fát hoz létre
□
Nem feltételez egyforma mutációs rátát
□
Gyors és hatékony módszer
□
Számos nagyon hasonló implementáció
Modell alapú filogenetika
Maximum likelihood □
Mi a valószínűsége, hogy a megfigyelt adatokat (D) látjuk, ha adott modell (T) igaz? Pr(D|T)
Bayesian inference □
Mekkora a valószínűsége annak, hogy adott modell igaz, ha az adatok adottak? Pr(T|D)
Maximum likelihood és filogenetika □
Az adatok az analízis előtt ◊
Illesztett nukleotid szekvenciák
◊
Modell az evolúciós folyamatokra
Nukleotid szubsztitúciós modell ◊ Fa/fák ◊ Egyéb paraméterek Az eredmények az analízis után ◊
□
◊
Fák a likelihood értékekkel (kisebb – jobb)
◊
Ághosszak
Alapvető működés Mi a valószínűsége, hogy adott fa és modell esetén a megadott szekvenciaillesztést kapjuk meg? Heurisztikus faépítés/keresés NJ fa Fa módosítása
Fa
Pontozás
Legjobbak kiválasztása
Ághosszak valószínűsége
L=3x10-5
L=5.59x10-5
Változó és nem változó pozíciók □
További paraméterek a modellek bonyolításához
□
Nem változó (konzervált) pozíciók ◊
◊ □
Funkcionális helyek (enzim aktív centrumok) Arányuk becsülhető: ML
Az egyes pozíciók variablilitása ◊
Genom különböző régiói különböző mértékű szelekciós kényszer alatt álnak
◊
Gamma distribution
◊
Az eloszlás paraméter (α) definiálja
Modell llesztése az adatokhoz 12
12
10
10
8
8
6
6
4
4
2
2
0
0 0
2
4
6
8
0
10
12
12
10
10
8
8
6
6
4
4
2
2
0
0 0
2
4
6
8
10
0
2
2
4
6
8
10
4
6
8
10
Hogyan döntsünk a modellek közöt? □
Csak semmi tippelés, elő a statisztikával!
□
Iteratív likelihood ratio test ◊
Induljunk a legegyszerűbb modellel
◊
Bonyolítsuk lépésenként
◊
Az egyszerűbb és a bonyolulabb modellel számoljunk ML-t
◊
A nullhipotézisünk: nincs különbség
◊
Végezzünk χ2 próbát ennek tesztelésére
◊
◊
Ha szignifikáns a különbség, vessük el a nullhipotézist Ismételjük addig, amíg új paraméter már nem javítja a modell illeszkedését
Bayesian inference of phylogeny □
Bayesian inference ◊ ◊
◊
□
Nagyon régi módszer a statisztikában Felsenstein 1968-ban javasolta filogenetikára Csupán 2000 körül elég erősz számítógép az implementációhoz
Hatékony numerikus megoldás matematikai alapon ◊
Quick & dirty megoldás
□
Elméleti alapja rendkívül vitatott
□
Nagyon népszerű
Valószínűségek Posterior probability a posteriori
Probability of a model The same as in ML!
Prior probability a priori
D – A bemeneti adat θ – A tesztelt modell: fa + evolúciós model
Bayes alapú filogenetika algorimikus vonatkozásai □
Markov chain Monte Carlo módszer ◊
MCMC
□
A valószínűségi eloszlások okos mintavételezése
□
Előre becsli a paraméterek eloszlását
□
Két párhuzamos becsléssor
□
Nincs előre meghatározott vége a futtatásnak ◊
A kutató állítja meg, amikor már elegendően konvergálnak az egyes futtatások
MrBayes □
□
□
Evolúciós modellt előre meg kell adni ◊
Nucleotide substitution model
◊
Pozíciók variabilitását meg kell becsülni
ML-hez hasonló evolúciós modellt vár ◊
Bázisfrekvenciák
◊
Mutációs ráta mátrix
◊
Fa topológia
◊
Ághosszak
Ha nincs a priori becslésünk, az adatokból is meg tudja becsülni
Mikor használjunk modell alapú filogenetikát? □
Nukleotid szekvencia adatok ◊
Néhány: ML
◊
Sok/hosszú szekvenciák: Bayes
□
Ha van ismeretünk a szekvencia evolúcióról
□
Ha szükségünk van a felhasznált paraméterekre
□
Ha sok idő áll rendelkezésre
□
Ha statisztikákkal kell alátámasztanunk az eredményeket
Miről lesz ma szó? Nukleotid szubsztitúciós modellek
Kiegészítő módszerek □
Távolság alapú módszerek □
UPGMA
□
□
Neighbor joining
□
Modell alapú filogenetika □
Maximum likelihood
□
Bayesian inference
Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping)
34
Fák gyökerének meghatározása – a középpont módszer
Fák gyökerének meghatározása – Outgroup módszer
Több fa konszenzusa □
□
□
Fák különböző módszerekkel ugyanarra az adatbemenetre Több azonos értékű eredményfa Többféle adatforrás ugyanazon fajokra
□
Nukleotid/fehérje fa
□
Zajos adatok
□
Miben közös több fa?
□
A hangsúly a topológián ◊
Ághosszak elvesznek!
□
Strict consensus
□
Semistrict consensus
□
Majority rule ◊
◊
Választható küszöbérték: 50-100%
Konszenzus módszerek
És ha nem ugyanazon taxonok vannak a fákon? □
□
Fák összehasonlítása különbző forrásokból ◊
Referencia fa az irodalomból
◊
Nem minden genomból van orthológ
Legnagyobb közös fa ◊
□
Legkisebb bennfoglaló fa ◊
□
Amiben az összes fa egyetért Ha összerakjuk a részfákat
Software: PhySIC_IST
Szuperfák
Scornavacca C., Berry V., Lefort V., Douzery E.J.P. and Ranwez V. BMC Bioinformatics. 2008, Oct 4;9:413
Adat újra-mintavételezési módszeek
□
Pszeudo-mintákat generál ◊
◊
Nemparaméteres bootstrap – véletlenszerű pozíció válogatás ismétlődéssel Jackknife – az adatok véletlenszerű 50%ának kizárása
□
Fa geerálása a pszeudo-mintákra
□
Konszenzus fa generálása ◊ ◊
50% majority rule Csak topológia! Az ághosszakat újra kell becsülni
Bootstrap értékek interpretálása
□
A belső elágazásokhoz ◊
Megismételhetőség
◊
1-FDR
◊
Adatok mennyire támogatják
Meg kell adni: □
Replikációk számát
□
A filogenetikai módszert
Bayesian posterior valószínűségek és a bootstrap értékek
Egy jól megtervezett filogenetikai analízis □
A szekvenciák kiválasztása ◊
Rerezentatív minta
◊
Outgroup
□
Szekvenciák illesztése
□
A bemeneti adatok (adatfájl) összeállítása ◊
Külső információ hozzáadása ◊ ◊ ◊ ◊
Stepmatrices Információ az egyes pozíciókról Topológiai kényszerek Nem szekvencia információk
Egy jól megtervezett filogenetikai analízis – a filogenetikai módszer □
Távolság alapú módszer ◊
Sok szekvencia
◊
Gyors fa kell
□
Parszimónia
□
Fehérje szekvencia
□
Sok nem szekvencia informácó
□
Maximum likelihood ◊
□
Kevés (nem több, mint 20) nukleotid szekvencia
Bayesian inference ◊
Sok/hosszú nukleotid szekvencia
Egy jól megtervezett filogenetikai analízis □
Fagenerálás ◊
Van a priori fánk, amit használhatunk?
◊
Generáljuk a fákat? ◊
◊
Az összes fát kiértékeljük (kevesebb, mint 10 szekvencia) Heurisztika
Egy jól megtervezett filogenetikai analízis □
□
Az eredmények kiértékelése: megbízható a fám? ◊
Bootstrap/posterior értékek
◊
Konszenzus fák
Megválaszolja az eredmény a biológiai kérdést?