Populációgenetikai szoftverek ismertetése, alkalmazása populációk összehasonlítására Tanszéki Szeminárium 2011.11.03. Kovács Szilvia
Populációgenetikai szoftverek • Egyszerű mutatók, genetikai távolságok kiszámítására (Ho, He, HWE, LE, AMOVA, Mantel test… stb.): – Széles körben használt: Arlequin – Excel makrók: Genalex, Ms Tools – Mikroszatellitákra: – Haploid adatokra: DnaSp (haplotípus, nukleotid diverzitás) – Genetikai távolságok vizualizálása: Genetic Studio – R csomagok: „HardyWeinberg”, „ade4”, „pegas”, „ape”, „vegan”,…..
Populációgenetikai szoftverek • „Individual based” módszerek • Structure • Baps
– Térbeli modellek is: • Tess • Geneland
Arlequin http://cmpg.unibe.ch/software/arlequin3
Hátránya: bonyolult input file
HWE és LE • A Hardy–Weinberg-törvény a genetika egyik törvénye. Kimondja, hogy egy populáción belül nemzedékről nemzedékre a relatív allélgyakoriság változatlan marad. • p+q=1 • p² + 2pq + q² = 1 • Kapcsoltsági egyensúly: a vizsgált markereknek egymástól függetlenül kell öröklődniük és az egyes allélok sem lehetnek kapcsoltak
Arlequin • AMOVA φST értékek kiszámítása, haploid adatokra
FST és permutált értékek a (populációk közötti haplotípusokból)
Arlequin • AMOVA FST értékek kiszámítása, diploid adatokra
FST és permutált értékek a (populációk közötti genotípusokból)
Arlequin • AMOVA FIS értékek kiszámítása
FST és permutált értékek az (egyedek között, a populációkon belül)
Páronkénti FST és φST értékek Carpathian B Thrakia
Macedonia
Anatolia
Carpahian B Thrakia
0.046*** 0.219***
Macedonia
0.038*** 0.292***
0.085*** 0.182***
Anatolia
0.018*** 0.297***
0.003 0.036
0.020* 0.172**
Caucasus
0.065*** 0.025
0.141*** 0.167***
0.078*** 0.224***
0.075*** 0.191***
Caucasus
Genetic studiotávolságok nincs térbeli modell Nei's genetic Distance among region Table 3: Pair-wise matrix of genetic distances calculated among the stratum variable region. AZ BG CB MAC TUR UKR 0.0000 0.2056 0.1250 0.1528 0.1667 0.1130 AZ 0.2056 0.0000 0.0739 0.1440 0.0412 0.1526 BG 0.1250 0.0739 0.0000 0.0807 0.0718 0.0945 CB 0.1528 0.1440 0.0807 0.0000 0.1124 0.1887 MAC 0.1667 0.0412 0.0718 0.1124 0.0000 0.1583 TUR 0.1130 0.1526 0.0945 0.1887 0.1583 0.0000
Genetic studio
• Gráf: populációkat köti össze genetikai távolságok alapján:
Geneland http://www2.imm.dtu.dk/~gigu/Geneland/
• Feladat: genetikai adatok alapján besorolja az egyedeket meghatározott mennyiségű populációkba • Feltétel: a populációkban a lókuszok között HardyWeinberg equilibrium és linkage equilibrium van • Több modellel dolgozik, a legnépszerűbb modell az adatok térbeli koordinátáit is használja • R library(Geneland) Geneland.GUI()
Input file • 1. file: genitípusok: nincs fejléc – Haploid (haploid élőlények vagy mt) egész számok L oszlopban • Mikroszatellita • SNP-k
– Diploid, kodomináns: egész számok 2L oszlopban • Mikroszatellita • SNP-k
– Domináns: egész számok L oszlopban (0-1 AFLP)
• 2. file: térbeli koordináták síkvetületű!!!! 2 oszlopban: x, y • 3. file: egyedazonosítók: 1 oszlop
Output • Becslés a HWLE lévő genetikai populációk számára • Térkép az egyes genetikai populációk elhelyezkedéséről • Minden egyedre megadja, hogy melyik becsült genetikai populációba lett besorolva • A térkép minden pixelére megadja, hogy melyik becsült genetikai populációba lett besorolva – A pixelek számát beállíthatjuk a jobb felbontás érdekében
• További lehetőségek: páronkénti Fst-k kiszámítása, Fis kiszámítása
Modellek – K: a populációk száma (ezt keressük) • Uniform eloszlása van 0 és a felhasználó által megadott Kmax között
– Populációs besorolás minden egyedre és minden pixelre
Mixture modell • Diploid adatokra – Az adatsor minden egyede (n) besorolható (K) HWLEben lévő genetikai populációkba (L) lókusz alapján – fklj a gyakorisága a k-adik genetikai populációban az l lókusz j alléljának, pi az i-edik egyed populációs tagságának valószínűsége – Az i-edik egyed l-edik lókusznak genotípusa: – A modell likelihood-ja:
–
, ha (heterozigóta)
(homozigóta), egyébként 0
Mixture modell • Haploid adatokra – Az allél gyakoriságok és a populációs besorolások alapján a genotípusok multinomiális eloszlásúak – Linkage equilibrium a feltétele
Uncorrelated modell • Az allél gyakoriságok a keresett genetikai populációkban ismeretlenek • Ismeretlenként szerepelnek a számításban (nem ezek értékét keressük) • Minden genetikai populációra és lókuszra kiszámolt egyenletek vektorai egybe vannak foglalva (fkl1, fklJ) • fklj-nek Dirichlet eloszlást feltételezve: • A modell likelihood-ja:
• Ez a valószínűség nem függ fklj aktuális értékétől és mindig ugyanazt a prior probability-t adja minden allél frekvenciára
Correlated modell • Az allélgyakoriságok hasonlóak az egyes genetikai populációkban (pl.: a ritka allélok minden populációban ritkák) • Korrelációval fejezhető ki a fklj és fk’lj között (k és k’ különböző genetikai populációk) • A modellben van egy gyakoriság megadva az ős populációra: fAlj, melynek szintén Dirichlet eloszlása van • Egy vektorban meg vannak adva az egyes genetikai populációk drift (genetikai sodródás) paraméterei (d1...dK) • fkl|fA, d –nek Dirichlet eloszlása van
Correlated modell • Allél gyakoriságok korrelációja a genetikai populációk között:
• Drift paraméter dk [0,1] priorja béta eloszlású • Ez a modell könnyebben mutat ki különbséget a genetikai populációk között • Instabilabb, ezért először használjuk az uncorrelated modellt és utána nézzük meg, hogy a correleted hogyan módosítja azt
Non-spatial modell • p: a valószínűsége annak hogy az adott populációba tartozik az egyed, ez minden egyedre minden genetikai populációra (K) ki van számolva • p=(c1...cn), ahol • A modell likelihood-ja: • 100 egyed, két genetikai populációt feltételezve:
Spatial modell • Térbeli mintázatot feltételez, valamilyen barrier megléte miatt a génáramlás limitált az egyes populációk között • A program a Poisson-Voronoi tessellation modell-t használja – Feltételezi, hogy van m ismeretlen számú poligonunk, ami kb. lefedi a térbeli populációs mintázatot – A poligonok középpontjai: u1...um és minden poligonhoz tartozik egy genetikai populáció a Kból (különböző színnel vannak jelölve a populációk)
Poisson-Voronoi tessellation modell • A poligonok száma poisson eloszlást követ paraméterei: • m db független középpont u1...um uniform eloszlással • minden ui pont meghatároz egy Vi ponthalmazt a térben, ami közel van ui-hez és minden más ponttól távol (u1...um)ben, Vi lesz az i-edik cella a Voronoi tessellatioban • A pontokhoz (u1...um ) és a ponthalmazokhoz (Vi.... Vm) hozzárendel egy genetikai populációt {1,....,K} –ból, amik különböző színnel jelennek meg • A színek/genetikai populációk valószínűségi eloszlásokból vannak mintázza, ami uniform eloszlású:
Poisson-Voronoi tessellation modell
Spatial modell • 100 egyed 2 genetikai populációban, ahol a genetikai populációk egy vagy több térbeli poligonból állnak össze
Poisson-Voronoi tessellation modell
• Genetikai populációk száma: 2 • Poligonok száma: 5
• 100 egyed 2 genetikai populációban (K=2) 10 poligon (m=10) • A genetikai populáció térbeli területe (D) pár poligon uniójából áll össze • a poligonok középpontjai: ui az első ábrán láthatóak
Null-allél modell • Diploid adatok esetében feltételezzük a HWLE-ot a populációkbanHa túl sok null-allél van a mintában torzíthatja a modellt, sérül a HWLE • MCMC-fv.ben: filter.NA=TRUE, EstimateFreqNA • Null-allél: sikertelen PCR az adott lókuszra, adott allélra – 0-val van kódolva – Informatív lehet, ha mutáció miatt nem épül be a primer – Viszont, ha mi rontottuk el a PCR-t akkor inkább legyen hiányzó adat: miss.loc-al kódolva • Ha csak pár helyen hiányzik vigyázzunk vele: mert ha nullmodellt használunk azokat az egyedeket, amiknél hiányzik a lókusz, nagyon hasonlónak veszi!!!
Coordinates uncertainty modell • 1. az egyedek helyhez kötöttek, mégis a koordináták csak bizonyos pontossággal lettek felvéve • 2. az egyedek helyhez kötöttek és a detektált elmozdulásuk a megfigyelési eseményhez köthető • 3. ha az egyedek mozgás körzete (home range-e) nem elhanyagolható a vizsgálati terület nagyságához képest • 4. ha több egyednek ugyanaz a koordinátája (mivel kerülhetnek különböző populációkba immigránsok detektálása) • Megfigyelt koordináta az összege a valós koordinátának és egy random zajnak • Az MCMC fv-ben: delta.coord>0
Admixture modell • Az egyedek leszármazása kevert • Ennek a modellnek a likelihood-ja hasonló a Structure modelljéhez • q= (qik) mátrix, ahol qik megmutatja, hogy az iedik egyed genomjának hányad része származik a k-adik klaszterből (genetikai populációból) • diploid genotípus esetén a modell likelihoodja:
• Haploid:
Admixture modell • Az admixture arányt kifejező minden vektor qik= q(ik)k=1,...,K Dirichlet-eloszlást követ • dik az i-edik egyed távolsága a k-adik klasztertől (0, ha a k-adik genetikai populációban lett mintázva)
Admixture modell • Várható értéke: • Ha K=2 klaszter és létezik a hibrid zóna és iedik egyed a klaszter 1-hez tartozik (di1=0):
Admixture model • A várt admixture arányok térbeli változása K=2 genetikai populáció estén: piros: qi1, zöld: qi2 szigmoid görbék
Geneland modellek • stochastikus • ---> determinisztikus függés • .....> admixture
PoissonVoronoi tesselation
Admixture
Correlated
Algoritmus MCMC • varnpop=TRUE popok ismeretlenek ezeket szimuláljuk • npopmax=10 max 10 pop van • spatial modell • correlated modell-el kombinálva • 100 000 MCMC iteráció • Minden 100-dik lesz elmentve összesen 1000
Ha n=100-300 és L=10-30, akkor 100 000 iterációra és 100 thinningre van szükségünk munkakönyvtár
Algoritmus PostProcess • Végső becsléseket és térképeket készíti el: • nxdom, nydom: a vizsgálati terület horizontális és vertikális felbontása pixelekben • 200 mentett iteráció
Eredmény 1 • Genetikai populációk száma, itt K=2
Eredmény 2 • Posterior populációs besorolása az egyedeknek
Eredmény 3
• Tessalatio-s ábrák
Eredmény 4 • F-statisztikák
Különböző modellek outputjainak összehasonlítása • Az átlagos posterior probabilitás alapján csak ugyanolyan beállításokkal futott modelleket lehet összehasonlítani (pl. Ugyanaz a modell beállítás különböző K értékekre) • Megnézhetjük, hogy konvergál-e az MCMC • Amely modellhez a vizsgálati alanyunk jobban illik – Priori: info a diszperziójáról, génáramlásról, barrierekről – Posteriori: genetikai popok száma (K) illeszkedik a térbeli mintázatra (pl.: nincsenek fals populációk)
Structure • • • •
http://pritch.bsd.uchicago.edu/structure.html Geneland-hez hasonlóan egyedi alapú modellek Térbeli koordinátákat nem használja 4 fajta modell az egyedek leszármazása szerint: – 1. mixture modell: egy adott egyed egy pop-ból származik – 2. admixture modell: minden egyed genomjában van a K darab genetikai populációéból valamennyi – 3. linkage modell: olyan mint az admixture modell, csak bizonyos lókuszok bizonyos populációkból együtt jönnek – 4. informatív priorú modellek: a minták származási helyét használja POPLOC, vagy valamilyen infot az egyedekről USEPOPINFO
Allélgyakoriság 2 modellje • 1. uncorrelated modell: az allélgyakoriságok függetlenek minden populációban és egy λ paraméterű eloszlásból származnak (default: λ=1) • 2. correlated modell: – PA többdimenziós vektort használ, mely tartalmazza az allélgyakoriságait egy hipotetikus „ős” populációnak – A K genetikai populációban egymástól független genetikai sodródás (drift) ment végbe: F1,F2,....,FK – PA priorja Dirichlet eloszlású:
Correlated modell • Lókusztól függetlenül az allélgyakoriság priorja a k genetikai populációban:
• Fk priorja gamma eloszlású (default: mean: 0.01, sd: 0,05)
K-becslése • Futás: – Burn in 10 000-100 000 bőven elég – Ennél több kell a Pr(X|K) pontos becsléséhez
• MCMC –t lefuttathatjuk az egyes K-kra többször is, hogy megnézzük milyen konzisztens lesz a becslés • Eredmény: Ln Prob of Data ~ ln Pr(X|K) – Legnagyobb értékhez tartozó K-t választjuk
K-becslése • Vigyázat!!! • K-nagyon függ a futások számától • Függhet a kiválasztott modelltől, a használt modellt úgy válasszuk, hogy illeszkedjen az adatainkra, sajnos sok választási lehetőség van: – mixture-admixture – Uncorrelated-correlated – Van prior info a popokról- nincs prior info
K-becslése • Általában a plato kezdetét fogadják el K becslésénél • Lehetnek fantom populációk is, ábrákon ellenőrizzük
-3700
Színek: különböző genetikai populációk Az ábra megmutatja, hogy milyen valószínűséggel tartoznak az egyedek a becsült genetikai populációkba Itt K=4 volt, mégis a 4. pop-ba (kék) nem tartozik egy egyed sem
-3800
Ln Pr (X | K)
X-tengelyen az előre definiált populációink egyedei vannak (input file-ban megadjuk)
-3900
-4000
1
2
3 K
4
K-nagyon függ a futások számától • 3 becsült genetikai populáció szétválása
K-nagyon függ a futások számától • 3 becsült genetikai populáció szétválása
K-nagyon függ a futások számától • 3 becsült genetikai populáció szétválása
K-nagyon függ a futások számától • 3 becsült genetikai populáció szétválása