Bioinformatika 2 − 3. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika – proteomika Előadás és gyakorlat
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés A többszörös szekvencia összerendezés [multiple sequence alignment (MSA)] három vagy több biológiai szekvencia (általában fehérje, DNS vagy RNS) szekvenciájának összerendelése. A páronkénti összerendezéshez képest nő a jel/zaj viszony. ¾ A vizsgált szekvenciák között általában evolúciós kapcsolat van, így a közös ősszekvenciától való genetikai távolság is elemezhető. A szekvenciák közötti homológia viszonyok tanulmányozhatóak és filogenetikai analízis segítségével vizsgálható a közös evolúciós eredet. ¾ A többszörös szekvencia összerendezés eredményének vizuális megjelenítése jól elemezhetővő tesz mutációs eseményeket (pontmutáció − az egyetlen nukleotid / aminosav csere eltérő karakterként jelenik meg; beékelődéses / kitörléses mutációk − ezek egy vagy több szekvencia esetében kötőjelekként jelennek meg). ¾ Többszörös szekvencia összerendezés segítségével meghatározhatóak konzervált nukleotidok / aminosavak, konzervált szekvencia elemek, fehérje domének vagy szekunder / tercier szerkezeti elemek. 2
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés Vizuális megjelenítés (pl. Clustal W) Kétdimenziós táblázat. Sorok: a szekvenciák; Oszlopok: a pozíciók
3
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés Alapfogalmak
Abszolút pozíció: Egy adott aminosav/nukleotid sorszáma az egy adott szekvencián belül. Az adott szekvencia jellemzőjeként ez mindig változatlan. Relatív pozíció: Annak az oszlopnak a sorszáma, amelyben az adott aminosav/nukleotid az összerendezésen belül szerepel. Az összerendezés változtatásával változik. Konszenzus-szekvencia: Az összerendezés összegzéseként nyerhető pszeudoszekvencia, amely egy sorban (általában az összerendezés felett), szimbólumok segítségével összegzi az egyes pozíciók változását/változatlanságát. A pszeudoszekvencia matematikai objektumokból (pl. helyettesítési mátrixok) is állhat.
4
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés Algoritmusok A többszörös szekvencia összerendezés ugyancsak jelenti a három vagy több biológiai szekvencia összerendelésének eljárását / algoritmusát is. A páronkénti összerendezéshez képest a három vagy több biológiai jelentőséggel bíró hosszúságú szekvencia összerendelése kézi módszerekkel igen nehéz és időigényes, számítógépes algoritmusok szükségesek az összerendezéshez és az eredmény analíziséhez. A többszörös szekvencia összerendezés bonyolultabb eljárásokat igényel, mint a páronkénti összerendezés. A páronkénti összerendezés algoritmusainak (Needleman−Wunsch, Smith−Waterman, stb.) egyszerű kiterjesztése többdimenziós mátrixokat igényel, a számításigény a szekvenciák számával exponenciálisan nő. A legtöbb többszörös szekvencia összerendezési algoritmus inkább heurisztikus eljárásokat mintsem globális optimalizálást alkalmaz, mivel már közepes hosszúságú szekvenciák esetén is a néhányat meghaladó számú szekvencia összerendelése igen számításigényes. 5
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés Manuális szerkesztőprogramok A kézi szerkesztőprogramok pl. színezéssel segítik a motívumok felismerését. A kézi igazításra az automatikus összerendezés finomításakor is szükség lehet. Néhány program: BioEdit (http://www.mbio.ncsu.edu/BioEdit/bioedit.html) GeneDoc (http://www.psc.edu/biomed/genedoc/) CINEMA (http://www.bioinf.man.ac.uk/dbbrowser/CINEMA2.1/) SeaView (http://pbil.univ-lyon1.fr/software/seaview.html):
6
2009. 02. 27.
Bioinformatika 2
Többszörös szekvencia összerendezés Progresszív módszerek A progresszív (hierarchikus ill. fa-) módszerek olyan heurisztikus eljárások, amelyek elfogadható időtartam alatt szolgáltatnak megfelelően jó (még ha nem is optimális) összerendezést. A szekvenciák összerendezése több szempont szerint történhet: ¾ Adott szekvencia összerendezése az összes szekvenciával ¾ Szekvenciák összerendezése valamilyen szempont szerinti sorrendben ¾ Szekvenciák összerendezése egy filogenetikai törzsfa elágazásainak sorrendje szerint A progresszív módszerek a többszörös szekvencia összerendezést a páronkénti összerendezések kombinációiként hozzák létre úgy, hogy a leginkább hasonló pártól haladnak a legtávolabbi kapcsolatban levő pár felé. Progresszív mószereken alapuló programok: Clustal, MultAlin
7
2009. 02. 27.
Bioinformatika 2
J.D. Thompson, D.G. Higgins, T.J. Gibson, Nucl. Acids Res., 1994, 22, 4673-4680.
Többszörös szekvencia összerendezés Progresszív módszerek - Clustal Program: Clustal W; W Grafikus felület: Clustal X (http://www.clustal.org/), legújabb verzió 2.1 Online elérés: http://www.ebi.ac.uk/clustalw/ ¾ A szekvenciákon páronkénti összerendezést végez az összes lehetséges módon ¾ A páronkénti összerendezésekből a szekvenciapárok közötti távolságokat számít ¾ A távolságok alapján filogenetikai törzsfát készít, ez a vezérfa. A többszörös összerendezést a vezérfa elágazásainak sorrendje szerint végzi: a legközelebbi szekvenciák összerendezése után ehhez rendezi az egyre távolabbiakat. A megközelítés problémája: a kezdeti, páronkénti, tökéletlen összerendezésekbõl származtatja a vezérfát. A valódi fát a végső összerendezésből lehetne megkapni. Az újabb verziók finomításai: ¾ Az összerendezés pontszámának kiszámításakor a közeli szekvenciákat kisebb súllyal veszik figyelembe azért, hogy a közel azonos szekvenciák ne nyomják el a távolabbiakat ¾ Az aminosav helyettesítési mátrixok változtatása az aktuális összerendezett szekvenciák távolsága szerint ¾ Oldallánc- és pozíció specifikus gap penalty−k 8
2009. 02. 27.
Bioinformatika 2
Chenna, R. et al. Nucl. Acids Res. 2003, 31, 3497-3500.
Többszörös szekvencia összerendezés Progresszív módszerek – Clustal W
Négy oxidoreduktáz NAD kötő domén protein szekvenciáinak összerendezése. 9
2009. 02. 27.
Bioinformatika 2
F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890
Többszörös szekvencia összerendezés Progresszív módszerek - MultAlin
A MultAlin rekurzív eljárás, amely az előállított többszörös összerendezésből újraszámolja a vezérfát, ennek alapján újabb összerendezést készít, ezt addig ismétli, míg már nem javul tovább a pontszám. Hátrány: kezdeti hibák a rekurzió során továbbadódnak
Online elérés: http://bioinfo.genotoul.fr/multalin/
10
2009. 02. 27.
Bioinformatika 2
F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890
Többszörös szekvencia összerendezés Progresszív módszerek - MultAlin Multalin version 5.4.1 Copyright I.N.R.A. France 1989, 1991, 1994, 1996 Published research using this software should cite Multiple sequence alignment with hierarchical clustering F. CORPET, 1988, Nucl. Acids Res., 16 (22), 10881-10890 Symbol comparison table: blosum62 Gap weight: 12 Gap length weight: 2 Consensus levels: high=90% low=50% Consensus symbols: ! is anyone of IV $ is anyone of LM % is anyone of FY # is anyone of NDQEBZ MSF: 134 Check: 0 .. Name: CCPC50 Len: 134 Check: 7173 Weight: 0.71 Name: CCRF2C Len: 134 Check: 1222 Weight: 0.71 Name: CCRF2S Len: 134 Check: 8544 Weight: 1.35 Name: CCQF2R Len: 134 Check: 8341 Weight: 1.12 Name: CCQF2P Len: 134 Check: 1096 Weight: 1.12 Name: Consensus Len: 134 Check: 4972 Weight: 0.00
11
2009. 02. 27.
Öt citokróm C2 protein szekvenciáinak összerendezése. Bioinformatika 2
Többszörös szekvencia összerendezés
Az egyes módszerek eredményei eltérhetnek. Van-e a preferált módszer? Ez nem egyértelmű, az egyes módszerek megbízhatósága változó. Fontos esetekben a követendő eljárás az, ha több módszert eredményeit összevetjük, majd ennek konszenzusát állítjuk elő, adott esetben kézi szerkesztési módszereket is felhasználva.
12
2009. 02. 27.
Bioinformatika 2
Többszörös összerendezés adatbázisok Pfam (http://pfam.sanger.ac.uk/) ( Automatikusan származtatott protein domén / protein család összerendezéseket tartalmaz. Sok, erősen divergens szekvenciákat tartalmazó családok esetében széteső az összerendelés. Pl.: a hisztidin / fenilalanin ammónia liáz család összerendelése a Pfam adatbázisban:
13
2009. 02. 27.
Bioinformatika 2
Többszörös összerendezés adatbázisok ProDom (http://prodom.prabi.fr/prodom/current/html/home.php/) Pl.: a hisztidin / fenilalanin ammónia liáz család összerendelése a ProDom adatbázisban:
14
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis Filogenetikus analízis eszközök: http://evolution.genetics.washington.edu/phylip/software.html/) A filogenetikai analízis az evolúciós események, evolúciós történet elemzésének eszköze. Eredménye általában egy filogenetikai fa (törzsfa). Gyökeres fa:
15
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis Gyökértelen fa:
16
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis A filogenetikus analízist főként DNS szekvenciák alapján végzik, a protein szekvenciák elemzésén alapuló eljárás ritka, nem is eléggé kidolgozott. A filogenetikai törzsfákat generáló eljárások egyféle evolúciós modell érvényességét feltételezik. Az a feltételezés azonban, hogy az evolúció törzsfával ábrázolható nem mindenkor igaz: a hibrid fajok, ill. az egyes szervezetek közt lezajló laterális géntranszfer esetén ez nem áll fenn. További problámakat eredményező feltételezés az, hogy a szekvenciák mind homológok. A filogenetikai analízis eredményét a fentiek értelmében mindig fenntartásokkal kell kezelni. Mivel a múltbeli eseményekre csak következtetni tudunk, de pontos ismereteink nincsenek egy filogenetikai analízis program esetenként nem a valóságnak megfelelő eredményeket eredményezhet.
17
2009. 02. 27.
Bioinformatika 2
A filogenetikai analízis lépései
1. Összerendezés 2. A helyettesítési (tk. evolúciós) modell meghatározása 3. Faépítés 4. A fa kiértékelése
18
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis – Összerendelés (HAL)
Az ismertetett módszerek (Clustal, MultAlin, stb.) kezdetleges filogenetikai analízist végeznek a vezérfa felépítésekor, de ezek nem megbízhatóak 19
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis – Összerendelés Az ismertetett módszerek (Clustal, MultAlin, stb.) kezdetleges filogenetikai analízist végeznek a vezérfa felépítésekor, de ezek nem megbízhatóak
Clustal vezérfa az 5.8S rDNS szekvenciák alapján. Míg a vörösmoszatok (red alga) és a tűlevelűek (conifers) több törzsben szétszórva szerepelnek, a páfrányok (ferns) és mohák (moss) viszont összekerültek.
20
2009. 02. 27.
Bioinformatika 2
Filogenetikus analízis – Összerendelés
A vezérfát és a biológiai háttértudást felhasználva az összerendezést alkalmassá kell tenni az alaposabb filogenetikai analízisre −−> "összerendezés−sebészet". Ennek kivitelezése részletes biológiai / taxonómiai ismereteket és gondos elemző munkát kíván
21
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása Három eleme (paramétere) van: ¾ Bázisgyakoriságok ¾ A bázisok egymás közti cseréjének gyakorisága ¾ A szekvencián belüli pozíciók mutációgyakoriságának heterogenitása Ezek meghatározásának két módja: Empirikus módszer: korábbi elemzésekből meghatározott értékeket használunk fel, mint fix értékeket. Előny: könnyű számíthatóság. Hátrány: az adott adathalmazra nem biztos, hogy jók a paraméterek. Paraméteres módszer: magából a vizsgált adathalmazból vezetjük le a paramétereket. Előny: pontosabb lehet. Hátrány: félrevezethet, ha az adatkészlet nem megfelelő.
22
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása A bázisok egymás közti cseréjének gyakorisága Lehet elõre rögzített mátrix pl.: A A C G T
C − 2 1 2
G 2 − 2 1
T 1 2 − 2
2 1 2 −
A pontszámok a csere költségét mutatják. Purinbázis pirimidinbázisra való cseréje (transzverzió) ritkább, ezért költségesebb, mint a purin−purin és a pirimidin−pirimidin csere (tranzíció). Dolgozhatunk az összerendezésből számított helyettesítési mátrixokkal is: Idõreverzibilis mátrixok: az oda− és visszacsere pontszáma azonos, akkor teljesül, ha nincs meghatározott időbeli eltolódás a bázisfrekvenciákban (stacioner modell). Létezik korrekciós módszer nem stacioner esetre.
23
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása A szekvencia mutációgyakoriságok heterogenitása A szekvencián belül a mutációk gyakorisága erősen változó. Pl. fehérjét kódoló szakasznál a kodonok harmadik bázisai sokkal variábilisabbak, mint az elsõ kettõ. A fehérjék konzerválódott régióit kódoló részek is kevésbé variábilisek. 1. Modellek a mutációgyakoriság heterogenitásának leírására: Nemparaméteres módszer: az egyes pozíciókat (pl. szekvenciaszakaszokat) kategóriákba sorolja a megfigyelt mutációs gyakoriság alapján 2. Invariánsok módszere: A pozíciók egy bizonyos hányadát invariánsnak tekinti, a többit azonos valószínûséggel változónak 3. Gamma eloszlás módszere (legkorszerűbb): feltételezi, hogy a mutációs gyakoriságok eloszlása a gamma valószínûségeloszlás szerinti, ennek az alakját egy paraméter jellemzi, melyet meg kell becsülni. Lehet folytonos vagy diszkrét. valószínűségeloszlás sűrűségfüggvénye,
24
2009. 02. 27.
valószínűségeloszlás eloszlásfüggvénye,
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása
Melyik helyettesítési modellt válasszuk? A kevés paraméterrel dolgozó modellek jobban alkalmazhatóbbak, megbízhatóbbak, a túlságosan leegyszerűsített modellek viszont hibás eredményt adhatnak. Fontos a tranzíció és a transzverzió megkülönböztetése és a mutációgyakoriság heterogenitásának figyelembe vétele. Gondosan kell kiválasztani az adott adatokhoz legjobban illeszkedő evolúciós modellt.
25
2009. 02. 27.
Bioinformatika 2
Faépítés Kétféle faépítő módszer különböztethető meg: 1. Algoritmus alapú: egy algoritmus levezet egy bizonyos fát Kritérium alapú: az összes lehetséges fát generálja, ezeket értékeli valamilyen optimalizációs kritérium alapján. 2. Távolság alapú: Páronkénti távolságokat számít a szekvenciák között, majd ezekkel a távolságokkal dolgozik tovább, fákat levezetve belőlük. A távolságszámításnál mindig információvesztés van. Karakter alapú: (Karakter = pozíció az összerendezésben.) Olyan fákat származtat le, amelyek mindegyik pozícióra optimalizálják az adatmintázatok eloszlását.
26
2009. 02. 27.
Bioinformatika 2
Faépítés Távolság alapú módszerek A szekvenciák közötti távolság egy határértéket ér el, ahogy a távolság nő. Ha egy pozícióban már történt mutáció, a további mutációk már nem teszik távolibbá. A távolság alapú módszerek korrigálnak erre az effektusra. Neighbor Joining (NJ): Egy csillag alakú fából kiindulva a legközelebbi szomszédokat összekapcsolja, helyettesíti őket az átlagukkal, majd ezt ismételgeti a teljes fa kialakulásáig.
Minimum Evolution (ME): A legrövidebb olyan fát találja meg, amely összeegyeztethető a szekvenciák közötti távolságokkal. (A faágak hossza evolúciós távolságnak felel meg, így két szekvencia távolsága a fa szerint számítható a megfelelő ágak hosszának összeadásával.) Hasonló elven működik a Fitch−Margoliash (FM) módszer. 27
2009. 02. 27.
Bioinformatika 2
Faépítés Karakter alapú módszerek Maximum Parsimony (MP): "legnagyobb takarékosság" módszere: Olyan fát épít, ami a lehető legkevesebb mutációs eseménnyel magyarázza meg a meglévő szekvenciák létrejöttét. Számos azonos pontszámú fát szolgáltat, ezek közös részét vehetjük mint megbízhatót. Nagy távolságú szekvenciák esetében hátránya, hogy azonos bázis esetén azt tételezi fel, hogy nem történt mutáció, holott valószínûbb a visszacserélődés. · Maximum Likelihood (ML): "legnagyobb valószínûség" módszere: Komplikált módszer. Minden pozícióra kiszámítja, hogy adott fa és helyettesítési modell mellett mi a valószínűsége annak, hogy a megfigyelt variációs mintázat jöjjön létre az adott pozícióban. Az egyes pozíciókra kapott valószínűségek összeszorzásával adódik a teljes fa valószínűsége. Ezt sok fára a legjobbat kiválasztja. Ezt többféle helyettesítési modell mellett is elvégezhetjük, ezek közül is kiválasztva a legjobbat. Igen számításigényes, de ez a legmegbízhatóbb. A fák kiértékelése (kétféle módszer): ¾ Randomizált adatokra kapott eredményekkel való összehasonlítás. ¾ A kapott fa alátámasztottságának tesztelése ún. "resampling" statisztikai módszerekkel (bootstrapping, jackknife). Lényegük: a meglévõ adatokból véletlenszerûen mintákat veszünk, ezekre végezzük el a számítást, majd statisztikát készítünk. (Nem részletezzük.) 28
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása Az emberszabású majmok leszármazási viszonyai
29
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása Az emberszabású majmok leszármazási viszonyai
22 mitokondriális tRNS gén
ICF MP ML
Öt módszer
szubsztitúciós modell
Bayes analízis
ICF vektorok
Jaccard távolság mátrix
NJ
Manhattan
távolság mátrix
NJ
Számos fa
Konszenzus törzsfák 30
2009. 02. 27.
Hagyományos módszerek
Diszkrét matematikai Bioinformatika 2 módszer
A helyettesítési (evolúciós) modell meghatározása Az emberszabású majmok leszármazási viszonyai
és Bayes
31
2009. 02. 27.
Bioinformatika 2
A helyettesítési (evolúciós) modell meghatározása Az emberszabású majmok leszármazási viszonyai
32
2009. 02. 27.
Bioinformatika 2