Struktúrák predikciója Bioinformatika és genom analízis az orvostudományban
A mai el!adás témája: • Az összehasonlító bioinformatika alapelvei • Rejtett Markov modellek és mesterséges neuronhálók • Alkalmazások ! Génpredikció ! Alternatív splicing ! Transzmembrán topológia predikció • Esettanulmányok ! Prionfehérjék ! I. típusú T sejt epitópok predikciója ! MHC • Fehérjedokkolás
(AOGENBIG_1M)
Miklós István SOTE, 2008. november 6.
Összehasonlító bioinformatika
Rejtett Markov Modellek (HMM)
Központi dogmája: A struktúra konzervatívabb, mint a szekvencia Rosetta k!:
Arthur Lesk: „What one or two homologous sequences whisper, a full multiple alignment shouts out loud.” Richard Durbin példája: AYTGTHISSQKLIISCLPNOTKSIAIHIDDENAWYA
AYTGTHISSQKLIISCLPNOTKSIAIHIDDENAWYA DEFYTHISPSQALISCAMPLETELYIHIDDENYWAE
Definíciók Állapot A gráf egy pontja, amely valamely tulajdonságot hivatott reprezentálni Emisszió Az állapotok emittálnak tulajdonságuknak megfelel! eloszlásból
(kibocsájtanak)
karaktereket,
a
Útvonal Egy séta a gráfon a megfelel! kibocsájtásokkal. Ha a karaktereket a kibocsájtó állapotoknak megfelel! tulajdonságokkal asszociáljuk, akkor egy útvonal egyben predikció is az egyes karakterek tulajdonságaira Legvalószín!bb útvonal (Viterbi path) A legvalószín"bb predikció a struktúrára Szuboptimális útvonal Alternatív predikciók a struktúrára
Els! HMM a bioinformatikában: CpG szigetek
Els! HMM a bioinformatikában: CpG szigetek
Pozícióspecifikus pontozómátrixok és HMM-ek Egy HMM annyival több egy pozócióspecifikus pontozómátrixtól, hogy az optimális útvonal függ az átmeneti valószín"ségekt!l is.
Miért m"ködik? A CpG szigetekben valószín"bb, hogy egy C után G jön, ezért azok az útvonalak a HMM-ben, amelyekben a CpG szigeteket a megfelel! almodel generálta, sokkal valószín"bbek.
Mesterséges neuronhálók A pozícióspecifikus értékelések tetsz!legesen kombinálhatók, így egyes pozíciók közötti kapcsolatok felfedezhet!ek OUTPUT
„Profile HMM”: pozícióspecifikus pontozómátrix valószín"ségi modellbe áttranszformálva From V. Brusic
HIDDEN
A C DE F G H I K L MN P Q R S T VWY A C D E F G H I K L MN P Q R S T VWY
INPUT
Els! alkalmazása az evolúciós információknak
Eredmények I.
Jones et al. (1998) J. Mol. Biol.
Illesztett protein szekvenciák közös struktúrájának a meghatározása
!
" L
Rejtett Markov Modell
A kibocsájtási valószín"ségeket egy id!folytonos Markov modell adja meg.
ML Evolúciós fa
Posterior decoding
Y
Eredmények II.
Génkeresés/annotáció A feladat megkeresni a kódoló régiókat a genomban és annotálni ezeket Promoter 5 ’utr < --------- coding region ------> 3’utr
Bacterial gene: continuous coding region, known signals
??
5 ’utr
< --- coding region ----------- > 3’utr polyAAA site
Human gene: fragmented coding region, unknown signals, contained in much more DNA
A filogenetikai információ általában javítja a becslés pontosságát
Rejtett Markov modellek génkeresésre Genescan (HMM)
Doublescan (pair-HMM)
Burge & Karlin (1997) J. Mol. Biol. 268:78-94. Meyer & Durbin (2002) Bioinformatics 18:1309-1318
Genescan-Doublescan
Alternatív splicing predikció SLAM-mal
Alternatív splicing predikció SLAM-mal
Cawley & Pachter (2003) Bioinformatics
Átfed! gének
RNS szerkezetek mRNS-ben Meyer & Miklós (2005) Nucleic Acids Research
A CAV1 fehérjében lokális RNS térszerkezet Fekete: kódoló régió, Szürke: át nem íródó régió
A CFTR alternatív splicingja
A CFTR alternatív splicingja
Pagani et al. (2005) PNAS
Pagani et al. (2005) PNAS
A CFTR alternatív splicingja
A CFTR alternatív splicingja
Pagani et al. (2005) PNAS
Meyer & Miklós (2005) NAR
A CFTR alternatív splicingja
Transzmembrán topológia predikció
Meyer & Miklós (2005) NAR
Tusnády & Simon (1998) J. Mol. Biol.
Transzmembrán topológia predikció
Eredmények
HMMTOP online server
Prionfehérjék
http://www.enzim.hu/hmmtop/
Tompa, Tusnády, Cserz!, Simon (2001) PNAS
Prediktált transzmembrán hélixek száma
Feltételezett evolúció
Epitópkeresés HMM-mel és ANN-nel
Epitópkeresés HMM-mel és ANN-nel
Srinivasan et al. (2004) Bioinformatics
Srinivasan et al. (2004) Bioinformatics
• Rejtett Markov modellekkel és mesterséges neuronhálózatokkal • 9 aminosavból álló peptideket vizsgáltak • A modelleket trenírozni lehet adathalmazokon, a használt adthalmaz ! 604 köt! és ! 2358 nem-köt! peptidb!l állt • A ROC értékek a trenírozott modellekre 80-90% körül volt
ANN predikció „forró pontokra” a humán papillóma vírus fehérjéjében. Kör: forró pont, téglalap: fals positiv predikció
Dokkolás
Fight Aids @ home
A feladat annak a meghatározása, hogy mely molekula passzol bele egy adott enzim aktív zsebébe • 3D modellezéssel • Klasszikus és kvantumfizikai törvények alapján • Rendkívül számolásigényes
Dokkolás AIDS elleni gyógyszertervezésre a saját számítógépünkön "Why should I join?" About 42 million people are living with HIV or AIDS around the world. HIV mutates and evolves very quickly. Drug resistance is on the rise. If there is any "bioterrorism" in the world, it comes from Nature itself, in the form of HIV, and we need to fight this very real and long-standing problem now - more than any other threat to humanity. So every computer counts! Your CPU helps to screen millions of candidate drug compounds computationally against detailed models of evolving AIDS viruses—an accomplishment previously impossible without expensive supercomputers. FightAIDS@Home accelerates AIDS research by connecting you to a global "grid" of distributed computing power. Together, we are making a difference! Your donation of spare computer cycles helps us in our entirely non-profit, scientific endeavours
Fight Aids @ home
Dokkolás
Eddig több, mint 14000 felhasználó csatlakozott a programhoz In silico válogatás adatbázisból
Ligand database
Target Protein Molecular docking
Ligand docked into protein’s active site
Receptorome és receptoromics Roth (2005) Pharmacology and Therapeutics
Összefoglalás Klasszikus bioinformatika • • • •
Az adatok többsége szekvenciális (RNS, DNS, fehérjék) Központi hipotézis: a struktúra konzervatívabb, mint a szekvencia Ab initio vagy komparatív predikció A mutációk struktúrafügg!k, a f! mutációtípusok: szubsztitúciók, beszúrások, törlések
System biology • Rendszerszint" összehasonlítása a biokémiai rendszereknek ! Gének elrendez!dése a genomban ! Biokémiai hálózatok (reakció-útvonalak, interakciók, regulációk) ! Génexpresszió • Jöv! hétt!l
Irodalomjegyzék • • • • • • • •
Jones, Thorne, Goldman (1996) Using evolutionary trees in protein secondary structure prediction and other comparative sequence analyses. J. Mol. Biol. 263:196-208. Meyer & Durbin (2002) Comparative ab initio prediction of gene structures using pair HMMs Bioinformatics 18:1309-1318 Cawley & Pachter (2003) HMM sampling and applications to gene finding and alternative splicing. Bioinformatics, 19 Suppl. 2:ii36–ii41 Meyer & Miklós (2005) Statistical evidence for conserved, local secondary structure in the coding regions of eukaryotic mRNAs and pre-mRNAs Nucleic Acids Research 33:6338-6348 Pagani, Raponi & Baralle (2005) Synonymous mutations in CFTR exon 12 affect splicing and are not neutral in evolution. PNAS 102:6368-6372 Tusnády & Simon (1998) Principles Governing Amino Acid Composition of Integral Membrane Proteins: Application to Topology Prediction. J. Mol. Biol. 283:489-506 P. Tompa, G. E. Tusnády, M. Cserz!, and I. Simon (2001) Prion protein: Evolution caught en route. PNAS 98(8):4431–4436. Srinivasan, Zhang, Khan, August, Brusic (2005) Prediction of clas I T-cell epitopes: evidence of presence of immunological hot spots inside antigens. Bioinformatics 20 Suppl. 1:i297-i302.