Bioinformatika 2 − 11. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika – proteomika Előadás és gyakorlat
2016.11.28.
Bioinformatics
Szerkezeti genomika, proteomika, biológia
A biológia forradalma (új kutatási módszerek, új szemlélet): teljes genomok – biomolekulák szerkezetmeghatározása – bioinformatika – nagy áteresztőképességű eljárások a biológiai minták jellemzésére (microarray technikák) Hajtóerők: Genomszekvenálási projektek (>60 teljes genom ismert, továbbiak vannak folyamatban) Automatizált szerkezethozzárendelési projektek (Protein Structure Initiative, PSI)
Genomok előtti korszak ("klasszikus bioinformatika"): a bioinformatika főként a homológián alapuló módszereket alkalmazta (BLAST, PSI−BLAST, felfűzés, stb.) Genomok utáni korszak: egész sor új, nem homológián alapuló eljárás! Új bioinformatika.
2
2016.11.28.
Bioinformatics
Szerkezeti genomika, proteomika, biológia ÚJ TUDOMÁNYÁGAK Genomika Genom: egy adott faj teljes gén−, ill. DNS−készlete. Genomika: a genom megismerése, ill. vizsgálata: a teljes genetikai információ felhasználása (nem csak egyes gének vagy géncsoportok tanulmányozása) Funkcionális genomika: funkció hozzárendelése a génekhez genomikai módszerekkel (kísérleti és számítógépes [in silico] eljárások) Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti) és ezek felhasználása (pl. a funkcionális genomikában) További biológiai információkkal kapcsolatos fogalmak és tudományágak Proteom: egy sejtben (és annak adott állapotában) található, ill. expresszált fehérjék összessége Proteomika: a proteom vizsgálata (főleg kísérleti) Transzkriptom, transzkriptomika: az mRNS−állomány, ill. vizsgálata Metabolom, metabolomika: az anyagcserehálózat, ill. vizsgálata Az "omikák forradalma" egyéb összetett biológiai rendszerek vizsgálatai 3
2016.11.28.
Bioinformatics
Szerkezeti genomika, proteomika, biológia
4
2016.11.28.
Bioinformatics
A biológiai funkció A funkció klasszikus jelentése: a molekuláris funkció (pl. milyen reakciót katalizál vagy milyen más molekulát köt az adott fehérje) A funkció bővített ("posztgenomi„) jelentése: a kontextuális v. celluláris funkció (hol helyezkedik el az adott fehérje a sejt kölcsönhatásainak hálózatában)
5
2016.11.28.
Bioinformatics
Szerkezeti genomika
Genomok előtti korszak 6
2016.11.28.
Genomok utáni korszak Bioinformatics
Szerkezeti genomika Posztgenomiális bioinformatikai módszerek:
Tisztán számítógépes: Filogenetikai profilok Rosetta−kő módszer Szomszédos gének Kísérleti, de számítógépesen kiértékelt: Korrelált génexpresszió
7
2016.11.28.
Bioinformatics
Huynen MA, Bork P, Proc Natl Acad Sci U S A. 1998, 95(11), 5849-5856. Pellegrini M, et al, Proc Natl Acad Sci U S A. 1999, 96(8), 4285-4288.
Szerkezeti genomika – Filogenetikai profilok Filogenetikai profil: adott gének előfordulásának vizsgálata különböző organizmusokban (teljes genomok ismerete szükséges). Az azonos vagy nagyon hasonló (illetve a teljesen vagy majdnem komplementer) filogenetikai profil a gének között funkcionális kapcsolatot valószínűsíti (ez azt jelenti, hogy az adott gének mindenhol együtt fordulnak elő). Minél több teljes genom áll rendelkezésre az elemzéshez, annál megbízhatóbb az eredmény.
8
2016.11.28.
DE: bizonyos evolúciós jelenségek megzavarják az elemzést: - Génfunkciók redundanciája (több gén ugyazzal a funkcióval); - Gén felváltása egy másik génnel, ami nem ortológja az eredeti gén ortológjainak; - Horizontális géntranszfer (mikroorganizmusok közötti DNS−transzfer); - Gének elvesztése egyes organizmusokban Bioinformatics
Enright AJ, et al., Nature 1999, 402(6757), 86-90. Marcotte EM, et al., Nature 1999, 402(6757), 83-86. Yanai I, et al., Proc Natl Acad Sci U S A. 2001, 98(14), 7940-7945.
Szerkezeti genomika – Rosetta-kő módszer Domén-fúziók módszere Egy adott szervezet két elkülönült fehérjéje más szervezetben fúziós fehérjeként (egyetlen polipeptidláncként) fordulhat elő. Ha két fehérje fúziós fehérjeként is előfordul, akkor közöttük valószínűleg funkcionális kapcsolat van (a közeli funkciójú fehérjék fúziója egyes szervezetekben azért fordulhat elő, mert közelségük előnyös a funkció szempontjából.) A fúziós fehérjék egyfajta Rosetta−kövek: a bennük lévő, ismert funkciójú domén alapján a másik, ismeretlen funkciójú domén funkciójára lehet következtetni.
DE: vannak "promiszkuita" domének, amelyek nagyon sok más fehérjével fuzionálnak
9
A rosette-i kő (ismert még rosetta kő néven is) egy ősi szöveg három fordítását nyújtotta a Mivel a görög 2016.11.28. kutatóknak: egyiptomi démotikus írással, görög nyelven és egyiptomi hieroglifákkal. Bioinformatics nyelv jól ismert, e kő volt a kulcs a hieroglifák megfejtéséhez.
DeRisi JL, et al., Science 1997, 278(5338), 680-686. Wu LF, et al., Nat Genet. 2002, 31(3), 255-265.
Szerkezeti genomika – Szomszédos gének Ha két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínûsíthetően funkcionális kapcsolat van közöttük. Prokariótáknál gyakoriak az operonok (több, rokon funkciójú gén egymás után található, egy közös promoter alatt).
Eukariótáknál az operonok ritkábbak, de a génszomszédság mégis jellemző.
DE: a szomszédság nem mindig jelent funkcionális kapcsolatot 10
2016.11.28.
Bioinformatics
Szerkezeti genomika, proteomika, biológia
A szerkezeti genomika céljai - A genomban kódolt összes fehérje térszerkezetének meghatározása - A funkciók azonosítása a térszerkezeti információk felhasználásával (ebben az értelemben a funkcionális genomika illetve a szerkezeti biológia része) A térszerkezetek meghatározása - Klasszikus megközelítés: az adott fehérje funkciójának azonosítása, majd a térszerkezet kísérleti (röntgenkrisztallográfia / NMR) meghatározása - Szerkezeti genomikai megközelítés: először a térszerkezet (lehetőleg az összes fehérjé) meghatározása, majd a funkció (épp a térszerkezet segítségével is) vizsgálata
11
2016.11.28.
Bioinformatics
DNS microchip
Szerkezeti genomika – Korrelált génexpresszió Az azonos körülmények között mindig együtt, azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető -> microarray−adatok elemzése, kiértékelése Pl.: (a) Élesztősejtek szinkronizálása (azonos sejtciklus) - Két ciklus során tízpercenként mintavétel, az mRNS állományból cDNS készítése, majd a minták hibridizálása az összes (6000) élesztő gént tartalmazó microchip-en -> minden gén expressziós szintjének meghatározása - (b) Az expressziós szintben jelentős ingadozást mutató gének (6000-ből 409) klaszterezése (csoportosítás) az idõbeli expressziós mintázataik korrelációi szerint (piros: nagy expresszió, kék: kis expresszió). A fastruktúra (dendrogram) ezt a hierarchikus csoportosítást mutatja. - Időbeli expressziós viselkedésük (d) szerint a 409 gént 5 nagy csoportba sorolták (c)
12
2016.11.28.
Egyszerű klaszterezés
Hierarchikus klaszterezés
Bioinformatics
Szerkezeti genomika – Kombinált módszerek A tisztán számítógépes (in silico) funkcionális genomikai módszerek és a kísérleti adatokon nyugvó korrelált génexpressziós adatok kombinálása a legeredményesebb.
13
2016.11.28.
Bioinformatics
Kísérleti szerkezeti genomika, biológia A fehérjeszerkezetek sokfélesége - A különböző fold ("tekeredés") becslések szerint 1000 és 100 000 között van. - A PDB jelenleg kb. 60 000 szerkezetet tartalmaz, de ezek szerkezetileg erősen redundánsak, kb. 1200-1500 tekeredést képviselnek. Az újonnan meghatározott szerkezetek többsége is már ismert tekeredésű. - A teljes genomokban lévõ gének által kódolt fehérjéknek csak kb. 15−−25%−a mutat homológiát már ismert térszerkezetû fehérjével. Kísérleti szerkezeti genomika - Szerkezeti genomika célja: a genomokból kiválasztani azokat a célfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározva az összes többi fehérje homológiamodellezési távolságon belül lesz (kb. 20% szekvenciaazonosság), így minden fehérje szerkezete homológiamodellezéssel megjósolható lesz. - Szisztematikus szerkezetazonosító projektek folynak, pl. Protein Structure Initiative: http://www.nigms.nih.gov/Initiatives/PSI
DE: Nem expresszálható fehérjék, membránfehérjék, nehezen kristályosítható fehérjék problémát jelentenek. 14
2016.11.28.
Bioinformatics
Szerkezeti genomika, biológia Kötőhelyi szekvencia mintázatok Adott helyi szerkezetnek megfelelő szekvencia mintázatok azonosítása:
Pl. Számos ATP- ill. GTP-kötő protein (pl. ATP szintáz, miozin nehéz lánc, helikázok, timidin kináz, G-protein alfa alegység, stb.) tartalmazza a következő konszenzus szekvenciát: [A or G]XXXXGK[S or T]. Ez a szekvencia egy mozgékony hurkot alkot a kérdéses fehérje alfa-helikális és béta-redő doménjei között, a fehérje általános tekeredésétől függetlenül. Ld. (a) GTP a H-Ras szignál protein (PDB 1qra) P hurkában; (b) ATP egy protein kináz (PDB 1aq2) P hurkában. 15
2016.11.28.
Bioinformatics
Szerkezeti genomika, biológia Konvergens és divergens evolúció A homológia sokszor nehezen azonosítható csak a szekvencia alapján, mivel a szekvencia sokkal gyorsabban változhat, mint a 3D szerkezet, emiatt a konvergens ill. divergens evolúciót néha nehéz megkülönböztetni. Egyes esetekben, térbeli egyezőség figyelhető meg a funkcionális helyen, míg a funkcionálisan fontos aminosavak csak kis ill. semmilyen szekvencia azonosságot mutatnak. Ilyenkor a konvergens és divergens evolúció megkülönböztetése nehéz lehet. Például, a benzoilformát dekarboxiláz (BFD) és a piruvát dekarboxiláz (PDC) csak kb. 21% szekvencia azonosságot mutatnak, de gyakorlatilag azonos tekeredésűek. A katalítikus aminosavoldalláncok a 3D szerkezetben térben konzerválódtak, de szekvenciában nem.
Lehetséges, hogy a két fehérje függetlenül fejlődött és konvergált az alfaketosav dekarboxilezésének hasonló kémiai megoldása révén. A tekeredésükben megfigyelhető nagy hasonlóság azt is jelentheti azonban, hogy közös ősfehérjéből származnak és a funkciójuk divergált. A szekvenciaazonosság alacsony foka itt nem teszi lehetővé e két lehetőség megkülönböztetését. 16
2016.11.28.
Bioinformatics
Szerkezeti genomika, biológia Szerkezeti családok
HAL
A szerkezeti szuper-családok tagjai gyakran rokon biokémiai funkciójúak Egy szuper-család nem szigorű definíció szerint olyan hasonló 3D szerkezetű homológ proteinek készlete, melyek hasonló, de nem feltétlenül azonos biokémiai funkciójúak. Majdnem minden szuper-család mutat valamelyest funkcionális diverzitást, amely helyi szekvencia különbségekből és/vagy domén kicserélődésből ered. Az enzim szuper-családokon belül például gyakori a szubsztrát diverzitás, míg a reakció kémiája erősen konzerválódott (ld. MIO tartalmú ammónia-liázok: HAL, PAL, TAL). Sok enzim szupercsaládban a katalítikus csoportok szekvenciabéli helyzete tagról tagra eltérő lehet, annak ellenére, hogy a fehérjén belül azonos funkciójúak. E variációk esetenként megnehezithetik vagy akár lehetetlenné is teszik egy fehérje egyedül szekvencia összerendelésen alapuló, adott szuper-családba sorolását. Bár a szuper-család egyes tagjai szekvenciájukban is hasonlóak lehetnek, a szerkezeti és funkcionális hasonlóság az aminek alapján egy fehérje egy adott szuper-családba sorolható. Minden szuper-családon belül vannak családok, amely tagjai között közeli funkcionális rokonság és szignifikáns szekvencia azonosság (>50%) áll fenn.
PAL
TAL 17
2016.11.28.
Bioinformatics
Szerkezeti genomika, biológia Konvergens evolúció Kimotripszin
A szerin proteázok négy szuper-családja a konvergens evolúció példája A szerin proteázok több szerkezeti szuper-családba tartoznak, melyek jelentősen eltérnek szekvenciájukban és általános tekeredésükben, azonban igen hasonlóak a katalítikus triád aminosavainak (Ser – His – Glu/Asp) aktív centrumbeli relatív helyzetében.
Szubtilizin
Mindegyik szerin proteáz szuper-család sok taggal rendelkezik, de a szuper-családok közt sem szekvencia, sem szerkezeti hasonlóság nem áll fenn. Az egyes szuper-családokban a katalítikus triád aminosavainak szekvenciabeli sorrendje eltérő lehet, míg a tercier szerkezetbeli elhelyezkedésük igen hasonló. Feltehetően a hasonló aktív hely kialakulása a konvergens evolúció eredménye, míg asz egyes szuper-családokon belül a divergens evolúció eredményezett kölönböző proteázokat, melyek igen hasonló szerkezetűek, ám eltérő szubsztrát-specifitással rendelkeznek.
2016.11.28. 18 A szerin proteázok két szuper-családjának reprezentánsai
Bioinformatics
Christianson,CV, et al., J Am Chem Soc. 2007, 129, 15744-15745.
Szerkezeti genomika, biológia Aktív hely azonosítása szubsztát analogonokkal A tirozin aminomutáz inhíbitorral kristályosított szerkezete példája az aktív hely kísérleti meghatározásának
19
2016.11.28.
Bioinformatics
Szerkezeti genomika, biológia Aktív hely azonosítása oldószer kristályba épülésével
20
Szubtilizin szekezete 100% acetonitrilben A szerves oldószer (zöld) csak néhány helyre köt a fehérje felszínén, beleértve az aktív helyet is (kb. az ábra bal közepe). A piros gömbök vizek, melyek még a vízzel elegyedó oldószer 100% koncentrációja ellenére is kötve merednek (ezek a fehérje aktív szerkezetének elemi részeként foghatóak fel – szerkezeti vizek).
2016.11.28.
Termotilizin szekezete különböző oldószerekkel A termolizin kötőhelyei különböző oldószerekkel nedvesített kristályok szerkezete alapján. A különböző oldőszerek által elfoglalt hasonló hely jól azonosítja a kötőhelyet. Az aktív centrum kötött cink (szürke) és kálcium (fekete) ionokat is tartalmaz. Bioinformatics
Röther D, et al., Eur. J. Biochem. 2001, 268, 6011–6019.
Szerkezeti genomika, biológia Aktív hely vizsgálata pontmutációkkal Pl.: a hisztidin ammónia-liáz (HAL) enzim aktív hely aminosavainak pontmutációi alapján következtetni lehet az egyes aminosavak katílítikus fontosságára
21
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy.org
Proteomikai programgyűjtemény - ExPASy
22
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy.org/proteomics
ExPASy – proteomikai programok
23
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy.org/proteomics
ExPASy – fehérje azonosítás
24
2016.11.28.
Bioinformatics
ProtParam: http://www.expasy.org/protparam/
Fehérjetulajdonságok becslése - ProtParam
25
2016.11.28.
Bioinformatics
ProtParam: http://www.expasy.org/protparam/
Fehérjetulajdonságok becslése - ProtParam
26
2016.11.28.
Bioinformatics
ProtParam: http://www.expasy.org/protparam/
Fehérjetulajdonságok becslése - ProtParam
27
2016.11.28.
Bioinformatics
ProtParam: http://www.expasy.org/protparam/
Fehérjetulajdonságok becslése - ProtParam
28
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy. org/proteomics/protein_sequences_and_identification
ExPASy – protein szekvencia
29
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy. org/proteomics/similarity_search_alignment
ExPASy – szekvencia keresés / illesztés
30
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy. org/proteomics/protein_structure
ExPASy – protein szerkezet
31
2016.11.28.
Bioinformatics
Expasy Tools: http://www.expasy. org/proteomics/families__patterns_and_profiles
ExPASy – protein szerkezeti családok
32
2016.11.28.
Bioinformatics
GQuery: http://www.ncbi.nlm.nih.gov/gquery
Bioinformatikai programgyűjtemény - GQuery
33
2016.11.28.
Bioinformatics
GQuery: http://www.ncbi.nlm.nih.gov/gquery
Bioinformatikai programgyűjtemény - GQuery
34
2016.11.28.
Bioinformatics
GQuery: http://www.ncbi.nlm.nih.gov/gene
NCBI - Gene
35
2016.11.28.
Bioinformatics
Genome: http://www.ncbi.nlm.nih.gov/genome
NCBI - Genome
36
2016.11.28.
Bioinformatics
Genome: http://www.ncbi.nlm.nih.gov/genome/167
NCBI – Genome (E. coli)
37
2016.11.28.
Bioinformatics
GOLD: http://www.genomesonline.org/
GOLD – Genome project database
38
2016.11.28.
Bioinformatics
NCBI Structure: http://www.ncbi.nlm.nih.gov/structure
NCBI - Structure
39
2016.11.28.
Bioinformatics
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/taxonomy
NCBI - Taxonomy
40
2016.11.28.
Bioinformatics
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/taxonomy
NCBI - Taxonomy
41
2016.11.28.
Bioinformatics
NCBI: http://www.ncbi.nlm.nih.gov/BioSystems
NCBI - BioSystems
42
2016.11.28.
Bioinformatics