BIOINFORMATIKA
Mi a bioinformatika? Bioinformatika: számítógépes módszerek kidolgozása és alkalmazása a biológiai információ kezelésére és elemzésére.
A bioinformatika céljai • Adatbázisok létrehozása és karbantartása. Az adatok megszervezése, rendezése oly módon, hogy a kutatók könnyedén hozzáférhessenek a meglévő információhoz, és hozzátehessenek újat. • Eszközök, módszerek kifejlesztése az adatok elemzésére. Az adatok haszontalanok, amíg nem elemeztük őket. • Az eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények értelmezése a biológia szempontjából.
A biológiai információ típusai és elemzési módszerei Az adatok forrása
Nyers DNS szekvenciák
Fehérjeszekvenciák
Makromolekuláris szerkezetek
Az adathalmaz mérete
Bioinformatikai témák
102 millió szekvencia 102 milliárd nukleotid
•A kódoló és nem−kódoló régiók elkülönítése •Az intronok és exonok azonosítása •A géntermékek predikciója •Igazságügyi elemzések
7 millió 342 ezer szekvencia 2 milliárd 392 millió aminosav
•Szekvenciaösszehasonlítási algoritmusok •Többszörös szekvenciaillesztõ algoritmusok •Konzerválódott szekvenciamotívumok azonosítása
56 ezer szerkezet
•Másodlagos és harmadlagos szerkezet jóslása •3D szerkezeteket illesztõ algoritmusok •Fehérjegeometriai mérések •Felszín, térfogat és alak számítása •Intermolekuláris kölcsönhatások •Molekulaszimulációk (energiafüggvény, molekuláris mozgások, dokkolás)
A biológiai információ típusai és elemzési módszerei 2.
Az adatok forrása
Az adathalmaz mérete
Bioinformatikai témák
Genomok
2100 vírus, 1100 baktérium, 1800 eukarióta (teljes genom, organellum, kromoszóma)
•Az ismétlõdések jellemzése •Szerkezetek hozzárendelése génekhez •Filogenetikai analízis •Genomi méretű felmérések (fehérjetartalom jellemzése, anyagcsere−útvonalak) •Kapcsoltság elemzése egyes betegségek és gének összefüggésének vizsgálatához
Génexpressziós adatok
legnagyobb: kb. 20 időpont az élesztõ kb. 6000 génjénél (2002)
•Az expressziós mintázatok korrelációjának vizsgálata •Az expressziós adatok összekapcsolása a szekvencia−, szerkezeti és biokémiai adatokkal
Egyéb: szakirodalom
~ 18 millió szakcikk
•Elektronikus könyvtárak az automatizált irodalomkutatáshoz •Tudásadatbázisok irodalmi adatokból
Mintázatfelismerés és predikció Két alapvető művelet a bioinformatikában Mintázatfelismerés: a hasonlóságok megtalálása • A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemzõ, konzerválódott sajátosságot • Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására • Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk" Predikció: • A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy másképpen • A bioinformatika "Szent Grálja": a szekvenciából megjósolni a térszerkezetet
Molekuláris biológiai szerverek és adatbázisok ENTREZ: http://www.ncbi.nlm.nih.gov/entrez GenBank: http://www.ncbi.nlm.nih.gov/Genbank Genomes: http://www.ncbi.nlm.nih.gov/genomes Protein Data Bank: http://www.rcsb.org/pdb/ EMBL: http://www.embl-heidelberg.de/ EXPASY: http://www.expasy.org/
Félévközi beadandó feladat Feladat
Program
1.
Adott fehérjeszekvencia kikeresése
2.
Fizikai-kémia alaptulajdonságok meghatározása (MW, pI, E280)
3.
Rokon fehérjeszekvenciák keresése
EXPASY Æ BLAST
4.
Többszörös szekvencia-összerendezés, mintázatok azonosítása (a 30-90% homológiatartományban található 10 kiválasztott fehérjével szekvencia-összerendezés)
BLAST Æ ClustalW
5.
Másodlagos szerkezetjóslás
http://npsa-pbil.ibcp.fr 6.
Térszerkezet megjelenítése 9 feltekeredési mintázat 9 térkitöltéses modell
EXPASY Æ UniProt EXPASY Æ ProtParam
NPSA Æ CONSENSUS Æ MLRC, PHD, Predator Entrez Æ PDB Æ JMol Æ FirstGlance
Másodlagos adatbázisok Szekvencia-mintázat adatbázisok, az elsődleges (szekvencia) adatbázisokból származtatják őket. PROSITE, eMOTIF: egy motívum PRINTS, BLOCKS: több motívum Mire jók? Segítenek felismerni egy új fehérje funkcióját kis mértékű homológia esetén is. (közös őstől származó, ortológ fehérjék)
Másodlagos szerkezetjóslás Módszer
Elv
Az egyes aminosavtípusok pl. Chou-Fasman, GOR I, előfordulásának valószínűseége a különböző másodlagos GOR II szerkezeti elemekben. 1. generációs
Pontosság (%) 55-57
2. generációs Nagano, GOR III-IV, PF
Fizikai-kémiai tulajdonságok, aminosavpárok ill. tripletek statisztikai adatai
60-62
3. generációs NSSP, LPAG, PHD
Többszörös összerendeződések, neuronhálózat
68-72
Konszenzus
Több más módszer alapján konszenzus
73-75
Fehérjék térszerkezetének jóslása
• Homológia-modellezés • Gombolyfelismerés • Ab initio szerkezetjóslás
Homológia-modellezés Számottevő (>20%) szekvencia azonosságot mutató ismert szerkezetű fehérjék (referenciafehérjék) térszerkezete alapján. Lépések: - Térszerkezetek szuperpozíciója - Szerkezetileg konzerválódott régiók (SCR) azonosítása - Aminosavszekvenicák összerendezése - Az SCR-ek alapján az új fehérje vázának felépítése - A variábilis régiók modellezése
Homológia-modellezés
Térszerkezetek szuperpozíciója
Homológia-modellezés
Az új fehérje vázszerkezetének felépítése
Az SCR-eket bármelyik referencia fehérjéből átvehetjük.
Homológia-modellezés
A variábilis régiók modellezése
Durva modell
A templátfehérjék ill. hurok-adatbázisok alapján. (oldalláncok cseréje)
További finomítás: energiaminimalizáció
Gombolyfelismerés: Távoli homológok (<25% szekvencia azonosság) gyakran azonos gombollyal rendelkeznek. A feladat ennek felismerése. • „Gombolykönyvtár” az ismert térszerkezetek alapján • A szekvenciánkat egyenként az összes gombollyal összehasonlítjuk, hogy megtaláljuk, van-e köztük olyan, amit a szekvenciánk felvehet.
Ab initio modellezés: Kis fehérjék esetén bíztató próbálkozások, de általános esetben egyelőre nem ad kielégítő eredményt.
Dokkolás Kismolekula (ligandum, szubsztrát, koenzim, stb.) kötődési helyének megtalálása egy fehérje (receptor) felszínén Két fehérje egymáshoz való kötődési helyének megtalálása Módszer: az egyik molekula mozgatása és forgatása a másik felszínén, eközben az illeszkedés értékelése. Eredményesség: • Kismolekula fehérjére dokkolásakor jó eredmények érhetőek el, de bonyolultabb esetekben (pl. nagy fehérje, nagy és flexibilis szubsztrát) csak kísérleti adatok ismeretében érhető el megfelelő eredmény • Fehérje-fehérje dokkolás: gyenge eredmények
Genomika Genom: egy élőlény v. sejt teljes gén−, ill. DNS-állománya. Genomika: a genom megismerése, ill. tanulmányozása, azaz a teljes genetikai információ felhasználása, szemben az egyes, kiválasztott gének vagy géncsoportok tanulmányozásával Funkcionális genomika: a génekhez a funkció hozzárendelése genomikai módszerekkel (számítógépes és kísérleti) Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti módszerekkel), és ezek felhasználása (pl. a funkcionális genomikában)
Funcionális genomika Génfunkció:
Módszerek a funkcionális genomikában Filogenetikai profilok Az azonos, v. nagyon hasonló filogenetikai profillal rendelkező gének között funkcionális kapcsolat valószínűsíthető
Rosetta-kő módszer Ha két fehérje megtalálható fúziós fehérjeként is, akkor közöttük funkcionális kapcsolat valószínűsíthető.
Génszomszédság Ha két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínűsíthetően funkcionális kapcsolat van közöttük.
Korrelált génexpresszió Az azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető. (microarray technológiák)
Szerkezeti genomika A fehérjeszerkezetek sokfélesége: • A PDB-ben kb. 52 000 szerkezet van, de erősen redundáns, kb. 3000 gombolyt képviselnek. Az újonnan meghatározott szerkezetek többsége is már ismert gombolyhoz tartozik. • Teljes genomokban lévő gének által kódolt fehérjéknek csak kb. 15-25%-a mutat homológiát már ismert térszerkezetű fehérjével. Szerkezeti genomika célja: a genomokból kiválasztani azokat a célfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározva az összes többi fehérje homológia-modellezési távolságon belül lesz (kb. 20% szekvencia azonosság), így minden fehérje szerkezete homológia-modellezéssel megjósolható lesz. A membránfehérjék, nehezen kristályosítható fehérjék problémát jelentenek.