Bioinformatika pro PrfUK 2003
Jiří Vondrášek Ústav organické chemie a biochemie
[email protected]
Jan Pačes Ústav molekulární genetiky
[email protected]
http://bio.img.cas.cz/PrfUK2003
What is Bioinformatics?---The Tight Definition "Classical" bioinformatics Fredj Tekaia at the Institut Pasteur offers this definition of bioinformatics: "The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information."
What is Bioinformatics?---The Loose definition What almost all bioinformatics has in common is the processing of large amounts of biologically-derived information, whether DNA sequences or breast X-rays.
Rozsah (vztahy) Hloubka (detail)
Cíl: Modely proteinů a nukleových kyselin jako reálných fyzikálních molekul
Experimentální metody pro získávání informací spojených se strukturou X-Ray krystalografie -CD Spektroskopie -Nukleární magnetická rezonance (NMR) -Vibrační spektroskopie
START
cílová sekvence
templátová struktura
Identifikace příbuzné struktury (templát)
Výběr templátu
Porovnání cílové sekvence s templátovou strukturou
Konstrukce modelu (využití informací z templátové struktury)
ALIGNMENT CÍL TEMPLÁT
...KLTDGYAAGLRNMTHPKLYNGTCSSVV... ... KLTFRGYAAGILNMTHHLKJPKLYNGTNA..
Kontrola (vyhodnocení) modelu
NE
Je model vyhovující? ANO
KONEC
Výsledný model
Zařazení studované sekvence do širšího kontextu a hledání příbuznosti
genetický kód je degenerovaný = nejednoznačné přiřazení triplet => aminokyselina
metody které porovnávají sekvence musí tuto skutečnost zohlednit sekvenční a strukturní alignment -sekvenční zohledňuje některé význačné vlastnosti AA a jejich podobnost , pokud tato existuje -strukturní alignment může a nemusí brát v úvahu sekvenční
Predikce prvků sekundární struktury u proteinů motivace pro předpověď prvků sekundární struktury - efektivní konformační vzorek pro 3D protein folding - vylepšení ostatních sekvenčních a strukturně analytických metod : sekvenční alignment : homologické a „threading“ modelování (CASP) : analýza experimentálních dat : protein design
Sekundární strukturní prvky – formulace problému
• Daná proteinová sekvence – NWVLSTAADMQGVVTDGMASGLDKD... • Predikce sekvence sekundární struktury: – LLEEEELLLLHHHHHHHHHHLHHHL... • „3-state“ problém: {ARNDCQEGHILKMFPSTWYV}n {L,H,E}n
α-šroubovice, 3 typy
Sbalování proteinů problém prostorové superpozice
Cíle:
- vzájemné srovnání všech existujících struktur - klasifikace a organizace struktur podle logických schémat - nalezení obecných sbalovacích motivů a útvarů - výpočet evolučních vzdáleností - studium interakcí mezi strukturami a ostatními molekulami - využití známých struktur k předpovědi struktur ze sekvence - atd...
Klasifikace proteinových struktur Třída: -podobný obsah sekundárních struktur -všechny a, a/b, b, ostatní Architektura (Fold) -strukturní podobnost -SS prvky v podobném uspořádání Supertřída (Topologie) -možný stejný předek (ancestor) Homologická SuperTřída -jasná evoluční příbuznost -sekvenční podobnost < 25%
Ukázka l Fold Databáze • SCOP (http://scop.stanford.edu/sco) Structural Classification of Proteins • FSSP (http://www2.ebi.ac.uk/dali/fs/fssp.html) Fold classification based on Structure-Structure alignment of Proteins
• PClass (http://gene.stanford.edu/PClass)
l Nástroje strukturních alignmentů • LOCK (http://gene.stanford.edu/lock) • 3dSearch (http://gene.stanford.edu/3dSearch/) • DALI (http://www2.ebi.ac.uk/dali)
The Dali server is a network service for comparing protein structures in 3D. You submit the coordinates of a query protein structure and Dali compares them against those in the Protein Data Bank. A multiple alignment of structural neighbours is mailed back to you.
Algoritmy pro strukturální superpozici ● Distance based methods: ● DALI (Holm and Sander): Aligning scalar distance plots ● STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular distances ● SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances ● MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area ● Vector based methods: ● VAST (Bryant): Graph theory based secondary structure alignment ● 3dSearch (Singh and Brutlag): Fast secondary structure index lookup ● Both ● LOCK (Singh and Brutlag): Hierarchically uses both secondary structure
Protein Docking Proč je docking důležitý a jeho postavení v kontextu bioinformatiky Biomolekulární interakce jsou základem všech regulačních a metabolických procesů které společně vytváří životní procesy. Počítačové simulace a analýzy těchto interakcí jsou stále ve větší míře a s větší přesností schopny popsat tyto mechanismy. S rostoucím množstvím experimentálně vyřešených struktur je přesnější i způsob popisu. Vývoj počítačů umožňuje analýzu a predikci molekulárních interakcí více dostupnou. Automatizovaná predikce molekulárních interakcí je klíčem k racionálnímu návrhu léčiv.
Návrh inhibitorů HIV-1 Proteázy
Formulace problému: Pro dané molekuly je nutno určit: Interagují tyto molekuly vzájemně mezi sebou? - existuje energeticky favorizovaná orientace těchto struktur tak, že mohou vzájemně plnit nějakou funkci? - interagují spolu tyto molekuly výše zmíněným způsobem? Pokud ano, jaká je jejich orientace, která maximalizuje interakci a minimalizuje energii systému? Cíl: nalézt v databázi molekulárních struktur takové, které mohou interagovat se studovaným systémem Komplikace: Obě molekuly jsou flexibilní a mohou během interakce ovlivnit vzájemně svou strukturu. - stovky až tisíce stupňů volnosti - množství konformací je astronomické
% Sekvenční identita
100 srovnatelné se středním rozlišením NMR Přesný popis specificity Docking malých molekul a proteinů 60
Molekulární nahrazování (replacement) v krystalografii Protein engineering Návrh experimentů pro mutagenezi
30
NMR refinement Hledání a identifikace vazebných míst a 3D motivů Anotace podle sbalovacích znaků
Bioinformatika pro PrfUK 2003
Jiří Vondrášek Ústav organické chemie a biochemie
[email protected]
Jan Pačes Ústav molekulární genetiky
[email protected]
http://bio.img.cas.cz/PrfUK2003