Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci
Definice bioinformatiky (Molecular) bio – informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the data and information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications. Oxford English Dictionary
Definice bioinformatiky
• spojení biologických věd s informatikou počítačové zpracování, organizace, ukládání a vizualizalizace biologických dat a jejich aplikace
CiteUlike oblak klíčových slov pro bioinformatics
Přehled témat bioinformatiky • • • • • • •
hledání genů a skládání genomů porovnávání sekvencí (alignment) analýza a predikce struktury proteinů a NA hledání léčiv (drug design a discovery) predikce a analýza interakcí mezi proteiny predikce genové exprese modelování molekulární evoluce
Wikipedia
Organizace biologických informací • biologické informace – redundantní a mnohonásobné
• • • •
Genetický kód je redundantní Organismus má mnoho podobných genů Gen může mít více funkcí Rozdílné proteinové sekvence mají stejnou strukturu
Příklad systému - kolo
Kolo Jak jsou redundantní? Jak jsou flexibilní?
Které části jsou sdílené (šroubky, matky, podložky, pružiny, ložiska), nebo unikátní (šlapátka, páčky)?
Kde se jednotlivé části nachází? Jakou mají funkci? Dokážeme je vylepšit?
Biologická data Zdroj dat
Velikost dat
Bioinformatika
DNA sekvence
195 milionů sekvencí (300·109 nukleotidů)
Introny a exony Predikce produktu genů Forenzní analýza
Proteinová sekvence
18 milionů sekvencí (~300 AA)
Porovnávání sekvencí (párové, 1:n) Konzervované sekvenční motivy
Makromolekulární struktura
70 000 struktur (~1500 koordinát)
Predikce sekundární a terciární struktury 3D strukturní alignment Geometrie molekuly a její interakce Molekulární simulace (MD, ligand docking)
Genomy
1000 genomů (~1·109 bp)
Charakterizace opakování Dohledávání struktur ke genům Fylogenetická analýza Genomic-scale census (obsah proteinů, metabolické dráhy) Identifikace genetických chorob
Exprese (genů, proteinů, …)
čipy Mapování expresních dat na sekvenční a (obrazové info:TB/den) biochemické data
Biol. literatura
20 milionů citací
Hledání, digitální knihovny Tvorba znalostních databází – data mining
Bioinformatika - přístup
experimentální data (biologové)
strukturovaná data (databáze) hypotézy
počítačový program (programátoři)
Prostor působení hrubá data příprava sekvence geny
alignment hledání genů databáze organizace
struktura funkce
metabolismus (biologie)
předpověď 3D struktury
metabolismus
fylogenetická analýza
Ideální případ
Počítačové zpracování • Databáze – ukládání, hledání
• Analýza textu – sekvenční analýzy, porovnávání sekvencí, hledání klíčových slov
• Hledání motivů – Neuronové sítě, clusterová analýza, data mining, Markovovské řetězce
• Geometrie – 3D grafika, robotika, 2D/3D rozpoznávání obrazu
• Fyzikální simulace – Mechanika, elektrostatika, numerické algoritmy, simulace
Přehled témat bioinformatiky • • • • • • •
hledání genů a skládání genomů porovnávání sekvencí (alignment) analýza a predikce struktury proteinů a NA hledání léčiv (drug design a discovery) predikce a analýza interakcí mezi proteiny predikce genové exprese modelování molekulární evoluce
Wikipedia
Genom • Hledání genů – introny, exony, promotory, cizí kusy DNA
• Charakteristika opakujících se kusů DNA – forenzní analýza
• Hledání duplicit v genomu
Velikosti genomů Mycoplasma genitalium
0.58 Mbp
Escherichia coli
4.6 Mbp
Saccharomyces cerevisiae 16 chr.
11.2 Mbp
Caenorhabtitis elegans
6 chr.
97.0 Mbp
Arabidopsis thaliana
5 chr.
115.4 Mbp
Drosophila melanogaster
5 chr. ~137.0 Mbp
Homo sapiens
24 chr.
~ 3.3 Gbp
Analýza sekvencí • Porovnávání sekvencí – 1:1 • lokální nebo globální porovnání
– 1:n • hledání konsensní sekvence pro třídu proteinů • mapování evoluce
• Hledání vlastností – sekundární struktura – hydrofobicita – transmembránové segmenty
Predikce proteinové struktury • Terciární struktura – rozpoznání foldu – homologní modelování • strukturní alignment
– ab initio modelování
• Predikce funkce – hledání aktivních míst a kanálů
Strukturní výpočetní biologie Helikáza rozevírající DNA
• Molekulární grafika – vodítko pro hypotézy
• Simulace – Struktura => Energie – vývoj v čase
• Docking – hledání jak a kam se látky váží – ligandy – proteiny mezi sebou docking do acetyltransferázy v programu GOLD
Analýza obrazu s vysokou propustností • Analýza genové exprese • Analýza proteinové exprese • Funkční a toxikologické analýzy
Modelování biologických systémů • matematická biologie • e-cell
Sledování molekulární evoluce • Fylogenetické stromy – hledání společného předka podle podobnosti - změna probíhá v liniích časem - dělení po dvojicích
Souhrn