Genomika a bioinformatika
Co se o sobě dovídáme z naší genetické informace Jan Pačes, Mgr, Ph.D Ústav molekulární genetiky AVČR, CZECH FOBIA (Free and Open Bioinformatics Association)
[email protected]
Molekulární genetika v datech 1859 Darwinova práce „O původu druhů“ 1865 Mendelovy zákony dědičnosti 1869 Poprvé izolovaná DNA 1879 Objev mitózy 1902 Dědičné choroby se řídí mendelovými zákony 1902 Chromozómová teorie dědičnosti 1909 Vznik termínu gen 1911 Na mušce octomilce dokázána chromozómová teorie dědičnosti 1911 Gen jako základní jednotka dědičnosti 1941 Jeden gen, jeden enzym 1943 Rentgenová difrakce DNA 1944 DNA (ne proteiny) je „transformující princip“ 1952 Geny jsou z DNA
1953 Dvoušroubovicová struktura DNA 1955 Člověk má 46 chromozómů 1955 DNA polymeráza – enzym kopírující DNA 1958 Semikonzervativní replikace DNA 1959 Identifikovány chromozomové abnormality (Downův syndrom) 1961 mRNA přenáší genetickou informaci v buňce 1961 První kontrola dědičných metabolických poruch u novorozenců 1966 Rozluštěn genetický kód 1968 Objev prvního restrikčního enzymu 1972 První rekombinantní DNA 1973 Naklonován první zvířecí gen 1975 Sekvenování DNA 1977 Objev intronů 1981 První transgení myš a moucha 1982 Vznik GenBank, databáze „přečtené“ DNA 1983 Identifikován první gen zodpovědný za genetickou chorobu (Huntingtonova nemoc) 1983 Vynález PCR 1987 Genetická mapa lidského genomu 1989 Genetické markery (mikrosatelity, STS) 1990 HUGO: Projekt sekvenace lidského genomu 1994 Prodej první geneticky modifikované plodiny: FLAVR SAVR rajče 1994 Detailní genetická mapa člověka 1994 První mikrobiální genomový projekt 1995 První mikrobiální genom osekvenován: Haemofilus influenza 1996 První eukaryotický genom osekvenován: kvasinka Saccharomyces cerevisiae 1996 První archea genom osekvenován: Methanococcus janaschii 1996 Začátek faktické sekvenace lidského genomu 1998 Privátní projekt sekvenace lidského genomu (Celera) 1998 První mnohobuněčný organismus osekvenován: červ Caenorhabtitis elegans 1999 Osekvenován nejmenší lidský chromozóm 22 2000 Osekvenován genom mušky octomilky 2000 Lidský chromozóm 21 2000 První pracovní verze „kompletního“ lidského genomu 2002 Finální verze lidského genomu
2004 Šimpanzí chromozóm 22
Současný stav genomiky Současné metody sekvenování DNA jsou tak účinné, že se daří stanovit nukleotidové sekvence celých genomů. Obor genomiky se zaměřuje na komplexní analýzu genomů založenou právě na znalosti pořadí nukleotidů v DNA. V současné době je známa úplná struktura téměř stovky genomů (viz například http://www.genome.ad.jp/kegg/catalog/ HT
org_list.html nebo http://www.tigr.org/tdb/mdb ). Většina jsou bakteriální genomy. Tyto TH
HT
TH
genomy jsou zpravidla tvořeny jedním chromozómem případně ještě jedním nebo několika malými cirkulárními molekulami DNA zvanými plazmidy. Celkový počet nukleotidů v prokaryotickém genomu se pohybuje v řádu miliónů. Byly ale již stanoveny úplné nukleotidové sekvence genomů vyšších organismů, například kvasinky Saccharomyces
cerevisiae (12 Mbp), hlístice Caenorhabditis elegans (97 Mbp) a mušky octomilky (137 Mbp). V roce 2000 byla stanovena prakticky úplná nukleotidová sekvence lidského genomu (3 Gbp). Další genomy (myš, krysa, ryba Danio rerio, rostlina Arabidopsis thaliana, šimpanz …) následovaly a následují se stále se zrychlující frekvencí. Z těchto čísel je zřejmé, že není možné zpracovávat takové množství nukleotidových sekvencí v genomech bez velmi účinného počítačového vybavení. Vznikl nový obor, bioinformatika, který se mimo jiné věnuje právě zpracování a počítačové analýze velkých souborů nukleotidových sekvencí, jaké jsou generovány například právě v genomových projektech a na ní navazující analýze aminokyselinových sekvencí proteinů. Pro získání úplné nukleotidové sekvence genomu skládáme do kontinuálních lineárních řetězců nukleotidové sekvence získané sekvenováním jednotlivých klonů. V typickém případě stanovíme jedním sekvenováním pořadí několika set až jednoho tisíce nukleotidů. Z takových parciálních sekvencí pak postupně skládáme delší a delší řetězce (tzv. kontigy) až v ideálním případě získáme celou sekvenci, například sekvenci genomu nebo velkého úseku DNA který studujeme. To jsou první počítačové operace v sekvenačních projektech. Takto získanou sekvenci pak podrobíme další počítačové analýze. Snažíme se identifikovat všechny geny přítomné ve stanovené nukleotidové sekvenci, jejich strukturu (například exon-intronovou organizaci), elementy regulující expresi genů (například promotory, enhancery, terminátory transkripce) a další důležité úseky DNA. Geny překládáme do sekvence aminokyselin proteinů a stanovíme jejich základní charakteristiky,
například základní rysy sekundární struktury. Obvykle stanovíme celkovou charakteristiku DNA, jako je zastoupení jednotlivých bází. Po této základní charakterizaci DNA přistupujeme zpravidla ke srovnání nukleotidové sekvence s údaji v mezinárodních databázích. Ty jsou dnes již velmi rozsáhlé. Například databáze nukleotidových sekvencí EMBL obsahuje skoro čtrnáct miliard nukleotidů tvořících mnoho genů a genomů z různých organismů. Následuje vyhodnocování identifikovaných homologií. Z něho potom můžeme sestavit mnoho metabolických drah, které tvoří podstatu života buňky. Srovnávací genomika Důležitou součástí počítačové analýzy genomů a genomiky vůbec je takzvaná komparativní (srovnávací) genomika. Pomocí ní můžeme identifikovat rozdíly mezi jednotlivými druhy a identifikovat ty rozdíly, která byly během vývoje pro daný druh klíčové. Pro nás jako příslušníky druhu Homo sapiens je zejména zajímavé porovnání našeho genomu s jinými druhy, zejména s druhem nám nejbližším, naším bratrancem šimpanzem (Pan troglodytes). Historie vzniku druhu Homo sapiens sestavená na základě fosilních nálezů nedává jasnou odpověď na otázku, co dělá člověka člověkem, která ze změn nás odlišila od ostatních primátů.
Obr 1. Evoluční strom primátů.
Při porovnávání dvou nukleotidových sekvencí se nemusíme zabývat tím, jak si jsou jednotlivé nukleotidy v páru příbuzné a vystačíme s totožností (i když ani toto zjednodušení neplatí vždy). Jiná je situace u aminokyselinových sekvencí. Při porovnávání evolučně příbuzných sekvencí bylo objeveno, že pro funkčnost enzymu je často důležitá pouze obecná biochemická vlastnost jeho aminokyselin na určitém místě (například hydrofóbní aminokyseliny v transmembránové doméně) a proto můžeme jednotlivé aminokyseliny seskupit podle jejich biochemické příbuznosti (hydrofobicita, náboj, velikost, polárnost atd.). Záměna podobných aminokyselin pak může být při sledování příbuznosti hodnocena lépe než záměna aminokyselin nepříbuzných. Zároveň bychom také měli uvažovat i genetickou (evoluční) příbuznost. Například tryptofan je kódován pouze jedním kodónem, UGG. Jednokrokovou mutací z něj může vzniknout kodón pro glycin (GGG), serin (UCG) a leucin (UUG), dva kodóny pro cystein (UGU,UGC), arginin (CGG,AGG) a dva tzv. stop kodóny (UGA,UAG). Je tedy pravděpodobnější, že dojde k změně tryptofanu na arginin než například na glycin. Přesto jsou biochemické vlastnosti tryptofanu a argininu maximálně odlišné – tryptofan je hydrofóbní aromatická aminokyselina, arginin naopak hydrofilní polární kladně nabitá aminokyselina. Z těchto úvah vycházíme při tvorbě tabulek pravděpodobností fixace různých mutací, na jejichž základě se pak můžeme pokusit rekonstruovat evoluční historii daného genu nebo třeba celého druhu. Kde na internetu začít Veškerá data získaná sekvenováním a mnoho analýz a databází je přístupných veřejně na internetu. V České republice je při Centru aplikované genomiky organizována databáze užitečných bioinformatických linek na adrese http://bio.img.cas.cz/links . Velká bioinformaHT
TH
tická centra v Evropě, která nabízejí celou řadu zajímavých služeb a databází, jsou na adresách http://www.ebi.ac.uk (European Bioinformatic Institute) a http://www.expasy.org HT
TH
HT
TH
(Expert Protein Analysis System). V USA je jednou z nejhojněji navštěvovaných adres
http://www.ncbi.nlm.nih.gov (National Center for Biotechnology Information). Databáze
HT
TH
a analýzy lidského, šimpanzího a dalších genomů jsou k dispozici například na adresách
http://genome.ucsc.edu nebo http://www.ensembl.org .
HT
TH
HT
TH
Nejpoužívanější biologické databáze a formáty dat EMBL databáze Databáze EMBL je organizována Evropskou molekulárně biologickou laboratoří (EMBL). Je to veřejná evropská primární nukleotidová databáze se sídlem v Anglii na adrese
http://www.ebi.ac.uk/embl . Databáze je vytvářena v součinnosti s ostatními nukleotidovými
HT
TH
databázemi GENBANK (USA) a DDBJ (Japonsko) a je velmi dobře přístupná spolu s mnoha odvozenými a dalšími databázemi přes SRS (Sequence Retrieval System) například na adrese
http://srs.ebi.ac.uk . Databáze obsahuje všechna data zaslaná vědeckou komunitou, a to bez
HT
TH
kontroly. Z tohoto důvodu může obsahovat určité procento chyb
SWISSPROT SWISSPROT je formát proteinových sekvencí podobný formátu EMBL. Databáze SWISSPROT je anotovaná proteinová databáze organizovaná hlavně švýcarským bioinformatickým institutem. Přístupná je na adrese http://www.expasy.ch/sprot . Úzce HT
TH
spolupracuje s EMBL a společně vytvářejí TrEMBL, také proteinovou databázi. Tyto dvě databáze dohromady pokrývají všechny "existující" či "smysluplné" proteinové sekvence. Autoři z literatury průběžně doplňují nové informace a v současné době se pravděpodobně jedná o nejkvalitnější molekulárně-biologickou databázi. Pro vědecké použití je SWISSPROT volně k dispozici.
GENBANK Distribuční formát nukleotidové databáze GENBANK, který je podobný formátu EMBL je lépe čitelný – místo dvoupísmenného identifikátoru používá celé slovo. Databáze GENBANK je nukleotidová databáze, kterou organizuje Národní institut zdraví (NIH) v USA. Díky výměnné spolupráci s ostatními nukleotidovými databázemi obsahuje v podstatě stejná data jako EMBL. GENBANK je výborně propojena s mnoha dalšími databázemi a výše uvedená adresa je výchozím bodem hledání pro velkou část vědecké komunity. Bohužel, je třeba mít při práci na paměti, že (stejně jako EMBL) neobsahuje všechny dostupné sekvence, hlavně z velkých genomových projektů. Podrobnější informace o databázi lze najít například na adrese http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html HT
TH
PIR Stejně jako v případě EMBL/SWISSPROT je i formát PIR formát požíván pro proteiny. Organizován je podobně jako GENBANK v NCBI. Zde s dalšími organizacemi vytváří PIR-International, anotovanou databázi analogickou SWISSPROT. Obě databáze jsou přístupné na adrese http://www-nbrf.georgetown.edu . HT
TH