Investice do rozvoje vzdělávání
Inovace studia molekulární a buněčné biologie
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
Investice do rozvoje vzdělávání
Genomika (KBB/GENOM)
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
Investice do rozvoje vzdělávání
Genomové projekty p j y
Ing. Hana Šimková, CSc.
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
Investice do rozvoje vzdělávání
Cíl přednášky - seznámení s genomovými projekty mikroorganismů, rostlin, živočichů, člověka
Klíčová slova - genomové projekty mikroorganismů, rostlin, živočichů, člověka, databáze,, minimální genom, g , metagenomika, g , HUGO
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
GENOMOVÉ PROJEKTY Souhrnné informace o osekvenovaných organismech: GNN ((Genome News Network)) www.genomenewsnetwork.org
GENOMOVÉ PROJEKTY MIKROBŮ Nejrozsáhlejší databáze genomových sekvencí mikrobů TIGR – Comprehensive Microbial Resource - k 22.9.2006 - celkem 357 genomů (+17 rozpracovaných) – 328 bakterií - 26 archeí - 3 viry – k 17.12.2007 17 12 2007 - celkem lk 384 genomů ů ((+17 17 rozpracovaných) ý h) – 353 b bakterií kt ií - 28 archeí - 3 viry - k 16.12.2008 – celkem 448 genomů (+17 rozpracovaných) – 404 bakterií - 31 archeí - 3 viry -kk 7.12.2009 – celkem 554 genomů (+ ( 17 rozpracovaných) – 509 bakterií - 42 archeí - 3 viry
První sekvenované bakterie Haemophilus influenzae - r. 1995 1.8 Mbp, p 1750 g genů Poprvé strategie shotgun sekvenování (Venter+Smith, TIGR) Mycoplasma M l genitalium it li – r. 1995 TIGR – shotgun Nejmenší volně žijící genom - 580 000 bp 482 genů pro proteiny (z toho 100 specifických pro M.g.) + 36 genů p g pro tRNA a rRNA První sekvenovaný genom archeí M th Methanococcus jannaschii j hii – r. 1997, 1997 1 1,7 7 Mb Mbp, 1682 genů ů Bezjaderné, ale geneticky a sekvenčně se více podobá eukaryotům
Hledání minimálního genomu Strategie: a) bioinformaticá – hledány geny společné pro všechny sekvenované genomy b) experimentální i tál í – mutacemi t i – vyřazení ř í genu vlivem li iinzerce ttranspozonu Porovnáváním pro M.genitalium M genitalium a M. M pneumoniae - nevyřazených genů celkově 350, nezbytných 256. Teoretický minimální organismus – prototrofní, anaerobní, glykolýza
Sestavení umělých genomů - v r. 2002 – resyntéza poliovirusu pouze ze známých sekvenačních dat - v r. 2007 00 – sy syntéza é a ge genomu o u M. ge genitalium a u – vpraven p a e do ba bakterie e e ((Venter) e e)
Další zajímavé sekvenované bakterie Deinococcus radiodurans odolává záření 12 mil. radů, je schopen rekonstituovat svůj genom z rozbitých kousků genom – 4 molekuly DNA, 3187 genů Každá bakterie – 4 4-10 10 kopií každého genu
Environmentální sekvenování (metagenomika)
- sekvenování celého souboru mikroorganismů z určitého prostředí – např. mořská voda, půda, střevní mikroflóra. DNA se izoluje z určité velikostní frakce organismů (bez virů a mnohobuněčných organismů) – získají se sekvence bakterií bakterií, které nelze kultivovat in vitro. Sekvenační technologie nové generace.
Kvasinky Saccharomyces cerevisiae – r. r 1997 12 Mb – sekvenovalo přes 100 laboratoří. 6000 genů Saccharomyces Genome Database – údaje o genech včetně mutačních, biochemických, strukturních a transkripčních dat - pro nalezení funkce – systematická mutageneze (genetický knock-out), analýza genových interakcí - analýza exprese pomocí microarrayí – v různých fázích buněčného cyklu, meiózy, různé podmínky prostředí – sledovala g Model p pro studium rakoviny. y se koregulace. Schizosaccharomyces pombe, Candida albicans Paraziti - databáze na stránkách TIGR, NCBI a European Bioinformatics Institute parasite genomics server server.
ROSTLINNÉ GENOMOVÉ PROJEKTY - pro více než 50 rostlinných druhů: agronomicky významné plodiny (obiloviny, luskoviny, pícniny), lesní dřeviny (Dendrome web site – http: //dendrome //dendrome.ucdavis.edu/, ucdavis edu/ markery) i modelové rostliny - např. Antirrhinum majus – mutanty kvetení, Brassica oleracea – studium domestikace, spontánní mutace genů pro růst meristémů) Hrubá sekvence získána pro Arabidopsis thaliana – r. 2000 Oryza sativa ssp. japonica – r. 2002 Oryza indica – r. 2002 Populus trichocarpa – r. 2005 Physcomitrella y r. 2007 Chlamydomonas Zea mays – r. 2009 Seznam rozpracovaných genomů NCBI – Entrez Genome Project JGI TIGR
SEQUENCED PLANT GENOMES GROUP
GENUS
tomato rajče tobacco tabák potato brambor Rosids Arabidopsis thaliana Arabidopsis lyrata Capsella kokoška Brassica bavlník cotton Medicago vojtěška Lotus štírovník Mimulus kejklířka topol poplar Monocots bread wheat pšenice sorghum čirok Ae. tauschii mnohoštět barley ječmen Saccharum cukrová třtina rýže rice Brachypodium válečka maize Gymnosperms Pinus borovice liánovec Gnetum vraneček Club moss Selaginella Asterids
BAC MAP WGS
EST
BAC MAP - fyzická mapa sestavena sestavuje t j se WGS - celý genom sekvenován EST - sekvenovány ESTy
Arabidopsis thaliana Arabidopsis A bid i genome iinititative itit ti (AGI) Sekvenování postupem „shora dolů“ – na základě fyzické mapy kosmidových klonů. Osekvenováno cca 115 Mbp (euchromatin) – 25 500 genů (11 000 genových rodin). Během evoluce patrně 2x duplikace celého genomu. Geny specifické pro rostlinný genom: - více než 800 jaderných genů je plastidového původu - enzymy pro výstavbu buněčné stěny - enzymy a jiné makromolekuly účastnící se fotosyntézy - produkty uplatňující se při vzniku turgoru, fototropismu a geotropismu - enzymy účastnící se produkce speciálních sekundárních metabolitů - geny pro rezistenci k patogenům Th Arabidopsis The A bid i Information I f ti Resource R (TAIR) – www.arabidopsis.org bid i
GENOMOVÉ PROJEKTY PRO OBILOVINY - přednostně věnována pozornost ekonomicky významným znakům: - znaky související - s výnosem (morfologie zrna, množství semen, doba kvetení) - s kvalitou produktů - odolnost vůči biotickým ý a abiotickým ý stresům (prostředí, (p , patogeny) p g y) Modelové genomy Rýže Brachypodium 130-470 Mbp
Kukuřice (2,3 Gbp)
- na základě sekvence předpovězeno 32 000 genů - 85% genomu – transponovatelné elementy
Pšenice, ječmen, žito, oves, tritikale - velké komplexní genomy Informace o sekvencích, mapách, markerech, ESTech, knihovnách, literatuře novinkách – databáze GrainGenes, literatuře, GrainGenes Graminae
GrainGenes is a compilation of molecular and phenotypic information on wheat wheat, barley barley, rye rye, triticale, and oats. The project is supported by the USDA-ARS Plant Genome Research Program, and by the community of scientists who are providing the information and the reasons to be interested in it.
Pšenice (Triticum aestivum) allohexaploidní druh – 2n=6x=42, genom AABBDD vznikl na základě dvou nezávislých hybridizací Genom cca 110x větší než Arabidopsis, Arabidopsis 1 chromozóm větší než celý genom rýže
17,000 Mbp (1C) 1 2% genů 1.2%
Možné strategie sekvenování a) redukující přístupy - sekvenování ESTů – nezachytí celé sekvence a všechny geny - metylfiltrace, sekvenování založené na Cot frakcionaci – jen malé obohacení o kódující sekvence, sekvence nelze uspořádat b) shotgun sekvenování – není u tak velkého genomu proveditelné c) sekvenování klon po klonu (clone-by-clone sequencing)
K sekvenování klon po klonu jsou nutné knihovny velkých inzertů (BAC, (BAC YAC) a fyzická mapa – u pšenice za současných technologií není realizovatelná (genomická knihovna pšenice ve vektoru BAC má 1 200 000 klonů!)) DNA molekula
Fyzická molekulární mapa (bp)
Ukotvené markery
Genetická mapa (cM)
Fyzická cytogenetická mapa (μm)
A
B
C
D
E
F
G
Řešení nabízí strategie založená na použití chromozómově specifických knihoven - vytvořeny z jednotlivých chromozómů (ramen) vytříděných pomocí průtokového cytometru Genome size AA BB Triticum aestivum ((2n = 6x = 42)) 1C ~ 17 000 Mbp DD
Arabidopsis thaliana (2n = 2x = 10) 1C ~ 150 Mbp
Nuclear genome
;
Chromosomes: 605 - 995 Mbp (3.6 – 5.9% of the genome) Chromosome arms: 225 - 585 Mbp ((1.3 – 3.4% of the g genome))
Umožňuje rozdělit přípravu fyzických map a sekvenování mezi laboratoře.
INTERNATIONAL COLLABORATION ON THE WHEAT GENOME 1A
2A
3A
4A
5A
6A
7A
International Wheat Genome Sequencing 1B
2B
3B
4B
5B
6B
7B
Consortium
21 chromozómů pšenice š i seté é 1D
2D
3D
4D
5D
6D
7D
Projekt sekvenování lidského genomu
PROJEKT LIDSKÉHO GENOMU (HGP) Z háj v r. 1990, Zahájen 1990 3 pětileté ě il é plány lá
Původní cíle: 1) Vytvoření genetických a fyzických map o vysokém rozlišení, které pomohou lokalizaci genů spojených s chorobami h b i 2) Získání kompletní sekvence genomu 3) Identifikace genů – kombinací vyhledávání ORF, ORF vytváření databází ESTů, využití dat o funkci z jiných živočišných ý genomových g ý p projektů j 4) Sestavení databáze polymorfismů, zejména SNP usnadnění integrace genom. a klinických dat studium t di lidské lid ké di diverzity it a evoluce l 5% rozpočtu na výzkum etických etických, právních a společenských aspektů (projekt ELSI)
Významné milníky 1991 – Craig Venter – sekvenování ESTů (10 000 ročně) č ě) 1992 – vzniká TIGR 1994 – hustá genetická mapa s 1200 markery po 1cM - v TIGRu osekvenován genom H. influenzae shotgun technikou 1995 – fyzická mapa z 52 000 STS po 60 kb - databáze 30 000 ESTů (NIH) - Venter V t publikuje blik j v Nature N t podrobné d b é údaje úd j o své é sbírce ESTů (175 000 vlastních – z 37 tkání, celkem 345 000) 1998 – popsána kolekce 3000 SNP (2004 – 1,8 mil SNP) 2000 – kompletní p sekvence nejmenšího j chromozómu (21) ( )
Hrubé sekvenování ukončeno v r. 2000. V té době odhady počtu genů 20 000 000-120 120 000 000. E. coli S. cerevisiae Velikost genomu (Mb) Počet ggenů
Drosophila p
A. thaliana
Myš y
Člověk 3000+
4,6
12,0
120+
115+
2500+
4300
6250
13600
25500
30000
25000
+ pouze sekvenovaný chromatin Enzymy účastnící se metabolismu – stejný počet jako jiná eukaryota, vzrůstá počet genů s regulačními funkcemi. Zhruba stejný obsah genů jako jiní savci, některé třídy genů ů dokonce pokles.
Čí genom byl sekvenován? Mezinár. konsorcium > 50 dobrovolných dárců DNA
Celera 21 dárců DNA
knihovny velkých inzertů (BAC/PAC)
vybráno 8 knihoven, vše muži, etnický původ neznámý
hierarchické é sekvenování á í 75% od 1 dárce
knihovny 2-, 10-, 50-kb
vybráno 5 knihoven (2 muži, 3 ženy, různý původ)
shotgun sekvenování á í 66% od 1 dárce
Kdy bude projekt dokončen?
Původní cíl - 1 chyba na 10 000 bp. Dnes 99% euchromatinu – 1 chyba na 100 000 bp. Rozsáhlé úseky heterochromatinu heterochromatinu, zejména centromerického (cca 20% genomu) se možná vůbec nepodaří poskládat.
Internetové zdroje Centrální internetové zdroje koordinovány - Národním centrem pro biotechnologické informace (NCBI) – USA - projektem Ensembl – spolupráce mezi Evropským bioinformatickým institutem (EMBL-EBI) a Sangerovým centrem ve Velké Británii správa p databází,, vývoj ý j softwaru,, rozšiřování biomedicínských informací, digitální archiv literatury Součástí NCBI je webová stránka OMIM (Online Mendelian Inheritance in Man) – integruje genomická data s medicínskými (katalog dědičných nemocí)
ŽIVOČIŠNÉ GENOMOVÉ PROJEKTY International Sequencing Consortium – spravuje datábazi živočišných a rostlinných genomových projektů Návrh na sekvenování nového organismu g posuzuje p j NHGRI – p podle přínosu získaných sekvencí pro biomed. výzkum Jednotlivá sekvenační centra se ucházejí o projekt. Hrubá sekvence živočišného genomu za 3 3-6 6 měsíců.
Projekty genomu hlodavců PROČ? 1) Existuje dostatek mutantních kmenů (dobře charakterizované) + možnost mutageneze celého genomu umožňuje žň j genetickou ti k analýzu lý jakéhokoli j kéh k li lokusu 2) Existuje sbírka cca 100 kmenů laboratorních myší s dobře charakterizovaným rodokmenem umožňuje studium genetické variace a komplexních g p kvantitativních znaků (asociační mapování) 3) Evoluční pozice hlodavců – dost vzdálení – konzervované sekvenční k č í bloky bl k jsou j indikátorem i dikát funkční f kč í nutnosti t ti - dost blízcí – mnoho aspektů vývoje, fyziologie a genetika jsou podobné
Myš – hrubá sekvence rr. 2002 Krysa
2004
Mouse g genome informatics - web stránka – obsahuje j - genetické, fyzické a komparativní mapy - údaje o kmenech (včetně údajů o nádorech) a polymorfismech - údaje o genové expresi - rozsáhlý seznam genetických markerů - umožňuje možň je sro srovnání nání sek sekvencí encí m myšího šího a lidského genom genomu – slouží slo ží k identifikaci regulačních míst a pomáhá anotaci genů
DALŠÍ MODELOVÍ OBRATLOVCI Pes – r. 2003 - model pro řadu chorob – astma, parazitické infekce, rakovina, artritida, cukrovka poruchy chování cukrovka, Kur domácí – r. 2004 - model d l pro onkogenezi k i a virologii i l ii Primáti: šimpanz (r. 2005), makak - pro studium imunitního systému, mechanismu rezistence proti patogenům (HIV) pro studium evoluce – v g genech rozdíl jjen 1,2% , -p Skot – draft r. 2004, prase – draft r. 2005 Modelové ryby: Danio rerio – model pro studium embryogeneze, neurogeneze, organogeneze Tetraodon nigroviridis, nigroviridis Fugu rubripes
Paleogenomika Mamut – listopad 2008 - použito 454 sekvenování - sekvenováno 28 Mbp metagenomickým přístupem (ze vzorků mamuta ze Sibiře) – 13 Mbp opravdu DNA mamuta, zbytek bakterie aj. - homologie se sekvencí slona afrického – 98,55%
MODELOVÉ ORGANISMY BEZOBRATLÉ PROČ? - možnost získat mutace ve všech genech – saturační mutageneze + konstruce delečních map (Drosophila) - cílená mutageneze - vhodné ke studiu procesu vývoje, ke studiu lidských chorob, včetně psychických hi ký h poruch h Caenorhabditis elegans – nematoda – tělo 959 buněk Genom přečten r. 1998 – 97 Mbp, 19 099 genů – tvoří 25% genomu, 30% příbuzných s geny člověka. j vhodný ý ke studiu nervového systému. y Zejména WormBase web site Drosophila melanogaster 180 Mbp, třetina repetice, 13 500 genů - vysoký stupeň konzervace všech hlavních regulačních a biochemických drah drah, jež jsou také u kvasinek a vyšších eukaryot FlyBase web site
Geny pro lidské choroby v modelových organismech
Modrá – Drosophila Oranžová – Caenorhabditis Fi l á - Saccharomyces Fialová S h
Gibson a Muse, 2004