Základy moderní biologie – Přednáška 5.
Tomáš Doležal
5. Sekvenování, přečtení genetické informace, éra genomiky. Minulá přednáška nastínila zrod molekulární biologie a představila některé možnosti, jak pracovat s DNA - jak ji analyzovat na základě velikosti pomocí elektroforézy, jak najít nějaký známý úsek DNA pomocí hybridizace se značenou sondou, jak zaklonovat kus DNA a vytvořit tak rekombinantní DNA (základ genového inženýrství) a také jak rychle namnožit vybraný úsek DNA do miliónu kopií pomocí PCR. Zde si představíme metody, které nám umožňují přímo DNA číst, písmenko po písmenku, nukleotid po nukleotidu.
Jak minulá přednáška ukázala, DNA řetězec je příliš malinký na to, abychom i nejcitlivějšími mikroskopy byli schopni přímo vidět jednotlivé nukleotidy. Například snímek vpravo ukazuje asi maximum toho, co jsme schopni pomocí elektronového mikroskopu z řetězce DNA vidět - jednotlivá písmenka (nukleotidy) v něm rozhodně nerozeznáme. Proto je nutné použít různé molekulárně biologické triky a nepřímé metody, které nám jsou schopné sekvenci DNA určit. S první takovou metodou, která byla a je dodnes rozumně aplikovatelná, přišel v roce 1977 Frederick Sanger, který za ní v roce 1980 získal Nobelovu cenu, a podle kterého je tato metoda pojmenována jako Sangerova metoda sekvenování DNA: F. SANGER, S. NICKLEN, AND A. R. COULSON: DNA sequencing with chain-terminating inhibitors. PNAS 74(12), 5463-5467, 1977. Tato metoda využívá stejného principu jako PCR, kdy je templátová DNA množena pomocí primerů a polymerázy. V případě sekvenační reakce se ovšem použije pouze jeden primer a tudiž dochází k syntéze jen jednoho řetězce v jednom směru. Dalším specifikem sekvenační reakce je (v její originální podobě, dnes je to jinak), že se dělá ve čtyřech zkumavkách, které všechny mají totožné složky reakce (dNTP jako stavební bloky, templát, primer a polymerázu), ale v každé je pak navíc jeden tzv. dideoxynukleotid (ddATP v první zkumavce, ddTTP v druhé, ddGTP ve třetí a ddCTP ve čtvrté). Tento nukleotid je malinko pozměněný, chybí mu –OH skupina na 3’uhlíku:
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
To způsobí, že po začlenění takovéhoto nukleotidu do nově syntetizovaného řetězce již nemůže být připojen další nukleotid (který vyžaduje pro vazbu právě –OH skupinu v tomto místě) a tudíž se za tímto nukleotidem syntéza nového řetězce zastaví. Protože v každé reakci jsou namíchány vždy všechny čtyři normální nukleotidy plus je tam přimíchán navíc tento dideoxynukleotid, je vždy věcí náhody, kdy se tento dideoxynukleotid vmezeří do syntézy a kde se tedy nový řetězec ukončí, ale vždy je to na pozici, kde by v normální sekvenci byla normální forma nukleotidu (tedy pokud je v reakci přítomen ddGTP, tak nový řetězec vždy bude končit v místě, kde se normálně nachází báze G, resp. kde se v templátu nachází komplementární C):
Jak jsme viděli v minulé přednášce, pomocí gelové elektroforézy můžeme rozdělit fragmenty DNA podle velikosti, tj. pokud pustíme na gel vedle sebe tyto čtyři reakce, jsme podle délky jednotlivých fragmentů schopni přečíst pořadí nukleotidů v sekvenci (je třeba mít velmi citlivou elektroforézu, která dokáže rozdělit od sebe dva fragmenty, které se liší pouze o jediný nukleotid):
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
Dnes již existují dokonalejší metody, které ovšem využívají stejného principu, ale jednotlivé reakce jsou značeny čtyřmi různými fluorescenčními značkami. Tím je možné původně čtyři reakce sloučit do jedné zkumavky a též je analyzovat v jednom proužku gelu, dnes na tzv. kapilární elektroforéze, kdy fragmenty se opět na základě velikosti rozdělí tím, jak putují kapilárou, a na konci kapiláry je detektor schopný zaznamenat barvu právě projíždějícího fragmentu:
Výsledkem sekvenační reakce, analyzované na moderním sekvenátoru pomocí kapilární elektroforézy a laserové detekce fluorescenčně značených fragmentů je chromatogram s "peaky" jednotlivých fragmentů tak, jak projížděly detektorem. Pořadí těchto "peaků" pak koresponduje se sekvencí DNA:
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
Tímto způsobem se dnes sekvenuje, tj. čte sekvence DNA, v naprosté většině případů, kdy potřebujeme přečíst sekvenci jednoho konkrétního fragmentu DNA. Touto metodou byl také kompletně přečten celý lidský genom (viz. dále), akorát bylo zapotřebí provést milióny takových sekvenačních reakcí! Dnes již existují dokonalejší metody, které umožňují přečíst sekvenci miliónů fragmentů DNA najednou (tzv. Next Generation Sequencing - viz dále).
Jak najít gen, resp. mutaci v něm, způsobující lidské onemocnění? Pamatujete na Mendela? Je třeba vystopovat, jak se určitý znak (v tomto případě onemocnění) dědí z generace na generaci. Proto je třeba mít k dispozici poměrně rozsáhlý rodokmen, resp. dostatečný počet pacientů pokud možno s co největším počtem příbuzných, kteří se mohou zúčastnit analýzy. To dělá hledání lidských genů, spojených s určitou chorobou, takovým problémem – bohužel není možné lidské pacienty křížit dle potřeby, jako to můžeme udělat s modelovým organismem (myš, octomilka). Pak je potřeba velmi rozsáhlé a pečlivé práce za použití DNA fingerprintingu – zkoušet všechny možné variabilní markery (sekvence DNA, jejichž pozici v genomu známe a které vykazují rozdíly, když se porovnávají mezi jedinci), které v DNA máme k dispozici a pokusit se vystopovat, se kterým markerem se náš neznámý hledaný gen spolu dědí (pamatujete na míchání genů pomocí rekombinací?). Když se tohle podaří, tak budeme vědět, že někde v blízkosti (bavíme se ca. o stotisících až milionech bazí) této značky se ten gen nachází. Pak je potřeba pomocí postupného sekvenování projít (chromosome walking) takovýto úsek chromozomu – pomocí hybridizace najdeme bakteriální klon s přilehlým úsekem, čímž se dostaneme zase o kousek dále, a takto můžeme prosekvenovat celý úsek a hledat kýženou mutaci:
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
Pokud srovnáme takto získanou sekvenci mezi mnoha jedinci s chorobou a mnoha jedinci bez ní, máme šanci najít záměnu, kterou budou mít všichni nemocní, ale ne zdraví jedinci. Po mnoha dalších ověření je pak možné zjistit, jestli tato záměna je skutečně příčinou choroby. Takhle nějak se postupovalo při hledání mutací způsobujících dědičná onemocnění před nástupem moderních metod, zejména Next Generation Sequencing, které toto výrazně zjednodušily (dnes už se neprocházíme po neznámých úsecích chromozomů, ale rovnou porovnáváme celé genomy postižených a zdravých jedinců). Ale nepředbíhejme a podívejme se na historii přečtení kompletní genetické informace člověka. Po té, co se vědci několikrát prošli po neznámých úsecích chromozomů, si uvědomili, že by takto mohli osekvenovat celý lidský genom, řekli si něco ve smyslu:
Co takhle projít se po celém genomu? A tak se v roce 1990 zrodil Human Genome Project (HUGO), který si dal za cíl přečíst kompletní genetickou informaci člověka do 15 let. Mnoho laboratoří po světě si rozdělilo lidský genom na menší části na základě hrubé mapy lidského genomu. Kousky sekvencí z nejrůznějších částí genomu byly namapovány (metodou hybridizace - FISH) na jednotlivé chromozomy a od těchto známých kousků se vždy začínalo. Lidský genom byl rozsekán na menší úseky (několik desítek až stovek tisíců bazí) a z těchto úseků byla vytvořena genomová knihovna v bakteriích, které nesly tzv. BAC klony (Bacterial Artificial Chromosome). Opět metodou hybridizace byly identifikovány klony, které v sobě nesly ony známé namapované kousky chromozomů. Po identifikaci takového klonu měli vědci v rukou již relativně malý kus lidského genomu, o kterém věděli, na jakém chromozomu a kde se nachází. Tento klon pak mohli znovu rozkouskovat ještě na menší kousky a metodou Chromosome Walking mohli celý tento kus postupně prosekvenovat. Později přišli s ještě rychlejším a efektivnějším řešením, jak tyto kusy lidského genomu v BAC klonech prosekvenovat - metodou Random Shotgun. Při něm BAC klon rozkouskovali na relativně krátké fragmenty a všechny naslepo začali
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
sekvenovat. Doufali, že když jich prosekvenují hodně, tak z nich na základě překryvů zpětně poskládají celý úsek klonu - a to se většinou dařilo. Protože celé HUGO konzorcium postupovalo takto hierarchicky, tj. rozdělili si velké úseky lidského genomu a tyto velké úseky si pak rozdělili na menší a ty sekvenovali, ale vždy věděli, s kterou oblastí genomu pracují, mluví se o tzv. HIERARCHICAL SHOTGUN přístupu.
V roce 1998 přišel velký vizionář, úspěšný badatel a byznysman v jedné osobě - Craig Venter - s nápadem využít metodu Random Shotgun na celý lidský genom najednou, tj. netvořit BAC klony, které budou namapovány na jednotlivé chromozomy, ale prostě vzít celou lidskou DNA, rozbít ji na kousky a naslepo sekvenovat, osekvenovat milióny sekvencí a doufat, že z nich půjde díky překryvům zpětně poskládat celý
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
lidský genom. Za tímto účelem nakoupila firma Celera Genomics stovky sekvenátorů, které ve dne v noci skoro rok chrlily jednu sekvenci za druhou. Nakonec to bylo 27 milionů sekvencí o průměrné délce 540 bazí (tj. 175 000 sekvenačních reakcí denně). Tímto množstvím osekvenovali 5x více nukleotidů, než obsahuje lidský genom, což jim umožnilo poskládat 90 % lidského genomu (přesněji řečeno jeho euchromatinové části, tj. aktivní DNA ve které je naprostá většina genů) - přečtení 5x více sekvencí zajistilo, že zbylo jen málo míst, do kterých se při náhodném čtení fragmentů netrefili ani jednou a že většina fragmentů zároveň tvořila překryvy:
Projekt firmy Celera Genomics donutil i konsorcium HUGO urychlit svou práci a tak nakonec v roce 2001 byl oficiálně osekvenován lidský genom (v praxi to znamenalo, že bylo přečteno a poskládáno ca. 90% euchromatinové DNA), přičemž HUGO konsorcium publikovalo svou verzi v Nature a Celera Genomics v Science. Od té doby byly postupně dokončeny i problematická místa a dnes je více než 99% lidské euchromatinové DNA poskládáno - v ENSEMBL Genome Browser se můžete prouzdat kompletním lidským genomem.
Člověk má mnohem méně genů, než jsme předpokládali Velkým překvapením byl počet genů v lidském genomu, který byl po prvním poskládání v roce 2001 odhadnut na ca. 25 000, namísto odhadovaných 100 000! Ve srovnání s mnohem jednodušším organismem, jakým je moucha octomilka, která má 14 000 genů, máme ani ne dvakrát tolik. Odpověď na to, kde je v DNA schována výrazně větší složitost organismů, jako je člověk, naznačuje tabulka níže. Počet protein-kódujících lokusů není výrazně větší u mnohem složitějšího organismu, ale je třeba si uvědomit, že velmi často z jednoho lokusu (genu) vzniká více variant transkriptů (alternativním sestřihem) a tím i více různých proteinů. Tj. neplatí vždy 1 gen = 1 protein, a u složitějších organismů je zpravidla více různých variant transkriptů a proteinů z jednoho lokusu, než u jednodušších (viz. tabulka).
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
člověk
octomilka
známé protein-kódující geny
20 469
13 781
pseudogeny
14 266
95
RNA geny
12 499
993
exony
640 185 71 322
transkripty
178 191 23 017
Toto zjištění ještě více ztěžuje definování genu, jednoduchá definice není - je genem lokus na chromozomu, který kóduje nějaký protein? Co když takový lokus kóduje více variant proteinů (a ty varianty mohou mít někdy i docela různé funkce). Měl by být genem nazýván každý jednotlivý transkript? Ale co když všechny transkripty z jednoho lokusu sdílejí většinu své sekvence a liší se jen mírně a je i těžké rozlišit funkce jednotlivých variant proteinů? Zůstaňme tedy u toho, že genem budeme nazývat místo na chromozomu (lokus), který kóduje nějaký protein nebo více variant podobných proteinů, které vznikají alternativním sestřihem transkriptů daného lokusu (genem mohou být nazývány i lokusy kódující pouze RNA, například ribozomální RNA). Na obrázku dole je například lokus CG42249 (modře), chcete-li gen, v genomu octomilky, který kóduje 2 alternativní transkripty RC a RB (exony naznačeny žlutými obdélníčky), podle nichž vznikají 2 různé varianty proteinu, které sdílejí svou první polovinu, ale liší se tou druhou polovinou (varianta RC vzniká vyštěpením posledních 4 exonů varianty RB a napojením dalších exonů za nimi):
NEXT GENERATION SEQUENCING - sekvenování nové generace V letech následujících po dokončení lidského genomu, který byl přečten za pomocí klasické metody sekvenování dle Sangera (viz. výše), se objevily zcela nové technologie, které posunuly sekvenování do úplně jiné dimenze - často jsou nazývány Next Generation Sequencing (zkráceně též NextGen). Pro ilustraci síly těchto nových metod můžeme použít příklad: na osekvenování celého lidského genomu potřebovaly desítky laboratoří po celém světě více než 11 let, Celera Genomics se stovkami přístrojů a plně automatizovaným provozem potřebovala 2 roky, dnes je to samé možné udělat na jediném přístroji (který se vejde na obyčejný stůl) při obsluze jedním člověkem ani ne za 3 týdny! Principem, který umožňuje během jediné sekvenační reakce přečíst až stovky miliónů bazí, je ukotvení miliónů sekvenačních reakcí na čip (ne větší než několik cm) a simultánní detekce každé jednotlivé reakce pomocí velmi citlivých metod s obrovským rozlišením (zachycení miliónů signálů na ploše několikacentrimetrového čipu). Na obrázku níže je příklad jednoho z přístupů, který zvolila firma Illumina - nejprve uchytí na skleněnou destičku - čip - milióny krátkých fragmentů DNA, kterou chce osekvenovat. Uchycení a tudíž rozmístění jednotlivých fragmentů je zcela náhodné. Každý fragment je na svém místě namnožen, což
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
zvýší signál pro detekci, a poté je čip promýván fluorescenčně značenými nukleotidy, které jsou chemicky modifikovány tak, že se na komplementární DNA fragmentu naváže vždy jen jeden nukleotid (syntéza nepokračuje, dokud v dalším kroku nedojde k modifikaci, umožňující navázání dalšího nukleotidu). Po navázání nukleotidů citlivý detektor sejme obrázek jako je ten dole (malinký výřez, ve skutečnosti jsou tam milióny takových bodů), takže počítač ví, jaký konkrétní nukleotid ze 4 možných byl v kterém konkrétním místě v 1. kroku navázán. Pak pokračuje syntéza a po každém kroku je sejmut obraz. Počítač pak z těchto obrazů poskládá sekvenci každého jednotlivého fragmentu v daném místě, tudíž získá najednou sekvence miliónů fragmentu z jednoho malého čipu. Na základě překryvů (DNA je nafragmentována náhodně na malé kousky) ji pak poskládá do víceméně souvislé DNA (pokud původně šlo o souvislou DNA).
Popis různých přístupů Next Generation Sequencing v Nature Methods.
Éra genomiky Možnosti přečíst a analyzovat celé genomy nás přenesly do éry genomiky. Genomický přístup v bádání znamená, že se badatel nezabývá jen jedním nebo několika málo geny najednou, ale analyzuje nějaký biologický problém na celogenomové úrovni. Můžete se například ptát, jak se liší určitý gen, zodpovědný za nějakou vlastnost, mezi člověkem a jeho nejbližším příbuzným šimpanzem - to by byl přístup klasické genetiky. Dnes už ovšem známe celý genom jak člověka, tak šimpanze a proto můžeme porovnat, jak se liší kompletní genetická informace těchto dvou příbuzných druhů, ptát se například, kde v DNA je zakódováno to, co nás dělá lidmi? Nebo při hledání mutace, která nás předurčuje k určitému typu rakoviny, již nemusíte postupovat kousek po kousku, gen po genu, ale můžete srovnat rovnou celé genomy pacientů trpících touto formou rakoviny a hledat v nich, jakou záměnu oproti většině lidí mají všichni tito pacienti společnou. Možná to nebude jedna záměna, ale více, roztroušené po celém genomu a právě jejich kombinace nás bude činit náchylnějšími - bez možnosti srovnávat celé genomy najednou je nepředstavitelné tyto komplexní záležitosti odhalit. Při nalezení nějakého organismu s výjimečnými vlastnostmi můžeme prozkoumat celý jeho genom a snáze zjistit, co ho dělá tak výjimečným. A nemusíme skončit jen na úrovni DNA a číst celé genomy. Podobně můžeme analyzovat i RNA a ptát se, které všechny geny v daném organismu či jen určité tkáni jsou za daných podmínek aktivní, tj. se přepisují do mRNA? Pak mluvíme o tzv. transkriptomice, protože namísto jednoho konkrétního transkriptu analyzujeme kompletní sadu všech RNA, které se za daných podmínek přepisují, tj. analyzujeme kompletní transkriptom. Toto bylo možné již dříve pomocí microarrays - čipů, které detekovaly celé sady RNA, ale pouze u vybraných organismů, u kterých byl transkriptom znám a někdo si dal práci připravit čipy pro vybrané transkripty. Dnes je ovšem možné díky Next Generation Sequencing, resp. jeho konkrétní aplikaci zvané RNAseq, přečíst transkriptom i organismů, o nichž nic nevíme, prostě osekvenujeme veškeré RNA přítomné v daném vzorku.
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
Je třeba zdůraznit, že se nesekvenuje přímo RNA, ale RNA převedená reverzní transkripcí na DNA. Reverzní transkripce je jedna z komplikací původního centrálního dogmatu, které popisovalo tok genetické informace pouze ve směru DNA→RNA→protein. Ovšem některé viry jsou schopné přepsat svou RNA zpět do DNA pomocí enzymu reverzní transkriptáza, který je využíván právě při čtení transkriptů a transkriptomů. A nakonec nemusíme skončit pouhou genomikou, tj. analýzou celého genomu jednoho organismu. Můžeme číst genomy více organismů najednou, nebo dokonce genomy všech organismů vyskytujících se v daném vzorku, například všech mikroorganismů v určité půdě za daných podmínek. Pak hovoříme o tzv. METAGENOMICE.
METAGENOMIKA = genomika společenstev z prostředí - analýza DNA mikroorganismů izolovaných z prostředí, které se nedají snadno kultivovat, pomocí nové generace sekvenování METATRANSKRIPTOMIKA = analýza aktivity všech genů v prostředí i bez jejich předchozí znalosti, můžeme porovnávat aktivity neznámých genů v různých prostředích a izolovat tak nové geny a jejich funkce
V tomto duchu se rozhodl i Craig Venter, po té co byl nucen opustit Celera Genomics a založil si Institut Craiga Ventera, prozkoumat mikroorganismy této planety. Vybavil se luxusní jachtou Sorcerer II a začal brázdit světové oceány a pomocí filtrů sbírat veškeré mikroorganismy, které tam zachytí. Jejich DNA pak zasílal do svého institutu, kde je sekvenují (metagenomika v praxi). Například expedice do Sargasového moře odhalila více než 1800 nových organismů a popsala více než 1,2 miliónu nových genů. Též detekovali, že v tomto mikrobiálním světě dochází k intenzivnímu horizontálnímu přenosu genů. Craig Venter se tak po 170 letech vrátil k Darwinově cestě na H.M.S. Beagle, tentokrát ovšem na molekulární úrovni.
Základy moderní biologie – Přednáška 5.
Tomáš Doležal
Základy moderní biologie – Přednáška 5.
Tomáš Doležal