ové technologie v analýze DA, RA a proteinů Stanislav Kmoch Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK
Motto : "The optimal health results from ensuring that the right molecules are present in the right time in the right amount in the right place in the body.“ Linus Pauling
Moderní způsob definice, diagnosy, pochopení příčiny a léčby nemoci vychází z poznání, že většina patologických stavů je následkem změn normálních biologických procesů, které mohou být způsobeny prostřednictvím infekce, vlivem vnějšího prostředí, vrozenou či získanou změnou genomu, případně kombinací těchto faktorů.
Pochopení patologických stavů na molekulární úrovni (molekulární medicína) je možné pouze za předpokladu, že umíme pozorovat, analyzovat a definovat „normální“ biologický proces a máme možnost porovnávat „normu“ se studovanou odchylkou. Tímto postupem jsme schopni odhalit primární příčiny vzniku onemocnění, popsat změny podílející se nebo doprovázející progresi onemocnění, kvantifikovat vlivy vnějšího prostředí a definovat cíle a metody možného terapeutického zásahu.
U dědičně podmíněných onemocnění je primární příčinou mutace DNA, která zásadně mění vlastnosti produktu mutovaného genu. Tato primární změna má za následek kaskádu kvalitativních, kvantitativních, strukturních, prostorových a časových změn molekul odchylnou od „normálního“ vyváženého stavu a je následně presentována formou abnormálního fenotypu na buněčné, tkáňové, orgánové a organismové úrovni.
Z čistě chemického hlediska představuje buňka heterogenní směs molekul vody, iontů, metabolitů, peptidů, proteinů, nukleových kyselin, lipidů, sacharidů a dalších molekul, které jsou na základě vzájemných interakcí uspořádávány do supramolekulárních komplexů a buněčných kompartmentů.
Jednotlivé molekulární složky buňky nejsme bohužel schopni třídit okem ani jiným dostupným optickým nástrojem. Jedním z cílů molekulární biologie a tím i molekulární medicíny je proto „sestavení katalogu“ všech základních druhů molekul přítomných v jednotlivých buněčných typech s výhledem možnosti porovnávání jejich kvalitativních a kvantitativních změn v biologicky a lékařsky zajímavých procesech.
Nezbytným předpokladem pro sestavení takového molekulárního katalogu je vývoj a aplikace experimentálních metod, které umožňují jednotlivé druhy molekul izolovat a charakterizovat a bioinformatických a statistických metod, které následně umožňující získaná data shromažďovat, ukládat, třídit a porovnávat.
V následujících odstavcích budou proto popsány základní molekulárně biologické a bioinformatické metody používané k sestavení „molekulárního katalogu“ organismů a k analýze jejich změn v patofyziologických procesech.
Analýza DA V lidské buňce je 47 druhů molekul DNA (23 maternálních + 23 paternálních chromosomů + 1 mitochondriální DNA). Jejich základní charakteristikou je primární sekvence nukleotidů. Postupný rozvoj a automatizace sekvenační analýzy DNA, zároveň vyvíjené metody
shromažďování a ukládání sekvenačních dat (GenBank, http://www.ncbi.nlm.nih.gov/Genbank/index.html) a bioinformatické algoritmy umožňující porovnávání jednotlivých sekvencí (BLAST, http://www.ncbi.nlm.nih.gov/BLAST/) poskytly v průběhu minulého desetiletí základní informace o úplných sekvencích celé řady genomů včetně lidského (http://www.ncbi.nlm.nih.gov/sites/entrez?db=Genome).
Stále se upřesňující anotace a porovnávání genomových sekvencí postupně definuje strukturně a funkčně významné oblasti – mezidruhově konzervované oblasti, polymorfní místa, regulační elementy, transkripčně aktivní oblasti, proteiny kódující geny s jejich variantami (polymorfismy případně mutacemi) a oblasti asociované s nějakým fenotypem. Všechny tyto informace jsou integrovány a následně poskytovány formou volně dostupných prohlížečů : MapViewer (http://www.ncbi.nlm.nih.gov/mapview/), Ensembl (http://www.ensembl.org/index.html) a UCSC (http://genome.ucsc.edu/).
Sekvence lidského genomu (ale i dalších druhů) byly získány analýzou DNA několika jedinců a představují proto pouze základní předlohu, která zdaleka neodráží sekvenční různorodost (genetickou variabilitu) studovaného druhu. Snaha o popsání genetické variability druhů, jejíž znalost a možnost porovnávání přinese revoluční informace biologického, evolučního, biomedicínského i historického charakteru (http://www.humanvariomeproject.org/, http://www.nature.com/ng/qoty/index.html), vede k obrovskému nárůstu poptávky po rychlých a levných sekvenačních kapacitách, které by umožnily sekvenaci savčích genomů (cca 3 miliardy bází) v horizontu dnů za cenu cca 1000 amerických dolarů (dnešní cena cca 20 milionů USD). Metodicky jsou tyto přístupy založeny na stále větší automatizaci, paralelizaci a miniaturizaci klasické Sangerovy
enzymatické metody nebo nově na metodách simulujících přirozený procesu replikace DNA, kdy je po oddělení obou vláken podél každého z nich syntetizováno vlákno nové. Sekvence je určována detekcí inkorporace příslušné báze do nově vznikajícího vlákna pomocí fluorescence nebo chemiluminiscence. Funkční a komerčně dostupné přístroje této generace vyvinuly firmy 454 a Solexa (dnes již Ilumina). Jiný možný způsob detekce představuje „protahování“ jednovláknové molekuly DNA skrz nanoporézní membránu s následnou detekcí změny vodivosti charakteristické pro jednotlivé postupně prostupující báze (Agilent Technologies). Přehled perspektivních technik a podporovaných směrů je dostupný na http://www.genome.gov/12513210.
Význam sekvenční analýzy genomů V souvislosti se vzrůstajícím počtem funkčně významných oblastí, identifikovaných transkriptů a jejich střihových variant, proteinů a jejich post-translačně modifikovaných forem, endogenních metabolitů a s rostoucí znalostí variability genomu jsou zároveň vyvíjeny a používány další genomické techniky, které se snaží o co nejširší a pokud možno úplnou kvalitativní případně kvantitativní analýzu příslušné skupiny biomolekul.
Metody genotypování S postupným růstem znalostí o variabilitě lidského genomu byly vytvořeny databáze polymorfních alel. Z počátku to byly alely které se lišily v délce restrikčních fragmentů, později alely lišící se v počtu po sobě se opakujících sekvenčních motivů (VNTR, STR) dále jednobázové polymorfismy SNP (single nucleotide polymorphism) a nově též varianty v počtu kopií (ztrát nebo duplikací) rozsáhlých oblastí (10.000 -5.000.000 bp) genomu – CNV (copy number variation), http://www.sanger.ac.uk/humgen/cnv/.
Dnes je v lidském genomu známo přibližně 3 miliony polymorfních míst (lokusů) jejichž lokalizace, kombinace a populační frekvence je dostupná prostřednictvím výše uvedených prohlížečů nebo specifických databází ( SNP database, HapMap Project). Analýza výskytu a zastoupení jednotlivých alel je základním nástrojem metod vazebné a asociační analýzy. Tyto metody umožňují určit onemocnění podmiňující geny na principu studia segregace (vazbu) dědičnosti studovaného fenotypu s polymorfními alelami v rodinách nebo asociaci studovaného fenotypu s polymorfními alelami případně kombinací alel (haplotypem) v populaci. Prostřednictvím alel nebo haplotypů, které vykazují statisticky významnou segregaci nebo asociaci se studovaným fenotypem, je vymezena chromozomální oblast (kandidátní lokus) ve které je pravděpodobně lokalizován hledaný gen. Ten je následně určen pomocí sekvenační analýzy a identifikace patogenní mutace v některém z genů přítomných v určeném chromozomálním lokusu . Celogenomová vazebná případně asociační analýza je typicky založena na vyšetření (genotypování) několika stovek (v případě STR markerů) až statisíců ( v případě SNPs) genotypů u desítek (v případě vazebné analýzy) až tisíců (v případě asociační analýzy) osob. Metody genotypování jsou odlišné podle typu analyzovaných markerů. STR markery jsou analyzovány pomocí elektroforetického odlišení délky jednotlivých alel. V tomto typu analýzy se s výhodou využívá paralelní analýzy několika různých markerů odlišných délkou analyzovaného fragmentu a různým fluorescenčním značením na klasických sekvenátorech DNA. Pro SNP markery je dnes s výhodou využíváno aplikací DNA čipů, které na základě sekvenčně specifické hybridizace umožňují v jedné analýze určit genotyp až 1 milionu markerů z cca 250 ng genomové DNA. Instrumentaci a jednotlivé typy čipů lišících se stupněm pokrytí genomu poskytují firmy Affymetrix a Ilumina. Metody celogenomové vazebné analýzy založené na genotypování STR markerů, případně SNP, byly, jsou a budou v kombinaci se stávající úrovní sekvenace DNA základním
metodickým nástrojem identifikace onemocnění podmiňujících genů u monogenních chorob. U polygenních onemocnění je nezbytné využít různých variant celogenomové asociační analýzy založené na určení a porovnávání genotypů stovek tisíc až milionu SNP.Výsledky těchto studií nepovedou v první fázi pravděpodobně přímo k identifikaci příčinné genové odchylky a patogenetického mechanismu, ale spíš k definici diagnosticky významných haplotypů s kvantifikovaným rizikem rozvoje příznaků onemocnění. Metody genotypování využívající DNA čipů zůstanou spolu s příslušnými statistickými nástroji analýzy dat v nejbližších letech hlavním nástrojem vazebných a asociačních studií. Kapacita a cena stávajících technologií vycházejících ze stovek nanogramů DNA umožňuje provádění donedávna nepředstavitelných studií tisíců pacientů a kontrol. Zásadním limitujícím faktorem však zůstává schopnost shromáždit a náležitě klinicky definovat rozsáhlé skupiny vyšetřovaných jedinců http://www.genome.gov/20019523.
Metody studia genové exprese (transkripční aktivity) Kvalitativně i kvantitativně studují jak se ve sledovaných biologických materiálech nebo stavech mění spektrum transkriptů jednotlivých genů. Může jít o studie v šíři celého genomu (celogenomové studie) nebo o studie cíleně vybrané skupiny genů. Celogenomové studie genové exprese jsou dnes většinou metodicky založeny na hybridizaci fluorescenčně nebo jinak vhodně značených transkriptů nebo příslušné cDNA k sekvenčně komplementárním próbám rozmístěným na pevném povrchu (DNA čipy). Hlavními metodické platformy představují firmy Affymetrix, Ilumina, Agilent a NimbleGen. Jiný přístup, nevyžadující předchozí znalost sekvencí analyzovaných genů, je založen na masivním sekvenování a kvantifikaci unikátních úseků cDNA (SAGE, MPSS). Analýza získaných expresních hodnot (přibližného počtu kopií jednotlivých typů molekul RNA) poskytuje v prvním kroku informace, v jaké míře a jak statisticky významně jsou
sledované geny aktivní oproti například referenčnímu materiálu, mezi nádorem a „zdravou“ tkání, v průběhu vývoje, v časové řadě po nějakém stimulu. Další analýzy, dostupné například v databázi DAVID, umožňují určit do kterých biologických a funkčních skupin geny se změněnou expresí patří, která z biologických nebo funkčních skupin je mezi geny se změněnou expresí statisticky významně více zastoupena a který proces nebo procesy jsou tedy ve studovaném materiálu nejvíce ovlivněny. Je možné geny se změněnou expresí graficky přímo „mapovat“ nebo přiřadit do známých metabolických a regulačních drah ( program KegArray). Metody shlukové analýzy umožňují rozdělení vzorků do skupin podle podobnosti změn genové exprese a vyhledávat mezi analyzovanými geny takové, které vykazují podobné charakteristiky expresních změn a navrhovat tak případně definovat doposud neznámé regulační a signální dráhy nebo vyhledávat společné regulační motivy v promotorových oblastech (BIOCONDUCTOR). Bez provedení jediného vlastního experimentu je možné všemi možnými způsoby pomocí komerčně nebo veřejně dostupných software a algoritmů analyzovat a porovnávat expresní data z tisíců různých experimentů provedených různým metodickým postupem u různých organismů v různých stavech, která jsou uložena podobně jako data sekvenční ve veřejně dostupných databázích jako Gene Expression Omnibus. Přes všechny představitelné a fascinující možnosti má tato technologie svá určitá omezení. Především aktivita transkripce a množství transkriptů nemusí vždy korelovat s množstvím příslušného proteinu. Následně jde tedy o to prokázat, že jsou pozorované změny promítnuty na proteinové nebo funkční úrovni. Je nutno prokázat repetitivní charakter zaměněného transkripčně – translačního spektra a interpretovat ho v termínech molekulární biologie/patologie buňky. Je nutno mít na zřeteli buněčnou a biologickou heterogenitu studovaného vzorku nejen při studiu vzorku tkáně ale i u tkáňové kultury, např. fibroblastů.
která není v případě analýzy směsi buněk postřehnutelná. Řešením této situace bude vývoj technik umožňujících analýzu několika nebo jediné buňky.
Proteomové techniky Jsou komplementární k metodám studia genové exprese. Jejich cílem je stanovit a porovnávat kvalitativní a kvantitativní zastoupení jednotlivých proteinů a jejich různých post-translačně modifikovaných forem ve sledovaných biologických stavech. Proteomové techniky jsou založeny na rozdělení směsi proteinů pomocí dvourozměrné gelové elektroforézy s následnou detekcí a komparativní analýzou jednotlivých proteinů pomocí vhodného multifluorescenčního (Ettan DIGE) či jiného značení. Proteiny, které jsou předmětem zájmu jsou z gelu izolovány a identifikovány pomocí hmotové spektrometrie. Alternativou gelové elektroforézy je separace proteinů pomocí jiných chromatografických technik (HPLC, afinitní chromatografie, FPLC ap.) opět s následnou hmotově spektrometrickou analýzou. S výhodou je v tomto uspořádání využíváno k hmotnostnímu značení proteinů stabilních izotopů aminokyselin (ICAT).
Metabolomové techniky Studium profilu malých molekul (peptidů a metabolitů) bude nedílnou součástí komplexních genomických studií. Předpokládá se, že zásadní změny nalezené pomocí expresních a proteomických studií musí mít odezvu na úrovni intermediárního metabolismu v souvisejících metabolických drahách, na úrovni signálních molekul, neurotransmiterů ap. Techniky kvalitativního a kvantitativního stanovení metabolitů jsou téměř výhradně založeny na hmotové spektrometrické detekci látek rozdělených vhodnou separační technikou - plynovou chromatografií, kapalinovou chromatografií, kapilární elektroforézou, nebo kombinací několika hmotnostních spektrometrů (MS-MS techniky) a různým způsobem ionizace
analyzovaných molekul. Z dalších detekčních technik se uplatňují nukleární magnetická resonance (NMR) a inračervené spektroskopie s Furierovou transformací (FT-IR). Metodologie studia metabolonu a budoucí trendy jsou uvedeny v následující review.
Očekávané efekty využití moderních molekulárně biologických technik v biomedicíně Bude k dispozici kompletní struktura lidského genomu s všemi funkčně významnými oblastmi a populačními, případně individuálními sekvenčně specifickými odchylkami a jim příslušnými fenotypy.
Metodami vazebné analýzy v kombinaci s výkonnými sekvenačními technikami budou identifikovány všechny geny podmiňující známá monogenní onemocnění.
Metody asociační analýzy poskytnou informace o populačně častých rizikových genových variantách případně haplotypech s kvantifikovaným odhadem jejich příspěvku k riziku vzniku daného onemocnění.
S růstem kapacit, rozvojem nových technik, zvyšující se rychlostí a snižující se cenou budou metodami masivního sekvenování kandidátních genů, například všech genů zúčastněných ve sledované metabolické dráze nebo studované patologii, nalezeny subpopulační případně individuální genové odchylky, neodhalitelné metodami asociačních studií.
Masivní sekvenování se v blízké budoucnosti pravděpodobně stane základním metodickým postupem v oblastech vyhledávání onemocnění podmiňujících genů, nahradí nutnost genotypování a provádění vazebných a asociačních studií. Sekvenování se též uplatní
v kvantitativní a vysoce citlivé analýze genové exprese a nahradí v současnosti používané metody kvantitativního PCR a expresních čipů.
Možnost porovnávat sekvenční variabilitu genomů mezi druhy, uvnitř druhu, mezi tkáněmi a jednotlivými buněčnými strukturami či jednotlivými buňkami přinese zásadně nové poznatky o evoluci, populační genetice, onemocnění podmiňujících genech, ontogenesi tkání, mechanismech, dynamice a tkáňové specificitě mutagenese, epigenetických mechanismech a dalších oblastech. Zajímavou diskuzi k budoucnosti, možnostech a významu sekvenování lze nalézt na stránkách časopisu Nature Genetics, http://www.nature.com/ng/qoty/index.html). Vývoj bude významně akcelerován s šíří dostupnosti metod „levné“ sekvenace celého genomu jedinců nebo buněčných populací (např. nádoru).
Všechny uvedené metody budou klást stále vyšší nároky na kvalitu výpočetní techniky a kvalifikovanou aplikaci metod analýzy obrazu, statistické analýzy a data-miningu.
Diagnóza bude určována v preklinickém stadiu na základě komplexní integrované analýzy dat genomu, transkriptomu, proteomu a metabolonu.
Přes všechen jistě oprávněný optimistický výhled zůstává zásadní otázka jak bude probíhat komunikace výsledků a doporučení směrem od laboratoří ke klinikům a následně pacientům a jak bude společnost připravena na celou řadu potenciálně pozitivních a negativních dopadů dostupnosti genetické informace jedince.