VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV BIOMEDICÍNSKÉHO INŽENÝRSTVÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF BIOMEDICAL ENGINEERING
VYUŽITÍ NUMERICKÝCH REPREZENTACÍ VE ZPRACOVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ THE USE OF NUMERICAL REPRESENTATIONS IN PROCESSING OF NUCLEOTIDE SEQUENCES
Bakalářská práce bachelor´s thesis
AUTOR PRÁCE
ADAM KOŠÍČEK
AUTHOR
VEDOUCÍ PRÁCE SUPERVISOR
BRNO 2014
ing. VLADIMÍRA KUBICOVÁ
Abstrakt: Převod sekvencí DNA na vhodnou reprezentaci je důležitou úkolem před samotným započetím analýzy a dalšího zpracování. Hlavním úkolem této práce bylo se seznámit s typy numerických a grafických reprezentací a jejich využitím pro analýzu DNA. Vzhledem k velkému množství metod a postupů, byly do této práce vybrány pouze některé. Některé metody nelze přímo klasifikovat jako numerické nebo grafické, protože obsahují možnost obojí reprezentace. Tyto metody byly zařazeny mezi grafické reprezentace. Pro vybrané metody byly vytvořeny fylogenetické stromy pro porovnání přesnosti. Závěrem práce je zhodnocení získaných výsledků.
Klíčová slova: DNA sekvence, numerická reprezentace, grafická reprezentace, CpG ostrůvky, kódující sekvence, podobnost, dendrogram, kritérium
Abstract: Conversion of DNA sequences for appropriate representation is important task before initiation of analyzes and further processing. The main goal of this work was to get familiar with types of numerical and graphical representations and their application for DNA analyzes. In consideration of great volume of methods and procedures, only a few were chosen for this work. Some methods can not be classified only as numerical or graphical representations, because of option allowing them to be converted into both of these representations. These methods were classified as graphical representations. Phylogenetic trees were programmed for chosen methods to compare its precision. Outcome of this work is summing up the results.
Key words: DNA sequence, numerical representation, graphical representation, CpG islands, coding sequence, similarity, phylogenetic tree, criterion
KOŠÍČEK,
A. Využití
numerických
reprezentací
ve
zpracování
nukleotidových
sekvencí. Brno: Vysoké učení technické v Brně, Fakulta elektrotechniky a komunikačních technologií, 2014. 56 s. Vedoucí bakalářské práce ing. Vladimíra Kubicová.
Prohlášení Prohlašuji, že svou bakalářskou práci na téma Využití numerických reprezentací ve zpracování nukleotidových sekvencí jsem vypracoval samostatně pod vedením vedoucího bakalářské práce a s použitím odborné literatury a dalších informačních zdrojů, které jsou všechny citovány v práci a uvedeny v seznamu literatury na konci práce. Jako autor uvedené bakalářské práce dále prohlašuji, že v souvislosti s vytvořením této bakalářské práce jsem neporušil autorská práva třetích osob, zejména jsem nezasáhl nedovoleným způsobem do cizích autorských práv osobnostních a/nebo majetkových a jsem si plně vědom následků porušení ustanovení § 11 a následujících zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon), ve znění pozdějších předpisů, včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníku č. 40/2009 Sb.
V Brně dne ..............................
.................................... (podpis autora)
Poděkování Děkuji vedoucímu bakalářské práce ing. Vladimíře Kubicové za účinnou metodickou, pedagogickou a odbornou pomoc a další cenné rady při zpracování mé bakalářské práce.
V Brně dne ..............................
.................................... (podpis autora)
Obsah 1
Úvod ......................................................................................................................... 9
2
Teoretický rozbor ................................................................................................... 11
3
Numerické reprezentace......................................................................................... 14 3.1
Fixní mapovací metody .................................................................................. 14
3.2
Mapování založené na fyzikálně-chemickém charakteru ............................... 15
3.3
Mapování založené na statistických vlastnostech........................................... 16
3.4
Výhody a nevýhody ........................................................................................ 17
3.5
Využití numerických reprezentací .................................................................. 19
3.5.1 Vyhledávání CpG ostrůvků ....................................................................... 19 3.5.2 Určování kódujících sekvencí ................................................................... 20 4
Grafické reprezentace ............................................................................................ 23 4.1
2D reprezentace .............................................................................................. 23
4.1.1 Metoda podle Liao 1 .................................................................................. 23 4.1.2 Křivka PNN ............................................................................................... 25 4.1.3 Metoda podle Liao 2 .................................................................................. 27 4.1.4 Metoda podle Guo ..................................................................................... 29 4.1.5 Reprezentace v prvním a čtvrtém kvadrantu ............................................. 30 4.1.6 Metoda podle Randic ................................................................................. 31 4.1.7 Čtyřbarevná reprezentace .......................................................................... 31 4.1.8 Výhody a nevýhody ................................................................................... 32 4.2
3D reprezentace .............................................................................................. 32
4.2.1 Metoda podle Guo ..................................................................................... 32 4.2.2 Metoda podle Liao ..................................................................................... 33 4.2.3 Výhody a nevýhody ................................................................................... 34 4.3
4D reprezentace .............................................................................................. 35
4.3.1 Metoda podle Liao ..................................................................................... 35 4.3.2 Výhody a nevýhody ................................................................................... 36 4.4 5
Využití grafických reprezentací...................................................................... 36
Programové řešení bakalářské práce ...................................................................... 37
5.1
Popis ovládacího panelu GUI ......................................................................... 37
5.2
Gen 16 S rRNA............................................................................................... 39
5.3
Tvorba referenčního dendrogramu ................................................................. 40
5.4
Ukázka grafických reprezentací ..................................................................... 41
5.5
Výsledky a porovnání dendrogramů ............................................................... 46
6
Závěr ...................................................................................................................... 50
7
Literatura ................................................................................................................ 52
Seznam obrázků Obrázek 1 Nukleotidové báze [16] ........................................................................................... 12 Obrázek 2 Schématické zobrazení DNA dvoušroubovice [32]................................................ 13 Obrázek 3 Lokalizace CpG ostrůvků pomocí čtyř barev [21].................................................. 19 Obrázek 4 Lokalizace CpG ostrůvků pomocí dvou barev [21] ................................................ 19 Obrázek 5 Výsledek identifikace CpG ostrůvků [21] .............................................................. 20 Obrázek 6 Fourierova spektra (a) pro kódující úsek DNA a (b) pro nekódující úsek DNA kvasinky chromosomu III [33]. ................................................................................................ 21 Obrázek 7 Liao 1 reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu ........................................................................................ 24 Obrázek 8 PNN křivka genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu ..................................................................................................... 26 Obrázek 9 Křivky AG, AC, AT genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu ........................................................................................ 28 Obrázek 10 Guo reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu ........................................................................................ 30 Obrázek 11 Guo 3D reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu.................................................................................. 33 Obrázek 12 Liao 3D reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu.................................................................................. 34 Obrázek 13 Ukázka ovládacího panelu GUI pro tři náhodně zadané sekvence ....................... 37 Obrázek 14 Referenční dendrogram genu 16 S rRNA pro deset organismů bakterií pro prvních sto bází ........................................................................................................................ 41 Obrázek 15 Metoda podle Liao 1 ............................................................................................. 42 Obrázek 16 Metoda PNN křivky .............................................................................................. 42 Obrázek 17 Metoda podle Liao 2 ............................................................................................. 43 Obrázek 18 Metoda podle Guo 2D........................................................................................... 44 Obrázek 19 Metoda podle Guo 3D........................................................................................... 44 Obrázek 20 Metoda podle Liao 3D .......................................................................................... 45 Obrázek 21 Referenční dendrogram genu 16 S rRNA pro deset organismů bakterií .............. 46 Obrázek 22 Dendrogram metody podle Liao 1, kritérium - Euklidovská vzdálenost .............. 46 Obrázek 23 Dendrogram metody PNN křivky, kritérium – RM korelace ............................... 47 Obrázek 24 Dendrogram metody podle Liao 2, kritérium – úhel mezi vektory ...................... 48 Obrázek 25 Dendrogram metody podle Liao 4D, kritérium – Canberryho vzdálenost ........... 48
1 Úvod Tato bakalářská práce je věnována typům numerických a grafických reprezentací a jejich využití pro určování podobnosti mezi sekvencemi. Kapitola 2 je věnována teoretickém rozboru, který nastiňuje problematiku genetiky a DNA. Jedná se o základní informace, jejichž znalost je zapotřebí pro pochopení problematiky. Kapitola 3 se již zabývá numerickými reprezentacemi a jejich obecným popisem. Její podkapitoly rozdělují numerické sekvence to tří typů. V každé této podkapitole je popsán princip konkrétních metod. Závěrem kapitoly 2 je popis výhod a nevýhod jednotlivých typů numerických reprezentací následováno popisem jejich využitím se zaměřením na lokalizaci CpG ostrůvků a určování kódujících sekvencí. Kapitola 4 je věnována grafickým reprezentacím. Podobně jako v kapitole 3 se nejdříve věnuje jejich obecnému popisu a následně je rozdělena do podkapitol podle druhu reprezentace. Konkrétně tedy na 2D, 3D a 4D grafické reprezentace. 2D grafickými reprezentacemi jsou metoda podle Liao 1, Liao 2, PNN křivka, metoda podle Guo, metoda podle Radnic, čtyřbarevná reprezentace a reprezentace v prvním a čtvrtém kvadrantu. První čtyři zmíněné metody byly naprogramovány v prostředí Matlab a jsou doprovázeny obrázky, které jsou výstupem programu. 3D grafické reprezentace se věnují 3D metodě podle Liao a metodě podle Guo, přičemž obě zmíněné metody byly opět navrženy v prostředí Matlab a jsou doprovázeny obrázkem. 4D grafické reprezentace jsou věnovány 4D metodě podle Liao. Každá z těchto podkapitol je ukončena popisem výhod a nevýhod jednotlivých typů grafických reprezentací. Závěr celé kapitoly se opět zaobírá využitím grafických reprezentací se zaměřením na podobnost sekvencí. V kapitole 5 jsou popsány funkce Gui pro konverzi sekvencí genu 16 S rRNA deseti bakterií do šesti grafických reprezentací a následná tvorba fyziologických stromů – dendrogramů za použití příslušných kritérií jednotlivých grafických reprezentací. Dále je zde podkapitola o samotném genu 16 S RNA. V další podkapitole je popsána tvorba referenčního denrogramu, který slouží jako vzor pro srovnání přesnosti dendrogramů vzniklý na základě aplikace příslušných kritérií grafických reprezentací. Dále je zde uveden referenční dendrogram, podle kterého byly určeny dvě sekvence, které jsou si nejpodobnější a k nim byla určena třetí sekvence, která je jim naopak nejméně podobná. Tyto tři sekvence byly poté konvertovány do všech naprogramovaných grafických reprezentací a jejich obrazové výstupy jsou tu uvedeny. Dále jako hlavní část je zde uvedeno srovnání přesností dendrogramů, vzniklých na základě využití kritérií pro příslušnou grafickou reprezentaci, s referenčním dendrogramem. 9
Kapitola 6 je věnována zhodnocení výsledků. Rozebírá se zde problematika navržených grafických reprezentací zejména se zaměřením na jejich vizuální přehlednost, degeneraci a složitost provedení. Dále zhodnocení výsledků na základě porovnání vzniklých dendrogramů jednotlivých grafických reprezentací a referenčního dendrogramu.
10
2
Teoretický rozbor
Genetika je jedním z nejrychleji se rozvíjejících vědních oborů, zabývajících se dědičností a proměnlivostí organismů. Za zakladatele genetiky je považován Johann Gregor Mendel (1822-1884), který během svých pokusů křížení hrachu objevil předávání znaků mezi generacemi. Mendelovy zákony dnes patří k základům a stále mají své využití. Přibližně ve stejné době jako žil Mendel, žil i Charles Darwin (1809-1882), který je autorem evoluční teorie. Vysvětluje život jako výsledek „náhodných“ genetických mutací a přežití organismů, které se nejlépe adaptují na okolní podmínky. Výsledky, které oba vědci získávali, pramenily z pozorování jednotlivých živočišných a rostlinných druhů. Byli schopni popsat předávání genetických informací, aniž by znali opravdovou podstatu přenosu [17]. Ke skutečnému rozvoji genetiky jako takové došlo až s objevem molekuly DNA roku 1869. První model molekuly DNA byl vytvořen v roce 1953 nositeli Nobelovy ceny za medicínu Jamesem Watsonem a Francisem Crickem. V následujících letech bylo odhaleno velké množství informací o DNA a genetice samotné. Je to tedy věda, která je poměrně mladá a stále skrývá mnohá tajemství [17]. DNA je biologická makromolekula, tedy polymer v podobě řetězce nukleotidů. Nukleotidy jsou složeny z cukru deoxyribozy, fosfátové skupiny a jedné ze čtyř nukleotidových bází. Právě tyto báze mají informační funkci. Jedná se o adenin (A), guanin (G), cytosin (C) a thymin (T). Adenin s guaninem patří mezi puriny a cytosin s thyminem mezi pyrimidiny. Nukleotidy jsou upořádány do řady za sebou, jejich spojení zajišťují fosfátové zbytky, které vytváří spojení mezi uhlíkem 3‘ jedné deoxyribosy a uhlíkem 5‘ druhé deoxyribosy [16].
11
Obrázek 1 Nukleotidové báze [16] Na obrázku 1 můžeme vidět strukturní vzorce čtyř nukleotidových bází – Thymin, Cytosin, Adenin a Guanin. Na uhlík 1‘ deoxyribosy se váží nukleotidové báze. Ty se poté navzájem spojují podle jednoduchého pravidla [18]:
Adenin (A) tvoří pár s thyminem (T) Guanin (G) tvoří pár s cytosinem (C) Spojení nukleotidů je zprostředkováno pomocí vodíkových můstků [18].
12
Obrázek 2 Schématické zobrazení DNA dvoušroubovice [32] Jedná se o komplementaritu bází, ze které vychází vzájemné komplementarita vláken DNA. Na určité pozici v molekule je jeden nuklid a na protějším vlákně je druhý nuklid do dvojice, což lze vidět na obrázku 2. Tímto způsobem se v každém z vláken uchovává stejná informace. Genetická informace se v DNA kóduje pomocí genetického kódu, který je přiřazen k tripletům, což jsou trojice nukleotidů specifické pro příslušnou aminokyselinu [19]. V sekvenci DNA můžeme báze rozdělit podle tří principů. Jednak podle molekulární struktury – A a G patří mezi puriny, báze C a T mezi pyrimidiny. Dále podle síly vazby – A a T tvoří vazbu pomocí dvou vodíkových můstků, báze C a G tvoří vazbu pomocí tří vodíkových můstků. A konečně dělíme báze dle obsahu radikálů – báze A a C obsahují amino skupinu NH3, báze T a G obsahují keto skupinu C=O [18].
13
3
Numerické reprezentace
Numerické reprezentace se používají jako vhodný nástroj pro předzpracování genomických dat pro jejich následnou analýzu. Dá se říci, že genomická sekvence, tedy sekvence DNA je jednorozměrný signál, který je reprezentován pomocí symbolů A, C, G a T, které připadají nukleotidovým bázím [18]. Po dokončení Projektu lidského genomu [1] se objevila potřeba analyzovat informace z velkého objemu lidských sekvencí DNA. Digitální zpracování signálů je využíváno zejména pro genomický výzkum DNA, který slouží k odhalení genomických struktur pro identifikaci skrytých znaků, které nemohou být odhaleny konvenční DNA symbolickou a grafickou reprezentační metodou [2]. Analýza DNA sekvencí využívající digitální zpracování signálů vyžaduje převedení základní sekvence do číselného tvaru, tedy sekvence numerické. Použití numerické reprezentace sekvence DNA má vliv na to, jakým způsobem mohou být biologické vlastnosti reflektovány do číselných domén, které se vytvářejí za účelem identifikace a detekce specifických rysů zájmových oblastí [19]. Pokročilé numerické reprezentační metody DNA sekvencí mohou být klasifikovány do tří hlavních skupin [18].
3.1 Fixní mapovací metody Při těchto metodách jsou nukleotidy DNA transformovány do série libovolných číselných sekvencí. Konkrétně se jedná o 2-bit binární metodu, 4-bit binární metodu, metodu párového nukleotidu, dvanáctipísmennou abecední reprezentaci, komplexní reprezentaci a Vossovu reprezentaci [18]. 2-bit binární metoda [4] převádí nukleotidy A, C, G a T do dvoubitové dvojkové soustavy, což vede ve výsledku ke vzniku jednorozměrného ukazatele (indikátoru) sekvence. Konkrétně 00, 11, 10, 01. 4-bit binární metoda [5] kóduje nukleotidy A, C, G a T, stejně jako výše zmíněná 2-bit binární metoda, do jednorozměrného ukazatele sekvence, tedy 1000, 0010, 0001 a 0100. Metoda reprezentace pomocí párového nukleotidu převádí binární hodnoty do souboru dvou písmen abecedy DNA. Platí pro ni tři pravidla. První pravidlo říká, že všechny A a T páry jsou převedeny na číslo 0 a všechny C a G páry převedeny na číslo 1. Pro druhé pravidlo platí, že všechny C a T páry jsou převedeny na číslo 0 a všechny A a G páry na číslo 1 a nakonec třetí pravidlo říká, že všechny G a T páry jsou převedeny na 0 a všechny A a C páry 14
na číslo 1, tudíž tato metoda vede ke vzniku jednorozměrného indikátoru sekvence na základě tří různých konvencí [6][7]. Metoda dvanáctipísmenné abecedy reflektuje uspořádání nukleotidů v kodonu zachycením rozdílného uspořádání bází na jednotlivých pozicích v kodonu. Například A = {A, A, A, C0, C1, C2, G0, G1, G2, T0, T1, T2}, kde T2 znamená, že nukleotid T na třetí pozici kodonu dané DNA sekvence je zapsán jako hodnota 1 a absence tohoto nukleotidu je reprezentována hodnotou 0. Tato mapovací metoda rezultuje do dvanáctirozměrného binárního indikátoru sekvence [8][9]. U metody komplexní reprezentace je každý nukleotid reprezentován komplexním číslem. Sekvence DNA je tedy převedena do vektoru komplexních čísel. Tato reprezentace nukleotidů odpovídá x-z projekce jejich tetrahedrální reprezentace (převod z 2D do 3D) [33].
Vossova reprezentace ukládá nukleotidy A, C, G a T do čtyřbinární sekvence jako A n, Cn, Gn a Tn. Přítomnost příslušného nukleotidu je vyjádřena číslem 1, naopak jeho absence je vyjádřena číslem 0. Takto vzniklé čtyři sekvence jsou mapovány do čtyř vrcholů klasického čtyřstěnu, což vede k redukci počtu indikátorů sekvencí ze čtyř na tři [35].
3.2 Mapování založené na fyzikálně-chemickém charakteru Tento typ mapování je založen na biofyzikálních a biochemických vlastnostech DNA biomolekul, které jsou využívány pro mapování DNA sekvencí a také pro zkoumání biologických pravidel a struktur v biomolekulách. Spadá sem metoda digitálního Z-signálu, fázově specifická Z-křivka a metoda genetického kódového kontextu, EIIP reprezentace a DNA walk [18]. Digitální Z-signál rozkládá DNA sekvenci do třech řad digitálního signálu. Tyto tři řady digitálního signálu Δxn , Δyn a Δzn mohou nabývat pouze hodnot -1 a 1. Δxn nabývá hodnotu 1, pokud je n-tá báze adenin nebo guanin (tedy purin) nebo nabývá hodnot -1, pokud je n-tá báze cytosin nebo thymin (pyrimidin). Δyn nabývá hodnotu 1, pokud je n-tá báze adenin nebo cytosin (amino skupina) nebo nabývá hodnotu -1, pokud je n-tá báze guanin nebo thymin (keto skupina). Δzn nabývá hodnotu 1, pokud je n-tá báze adenin nebo thymin (slabá vodíková vazba) nebo nabývá hodnotu -1, pokud je n-tá báze guanin nebo cytosin (silná vodíková vazba) [10].
15
Fázově-specifická Z-křivka popisuje rozložení bází na první, druhé a třetí pozici kodonu, tedy vyústí v devítirozměrnou reprezentaci znaků. Křivka pro DNA sekvenci s bázemi na pozicích 0, 3, 6,… utvoří fázově specifickou křivku, která se nazývá Z-křivka fáze 1. Obdobně poté Z-křivka s bázemi na pozicích 1, 4, 7,… a 2, 5, 8,… se nazývá Z-křivka fáze 2 a fáze 3. Tudíž Z-křivka fáze 1, fáze 2 a fáze 3 popisuje rozložení bází na první, druhé a třetí pozici kodonu. Pro každou tuto fázově specifickou Z-křivku existuje tři součásti stejně jako pro obyčejnou Z-křivku [11]. Metoda genetického kódového kontextu (GCC) zahrnuje skladbu a rozdělení informace aminokyselin ve třech čtecích rámech. Během této metody je každý po sobě jdoucí kodon z čtecích rámů v DNA sekvenci převeden na aminokyselinu a každá aminokyselina je reprezentována jedinečným komplexním číslem, jehož reálná a imaginární část pochází z hydrofobních vlastností a zbytku objemu aminokyseliny. Výsledkem poté je jednorozměrný indikátor sekvence v aminokyselinové doméně [12]. EIIP metoda reprezentuje rozložení energie volných elektronů podél sekvence DNA. EIIP indikátor sekvence vzniká nahrazením nukleotidů EIIP hodnotami A=0,1260, C=0,1340, G=0,0806 a T=0,1335 v sekvenci DNA. Jednotlivá atomová čísla indikátorů sekvencí vznikají převodem atomových čísel i každému nukleotidu jako: A=70, C=58, G=78 a T=66 [36]. DNA walk umožnuje získat graf sekvence DNA, který vzniká kroky směrem nahoru (+1), pokud se jedná nukleotid, který spadá mezi pyrimidiny (C nebo T), nebo směrem dolů (1), pokud se jedná o nukleotid, který spadá mezi puriny (A nebo G). Takto vznikající graf pokračuje ve svém vývoji nahoru a dolů v závislosti na tom, jak se sekvence vyvíjí. Počet nukleotidových bází je reprezentován osou x [37].
3.3 Mapování založené na statistických vlastnostech V těchto mapovacích metodách je DNA abeceda mapována podle různých vlastností. Jedná se o metody mezinukleotidové vzdálenosti (mezinukleotidový signál), korelační funkce, Galoisova pole a metoda frekvence výskytu nukleotidů [19]. Metoda reprezentace mezinukleotidové vzdálenosti spočívá v tom, že symboly bází jsou nahrazeny číslem k, což je vzdálenost báze od další jí podobné báze v DNA sekvenci. V případě, že není nalezena této bázi podobná báze, je hodnota sekvence této báze rovna délce zbývajících bází v této sekvenci. Může být reprezentována jednorozměrným indikátorem sekvence [13]. Korelační funkce porovnává báze v DNA sekvenci s bázemi, které s ní sousedí. Pokud jsou dvě báze identické, potom je skóre rovno 1, pokud se neshodují tak je skóre rovno 0. 16
Tento proces porovnávání sousedních bází probíhá od první do poslední báze DNA sekvence [14]. Metoda Galoisova pole spočívá v zadávání numerických hodnot jednotlivým nukleotidům A=0, C=1, G=3, T=2 [15]. Tato metoda vyžaduje jemné ladění předtím, než je aplikována na daný organismus [13]. Metoda frekvence výskytu nukleotidů v exonech je klíčovým parametrem pro reprezentaci DNA, která slouží k detekci jejich oblastí. Tato reprezentace využívá faktu, že exony jsou hojně obsaženy v nukleotidech cytosinu a guaninu a vypovídá o zřetelném zlepšení v detekci exonů v GENSCAN datových souborech lidských genomických sekvencí s využitím diskrétní Fourierovy transformace. Metoda frekvence výskytu nukleotidů A, C, G a T v exonech GENSCAN datových souborů nám umožňuje buďto jednosekvenční, nebo čtyřsekvenční reprezentaci DNA [3].
3.4 Výhody a nevýhody Numerické reprezentace DNA sekvencí mohou být využity ve spojení s digitálním zpracováním signálů k více účelům, jako jsou například identifikace skrytých periodicit, rozložení nukleotidů a dalších znaků, které nemohou být jednoduše odhaleny konvenčními metodami. Každá metoda fixního mapování nám může nabídnout rozdílné vlastnosti, znaky a mapy DNA sekvence od jedné do dvanácti numerických sekvencí. 2-bit binární metoda a 4bit binární metoda se většinou využívají pro systémy založené na neuronové síti pro identifikaci genu [4] a pro předpověď předpokladu [5]. Metoda párového nukleotidu se využívá primárně pro zjištění jemných G+C profilů k lokalizaci charakteristických vzorů v genomické sekvenci a sekundárně se využívá vlnková transformace pro získání porovnání profilů sekvencí v bakteriálních genomech [7]. Tato reprezentace nám poskytuje informaci o rozložení nukleotidů a je velmi úspěšná, co se týče detekce struktur ve spojení s Fourierovou transformací a vlnkovou analýzou. Spektrum diskrétní Fourierovy transformace, které využívá dvanáctipísmenná abecední reprezentace, produkuje silnější spektrální složky pro bactereophage phi-X174 [8] při srovnání s Vossovou reprezentací pro stejnou sekvenci DNA. Dvanáctipísmenná abeceda se také používá ke zjištění hranic mezi kódovanými a nekódovanými oblastmi DNA. Její výsledky jsou podstatně přesnější než ty získané na základě techniky posuvného okna [9]. Komplexní reprezentace reflektuje některé komplementární znaky nukleotidů v jejich matematických vlastnostech. Tato reprezentace je pro specifický genom DNA velmi efektivní zejména ve vyhledávání algoritmů Fourierovou transformací [33]. Vossova reprezentace sekvencí DNA nedefinuje matematické vztahy mezi bázemi, ale pouze naznačuje frekvence těchto bází. Studie ukazují, že Vossova reprezentace je účinnou reprezentační metodou fixních mapovacích metod pro spektrální analýzu sekvencí 17
DNA. Vossovo mapování je široce využíváno pro distribuci bází a detekci periodicity v sekvencích DNA [35]. Reprezentace na základě metody digitálního Z-signálu, ve spojení s Fourierovým transformačním algoritmem, je úspěšná při detekci periodických vlastností v kódovaných oblastech krátké délky [10]. Reprezentace genetického kódového kontextu (GCC) vytváří různá Fourierova spektra pro různé sekvence, na rozdíl od Vossovy reprezentace, která generuje stejná Fourierova spektra pro dvě různé sekvence. Reprezentace GCC obsahuje informaci o aminokyselině, jako jsou skladba a rozložení ve třech čtecích rámech a umožňuje nám zisk jedinečného spektrálního znaku pro každou sekvenci DNA. Ve srovnání s Vossovou reprezentací má větší potenciál ve vyhledávání genů, klasifikaci DNA sekvence a odhadu její funkce [12]. Digitální Z-signál a GCC nám velmi dobře ukazují fyzikálněchemické vlastnosti DNA. Tyto vlastnosti mohou být prozkoumány hlouběji použitím vlnkové transformace nebo časově-frekvenční analýzy pro identifikaci proteinu v kódovaných oblastech. Tyto metody jsou nezávislé a mají biologickou interpretaci, na kterou může být nahlíženo jako na vhodnou reprezentaci při analýze sekvencí DNA. Fázově specifická Z-křivka vytváří devítiznaký vektor, který slouží k odlišení kódovaných a nekódovaných oblastí genomu kvasinky. Tato metoda je přesnější než Fisherova analýza, jejíž přesnost se pohybuje kolem 95% [11]. EIIP reprezentace ve srovnání s Vossovou reprezentací může vést ke zlepšení diskriminační schopnosti technik sloužících k vyhledávání genů. Na druhou stranu Vossova i EIIP reprezentace selhaly při detekci kodujících oblastí některých genů [36]. Reprezentace DNA walk nám poskytuje užitečné informace o periodicitách sekvencí a změnách v uspořádání nukleotidů. Může být využita pro vizualizaci změn ve skladbě nukleotidů a vývoje podél sekvence DNA. Tato technika je vhodná pouze pro sekvence DNA o délce několik stovek párů bází. Při použití delších sekvencí má tato metoda tendenci ke vzniku komplikací, které jsou důsledkem velkého množství informací [37]. Mezinukleotidový signál je nový způsob reprezentace digitálního signálu genomických dat, který odkrývá existenci diskriminační spektrální obálky v kódovaných oblastech a i pro některé promoter oblasti, tedy oblasti, které iniciují transkripci určitého genu, v Bursetových a Guigových datových souborech [13]. Galoisova pole nám umožňuje složité operace na omezeném symbolickém souboru a dále nám poskytují silné nástroje pro analýzu DNA, která může být hlouběji prozkoumána genomickými výzkumníky [15]. Korelační funkce je vhodným nástrojem pro vizualizaci různých periodicit v DNA sekvenci, ukazuje pravidelné vzory v DNA sekvenci s Fourierovou a vlnkovou transformací. Tato procedura byla využita na sekvenci lidského genomu 22 od různých HIV klonů a myozinových těžkých řetězců DNA [14]. Nevýhodou metody frekvence výskytu nukleotidů je, že je omezena pouze na standardní datové soubory, tudíž tíhne k tomu, aby byla modelově závislou metodou [3].
18
3.5 Využití numerických reprezentací Numerické reprezentace se využívají zejména pro vyhledávání CpG ostrůvků [20][21] a určování kódujících sekvencí [20][33]. 3.5.1 Vyhledávání CpG ostrůvků CpG ostrůvky jsou oblasti lidského genomu, které jsou charakteristické zvýšeným výskytem cytosin (C) a guaninu (G). Jsou velmi důležité při studiu genové regulace. Dále hrají důležitou roli v buněčné diferenciace a v regulaci genetické exprese u obratlovců [20].
Obrázek 3 Lokalizace CpG ostrůvků pomocí čtyř barev [21] Lokalizace CpG ostrůvků se zjišťuje pomocí spektrogramů. Z obrázku 3 je vidět, že CpG ostrůvky jsou umístěny uprostřed, což nám vyjadřuje zelená oblast. V tomto případě A je značen modře, T červeně, C zeleně a G šedě [21].
Obrázek 4 Lokalizace CpG ostrůvků pomocí dvou barev [21]
19
Vzhledem k tomu, že hledáme oblasti výskytu CpG ostrůvků, tedy oblast hojného výskyt cytosinu a guaninu, můžeme místo použití čtyř barev použít pouze dvě, a to červenou (1,0,0) pro A a T a zelenou (0,1,0) pro C a G. To lze vidět na obrázku 4, kde kontrast CpG ostrůvků je více zřetelný [21].
Obrázek 5 Výsledek identifikace CpG ostrůvků [21] Z obrázku 5 lze vidět, že se hledaný CpG ostrůvek nachází mezi 1102. nukleotidem a 1322. nukleotidem [21]. Existuje několik faktorů, které mohou ovlivnit výsledný spektrogram. Jsou to například velikost okna, typ okna (Hanningovo, obdélníkové okno), volba barvy pro mapovací vektory. Samotný proces detekce CpG ostrůvků může být také ovlivněn volbou morfologických strukturních elementů, metodou detekce hran a parametry jako je práh pro zelené okrajové pixely při nadbytku červené barvy [20]. 3.5.2 Určování kódujících sekvencí Otázka genové identifikace, zejména identifikace kódujících sekvencí, mám v dnešní době velkou důležitost. Existuje řada metod pro genovou detekci založené na různých vlastnostech kódujících sekvencí, ale zásadní metodou je Fourierova analýze genomické sekvence [20]. Na sekvenci o N nukleotidech může být pohlíženo jako na symbolický řetězec x j:
Kde xj je jedna ze čtyř bází A, T, G a C, j je pozice. K tomu abychom získali Fourierovo spektrum pro genomickou sekvenci musíme provést následující. Ze sekvence DNA se pomocí Vossovy reprezentace vytvoří čtyři binární vektory, ze kterých se poté vytvoří čtyři spektra pomocí Fourierovi transformace [33]. 20
Celkové Fourierovo spektrum sekvence DNA se získá jako suma jednotlivých spekter [33]: (1) Kde: f = k/N – diskrétní frekvence pro k = 1, 2, 3,…N/2, odpovídající symbolu
= A, T, G nebo C.
(f) je parciální spektrum
je projekční operátor
Průměrné celkové spektrum může být spočítáno z frekvence výskytu symbolů, každý symbol (A, T, G, C) [33]:
pro
(2)
Obrázek 6 Fourierova spektra (a) pro kódující úsek DNA a (b) pro nekódující úsek DNA kvasinky chromosomu III [33]. Fourierovo spektrum odhaluje charakteristickou periodicitu jako rozdílný vrcholek ve frekvenci f = 1/3. Ten můžeme pozorovat u kódujících sekvencí na rozdíl od nekódujících sekvencí, jako jsou rRNA, introny atd., které mají Fourierovo spektrum bez výrazných periodicit, tento jev lze pozorovat na obrázku 6 [33]. K tomu abychom předpověděli potenciální kódující sekvenci, je třeba vědět, že tento spektrální způsob může být aplikován na poměrně krátké genové sekvence (několik stovek bází). U sekvence neznámé délky můžeme také zjistit, zda se jedná o kódující sekvenci [33]. Pro sekvenci o M nukleotidech provedeme výpočet podle vztahu (3) a zjistíme existenci vrcholu f = 1/3, což může být použito k identifikaci, zdali tato subsekvence je částí kódující nebo nekódující oblasti [33]. 21
(3) Kde S je celkové Fourierovo spektrum,
je průměrné celkové Fourierovo spektrum.
22
4
Grafické reprezentace
Metody grafické reprezentace nám poskytují poměrně jednoduchý nástroj k nahlížení, třídění a srovnávání genomických a proteomických sekvencí. Grafické reprezentace existují v různých dimenzích. Nejčastěji se využívají reprezentace v 2D a 3D v kartézském souřadném systému. U některých metod se ale setkáváme s problémem vysoké degenerace sekvencí, což znamená, že po převedení sekvence do grafické reprezentace, nemůže dojít k zpětné rekonstrukci obrazu na původní sekvenci. Dochází ke tvorbě opakujících se uzavřených smyček [31].
4.1 2D reprezentace 4.1.1 Metoda podle Liao 1 V této grafické reprezentaci se čtyřem nukleotidovým bázím (Adenin, Guanin, Cytosin, Thymin) přiřazují čtyři směry v jednotkovém souřadném systému (x,y). Tento postup sebou přináší výše zmíněnou degeneraci sekvencí, tedy ztrátu informace při zobrazení. Další problém vzniká, pokud chceme porovnávat sekvence o rozdílných délkách [22]. Přiřadíme bázím vektory:
Kde: písmena m a n jsou reálná čísla. Vhodné hodnoty pro konstanty jsou m=0,5 a n=3/4. Poté pro výpočet souřadnic
a
využijeme tyto vztahy: (4)
Kde: axi, cxi, gxi a txi jsou kumulativní četnosti bází, ayi, cyi, gyi a tyi jsou kumulativní pozice bází v DNA sekvenci. Abychom mohli použít křivku k porovnání, je nutné provést normalizaci. Normalizace nám zajišťuje zobrazení všech křivek ve stejném prostoru. Pro normalizaci využíváme těchto rovnic [22][39]: (5)
23
Liao 1 1 Mycoplasma genitalium G37
0.9 0.8 0.7
y
0.6 0.5 0.4 0.3 0.2 0.1 0
0
0.2
0.4
0.6
0.8
1
x
Obrázek 7 Liao 1 reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Na obrázku 7 lze vidět grafickou reprezentaci pomocí metody podle Liao 1 genu 16 S rRNA organismu Mycoplasma genitalium G37. Grafická reprezentace Liao 1 nám umožňuje porovnání dvou a více sekvencí jednak pomocí Euklidovské vzdálenosti
tak i pomocí korelačního úhlu
[22][39]. (6) (7)
Kde: xi0, yi0, xj0 a yj0 jsou průměrné hodnoty souřadnic i-té a j-té sekvence, EVjk a EVjk jsou vektory kovariantní matice Pokud chceme pro porovnání sekvencí využít korelační úhel, je nutné si nejprve vytvořit kovariantní matici, pomocí které získáme vektory EV ik a EVik. Kovariantní matice je určena následujícími vztahy [22]:
24
(8)
(9) Kde: je vlastní hodnota kovariantní matice a k=1,2. Při použití srovnávacích kritérií u metody pomocí Liao 1, tedy Euklidovské vzdálenosti a korelačního úhlu, získáme matici těchto hodnot pro jednotlivé sekvence, které vyjadřují podobnost mezi jednotlivými sekvencemi. Z této matice poté vytvoříme fylogenetický strom, tedy dendrogram, který je grafickým vyjádření podobnosti mezi sekvencemi. 4.1.2 Křivka PNN Tento typ reprezentace je založen na kombinaci dvojic sousedních nukleotidových bází v sekvenci. Četnosti těchto dvojic jsou následně použity jako charakterizace sekvence DNA při porovnání. Normální sekvence DNA má 16 druhů párů sousedních nukleotidů. Lze z nich tedy získat matice o rozměrech 4x4. Dvojice získáváme na základě tří typů rozdělení bází [23]: Puriny – R = {A,G} a Pyrimidiny - Y = {C,T} Aminoskupiny – M = {A,C} a Ketoskupina – K = {G,T} Slabá vazba – W = {A,T} a Silná vazba – S = {G,C} Postup spočívá v tom, že máme sekvenci, která se skládá z libovolného počtu bází. Jednotlivé dvojice v této sekvenci postupně zapisujeme na příslušné pozice v maticích tak, aby každá dvojice byla ve vlastní matici. Poté vytvoříme výslednou PNN křivku [23].
25
PNN 4 Mycoplasma genitalium G37 3.5
y
3
2.5
2
1.5
1
0
50
100
150
200 x
250
300
350
400
Obrázek 8 PNN křivka genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Na obrázku 8 lze vidět grafickou reprezentaci PNN křivky genu 16 S rRNA organismu Mycoplasma genitalium G37. Tato metoda odhaluje fakt, že četné informace obsažené v sekvenci DNA, nejsou pouze kombinací čtyř různých bází ale kombinací šestnácti možných párů. Můžeme tedy díky této metodě získat informace, které jiné metody nemohou poskytnout. Další výhodou je, že při porovnávání sekvencí, můžeme využít vyšší citlivost. Pokud se sekvence liší například v jedné bázi, tak je tento jev charakteristický výraznou změnou grafické reprezentace na rozdíl od jiných metod. Také při této metodě nedochází k degeneraci, v důsledku toho, že postup nedovolí, aby došlo ke vzniku smyček v křivce [23]. Stejně jako u metody podle Liao 1, i PNN křivka nám poskytuje možnost porovnání sekvencí, a to konkrétně pomocí kritéria korelace (RM). Následující vztah pro RM korelaci nám určuje podobnost mezi dvěma sekvencemi X a Y [23][39]:
26
(11) Kde:
jsou četnosti sekvencí X a Y jsou průměrné četnosti
Čím nižší je hodnota RM tím mají tyto dvě sekvence větší podobnost a naopak, čím se hodnota RM vyšší tím je podobnost mezi nimi menší. Takto získané hodnoty jsou opět zapsány do matice, ze které se vytvoří dendrogram. 4.1.3 Metoda podle Liao 2 U této metody opět přiřazujeme bázím vektory a výsledkem je grafická reprezentace vytvořená jako kumulativní křivka. Hlavním rozdílem metody Liao a Liao 2 je potlačení degenerace. Liao 2 vytváří, na rozdíl od Liao , tři křivky, kde každá z nich je tvořena dvěma bázemi. Na základě vlastností DNA lze vytvořit šest odlišných křivek, ale pro popis celé sekvence postačí použít tři, a to křivku AG, AC, AT [24]. (12)
(13)
(14)
Kde: gi nám představuje jednu bázi v sekvenci DNA,
jsou výsledné křivky.
27
Liao 2 Mycoplasma genitalium G37
1 0.9 0.8 0.7
y
0.6 0.5 0.4 0.3 0.2 0.1 0 100 80
AT 60 40
AC 20
x
0
AG křivka
Obrázek 9 Křivky AG, AC, AT genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Na obrázku 9 lze vidět grafickou reprezentaci pomocí Liao 2 genu 16 S rRNA organismu Mycoplasma genitalium G37. Metoda podle Liao2 nám také poskytuje možnost porovnání sekvencí podobně jako metoda podle Liao1. Ovšem je zde nutné provést transformaci na jiný matematický objekt, a to konkrétně na matici k, která se skládá z Euklidovských vzdáleností dvou bodů křivky podělených vzdálenostmi mezi stejnými body měřenými podél křivky [24]: (15) Kde:
je Euklidovská vzdálenost mezi dvěma body křivky
K tomu abychom mohli aplikovat kritéria pro určení podobnosti sekvencí, musíme znát tyto vlastní čísla matice. Doporučená kritéria pro zjištění podobnosti mezi sekvencemi jsou Euklidovská vzdálenost
a úhel mezi vektory
: (16)
28
(17) Opět pro oba vztahy platí, že čím je menší hodnota vzdálenosti nebo úhlu, tím jsou si dvě sekvence podobnější. Výsledky výpočtů těchto vztahů pro jednotlivé sekvence jsou zapsány do matice, ze které je možné vytvořit dendrogram. 4.1.4 Metoda podle Guo Tato metoda grafické reprezentace opět využívá přiřazení vektorů nukleotidovým bázím podobně jako u metody Liao. Ovšem bere v potaz vysokou degeneraci. Za tímto účelem jsou vektory upraveny tak, aby nedocházelo k častému překrývání. Hlavním rozdílem mezi metodou Guo a metodou Liao je to, že se zde nevyužívá kumulativní četnosti ani kumulativní souřadnice [25]. Kvůli snížení degenerace se upravují vektory bází tímto způsobem [25]:
Kde d je kladné celé číslo. Degenerace se poté odvíjí od proměnné d. Pokud je d sudé číslo, velikost smyčky je rovna 4d, pokud je d liché číslo je velikost smyčky rovna 2d. V mém případě jsem za hodnotu d zvolil d=3 při programování této reprezentace. Grafické reprezentace se následně získává kumulativním součtem souřadnice nukleotidových bází. Hlavní výhoda této metody spočívá v její jednoduché konstrukci, na druhou stranu nevýhodou je menší přehlednost vzniklé křivky. Nevýhodou této metody je, že neposkytuje kritéria pro výpočet podobnosti mezi sekvencemi [25].
29
Guo 2D 10 Mycoplasma genitalium G37 8 6 4
y
2 0 -2 -4 -6 -8 -5
0
5
10
15
20
x
Obrázek 10 Guo reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Na obrázku 10 lze vidět grafickou reprezentaci pomocí metody podle Guo genu 16 S rRNA organismu Mycoplasma genitalium G37. 4.1.5 Reprezentace v prvním a čtvrtém kvadrantu Jedná se o reprezentační metodu, která zobrazuje báze ve dvou kvadrantech kartézského systému podle základního dělení bází na puriny a pyrimidiny. Puriny (A a G) jsou situovány v prvním kvadrantu a pyrimidiny (C a T) ve čtvrtém kvadrantu. Jednotlivé vektory reprezentují čtyři nukleotidové báze [41].
Tato metoda vyniká
zejména
svojí
schopností
úplně
potlačit
degeneraci.
Předpokládejme, že počet nukleotidů je roven n; počty bází A, G, C a T jsou a, g, c, a t.
30
(18)
Tedy jestliže a = g = c = t = 0 poté n = 0, což znamená, že se v této dvojrozměrné grafické reprezentaci se nevyskytuje jev degenerace [41]. 4.1.6 Metoda podle Randic Jedná se o metodu numerické i grafické reprezentace sekvence DNA. Tato metoda, na rozdíl od předešlých, nevyužívá vektorů, které by se přiřazovaly nukleotidovým bázím. Využívá se zde kompaktní grafická reprezentace zvaná chaos game representation (CGR). Co se týče konstrukce CGR, v úvodním kroku musí dojít k vytvoření jednotkového čtverce v souřadném systému, jehož vrcholy si označíme nukleotidovými bázemi A, T, G, C. Vnitřní prostor čtverce nám slouží k zobrazení sekvence DNA. Celková reprezentace je tvořena na první pohled náhodně rozmístěnými body uvnitř čtverce. Při dostatečně dlouhé sekvenci můžeme pozorovat určité rysy, jako je například prázdný prostor, které nám vypovídají o jejích vlastnostech, které mohou být posléze použity pro analýzu. U této metody je zabráněno degeneraci tím, že souřadnice bodu reprezentující poslední bázi, která v sobě nese informace o celé sekvenci, což nám umožňuje udělat zpětnou rekonstrukci z grafické reprezentace [26]. 4.1.7 Čtyřbarevná reprezentace Tato reprezentace využívá čtyř barev, kde každá je přiřazena jedné ze čtyř nukleotidových bází. Na rozdíl od předešlých metod se nejedná o grafické zobrazení, ale spíše o obraz. Každé bázi je přiřazen barevný prostor, jehož poloha odpovídá souřadnicím dané báze. Umožňuje vizuální porovnání podobností mezi sekvencemi. Při tvorbě reprezentace, je nutné v úvodním kroku vytvořit spirálu, která má začátek ve středu souřadného systému, přičemž délka spirály je odvislá od celkové délky sekvence DNA. Tato křivka se vytváří z důvodu, abychom mohli jednoduše určit souřadnice jednotlivých čtverců, které budou obarveny podle odpovídající báze. Tato grafická reprezentace přechází i v numerickou reprezentaci a to tak, že si ve vzniklé barevné reprezentaci číselně označíme jednotlivé oblasti. Pravidlo platící pro číslování je, že začínáme vždy od G, pak C, T a A [27].
31
4.1.8 Výhody a nevýhody Charakter mutací v sekvenci DNA je ve 2D grafických reprezentacích zachován. 2D reprezentace jsou vhodným nástrojem pro vizualizaci lokálních a globálních vlastností jak pro krátké tak i dlouhé sekvence DNA a mohou nám usnadnit vizuální odhalení zajímavých oblastí sekvencí DNA. Vysoká složitost a degenerace jsou hlavními problémy 2D grafických reprezentací sekvencí DNA. Na druhou stranu některé 2D grafické reprezentace poskytují algoritmy sloužící pro výpočet podobnosti mezi sekvencemi. Současné 2D grafické reprezentace zajišťují různé přístupy pro počítačové výzkumníky a molekulární biology a zajišťují tak efektivnější analýzu sekvencí DNA.
4.2 3D reprezentace 4.2.1 Metoda podle Guo Guo prezentace již byla zmíněna v předchozí části, tady na ni navážeme jako na 3D reprezentaci. Použití 3D zobrazení je vhodné pouze pokud máme k dispozici počítač. Reprezentace spočívá v tom, že si zvolíme vektory reprezentující báze [25].
Samotný postup tvorby křivky je stejný jako ve 2D reprezentaci té metody. Vytvořením 3D reprezentace získáme tři různé grafické reprezentace. První projekci se souřadnicemi (x,y), druhou projekci se souřadnicemi (x,z) a třetí projekci se souřadnicemi (y,z). Riziko vzniku degenerace je opět poměrně vysoké. Smyčky vznikají při opakování čtyř písmen. Např. GCAT, GCATA, GCATAC,… ty mají stejnou reprezentaci v 3D prostoru. Tato reprezentace stejně jako její 2D verze není vhodná pro výpočet podobnosti sekvencí [25].
32
Guo 3D Mycoplasma genitalium G37
8 6 4
z
2 0 -2 -4 -6 12 10 8
12 10
6 8
4
6
2
4
0
2
-2 y
0 -4
-2 x
Obrázek 11 Guo 3D reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Na obrázku 11 lze vidět grafickou reprezentaci pomocí metody podle Guo 3D genu 16 S rRNA organismu Mycoplasma genitalium G37. 4.2.2 Metoda podle Liao V této metodě jsou nukleotidovým bází přiděleny čtyři směry v 2D prostoru (-x, x, -y, y). Taková to reprezentace je charakteristickou vysokým rizikem ztráty informace. Možností jak tomuto zabránit je přidáním dalšího rozměru systému [28]. Přidání třetího rozměru:
Kde: Ai, Gi, Ci, Ti jsou kumulační četnosti bází, i = 1, 2, 3,…n, n je délka sekvence. Na obrázku 12 lze vidět grafickou reprezentaci pomocí metody podle Liao 3D genu 16 S rRNA organismu Mycoplasma genitalium G37.
33
Liao 3D Mycoplasma genitalium G37
30
25
z
20
15
10
5
0 1 0.5
1 0.5
0 0 -0.5
y
-0.5 -1
-1 x
Obrázek 12 Liao 3D reprezentace genu 16 S rRNA organismu Mycoplasma genitalium G37 pro prvních 100 bází – výstup programu Tato metoda nám poskytuje možnost porovnání sekvencí, ale stejně jako u metody podle Liao2, musíme nahradit křivku jejím numerickým popisem. Rozdílem této metody oproti ostatním metodám podle Liao spočívá v tom, že pokud chceme určit podobnost mezi sekvencemi pomocí metody podle Liao 3D výstupem není dendrogram jako je tomu u metod podle Liao 1, Liao 2 a Liao 4D, ale tři číselné matice, podle kterých lze určit podobnost mezi sekvencemi [28][39]. 4.2.3 Výhody a nevýhody 3D grafické reprezentace jsou poměrně jednoduché na konstrukci. 3D a 2D grafické reprezentace mají určité podobnostní prvky a mají několik vedoucích hodnot, které mohou být dostačující pro charakterizaci sekvencí DNA. U některých 3D grafických metod hrozí vysoké riziko degenerace např. Metoda podle Guo. Naopak některé metody mají možnost, jak tomuto riziku předejít např. Metoda podle Liao, eliminace degenerace je zajištěna přidáním dalšího rozměru systému.
34
4.3 4D reprezentace 4.3.1 Metoda podle Liao Tato metoda se využívá ve 2D, 3D i 4D prostoru. Nukleotidovým bázím jsou opět přiřazeny vektory a křivka se získá kumulativním součtem sekvence těchto vektorů [29][30]. (22)
(23)
(24)
(25) kde gi jsou jednotlivé báze v sekvenci DNA, i=1, 2, 3, …,n, n je délka sekvence, xi, yi, zi, si jsou binární sekvence. Po úpravě podmínek získáme 4 výsledné vektory [30]:
(26)
Pro to, abychom mohli zjistit podobnost mezi sekvencemi, je opět nutný převod na numerickou reprezentaci. K tomu musíme vypočítat kumulativní součet souřadnic vektorů celé sekvence DNA [30]. (27) Kde: xi, yi, zi, si jsou zmíněné kumulativní součty. Doporučená kritéria u této metody pro určení podobnosti jsou Eukleidovskou vzdálenost dij a úhel mezi vektory
ij
[29][39]: (28)
35
(29)
Kde: I a J jsou vektory popisující sekvenci i a j. Podobně jako u metody podle Liao 1, získáme opět z výpočtu vztahů pro kritéria matici, určující podobnost mezi sekvencemi, ze které lze vytvořit dendrogram. 4.3.2 Výhody a nevýhody 4D grafické reprezentace nám umožňují vizuální náhled na data, dále umožňují rozeznat hlavní podobnostní prvky mezi odlišnými sekvencemi DNA. U 2D a 3D grafických reprezentací se bere v potaz pouze rozložení v sekvenci jako řadová sekvence. U 4D grafických reprezentací se neuvažuje pouze strukturní rozložení sekvence, ale také chemická struktura sekvence, tím se výpočet, zejména pro dlouhé sekvence, zjednoduší.
4.4 Využití grafických reprezentací Grafické reprezentace se využívají zejména k určení podobnosti mezi dvěma a více sekvencemi. Důležitým parametrem při určování podobnosti sekvencí je posloupnost dat resp. posloupnosti nukleotidů A, G, C a T. Podobnost mezi sekvenci může být vyjádřena pomocí tabulky, ze které je možné sestrojit fylogenetický strom. Z informačního hlediska jsou nejhodnotnější informace ve formě tabulky, které jsou naopak méně přehledné. Pokud naopak potřebujeme znázornění podobností sekvencí, poté použijeme fylogenetický strom [31]. Možnost porovnání sekvencí DNA obsahují pouze některé grafické reprezentace, jako jsou všechny metody podle Liao 1, Liao 2, metoda PNN křivky, Liao 3D a Liao 4D. Například u 2D metody podle Liao se pro porovnání sekvencí se využívá výpočet Euklidovské vzdálenosti a korelačního úhlu. Hlavní výhoda určování podobnosti pomocí grafických reprezentací spočívá v rychlém a nesložitém postupu a různých možností zobrazení podobnosti.
36
5
Programové řešení bakalářské práce
Programové řešení zadání bakalářské práce spočívalo ve tvorbě programu, který by byl schopen konvertovat zadané sekvence do příslušné grafické reprezentace. Dále pak na základě volby kritéria, konkrétní grafické reprezentace, by poté vytvořil fylogenetický strom neboli dendrogram. Cílem programového řešení bylo zjistit, která grafická reprezentace nejlépe vyjadřuje fylogenetickou příbuznost. Pro testování byl použit gen 16 S rRNA pro deset druhů bakterií. Program byl vypracován v prostředí programu Matlab a je uživatelem ovládán pomocí prvku GUI.
5.1 Popis ovládacího panelu GUI
Obrázek 13 Ukázka ovládacího panelu GUI pro tři náhodně zadané sekvence Na obrázku 13 je ukázka panelu GUI, u kterého budou následně vysvětleny jeho funkční prvky. GUI se spouštím funkcí Projekt.m. Políčko Sekvence uživateli umožnuje 37
ručně zadat tři a více sekvencí a poté sekvence nahrát prostřednictvím tlačítka Nahraj sekvence. Pokud uživatel nezadá ručně žádnou sekvenci a klikne na výše uvedené tlačítko, tak dojde k otevření složky a uživatel může nahrát do políčka sekvence, které jsou ve formátu GenBank. Jakmile jsou sekvence do programu nahrány, může uživatel zvolit konkrétní část sekvence, se kterou chce pracovat, pomocí Ořez sekvence, přičemž druhé okénko značí maximální společnou délku sekvencí. Celkový možný volitelný rozsah se vypisuje do Ořez sekvence může být v intervalu. Po zvolení zájmové oblasti sekvencí, si uživatel vybere požadovanou grafickou reprezentaci ve Volba reprezentace. Může tedy vybírat z 2D grafických reprezentací podle Liao1, Liao2, Guo, PNN křivky, poté z 3D grafických reprezentací podle Liao, Guo a dále může zvolit 4D reprezentaci podle Liao. Všechny tyto uvedené reprezentační metody, kromě 4D metody podle Liao, jsou automaticky vykresleny do pole Výstupy, jakmile je uživatel zvolí. Pokud je cílem uživatelovi práce zisk dendrogramu ze zvolené grafické reprezentace, musí si zvolit kritérium pro jeho výpočet ve Volba kritéria. Ne všechny tyto naprogramované grafické reprezentace jsou však svými autory doporučované pro porovnání sekvencí na základě tvorby dendrogramu. Těmito nevhodnými metodami jsou metody podle Guo jak ve 2D tak i ve 3D zobrazení. U těchto metod může uživatel zvolit pouze jejich grafickou reprezentaci. Další metodou, u které není možnost volby kritéria, je 3D metoda podle Liao. Důvodem absence kritérií u této metody je fakt, že není schopna vytvořit dendrogram, ale pouze tabulku podobnosti sekvencí. Možnost volby kritéria, tedy metody výpočtu, podle které bude dendrogram získán, je u 2D metod podle Liao1, Liao2, PNN křivky a 4D metody podle Liao. Všechny metody podle Liao mají jedno společné doporučované kritérium a tím je Euklidovská vzdálenost. Dále Liao 2 a Liao 4D mají společné druhé doporučované kritérium úhel mezi vektory. Druhým doporučeným kritériem u metody podle Liao1 je korelační úhel. Vzhledem k tomu, že tyto metody podle Liao vychází částečně z Euklidovské vzdálenosti, aplikoval jsem další kritéria, která jsou vzorci pro výpočet Euklidovské vzdálenosti příbuzná. Konkrétně tedy [38]: Manhattanská vzdálenost: (30) Canberryho vzdálenost: (31)
38
Bray Curtisova vzdálenost: (32) Umocněná Euklidovská vzdálenost: (33) Pearsonův korelační koeficient (34) U metod podle Liao byla tedy aplikována kromě doporučených kritérií i výše uvedená kritéria. U metody podle Liao 2 není Pearsovnův korelační koeficient použit. U metody PNN křivky je možnost volby pouze jednoho kritéria a to RM korelace. V možnostech Volba kritéria jsou doporučená kritéria zvýrazněna zelenou barvou. Důležité je zmínit, že hodnoty v matici vzniklé na základě výpočtu srovnávacího kritéria musí vyjít jak kladná reálná čísla. Vlivem uspořádání sekvencí může dojít k tomu, že vyjdou záporně nebo komplexně v závislosti na použité metodě, v takovémto případně prostředí Matlab ohlásí chybovou hlášku a tvorba dendrogramu není realizována. Posledním prvkem GUI, který je třeba zmínit je Volba dendrogramu. Toto menu nabízí možnost volby typu dendrogramu, který chceme zobrazit. Uživatel může volit mezi Square, Angular a Radial dendrogramem. Poté co si uživatel zvolí grafickou reprezentaci a kritérium a zmáčkne tlačítko Start, dojde k vykreslení příslušné grafické reprezentace a vzniku dvou dendrogramů. Jeden je tedy vytvořen na základě zadaného kritéria a druhý vytvořený na základě vícenásobného zarovnání pomocí metody Jukes-Cantor, který je považován za referenční. Podle něho může uživatel porovnat správnost dendrogramu vzniklého z grafické reprezentace.
5.2 Gen 16 S rRNA Funkčnost programu byla testována na deseti genech 16 S sRNA, pocházejících z bakterií. Využití genu 16 S rRNA pro studium bakteriální fylogenetiky and taxonomie je v dnešní době velmi časté z několika důvodů. Těmito důvody jsou zejména přítomnost tohoto genu v téměř všech typech bakterií, dále to, že se funkce genu během času nemění. Další výhodou je jeho délka (1500bp), která ho předurčuje být vhodným nástrojem pro informatické účely. V roce 1980 byl publikován článek obsahující seznam druhů bakterií, u kterých byl 16 S rRNA detekován, jednalo se o číslo 1791. V dnešní době se toto číslo pohybuje kolem 8168 druhů bakterií. Můžeme tedy pozorovat signifikantní nárůst přibližně o 450% [34]. 39
Hlavním potenciálem genu 16 S rRNA je získání druhové identifikace izolátů, které nezapadají do známých biochemických profilů. Z výsledků studií je zřejmé, že 16 S rRNA zajišťuje tuto identifikaci ve většině případů (90%). Využití genu 16 S rRNA jako nástroje pro mikrobiologickou identifikaci závisí na dvou klíčových elementech. Těmi jsou ukládání kompletních nukleotidových sekvencí do veřejných nebo privátních databází a správné označení každé sekvence [34]. Použité organismy jsou uvedené v tabulce 1. Tabulka 1 Tabulka vybraných organismů, řád, čeleď, rod, NC označení
Název organismu Mycoplasma genitalium Bacillus subtilis Bacillus halodurans Halobacterium sp. Mesorhizobium loti Caulobacter crescentus Streptococcus pyogenes Staphylococcus aureus Neisseria gonorrhoeae Clostridium acetobutylicum
řád
čeleď
rod
Mycoplasmatales
Mycoplasmataceae
Mycoplasma
Bacillales
Bacillaceae
Bacillus
Bacillales
Bacillaceae
Bacillus
Halobacteriales
Halobacteriaceae
Halobacterium
Rhizobiales
Phyllobacteriaceae
Mesorhizobium
Caulobacterales
Caulobacteraceae
Caulobacter
Lactobacillales
Streptococcaceae
Streptococcus
Bacillales
Staphylococcaceae
Staphylococcus
Neisseriales
Neisseriaceae
Neisseria
Clostridiales
Clostridiaceae
Clostridium
5.3 Tvorba referenčního dendrogramu Referenční dendrogram, tedy fylogenetický strom, je využíván pro určení, s jakou přesností byl vytvořen dendrogram, vzniklý na základě aplikace některého z porovnávacích kritérií příslušné grafické reprezentace. K jeho vytvoření bylo nejdříve potřeba příslušné sekvence vícenásobně zarovnat pomocí Matlab funkce multialign. Takto vícenásobně zarovnané sekvence jsou poté podrobeny funkci seqpdist, která zjistí podíl neshodných míst pomocí metody pdistance [40]: (35) Poté provede korekci na vícenásobné mutace pomocí metody Jukes-Cantor [40]: 40
(36) Takto vzniklé hodnoty jsou zapsány do matice distancí. Z hodnot matice distancí je poté pomocí funkce seqlinkage vytvořen referenční dendrogram pomocí shlukovací metody UPGMA (Unweighted Pair Group Method with Arithmetic Mean).
5.4 Ukázka grafických reprezentací V této části bakalářské práce je uveden referenční dendrogram vytvořen na základě vícenásobného zarovnání metodou Jukes-Cantor pro gen 16 S rRNA pro deset organismů bakterií pro prvních sto bází. Z tohoto dendrogramu byly určeny dvě sekvence, které jsou si nejpodobnější a sekvence třetí, která je jim naopak nejméně podobná. Tyto tři sekvence jsou poté konvertovány do všech naprogramovaných grafických reprezentací za účel zjištění, s jakou vizuální přesností jednotlivé grafické reprezentace zobrazují tyto tři sekvence.
Staphylococcus aureus s ubs p. aureus Mu50 Neis s eria gonorrhoeae FA 1090 Mycoplas m a genitalium G37 Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Bacillus halodurans C-125 Streptococcus pyogenes M1 GAS Caulobacter cres centus CB15 Clos tridium acetobutylicum ATCC 824 Halobacterium s p. NRC-1 Mes orhizobium loti MAFF303099 0
0.2
0.4
0.6
0.8
Obrázek 14 Referenční dendrogram genu 16 S rRNA pro deset organismů bakterií pro prvních sto bází Na obrázku 14 lze vidět dendrogram vytvořený na základě vícenásobného zarovnání. Z něj je patrné, že nevíce podobné jsou si sekvence Bacillus subtilis a Bacillus halodurans, naopak k těmto dvou sekvencím nejvíce vzdálená je Mesorhizobium loti.
41
Liao 1 1 Bacillus subtilis subsp. subtilis str. 168
0.9
Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
0.8 0.7
y
0.6 0.5 0.4 0.3 0.2 0.1 0
0
0.2
0.4
0.6
0.8
1
x
Obrázek 15 Metoda podle Liao 1 Na obrázku 15 lze pozorovat grafickou reprezentaci podle Liao 1 pro tři sekvence genu 16 S rRNA pro prvních sto bází. PNN 4 Bacillus subtilis subsp. subtilis str. 168 Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
3.5
y
3
2.5
2
1.5
1
0
50
100
150
200 x
250
300
350
400
Obrázek 16 Metoda PNN křivky Na obrázku 16 lze vidět grafickou reprezentaci PNN křivky pro tři sekvence genu 16 S rRNA pro prvních sto bází.
42
Liao 2 Bacillus subtilis subsp. subtilis str. 168 Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
1 0.9 0.8 0.7
y
0.6 0.5 0.4 0.3 0.2 0.1 0 100 80
AT 60 40
AC 20 0
x
AG křivka
Obrázek 17 Metoda podle Liao 2 Na obrázku 17 lze vidět grafickou reprezentaci podle Liao 2 pro tři sekvence genu 16 S rRNA pro prvních sto bází.
43
Guo 2D 40 Bacillus subtilis subsp. subtilis str. 168
35
Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
30 25
y
20 15 10 5 0 -5 -5
0
5
10
15
20
25
30
x
Obrázek 18 Metoda podle Guo 2D Na obrázku 18 lze vidět grafickou reprezentaci podle Guo 2D pro tři sekvence genu 16 S rRNA pro prvních sto bází. Guo 3D Bacillus subtilis subsp. subtilis str. 168 Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
8 6 4 2
z
0 -2 -4 -6 -8 -10 -12 20 15
10 10
5 5
0 0
y
-5 -5
-10 x
Obrázek 19 Metoda podle Guo 3D
44
Na obrázku 19 lze vidět grafickou reprezentaci podle Guo 3D pro tři sekvence genu 16 S rRNA pro prvních sto bází. Liao 3D Bacillus subtilis subsp. subtilis str. 168 Bacillus halodurans C-125 Mesorhizobium loti MAFF303099
35 30 25
z
20 15 10 5 0 1 0.5
1 0.5
0 0 -0.5 y
-0.5 -1
-1 x
Obrázek 20 Metoda podle Liao 3D Na obrázku 20 lze vidět grafickou reprezentaci podle Liao 3D pro tři sekvence genu 16 S rRNA pro prvních sto bází. Z obrázků 15-20 je patrné, že různé typy grafických reprezentací, zobrazují vybrané sekvence s různou přehledností. Jako nejvíce vizuálně přehledné grafické reprezentace se jeví metoda podle Liao 1 a metoda podle Guo 2D, z těchto metod jasně vyplývá podobnost jednotlivých sekvencí. Zbývající dvě dvourozměrné metody, tedy metoda podle Liao 2 a PNN křivky, se ukazují jako poměrně nepřehledné vzhledem k prolínání jednotlivých křivek, z čeho nelze přesně určit, jestli sekvence jsou si více či méně podobné. Trojrozměrné grafické reprezentace metody podle Guo a Liao se zdají rovněž poměrně nepřehledné, ale i tak se jak přehlednější jeví metoda podle Guo. Vizuální nepřehlednost jednotlivých metod narůstá se zvyšujícím se počtem použitých bází. Pro tyto ukázky byl zvolen počet sta bází pro každou sekvenci.
45
5.5 Výsledky a porovnání dendrogramů
Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Staphylococcus aureus s ubs p. aureus Mu50 Bacillus halodurans C-125 Streptococcus pyogenes M1 GAS Clos tridium acetobutylicum ATCC 824 Neis s eria gonorrhoeae FA 1090 Mes orhizobium loti MAFF303099 Caulobacter cres centus CB15 Mycoplas m a genitalium G37 Halobacterium s p. NRC-1 0
0.1
0.2
0.3
0.4
0.5
0.6
Obrázek 21 Referenční dendrogram genu 16 S rRNA pro deset organismů bakterií Na obrázku 21 lze vidět referenční dendrogram, sestrojený podle postupu v kapitole 5.3, ke kterému byl vybrán nejvíce podobný dendrogram, vzniklý na základě použití srovnávacího kritéria konkrétní grafické reprezentace. Z matice distancí se dendrogram sestrojil pomocí metody UPGMA (Unweighted Pair Group Method with Arithmetic Mean). Všechny tyto dendrogramy byly vytvořeny pro maximální společný počet bází všech deseti sekvencí, konkrétně tedy 1461 bp.
Caulobacter cres centus CB15 Staphylococcus aureus s ubs p. aureus Mu50 Mycoplas m a genitalium G37 Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Neis s eria gonorrhoeae FA 1090 Bacillus halodurans C-125 Mes orhizobium loti MAFF303099 Halobacterium s p. NRC-1 Clos tridium acetobutylicum ATCC 824 Streptococcus pyogenes M1 GAS 0
0.1
0.2
0.3
0.4
0.5
0.6
Obrázek 22 Dendrogram metody podle Liao 1, kritérium - Euklidovská vzdálenost
46
Na obrázku 22 lze vidět dendrogram pomocí metody podle Liao 1. Aplikovaným kritériem je Euklidovská vzdálenost. Dendrogram na základě Euklidovské vzdálenost se při srovnání s dendrogramy vzniklými na základě korelačního úhlu, Manhattanské vzdálenosti, Canberryho vzdálenosti, Bray-Curtisovy vzdálenosti, umocněné Euklidovské vzdálenosti a Pearsonovy korelace jeví jako nejpřesnější. Je ale nutné konstatovat, že přesnost s jakou interpretuje podobnost mezi jednotlivými organismy je velice nízká. Nejvíce blízké si, podle referenčního dendrogramu, mají být Bacilus subtilis a Staphylococcus aureus, ovšem z dendrogramu metody podle Liao pomocí Euklidovské vzdálenosti vyplývá, že nejblíže jsou si Bacillus halodurans a Mesorhizoblum loti, druhá nejvyšší podobnost patří Mycoplasma genitallum a Bacilus subtilis, třetí nejvyšší podobnost patří organismům Caulobacter crescentus a Staphylococcus aureus. Až čtvrtá nejvyšší podobnost je dílčí pro dvojice organismů Mycoplasma genitallum, Bacilus subtilis a Caulobacter crescentus, Staphylococcus aureus.
Mes orhizobium loti MAFF303099 Caulobacter cres centus CB15 Neis s eria gonorrhoeae FA 1090 Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Bacillus halodurans C-125 Halobacterium s p. NRC-1 Streptococcus pyogenes M1 GAS Staphylococcus aureus s ubs p. aureus Mu50 Clos tridium acetobutylicum ATCC 824 Mycoplas m a genitalium G37 0
0.1
0.2
0.3
0.4
Obrázek 23 Dendrogram metody PNN křivky, kritérium – RM korelace Na obrázku 23 lze vidět dendrogram grafické reprezentace PNN křivky. Užitým kritériem je zde RM korelace. RM korelace je jediným srovnávacím kritériem této metody. Podle RM korelace jsou si nejbližší Bacillus subtilis a Bacillus halodurans, stejně jsou na tom poté organismy Mesorhizobium loti a Cauloubacter crescentus, druhou nejvyšší podobnost lze pozorovat mezi dvojicí organismů Mesorhizobium loti, Cauloubacter crescentus a organismem Neisseria gonorrhoeae. Podobnost mezi Bacilus subtilis a Staphylococcus aureus podle referenčního dendrogramu velmi vzdálená.
47
Mycoplas m a genitalium G37 Staphylococcus aureus s ubs p. aureus Mu50 Streptococcus pyogenes M1 GAS Caulobacter cres centus CB15 Clos tridium acetobutylicum ATCC 824 Neis s eria gonorrhoeae FA 1090 Mes orhizobium loti MAFF303099 Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Bacillus halodurans C-125 Halobacterium s p. NRC-1 0
0.2
0.4
0.6
Obrázek 24 Dendrogram metody podle Liao 2, kritérium – úhel mezi vektory Na obrázku 24 lze vidět dendrogram metody podle Liao 2. Kritériem je zde úhel mezi vektory, který se po porovnání s dendrogramy pomocí ostatních kritérií, jeví jak nejpřesnější, i když podobnost organismů zcela neodpovídá referenčnímu dendrogramu. Z obrázku je patrné, že největší podobnost je mezi Caulobacter crescentus a Clostridium acetobutylicum, druhá největší podobnost je mezi organismy Bacillus haloduras a Bacillus subtilis. Přičemž podobnost mezi Bacillus subtilis a Staphylococcus aureus je podle této metody poměrně vzdálená.
Caulobacter cres centus CB15 Neis s eria gonorrhoeae FA 1090 Bacillus s ubtilis s ubs p. s ubtilis s tr. 168 Bacillus halodurans C-125 Mes orhizobium loti MAFF303099 Halobacterium s p. NRC-1 Streptococcus pyogenes M1 GAS Clos tridium acetobutylicum ATCC 824 Staphylococcus aureus s ubs p. aureus Mu50 Mycoplas m a genitalium G37 0
0.1
0.2
0.3
0.4
0.5
0.6
Obrázek 25 Dendrogram metody podle Liao 4D, kritérium – Canberryho vzdálenost 48
Na obrázku 25 lze vidět dendrogram metody podle Liao 4D. Užitým kritériem je zde Canberryho vzdálenost. Canberryho vzdálenost se jeví, jako nejpřesnější v porovnání s ostatními kritérii. Největší podobnost lze pozorovat mezi Bacillus subtilis a Bacillus halodurans, druhá nejvyšší podobnost lze pozorovat mezi organismy Streptococcus aureus a Clostridium acetobutylicum. Vzdálenost mezi Bacillus subtilis a Staphylococcus aureus je opět velká. Při celkovém srovnání těchto dendrogramů s referenčním dendrogramem, lze pozorovat velké neshody. Jako nejvíce přesný dendrogram lze považovat dendrogram metody podle Liao 1. Zde je podobnost mezi Bacillus subtilis a Staphylococcus aureus pozorovatelná nejvíce, i když se jedná podle dendrogramu o dílčí podobnost mezi dvěma dvojicemi organismů. U metod PNN křivky se dospělo k nejhorším výsledkům. Nejenom že podobnosti mezi organismy nekorespondovaly s výsledky z referenčního dendrogram, ale celková přehlednost je velice nízká. Kritéria metod podle Liao 2 a Liao 4D byly schopny odhalit vysokou podobnost mezi Bacillus subtilis a Bacillus halodurans, ale nejvyšší podobnost mezi Bacillus subtilis a Staphylococcus aureus zcela popřely. Překvapení u metody podle Liao 4D bylo to, že nejpřesněji vyšel dendrogram podle nedoporučeného kritéria, Canberryho vzdálenosti. I když byly vybrány dendrogramy, které jsou z hlediska přesnosti nejblíže dendrogramu referenčnímu, tak lze i tak konstatovat, že dendrogramy vzniklé z kritérií grafických reprezentací, nejsou vhodné pro porovnávání podobnosti mezi sekvencemi.
49
6 Závěr Předkládaná bakalářská práce se zabývá numerickými a grafickými reprezentacemi a jejich využitím v bioinformatice. Cílem práce bylo vytvořit rešerši o numerických a grafických metodách reprezentace DNA sekvencí a vytvořit program s uživatelským rozhraním v prostředí Matlab, který umožňuje převést zadané sekvence do zvolené grafické reprezentace. Byly naprogramované tyto metody: Liao 1, Liao 2, PNN křivka, metoda podle Guo, které patří do skupiny 2D metod, dále 3D grafické metody: metoda podle Guo a podle Liao. Jedním z nejdůležitějších aspektů při grafickém zobrazování sekvence je její vizuální přehlednost, zejména při srovnávání většího počtu sekvencí. V průběhu vypracovávání bakalářské práce bylo dospěno k názoru, že nejpřehlednější reprezentací je 2D metoda podle Liao 1 a podle Guo. Naproti tomu se jako nejméně přehledná jevila metoda podle Liao 2 a metoda PNN křivky. Z 3D metod nabízí přehlednější zobrazení metoda podle Guo. Při grafickém zobrazování sekvence je dalším důležitým hlediskem degenerace, kterou je rozuměno nemožnost rekonstrukce obrazu na původní sekvenci. 2D i 3D reprezentační metody zpravidla podléhají degeneraci, avšak u některých metod se tomuto riziku předchází. Jako příklad lze uvést PNN křivku, metodu podle Guo, metodu podle Liao 2 nebo 3D metodu Liao – tyto metody jsou proti nepříznivému jevu degenerace ošetřeny. Asi nejvíce náchylnou metodou na degeneraci je 2D metoda podle Liao, u které vzniká problém i při porovnávání sekvencí o různých délkách. Dále program umožňuje zobrazit podobnost sekvencí pomocí dendrogramu u metod Liao 1, Liao 2, Liao 4D a PNN křivky. Pro výpočet podobnosti sekvencí byly použité kritéria převzaté z článků - Euklidovská vzdálenost, korelační úhel a úhel mezi vektory. Také byly přidány další kritéria pro určení podobnosti křivek: Manhattanská vzdálenost, Canberryho vzdálenost, Bray-Curtisova vzdálenost, Umocněná Euklidovská vzdálenost a Pearsonova korelace. Cílem práce bylo zjistit, která grafická reprezentace a které porovnávací kritérium, nejlépe vyjadřuje fylogenetickou příbuznost DNA sekvencí. Jako testovací sekvence byly zvolené sekvence genu 16 S rRNA, které se využívají na fylogenetické studie. Referenční dendrogram byl vytvořen pomocí vícenásobného zarovnání metodou Jukes-Cantor a následně shlukovací metodou UPGMA. Bylo zjištěno, že reprezentaci, která se dendrogramem nejvíce blížila referenčnímu dendrogramu, byla metoda podle Lioa 1 při použití kritéria Euklidovské vzdálenosti. Zde byla podobnost organismů Bacillus subtilis a Staphylococcus aureus nejblíže výsledku 50
referenčního dendrogramu. Další dvě metody podle Liao 2 (kritérium – úhel mezi vektory) a Liao 4D (kritérium – Canberryho vzdálenost) byly schopny vyjádřit blízkou podobnost mezi organismy Bacillus subtilis a Bacillus halodurans, ale nejvyšší podobnost mezi Bacillus subtilis a Staphylococcus aureus podle referenčního fylogenetického stromu, byla zcela popřena. Nejhorších výsledků bylo dosaženo pomocí metody PNN křivky, kde jediným kritériem byla RM korelace. Takto metoda poskytla velmi nepřehledný dendrogram, ze kterého nebylo možnost zjistit, které dva organismy jsou si nejpodobnější. Opět byla tato metoda schopna odhalit podobnost mezi Bacillus subtilis a Bacillus halodurans, ale podobnost mezi Bacillus subtilis a Staphylococcus aureus opět zcela neodpovídala referenčnímu dendrogramu. Závěrem lze konstatovat, že žádná grafická reprezentace, která umožňuje porovnání sekvencí na základě tvorby dendrogramu, nedosahuje uspokojivých výsledků při porovnání s dendrogramem referenčním.
51
7 Literatura [1] R. J. ROBBINS, B. DAVID, and S. JAY. Informatics and the Human Genome Project. IEEE Engineering in Medicine and Biology Magazine, 1995, 14(6): 694-701. Dostupný na WWW: http://www.esp.org/ieee-2.pdf [2] A. ROY, C. RAYCHAUDHURY, and A. NANDY. Novel techniques of graphical representation and analysis of DNA sequences- A review. Journal of Biosciences, 1998, 23(1):55-71. Dostupný na WWW: http://www.ias.ac.in/jbiosci/march1998/JB-1j.PDF [3] M. AKHTAR and J. EPPS. On DNA numerical representations for period-3 based exon prediction. in Proc. of IEEE Workshop on Genomic Signal Processing and Statistics (GENSIPS), 2007, 1-4. Dostupný na WWW: http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=4365821&url=http%3A%2F%2Fieeex plore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4365821 [4] R. RANAWANA and V. PALADE. A Neural network based multi-classifier system for gene identification in DNA sequence. Neural Computing and Applications, 2005, 14(2):122-131. Dostupný na WWW: http://link.springer.com/article/10.1007%2Fs00521-0040447-7 [5] B. DEMELER, G. W. ZHOU. Neural network optimization for E.coli promoter prediction. Nucleic Acids Res., 1991, 19(7):1539-1599. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC333920/ [6] P. B-GALVAN, P. CARPENA, R. Roman-ROLDANET, J. L. Oliver. Study of statistical correlations in DNA sequences. Gene, 2002, 300(1-2):105-115. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pubmed/12468092 [7] P. LIO, and M. VANNUCI. Finding pathogenicity islands and gene transfer events in genome data. Bioinformatics, 2000, 16(10):932-940. Dostupný na WWW: http://bioinformatics.oxfordjournals.org/content/16/10/932 [8] J. A. BERGER, S. K. MITRA, and J. ASTOLA. Power spectrum analysis for DNA sequences. in Proc. of Seventh International Symposium on Signal Processing and its Applications,2003, 2:29-32.4 Dostupný na WWW: http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?tp=&arnumber=1224807&url=http%3A%2 F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D1224807 [9] P. B.-GALVAN, I. GROSSE. P. CARPENA, J. L. OLIVER, R. R.-ROLDAN, H. E. STANLEY. Finding borders between coding and noncoding DNA regions by an enthropic
52
segmentation method. Physical Review Letters, 2000, 85(6):1342-1345. Dostupný na WWW: http://polymer.bu.edu/hes/articles/bgcors00.pdf [10] M. YAN, Z.-S. LIN, C.-T. ZHANG. A new Fourier transform approach for protein coding measure based on the format of the Z curve. Bioinformatics, 1998,14(8):685690. Dostupný na WWW: http://bioinformatics.oxfordjournals.org/content/14/8/685.full.pdf?origin=publication_detail [11] C.-T. ZHANG and J. WANG. Recognition of protein coding genes in the yeast genome at better than 95% accuracy based on the Z curve. Nuc. Acids Res., 2000, 28(14):2804-2814. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC102655/ [12] C. YIN, S. YAU. Numerical representation of DNA sequences based on genetic code context and its applications in periodicity analysis of genomes. IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, 2008, 223-227. Dostupný na WWW: http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=4675783&url=http%3A%2F%2Fieeex plore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4675783 [13] A. S. NAIR. Visualization of genomic data using inter-nucleotide distance signals. IEEE International Conference on Genomic Signal Processing GSP, 2005. Dostupný na WWW: http://www.ece.iit.edu/~biitcomm/research/references/Achuthsankar%20S%20Nair/Visualizat ion%20of%20genomic%20data%20using%20inter-nucleotide%20distance%20signals.pdf [14] G. DODIN, P. LEVOIR, C. CORDIER, L. MARCOURT. Fourier and wavelet transform analysis, a tool for visualizing regular patterns in DNA sequences. Journal of Theoretical Biology, 2000, 206(3):323-326. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pubmed/10988018 [15] G. L. ROSEN. Signal processing for biologically-inspired gradient source localization and DNA sequence analysis. Ph.D dissertation, Georgia Institute of Technology, Atlanta, August 2006. Dostupný http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.89.9532
na
WWW:
[16] AUTOR NEUVEDEN. Nukleové kdyseliny [online]. [cit. 5.1.2014]. Dostupný na WWW: http://www.mojechemie.cz/Biochemie:Nukleov%C3%A9_kyseliny [17] AUTOR NEUVEDEN. Genetika obecně [online]. [cit. 5.1.2014]. Dostupný na WWW: http://genetika.wz.cz/genetika.htm
53
[18] Swarna bai ARNIIKER a Hon Keung KWAN. Advanced Numerical Reprezentation of DNA Sequences. International Proceedings of Chemical, biological and Environmental Engineering. 2012, ISSN 2010-4618. Dostupný na WWW: http://www.ipcbee.com/vol31/001-ICBBB2012-T003.pdf [19] HON KEUNG KWAN; ARNIIKER, Swarna Bai. Numerical Representation of DNA Sequences [online]. Dostupný http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5189632
na
WWW:
[20] SUSSILLO, David; KUNDAJE, Anshul; ANASTASSIOU, Dimitris. Spectrogram Analysis of Genomes [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.ece.drexel.edu/gailr/class_papers/sussillo.pdf [21] DIMITROVA, Nevenka; CHEUNG, Yee Him; ZHANG, Michael. Analysis and Visualization of DNA Spectrograms: Open Possibilities for the Genome Research [online]. Dostupný na WWW: http://dl.acm.org/citation.cfm?id=1180861 [22] LIAO; TAN; DING. Application of 2-D graphical representation of DNA sequence [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0009261405012625 [23] LIU; DAI; XIU. PNN-curve: A new 2D graphical representation of DNA sequences and its application [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3896961/
[cit.
[24] LIAO; WANG. New 2D Graphical Representation of DNA Sequences [online]. 29.12.2013]. Dostupný na WWW:
http://www.researchgate.net/publication/8522413_New_2D_graphical_representation_of_DN A [25] GUO; RANDIC; BASAK. A novel 2-D graphical representation of DNA sequences of low degeneracy [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0009261401012465 [26] RANDIC; NOVIČ; VIKIC-TOPIC. Novel numerical and graphical representation of DNA sequences and proteins [cit. 29.12.2013] Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pubmed/17162388 [27] RANDIC; LERS; PLAVS. Fourcolor map representation of DNA or RNA sequences and their numerical characterization [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0009261405003957
54
[28] LIAO; WANG. 3-D graphical representation of DNA sequences and thein numerical characterization [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0166128004003732
D
[29] LIAO; WANG. Analysis of similarity/dissimilarity of DNA sequences based on 3graphical representation [online]. [cit. 29.12.2013]. Dostupný na WWW:
http://www.sciencedirect.com/science/article/pii/S0009261404003227 [30] LIAO; TAN; DING. A 4D representation of DNA sequences and its application [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0009261404020196 [31] AUTOR NEUVEDEN. Bioinformatika – Návod do počítačových cvičení [online]. [cit. 29.12.2013]. Dostupný na WWW: http://www.vutbr.cz [32] GENETICKÉ VÝUKOVÉ CENTRUM. SVG2 [online]. [cit. 3.1.2014]. Dostupný na WWW: http://user.mendelu.cz/urban/vsg2/dna2/model.htm [33] TIWARI; RAMACHANDRAN; BHATTACHARYA a kol. Prediction of probable genes by Fourier analysis of genomic sequences [online]. [cit. 3.1.2014]. Dostupný na WWW: http://nldsps.jnu.ac.in/publications/1995_2000/064.pdf [34] Ashelford, K. E., N. A. Chuzhanova, J. C. Fry, A. J. Jones, and A. J. Weightman. 2005. At least 1 in 20 16S rRNA sequence records currently held in public repositories is estimated to contain substantial anomalies. Appl. Environ. Microbiol. 71:7724-773[online]. [cit. 3.1.2014]. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2045242/ [35] Richard F. VOSS, Evolution of Long-range Fractal Correlations and 1/f noise in DNA base sequences, Physical Review Leters, vol. 68, pp. 3805-3808, June 1992. Dostupný na WWW: http://www.researchgate.net/publication/13243884_Evolution_of_longrange_fractal_correlations_and_1f_noise_in_DNA_base_sequences [36] ACHUTHSANKAR S. Nair and Sreenadhan S. PILLAI, A coding measure scheme employing electron-ion interaction pseudo potential (EIIP), Bioinformation, vol. 1, pp. 197-202, October 2006. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1891688/ [37] J. A. BERGER, S. K. MITRA, M. CARLI, and A. NERI, Visualization and analysis of DNA sequences using DNA walks, Journal of the Franklin Institute, vol. 341, pp. 37-53, January-March 2004. Dostupný na WWW: http://www.sciencedirect.com/science/article/pii/S0016003203000917
55
[38] AUTOR NEUVEDEN. Distance Measures [online]. [cit. 16.4.2014]. Dostupný na WWW: http://www.molmine.com/magma/analysis/distance.htm [39] PRAŽÁK, Ondřej. Grafická reprezentace genomických a proteomických sekvencí[online]. [cit. 28.5.2014]. Dostupný na WWW: https://www.vutbr.cz/studium/zaverecneprace?action=detail&zp_id=34222&fid=5&rok=&typ=&jazyk=&text=pra%C5%BE%C3%A 1k&hl_klic_slova=0&hl_abstrakt=0&hl_nazev=0&hl_autor=1&str=1 [40] STAROSTOVÁ, Zuzana. Zpracování sekvenčních dat a fylogenetické analýzy [online]. [cit. 28.5.2014]. Dostupný na WWW: http://web.natur.cuni.cz/zoologie/biodiversity/prednasky/GenetickeMetodyVZoologii/Prednas ky_2012/ZpracovaniSekvencnichDatFylogeneze_2012.pdf [41] YAU, Stephen. DNA sequence representation without degeneracy [online]. [cit. 28.3.2014]. Dostupný na WWW: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC162336/
56