ˇ ´ UCEN ´I TECHNICKE ´ V BRNE ˇ VYSOKE BRNO UNIVERSITY OF TECHNOLOGY
ˇ ´ICH TECHNOLOGI´I FAKULTA INFORMACN ˇ ´ITACOV ˇ ´ ´ ´I USTAV POC E´ GRAFIKY A MULTIMEDI FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA
ˇ U ˚ INTERPRETACE DAT Z BIOCIP
´ RSK ˇ ´ PRACE ´ BAKALA A BACHELOR’S THESIS
´ AUTOR PRACE AUTHOR
BRNO 2008
PETR LUDWIG
ˇ ´I TECHNICKE ´ V BRNE ˇ VYSOKE´ UCEN BRNO UNIVERSITY OF TECHNOLOGY
ˇ ´ICH TECHNOLOGI´I FAKULTA INFORMACN ˇ ´ITACOV ˇ ´ ´ GRAFIKY A MULTIMEDI ´ ´I USTAV POC E FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA
ˇ U ˚ INTERPRETACE DAT Z BIOCIP MICROARRAY DATA INTERPRETATION
´ RSK ˇ ´ PRACE ´ BAKALA A BACHELOR’S THESIS
´ AUTOR PRACE
PETR LUDWIG
AUTHOR
´ VEDOUC´I PRACE SUPERVISOR
BRNO 2008
ˇ Ph.D. doc. RNDr. PAVEL SMRZ,
Licenˇcn´ı smlouva je uvedena v archivn´ım v´ ytisku uloˇzen´em v knihovnˇe FIT VUT v Brnˇe.
Abstrakt Tato pr´ ace se zab´ yv´ a interpretac´ı dat z´ıskan´ ych pomoc´ı technologie bioˇcip˚ u. Pr´ace obsahuje tak´e kr´ atk´ yu ´vod do problematiky genetick´e informace a jej´ıho v´ yznamu. J´adrem pr´ ace je sada skript˚ u prov´ adˇej´ıc´ı anal´ yzy nad testovac´ımi daty. Jako vstupn´ı data jsou pouˇzity v´ ystupy bioˇcipov´e anal´ yzy tk´ an´ı s rakovinou tlust´eho stˇreva. D´ılˇc´ı v´ ysledek je urˇcen´ı genov´ ych marker˚ u rakoviny tlust´eho stˇreva. Fin´aln´ı v´ ysledek urˇcuje postaven´ı marker˚ u v kontextu objeven´ ych sign´ aln´ıch drah, ty jsou nakonec seˇrazeny dle relevance.
Kl´ıˇ cov´ a slova bioˇcip, genov´e sign´ aln´ı dr´ ahy, genov´a ontologie, Desmin, bioinformatika, genetika, geny, exprese gen˚ u, down regulace, up regulace, KEGG, BioRuby, Ruby, rakovina, karcinom, tumor, tlust´e stˇrevo, DNA, RNA, nukleov´e kyseliny.
Abstract This Bachelor thesis explains the basics of biochip or microarray data interpretation, starting with short introduction to genetics, especially genetic information significance evaluating. The focus was set mainly on the set of scripts transforming and analyzing the sample data. The data used in this thesis are a result of biochip analysis of the Colon Tumor tissues. The secondary result represents disclosing the main marker for this particular type of cancer, the primary result is evaluation of marker significance in the context of signaling pathways. The resulting pathways are sorted by relevance.
Keywords biochip, microarray, signaling pathways, gene ontology, Desmin, bioinformatics, genetics, genes expression, downregulation, upregulation, KEGG, BioRuby, Ruby, cancer, tumor, colon, DNA, RNA, nucleus acids
Citace Petr Ludwig: Interpretace dat z bioˇcip˚ u, bakal´aˇrsk´a pr´ace, Brno, FIT VUT v Brnˇe, 2008
Interpretace dat z bioˇ cip˚ u Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem tuto bakal´ aˇrskou pr´aci vypracoval samostatnˇe pod veden´ım pana doc. RNDr. Pavla Smrˇze, Ph.D. Uvedl jsem vˇsechny liter´ arn´ı prameny a publikace, ze kter´ ych jsem ˇcerpal. ....................... Petr Ludwig 13. kvˇetna 2008
Podˇ ekov´ an´ı R´ad bych podˇekoval sv´emu vedouc´ımu doc. RNDr. Pavlu Smrˇzovi, Ph.D. za inspirativn´ı konzultace, rady a odbornou pomoc v pr˚ ubˇehu tvorby t´eto pr´ace. Osobn´ı podˇekov´an´ı tak´e patˇr´ı m´e rodinˇe za st´ alou podporu.
c Petr Ludwig, 2008.
Tato pr´ ace vznikla jako ˇskoln´ı d´ılo na Vysok´em uˇcen´ı technick´em v Brnˇe, Fakultˇe informaˇcn´ıch technologi´ı. Pr´ ace je chr´ anˇena autorsk´ym z´ akonem a jej´ı uˇzit´ı bez udˇelen´ı opr´ avnˇen´ı autorem je nez´ akonn´e, s v´yjimkou z´ akonem definovan´ych pˇr´ıpad˚ u.
Obsah ´ 1 Uvod
3
2 Z´ akladn´ı pojmy genetiky 2.1 Genetick´ a informace . . . . . . . . . . . . . . . 2.1.1 DNA a RNA – nositel´e informace . . . . 2.1.2 Chemick´ a struktura nukleov´ ych kyselin 2.1.3 Geny a jejich v´ yznam . . . . . . . . . .
4 4 4 5 5
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
3 Z´ısk´ av´ an´ı informac´ı, zdroje a n´ astroje 3.1 N´ astroje na z´ısk´ an´ı z´ akladn´ı genetick´e informace anal´ yzou 3.1.1 Sekvenov´ an´ı DNA . . . . . . . . . . . . . . . . . . 3.1.2 Bioˇcipy - DNA microarrays . . . . . . . . . . . . . 3.2 V´ yznam dat . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Genov´e ontologie . . . . . . . . . . . . . . . . . . . 3.2.2 Sign´ aln´ı dr´ ahy . . . . . . . . . . . . . . . . . . . . 3.3 N´ astroje na zpracov´ an´ı dat z bioˇcip˚ u . . . . . . . . . . . . 3.3.1 KEGG . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 APP - Advanced Pathway Painter . . . . . . . . . 3.3.3 FatiGO . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 BioRuby . . . . . . . . . . . . . . . . . . . . . . . . ˇ sen´ı 4 Reˇ 4.1 N´ avrh ˇreˇsen´ı . . . . . . . . . . . . . . . . . . 4.2 Vstupn´ı data . . . . . . . . . . . . . . . . . . 4.2.1 Form´ at, obsah dat a jejich v´ yznam . . 4.3 N´ avrh experiment˚ u . . . . . . . . . . . . . . . 4.3.1 Anal´ yza 1 – prost´e porovn´an´ı vzork˚ u. 4.3.2 Anal´ yza 2 – porovn´an´ı skupiny vzork˚ u 4.3.3 Anal´ yza 3 – oznaˇcen´ı marker˚ u . . . . 4.3.4 Anal´ yza 4 – kombinace gen˚ u . . . . . 4.3.5 Anal´ yza 5 – propojen´ı v´ ysledk˚ u anal´ yz 4.4 Nastaven´ı skript˚ u . . . . . . . . . . . . . . . . 5 V´ ysledky experiment˚ u 5.1 Anal´ yza 1 . . . . . . . 5.1.1 Porovn´ an´ı dvou 5.1.2 Porovn´ an´ı dvou 5.2 Anal´ yza 2 . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . prahov´an´ı . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
nukleov´ ych kyselin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-4 se sign´aln´ımi . . . . . . . . . .
. . . . . . . . . . . . . . vzork˚ u tk´an´ı . . . . . . vzork˚ u tk´an´ı s pouˇzit´ım . . . . . . . . . . . . . . 1
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . drahami . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . .
. . . .
7 7 7 8 9 9 9 9 10 11 11 11
. . . . . . . . . .
13 13 14 14 14 14 15 15 16 16 16
. . . .
17 17 17 17 19
5.3
5.4 5.5 5.6
Anal´ yza 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Rozpozn´ an´ı rakoviny na z´akladˇe 5 gen˚ u s nejvˇetˇs´ı zmˇenou exprese . 5.3.2 Rozpozn´ an´ı rakoviny na z´akladˇe gen˚ u up regulovan´ ych a down regulovan´ ych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Rozpozn´ an´ı rakoviny na z´akladˇe nejv´ıce up regulovan´eho a down regulovan´eho genu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 Rozpozn´ an´ı rakoviny na z´akladˇe jednoho genu . . . . . . . . . . . . Anal´ yza 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anal´ yza 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Celkov´e zhodnocen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Popis a uk´ azky nalezen´ ych sign´aln´ıch drah . . . . . . . . . . . . . .
20 20 21 22 23 23 24 24 25
6 Z´ avˇ er
26
A Obsah soubor˚ u se vstupn´ımi daty
29
2
Kapitola 1
´ Uvod Modern´ı technologie a nov´ a pozn´ an´ı v genetice nab´ız´ı st´al´e dalˇs´ı pohledy na aspekty ˇzivota. Mnoh´e jevy, dˇr´ıve povaˇzovan´e za n´ahodn´e, nal´ezaj´ı v dneˇsn´ı dobˇe jasn´a vysvˇetlen´ı a jsou ˇr´ızeny konkr´etn´ımi pravidly. Velik´ y v´ yznam na tomto pokroku nese nejen rozvoj v oblasti biologie, chemie a medic´ıny, ale svou roli v tomto pokroku jistˇe pˇrinesly i informaˇcn´ı technologie, kter´e umoˇzn ˇuj´ı se z´ıskan´ ymi znalostmi a daty v ostatn´ıch oborech efektivnˇe, rychle a n´azornˇe nakl´ adat. Spojen´ım v´ yˇse zm´ınˇen´ ych obor˚ u vzniklo mlad´e odvˇetv´ı bioinformatika. D´a se konstatovat, ˇze by se pr´ avˇe tato pr´ace do tohoto odvˇetv´ı dala zaˇradit. Hranice mezi modern´ımi discipl´ınami vˇsak nejsou ostr´e, proto se ˇcasto budeme u ´zce dot´ ykat i jin´ ych odvˇetv´ı, nejv´ıce genetiky. Pokud se pozastav´ıme chv´ıli nad histori´ı, vid´ıme, ˇze koˇreny bioinformatiky a genetiky nejsou zakoˇrenˇeny na poli dˇejin hluboko. Pokud vezmeme z´akladn´ı miln´ıky genetiky, tak za poˇc´ atek m˚ uˇzeme povaˇzovat rok 1856. V tomto roce na z´akladˇe pokus˚ u s hrachem utv´ aˇr´ı brnˇensk´ y mnich Johan Gregor Mendel prvn´ı z´akony genetiky. Mendel t´ım pokl´ad´a z´akladn´ı k´amen ke klasick´e genetice. Ke zdokonalen´ı poznatk˚ u vˇsak tehdejˇs´ı doba neposkytovala dostateˇcn´ y apar´ at, kter´ y by pomohl proniknout hloubˇeji k j´adru vˇeci. Na dlouho dobu z˚ ust´ avaly poznatky z genetiky na minim´aln´ı u ´rovni. V roce 1909 pouˇz´ıv´ a poprv´e slovo gen d´ ansk´ y botanik Wilhelm Ludwig Johannsen. V t´eto dobˇe je gen ch´ap´ an jako jednotka spojen´ a s urˇcit´ ym znakem dˇediˇcnosti. Z´asadn´ım mezn´ıkem se st´av´a rok 1953, kdy Ameriˇcan James Watson a Brit Francis Crick objevuj´ı molekulovou strukturu DNA. Oba za sv˚ uj objev dost´ avaj´ı Nobelovu cenu. Na z´akladˇe tohoto objevu se mˇen´ı smˇer budouc´ıho v´ yzkumu. Od t´eto doby sice uplynulo v´ıce neˇz p˚ ul stolet´ı, ale z pohledu dˇejin je tento objev st´ ale velice mlad´ y. Dalˇs´ı nov´e poznatky pˇrin´aˇs´ı aˇz doba ned´avn´a nebo souˇcasn´ a. [14] V roce 1990 zaˇc´ın´ a v Americe t´ ym vˇedc˚ u s projektem rozluˇstˇen´ım lidsk´eho geonomu. Je nutn´e zm´ınit, ˇze jedn´ım z vˇedc˚ u, kter´ y tento experiment prosadil, byl pr´avˇe James Watson. Kompletn´ı v´ ysledek tˇechto v´ yzkum˚ u byl zn´am´ y v roce 2003. Tento objev je vˇseobecnˇe povaˇzov´ an za jeden ze z´ asadn´ıch miln´ık˚ u v pokroku lidstva. Vˇsechny tyto objevy jsou velice d˚ uleˇzit´e pro modern´ı medic´ınu, v´ yvoj nov´ ych l´ek˚ u a celkovou anal´ yzu nejr˚ uznˇejˇs´ıch onemocnˇen´ı. Pˇri v´ yvoji se vyuˇz´ıv´ a st´ale dokonalejˇs´ıch bioinformatick´ ych technologi´ı. Genov´e terapie a l´eˇcen´ı n´ adorov´ ych onemocnˇen´ı pomoc´ı znalost´ı genetiky budou jistˇe ˇcast´a t´emata v 21. stolet´ı. [9] Tato bakal´ aˇrsk´ a pr´ ace slouˇz´ı nejen jako ucelen´e uveden´ı do problematiky, ale tak´e jako stavebn´ı k´ amen pro dalˇs´ı u ´ˇzeji specifikovan´e pr´ace. J´adrem tohoto dokumentu je zpracov´ an´ı dat z´ıskan´ ych z bio-ˇcip˚ u a uk´ azka nˇekter´ ych dostupn´ ych n´astroj˚ u. C´ılem pr´ace je vlastn´ı ˇreˇsen´ı, kter´e jde nad r´ amec tˇechto n´astroj˚ u a ukazuje moˇznosti anal´ yzy testovac´ıch dat. 3
Kapitola 2
Z´ akladn´ı pojmy genetiky Jelikoˇz se v pr˚ ubˇehu t´eto publikace budeme setk´avat s mnoha specializovan´ ymi pojmy, je nutn´e vˇsechny n´ aleˇzitˇe vysvˇetlit. V rozsahu bakal´aˇrsk´e pr´ace vˇsak nen´ı moˇzn´e j´ıt do naprost´ ych detail˚ u, aˇc by d˚ ukladn´ a znalost vˇsech probl´em˚ u pomohla l´epe porozumˇet vˇsem myˇslenk´ am. Pojmy obecnˇe zn´ am´e nebudou vysvˇetlov´any v˚ ubec. Anglick´e n´azvy budou nech´any ve sv´e anglick´e podobˇe, pˇr´ıpadnˇe budou doplnˇeny ˇcesk´ ym pˇrekladem. Pouˇzit´e n´azvoslov´ı vych´ az´ı z odborn´ ych text˚ u, kter´e se touto problematikou zab´ yvaj´ı. Na poˇc´ atku se pozastav´ıme nad pojmem genetick´ a informace. D´ale rozvedeme, co v sobˇe tato informace nese a uvedeme nˇekolik z´akladn´ıch metod, jak tyto genetick´e informace z´ısk´avat. Jelikoˇz jsou tyto informace pouze velk´ ym mnoˇzstv´ım dat, je nutn´e tato data d´ ale interpretovat, zamyslet se nad jejich v´ yznamem a se z´ıskan´ ymi znalostmi efektivnˇe nakl´adat. Cel´ a genetick´ a informace v sobˇe nenese pouze line´arn´ı data s vlastn´ım v´ yznamem, ale d˚ uleˇzitou roli hraj´ı vyˇsˇs´ı struktury, kter´e se z prim´arn´ı informace daj´ı odvodit. Nejniˇzˇs´ı informace se nach´ az´ı na atom´ arn´ı u ´rovni. Jej´ı v´ yznam vˇsak ovlivˇ nuje d´ıky mezibunˇeˇcn´e signalizaci (vz´ ajemn´emu ovlivˇ nov´an´ı bunˇek) nejen synt´ezu jednotliv´ ych b´ılkovin (protein˚ u), ale ve v´ ysledku i podobu cel´eho jedince. Vz´ajemn´e interakce r˚ uzn´ ych bunˇeˇcn´ ych struktur se snaˇz´ı popsat genov´ a ontologie (angl.: Gen Ontology). Cel´e struktury se pot´e daj´ı sestavit od genov´ ych sign´ aln´ıch drah (angl.: Signaling Pathways). Pˇri psan´ı t´eto kapitoly jsem vych´azel pˇredevˇs´ım z informac´ı uveden´ ych v [9], [15], [1], [12], [10] a [13].
2.1
Genetick´ a informace
Genetick´ a informace je uloˇzena v genetick´em k´odu, kter´ y v sobˇe nese kaˇzd´ y organismus. Dokonce vˇetˇsina ˇziv´ ych organism˚ u, aˇz na drobn´e v´ yjimky, m´a podobu tohoto k´odu totoˇznou – zde hovoˇr´ıme o standardn´ım genetick´em k´ odu. Genetick´ a informace je uloˇzena v nukleov´ ych kyselin´ach, u vˇetˇsiny ˇzivoˇcich˚ u v molekule DNA. U nˇekter´ ych vir˚ u je tato ˇzivotnˇe d˚ uleˇzit´a informace zak´odov´ana v RNA. Soubor vˇsech informac´ı jednoho konkr´etn´ıho organismu nese n´azev genom. Tento genom v sobˇe nese jak vˇsechny geny jedince, tak i nek´ oduj´ıc´ı sekvence. Pojem nek´oduj´ıc´ı sekvence bude objasnˇen d´ale v kapitole 2.1.2.
2.1.1
DNA a RNA – nositel´ e informace
Deoxyribonukleov´ a kyselina (zkratkou DNA) a ribonukleov´ a kyselina (RNA) jsou nositel´e genetick´e informace pro vˇsechny bunˇeˇcn´e organismy. Jelikoˇz se budeme zab´ yvat pˇrev´aˇznˇe lid4
skou genetickou informac´ı, budeme d´ale hovoˇrit pˇrev´aˇznˇe o DNA, ve kter´e je pr´avˇe u ˇclovˇeka k´odov´ana podstata cel´eho lidsk´eho ˇzivota, od jeho zrodu v podobˇe oplozen´eho vaj´ıˇcka, aˇz po jeho postupn´ y v´ yvoj k dospˇel´emu jedinci. ˇ Casto b´ yv´ a DNA oznaˇcov´ ana jako stavebn´ı pl´an organismu, kter´ y pˇredurˇcuje jeho vzhled, vlastnosti, sklon k nemocem a mnoh´e dalˇs´ı kvalitativn´ı i kvantitativn´ı znaky. V bunˇeˇcn´ ych DNA jsou zak´ odov´ any veˇsker´e informace, kter´e urˇcuj´ı druh a vlastnosti buˇ nky, ˇr´ıd´ı jej´ı r˚ ust a dˇelen´ı i synt´ezu enzym˚ u a ostatn´ıch protein˚ u nezbytn´ ych pro funkci buˇ nky. Vˇsechny tyto vlastnosti a obsah, kter´e v sobˇe DNA nese, jsou pˇri pohlavn´ım rozmnoˇzov´an´ı pˇred´av´any na dalˇs´ı generace.
2.1.2
Chemick´ a struktura nukleov´ ych kyselin
Jak jsou tyto genetick´e informace v DNA zak´odov´any, poodhal´ı chemick´a struktura tohoto biopolymeru. Cel´ y biopolymer je tvoˇren stavebn´ımi jednotkami, nukleotidy, kter´e vytv´aˇrej´ı dva dlouh´e ˇretˇezce, spojen´e do takzvan´e dvouˇsroubovice. Oba ˇretˇezce jsou v DNA orientov´any antiparalernˇe (proti sobˇe). Kaˇzd´ y ˇretˇezec je tvoˇren mnoha nukleotidy, kter´e jsou nav´azan´e na fosf´ atov´e skupiny a kaˇzd´ y nukleotid se skl´ad´a z aldopentosy v´azan´e na heterocyklickou purinovou nebo pirimidinovou b´azi. Cukernou sloˇzkou v DNA je 2–deoxyribosa (oproti tomu v RNA je cukernou sloˇzkou ribosa). Pˇredpona 2–deoxy- ud´ av´a, ˇze ribosa nem´a v poloze 2– hydroxylovou skupinu. V deoxyribonukleotidech, zastoupen´ ych pr´avˇe v DNA, se vyskytuj´ı ˇctyˇri heterocyklick´e b´ aze. Dvˇe z nich jsou substituˇcn´ı deriv´aty purinu, hovoˇr´ıme o purinov´ ych b´az´ıch. Tˇemito purinov´ ymi b´ azemi jsou adenin (A) a guanin (G). Dalˇs´ı dvˇe b´aze jsou deriv´aty pyrimidinu a jsou jimi cytosin (C) a thymin (T). Rozd´ıl RNA od DNA je u pyrimidinov´ ych b´az´ıch, kde se v pˇr´ıpadˇe RNA nach´ az´ı m´ısto thyminu uracil (U). Molekuly DNA jsou uloˇzeny hlavnˇe v bunˇeˇcn´em j´adru a jsou obrovsk´e. Jejich molekulov´ a hmotnost dosahuje aˇz 150 miliard hmotnostn´ıch jednotek a d´elka molekuly by pˇri nataˇzen´ı dosahovala pˇribliˇznˇe 12 cm. Vzorky DNA izolovan´e z r˚ uzn´ ych tk´an´ı t´ehoˇz biologick´eho druhu maj´ı heterocyklick´e b´aze zastoupeny vˇzdy ve stejn´ ych pomˇerech. U r˚ uzn´ ych biologick´ ych druh˚ u se tento pomˇer m˚ uˇze liˇsit. V lidsk´e DNA je zastoupen´ı A – 30 %, T – 30 %, G – 20 %, C – 20 %. Dva navz´ ajem stoˇcen´e ˇretˇezce DNA nejsou identick´e, ale komplement´arn´ı. Spojen´ı dvou komplement´ arn´ıch vl´ aken do dvouˇsroubovice umoˇzn ˇuje slab´a mezi-molekulov´a interakce ve formˇe vod´ıkov´ ych m˚ ustk˚ u mezi dvˇema komplement´arn´ımi b´azemi. Mezi A a T jsou dvˇe vazby vod´ıkov´ ymi m˚ ustky, mezi G a C jsou vod´ıkov´e m˚ ustky tˇri. Molekula DNA je tedy chemick´ ym nositelem genetick´e informace organism˚ u. Informace je v molekule zak´ odov´ ana poˇrad´ım nukleotid˚ u, kter´e tvoˇr´ı ˇretˇezec DNA. J´adro lidsk´e buˇ nky obsahuje 23 p´ ar˚ u chromoz´ om˚ u, kaˇzd´ y chromoz´om se skl´ad´a z jedn´e molekuly DNA, kter´ a je sloˇzena z nˇekolika tis´ıc u ´sek˚ u. Tyto u ´seky se naz´ yvaj´ı geny. Souhrn vˇsech gen˚ u v jedn´e buˇ nce (genom) pot´e obsahuje na 3 miliardy p´ar˚ u b´az´ı. Geny u lidsk´e DNA k´oduj´ı pouze mal´a ˇc´ ast b´azov´ ych dvojic, zbyl´e ˇc´ asti se naz´ yvaj´ı nek´ oduj´ıc´ı sekvence. Tyto sekvence nemaj´ı zat´ım ˇz´adn´ y zn´ am´ y v´ yznam, ale je moˇzn´e, ˇze pr´avˇe tyto ˇc´asti poodhal´ı dalˇs´ı nov´e skuteˇcnosti. Jedna z hypot´ez uv´ ad´ı, ˇze tyto ˇca´sti jsou pouze jak´ ysi evoluˇcn´ı artefakt.
2.1.3
Geny a jejich v´ yznam
Genetick´e informace nejsou v buˇ nce dostupn´e okamˇzitˇe a st´ale. Pouˇzit´ı instrukce pro tvorbu urˇcit´eho proteinu vyˇzaduje nabuzen´ı urˇcit´eho genu. Tento u ´sek DNA je nabuzen specifick´ ym poˇzadavkem pˇrinesen´ ym ze vzd´ alen´ ych bunˇek, napˇr´ıklad pomoc´ı urˇcit´eho hormonu. Sign´ al 5
m˚ uˇze pˇr´ıpadnˇe pˇrij´ıt i z buˇ nky sousedn´ı nebo poˇzadavek m˚ uˇze vzniknout uvnitˇr buˇ nky vlastn´ı. Tato cesta sign´ alu je ˇcasto velice sloˇzit´a a vede pˇres mnoh´e meziˇcl´anky. Kdyˇz pˇr´ısluˇsn´ y sign´ al doraz´ı aˇz k j´adru buˇ nky, je aktivov´ana pˇr´ısluˇsn´a ˇc´ast DNA obsahuj´ıc´ı poˇzadovan´ y gen. T´ım je gen spuˇstˇen (zv´ yˇsena jeho exprese) a m˚ uˇze b´ yt zah´ajena jeho transkripce (pˇrepis) do mRNA, kter´a se u ´ˇcastn´ı synt´ezy v´ ysledn´eho proteinu. Genetick´a instrukce pro tvorbu protein˚ u obsaˇzen´a v 30 000 – 35 000 lidsk´ ych genech m˚ uˇze vytvoˇrit aˇz 500 000 r˚ uzn´ ych protein˚ u. Pravidlo jeden gen na jeden protein plat´ı pouze asi jen u 2 procent gen˚ u.
6
Kapitola 3
Z´ısk´ av´ an´ı informac´ı, zdroje a n´ astroje Na poˇc´ atku t´eto kapitoly jsou uvedeny dva z´akladn´ı postupy z´ısk´av´an´ı genetick´ ych dat. V druh´e ˇc´ asti (3.2) se zamysl´ıme nad v´ yznamem tˇechto dat, protoˇze spr´avn´e pochopen´ı jejich v´ yznamu je pro dalˇs´ı zpracov´an´ı to nejpodstatnˇejˇs´ı. V dalˇs´ı ˇc´asti (3.3) zkr´acenˇe analyzujeme dostupn´e n´ astroje, kter´e genetick´a data zpracov´avaj´ı. D˚ uleˇzitou podkapitolou je zde pojedn´ an´ı o BioRuby, knihovnˇe skriptovac´ıho jazyku Ruby, ve kter´em je implementov´ana praktick´ a ˇc´ ast t´eto pr´ ace.
3.1
N´ astroje na z´ısk´ an´ı z´ akladn´ı genetick´ e informace anal´ yzou nukleov´ ych kyselin
Jelikoˇz jsou poˇzadovan´ a data uloˇzena v nukleov´ ych kyselin´ach, jejich z´ısk´av´an´ı se prim´arnˇe zamˇeˇruje pr´ avˇe na anal´ yzu tˇechto kyselin. Protoˇze jsou tyto molekuly velmi mal´e, je anal´ yza pomˇernˇe ˇcasovˇe a finanˇcnˇe n´ aroˇcn´a. Mezi dvˇe z´akladn´ı metody patˇr´ı sekvenov´ an´ı DNA a anal´ yza pomoc´ı bioˇcip˚ u. Obˇe tyto metody maj´ı velmi odliˇsn´ y pˇr´ıstup i v´ yznam v´ ysledku.
3.1.1
Sekvenov´ an´ı DNA
ˇ adn´ Z´ y z velk´ ych pokrok˚ u na poli genetiky by nebyl moˇzn´ y, kdyby se v roce 1977 nepodaˇrila objevit metoda urˇcov´ an´ı poˇrad´ı nukleotid˚ u – sekvenov´ an´ı DNA. Prvn´ım krokem pˇri sekvenov´ an´ı DNA je rozˇstˇepen´ı t´eto makromolekuly v pˇresnˇe definovan´ ych m´ıstech, aby bylo moˇzn´e z´ıskat menˇs´ı, l´epe zpracovateln´e ˇc´asti. Molekula je ˇstˇepena restrikˇcn´ımi enzymy (restrikˇcn´ı endonulke´azy). Tyto enzymy umoˇzn ˇuj´ı pˇresn´e a pˇredem definovan´e ˇstˇepen´ı v m´ıstˇe v´ yskytu urˇcit´ ych sekvenc´ı b´az´ı. Jestliˇze se p˚ uvodn´ı molekula ˇstˇep´ı dalˇs´ım restrikˇcn´ım enzymem, z´ısk´avaj´ı se nov´e fragmenty, jejichˇz sekvence se ˇc´asteˇcnˇe pˇrekr´ yvaj´ı s fragmenty z´ıskan´ ymi ˇstˇepen´ım prvn´ım enzymem. Toto umoˇzn ˇuje urˇcit poˇrad´ı nukleotid˚ u v cel´e DNA. Tato metoda zpracov´ an´ı je vˇsak velice n´akladn´a a laboratornˇe sloˇzit´a. V´ ysledkem sekvenov´an´ı DNA je kompletn´ı anal´ yza vˇcetnˇe nek´oduj´ıc´ıch sekvenc´ı. V´ ystup anal´ yzy vˇsak nezahrunje aktu´ aln´ı stav aktivn´ıch gen˚ u v buˇ nce, toto odhaluje metoda bioˇcip˚ u (viz. kapitola 3.1.2).
7
3.1.2
Bioˇ cipy - DNA microarrays
D˚ uleˇzitou technikou, kter´ a je levnˇejˇs´ı a efektivnˇejˇs´ı, neˇz klasick´e sekvenov´an´ı DNA, je dnes technologie DNA bioˇcip˚ u (angl.: DNA microarrays). Tato metoda pˇrech´az´ı z v´ yzkumu do laboratorn´ı praxe s pˇr´ım´ ym klinick´ ym vyuˇzit´ım. DNA bioˇcip je sloˇzen z mikroskopick´ ych ˇc´ast´ı DNA, bˇeˇznˇe reprezentuj´ıc´ıch pr´avˇe jeden urˇcit´ y gen. Tato ˇc´ast DNA se naz´ yv´a prob. ˇ Cip, tedy obsahuje mnoho zafixovan´ ych prob˚ u, reprezentuj´ıc´ıch geny, kter´e chceme analyzovat. T´ımto postupem je umoˇznˇeno sledovat nar´az exprese (aktivitu) nˇekolik tis´ıc˚ u gen˚ u souˇcasnˇe. Anal´ yza exprese genu se uˇz´ıv´ a prim´arnˇe pr´avˇe proto, ˇze ne kaˇzd´ y gen, kter´ y je souˇc´ast´ı genomu urˇcit´eho organizmu, je vˇzdy ˇcinn´ y. Naopak v kaˇzd´e z bunˇek t´ehoˇz organizmu jsou ˇcinn´e jen nˇekter´e geny, kter´e jsou pr´avˇe v on´e buˇ nce a v dan´ y v´ yvojov´ y moment potˇrebn´e. Jak´ y konkr´etn´ı gen je pr´ avˇe ˇcinn´ y, podl´eh´a sloˇzit´e regulaci a je ovlivnˇeno bunˇeˇcn´ ymi sign´ aly. Anal´ yza pomoc´ı bioˇcipu prob´ıh´ a vloˇzen´ım ˇcipu do roztoku vzorku DNA, kter´ y chceme analyzovat. Vzorek obyˇcejnˇe obsahuje extrahovan´e mRNA, pˇrepsan´e d´ıky transkripci z analyzovan´e DNA, k´ oduj´ıc´ı n´ ami hledan´e geny. T´ımto postupem tedy neanalyzujeme pˇr´ımo DNA, ale aktu´ alnˇe pˇrepsan´e RNA, kter´e se v buˇ nce aktu´alnˇe nach´az´ı. Takto zhotoven´ y vzorek je v pr˚ ubˇehu anal´ yzy obarven fluorescenˇcn´ım roztokem, kter´ y v z´avˇeru poslouˇz´ı ke zv´ yraznˇen´ı v´ ysledku experimentu. Jelikoˇz jsou na ˇcipu um´ıstˇeny fragmenty DNA (takzvan´e cDNA), kter´e jsou komplement´arn´ı k ˇc´astem mRNA obsaˇzen´ ym v roztoku, zaˇcnou se komplement´arn´ı ˇc´asti spojovat – hybridizovat. M´ısta, na kter´ ych mRNA hybridizuje, jsou d´ıky zv´ yraznˇen´ı fluorescenˇcn´ı vrstvou opticky v´ yraznˇejˇs´ı, neˇz m´ısta, kde se analyzovan´a mRNA s probem nespojuje. Proto n´am tento experiment umoˇzn ˇuje analyzovat v´ıce v´ yrok˚ u nar´az (obecnˇe zdravou a nemocnou tk´an ˇ), m˚ uˇzeme velice snadno a rychle tyto vzorky porovnat a urˇcit, kter´e geny jsou v pˇr´ısluˇsn´ ych buˇ nk´ach aktivn´ı. Pomoc´ı t´eto anal´ yzy lze identifikovat geny, jejichˇz exprese je pˇri urˇcit´e nemoci pozmˇenˇena. Pro zkoum´ an´ı dynamiky imunitn´ı odpovˇedi jsou k dispozici bioˇcipy, kter´e umoˇzn ˇuj´ı sledovat expresi gen˚ u k´ oduj´ıc´ıch napˇr. cytokiny, pro a protiz´anˇetliv´e faktory, nitrobunˇeˇcn´e sign´aln´ı molekuly apod. Sch´ema anal´ yzy je uvedeno na obr´azku 3.1.
Obr´ azek 3.1: Anal´ yza pomoc´ı bioˇcip˚ u
Metoda anal´ yzy pomoc´ı bioˇcip˚ u naˇsla sv´e uplatnˇen´ı pˇri zkoum´an´ı n´adorov´ ych onemocnˇen´ı. Tato metodika, zakl´ adaj´ıc´ı se na detekci velk´eho mnoˇzstv´ı gen˚ u a jejich mutac´ı 8
objeven´ ych v r˚ uzn´ ych jednotliv´ ych n´adorech pomoc´ı genov´ ych sond, umoˇzn ˇuje rozpoznat pˇr´ıtomnost alterovan´ ych (poˇskozen´ ych) gen˚ u ve vzorku vyˇsetˇrovan´eho n´adoru. Pomoc´ı vybran´ ych cDNA tˇechto gen˚ u lze pˇripravit biomarkery, jimiˇz lze rychle a spolehlivˇe rozliˇsit podskupiny pacient˚ u s r˚ uzn´ ymi histopatologick´ ymi a klinick´ ymi projevy. V´ yraznˇe se t´ım zlepˇs´ı diferenci´ aln´ı diagnostika, urˇcen´ı progn´ozy, nastaven´ı a monitorov´an´ı optim´aln´ı terapie. [16] [11] Data zpracov´ avan´ a v t´eto pr´ aci jsou z´ıskan´a pr´avˇe metodou bioˇcip˚ u. V´ıce o testovac´ıch datech, kter´ a byla pouˇzita v anal´ yz´ach t´eto pr´ace naleznete v kapitole 4.
3.2
V´ yznam dat
Data zpracovan´ a pomoc´ı metody bioˇcip˚ u ud´av´aj´ı aktu´aln´ı expresi gen˚ u. V´ yznam tˇechto gen˚ u se d´ a urˇcit pouze na z´ akladˇe konkr´etn´ıch aplikovan´ ych v´ yzkum˚ u. Tyto v´ yzkumy pˇrinesou urˇcit´ y pohled na to, co urˇcit´a aktivita gen˚ u znamen´a. Formalizac´ı tˇechto v´ yznam˚ u se zab´ yv´ a genov´ a ontologie (angl.: Gen Ontology). Nad r´amec genov´e ontologie jdou sign´ aln´ı dr´ ahy (angl.: Signaling Pathways), kter´e specifikuj´ı postupn´e aktivace gen˚ u k fin´aln´ımu projevu (napˇr´ıklad rakovinˇe).
3.2.1
Genov´ e ontologie
Pˇri interpretaci genov´ ych pojm˚ u je nutn´e vyuˇz´ıvat jednotn´e popisn´e n´astroje, kter´e umoˇzn´ı m´ıt jednoznaˇcnou vypov´ıdaj´ıc´ı hodnotu. O toto se pokouˇs´ı Gene Ontology Project (zkr´acenˇe GO), kter´ y poskytuje slovn´ık vhodnˇe volen´ ych term´ın˚ u pro popis jejich chov´an´ı (atribut˚ u) gen˚ u a proces˚ u t´ ykaj´ıc´ıch se gen˚ u. Jedn´a se o souborn´ y slovn´ık druhovˇe nez´avisl´ ych biologick´ ych term´ın˚ u. GO popisuje struktury z pohledu bunˇeˇcn´ ych komponent, biologick´ ych proces˚ u a molekul´ arn´ıch funkc´ı. Molekul´ arn´ı funkce popisuj´ı r˚ uzn´e aktivity genov´ ych produkt˚ u na molekul´arn´ı u ´rovni. U molekul´ arn´ıch funkc´ı vˇsak nen´ı pops´ano, kdy a kde se tyto dˇeje odehr´avaj´ı. Biologick´e procesy popisuj´ı ˇradu prov´ adˇen´ ych akc´ı sloˇzen´ ych z v´ıce molekul´arn´ıch funkc´ı. Bunˇeˇcn´e komponenty jsou ˇc´ asti buˇ nky, organely nebo skupiny genov´ ych produkt˚ u.
3.2.2
Sign´ aln´ı dr´ ahy
Bunˇeˇcn´e sign´ aln´ı dr´ ahy, t´eˇz sign´ aln´ı kask´ ady, jsou sekvence ud´alost´ı, kter´e umoˇzn ˇuj´ı buˇ nce pˇrijmout sign´ al a biologicky na nˇej reagovat. Jedn´a se o biochemickou interakci popsanou nejˇcastˇeji grafem. Zde je n´ azorn´ a uk´azka popisuj´ıc´ı moˇznou funkci sign´aln´ı dr´ahy. Receptorov´ y protein na povrchu buˇ nky pˇrev´ad´ı obdrˇzen´ y mimobunˇeˇcn´ y (extracelul´arn´ı) sign´ al na sign´ al vnitrobunˇeˇcn´ y (intercelul´arn´ı), pˇriˇcemˇz zahajuje sign´aln´ı kask´adu, ve kter´e se ˇstafetou r˚ uzn´ ych molekul dostane sign´al postupnˇe aˇz do nitra buˇ nky. Tam se kask´ada rozdˇel´ı ˇ do nˇekolika smˇer˚ u. Rada krok˚ u kask´ady m˚ uˇze b´ yt ovlivnˇena (modulov´ana) jin´ ymi pochody v buˇ nce. Uk´ azkou moˇzn´ ych efekt˚ u m˚ uˇze b´ yt regulace metabolick´e dr´ahy, regulace exprese urˇcit´eho genu nebo zmˇeny v cytoskeletu (bunˇeˇcn´e kostˇre). [1]
3.3
N´ astroje na zpracov´ an´ı dat z bioˇ cip˚ u
Existuje velk´ a ˇrada dostupn´ ych n´astroj˚ u na zpracovan´ı dat z bioˇcip˚ u. Vybran´e n´astroje umoˇzn ˇuj´ı anal´ yzu dat pomoc´ı genov´e ontologie a sign´aln´ıch drah. Na konci t´eto ˇc´asti jsou pops´any z´ akladn´ı vlastnosti jazyka Ruby a jeho knihovna BioRuby. 9
3.3.1
KEGG
KEGG - Kyoto Encyclopedia of Genes and Genomes. On-line encyklopedie a skupina n´astroj˚ u genov´e anal´ yzy nab´ızej´ıc´ı ˇsirok´e spektrum dat. Jeden z nejucelenˇejˇs´ıch pramen˚ u informac´ı dostupn´ ych pˇres Internet. Hlavn´ım pl´ anem a ambic´ı t´eto encyklopedie je vytvoˇrit v post-genomick´eho ´eˇre (obdob´ı po rozluˇset´ı lidsk´eho genomu) kompletn´ı poˇc´ıtaˇcovou reprezentaci buˇ nky, organizmu a cel´e biosf´ery (viz. [7]). Tyto poˇc´ıtaˇcov´e modely by mˇeli umoˇznit predikci bunˇeˇcn´ ych proces˚ ua chov´an´ı organizm˚ u na z´ akladˇe genetick´e a molekul´arn´ı informace. V r´amci naplˇ nov´an´ı tohoto c´ıle vznikly n´ astroje, kter´e KEGG nab´ız´ı. Toto vˇse vznik´a jako ˇc´ast projekt˚ u univerzit Kyoto a Tokyo. Veˇsker´e z´ aznamy v KEGG jsou postaveny na jednotn´e struktuˇre a umoˇzn ˇuj´ı poˇc´ıtaˇcov´e zpracov´ an´ı. KEGG nepouˇz´ıv´ a GO, ale vlastn´ı genov´e ontologie, oznaˇcen´e jako KO (KEGG orthology), ontologie z GO je vˇsak moˇzn´e do jist´e m´ıry na KO pˇrev´adˇet. [7] [5] [6] • KEGG obsahuje informace o genech a proteinech (KEGG GENES); • chemick´ ych informac´ı o endogenn´ıch a exogenn´ıch substanc´ıch (KEGG LIGAND); • molekul´ arn´ıch sch´emat interakc´ı a reakˇcn´ıch s´ıt´ı (KEGG PATHWAY); • hierarchi´ı a vztahy mezi r˚ uzn´ ymi biologick´ ymi objekty (KEGG BRITE). Sama encyklopedie nab´ız´ı rozhran´ı KEGG API, kter´e umoˇzn ˇuje vzd´alenˇe s daty nakl´adat. Uˇzivatel´e mohou k KEGG API serveru pˇristupovat pomoc´ı SOAP (Simple Object Access Protocol) technologie pˇres HTTP protokol. Tento SOAP server pouˇz´ıv´a rozhran´ı WSDL (Web Services Description Language), kter´ y umoˇzn ˇuje snadno vytvoˇrit na stranˇe klienta knihovny pro nˇekter´e programovac´ı jazyky (napˇr.: Java, Pyhon, Perl, Ruby). Toto vˇse d´ av´ a v´ yvoj´aˇr˚ um siln´ y n´ astroj, jak pˇristupovat k rozs´ahl´e datab´azi KEGG ze sv´ ych vlastn´ıch program˚ u. KEGG obsahuje v dobˇe vzniku t´eto pr´ace 361 zpracovan´ ych referenˇcn´ıch sign´aln´ıch drah. Jedn´a se kolekci ruˇcnˇe sestaven´ ych map reprezentuj´ıc´ıch souˇcasnou znalost molekul´arn´ı bunˇeˇcn´e interakce. KEGG PATHWAYS obsahuje 6 druh˚ u drah: • Metabolick´e dr´ ahy (Metabolism); • zpracov´ an´ı genetick´e informace (Genetic Information Processing); • zpracov´ an´ı sign´ al˚ u z okol´ı buˇ nky (Environmental Information Processing); • bunˇeˇcn´e procesy (Cellular Processes); • lidsk´e nemoci (Human Diseases); • v´ yvoj l´eˇciv (Drug Development). V t´eto pr´ aci jsou pr´ avˇe KEGG API a KEGG PATHWAYS pouˇzity k anal´ yze genetick´ ych dat ve spojen´ı s knihovnou BioRuby skriptovac´ıho jazyka Ruby. Referenˇcn´ı manu´al k KEGG API naleznete v [8].
10
3.3.2
APP - Advanced Pathway Painter
Tento program je urˇcen pro vizualizaci sign´aln´ıch drah (KEGG, GenMAPP, BioCarta a dalˇs´ı). Program zpracov´ av´ a data z genov´ ych a proteinov´ ych experiment˚ u. Tato data jsou pˇr´ımo barevnˇe zobrazena v sign´ aln´ıch drah´ach. Pˇres propojen´ı r˚ uzn´ ych webov´ ych sluˇzeb program umoˇzn ˇuje rychl´ y pˇr´ıstup k dalˇs´ım informac´ım ohlednˇe gen˚ u ˇci protein˚ u. Program je zaj´ımav´ y pro vizualizaci dat, neprov´ad´ı vˇsak ˇz´adnou hlubˇs´ı anal´ yzu tˇechto dat. Jeho pouˇzit´ı je vhodn´e pro optick´e zd˚ uraznˇen´ı aktivn´ıch gen˚ u v sign´aln´ı dr´aze.
3.3.3
FatiGO
FatiGO je online n´ astroj dostupn´ y pˇres webov´e rozhran´ı. V dobˇe vzniku pr´ace byla dostupn´a verze 2.0, kter´ a umoˇzn ˇovala porovn´av´an´ı sady gen˚ u v kontextu Genov´e Ontologie. FatiGO+ je druh´ y z n´ astroj˚ u vytvoˇren´ ych k anal´ yze skupiny gen˚ u. Tento n´astroj umoˇzn ˇuje vyhled´ av´ an´ı zadan´ ych gen˚ u v sign´aln´ıch drah´ach KEGG a BioCarta.
3.3.4
BioRuby
Pro tuto pr´ aci byl vybr´ an skriptovac´ı jazyk Ruby. Hlavn´ımi v´ yhodami je dobr´a ˇcitelnost ˇ k´odu a jeho pˇrehlednost. Cten´ aˇr na prvn´ı pohled vid´ı, co skripty dˇelaj´ı. Programovan´ı v Ruby je velmi n´ azorn´e a popisn´e. Dalˇs´ım d˚ uvodem pouˇzit´ı skriptovac´ıho jazyka Ruby je fakt, ˇze podobnˇe jako datab´ aze gen˚ u a sign´aln´ıch drah KEGG poch´az´ı z Japonska. Existuj´ı tedy dostupn´e modelov´e pˇr´ıklady pouˇz´ıvaj´ıc´ı KEGG pˇr´ımo pro Ruby. Nejd˚ uleˇzitˇejˇs´ı d˚ uvod je vˇsak integrace knihovny BioRuby, kter´a je sama o sobˇe velice siln´ ym n´astrojem pro pr´ aci s bioinformatick´ ymi daty. Snahou projektu BioRuby je vytvoˇrit integrovan´e prostˇred´ı pro bioinformatiku s pouˇzit´ım skriptovac´ıho jazyka Ruby. Velk´ y d˚ uraz je kladen na jednoduchost a popisnost k´od˚ u napsan´ ych v BioRuby tak, aby bylo moˇzn´e BioRuby pouˇz´ıvat i lidmi bez hlubok´ ych znalost´ı programov´ an´ı jako takov´eho. Tento open-source projekt zaˇcal v roce 2000 v Japonsku podporov´an University of Tokyo (Human Genome Center), University of Kyoto (Bioinformatics Center) a Open Bio Foundation. Veˇsker´e dostupn´e materi´ aly t´ ykaj´ıc´ı se BioRuby jsou kompletn´ı v Japonˇstinˇe, vˇetˇsina d˚ uleˇzit´ ych vˇec´ıch je dostupn´ a v Angliˇctinˇe. V dobˇe psan´ı t´eto pr´ace nen´ı zn´am ˇz´adn´ y ˇcesk´ y zdroj zab´ yvaj´ıc´ı se BioRuby. [3] N´asleduj´ıc´ı pˇr´ıklad demonstruje v´ yhody a snadnost uˇzit´ı BioRuby. # definice sekvence nukleov´ e kyseliny seq = Bio::Sequence::NA.new("atgcatgcaaaa") # ==> "atgcatgcaaaa" # komplement´ arn´ ı ˇ retˇ ezec seq.complement # ==> "ttttgcatgcat" # zastoupen´ ı nukleotid˚ u seq.composition # ==> {"a"=>6, "c"=>2, "g"=>2, "t"=>2} # vr´ at´ ı jak´ e aminokyseliny r ˇetˇ ezec k´ oduje
11
seq.translate # ==> "MHAK" seq.translate.codes # ==> ["Met", "His", "Ala", "Lys"] seq.translate.names # ==> ["methionine", "histidine", "alanine", "lysine"] # vr´ at´ ı molekulovou hmotnost seq.translate.molecular_weight # ==> 485.605 # aminokyseliny, kter´ e k´ oduje komplement´ arn´ ı ˇ retˇ ezec seq.complement.translate # ==> "FCMH"
12
Kapitola 4
ˇ sen´ı Reˇ C´ılem pr´ ace dle zad´ an´ı je zhotovit a implementovat syst´em, kter´ y p˚ ujde nad r´amec souˇcasn´ ych ˇreˇsen´ı. Jako souˇcasn´ a ˇreˇsen´ı jsou v kontextu t´eto pr´ace br´any takov´e programy, kter´e jsou veˇrejnˇe dostupn´e a dokumentovan´e. Obsahem t´eto pr´ace vˇsak nen´ı anal´ yza tˇechto souˇcasn´ ych ˇreˇsen´ı, aˇckoli bylo nutn´e se pˇri tvorbˇe v´ ysledn´eho syst´emu jejich obsahem a funkˇcnost´ı zab´ yvat. Pokud existuj´ı ˇreˇsen´ı, kter´a nejsou veˇrejnˇe pˇr´ıstupn´a, nen´ı na nˇe v t´eto pr´aci br´ an zˇretel. Zhotoven´ y syst´em bude testov´an na re´aln´ ych vstupn´ıch datech. Pro anal´ yzu, od kter´e si slibujeme re´ aln´e v´ ysledky, mus´ıme pouˇz´ıt kvalitn´ı vstupn´ı data. Od v´ ystup˚ u implementovan´eho syst´emu t´eto bakal´ aˇrsk´e pr´ace jsou oˇcek´av´any relevantn´ı data. Tyto data mohou slouˇzit k dalˇs´ım anal´ yz´ am a v´ yzkum˚ um. Program pr´ace bude zhotoven tak, aby byla moˇzn´ a jeho snadn´ a a maxim´ aln´ı moˇznost konfigurace. T´ım bude zajiˇstˇena znovupouˇzitelnost t´eto technologie pˇri anal´ yze dalˇs´ıch dat. Aby bylo moˇzn´e tyto n´ aroky splnit, je nutn´e pˇresnˇe ch´apat veˇskerou problematiku t´ ykaj´ıc´ı se genov´e exprese a sign´aln´ıch drah (viz. kapitola 3.2). Navrhovan´e ˇreˇsen´ı bude pr´avˇe tyto jevy zkoumat a na z´ akladˇe anal´ yzy tak´e vyvod´ı o datech konkr´etn´ı z´avˇery.
4.1
N´ avrh ˇ reˇ sen´ı
Hlavn´ı v´ ysledek a c´ıl pr´ ace, by mˇel odhalit odchylky v genov´e expresi mezi zdravou a nemocnou tk´ an´ı. Konkr´etnˇe by se mˇelo jednat o rozd´ıl mezi lidskou tk´an´ı s karcinomem a bez karcinomu. Celkovou ambic´ı je nal´ezt ukazatele (markery) na z´akladˇe kter´ ych se u dan´e tk´ anˇe d´ a mikro-ˇcipovou anal´ yzou s urˇcitou pravdˇepodobnost´ı rozhodnout, zda se jedn´a o rakovinu, ˇci nikoli. Anal´ yzou dat by mˇelo b´ yt moˇzn´e naj´ıt spojitost mezi tˇemito ukazateli na u ´rovni genov´ ych sign´aln´ıch drah a na u ´rovni mezibunˇeˇcn´e komunikace. Za u ´spˇeˇsn´e ˇreˇsen´ı bude povaˇzov´ano nalezen´ı sady ukazatel˚ u, kter´e u dan´e tk´anˇe budou schopny rozhodovat, zda se jedn´ a o tk´an ˇ nemocnou ˇci zdravou s minim´aln´ı u ´spˇeˇsnost´ı 75 procent. Pokud anal´ yzy neodhal´ı v´ yrazn´e a prokazateln´e spojitosti, bude i toto povaˇzov´ano za d´ılˇc´ı u ´spˇech, protoˇze v modern´ı genetick´e anal´ yze je tak´e velice d˚ uleˇzit´e urˇcit slep´e uliˇcky. Pouˇzit´e algoritmy by mˇely b´ yt pˇrehledn´e v tom smyslu, ˇze jejich pouˇzit´ı a porozumˇen´ı by mˇelo b´ yt urˇceno i biolog˚ um, bez hlubˇs´ıch znalost´ı informatiky. Proto je jako jazyk pr´ ace vybr´an skriptovac´ı jazyk Ruby, kter´ y svou pˇrehlednost´ı pˇresnˇe tato krit´eria splˇ nuje. Pro snadnou anal´ yzu genov´ ych drah byla vybr´ana knihovna BioRuby.
13
4.2
Vstupn´ı data
Samotn´emu n´ avrhu analytick´eho ˇreˇsen´ı pˇredch´azela rozs´ahl´a anal´ yza potenci´aln´ıch vstupn´ıch dat. V´ ybˇer kvalitn´ıch a dokumentovan´ ych dat se uk´azal jako stˇeˇzejn´ı pro dalˇs´ı postup pr´ace. Pro dalˇs´ı zpracov´ an´ı nejl´epe vyhovovaly sady dat, na kter´ ych byly prov´adˇeny jin´e uk´azkov´e anal´ yzy (takzvan´e Testbench data). Pro anal´ yzu lidsk´e rakovinn´e tk´anˇe je velk´e mnoˇzstv´ı dat dostupn´e v [4]. Velk´e mnoˇzstv´ı nejasnost´ı vˇsak z nemal´e ˇc´asti praktick´emu vyuˇzit´ı tˇechto dat br´an´ı. Pˇresto se tato datab´ aze zd´ a b´ yt nejucelenˇejˇs´ım zdrojem v´ ysledk˚ u micro-array anal´ yz u r˚ uzn´ ych druh˚ u rakovin. Data, kter´ a byla pro tuto pr´aci pouˇzita jako referenˇcn´ı, poch´az´ı z [2].
4.2.1
Form´ at, obsah dat a jejich v´ yznam
Pouˇzit´ a data byla pouˇzita jako pˇr´ıloha ˇcl´anku zab´ yvaj´ıc´ım se klastrov´ an´ım (angl.: Clustering analysis) rakovinn´ ych a norm´ aln´ıch dat. Klastrov´an´ı je jeden z pˇr´ıstup˚ u modern´ı anal´ yzy tˇechto dat. Vzorek obsahuje v´ ysledky anal´ yzy exprese 2000 gen˚ u pro 62 pˇr´ıpad˚ u. Dokumentace tˇechto dat uv´ ad´ı n´ azvy jednotliv´ ych gen˚ u (nˇekolik odliˇsn´ ych oznaˇcen´ı – UMGAP, HSAC07 ). Kaˇzd´ y pˇr´ıpad je d´ ale jasnˇe oznaˇcen zda se jedn´a o rakovinou nebo o zdravou tk´an ˇ. Popis obsahuje informace, jestli dan´e vzorky poch´az´ı od jednoho zkouman´eho ˇclovˇeka. ˇ ast dat obsahuje p´ C´ ary zdrav´e tk´ anˇe a nemocn´e tk´anˇe pro jednoho jedince. Zbytek dat tyto dvˇe varianty neobsahuje. Zkouman´a rakovina v tomto pˇr´ıpade je rakovina tlust´eho stˇreva (angl.: Colon tumor ). Nev´ yhodou tˇechto dat je mal´ y poˇcet vzork˚ u. Toto vˇsak b´ yv´a obecn´ y probl´em u vˇetˇsiny zdroj˚ u, protoˇze je technologie anal´ yzy pomoc´ı mikroˇcip˚ u st´ale jeˇstˇe pomˇernˇe drah´a. Druhou nev´ yhodou dat je jejich nejasn´ a normalizace (data nebyla normalizov´ana stˇredn´ı intenzitou kaˇzd´eho experimentu). Jelikoˇz byla tato data pouˇz´ıv´ana pro jin´e experimenty a jejich stˇredn´ı intenzita se v´ yraznˇe neliˇs´ı, budeme tato data povaˇzovat za dostateˇcnˇe normalizovan´a. Vˇsechny vstupn´ı data jsou um´ıstˇena v elektronick´e CD pˇr´ıloze t´eto pr´ace a jsou pops´ana v pˇr´ıloze A.
4.3 4.3.1
N´ avrh experiment˚ u Anal´ yza 1 – prost´ e porovn´ an´ı vzork˚ u
Pl´an prvn´ı anal´ yzy nejprve spoˇc´ıv´a v porovn´an´ı hladiny exprese 2000 gen˚ u dvou konkr´etn´ıch vzork˚ u proti sobˇe. Tento experiment je proveden prost´ ym rozd´ılem exprese analyzovan´ ych gen˚ u. V´ ysledek je v pˇr´ıpadˇe poˇzadavku vykreslen do grafu. Druh´a ˇc´ast prvn´ıho experimentu seˇrad´ı v´ ysledn´ y vektor hodnot rozd´ılu exprese gen˚ u. Tato data jsou opˇet pouˇzita jako z´aklad grafu a pˇr´ıpadnˇe vykreslena. Anal´ yza bude pracovat bud’ s konkr´etn´ımi hodnotami exprese, nebo s hodnotami, kter´e budou pomoc´ı prahov´ an´ı omezeny na 1 (gen se projevuje) a 0 (gen se neprojevuje). Hodnotu prahu bude umoˇznˇeno mˇenit. V´ ysledek t´eto anal´ yzy ukazuje m´ıru rozd´ılnosti mezi vzorky. Je tedy moˇzn´e urˇcit odliˇsnosti v projvech gen˚ u zdrav´e tk´ anˇe jednoho ˇclovˇeka oproti tk´ani s karcinomem nebo oproti jin´e zdrav´e tk´ ani, poch´ azej´ıc´ı od jin´eho zkouman´eho subjektu.
14
4.3.2
Anal´ yza 2 – porovn´ an´ı skupiny vzork˚ u
Druh´a anal´ yza prov´ ad´ı sloˇzitˇejˇs´ı srovn´an´ı jednotliv´ ych skupin (Normal = zdrav´a tk´an ˇ a Cancer = tk´ an ˇ s karcinomem). Srovn´an´ı prob´ıh´a podobnˇe jako v prvn´ım experimentu s t´ım rozd´ılem, ˇze je porovn´ av´ an kaˇzd´ y subjekt z prvn´ı porovn´avan´e skupiny s kaˇzd´ ym subjektem ze skupiny druh´e. Pokud dˇel´ame anal´ yzu napˇr´ıˇc jedn´e skupiny, do celkov´eho sk´ore se nepoˇc´ıtaj´ı anal´ yzy identick´ ych vzork˚ u mezi sebou a tak´e jsou odstranˇeny duplicitn´ı v´ ypoˇcty. Touto anal´ yzou m˚ uˇzeme vyˇsetˇrit tˇri moˇzn´e hlavn´ı varianty: • Normal - Normal – analyzuje vz´ajemnou rozd´ılnost zdrav´ ych tk´an´ı na u ´rovni genov´e exprese; • Normal - Cancer – analyzuje vz´ajemnou rozd´ılnost zdrav´ ych tk´an´ı oproti tk´an´ım zasaˇzen´ ych rakovinou; • Cancer - Cancer – v´ ysledkem posledn´ı anal´ yzy je urˇcen´ı vz´ajemn´e rozd´ılnosti mezi rakovinn´ ymi tk´ anˇemi jednotliv´ ych pˇr´ıpad˚ u. Od t´eto anal´ yzy si slibujeme prok´az´an´ı, nebo vyvr´acen´ı tvrzen´ı, ˇze existuje rozd´ıl mezi expres´ı konkr´etn´ıch gen˚ u mezi zdravou a nemocnou tk´an´ı. Tento rozd´ıl, pokud m´a prok´azat skuteˇcnou existenci odliˇsnost´ı, by mˇel b´ yt v´ yraznˇe vˇetˇs´ı neˇz v´ ysledky anal´ yzy napˇr´ıˇc stejn´ ymi skupinami. V´ ysledek experimentu bude opˇet moˇzn´e vykreslit do grafu. Analyzuj´ıc´ı skript umoˇzn´ı prov´est nar´ az vˇsechny tˇri anal´ yzy nebo dovol´ı pouze porovn´an´ı pro dvˇe konkr´etn´ı skupiny. Jelikoˇz je tento v´ ypoˇcet pomˇernˇe n´aroˇcn´ y, ostatn´ı anal´ yzy budou vych´azet z dat zpracovan´ ych touto anal´ yzou.
4.3.3
Anal´ yza 3 – oznaˇ cen´ı marker˚ u
N´apln´ı tohoto experimentu je prok´azat souvislosti mezi rakovinou a nejv´ıce odliˇsn´ ymi upregulovan´ymi a down-regulovan´ymi geny (u kter´ ych je nejv´ıce zmˇenˇena hodnota jejich exprese – up nahoru, down dol˚ u). Analyzuj´ıc´ı skript umoˇzn´ı br´at v u ´vahu urˇcit´ y poˇcet gen˚ u, kter´e se nejv´ıce projevili pˇri druh´e anal´ yze (Cancer - Normal). Skript umoˇzn´ı nˇekolik u ´hl˚ u pohled˚ u. Anal´ yza umoˇzn´ı: • Na z´ akladˇe zadan´eho prahu rozdˇelit vstupn´ı data (podobnˇe jako v experimentu 1, sk´ ore bude vypoˇcteno jako suma zadan´eho poˇctu up-regulovan´ ych gen˚ u m´ınus suma stejn´eho poˇctu gen˚ u down-regulovan´ ych. • Bez pouˇzit´ı prahov´ an´ı, sk´ ore bude vypoˇcteno jako suma expres´ı zadan´eho poˇctu upregulovan´ ych gen˚ u m´ınus suma expres´ı gen˚ u down-regulovan´ ych. • Obdobn´e v´ ypoˇcty pro zadan´ y poˇcet nejv´ıce zmˇenˇen´ ych gen˚ u. • V neposledn´ı ˇradˇe anal´ yza umoˇzn´ı vypoˇc´ıtat sk´ore pro libovolnou sadu gen˚ u. Toho bude pouˇzito v experimentu 4. Analyzuj´ıc´ı skript bude prov´ adˇet intern´ı korekce v´ ysledk˚ u tak, aby pomˇer up-regulovan´ ych a gen˚ u down-regulovan´ ych vyj´ adˇril mezn´ı hranici, od kter´e bude moˇzn´e urˇcit zastoupen´ı rakoviny. Hodnoty nad touto mez´ı budou znamenat zdravou tk´an ˇ, hodnoty pod touto hladinou tk´ an ˇ s karcinomem. 15
V´ ysledky t´eto anal´ yzy pomoc´ı vstupn´ıch marker˚ u jsou porovn´any se skuteˇcn´ ym stavem tk´anˇe. V´ ystup skriptu bude urˇcovat nakolik vstupn´ı geny dok´aˇz´ı odliˇsit rakovinnou tk´an ˇ od tk´anˇe zdrav´e.
4.3.4
Anal´ yza 4 – kombinace gen˚ u
Test pomoc´ı experimentu 4 generuje vˇsechny kombinace vstupn´ıch gen˚ u a postupnˇe na nˇe aplikuje anal´ yzu 3. Jelikoˇz vypoˇc´ıt´an´ı vˇsech kombinac´ı pro 2000 gen˚ u je nad r´amec v´ ypoˇcetn´ıch moˇznost´ı, spokoj´ıme se s kombinacemi zadan´eho poˇctu nejrozd´ılnˇejˇs´ıch gen˚ u dle anal´ yzy 2. Anal´ yza opˇet umoˇzn´ı zad´an´ı libovoln´e sady gen˚ u, ze kter´ ych budou generov´any kombinace. V´ ysledek skriptu seˇrad´ı skupiny gen˚ u podle relevance. Kter´a skupina gen˚ u m´a vˇetˇs´ı vliv na prok´ az´ an´ı rakoviny dostane vˇetˇs´ı ohodnocen´ı (sk´ ore).
4.3.5
Anal´ yza 5 – propojen´ı v´ ysledk˚ u anal´ yz 1-4 se sign´ aln´ımi drahami
Tato posledn´ı anal´ yza hled´ a vztahy mezi geny t´ım, ˇze se pokus´ı naj´ıt jejich zastoupen´ı v zn´am´ ych sign´ aln´ıch drah´ ach. Jelikoˇz vˇsak zat´ım neexistuje sign´aln´ı dr´aha pro rakovinu tlust´eho stˇreva, budeme hledat vztahy mezi geny napˇr´ıˇc ostatn´ımi zn´am´ ymi sign´aln´ımi drahami. Od t´eto posledn´ı anal´ yzy si slibujeme nalezen´ı jist´eho vztahu mezi geny, kter´e skuteˇcnˇe analyticky ovlivˇ nuj´ı v´ yskyt rakoviny tlust´eho stˇreva. Tato posledn´ı anal´ yza vyˇzaduje pˇripojen´ı k Internetu, protoˇze pˇristupuje vzd´alenˇe k KEGG API serveru (viz. 3.3.1).
4.4
Nastaven´ı skript˚ u
Veˇsker´e vˇeci t´ ykaj´ıc´ı se nastaven´ı parametr˚ u skript˚ u jsou uvedeny v CD pˇr´ıloze v souboru readme.txt, pˇr´ıpadnˇe kaˇzd´ y skript obsahuje n´apovˇedu (pˇri pouˇzit´ı parametru --help).
16
Kapitola 5
V´ ysledky experiment˚ u Tato kapitola uv´ ad´ı v´ ysledky, kter´ ych bylo dosaˇzeno anal´ yzami vstupn´ıch dat pomoc´ı experiment˚ u uveden´ ych v kapitole 4. V´ ysledkem bylo z´ısk´ano mnoho v´ ystup˚ u ve formˇe textov´ ych soubor˚ u, tak i mnoho graf˚ u. V t´eto ˇc´asti bude uvedeno, co je od anal´ yzy oˇcek´av´ano, parametry vstupu skript˚ u a v´ ysledky ve formˇe textov´eho popisu ˇci graf˚ u, ty jsou pro demonstraci v´ ysledk˚ u nejefektivnˇejˇs´ım n´ astrojem.
5.1 5.1.1
Anal´ yza 1 Porovn´ an´ı dvou vzork˚ u tk´ an´ı
Prvn´ı experiment porovn´ av´ a vzorky nemocn´e tk´anˇe subjektu 1 (oznaˇcen vzorek 0 ) proti zdrav´e tk´ ani subjektu 1 (vzorek 1 ). Experimentem chceme urˇcit, kter´e geny maj´ı odliˇsnou expresi pˇri porovn´ an´ı dvou konkr´etn´ıch vzork˚ u tk´anˇe jedn´e osoby. Parametry skriptu ./analyze1.rb -a 0 -b 1 -g V´ ysledky V grafu 5.1 je zelenou barvou jsou vyneseny diskr´etn´ı hodnoty vzorku 0. Modrou barvou pak ˇ hodnoty vzorku 1. Cerven´ ymi body jsou oznaˇceny rozd´ıly tˇechto hodnot. Graf 5.2 obsahuje stejn´a data jako 5.1, ale pro vˇetˇs´ı n´azornost jsou tato data seˇrazena podle hodnoty rozd´ılu. Nalevo tedy nalezneme geny, kter´e se projevuj´ı v´ıce ve zdrav´e tk´ani, vpravo ty, kter´e se projevuj´ı v tk´ ani s rakovinou.
5.1.2
Porovn´ an´ı dvou vzork˚ u tk´ an´ı s pouˇ zit´ım prahov´ an´ı
Druh´ y experiment porovn´ a dva vzorky a pouˇzije metodu prahov´an´ı. Hodnoty exprese budou omezeny na hodnotu 1 (gen se projevuje) a 0 (gen se neprojevuje), hranic´ı bude hodnota exprese 1000. Parametry skriptu ./analyze1.rb -a 0 -b 1 -g -t 1000
17
Obr´ azek 5.1: Porovn´an´ı dvou vzork˚ u tk´an´ı
Obr´ azek 5.2: Porovn´an´ı dvou vzork˚ u tk´an´ı – seˇrazeno
V´ ysledky Graf 5.3 obsahuje hodnoty s pouˇzit´ım prahov´an´ı (pr´ah nastaven na 1000). Vzorky jsou nejprve oprahov´ any, pokud je hodnota exprese vˇetˇs´ı neˇz pr´ah, gen je povaˇzov´an za aktivn´ı. Rozd´ılem takto oprahovan´ ych vzork˚ u (sampl˚ u) vid´ıme, ˇze geny se daj´ı rozdˇelit do ˇctyˇr skupin. • aktivn´ı u obou vzork˚ u • neaktivn´ı obou vzork˚ u • aktivn´ı u 0, neaktivn´ı u 1 – tyto geny budeme naz´ yvat up-regulovan´e • aktivn´ı u 1, neaktivn´ı u 0 – tyto geny budeme naz´ yvat down-regulovan´e
18
Obr´ azek 5.3: Porovn´ an´ı dvou vzork˚ u tk´an´ı – s pouˇzit´ım prahov´an´ı (pr´ah = 1000)
Z´ avˇ er Podobn´e v´ ysledky a podobn´e grafy byly z´ısk´any i porovn´an´ım dvou r˚ uzn´ ych zdrav´ ych tk´an´ı nebo dvou odliˇsn´ ych tk´ an´ı s rakovinou tlust´eho stˇreva. Poˇcet up-regulovan´ ych a downregulovan´ ych gen˚ u byl v pr˚ umˇeru velmi podobn´ y. Anal´ yzou textov´ ych v´ ystup˚ u bylo zjiˇstˇeno, ˇze se jednalo o r˚ uzn´e geny. Odliˇsnosti aktivaci konkr´etn´ıch gen˚ u u n´ador˚ u oproti aktivaci gen˚ u u norm´ aln´ı tk´ anˇe by mˇela odhalit anal´ yza 2.
5.2
Anal´ yza 2
Obr´ azek 5.4: Porovn´an´ı skupin – vˇsechny varianty Druhou anal´ yzou byly porovn´ any vˇsechny kombinace subjekt˚ u skupin Normal a Cancer. Roztˇr´ıdˇen´ı do tˇechto skupiny bylo uˇcinˇeno na z´akladˇe informac´ı ze vstupn´ıch dat (soubor: tissues.txt).
19
Obr´ azek 5.5: Porovn´an´ı skupin – vˇsechny varianty – seˇrazeno
Parametry skriptu ./analyze2.rb -a -g V´ ysledky V grafu 5.5 modr´ a kˇrivka vyznaˇcuje seˇrazen´e hodnoty sum rozd´ıl˚ u pro vzorky ze skupiny ˇ Cancer oproti z´ astupc˚ um skupiny Normal. Cerven´ a vyjadˇruje rozd´ıly v expresi gen˚ u mezi z´astupci skupiny Cancer navz´ ajem. Zelen´a nakonec rozd´ıly mezi ˇcleny skupiny Normal. Graf 5.4 obsahuje diskr´etn´ı hodnoty sum rozd´ıl˚ u pro jednotliv´e geny. Z grafu 5.5 je jasnˇe vidˇet, ˇze rozd´ıly mezi tk´anˇemi nemocn´ ymi a zdrav´ ymi jsou v´ yraznˇe vˇetˇs´ı, neˇz u ostatn´ıch porovn´ an´ı. Tomu odpov´ıd´a i v´ yrazn´e zastoupen´ı modr´ ych vrchol˚ u (angl.: peak˚ u) v grafu22.
5.3
Anal´ yza 3
Tˇret´ı anal´ yza vych´ az´ı z dat z´ıskan´ ych v anal´ yze druh´e, konkr´etnˇe ze vztahu mezi skupinami Cancer a Normal. Snaˇz´ı se o rozliˇsen´ı rakovinn´e tk´anˇe od zdrav´e na z´akladˇe exprese zadan´ ych vstupn´ıch gen˚ u.
5.3.1
Rozpozn´ an´ı rakoviny na z´ akladˇ e 5 gen˚ u s nejvˇ etˇ s´ı zmˇ enou exprese
Tento experiment se snaˇz´ı rozpoznat rakovinu na z´akladˇe pˇeti gen˚ u s nejvˇetˇs´ı zmˇenou exprese. Parametry skriptu ./analyze3.rb -x -n 5 -g V´ ysledky Pokud jsou ˇcerven´e hodnoty v grafu 5.6 menˇs´ı neˇz 0, dan´ y vzorek m´a na z´akladˇe exprese vybran´ ych gen˚ u pravdˇepodobnˇe rakovinu. Modr´e kˇr´ıˇzky vyjadˇruj´ı re´aln´ y stav tk´anˇe (z´aporn´e 20
Obr´ azek 5.6: Rozpozn´ an´ı rakoviny na z´akladˇe 5 gen˚ u s nejvˇetˇs´ı zmˇenou exprese
Obr´azek 5.7: Rozpozn´ an´ı rakoviny na z´akladˇe 5 gen˚ u up regulovan´ ych a 5 down regulovan´ ych
pro karcinom). Procentu´ aln´ı u ´spˇeˇsnost: 80,65 %.
5.3.2
Rozpozn´ an´ı rakoviny na z´ akladˇ e gen˚ u up regulovan´ ych a down regulovan´ ych
Takto nastaven´ y skript rozpozn´ av´a rakovinu na z´akladˇe pˇeti gen˚ u up regulovan´ ych a pˇeti gen˚ u down regulovan´ ych. Parametry skriptu parametry: ./analyze3.rb -u -n 5 -g
21
Obr´azek 5.8: Rozpozn´ an´ı rakoviny na z´akladˇe nejv´ıce up regulovan´eho a down regulovan´eho genu
Obr´ azek 5.9: Rozpozn´ an´ı rakoviny na z´akladˇe jednoho genu – poˇradov´e ˇc´ıslo 248
V´ ysledky Z grafu 5.7 je na prvn´ı pohled zn´ at, ˇze anal´ yza na z´akladˇe tˇechto 10 gen˚ u m´a lepˇs´ı v´ ysledky, neˇz v pˇr´ıpadˇe 5.3.1. Rozd´ıly mezi zdravou a nemocnou tk´an´ı jsou v´ yraznˇejˇs´ı. Procentu´ aln´ı u ´spˇeˇsnost: 90,32 %.
5.3.3
Rozpozn´ an´ı rakoviny na z´ akladˇ e nejv´ıce up regulovan´ eho a down regulovan´ eho genu
K t´eto anal´ yze byly pouˇzity pouze dva markery. Nejv´ıce up regulovan´ y gen a nejv´ıce down regulovan´ y gen. Parametry skriptu parametry: ./analyze3.rb -u -n 1 -g 22
V´ ysledky Z´ıskan´e v´ ysledky demonstruje graf 5.8. Procentu´ aln´ı u ´spˇeˇsnost: 90,32 %.
5.3.4
Rozpozn´ an´ı rakoviny na z´ akladˇ e jednoho genu
V posledn´ım pˇr´ıpadˇe byl pouˇzit jako marker jedin´ y gen (poˇradov´e ˇc´ıslo 248, n´azev: Desmin) a to nejv´ıce down regulovan´ y gen. Tento gen byl nejv´ıce potlaˇcen u rakovinn´e tk´anˇe narozd´ıl od tk´ani zdrav´e. Parametry skriptu echo ’248 -1’ | ./analyze3.rb -m -x -g V´ ysledky Z grafu 5.9 je vidˇet, ˇze se samotn´ y gen Desmin (poˇradov´e ˇc´ıslo 248) uk´azal b´ yt s´am o sobˇe velice kvalitn´ım markerem. Procentu´ aln´ı u ´spˇeˇsnost: 87,10 %. Z´ avˇ er Tato anal´ yza uk´ azala nejzaj´ımavˇejˇs´ı v´ ysledky. Podaˇrilo se u vzorku 62 pˇr´ıpad˚ u urˇcit pravdˇepodobnost v´ yskytu rakoviny v nezn´ ame tk´ ani tlust´eho stˇreva na z´akladˇe dvou gen˚ u s pˇresnost´ı vˇetˇs´ı neˇz 90 procent.
5.4
Anal´ yza 4
V´ ystupem anal´ yzy 4 je procentu´aln´ı ohodnocen´ı u ´spˇeˇsnosti urˇcen´ı rakoviny pro skupiny gen˚ u, kter´e jsou kombinac´ı zadan´ ych gen˚ u na vstupu. Parametry skriptu parametry: ./analyze4.rb -n 10 V´ ystup (prvn´ıch 5 nejlepˇs´ıch marker˚ u): pravdˇepodobnost skupina gen˚ u 0.9032 25 877 248 821 0.9032 25 877 248 30 821 0.9032 25 248 821 0.9032 25 248 0.9032 248 46 Z´ avˇ er Z t´eto anal´ yzy vypl´ yv´ a, ˇze dobr´e markery z prvn´ı des´ıtky nejv´ yraznˇejˇs´ıch gen˚ u mohou b´ yt ve v´ıce kombinac´ıch. Gen s ˇc´ıslem 248 je obsaˇzen ve vˇsech pˇeti kombinac´ıch. D´ale se ˇcasto objevuj´ı geny s poˇradov´ ymi ˇc´ısly 25 a 821.
23
5.5
Anal´ yza 5
Obr´ azek 5.10: hsa03010 – Ribosome - Homo sapiens Pˇred uskuteˇcnˇen´ım p´ at´e anal´ yzy bylo nutn´e pˇrev´est n´azvy gen˚ u na KEGG form´at. parametry: ./analyze5.rb -n 10 Um´ıstˇen´ı vstupn´ıch gen˚ uv ˇc. genu KEGG form´ at 25 hsa:6222 248 hsa:1674 46 hsa:6156 30 hsa:3921 30 hsa:3921 0 hsa:6171 22 hsa:6161
genov´ ych drah´ach: genov´a dr´aha path:hsa03010 path:hsa01430 path:hsa03010 path:hsa03010 path:hsa05060 path:hsa03010 path:hsa03010
Z´ avˇ er Pˇet z deseti nejv´ yznamnˇejˇs´ıch gen˚ u se nach´azej´ı v genov´e sign´aln´ı dr´aze hsa03010.
5.6
Celkov´ e zhodnocen´ı
Nalezen´e dr´ ahy byly seˇrazeny dle ˇcetnosti v´ yskytu takto: 1. hsa03010 2. hsa01430 3. hsa05060 24
Obr´ azek 5.11: hsa01430 – Cell Communication - Homo sapiens
Obr´ azek 5.12: hsa05060 – Prion disease - Homo sapiens
5.6.1
Popis a uk´ azky nalezen´ ych sign´ aln´ıch drah
Genov´ a dr´ aha hsa03010 (Ribosome - Homo sapiens) je na obr´azku 5.10. Genov´ a dr´ aha hsa01430 (Cell Communication - Homo sapiens) je na obr´azku 5.11. ˇ Cervenˇ e je zd˚ uraznˇeno m´ısto, kde se projevuje gen 248. Jak je vidˇet jeho uplatnˇen´ı je velmi bl´ızko j´ adra. U rakovinn´ ych bunˇek je tento gen silnˇe potlaˇcen. Genov´ a dr´ aha hsa05060 (Prion disease - Homo sapiens) je na obr´azku 5.12.
25
Kapitola 6
Z´ avˇ er V t´eto posledn´ı kapitole jsou uvedeny a shrnuty hlavn´ı v´ ysledky t´eto bakal´aˇrsk´e pr´ace. V praktick´e ˇc´ asti t´eto publikace byly prov´adˇeny anal´ yzy nad vstupn´ımi testovac´ımi daty, ˇ kter´e obsahovaly vzorky z tk´ anˇe rakoviny tlust´eho stˇreva. Rada experiment˚ u pˇrinesla zaj´ımav´e v´ ysledky. Porovn´ an´ım zdrav´e tk´ anˇe a tk´anˇe nemocn´e se uk´azalo, ˇze v obou tk´an´ıch byly aktivn´ı jin´e geny. Pr˚ uzkum napˇr´ıˇc skupin demonstroval, ˇze rozd´ıly mezi vˇsemi nemocn´ ymi tk´anˇemi a tk´ anˇemi zdrav´ ymi byly v´ yraznˇe vyˇsˇs´ı neˇz vz´ajemn´e rozd´ıly mezi tk´anˇemi s rakovinou a bez rakoviny. Pro dalˇs´ı v´ ysledky zkoum´ an´ı byly br´any geny s nejodliˇsnˇejˇs´ı expres´ı (mezi rakovinnou tk´an´ı a zdravou tk´ an´ı). Tyto geny byly podrobeny anal´ yze, jej´ıˇz v´ ysledek mˇel za c´ıl urˇcit s jakou u ´spˇeˇsnost´ı tyto geny mohou oznaˇcovat pˇr´ıtomnost rakovinn´eho bujen´ı. Jako dobr´ y v´ ysledek se d´ a povaˇzovat urˇcen´ı rakoviny na z´akladˇe exprese pouze dvou gen˚ u, a to s v´ıce neˇz devades´ ati procentn´ı u ´spˇeˇsnost´ı. Velmi pˇrekvapuj´ıc´ı byl v´ ysledek, ˇze ve zkouman´e skupinˇe 62 vzork˚ u dok´ aˇze samotn´ y jeden gen (Desmin, oznaˇcen´ı KEGG – hsa:1674) na z´akladˇe sv´e exprese rozliˇsovat s 87 % u ´spˇeˇsnost´ı tk´an ˇ rakovinnou od tk´anˇe zdrav´e. Deset gen˚ u, projevuj´ıc´ıch nejvˇetˇs´ı zmˇeny, bylo podrobeno zkoum´an´ı v kontextu sign´aln´ıch drah. Pˇet z deseti gen˚ u se nach´ azelo v jedn´e dr´aze (KEGG oznaˇcen´ı path:hsa03010 s n´azvem Ribosome - Homo sapiens). Desmin, gen s nejlepˇs´ımi v´ ysledky markov´an´ı rakoviny, se objevil v dr´ aze (KEGG oznaˇcen´ı path:hsa01430 nesouc´ı n´azev Cell Communication - Homo sapiens). Za povˇsimnut´ı stoj´ı fakt, ˇze se funkce genu projevuje velmi bl´ızko j´adra buˇ nky. Je tedy skuteˇcnˇe moˇzn´e, ˇze exprese genu m˚ uˇze m´ıt v pˇr´ıpadˇe rakoviny jist´ y v´ yznam. Omezuj´ıc´ı pro dalˇs´ı testov´ an´ı bude z´ısk´an´ı dostateˇcn´eho poˇctu vstupn´ıch dat. V´ ysledek anal´ yzy by byl o mnoho v´ıce hodnotnˇejˇs´ı v pˇr´ıpadˇe, ˇze by byly testov´any tis´ıce vzork˚ u. Bude tedy ot´ azkou dalˇs´ıho b´ ad´ an´ı a zkoum´an´ı, zdali v´ ysledky t´eto pr´ace skuteˇcnˇe nalezly kvalitn´ı markery rakoviny tlust´eho stˇreva a zdali kontext sign´aln´ıch drah m´a v´ yznam, kter´ y se na prvn´ı pohled nab´ız´ı. Velk´ ym u ´spˇechem bude, pokud na tuto pr´aci bude v budoucnu nav´az´ano dalˇs´ım v´ yzkumem ˇci v´ ysledky t´eto pr´ ace d´ ale pomohou pˇri laboratorn´ım vyˇsetˇrov´an´ı.
26
Literatura [1] Alberts, B.; Bray, D.; aj.: Z´ aklady bunˇeˇcn´e biologie. Espero Publishing, 2005, ISBN 10: 80-902906-2-0. [2] Alon, U.; Barkai, N.; aj.: Broad patterns of gene expression revealed by clustering of tumor and normal colon tissues probed by oligonucleotide arrays. [online], [cit. 2008-5-12]. URL http://microarray.princeton.edu/oncology/affydata/index.html [3] BioRuby: BioRuby project. [online], [cit. 2008-5-12]. URL http://bioruby.org [4] Institute, B.: Cancer Program Data Sets. [online], [cit. 2008-5-12]. URL http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi [5] Kanehisa, M.; Araki, M.; aj.: KEGG for linking genomes to life and the environment. [online], [cit. 2008-5-12]. URL http://nar.oxfordjournals.org/cgi/reprint/36/suppl_1/D480 [6] Kanehisa, M.; Goto, S.; aj.: From genomics to chemical genomics: new developments in KEGG. [online], [cit. 2008-5-12]. URL http://nar.oupjournals.org/cgi/reprint/28/1/27.pdf [7] KEGG: Kyoto Encyclopedia of Genes and Genomes. [online], [cit. 2008-5-12]. URL http://www.genome.jp/kegg [8] KEGG: Kyoto Encyclopedia of Genes and Genomes: KEGG API. [online], [cit. 2008-5-12]. URL http://www.genome.jp/kegg/soap/doc/keggapi_manual.html [9] Masopust, J.: Rozluˇstˇen´ y lidsk´ y genom – a co d´al. [online], [cit. 2008-5-12]. URL http://web.telecom.cz/dotdiag/dokument/patobio/genom.pdf [10] McMURRY, J.: Organick´ a chemie. Nakladatelstv´ı VUTIUM, 2007, ISBN 978-80-214-3291-8. [11] Pavl´ık, E.: Molekul´ arn´ı biologick´e techniky pro mikrobiologickou diagnostiku. [online], [cit. 2008-5-12]. URL www.roche-diagnostics.cz/download/la/0403/pcr.pdf [12] Rumlov´ a, M.; Paˇces, V.; Ruml, T.: Z´akladn´ı metody genov´eho inˇzen´ yrstv´ı. [online], [cit. 2008-5-12]. URL http://teacher.vscht.cz/dokumenty/ManualFinal.pdf 27
[13] Trna, M.: Klasifikace s apriorn´ı znalost´ı. [online], [cit. 2008-5-12]. URL https://dip.felk.cvut.cz/browse/pdfcache/trnam1_2007bach.pdf ˇarka Vondr´ [14] S´ aˇskov´ a: Miln´ıky nov´ ych poznatk˚ u v genetice, jen geny na dˇediˇcnost nestaˇc´ı. [online], [cit. 2008-5-12]. URL http://www.agronavigator.cz/default.asp?ch=1&typ=1&val=69548&ids=1461 [15] Wikipedia: DNA. [online], [cit. 2008-5-12]. URL http://en.wikipedia.org/wiki/DNA [16] Wikipedia: DNA microarray. [online], [cit. 2008-5-12]. URL http://en.wikipedia.org/wiki/DNA_microarray
28
Dodatek A
Obsah soubor˚ u se vstupn´ımi daty Vstupn´ı data jsou um´ıstˇena na CD pˇr´ıloze t´eto pr´ace. Struˇcn´ y popis jejich v´ yznamu naleznete v t´eto pˇr´ıloze. • data.txt – obsahuje matici namˇeˇren´ ych dat (hodnoty exprese gen˚ u). Kaˇzd´ y ˇr´adek odpov´ıd´ a pˇr´ısluˇsn´emu genu, sloupec matice konkr´etn´ımu vzorku. • tissues.txt – obsahuje popis vˇsech 62 pˇr´ıpad˚ u. Kaˇzd´ y ˇr´adek odpov´ıd´a jednomu vzorku tk´ anˇe. Pokud ˇc´ıslo, jeˇz oznaˇcuje vzorek, je z´aporn´e, jedn´a se o tk´an ˇ postiˇzenou rakovinou. Pokud je ˇc´ıslo kladn´e, jedn´a se o zdravou tk´an ˇ. Tento soubor jeˇstˇe obsahuje vazby mezi jedinci a to takov´e, ˇze kaˇzd´e ˇc´ıslo oznaˇcuje jednoho jedince. Pˇr´ıkladem budiˇz oznaˇcen´ı vzork˚ u -1 a 1. Oba tyto vzorky tk´an´ı poch´az´ı od jedn´e osoby, prvn´ı je postiˇzena karcinomem a druh´a nikoliv. • names.txt – tento soubor obsahuje n´azvy gen˚ u. Kaˇzd´ y ˇr´adek odpov´ıd´a jednomu genu v souboru data.txt.
29