ˇ ENI´ TECHNICKE´ V BRNEˇ VYSOKE´ UC BRNO UNIVERSITY OF TECHNOLOGY
ˇ NI´CH TECHNOLOGII´ FAKULTA INFORMAC ˇ ˚ ´ USTAV INFORMACNI´CH SYSTE´MU FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS
´ CH MUTACI´ PREDIKCE VLIVU AMINOKYSELINOVY ˚ ´ RNI´ STRUKTURU PROTEINU NA SEKUNDA PREDICTION THE EFFECT OF AMINO ACID SUBSTITUTIONS ON SECONDARY STRUCTURE OF PROTEINS
´ PRA´CE DIPLOMOVA MASTER’S THESIS
AUTOR PRA´CE
MARTIN HYRSˇ
AUTHOR
VEDOUCI´ PRA´CE SUPERVISOR
BRNO 2013
Ing. JAROSLAV BENDL
Abstrakt V této práci zkoumám, jak mutace aminokyselionové sekvence proteinu poznamená jeho sekundární strukturu. Zjistil jsem, že sekundární struktura je vůči mutacím poměrně odolná, některé úseky si udrží svoji strukturu, i když jejich sekvence je zcela odlišná. Tato odolnost se projevuje i u náhodných sekvencí, je to tedy obecná vlastnost sekvencí aminokyselin. Jednotlivé konformace jsou ke změnám způsobeným mutací různě citlivé. Citlivost proteinu vůči mutacím závisí na složení jeho struktury. V počátečních kapitolách jsou popsány vybrané metody predikce sekundární struktury.
Abstract In this thesis I investigate the effect of amino acid substitutions on secondary structure of proteins. I found that the secondary structure is relatively resistant to mutations, some regions hold the same secondary structure, even though their sequences are very different. Since this effect was observed also for random sequences, I conclude that it is a general property of the amino acid sequence. The particular elements of secondary structures are differentially sensitive to the changes caused by mutations. Protein’s sensitivity to mutations depends on the composition of its secondary structure. Some methods of secondary structure prediction are described in the introductory section.
Klíčová slova Mutace proteinů, sekundární struktura proteinů, evoluce in silico, odolnost sekundární struktury vůči mutaci, predikce sekundární struktury proteinu.
Keywords Proteins’ mutations, secondary structure of proteins, evolution in silico, secondary structure resistance to a mutation, prediction of secondary structure of proteins.
Citace Martin Hyrš: Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů, diplomová práce, Brno, FIT VUT v Brně, 2013.
Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů Prohlášení Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně pod vedením pana Ing. Jaroslava Bendla. Uvedl jsem všechny literární prameny a publikace, ze kterých jsem čerpal. ....................... Martin Hyrš 22. května 2013
Poděkování Na tomto místě chci poděkovat vedoucímu práce, panu Ing. Jaroslavu Bendlovi, za inspirativní rady při tvorbě experimentů. Dále chci poděkovat rodině a přátelům za morální oporu.
c Martin Hyrš, 2013.
Tato práce vznikla jako školní dílo na Vysokém učení technickém v Brně, Fakultě informačních technologií. Práce je chráněna autorským zákonem a její užití bez udělení oprávnění autorem je nezákonné, s výjimkou zákonem definovaných případů.
Obsah 1 Úvod
4
2 Proteiny 2.1 Stavba bílkovin . . . . . . . 2.2 Struktura bílkovin . . . . . 2.3 Typy sekundární struktury 2.4 Genetický kód . . . . . . . . 2.5 Substituční matice . . . . .
. . . . .
5 5 7 8 8 9
. . . . . . . . . . . . .
14 14 15 17 19 19 20 20 20 21 21 22 22 23
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Metody predikce sekundární struktury proteinu 3.1 Metriky pro posuzování kvality predikčních metod . . 3.2 Chou-Fasman . . . . . . . . . . . . . . . . . . . . . . . 3.3 GOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 ZPRED . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 PHD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 NNSSP . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 DSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 PREDATOR . . . . . . . . . . . . . . . . . . . . . . . 3.9 JPred . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10 PSIPRED . . . . . . . . . . . . . . . . . . . . . . . . . 3.11 Jnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12 NPS@ . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.13 Shrnutí metod predikce sekundární struktury proteinů 4 Návrh evolučních experimentů 4.1 Kostra experimentu . . . . . 4.2 Mutační protokol . . . . . . . 4.3 Získání sekundární struktury 4.4 Podmínka ukončení . . . . . . 4.5 Rozšiřující experimenty . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
24 24 24 25 25 26
5 Simulační nástroj a jeho implementace 5.1 Struktura aplikace . . . . . . . . . . . . 5.2 Třída Sequence . . . . . . . . . . . . . . 5.3 Třída FileReader . . . . . . . . . . . . 5.4 Třída MutationProtocol . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
27 27 27 28 28
. . . . .
. . . . .
. . . . .
. . . . .
1
. . . . .
5.5 5.6 5.7
Třída SecondaryStructure . . . . . . . . . . . . . . . . . . . . . . . . . . . Třída MutationSimulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grafy typu boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Experimenty 6.1 Rychlost rozpadu sekundární struktury . . . . . . . . . . 6.2 Mutace struktury náhodných sekvencí . . . . . . . . . . 6.3 Mutační pravděpodobnosti odvozené z genetického kódu 6.4 Vyloučení škodlivých mutací . . . . . . . . . . . . . . . 6.5 Míra mutace u různých sekundárních struktur . . . . . . 6.6 Shrnutí experimentů . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
29 29 29 31 31 32 34 39 41 45
7 Závěr
46
A Doplňující poznámky k experimentům A.1 Různá kritéria podobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Rozpad sekundární struktury proteinu . . . . . . . . . . . . . . . . . . . . . A.3 Odolnost proteinů a složení jejich struktury . . . . . . . . . . . . . . . . . .
50 50 51 54
B Obsah přiloženého CD
56
2
Seznam obrázků 2.1 2.2 2.3
Strukturní vzorec aminokyselin. . . . . . . . . . . . . . . . . . . . . . . . . . Vznik dipeptidu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kostra polypeptidu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 7 7
4.1
Schéma experimentu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14
Vývoj sekundární struktury. . . . . . . . . . . . . . . . . . Závislost mezi sekvenční a strukturní podobností. . . . . . Náhodné sekvence. . . . . . . . . . . . . . . . . . . . . . . Vliv mutací spočítaných podle různých mutačních matic. Rychlost mutací podle různých mutačních matic. . . . . . Vliv mutací spočítaných podle různých mutačních matic. Rychlost mutací podle různých mutačních matic. . . . . . Škodlivé a neutrálních mutace. . . . . . . . . . . . . . . . Škodlivé a neutrálních mutace. . . . . . . . . . . . . . . . Třídimenzionální struktura dat. . . . . . . . . . . . . . . . Strukturní složení proteinů. . . . . . . . . . . . . . . . . . Strukturní složení náhodných sekvencí. . . . . . . . . . . . Strukturní složení odolných proteinů. . . . . . . . . . . . . Strukturní složení odolných proteinů. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
32 33 33 37 37 38 38 40 40 41 42 42 44 44
A.1 A.2 A.3 A.4 A.5
Podobnost párová a podle PAM120. . . . . . . . . . . . . . . Závislost mezi sekvenční (PAM120) a strukturní podobností. Vývoj sekvenční podobnosti. . . . . . . . . . . . . . . . . . . Vývoj sekundární struktury. . . . . . . . . . . . . . . . . . . . Strukturní složení odolných proteinů – různé kroky. . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
50 51 52 52 55
3
. . . . . . . . . . . . . .
Kapitola 1
Úvod Zpracování biologických dat je vědní oblast, která v dnešní době zažívá velký rozvoj. Díky rozvoji sekvenačních metod velmi prudce vzrůstá množství známých dat a bioinformatické metody umožňují získávání velkého počtu nových znalostí (např. tvorba fylogenetických stromů, analýza genové exprese, sekvenace genomů různých organismů, apod.). Do této oblasti spadá i analýza sekundární struktury proteinů. Pojem sekundární struktura proteinu označuje lokální prostorové rozmístění sousedních aminokyselin v molekule proteinu. Rozeznává se řada různých konformací, tři základní jsou α-helix, β-skládaný list a náhodná smyčka. Sekundární struktura proteinu má význam jako mezikrok během utváření terciární struktury. Při trojrozměrném zobrazení molekuly proteinu se často graficky znázorňují jednotlivé úseky sekundární struktury. Určité vzorce sekundární struktury mohou identifikovat vazebná místa proteinu, která jsou zodpovědná za jeho biologickou aktivitu. Tato práce zkoumá, do jaké míry bude poznamenána sekundární struktura proteinu, pokud dojde k mutaci jeho aminokyselinové sekvence. Zjistil jsem, že sekundární struktura proteinu je vůči mutacím sekvence poměrně odolná; míra odolnosti závisí na výskytu jednotlivých konformací ve struktuře daného proteinu. Kvůli vytváření a vyhodnocování mutantů jsem naprogramoval simulační nástroj, který postupně mutuje sekvenci proteinu a v každém mutačním kroku (použitím metody pro predikci sekundární struktury) vyhodnocuje změnu jeho sekundární struktury. Kapitola 2 shrnuje základní informace o proteinech, jejich chemickou stavbu, biologický význam, apod. Kapitola 3 je věnovaná metodám predikce sekundární struktury proteinu. V dalších kapitolách je pak popsán návrh experimentu (kapitola 4) a implementace výše zmíněného simulátoru (kapitola 5). V kapitole 6 jsou popsány jednotlivé experimenty, které jsem uskutečnil, a jsou zde uvedeny jejich výsledky. Závěrečná kapitola shrnuje dosažené výsledky a uzavírá celou práci.
4
Kapitola 2
Proteiny Proteiny (bílkoviny) jsou základní stavební složkou všech živých buněk. Plní v organismu například funkce stavební, vystupují jako katalyzátory biochemických pochodů (enzymy) či jako koordinátory chemických dějů (hormony), plní obrannou funkci (antigeny) a jiné. Tato kapitola je zpracována podle [18], [11], [7] a [28].
2.1
Stavba bílkovin
Z chemického hlediska se jedná o polypeptidy, rozsáhlé makromolekuly vzniklé polymerací aminokyselin.
2.1.1
Aminokyseliny
Pojmem aminokyselina se v chemii obecně označuje kterákoliv molekula, která obsahuje karboxylovou (-COOH) a aminovou (-NH2 ) skupinu. V užším slova smyslu se pod tímto pojmem rozumí pouze α-aminokyseliny L-řady, které se běžně vyskytují v přírodě jako součást proteinů (tzv. proteinogenní aminokyseliny). Obecný strukturní vzorec těchto aminokyselin je na obrázku 2.1. R
O CH
C
NH2
OH
Obrázek 2.1: Strukturní vzorec aminokyselin. Proteinogenní aminokyseliny jsou známé pod svými triviálními názvy. Běžně se označují pomocí trojpísmenných zkratek, případně jedním velkým písmenem (například ve struktuře proteinu), viz tabulka 2.1. Zde jsou i uvedeny strukturní vzorce jejich postranních řetězců. Výjimkou z uvedené struktury je prolin, u něhož je aminoskupina součástí cyklu v postranním řetězci; z čehož plyne i jeho odlišná schopnost vytvářet lokální interakce.
5
Aminokyselina Glycin Alanin Valin Leucin Isoleucin
Zkratka Gly Ala Val
Značka G A V
Leu
L
Ile
I
Postranní řetězec H H3 C CH3 CH CH3 CH3 CH CH2 CH3 CH3 CH2 CH CH3
Kyselina asparagová
Asp
D
Asparagin
Asn
N
Kyselina glutamová
Glu
E
Glutamin
Gln
Q
O
C CH2 HO O C CH2 NH2 O C CH2 CH2 HO O C CH2 CH2 NH2
Arginin Lysin
Arg Lys
R K
Histidin
His
H
NH NH2 C NH CH2 CH2 CH2 NH2 CH2 CH2 CH2 CH2 N CH2 NH
Fenylalanin
Phe
F
CH2
Serin Threonin
Ser Thr
S T
HO CH2 CH3 CH OH
Tyrosin
Tyr
Y
HO
CH2 CH2
Tryptofan
Trp
W
Methionin Cystein
Met Cys
M C
Prolin
Pro
P
NH CH3 S CH2 CH2 HS CH2 O C OH NH
Tabulka 2.1: Kódové aminokyseliny a jejich struktura.
6
2.1.2
Peptidická vazba
Peptidická vazba je druh kovalentní vazby. Vzniká mezi karboxylovou skupinou jedné molekuly a aminoskupinou ve druhé molekule za odštěpení jedné molekuly vody. Na obrázku 2.2 je znázorněn vznik dipeptidu. R NH2
R
O CH
+
C
NH2
OH
R
O CH
C
-H2 O
OH
CH
NH2
O
R
C
CH
O C OH
NH
Obrázek 2.2: Vznik dipeptidu. Typický výskyt peptidické vazby je v molekulách peptidů a proteinů. Tyto makromolekuly vznikají polykondenzací aminokyselin – jako peptidy se označují molekuly tvořené méně než sto aminokyselinovými zbytky, větší molekuly jsou nazývány proteiny. Posloupnost peptidických vazeb vytváří centrální páteř proteinu. Tato kostra, tvořící nevětvený řetězec, je společná všem proteinům. Její strukturní vzorec je na obrázku 2.3. Specifické vlastnosti proteinů jsou dány postranními řetězci (zbytky aminokyselin). U proteinu rozeznáváme N-konec (aminoskupina) a C-konec (karboxylová skupina). R CH NH2
R
O NH C O
C CH
CH NH
R
R
O NH C
C CH
O
R
O
CH NH
NH C O
C CH
OH
R
Obrázek 2.3: Kostra polypeptidu. R – označuje postranní řetězce.
2.2
Struktura bílkovin
Primární struktura Jako primární struktura se označuje pořadí aminokyselin vázaných v polypeptidovém řetězci. Sekundární struktura Jako sekundární struktura se označuje lokální prostorové rozmístění sousedních aminokyselin. Existuje několik charakteristických typů této struktury, podrobněji budou popsány v následující části. Sekundární struktura je chemicky stabilizována zejména lokálně, pomocí vodíkových můstků mezi skupinami CO a NH. Terciární struktura Terciární struktura označuje prostorové rozmístění atomů v molekule. Snahou proteinu je zaujmout strukturu s co nejmenší vnitřní energií. Struktura je stabilizována elektrostatickými silami mezi COO− a NH+ , tvorbou disulfidických můstků mezi molekulami cysteinu, vodíkovými můstky a interakcemi mezi nepolárními zbytky aminokyselin; přičemž k těmto interakcím dochází mezi aminokyselinami, které mohou být v proteinovém řetězci libovolně vzdálené.
7
Kvartérní struktura O kvartérní struktuře hovoříme u bílkovin, které jsou tvořeny více polypeptidickými řetězci, které nejsou vzájemně spojeny peptidovou vazbou.
2.3
Typy sekundární struktury
Běžné typy sekundární struktury se obvykle označují pomocí velkých písmen. Tento způsob označování se nazývá DSSP (Dictionary of Protein Secondary Structure). Existuje osm různých konformací: [15] • H = 4-helix (α-helix) – je to nejčastěji se vyskytující druh struktury. Kostra proteinu tvoří šroubovici, aminokyselinové zbytky trčí ven do prostoru. Délka jednoho závitu šroubovice je 3,6 aminokyselinových zbytků. Struktura je stabilizována vodíkovými můstky mezi skupinami CO a NH v aminokyselinách vzdálených od sebe čtyři rezidua. • B = reziduum v izolovaném β-můstku. Posloupnost těchto struktur vytváří β-list. • E = β-skládaný list (angl. extended strand = natažené vlákno) – druhá nejrozšířenější struktura. Tvoří ji dvě rovnoběžná vlákna (buď v paralelním nebo antiparalelním směru). Hlavní řetězec je skoro úplně úplně rozvinutý, vodíkové můstky vznikají mezi sousedními vlákny. • G = 3-helix (310 -helix) – vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 3 rezidua. Šroubovice má menší průměr než α-helix. • I = 5-helix (π-helix) – vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 5 reziduí. Šroubovice má větší průměr než α-helix. • T = otočka (H-bonded turn) – jedná se o smyčku vázanou vodíkovými můstky. Opakováním těchto úseků jsou vytvořeny helikální struktury. • S = ohyb (bend) – mírný ohyb polypeptidového vlákna. Tato konformace jako jediná není stabilizována vodíkovými můstky. • C = smyčka (coil) – souhrnné označení pro všechny ostatní druhy sekundární struktury. Pro účely predikce sekundární struktury proteinů se obvykle používají pouze tři konformace: H = helix (H, G, I), E = β-struktura (E) a C = náhodná smyčka (B, T, S, C).
2.4
Genetický kód
Pravidla, podle kterých je informace uložená v DNA přepisována do sekvence proteinů, nazýváme genetický kód. Genetický kód používá čtyřprvkovou abecedu {A, C, G, T}, případně {A, C, G, U} (podle toho, zda pro zápis použijeme nukleotidy vyskytující se v DNA nebo RNA). Písmena genetického kódu se čtou po trojicích (tzv. kodon či triplet), každá trojice kóduje jednu aminokyselinu (viz tabulka 2.2). Jeden kodon, AUG (kódující methinonin), je startovací, od
8
tohoto místa přepis mRNA do proteinu vždy začíná (samotný methionin je pak z proteinu obvykle odštěpen). Tři kodony jsou tzv. stop-kodony, ukončují transkripci. Genetický kód je, až na drobné výjimky, univerzálně platný pro všechny (známé) živé organismy na Zemi. Např. některé bakterie mají jiný start-kodon a některé bakterie a archea pomocí stop-kodonů kódují dvacátou první aminokyselinu (selenocystein) nebo dvacátou druhou (pyrolysin). Existuje 43 = 64 různých kodonů, ale je pouze dvacet standardních aminokyselin. Proto je většina aminokyselin kódována více než jedním kodonem, některé aminokyseliny jsou zakódovány až šesti různými kodony. Redundance obsažená v genetickém kódu způsobuje, že některé mutace nukleotidů nevyvolají změnu zakódované aminokyseliny (tzv. synonymní mutace). UUU UUC UUA UUG CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG
o o
fenylalanin leucin
leucin
isoleucin methionin
valin
UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG
serin
prolin
threonin
alanin
UAU UAC UAA UAG CAU CAC CAA CAG AAU AAC AAA AAG GAU GAC GAA GAG
o
tyrosin STOP STOP
o
histidin
o
glutamin
o
asparagin
o
lysin
o
kys. asparagová
o
kys. glutamová
UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG
o
cystein STOP tryptofan
arginin
o
serin
o
arginine
glycin
Tabulka 2.2: Genetický kód.
2.5
Substituční matice
Substituční matice slouží k vypočítání podobnosti dvou zarovnaných sekvencí. Je to čtvercová matice, jejíž sloupce a řádky odpovídají jednotlivým symbolům, které se mohou vyskytnout v sekvenci proteinu. Číselná hodnota uvedená na dané pozici v matici odpovídá přínosu vzájemné substituce aminokyselin uvedených na řádku a sloupci k celkové podobnosti sekvencí. Protože při výpočtu penalizace nezáleží na pořadí symbolů v páru, jsou matice diagonálně souměrné.
2.5.1
Matice PAM
Historicky starší jsou matice PAM (Point Accepted Mutation). Jejich konstrukce vychází z empirického stanovení frekvence jednotlivých specifických záměn. [8] V sadě příbuzných sekvencí (superrodiny sekvencí, seskupené do fylogenetických stromů) jsou spočítány výskyty vzájemných záměn pro všechny dvojice aminokyselin – 9
toto jsou mutace akceptované přírodním výběrem. Jejich výskyt je výsledkem dvou procesů: mutací příslušné nukleotidové sekvence a přijetím – nová aminokyselina obvykle musí mít podobné fyzikálně-chemické vlastnosti jako ta původní. Z podílu počtu mutací, ve kterých se vyskytuje, a celkového počtu výskytů dané aminokyseliny je stanovena její relativní mutabilita. Aminokyseliny (např. cystein), které plní nenahraditelné funkce, mají velmi nízkou relativní mutabilitu. Prvek matice pravděpodobnosti mutací Mij udává pravděpodobnost, že aminokyselina j bude nahrazena aminokyselinou i po jednom mutačním kroku. Ne-diagonální, resp. diagonální prvky v matici jsou stanoveny jako: λmj Aij Mij = P i Aij
resp.
Mjj = 1 − λmj
kde Aij je položka matice akceptovaných mutací, λ je proporční konstanta a mj je P mutabilita aminokyseliny j. Hodnota proporční konstanty je zvolena tak, aby výraz 100 fi Mii (tedy počet reziduí, která se nezmění během 100 kroků mutace) byl roven 99 (tedy 1 % mutací, jak je požadováno pro PAM1). M Matice zisků Rij = fiij , kde fi je pravděpodobnost náhodného výskytu i ve druhé sekvenci, obsahuje pravděpodobnosti nahrazení výskytu i za výskyt j. Tato matice je symetrická. Kvůli snazšímu použití při výpočtu zarovnání (sčítání logaritmů namísto násobení původních hodnot) je matice Rij zlogaritmována Sij = 10 log10 Rij a takto je získána skórovací matice PAM1. Pro snazší manipulaci jsou hodnoty ve skórovací matici vynásobeny vhodnou konstantou (toto nijak neovlivňuje přesnost výpočtu při zarovnávání sekvencí) a zaokrouhleny na celá čísla. Maticovým vynásobením matice PAM1 samé se sebou byla získána matice PAM2. Dalším vynásobením vznikla PAM3 atd. až po PAM250 = PAM1250 . Matice PAMxx odpovídá situaci, ve které dojde k xx mutacím ve sto-aminokyselinovém úseku. Pouze matice PAM1 vznikla z empirických údajů z blízce příbuzných sekvencí, všechny ostatní matice PAM vznikly extrapolací. Při praktickém použití platí, že vyšší číslo matice PAM odpovídá méně příbuzným sekvencím. V tabulkách 2.3 a 2.4 jsou uvedeny pravděpodobnosti mutací PAM1 a skórovací matice PAM120. V matici PAM120 jsou kromě značek pro standardní aminokyseliny použity i symboly B, Z, X. Toto jsou tzv. nejednoznačné aminokyseliny, B značí kyselinu asparagovou (D) nebo asparagin (N); Z kyselinu glutamovou (Q) nebo glutamin (E); X je libovolná aminokyselina. Pro symboly B, Z jsou počáteční pravděpodobnosti určeny jako průměr hodnot příslušných aminokyselin, pro X jsou všechny pravděpodobnosti rovny 1/20.
2.5.2
Matice BLOSUM
Matice BLOSUM (Blocks of Amino Acid Substitution Matrix) jsou používány pro výpočet podobnosti evolučně nepříbuzných sekvencí. Všechny matice BLOSUM jsou odvozeny z empiricky zjištěných pravděpodobností mutace (na rozdíl od maticí PAM). [12] Při jejich odvození se vycházelo z lokálního zarovnání nepříbuzných sekvencí, pro další výpočet byly použity pouze velmi konzervované úseky sekvencí (bez mezer v zarovnání). V každém shluku zarovnaných úseků sekvencí byly spočítány frekvence výskytů jednotlivých aminokyselinových záměn. Hodnota v matici BLOSUM je pak dána jako dvojkový 10
A R N D C Q E G H I L K M F P S T W Y V
A 9867 1 4 6 1 3 10 21 1 2 3 2 1 1 13 28 22 0 1 13 A R N D C Q E G H I L K M F P S T W Y V
R N D C Q E G H I 2 9 10 3 8 17 21 2 6 9913 1 0 1 10 0 0 10 3 1 9822 36 0 4 6 6 21 3 0 42 9859 0 6 53 6 4 1 1 0 0 9973 0 0 0 1 1 9 4 5 0 9876 27 1 23 1 0 7 56 0 35 9865 4 2 3 1 12 11 1 3 7 9935 1 0 8 18 3 1 20 1 0 9912 0 2 3 1 2 1 2 0 0 9872 1 3 0 0 6 1 1 4 22 37 25 6 0 12 7 2 2 4 1 0 0 0 2 0 0 0 5 1 1 0 0 0 0 1 2 8 5 2 1 1 8 3 2 5 1 11 34 7 11 4 6 16 2 2 2 13 4 1 3 2 2 1 11 2 0 0 0 0 0 0 0 0 0 3 0 3 0 1 0 4 1 2 1 1 3 2 2 3 3 57 L K M F P S T W Y V 4 2 6 2 22 35 32 0 2 18 1 19 4 1 4 6 1 8 0 1 1 13 0 1 2 20 9 1 4 1 0 3 0 0 1 5 3 0 0 1 0 0 0 0 1 5 1 0 3 2 3 6 4 0 6 2 2 0 0 1 1 4 1 0 3 4 2 0 1 2 1 2 1 1 3 21 3 0 0 5 1 1 0 2 3 1 1 1 4 1 9 2 12 7 0 1 7 0 1 33 9947 2 45 13 3 1 3 4 2 15 1 9926 20 0 3 8 11 0 1 1 8 4 9874 1 0 1 2 0 0 4 6 0 4 9946 0 2 1 3 28 0 2 2 1 1 9926 12 4 0 0 2 1 7 4 3 17 9840 38 5 2 2 2 8 6 1 5 32 9871 0 2 9 0 0 0 1 0 1 0 9976 1 0 1 0 0 21 0 1 1 2 9945 1 11 1 17 1 3 2 10 0 2 9901
Tabulka 2.3: Tabulka pravděpodobností mutací PAM1. Pro přehlednost jsou hodnoty v tabulce vynásobeny 10 000. [21]
11
Tabulka 2.4: Skórovací matice PAM120. [20]
12
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 3 -3 -1 0 -3 -1 0 1 -3 -1 -3 -2 -2 -4 1 1 1 -7 -4 0 0 -1 -1 -8
R -3 6 -1 -3 -4 1 -3 -4 1 -2 -4 2 -1 -5 -1 -1 -2 1 -5 -3 -2 -1 -2 -8
N -1 -1 4 2 -5 0 1 0 2 -2 -4 1 -3 -4 -2 1 0 -4 -2 -3 3 0 -1 -8
D 0 -3 2 5 -7 1 3 0 0 -3 -5 -1 -4 -7 -3 0 -1 -8 -5 -3 4 3 -2 -8
C -3 -4 -5 -7 9 -7 -7 -4 -4 -3 -7 -7 -6 -6 -4 0 -3 -8 -1 -3 -6 -7 -4 -8
Q -1 1 0 1 -7 6 2 -3 3 -3 -2 0 -1 -6 0 -2 -2 -6 -5 -3 0 4 -1 -8
E 0 -3 1 3 -7 2 5 -1 -1 -3 -4 -1 -3 -7 -2 -1 -2 -8 -5 -3 3 4 -1 -8
G 1 -4 0 0 -4 -3 -1 5 -4 -4 -5 -3 -4 -5 -2 1 -1 -8 -6 -2 0 -2 -2 -8
H -3 1 2 0 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -3 -1 -3 1 1 -2 -8
I -1 -2 -2 -3 -3 -3 -3 -4 -4 6 1 -3 1 0 -3 -2 0 -6 -2 3 -3 -3 -1 -8
L -3 -4 -4 -5 -7 -2 -4 -5 -3 1 5 -4 3 0 -3 -4 -3 -3 -2 1 -4 -3 -2 -8
K -2 2 1 -1 -7 0 -1 -3 -2 -3 -4 5 0 -7 -2 -1 -1 -5 -5 -4 0 -1 -2 -8
M -2 -1 -3 -4 -6 -1 -3 -4 -4 1 3 0 8 -1 -3 -2 -1 -6 -4 1 -4 -2 -2 -8
F -4 -5 -4 -7 -6 -6 -7 -5 -3 0 0 -7 -1 8 -5 -3 -4 -1 4 -3 -5 -6 -3 -8
P 1 -1 -2 -3 -4 0 -2 -2 -1 -3 -3 -2 -3 -5 6 1 -1 -7 -6 -2 -2 -1 -2 -8
S 1 -1 1 0 0 -2 -1 1 -2 -2 -4 -1 -2 -3 1 3 2 -2 -3 -2 0 -1 -1 -8
T 1 -2 0 -1 -3 -2 -2 -1 -3 0 -3 -1 -1 -4 -1 2 4 -6 -3 0 0 -2 -1 -8
W -7 1 -4 -8 -8 -6 -8 -8 -3 -6 -3 -5 -6 -1 -7 -2 -6 12 -2 -8 -6 -7 -5 -8
Y -4 -5 -2 -5 -1 -5 -5 -6 -1 -2 -2 -5 -4 4 -6 -3 -3 -2 8 -3 -3 -5 -3 -8
V 0 -3 -3 -3 -3 -3 -3 -2 -3 3 1 -4 1 -3 -2 -2 0 -8 -3 5 -3 -3 -1 -8
B 0 -2 3 4 -6 0 3 0 1 -3 -4 0 -4 -5 -2 0 0 -6 -3 -3 4 2 -1 -8
Z -1 -1 0 3 -7 4 4 -2 1 -3 -3 -1 -2 -6 -1 -1 -2 -7 -5 -3 2 4 -1 -8
X -1 -2 -1 -2 -4 -1 -1 -2 -2 -1 -2 -2 -2 -3 -2 -1 -1 -5 -3 -1 -1 -1 -2 -8
* -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 -8 1
logaritmus podílu frekvence výskytu záměn dané dvojice aminokyselin ku frekvencím všech výskytů těchto aminokyselin. Číslo v názvu matice udává míru podobnosti použitých sekvencí. Například při odvození matice BLOSUM80 byly použity pouze takové zarovnané úseky, které v zarovnání obsahovaly alespoň 80 % identických aminokyselin. Platí tedy, že vyšší čísla matice odpovídají podobnějším sekvencím. Kromě skóre pro shodu či neshodu aminokyselin mohou matice obsahovat i penalizaci za vložení mezery. Penalizace za mezeru se skládá ze dvou částí – vysoká penalizace za počátek mezery a obvykle mnohem menší penalizace za prodloužení existující mezery. Toto zohledňuje skutečnost, že pokud již mezera vznikla, je její prodloužení poměrně nepodstatnou změnou, která nemá velký vliv na nepodobnost sekvencí.
13
Kapitola 3
Metody predikce sekundární struktury proteinu V této kapitole podrobněji popisuji vybrané metody pro predikci sekundární struktury proteinu. Z hlediska postupného vývoje můžeme tyto metody rozčlenit do několika generací. Pro metody první generace je typické využívání pouze lokální informace. Jsou založeny na pravděpodobnosti výskytu dané aminokyseliny v určitém elementu sekundární struktury. Časově tyto metody spadají do 70. let 20. století. Metodami druhé generace jsou metody založené na znalostech, využívají další informace o aminokyselinách, jako je tvar a velikost jejich molekuly či fyzikální a chemické vlastnosti. Tyto metody vznikaly zejména v 80. letech. V 90. letech se objevují metody založené na strojovém učení, například neuronových sítích, či skrytých Markovových modelech. Poslední generaci tvoří metody konsensuální, které kombinují výsledky více nezávislých predikčních metod, čímž odstraňují jejich dílčí chyby a dosahují ještě vyšší přesnosti. [22]
3.1
Metriky pro posuzování kvality predikčních metod
Nejpoužívanější metrikou je Q3. V této práci záměrně neuvádím žádnou přesnou hodnotu, které dosahují jednotlivé metody, protože metody byly testovány na rozdílných datasetech a souhrnné uvedení jejich výsledků by proto mohlo být zavádějící. Navíc se dá říci, že novější metody dosahují lepších výsledků částečně proto, že při jejich odvození (trénování) byla použita lepší trénovací množina, a starší metody by byly vzájemným srovnáním znevýhodněny. Zpracováno podle [13] a [27].
3.1.1
Metrika Q3
Metrika Q3 (třístavová přesnost) udává, kolik procent reziduí má správně predikovanou strukturu. Uvažuje konformace α-helix (H), β-list (E) a náhodná smyčka (C). Přesnost pro jednu konformaci (stav) i je Qi =
počet reziduí správně predikovaných do stavu i · 100 počet všech reziduí ve stavu i
14
Přesnost pro všechny stavy je Q3 =
3.1.2
počet správně predikovaných reziduí · 100 počet všech reziduí
Metrika SOV
Metrika SOV (Segment OVerlap score) je založená na průměrné délce překryvu mezi pozorovaným a predikovaným segmentem sekundární struktury. Na rozdíl od Q3 nevyhodnocuje jednotlivá rezidua, ale větší celky. Mějme pozorovanou sekundární strukturu S1 a predikovanou strukturu S2 . Pro každou konformaci i ∈ {H, E, C} je S(i) množina dvojic segmentů z S1 a S2 ve stavu i, které se překrývají alespoň jedním reziduem. Tedy S(i) = {(s1 , s2 )| s1 ∩ s2 6= ∅ ∧ s1 , s2 jsou v konformaci i} a S 0 (i) je množina všech segmentů, které se nepřekrývají S 0 (i) = {s1 | ∀s2 : s1 ∩ s2 = ∅ ∧ s1 , s2 jsou v konformaci i} Podobnost mezi sekvencemi S1 a S2 , SOV (S1 , S2 ), je určena jako SOV (S1 , S2 ) =
1 N
X
X minov(s1 , s2 )σ(s1 , s2 )
i∈{H,E,C} S(i)
maxov(s1 , s2 )
l(s1 )
kde minov(s1 , s2 ) je délka společné části překryvu, kde jsou oba segmenty ve stavu i; maxov(s1 , s2 ) je délka celého překryvu, kde alespoň jeden segment je ve stavu i; l(s1 ) je délka úseku s1 ; σ(s1 , s2 ) je definována maxov(s1 , s2 ) − minov(s1 , s2 ) minov(s1 , s2 ) σ(s1 , s2 ) = min b l(s21 ) c l(s2 ) b 2 c P P P a N je i∈{H,E,C} N (i) kde N (i) = S(i) l(s1 ) + S 0 (i) l(s1 ). Úlohy S1 a S2 nejsou symetrické, při výpočtu proto nelze vzájemně zaměnit predikovanou a skutečně pozorovanou strukturu.
3.2
Chou-Fasman
Tuto metodu publikovali Peter Chou a Gerald Fasman v roce 1974. Na základě známých struktur 15 proteinů, získaných pomocí rentgenové krystalografie, stanovili pro každou aminokyselinu konformační parametry Pα a Pβ , které popisují její potenciál vytvořit šroubovici α-helix nebo β-list. Spočítáním průměrů konformačních parametrů hPα i a hPβ i pro libovolný polypeptidový úsek pak lze předpovědět jeho sekundární strukturu. Dále stanovili explicitní pravidla určení začátků a konců strukturních regionů. Za tímto účelem rozdělili aminokyseliny na základě parametrů Pα a Pβ do tříd, viz tabulka 3.1, a stanovili tato pravidla: 15
Helikální rezidua Glu Ala Leu His⊕ Met Gln Trp Val Phe Lys⊕ Ile Asp Thr Ser Arg⊕ Cys Asn Tyr Pro Gly
Pα 1,53 1,45 1,34 1,24 1,20 1,17 1,14 1,14 1,12 1,07 1.00 0,98 0,82 0,79 0,79 0,77 0,73 0,61 0,59 0,53
Třída Hα
hα
Iα
iα
bα Bα
β-list rezidua Met Val Ile Cys Tyr Phe Gln Leu Thr Trp Ala Arg⊕ Gly Asp Lys⊕ Ser His⊕ Asn Pro Glu
Pβ 1,67 1,65 1,60 1,30 1,29 1,28 1,23 1,22 1,20 1,19 0,97 0,90 0,81 0,80 0,74 0,72 0,71 0,65 0,62 0,26
Třída Hβ
hβ
Iβ iβ
bβ
Bβ
Tabulka 3.1: Rozdělení aminokyselin do tříd metody Chou-Fasman: Hα , Hβ – silný tvůrce; hα , hβ – tvůrce; Iα , Iβ – slabý tvůrce; iα , iβ – indiferentní; bα , bβ – lamač; Bα , Bβ – silný lamač. [2] 1. Najdi skupiny šesti reziduí, které obsahují alespoň čtyři helikální (hα nebo Hα ). Slabě helikální Iα se počítá jako 0.5hα . Úsek se nepočítá, obsahuje-li třetinu a více lamačů šroubovice, nebo méně než polovinu tvůrců šroubovice. 2. Rozšiřuj šroubovici na obě strany, dokud není ukončena tetrapeptidem s hPα i < 1.00. Úsek také může být ukončen lamači šroubovice nebo začátkem β-listu. 3. Prolin se nemůže objevit uvnitř šroubovice nebo na jejím C-konci. 4. Pro, Asp , Glu preferují N-konec šroubovice. His⊕ , Lys⊕ , Arg⊕ preferují C-konec. Pro a Asp blízko N-konce, stejně jako Arg blízko C-konce jsou klasifikovány jako Iα , je-li to nezbytné ke splnění podmínky 1. 5. β-listy: tři β rezidua (hβ nebo Hβ ) ve skupině pěti. Toto neplatí, obsahuje-li skupina třetinu a více lamačů β-listu, nebo méně jak polovinu tvůrců listu. 6. Ukončení β-listu je obdobné ukončení šroubovice. 7. Glu a Pro jsou vzácné v β-regionech. 8. Nabitá rezidua se jen výjimečně objevují na N-konci β-listu a jsou málo četné uvnitř a na C-konci. Trp se vyskytuje zejména na N-konci a jen vzácně na C-konci.
16
Autoři zmiňovali lokálnost metody jako pozitivní vlastnost, umožňující snadný výpočet. Dnes je toto vnímáno jako velká slabina, která způsobuje relativně malou přesnost v porovnání s komplexnějšími přístupy. Naprostým nedostatkem je odvození metody z pouhých 15 známých struktur. [2]
3.3
GOR
Tato metoda, označovaná podle svých autorů Jeana Garniera, D. J. Osguthorpa a Barryho Robsona, byla zveřejněna v roce 1978. Metoda je založená na formalismu teorie informace a Bayesovské statistice. Metoda používá informační funkci I(S; R) definovanou jako: I(S; R) = log
P (S|R) P (S, R) = log P (S) P (R) · P (S)
kde S je jedna ze tří konformací, R jedna z dvaceti aminokyselin, P (S|R) je podmíněná pravděpodobnost výskytu konformace S za přítomnosti rezidua R, P (S) je pravděpodobnost výskytu konformace S, P (S, R) je pravděpodobnost současného výskytu konformace S a rezidua R a P (R) je pravděpodobnost výskytu rezidua R. Tyto pravděpodobnosti mohou být stanoveny na základě frekvence výskytu jednotlivých jevů v databázi známých f struktur, P (S) = fNS , P (R) = fNR a P (S, R) = S,R N , kde N je počet všech aminokyselin v databázi a fx jsou jednotlivé četnosti. Tedy: fS,R · N I(S; R) = log fS · fR Takto mohou být získány všechny hodnoty funkce I(S; R). Další úpravy odstraňují závislost na počtu vzorků v databázi, je zavedena informační diference: fS,R f¬S I(∆S; R) = I(S; R) − I(¬S; R) = log + log f¬S,R fS kde ¬S značí jinou konformaci než je S. Tyto rovnice mohou být rozšířeny pro lokální sekvence polypeptidu tvořené n následujícími aminokyselinami: I(∆Sj ; R1 , . . . , Rn ) = log
P (Sj , R1 , . . . , Rn ) P¬S + log P (¬Sj , R1 , . . . , Rn ) PS
kde P (Sj , R1 , . . . , Rn ) je pravděpodobnost současného výskytu konformace S na pozici j v lokální sekvenci a sekvence R1 , . . . , Rn . Při predikci sekundární struktury se správná konformace určí podle nejvyšší hodnoty informační funkce nebo pravděpodobnosti. Je třeba brát v úvahu, že více konformací může mít pravděpodobnost blízkou nejvyšší hodnotě, pak rozhodnutí nemusí být jednoznačné. [10]
17
3.3.1
GOR I
První verze metody GOR používala okolí osmi reziduí na každou stranu od zkoumané aminokyseliny. Tato vzdálenost byla stanovena na základě porovnání informačního obsahu různě velkých okolí. Při získávání hodnot informační funkce jsou počítány četnosti každé z dvaceti aminokyselin. Přičemž je požadováno, aby centrální reziduum bylo v dané konformaci, ale aproximace předpokládá, že mezi rezidui uvnitř okna sedmnácti aminokyselin nejsou žádné vzájemné vztahy (ačkoliv sekundární struktura je utvářena zejména mezi sousedními aminokyselinami). Tedy: I(∆Sj ; R1 , . . . , Rn ) ≈
8 X
I(∆Sj ; Rj+m )
m=−8
Tato metoda předpovídá čtyři konformace: H (α-helix), E (β-list), C (smyčka) a T (otočka). [10]
3.3.2
GOR III
Aproximace představená v této verzi metody je založená na tzv. párové informaci – využívá korelaci mezi typem předpovídaného rezidua a mezi typy ostatních reziduí v okně: X I(∆Sj ; R1 , . . . , Rn ) ≈ I(∆Sj ; Rj ) + I(∆Sj ; Rj+m |Rj ) m,m6=0
Výraz I(∆Sj ; Rj+m |Rj ) označuje podmíněnou informaci, využívá četností Rj a Rj+m , přičemž Rj je v požadované konformaci S, resp. ¬S (konformace rezidua Rj+m není uvažována). Pro získání všech hodnot informační funkce stačí vyhodnotit četnost 1200 kombinací (dvojice aminokyselin po dvaceti možnostech a tři možné konformace). [10]
3.3.3
GOR V
Pátá verze metody GOR přináší zásadní změnu díky využití evoluční informace. Ideou této úpravy je to, že v průběhu evoluce je struktura konzervovanější než sekvence. Evoluční informace o proteinu je získána jeho zarovnáním vůči příbuzným proteinům. Nejprve je provedeno vícenásobné zarovnání mezi dotazovanou sekvencí a referenční databází. Pro jednotlivá zarovnání jsou pomocí metody GOR určeny pravděpodobnosti jednotlivých konformací; je-li na dané pozice mezera v zarovnání, pravděpodobnost je nulová. Následně je spočítán průměr pravděpodobností na jednotlivých pozicích napříč všemi zarovnáními a dané pozici v proteinu je přiřazena konformace s největší průměrnou pravděpodobností výskytu. Samotný výpočet GOR je inovován dvěma zásadnějšími způsoby. Při výpočtu jsou kromě samostatných reziduí (verze I, II) a dvojic (verze III, IV) používány i trojice reziduí. Velikost okna je proměnlivá, pro kratší proteiny je používáno menší okno – toto má vliv na přesnost predikce zejména na koncích sekvence. [17]
18
3.4
ZPRED
Tuto metodu představili Markéta Zvelebil a kol. v roce 1987. Metoda rozšiřuje metodu GOR, vychází z idei konzervovanosti proteinů a z pozorování, že největší rozdíly mezi zarovnanými homologními proteiny jsou v oblastech smyček spojujících ostatní prvky sekundární struktury. Nejprve je vytvořeno vícenásobné zarovnání pomocí opakovaného použití algoritmu Needleman-Wunsch. Mějme tedy N aminokyselinových sekvencí (označených jako sekvence 1 až sekvence N ). Nejprve je zarovnána sekvence 2 oproti sekvenci 1, pak je zarovnána sekvence 3 proti zarovnání sekvencí 1 a 2, a tak dále pro sekvence 4 až N . Poté je znovu zarovnána sekvence 1 proti sekvencím 2 až N , sekvence 2 proti sekvencím 1, 3, 4 až N , atd. Pro každou pozici i v řetězci je spočítáno ”konzervační číslo” Ci ∈ h0, 1i. Je porovnáváno deset chemických vlastností (hydrofobní, pozitivní, negativní, nabitá, polární, malá, maličká, alifatická, aromatická, je to prolin) a za každou vlastnost, v níž se zarovnané aminokyseliny na dané pozici liší, je zvýšena hodnota čítače P . Hodnota Ci je vypočítána jako 0, 9 − 0, 1P . Pokud jsou všechny aminokyseliny na dané pozici stejné, je Ci = 1, 0. Hodnota Ci je ještě upravena v případě výskytů mezer v zarovnání nebo určitých aminokyselin. Zprůměrováním přes tři rezidua (i-1, i, i+1) je určena vyhlazená hodnota CSi . Tato hodnota může být použitá ke zpřesnění predikce struktury – smyčky obvykle mají nízkou hodnotu CSi . Ještě je vypočítána průměrná konzervační hodnota pro celý protein Cav a je stanovena hodnota konstanty A (která reflektuje míru konzervovanosti proteinu, optimální hodnota je mezi 150 a 250). Je vypočítán rozdíl mezi průměrnou a vyhlazenou konzervační hodnotou, A(CSi −Cav ) a tento rozdíl je přičten k hodnotám informační funkce metody GOR pro α-helix a β-vlákno. [29]
3.5
PHD
Metoda je založená na neuronových sítích, představili ji Burkhard Rost a Chris Sander v roce 1993. Používá tři dopředné vícevrstvé sítě. První síť klasifikuje sekvenci proteinu do tří tříd sekundární struktury (α-helix, βlist, smyčka). Vstupem je vícenásobné zarovnání sekvencí. Jeden vzorek tvoří zarovnání 13 následujících reziduí, každé reziduum v okně je reprezentováno 20 frekvencemi pro jednotlivé aminokyseliny. Výstupem je konformace centrálního rezidua. Okno je posouváno reziduum po reziduu celým proteinovým řetězcem. Aby okno mohlo přesáhnou přes konce řetězce, jsou vstupní neurony doplněny o 21. vstup, který indikuje prostor mimo řetězec. Druhá síť realizuje korelaci mezi sousedními rezidui, převádí strukturu na strukturu (například se snaží odstranit nereálně krátké úseky sekundární struktury). Jejím vstupem je 17 výstupů první sítě, výstup opět tvoří tři neurony pro tři možné konformace prostředního rezidua. Třetí síť odstraňuje citlivost neuronové sítě na koeficienty učení a nastavení počátečních vah. Kombinuje výstupy několika sítí druhé a první úrovně, naučených s různými parametry. [23]
19
3.6
NNSSP
NNSSP je implementačně poměrně jednoduchá metoda, využívající nejbližšího sousedství a vícenásobného zarovnání. Jejími tvůrci jsou Asaf A. Salamov a Victor V. Solovyev, publikovali ji v roce 1995. Metoda postupuje 19prvkovým oknem, nalezne pro něj v databázi známých struktur 60 až 85 nejpodobnějších sekvencí a provede jejich vícenásobné zarovnání. Určí, která konformace se nejčastěji vyskytuje na centrální pozici a tuto předpoví pro centrální reziduum. Protože metoda předpovídá sekundární strukturu pro jednotlivá rezidua nezávisle, vzniká mnoho nereálně krátkých helixů a β-vláken. Proto je použita dodatečná filtrace, která podle určitých pravidel odstraňuje tyto krátké úseky – buď je označí za smyčku, nebo je spojí do delšího úseku sekundární struktury. [24]
3.7
DSC
DSC (Discrimination of Secondary structure Class) je metoda založená na dekompozici predikce sekundární struktury na základní koncepty a pak na jejich jednoduché kombinaci pomocí lineárních statistických metod. Na rozdíl od jiných metod typu ”černá skříňka” (např. neuronové sítě) je její výpočet zcela transparentní. Publikovali ji Ross D. King a Michael J. E. Sternberg v roce 1996. Metoda začíná zarovnáním homologních sekvencí. Pro každou pozici rezidua počítá: střední GOR potenciál pro každou třídu sekundární struktury, vzdálenost ke konci řetězce, střední moment hydrofobicity za předpokladu α-helixu a β-vlákna, existence insercí, existence delecí a střední moment konzervovanosti sekundární struktury pro α-helix a β-vlákno. Těchto deset atributů je poté vyhlazeno a použitím lineární diskriminace je získána první úroveň predikce. Je spočítán podíl výskytů α-helixů a β-vláken a také poměr výskytu určitých aminokyselin v řetězci. Tyto hodnoty jsou použité pro další lineární diskriminaci a je získána predikce druhé úrovně. Lineární diskriminace nemůže podchytit všechny vlastnosti sekundární struktury, jako je např. autokorelace, zpětnovazební efekty sekundární struktury a omezení pro nejbližší okolí vyplývající ze struktury. Zpětná vazba je modelována ve dvou úrovních pomocí vyhlazených atributů a pomocí úseků α-helixů a β-vláken (úseky smyček by byly redundantní, lze je získat z míry výskytu α-helixů a β-vláken). Vyhlazování je prováděno pomocí standardních mediánových filtrů a Hanningova vyhlazování. Finální výsledek je ještě filtrován na odstranění nereálně krátkých úseků sekundární struktury. [16]
3.8
PREDATOR
PREDATOR je metoda založená na znalostech a párovém zarovnání, publikovali ji Dmitrij Frishman a Patrick Argos v roce 1997. Na rozdíl od jiných metod nepoužívá vícenásobné zarovnání, ale místo toho zarovná samostatně zkoumanou sekvenci vůči jednotlivým sekvencím v databázi a do dalšího výpočtu uvažuje pouze úseky, které jsou dostatečně podobné. Pro každou vybranou sekvenci či její úsek metoda počítá tendence k vytvoření sedmi různých typů sekundární struktury. Tři zahrnují interakce na dlouhé vzdálenosti – potenciální tvorbu vodíkových můstků mezi aminokyselinami v antiparalelním β-vlákně, v paralel20
ním β-vlákně a v α-helixu; tři další vycházejí z podobnosti zkoumané sekvence a sekvencí se známou strukturou (nejbližší sousedství) – tendence vytvářet helix, β-vlákno a smyčku; a pravděpodobnost smyčky v okně čtyř reziduí. Výsledné tendence pro každou pozici v řetězci jsou spočítány jako vážený součet tendencí jednotlivých sekvencí. Váhy jsou odvozeny z podobnosti mezi zkoumanou sekvencí a zarovnaným úsekem. Pomocí několika pravidel a stanovených prahových hodnot jsou hodnoty tendencí převedeny na prvky sekundární struktury. Posledním krokem je postprocesing, který odstraňuje příliš krátké úseky sekundární struktury. [9]
3.9
JPred
JPred je webový server poskytující interaktivní predikci sekundární struktury proteinu. V roce 1998 ho vytvořili James A. Cuff a kol. V době svého vzniku kombinoval predikci šesti tehdy nejdůležitějších metod. Server přijímá dva typy vstupních dat, rodinu zarovnaných proteinových sekvencí nebo jednu sekvenci. Je-li vstupem jedna sekvence, server automaticky vytvoří vícenásobné zarovnání potřebné pro predikci. Použité metody byly zvoleny tak, aby reprezentovaly tehdejší stav na poli predikce, každá používala jinou heuristiku. NNSSP využívá nejbližší sousedství, DSC lineární diskriminaci, PHD rozhodovací neuronové sítě, PREDATOR používá schopnost vytvářet vodíkové můstky, MULPRED konsensus několika jedno-sekvenčních metod a ZPRED je založena na konzervovanosti proteinů. Server navrací graficky zvýrazněné predikce jednotlivých metod, zarovnané oproti rodině sekvencí. Výstup také obsahuje pro každou aminokyselinu fyzikálně-chemické vlastnosti, úspěšnost predikce a hodnotu konzervovanosti. Server také navrací konsensuální výsledek získaný prostou většinou z metod NNSSP, DSC, PREDATOR a PHD. V případě nerozhodného výsledku je použit výsledek získaný metodou PHD. Tato kombinace byla v nezávislém testu autorů zvolena jako nejlepší, s nejvyšší úspěšností predikce. [6]
3.10
PSIPRED
Metoda PSIPRED byla publikována v roce 1999, jejím autorem je David T. Jones. Tato metoda využívá neuronových sítí a evoluční informace získané vícenásobným zarovnáním sekvencí. Výpočet má tři fáze: generování sekvenčních profilů, prvotní odhad sekundární struktury a konečné filtrování předpovězené struktury. V první fázi je iterativně použit algoritmus PSI-BLAST pro získání pozičně specifických skórovacích matic (PSSM). PSSM v algoritmu PSI-BLAST slouží jako mezikrok před vytvořením vícenásobného zarovnání. Vytváření vícenásobného zarovnání je časově velmi náročné, PSIPRED tento krok vynechává a jako vstup do další fáze mu slouží přímo PSSM. Matice PSSM ke každé pozici v sekvenci proteinu obsahuje dvacet pravděpodobností (podle dvaceti aminokyselin) náhrady residua na dané pozici. Tyto pravděpodobnosti vychází z matice BLOSUM62. V závislosti na pokrytí dosaženém při zarovnávání sekvencí mohou být prvky v PSSM založeny na několika sekvencích nebo odpovídají pouze zkou-
21
mané sekvenci (v tom případě jsou prvky v PSSM identické s příslušným sloupcem v matici BLOSUM62). Druhá fáze je tvořená neuronovou sítí. Jedná se o standardní dopřednou síť typu backpropagation. Při učení sítě bylo 10 % trénovacích dat ponecháno stranou a sloužilo pouze pro testování: ve chvíli, kdy chyba testovacích dat přestala klesat a začala stoupat, bylo učení ukončeno (tím je zamezeno přeučení neuronové sítě). Neuronová síť načítá 15 sousedních pozic z PSSM, ke 20 hodnotám pro standardní aminokyseliny přidává ještě jeden vstup indikující N- a C-konec proteinového řetězce, celkově tedy obsahuje 315 vstupů. Síť dále tvoří jedna skrytá vrstva o 75 neuronech a tři výstupní uzly, které reprezentují základní konformace (α-helix, β-vlákno a smyčka). Na dodatečnou filtraci postupných výsledků slouží druhá neuronová síť. Tato síť má 60 vstupů (zkoumá 15 výstupů první sítě, každý výstup může být v jedné ze tří konformací nebo obsahovat ukončení řetězce), síť dále obsahuje 60 neuronů ve skryté vrstvě a tři výstupní uzly (opět jeden výstup pro jednu ze tří konformací). Ačkoliv je tato metoda výpočetně relativně nenáročná, poskytuje kvalitní výsledky. [14]
3.11
Jnet
Tato metoda je založená na neuronových sítích; je podobná metodě PHD. Byla publikována v roce 2000, autory jsou James A. Cuff a Geoffrey J. Barton. Tvoří ji tři úrovně neuronových sítí: první úroveň provádí mapování sekvence-struktura, druhá struktura-struktura, třetí posuzuje a vybírá nejlepší výsledek. Na první úrovni je síť s posuvným oknem o 19 prvcích, obsahuje devět skrytých uzlů a tři výstupní. Druhá síť má za vstup okno 19 výstupů první sítě a opět má devět uzlů ve skryté vrstvě a tři uzly výstupní. Metoda je zaměřena na kvalitu trénovacího procesu. Pro trénování neuronových sítí je použito několik typů vícenásobných zarovnání stejných sekvencí. Pokud nedojde ke shodě při vybírání výsledné konformace, jsou sporné pozice v proteinu použity pro trénování separátní neuronové sítě a výstup z této nové sítě je použit jako predikce pro sporná rezidua. Díky tomu bylo dosaženo zvýšení úspěšnosti predikce. Také se zlepšila důvěryhodnost výsledků. [5]
3.12
NPS@
NPS@ je webový server, který zaštiťuje řadu nástrojů pro zpracování proteinových sekvencí. Byl vytvořený v roce 2000, jeho autory jsou Christophe Combet a kol. Server obsahuje nástroje umožňující vyhledávat homologní sekvence, vytvářet podmnožiny příbuzných sekvencí, provádět vícenásobné zarovnání, předpovídat sekundární strukturu a generovat konsensuální strukturu, zobrazovat fyzikálně-chemické profily (hydrofobicitu, membránové regiony apod.), detekovat funkční místa, předpovídat umístění coiled-coil regionů a identifikovat možné helix-turn-helix motivy. Z nástrojů pro sekundární predikci server obsahuje metody DPM, DSC, GOR I, GOR III, GOR IV, HNN, MLRC, PHD, PREDATOR, SIMPA96, SOPM a SOPMA. [3]
22
3.13
Shrnutí metod predikce sekundární struktury proteinů
Všechny soudobé metody jsou si do určité míry podobné. Obvykle mají stejnou třístupňovou architekturu a liší se jen klasifikačními metodami použitými v jednotlivých stupních (přičemž kvalita jejich výsledků je navzájem srovnatelná, žádná metoda nevyčnívá výrazně nad ostatní). První stupeň provádí mapování z prostoru sekvencí do prostoru struktur, druhý stupeň mapuje strukturu na strukturu (např. se snaží zpracovat nelokálnost β-vláken, uplatňuje omezení vyplývající ze sousedství různých konformací, aj.) a třetí stupeň provádí dodatečnou filtraci, během které opravuje chyby (nereálně krátké struktury apod.) vzniklé v předešlých stupních. Vstupem většiny metod je vícenásobné zarovnání homologních sekvencí. Tato podobnost možná znamená, že to je nejlepší možný způsob pro predikci. Nebo možná přesně naopak, že existuje mnohem lepší metoda založená na úplně jiném principu, jen ji ještě nikdo neobjevil. . . Tato podobnost naznačuje, že vývoj predikčních metod by mohl probíhat modulárně, jednotlivé stupně by mohly být navrhovány, vytvářeny, testovány a zdokonalovány nezávisle na sobě a při použití by si uživatel zvolil tu nejvhodnější kombinaci podle svých specifických záměrů. Na závěr této části si dovolím malou prognózu do budoucna – význam predikčních metod sekundární struktury bude klesat, protože s rozvojem metod predikce 3D struktury dojde k tomu, že bude přesnější stanovit celou prostorovou strukturu a z ní vyextrahovat informace o sekundární struktuře. Současně s tím poklesne i zájem o sekundární strukturu, protože její znalost již nebude mít velký praktický význam.
23
Kapitola 4
Návrh evolučních experimentů Tato kapitola se zabývá popisem plánovaného experimentu. Cílem experimentování je posoudit závislost mezi změnou sekvence proteinu a změnou jeho sekundární struktury. Tedy budu mutovat aminokyselinovou sekvenci proteinu a sledovat, jak se proměňuje jeho sekundární struktura. Podobný experiment již byl představen v článku Protein secondary structure appears to be robust under in silico evolution while protein disorder appears not to be [25].
4.1
Kostra experimentu
Samotný výpočet bude řešen nezávisle pro každý jednotlivý protein z testovací množiny. Pro tento nativní protein bude zjištěna jeho sekundární struktura a tato struktura bude sloužit jako referenční struktura po zbytek experimentu. Sekvenci každého proteinu budu postupně mutovat ve zvoleném počtu kroků. Po každém mutačním kroku zjistím sekundární strukturu vzniklého mutanta a vyhodnotím, jak moc se změnila struktura mutanta ve srovnání se strukturou původního proteinu. Výstupem experimentu jsou grafy, které zobrazí vzájemný vztah mezi mírou odlišnosti původní a zmutované sekvence a mezi mírou odlišnosti sekundárních struktur původní a zmutované sekvence. Na obrázku 4.1 je znázorněno schéma tohoto experimentu.
4.2
Mutační protokol
V rámci jednoho mutačního kroku dojde ke zmutování předem zvoleného počtu aminokyselin v proteinu. Počet mutovaných reziduí bude zadán poměrně vůči délce proteinové sekvence, tak, aby počet mutovaných aminokyselin byl úměrný délce proteinu. Tím je zajištěno, aby různě dlouhé proteiny byly během jednoho kroku postiženy mutací ve stejné míře. Při každé jednotlivé mutaci aminokyseliny je náhodně vybrána pozice v sekvenci a zde se nacházející aminokyselina je náhodně nahrazena jinou aminokyselinou. Při mutaci může dojít k i tomu, že se aminokyselina nezmění – v přírodě tomu odpovídají synonymní mutace nukleotidů (zmutovaný i původní kodon kódují tutéž aminokyselinu), také to vyjadřuje evoluční stabilitu na dané pozici, kdy přírodní výběr potlačuje zde vzniklé mutace.
24
Původní sekvence
XXX
XX z
Původní sekundární struktura
B 6
B B
B mutace B BBN
Zmutovaná sekvence
porovnání
XX XXX z
Zmutovaná sekundární struktura
Obrázek 4.1: Schéma experimentu (iterace pro jeden protein). Pravděpodobnosti záměn pro každou dvojici aminokyselin, stejně tak jako počet aminokyselin mutovaných v jednom kroku, musí být modifikovatelné v konfiguraci simulátoru evoluce.
4.3
Získání sekundární struktury
Ke zjišťování sekundární struktury zmutovaných sekvencí bude nutné použít nějakou predikční metodu, protože se nejedná o reálně existující proteiny, u nichž by mohla být struktura zjištěna experimentálně. Budu používat metodu PSIPRED. Je to metoda, která poskytuje kvalitní výsledky v rozumném čase a je dostupná ve stand-alone verzi. [14] [26] U některých nativních proteinů (které se vyskytují v prvním kroku výpočtu) může být známá jejich skutečná struktura. Zde by pak existovala možnost použít tuto skutečnou strukturu jako referenční, vůči které by se vyhodnocovaly změny sekundární struktury jednotlivých mutantů. Tím by ale došlo k zanesení systematické chyby do experimentu: za předpokladu, že predikční metoda není absolutně bezchybná, musí pro některé proteiny existovat rozdíl mezi skutečnou a predikovanou sekundární strukturou. Při použití skutečné struktury jako referenční by pak tento rozdíl poznamenal všechna porovnání predikované struktury zmutovaných sekvencí s referenční strukturou. Proto je nezbytně nutné, aby referenční sekundární struktura byla získána stejným způsobem, jakým bude zjišťována struktura mutantů. K vyhodnocení odlišností sekundárních struktur budu používat metriku Q3 (třístavovou podobnost). Není to tedy použití metriky k jejímu původnímu účelu (změření chyby predikce), ale způsob použití je naprosto stejný.
4.4
Podmínka ukončení
V experimentu má smysl pokračovat jen do té doby, dokud je zmutovaná sekvence alespoň trochu podobná původní sekvenci. Kdyby výpočet pokračoval, jakékoliv zjištěné informace by už neměly vztah k původnímu proteinu, ale popisovaly by vlastnosti náhodné aminokyselinové sekvence. 25
Nabízí se několik způsobů, jak určit okamžik, kdy už zmutovaná sekvence není té původní podobná: • využít sekvenční podobnosti a zastavit výpočet, když podobnost klesne pod určitou hodnotu • sledovat měnící se podobnost sekvencí a zastavit výpočet, když se podobnost přestane zhoršovat (resp. se zhorší o méně, než je nějaká nastavená hodnota) • porovnávat podobnost vůči původní sekvenci a také vůči náhodně vygenerované aminokyselinové sekvenci, výpočet bude ukončen, až bude zmutovaná sekvence podobnější náhodné sekvenci více, než té původní Bez ohledu na zvolený způsob ukončení by zřejmě došlo k tomu, že pro různé proteiny by se zvolená podmínka vyhodnotila různě (ačkoliv, protože jeden mutační krok postihuje všechny proteiny přibližně stejnou měrou, měla by evoluce všech proteinů trvat přibližně stejně dlouho). Pro statistické zpracování výsledků je ale výhodné, aby výpočty u všech proteinů trvaly stejný počet kroků. Proto nebudu dobu trvání experimentu zjišťovat dynamicky během výpočtu, ale nastavím ji napevno pro všechny proteiny stejně. Počet kroků bude stejný pro všechny opakování experimentu s daným nastavením mutačního protokolu. Pro každé nastavení tedy budu muset nejprve zjistit ideální počet kroků a ten pak použít.
4.5
Rozšiřující experimenty
V předchozích sekcích je popsán základní experiment, který bych později chtěl několika způsoby rozšířit: • Chci provést experimenty i s náhodnou aminokyselinovou sekvencí. Tyto experimenty poslouží jako kontrolní vzorek: pokud při nich nebudou pozorovány stejné výsledky jako během předchozích experimentů, poslouží to jako důkaz, že pozorované výsledky jsou specifickou vlastností nativních proteinových sekvencí. • Mutační protokol je možné ovlivnit volbou různých pravděpodobnostních matic. Chci vyzkoušet jejich vliv na průběh mutací. • Další možnou úpravou experimentu je uplatnění predikce škodlivosti mutace. Je to úprava mutačního protokolu: po vygenerování mutace bude posouzena její škodlivost a mutace bude uplatněna pouze pokud není škodlivá. Tím by se simulovaná evoluce ještě více přiblížila procesům, které probíhají v přírodě – v přírodě mutace vznikají víceméně náhodně, ale pokud je mutace škodlivá, postižený jedinec má menší šanci se rozmnožit a tak se škodlivá mutace nerozšíří v populaci a bude pozorována jen s velmi malou pravděpodobností. • Také chci pozorovat chování proteinů v závislosti na složení jejich sekundární struktury.
26
Kapitola 5
Simulační nástroj a jeho implementace V této kapitole popisuji implementaci simulátoru určeného pro experimenty s evolucí proteinových sekvencí, navrženého v předchozí kapitole. Program jsem implementoval v jazyce Java.
5.1
Struktura aplikace
Aplikace je rozdělena do pěti tříd. Největší význam mají třídy MutationSimulator, která tvoří jádro programu, a Sequence, které zapouzdřuje aminokyselinovou sekvenci a funkce pro vytváření a vyhodnocování mutantů. Zbylé třídy mají spíše charakter podpůrných knihoven, FileReader načítá proteiny ze souborů, MutationProtocol slouží k vytváření zmutovaných sekvencí a SecondaryStructure zapouzdřuje získání sekundární struktury k zadané sekvenci.
5.2
Třída Sequence
Objekty typu Sequence slouží k uchování aminokyselinové sekvence použitého proteinu a k provádění všech operací vztažených k tomuto proteinu. Základ objektu tvoří textový řetězec (String) uchovávající sekvenci proteinu, variabilní řetězec (StringBuffer) obsahující zmutovanou sekvenci a řetězec se sekundární strukturou původního proteinu. Objekt dále obsahuje reference na objekt typu MutationProtocol a objekt typu SecondaryStructure, tyto objekty používá k realizování svých některých funkcí. Oba tyto objekty jsou přiřazeny až během existence daného objektu typu Sequence a mohou být za běhu programu změněny. Vytváření mutantní sekvence probíhá náhradou znaku (symbolizující některou aminokyselinu) na náhodně vybrané pozici ve zmutované sekvenci za jiný znak. Nový znak je generován metodou objektu MutationProtocol, pravděpodobnosti pro náhodný výběr jednotlivých nových aminokyselin v závislosti na původní aminokyselině jsou součástí konfigurace tohoto objektu. Tato náhrada náhodně zvoleného znaku za jiný je (v rámci jednoho mutačního kroku) provedena tolikrát, kolikrát bylo nastaveno v konfiguraci simulátoru. Na počátku výpočtu je mutantní sekvence inicializována původní sekvencí proteinu.
27
Obsažený objekt typu SecondaryStructure poskytuje objektům Sequence výpočet sekundární struktury. Vygenerování referenční struktury z nativní sekvence proteinu je automaticky uskutečněno při přiřazení objektu SecondaryStructure do daného objektu Sequence. Struktura pro zmutovanou sekvenci je znovu generována až na vyžádání, vždy po změně mutantní sekvence. Poslední částí třídy Sequence, kterou je vhodné zmínit, je vytváření statistik. Program vytváří statistiky pro podobnost sekvencí původního proteinu a jeho mutantů a pro podobnost jejich sekundárních struktur. Podobnost sekvencí je vyjádřena pomocí párové podobnosti – počet shodných reziduí na odpovídajících si pozicích v sekvencích dělený délkou sekvence – a pomocí podobnosti podle skórovací matice (skórovací matice je součástí skóre −skórenejhorší objektu MutationProtocol). Tato hodnota je získána jako skóreaktuální . Aktuální nejlepší −skórenejhorší skóre je získáno sečtením hodnot skórovací matice odpovídajících dvojicím aminokyselin na jednotlivých pozicích v proteinu/mutantovi. Nejlepší skóre je spočítáno jako skóre zarovnání proteinu samého se sebou (nebude-li skórovací matice dávat maximální hodnocení pro identickou dvojici aminokyselin, mohlo by se stát, že některý mutant bude původnímu proteinu podobný více než 100procentně). Nejhorší skóre je získáno trochu složitějším způsobem: pro každou jednotlivou aminokyselinu je ve skórovací matici nalezeno skóre pro nejhorší možné porovnání (tzn. minimum ve sloupci patřícího příslušné aminokyselině) a pro všechny aminokyseliny v sekvenci proteinu jsou sečteny hodnoty těchto minim. Podobnost struktur je vyjádřena pomocí metriky Q3 (třístavová podobnost) a pomocí metrik QH , QE , QC (podobnost pro jednotlivé typy sekundární struktury). Dále je ještě spočítáno poměrné zastoupení jednotlivých konformací ve struktuře mutanta.
5.3
Třída FileReader
Tato třída pomocí statických metod zajišťuje načtení proteinových sekvencí ze zadaného adresáře nebo souboru. Všechny metody navrací seznam načtených sekvencí (ArrayList<Sequence>). Jednotlivé metody načítají obsah datových souborů různých typů obsažených v testovacích množinách. Jedna metoda je univerzální – pokud je jí předán soubor, zjistí jeho typ a použije příslušnou specifickou metodu; pokud je jí předán adresář, použije se rekurzivně na všechny jeho podadresáře a obsažené soubory.
5.4
Třída MutationProtocol
Instance této třídy uchovává matici pravděpodobností pro jednotlivé mutace. Při svém načtení je matice po sloupcích (substituční matice se obvykle čtou po sloupcích: v horizontálním záhlaví jsou původní aminokyseliny a v příslušných sloupcích pak jsou skóre pro jednotlivé náhrady – program tento způsob použití matice zachovává) normována, aby součet pravděpodobností v každém sloupci dal hodnotu jedna. Díky tomu tuto podmínku nemusí splňovat načtená matice, která tak může být zadána v lidsky příjemnější podobě. Načtená a znormovaná matice je poté postupně sečtena na matici kumulativních sloupcových součtů. Při generování aminokyselinové mutace je podle zadané aminokyseliny zvolen příslušný sloupec kumulativní matice, je vygenerováno náhodné číslo z intervalu h0, 1) a zvolený sloupec je postupně procházen, dokud je náhodná hodnota větší než číslo ve sloupci
28
(poslední položka sloupce vždy obsahuje hodnotu jedna (součet všech pravděpodobností ve sloupci), vyhledávání se tedy nejpozději zde vždy zastaví). Objekt dále obsahuje skórovací matici, určenou pro výpočet podobnosti sekvencí proteinů. Funkce poskytující skóre podobnosti dvou aminokyselin navrací příslušnou hodnotu ve skórovací matici. Funkce pro nejhorší možné skóre porovnává skóre srovnání zadané aminokyseliny se všemi aminokyselinami v matici a nalézá minimální hodnotu. Obě matice jsou načteny ze zadaného konfiguračního souboru v kostruktoru objektu.
5.5
Třída SecondaryStructure
Tato třída zapouzdřuje výpočet sekundární struktury. Jejím parametrem při vytváření instance je cesta k programu PSIPRED. Třída má jedinou metodu, která jako svůj parametr přijímá textový řetězec – sekvenci proteinu – a navrací jiný řetězec – jeho strukturu. Tato metoda uloží sekvenci proteinu do dočasného souboru, pomocí konstrukce Process p = Runtime.getRuntime ().exec("runpsipred soubor"); spustí PSIPRED, soubor mu předá ke zpracování a načte a zpracuje výsledek predikce.
5.6
Třída MutationSimulator
Tato třída zajišťuje hlavní smyčku programu. Program nejprve načte konfigurační parametry z příkazové řádky – požadovaný počet kroků mutace, počet aminokyselin zmutovaných během jednoho kroku, cestu k datovým souborům, konfiguraci mutačního protokolu, cestu k predikčnímu nástroji. Poté načte proteinové sekvence pomocí metody třídy FileReader. Vytvoří instance objektů MutationProtocol a SecondaryStructure a inicializuje je podle zadaných parametrů. Nyní program postupně prochází seznam sekvencí. Každé sekvenci předá vytvořené instance MutationProtocol a SecondaryStructure. Nyní program zopakuje tyto kroky: 1. vygenerování mutantní sekvence, 2. její výpis, 3. určení a vypsání její sekundární struktury, 4. vyhodnocení statistik a jejich výpis.
5.7
Grafy typu boxplot
K zobrazení získaných dat budu převážně používat grafy typu boxplot [19]. Každý takový graf ve velice kompaktní formě zobrazuje pět statistických údajů: 1. minimum, 2. první kvartil, 3. medián (druhý kvartil), 4. třetí kvartil, 5. maximum. 29
Graf je tvořen obdélníkem doplněným dvojicí svislých čar, které z něj vybíhají. Spodní, resp. horní souřadnice obdélníku jsou dány hodnotou prvního, resp. třetího kvartilu, výška obdélníku tedy odpovídá mezikvartilové vzdálenosti (IQR). Šířka obdélníku nenese žádný význam. Vybíhající svislé čáry dosahují hodnot maxima, resp. minima a bývají zakončené vodorovnou příčkou. (Tento popis platí pro boxplot orientovaný vertikálně, v případě horizontální orientace je vše otočené.) Často se používá modifikace, kdy svislé čáry dosahují extrémů pouze pokud jsou kratší než 1, 5-násobek mezikvartilové vzdálenosti. Pokud by měly být delší, jsou oříznuty na 1,5násobek IQR. Jinou často užívanou variantou je oříznutí dat na úrovni určitého percentilu (např. 2 % a 98 %). První modifikace má výhodu v tom, že zobrazení je vždy provedeno v určitém pevně daném rozsahu. Druhá varianta lépe vystihuje rozložení odlehlých dat – ale není nijak určené, jaké maximální vzdálenosti graf dosáhne. Protože budu zobrazovat zejména podobnosti, což jsou údaje z intervalu h0, 1i, mám jistotu, že data budou omezena v daném rozsahu. Můžu tedy bezpečně používat druhou variantu ořezávání. V této práci budu používat hranici ořezu 95 % – tato hodnota se mi při vizualizaci mých výsledků osvědčila jako nejnázornější. Určitou nevýhodou grafu typu boxplot je to, že z něj není poznat, kolik záznamů je shrnuto jedním diagramem. Toto nepředstavuje žádný problém, pokud je použito dostatečně mnoho záznamů – pak mají statistické údaje dostatečnou vypovídající hodnotu. Ale pokud je záznamů málo, nejsou statistické údaje tak spolehlivé – snadno se může stát, že nějaká extrémní hodnota ovlivní celý graf – a uživatel tuto situaci z grafu nijak nepozná.
30
Kapitola 6
Experimenty V této kapitole uvádím jednotlivé experimenty, které jsem provedl, a popisuji jejich výsledky. Základním experimentem bylo vyzkoušet, jak se proměňuje sekundární struktura proteinu, pokud postupně měním jeho aminokyselinovou sekvenci. Později jsem toto vyzkoušel i pro náhodné posloupnosti aminokyselin a sledoval jsem rozdíl v chování oproti skutečným proteinům. Při dalších pokusech jsem použil jiné pravděpodobnosti jednotlivých mutací a vyloučil škodlivé mutace. V závěrečném experimentu hledám závislost mezi obsahem jednotlivých konformací v sekundární struktuře proteinu a mírou, s jakou se jeho sekundární struktura změnila během mutací. Pro experimentování jsem použil proteinové sady RS126 [23] a CB513 [4]. Sada RS126 obsahuje 126 globulárních proteinů, které nejsou navzájem homologní (vzájemná párová podobnost je menší než 25 %). Sadu CB513 tvoří 513 proteinů, vznikla připojením dalších proteinů k RS126; proteiny nejsou vzájemně homologní. Nehomolognost byla posuzována podle přesnějších kriterií než při tvorbě RS126. Podstatou experimentů je postupné vytváření mutantů jednotlivých proteinů. Za použití simulátoru popsaného v kapitole 5 zvoleným způsobem mutuji sekvenci proteinu a sleduji změny v jeho sekundární struktuře. Návrh experimentů je podrobně popsán v kapitole 4.
6.1
Rychlost rozpadu sekundární struktury
Při tomto experimentu jsem použil pravděpodobnosti jednotlivých mutací podle matice PAM120. Během jednoho kroku jsem nechal zmutovat 10 % reziduí. Použil jsem 70 mutačních kroků (sekvenční podobnost zde dosahuje hodnot pod 10 % a dále se snižuje jen pozvolna). Simulaci evoluce jsem několikrát zopakoval a dále jsem vyhodnocoval souhrnné výsledky všech průběhů. Na diagramu na obrázku 6.1 je podrobně zobrazen vývoj sekundární struktury pro jednu mutační řadu jednoho konkrétního proteinu (příslušné aminokyselinové sekvence jsou uvedeny v příloze A.2). Jsou zde vidět určité úseky, ve kterých zůstala sekundární struktura relativně stejná po celou dobu mutace; případně se pouze mění typ struktury z α-helixu na β-vlákno a naopak (ale nedošlo k úplnému rozpadu na náhodnou smyčku). Jsou zde i úseky, kde byla sekundární struktura zcela porušena a později byla znovu obnovena. Což znamená, že ačkoliv je sekvence v daném úseku porušena natolik, že už si neudrží svoji strukturu (má tedy spíše charakter náhodné posloupnosti aminokyselin než části proteinové 31
α-helix (H) β-vlákno (E) smyčka (C)
průběh mutace
? -
sekvence Obrázek 6.1: Graf vývoje sekundární struktury během postupných mutací. Je vidět, že ačkoliv se sekundární struktura proteinu mění, některé úseky zůstávají relativně konzervované i delší dobu. V některých úsecích je dokonce struktura po svém porušení znovu obnovena. sekvence), přesto je zde určitá paměť“, umožňují strukturu obnovit. Z tohoto úhlu pohledu ” je sekundární struktura proteinu velice odolná. Na grafu na obrázku 6.2 jsou zobrazeny výsledky tohoto experimentu. Je zde zobrazena závislost mezi sekvenční (párová podobnost) a strukturní (metrika Q3 ) podobností proteinů. Z grafu je patrné, jak podobnost sekundárních struktur proteinů klesá úměrně s jejich klesající sekvenční podobností. Identické proteiny mají i identickou strukturu, ale zmutované sekvence, které už jsou sekvenčně zcela odlišné, si ještě pořád uchovávají určitou strukturní podobnost se svou původní sekvencí. V tuto chvíli se strukturní podobnost pohybuje cca v rozmezí 35–50 %, ale náhodné shodě u použité metriky Q3 odpovídá hodnota 33 %. Platí tedy, že ačkoliv sekvence proteinu se změnila natolik, že protein sám sobě už není vůbec podobný, je stále zachována určitá míra podobnosti jeho sekundární struktury. Při experimentu jsem získal i další data, jejich vzájemné vztahy jsou zajímavé, ale pro mé experimenty nemají přímý význam. Pro ilustraci je uvádím v příloze A.1.
6.2
Mutace struktury náhodných sekvencí
Cílem tohoto experimentu je posoudit, zda odolnost sekundární struktury vůči mutacím je specifickou vlastností v přírodě se vyskytujících proteinů, nebo zda se jedná o obecnou vlastnost platnou pro všechny sekvence aminokyselin. Porovnávám rychlost rozpadu sekundární struktury u proteinů a u náhodně vygenerovaných sekvencí aminokyselin. Data pro nativní proteiny již znám z předchozího pokusu, pouze musím dopočítat hodnoty pro náhodné sekvence. Aby vzájemné srovnání bylo co nejméně zkreslené jinými vlivy, použil jsem naprosto stejnou konfiguraci simulátoru jako v předchozím případě. Také počet náhodných sekvencí byl stejný jako počet proteinů v předchozím pokusu a náhodné sekvence měly tutéž délku, jako jednotlivé proteiny.
32
1 0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 párová podobnost
0.3
0.2
0.1
0
Obrázek 6.2: Graf závislosti mezi sekvenční a strukturní podobností proteinů. Je zde vidět úměra mezi porušením sekvence a porušením struktury; ale i pro zcela odlišné sekvence je zde zachována určitá míra podobnosti jejich sekundárních struktur.
1 náhodné CB513
0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 párová podobnost
0.3
0.2
0.1
0
Obrázek 6.3: Srovnání vývoje struktury pro nativní proteiny a pro náhodné sekvence aminokyselin. Je patrné, že není velký rozdíl mezi různými daty. 33
Na obrázku 6.3 je graf zobrazující srovnání obou výpočtů. Je zde vidět, že hodnoty pro obě skupiny dat se téměř neliší. Proto si myslím, že schopnost udržet si svou sekundární strukturu je obecnou vlastností aminokyselinových sekvencí.
6.3
Mutační pravděpodobnosti odvozené z genetického kódu
Pravděpodobnosti mutací obsažené v maticích PAM – získané pozorováním akceptovaných mutací v sekvencích příbuzných proteinů – již jsou svým způsobem filtrované a plně nevystihují způsob, jakým mutace v přírodě vznikají. Pozorované mutace, které vyvolávají evoluci proteinové sekvence, vznikají jako chyby v sekvenci DNA. Mutace mohou vzniknou i při přepisu informace z DNA do mRNA, chybou při sestřihu mRNA, či při překladu z mRNA do sekvence proteinu na ribozómu, apod. Ale toto jsou jednorázové chyby, které se v přírodě nemohou přenášet do další generace a nemají vliv na evoluci proteinové sekvence. Mutace různě velkou měrou zvýhodňují či naopak znevýhodňují svého nositele. Mutace, které svého nositele zvýhodňují, mají větší šanci přenést se do další generace, nevýhodné naopak. Tímto způsobem jsou v přírodě odfiltrovány negativní mutace a jsou ponechány pouze ty změny, které jsou akceptovatelné (odtud pochází název matic PAM – Point Accepted Mutation). Při tomto experimentu mě zajímal vliv všech mutací, nejen akceptovaných. Proto jsem musel odvodit novou tabulku pravděpodobností pro jednotlivé mutace, která by odpovídala frekvencím, s jakými vznikají jednotlivé mutace.
6.3.1
Výpočet pravděpodobností
Vycházel jsem z předpokladu, že jednotlivé nukleotidy v sekvenci DNA mutují náhodně a nezávisle na sobě. Na základě počtu shodných nukleotidů mezi jednotlivými kodony (každý kodon je tvořen trojicí nukleotidů, možný počet je tedy 0, 1, 2, nebo 3) jsem pro každou dvojici aminokyselin vypočítal celkový počet shodných nukleotidů mezi všemi kodony, které je mohou kódovat. Tento součet přirozeně zvýhodní aminokyseliny kódované velkým počtem kodonů, ještě je potřeba zohlednit počet kodonů pro jednotlivé aminokyseliny tím, že počet nukleotidů bude vydělen počtem kodonů původní aminokyseliny. Uvažme nyní výpočet nové zmutované aminokyseliny z nějaké zadané původní: nevíme, jakým kodonem byla původní aminokyselina zakódována (ale víme, že určitě byla zakódována právě jedním kodonem), je tedy třeba použít průměr všech možností (proto dělení počtem kodonů pro původní aminokyselinu). Ale už nám nezáleží na tom, který z možných kodonů bude použit pro novou aminokyselinu – zde naopak větší počet možných kodonů znamená větší počet možností, že bude vybrána právě tato aminokyselina (proto je průměrováno pouze počtem kodonů původní aminokyseliny, ne nové). Skóre pravděpodobnosti mutace z aminokyseliny A na aminokyselinu B jsem tedy spočítal jako kA X kB 1 X s(A, B) = 3 − Ki (A) − Kj (B) kA i=1 j=1
kde kX je počet kodonů kódujících aminokyselinu X, Ki (X) je i-tý kodon této aminokyseliny, |Ki (A) − Kj (B)| je počet záměn mezi danými kodony.
34
Abych získal pravděpodobnosti jednotlivých mutací, je ještě potřeba získané hodnoty normovat tak, aby všechny možnosti pro každou zdrojovou aminokyselinu dávaly v součtu hodnotu jedna: s(A, B) p(A, B) = P A s(A, B) Takto získané pravděpodobnosti jsou uvedeny v tabulce 6.1.
6.3.2
Výsledky experimentu
Výsledky tohoto experimentu jsou zobrazeny na grafu na obrázku 6.4. Pro srovnání jsou zde zobrazeny i hodnoty získané s pravděpodobnostmi mutací PAM120. Je vidět, že pro daný stupeň sekvenční podobnosti mají mutanti vzniklí podle pravděpodobností odvozených z genetického kódu o cca 5 % horší strukturní podobnost než mutanti vzniklí podle pravděpodobností PAM120. Těchto 5 % tedy pravděpodobně tvoří rozdíl mezi poškozením struktury způsobeným všemi vzniklými mutacemi a pouze akceptovanými mutacemi. Podobný závěr lze pozorovat i na grafu na obrázku 6.5. Zde je zobrazena strukturní podobnost v jednotlivých mutačních krocích. Struktura měněná podle pravděpodobností mutací odvozených z genetického kódu se porušuje rychleji. Ale v obou případech se rychlost porušení struktury postupně snižuje a struktura u většiny proteinů nedosáhne nižší podobnosti než cca 35–50 %.
6.3.3
Konstantní pravděpodobnosti mutací
Jako další tabulku pravděpodobností jsem zkusil použít konstantní pravděpodobnosti, stejné pro všechny záměny. Takové pravděpodobnosti mutací odpovídají hypotetické situaci, kdy by aminokyseliny byly přímo kódovány pomocí dvaceti symbolů (namísto zakódování pomocí trojic čtyř možných znaků, které je použité v genetickém kódu). Tento experiment mi ukáže, jaký vliv na odolnost proteinů vůči mutaci má v přírodě použitý způsob kódování. Výsledky tohoto experimentu jsou na obrázcích 6.6 a 6.7. Oproti předešlému pokusu jsem změnil nastavení mutace – v jednom kroku mutuje pouze 5 % aminokyselin (tedy poloviční krok), abych mohl vývoj mutací v počátečních krocích (kde jsou rozdíly mezi různými maticemi pravděpodobností největší) podrobněji pozorovat. Mutace generovaná podle konstantních pravděpodobností postupuje ještě rychleji než mutace generovaná podle genetického kódu. To dokazuje, že zakódování proteinů genetickým kódem mírně zvyšuje odolnost sekvencí. Nicméně vliv genetického kódu není velký, zásadním faktorem udržení podobné sekundární struktury jsou evoluční vlivy – je vidět, že mezi mutacemi podle pravděpodobností PAM120 a podle konstantních pravděpodobností je mnohem větší rozdíl než mezi mutacemi konstantními a podle genetického kódu.
35
Phe Leu Ile Met Val Ser Pro Thr Ala Tyr His Gln Asn Lys Asp Glu Cys Trp Arg Gly
Phe 111 200 89 22 111 133 22 22 22 67 22 0 22 0 22 0 67 22 22 22 Phe Leu Ile Met Val Ser Pro Thr Ala Tyr His Gln Asn Lys Asp Glu Cys Trp Arg Gly
Leu Ile Met Val Ser 65 56 43 53 44 239 155 170 159 59 80 148 128 79 41 29 42 64 26 11 109 106 106 190 22 58 77 64 32 185 80 21 21 21 81 22 106 106 21 111 22 21 21 106 81 22 14 0 11 44 36 14 0 11 15 43 7 21 11 7 7 56 43 11 30 14 49 64 11 22 7 14 0 53 15 14 7 21 53 7 22 14 0 11 59 14 0 21 5 26 94 70 85 32 89 22 21 21 106 52 His Gln Asn Lys Asp 22 0 22 0 22 109 135 22 45 22 22 11 87 79 22 0 11 22 34 0 22 22 22 22 109 43 22 87 67 43 109 112 22 22 22 22 22 109 112 22 22 22 22 22 109 65 45 65 45 65 109 90 65 45 65 87 112 43 67 43 65 45 109 90 65 43 67 87 112 43 65 45 65 45 109 43 67 43 67 87 22 0 22 0 22 0 11 0 11 0 109 135 65 90 22 22 22 22 22 109
Pro 11 116 16 5 21 116 190 106 106 11 53 53 11 11 11 11 11 5 116 21 Glu 0 45 11 11 112 22 22 22 112 45 45 67 45 67 90 112 0 11 45 112
Thr 11 32 79 26 21 159 106 190 106 11 11 11 53 53 11 11 11 5 74 21 Cys 68 68 23 0 23 182 23 23 23 68 23 0 23 0 23 0 114 45 159 114
Ala Tyr 11 70 32 70 16 23 5 0 106 23 116 140 106 23 106 23 190 23 11 116 11 70 11 47 11 70 11 47 53 70 53 47 11 70 5 23 32 23 106 23 Trp Arg 47 7 93 94 0 36 23 14 23 22 163 87 23 80 23 51 23 22 47 7 0 36 23 43 0 22 23 29 0 7 23 14 93 51 70 29 186 239 116 109
Gly 11 32 16 5 108 76 22 22 108 11 11 11 11 11 54 54 54 27 162 195
Tabulka 6.1: Tabulka pravděpodobností mutací odvozená z genetického kódu. Pro přehlednost jsou hodnoty v tabulce vynásobeny 1000.
36
1
gen. kód PAM120
0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 párová podobnost
0.3
0.2
0.1
0
Obrázek 6.4: Vliv mutací spočítaných podle různých mutačních matic.
1 0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
gen. kód PAM120
0 1
10
20
30 40 kroky mutace
50
60
Obrázek 6.5: Rychlost mutací podle různých mutačních matic.
37
70
1 konstantní gen. kód PAM120
0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 párová podobnost
0.3
0.2
0.1
0
Obrázek 6.6: Vliv mutací spočítaných podle různých mutačních matic.
1 0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 konstantní gen. kód PAM120
0.1 0 1
10
20 30 kroky mutace
40
Obrázek 6.7: Rychlost mutací podle různých mutačních matic.
38
50
6.4
Vyloučení škodlivých mutací
Toto je v zásadě experiment opačný tomu předešlému. V předchozím pokusu jsem umožnil větší výskyt nebezpečnějších mutací, nyní se naopak pokusím škodlivé mutace odstranit (tedy se snažím zvýšit evoluční tlak). K tomuto účelu použiju nástroj PhD-SNP (Predictor of human Deleterious Single Nucleotide Polymorphisms) [1]. Tento nástroj predikuje škodlivost jednobodových mutací. Jeho vstupem je původní sekvence, pozice aminokyseliny, která má být změněna, a nová aminokyselina, která ji nahradí. Výstupem je rozhodnutí, zde je taková mutace neutrální, nebo škodlivá. Před experimentem jsem upravil simulátor. Po vygenerování každé náhodné bodové mutace je predikováno, zda bude mutace škodlivá. Neutrální mutace je použitá, škodlivá mutace je zamítnuta a místo ní je náhodně vygenerovaná jiná (které je opět posouzena, atd.). V každém mutačním kroku je tedy uskutečněn stejný počet mutací, jako bez použití predikce škodlivosti, ale nevyskytují se žádné škodlivé mutace. Zřejmě lze předpokládat, že při vyloučení škodlivých mutací se bude sekundární struktura proteinu měnit pomaleji. Na obrázcích 6.8, 6.9 jsou grafy zachycují výsledky tohoto experimentu. V souladu s předpokladem, zamezení škodlivým mutacím způsobilo menší poškození sekundární struktury. Zejména na druhém grafu je patrné, že v jednotlivých mutačních krocích došlo k mnohem menšímu poškození struktury. (Z důvodu výpočetní náročnosti tohoto experimentu jsem neprovedl takový počet opakování, jako u ostatních experimentů. Proto mají tyto grafy méně hladký průběh.)
39
1
bez škodlivých mutací všechny mutace
0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 párová podobnost
0.3
0.2
0.1
0
Obrázek 6.8: Graf porovnávající vliv škodlivých a neutrálních mutací.
1 0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
bez škodlivých mutací všechny mutace
0 1
10
20
30 40 kroky mutace
50
60
70
Obrázek 6.9: Rychlost rozpadu sekundární struktury v závislosti na škodlivosti mutací.
40
6.5
Míra mutace u různých sekundárních struktur
Při tomto experimentu jsem sledoval, jak se mění strukturní složení proteinů během jednotlivých mutací. (Jedná se pouze o jiný pohled na data, získaná v úvodním pokusu.) Zjistil jsem, že jednotlivé konformace sekundární struktury jsou různě náchylné ke změnám způsobeným mutacemi sekvence. Samotná data mají třídimenzionální strukturu. Jednu dimenzi tvoří průběh mutací (ať už vyjádřený jako sekvenční nebo strukturní podobnost, případně mutační kroky – ačkoliv toto jsou samostatné dimenze, nyní je budu chápat jako vzájemné alternativy). Druhou dimenzí jsou jednotlivé konformace a jejich zastoupení v proteinu (tj. údaj, který sleduji v tomto experimentu). Třetí dimenze je tvořena jednotlivými proteiny, jejich rozdílnými vlastnostmi. Tato struktura údajů a dva možné pohledy na ni jsou znázorněny na obrázku 6.10.
6
zastoupení konformací ?
konformace v průběhu mutací
strukturní složení jednotlivých proteinů
jednotlivé proteiny
podobnost
Obrázek 6.10: Třídimenzionální struktura dat a dva možné způsoby pohledu na ně. Pokud sleduji složení proteinů, musím akumulovat jejich podobnost. Pokud sleduji vývoj konformací, musím abstrahovat od jednotlivých proteinů.
6.5.1
Výskyt konformací v průběhu mutací
Při tomto pokusu jsem zkoumal výskyt konformací u různě velkou měrou zmutovaných sekvencí, tedy abstrahuji od jednotlivých proteinů. Na obrázku 6.11 je graf zachycující zastoupení jednotlivých konformací v průběhu mutování skutečných proteinů. Je patrné, že podíl zastoupení β-struktur je téměř neměnný. Zastoupení náhodných smyček s rostoucí odlišností mutantů mírně narůstá. Nejzajímavější situace je u α-helixů, jejich výskyt se s narůstající mutací postupně snižuje (zatímco v nativních proteinech nejčastěji mají zastoupení cca 30 %, během mutací toto číslo klesá až na hodnotu cca 20 %). Na obrázku 6.12 je obdobný graf pro náhodné sekvence aminokyselin. Je zde vidět, že náhodné sekvence mají takové strukturní složení (tj. cca 60 % náhodných smyček, cca 20 % α-helixů a cca 20 % β-vláken), které zůstává konstantní a v průběhu evoluce se dále nemění. K tomuto složení dospěla in silico evoluce i u skutečných proteinů. Z tohoto pokusu je patrné, že největší rozdíl mezi sekundární strukturou nativních proteinů a mezi sekundární strukturou náhodných posloupností aminokyselin spočívá ve 41
1 H E C
0.9 zastoupení konformací
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 0.3 sekvenční podobnost
0.2
0.1
0
Obrázek 6.11: Graf ukazující poměrné zastoupení jednotlivých konformací – H (α-helix), E (β-vlákno), C (smyčka) – u různě zmutovaných sekvencí nativních proteinů. 1 H E C
0.9 zastoupení konformací
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7
0.6 0.5 0.4 0.3 sekvenční podobnost
0.2
0.1
0
Obrázek 6.12: Graf ukazující poměrné zastoupení jednotlivých konformací pro různě zmutované náhodné sekvence. 42
vyšším zastoupení α-helixů ve struktuře proteinů. Domnívám se, že přírodní výběr cíleně udržuje vyšší podíl helixů v proteinech, než odpovídá náhodné distribuci. Postupem mutací (jak se protein stále více podobá náhodné sekvenci) se výskyt helixů snižuje. Dá se tedy říci, že při mutaci sekvence proteinu nejpravděpodobněji dojde k poškození struktur α-helix.
6.5.2
Odolnost jednotlivých proteinů vůči mutaci
V předešlé části jsem sledoval, jak se mění zastoupení jednotlivých konformací s narůstající odlišností zmutovaných sekvencí. Nyní zkoumám jednotlivé proteiny (s určitým složením sekundární struktury) a snažím se agregovat jejich chování během mutací. Když pro každý protein vypočítám průměr ze strukturní podobnosti jeho mutantů, získám číslo, které vyjadřuje odolnost sekundární struktury tohoto proteinu vůči změnám způsobeným mutacemi. Proteiny, které jsou vůči mutaci odolné – déle si uchovají svoji sekundární strukturu – budou mít vyšší průměrnou podobnost sekundární struktury mutantů, než proteiny, které odolné nejsou – jejich sekundární struktura se rychle rozpadá, mutanti jsou málo podobní. Na grafu na obrázku 6.13 je zobrazena závislost mezi odolností proteinů vůči mutaci a mezi složením jejich sekundární struktury. Je zde vidět, že proteiny odolné vůči mutaci mají nejčastěji takovou sekundární strukturu, která je tvořena převážně náhodnými smyčkami. Naopak citlivé proteiny jsou tvořeny zejména konformací α-helix. Zastoupení β-vláken je ve všech proteinech přibližně stejné, bez ohledu na jejich citlivost vůči mutaci. Jinými slovy, proteiny s velkým podílem helixů rychle podléhají změnám, tedy struktura α-helix je citlivá vůči mutaci, tento závěr je v souladu se závěrem předešlé části. (Na tomto grafu byl zobrazen průměr z prvních třiceti kroků mutace – je nejnázornější – nicméně uvedené chování je samozřejmě pozorovatelné i za použití jiného počtu kroků. Grafy s dalšími rozsahy jsou pro úplnost uvedeny v příloze A.3.) Oblast odolných proteinů stojí za bližší pohled: ačkoliv většina odolných proteinů má sekundární strukturu s pouze malým podílem α-helixů, je zde naopak několik proteinů, v nichž je zastoupení helixů velmi vysoké. Podrobněji lze toto vidět na obrázku 6.14. Zde jsou stejná data jako na předešlém grafu, ovšem zobrazená bez shlukování do boxplotů. Je zajímavé, že ačkoliv body symbolizující β-vlákna a náhodné smyčky vytvářejí relativně kompaktní útvary, jsou body značí α-helixy rozprostřené po celé ploše grafu – tyto údaje tedy mají mnohem větší rozptyl. Souhrnně lze říci, že odolnost sekundární struktury daného proteinu vůči změnám způsobeným mutací sekvence je přímo úměrná množství náhodných smyček v něm obsažených. (Ovšem s přihlédnutím k tomu, že náhodná smyčka“ je v názvosloví segmentů sekundární ” struktury poměrně široký pojem, spadá sem vše, co není α-helix“ nebo β-vlákno“ – může ” ” se tedy stát, že ačkoliv bude úsek proteinu stále klasifikován jako náhodná smyčka, funkčně bude velmi odlišný.) Opačná úměra platí i pro α-helixy, čím více helikálních struktur protein obsahuje, tím bude náchylnější vůči mutaci. Na základě těchto znalostí je možné odhadnou odolnost proteinu z jeho známé struktury. Predikce učiněná podle obsahu smyček by měla být spolehlivější než predikce podle obsahu helixů – protože data pro smyčky mají výrazně menší rozptyl než data pro helixy.
43
1 H E C
0.9
zastoupení konformací
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.4
0.45 0.5 0.55 0.6 0.65 0.7 0.75 průměrná strukturní podobnost mutantů
0.8
Obrázek 6.13: Graf, který zobrazuje strukturní složení proteinů v závislosti na jejich odolnosti vůči mutaci. Strukturní podobnost mutantů je spočítána jako průměr z prvních třiceti kroků evoluce. 1
zastoupení konformací
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
H+ + E × C++ ∗
∗∗ + ∗ ∗ ∗ ∗ ∗ + + + ++ + +++ + +∗ + + + ∗ ∗ + + ∗+ ∗ ∗ + + + ∗ ∗ ∗ ∗ ∗+∗ + ∗+ ∗ ∗+∗ ∗ + +∗ ∗∗ ∗ + + + + + × + + ∗∗+ ∗ ∗∗ + +∗ + ∗ ∗ + + + × + ++ + + + ∗ ∗ ∗∗ ∗ ∗ ∗∗ + + ∗∗ ∗ + ∗ +∗ ∗ + + + ∗∗∗∗ + ∗ ∗ ∗ ∗ ∗+∗ ∗∗ ∗∗ +∗ +∗ ∗ ∗∗ ∗∗∗ ∗∗∗∗ ∗∗ ∗∗∗ ∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ + + + + ∗ ∗∗∗+ ∗∗∗ ∗ + + ++ + + ++ + ∗ ∗∗+ ∗ + ∗ + +∗∗∗∗ +∗∗∗+ +∗ + ∗∗ ∗∗ ∗ ∗ ∗∗∗∗+ ∗ + ∗ ∗ ∗∗ +∗ ∗∗ ∗ ∗ ∗ ∗∗ ∗∗∗∗∗ ∗ + + + + + + +∗∗ ∗ ∗∗∗∗∗ ∗∗∗ +∗∗∗∗∗∗∗∗ ∗∗ + + + ∗∗ ∗ ∗∗ + + ∗ ∗∗ ∗∗∗ ∗∗ ∗∗∗ ∗ ∗∗ × ∗∗ ∗∗∗ ∗∗∗∗∗ ∗ ∗ ∗∗∗∗+ ∗∗∗∗∗+ ∗ ∗ ∗ ∗∗∗∗ ++ ×+ ∗ ∗ ∗∗∗ ∗∗∗ ∗∗ ∗ ∗ ∗∗ ∗∗ × × ∗ ∗∗∗ +∗ +∗ + + ++ +∗ ∗+ ∗∗ ∗ + + + + + ++ ∗ ∗∗∗+ ∗∗∗ ∗∗ + + + ∗ ∗ ∗ ∗ ∗∗ ∗+ ∗∗∗∗ ++ + + ×+ × ∗ ∗∗ ∗ ∗∗ ∗ ∗ ∗∗ ∗+ ∗ ∗∗ ∗∗∗ ∗ ∗+ ∗ + + + + + ∗ ∗+ ∗+ + ∗ ∗+ ∗ ∗ ∗∗∗ ∗ ∗ ∗∗ ∗ ∗∗∗∗∗ ∗ ∗ + ∗ ∗ ∗ ∗+ ∗ ∗ + + + + + + + + + + + ∗ ∗ ∗ ∗∗×++ ∗ + + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × × + × ∗ ∗ + + + + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗∗ ∗∗∗∗ ∗ ∗∗ ∗ ∗∗ ∗∗ + ∗ ∗ + ∗ ∗ + ∗+∗ ∗ ∗× ∗∗ ∗+ ∗∗ + + ∗∗ ∗ + + + ×× ∗ ∗ + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ + + ∗ ∗ ∗ + ∗ ∗ ∗ ∗ ∗ ∗ + +∗ + + + + ∗ ∗∗ ∗ ∗∗+∗∗+ ∗∗∗ + ∗ ∗∗ ∗∗ ∗∗ ∗ ∗∗ ∗ ∗ ∗∗ ∗∗∗ ∗+ ∗∗ ∗∗ ∗∗ + + ∗ ∗+ ++∗ ∗ + + ∗ ∗∗ ∗+ + × + × ∗ ∗∗ ∗ ∗∗ ∗ ∗ ∗ + + + + + ∗ ∗ ∗∗ ∗ ∗ ∗∗∗ ∗ ∗∗ ∗∗ ∗∗ ∗ ∗∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗ ∗ ∗ ∗∗ ∗ + ∗ ∗ ∗∗ ∗ ∗ ∗∗+ + +× ++ + + ++ ∗ × × × × × ∗ ∗ ∗∗∗ ∗∗ ∗ ∗ ∗∗+ ∗ ∗ + + ∗ ∗ ∗∗ ∗× ∗∗ ∗∗ + + + × × + ∗ ∗∗∗ ∗∗∗ ∗ ∗ ∗ ∗ ∗ ∗∗∗× ∗ ∗ ∗ ∗∗ ∗∗∗ ∗∗ + + ∗ ∗ ∗ + ++× ∗∗ ∗ ∗ ∗ ∗∗ ∗∗∗ ∗ ∗ + + + + + + ∗∗ ∗ ∗ × × × + ∗∗ ∗ ∗ ∗ ∗ ∗∗ ∗+ + + + + + + + + + ∗× ∗ ∗ ∗ ∗ ∗ ∗∗∗ ∗ ∗ ∗ + × ∗∗ ∗ ∗∗+ ∗∗ ∗∗ ∗ ∗ ∗∗ ∗∗ + + ∗∗ ∗ ∗ ∗× ∗ ∗∗ ∗ ∗ ∗ + + + + +× + ∗∗∗ ∗∗× ∗ ∗+ ∗ ∗ ∗∗ + ∗∗ ∗ ∗ ∗ ∗ ∗ ∗∗ ∗ + + + + × + + ×+ × ∗ ∗× + ∗∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗×∗ ∗× ∗ ∗∗∗ ∗× ∗+ ∗ ∗ + + + + + ∗ ∗∗∗ ∗∗ ∗∗ ∗ ∗ × × × ∗ ∗× ∗× ∗∗ ∗∗ ∗ ∗ + + × × + + + + ∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗∗ × ∗ × ×∗ + + × × × + ∗ ∗ ∗∗ ∗∗ ∗∗ ∗ ∗ ∗∗ + + + ∗+ ∗× ∗∗ ∗ ∗ ∗ ∗× ∗× ∗+ ∗ ∗ × ∗ ∗ × + × + × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ + + ∗ ∗ × × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ + × × × ∗∗ × + + + × × × ∗ ∗ + + + × + + + + × ∗ ∗ × + + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ +∗×× + ∗ ∗ ∗ ∗+ ∗ ∗ +∗×∗∗ × × ∗ ∗∗∗∗∗× ∗ ∗∗ × × × ∗ ∗ ∗ ∗× ∗ ∗∗ × × ∗∗ ∗ ∗ ∗∗ ∗ ∗ ∗∗ ∗ ∗× ∗∗ ∗× × × ∗∗ ∗+ ∗ ∗ ∗ ∗ ∗+ ∗∗× ∗∗ ∗+ ∗ ∗ ∗∗∗ ∗ ∗× ∗ ∗∗∗ ∗∗ ∗ × × × ∗ ∗× ∗ ∗ + × ∗∗∗ ∗ ∗ ∗∗ ∗∗ ∗ +× ∗ ∗∗∗+ ∗+ + ∗ ∗∗ ∗ ∗∗ ∗ × ∗× ∗+ × × + ×∗∗ ∗ ∗ ∗× ∗ + + × × + × × + + ∗∗ ∗ ∗ ∗× ∗ ∗ ∗∗ + +∗ + + + + + ∗ ∗ ∗+ ∗∗+ ∗∗ ∗ ∗∗ ∗∗∗∗ ∗∗ ∗ ∗ ∗∗ ∗ × × ∗∗ ∗∗∗ ∗ ∗∗∗∗ ∗ ∗ × × ++ ∗ ∗ ∗+ ∗ ∗ ∗× ∗ ∗ ∗ ∗ ∗ ∗ + × × × × ∗ ∗ ∗ + ++ + + + +∗ + + + ∗ × × + + + + + + × ∗ + × × + ∗× ∗ ∗∗ ∗ ∗ ∗∗ ∗ ∗ ∗ ∗∗ ∗× ∗ ∗ ∗ ∗∗ ∗∗ ∗∗ + + ∗ ∗+ ∗ + + + + + + ∗ ∗ × × × ×∗+ ∗ ∗ ∗ ∗× × + + ∗+ × × × ∗∗∗∗∗∗ ∗∗ ∗∗∗ + + + × + + +∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × × × × × × × + ∗ ∗ + + ∗× ∗ ∗ ∗ + + × + × + + × × + ∗ ∗ ∗ ∗ ∗ ∗+ ∗ ∗ + + + + + + + × × ∗ ∗∗+ ∗+ + + ∗∗ ∗ ∗ ∗∗+∗ ∗ ∗ × × × × ×∗ × + + × + + + + + + + × + + × × × ∗ ∗ ∗ ∗ ∗∗× ∗∗∗ × ∗ ∗ ∗ ∗ ∗ ∗ × + × + + ∗ ∗∗∗∗∗ ∗ ∗ + ∗ ∗ ∗ ∗ ∗ × ×× ∗ × × × × × × × ∗ + + ∗ ∗ ∗ ∗ ∗ ∗ + + + + + + × + + + + + × + + + + + + + × × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗× ∗ ∗ ∗ ∗ ∗ × + × + + × × + + × + × + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × × + + + × × × × × + × × + + + +∗ × + + + ∗∗ ∗ ∗ ∗× ∗ + + + + + + ∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗× × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗+ ∗ + + + ∗ ∗∗× ∗∗∗ ∗ ∗ × + × + × + × × × × × + + + + + ∗ ∗ + + + + + + + ∗ ∗ ∗ ∗ ∗ ∗ + × ∗ ∗ ∗ ∗ + + × × × + × + × + + + × ∗ + × × × × × + × × × + × ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × × × × × × + + + + + + + + ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ × × × × + × × + + + ∗ ∗ ∗ × × × × × × ∗ ∗ + × × + × + + × ∗× ∗ + + × + × + × × + ×+ + + + + + × ×××× + +∗ + + + + ∗ ∗ + + +∗ × + + + + + + ∗ ∗ ∗ + + + + ∗ ∗ ∗ ∗ ∗ ∗ × ∗ ∗ × + × × + + × + + × + + + + × × + + + + + × × × × × × × × × × + × ∗ ∗ × × × × × × × × × × × ∗ ∗ ∗ × + + × × + + + + ∗ ∗ ∗ ∗ + + + + + ∗ ∗ + + + × + × + + ∗ ∗ ∗ ∗ + + × × + ∗× ∗ ∗∗ ∗ ∗ ∗× ∗+ ∗+ × + × +× + × × + + × × × ∗× × +× + + × + ∗+ ∗× ∗ + + ∗ ∗ ∗ ∗ ∗ ∗ ∗∗ ∗ × × × × × + × ×× + × ∗× ∗ ∗+ ∗ × + ∗ ∗ ∗∗ ∗ ∗ ∗+ ∗ ∗ ∗ + + + + + + ∗ + + + + + + × × + + + × × ×∗ + × + + + + × + + × × + + + ∗ + + × ++ × + + × + + + + + + + × × × × ++ + × × + + × + ∗ × ∗ ∗++ × × × × × × + × × × × × × + + + + + ∗ + × × + + + × × + + + + + ∗ ∗ × × × × × × × × × × × × × + × × × × × + × + × ∗ ∗ ∗ × × + + × + + + + × + + × + × + + + + + + × + × + × × ∗ ∗ + + × + × + × × + + + + + ++ ∗× ∗ ∗× ∗ ∗ × × × × × × + ∗ ∗× × × × × × × × × × × × + × × × + + + × × × × × × + × + × + + + ×+ + + + + × × ++ ∗ ∗ + × × + × + + + ∗+ + + + + + + + × + ×+ + + × + + + + ∗∗+ ∗ ∗∗+ × + + × × × × × × + × × + + + × ∗ ∗ × × × × × + × × + + + + + + + × × + + × ∗ ∗ × × + + + × + + + × + × × + + + + + + + + + + + + + × + × × + × × + × ++ + + + × × + × × × × × × × ×× × ×× + × × × × + × × + + + + ∗× ++∗∗× + + + + +× + × × × ×× + ∗× + + + ++ + + + + + ××× × × × × × × × ×× × × × ×× × × + × ×+ × + × × × × × ∗× ×∗ ∗ ∗ ∗ ∗∗∗+× + ×× + + ×× × × × + × + × + + × × × ×× × + + × ∗ ∗ + × + + + ×× × × × × ××∗ + + + × + ∗+ ∗+ ∗+ ∗× × ∗ ∗× + + + + ∗+ × × + + + × + + × × × × × ×× × × + + × + × × + × × + × × × + + + + + + + × × + ∗×+ ∗+ + + + + + + ∗× ∗∗ × × ×+ × + × + × × ∗ × × × × + +× × × + + × + × × + × × + + + + + × × ∗× + ∗+ × × × × ×× × × + + + × × ×× × × × × × × × + + × × × × × × ×× ×∗ × × × + ++ ++ + + × × + × + × × × × × + × × × + × × × × × × × × × × × × × × × × + × × ∗ × × + + + + + + × × × + × × × × × × × + × + × × × × × + + × + × × + × + × + × × × × × × × × × × × × × × × × × × × × × ∗ ∗ × × × × × × × × × × × × × × ++ × ×+ × + × ×× ×× × × + ++ ×+ × × × ×× × × ×× × + × ∗ × ∗ ∗ ∗ ∗ ×× ∗ + + ∗ ∗ ∗ +× × ×× + ×× + × + +× × × × × + + × × × × × × × + × × + × + + + × × × × × × × × + + × + + × + + + + + × × + + + × × × + × + × + + + + + + + + + × + × × × + + + + + × × × × × × × + + × × + × × + + + ×× +× +× ∗×× ∗ × + × ×+ × × + + × × × × × × + × × × × × × × × +× × × × + × × × + +×+ ×+× × × × × × + + ∗+ ×× ×× × +× + + ++ + + × × × + × × × × × +× × × × + × × × + + + + + × + × × + × × + + × × + × + + × × × + × × × ×× ∗ ×× +× × × × × × + + × + + ++ + + + + × × × × × × × × × + × × × ×× × + + + + + + ∗ ∗ + × × × × ++ × × + + + + × + + + + × ××× × × + × × × + × + × × + × + + + + + × × × × + ×× × × + × + × × + × × × × + × × + + × × × × × + + × × × × × × × + × × × × × + × × × +×∗× × × × × × × × + +++ × ++ + + × + + + + + + ∗× ∗×× +++ + ++ + × × + × + × × + × × + × + + × + × + + ∗ × × + + + + + + ×× × × + + + × + + + × ∗× + + × + + × × × + × + × + × + × × + + + + + × × × × × × × × × + + + + + + × + × ∗ ∗+ × × × + + × × × × × + × × × +++ × × × + × + + × × ++ × × × + + + × + + × × + ∗ ∗ + × × + ∗ ∗ × × × ×× + + + + + + × +× + ×× + + × × + ×× × × × × × × × × × × × × × × × × × + × × + × × + × + × + + × × × × × × + × × + × × × × × × × × × × × × × × × × × + + × + × + ∗ ∗ × × × × × + × × + × × + × + + + + × + × × × × × × + × × + ++ + ++ × + + × + + + + + × + + + × + × + × + × + × ×∗ × ++ × × ×+ × ×× + + + + × + + × + + + + + + + + + + + + × + + × × + × ++ + ++ × × × ×+ × × × × ×+ × × × × ×× ∗ ∗× + + ∗ × × + + + × × × × × + × × + + + + + + + + ×+ × × × + + × × + + + + + + + × +× × + ×× × × × × × ×× × ×× × + + + + × +× × + + + × + + + + ∗ ∗× × × ×× × ×+× × × × × + × + + × × × × + ×× × × + + + × × × × × × × +× × × + × ×× × + + + + × + + + + + + ××× × + + + + + + + × + + × + × + × × × × × × ×× × + + + + + + + + + + + × × + × ×× + ×+ × × ++ + + + + +× × × × + + + + + × × ×+ × × × ×× +× + + ++ + + + + + + + × × × × × × × × + × + × + + × × + × + + × × + × + + + + × × × × + + × ×× ××× × + × × + ++ + × × + × + × + + + + × + × × + + + × × × ++ × + + + × ×× + + + + × × + × + × × × × × × × + × + × + × × + × × × × + × × × × × × + × + ×+ ×× × ×× × + × + × + + ×× × + + × × × + + × + × × × × + + + × × × + × + × × × + × + + + × × + + + × + + + × + × + × + + × + + + + × ++ × × × + + × × × × × + × × + × + × + + + + + + × × + × × × × × × + × + + × +× + ×× × + + + + + ++
0.4
0.45
+
+ + ++
0.5 0.55 0.6 0.65 0.7 0.75 průměrná strukturní podobnost mutantů
0.8
Obrázek 6.14: Strukturní složení proteinů v závislosti na jejich odolnosti vůči mutaci.
44
6.6
Shrnutí experimentů
Tyto experimenty odhalily několik zajímavých skutečností o chování sekundární struktury proteinů během mutování jejich sekvence. Sekundární struktura je relativně odolná – i když už je sekvence proteinu zcela odlišná, sekundární struktura si stále zachovává určitou míru podobnosti vůči původní struktuře. Některé úseky si uchovávají svojí strukturu v téměř nezměněné podobě po celou dobu experimentu; případně se jejich sekundární struktura poškodí a s dalšími mutacemi se zase obnoví. Toto chování platí i pro náhodné sekvence. Není to tedy nějaká specifická vlastnost pouze přírodních proteinů, pravděpodobně se vyskytuje obecně ve všech sekvencích aminokyselin. Rychlost poškozování struktury závisí na mutačních pravděpodobnostech. Pravděpodobnosti navržené tak, aby respektovaly vzájemnou podobnost aminokyselin (z hlediska funkce v proteinu), generují méně odlišné mutanty. Zde jsem odvodil matici pravděpodobností aminokyselinových záměn, která odpovídá genetickému kódu. Pravděpodobnosti vystihují podobnost kodonů jednotlivých aminokyselin a počet různých kodonů, kterými jsou aminokyseliny zakódovány. Tato matice neobsahuje evoluční podobnost aminokyselin, vygenerovaní mutanti jsou více odlišní. Také jsem vyzkoušel konstantní pravděpodobnosti mutací, tím jsem odstranil i vliv genetického kódu. Zjistil jsem, že kódování genetickým kódem má malý vliv na odolnost proteinových sekvencí, mnohem důležitějším faktorem je působení evoluce. Při dalším pokusu jsem použil predikci škodlivosti mutací: během generování mutantů jsem nepoužil žádnou mutaci predikovanou jako škodlivou. Výsledek mi potvrdil předpoklad, že tím dojde k menšímu poškození struktury proteinu. V posledních experimentech jsem pozoroval vztah mezi složením sekundární struktury a náchylností proteinů k poškození struktury. Nejsnáze se poškodí struktura typu α-helix – u proteinů s jejím velkým výskytem lze očekávat největší rozdíl mezi strukturou mutanta a strukturou původního proteinu. Naopak čím více náhodných smyček protein obsahuje, tím je odolnější.
45
Kapitola 7
Závěr Tato práce zkoumala vliv aminokyselinových mutací na sekundární strukturu proteinu. Prováděl jsem počítačovou simulaci procesu proteinové evoluce: zkoumal jsem sekundární strukturu proteinů a její odolnost vůči mutacím. Abych mohl provádět tyto experimenty, musel jsem naprogramovat simulační nástroj, který konfigurovatelným způsobem provádí mutace v sekvencích proteinů a vyhodnocuje získané změny. Sekundární struktura proteinů je poměrně odolná, ačkoliv dochází ke změnám sekvence, struktura se tolik nemění. Dokonce i když mutace dospěje do situace, že je zmutovaná sekvence zcela odlišná, struktura je stále ještě podobná větší měrou, než by odpovídalo náhodné shodě. Největší podíl na odolnosti proteinů mají evoluční vlivy. Zkoušel jsem použít různé pravděpodobnosti mutací, které by vlivy evoluce odstranily – pravděpodobnosti odvozené z genetického kódu, které zachovávají pouze vlastnosti přírodního zakódování proteinů, a konstantní pravděpodobnosti, které odstraňují i vliv genetického kódu – a v obou případech došlo k většímu poškození struktury proteinů. Naopak při zakázání mutací predikovaných jako škodlivé se rychlost změn struktury výrazně zpomalí. Odolnost proteinů zavisí i na jejich struktuře. Protože nejčastěji je mutací poškozena konformace α-helix, jsou proteiny s jejím velkým zastoupením ke změnám náchylnější. S největší pravděpodobností nikdy nedojde k tomu, že by tyto experimenty byly provedeny reálně v chemické laboratoři. Uvedené výsledky proto nelze získat jinak, než pozorováním jevů v přírodě (což je ovšem zkresleno mnoha dalšími vlivy a pozorovatel nemůže aktivně vytvářet pokusné vzorky), nebo počítačovou simulací. Tato práce tedy přinesla jinak nezjistitelné informace.
46
Literatura [1] Capriotti, E., Calabrese, R. a Casadio, R. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information. Bioinformatics. 2006, roč. 22, č. 22. S. 2729–2734. [2] Chou, P. Y. a Fasman, G. D. Prediction of protein conformation. Biochemistry. 1974, roč. 13, č. 2. S. 222–245. [3] Combet, C., Blanchet, C., Geourjon, C. et al. NPS@: Network Protein Sequence Analysis. Trends in Biochemical Sciences. 2000, roč. 25, č. 3. S. 147–150. [4] Cuff, J. A. a Barton, G. J. Evaluation and Improvement of Multiple Sequence Methods for Protein Secondary Structure Prediction. Proteins: Structure, Function, and Genetics. 1999, roč. 34. S. 508–519. [5] Cuff, J. A. a Barton, G. J. Application of multiple sequence alignment profiles to improve protein secondary structure prediction. Proteins: Structure, Function, and Genetics. 2000, roč. 40, č. 3. S. 502–511. [6] Cuff, J. A., Clamp, M. E., Siddiqui, A. S. et al. JPred: a consensus secondary structure prediction server. Bioinformatics. 1998, roč. 14, č. 10. S. 892–893. [7] Cvrčková, F. Úvod do praktické bioinformatiky. Praha: Academia, 2006. ISBN 80-200-1360-1. [8] Dayhoff, M. O. a Schwartz, R. M. A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure. 1978. S. 345–358. [9] Frishman, D. a Argos, P. Seventy-five percent accuracy in protein secondary structure prediction. Proteins: Structure, Function, and Genetics. 1997, roč. 27, č. 3. S. 329–335. [10] Garnier, J., Gibrat, J.-F. a Robson, B. GOR method for predicting protein secondary structure from amino acid sequence. In Doolittle, R. F. (ed.). Computer Methods for Macromolecular Sequence Analysis. San Diego: Academic Press, 1996. S. 540–553. Methods in Enzymology, sv. 266. ISSN 0076-6879. [11] Hančová, H. a Vlková, M. Biologie I. v kostce. Havlíčkův Brod: Fragment, 2003. ISBN 80-7200-340-2.
47
[12] Henikoff, S. a Henikoff, J. G. Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences of the United States of America. 1992, roč. 89, č. 22. S. 10915–10919. [13] Im, I. G. Predicting Protein Secondary Structure Using Markov Chain Monte-Carlo Simulation. BS: University of Arkansas at Little Rock, 2008. ISBN 9780549950318. [14] Jones, D. T. Protein Secondary Structure Prediction Based on Position-specific Scoring Matrices. Journal of Molecular Biology. 1999, roč. 292. S. 195–202. [15] Kabsch, W. a Sander, C. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers. 1983, roč. 22, č. 12. S. 2577–2637. [16] King, R. D. a Sternberg, M. J. Identification and application of the concepts important for accurate and reliable protein secondary structure prediction. Protein Science. 1996, roč. 5, č. 11. S. 2298–2310. [17] Kloczkowski, A., Ting, K. L., Jernigan, R. et al. Combining the GOR V Algorithm with Evolutionary Information for Protein Secondary Structure Prediction from Amino Acid Sequence. PSFG. 2002, roč. 49. S. 154–166. [18] Kotlík, B. a Růžičková, K. Chemie II. v kostce: Organická chemie a biochemie. Havlíčkův Brod: Fragment, 2000. ISBN 80-7200-342-9. [19] McGill, R., Tukey, J. W. a Larsen, W. A. Variations of Box Plots. The American Statistician. February 1978, roč. 32, č. 1. S. 12–16. [20] Calculate PAM Matrix [online]. [cit. 19. března 2013]. Dostupné na: http://www.bioinformatics.nl/tools/pam.html. [21] PAM1 Mutation Matrix [online]. [cit. 19. března 2013]. Dostupné na: http://www.icp.ucl.ac.be/ opperd/private/pam1.html. [22] Rost, B. Review: Protein Secondary Structure Prediction Continues to Rise. Journal of Structural Biology. 2001, roč. 134, 2–3. S. 204–218. ISSN 1047-8477. [23] Rost, B. a Sander, C. Prediction of protein secondary structure at better than 70 % accuracy. Journal of Molecular Biology. 1993, roč. 232. S. 584–599. [24] Salamov, A. A. a Solovyev, V. V. Prediction of Protein Secondary Structure by Combining Nearest-neighbor Algorithms and Multiple Sequence Alignments. Journal of Molecular Biology. 1995, roč. 247. S. 11–15. [25] Schaefer, C., Schlessinger, A. a Rost, B. Protein secondary structure appears to be robust under in silico evolution while protein disorder appears not to be. Bioinformatics. 2010, roč. 26, č. 5. S. 625–631. [26] UCL-CS Bioinformatics: Software & Downloads [online]. [cit. 10. února 2013]. Dostupné na: http://bioinf.cs.ucl.ac.uk/software downloads/.
48
[27] Zemla, A., Venclovas, C., Fidelis, K. et al. A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins: Structure, Function, and Genetics. 1999, roč. 34, č. 2. S. 220–223. [28] Zvelebil, M. J. a Baum, J. O. Understanding bioinformatics. New York: Garland Science, 2008. ISBN 978-0-8153-4024-9. [29] Zvelebil, M. J., Barton, G. J., Taylor, W. R. et al. Prediction of protein secondary structure and active sites using the alignment of homologous sequences. Journal of Molecular Biology. 1987, roč. 195, č. 4. S. 957–961.
49
Dodatek A
Doplňující poznámky k experimentům Zde uvádím informace, které nemají přímý význam pro tuto práci, nicméně dokreslují způsoby chování proteinů během mutací.
A.1
Různá kritéria podobnosti
Graf A.1 dokládá, že mezi párovou podobností proteinů a podobností spočítanou podle pravděpodobností PAM120 je téměr lineární závislost. Mezi pozorováním podle jedné nebo druhé podobnosti by proto neměl být velký rozdíl. 1 podobnost podle PAM120
0.9 0.8 0.7 0.6 0.5 0.4 0.3
++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + ++ + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + ++ + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + ++ + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + + + + + + + +++ + + + + + + + ++ ++ +
0.2 0.1 0 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 párová podobnost
Obrázek A.1: Vztah mezi párovou podobností proteinů a podobností podle pravděpodobností PAM120. Na grafu A.2 je zobrazena strukturní podobnost mutantů v závislosti na jejich sekvenční podobnosti spočítané podle PAM120. Protože matice PAM120 přiřazuje nenulové skóre 50
i dvojicím různých aminokyselin, nebylo při evoluci dosaženo nižší podobnosti. Graf je obdobný ke grafům v text práce, ale zobrazuje menší rozsah dat. Proto jsem v textu používal názornější párovou podobnost. 1 0.9 strukturní podobnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
0.9
0.8
0.7 0.6 0.5 0.4 0.3 0.2 sekvenční podobnost (podle PAM120)
0.1
0
Obrázek A.2: Závislost mezi sekvenční (PAM120) a strukturní podobností. Na grafu A.3 je sekvenční podobnost (párová) v jednotlivých krocích mutace. Je zde srovnání základního experimentu a vyloučení škodlivých mutací.
A.2
Rozpad sekundární struktury proteinu
Na obrázku A.4 znovu uvádím diagram zachycující změny sekundární struktury proteinu (jedná se o protein 2fox) v průběhu mutací. Na grafu je vidět, že ačkoliv se sekundární struktura proteinu mění, některé úseky zůstavají relativně konzervované i delší dobu. V některých úsecích je dokonce struktura po svém porušení znovu obnovena. Dále zde uvádím příslušné aminokyselinové sekvence s jejich sekundární strukturou (liché řádky jsou sekvence a sudé řádky jsou struktury, symbol C ve struktuře není pro přehlednost uváděn): MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNIDELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGKKVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNEPDEAEQDCIEFGKKIANI EEEEE HHHHHHHHHHHHHH EEE HHHH EEEEE HHHHHHHHH EEEEEE HHHH EEEEE EEEE HHHHHHHHHHHHH MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTISVSDVNIDELLREDILLLGCAAMGDEALEEAEFAPFIEEISTKISGKKVALFGSYGWGDGKWMRDFEERMNGYYCVVVETGLLVPNEPDEAEQDCIEFGKKIANI EEEEE HHHHHHHHHHHHHH EEEE HHHHHHHHHHHHH HHHHHH HHHHHHHHH EEEEEE HHHHH EEEEEEE HHHHHHHHHHHHH MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTISVSDVTISEMLREDILLLGCAAMGTEALEEAEFAPFIEEISTKISGKKVALFGSYGWNDGQWMRDFEERMNGYYCVVVATGLLVPAEPDEAEQDCIEFGKKIANI EEEEE HHHHHHHHHHHHHH EEEE HHHHHHHHHHHHHHHH HHHHHH HHHHHHHHH EEEEEE HHHHHHHH EEEEEEE HHHHHHHHHHHHH VKIVYNSGTGNTEKMAELIAKGIIESGKDVHTLSVSDVTISEMLREDILLLGCAAMGTEALEEAEFAPFIEEISTKISGKKVALFGSYGWNDGQWMRDREERMSGLYCVVVAGGLLVPAEQDEAEQDCIEFGKKIANI EEEEE HHHHHHHHHHHHHH EEEEEE HHHHHHHHHHHHHHHH HHHHHH HHHHHHHHH EEEEEE HHHHH EEEEEEE EEE HHHHHHHHHHHHH VKIVYNSGTGNTESMAELIAKGIIESGKDVHTLSVEDVTISEMLREDILLLGCAAMGTEALEEAEFAAFIEEISTKISGKKVALFGSYGWNDGQWMRTREESISGLYCVVVAGGLLVPAKQNEAEQDCIEHGKKIANI EEEEE HHHHHHHHHH HHH EEEEEE HHHHHHHHHHHHHHH HHHHHHHHHHHHHHHHHHH EEEEEE EEEE EEEEEEEE EEEE HHHHHHHHH VKIVYNSGTGNTESMASLISKGIIESGKDVDTLSVEDVTISEMLREDILLLGCAAIGTEALEEAKFAAFCEEFSTKISGKKVALFGSYGWNDGQWMRTREKSLSGLYCVVVAGGLLVPAKQNEAEQDCIEHPKKIANI EEEEE HHHHHHHHHHHHH EEEE HHHHHHHHHHHHHHHHH HHHHHHHHHHHHHHHHH EEEEEE EEE EEEEEEE EEEE HHHHHHHH VKIVYNSGQGATESMASLISKGIIESGKDVDTLSVEDVTISEMLREDILLLGCAAIGTAALEEAKFAAFCEEFSVKIRGKKTALFGSYGWNDGQWMRTREKSLSGLYCVVVAGGLLVPAKQNEAEQDCIEHPKKNANI EEEEE HHHHHHHHHHHHHH EEEE HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH EEE EEEEEEE EEE EEEEEEE EEEE HHHHHHHH VEIVYNSGQGATESMASLISKGIIESGKDVDTLSVEDVTIAEMFREDILLLGCAAIGTAALEEAKFAAFCEEFSVKIRGKKTALFGSYGWNEGQWMRTKEKSLSGLYCVVVAGGLLVPAKQNEVSQDCIEHPKKNANI
51
1 PAM120 bez škodlivých
sekvenční podobnost
0.8
0.6
0.4
0.2
0 1
10
20
30 40 kroky mutace
50
60
70
Obrázek A.3: Vývoj sekvenční podobnosti.
průběh mutace
? -
sekvence Obrázek A.4: Vývoj sekundární struktury.
52
EEEEE HHHHHHHHHHHHHH EEE HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH EEE EEEEEEE EEE EEEEEEE EEEE HHHHH VEIVYNSGQGATESMASTISKGIIRSGKDVHTLSVEDVTIAEMFREDILLLGCAAIGLAALEEAKFAQFCDEFSVKIRGKKAALFGSYGWNEGQKMRTKEKSLSGLYCVVVAGGLLVPAKQNEVSQDCIEHPKKNANI EEEEE HHHHHHHHHHH HH EEEEEE HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH EEE EEEEEE EEEEEEE EEEE HHHHH VEISYNQGQGATRSMKSTISKGIIRSGKDVHTLSVEDVTIAEMFREDILLLGYAAIGLAALESAKFAQFCDEFSVKIRGKKAALFGSYGWNEGQKMRTKEKSYSGLYCVVVAGGLIVPAKQNEVSQDCIEHPKKNANI EEEE HHHHHH EEEEEE HHHHHHHHHHHHHHHHHHHHHHHHHH HHHHH EEEEE EEEEEE EEEEEEEE EEEE HHHHH VEISYNQGQGATRSTKSTISKGIIRSGKDVHTLSVESVTIAEMFREHILLLGYAAIGLAALESAKFAEFCDEFSVKVRGKKAALFGSYGWNEGQKMRTKEKSYKGLYCVVAAGGLIGPAKQNEVSQDCSEHPKKVANI EEEE EEEEEEEHHHHHHHHHHHHHHHHHHHHHHHHHHH HHHHHH EEE EEEEEE EEEEEEE VEISYNQGQGATRNTKSTISKGIIRSGSDVHTLSVECVTIAEMFREHVLLLAYAAIGLAALDSAKFAEFCDEFSVKVRGKKAALYGSYGWNEGQKMRTKEKSYKTLYCVVAAGGLIGPAKQFEVSQDCSENPKKVANI EEEE EEEE EEEEEEEHHHHHHHHHHHHHHHHHHHHHHHH HHHHHHH EEEE EEEEEEE EEEEEEEE EEEE VELSYIQGAGATRNTKSTISKGIIRSGSDIHTLSVECVTIAEMFRDHVLLLAYAHIGLAALDSGKFAEFCDEYSVKVRGKKAALYGSYGWKEGQKMRTKEKSYKDLYCVVAAGGLIGPAKQFEVSQDCSENPKKVANI EEE EEEE EEEEEEEEHHHHHHHHHHHHHHHHHHHHHHH HHHH EEEEE EEEEEEE EEEEEE EEEEE VELSYIQGAGATRNTRSTISKGIIRSGSDIHTLSVECVTIAEMFRDHVLLLAYAHIGLAALDSGKFAEFCDEYSVKVRGKKAALYGSYGWKEGQKMRTKEKEYKDLYCVVAAGGLIGPAKQFEVSQDCSGNPRKVANI EEE EE EEEE EEEEEEEEHHHHHHHHHHHHHHHHHHHHHHH HHHH EEEEE EEEEEEE EEEEEE EEEEE VELSYIQGAGTTRNTRTEISKGIIRSGSDIHTLSVECVTIANMFRDHSLLLAYAHIGLAALDSGKFAEFCDEYSVKVRGKKAALYGGYGWKEGQKMRTKEKEYKDLYCVVAAGGVIGPAKSFNGSQDCSGNPRKVANI EEEEE EEEE EE EEEEEEEEEEEEHH HHHHHHHHHHHHHH HHHH EEEEE EEEEEE EEEEEEE EE VELSYIQGAGTTRNTRTEISKGIIRSGSDIHTLSVPCVTIAAMFRDHSLLLAYAHIGLASLDSGKFAEFCDEYSVKVKGKKAALYGGYGKKEGQKMRTKEKEYKDLYCVVAAGGVIGPADSFNGSQDCSGNPRKAANI EEEEE EEEE EE EEEE HHHHHHHH HHHHHHHHHHH HHHHH EEEEE EEEEEE HH EEEEEEE EE VELSTIQGANTTRNTRTEISKGIIRSGSEIHTLSVPCVTIAAMFRDHSLLLAYAHIGLLSLDSGKAASFCDEYGVKVKGKKAALYGGYGKKEGQKMRTKEKEYKDLYCVVAAAGVIGSAGSFNGSQDCSGNPRKAANI EEEE EE EEEEEE HHHHHHHH HHHHHHHHHH EEE HHHH EE EEEEEE HHHH EEEEEEE VELSTIQGANTTRETRTEISDGIIRSGSEINTVSVPCVTIAAMFRDHSLLLAYAHIGLLSLDSGKAASFCDEYTVKVKGKKAALYGSYGKFEGQKMRTKEKEYKDLFCVVAAAGVIGSGGGFNGSQDCSGNPRNAANI EEEEEEE EE EEEEEE HHHHH HHHHHHHHHH EEEE EEEEE EEEEEEE HHHH EEEEEEE EE GELSVIQGANTTRETRTEISLGIIASGSEINTVSVPCVTIAAMFRDHSLLLAYAHIGLVSLDKGKAASFCDEYTVKVKGKKAALYGSYGKFEGQKMRTQEKEYKDLFCVVAAAGVIGSGGGFNGSQECSGNPRNPANI EEE EEEEEEEEEEEEEE EEEEEEE EEEHHH HHHHHHHHHEEEEEE EEEEE EEEEEEE HHHHH EEEEEEE EE GELSVIQAANTTRETRTEISLGIIASGSQINTVSAPAVTVAAMFRDHSLLLAYAHIGLVSLDKGKASSFCDEYTVKEVGKKAALYGSYGKFEGQKMRTQEKIYKDLFCVVAAAGVIGSGGGFNGSQECSGNPRNPANI EEEE EEEEEEEEEEEEE EEEE HHHHHHHH HHHHHHHHHH EEEE HHHHHHHHHH EEE HHHHHHHHHHHHHEEEE EE GELSVIQAANTTRETRTLISLGIIASGSQINTASEPAVTVAAMFRDHSLLLAYAHIGHVSLDKGKASRFCDEYTVKEVGKKAALYGSYGKFEGQKMRTQEKIYKDLTCVVAAAGCIGSAGGFNGSQECSGNPRLPANI EEEE EEEEEEEEEEEE HHHHHHHH HHHHHHHHHH EEE HHHHHHHHHHHHH HHHHHHHHH EEEEE GELSVIKAANTTRETRTLISLGIIASGSQINTASEPAVTVTAVFRDHSLLLAYAHIGHVSLDKGKASDFCDEYTVKETGKKAALYGSYGKFEGGKMRTQEKIYKKLTCVVAAAGCIGSAGGFNGSQECPGNPRLPPNI EEEE EEEEEEEEEEEE EEEEEEE HHHHHHHHH EEE HHHHH EEEEE HHHHHHHHHEEEEE AELSVIKPANTTRETRTLISLGIIASGKQLNTASEPAVTVTRVFRDHSLLLAYAHIGHVSLAKGKASDFCDEYTVKETGKKAALYGAYGKFEGGKMRTQEKIYKKLTCVVAAAGCIGSAGGFNGSQECPGNPRLPPNI EE EEEEEEEEEE EEEEEEE HHHHHHHHH EEE HHHHH EEEE HHHHHHHHHHEEEE AELSVIAPANTTRETRTVISLGIIASGKQLNTASEPAVTVTRVFRDHSKLLAYALIGHVSLAKGKASKFCDEYTVKETGKKQALYGAYGKFPGGKMRTQEKIYKKLTCVVAAAGCIGSAGGFNGSQECPSNPRLPPNI EEEE EEEEEEEEEEEE EEEEEEE HHHHHHHHHHHHEE EEE HHHHH HHHHHHHHHHEEEE AELSVIAPANTTRETRTVIKLGIIKSGKQLNTASEPALTVTRLFRDHSKSLAYALIGHVSLAKGKASKFCDEYQVKETGKKQTLYGAYGRFPGGKMRTQEKIYKKLTCVVAAIGCIGPAGGFNGSHECPSNPRLPPNI EEEE EEEEEEEEEEE HHHHHHHH HHHHHHHHHHHEE HHHHHH EEEEE HHHHHHHHHHEEEEEE AELPVIAPANTTRETRTVIKTGIIKSGKQLNTASEEALLVTRLFRDHSKSLAYALIGHVSLAKGKASKFCDEYQVKETGKKQTLYGAYSRFPGGKMRTQERIYKKLGCVVATIGCIGPAGGFNGSHECPSAPRLPPNI EE EEEEEEEEEEE HHHHHHHHHHHHHH HHHHHHHHHHH HHHHHH EEEEE HHHHHHHHHH EEEEEEEE AEAPVIAPANTTRETRTVIQTGIIKLGKQLNTASEEALYGTRLFRDHSKSLAYALIGHVSLAKGKASKFCDEEQLKETGKKQTLYGGYSRFPGGKMLVQLRIYKKLGCVVATIGCIGPAGGFNGSHECPSAPRLPPNA EE EEEEEHHHHH HHHHHHHH HHHHHHHHHHHEE HHHHHHH EEEE EEEEEEEEH EEEEEEEE AEAPVIAPANTTRETRTVIQTDIIKLGKQLNTASEEALYGTRLFADHSKSLAYALIGHVSLAKGKASKFCDGEQLKETGKTQPLYGGYSRFPGGKMLLQLRIYKKLGCVVATIGCIGPAGGFNGSHECSSAPRLPPNA EE EEEHHHHHHHHHH HHHHHHHH HHHHHHHHHHHEE HHHHH EEEEEEEHHH EEEEEEEE AEAPVIAPANTTRETRTVIQTAIIKLGKQLNTASEQALYGTRLFADHTKSLAYALIGHVMLAKGKASKACDGEQLKETGKTQPLYGGYSRFPGGKMLLQLRIYKKLGCVVVTIGCIGAAGGFNGSHECSSGPRLPPNA EE HHHHHHHHHHHHHHHHHH HHHHHHHHH HHHHHHHHHHHHHHH HHHHH EEEEEEEHHH EEEEE VEAPVIAPANTTRETRTVIQTAIIKLGKQLNTASEQALYGTRLFDDHTKSLAYALIDHVMLAKGKASKACDGEALKETGKTQPLYGGYSRFPGGKMLLQLRIYKKLGCVTNTIGCIGAAGGFNGSHEISSGPRLPPYA HHHHHHHHHHHHHHHHHH HHHHHHHH HHHHHHHHHHHHHHH HHHHHHH EEEEEEHHHHH VEAVVIAPANTTRQTRTVIQTAIIKLGKQLNTASEQALYGTRLFDDETKSLAYALIDHVMLAKGKASKACDGEALKETGKTQPLYGGYSRFPGGKMLLQLRIYERLGCVTNTIGCIGAAGGFNASHEISSGPALQPYA EEEE HHHHHHHHHHHHHHHHHH HHHHHHHH HHHHHHHHHHHHHHH HHHHHHH EEEEEHHHHHH EE VEAVVIAPANTTRQTRNVIQTAIIGLGKQLNTASEQALYGTRLFDDETTSLQYALIDHVMLAKGKASKACDGEALKEKGKTQPLEGGYSRFPGGKMLLQLRIYERLGCVTNTIGCIGAAGGFNASHEIQSGPTLQPYA EEEE HHHHHHHHHHHHHH HHHHHHHH HHHHHHHHHHHHH HHHHHHH EEEEEEEHHHH EE MEAVVIAAANTTRQTRNVIQTAIIGLGKQLNTAGEQAVYGTKLFDDETTSLQYALIDHVMLAKGKASKACDGEALKEKGKTQPLEGGYGRFPGGKMLLQLRIYERLGCVTNTIGCIGAAGGFNASHEIQSGPTLQPYA EEEEE HHHHHHHHHHHHHHH EE HHHHHHHHHHHHH HHHHH EEEEEEEEHHHH EE MEAVVIAAANTLRQTRNVIQTAIIGLGKRLGTAGEQAVYATKLFDDETSSLQYALIDHVMLAKGKASKTCDGEALKEKGKTQPLEGGYGRFPGGKMLLQLRIYERLGCVTNTIGCIAAAGGFNYSHEIGSGPTLQPYA EEEEEHHHHHHHHHHHHHHHHHHH HHHHHH HHHHHHHHHHHHH HHHHHHH EEEEEEHHHHHH EEE MEAVVIAAANTLRQTRNVIQTAIIGLGKRLGTAGEQAVYATKLFDDETSSLQYALIDDTMLAKAKTTKTCDGEAAKEKGKSQPLEPGYGQFPGGKMLLQLRIYERLGCVTNTIGCIAAAGGFNYSHEIGSGPTLQPYA EEEEEHHHHHHHHHHHHHHHHHHH HHHHHH EEEEEEHHHHHHH HHHHHH EEEEEEEHHHHH EEE MEAVVIAAANTLRQTRNVIQTAIKGLGMRLGTAGEDSVYATKLFDDEASSLQYALIDDTMLAKAKTTKACDGEAAKEKGKSQPLEPGYGQFPGGKMLLQLETYERLGCVTNTINCIATAGGENYSHEIGSGPTLQPFA EEEEEHHHHHHHHHHHHHHHHHHH EEEE HHHHHHHHHHHHHH HHHHHH EEEEEEEEHHHH EEE MGAVVIRAANNLRQTRNVIQPAIKGLGMRLGTAGEDSVYATKLFDDEASSLQYALIDDTMLAKAKTTKASDGEGAKEKGKSQPLEPGYGQFAGGKMLLQLETYERLGCVTNTINCIATAGGENYSHEIASGPTLQPFA EEEE HHHHHHHHHHHHHH EEEE HHHHHHHHHHHHHH EEEEEEEEHHEE EEE MGAVVIRAANNLRQTRNVIQPAIKGLGMRLGTTGEDSVYATKLFEDEASSLQYALIDDTMLAKAKTTKASDGEGAMEKGKSDPLEKGNGQYAGGKLLLQLETYERLGCVTNTINPIATAGGENYSHEIASGPTLQRFA EEEE HHHHHHHHHHHHHH EEEEHH HHHHHHHHHHHHHH EEEEEEEEEEEE MGAVVIRAANNLRQTRNAIQPAIKGLGMRLGTSGSDSIYATKLFQSEASRLQYALIDDTMLAKAKTTKASDGEGAMEKGKSDPLEKGNGQYAGGKLLLQLATYERLGCVTNTINPIATAGGENYSHEIASGPTLQRFA EEEE HHHHHHHHHHHHHH HHHHHHHHHHHHHHHHHHHHHHHHHHH HHHHHHHHHHHH MGAVVIRAANNLRQTRNLIQPAIKGLGMRLGTSGTDSIYATKLFHSQATRFQYALIDDTMLAIAKTTHASDGEGAMEKGKSDPLEKGKGQYAGGKLLLQLATFESLGCVTNTINPIATAGGENYSHEIASGPTLQRFA EEEE HHHHHHHHHHHHHH HHHHHHH HHHHHHHHHHHHHHHHH HHH EEHHHHHHH MGAVVIRAAANLRQTKSLIQPAIKGLGMRLGTSGTDSIYATKLFSSQASRFQYALIDDTMLAIAKTAHASDGEGAMEKGKSDPLEKGKGQYAGGKLLLQLATYEKLGCVTNTINPIATAGAENYSHEIASGPTLQRFA EEEEHHHHHHHHHHHHHHHHHH EEEEHH HHHHHHHHHHHHHHHHH HHH HHHHHHHHHHHH GGALVIRAAANLRQTVSLIQAAIKGLGMRLGTSGTDSIYATKLFSSQASQFQYALIDDTMLAAAKTAHASDGETAMEKGKSDPLEKGKGQYVGGKLLLQLGAHEKLGCVTNTKNPIATAGAENYSHEIASGPTLQRFA EEEEHHHHHHHHHHHHHHHHHHH EEEEHH HHHHHHHHHHHHHHHHH HHHHHH EEE EEEEE GGKLVIRAAANLRQTVSLIQTANKGLGMRLGTGGTDSIYATKLFSSQPSQFQYALVDDTMLAAAKTAHASDGETAMEKGKSDPLEKGKGKYVGGKLLLQLGAHEKLGCVTNTKNPIATAGAENYSHEIASGGTLQRFA EEEEEHHHHHHHHHHHHHH EE EEEEE EEEEHHHHHHHHHHHH HHHHHH EEE EEEEE EE GGKLVIRAAANLRQTVSLIQTSNKGLGMRLGGGGTDSIYMTKLFSSQPSQFQYALVDDTMLAAAKTAHVSDGETAMEKGKSDPLEQGKEKYVGGRLLLQLGAHEKLGCVTNTKRPIASAGANNYSHEIASGGTLHRFA EEEEEEHHHHHHHHHEEEE EEEE EEEEE EEEEEHHHHHHHHHH HHHHHH EE EEEEE EE EE GGGLVIRAAANLRQTVSLIQTSNKGLGMRLGGGGTDSIYMKKLFSSQPSQFQYALVDDTMLAAAKTAHVPDGETAQEKGKSDPLEQGKEKYVGGILLLQLGAHEKLGCVANTKRYIASAGANDYSHEIASGGTLHRFA EEEEE HHHHHHHHHEEE EEE HHHHHHHH EEEEEHHHHHHHHHH HHHHH EEEEEEEEEE HHHHHH GGGLVIRAAANLRQTVSLIQTSNKGLGMRLGGGGTDSYYDKKLFSSQPSQFQKALVDDTMLGAAKTAHVPDGETAQEKGKSDPLAQGKEKYVGGITLLQLGAHEKLGCVANTKRYIASAGANDYSHEIASGGTLHRFA EEEEE HHHHHHHHHEEE EEE HH HHHHHHHHHHH HHHHHH EEEE EEEEEE HHHHHH GGGLVISAAANLRQTVSLIQTSNKGLGMRLGGGGTDSYYDKKLFSSQPSQFQNALRDDTMLGAASTAHVPDGETAQEEGKSDPLAQGREKYVTGETLLQLGALEKLGCVANTKPYIASAGANDYKHSIASGGTLHFFA EEEE HHHHHHHHHHEE EEE HH HHHHHHHH HHHH EEHHHHHHHHHHHHHH EE EEEE SGGLVISAAANLRQTVSLIQTSGKALGMRLGGGGTDSYYDKKFFSSQPSQFANALRDDTILGAASTAHVPDGETAQSETKSDPLAQGREKYVTGETLLQLGALEKLGCVANTKPYIASAGANDYKHSIASGGTLHFFA EEEE HHHHHHHHHHH EEE HHHHHHH EEHHHHHHHHHHHHHH EE EEEE SGGLVISAGANLRQTVSLIQTSGKALGMRLGGGGTDSYYDKKFFSSQPSQFANLLRNDTILGAASTAHVPDGETAQSGTKSDPLGQGREKYVTGETLLQVSALEKLGCVANTKPYIGSAGDNDYKHSIASGGTLHFFA EEEE HHHHHHHH EEEE HHHHHHHH EEEE EEEHHHHHHH EEEE SGGLVISAGANLRQTVSFIQTSGKALGMRLGGGGTDSYYDKKFFSSQPSQFANLLRNDTILGAASTAHVPDGETAQSGTKSDPLGQGREKYVTGETLLQVSALEKLGCVANTKPYLGSAGDNDYKHSFASGGTLYFFA EEEE EEEEEEEE EEEEEE HHHHHHHH EEEE EEEHHHHHHH EEEEE SSGLVITAGANLRQTVSFIQTSGKALGMRLGGGVTMSYYDKRFFSSQPSQFNNLLRNDTILGAAWTAHVPDGETAKSGTKSDPLAQGREKYVTGETLLQVTALEKLGCVANTKPYLGSAGDNDYKHSFASGGTLYFFA EEE EEEEEEEE EEEEEE EEEEEE HHHHHHH EE EEEE EEE EEEHHHHHHH EEEEE SSGIVITAGANLRQTVSFIQTSGKALGMRLGGGVLMSYYDKRFFSNQPSQFNNLLRNDTILGAAWTAHVPDGETAKSGTKSDPLAQGKEKYVTGETLLQVTALEKLGCVANPKPYLGSAGDNDYKHSFASGGTMFFFA EEEE EEEEEEEE EEEEEE EEEEEEE HHHHHHHH EEEE EEEE EEEHHHHHHH EEEEE
53
SSGIVITAGANLRQTVSFIQTSGKALGMRVGGGVTMSYYDKRFFSNQPSQFNNLLRNDTILGAAWTAHVPDGETAKSGTKSDPLAQGKEKYVTGETLLQVRALEKLGCVANSRPYLGSANDNDTKHSFASGGTMFFFA EEEE EEEEEEEE EEEEEE EEEEEE HHHHHHH EE EEEE EEEE HHHHHHHHHHH EEEEE SSGIVITAGARLRQTVSFIQTSGKALGKRLGGGIAMSYYDKAFFSNQSSQFNNLLRNDTILGAAWTALVPDGETAKSGAKSDPLAQGKEKYVDGETLLQVTALEKLGCVANSRPYLGSANDNDTKVSFESGGTMFFFA EEEE EEEEEEEE HHHHHH EEEEEEHHHH HHHHHHHHH EEEE EEEEEEHHHHH EEEEEE EEEEE SSGIVITAGARLRQTVSFIQYSGTALGKCLGGGIALSYYQKAFFSNQSSQFRNLLRNDTILGAAWTALAPDGETAKSGAKSDALAQGKDKYVDGETMLQVTALESLGCVANSRPYLGSANDNDTKVKFESGGTMFFFA EEEE EEEEEEEEEE HHHH EEHHHHHHHHH HHHHHHHHH HHHHH EEEEEEEHHHH EEEEEE EEEEE SSGIVITAGARGRQTVSFILFSGTALGKCLGGGIALSYLQKAFFSNQSSQFRNLLRNDTLLGAAWTALAYDVETAKSGGKSDALAQGKDKYVDGETMLQVTALESLGCVANSRPYLGSANDNDTKDKFESGGTMFFFA EEEEE EEEEEEEEE HHHH HHHHHHHHHHH HHHHHHHHH HHHHHHHHHHHHHHHH HHH EEEEEEHHHHH EEEEE SSGIVITAGARGRQTVAFILFSGTALGKCLGGGEVLLYVQKAFFSNQSSQFRNLLRNETLLGAAWTALAYDVETAKSGIKSEALAQGKDKYVDGETMLQVTALESLGCVANSRPYLPSANDNDTKDKFESGGTGFFFA EEEEE EEEEEEEEE EEEEEEHHHHH HHHHHHHHHHHHHHHHHHHHHHHHHHHHH HHHHH EEEEEEHHHHH EEE SSGIVITAGARGRQTVFFILFTGTALEKCLGGGEVLLYVQKAFFSNQSSQFRNLLRNETLLGAAWTALAYDVETAKSSPKSEALAQGNDKYVDGETMLQVTALQSLGCVANSRPYLPSANDNDTSCKFESGGTGFFFK EEEEE EEEEEEEEEHHHHHHH EEEEEEHHHHH HHHHHHHHHHHHHHHHHHHHHHHHHHH HHHHH EEEEEEHHHHH EEE EE SSGIVITAGARGRQTVFFILFTGTALQRCLGGGESLLYVQKAFFSNQSSQFPNLLRNETLLGAAWTALAYDVETAKSSPKSEALKQGNDKGVDGETMLQVTALQSVFCVANSRPYLPSANDNVTSCKFESGTTGFFFK EEEEE EEEEEEEEEHHHHHHHH HHHHHHHHH HHH HHHHHHHHHHHHHHHHH HHHHH EEEEEEEEEEEEEEE EEEE EEEE SSGIVITAGARGRHDVFFELFTGTALERCLGFGESLLYVQKAFFSNQSSQFPNLLRNETLLGAAWTALRYDVETAKSSPKSEALKQGNDKGVDGESLLQVTALQSVFCVANSRPYLPSANDNVTSCKFESGTTGFFFK EEEEE EEEEEEHHHHHHHHHH HHHHHHHHHHH HHHHHHHHHHHHHHHHHHHHH HHHHH HHEEEEEEEEEEEE EEEE ASGIVITAGARGRHDVFFELFTGTKLERCLGFGESLLYVQKQFFSPQSSQFPNLLRNETLLGAAWTALRYDVETAKSSPKSEALKQGNSKGVDGEKLLQVTALQSVFCVAESRPYLPSANDNVTGCKFESGTTGFFFK EEEE EEEEEEE HHHHH HHHHHHHHH HHH HHHHHHHHHHHHHHHHH HHHHH EEEEEEEEEEEEEE EE EEEE ASGIVITAGARGRNDVFFELFTKTKLERCLGFGEGLLYVQKQFFSPQSSQFPNLLRNETLLGAAWTALRYDLETAKSSPNSEALKQGNSNGVDGEKLLKTTSLQSVFCVAESRPYLPSANANVRGCKFESGTTGFFFK EEEE EEEEEHHHHHHHHHH EEEEHH HHHHHHHHHHHHHHHHHHHHH HHHHH EE EEEEEEEE EE ASGIVITAGARGRNDVFFELFSKTRVERCLHFGEGLLYVQKQFFSPQSRQFPNLLPNETLLGAAWTALRHDLETAKSSPNSEALKQGNSNGVDGEKLLKTTGLPSVFCVAESRPYLPSANANVRGCKFESGTTGFFFK EEEE EEEEEHHHHHHHHHHH EEEEEHH HHHHHHHHHHHHHHHHH HHHHH HHHHH EEEEE ASGIVITAGARGRNDVLFELFSKTRVERCLHFYEGLLYVQKQFFSPQSRQFPNLLPNETLLGAAWAALRHELETEKSSPNSVALKQGNSNGVDGEKLLKTTGVPSVFCVAESRPYLPSANANVRGCKFTSGQTGFFFQ EEEE HHHHHHHHHHHHHHHHHHHHHHHHHHH HHHHHHHHHHHHHHHHHH EEE HHH EEEEE EE ASGIVIGAGARARNDVLFEVFSKTRVERCTHFYEGGLYVQKQFFSPKSHQFPNLLPNETLLGAAWAALRHELETECSSPNSVTLKQGNSNGVDGEKLLPTTGVPSVFCVAESRPYLPSANANVRGCKFTSGQTGFFFQ EEE EEEEEEE EEEEEEEE EEEEEEE HHHHHHHHHHHHHHHHHH EEEEE EEEEE EEE EEEE ASGIVIGAGARARNDVLFEVFSKTRVERCTHFYEGGLYVQKQFFSPKTHQFPNLLPNETLLGASWATLRHDLETECSSPNSVALKQGNSNGVDGEKLLPTAGVRIVFCVAESRPYLTSANANVKGCKFTSGQTGFFFQ EEE EEEEEEE EEEEEEEEE EEEEEEE HHHHHHHHHHHH EEEE EEEEEEEE EE EEE EEEE ASGIVIGAGARARGDVLFEVFSKTRVERCTHFYEGGLYVGKQFFSPKTHQFCNLLPNETLLGASWATLRHDLETECSSPNSVALKQGNSNGVDGEKLLPTAGVRIVFCVAESCPYLYSANANVKGCKFTPGQTGFFFQ EEE EEEEEEEE EEEEEEEEE EEEEEEE HHHHHHHHHHHH EEEE EEEEEEEE EE HSGIVIGASARARGDVLFEVFSKTRVERCTHFYEGGLYVGKQFFSPKTHQFCNLLPNETLLGASWVTLRHDLETECSSPNSVALKQGLSNGVGGEKLLPTAGVRIVFCVAESCPYLYAANANVKGCKFTPGQTGFFFQ EEEE EEEEEEEE EEEEEEEEE EEEEEEE EEEEEE HHHHHH EEEEEEEE HH HSPIVISASARARGDVLFDVFSKTRVERCTHFYEGGLYVGKQFFSPKTHQFCNLLPNETLLGASWVTLRHELETECSSPNSVALKLGLSNGSGGEKLLPTAGVRIYFCVAESCPYLYAANVNVKGCKFTPGQTGFFFQ EEEE EEEEEE EEEEEEEEE EEEEEEE EEEEEHHHHHH EEEEEEEE EEEEEEEE EEEEEE HSPIVISASARARPDVLFDVFSKTRVERCNHFYEGGLYVGKQFFTPKTHQFCNLLPNETLLGASWVTLRHELETKCSSPNSVALKLGLSNVSGGEKLLPTAGVRIYFCVAESCPYLYAANVNVKGCKFTPGQTAFFFQ EEEE EEEEE HHH EEEEEEE EEEEHHHHHH EEEEEE EEEEEEEE EEEEEE EEEE
A.3
Odolnost proteinů a složení jejich struktury
Na obrázku A.5 jsou grafy zobrazující závislost mezi odolností proteinů vůči mutacím a jejich strukturním složením. Odolnost proteinů je vyjádřená jako průměr ze strukturní podobnosti jeho mutantů v různých krocích výpočtu. Chování popsané v kapitole 6.5.2 je vidět na všech grafech; pouze rozložení grafů je posunuté.
54
1 0.9 0.8 kroky 0 – 10
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1
zastoupení konformací kroky 0 – 30
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 0.9
kroky 60 – 70
0.8 0.7 0.6 0.5 0.4 0.3
H E C
0.2 0.1 0 0
0.1
0.2
0.3 0.4 0.5 0.6 0.7 průměrná strukturní podobnost
0.8
0.9
1
Obrázek A.5: Strukturní složení proteinů v závislosti na jejich odolnosti vůči mutaci – různé rozsahy kroků mutace
55
Dodatek B
Obsah přiloženého CD • latex/ – zdrojové kódy tohoto textu • DP.pdf – elektronická verze tohoto textu • DP-print.pdf – tento text (úprava pro tisk) • data/ – použitá data (proteiny, matice mutací, výsledky experimentů) • misc/ – pomocné soubory • simulator/ – zdrojové kódy simulačního nástroje • manual.txt – manuál k simulátoru
56