ˇ ´ UCEN ´I TECHNICKE ´ V BRNE ˇ VYSOKE BRNO UNIVERSITY OF TECHNOLOGY
ˇ ´ICH TECHNOLOGI´I FAKULTA INFORMACN ˇ ´ICH SYSTEM ´ ´ U ˚ USTAV INFORMACN FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS
ˇ ´I V ULOZE ´ STROJOVE´ UCEN PREDIKCE VLIVU ´ AMINOKYSELINOVYCH MUTAC´I NA STABILITU PROTEINU
´ DIPLOMOVA´ PRACE MASTER’S THESIS
´ AUTOR PRACE AUTHOR
BRNO 2014
ˇ Bc. FRANTISEK MALINKA
ˇ ´I TECHNICKE ´ V BRNE ˇ VYSOKE´ UCEN BRNO UNIVERSITY OF TECHNOLOGY
ˇ ´ICH TECHNOLOGI´I FAKULTA INFORMACN ˇ ´ICH SYSTEM ´ ´ U ˚ USTAV INFORMACN FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS
ˇ ´I V ULOZE ´ STROJOVE´ UCEN PREDIKCE VLIVU ´ AMINOKYSELINOVYCH MUTAC´I NA STABILITU PROTEINU PREDICTION OF PROTEIN STABILITY UPON MUTATIONS USING MACHINE LEARNING
´ DIPLOMOVA´ PRACE MASTER’S THESIS
´ AUTOR PRACE
ˇ Bc. FRANTISEK MALINKA
AUTHOR
´ VEDOUC´I PRACE SUPERVISOR
BRNO 2014
Ing. JAROSLAV BENDL
Abstrakt Tato pr´ ace popisuje nov´ y pˇr´ıstup k predikci vlivu aminokyselinov´ ych mutac´ı na zmˇenu stability proteinu. C´ılem je vytvoˇrit nov´ y meta-n´astroj, kter´ y kombinuje v´ ystupy osmi vybran´ ych n´ astroj˚ u, d´ıky ˇcemuˇz je schopen svoji predikˇcn´ı schopnost zlepˇsit. Pro nalezen´ı optim´aln´ıho konsenzu mezi tˇemito n´astroji je pouˇzito r˚ uzn´ ych metod strojov´eho uˇcen´ı. Ze vˇsech testovan´ ych metod strojov´eho uˇcen´ı dosahuje KStar nejvyˇsˇs´ı u ´spˇeˇsnosti predikce na tr´enovac´ım datasetu tvoˇren´eho experiment´alnˇe ovˇeˇren´ ymi mutacemi z datab´aze ProTherm. Pr´ avˇe z tohoto d˚ uvodu je KStar vybr´an jako optim´aln´ı predikˇcn´ı technika. Pro prok´az´ an´ı korektnosti v´ ysledk˚ u tohoto meta-n´astroje je pouˇzito testovac´ıho datasetu vytvoˇren´eho ojedinˇel´ ym zp˚ usobem, a to z v´ıcebodov´ ych mutac´ı extrahovan´ ych takt´eˇz z datab´aze ProTherm. Jelikoˇz nebyly v´ıcebodov´e mutace pouˇzity pro natr´enov´an´ı ˇz´adn´eho z integrovan´ ych n´ astroj˚ u, pˇredpokl´ ad´a se, ˇze takov´eto porovn´an´ı je objektivn´ı. Ve v´ ysledku se t´ımto pˇr´ıstupem podaˇrilo pomoc´ı metody strojov´eho uˇcen´ı KStar zv´ yˇsit korelaˇcn´ı koeficient na tr´enovac´ım datasetu o 0,130, respektive o 0,239 na datasetu testovac´ım oproti nej´ uspˇeˇsnˇejˇs´ımu integrovan´emu n´astroji. Na z´akladˇe zjiˇstˇen´ ych u ´daj˚ u je moˇzn´e ˇr´ıci, ˇze metody strojov´eho uˇcen´ı jsou vhodn´ ymi technikami pro probl´emy z oblasti proteinov´ ych predikc´ı.
Abstract This thesis describes a new approach to the detection of protein stability change upon amino acid mutations. The main goal is to create a new meta-tool, which combines the outputs of eight well-established prediction tools and due to suitable method of consensus making, it is able to improve the overall prediction accuracy. The optimal strategy of combination of outputs of these tools is found by using a various number of machine learning methods. From all tested machine learning methods, KStar showed the highest prediction accuracy on the training dataset compiled from experimentally validated mutations originating from ProTherm database. Due to this reason, it is chosen as an optimal prediction technique. The general prediction abilities is validated on the testing dataset composed of multi-point amino acid mutations extracted also from ProTherm database. Since the multi-point mutations were not used for training any of integrated tools, we suppose that such comparison is objective. As a result, the developed meta-tool based on KStar technique improves the correlation coefficient about 0.130 on the training dataset and 0.239 on the testing dataset, respectively (the comparison is being made against the most succesful integrated tool). Based on the obtained results, it is possible to claim that machine learning methods are suitable technique for the problems from area of protein predictions.
Kl´ıˇ cov´ a slova Predikce stability, stabilita proteinu, strojov´e uˇcen´ı, mutace proteinu, protherm.
Keywords Stability prediction, protein stability, machine learning, protein mutation, protherm.
Citace Frantiˇsek Malinka: Strojov´e uˇcen´ı v u ´loze predikce vlivu aminokyselinov´ ych mutac´ı na stabilitu proteinu, diplomov´ a pr´ ace, Brno, FIT VUT v Brnˇe, 2014
Strojov´ e uˇ cen´ı v u ´ loze predikce vlivu aminokyselinov´ ych mutac´ı na stabilitu proteinu Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem tuto diplomovou pr´aci vypracoval samostatnˇe pod veden´ım pana Ing. Jaroslava Bendla.Uvedl jsem vˇsechny liter´arn´ı prameny a publikace, ze kter´ ych jsem ˇcerpal. ....................... Frantiˇsek Malinka 27. kvˇetna 2014
Podˇ ekov´ an´ı T´ımto bych chtˇel podˇekovat panu Ing. Jaroslavu Bendlovi za odborn´e veden´ı, jeho cenn´e rady a pˇripom´ınky, kter´e mi pomohly tuto diplomovou pr´aci sepsat a prezentovat.
c Frantiˇsek Malinka, 2014.
Tato pr´ ace vznikla jako ˇskoln´ı d´ılo na Vysok´em uˇcen´ı technick´em v Brnˇe, Fakultˇe informaˇcn´ıch technologi´ı. Pr´ ace je chr´ anˇena autorsk´ym z´ akonem a jej´ı uˇzit´ı bez udˇelen´ı opr´ avnˇen´ı autorem je nez´ akonn´e, s v´yjimkou z´ akonem definovan´ych pˇr´ıpad˚ u.
Obsah ´ 1 Uvod
3
2 Proteiny 2.1 Aminokyseliny . . . . . . . . . 2.2 Struktura proteinov´e molekuly 2.2.1 Prim´ arn´ı struktura . . . 2.2.2 Sekund´ arn´ı struktura . 2.2.3 Terci´ aln´ı struktura . . . 2.2.4 Kvartern´ı struktura . .
4 4 6 6 6 7 7
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
3 Probl´ em predikce vlivu aminokyselinov´ e substituce 3.1 Stabilita proteinu . . . . . . . . . . . . . . . . . . . . 3.1.1 Datab´ aze ProTherm . . . . . . . . . . . . . . 3.2 Mutace v proteinu . . . . . . . . . . . . . . . . . . . 3.2.1 Pˇr´ıˇcina vzniku mutac´ı . . . . . . . . . . . . . 3.2.2 Typy mutac´ı . . . . . . . . . . . . . . . . . . 3.2.3 Nukleotidov´ y polymorfismus . . . . . . . . . 3.2.4 D˚ usledky mutac´ı strukturn´ıch gen˚ u. . . . . .
na . . . . . . . . . . . . . .
stabilitu proteinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 9 9 10 10 11 11 12
4 N´ astroje pro predikci stability proteinu 4.1 AUTO-MUTE . . . . . . . . . . . . . . 4.2 SDM . . . . . . . . . . . . . . . . . . . . 4.3 CUPSAT . . . . . . . . . . . . . . . . . 4.4 I-Mutant3.0 . . . . . . . . . . . . . . . . 4.5 iPTREE-STAB . . . . . . . . . . . . . . 4.6 mCSM . . . . . . . . . . . . . . . . . . . 4.7 PoPMuSiC . . . . . . . . . . . . . . . . 4.8 Porovn´ an´ı a shrnut´ı . . . . . . . . . . . 4.9 V´ ysledky predikˇcn´ıch n´ astroj˚ u . . . . . 4.9.1 Metodika porovn´ an´ı n´astroj˚ u . . 4.9.2 V´ ysledky jednotliv´ ych studi´ı . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
13 14 14 15 15 16 16 17 17 18 19 19
5 Strojov´ e uˇ cen´ı 5.1 Generalizaˇcn´ı schopnost a jej´ı odhad . . 5.1.1 Kˇrivka uˇcen´ı . . . . . . . . . . . 5.1.2 Pˇreuˇcen´ı . . . . . . . . . . . . . . 5.2 WEKA - platforma pro anal´ yzu znalost´ı 5.2.1 KStar . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
26 29 30 31 34 37
1
6 Implementace 6.1 Pouˇzit´e datov´e sady . . . . 6.1.1 Tr´enovac´ı dataset . . 6.1.2 Testovac´ı dataset . . 6.2 Vybran´e predikˇcn´ı n´ astroje
. . . .
41 41 42 44 45
7 Experimenty a v´ ysledky 7.1 V´ ysledky vybran´ ych predikˇcn´ıch n´astroj˚ u na tr´enovac´ım datasetu . . . . . . 7.2 V´ ysledky metod strojov´eho uˇcen´ı na tr´enovac´ım datasetu . . . . . . . . . . 7.2.1 Porovn´ an´ı v´ ysledk˚ u predikˇcn´ıch n´astroj˚ u a pˇr´ıstup˚ u strojov´eho uˇcen´ı 7.2.2 Nez´ avisl´ y dataset v´ıcebodov´ ych mutac´ı . . . . . . . . . . . . . . . . 7.2.3 V´ ybˇer rys˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47 47 48 49 51 52
8 Z´ avˇ er
55
A Datab´ azov´ e sch´ ema pro datab´ azi Stability
60
B Tabulky a grafy s v´ ysledky test˚ u
67
C Obsah CD
74
. . . .
. . . .
. . . .
. . . .
. . . .
2
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Kapitola 1
´ Uvod Proteiny jsou z chemick´eho hlediska nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚ umyslnˇejˇs´ı zn´am´e molekuly, a proto nen´ı divu, ˇze se velk´ a ˇca´st v´ yzkumu v bioinformatice zab´ yv´a pr´avˇe jimi. Mutace jednotliv´ ych aminokyselin mohou m´ıt v´ yznamn´ y vliv na v´ yslednou stabilitu proteinu. Je d˚ uleˇzit´e si uvˇedomit, ˇze ne vˇsechny mutace musej´ı v´est ke stabiln´ı molekule. Z tohoto d˚ uvodu byly vyvinuty n´ astroje predikuj´ıc´ı vliv aminokyselinov´ ych mutac´ı na stabilitu proteinu. V´ ysledkem t´eto diplomov´e pr´ace je n´avrh a vytvoˇren´ı meta-n´astroje, kter´ y kombinuje v´ ystupy jednotliv´ ych n´ astroj˚ u urˇcen´ ych pro predikci zmˇeny stability proteinu s c´ılem zpˇresnit poˇzadovan´ y v´ ysledek vzhledem k v´ ysledk˚ um jiˇz existuj´ıc´ıch n´astroj˚ u. Druh´ a kapitola pojedn´ av´ a o aminokyselin´ach a proteinech. Podrobnˇeji je zde rozebr´ana struktura proteinu, kterou je moˇzn´e rozdˇelit na prim´arn´ı, sekund´arn´ı, terci´aln´ı a kvartern´ı. Nechyb´ı zde ani zm´ınka o aminokyselin´ach a jejich moˇzn´e klasifikaci. Tˇret´ı kapitola se zab´ yv´ a probl´emem predikce vlivu aminokyselinov´e substituce na stabilitu proteinu. Konkr´etnˇe je zde pops´ano rozdˇelen´ı mutac´ı aminokyselin a jednotliv´e typy jsou detailnˇeji pops´ any. Nast´ınˇeny jsou takt´eˇz moˇzn´e probl´emy pˇri predikci stability proteinu. V ˇctvrt´e kapitole je moˇzn´e naj´ıt v´ yˇcet dostupn´ ych n´astroj˚ u pro predikci stability proteinu. Vybran´e n´ astroje jsou zde struˇcnˇe pops´any a klasifikov´any do konkr´etn´ı skupiny n´astroj˚ u podle zp˚ usobu predikce stability. Jednotliv´e metody predikce stability jsou zde takt´eˇz rozeps´ any. V z´ avˇeru t´eto kapitoly jsou uvedeny metodiky a studie, zab´ yvaj´ıc´ı se v´ ykonnost´ı predikˇcn´ıch n´ astroj˚ u. P´at´ a kapitola je urˇcena strojov´emu uˇcen´ı. Zde jsou pops´any z´akladn´ı probl´emy, principy a metody vyuˇz´ıvan´e v bioinformatick´e praxi. Nechyb´ı zde ani informace ohlednˇe probl´em˚ u pˇri v´ ybˇeru vhodn´eho datasetu, probl´emu pˇreuˇcen´ı a nast´ınˇen´ı jejich moˇzn´ ych ˇreˇsen´ı. ˇ a kapitola je vˇenov´ Sest´ ana implementaci meta-n´astroje. Je zde pops´an postup vytvoˇren´ı tr´enovac´ıho a testovac´ıho datasetu, uvedeny jsou takt´eˇz jejich z´akladn´ı charakteristiky. Sedm´ a kapitola se zab´ yv´ a testov´an´ım a experimentov´an´ım s dosaˇzen´ ymi v´ ysledky nad tr´enovac´ımi i testovac´ımi daty. Tyto v´ ysledky jsou zhodnoceny a porovn´any s v´ ysledky jednotliv´ ych predikˇcn´ıch n´ astroj˚ u. Diskutov´any jsou takt´eˇz v´ ysledky techniky v´ ybˇeru rys˚ u. V z´ avˇereˇcn´e kapitole je shrnuta v´ ysledn´a pr´ace s d˚ urazem na z´ıskan´e v´ ysledky. Pops´ an je pˇr´ınos a u ´spˇeˇsnost ˇreˇsen´ı t´eto pr´ace, uvedena jsou takt´eˇz moˇzn´a vylepˇsen´ı pro budouc´ı pr´aci.
3
Kapitola 2
Proteiny Proteiny neboli b´ılkoviny tvoˇr´ı zhruba jednu polovinu such´e hmotnosti buˇ nky [35]. Jedn´ a se vlastnˇe o biopolymer tvoˇren´ y jedn´ım nebo v´ıce polypeptidov´ ymi ˇretˇezci. Polypeptidov´e ˇretˇezce oznaˇcujeme jako polymery aminokyselin spojen´ ych navz´ajem peptidov´ ymi vazbami [43]. Proteiny nejsou ovˇsem jenom pouh´ ymi stavebn´ımi kameny, z nichˇz je buˇ nka tvoˇrena. Z [2] je patrn´e, ˇze obstar´avaj´ı i mnoho dalˇs´ıch funkc´ı a ˇze proteiny lze rozdˇelit na: • enzymy, • proteiny strukturn´ı, • transportn´ı, • pohybov´e, • z´ asobn´ı, • sign´ aln´ı, • a dalˇs´ı. Vzhledem k jist´e univerz´ alnosti protein˚ u nikoho nepˇrekvap´ı, ˇze z chemick´eho hlediska jsou pr´avˇe proteiny nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚ umyslnˇejˇs´ı zn´am´e molekuly. Velk´e mnoˇzstv´ı funkc´ı, kter´e proteiny zajiˇst’uj´ı, je d˚ usledkem obrovsk´eho poˇctu r˚ uzn´ ych tvar˚ u, kter´ ych mohou proteiny nab´ yvat.
2.1
Aminokyseliny
Aminokyseliny jsou odvozeny od organick´ ych kyselin, kde na alfa uhl´ık je nav´az´ana karboxylov´a (-COOH) a aminov´ a (-NH2 ) funkˇcn´ı skupina. Jednotliv´e aminokyseliny se od sebe liˇs´ı v tzv. postrann´ım ˇretˇezci (R), jehoˇz podoba urˇcuje chemick´e vlastnosti aminokyselin, resp. protein˚ u. Obecn´ y vzorec pro tvorbu aminokyseliny je zn´azornˇen na obr´azku 2.1. Jednotliv´e aminokyseliny jsou v molekule spojeny pomoc´ı peptidov´e vazby, kter´a vznikne spojen´ım karboxylov´e skupiny jedn´e aminokyseliny s amino skupinou druh´e aminokyseliny (viz obr´ azek 2.2). Pˇri tvorbˇe t´eto peptidov´e vazby se z´aroveˇ n vyluˇcuje molekula vody, coˇz lze oznaˇcit za kondenzaci. Zˇretˇezen´ım v´ıce aminokyselin vznik´a peptidov´ y ˇretˇezec. Zbytky aminokyselin odstupuj´ı od osy ˇretˇezce jako tzv. postrann´ı ˇretˇezce. Kaˇzd´ y peptidov´ y ˇretˇezec je na jednom konci
4
Obr´azek 2.1: Z´ akladn´ı obecn´ y vzorec aminokyselin. Symbol R oznaˇcuje postrann´ı ˇretˇezec, kter´ y pˇredstavuje zbytek aminokyseliny. Postrann´ı ˇretˇezec R, karboxylov´a a aminov´a skupina jsou nav´ az´ any na alfa-uhl´ık. [35]
Obr´ azek 2.2: Tvorba peptidov´e vazby mezi dvˇema aminokyselinami. [35]
zakonˇcen NH2 skupinou (aminov´ y ˇci N konec) a na druh´em COOH skupinou (karboxylov´ y ˇci C konec). [35] Jak jiˇz bylo ˇreˇceno, o vlastnostech protein˚ u rozhoduje charakter postrann´ıch ˇretˇezc˚ u aminokyselin. Podle [43] lze aminokyseliny z hlediska fyzik´alnˇe-chemick´eho klasifikovat takto: • Aminokyseliny s nepol´ arn´ım zbytkem. Do t´eto skupiny patˇr´ı vˇsechny aminokyseliny, kter´e maj´ı alkylov´ y postrann´ı ˇretˇezec a jsou hydrofobn´ı. Postrann´ı ˇretˇezce se snaˇz´ı shlukovat uvnitˇr molekuly a vyhnout se tak kontaktu s vodou, kter´a je uvnitˇr buˇ nky obklopuje. Mezi tyto aminokyseliny patˇr´ı glycin, alanin, valin, leucin, izoleucin, fenylalanin, tryptofan, methionin a prolin. [2] • Aminokyseliny s pol´ arn´ım zbytkem. Naopak aminokyseliny s pol´arn´ım zbytkem se snaˇz´ı zdrˇzovat na povrchu molekuly, kde mohou vytv´aˇret vod´ıkov´e m˚ ustky s molekulami vody a dalˇs´ıch pol´arn´ıch l´atek. Tyto aminokyseliny se ve vodˇe dobˇre rozpouˇstˇej´ı. Patˇr´ı sem tyrosin, asparagin, glutamin, serin, threonin a cystein. [2] • Aminokyseliny s kysel´ ym zbytkem. Jsou to takov´e aminokyseliny, jejichˇz postrann´ı ˇretˇezec obsahuje karboxylovou skupiny. Patˇr´ı sem kyselina asparagov´a a kyselina glutamov´ a. [43] • Aminokyseliny se z´ asadit´ ym zbytkem. Tyto aminokyseliny maj´ı pˇri neutr´aln´ım pH v postrann´ım ˇretˇezci kladn´ y n´aboj. Patˇr´ı sem aminokyseliny histidin, arginin a lysin. [43] Pro u ´plnost dopln´ım, ˇze dˇelen´ı aminokyselin m˚ uˇze b´ yt zaloˇzeno i na struktuˇre jejich postrann´ıch ˇretˇezc˚ u, v´ıce lze nal´ezt na [43].
5
Jelikoˇz je moˇzn´e setkat se s v´ıce variantami z´apisu konkr´etn´ı aminokyseliny, v tabulce 2.1 je uveden seznam dvaceti aminokyselin a jejich odpov´ıdaj´ıc´ıch tˇr´ıp´ısmenn´ ych a jednop´ısmenn´ ych ekvivalent˚ u. Pol´ arn´ı aminokyseliny Asparagov´ a kys. Asp D Glutaminov´ a kys. Glu E Arginin Arg R Lysin Lys K Histidin His H Asparagin Asn N Glutamin Gln Q Serin Ser S Threonin Thr T Tyrosin Tyr Y
Nepol´ arn´ı aminokyseliny Alanin Ala A Glycin Gly G Valin Val V Leucin Leu L Izoleucin Ile I Prolin Pro P Fenylalanin Phe F Methionin Met M Tryptofan Trp W Cystein Cys C
Tabulka 2.1: Seznam 20 r˚ uzn´ ych aminokyselin nach´azej´ıc´ıch se v proteinech. Vedle jm´ena aminokyseliny je jej´ı tˇr´ıp´ısmenn´ a i jednop´ısmenn´a zkratka. [2]
2.2 2.2.1
Struktura proteinov´ e molekuly Prim´ arn´ı struktura
Prim´arn´ı struktura proteinu je takov´a struktura, kter´a je tvoˇrena sledem (sekvenc´ı) jednotliv´ ych aminokyselin v molekule. Z tohoto tvrzen´ı vypl´ yv´a, ˇze vlastnosti urˇcit´e b´ılkoviny nejsou d´ any pouze aminokyselinov´ ym sloˇzen´ım, ale takt´eˇz jejich poˇrad´ım. Tat´aˇz mnoˇzina aminokyselin m˚ uˇze b´ yt seˇrazena line´arnˇe teoreticky ve vˇsech kombinac´ıch. [35] Tato struktura obsahuje informaci, podle kter´e se tvoˇr´ı sekund´arn´ı, terci´aln´ı a kvartern´ı struktura proteinu, realizuje se jejich nadmolekul´arn´ı struktura a biologick´a funkce [43]. Pro zjiˇstˇen´ı prim´ arn´ı struktury proteinu se pouˇz´ıv´a technika zvan´a sekvenov´ an´ı.
2.2.2
Sekund´ arn´ı struktura
Jelikoˇz polypeptidov´ y ˇretˇezec umoˇzn ˇuje volnou rotaci atom˚ u, m˚ uˇzeme tyto ˇretˇezce oznaˇcit jako velmi flexibiln´ı. Tvar ˇretˇezce v prostoru oznaˇcujeme jako konformaci proteinu. Konformace ovˇsem nen´ı n´ ahodn´ a, ale je urˇcov´ana silami, kter´e p˚ usob´ı uvnitˇr molekuly. Pˇredevˇs´ım se jedn´ a o rozloˇzen´ı sil mezi aminokyselinami s pol´arn´ımi a nepol´arn´ımi postrann´ımi ˇretˇezci. Nepol´arn´ı postrann´ı ˇretˇezce jsou pˇritahov´any k sobˇe (dovnitˇr molekuly), kdeˇzto pol´arn´ı postrann´ı ˇretˇezce se orientuj´ı na povrch molekuly (viz obr´azek 2.3). [35] Dalˇs´ı silou, kter´ a zde p˚ usob´ı, jsou vod´ıkov´e m˚ ustky mezi peptidov´ ymi vazbami v ˇretˇezci, d´ale mezi nimi a postrann´ımi ˇretˇezci a mezi postrann´ımi ˇretˇezci navz´ajem [35]. D˚ usledkem tˇechto sil je to, ˇze dan´ y polypeptidov´ y ˇretˇezec zaujme vˇzdy stejnou konformaci. Zmˇen´ımeli pomˇer tˇechto sil (napˇr. denaturac´ı), polypeptidov´ y ˇretˇezec se vr´at´ı zpˇet do p˚ uvodn´ıho stavu, jakmile tyto s´ıly pˇrestanou p˚ usobit (napˇr. renaturac´ı). Pˇri bliˇzˇs´ım zkoum´ an´ı struktur proteinu si lze vˇsimnout, ˇze obvykle obsahuj´ı dva z´akladn´ı modely. Prvn´ım modelem je α-ˇsroubovice (α-helix). α-helix je takov´e prostorov´e uspoˇr´ad´an´ı,
6
Obr´azek 2.3: Rozvinut´ y polypeptidov´ y ˇretˇezec zauj´ım´a ve vodn´em prostˇred´ı urˇcitou prostorovou strukturu. Nepol´ arn´ı postrann´ı ˇretˇezce se soustˇred’uj´ı uvnitˇr molekuly, kdeˇzto hydrofiln´ı postrann´ı ˇretˇezce se vyskytuj´ı na povrchu molekuly, kde interaguj´ı s molekulami vody. [35]
kde ˇretˇezec vytv´ aˇr´ı ˇsroubovici. Tato konformace je stabilizov´ana vod´ıkov´ ymi m˚ ustky mezi nad sebou leˇz´ıc´ımi peptidov´ ymi vazbami. [35] Druh´ ym modelem je β-struktura (β skl´adan´ y list). V β-struktuˇre prob´ıhaj´ı u ´seky ˇretˇezce paralelnˇe vedle sebe. Tato struktura je stabilizov´ana vod´ıkov´ ymi m˚ ustky mezi soused´ıc´ımi u ´seky. [35]
2.2.3
Terci´ aln´ı struktura
Terci´aln´ı strukturou se oznaˇcuje prostorov´e trojrozmˇern´e uspoˇr´ad´an´ı polypeptidov´eho ˇretˇezce. Hlavn´ım d˚ uvodem pro vytvoˇren´ı terci´arn´ı struktury protein˚ u je r˚ uznost chemick´e povahy aminokyselinov´ ych postrann´ıch ˇretˇezc˚ u schopn´ ych tvoˇrit nekovalentn´ı vazby. [43] Jelikoˇz jsou vˇsechny interakce udrˇzuj´ıc´ı konformaˇcn´ı stabilitu energeticky slab´e (takt´eˇz nekovalentn´ı), p˚ usoben´ım vnˇejˇs´ıch faktor˚ u doch´az´ı ke zmˇenˇe terci´aln´ı struktury [35]. Pokud je tato zmˇena vratn´ a, mluv´ıme o vratn´e denaturaci, jinak ji oznaˇcujeme jako nevratnou denaturaci.
7
2.2.4
Kvartern´ı struktura
Kvartern´ı struktura ˇreˇs´ı uspoˇr´ ad´ an´ı jednotliv´ ych polypeptidov´ ych ˇretˇezc˚ u v molekule proteinu. Toto se t´ yk´ a ovˇsem jen oligomern´ıch protein˚ u, tj. takov´ ych protein˚ u, kter´e jsou tvoˇren´ y v´ıce jak jedn´ım polypeptidov´ ym ˇretˇezcem. Je zaj´ımav´e, ˇze i pˇrestoˇze je protein tvoˇren nˇekolika polypeptidov´ ymi ˇretˇezci, chov´a se v roztoku a v ˇziv´e soustavˇe jako jedna molekula vyznaˇcuj´ıc´ı se urˇcitou biologickou funkc´ı. [43] Sekund´ arn´ı, terci´ aln´ı a kvartern´ı strukturu lze zhl´ednout na obr´azku 2.4.
Obr´azek 2.4: V lev´e ˇc´ asti obr´ azku m˚ uˇzeme vidˇet sekund´arn´ı strukturu proteinu (konkr´etnˇe α-helix a β-strukturu). V prostˇredn´ı ˇc´asti je zobrazena terci´aln´ı struktura s proteinovou dom´enou a proteinovou podjednotkou (monomerem). V prav´e ˇc´asti se nach´az´ı proteinov´ a molekula (dimer) ˇrad´ıc´ı se do kvartern´ı struktury. [35]
8
Kapitola 3
Probl´ em predikce vlivu aminokyselinov´ e substituce na stabilitu proteinu 3.1
Stabilita proteinu
Stabilita proteinu je urˇcena mnoˇzinou navz´ajem p˚ usob´ıc´ıch a ovlivˇ nuj´ıc´ıch se sil. Pokud protein oznaˇc´ıme za stabiln´ı, nach´ az´ı se ve sv´e p˚ uvodn´ı sloˇzen´e konformaci. Na druhou stranu, pokud je protein nestabiln´ı, dojde k jeho rozloˇzen´ı (denaturaci). Protein ve sloˇzen´e konformaci je stabilizov´ an r˚ uzn´ ymi vz´ ajemn´ ymi interakcemi jako jsou hydrofobn´ı, elektrostatick´e, vod´ıkov´e vazby ˇci van der Waaalsovi s´ıly. V rozloˇzen´e konformaci dominuje entropick´ a a neentropick´ a voln´ a energie. [19] Interakce mezi hlavn´ım ˇretˇezcem a jeho postrann´ımi ˇretˇezci urˇcuje vˇsechny moˇzn´e konformace, kter´ ych protein m˚ uˇze nab´ yvat. Struktura v´ ysledn´eho proteinu je omezena tak´e pomoc´ı tzv. torzn´ıch u ´hl˚ u. Tyto torzn´ı u ´hly umoˇzn ˇuj´ı rotaci okolo N − Cα a Cα − C jednoduch´ ych vazeb jednotliv´ ych residu´ı. D˚ usledkem je druh´ y termodynamick´ y z´akon, kter´ y ˇr´ık´a, ˇze syst´emy s konstantn´ı teplotou a tlakem najdou rovnov´aˇzn´ y bod jako jist´ y kompromis mezi entalpi´ı (H), entropi´ı (S) a termodynamickou teplotou (T ). V´ ysledkem je tzv. Gibbsova voln´ a energie vyj´ adˇren´ a vztahem G = H − T ∗ S. [26] Pokud pˇrihl´edneme k moˇznostem vzniku mutac´ı maj´ıc´ı za n´asledek zmˇenu aminokyseliny, je zˇrejm´e, ˇze m˚ uˇze doj´ıt jak ke zmˇenˇe konformace proteinu, tak i ke zmˇenˇe jeho stability. Podrobnˇejˇs´ı informace o mutac´ıch lze nal´ezt v kapitole 3.2.
3.1.1
Datab´ aze ProTherm
Termodynamick´ a data protein˚ u jsou velmi d˚ uleˇzit´a pro porozumˇen´ı z´akladn´ım mechanism˚ um proteinov´e stability. Z tohoto d˚ uvodu bylo bˇehem posledn´ıch desetilet´ı provedeno mnoho experiment˚ u s c´ılem z´ıskat tato data. V´ ysledky tˇechto experiment˚ u byly vˇetˇsinou publikov´ any v r˚ uzn´ ych ˇcasopisech zab´ yvaj´ıc´ıch se touto t´ematikou. Jelikoˇz se data nevyskytovala na jednom m´ıstˇe, hled´ an´ı konkr´etn´ıch z´aznam˚ u byl velk´ y probl´em. Proto v roce 1998 vznikla elektronicky dostupn´a datab´aze ProTherm [25], kter´a shromaˇzd’uje takto experiment´ alnˇe z´ıskan´ a data. Tato datab´aze obsahuje termodynamick´a data (napˇr. zmˇena Gibbsovy voln´e energie, zmˇena entalpie aj.), strukturn´ı informace, mˇeˇr´ıc´ı metody, odkazy na souvisej´ıc´ı literaturu nebo podm´ınky, ve kter´ ych byl experiment proveden [26]. V souˇcasn´e dobˇe tato datab´ aze obsahuje 25 820 z´aznam˚ u [1]. 9
Shromaˇzd’ov´ an´ı tˇechto dat a zpˇr´ıstupnˇen´ı vˇedeck´e komunitˇe m˚ uˇze pomoci vyvinout nov´e metody pro lepˇs´ı porozumˇen´ı a pˇredpov´ıd´an´ı stability proteinu. Tohoto faktu je vyuˇzito i v t´eto diplomov´e pr´ aci.
3.2
Mutace v proteinu
Jak bylo ˇreˇceno v u ´vodu kapitoly, stabilitu proteinu je moˇzn´e ovlivnit zejm´ena mutac´ı jednotliv´ ych aminokyselin. Term´ınem mutace jsou v souvislosti s lidsk´ ym genomem oznaˇcov´any n´ahl´e, n´ahodn´e nebo neusmˇernˇen´e zmˇeny genetick´eho materi´alu. Jsou to vˇsechny zmˇeny genetick´e informace, kter´e nejsou v´ ysledkem segregac´ı a rekombinac´ı ˇc´asti genotyp˚ u jiˇz existuj´ıc´ıch [49]. Dle [35] mohou mutace mˇenit obsah genomu na tˇrech u ´rovn´ıch, podle toho rozliˇsujeme mutace: • genov´e (mˇen´ı informaci nesenou genem), • chromozomov´e (zp˚ usobena zmˇenou struktury chromozomu), • genomov´e (zmˇena poˇctu chromozom˚ u). Jak jiˇz bylo zm´ınˇeno, prim´ arn´ı struktura proteinu je urˇcov´ana z informac´ı obsaˇzen´ ych v DNA a pr´ avˇe DNA je m´ıstem, kde prob´ıhaj´ı mutace, kter´e mohou, ale tak´e nemus´ı m´ıt z´asadn´ı vliv na strukturu resp. funkci proteinu. Z tohoto d˚ uvodu se v dalˇs´ıch podkapitol´ ach budeme podrobnˇeji zmiˇ novat jen o mutac´ıch genov´ ych.
3.2.1
Pˇ r´ıˇ cina vzniku mutac´ı
V t´eto podkapitole jsou pops´ any fyzick´e i chemick´e faktory ovlivˇ nuj´ıc´ı vznik mutageneze (tj. procesu vzniku mutac´ı). Genov´e mutace mohou vzniknout napˇr´ıklad jako chyby pˇri replikaci DNA. Pokud se zamˇeˇr´ıme sp´ıˇse na pˇrenos genetick´e informace, mutace mohou ovlivnit procesy jako transkripce ˇci translace. Zn´am´ ym pˇr´ıpadem mutace je napˇr´ıklad srpkovit´a an´emie. Ta vznik´ a mutac´ı genu pro hemoglobin, konkr´etnˇe z´amˇenou v jeho betapeptidick´em ˇretˇezci, kde se na ˇsest´e pozici m´ısto glutaminov´e kyseliny objevuje valin, kter´ y zp˚ usobuje srpkovitost ˇcerven´ ych krvinek. [49] Mezi fyzik´ aln´ı faktory zp˚ usobuj´ıc´ı mutaci m˚ uˇzeme zaˇradit z´aˇren´ı, a to jak ionizuj´ıc´ı, tak i neionizuj´ıc´ı. Stupeˇ n poˇskozen´ı molekul´arn´ı struktury DNA je pˇr´ımo u ´mˇern´ y absorbovan´e d´ avce z´ aˇren´ı. Mezi ionizuj´ıc´ı z´aˇren´ı lze zaˇradit pˇredevˇs´ım rentgenov´e z´aˇren´ı, neutrony, protony a elektrony o vysok´em obsahu energie. Toto z´aˇren´ı zp˚ usobuje pˇreruˇsen´ı kontinuity vl´akna DNA. Mezi neionizuj´ıc´ı z´aˇren´ı zaˇrazujeme pˇredevˇs´ım z´aˇren´ı ultrafialov´e, kter´e poˇskozuje DNA. Mezi chemick´e faktory ovlivˇ nuj´ıc´ı strukturu DNA lze zaˇradit l´atky zvan´e genotoxiny. Tˇechto l´ atek je obrovsk´e mnoˇzstv´ı a patˇr´ı mezi nˇe napˇr´ıklad alkylaˇcn´ı ˇcinidla, siln´a oxidaˇcn´ı ˇcinidla, ˇcinidla interkalaˇcn´ı a jin´e. Nˇekter´e l´atky ovˇsem nemusej´ı poˇskozovat DNA pˇr´ımo, ale mohou naruˇsovat napˇr´ıklad replikaci. [49]
10
3.2.2
Typy mutac´ı
Dle [35] mezi z´ akladn´ı typy mutac´ı patˇr´ı: • substituce, • inzerce, • delece. Vˇsechny ostatn´ı typy mutac´ı jsou jenom r˚ uzn´ ymi variantami tˇechto tˇr´ı zm´ınˇen´ ych mutac´ı. Substituce je z´ amˇena jednoho ˇci nˇekolika po sobˇe jdouc´ıch p´ar˚ u nukleotid˚ u. Transpozic´ı se oznaˇcuje zmˇena poˇrad´ı nukleotid˚ u nebo nukleotidov´ ych p´ar˚ u. Inverze je v´ ymˇena jednoho nebo v´ıce nukleotidov´ ych p´ ar˚ u mezi obˇema vl´akny DNA. Vˇclenˇen´ı jednoho nebo v´ıce po sobˇe n´ asleduj´ıc´ıch nukleotid˚ u nebo nukleotidov´ ych p´ar˚ u oznaˇcujeme jako inzerce. Delece je pak ztr´ ata jednoho nebo nˇekolika po sobˇe n´asleduj´ıc´ıch nukleotid˚ u ˇci nukleotidov´ ych p´ar˚ u. Vˇsechny uveden´e mutace m˚ uˇzeme pˇrehlednˇe vidˇet v tabulce 3.1. vl´ akno standardn´ı DNA
a
b
c
d
e
f
substituce
a
r
c
d
e
f
transpozice
a
c
d
b
e
f
inzerce
a
b
m
n
c
d
e
duplikace
a
b
b
c
d
e
f
delece
a
b
d
e
f
inverze
a
b c
d
e
f
f
Tabulka 3.1: Bˇeˇzn´e typy genov´ ych mutac´ı (pˇrepracov´ano z [35]).
3.2.3
Nukleotidov´ y polymorfismus
Vˇsichni lid´e, s v´ yjimkou identick´ ych sourozenc˚ u, maj´ı unik´atn´ı DNA sekvenci. Pˇri porovn´ an´ı jedinc˚ u, kteˇr´ı nebyli v pˇr´ıbuzensk´em vztahu, se zjistilo, ˇze se genom tˇechto jedinc˚ u liˇs´ı zhruba o 0,1%. Vˇetˇsina tˇechto odliˇsnost´ı je zp˚ usobena pr´avˇe nukleotidov´ ymi polymorfismy, konkr´etnˇe jednobodov´ ym polymorfismem oznaˇcovan´ ym SNP (Single-nucleotide polymorphism) [26]. Odhaduje se, ˇze v´ıce jak 93% lidsk´ ych gen˚ u obsahuje alespoˇ n nˇejak´ y SNP, z toho pˇribliˇznˇe 98% gen˚ u je ve vzd´alenosti do 5000 p´ar˚ u b´az´ı od SNP. [10] SNP lze tedy ch´ apat jako genetickou variabilitu mezi jedinci v populaci, kde doch´ az´ı k substituci, inzerci nebo deleci pouze u jednoho p´aru b´az´ı. Pˇr´ıkladem budiˇz jiˇz zm´ınˇen´ a srpkovit´ a an´emie. [26] Pokud se pod´ıv´ ame na tabulku 3.2, kter´a zn´azorˇ nuje k´odov´an´ı aminokyselin pomoc´ı kodon˚ u mRNA, zjist´ıme, ˇze urˇcit´a aminokyselina m˚ uˇze b´ yt k´odov´ana r˚ uzn´ ymi kodony. Z tohoto faktu vypl´ yv´ a, ˇze pˇri mutaci nemus´ı vˇzdy doj´ıt ke zmˇenˇe aminokyseliny a s t´ım souvisej´ıc´ı zmˇenˇe prim´ arn´ı struktury pˇr´ısluˇsn´eho proteinu.
11
Dle [35], [26] lze SNP rozdˇelit na: • synonymn´ı (tichou) mutace, kter´e nezp˚ usob´ı z´amˇenu aminokyseliny na dan´e pozici, • nesynonymn´ı mutace, kde vznikaj´ı kodony urˇcuj´ıc´ı jinou aminokyselinu, • nesmysln´e (nonsense) mutace, kde vznikaj´ı ukonˇcovac´ı kodony, ˇc´ımˇz dojde ke zkr´acen´ı polypeptidov´ ych ˇretˇezc˚ u.
U
C
A
G
U UUU UUC UUA UUG CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG
Phe Phe Leu Leu Leu Leu Leu Leu Ile Ile Ile Met Val Val Val Val
C UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG
Ser Ser Ser Ser Pro Pro Pro Pro Thr Thr Thr Thr Ala Ala Ala Ala
A UAU UAC UAA UAG CAU CAC CAA CAG AAU AAC AAA AAG GAU GAC GAA GAG
Tyr Tyr stop stop His His Gln Gln Asn Asn Lys Lys Asp Asp Glu Glu
G UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG
Cys Cys stop Trp Arg Arg Arg Arg Ser Ser Arg Arg Gly Gly Gly Gly
Tabulka 3.2: K´ odov´ an´ı aminokyselin pomoc´ı kodon˚ u mRNA. [35]
3.2.4
D˚ usledky mutac´ı strukturn´ıch gen˚ u
Jelikoˇz mutace mohou ve sv´em d˚ usledku mˇenit prim´arn´ı strukturu protein˚ u, je zˇrejm´e, ˇze tyto mutace tak´e mohou vyvol´avat podstatn´e zmˇeny metabolick´ ych i jin´ ych proces˚ u v buˇ nce (dokonce mohou zp˚ usobit i jej´ı z´anik). Je takt´eˇz zaj´ımav´e, ˇze pokud dojde k z´amˇenˇe aminokyseliny v m´ıstˇe nev´ yznamn´em pro biologickou funkci proteinu, mutace se ve fenotypu neprojev´ı. Pokud dojde k z´ amˇenˇe aminokyseliny v aktivn´ım ˇci vazebn´em m´ıstˇe proteinu, funkce proteinu se zmˇen´ı nebo se dan´ y protein stane nefunkˇcn´ım. Delece nebo inzerce nukleotid˚ u zp˚ usob´ı zmˇenu ˇctec´ıho r´amce, jehoˇz d˚ usledkem je vˇzdy synt´eza nefunkˇcn´ıho proteinu. Fenotypov´e projevy mutac´ı strukturn´ıch gen˚ u jsou r˚ uzn´e podle zmˇeny stupnˇe genov´eho produktu. M˚ uˇze se jednat o zmˇenu kinetiky enzymu ˇci vazebn´ ych schopnost´ı proteinu nebo o absenci urˇcit´e metabolick´e funkce. [35]
12
Kapitola 4
N´ astroje pro predikci stability proteinu V pr˚ ubˇehu posledn´ıho desetilet´ı bylo vyvinuto nˇekolik metod k urˇcen´ı vlivu aminokyselinov´ ych mutac´ı na stabilitu proteinu. Vˇetˇsina z tˇechto v´ ypoˇcetn´ıch metod je prim´arnˇe zaloˇzena na v´ ypoˇctu zmˇeny voln´e energie (∆∆G). Nˇekter´e z tˇechto metod pouˇz´ıvaj´ı pro v´ ypoˇcet ∆∆G energetick´e funkce, kter´e popisuj´ı interakce mezi jednotliv´ ymi residui. Jin´e n´astroje mohou pouˇz´ıvat metod strojov´eho uˇcen´ı (machine learning approaches), kde k natr´enov´an´ı modelu vyuˇz´ıvaj´ı datab´ aze s experiment´alnˇe namˇeˇren´ ymi hodnotami zmˇen po proveden´ı mutac´ı. Zp˚ usob urˇcen´ı energetick´ ych funkc´ı m˚ uˇzeme rozdˇelit dle [23] na pˇr´ıstupy zaloˇzen´e na: • fyzik´ aln´ım potenci´ alu (physical potential approaches), • statistick´em potenci´ alu (statistical potential approaches) a • empirick´em potenci´ alu (empirical potential approaches). V´ ypoˇcty ∆∆G zaloˇzen´e na fyzik´ aln´ım potenci´alu simuluj´ı rozloˇzen´ı sil mezi jednotliv´ ymi atomy (tj. anal´ yza sil). Z tohoto d˚ uvodu je tato metoda predikce stability v´ ypoˇcetnˇe n´aroˇcnˇejˇs´ı neˇz metody strojov´eho uˇcen´ı. V´ ypoˇcet statistick´eho potenci´alu vyuˇz´ıv´a anal´ yzy r˚ uzn´ ych vlastnost´ı extrahovan´ ych z datasetu proteinov´ ych struktur (statistick´e anal´ yzy prostˇred´ı, substituˇcn´ıch frekvenc´ı ˇci korelac´ı pˇrilehl´ ych residu´ı nalezen´ ych experiment´alnˇe v proteinov´ ych struktur´ ach). Pˇri v´ ypoˇctu energetick´e funkce je empirick´ y potenci´al urˇcen kombinac´ı v´ ahovan´ ych fyzik´ aln´ıch a statistick´ ych energetick´ ych v´ yraz˚ u [23]. Nˇekter´e pˇr´ıstupy takt´eˇz mohou kombinovat v´ yhody statistick´e anal´ yzy a metod strojov´eho uˇcen´ı, respektive neuronov´ ych s´ıt´ı. V nˇekter´ ych pˇr´ıpadech se vyskytuj´ı hybridn´ı pˇr´ıstupy zaloˇzen´e na fyzik´aln´ım a statistick´em potenci´ alu [39]. D´ale m˚ uˇzeme predikˇcn´ı n´ astroje rozdˇelit dle zp˚ usobu pr´ace s proteinov´ ymi z´aznamy (strukturami) na • strukturn´ı a • sekvenˇcn´ı.
13
Predikˇcn´ı n´ astroje vyuˇz´ıvaj´ıc´ı 3D struktury proteinu vyˇzaduj´ı ke sv´emu chodu soubory ve form´ atu PDB (Protein data bank) [6], kter´e jsou volnˇe on-line dostupn´e1 . K nev´ yhod´ am tohoto pˇr´ıstupu patˇr´ı pr´ avˇe z´ avislost na PDB souborech obsahuj´ıc´ıch potˇrebn´e strukturn´ı informace. Zdrojem dat b´ yv´ a experiment´aln´ı mˇeˇren´ı metodami NMR a X-ray krystalografi´ı. [6] N´astroje vyuˇz´ıvaj´ıc´ı sekvenˇcn´ıho pˇr´ıstupu vyˇzaduj´ı pouze sekvenci aminokyselin dan´eho proteinu. V tomto pˇr´ıpadˇe zde odpad´a pˇr´ıtomnost chyb, kdy experiment´aln´ı mˇeˇr´ıc´ı metody (NMR a X-ray krystalografie) nejsou schopny zaznamenat urˇcit´e pozice atom˚ u, jak se tomu dˇeje v nˇekter´ ych PDB z´ aznamech, kter´e tak znemoˇzn ˇuj´ı predikci vlivu mutace na stabilitu proteinu na dan´ ych atomov´ ych souˇradnic´ıch. Na druhou stranu t´ımto pˇr´ıstupem ztr´ac´ıme informaci o prostorov´em uspoˇr´ ad´ an´ı atom˚ u proteinu. N´ıˇze uveden´e predikˇcn´ı n´ astroje byly vybr´any takov´ ym zp˚ usobem, aby byla pokryta co moˇzn´a nejˇsirˇs´ı ˇsk´ ala zp˚ usob˚ u a metod jak predikovat stabilitu proteinu a bylo t´ım dosaˇzeno co moˇzn´ a nejvyˇsˇs´ı m´ıry univerz´ alnosti v´ ysledn´eho meta-n´astroje.
4.1
AUTO-MUTE
AUTO-MUTE je kolekc´ı tˇr´ı n´ astroj˚ u (∆∆G, ∆∆GH2 O a ∆Tm ) slouˇz´ıc´ıch pro predikci vlivu aminokyselinov´ ych mutac´ı na stabilitu proteinu. V tomto textu se budeme zab´ yvat n´astrojem oznaˇcen´ ym ∆∆G, kter´ y predikuje vliv jednobodov´ ych mutac´ı na stabilitu proteinu s ohledem na tepelnou denaturaci. Predikˇcn´ı modely tohoto n´ astroje byly tr´enov´any na m´ırnˇe upraven´ ych z´aznamech z´ıskan´ ych z datab´ aze ProTherm (bl´ıˇze pops´ano v [8]). P˚ uvodn´ı dataset obsahoval 1948 jednobodov´ ych mutac´ı z celkem 58 proteinov´ ych struktur, kter´e se z´aroveˇ n vyskytovaly v datab´ azi PDB. Po r˚ uzn´ ych u ´prav´ach (napˇr. odstranˇen´ı proteinov´ ych struktur, kter´e neobsahovaly kompletn´ı informace o 3D struktuˇre proteinu), dataset obsahoval 1925 jednobodov´ ych mutac´ı v 55 proteinov´ ych struktur´ach. Poskytnuty jsou dva klasifikaˇcn´ı modely (pouze pro predikci znam´enka ∆∆G) a dva regresn´ı modely (predikce hodnoty ∆∆G). U klasifikaˇcn´ıch metod lze pouˇz´ıt Random Forest (RF) a Support Vector Machine (SVM), regresn´ı metody nab´ızej´ı moˇznost volby mezi Tree Regression (REPTree) a SVM regression (SVMreg). V´ ybˇer mezi tˇemito modely je ponech´ an na uˇzivateli, podrobnˇejˇs´ı informace lze nal´ezt na [31]. K povinn´ ym vstupn´ım parametr˚ um patˇr´ı: PDB ID (jednoznaˇcn´ y ˇctyˇrp´ısmenn´ y identifik´ator proteinov´e struktury v PDB datab´azi), proteinov´ y ˇretˇezec, mutace (ve form´ atu p˚ uvodn´ı residuum, pozice mutace, nahrazen´e residuum), teplota (v rozsahu 0◦ C aˇz 100◦ C) a pH (v rozsahu 0 -log[H+] aˇz 14 -log[H+]). V´ ysledn´ y efekt mutace je urˇcen na z´akladˇe hodnoty ∆∆G. Pokud je splnˇena podm´ınka ∆∆G > 0 kcal/mol, jde o stabilizuj´ıc´ı mutaci, jinak je mutace oznaˇcena za destabilizuj´ıc´ı. K dalˇs´ım v´ ystup˚ um n´ astroje patˇr´ı napˇr´ıklad i predikce sekund´arn´ı struktury. Samotn´ y n´astroj umoˇzn ˇuje predikovat aˇz pˇet mutac´ı souˇcasnˇe.
4.2
SDM
Site Directed Mutator (SDM) je on-line n´astroj zaloˇzen´ y na v´ ypoˇctu statistick´eho potenci´alu energetick´e funkce vyvinut´ y Christopherem M. Tophamem [44] k predikci efektu 1
http://www.pdb.org
14
jednobodov´ ych mutac´ı na stabilitu proteinu. SDM pouˇz´ıv´a specifick´e prostˇred´ı aminokyselinov´ ych substituˇcn´ıch frekvenc´ı v r´amci homologn´ıch proteinov´ ych rodin k v´ ypoˇctu tzv. stability sk´ ore. Tento typ v´ ypoˇctu lze povaˇzovat za analogii ke zmˇenˇe voln´e energie mezi divok´ ym typem (z anglick´eho pˇrekladu wild-type) a mutovan´ ym proteinem [47]. Dalˇs´ı informace ohlednˇe principu v´ ypoˇctu predikce stability proteinu lze nal´ezt na [44]. N´astroj k predikci vyuˇz´ıv´ a strukturn´ıch informac´ı, proto je nutn´e zadat PDB ID nebo je moˇzn´e nahr´ at vlastn´ı PDB soubor. D´ale je nutn´e urˇcit proteinov´ y ˇretˇezec, pozici mutovan´eho residua a samotn´e mutovan´e residuum. N´astroj neumoˇzn ˇuje zadat p˚ uvodn´ı residuum na zvolen´e pozici. Tato vlastnost se zvl´aˇstˇe pˇri pouˇzit´ı automatick´eho zpracov´an´ı uk´azala jako nev´ yhodn´ a, a to vzhledem k faktu, ˇze nˇekter´e PDB soubory neobsahuj´ı kompletn´ı posloupnost atom˚ u a m˚ uˇze tak doj´ıt k chybn´emu urˇcen´ı mutovan´eho m´ısta. Typicky se jedn´a o probl´em na zaˇc´ atc´ıch a konc´ıch ˇretˇezce, kde vlivem pouˇzit´e experiment´aln´ı metody nemus´ı b´ yt dan´ a aminokyselina uvedena a m˚ uˇze tak doj´ıt k nekonzistenci mezi pozicemi aminokyselin v z´ aznamu SEQRES a atomov´ ymi souˇradnicemi. Kv˚ uli absenci kontroly ekvivalence m˚ uˇzeme v tˇechto pˇr´ıpadech predikovat stabilitu proteinu na jin´e pozici, neˇz bylo p˚ uvodnˇe poˇzadov´ ano. K zaj´ımav´ ym vlastnostem tohoto n´astroje patˇr´ı, ˇze kromˇe predikce stability proteinu pˇredpov´ıd´ a i moˇznost onemocnˇen´ı. Mutovan´a pozice je z´aroveˇ n uk´az´ana v Jmol appletu, kde jsou jednotliv´ a residua obarvena podle jejich chemick´ ych vlastnost´ı.
4.3
CUPSAT
Cologne University Protein Stability Analysis Tool (CUPSAT) je webov´ y n´astroj slouˇz´ıc´ı k anal´ yze a predikci zmˇen stability proteinu zp˚ usoben´e jednobodov´ ymi aminokyselinov´ ymi mutacemi. N´ astroj k v´ ypoˇctu ∆∆G pouˇz´ıv´a potenci´alu specifick´ ych strukturn´ıch atom˚ u a potenci´ alu torzn´ıch u ´hl˚ u. CUPSAT, jako jedin´ y z vybran´ ych predikˇcn´ıch n´astroj˚ u, lze zaˇradit do kategorie n´ astroj˚ u, kter´e pro v´ ypoˇcet energetick´e funkce pouˇz´ıvaj´ı pˇr´ıstupu zaloˇzen´em na empirick´em potenci´alu. Poˇzadovan´e vstupn´ı parametry jsou PDB ID, pozice mutace v aminokyselinov´em ˇretˇezci a p˚ uvodn´ı (pˇrirozen´ a) aminokyselina na zadan´e pozici. D´ale je moˇzn´e urˇcit experiment´aln´ı metodu, kde m´ a uˇzivatel na v´ ybˇer ze dvou moˇznost´ı Thermal a Denaturants. Pˇri v´ ybˇeru mezi tˇemito dvˇema metodami byly br´any v u ´vahy u ´daje obsaˇzen´e v datab´azi ProTherm. Pokud jako metoda denaturace nebyla v z´aznamu datab´aze ProTherm uvedena metoda Thermal, byla vybr´ ana experiment´aln´ı metoda Denaturants, v jin´em pˇr´ıpadˇe byla vybr´ana metoda Thermal. Pro zadan´e vstupn´ı parametry n´astroj predikuje celkov´ y efekt na stabilitu proteinu (stabiln´ı/destabiln´ı), torzn´ı u ´hly (favourable/unfavourable) a konkr´etn´ı hodnotu ∆∆G. Kladn´e hodnoty ∆∆G jsou zde br´ any jako stabilizuj´ıc´ı, z´aporn´e jako destabilizuj´ıc´ı. Aˇckoliv autoˇri ve sv´em ˇcl´ anku [36] slibuj´ı aktualizaci lok´aln´ıho PDB repozit´aˇre pˇribliˇznˇe jednou mˇes´ıˇcnˇe, u nˇekter´ ych proteinov´ ych struktur obsaˇzen´ ych v datab´azi PDB nelze stabilitu predikovat. Tento probl´em lze ˇreˇsit ruˇcn´ım nahr´an´ım PDB souboru do lok´aln´ıho repozit´ aˇre n´ astroje. [36]
4.4
I-Mutant3.0
Autoˇri tohoto n´ astroje pouˇzili na rozd´ıl od vˇsech zm´ınˇen´ ych n´astroj˚ u tˇr´ıstavovou klasifikaci. Dle [9] se v pouˇzit´em datasetu vyskytovalo okolo 32% hodnot ∆∆G, kter´e byly bl´ızk´e nule
15
(v intervalu -0,5 aˇz 0,5 kcal/mol). Hodnoty v tomto rozsahu ovˇsem nemusej´ı b´ yt urˇceny pˇresnˇe (zp˚ usobeno napˇr´ıklad chybou mˇeˇren´ı ˇci pˇresnost´ı mˇeˇr´ıc´ı metody) a je moˇzn´e, ˇze vliv mutace bude ˇspatnˇe klasifikov´ an. Z tohoto d˚ uvodu autoˇri pouˇzili jiˇz zm´ınˇenou tˇr´ıstavovou klasifikaci, kde destabilizuj´ıc´ı mutace mus´ı splˇ novat podm´ınku ∆∆G < -1,0 kcal/mol, stabilizuj´ıc´ı mutace ∆∆G > 1,0 kcal/mol a neutr´aln´ı mutace -1,0 ≤ ∆∆G ≥ 1,0 kcal/mol. I-Mutant3.0 je n´ astroj vyuˇz´ıvaj´ıc´ı metod strojov´eho uˇcen´ı, konkr´etnˇe metody Support Vector Machine (SVM). Autoˇri vytvoˇrili dvˇe verze tohoto programu, v prvn´ı verzi je predikce zaloˇzena na strukturn´ı anal´ yze, druh´a verze vyuˇz´ıv´a sekvenˇcn´ı anal´ yzu. Tr´enovac´ı dataset pro sekvenˇcn´ı verzi I-Mutant3.0 je tvoˇren 1623 r˚ uzn´ ymi jednobodov´ ymi mutacemi obsaˇzen´ ymi v 58 r˚ uzn´ ych proteinech. Pro strukturn´ı verzi tr´enovac´ıho datasetu bylo vybr´ ano 1576 r˚ uzn´ ych mutac´ı z celkem 55 protein˚ u. Aplikov´an´ım termodynamick´e reverzibility (pˇredpokl´ ad´ame, ˇze reverzn´ı mutace zp˚ usobuje stejnou zmˇenu ∆∆G jako mutace p˚ uvodn´ı) na kaˇzdou mutaci byl poˇcet mutac´ı pro sekvenˇcn´ı dataset zv´ yˇsen na 3246, pro strukturn´ı dataset 3152 mutac´ı. Kromˇe predikce efektu mutace a jej´ım ∆∆G je v´ ystupem tohoto n´astroje RSA (Relative Solvent Accessible Area) a index spolehlivosti (Reliability index) v intervalu 1-9.
4.5
iPTREE-STAB
iPTREE-STAB je on-line n´ astroj umoˇzn ˇuj´ıc´ı predikci celkov´eho efektu na stabilitu proteinu (stabiln´ı/nestabiln´ı) a predikci zmˇeny stability proteinu (∆∆G) v z´avislosti na jednobodov´ ych mutac´ıch aminokyselinov´eho ˇretˇezce. Pro v´ ypoˇcet je pouˇzita sekvence aminokyselin, proto na rozd´ıl od n´ astroj˚ u vyuˇz´ıvaj´ıc´ıch strukturn´ıch vlastnost´ı proteinu nen´ı nutn´e vkl´adat PDB soubor. Rozhodov´ an´ı o stabilitˇe proteinu je ponech´ano na metod´ach strojov´eho uˇcen´ı, konkr´etnˇe na jednoduch´em rozhodovac´ım stromu. Autoˇri v [22] uv´adˇej´ı, ˇze pro natr´enov´ an´ı rozhodovac´ıho stromu bylo pouˇzito celkem 1859 neredundantn´ıch z´aznam˚ u jednobodov´ ych mutac´ı, kter´e byly z´ısk´any z datab´aze ProTherm. Jako jedin´ y z uveden´ ych n´ astroj˚ u, iPTREE-STAB neumoˇzn ˇuje urˇcit pozici, na kter´e dojde k mutaci. M´ısto toho se pouˇz´ıv´a jednoduch´eho principu, kdy n´astroj analyzuje pouze aminokyseliny v okol´ı vyˇsetˇrovan´eho (mutovan´eho) residua. Pˇred i za poˇzadovan´ ym residuem je nutn´e zadat tˇri pˇredch´ azej´ıc´ı/n´asleduj´ıc´ı aminokyseliny. Mimo tyto urˇcuj´ıc´ı u ´daje je nutn´e vyplnit i pH a teplotu. Jelikoˇz se jedn´ a o n´ astroj vyuˇz´ıvaj´ıc´ı metod strojov´eho uˇcen´ı, v´ ypoˇcet predikce je v tomto pˇr´ıpadˇe velmi rychl´ y.
4.6
mCSM
N´astroj mCSM (mutation Cutoff Scanning Matrix) pouˇz´ıv´a novˇe navrˇzen´ y pˇr´ıstup v´ ypoˇctu zmˇeny stability proteinu bl´ıˇze popsan´ y v [37]. Na rozd´ıl od ostatn´ıch pˇr´ıstup˚ u, tento vyuˇz´ıv´ a graf zaloˇzen´ y na signatur´ ach. Pro pochopen´ı toho, jakou roli maj´ı mutace v onemocnˇen´ı, autoˇri umoˇznili ohodnotit nejen proteinovou stabilitu, ale tak´e interakce mezi proteinemproteinem a proteinem-nukleovou kyselinou. Prostˇred´ı residu´ı m˚ uˇze b´ yt reprezentov´ano grafy, kde uzly jsou atomy a hrany jsou fyzik´alnˇe-chemick´e interakce mezi nimi. Z tˇechto graf˚ u m˚ uˇze vzniknout struktur´ aln´ı signatura, kter´a je vytvoˇrena extrahov´an´ım a sumarizov´an´ım vzd´ alenostn´ıch vzor˚ u. Tato signatura je pot´e pouˇzita jako objekt pro tr´enov´ an´ı prediktivn´ıch model˚ u.
16
V´ ypoˇcet je moˇzn´e uskuteˇcnit pomoc´ı webov´eho rozhran´ı, a to tˇremi zp˚ usoby nazvan´ ymi Single mutation, Mutation list a Systematic. Single mutation poskytuje stejn´ y pˇr´ıstup, jak´ y jsme vidˇeli u pˇredch´ azej´ıc´ıch n´ astroj˚ u. V tomto pˇr´ıpadˇe je nutn´e nahr´at PDB soubor, urˇcit mutovan´ y ˇretˇezec a konkretizovat mutaci jej´ı pozic´ı, wild-typem a mutantem. Systematic se chov´ a obdobnˇe - jen s t´ım rozd´ılem, ˇze predikce stability je vypoˇc´ıt´ana pro vˇsech 19 zb´ yvaj´ıc´ıch aminokyselin. Mutation list poskytuje moˇznost vytvoˇren´ı konfiguraˇcn´ıho souboru, ve kter´em m˚ uˇze b´ yt uvedeno v´ıce mutac´ı vztahuj´ıc´ı se k jednomu proteinu, resp. PDB souboru. Tento postup je v´ yhodn´ y zejm´ena pro vˇetˇs´ı poˇcet zpracov´avan´ ych mutac´ı nebo pro automatizovan´e skripty. Kladn´e hodnoty ∆∆G vyjadˇruj´ı stabilizuj´ıc´ı mutace, naopak hodnoty z´aporn´e destabilizuj´ıc´ı mutace. V´ ystupem je snadno zpracovateln´ y textov´ y soubor, kter´ y kromˇe predikovan´e ∆∆G obsahuje i RSA (Relative Solvent Accessibility). Pokud je ovˇsem v konfiguraˇcn´ım souboru uvedena nekorektn´ı mutace, nejsou v tomto konkr´etn´ım souboru provedeny ˇz´adn´e predikce.
4.7
PoPMuSiC
PoPMuSiC-2.1 je webov´ y server predikuj´ıc´ı zmˇenu termodynamick´e stability zp˚ usobenou jednobodov´ ymi mutacemi protein˚ u. Predikce je zaloˇzena na line´arn´ı kombinaci statistick´ ych 2 potenci´ al˚ u, jejichˇz koeficienty z´ avisej´ı na solvent accessibility mutovan´ ych residu´ı. Dle [14] je predikce vyj´ adˇrena line´ arn´ı kombinac´ı pr´avˇe tˇrin´acti statistick´ ych potenci´al˚ u. Predikˇcn´ı model obsahuje celkem 64 parametr˚ u, jejichˇz hodnoty jsou upraveny pomoc´ı neuronov´ ych s´ıt´ı se snahou o minimalizaci stˇredn´ı kvadratick´e odchylky. Tento predikˇcn´ı n´ astroj, jako jedin´ y, poˇzaduje pro sv˚ uj chod registraci uˇzivatele. V´ yhoda tohoto poˇzadavku je v tom, ˇze vˇsechny v´ ysledky v minulosti vypoˇc´ıtan´ ych u ´loh jsou uˇzivateli volnˇe dostupn´e. Rozhran´ı tohoto n´ astroje je podobnˇe rozˇclenˇen´e jako v pˇr´ıpadˇe mCSM. V´ ypoˇcty je moˇzn´e prov´ adˇet ve tˇrech reˇzimech Single, Systematic a File. Reˇzim Single slouˇz´ı pro ohodnocen´ı jedn´e mutace urˇcen´e pomoc´ı proteinov´eho ˇretˇezce, wild-typem a mutantem. PDB strukturu je moˇzn´e identifikovat pomoc´ı PDB ID nebo tento z´aznam nahr´at na server. Systematic vypoˇc´ıt´ a ∆∆G pro vˇsechny zaznamenan´e pozice aminokyselin v zadan´e PDB struktuˇre, a to pro vˇsech devaten´act moˇzn´ ych variant mutac´ı. V tomto reˇzimu je takt´eˇz moˇzn´e zobrazit graf, ve kter´em je vynesen na kaˇzd´e pozici souˇcet z´aporn´ ych predikc´ı ∆∆G. Struktura α-helix je obarvena ˇcervenou barvou, β-struktura modˇre a ostatn´ı struktury (turns a coils) jsou zelen´e. V reˇzimu File je moˇzn´e pro konkr´etn´ı PDB strukturu vytvoˇrit konfiguraˇcn´ı soubor obsahuj´ıc´ı poˇzadovan´e mutace. Tento pˇr´ıstup je velmi rychl´ y a na rozd´ıl od n´astroje mCSM se pˇri v´ yskytu chybn´e mutace v´ ypoˇcet nepˇreruˇs´ı. Na rozd´ıl od zm´ınˇen´ ych n´ astroj˚ u, PoPMuSiC pro stabilizuj´ıc´ı mutace vrac´ı z´apornou hodnotu ∆∆G, pro destabilizuj´ıc´ı mutace pak hodnotu kladnou. Aby se pˇri pr´aci se vˇsemi n´astroji pouˇz´ıvalo stejn´e notace, byla hodnota predikovan´a t´ımto n´astrojem pˇrevr´acena na kladnou pro stabilizuj´ıc´ı, na z´ apornou pro destabilizuj´ıc´ı mutaci.
4.8
Porovn´ an´ı a shrnut´ı
Vˇsechny n´ astroje a jejich zaˇrazen´ı do jednotliv´ ych skupin uveden´ ych v u ´vodu t´eto kapitoly lze pˇrehlednˇe nal´ezt v tabulce 4.1. Snahou bylo vybrat takov´e predikˇcn´ı n´astroje, 2
Povrchov´ a plocha biomolekuly, kter´ a je dostupn´ a rozpouˇstˇedlu.
17
kter´e by pokryly co moˇzn´ a nejv´ıce moˇzn´ ych metod a postup˚ u pro v´ ypoˇcet predikce stability proteinu. T´ımto zp˚ usobem jsme schopni markantnˇe zv´ yˇsit celkovou velikost prostoru ˇreˇsiteln´ ych mutac´ı v z´ avislosti na zadan´em vstupu. V´ ysledn´ y prostor ˇreˇsiteln´ ych mutac´ı je d´an sjednocen´ım prostor˚ u ˇreˇsiteln´ ych mutac´ı jednotliv´ ych n´astroj˚ u. N´ astroje
Zp˚ usob v´ ypoˇ ctu
AUTO-MUTE [31]
strojov´e uˇcen´ı
SDM [47] CUPSAT [36]
energetick´e funkce energetick´e funkce
Algoritmus random forest, SVM, REPTree, SVMreg statistick´ y potenci´al empirick´ y potenci´al
I-Mutant3.0 [9]
strojov´e uˇcen´ı
SVM
iPTREE-STAB [22] mCSM [37] PoPMuSiC [14]
strojov´e uˇcen´ı energetick´e funkce energetick´e funkce
rozhodovac´ı strom statistick´ y potenci´al statistick´ y potenci´al
Typ dat strukturn´ı strukturn´ı strukturn´ı strukturn´ı, sekvenˇcn´ı sekvenˇcn´ı strukturn´ı strukturn´ı
Tabulka 4.1: Pˇrehled n´astroj˚ u a jejich metodologi´ı v´ ypoˇctu. Z´aroveˇ n zde byla i snaha pouˇz´ıt n´astroje, jejichˇz doba predikce je pˇribliˇznˇe stejn´a. Celkov´a doba bˇehu vytvoˇren´eho meta-n´astroje je totiˇz vˇzdy d´ana ˇcasem nejpomalejˇs´ıho predikˇcn´ıho n´ astroje. Z tohoto d˚ uvodu tud´ıˇz nen´ı pˇr´ıliˇs vhodn´e pouˇz´ıt n´astroje s diametr´alnˇe odliˇsn´ ymi dobami bˇehu, pˇrijmeme-li pˇredpoklad, ˇze v´ ysledn´e v´ahov´e ohodnocen´ı jednotliv´ ych n´ astroj˚ u nebude diametr´ alnˇe odliˇsn´e. V tabulce 4.2 lze nal´ezt informace o potˇrebn´em ˇcase pro v´ ypoˇcet jedn´e mutace, omezen´ı poˇctu mutac´ı pro vstupy jednotliv´ ych n´astroj˚ ua tak´e nechyb´ı popis jejich omezen´ı. N´ astroje
ˇ Cas v´ ypoˇ ctu
Vstup
AUTO-MUTE [31]
< 5 min
1-5 mutac´ı
SDM [47]
< 1 min
1 mutace
CUPSAT [36]
<1s
1 mutace
I-Mutant3.0 [9] iPTREE-STAB [22] mCSM [37] PoPMuSiC [14]
< < < <
1 mutace 1 mutace lib. poˇcet lib. poˇcet
1 1 1 1
min min min min
Omezen´ı neumoˇzn ˇuje nahr´an´ı vlastn´ı struktury chyb´ı kontrola p˚ uvodn´ı aminokyseliny (wild-type) neaktualizovan´ y lok´aln´ı PDB repozit´aˇr, chyb´ı kontrola p˚ uvodn´ı aminokyseliny (wild-type) neumoˇzn ˇuje nahr´an´ı vlastn´ı struktury nen´ı moˇznost urˇcit pozici mutace neumoˇzn ˇuje zadat PDB ID nutnost registrace
Tabulka 4.2: Tabulka ud´ av´ a pˇribliˇzn´ y ˇcas v´ ypoˇctu jedn´e mutace, poˇcet mutac´ı, kter´e je moˇzn´e d´ at na vstup n´ astroje (libovoln´ y poˇcet mutac´ı se vztahuje k jedn´e proteinov´e struktuˇre) a popis omezen´ı jednotliv´ ych n´astroj˚ u.
4.9
V´ ysledky predikˇ cn´ıch n´ astroj˚ u
Tato kapitola se bude zab´ yvat v´ ysledky jednotliv´ ych predikˇcn´ıch n´astroj˚ u. Poznatky budou ˇcerp´any ze studi´ı [23], [39] a [11], dosaˇzen´e v´ ysledky budou diskutov´any. 18
4.9.1
Metodika porovn´ an´ı n´ astroj˚ u
Pro z´akladn´ı pochopen´ı statistick´ ych veliˇcin je nutn´e definovat pojmy uveden´e v [4]. Kvalitu predikce lze popsat parametry jako pˇresnost (accuracy), specificita (specificity), senzitivita (sensitivity) a tak´e pomoc´ı Matthewsova korelaˇcn´ıho koeficientu (MCC). Zat´ımco senzitivita je pravdˇepodobnost spr´ avn´e predikce pozitivn´ıho pˇr´ıpadu, specificita je definov´ana jako pravdˇepodobnost, ˇze hodnota pozitivn´ı predikce je spr´avn´a. [4] Vztah pro v´ ypoˇcet pˇresnosti predikce je definov´an n´ıˇze. TP (true positive) v tomto pˇr´ıpadˇe znaˇc´ı poˇcet v´ yskyt˚ u pravdivˇe pozitivn´ıch (re´alnˇe stabilizuj´ıc´ı mutace oznaˇcena jako stabilizuj´ıc´ı), FP (false positive) faleˇsnˇe pozitivn´ıch (re´alnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako stabilizuj´ıc´ı), TN (true negative) pravdivˇe negativn´ıch (re´alnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako destabilizuj´ıc´ı) a FN (false negative) faleˇsnˇe negativn´ıch (re´alnˇe stabilizuj´ıc´ı mutace oznaˇcena jako destabilizuj´ıc´ı). Matthews˚ uv korelaˇcn´ı koeficient dosahuje hodnot v rozmez´ı -1 aˇz 1. Hodnota M CC = 1 oznaˇcuje nejlepˇs´ı moˇznou predikci, zat´ımco M CC = −1 indikuje nejhorˇs´ı moˇznou predikci (nˇekdy oznaˇcov´ano antikorelace). Pro hodnotu M CC = 0 nen´ı zjistiteln´a ˇz´adn´a line´arn´ı z´avislost (predikce je v´ ysledkem n´ahody). [4] TP + TN Accuracy = (4.1) TP + TN + FP + FN Specif icity =
TN TN + FP
(4.2)
Sensitivity =
TP TP + FN
(4.3)
TP × TN − FN × FP M CC = p (T P + F N )(T P + F P )(T N + F N )(T N + F P )
4.9.2
(4.4)
V´ ysledky jednotliv´ ych studi´ı
Pro porovn´ an´ı jednotliv´ ych predikˇcn´ıch n´astroj˚ u lze pouˇz´ıt z´avˇery ze studie [23], kter´a porovn´avala v´ ykonnost 11 online dostupn´ ych n´astroj˚ u. Mezi tyto n´astroje patˇr´ı CUPSAT [36], Dmutant [48], FoldX [20], I-Mutant2.0 [8], I-Mutant3.0 (strukturn´ı i sekvenˇcn´ı verze) [9], MultiMutate [15], MUpro [12], SCide [17], Scpred [16] a SRide [28]. Pro testov´ an´ı pˇresnosti predikce jednotliv´ ych n´astroj˚ u byla pouˇzita datab´aze ProTherm s experiment´ alnˇe zjiˇstˇen´ ymi hodnotami ∆∆G. Mutace v intervalu ∆∆G mezi 0,5 a -0,5 kcal/mol byly klasifikov´ any jako neutr´aln´ı mutace (nemˇen´ıc´ı stabilitu proteinu), jelikoˇz pr˚ umˇern´ a hodnota maxim´ aln´ı experiment´aln´ı chyby se dle [24] pohybuje okolo ±0, 48 kcal/mol (chyba mˇeˇren´ı by mohla ovlivnit klasifikaci do tˇr´ıdy stabilizuj´ıc´ı/destabilizuj´ıc´ı). V´ ysledn´ y testovac´ı dataset obsahoval 1784 neduplicitn´ıch mutac´ı z celkovˇe 80 protein˚ u, kde 931 mutac´ı bylo destabilizuj´ıc´ıch (∆∆G ≥ 0,5 kcal/mol), 222 stabilizuj´ıc´ıch (∆∆G ≤ -0,5 kcal/mol) a 631 mutac´ı bylo neutr´aln´ıch (0,5 kcal/mol > ∆∆G ≥ -0,5 kcal/mol). Znam´enko hodnoty ∆∆G bylo v t´eto studii pˇrevr´aceno oproti hodnot´am v datab´azi ProTherm. Velikost tr´enovac´ıch dataset˚ u pro jednotliv´e n´astroje byla promˇenn´a, a to z toho d˚ uvodu, ˇze nˇekter´e n´ astroje pouˇz´ıvaly pro natr´enov´an´ı sv´eho predikˇcn´ıho modelu ˇc´ast z´ aznam˚ u z datab´ aze ProTherm a v´ ysledky by v tomto pˇr´ıpadˇe byly zkreslen´e (nadhodnocen´e). Z tohoto d˚ uvodu byly vybr´any kaˇzd´emu n´astroji pro testov´an´ı pouze ty z´aznamy, kter´e se v datab´ azi ProTherm zveˇrejnily aˇz po jejich vyd´an´ı. Velikosti dataset˚ u jsou pˇrehlednˇe zn´ azornˇeny v tabulce 4.3. 19
Celkovˇe nejlepˇs´ıch v´ ysledk˚ u dosahovaly I-Mutant3.0 (strukturn´ı verze), Dmutant a FoldX. Pˇresnost tˇechto n´ astroj˚ u kol´ısala od hodnot 0,54 do 0,64. Nejlepˇs´ı senzitivitu vykazoval n´astroj MUpro (0,74), hodnoty senzitivity pro I-Mutant2.0 a CUPSAT byly jen nepatrnˇe menˇs´ı (0,71 a 0,69). Nejvyˇsˇs´ı specificitu zaznamenal n´astroj SRide (0,95). Hodnoty Matthewsova korelaˇcn´ıho koeficientu byly ovˇsem n´ızk´e pro vˇsechny predikˇcn´ı n´astroje. Nejlepˇs´ıho korelaˇcn´ıho koeficientu dos´ahl n´astroj I-Mutant3.0 (strukturn´ı verze), jeho hodnota se pohybovala okolo 0,27. Naopak nejhorˇs´ıho korelaˇcn´ıho koeficientu (-0,39) dos´ahl n´astroj MUpro. V tabulce 4.3 lze nal´ezt dosaˇzen´e v´ ysledky pro vybran´e predikˇcn´ı n´astroje. Kompletn´ı v´ ysledky vˇsech n´ astroj˚ u lze nal´ezt v [23]. Parametry velikost datasetu pˇresnost specificita senzitivita MCC
CUPSAT 536 0,50 0,30 0,69 -0,01
I-Mutant3.0 (strukturn´ı) 115 0,64 0,63 0,64 0,27
I-Mutant3.0 (sekvenˇ cn´ı) 115 0.52 0.39 0.66 0.05
Tabulka 4.3: Vybran´e v´ ysledky z [23] pro n´astroj CUPSAT a I-Mutant3.0 ve strukturn´ı i sekvenˇcn´ı verzi. Obr´azek 4.1 zobrazuje graf distribuce predikovan´ ych a experiment´alnˇe namˇeˇren´ ych ∆∆G hodnot, kter´e jsou vyj´ adˇreny norm´aln´ı distribuˇcn´ı kˇrivkou. Hodnoty predikovan´e pomoc´ı n´astroj˚ u I-Mutant2.0 a CUPSAT jsou vych´ ylen´e smˇerem k negativn´ım hodnot´am (hodnoty znaˇc´ıc´ı destabilizaci), zat´ımco u n´astroje Dmutant smˇeˇruj´ı sp´ıˇse ke kladn´ ym hodnot´am, aˇckoliv nejvyˇsˇs´ı vrchol jeho kˇrivky je pro ∆∆G = 0. Distribuˇcn´ı kˇrivka pro FoldX neobsahuje jasnˇe ˇciteln´ y vrchol, vˇetˇs´ı mnoˇzstv´ı ∆∆G hodnot je menˇs´ıch neˇz -4 kcal/mol.
Obr´azek 4.1: A: Distribuce predikovan´ ych a experiment´alnˇe namˇeˇren´ ych ∆∆G hodnot. Jako predikˇcn´ı n´ astroje byly pouˇzity I-Mutant2.0 (ˇcerven´a), Dmutant (zelen´a), CUPSAT (modr´a), FoldX (ˇsed´ a). Experiment´aln´ı hodnota ∆∆G je zn´azornˇena ˇcernou barvou. B: ROC kˇrivka zn´ azorˇ nuj´ıc´ı u ´spˇeˇsnost n´astroj˚ u FoldX, I-Mutant2.0, Dmutant a CUPSAT. Zobrazeny jsou takt´eˇz hodnoty AUC a standardn´ı odchylky odvozen´e od ploch pod jednotliv´ ymi kˇrivkami. Barevn´e oznaˇcen´ı n´astroj˚ u je zaznaˇceno na obr´azku. [23]
20
Ve v´ ysledc´ıch t´eto studie nebyly zahrnuty predikˇcn´ı n´astroje jako PoPMuSiC, ERIS, iPTREE-STAB, AUTO-MUTE a jin´e. PoPMuSiC nebyl zaˇrazen z toho d˚ uvodu, ˇze bˇehem psan´ı studie [23] nebyla dostupn´ a stabiln´ı verze tohoto n´astroje (stabiln´ı verze byla vyd´ana aˇz po dokonˇcen´ı studie). Rozhran´ı n´astroje ERIS dle autor˚ u neumoˇzn ˇuje d´avkov´e zpracov´an´ı, coˇz znemoˇznilo jej´ı zaˇrazen´ı. iPTREE-STAB pouˇz´ıv´a metodu rozhodovac´ıho stromu, nen´ı zde ovˇsem moˇzn´e pˇresnˇe urˇcit pozici ˇci proteinovou strukturu. N´astroj AUTO-MUTE obsahoval pouze 28 pˇr´ıpad˚ u, kter´e nebyly pouˇzity pro natr´enov´an´ı jeho tr´enovac´ıho datasetu. Pro statistickou anal´ yzu je toto ˇc´ıslo pˇr´ıliˇs mal´e. Pro tˇechto 28 pˇr´ıpad˚ u byl n´astroj AUTO-MUTE schopen spr´ avnˇe predikovat 6 pˇr´ıpad˚ u (21%). Studie [39] porovn´ av´ a celkem 6 odliˇsn´ ych n´astroj˚ u pro predikci zmˇeny stability proteinu. Mezi tyto n´ astroje patˇr´ı CC/PBSA [5], EGAD [38], FoldX [20], I-Mutant2.0 [8], Rosetta [42] a Hunter. Pro ohodnocen´ı pˇresnosti predikce byl pouˇzit dataset obsahuj´ıc´ı 2156 jednobodov´ ych mutac´ı, kter´e nebyly pouˇzity pro tr´enov´an´ı u jednotliv´ ych n´astroj˚ u. Korelaˇcn´ı koeficient mezi experiment´ aln´ı a predikovanou hodnotou ∆∆G byl v rozmez´ı 0,59 pro nejlepˇs´ı a 0,26 pro nejhorˇs´ı n´ astroj. Vˇsechny predikˇcn´ı n´astroje vykazuj´ı spr´avn´ y trend v predikci sv´ ych v´ ysledk˚ u (celkov´ y efekt na stability proteinu), ve vˇetˇs´ı m´ıˇre ovˇsem selh´avaj´ı pˇri poskytov´ an´ı pˇresn´ ych hodnot. Na obr´ azku 4.2 lze vidˇet distribuce experiment´aln´ıch a predikovan´ ych ∆∆G hodnot pro jednotliv´e n´ astroje. Na kaˇzd´em z uveden´ ych graf˚ u jsou na horizont´aln´ı ose vyneseny
Obr´azek 4.2: Porovn´ an´ı r˚ uzn´ ych n´astroj˚ u pro predikci zmˇeny stability. Kaˇzd´ y n´astroj byl testov´an na mutac´ıch, kter´e nebyly obsaˇzeny v jejich tr´enovac´ıch sad´ach. Na kaˇzd´em grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇcarou je vyj´ adˇrena regresn´ı pˇr´ımka vypoˇcten´a z bod˚ u na grafu. [39]
21
hodnoty experiment´ aln´ı ∆∆G, na vertik´aln´ı ose je to z´ıskan´a (predikovan´a) hodnota ∆∆G. Pˇreruˇsovan´ a ˇc´ ara s pˇredpisem y = x zn´azorˇ nuje ide´aln´ı polohu jednotliv´ ych bod˚ u. Plnou ˇ ım v´ıce regresn´ı pˇr´ımka ˇcarou je vyj´ adˇrena regresn´ı pˇr´ımka vypoˇcten´a z bod˚ u grafu. C´ pˇrekr´ yv´ a pˇreruˇsovanou pˇr´ımku, t´ım je v´ ysledek pˇresnˇejˇs´ı. Na kaˇzd´em grafu je v horn´ım rohu zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y). Na obr´ azku 4.3 je takt´eˇz zn´ azornˇena distribuce experiment´aln´ıch a predikovan´ ych ∆∆G hodnot pro jednotliv´e n´ astroje jak tomu bylo na obr´azku 4.2. V tomto pˇr´ıpadˇe bylo ovˇsem pouˇzito metody tzv. binning, kde doˇslo k rozdˇelen´ı dan´eho prostoru na 12 interval˚ u a v kaˇzd´em intervalu byly jednotliv´e v´ ysledk˚ u zpr˚ umˇerov´any. V´ ysledkem je tedy jeden bod reprezentuj´ıc´ı hodnoty v urˇcit´em intervalu.
Obr´azek 4.3: Porovn´ an´ı r˚ uzn´ ych n´astroj˚ u pro predikci zmˇeny stability s vyuˇzit´ım metody binning pro 12 interval˚ u. Kaˇzd´ y n´astroj byl testov´an na mutac´ıch, kter´e nebyly obsaˇzeny v jejich tr´enovac´ıch sad´ ach. Na kaˇzd´em grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇcarou je vyj´adˇrena regresn´ı pˇr´ımka vypoˇcten´ a z bod˚ u na grafu. [39]
Autoˇri t´eto studie se takt´eˇz zamˇeˇrili na kombinov´an´ı v´ ysledk˚ u r˚ uzn´ ych metod s pˇredpokladem, ˇze dos´ ahnou lepˇs´ıho v´ ysledku. Celkovˇe bylo vytvoˇreno 57 r˚ uzn´ ych kombinac´ı dvou a v´ıce n´ astroj˚ u, kde v´ ysledky tˇechto kombinac´ı byly zpr˚ umˇerov´any. Ve v´ ysledku ovˇsem doˇsli k z´ avˇeru, ˇze kombinac´ı r˚ uzn´ ych metod nedojde k signifikantn´ımu zlepˇsen´ı predikˇcn´ı pˇresnosti v porovn´ an´ı s pouˇzit´ım jedin´eho. Toto tvrzen´ı je podloˇzeno v´ ysledkem zobrazen´ ym na obr´ azku 4.4. Tento graf zn´azorˇ nuje v´ ysledek kombinov´an´ı n´astroj˚ u s c´ılem zlepˇsit predikci ∆∆G. V´ ysledky n´ astroj˚ u EGAD, I-Mutant2.0 a Rosetta byly zpr˚ umˇerov´any a zaneseny do grafu oproti experiment´alnˇe zjiˇstˇen´ ym hodnot´am ∆∆G. Teˇckovanou ˇcarou je
22
zn´azornˇena regresn´ı pˇr´ımka pro v´ ysledky samotn´eho n´astroje EGAD. Lze si tak´e vˇsimnout, ˇze korelaˇcn´ı koeficient pro zpr˚ umˇerovan´e v´ ysledky tˇechto n´astroj˚ u dosahuje hodnoty 0,64, pro samotn´ y EGAD potom 0,62. Jak jiˇz bylo zm´ınˇeno v´ yˇse, kombinov´an´ım (pr˚ umˇerov´an´ım) r˚ uzn´ ych n´ astroj˚ u nebylo dosaˇzeno velk´eho zlepˇsen´ı. [39]
Obr´azek 4.4: Graf zn´ azorˇ nuj´ıc´ı v´ ysledky kombinov´an´ı n´astroj˚ u pro zlepˇsen´ı predikce ∆∆G. EGAD, I-Mutant2.0 a Rosetta byly pouˇzity pro predikov´an´ı ∆∆G na datasetu o 407 mutac´ıch. Pr˚ umˇer tˇechto tˇr´ı n´ astroj˚ u byl vypoˇc´ıt´an pro kaˇzdou mutaci a zanesen do grafu. Tyto zpr˚ umˇerovan´e v´ ysledky byly porovn´any na stejn´em datasetu se samotn´ ym n´astrojem EGAD (teˇckovan´ a pˇr´ımka). [39] Dalˇs´ı zaj´ımav´ a studie [11] porovn´ av´a celkem 5 predikˇcn´ıch n´astroj˚ u, kter´ ymi jsou I-Mutant2.0, AUTO-MUTE, MUpro, PoPMuSiC a CUPSAT. Pro I-Mutant2.0 byla pouˇzita jeho sekvenˇcn´ı (I-Mutant SEQ) i strukturn´ı verze (I-Mutant PDB). Pro n´astroj AUTO-MUTE byly dostupn´e ˇctyˇri predikˇcn´ı modely, autoˇri t´eto studie zvolili pro porovn´an´ı model vyuˇz´ıvaj´ıc´ı random forest (AUTO-MUTE RF) a support vector machine (AUTO-MUTE SVM). MUpro vyuˇz´ıv´ a modelu support vector machine, kde pro svoji predikci prim´arnˇe pouˇz´ıv´a sekvenˇcn´ıch informac´ı. Tento n´ astroj umoˇzn ˇuje predikovat pouze celkov´ y efekt na stabilitu proteinu (stabiln´ı/nestabiln´ı). Pro porovn´ an´ı v´ ykonnosti jednotliv´ ych n´astroj˚ u bylo pouˇzito dvou odliˇsn´ ych dataset˚ u. Tyto datasety byly vytvoˇreny z datab´aze ProTherm. Prvn´ı dataset (S1948) byl pouˇzit pˇri konstrukci I-Mutant2.0 a obsahuje 1948 mutac´ı z celkem 58 protein˚ u. Druh´ y dataset (S2648) byl pouˇzit pˇri tr´enov´ an´ı PoPMuSiC a obsahuje 2648 mutac´ı z celkem 119 protein˚ u. V datasetu S1948 se nach´ az´ı mnoˇzstv´ı mutac´ı se stejn´ ym PDB ID a stejn´ ymi hodnotami ∆∆G (m´ırnˇe odliˇsn´e byly jen hodnoty pH a teploty). Tˇechto 637 redundantn´ıch z´aznam˚ u bylo odstranˇeno, zb´ yvaj´ıc´ıch 1311 mutac´ı vytvoˇrilo nov´ y dataset pojmenovan´ y M1311. Dataset S2648 sd´ılel celkem 815 mutac´ı s datasetem M1311, pro dosaˇzen´ı vz´ajemn´e nez´avislosti tˇechto dataset˚ u byly tyto mutace odstranˇeny. Celkovˇe tedy druh´ y dataset obsahoval 1820 mutac´ı a byl pojmenov´ an M1820. Slouˇcen´ım dataset˚ u M1311 a M1820 vznikl tˇret´ı dataset s oznaˇcen´ım M3131.
23
V tabulce 4.4 jsou zobrazeny v´ ysledky uveden´ ych predikˇcn´ıch n´astroj˚ u pro dataset M1311. Matthews˚ uv korelaˇcn´ı koeficient se v tomto pˇr´ıpadˇe pohybuje v rozmez´ı od 0,341 pro CUPSAT do 0,906 pro n´ astroj AUTO-MUTE s predikˇcn´ım modelem random forest. N´ astroj I-Mutant PDB I-Mutant SEQ AUTO-MUTE RF AUTO-MUTE SVM MUpro SVM PoPMuSiC CUPSAT Pr˚ umˇ er
Specificita 0,922 0,973 0,991 0,975 0,956 0,941 0,823 0,984
Senzitivita 0,555 0,702 0,893 0,772 0,775 0,313 0,579 0,737
Pˇ resnost 0,800 0.883 0.958 0.907 0.896 0.724 0.742 0.902
MCC 0,530 0,734 0,906 0,789 0,761 0,341 0,411 0,779
Tabulka 4.4: Porovn´ an´ı v´ ysledk˚ u predikˇcn´ıch n´astroj˚ u pro dataset M1311. [11]
V tabulce 4.5 jsou zobrazeny v´ ysledky uveden´ ych predikˇcn´ıch n´astroj˚ u pro dataset M1820. Matthews˚ uv korelaˇcn´ı koeficient se zde pohybuje v rozmez´ı od 0,072 pro AUTOMUTE s predikˇcn´ım modelem support vector machine do 0,352 pro n´astroj PoPMuSiC. N´ astroj I-Mutant PDB I-Mutant SEQ AUTO-MUTE RF AUTO-MUTE SVM MUpro SVM PoPMuSiC CUPSAT Pr˚ umˇ er
Specificita 0,906 0,899 0,985 0,965 0,885 0,952 0,757 0,984
Senzitivita 0,198 0,212 0,129 0,067 0,276 0,303 0,370 0,113
Pˇ resnost 0,670 0.670 0.700 0.666 0.682 0.736 0.628 0.693
MCC 0,148 0,155 0,234 0,072 0,206 0,352 0,133 0,212
Tabulka 4.5: Porovn´ an´ı v´ ysledk˚ u predikˇcn´ıch n´astroj˚ u pro dataset M1820. [11]
Tabulka 4.6 obsahuje v´ ysledky jednotliv´ ych predikˇcn´ıch n´astroj˚ u pro dataset M3131 vznikl´ y slouˇcen´ım dvou pˇredch´ azej´ıc´ıch dataset˚ u. Matthews˚ uv korelaˇcn´ı koeficient se pohybuje v rozmez´ı od 0,261 pro CUPSAT do 0,615 pro n´astroj AUTO-MUTE s predikˇcn´ım modelem random forest. Celkovˇe nejlepˇs´ıch v´ ysledk˚ u dos´ahl n´astroj AUTO-MUTE s predikˇcn´ım modelem random forest. Je vˇsak nutn´e podotknout, ˇze pr´avˇe u tohoto n´astroje byl tr´enovac´ı dataset vytvoˇren z datab´ aze ProTherm. Takto dobr´ y v´ ysledek m˚ uˇze b´ yt tedy zp˚ usoben neadekv´atn´ım pouˇzit´ım modelu a nemus´ı obecnˇe korespondovat s v´ ysledky na nez´avisl´em datasetu.
24
N´ astroj I-Mutant PDB I-Mutant SEQ AUTO-MUTE RF AUTO-MUTE SVM MUpro SVM PoPMuSiC CUPSAT Pr˚ umˇ er
Specificita 0,377 0,457 0,511 0,420 0,526 0,308 0,474 0,425
Senzitivita 0,916 0,934 0,989 0,969 0,908 0,945 0,780 0,980
Pˇ resnost 0,736 0.775 0.829 0.786 0.780 0.733 0.678 0.795
MCC 0,357 0,464 0,615 0,499 0,480 0,348 0,261 0,527
Tabulka 4.6: Porovn´ an´ı v´ ysledk˚ u predikˇcn´ıch n´astroj˚ u pro dataset M3131.
25
Kapitola 5
Strojov´ e uˇ cen´ı Strojov´e uˇcen´ı je v dneˇsn´ı dobˇe ch´ap´ano jako discipl´ına umˇel´e inteligence. Jej´ı z´akladn´ı technikou je prohled´ av´ an´ı stavov´eho prostoru. K charakteristick´ ym rys˚ um patˇr´ı vyuˇz´ıv´ an´ı znalost´ı, pr´ ace se symbolick´ ymi ˇci strukturovan´ ymi promˇenn´ ymi ˇci aplikace modern´ıch poznatk˚ u z oboru nestandardn´ıch logik. Typicky se v tˇechto u ´loh´ach hledaj´ı zaj´ımav´e souvislosti ˇci pr˚ ubˇehy pozorovan´ ych jev˚ u, kter´e lze povaˇzovat za charakteristick´e. Nejtypiˇctˇejˇs´ı aplikac´ı strojov´eho uˇcen´ı je pomoc pˇri z´ısk´av´an´ı znalost´ı pro expertn´ı syst´emy, kde bylo dosaˇzeno v´ yrazn´ ych u ´spˇech˚ u v podobˇe zkr´acen´ı doby nutn´e pro tvorbu a ladˇen´ı b´aze znalost´ı. Dalˇs´ı uplatnˇen´ı strojov´eho uˇcen´ı je napˇr´ıklad pˇri porozumˇen´ı pˇrirozen´emu jazyku, v poˇc´ıtaˇcov´em vidˇen´ı nebo pr´ avˇe v bioinformatice. D´a se ˇr´ıci, ˇze strojov´e uˇcen´ı patˇr´ı mezi nejstarˇs´ı discipl´ıny matematick´e informatiky. Proto se jiˇz od pades´ at´ ych let hledaj´ı zp˚ usoby, jak tvorbu program˚ u zautomatizovat. Strojov´e uˇcen´ı zaloˇzen´e na umˇel´e inteligenci je jednou z metod t´eto automatizace. [29] Dle [3] lze rozdˇelit algoritmy strojov´eho uˇcen´ı na • klasifikaci, • regresi a • hled´ an´ı asociac´ı. Klasifikace, resp. klasifikaˇcn´ı probl´em je takov´ y probl´em, kter´ y ˇreˇs´ı pˇriˇrazen´ı tˇr´ıd objekt˚ um. Typickou u ´lohou ud´ avanou jako pˇr´ıklad klasifikace je urˇcen´ı rizikovosti p˚ ujˇcky. O jednotliv´ ych z´ akazn´ıc´ıch jsou uchov´ av´any vˇsechny relevantn´ı informace ovlivˇ nuj´ıc´ı schopnost spl´acet p˚ ujˇcku (pˇr´ıjem, u ´spory, povol´an´ı, vˇek atd.). C´ılem je naj´ıt asociace mezi z´akazn´ıkov´ ymi atributy a rizikem nesplacen´ı. Toto je klasick´ y pˇr´ıklad klasifikaˇcn´ıho probl´emu pro dvˇe tˇr´ıdy (n´ızk´a a vysok´ a rizikovost p˚ ujˇcky). Vstupem jsou tedy informace o z´akazn´ıkovi, v´ ystupem jsou tyto dvˇe tˇr´ıdy (vysok´ a/n´ızk´ a rizikovost). Po natr´enov´an´ı modelu m˚ uˇze b´ yt klasifikaˇcn´ı pravidlo pro tuto u ´lohu napˇr´ıklad ve tvaru IF p r i j e m > Θ1 AND uspory > Θ2 THEN n i z k a r i z i k o v o s t ELSE vysoka r i z i k o v o s t . Na obr´ azku 5.1 je zn´ azornˇen pˇr´ıklad rozdˇelen´ı prostoru moˇzn´ ych ˇreˇsen´ı. Horizont´aln´ı osa reprezentuje velikost pˇr´ıjmu, vertik´aln´ı osa zn´azorˇ nuje velikost u ´spor. Oznaˇcen´e body Θ1 a Θ2 urˇcuj´ı hranice rozdˇelen´ı prostoru. Kruˇznice zde reprezentuj´ı datov´e instance, znam´enkem + jsou oznaˇceny instance patˇr´ıc´ı do tˇr´ıdy n´ızkorizikov´ ych p˚ ujˇcek, znam´enku - patˇr´ı tˇr´ıda vysokorizikov´ ych p˚ ujˇcek. Plnou ˇcarou je zn´azornˇeno rozdˇelen´ı tˇechto tˇr´ıd v prostoru. 26
Obr´azek 5.1: Pˇr´ıklad tr´enovac´ıho datasetu, kde kaˇzd´a kruˇznice n´aleˇz´ı jedn´e datov´e instanci. Tyto instance reprezentuj´ı vstupy zobrazen´e na pˇr´ısluˇsn´ ych souˇradnic´ıch, kde znam´enka + ˇci - urˇcuj´ı pˇr´ısluˇsnost do tˇr´ıdy n´ızkorizikov´e resp. vysokorizikov´e. Plnou ˇcarou je zn´azornˇeno oddˇelen´ı tˇechto tˇr´ıd. [3]
Regresn´ı metody, na rozd´ıl od klasifikace, neurˇcuj´ı do jak´e tˇr´ıdy vstupn´ı prvek patˇr´ı, ale rovnou odhaduj´ı (predikuj´ı) jeho ˇc´ıselnou hodnotu. Jako pˇr´ıklad lze uv´est syst´em, kter´ y bude predikovat cenu ojet´eho automobilu. Vstupem mohou b´ yt atributy jako znaˇcka automobilu, rok v´ yroby, poˇcet najet´ ych kilometr˚ u atd. Pro jednoduˇsˇs´ı zn´azornˇen´ı uvaˇzme poˇcet najet´ ych kilometr˚ u jako jedin´ y atribut ovlivˇ nuj´ıc´ı cenu automobilu. Regresn´ı pˇr´ımka pot´e nab´ yv´a line´ arn´ı tvar y = wx + w0 . Na obr´ azku 5.2 je pˇr´ıklad line´ arnˇe ˇreˇsiteln´eho probl´emu z´avislosti ceny automobilu na poˇctu ujet´ ych kilometr˚ u (m´ıl´ıch). Pokud je line´arn´ı model pˇr´ıliˇs omezuj´ıc´ı, lze vyuˇz´ıt napˇr´ıklad kvadratickou funkci y = w2 x 2 + w1 x + w0 , polynomi´ aln´ı funkci vyˇsˇs´ıch ˇr´ ad˚ u ˇci jinou neline´arn´ı funkci. Asociaˇcn´ı pravidla (association rules) jsou vyuˇz´ıv´ana pro hled´an´ı zaj´ımav´ ych asociac´ı nebo korelac´ı nad velk´ ym mnoˇzstv´ım datov´ ych poloˇzek. Nalezen´ı zaj´ımav´ ych asociac´ı nad obchodn´ımi transakˇcn´ımi z´ aznamy m˚ uˇze pomoci v procesu obchodn´ıho rozhodov´an´ı, jako je 27
Obr´azek 5.2: Pˇr´ıklad tr´enovac´ıho datasetu pro v´ ypoˇcet ceny ojet´eho automobilu. Pro zjednoduˇsen´ı je uvaˇzov´ an pouze jeden vstupn´ı atribut (poˇcet najet´ ych kilometr˚ u), jedn´a se tedy o line´arn´ı model. Regresn´ı pˇr´ımka je urˇcuj´ıc´ı predikovanou hodnotou, je d´ana pˇredpisem y = wx + w0 . [3]
n´avrh katalog˚ u, akˇcn´ıch nab´ıdek nebo rozm´ıstˇen´ı zboˇz´ı v obchodˇe. Typick´ ym pˇr´ıkladem je anal´ yza n´ akupn´ıho koˇs´ıku. Tento proces analyzuje chov´an´ı z´akazn´ıka, hled´a asociace mezi zboˇz´ım, kter´e z´ akazn´ık um´ıst´ı do sv´eho n´akupn´ıho koˇs´ıku. T´ımto lze tedy zjistit, jak´e druhy zboˇz´ı si z´ akazn´ıci nejˇcastˇeji kupuj´ı dohromady. Pˇri hled´ an´ı tˇechto asociaˇcn´ım pravidel n´as zaj´ım´a zejm´ena podm´ınˇen´a pravdˇepodobnost uv´adˇen´ a ve formˇe P (Y |X), kde Y je produkt podm´ınˇen´ y v´ yskytem produktu X, coˇz je produkt nebo mnoˇzina produkt˚ u, u kter´ ych v´ıme, ˇze je z´akazn´ık nakupuje. Uved’me napˇr´ıklad pravdˇepodobnost P (limonada|oplatky) = 0, 7. T´ımto v´ yrazem definujeme, ˇze 70 procent z´akazn´ık˚ u, kteˇr´ı si koupili oplatky takt´eˇz koupili limon´adu. Dle [3] lze algoritmy strojov´eho uˇcen´ı podle zp˚ usobu uˇcen´ı rozdˇelit na • uˇcen´ı s uˇcitelem a • uˇcen´ı bez uˇcitele. Pro uˇcen´ı s uˇcitelem je specifick´e to, ˇze pˇri f´azi uˇcen´ı jsou kromˇe vstupn´ıch dat dostupn´ a i data v´ ystupn´ı. Uˇcitel je tedy schopn´ y z´ıskat v´ ysledky z dan´eho modelu a porovnat je s poˇzadovan´ ym v´ ystupem. Mezi algoritmy strojov´eho uˇcen´ı, kter´e je moˇzn´e zaˇradit do t´eto kategorie, patˇr´ı klasifikace i regrese. Naopak pro uˇcen´ı bez uˇcitele je specifick´e to, ˇze nejsou k dispozici data v´ ystupn´ı (nen´ı tedy moˇzn´e v´ ystup jednotliv´ ych model˚ u strojov´eho uˇcen´ı porovnat s jak´ ymkoli jin´ ym v´ ystupem). Typick´ ym pˇr´ıkladem m˚ uˇze b´ yt napˇr´ıklad technika shlukov´an´ı (clustering), kter´ a 28
slouˇz´ı k tˇr´ıdˇen´ı jednotek do shluk˚ u tak, aby si objekty n´aleˇz´ıc´ı do stejn´e tˇr´ıdy byly podobnˇejˇs´ı (podobnost urˇcena napˇr. pomoc´ı vzd´alenosti) neˇz objekty z r˚ uzn´ ych tˇr´ıd.
5.1
Generalizaˇ cn´ı schopnost a jej´ı odhad
Urˇc´ıme-li jednoznaˇcn´e hodnot´ıc´ı hledisko u ´spˇeˇsnosti model˚ u, m˚ uˇzeme ho vyuˇz´ıt ke stanoven´ı a porovn´ an´ı generalizaˇcn´ı schopnosti relevantn´ıch model˚ u. Pˇri vytv´aˇren´ı model˚ u strojov´eho uˇcen´ı nen´ı rozhoduj´ıc´ı jejich v´ ykonnost ˇci pˇresnost nad zn´am´ ymi daty (takov´ ymi daty, kter´ a byla vyuˇzita pˇri vytv´ aˇren´ı modelu ˇci jejich tr´enov´an´ı), ale nad daty nezn´am´ ymi (nez´avisl´ a data, kter´ a nebyla pouˇzita pˇri tr´enov´an´ı modelu). Pr´avˇe generalizaˇcn´ı schopnost je vztaˇzena k v´ ykonnosti modelu nad nezn´ am´ ymi daty a hraje tedy d˚ uleˇzitou roli pˇri v´ ybˇeru dan´eho modelu. [30] Pokud se v´ıce zamˇeˇr´ıme na poˇcet objekt˚ u (pˇr´ıklad˚ u), kter´e m´ame k dispozici pro ˇreˇsen´ı dan´eho probl´emu, lze situaci dle [30] rozdˇelit na dva pˇr´ıpady. 1. K dispozici je dostatek objekt˚ u dostateˇ cnˇ e reprezentuj´ıc´ıch modelovan´ y probl´ em. Pro tento pˇr´ıklad se v´ ychoz´ı mnoˇzina dat standardnˇe rozdˇel´ı na tˇri disjunktn´ı podmnoˇziny, a to tr´enovac´ı (training set) Dt , testovac´ı (testing set) De a validaˇcn´ı (validation set) Dv (D = Dt ∪ De ∪ Dv ). Tr´enovac´ı data jsou pouˇzita ve f´ azi uˇcen´ı jednotliv´ ych model˚ u. Testovac´ı data slouˇz´ı k ovˇeˇren´ı jejich prediktivn´ıch schopnost´ı a k volbˇe nejlepˇs´ıho kandid´ata. Pokud roste bˇehem konstrukce modelu jeho sloˇzitost (velikost), je potˇreba odhadnout okamˇzik, kdy s procesem tr´enov´ an´ı pˇrestat, aby nedoˇslo k pˇreuˇcen´ı (v´ıce o t´eto problematice lze nal´ezt v podkapitole 5.1.2). Z tohoto d˚ uvodu se bˇehem uˇcen´ı z´aroveˇ n mˇeˇr´ı chyba na mnoˇzinˇe De (chyba na De zpoˇc´ atku tr´enov´ an´ı kles´a, pozdˇeji v d˚ usledku pˇreuˇcen´ı na Dt zaˇcne stoupat). Pr´ avˇe v okamˇziku dosaˇzen´ı minima chyby na De je ukonˇcena konstrukce modelu. Validaˇcn´ı data jsou pouˇzita k nez´avisl´emu odhadu generalizaˇcn´ı s´ıly zvolen´eho modelu tak, ˇze se na nich urˇcuje chyba predikce modelu. Validaˇcn´ı dataset je tedy skuteˇcnˇe nez´ avisl´ y na tr´enovac´ım procesu (na rozd´ıl od testovac´ıho datasetu, kter´ y nen´ı nevych´ ylen´ ym odhadem generalizaˇcn´ı schopnosti). Typicky pouˇz´ıvan´e rozdˇelen´ı je 50 % dat pro tr´enovac´ı dataset, 25 % pro testovac´ı dataset a zbyl´ ych 25 % pro validaˇcn´ı dataset. 2. K dispozici nen´ı dostatek reprezentuj´ıc´ıch objekt˚ u. V tomto pˇr´ıpadˇe mus´ıme generalizaˇcn´ı schopnost odhadovat jin´ ym zp˚ usobem. V´ yˇse uveden´e rozdˇelen´ı je v tomto pˇr´ıpadˇe nevhodn´e zejm´ena ze dvou d˚ uvod˚ u. Data pouˇzit´a pro validaci a testov´ an´ı sniˇzuj´ı poˇcet tr´enovac´ıch pˇr´ıklad˚ u. Z´aroveˇ n poˇcet pˇr´ıklad˚ u v tˇechto mnoˇzin´ach nen´ı dostateˇcn´ y na to, aby byl odhad generalizaˇcn´ı schopnosti spolehliv´ y. V tˇechto pˇr´ıpadech je moˇzn´e pouˇz´ıt metody kˇr´ıˇzov´e validace (cross-validation) nebo tzv. bootstrapping. Tyto metody vyuˇz´ıvaj´ı speci´aln´ıho zp˚ usobu rozdˇelen´ı dat na tr´enovac´ı a testovac´ı nebo validaˇcn´ı. Jak bylo uvedeno v´ yˇse, pokud nem´ame k dispozici dostatek reprezentuj´ıc´ıch objekt˚ u pro vytvoˇren´ı, validaci a testov´ an´ı modelu strojov´eho uˇcen´ı, lze vyuˇz´ıt metod kˇr´ıˇzov´e validace a bootstrapping. • Kˇr´ıˇzov´ a validace (cross-validation) je metoda zaloˇzen´a na n´ahodn´em rozdˇelen´ı pˇr´ıklad˚ u 29
do K disjunktn´ıch mnoˇzin1 . Dataset X je tedy n´ahodnˇe rozdˇelen do K ˇc´ast´ı ekvivalentn´ıch velikost´ı (X, i = 1, . . . , K). Po vygenerov´an´ı tˇechto K ˇc´ast´ı datasetu je jedna ˇc´ ast pouˇzita pro validaci a zb´ yvaj´ıc´ıch K −1 ˇc´ast´ı je pouˇzito pro vytvoˇren´ı tr´enovac´ıho datasetu. Tento postup je opakov´an K-kr´at, kde pˇri kaˇzd´em bˇehu je pouˇzit jin´ y dataset pro validaci. Celkov´ y v´ ysledek je potom zpr˚ umˇerov´an. Vytvoˇren´ı ˇc´ast´ı datasetu je tedy n´ asleduj´ıc´ı: ν1 = X1 τ1 = X2 ∪ X3 ∪ · · · ∪ XK ν2 = X2
νK = XK
τ2 = X1 ∪ X3 ∪ · · · ∪ XK .. . τK = X1 ∪ X2 ∪ · · · ∪ XK−1 .
K typicky nab´ yv´ a hodnoty 10 ˇci 30. Extr´emn´ım pˇr´ıpadem K-Folf Cross-Validation je metoda zvan´ a leave-one-out. Dataset obsahuje N instanc´ı, ale pouze jedna instance je pouˇzita pro validaci. Pro tr´enov´an´ı je pak poˇzito zb´ yvaj´ıc´ıch N − 1 instanc´ı. Z´aroveˇ n je zˇrejm´e, ˇze tato metoda maximalizuje velikost tr´enovac´ıch dat. Praktick´e vyuˇzit´ı metody leave-one-out je moˇzn´e naj´ıt zejm´ena v aplikac´ıch medic´ınsk´e diagnostiky. [3] • Bootstrapping [18] je metoda zaloˇzen´a na statistick´em n´ahodn´em v´ ybˇeru s opakov´ an´ım. Tento postup vyuˇz´ıv´a toho, ˇze vˇetˇsina uˇc´ıc´ıch algoritm˚ u m˚ uˇze pracovat se dvˇema nebo v´ıce stejn´ ymi tr´enovac´ımi instancemi a ˇze jejich poˇcet m˚ uˇze ovlivnit v´ ysledek uˇcen´ı. Nejˇcastˇejˇs´ı postup je takov´ y, ˇze pokud m´ame N pˇr´ıklad˚ u, generujeme z nich tr´enovac´ı data opˇet s N pˇr´ıklady na z´akladˇe n´ahodn´eho v´ ybˇeru s opakov´ an´ım (navracen´ım). Pravdˇepodobnost, ˇze bude vybr´ana jedna instance je N1 . Pravdˇepodobnost, ˇze vybr´ ana nebude je 1 − N1 . Pravdˇepodobnost, ˇze dan´a instance nebude vybr´ ana po N opakov´an´ı, lze vyj´adˇrit jako 1 N 1− ≈ e−1 = 0, 368. N Z tohoto z´ apisu vypl´ yv´ a, ˇze pˇribliˇznˇe 63,2 % instanc´ı bude pouˇzito pro tr´enovac´ı dataset. Zbyl´ ych 36,8 % dat bude pouˇzito pro testov´an´ı. Cel´a procedura dˇelen´ı na tr´enovac´ı a testovac´ı data bude nˇekolikr´at opakov´ana a v´ ysledek jednotliv´ ych test˚ u bude zpr˚ umˇerov´ an. [3]
5.1.1
Kˇ rivka uˇ cen´ı
Dalˇs´ım nem´enˇe d˚ uleˇzit´ ym ukazatelem schopnosti modelu induktivnˇe generalizovat dan´ a data m˚ uˇze b´ yt kˇrivka uˇcen´ı (viz obr´azek 5.3). Pˇri uˇcen´ı je pˇredpokl´ad´ano, ˇze generalizaˇcn´ı schopnost poroste se zvyˇsuj´ıc´ı se sumou zkuˇsenost´ı, kter´a je zde reprezentov´ana objemem pˇredloˇzen´ ych tr´enovac´ıch pˇr´ıpad˚ u. Kˇrivku uˇcen´ı je moˇzn´e generovat takov´ ym zp˚ usobem, ˇze na horizont´ aln´ı ose je zobrazen zvyˇsuj´ıc´ı se poˇcet pˇr´ıklad˚ u, na kter´ ych se algoritmus m˚ uˇze uˇcit. Na ose vertik´ aln´ı jsou vyneseny jednotlivˇe zjiˇstˇen´e testovac´ı chyby (odhad generalizaˇcn´ı schopnosti). Na poˇca´tku kˇrivky se zpravidla vyskytuje zcela neinformovan´ y model (s n´ ahodnou poˇc´ ateˇcn´ı parametrizac´ı), na jej´ım konci je naopak poˇcet tr´enovac´ıch pˇr´ıklad˚ u maxim´ aln´ı, popˇr´ıpadˇe takov´ y, kdy uˇz generalizaˇcn´ı schopnost d´ale neroste. Pokud je zvolen´ y model schopen s dostateˇcnou pˇresnost´ı popsat vzor chov´an´ı charakterizuj´ıc´ı 1
Lze se tak´e setkat s pojmem K-Fold Cross-Validation, kde K znaˇc´ı poˇcet disjunktn´ıch mnoˇzin, na kter´e je dataset rozdˇelen.
30
zpracov´ avan´ a data, pak se pro velk´ y poˇcet tr´enovac´ıch dat mus´ı poˇcet chyb st´ale sniˇzovat a 2 hodnota SM AP E se bl´ıˇz´ı k hodnotˇe 0, jak je moˇzn´e vidˇet na obr´azku 5.3 (v tomto pˇr´ıpadˇe 1 − SM AP E ). Tohoto tvaru kˇrivky se ovˇsem nepodaˇr´ı dos´ahnout, pokud model nen´ı vhodn´ y pro popis chov´ an´ı zpracovan´ ych dat. V pˇr´ıpadˇe, ˇze je celkov´ y poˇcet pˇr´ıklad˚ u omezen´ y ˇci n´ızk´ y, nem˚ uˇzeme pracovat s konstantn´ı mnoˇzinou testovac´ıch dat, ale pˇr´ıklady postupnˇe dˇel´ıme mezi tr´enovac´ı a testovac´ı dataset. Je ovˇsem zˇrejm´e, ˇze zejm´ena v obou krajn´ıch oblastech kˇrivky je k dispozici pouze mal´ y poˇcet tr´enovac´ıch (resp. testovac´ıch) dat a pro minimalizaci statistick´e chyby je nutn´e experimenty opakovat. Z tohoto d˚ uvodu pˇri konstrukci kˇrivky uˇcen´ı ˇcasto vyuˇz´ıv´ame analogie kˇr´ıˇzov´e validace. Kromˇe pr˚ umˇern´e zjiˇstˇen´e chyby zn´ azorˇ nujeme i jej´ı standardn´ı odchylku. [30]
Obr´azek 5.3: Kˇrivka uˇcen´ı modelu k-nejbliˇzˇs´ıch soused˚ u (pro k = 3) v u ´loze predikce spotˇreby plynu. Data byla rozdˇelena na tr´enovac´ı dataset obsahuj´ıc´ı 1460 pˇr´ıklad˚ u (pro roky 1997-2000) a testovac´ı dataset obsahuj´ıc´ı 365 pˇr´ıpad˚ u pro rok 2001. Postup vytvoˇren´ı kˇrivky byl n´ asleduj´ıc´ı: Z tr´enovac´ı mnoˇziny n´ahodnˇe vyber n pˇr´ıklad˚ u, ty skuteˇcnˇe pouˇzij pro tr´enink. Model ovˇeˇr nad testovac´ımi daty, kde hodnot´ıc´ım krit´eriem je pr˚ umˇern´a absolutn´ı procentu´ aln´ı pˇresnost predikce (1 − SM AP E ). N´ahodn´ y v´ ybˇer opakuj 10kr´at, v´ ysledky zpr˚ umˇeruj, vynes pr˚ umˇernou pˇresnost pˇredpovˇedi a jej´ı standardn´ı odchylku. (pˇrepracov´ano z [30])
5.1.2
Pˇ reuˇ cen´ı
Pˇreuˇcen´ı (overfitting), nˇekdy takt´eˇz naz´ yv´ano pˇretr´enov´an´ı. Rostouc´ı poˇcet tr´enovac´ıch cykl˚ u vede k postupn´emu pˇrizp˚ usobov´an´ı modelu tr´enovac´ım dat˚ um a tak´e k r˚ ustu jeho 2 Stˇredn´ı absolutn´ı relativn´ı chyba (mean absolute precentage error, MAPE) je vyuˇz´ıv´ ana jako z´ akladn´ı hodnot´ıc´ı funkce pro regresn´ı modely. Definov´ ana je jako
SM AP E (M, θ) =
n y (i, M, θ) − y(i)| 1 X |˜ . n i=1 y(i)
31
sloˇzitosti. Od jist´eho okamˇziku jiˇz ale tato sloˇzitost nepˇrisp´ıv´a ke zlepˇsen´ı generalizaˇcn´ı schopnosti, tento efekt se naz´ yv´ a pˇreuˇcen´ı modelu. [30]. Definice: Uvaˇzujme hypot´ezu v nˇejak´em prostoru H, kde plat´ı h ∈ H. O h mluv´ıme jako o pˇreuˇcen´ı na tr´eninkov´ych datech, jestliˇze existuje nˇejak´ a alternativn´ı hypot´eza h0 ∈ H takov´ a, ˇze h m´ a menˇs´ı chybu neˇz h0 oproti tr´enovac´ım dat˚ um a z´ aroveˇ n h0 m´ a menˇs´ı chybu neˇz h oproti cel´e distribuci dat. [34] Obr´azek 5.4 ilustruje u ´ˇcinek pˇreuˇcen´ı u typick´eho pˇr´ıkladu uˇcen´ı rozhodovac´ıho stromu. V tomto pˇr´ıpadˇe je pouˇzit ID33 algoritmus aplikovan´ y na l´ekaˇrskou u ´lohu se snahou urˇcit, kteˇr´ı pacienti maj´ı diabetes. Na horizont´aln´ı ose tohoto grafu jsou vyneseny jednotliv´e poˇcty uzl˚ u rozhodovac´ıho stromu tak, jak byl strom postupnˇe vytv´aˇren. Vertik´aln´ı osa zobrazuje pˇresnost predikc´ı urˇcen´ ych pomoc´ı rozhodovac´ıho stromu. Plnou ˇcarou jsou zn´azornˇeny pˇresnosti predikc´ı rozhodovac´ıho stromu na tr´eninkov´ ych datech, zat´ımco pˇreruˇsovanou ˇcarou jsou zobrazeny pˇresnosti namˇeˇren´e na nez´avisl´em datasetu testovac´ıch dat (tato data nebyla souˇc´ ast´ı tr´enovac´ıho datasetu). Jak je oˇcek´avan´e, pˇresnost predikce na tr´enovac´ıch datech se monot´ onnˇe zvyˇsuje s rostouc´ım poˇctem uzl˚ u stromu. Pˇresnost mˇeˇren´a na nez´avisl´ ych testovac´ıch datech nejdˇr´ıve roste, pot´e se jiˇz ale sniˇzuje. Je moˇzn´e si vˇsimnout toho, ˇze od velikosti stromu obsahuj´ıc´ıho pˇribliˇznˇe 25 uzl˚ u se pˇresnost pro tr´eninkov´a data d´ale zvyˇsuje, naopak pro data testovac´ı pˇresnost kles´a.
Obr´azek 5.4: Pˇreuˇcen´ı pro model strojov´eho uˇcen´ı vyuˇz´ıvaj´ıc´ı rozhodovac´ıho stromu (ID3). Pˇresnost namˇeˇren´ a na rozhodovac´ım stromu vytvoˇren´em na tr´enovac´ıch datech je monot´onnˇe rostouc´ı. Pokud je mˇeˇren´ı provedeno na datech zcela nez´avisl´ ych (testovac´ıch) je pˇresnost nejprve rostouc´ı, ale od urˇcit´eho bodu jiˇz lze zaznamenat klesaj´ıc´ı tendenci. [34]
Jak je ovˇsem moˇzn´e, ˇze dan´ y strom dosahuje lepˇs´ı pˇresnosti na tr´enovac´ıch datech neˇz na datech testovac´ıch? Odpovˇed´ı na tuto ot´azku m˚ uˇze b´ yt pˇr´ıtomnost n´ahodn´ ych chyb 3
Technika ID3 se pouˇz´ıv´ a pˇri konstrukci rozhodovac´ıho stromu shora dol˚ u. Odpov´ıd´ a na ot´ azku jak´ y atribut zvolit jako uzel v dan´e u ´rovni stromu.
32
ˇci ˇsumu v tr´eninkov´em datasetu. Konkr´etnˇe pro rozhodovac´ı stromy to znamen´a zanesen´ı nespr´avn´ ych rozhodovac´ıch podm´ınek pro uzly bl´ızko list˚ u stromu. Efekt pˇreuˇcen´ı nen´ı z´ avaˇzn´ y probl´em jenom pro metody vyuˇz´ıvaj´ıc´ı rozhodovac´ıch strom˚ u, ale i pro ostatn´ı metody strojov´e uˇcen´ı. Napˇr´ıklad v experiment´aln´ı studii [33] zab´ yvaj´ıc´ı se ID3 metodami na pˇeti r˚ uzn´ ych u ´loh´ach obsahuj´ıc´ıch ˇsum ˇci nedeterministick´a data, bylo zjiˇstˇeno, ˇze pˇreuˇcen´ı rozhodovac´ıho stromu sn´ıˇz´ı pˇresnost predikce o 10-25% u vˇetˇsiny definovan´ ych probl´em˚ u. Pro probl´emy pˇreuˇcen´ı pro rozhodovac´ı stromy existuje nˇekolik pˇr´ıstup˚ u jak zamezit pˇreuˇcen´ı. Tyto pˇr´ıstupy mohou b´ yt shrnuty do dvou tˇr´ıd: • pˇr´ıstupy, kter´e ukonˇc´ı generov´an´ı stromu dˇr´ıve neˇz by se mohl projevit efekt pˇreuˇcen´ı, • pˇr´ıstupy, kter´e dovol´ı pˇreuˇcen´ı na datech, ale pot´e pouˇzij´ı metody proˇrez´an´ı stromu (post-prune). Aˇckoliv se prvn´ı pˇr´ıstup m˚ uˇze zd´ at jako v´ıce pˇr´ım´ y, v praxi se sp´ıˇse osvˇedˇcil druh´ y pˇr´ıstup proˇrez´an´ı rozhodovac´ıho stromu. Nev´ yhoda prvn´ıho pˇr´ıstupu je v tom, ˇze nen´ı zcela jasn´e, kdy ukonˇcit r˚ ust stromu. Bez ohledu na to, zda je v´ ysledn´a velikost stromu urˇcena pomoc´ı prvn´ıho pˇr´ıstupu ˇci pouˇzit´ım proˇrez´an´ı, kl´ıˇcovou ot´azkou z˚ ust´av´a, jak´e je krit´erium pro stanoven´ı spr´ avn´e velikosti stromu vedouc´ı k co nejlepˇs´ım v´ ysledk˚ um. Dle [34] mezi hlavn´ı pˇr´ıstupy lze zaˇradit: • Pouˇz´ıt nez´ avisl´ y dataset, kter´ y je odliˇsn´ y od tr´enovac´ıch pˇr´ıklad˚ u, k vyhodnocen´ı uˇziteˇcnosti proˇrez´ an´ı stromu. • Pouˇz´ıt vˇsechna dostupn´ a data pro tr´enov´an´ı. Rozhodnut´ı, zda rozˇs´ıˇrit ˇci proˇrezat konkr´etn´ı uzel, kter´ y by s nejvˇetˇs´ı pravdˇepodobnost´ı produkoval zlepˇsen´ı i mimo tr´enovac´ı mnoˇzinu, ponechat na v´ ysledku statistick´eho testu. Napˇr´ıklad v [40] je pouˇzit ch´ı-kvadr´ at pro testov´an´ı a odhadnut´ı, kter´ y uzel a kdy je nutn´e rozˇs´ıˇrit. • Pouˇz´ıt explicitn´ı m´ıru sloˇzitosti pro zak´odov´an´ı tr´eninkov´ ych pˇr´ıklad˚ u a rozhodovac´ıho stromu, kdy je zastaven r˚ ust stromu a je minimalizov´ana velikost tohoto k´ odov´ an´ı. Tento pˇr´ıstup je zaloˇzen na heuristice nazvan´e Minimum Description Length principle, podrobnˇejˇs´ı diskuzi lze nal´ezt v [32]. Na obr´ azku 5.5 lze vidˇet porovn´an´ı pˇresnost´ı modelu vytvoˇren´eho pomoc´ı tr´eninkov´ ych dat, testovac´ıch dat a pomoc´ı proˇrez´an´ı stromu na testovac´ıch datech. Jak je vidˇet na tomto obr´ azku, pouˇzit´ım metody proˇrez´an´ı stromu lze dos´ahnout lepˇs´ı pˇresnosti modelu (v nˇekter´ ych m´ıstech dosahuje zlepˇsen´ı pˇribliˇznˇe o 0,05 oproti testovac´ım dat˚ um bez pouˇzit´ı proˇrez´an´ı stromu). Dalˇs´ı pˇr´ıklad potvrzuj´ıc´ı sn´ıˇzen´ı pˇresnosti predikce modelu vlivem pˇreuˇcen´ı, lze nal´ezt na obr´azku 5.6. Tento obr´ azek vyjadˇruje pˇreuˇcen´ı vrstven´e neuronov´e s´ıtˇe v u ´loze pˇredpovˇedi u ´mrtnosti. Pro lepˇs´ı porovn´ an´ı jsou zde zobrazeny dvˇe architektury. Prvn´ı z nich pracuje s menˇs´ım poˇctem neuron˚ u ve skryt´ ych vrstv´ach. Druh´a architektura je sloˇzitˇejˇs´ı, pˇresnˇejˇs´ı, ale m´ a vˇetˇs´ı tendenci k pˇreuˇcen´ı (toto lze jednoduˇse pozorovat jako rozd´ıly mezi v´ ysledky tr´enovac´ıch a validaˇcn´ıch dat jednotliv´ ych architektur). Je zˇrejm´e, ˇze pˇribliˇznˇe okolo 500. cyklu uˇcen´ı se jiˇz pˇresnost na validaˇcn´ıch datech pˇr´ıliˇs nezvˇetˇsuje, naopak dojde ke zhorˇsen´ı dosaˇzen´ ych v´ ysledk˚ u.
33
Obr´azek 5.5: Redukce chyb pouˇzit´ım techniky proˇrez´an´ı rozhodovac´ıho stromu. Tento graf ukazuje stejn´e hodnoty kˇrivek pro testovac´ı a tr´eninkov´a data jako graf 5.4. Na rozd´ıl od obr´azku 5.4 jsou zde redukov´ any chyby pomoc´ı proˇrez´an´ı stromu vytvoˇren´eho pomoc´ı metody ID3. Porovn´ ame-li pˇresnost modelu na testovac´ıch datech bez proˇrez´an´ı a s proˇrez´an´ım stromu zjist´ıme, ˇze v nˇekter´ ych pˇr´ıpadech dojde ke zlepˇsen´ı pˇresnosti o zhruba 0,05. Technika proˇrez´ an´ı rozhodovac´ıho stromu v tomto pˇr´ıpadˇe vykazuje lepˇs´ıch v´ ysledk˚ u. [34]
5.2
WEKA - platforma pro anal´ yzu znalost´ı
WEKA (z angl. Waikato Environment for Knowledge Analysis) je popul´arn´ı bal´ık program˚ u strojov´eho uˇcen´ı napsan´ y v programovac´ım jazyce Java, vyvinut´ y na University of Waikato, Nov´ y Z´eland. WEKA je svobodn´ y software dostupn´ y podle licence GNU General Public License. Platforma WEKA je ˇsiroce rozˇs´ıˇren´a v akademick´e i komerˇcn´ı sf´eˇre, disponuje aktivn´ı komunitou a byla staˇzena v´ıce neˇz 1,4 milionkr´at od uveˇrejnˇen´ı na Source-Forge (od dubna 2000). C´ılem projektu WEKA je poskytnout rozs´ahlou kolekci r˚ uzn´ ych algoritm˚ u pro u ´lohy strojov´eho uˇcen´ı a n´ astroje pro pˇredzpracov´an´ı dat pro vˇedeckou i veˇrejnˇe odbornou komunitu. Umoˇzn ˇuje uˇzivatel˚ um rychle vyzkouˇset a porovnat r˚ uzn´e techniky strojov´eho uˇcen´ı na vytvoˇren´em datasetu. Modul´ arn´ı, rozˇs´ıˇriteln´a architektura umoˇzn ˇuje sofistikovan´e dolov´an´ı dat z poskytnut´ ych kolekc´ı uˇc´ıc´ıch algoritm˚ u a n´astroj˚ u. Rozˇs´ıˇren´ı tohoto n´astroje je velmi snadn´e d´ıky jednoduch´emu API a plugin mechanism˚ um, kter´e automatizuj´ı integraci nov´ ych algoritm˚ u do WEKA pomoc´ı grafick´eho rozhran´ı. WEKA obsahuje algoritmy pro regresi, klasifikaci, shlukov´ an´ı, z´ısk´av´an´ı asociaˇcn´ıch pravidel a v´ ybˇer atribut˚ u (rys˚ u). O pˇredbˇeˇzn´ y pohled na distribuci a vlastnosti dat je postar´ano pomoc´ı n´astroj˚ u pro vizualizaci, nab´ıdnuto je takt´eˇz velk´e mnoˇzstv´ı dalˇs´ıch n´astroj˚ u pro pˇredzpracov´an´ı. [21] Samotn´ y n´ astroj WEKA lze rozdˇelit do ˇctyˇr r˚ uzn´ ych aplikac´ı. • Explorer je hlavn´ım grafick´ ym uˇzivatelsk´ ym rozhran´ım. Toto rozhran´ı vyuˇz´ıv´a panel˚ u (panel-based), kde jednotliv´e panely koresponduj´ı s dan´ ym typem u ´lohy. 34
Obr´azek 5.6: Pˇreuˇcen´ı vrstven´e neuronov´e s´ıtˇe v u ´loze pˇredpovˇedi u ´mrtnosti. Architektura 1 pracuje s menˇs´ım poˇctem neuron˚ u ve skryt´ ym vrstv´ach. Architektura 2 je sloˇzitˇejˇs´ı, pˇresnˇejˇs´ı, ale m´ a vˇetˇs´ı tendenci k pˇreuˇcen´ı. S rostouc´ım poˇctem iterac´ı pˇri uˇcen´ı neuronov´e s´ıtˇe doch´ az´ı k postupn´emu zpˇresˇ nov´an´ı klasifikace tr´enovac´ıch dat. Je zde vˇsak viditeln´e, ˇze pˇribliˇznˇe od 500. cyklu uˇcen´ı se jiˇz nezvyˇsuje generalizaˇcn´ı schopnost s´ıtˇe a kvalita pˇredpovˇedi se zhorˇsuje. Sloˇzitost modelu je vysok´a, doch´az´ı k jevu, kter´ y naz´ yv´ame pˇreuˇcen´ı. [30]
Prvn´ı panel nazvan´ y Preprocess slouˇz´ı pro nahr´an´ı dat do modelu a umoˇzn ˇuje vyuˇz´ıt n´ astroj˚ u pro pˇredzpracov´ an´ı (filtry). Data mohou b´ yt nahr´ana z datab´aze, souboru ˇci URL. Podporovan´e form´ aty soubor˚ u jsou ARFF (nativn´ı form´at pro n´astroj WEKA), CSV, LibSVM form´ at a C4.5 form´at. Druh´ y panel s n´ azvem Classify umoˇzn ˇuje pˇr´ıstup k v´ ybˇeru klasifikaˇcn´ıch a regresn´ıch algoritm˚ u. V tomto panelu je moˇzn´e pracovat i s kˇr´ıˇzovou validac´ı (moˇznost nastavit poˇcet fold˚ u), ve v´ ychoz´ım nastaven´ı je pouˇzita 10-fold kˇr´ıˇzov´a validace. Moˇznost vyuˇzit´ı extern´ıho testovac´ıho datasetu je takt´eˇz podporov´ana. WEKA samozˇrejmˇe poskytuje kromˇe algoritm˚ u vyuˇz´ıvaj´ıc´ı uˇcen´ı s uˇcitelem i algoritmy bez uˇcitele. Ve tˇret´ım panelu je moˇzn´e naj´ıt algoritmy shlukovac´ı, ve ˇctvrt´em panelu pak metody pro hled´an´ı asociaˇcn´ıch pravidel. V panelu Cluster je povoleno uˇzivatel˚ um vyuˇz´ıvat shlukovac´ı algoritmy na datech nahran´ ych v panelu Preprocess. Samozˇrejmost´ı jsou jednoduch´e statistick´e v´ ystupy hodnot´ıc´ı v´ ykonnost shlukovac´ıch algoritm˚ u. Pravdˇepodobnˇe jedna z nejd˚ uleˇzitˇejˇs´ıch u ´loh praktick´eho dolov´an´ı dat je identifikace atribut˚ u (rys˚ u), kter´e se nejvˇetˇs´ı mˇerou pod´ılej´ı na u ´spˇeˇsnosti predikce. V n´astroji WEKA je v´ ybˇer tˇechto rys˚ u (feature selection) um´ıstˇen v panelu Select attributes. Vzhledem k faktu, ˇze je moˇzn´e kombinovat r˚ uzn´e prohled´avac´ı metody s odliˇsn´ ymi evaluaˇcn´ımi krit´erii, je zde d˚ uleˇzit´e ponechat ˇsirokou ˇsk´alu moˇzn´ ych kandid´atn´ıch technik. Robustnost v´ ybˇeru atribut˚ u m˚ uˇze b´ yt validov´ana skrze pˇr´ıstupy zaloˇzen´e na 35
Obr´ azek 5.7: Uˇzivatelsk´e rozhran´ı programu WEKA Explorer. [21]
kˇr´ıˇzov´e validaci. V mnoha praktick´ ych aplikac´ıch vizualizace dat poskytuje d˚ uleˇzit´e poznatky. Tyto poznatky mohou dokonce v´est k tomu, ˇze je moˇzn´e se d´ale vyhnout anal´ yze pomoc´ı strojov´eho uˇcen´ı a dolov´an´ı dat. Pokud toto nen´ı moˇzn´e, m˚ uˇze vizualizace poslouˇzit napˇr´ıklad pro v´ ybˇer vhodn´eho algoritmu. Moˇznost vizualizace je moˇzn´e naj´ıt v posledn´ım panelu nazvan´em Visualize, kter´ y obsahuje jednotliv´e barevnˇe odliˇsen´e bodov´e grafy. • Experimenter. Toto rozhran´ı je navrˇzeno tak, aby co nejv´ıce usnadnilo porovn´av´ an´ı v´ ykonnost´ı predikˇcn´ıch algoritm˚ u zaloˇzen´ ych na r˚ uzn´ ych hodnot´ıc´ıch krit´eri´ıch, kter´e jsou k dispozici ve WEKA. Experimenty je moˇzn´e prov´adˇet na v´ıcero algoritmech, kter´e bˇeˇz´ı na v´ıcero datasetech (napˇr´ıklad opakovan´a kˇr´ıˇzov´a validace). Experimenty mohou b´ yt rovnˇeˇz distribuov´any na r˚ uzn´ ych v´ ypoˇcetn´ıch uzlech na s´ıti pro sn´ıˇzen´ı v´ ypoˇcetn´ıho zat´ıˇzen´ı. V´ ysledky experimentu je moˇzn´e uloˇzit ve formˇe XML ˇci v bin´arn´ı formˇe. • KnowledgeFlow. Nˇekter´e algoritmy strojov´eho uˇcen´ı nebyly implementov´any pˇr´ımo do prostˇred´ı Explorer, ale jejich inkrement´aln´ı povaha (tj. takov´a povaha, kde algoritmy lze rozdˇelit do posloupnosti jednotliv´ ych operac´ı) byla vloˇzena do grafick´eho uˇzivatelsk´eho rozhran´ı nazvan´eho KnowledgeFlow. Vˇetˇsinu u ´loh, kter´e je moˇzn´e ˇreˇsit v prostˇred´ı Explorer, lze spustit i v KnowledgeFlow. Toto prostˇred´ı nab´ız´ı celkem osm panel˚ u, kde kaˇzd´ y panel obsahuje jemu pˇr´ısluˇsn´e moduly (uzly), kter´e je moˇzn´e um´ıstit na pracovn´ı plochu. Tyto moduly mohou b´ yt formou vazeb mezi sebou pospojov´ any a vytvoˇrit tak funkˇcn´ı tok dat. Samozˇrejmost´ı jsou n´astroje pro ohodnocen´ı i pro vizualizaci dat. Propojen´ı jednotliv´ ych modul˚ u je konfigurovateln´e a pro pozdˇejˇs´ı pouˇzit´ı je moˇzn´e danou konfiguraci uloˇzit. • Simple CLI je jednoduch´e konzolov´e prostˇred´ı pro n´astroj WEKA pomoc´ı nˇehoˇz je moˇzn´e jednoduˇse vytv´ aˇret sady pˇr´ıkaz˚ u (napˇr. vytvoˇren´ı ˇci ohodnocen´ı modelu). Pomoc´ı t´eto konzole je moˇzn´e ovl´adat program WEKA bez znalost´ı vyˇsˇs´ıch programovac´ıch jazyk˚ u. 36
Jak jiˇz bylo zm´ınˇeno, n´ astroj WEKA umoˇzn ˇuje pr´aci s velk´ ym mnoˇzstv´ım algoritm˚ u pro klasifikaci, regresi, shlukov´ an´ı nebo anal´ yzu asociaˇcn´ıch pravidel. V tabulce 5.1 jsou uvedeny jednotliv´e tˇr´ıdy algoritm˚ u, do kter´ ych jsou konkr´etn´ı z´astupci pˇriˇrazeni na z´akladˇe zp˚ usobu klasifikace/regrese. Podrobn´e vysvˇetlen´ı jednotliv´ ych metod lze nal´ezt na [46]. Tˇ r´ıda algoritmu Bayes Functions Lazy Meta Mi Misc Rules Trees
Pˇ r´ıklady jednotliv´ ych algoritm˚ u AODE, BayesNet, NaiveBayes, NaiveBayesSimple SMO, LinearRegression, MultilayerPerceptron IB1, IBK, KStar, LBR, LWL Bagging, Random SubSpace, GridSearch, Vote, Stacking MIBoost, MDD, MINND, MISVM, MIWrapper, MILR VFI, HyperPipes DecisionTable, M5Rules, ZeroR, JRip, ConjunctiveRule M5P, J48, RandomForest, REPTree, ID3, ADTree
Tabulka 5.1: Uvedeny jsou jednotliv´e tˇr´ıdy algoritm˚ u, do kter´ ych jsou konkr´etn´ı z´astupci pˇriˇrazeni na z´ akladˇe zp˚ usobu klasifikace/regrese. Toto rozdˇelen´ı plat´ı pro pro verzi WEKA 3.6.10. [46]
5.2.1
KStar
V t´eto podkapitole bude podrobnˇeji rozebr´ana metoda strojov´eho uˇcen´ı KStar, kter´a dos´ahla nejlepˇs´ıho v´ ysledku na tr´enovac´ım datasetu (viz kapitola 7.2). KStar patˇr´ı do kategorie lazy learning metod. Obecnˇe lze o skupinˇe tˇechto metod ˇr´ıci, ˇze uchov´avaj´ı tr´eninkov´e instance (data) a nedˇelaj´ı ˇz´adnou re´alnou pr´aci aˇz do okamˇziku, kdy je vznesen poˇzadavek (na rozd´ıl od Eager learning). KStar je metoda vyuˇz´ıvaj´ıc´ı principu nejbliˇzˇs´ıho souseda se zobecnˇenou vzd´alenostn´ı funkc´ı zaloˇzenou na transformac´ıch. [46] Pouˇzit´ı entropie jako m´ıry vzd´alenosti m´a nˇekolik v´ yhod. Mezi nˇe patˇr´ı napˇr´ıklad konzistentn´ı pˇr´ıstupy k symbolick´ ym atribut˚ um, re´aln´ ym hodnot´am atribut˚ u a chybˇej´ıc´ım hodnot´am. Samotn´ a klasifikace je zaloˇzena na podobnosti, kde vych´az´ıme z pˇredpokladu, ˇze podobn´e instance budou m´ıt podobn´e v´ ysledky klasifikace. Ot´azka ovˇsem leˇz´ı na definici ”podobn´e instance”a ”podobn´e v´ ysledky klasifikac´ı”. Odpovˇed´ı je vzd´alenostn´ı funkce, kter´ a urˇcuje, jak si jsou navz´ ajem dvˇe instance podobn´e, a klasifikaˇcn´ı funkce, kter´a specifikuje podobnost instanc´ı oproti v´ ysledku klasifikace nov´ ych instanc´ı. Entropie a m´ıra vzd´ alenosti Tento pˇr´ıstup v´ ypoˇctu na z´ akladˇe vzd´alenosti mezi dvˇema instancemi je motivov´an teori´ı informac´ı. Pˇrirozenou intuic´ı lze definovat vzd´alenost dvou instanc´ı jako sloˇzitou transformaci jedn´e instance na druhou. V´ ypoˇcet t´eto sloˇzitosti je moˇzn´e rozdˇelit do dvou z´akladn´ıch krok˚ u. Prvn´ım krokem je vytvoˇren´ı koneˇcn´e mnoˇziny transformac´ı, kter´a mapuje instance na instance definovan´e. Program d´ ale transformuje jednu instanci (a) na jinou (b) vytvoˇren´ım koneˇcn´e sekvence transformac´ı zaˇc´ınaj´ıc´ı v a a konˇc´ıc´ı v b. V n´ avaznosti na teorii sloˇzitosti jsou programy (sekvence) tvoˇreny bez prefix˚ u pˇripojen´ım ukonˇcovac´ıho symbolu ke kaˇzd´emu ˇretˇezci. Obvyklou definic´ı sloˇzitosti programu (definov´ano jako Kolmogorovova sloˇzitost v [27]) je d´elka nejkratˇs´ıho ˇretˇezce reprezentuj´ıc´ı 37
dan´ y program. Kolmogorovova vzd´alenost mezi dvˇema instancemi m˚ uˇze b´ yt definov´ana jako vzd´ alenost nejkratˇs´ıho ˇretˇezce spojuj´ıc´ı tyto dvˇe instance. Tento pˇr´ıstup je zamˇeˇren na jedinou transformaci (tu nejkratˇs´ı) z mnoˇziny mnoha moˇzn´ ych transformac´ı. V´ ysledkem je takov´a vzd´ alenostn´ı m´ıra, kter´ a je velmi citliv´a na mal´e zmˇeny v prostoru instanc´ı. KStar se s t´ımto probl´emem snaˇz´ı vypoˇr´adat pomoc´ı souˇctu pˇres vˇsechny moˇzn´e transformace mezi dvˇema instancemi. Specifikace KStar Necht’ I (moˇzno nekoneˇcn´ a) mnoˇzina instanc´ı a T je koneˇcn´a mnoˇzina transformac´ı na I. Je definov´ ano zobrazen´ı t, kde pro kaˇzd´e t ∈ T zobrazuje instance na instance t : I → I. T obsahuje rozliˇsuj´ıc´ıho ˇclena σ (symbol pro zastaven´ı), kter´ y doplˇ nuje zobrazen´ı o zobrazen´ı samo na sebe (reflexivita, tj. σ(a) = a). Necht’ P je mnoˇzina vˇsech prefixov´ ych k´od˚ u z T∗ , kter´e jsou ukonˇceny σ. Prvky T∗ (a takt´eˇz z P) jsou jednoznaˇcnˇe definov´any transformac´ı na I: t¯(a) = tn (tn−1 (. . . t1 (a) . . . )),
kde t¯ = t1 , . . . , tn .
(5.1)
Pravdˇepodobnostn´ı funkce p je definov´ana na T∗ a mus´ı splˇ novat n´asleduj´ıc´ı vlastnosti: p(t¯u) ≤1 p(t¯)
(5.2)
p(t¯u) = p(t¯)
(5.3)
0≤ X u
p(Λ) = 1.
(5.4)
V d˚ usledku tohoto splˇ nuje n´ asleduj´ıc´ı: X
p(t¯) = 1.
(5.5)
t¯∈P
Pravdˇepodobnostn´ı funkce P ∗ je definov´ana jako pravdˇepodobnost vˇsech cest z instance a do instance b: X P ∗ (b|a) = p(t¯). (5.6) t¯∈P :t¯(a)=b
Snadno se uk´ aˇze, ˇze P ∗ splˇ nuje n´asleduj´ıc´ı vlastnosti: X P ∗ (b|a) = 1
(5.7)
b
0 ≤ P ∗ (b|a) ≤ 1.
(5.8)
Funkce KStar (K ∗ ) je definov´ ana jako K ∗ (b|a) = −log2 P ∗ (b|a).
(5.9)
K ∗ nen´ı striktnˇe vzd´ alenostn´ı funkce. Napˇr´ıklad pro K ∗ (a|a) je obecnˇe nenulov´ y a z´aroveˇ n tato funkce (jak je zd˚ uraznˇeno | notac´ı) je nesymetrick´a. Pˇresto n´asleduj´ıc´ı vlastnosti jsou prokazateln´e: K ∗ (b|a) ≥ 0 (5.10) K ∗ (c|b) + K ∗ (b|a) ≥ K ∗ (c|a). 38
(5.11)
KStar algoritmus Pro implementaci tohoto klasifik´ atoru pouˇz´ıvaj´ıc´ıho entropickou m´ıru vzd´alenosti popsanou v´ yˇse, je nutn´e vhodnˇe zvolit parametry x0 , s a zp˚ usob pouˇzit´ı hodnot vr´acen´ ych m´ırou vzd´alenosti. Pro kaˇzdou dimenzi je nutn´e urˇcit parametry x0 (pro re´aln´e atributy) a s (pro symbolick´e atributy). Chov´ an´ı vzd´ alenostn´ı m´ıry pˇri zmˇenˇe tˇechto parametr˚ u je zaj´ımav´e. Uvaˇzujme pravdˇepodobnostn´ı funkci pro symbolick´e atributy pˇri zmˇen´ach s. Pˇri hodnotˇe s bl´ıˇz´ıc´ı se 1, kdy instance obsahuj´ı dva odliˇsn´e symboly, bude pravdˇepodobnost transformace n´ızk´a, zat´ımco instance se stejn´ ymi symboly bude m´ıt vysokou pravdˇepodobnost transformace. Z tohoto d˚ uvodu bude vzd´alenostn´ı funkce vykazovat chov´an´ı podobn´e technice nejbliˇzˇs´ıho souseda (nearest neighbour). Pokud se s bl´ıˇz´ı hodnotˇe 0, pravdˇepodobnost transformace pˇr´ımo ukazuje pravdˇepodobnostn´ı distribuci symbol˚ u. Zv´ yhodˇ nuje tedy symboly, kter´e jsou frekventovanˇejˇs´ı. Toto chov´an´ı je velmi podobn´e v´ ychoz´ım pravidl˚ um pro mnoho technik strojov´eho uˇcen´ı, kter´e jednoduˇse urˇc´ı tu nejpravdˇepodobnˇejˇs´ı klasifikaci. S t´ım, jak se mˇen´ı hodnota s, doch´ az´ı k plynul´e zmˇenˇe mezi tˇemito dvˇema extr´emy. Vzd´alenostn´ı m´ıra pro re´ aln´e hodnoty atribut˚ u vykazuje stejn´e vlastnosti. Pokud x0 je mal´e hodnoty, pravdˇepodobnost se velmi rychle sniˇzuje se vzr˚ ustaj´ıc´ı vzd´alenost´ı. Tato funkce je tedy podobn´ a takt´eˇz technik´ am vyuˇz´ıvaj´ıc´ıch nejbliˇzˇs´ıho souseda. Na druhou stranu, kdyˇz je x0 vysok´e ˇc´ıslo, skoro vˇsechny instance budou m´ıt stejnou transformaci a velmi podobnou v´ahou. V obou tˇechto pˇr´ıpadech m˚ uˇzeme uvaˇzovat o poˇctu tˇechto instanc´ı, kter´e jsou zahrnuty v r´ amci pravdˇepodobnostn´ıho rozdˇelen´ı pohybuj´ıc´ıho se od extr´emu 1 (distribuce jako nejbliˇzˇs´ı soused) k druh´emu extr´emu N, kdy maj´ı vˇsechny instance stejnou v´ahu. Efektivn´ı poˇcet instanc´ı m˚ uˇze b´ yt spoˇc´ıt´an pro jakoukoliv funkce P ∗ pouˇzit´ım n´asleduj´ıc´ıho v´ yrazu: 2 P ∗ (b|a) P b n0 ≤ P ∗ ≤ N. (5.12) 2 b P (b|a) N v tomto pˇr´ıpadˇe znaˇc´ı celkov´ y poˇcet tr´enovac´ıch instanc´ı a n0 poˇcet instanc´ı v nejmenˇs´ı vzd´alenosti od a. Algoritmus KStar urˇc´ı hodnotu pro x0 (nebo pro s) v´ ybˇerem ˇc´ısla mezi hodnotami n0 a N , kter´e mus´ı zohledˇ novat v´ yraz v´ yˇse. Z tohoto vypl´ yv´a, ˇze pokud bude vybr´ana hodnota n0 bude uplatnˇen algoritmus nejbliˇzˇs´ıho souseda, pokud bude vybr´ana hodnota N , instance budou m´ıt stejn´e v´ahy. Pro lepˇs´ı pˇrehlednost je specifikov´an nov´ y parametr b (blending parametr), kter´ y m˚ uˇze dosahovat hodnot v rozsahu b = 0% (pro n0 ) aˇz b = 100% pro N se stˇredn´ımi hodnotami line´arnˇe interpolovan´ ymi. V´ ysledky KStar K z´ısk´ an´ı pˇrehledu o tom, jak dobˇre algoritmus KStar funguje v praxi, byla provedena klasifikace na nˇekolika datasetech. Tyto datasety byly poˇr´ızeny z UCI Machine Learning Database Repository. Jednotliv´e datasety byly rozdˇeleny n´asledovnˇe: 2/3 pro tr´enov´an´ı modelu a zbyl´a 1/3 pro testov´ an´ı. Toto rozdˇelen´ı dat bylo provedeno celkem 25kr´at pro kaˇzd´ y dataset. Celkovˇe byly ohodnoceny vˇsechny datasety pro vˇsech 25 r˚ uzn´ ych rozdˇelen´ı a jejich v´ ysledky byly zpr˚ umˇerov´ any. V´ ysledky tˇechto bˇeh˚ u jsou uk´az´any v tabulce 5.2, kde jsou zv´ yraznˇeny nejvyˇsˇs´ı dosaˇzen´e pˇresnosti predikce pro kaˇzd´ y dataset. U metody C4.5 bylo pouˇzito proˇrez´ an´ı stromu (P-Tree) a rozhodovac´ıch pravidel (Rules).
39
Dataset BC CH GL G2 HD HE HO HY IR LA LY SE SO VO V1
C4.5 (P-Tree) 70,7 99,2 66,0 72,9 75,7 68,7 76,1 91,3 94,3 72,2 74,8 75,4 91,9 83,4
C4.5 (Rules) 68,8 99,2 64,8 74,2 77,6 79,5 81,7 99,2 94,3 84,2 75,8 97,8 94,8 89,8
FOIL
1R
1B1
54,3 29,3 50,0 64,4 64,2 66,6 62,5 98,2 89,8 65,3 66,2 95,8 96,3 87,6 77,4
67,5 64,9 52,1 69,0 73,8 78,4 81,7 97,8 92,3 76,4 72,7 95,1 79,2 95,4 87,3
66.1 89,6 67,8 76,4 75,5 80,8 77,4 97,7 95,3 84,2 80,9 93,8 99,8 91,9 87,3
KStar (b=20) 68,6 93,2 72,4 82,3 75,0 80,4 76,2 98,5 94,9 90,9 82,2 95,2 99,8 93,0 90,5
KStar (b=best) 70,8 93,3 73,9 82,7 82,2 83,8 79,2 98,6 95,3 92,0 82,6 95,7 99,8 93,2 90,5
Tabulka 5.2: Pˇresnost klasifikace pro r˚ uzn´e datasety. [13]
Jak je vidˇet, algoritmus KStar funguje velmi dobˇre na ˇsirok´e ˇsk´ale vˇsech model˚ u. T´emˇeˇr ve vˇsech pˇr´ıpadech je lepˇs´ı neˇz ostatn´ı algoritmy (konkr´etnˇe v ˇsesti pˇr´ıpadech z patn´acti).
40
Kapitola 6
Implementace Praktickou ˇc´ ast t´eto diplomov´e pr´ace je moˇzn´e rozdˇelit do posloupnosti nˇekolika hlavn´ıch krok˚ u. Jelikoˇz se jedn´ a o pˇr´ıstup vyuˇz´ıvaj´ıc´ı strojov´eho uˇcen´ı, bylo nutn´e nejdˇr´ıve vytvoˇrit tr´enovac´ı dataset. Pro tyto u ´ˇcely lze pouˇz´ıt volnˇe dostupnou datab´azi ProTherm obsahuj´ıc´ı experiment´ alnˇe z´ıskan´ a termodynamick´a data protein˚ u a jejich mutac´ı (popis datab´aze lze nal´ezt v kapitole 3.1.1). Tato datab´aze byla kv˚ uli pˇredpokl´adan´emu ˇcast´emu dotazov´ an´ı nad obsaˇzen´ ymi daty pˇrevedena do MySQL datab´aze. Samotn´emu kroku pˇreveden´ı samozˇrejmˇe pˇredch´ azela anal´ yza dat a n´avrh vhodn´ ych relaˇcn´ıch tabulek. Vypracov´any byly tak´e postupy opravuj´ıc´ı chybn´e, ˇci jinak poˇskozen´e z´aznamy z t´eto datab´aze. Druh´ ym krokem byl v´ ybˇer vhodn´ ych predikˇcn´ıch n´astroj˚ u, mezi kter´ ymi se v pozdˇejˇs´ı f´azi predikce hodnoty stability hledal konsenzus (konsenzu´aln´ı funkce). Po urˇcen´ı tˇechto n´astroj˚ u bylo nutn´e vytvoˇrit vlastn´ı platformu automatizovan´ ych skript˚ u, kter´e systematick´ ym dotazov´ an´ım z´ısk´ avaly ohodnocen´e mutace, v´ ysledky pro jednotliv´e n´astroje byly ukl´ad´any do pˇr´ısluˇsn´ ych relaˇcn´ıch tabulek datab´aze MySQL. Po z´ısk´ an´ı vˇsech relevantn´ıch dat bylo nutn´e aplikovat metody strojov´eho uˇcen´ı. Aby bylo dosaˇzeno co nejlepˇs´ıho v´ ysledku, testov´ano bylo celkem 28 model˚ u podporuj´ıc´ıch regresi. V tomto pˇr´ıpadˇe bylo vyuˇzito n´astroje WEKA, jehoˇz popis lze nal´ezt v kapitole 5.2. Z´aroveˇ n po z´ısk´ an´ı dat z jednotliv´ ych model˚ u a jejich v´ ysledk˚ u byla snaha o zlepˇsen´ı dosaˇzen´e pˇresnosti predikce. Zkoum´an byl takt´eˇz vliv pˇretr´enov´an´ı pro jednotliv´e metody strojov´eho uˇcen´ı na pouˇzit´em tr´enovac´ım datasetu. V´ıce se o tˇechto v´ ysledc´ıch lze doˇc´ıst v kapitole 7. Pro veˇsker´e vytvoˇren´e skripty byl pouˇzit skriptovac´ı jazyk Perl, kter´ y je plnˇe pˇrenositeln´ ya je ho moˇzn´e pouˇz´ıt jak na platformˇe Microsoft Windows, tak napˇr´ıklad na platformˇe Unix.
6.1
Pouˇ zit´ e datov´ e sady
V t´eto podkapitole budou pops´ any jednotliv´e datov´e sady. Jelikoˇz kvalita tr´enovac´ıho datasetu je jeden z kl´ıˇcov´ ych parametr˚ u ovlivˇ nuj´ıc´ı kvalitu ˇci pˇresnosti predikovan´e hodnoty, byl na v´ ybˇer jednotliv´ ych mutac´ı kladen velk´ y d˚ uraz. Z´aroveˇ n byl vytvoˇren tak´e testovac´ı dataset, kter´ y mˇel i pˇres pouˇzitou 10-fold kˇr´ıˇzovou validaci uk´azat, s jakou pˇresnost´ı je schopen dan´ y model predikovat hodnoty na nez´avisl´em datasetu (tj. dataset obsahuj´ıc´ı mutace, kter´e nebyly pouˇzity pˇri tr´enov´ an´ı modelu). Takt´eˇz je z v´ ysledk˚ u dosaˇzen´ ych na testovac´ım datasetu moˇzno posoudit, jakou roli zde hraje pˇreuˇcen´ı.
41
6.1.1
Tr´ enovac´ı dataset
Jak jiˇz bylo zm´ınˇeno, pro tr´enovac´ı dataset byly zvoleny z´aznamy poch´azej´ıc´ı z datab´ aze ProTherm, kde jednotliv´e datab´ azov´e poloˇzky byly pro jednoduˇsˇs´ı dotazov´an´ı pˇrevedeny do datab´ aze MySQL. Celkovˇe sice datab´aze ProTherm obsahovala 22 491 z´aznam˚ u, pro zpracov´ an´ı vˇsak bylo vybr´ ano pouze 11 910 z´aznam˚ u vyhovuj´ıc´ıch stanoven´ ym krit´eri´ım (omezuj´ıc´ı byl napˇr´ıklad poˇzadavek na existenci proteinov´e struktury v nˇekter´e veˇrejnˇe pˇr´ıstupn´e datab´ azi). Z´ aroveˇ n doˇslo k rozpozn´an´ı jednobodov´ ych a v´ıcebodov´ ych mutac´ı a tyto mutace lze v datab´ azi rozliˇsit skrze specifickou hodnotu odpov´ıdaj´ıc´ıho atributu. Pˇri pˇrevodu dat do relaˇcn´ı datab´aze byl kladen d˚ uraz na korektnost atribut˚ u vztahuj´ıc´ıch se k mutac´ım a jejich pˇr´ısluˇsn´ ym pozic´ım. Opravn´ ymi algoritmy bylo t´ımto z´ısk´ano 986 z´aznam˚ u, kter´e by jinak skonˇcily ne´ uspˇeˇsnou predikc´ı stability (doˇslo napˇr´ıklad k pˇrepoˇctu pozice mutace).
Obr´azek 6.1: Posloupnost u ´kon˚ u vedouc´ı k vytvoˇren´ı tr´enovac´ıho datasetu. U podm´ınˇen´eho v´ ybˇeru byla nutn´ a podm´ınka existence proteinov´e struktury. U podm´ınky vedouc´ı k vytvoˇren´ı tr´enovac´ıho datasetu bylo nutn´e m´ıt specifikovan´e ∆∆G. Pokud byly experiment´aln´ı podm´ınky u jednotliv´ ych z´ aznam˚ u stejn´e, doˇslo k zpr˚ umˇerov´an´ı ∆∆G hodnot, jinak byl vybr´an z´ aznam s pH nejbl´ıˇze fyziologick´e hodnotˇe 7 a z´aroveˇ n teplota byla menˇs´ı nebo rovna hodnotˇe 50◦ C.
Pro vytvoˇren´ı tr´enovac´ıho datasetu byly br´any v potaz pouze jednobodov´e mutace, touto selekc´ı tak byl dan´ y prostor sn´ıˇzen na 9 662 z´aznam˚ u. Na tyto z´aznamy byly aplikov´any n´ asleduj´ıc´ı podm´ınky v´ ybˇeru. Z´aznamy nesmˇely obsahovat nevyplnˇenou ∆∆G. Po42
kud existuje mutace s v´ıce neˇz jedn´ım z´aznamem a jsou-li experiment´aln´ı podm´ınky stejn´e, byl vloˇzen do datasetu pouze jeden z´aznam se zpr˚ umˇerovanou hodnotou ∆∆G. Pokud jsou experiment´ aln´ı podm´ınky odliˇsn´e, byl vloˇzen do datasetu pouze z´aznam, kter´ y mˇel atribut pH nejbliˇzˇs´ı fyziologick´e hodnotˇe 7 a z´aroveˇ n byl atribut t znaˇc´ıc´ı teplotu menˇs´ı nebo roven hodnotˇe 50◦ C. Po splnˇen´ı podm´ınek v´ ybˇeru dataset obsahoval 1596 z´aznam˚ u, z toho u 179 pˇr´ıpad˚ u doˇslo ke zpr˚ umˇerov´ an´ı hodnoty ∆∆G a v d˚ usledku rozd´ıln´ ych experiment´aln´ıch podm´ınek bylo eliminov´ ano 75 z´ aznam˚ u. V´ ysledn´ y dataset byl vygenerov´an ve form´atu ARFF, kter´ y je nativn´ı pro platformu WEKA a byl pouˇzit k testov´an´ı metod strojov´eho uˇcen´ı. Na obr´azku 6.1 je pˇrehlednˇe zn´ azornˇen v´ yvoj n´avrhu tr´enovac´ıho datasetu. Obr´azek 6.2 zobrazuje graf distribuce predikovan´ ych a experiment´alnˇe namˇeˇren´ ych ∆∆G hodnot, kter´e jsou vyj´ adˇreny norm´aln´ı distribuˇcn´ı kˇrivkou. Z tohoto grafu lze vyˇc´ıst, ˇze v pouˇzit´em datasetu vˇetˇsina aminokyselinov´ ych mutac´ı zp˚ usobuje destabilizaci proteinu, extr´emn´ı stavy stabilizace/destabilizace se vyskytuj´ı velmi zˇr´ıdka.
Obr´azek 6.2: Distribuce predikovan´ ych a experiment´alnˇe zjiˇstˇen´ ych ∆∆G hodnot. Mezi testovan´e n´ astroje patˇr´ı: AUTO-MUTE, SDM, CUPSAT, I-Mutant3.0 (strukturn´ı verze), I-Mutant3.0 (sekvenˇcn´ı verze), iPTREE-STAB, mCSM a PoPMuSiC. Na obr´ azku 6.3 je zn´ azornˇeno sledovan´e a oˇcek´avan´e zastoupen´ı aminokyselin v tr´enovac´ım datasetu. Oˇcek´ avan´e zastoupen´ı aminokyselin je odvozeno z frekvence jejich v´ yskytu v datab´azi OWL [7] vytvoˇren´e slouˇcen´ım datab´az´ı Uniprot/SwissProt, PIR, GenBank a NRL-3D (s odstranˇen´ım redundance mezi z´aznamy). V lev´e ˇc´ asti (obr´ azek 6.3A) je moˇzn´e pozorovat procentu´aln´ı zastoupen´ı pro mutace p˚ uvodn´ı, v prav´e ˇc´ asti (obr´ azek 6.3B) pak pro mutace mutantn´ıho typu. Procentu´aln´ı zastoupen´ı alaninu pro mutantn´ı typ dosahuje hodnoty 25 %. Takto vysok´a hodnota je zp˚ usobena pouˇzit´ım experiment´ aln´ı metody alanin scanning. Kv˚ uli zachov´an´ı mˇeˇr´ıtka a s t´ım spojenou moˇznost lepˇs´ıho vizu´aln´ıho porovn´an´ı s grafem p˚ uvodn´ıch mutac´ı, nebyl v tomto grafu zobrazen vrchol distribuce pro aminokyselinu alanin, jelikoˇz by vzhledem ke stejn´e velikosti graf˚ u muselo doj´ıt pr´avˇe ke zmˇenˇe mˇeˇr´ıtka, coˇz by znemoˇznilo snadn´e porovn´ an´ı tˇechto graf˚ u. Obr´ azek 6.4 zn´ azorˇ nuje jednotliv´e aminokyseliny a jejich n´achylnost k destabilizaci vyj´adˇrenou v procentech. Jednotliv´e ˇr´adky a sloupce jsou pops´any pomoc´ı jednop´ısmenn´ ych ˇ zkratek aminokyselin (viz tabulka 2.1). R´adky v tomto pˇr´ıpadˇe popisuj´ı p˚ uvodn´ı amino43
Obr´azek 6.3: Sledovan´e a oˇcek´ avan´e zastoupen´ı aminokyselin v tr´enovac´ım datasetu. Graf (A) vyjadˇruje zastoupen´ı aminokyselin pro aminokyseliny p˚ uvodn´ı, graf (B) pro aminokyseliny mutantn´ıho typu.
kyselinu, sloupce pak mutantn´ı typ aminokyseliny. Pr˚ useˇc´ıky ˇr´adk˚ u a sloupc˚ u vyjadˇruj´ı pomˇern´e zastoupen´ı mutac´ı, kter´e vedou k destabilizaci proteinu. Pro tr´enovac´ı dataset napˇr´ıklad plat´ı, ˇze obsahuje zhruba 67 % destabilizuj´ıc´ıch mutac´ı pro mutaci vedouc´ı z alaninu na cystein. Jiˇz z obr´ azku 6.2 je zˇrejm´e, ˇze vˇetˇsina mutac´ı je destabilizuj´ıc´ıch, tud´ıˇz bude tabulka obsahovat vˇetˇsinu ˇc´ısel bl´ıˇz´ıc´ıch se k hodnotˇe 1.
6.1.2
Testovac´ı dataset
Hlavn´ı podm´ınkou pro vytvoˇren´ı objektivn´ıho testovac´ıho datasetu je jeho nez´avislost na tr´enovac´ıch datech. V tomto pˇr´ıpadˇe by bylo moˇzn´e tato nez´avisl´a data z´ıskat napˇr´ıklad z jin´ ych termodynamick´ ych datab´az´ı nebo dolov´an´ım potˇrebn´ ych dat z vydan´ ych patent˚ u zamˇeˇren´ ych na saturaˇcn´ı mutagenezi enzym˚ u pouˇz´ıvan´ ych s pr˚ umyslov´ ym pouˇzit´ım. Ovˇsem mnohem zaj´ımavˇejˇs´ım a ojedinˇel´ ym pˇr´ıstupem by bylo pouˇz´ıt zb´ yvaj´ıc´ıch v´ıcebodov´ ych mutac´ı z datab´ aze ProTherm a pˇristupovat k nim jako k posloupnosti na sebe navazuj´ıc´ıch jednobodov´ ych mutac´ı. Pˇred samotn´ ym testov´an´ım tohoto nov´eho pˇr´ıstupu se naskytla ot´ azka, zda tento postup bude korelovat ke spr´avn´ ym v´ ysledk˚ um. Intuitivnˇe lze totiˇz pˇredpokl´ adat, ˇze vliv jednotliv´ ych mutac´ı na v´ yslednou stabilitu proteinu nebude aditivn´ı, tj. ˇze v´ıcebodovou mutaci je nutn´e popsat sloˇzitˇeji neˇz jako souˇcet efektu jednobodov´ ych mutac´ı [41, 45]. Jelikoˇz vˇsak jin´e modely nejsou dostateˇcnˇe prozkoum´any, byl nakonec pouˇzit pr´avˇe aditivn´ı pˇr´ıstup. Na druhou stranu vˇsem predikˇcn´ım n´astroj˚ um byl pˇredloˇzen stejn´ y dataset, predikˇcn´ı n´ astroje tedy mˇely stejn´e podm´ınky pro predikci a nebyly mezi sebou nijak zv´ yhodnˇeny. Jak se uk´ azalo bˇehem experiment˚ u (viz kapitola 7.2.2), korelaˇcn´ı koeficienty jednotliv´ ych n´ astroj˚ u byly v tomto pˇr´ıpadˇe podobn´e hodnot´am dosaˇzen´ ym na tr´enovac´ım datasetu. T´ımto je tedy moˇzn´e uk´azat, ˇze aˇckoliv tento pˇr´ıstup nen´ı u ´plnˇe pˇresn´ y, pro u ´ˇcel zjiˇstˇen´ı pˇresnosti predikˇcn´ıch n´ astroj˚ u na nez´avisl´ ych datech je pouˇziteln´ y.
44
Obr´azek 6.4: Vyj´ adˇreno pomˇern´e zastoupen´ı mutac´ı tr´enovac´ıho datasetu vedouc´ı k destabilizaci. Jednotliv´e ˇr´ adky a sloupce jsou pops´any pomoc´ı jednop´ısmenn´ ych zkratek aminokyˇ selin. R´ adky popisuj´ı p˚ uvodn´ı aminokyselinu, sloupce pak aminokyselinu mutantn´ıho typu. Pr˚ useˇc´ıky jednotliv´ ych ˇr´ adk˚ u a sloupc˚ u vyjadˇruj´ı v jak´em pomˇeru jsou obsaˇzeny destabilizuj´ıc´ı mutace v tr´enovac´ım datasetu. Barevn´ ym odst´ınem je vyj´adˇren dan´ y pomˇer, kde b´ılou jsou oznaˇceny stabilizuj´ıc´ı mutace, naopak nejtmavˇs´ım odst´ınem modr´e jsou oznaˇceny mutace, kter´e jsou vˇsechny destabilizuj´ıc´ı. Pro ˇsedou barvu plat´ı, ˇze mutace dan´e kombinace nen´ı v datasetu obsaˇzena.
6.2
Vybran´ e predikˇ cn´ı n´ astroje
Celkovˇe bylo vybr´ ano 8 predikˇcn´ıch n´astroj˚ u (AUTO-MUTE, SDM, CUPSAT, I-Mutant3.0 strukturn´ı verze, I-Mutant3.0 sekvenˇcn´ı verze, iPTREE-STAB, mCSM a PoPMuSiC). Vlastnosti jednotliv´ ych n´ astroj˚ u jsou pˇrehlednˇe pops´any v kapitole 4, kde je pops´an i d˚ uvod v´ ybˇeru tˇechto n´ astroj˚ u. Ve zm´ınˇen´e kapitole takt´eˇz nechyb´ı srovn´an´ı vybran´ ych i zde neuveden´ ych n´ astroj˚ u nez´ avisl´ ymi studiemi. Vˇsechny pouˇzit´e predikˇcn´ı n´ astroje pouˇz´ıvaj´ı webov´e rozhran´ı, proto bylo moˇzn´e vyvinout modul´ arn´ı v´ ypoˇcetn´ı platformu ve skriptovac´ım jazyce Perl zajiˇst’uj´ıc´ı vˇsechny potˇrebn´e operace. V tabulce 6.1 jsou pro jednotliv´e predikˇcn´ı n´astroje vyps´any URL adresy jejich webov´ ych rozhran´ı. Bˇehem psan´ı t´eto pr´ ace bylo autory n´astroje PoPMuSiC kompletnˇe zmˇenˇeno webov´e rozhran´ı, z tohoto d˚ uvodu je v tabulce 6.1 uveden odkaz na starou verzi tohoto n´astroje. Z´ aroveˇ n s touto zmˇenou doˇslo i ke zmˇenˇenˇe dom´eny, v souˇcasnosti lze n´astroj PoPMuSiC nal´ezt na adrese http://dezyme.com/.
45
N´ astroje AUTO-MUTE SDM CUPSAT I-Mutant3.0 iPTREE-STAB mCSM PoPMuSiC
URL pro rozhran´ı http://proteins.gmu.edu/automute/ http://mordred.bioc.cam.ac.uk/sdm/sdm.php http://cupsat.tu-bs.de/ http://gpcr2.biocomp.unibo.it/cgi/predictors/I-Mutant3.0/I-Mutant3.0.cgi http://210.60.98.19/IPTREEr/iptree.htm http://bleoberis.bioc.cam.ac.uk/mcsm http://babylone.ulb.ac.be/old popmusic
Tabulka 6.1: Pˇrehled n´ astroj˚ u a URL pro pˇr´ıstup k jejich rozhran´ım. Pˇri psan´ı t´eto kapitoly doˇslo ke zmˇenˇe rozhran´ı u n´ astroje PoPMuSiC. Novˇe lze tento predikˇcn´ı n´astroj nal´ezt na adrese http://dezyme.com/.
46
Kapitola 7
Experimenty a v´ ysledky Tato kapitola se vˇenuje podrobn´ ym v´ ysledk˚ um vybran´ ych predikˇcn´ıch n´astroj˚ u na tr´enovac´ım i testovac´ım datasetu. Co se t´ yˇce v´ ysledk˚ u strojov´eho uˇcen´ı, je zde rozebr´ano 7 nejlepˇs´ıch reprezentant˚ u z jednotliv´ ych tˇr´ıd strojov´eho uˇcen´ı (viz 5.1) z celkov´eho poˇctu 28 algoritm˚ u podporuj´ıc´ıch regresi. Zkoum´ an byl t´eˇz vliv pˇreuˇcen´ı na pˇresnost predikovan´eho v´ ysledku.
7.1
V´ ysledky vybran´ ych predikˇ cn´ıch n´ astroj˚ u na tr´ enovac´ım datasetu
Tabulka 7.1 obsahuje korelaˇcn´ı koeficienty a poˇcty mutac´ı pro vybran´e predikˇcn´ı n´astroje. Poˇcty predikovan´ ych stabilizuj´ıc´ıch mutac´ı jsou v tomto ohledu niˇzˇs´ı neˇz poˇcty destabilizuj´ıc´ıch mutac´ı. Takov´ yto v´ yrazn´ y rozd´ıl mezi poˇcty stabilizuj´ıc´ıch a destabilizuj´ıc´ıch mutac´ı je moˇzn´e pˇredpov´ıdat jiˇz z distribuce predikovan´ ych ∆∆G hodnot z obr´azku 6.2. Ve skuteˇcnosti tr´enovac´ı dataset obsahoval 419 stabilizuj´ıc´ıch mutac´ı a 1177 destabilizuj´ıc´ıch. Zaj´ımav´ a je takt´eˇz ot´ azka, kolik mutac´ı je kaˇzd´ y z uveden´ ych n´astroj˚ u schopen predikovat. AUTOMUTE
SDM
CUPSAT
I-Mutant3.0 I-Mutant3.0 (strukturn´ı) (sekvenˇ cn´ı)
iPTREESTAB
mCSM
PoPMuSiC
Stab. mutace
218
627
690
273
277
378
159
235
Destab. mutace
1173
928
817
1157
1310
1216
1190
1341
Celkem
1393
1556
1510
1435
1594
1594
1349
1581
0,362
0,177
0,529
0,464
0,504
0,488
0,462
Korelaˇ cn´ı koef. 0,583
Tabulka 7.1: Korelaˇcn´ı koeficienty pro predikˇcn´ı n´astroje testovan´e na tr´enovac´ım datasetu obsahuj´ıc´ım celkem 1596 mutac´ı. Vytvoˇren´ y dataset obsahoval celkem 1596 mutac´ı, nejobecnˇejˇs´ı schopnost predikce prok´azal n´astroj iPTREE-STAB a I-Mutant3.0 v sekvenˇcn´ı verzi, kter´e byly schopni vypoˇc´ıtat 1594 mutac´ı. Z tohoto pohledu byl nejhorˇs´ı n´astroj mCSM, kter´ y bych schopen predikovat 1349 mutac´ı. Vz´ajemn´e porovn´ an´ı dosaˇzen´ ych v´ ysledk˚ u je l´epe viditeln´e z obr´azku 7.1. Na obr´azku 7.1A jsou vyneseny jednotliv´e korelaˇcn´ı koeficienty pro vybran´e n´astroje. V tomto grafu byly korelaˇcn´ı koeficienty vypoˇc´ıt´any separovanˇe podle sekund´arn´ı struktury proteinov´e molekuly. Modrou ˇcarou jsou oznaˇceny struktury α-helix, ˇcervenˇe jsou β-sheet a zelenˇe jsou struktury oznaˇcen´e jako loops (otoˇcky a smyˇcky). Z tˇechto graficky prezentovan´ ych v´ ysledk˚ u 47
vypl´ yv´ a, ˇze v´ yraznˇe nejhorˇs´ıch v´ ysledk˚ u pˇri predikci ∆∆G hodnot α-helixu dosahuje n´astroj CUPSAT. N´ astroj SDM vykazoval zhorˇsenou predikˇcn´ı schopnost u struktur α-helix a loops. U zb´ yvaj´ıc´ıch n´ astroj˚ u se nevyskytly v´ yraznˇejˇs´ı odchylky. Na obr´azku 7.1B byly korelaˇcn´ı koeficienty vypoˇc´ıt´ any zvl´ aˇst’ pro intervaly ∆∆G ∈ [−1, 1] a |∆∆G| > 1. K povˇsimnut´ı stoj´ı tak´e fakt, ˇze v´ ysledky tohoto grafu koresponduj´ı s teoretick´ ymi u ´vahami popsan´ ymi v kapitole 4.9.2, kde se pˇredpokl´ ad´a, ˇze v tomto intervalu bude doch´azet ke zhorˇsen´e predikci uˇz vzhledem k faktu, ˇze i menˇs´ı chyba u mutace s experiment´alnˇe ovˇeˇren´ ym vlivem bl´ızk´ ym nule m˚ uˇze zp˚ usobit pˇrevr´ acen´ı klasifikace mutace ze stabilizuj´ıc´ı na destabilizuj´ıc´ı ˇci naopak.
Obr´azek 7.1: Graf (A) vyjadˇruje dosaˇzen´e korelaˇcn´ı koeficienty vybran´ ych n´astroj˚ u pro jednotliv´e typy sekund´ arn´ı struktury proteinu. Modˇre jsou oznaˇceny korelaˇcn´ı koeficienty pro sekund´ arn´ı strukturu α-helix, ˇcervenˇe pro β-sheet a zelenˇe jsou oznaˇceny loops. Graf (B) zn´ azorˇ nuje korelaˇcn´ı koeficienty vypoˇc´ıtan´e zvl´aˇst’ pro interval ∆∆G ∈ [−1, 1] (modr´ a barva) a |∆∆G| > 1 (ˇcerven´ a barva).
Rozd´ıl v kvalitˇe pˇresnosti predikce ∆∆G hodnot v intervalu |∆∆G| > 1 a [−1, 1] je l´epe vidˇet na obr´ azku 7.2. Zaj´ımav´ a je i statistika zobrazen´a na obr´azku 7.3. Tento obr´azek vyjadˇruje poˇcet mutac´ı pro kaˇzdou z variant mutac´ı p˚ uvodn´ıho typu a mutantn´ıho typu aminokyseliny. Nejvyˇsˇs´ı poˇcet z´ aznam˚ u (celkem 59 pˇr´ıpad˚ u) dosahuje mutace z valinu na alanin. Naopak pouze 18 v´ yskyt˚ u je pro tryptofan (W) na pozici p˚ uvodn´ı aminokyseliny (v tabulce je toto zn´azornˇeno souˇctem hodnot ˇr´ adku pro tryptofan). Takt´eˇz pro pozici na mutantn´ım typu dosahuje tryptofan pouze 23 v´ yskyt˚ u, coˇz je i v tomto pˇr´ıpadˇe nejm´enˇe. Fakt, ˇze mutace z/na tryptofan se v datasetu vyskytuje nejm´enˇe, je d˚ usledkem sloˇzitosti a rozmˇernosti t´eto aminokyseliny.
7.2
V´ ysledky metod strojov´ eho uˇ cen´ı na tr´ enovac´ım datasetu
Pro ohodnocen´ı tr´enovac´ıho datasetu bylo napoˇc´ıt´ano celkem 28 metod strojov´eho uˇcen´ı podporuj´ıc´ıch regresi. Pro tento u ´kol bylo pouˇzito platformy WEKA urˇcenou pro anal´ yzu znalost´ı (viz kapitola 5.2). V tabulce 7.2 je zobrazeno 7 model˚ u s nejvyˇsˇs´ımi korelaˇcn´ımi koeficienty. Je moˇzn´e zde naj´ıt z´ astupce r˚ uzn´ ych tˇr´ıd algoritm˚ u strojov´eho uˇcen´ı, uved’me 48
Obr´azek 7.2: V´ ypoˇcet korelaˇcn´ıho koeficientu dle typu sekund´arn´ı struktury (α-helix, β-sheet, loops) a dle hodnoty zmˇeny stability.
napˇr´ıklad lazy learning (KStar), Support Vector Machine (LibSVM Linear kernel), rozhodovac´ı stromy (M5P) nebo klasifikaci zaloˇzenou na pravidlech (M5Rules). Majority
Gaussian Processes
LibSVM Linear kernel
KStar
M5Rules
M5P
Bagging (REPtree)
Random SubSpace
Stab. mutace
312
368
346
416
358
360
301
211
Destab. mutace
1283
1203
1250
1179
1238
1236
1295
1385
0,642
0,579
0,713
0,656
0,678
0,678
0,663
Korelaˇ cn´ı koef. 0,475
Tabulka 7.2:
Korelaˇcn´ı koeficienty pro vybran´e metody strojov´eho uˇcen´ı.
Z´akladn´ı ot´ azka, kterou je nutn´e si poloˇzit, zn´ı, zda jsou v˚ ubec metody strojov´eho uˇcen´ı vhodn´e pro tento typ u ´lohy. Jako z´akladn´ı mˇeˇr´ıtko pro vyhodnocen´ı takov´e u ´vahy m˚ uˇze poslouˇzit jednoduch´ y konsenzu´ aln´ı pˇr´ıstup zaloˇzen´ y na v´ ypoˇctu aritmetick´eho pr˚ umˇeru vybran´ ych n´ astroj˚ u (v tabulce 7.2 oznaˇceno jako Majority). Z uveden´e tabulky je zˇrejm´e, ˇze Majority dosahuje korelaˇcn´ıho v´ ysledku 0,475, kdeˇzto nejhorˇs´ı v´ ysledek pro vybran´e algoritmy strojov´eho uˇcen´ı je 0,579 pro SVM model (implementace LibSVM s line´arn´ım kernelem). Pokud v´ ysledky Majority porovn´ame se zpr˚ umˇerovan´ ymi korelaˇcn´ımi koeficienty jednotliv´ ych predikˇcn´ıch n´ astroj˚ u z´ıskan´ ymi z tabulky 7.1 (po zpr˚ umˇerov´an´ı 0,446), dojdeme k z´ avˇeru, ˇze prost´e pr˚ umˇerov´an´ı v tomto pˇr´ıpadˇe zlepˇsuje predikˇcn´ı schopnosti pouze zanedbatelnˇe. Mimo jin´e stejn´ y z´avˇer je publikov´an v ˇcl´anku [39]. Z tohoto faktu tedy vypl´ yv´ a, ˇze metody strojov´eho uˇcen´ı jsou pro tento typ u ´loh velmi vhodn´e.
7.2.1
Porovn´ an´ı v´ ysledk˚ u predikˇ cn´ıch n´ astroj˚ u a pˇ r´ıstup˚ u strojov´ eho uˇ cen´ı
Nejlepˇs´ıho v´ ysledku z mnoˇziny 8 existuj´ıc´ıch predikˇcn´ıch n´astroj˚ u dos´ahl n´astroj AUTOMUTE. Jeho korelaˇcn´ı koeficient se pohyboval na hodnotˇe 0,583 pro tr´enovac´ı dataset. Druh´ y nejlepˇs´ı n´ astroj byl I-Mutant3.0 ve strukturn´ı verzi, kter´ y zaostal oproti AUTO-
49
Obr´azek 7.3: Vyj´ adˇren´ı poˇctu mutac´ı pro kaˇzdou z variant mutac´ı p˚ uvodn´ıho typu a muˇ tantn´ıho typu aminokyseliny. R´ adky zde oznaˇcuj´ı mutace p˚ uvodn´ı aminokyseliny, sloupce oznaˇcuj´ı mutace mutantn´ı aminokyseliny. Barevn´ ym odst´ınem je vyj´adˇren poˇcet mutac´ı, kde b´ılou je oznaˇcen nulov´ y v´ yskyt, naopak nejtmavˇs´ım odst´ınem modr´e je oznaˇceno nejvyˇsˇs´ı ˇc´ıslo vyskytuj´ıc´ı se v tabulce.
MUTE o hodnotu 0,054. Nejhorˇs´ım n´astrojem v t´eto skupinˇe predikˇcn´ıch n´astroj˚ u byl CUPSAT dosahuj´ıc´ı hodnoty korelaˇcn´ıho koeficientu 0,177. Z metod strojov´eho uˇcen´ı se nejl´epe um´ıstil KStar s korelaˇcn´ım koeficientem 0,713. Na druh´em m´ıstˇe se um´ıstily metody M5P a Bagging, kter´e obˇe zaostaly o shodnou hodnotu 0,035. Dosaˇzen´e zlepˇsen´ı je pˇrehlednˇe viditeln´e v tabulce 7.3, kde KStar dosahuje korelaˇcn´ıho koeficientu 0,713, kdeˇzto AUTO-MUTE 0,583. Celkov´e zlepˇsen´ı na tr´enovac´ım datasetu je 0,130. Korelaˇ cn´ı koeficent
AUTO-MUTE 0,583
KStar 0,713
Tabulka 7.3: Porovn´ an´ı nejlepˇs´ıch v´ ysledk˚ u pro predikˇcn´ı n´astroje a metody strojov´eho uˇcen´ı. Na z´ akladˇe nejlepˇs´ıho v´ ykonu na vytvoˇren´em tr´enovac´ım datasetu byl KStar zvolen jako nejvhodnˇejˇs´ı klasifik´ ator pro tento typ u ´lohy. Pr´avˇe z tohoto d˚ uvodu byl pouˇzit i pro evaluaci testovac´ıho datasetu. Ovˇsem i pˇres fakt, ˇze byla pro metody strojov´eho uˇcen´ı pouˇzita 10-fold kˇr´ıˇzov´a validace, nelze tyto v´ ysledky oznaˇcit za relevantn´ı, a to jiˇz z toho d˚ uvodu, ˇze dan´ y model byl testov´ an na datech, kter´ a byla pouˇzita pro natr´enov´an´ı tohoto modelu. Z tohoto d˚ uvodu bylo nutn´e vytvoˇrit nez´ avisl´ y testovac´ı dataset a nechat model ohodnotit i tyto nez´avisl´a data. 50
7.2.2
Nez´ avisl´ y dataset v´ıcebodov´ ych mutac´ı
Jak jiˇz bylo pops´ ano v kapitole 6.1.2, pro tvorbu nez´avisl´eho datasetu bylo pouˇzito v´ıcebodov´ ych mutac´ı, ke kter´ ym se pˇristupovalo jako k posloupnosti mutac´ı jednobodov´ ych. V tabulce 7.4 jsou zn´ azornˇeny poˇcty z´ aznam˚ u k-bodov´ ych mutac´ı testovac´ıho datasetu. K-bodov´ e mutace 2 3 4 5 6 7
Poˇ cet z´ aznam˚ u 452 114 57 12 9 3
Tabulka 7.4: Poˇcty z´ aznam˚ u pro k-bodov´e mutace testovac´ıho datasetu.
Na obr´ azku 7.4 je vyj´ adˇrena hodnota predikovan´a v˚ uˇci experiment´aln´ı hodnotˇe ∆∆G 2-bodov´ ych mutac´ı pro metodu KStar (obr´azek 7.4A) a predikˇcn´ı n´astroj I-Mutant3.0 ve strukturn´ı verzi (obr´ azek 7.4B). Korelaˇcn´ı koeficient a rovnice regresn´ı pˇr´ımky je zobrazena v lev´em rohu. U KStar je patrn´e, ˇze regresn´ı pˇr´ımka je bl´ıˇze pˇredpisu y = x (na obr´azku znaˇceno pˇreruˇsovanou ˇcarou), coˇz odpov´ıd´a pˇresnˇejˇs´ı predikci. Podobn´ y je obr´azek 7.5, kde oproti obr´ azku 7.4 byla pouˇzita metoda binning, kde doˇslo k rozdˇelen´ı spojit´eho prostoru na 12 interval˚ u a hodnoty z jednotliv´ ych interval˚ u byly zpr˚ umˇerov´any. V´ ysledky test˚ u na nez´ avisl´ ych datech jsou uk´az´any v tabulce 7.5. Pro celkov´e srovn´ an´ı vlivu k-bodov´ ych mutac´ı bylo pouˇzito v´aˇzen´eho pr˚ umˇeru, a to z toho d˚ uvodu, ˇze 5-bodov´e, 6-bodov´e a 7-bodov´e mutace obsahuj´ı velmi m´alo z´aznam˚ u a doch´azelo by tak k velk´emu zkreslen´ı, jelikoˇz se v´ ysledky pro tyto z´aznamy pohybuj´ı sp´ıˇse v krajn´ıch hodnot´ach intervalu -1 aˇz 1. K-bodov´ e AUTOMUTE mutace
SDM
CUPSAT
I-Mutant3.0 I-Mutant3.0 (strukturn´ı) (sekvenˇ cn´ı)
iPTREESTAB
mCSM
PoPMuSiC KStar
2
0,301
0,394
0,103
0,378
0,306
0,364
0,068
0,412
0,669
3
0,343
0,330
0,092
0,646
0,620
0,060
0,353
0,390
0,855
4
0,519
0,569
0,619
0,779
0,816
0,272
0,514
0,637
0,715
5
0,319
-0,718
-0,254
0,249
0,419
0,630
0,022
0,149
0,287
6
0,798
0,321
0,421
0,573
0,612
0,954
0,584
0,910
0,896
-0,987
0,987
1
1
1
0,987
0,987
0,971
0,370
0,148
0,464
0,416
0,318
0,168
0,433
0,703
7 0,992 V´ aˇ zen´ y 0,338 pr˚ umˇ er
Tabulka 7.5: Korelaˇcn´ı koeficienty pro jednotliv´e n´astroje nez´avisl´eho datasetu v´ıcebodov´ ych mutac´ı.
Ve v´ ysledku tedy metoda strojov´eho uˇcen´ı dos´ahla korelaˇcn´ıho koeficientu 0,703. Z existuj´ıc´ıch predikˇcn´ıch n´ astroj˚ u nejl´epe dopadl I-Mutant3.0 ve strukturn´ı verzi s korelaˇcn´ım koeficientem 0,464. Celkov´e zlepˇsen´ı na nez´avisl´em datasetu v´ıcebodov´ ych mutac´ı je 0,239.
51
Obr´azek 7.4: Vyj´ adˇren´ı predikovan´e hodnoty v˚ uˇci experiment´aln´ı hodnotˇe ∆∆G 2bodov´ ych mutac´ı pro metodu KStar (A) a n´astroje I-Mutant3.0 ve strukturn´ı verzi (B). Korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y) jsou zobrazeny v lev´em horn´ım rohu.
7.2.3
V´ ybˇ er rys˚ u
V´ ybˇer rys˚ u1 (feature selection) je technika, kter´a obecnˇe umoˇzn ˇuje zlepˇsit u ´spˇeˇsnost model˚ u. Vych´az´ı z toho, ˇze z dan´eho vektoru rys˚ u vybere pouze rysy, kter´e kladnˇe ovlivˇ nuj´ı v´ ysledek. V kontextu probl´emu konsenzu´ aln´ı predikce stability to znamen´a, ˇze mohou existovat takov´e predikˇcn´ı n´ astroje, kter´e nˇejak´ ym zp˚ usobem negativnˇe ovlivˇ nuj´ı schopnost spr´avn´e predikce stability proteinu. Pokud bychom takov´e n´astroje z vektoru vyˇradili, mohli bychom dostat pˇresnˇejˇs´ı v´ ysledky (vyˇsˇs´ı korelaˇcn´ı koeficient). K urˇcen´ı relevantn´ıch rys˚ u bylo pouˇzito vyhled´avac´ıch metod (Search methods) integrovan´ ych do n´ astroje WEKA. Tyto vyhled´avac´ı metody obecnˇe prohled´avaj´ı prostor rys˚ ua hledaj´ı v nˇem vhodnou podmnoˇzinu. Vybran´e metody jsou uvedeny n´ıˇze. • BestFirst pouˇz´ıva algoritmus greedy hill climbing s principem backtracking, kde je moˇzn´e urˇcit kolik po sobˇe jdouc´ıch uzl˚ u, jenˇz nevedou ke zlepˇsen´ı, mus´ı b´ yt proch´azeno neˇz dojde v algoritmu k navr´acen´ı. M˚ uˇze b´ yt pouˇzito dopˇredn´e vyhled´av´an´ı (vych´ az´ı se z pr´ azdn´e mnoˇziny rys˚ u), zpˇetn´e (vych´az´ı se z u ´pln´e mnoˇziny rys˚ u) nebo vyhled´ av´ an´ı m˚ uˇze zaˇc´ıt z libovoln´eho bodu mnoˇziny rys˚ u. [46] • GreedyStepwise stejnˇe jako BestFirst umoˇzn ˇuje dopˇredn´e i zpˇetn´e vyhled´av´an´ı. Narozd´ıl od nˇej nepouˇz´ıv´ a backtracking, ale ukonˇcuje prohled´av´an´ı jakmile je pˇrid´an´ım ˇci odebr´ an´ım nejlepˇs´ıho zb´ yvaj´ıc´ıho rysu sn´ıˇzeno ohodnocen´ı dle dan´e metriky. [46] • RandomSearch hled´ a n´ ahodn´ ym zp˚ usobem nejlepˇs´ı mnoˇzinu rys˚ u. [46] 1
Nˇekdy je moˇzn´e se setkat i s oznaˇcen´ım v´ ybˇer atribut˚ u.
52
Obr´azek 7.5: Vyuˇzit´ım metody binning byla vyj´adˇrena predikovan´a hodnota v˚ uˇci experiment´aln´ı hodnotˇe ∆∆G 2-bodov´ ych mutac´ı pro metodu KStar (A) a n´astroje I-Mutant3.0 ve strukturn´ı verzi (B). Korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y) jsou zobrazeny v lev´em horn´ım rohu.
P˚ uvodn´ı vektor rys˚ u je zobrazen na obr´azku 7.6. Tento vektor obsahuje vˇsech 8 predikˇcn´ıch n´astroj˚ u, teplotu, pH a ddG (experiment´alnˇe zjiˇstˇen´a hodnota ∆∆G).
temp
ph
AUTOMUTE
SDM
CUPSAT
I-Mutant3.0 (strukturn´ı)
Tabulka 7.6:
I-Mutant3.0 (sekvenˇ cn´ı)
iPTREESTAB
mCSM
PoPMuSiC
ddG
P˚ uvodn´ı vektor rys˚ u.
Prvn´ı zredukovan´ y vektor byl urˇcen metodou BestFirst a je zobrazen v tabulce 7.7, obsahuje celkem 5 rys˚ u. Urˇcuj´ıc´ı rysy jsou ph, ddG a n´astroje AUTO-MUTE, SDM a I-Mutant3.0 ve strukturn´ı verzi. Pokud pouˇzijeme tento vektor rys˚ u k vytvoˇren´ı nov´eho modelu pomoc´ı strojov´eho uˇcen´ı, doch´ az´ıme k z´ avˇer˚ um, ˇze tento novˇe vytvoˇren´ y vektor nezlepˇs´ı korelaˇcn´ı koeficient. Metoda KStar v tomto pˇr´ıpadˇe dos´ahla v´ ysledku 0,648, coˇz je oproti p˚ uvodn´ı hodnotˇe 0,713 zhorˇsen´ı. Ze vˇsech testovan´ ych metod byla v tomto pˇr´ıpadˇe nejlepˇs´ı metoda Bagging s hodnotou 0,668. I zde ovˇsem doˇslo ke zhorˇsen´ı korelaˇcn´ıho koeficientu, nebot’ na p˚ uvodn´ım vektoru dosahovala metoda Bagging hodnoty 0,678. ph
Tabulka 7.7:
AUTOMUTE
SDM
I-Mutant3.0 (strukturn´ı)
ddG
Vytvoˇren´ y vektor obsahuj´ıc´ı 5 rys˚ u. Vybr´any byly metodou BestFirst.
53
Druh´ a moˇznost redukce, zobrazen´a na obr´azku 7.8, zohlednila v´ıce rys˚ u. K atribut˚ um ph a ddG se zaˇradily n´ astroje AUTO-MUTE, I-Mutant3.0 ve strukturn´ı verzi, iPTREESTAB a PoPMuSiC. Ani v tomto pˇr´ıpadˇe nedoˇslo ke zlepˇsen´ı schopnosti predikce. KStar dos´ahl hodnoty korelaˇcn´ıho koeficientu 0,657 a z´aroveˇ n to byla i nejlepˇs´ı metoda dosahuj´ıc´ı nejvyˇsˇs´ıho korelaˇcn´ıho koeficientu.
ph
Tabulka 7.8:
AUTOMUTE
CUPSAT
I-Mutant3.0 (strukturn´ı)
iPTREESTAB
PoPMuSiC
ddG
Vytvoˇren´ y vektor obsahuj´ıc´ı 7 rys˚ u. Vybr´any byly metodou GreedyStepwise.
Tˇret´ı vektor rys˚ u, zobrazen´ y na obr´azku 7.9, obsahuje nejvˇetˇs´ı mnoˇzstv´ı poloˇzek. Jsou to rysy ph, ddG a n´ astroje AUTO-MUTE, CUPSAT, I-Mutant3.0 ve strukturn´ı verzi, iPTREE-STAB, mCSM a PoPMuSiC. Posledn´ı moˇznost takt´eˇz nevedla ke zlepˇsen´ı. KStar dos´ahl v´ ysledku 0,655. Jako v druh´em pˇr´ıpadˇe byla metoda KStar nej´ uspˇeˇsnˇejˇs´ı z celkov´eho poˇctu 28 metod strojov´eho uˇcen´ı, ovˇsem i zde bez v´ yrazn´eho zlepˇsen´ı.
ph
Tabulka 7.9:
AUTOMUTE
CUPSAT
I-Mutant3.0 (strukturn´ı)
iPTREESTAB
mCSM
PoPMuSiC
ddG
Vytvoˇren´ y vektor obsahuj´ıc´ı 8 rys˚ u. Vybr´any byly metodou RandomSearch.
Z´avˇerem lze tedy ˇr´ıci, ˇze i pˇres snahu zlepˇsit korelaˇcn´ı koeficient pomoc´ı techniky v´ ybˇeru rys˚ u, nevedl tento experiment ke zlepˇsen´ı predikˇcn´ı schopnosti. Tato technika je tedy pro tento konkr´etn´ı typ u ´lohy nevhodn´a.
54
Kapitola 8
Z´ avˇ er C´ılem t´eto pr´ ace bylo vytvoˇrit n´ astroj kombinuj´ıc´ı v´ ystupy vybran´ ych n´astroj˚ u urˇcen´ ych pro ohodnocen´ı vlivu aminokyselinov´ ych mutac´ı na stabilitu proteinu. Prvn´ım krokem byl v´ ybˇer z existuj´ıc´ıch predikˇcn´ıch n´astroj˚ u. Zde byl kladen nejvˇetˇs´ı d˚ uraz na r˚ uznorodost technik, jelikoˇz vhodn´ y v´ ybˇer predikˇcn´ıch n´astroj˚ u rozˇsiˇruje univerz´alnost vytvoˇren´eho meta-n´ astroje. Pro vybran´e n´astroje byly pot´e vytvoˇreny sady automatizovan´ ych skript˚ u pro ˇr´ızen´ı d´avkov´ ych v´ ypoˇct˚ u predikc´ı stabilit. Dalˇs´ım krokem bylo vybudov´ an´ı tr´enovac´ıho datasetu jednobodov´ ych aminokyselinov´ ych mutac´ı na z´ akladˇe datab´ aze ProTherm. Pro objektivn´ı zhodnocen´ı dosaˇzen´ ych v´ ysledk˚ u bylo posl´eze nutn´e vybudovat nez´avisl´ y testovac´ı dataset, kter´ y neobsahoval data z datasetu tr´enovac´ıho. Tento nez´ avisl´ y dataset byl vytvoˇren zcela inovativn´ım zp˚ usobem, a to z v´ıcebodov´ ych mutac´ı obsaˇzen´ ych v datab´azi ProTherm, kde se k jednotliv´ ym v´ıcebodov´ ym mutac´ım pˇristupovalo jako k posloupnosti mutac´ı jednobodov´ ych. Aby bylo dosaˇzeno co nejvˇetˇs´ı pˇresnosti predikce zmˇeny stability proteinu, bylo pomoc´ı n´ astroje WEKA ohodnoceno 28 r˚ uzn´ ych metod strojov´eho uˇcen´ı podporuj´ıc´ıch regresi. Nejlepˇs´ı metoda KStar dosahovala na testovac´ım datasetu korelaˇcn´ıho koeficientu 0,713, kdeˇzto korelaˇcn´ı koeficient nejlepˇs´ıho integrovan´eho n´astroje byl 0,583. Podobn´eho v´ ysledku dos´ ahla metoda KStar i na nez´avisl´em datasetu v´ıcebodov´ ych mutac´ı, kde korelaˇcn´ı koeficient dos´ ahl hodnoty 0,703. Nejlepˇs´ı integrovan´ y n´astroj, I-Mutant3.0 ve strukturn´ı verzi, dos´ ahl na tomto datasetu v´ ysledku 0,464. KStar tedy zpˇresnil predikˇcn´ı schopnost, ve smyslu korelaˇcn´ıho koeficientu, na tr´enovac´ım datasetu o 0,130, respektive o 0,239 na datasetu testovac´ım. Dalˇs´ı v´ yhoda implementovan´eho konsenzu´aln´ıho pˇr´ıstupu je v tom, ˇze vytvoˇren´ y metan´astroj zvl´ adne predikovat hodnotu vˇzdy, kdyˇz alespoˇ n jeden z existuj´ıc´ıch n´astroj˚ u dok´ aˇze zadanou mutaci vyhodnotit. Pro dalˇs´ı zpˇresnˇen´ı byla pouˇzita technika v´ ybˇeru rys˚ u (konkr´etnˇe GreedyStepwise, RandomSearch a BestFirst), tento postup ovˇsem nevedl ke zpˇresnˇen´ı predikovan´eho v´ ysledku. Jako n´ avrh pro dalˇs´ı zlepˇsen´ı predikˇcn´ı schopnosti by bylo vhodn´e vytvoˇrit nov´ y ˇci upravit st´ avaj´ıc´ı tr´enovac´ı dataset tak, aby neobsahoval pˇrekryvy s tr´enovac´ımi datasety integrovan´ ych n´ astroj˚ u. Takov´ y dataset by eliminoval vliv pˇreuˇcen´ı na u ´rovni samotn´ ych n´astroj˚ u. Takt´eˇz by bylo moˇzn´e rozˇs´ıˇrit mnoˇzinu n´astroj˚ u o nov´e reprezentanty (napˇr. Rosetta, SCide, CC/PBSA apod.) vyuˇz´ıvaj´ıc´ı jin´ ych pˇr´ıstup˚ u predikce zmˇeny stability proteinu.
55
Literatura [1] Statistics of ProTherm. [Online], [cit. 2014-01-20]. URL http://www.abren.net/protherm/protherm_stat.php ´ [2] Alberts, B.: Z´ aklady bunˇeˇcn´e biologie: Uvod do molekul´ arn´ı biologie buˇ nky. Espero Publishing, druh´e vyd´ an´ı, 1998, iSBN 80-902-9060-4. [3] Alpaydin, E.: Introduction to Machine Learning. MIT Press, 2010, ISBN 978-0-262-01243-0. [4] Baldi, P.; Brunak, S.; Chauvin, Y.; aj.: Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, roˇcn´ık 16, ˇc. 5, 2000: s. 412–424. [5] Benedix, A.; Becker, C. M.; de Groot, B. L.; aj.: Predicting free energy changes using structural ensembles. Nat Meth, roˇcn´ık 6, ˇc. 1, Leden 2009: s. 3–4, ISSN 1548-7091. [6] Berman, H. M.; Westbrook, J.; Feng, Z.; aj.: The Protein Data Bank. Nucleic Acids Res, roˇcn´ık 28, 2000: s. 235–242. [7] Bleasby, A. J.; Akrigg, D.; Attwood, T. K.: OWL–a non-redundant composite protein sequence database. Nucleic Acids Research, roˇcn´ık 22, ˇc. 17, Z´aˇr´ı 1994: s. 3574–7. [8] Capriotti, E.; Fariselli, P.; Casadio, R.: I-Mutant2.0: predicting stability changes upon mutation from the protein sequence or structure. Nucleic Acids Research, roˇcn´ık 33, ˇc. Web-Server-Issue, 2005: s. 306–310. [9] Capriotti, E.; Fariselli, P.; Rossi, I.; aj.: A three-state prediction of single point mutations on protein stability changes. BMC Bioinformatics, roˇcn´ık 9, ˇc. S-2, 2008. [10] Chakravarti, A.: Single nucleotide polymorphisms: . . . to a future of genetic medicine. ´ Nature, roˇcn´ık 409, Unor 2001: s. 822–823. [11] Chen, C.-W.; Lin, J.; Chu, Y.-W.: iStable: off-the-shelf predictor integration for predicting protein stability changes. BMC Bioinformatics, roˇcn´ık 14 Suppl 2, 2013: str. S5, ISSN 1471-2105. [12] Cheng, J.; Randall, A.; Baldi, P.: Prediction of protein stability changes for single-site mutations using support vector machines. Proteins, roˇcn´ık 62, ˇc. 4, Prosinec 2005: s. 1125–1132, ISSN 1097-0134. [13] Cleary, J. G.; Trigg, L. E.: K*: An Instance-based Learner Using an Entropic Distance Measure. In 12th International Conference on Machine Learning, 1995, s. 108–114. 56
[14] Dehouck, Y.; Kwasigroch, J. M.; Gilis, D.; aj.: PoPMuSiC 2.1 : a web server for the estimation of protein stability changes upon mutation and sequence optimality. BMC Bioinformatics, roˇcn´ık 12, 2011: str. 151. [15] Deutsch, C.; Krishnamoorthy, B.: Four-Body Scoring Function for Mutagenesis. Bioinformatics, roˇcn´ık 23, ˇc. 22, 2007: s. 3009–3015. [16] Doszt´ anyi, Z.; Fiser, A.; Simon, I.: Stabilization centers in proteins: identification, ˇ ıjen 1997: s. 597–612, characterization and predictions. J Mol Biol, roˇcn´ık 272, ˇc. 4, R´ ISSN 0022-2836. [17] Doszt´ anyi, Z.; Magyar, C.; Tusn´ady, G. E.; aj.: SCide: Identification of Stabilization Centers in Proteins. Bioinformatics, roˇcn´ık 19, ˇc. 7, 2003: s. 899–900. [18] Efron, B.; Tibshirani, R. J.: An Introduction to the Bootstrap. New York: Chapman & Hall, 1993. [19] Gromiha, M.: Protein bioinformatics: From sequence to function. Elsevier, 2010, iSBN 978-81-312-2297-3. [20] Guerois, R.; Nielsen, J. E. E.; Serrano, L.: Predicting changes in the stability of proteins and protein complexes: a study of more than 1000 mutations. Journal of ˇ molecular biology, roˇcn´ık 320, ˇc. 2, Cervenec 2002: s. 369–387, ISSN 0022-2836, doi:10.1016/s0022-2836(02)00442-4. [21] Hall, M.; Frank, E.; Holmes, G.; aj.: The WEKA data mining software: an update. SIGKDD Explor. Newsl., roˇcn´ık 11, ˇc. 1, 2009: s. 10–18, ISSN 1931-0145. [22] Huang, L.-T.; Gromiha, M. M.; Ho, S.-Y.: iPTREE-STAB: interpretable decision tree based method for predicting protein stability changes upon mutations. Bioinformatics, roˇcn´ık 23, ˇc. 10, 2007: s. 1292–1293. [23] Khan, S.; Vihinen, M.: Performance of protein stability predictors. Hum Mutat, roˇcn´ık 31, ˇc. 6, 2010: s. 675–84, ISSN 1098-1004. [24] Khatun, J.; Khare, S. D.; Dokholyan, N. V.: Can Contact Potentials Reliably Predict Stability of Proteins? Journal of Molecular Biology, roˇcn´ık 336, ˇc. 5, 2004: s. 1223 – 1238, ISSN 0022-2836. [25] Kumar, M. D. S.; Bava, K. A.; Gromiha, M. M.; aj.: ProTherm and ProNIT: thermodynamic databases for proteins and protein-nucleic acid interactions. Nucleic Acids Research, roˇcn´ık 34, ˇc. Database-Issue, 2006: s. 204–206. [26] Lesk, A. M.: Introduction to bioinformatics. Oxford: Oxford University Press, tˇret´ı vyd´ an´ı, 2008, iSBN 978-0-19-920804-3. [27] Li, M.; Vitanyi, P.: An introduction to Kolmogorov Complexity and its Applications: Preface to the First Edition. 1997. [28] Magyar, C.; Gromiha, M. M.; Pujadas, G.; aj.: SRide: a server for identifying stabilizing residues in proteins. Nucleic Acids Research, roˇcn´ık 33, ˇc. Web-Server-Issue, 2005: s. 303–305.
57
ˇ ep´ [29] Maˇr´ık, V.; Stˇ ankov´ a, O.; Laˇzansk´ y, J.: Umˇel´ a inteligence. 1, Academia, 1993, ISBN 80-200-0496-3. ˇ ep´ [30] Maˇr´ık, V.; Stˇ ankov´ a, O.; Laˇzansk´ y, J.: Umˇel´ a inteligence. 4, Academia, 2003, ISBN 80-200-1044-0. [31] Masso, M.; Vaisman, I. I.: AUTO-MUTE: web-based tools for predicting stability changes in proteins due to single amino acid replacements. Protein Eng Des Sel, roˇcn´ık 23, ˇc. 8, 2010: s. 683–7, ISSN 1741-0134. [32] Mehta, M.; Rissanen, J.; Agrawal, R.: MDL-based Decision Tree Pruning. AAAI Press, 1995, s. 216–221. [33] Mingers, J.: An Empirical Comparison of Pruning Methods for Decision Tree Induction. Machine Learning, roˇcn´ık 4, ˇc. 2, 1989: s. 227–243, ISSN 0885-6125. ˇ ıjen 1997, [34] Mitchell, T.: Machine Learning. McGraw-Hill Education, prvn´ı vyd´an´ı, R´ ISBN 0-07-042807-7. [35] Neˇcas, O.; kolektiv: Obecn´ a biologie pro l´ekaˇrsk´e fakulty. H&H, 2000, iSBN 80-86022-46-3. [36] Parthiban, V.; Gromiha, M. M.; Schomburg, D.: CUPSAT: prediction of protein stability upon point mutations. Nucleic Acids Research, roˇcn´ık 34, ˇc. Web-Server-Issue, 2006: s. 239–242. [37] Pires, D. E. V.; Ascher, D. B.; Blundell, T. L.: mCSM: predicting the effects of mutations in proteins using graph-based signatures. Bioinformatics, 2013, ISSN 1367-4811. [38] Pokala, N.; Handel, T. M.: Energy Functions for Protein Design: Adjustment with Protein-Protein Complex Affinities, Models for the Unfolded State, and Negative Design of Solubility and Specificity. Journal of Molecular Biology, roˇcn´ık 347, ˇc. 1, Bˇrezen 2005: s. 203–227. [39] Potapov, V.; Cohen, M.; Schreiber, G.: Assessing computational methods for predicting protein stability upon mutation: good on average but not in the details. Protein Engineering Design and Selection, roˇcn´ık 22, ˇc. 9, Z´aˇr´ı 2009: s. 553–560, ISSN 1741-0134, doi:10.1093/protein/gzp030. [40] Quinlan, J.: Induction of decision trees. Machine Learning, roˇcn´ık 1, ˇc. 1, 1986: s. 81–106, ISSN 0885-6125. [41] Reetz, M. T.: The Importance of Additive and Non-Additive Mutational Effects in Protein Engineering. Angewandte Chemie International Edition, roˇcn´ık 52, ˇc. 10, 2013: s. 2658–2666, ISSN 1521-3773. [42] Rohl, C. A.; Strauss, C. E. M.; Misura, K. M. S.; aj.: Protein Structure Prediction Using Rosetta, Methods in Enzymology, roˇcn´ık 383. Elsevier, 2004, ISBN 9780121827885, s. 66–93. ´ [43] Rosypal, S.: Uvod do molekul´ arn´ı biologie. Stanislav Rosypal, tˇret´ı vyd´an´ı, 1998.
58
[44] Topham, C. M.; Srinivasan, N.; Blundell, T. L.: Prediction of the stability of protein mutants based on structural environment-dependent amino acid substitution and propensity tables. Protein Eng, roˇcn´ık 10, ˇc. 1, 1997: s. 7–21, ISSN 0269-2139. [45] Wells, J. A.: Additivity of mutational effects in proteins. Biochemistry, roˇcn´ık 29, ˇc. 37, 1990: s. 8509–8517. [46] Witten, I. H.; Frank, E.: Data Mining: Practical Machine Learning Tools and Techniques. Amsterdam: Morgan Kaufmann, druh´e vyd´an´ı, 2005, ISBN 01-208-8407-0. [47] Worth, C. L.; Preissner, R.; Blundell, T. L.: SDM - a server for predicting effects of mutations on protein stability and malfunction. Nucleic Acids Research, roˇcn´ık 39, ˇc. Web-Server-Issue, 2011: s. 215–222. [48] Zhou, H.; Zhou, Y.: Distance-scaled, finite ideal-gas reference state improves structure-derived potentials of mean force for structure selection and stability prediction. Protein science : a publication of the Protein Society, roˇcn´ık 11, ˇc. 11, Listopad 2002: s. 2714–2726, ISSN 0961-8368. ˇ ˇ ıtek, J.; aj.: Z´aklady genetiky a poradentstv´ı. Unor ´ [49] Rehout, V.; Bl´ ahov´ a, B.; C´ 2003, [Online], [cit. 2014-01-12]. URL http: //www.zsf.jcu.cz/cs/katedra/katedra-klinickych-a-preklinickych-oboru/ import/ucebni_texty/zaklady-genetiky-a-poradenstvi
59
Pˇ r´ıloha A
Datab´ azov´ e sch´ ema pro datab´ azi Stability Tato datab´ aze byla vytvoˇrena pro u ´ˇcely diplomov´e pr´ace, jej´ım c´ılem je vytvoˇren´ı metaklasifik´ atoru pro predikci vlivu aminokyselinov´ ych mutac´ı na stabilitu protein˚ u. Datab´ aze obsahuje data pro tr´enov´ an´ı meta-klasifik´atoru, z´aroveˇ n i data pro jeho testov´an´ı. Z´aznamy dolovan´e z datab´ aze ProTherm obsahuj´ı experiment´alnˇe zjiˇstˇen´a data k aminokyselinov´ ym mutac´ım. Hlavn´ı tabulka protherm je doplnˇena tabulkou protherm mutation samotn´ ych mutac´ı s u ´zce souvisej´ıc´ımi informacemi. Tyto z´aznamy slouˇz´ı pro vytvoˇren´ı tr´enovac´ıho datasetu jednobodov´ ych mutac´ı. Z´aznamy v´ıcebodov´ ych mutac´ı jsou rozliˇsiteln´e pomoc´ı hodnoty atributu mutation type. Tato ˇc´ ast dat v´ıcebodov´ ych mutac´ı slouˇz´ı pro vytvoˇren´ı testovac´ıho datasetu. Datab´aze takt´eˇz obsahuje nutn´e tabulky pro v´ ysledky integrovan´ ych predikˇcn´ıch n´astroj˚ u, kter´ ymi jsou AUTO-MUTE, SDM, CUPSAT, I-Mutant3.0 ve strukturn´ı i sekvenˇcn´ı verzi, iPTREE-STAB, mCSM a PoPMuSiC.
Obr´ azek A.1: Diagram sch´ematu datab´aze a vztah˚ u mezi tabulkami.
60
protherm related entries (obsahuje ciz´ı kl´ıˇce pro z´ aznamy (experimenty) vztahuj´ıc´ı se ke konkr´etn´ımu proteinu) uid int(11) unik´ atn´ı identifik´ator odkazu id similar int(11) identifik´ ator protherm z´aznamu Tabulka A.1: Tabulka protherm related entries.
protherm mutation (obsahuje informace o mutac´ıch uid int(11) id int(11) name varchar(52) mutation mutation mutation mutation asa
wild mut pos pos alt
pro jednotliv´e z´aznamy z protherm datab´aze) unik´atn´ı identifik´ator mutace identifik´ator protherm z´aznamu odkaz na identifik´ator ˇc´asti patentu z tabulky patent varchar(32) jednop´ısmenn´a zkratka p˚ uvodn´ıho rezidua varchar(32) jednop´ısmenn´a zkratka nov´eho rezidua int(11) celoˇc´ıseln´a pozice mutace enum sekund´arn´ı struktura mutace (helix, strand, turn, coil) float accessible surface area Tabulka A.2: Tabulka protherm mutation.
61
protherm (obsahuje experiment´ alnˇe zjiˇstˇen´a termodynamick´a data k protein˚ um a k jejich mutac´ım) id int(11) unik´atn´ı identifik´ator jednotliv´ ych z´aznam˚ u protein varchar(128) n´azev proteinu source varchar(128) p˚ uvod proteinu lenght int(11) celkov´ y poˇcet rezidu´ı v proteinu mol-weight float molekulov´a hmotnost pir id varchar(32) PIR identifik´ator swissprot id varchar(32) Swissprot identifik´ator e c number varchar(128) enzyme commision number pmd no varchar(32) Protein Mutant Database accession number pdb wild varchar(32) PDB identifik´ator pro proteiny pˇred mutac´ı pdb mutant varchar(32) PDB identifik´ator pro mutovan´e proteiny mutated chain varchar(128) ˇretˇezec obsahuj´ıc´ı mutaci no molecule int(11) poˇcet molekul (1 = monomer, 2 = dimer, . . . ) sequence swissprot text sekvence aminokyselin z datab´aze Swissprot swissprot id alias varchar(128) Swissprot alias identifik´ator sequence pdb text sekvence aminokyselin z datab´aze PDB mutation type int(11) celkov´ y poˇcet mutac´ı t float teplota pouˇzit´a pˇri experimentu ph float hodnota pH buffer name varchar(128) n´azev pouˇzit´eho bufferu buffer conc varchar(128) koncentrace bufferu ion name 1 varchar(128) n´azev pˇridan´eho iontu ion conc 1 varchar(128) koncentrace pˇridan´eho iontu ion name 2 varchar(128) n´azev pˇridan´eho iontu ion conc 2 varchar(128) koncentrace pˇridan´eho iontu ion name 3 varchar(128) n´azev pˇridan´eho iontu ion conc 3 varchar(128) koncentrace pˇridan´eho iontu protein conc varchar(128) koncentrace proteinu pˇri experimentu measure varchar(128) typ mˇeˇren´ı (fluorescenˇcn´ı spektroskopie, diferenˇcn´ı skenovan´ı kalorimetr, . . . ) method varchar(128) metody denaturace (Thermal, Urea, . . . ) dg h2o varchar(128) Gibbsova voln´a energie bez odeˇcten´ı vlivu denaturantu (plat´ı pro metody pouˇz´ıvaj´ıc´ı mˇeˇren´ı denaturanty) ddg h2o varchar(128) mˇena Gibbsovy voln´e energie bez odeˇcten´ı vlivu denaturantu (plat´ı pro metody pouˇz´ıvaj´ıc´ı pro mˇeˇren´ı denaturanty) dg float zmˇena Gibbsovy voln´e energie ddg float rozd´ıl zmˇen Gibbsovy voln´e energie tmv float thermostatic mixing valve dtm float Tm(mutant) – Tm(wild) [◦ C] dhvh float van’t Hoffova entalpick´a zmˇena dhcal float kalorimetrick´a zmˇena entalpie m float z´avislost dG na mol´arn´ı koncentraci denaturantu 62
cm dcp state reversibility activity activity km activity kcat activity kd key words reference author remarks related entries db version
float varchar(128) varchar(128) varchar(128) varchar(128) varchar(128) varchar(128) varchar(128) text text varchar(128) text text
koncentrace denatur´atu zmˇena tepeln´e kapacity denaturace poˇcet pˇrechodov´ ych stav˚ u reversibiln´ı denaturace (yes, no, unknown) specifick´a aktivita pro kaˇzdou mutaci Machaelis-Mentenova konstanta [mM] Machaelis-Mentenova konstanta [1/s] disociaˇcn´ı konstanta kl´ıˇcov´a slova odkaz na ˇcl´anky v NCBI datab´azi jm´ena autor˚ u koment´aˇre seznam odkaz˚ u na jin´e z´aznamy vztahuj´ıc´ı se k aktu´aln´ımu proteinu datetime datum vloˇzen´ı z´aznamu Tabulka A.3: Tabulka datab´aze protherm.
protherm automute (obsahuje informace o mutac´ıch pro predikˇcn´ı n´astroj AUTO-MUTE) uid int(11) unik´atn´ı identifik´ator mutace effect enum(’INCREASING’, celkov´ y efekt na stabilitu proteinu ’DECREASING’, ’NEUTRAL’) ddg float predikovan´a hodnota ∆∆G pdb id varchar(4) ˇctyˇrp´ısmenn´a PDB identifikace proteinu chain varchar(1) jednop´ısmenn´a zkratka proteinov´eho ˇretˇezce t float teplota ph float ph vol float pr˚ umˇern´e mnoˇzstv´ı simplex˚ u (pro vertex) st float stˇredn´ı m´ıra simplexu (tetrahedrality) loc enum(’S’, ’U’, ’B’) um´ıstˇen´ı (surface, undersurface, burried) num float poˇcet hranov´ ych kontakt˚ u s povrchov´ ymi pozicemi ss enum(’H’, ’S’, ’T’, ’C’) sekund´arn´ı struktura (helix, strand, coil, turn) Tabulka A.4: Tabulka protherm automute pro predikˇcn´ı n´astroj AUTO-MUTE.
63
protherm sdm (obsahuje informace o mutac´ıch pro predikˇcn´ı n´astroj SDM) uid int(11) effect
ddg wt secondary structure wt solvent accessibility percent wt solvent accessibility desc wt sidechain hydrogen bond mutant secondary structure mutant solvent accessibility percent mutant solvent accessibility desc mutant sidechain hydrogen bond desc
unik´atn´ı identifik´ator mutace enum(’INCREASING’, celkov´ y efekt na sta’DECREASING’, bilitu proteinu ’NEUTRAL’) float predikovan´a hodnota ∆∆G varchar(30) sekund´arn´ı struktura (wild-type) float pˇr´ıstupnost rozpouˇstˇedla (%) varchar(15) popis pˇr´ıstupnosti varchar(15) postrann´ı vod´ıkov´a vazba varchar(30) sekund´arn´ı struktura (mutant-type) float pˇr´ıstupnost rozpouˇstˇedla (%) varchar(15) popis pˇr´ıstupnosti varchar(15) postrann´ı vod´ıkov´a vazba varchar(128) popis vlivu mutace
Tabulka A.5: Tabulka protherm sdm pro predikˇcn´ı n´astroj SDM.
protherm cupsat (obsahuje informace o mutac´ıch pro predikˇcn´ı n´astroj CUPSAT) uid int(11) unik´atn´ı identifik´ator mutace effect enum(’INCREASING’, celkov´ y efekt na stabilitu pro’DECREASING’, teinu ’NEUTRAL’) ddg float predikovan´a hodnota ∆∆G wt ss element varchar(30) typ sekund´arn´ı struktury wt solvent accessibility float pˇr´ıstupnost rozpouˇstˇedla (%) wt torsion angle phi float torzn´ı u ´hly φ wt torsion angle psi float torzn´ı u ´hly ψ torsion varchar(15) torzn´ı u ´hel (favourable/unfavourable) Tabulka A.6: Tabulka protherm cupsat pro predikˇcn´ı n´astroj CUPSAT.
64
protherm imutant3 struct (obsahuje informace o mutac´ıch uid int(11) effect enum(’INCREASING’, ’DECREASING’, ’NEUTRAL’) ddg float ph float t float rsa float ri float
pro predikˇcn´ı n´astroj I-Mutant3.0 (strukturn´ı)) unik´atn´ı identifik´ator mutace celkov´ y efekt na stabilitu proteinu
predikovan´a hodnota ∆∆G pH teplota relative solvent accessible area index spolehlivost
Tabulka A.7: Tabulka protherm imutant3 struct pro predikˇcn´ı n´astroj I-Mutant3.0 (strukturn´ı).
protherm imutant3 seq (obsahuje informace o mutac´ıch uid int(11) effect enum(’INCREASING’, ’DECREASING’, ’NEUTRAL’) ddg float ph float t float rsa float ri float
pro predikˇcn´ı n´astroj I-Mutant3.0 (sekvenˇcn´ı)) unik´atn´ı identifik´ator mutace celkov´ y efekt na stabilitu proteinu
predikovan´a hodnota ∆∆G pH teplota relative solvent accessible area index spolehlivost
Tabulka A.8: Tabulka protherm imutant3 seq pro predikˇcn´ı n´astroj I-Mutant3.0 (sekvenˇcn´ı).
protherm iptree (obsahuje informace o mutac´ıch uid int(11) effect enum(’INCREASING’, ’DECREASING’, ’NEUTRAL’) ddg float ph float t float
pro predikˇcn´ı n´astroj iPTREE-STAB) unik´atn´ı identifik´ator mutace celkov´ y efekt na stabilitu proteinu
predikovan´a hodnota ∆∆G pH teplota
Tabulka A.9: Tabulka protherm iptree pro predikˇcn´ı n´astroj iPTREE-STAB.
65
protherm mcsm (obsahuje informace o mutac´ıch uid int(11) effect enum(’INCREASING’, ’DECREASING’, ’NEUTRAL’) ddg float rsa float
pro predikˇcn´ı n´astroj mCSM) unik´atn´ı identifik´ator mutace celkov´ y efekt na stabilitu proteinu
predikovan´a hodnota ∆∆G relative solvent accessible area
Tabulka A.10: Tabulka protherm mcsm pro predikˇcn´ı n´astroj mCSM.
protherm popmusic (obsahuje informace o mutac´ıch pro uid int(11) effect enum(’INCREASING’, ’DECREASING’, ’NEUTRAL’) ddg float reliability float
predikˇcn´ı n´astroj PoPMuSiC) unik´atn´ı identifik´ator mutace celkov´ y efekt na stabilitu proteinu
predikovan´a hodnota ∆∆G spolehlivost predikce
Tabulka A.11: Tabulka protherm popmusic pro predikˇcn´ı n´astroj PoPMuSiC.
66
Pˇ r´ıloha B
Tabulky a grafy s v´ ysledky test˚ u
Obr´azek B.1: Porovn´ an´ı n´ astroj˚ u pro predikci zmˇeny stability na testovac´ım datasetu.
67
Obr´azek B.2: Porovn´ an´ı r˚ uzn´ ych n´astroj˚ u pro predikci zmˇeny stability na testovac´ım datasetu pouˇzit´ım metody binning.
68
Obr´ azek B.3: V´ ysledky vybran´ ych n´astroj˚ u pro tr´enovac´ı dataset.
69
Obr´ azek B.4: V´ ysledky metod strojov´eho uˇcen´ı pro tr´enovac´ı dataset.
70
Obr´ azek B.5: V´ ysledky metod strojov´eho uˇcen´ı pro tr´enovac´ı dataset.
71
Obr´azek B.6: V´ ysledky vybran´ ych n´astroj˚ u pro testovac´ı dataset v´ıcebodov´ ych mutac´ı.
72
Obr´azek B.7: V´ ysledky metod strojov´eho uˇcen´ı pro testovac´ı dataset v´ıcebodov´ ych mutac´ı.
73
Pˇ r´ıloha C
Obsah CD /doc /feature selection
diplomov´a pr´ace ve form´atu pdf a LATEX v´ ysledn´e korelaˇcn´ı koeficienty pro metodu v´ ybˇeru rys˚ u
/grafy
tabulky a grafy pouˇzit´e v t´eto pr´aci
/run
pˇr´ıklady spouˇstˇec´ıch skript˚ u pouˇzit´ ych pˇri v´ ypoˇctech na MetaCentru
/skripty/machine learning
skript pro vytvoˇren´ı/ohodnocen´ı vˇsech pouˇzit´ ych model˚ u strojov´eho uˇcen´ı
/skripty/protherm
skripty pro pˇrevod datab´aze ProTherm do relaˇcn´ıch tabulek
/skripty/stability
skript pro z´ısk´an´ı v´ ysledk˚ u ohodnocen´ ych mutac´ı vybran´ ych n´astroj˚ u
/test
skripty potˇrebn´e pro vytvoˇren´ı uveden´ ych tabulek a graf˚ u
/weka/testing dataset
v´ ysledky pro testovac´ı dataset v´ıcebodov´ ych mutac´ı
/weka/training dataset
v´ ysledky a vytvoˇren´e modely pro tr´enovac´ı dataset
/zdroj
sch´ema SQL datab´aze vˇcetnˇe vˇsech dat
74