MASARYKOVA UNIVERZITA Přírodovědecká fakulta
BAKALÁŘSKÁ PRÁCE Studium substrátové specifity halogenalkan dehalogenáz metodou virtuálního screeningu
Lukáš Daniel
Brno 2009
Prohlašuji, že práce byla vypracována samostatně, pouze s použitím uvedené literatury. V Brně dne 22. 4. 2009
............................ Lukáš Daniel
Rád bych poděkoval doc. Mgr. Jiřímu Damborskému, Dr. a Mgr. Janu Brezovskému za vedení a pomoc při tvorbě této práce a také MetaCentru, které poskytlo výpočetní kapacity.
Abstrakt Virtuální screening je důležitou metodou umožňující hledání nových biologicky aktivních látek na základě předpovědi jejich vazby s receptorem s využitím počítačového programu. Tato práce je zaměřena na mapování současných postupů, předpokladů a limitací jednotlivých metod v této oblasti. Vyzdviženy jsou důležité kroky ve výběru struktury receptoru, sady testovaných látek a modelování ligandreceptorového komplexu. Metody virtuálního screeningu byly prakticky aplikovány na enzym halogenalkan dehalogenázu DhaA. Celkově bylo vybráno a virtuálně „testováno“ 974 molekul. Bylo zjištěno, že nejméně 16 molekul se potenciálně lépe váže do aktivního centra enzymu než známé substráty. Budou-li výsledky screeningu potvrzeny experimentálně, rozšíří nalezené ligandy substrátovou specifitu DhaA enzymu o zcela nové třídy molekul.
Abstract Virtual screening is an important platform used for the search of new biologically active compounds. This search is based on the prediction of their binding affinity with a target receptor, using computer programs. This thesis critically reviews current concepts, assumptions and limitation of individual methods in this field. Important steps in the selection of receptor structure and a set of tested ligands, as well as procedure of modeling ligand-receptor complex are discussed. Docking-based virtual screening methods have been applied to the enzyme haloalkane dehalogenase DhaA. This enzyme receptor was screened against 974 molecules. At least 16 of screend ligands have a potential of better binding to the active site than the wellknown active ligands. The newly discovered substrates, if confirmed experimentally, will broaden the substrate specificity of DhA by the new classes of molecules.
Obsah 1. Úvod ....................................................................................................................... 6 2. Cíl práce ................................................................................................................. 7 3. Virtuální screening .................................................................................................. 8 3.1. Virtuální screening založený na struktuře ligandu ............................................. 10 3.1.1. Metody založené na hledání podobnosti ........................................................ 11 3.1.2. Metody založené na descriptorech ................................................................. 11 3.1.3. Metody farmakoforu ........................................................................................ 12 3.1.4. Metody strojového učení................................................................................. 12 3.1.5. Aplikace LBVS ................................................................................................ 13 3.2. Virtuální screening založený na struktuře receptoru .......................................... 14 3.2.1. Molekulární dokování...................................................................................... 15 3.2.2. Aplikace SBVS ............................................................................................... 17 4. Virtuální screening metodou molekulového dokování .......................................... 18 4.1. Výběr receptoru ................................................................................................. 18 4.2. Výběr ligandu ..................................................................................................... 21 4.3. Modelování ligand – receptorového komplexu .................................................. 23 4.3.1. Zajištění flexibility ligandu ............................................................................... 24 4.3.2. Skórovací funkce ............................................................................................ 28 4.3.3. Dokovací programy......................................................................................... 30 4.4. Hodnocení komplexů ......................................................................................... 36 5. Virtuální screening halogenalkan dehalogenázy DhaA ...... 38Chyba! Záložka není definována. 5.1. Halogenalkan dehalogenázy ............................................................................. 38 5.2. Metody ............................................................................................................... 39 5.3. Výsledky a diskuze ............................................................................................ 41 6. Závěr .................................................................................................................... 46 7. Reference ............................................................................................................. 47
5
1. Úvod V oblasti designu a syntézy nových farmak prožíval na přelomu osmdesátých a devadesátých let 20. století high-throughput screening (HTS) své zlaté období. Díky nástupu automatizace a miniaturizace bylo možno testovat metodami in vitro obrovské množství chemických látek a tudíž se očekával významný nárust počtu nových léčiv. Bohužel vzhledem k nutnosti velké finanční, časové i materiálové investice s nejistými výsledky prvotní nadšení polevilo. Vhodnou alternativou se staly metody virtuálního nebo také in silico screeningu (VS) umožňující hledání nových biologicky aktivních látek pomocí počítačového programu. Selekce látek probíhá na základě předpovědi jejich interakce s makromolekulárním receptorem (tj. DNA, RNA, receptor nebo enzym). Na rozdíl od HTS nemusí testované látky reálně existovat, odpadají také problémy ovlivňující experimenty in vitro (např. omezená rozpustnost) a tím pádem se jeví VS jako levná a s nástupem vyspělých počítačových systémů také rychlá a dostupná cesta. Avšak na druhou stranu VS vyžaduje znalost prostorových a energetických kritérií zodpovědných za vazbu ligandu v cílovém receptoru. Což znamená dostupnost buď trojrozměrné struktury receptoru získanou krystalograficky, pomocí NMR nebo homologních modelů, nebo známého aktivního ligandu (1, 2). Současný výzkum většinou využívá spojení metod HTS i VS s cílem: (i)
rozšířit oblast testovaných látek i na externí databáze
(ii)
identifikovat i strukturně odlišné ligandy
(iii)
redukovat počet látek pro testování pomocí HTS
6
2. Cíl práce Cílem bakalářské práce bylo: (i)
provést prohledání současné literatury týkající se VS
(ii)
aplikovat metodu VS na halogenalkan dehalodenázu DhaA.
7
3. Virtuální screening Jako virtuální screening je označována zpravidla každá metoda, která umožňuje selekci
biologicky
aktivních
látek
z databáze
organických
molekul
pomocí
počítačového programu (obrázek 1). Počátky těchto technik sice spadají do sedmdesátých let dvacátého století, ale teprve s nástupem výkonných počítačů a specializovaných programů nabyly tyto metody na významu a staly se doplňkem a v některých případech i alternativou HTS (2, 3). Obecně lze rozlišit dva základní přístupy VS (obrázek 2): (i)
„Structure-based
virtual
screening“
trojrozměrné struktury cílového
(SBVS)
receptoru
vyžadující
umožňující
znalost
posouzení
testovaných látek na základě komplementarity s vazebným místem (ii)
„Ligand-based virtual screening“ (LBVS) vyžadující pouze znalost aktivní molekuly interagující se zkoumaným receptorem, která je využita jako templát pro hledání nových - strukturně podobných - látek (2).
Obrázek 1. Základní techniky VS.
8
Obrázek 2. Obecný postup hledání nových biologicky aktivních látek používaný v SBVS a LBVS (2).
9
3.1. Virtuální screening založený na struktuře ligandu I přes stále se zvyšující počet molekulových struktur uložených v Protein Data Bank (4), hraje při hledání nových biologicky aktivních látek LBVS velmi významnou roli. Tato technika je založena na využití informací, poskytovaných ligandem interagujícím s vazebným místem cílového receptoru, k detekci nových látek na základě podobnosti strukturních, topologických a elektrostatických vlastností či částí molekuly zodpovědné za aktivitu tzv. farmakofor (obrázek 3) (5, 6). Navíc je možno využít metodu LBVS i pro filtrování databází látek pro SBVS, kdy jsou odstraněny molekuly, které neobsahují funkční skupiny nutné pro vytvoření interakce s receptorem (7). Obecně lze rozdělit přístupy LBVS na tři hlavní skupiny: (i)
Metody pracující na základě podobnosti
(ii)
Farmakoforové metody
(iii)
Metody strojového učení využívající umělé inteligence (2).
Obrázek 3. Reprezentace modelu farmakoforu.
10
3.1.1. Metody založené na hledání podobnosti Tyto metody využívají pravidla, že strukturně podobné molekuly mají zpravidla i podobné vlastnosti. Tyto metody jsou využívány tehdy, pokud je ze skupiny aktivních molekul vybrána jedna velmi preferovaná molekula, případně je známa pouze jedna molekula interagující s receptorem (3).
Přiložení malých molekul Detekce podobnosti touto metodou je založena na superpozici každé s testovaných molekul s referenčním (známým) ligandem. Superpozicí se zde rozumí přiložení chemicky podobných částí molekul. Testovaná molekula je zpravidla flexibilní, kdežto referenční ligand může být v závislosti na zvoleném programu jak flexibilní, tak rigidní. Například program FlexS (8) pracuje s rigidní referenční molekulou, zatímco program GASP (Genetic Algorithm Similarity Program) umožňuje pracovat s oběma molekulami jako flexibilními, což se jeví jako výhoda, pokud nelze přiřadit konformační vlastnosti ani jedné z molekul (5, 9).
3.1.2. Metody založené na descriptorech Technika superpozice je velmi náročná na výpočetní sílu a z tohoto důvodu byly zavedeny reprezentace molekul v podobě deskriptorů ulehčující prohledávání chemických databází. Molekulovým deskriptorem se rozumí nejrůznější strukturní, topologické nebo mikroskopické informace, podle nichž lze rozlišit různé skupiny deskriptorů (1D, 2D, 3D, nelineární, lineární, skalární) (5, 9).
11
3.1.3. Metody farmakoforu IUPAC definuje farmakofor jako soubor prostorových a elektrostatických vlastností nezbytných pro zajištění optimálních supramolekulárních interakcí se specifickým biologickým receptorem a spuštění (nebo blokování) jeho biologické odpovědi. Farmakofor nereprezentuje reálnou molekulu, ani společenstvo funkčních skupin, představuje čistě abstraktní koncept objasňující obvyklé interakční kapacity skupiny molekul směrem k jejich cílovému receptoru. Jinými slovy farmakoforem může být dominující fragment sdílený sadou aktivních ligandů. Deskriptory pro popis těchto fragmentů zahrnují skupiny donorů/akceptorů vodíkových vazeb a hydrofobní, aromatické, positivně a negativně ionizovatelné skupiny (10). Při hledání nových biologicky aktivních látek pomocí farmakofor modelů je využíváno celé řady programů jako např. ALMOND, X-AUTOFIT, Phase nebo BRUTUS (5).
3.1.4. Metody strojového učení V oblasti chemoinformatiky a VS a se v poslední době velmi zvyšuje význam metod strojového učení. Zvláště v podobě tzv. nervových sítí umožňujících na základě vložených dat přizpůsobivé učení. Klasifikační algoritmus umožňující hledání nových biologicky aktivních látek je vytvořen na základě sady obsahující známé aktivní a neaktivní molekuly (2, 3, 5).
12
3.1.5. Aplikace LBVS Existuje celá řada možných aplikací LBVS a jejich počet a zejména úspěšnost se v posledních letech zvyšuje. Mezi nejdůležitější cíle patří např. proteáza viru HIV, acetylcholin esteráza a hlavní proteáza koronaviru SARS (2, 5). Typickým příkladem může být aplikace metod LBVS na enzym 5-lipoxygenázu (5-LO) katalyzující v leukocytech konverzi kyseliny arachidonové na leukotrieny – hormony způsobující zúžení cév v průduškách vedoucí k astmatickému záchvatu, ateroskleróze a osteoporóze (2, 11). Pro hledání nových biologicky aktivních látek byly extrahovány deskriptory z celkem 43 známých inhibitorů 5-LO a pomocí software SpeedCATS byly testované látky posuzovány podle podobnosti. Celkem bylo vybráno 18 molekul, u kterých bylo provedeno měření inhibiční aktivity na buněčné úrovni. Výsledkem byly 2 strukturně odlišné molekuly s IC50 menší než 1µmol.dm-3 (2). Další studie využívající LBVS jsou uvedeny v tabulce 1. Tabulka 1. Seznam vybraných aplikací LBVS (5). Receptor
Software
Metoda
HIV proteáza
Omega, MOE
Farmakofor
Topoizomeráza II Alfa
Catalyst, Cerius 2
Farmakofor
Hlavní proteáza SARS koronaviru
MOE
Farmakofor
Mycobacterium tuberculosis
Catalyst
Farmakofor
Draselný kanál typu T
Catalyst
Farmakofor
13
3.2. Virtuální screening založený na struktuře receptoru SBVS je založený na znalostech a z tohoto důvodu je možno rozeznat celou řadu racionálních přístupů. U všech je na počátku nutné identifikovat potenciální vazebné místo cílové molekuly. Tím se rozumí např. aktivní místo enzymu, vazebné místo receptoru, komunikační místo či interakční oblast dvou makromolekul. V ideálním případě se jedná o hydrofobní kapsu, případně výčnělek obsahující variaci donorů a akceptorů vodíkových vazeb,
hydrofobních oblastí
nebo
adhezivních
míst.
Identifikace tohoto místa resp. celé struktury makromolekuly bývá nejčastěji provedena pomocí rentgenové krystalografie, NMR nebo homologních modelů (5). Znalost trojrozměrné struktury je nezbytná pro další důležitý krok a to in silico „highthroughput“ receptor-ligand doking znamenající výběr malé organické molekuly z databáze existujících (nebo vyrobitelných) látek a její vložení pomocí počítačového programu do vazebného místa (2, 12). SBVS je závislý na množství a kvalitě informací o zkoumaném systému. Bez ohledu na druh molekulárního cíle je nezbytné zvážit okolnosti jako např. schopnost proteinu interagovat s malou organickou molekulou, selekci jeho relevantní geometrie, posouzení flexibility, přidělení protonačních stavů či posouzení možné interakce receptoru (nebo ligandu) s vodou. Významnou roli v úspěšnosti metod také hraje výběr vhodné databáze malých organických molekul a samozřejmě použití vhodného dokovacího programu (2).
14
3.2.1. Molekulární dokování Dokováním je označován proces, který vede k předpovědi struktury komplexu dvou molekul – ligandu a receptoru. Základním principem dokování je molekulární rozpoznání. Vazebná místa receptorů jsou vybavena rozpoznávacími prvky odpovědné za vazbu s jinými organickými molekulami. Tato idea byla původně uvedena jako ekvivalent mechanismu zámku a klíče známému z enzymologie. Následně byla modifikována podle mechanismu indukovaného fitu zohledňujícího konformační změny, kterým podléhají enzymy během vazby substrátu. Proto také stupeň uvažované flexibility biologických cílů velmi ovlivňuje přesnost dokování (5, 13). Většina programů zohledňuje flexibilitu ligandů, avšak pouze některé i flexibilitu receptorů. Všechny ale pracují dvoukrokově, což znamená, že obsahují metody, které: (i)
hledají vhodné vazebné módy ligandu v cílové molekule
(ii)
klasifikují navržený vazebný mód podle jeho vazebné energie (5, 14).
Je tedy vytvořena konformace ligandu ve vazebném místě, která je pomocí klasifikační (skórovací) funkce srovnána s předchozí konformací. Pokud je ta současná energeticky výhodnější, je akceptována. Pokud výhodnější není, tak je vytvořena konformace nová (5). Dokovací programy lze rozdělit podle metod hledání vazebného módu do tří základních skupin (obrázek 4): (i)
Systematické
(ii)
Stochastické (náhodné)
(iii)
Přírůstková konstrukce
Skórovací funkce (SF) mají dvojí úkol. Za prvé rozhodují o tom, která konformace ligandu umístěného v aktivním místě je energeticky nejvýhodnější a za druhé jsou zodpovědné za odhad vazebné afinity (energie) všech komplexů testovaných látek s receptorem (resp. jejich seřazení podle biologické aktivity) (5, 14). Druhý zmíněný úkol je jedním z nejdůležitějších a zároveň nejobtížnějších kroků ve všech procesech SBVS (1). Proces tvorby komplexu receptor-ligand je ovlivněn mnoha parametry (hydrofobní interakce, van der Waalsovy a disperzní interakce, vodíkové vazby,
15
prostorové a elektrostatické interakce a solvatace) a řízen kinetickými a termodynamickými principy. Aby nemusely skórovací funkce uvažovat všechny parametry, obsahují pro hodnocení těchto komplexů nejrůznější zjednodušení a předpoklady. Výsledná vazebná energie je tedy spíše odhadována než spočítána (5). Podle metody výpočtu lze rozlišit několik druhů SF: (i)
Funkce založené na silovém poli
(ii)
Empirické funkce
(iii)
Funkce založené na znalostech
Jednotlivé metody mohou vracet odlišné výsledky a jejich srovnání není triviální. K překonání tohoto problému bylo vytvořeno několik protokolů, z nichž nejčastějším je využívání tzv. konsensus skórování znamenajícího kombinaci výsledků několika SF v jedno řešení (5, 14).
Obrázek 4. Rozdělení prohledávacích metod (13).
16
3.2.2. Aplikace SBVS V poslední době byla uveřejněna řada úspěšných aplikací metod SBVS na celou řadu rozmanitých molekulárních cílů z různých terapeutických oblastí (2). Příkladem může být zkoumání antimalarických vlastností v případě membránově vázané enoylacyl carrier protein reduktázy (ENR), která se uplatňuje při produkci energie a výstavbě buněčné stěny v Plasmodium falciparum a nemá lidský homolog. Celkem bylo prozkoumáno 336 000 látek pocházejících z ChemBridge Express Library (San Diego, CA, USA) vedoucí k selekci 169 molekul, u nichž byla následně experimentálně testována inhibiční aktivita ENR. Výsledkem bylo 16 inhibitorů, z nichž 3 vykazovaly IC50 o hodnotě 5, 10 a 25 µmol.dm-3, což se blíží aktivitě účinné látky triclosan (IC50 = 4 µmol.dm-3) (2, 15). Vybrané další studie jsou uvedeny v tabulce 2. Tabulka 2. Další aplikace SBVS (5). Receptor
Software
Cyklin dependentní kinasa 2
Glide, GOLD
Metaloenzymy
inhibitory cyklooxygenasy (COX-2)
Metoda flexibilní dokování, genetický algoritmus
DOCK 3.5.54, DISTMAP, CHEMGRID,
přírůstková konstrukce,
AMBER, Delphi
nekovalentní SF
DOCK, SCORE, FlexX, Sybyl
ChemScore flexibilní dokování,
Estrogenní receptory
GEMDOCK
SF založená na farmakofor modelu
Cannabinoidní receptory
SYBYL, GOLD
17
genetický algoritmus
4. Virtuální screening metodou molekulového dokování Následující kapitoly blíže popisují nejdůležitější kroky SBVS metod, se zaměřením zejména na výhody a limitace jednotlivých přístupů.
4.1. Výběr receptoru Jak je popsáno výše, metody VS jsou nezbytně závislé na množství a zejména kvalitě informací popisujících zkoumaný systém. Největší výhodou je bezesporu znalost makromolekulárního cíle, kterou popisují kapitoly uvedené níže. Při výběru receptoru pro SBVS je prvním důležitým parametrem posouzení jeho schopnosti interagovat s malými organickými látkami. Posuzuje se zdali vůbec obsahuje pro testovanou látku přístupné vazebné místo. Pokud ano, následnými důležitými parametry se stanou jeho velikost, geometrie, povrch, expozice skupin zodpovědných za vazbu s ligandem a další. Většina z nich však není přímo dostupná a často je proto využito korelací se známými hodnotami v rámci genových rodin (1). Hajduk et al. nedávno navrhli četné rozhodující ukazatele, které rozlišují interakce schopná vazebná místa od těch, která s malými organickými molekulami neinteragují (16). Následným problémem je pak výběr vhodné trojrozměrné struktury receptoru. Nejúčinnější metodu pro její studium představuje rentgenová strukturní analýza následovaná nukleární magnetickou rezonancí a homologním modelováním. Přestože krystalografie představuje nejlepší možnost studia geometrie proteinu, je možné v závislosti na použitém protokolu krystalizace získat odlišné konformační stavy, a proto je před dalšími kroky VS velmi žádoucí provést detailní analýzu jeho parametrů, např. B-faktory, Rfree, DPI atd. (1, 17). Testované molekuly (ligandy) i proteiny mohou v závislosti na stupni volnosti zaujímat četné konformační stavy a z tohoto důvodu je další významnou překážkou limitující přesnost SBVS resp. dokování flexibilita molekul.
Dříve se v důsledku
náročných výpočtů zdála tato otázka nepraktická, ovšem s nástupem výpočetní síly byla vyvinuta celá řada metod, které umožňují posuzovat flexibilitu obou partnerů buď přímo během dokování, nebo využívají např. zkoumání více konformačních stavů pozorovaných v různých krystalových strukturách jednoho proteinu (1, 6, 7). U enzymů katalyzujících přeměnu strukturně odlišných substrátů je nutné z pohledu
18
flexibility receptoru zvážit jeho konformační adaptaci, která je potřebná pro vykonávaní enzymatické funkce (1). Většina dokovacích programů také vyžaduje správně definované protonační stavy reziduí v aktivním místě. Nevhodně zvolené parametry mohou vést k lokální změně dielektrických podmínek modulující hodnoty pKa funkčních skupin až o několik řádů a výsledkem může být změna akceptoru vodíkové vazby v donor či naopak (1). Vhodným
přístupem
k řešení
(http://biophysics.cs.vt.edu/H++/),
tohoto
problému
umožňující
se
automatickou
jeví
server
predikci
H++
pKa
a
protonových stavů ionizovatelných residuí v makromolekulách (18). S protonací úzce souvisí také přiřazení vhodných nábojů jednotlivým atomům receptoru, pro něhož existuje několik metod. Buď lze využít různých kvantově chemických nábojů spočítaných pro konkrétní protein, což je ovšem časově náročné. Dále lze pouze přiřadit náboje konkrétním atomům podle tabulek, odvozených pro různá silová pole a nakonec je využíváno nábojových schémat Gasteiger-Marsili (19). Významným krokem ke zlepšení dosažených výsledků VS je mapování vazebných míst v proteinových strukturách. Tato strategie umožňuje jednak lépe hodnotit vlastnosti cílového receptoru, tak také okamžité prověření výsledků VS. K tomuto účelu existuje v současné době celá řada nástrojů (GRID, LUDI, SuperStar, DrugScore) (1, 2) (obrázek 5).
Obrázek 5. Mapování povrchu vazebného místa. Analýza t-RNA guanin transglykosylasy s využitím programu DrugScore, která byla zaměřena na energeticky vhodné oblasti pro vazbu skupiny donoru vodíkové vazby (reprezentováno skupinou NH), akceptoru téže vazby (reprezentováno skupinou C=O) a hydrofobní oblasti (reprezentováno aromatickými uhlíky C.ar) (1).
19
Posledním důležitým krokem v přípravě receptoru pro VS je posouzení přítomnosti vody ve vazebném místě. V nedávných studiích, zahrnujících analýzu tisíců krystalových struktur ligand-proteinových komplexů, byla potvrzena důležitost vodou zprostředkovaných interakcí mezi receptorem a ligandem (obrázek 6). Ligand buď může nahradit vodu v aktivním místě, případně může zabudovat její molekuly do své struktury v rámci rozšíření proteinového povrchu (1, 20). Možným přístupem k řešení tohoto problému je výše zmíněná analýza krystalografických dat buď s ohledem na opakovaný výskyt molekul vody ve strukturně podobných vazebných místech (např. v proteinových rodinách), případně je možné zkoumat více komplexů cílového receptoru s odlišnými ligandy.
Pokud je voda přítomna ve všech analyzovaných
komplexech na více méně podobném místě, je nutno ji považovat za integrální část cílové struktury (1).
Obrázek 6. Vylepšení vazebného módu při zahrnutí molekuly vody do výpočtu energetických map. Konformace ligandu získaná rentgenovou strukturní analýzou jeho komplexu s proteinem je v bílé barvě, růžová představuje vazebný mód předpovězený dokovacím programem. (a) ilustruje vsazení kyslíkového atomu (O1) ligandu prostřednictvím dokovacího nástroje do experimentálně ověřené pozice (pozice A), avšak druhý kyslíkový atom (O2) byl vsazen do pozice B místo pozice C odhalené z krystalové struktury. (b) Pokud byla uvažována přítomnost klíčové molekuly vody (označena žlutou šipkou), tak byl kyslíkový atom (O2) správně umístěn do pozice C (20).
20
4.2. Výběr ligandu Pokud jsou známy esenciální vlastnosti cílového receptoru, který hraje důležitou roli v metabolických drahách, pak dalším důležitým krokem v metodách SBVS je design databáze cílových molekul pro vlastní screening. Farmaceutické firmy zpravidla testují pouze své vlastní kolekce molekul, což jim za prvé zaručí exkluzivitu případných nově objevených bioaktivních látek a za druhé jsou schopné tyto nové molekuly syntetizovat. Nicméně v pokrytí co největšího rozsahu chemických látek mohou tyto společnosti doplnit své databáze o stovky tisíc komerčně dostupných molekul (2). Takto získaná sada obsahuje molekuly s širokou chemickou diverzitou. Pro zisk knihovny obsahující chemické látky pouze žádaných vlastností je proto využívána celá řada filtrů. Za hlavní kritéria zaručující fyzikálně-chemickou konzistentnost vlastností odpovídajících většině známých léčiv jsou považovány variace Lipinského pravidla (orálně používané medikamenty mají zpravidla molekulovou hmotnost < 500 Da, rozdělovací koeficient n-oktanol – voda <5, počet donorů vodíkové vazby (tj. OH a NH skupin) <5 a počet akceptorů (tj. atomy O a N) téže vazby <10 (21)) (6). Další kritéria vychází zejména z farmakokinetického profilu známého jako ADME vlastnosti (Absorpce, Distribuce, Metabolismus, Eliminace) (2). Méně významné filtry zpravidla odstraňují molekuly obsahující specifické struktury asociované s malou chemickou stabilitou či toxicitou (6). Dále lze také vycházet ze známých vlastností cílového receptoru, kde se jako významný pomocník ukazuje výše uvedená analýza (mapování) povrchu aktivního místa umožňující odhad počtu akceptorů/donorů vodíkových vazeb (obrázek 7) (2). Výhodou většiny těchto filtrovacích protokolů je nenáročnost na počítačovou sílu a tedy možná aplikace na velké databáze (v řádu 105 – 106 molekul) (6). Vlastní příprava takto zfiltrované sady molekul pro dokování spočívá zejména v doplnění o všechny možné izomery (ať už konstituční – zejména tautomery, nebo stereoizomery) a podobně jako u receptorů v posouzení protonačních stavů a zejména nábojových schémat (14). Vhodně přiřazené náboje jednotlivým atomům ligandu jsou důležitou komponentou SF. Ve výpočtu nábojů dnes existuje mnoho metod, jejichž zásadní odlišnosti se mohou samozřejmě prolínat s úspěšností dokování. Tsai et al. zveřejnili srovnání 9 semi-empirických a empirických nábojových schémat (AM1, AM1-BCC, Del-Re, MMFF, Gasteiger, Hückel, Gasteiger-Hücker, Pullman a také často používané formální náboje), která využili při předokování 21
ligandů do 114 receptorů s použitím programu DOCK 5.4 (22). Náboje stanovené pomocí AM1-BCC podávaly nejlepší výsledky při reprodukci experimentálních dat.
Obrázek 7. Reprezentace 3D farmakoforového modelu získaného superpozicí více krystalových struktur receptoru s různými ligandy nebo mapováním vazebného místa. Z databáze jsou pro další kroky VS vybrány pouze molekuly odpovídající tomuto modelu (2).
Ve výběru vhodné počáteční databáze dnes existuje celá řada možností zahrnujících jak specializované sady (např. látky s nízkou toxicitou vhodnou pro antinádorová léčiva) tak knihovny obsahující společenstvo molekul o značné diverzitě. Podstatou SBVS je simulace molekulového rozpoznávání a z tohoto důvodu je nutné převézt podobu testovaných látek z dat obsažených v databázi do trojrozměrných koordinát a také zajistit výše zmíněnou přípravu molekul pro dokování (6). Pro převod látek do 3D struktury existuje celá řada nástrojů (např. Corina, Concord a Confort – oba od společnosti Tripos: http://www.tripos.com, či Converter od společnosti Accelrys: http://www.accelrys.com) (6). Ligand.Info (http://ligand.info) je kompilací několika veřejně dostupných databází poskytující více než jeden milion ligandů, u nichž je již spočítána prostorová orientace a také přiřazeny některé informace o biologické aktivitě (20). Další volně přístupnou databází pro SBVS je ZINC (http://zinc.docking.org/) obsahující v současné době více než osm milionů molekul se známou trojrozměrnou strukturou.
22
Obsaženy jsou pouze látky s molekulovou hmotností < 700 Da a rozdělovacím koeficientem n-oktanol – voda v rozmezí 4 – 6, kterým jsou přiřazeny relevantní protonové stavy a všechny jsou komerčně dostupné (23). Ambiciózním projektem je také cíl sestavit sadu molekul specificky upravujících aktivitu většiny produktů genové exprese jak u člověka tak dalších organismů. V současné době tato databáze obsahuje výsledky mnoha virtuálních screeningů a je dostupná na adrese http://www.ncbi.nlm.nih.gov/sites/entrez?db=pcassay (20). S více než pěti miliony uložených látek získaných z 25 chemických katalogů patří mezi významné databáze také
EDULISS
(EDinburgh
University
Ligand
Selection
System
http://eduliss.bch.ed.ac.uk/eduliss/). Spolu s 3D koordinátami těchto molekul je pro každou z nich také uloženo více než 1500 topologických, geometrických, fyzikálněchemických a toxikologických deskriptorů. Ty mohou být použity k výběru podskupin molekul či k zprostředkování analýzy databáze (20).
4.3. Modelování ligand – receptorového komplexu Další fáze SBVS zahrnuje dokování každé molekuly z připravené databáze do vazebného místa makromolekulárního cíle. Tento proces zahrnuje vzorkování povrchu vazebného místa a skórování každé nalezené konformace testovaného ligandu. Energeticky nejvýhodnější konformace je pak označena jako předpokládaný vazebný mód. Existuje celá řada vhodných programů pro tento postup a odlišují se zejména v použití prohledávacích algoritmů, zajištěním flexibility ligandu a proteinu, druhem skórovacích funkcí a náročností na počítačovou sílu (6). Do dnešního dne bylo zveřejněno více než 60 dokovacích programů a 30 skórovacích funkcí (SF), nicméně mezi široce dostupné a nejčastěji využívané balíky patří Autodock, DOCK, FlexX, FRED, Glide, GOLD, ICM, QXP/Fio+ a Surflex (tabulka 3) (14).
23
Tabulka 3. Nejpoužívanější dokovací balíky. Program
Zajištění flexibility ligandu
Použitelnost pro screening rozsáhlých databází
AutoDock 4.0
GA
Nízká
DOCK 6
PK
Vysoká
FlexX 2.2
PK
Vysoká
FRED
RD
Vysoká
Glide 4.0
Hierarchické filtry a MC
Nízká
GOLD 3.1
GA
Nízká
ICM
MC
Nízká
QXP/Flo+
MC
Nízká
Surflex 2.1
PK s MA
Vysoká
Zkratka GA - genetický algoritmus; PK, přírůstková konstrukce; RD, rigidní doking; MC, Monte Carlo; MA, matching algoritmus. Vysoké hodnocení použitelnosti znamená screenig 100 000 molekul během několika dnů na stroji s 8 procesory. Metody s nízkou použitelností jsou vhodné pro screening 10 000 molekul za stejných podmínek, nebo vyžadují pro screening 100 000 molekul více počítačové síly (6, 14).
4.3.1. Zajištění flexibility ligandu Konformace molekuly v komplexu s proteinem se může značně lišit od konformace v roztoku. Obecně lze považovat stav v rozpouštědle za sadu konformací, z nichž malá skupina odpovídá navázané formě. Z tohoto důvodu je nezbytné vzít v úvahu během dokování flexibilitu ligandů. Metody, které se k tomuto účelu využívají lze rozdělit do tří skupin: (i)
Systematické
(ii)
Stochastické (náhodné)
(iii)
Přírůstková konstrukce (6)
24
(i) Systematické metody Tento druh metod rozlišuje hledání konformací malých organických molekul od jejich umístění do vazebného místa. Nejprve je provedena konformační analýza (pomocí programů jako např. Omega – http://www.eyesopen.com je připravena databáze mnoha konformerů jedné molekuly (6) ) a následně jsou konformery s nejnižší energií rigidně vloženy do vazebného místa s využitím tvarové komplementarity (FRED, FTDock, ADAM (14)), případně s pomocí přiřazovacího algoritmu (LIADEUS, LIGIN, SANDOCK, jehož mechanismus ilustruje obrázek 8) využívající farmakoforních modelů (5). Hlavní předností těchto postupů je rychlost, protože jejich prediktivní síla je redukována, jestliže konformace ligandu nejsou plně rafinované. Z tohoto důvodu je obtížné nalezení správného vazebného módu resp. přiřazení přesného skóre. Právě rychlost předurčuje tyto metody k selekci menší skupiny molekul z extrémně rozsáhlých databází (14).
Obrázek 8. Schematická reprezentace přiřazovacího algoritmu v kontextu dokování rigidního ligandu (14).
25
(ii) Stochastické metody Většina dokovacích metod používá k prozkoumání flexibility ligandů stochastické metody umožňující optimalizaci konformace molekul během dokování. Počet možných variant konformerů je přímo závislý na množství volně rotujících vazeb přítomných v ligandu a z tohoto důvodu jsou tyto metody náročné na výpočetní sílu. Existuje celá řada metod umožňujících náhodné hledání konformace molekul, avšak mezi nejpoužívanější se řadí genetický algoritmus (AutoDock, DARWIN, DIVALI, GOLD (14)) a Monte Carlo (ICM, MCDOCK, DockVision, Slide (14)) (6). Genetický algoritmus je založen na Darwinově teorii evoluce (obrázek 9). Celkové řešení (vazebný mód) je představováno chromozomem, který sestává z mnoha genů. Geny kódují jednotlivé torzní úhly, rotační a translační stavy molekul, apod. Konformace ligandu se vyvíjejí přenosem genetické informace (reprodukcí), který podléhá genetickým operátorům mutace a křížení. Pro selekci nové generace je nejčastěji využíváno “přežití nejsilnějšího”, znamenající výběr konformací s nejnižší energií (14).
Obrázek 9. Schematická reprezentace genetického algoritmu v kontextu dokování flexibilního ligandu (14).
26
Metoda Monte Carlo postupně modifikuje vazebný mód ligandu prostřednictvím náhodné rotace vazeb, translace a/nebo rotace rigidních částí molekuly (obrázek 10). Získaná konformace je hodnocena a pokud má nižší energii tak je přijata, v případě vyšší energie může být přijata nebo odmítnuta na základě specifických kritérií (14).
Obrázek 10. Schematická reprezentace metody Monte Carlo v kontextu dokování flexibilního ligandu (14).
(iii) Přírůstková konstrukce Další používanou variantou zkoumání flexibility molekul je přírůstková konstrukce zahrnující rozštěpení testované látky na malé fragmenty, které jsou následně sestaveny ve vazebném místě v původní molekulu (6). V sestavování existují dva přístupy: (i)
jeden z fragmentů je použit jako “kotva” a rigidně umístěn (např. na základě výše popsaného přiřazovacího algoritmu) do vazebného místa, ostatní části jsou připojovány flexibilně a je u nich zjištěna energeticky nejvýhodnější pozice (obrázek 11)
(ii)
fragmenty jsou na základě komplementarity nezávisle vloženy do různých míst vazebného místa a následně spojeny
Nejpoužívanější program využívající první metodu je FlexX, druhá metoda je implementována v programu DOCK (13).
27
Obrázek 11. Schematická reprezentace přírůstkové konstrukce použité v programu FlexX (14).
Všechny výše popsané metody prokázaly úspěch v předpovědi vazebných módů testovaných ligandů, avšak žádná nebyla identifikována jako univerzální. Přesnější výsledky než u jednotlivých přístupů byly pozorovány při použití konsensu. CONS_DOCK využívá spojení programů FlexX, GOLD a DOCK, případně AutoxX kombinující AutoDock a FlexX či FITTED spojující genetický algoritmus s matching algoritmem (14).
4.3.2. Skórovací funkce Po vytvoření jakékoliv konformace ligandu ve vazebném místě je nutné ji ohodnotit jednak vzhledem k ostatním konformacím téhož ligandu a také vzhledem k jiným molekulám v databázi (6). SF mají tedy dvojí funkci – řídí dokování a předpovídají vazebnou afinitu finálního vazebného módu (14). Ten lze charakterizovat vazebnou resp. disociační konstantou, případně odvozenými hodnotami inhibiční koncentrace IC50 (1). Jak je popsáno výše, v dnešní době existuje více než 30 těchto funkcí, které můžeme rozdělit do tří skupin: funkce založené na fyzikálních principech (silová pole), empirické funkce a funkce založené na znalostech (14).
28
(i) Funkce založené na silových polích Silová pole byla původně vyvinuta pro napodobení konformačního chování, termodynamických a kinetických vlastností malých molekul a makromolekul. Při aplikaci na nekovalentní vazbou tvořený komplex protein-ligand tyto metody významně přeceňují vazebnou afinitu (14). Ovšem při doplnění o počítačově náročné metody jako např. porucha volné energie či termodynamická integrace se tyto SF při odhadování vazebných afinit jeví jako přesné (5, 14). Běžně dochází ke kombinování parametrů (matematických výrazů) silových polí s parametry empirických SF (např. AutoDock, DOCK a RankScore funkce využívají počítání elektrostatické nebo van der Waalsovy interakční energie pomocí silového pole AMBER) (14).
(ii) Empirické SF Tyto funkce využívají při hodnocení energetiky vázání ligandu rozdělení celkové volné vazebné energie na jednodušší, měřitelné příspěvky odpovídající vodíkovým vazbám, hydrofobním interakcím, změnám entropie či interakcím s kovy (obrázek 12) (6, 14).
Obrázek 12. Typický tvar empirické SF (14).
Slovo empirický v názvu těchto funkcí zdůrazňuje to, že na rozdíl od silových polí je každý koeficient ve výše zmíněné rovnici odvozen regresí známých vazebných energií různých protein-ligandových komplexů (12, 14). Empirické SF jsou velmi rychlé a proto se staly součástí mnoha dokovacích programů (6). Mezi nejčastěji používané funkce patří ChemScore, která je implementována např. v programech GOLD
či
FRED
(14).
Nevýhodu
ovšem
představují
nekonzistentní
a
nereprezentativní kalibrační data pro vývoj regresních modelů, která mohou vést k četným problémům (12, 13).
29
(iii) Funkce založené na znalostech SF založené na znalostech byly vyvinuty ze statistické analýzy známých krystalových struktur protein-ligandových komplexů. Tyto studie ukázaly rozložení typů atomových párů mezi proteiny a ligandy, ze kterého byl následně odvozen potenciál (energetická funkce) tohoto páru. Vazebná energie modelovaného komplexu je dána sumou všech volných energií interagujících párů atomů proteinu a ligandu, které leží ve sféře o definované vzdálenosti (6, 14). Výhodou těchto metod je nenáročnost na počítačovou sílu, což umožňuje jejich využití při prohledávání rozsáhlých databází (5). Na rozdíl od empirických SF nevyžadují znalost vazebných afinit a proto nejsou relativně omezeny dostupností vhodných dat (6). Přes veškerý pokrok stále neexistuje univerzální SF a z tohoto důvodu je nejčastěji využíváno simultánního spojení několika funkcí v tzv. konsensuálním skóre (12).
4.3.3. Dokovací programy Hlavním bodem procesu SBVS je výběr správného dokovacího balíku, tj. obsahujícího algoritmus k hledání vhodné konformace ligandu a skórovací funkce (2). Vzhledem k rychlému rozvoji obou těchto částí bylo nezbytné provést porovnání jejich úspěšnosti, k čemuž bylo v posledních letech zveřejněno mnoho studií. Ty porovnávaly populární programy ze dvou pohledů: (i)
identifikace nejlepšího programu pro specifický receptor
(ii)
hodnocení přesnosti programů v sadě proteinů (14).
Tyto studie sice umožňují náhled na faktory nejrůznějších programů jako přesnost, rychlost, použitelnost pro škálu proteinů, avšak ty by měly být pečlivě zváženy z několika důvodů: (i)
verze programů není v mnoha studiích specifikována a může se lišit,
(ii)
přesnost je závislá na nastavení a vyladění parametrů programů, a proto hlubší odborná znalost specifického programu může zkreslit studii,
(iii)
příprava receptorů a ligandů pro dokování vyžaduje znalost aktivního místa a pečlivé zvážení možných isomerů a protonačních stavů,
30
(iv)
použití root-mean-square deviation (RMSD) jako kritéria pro hodnocení úspěšnosti dokování je diskutabilní (24), proto Kroemer et al. představili „interaction-based accuracy classification (IBAC)“, které se ukázalo jako smysluplnější kritérium úspěchu (25),
(v)
často není zmíněn počítačový čas experimentu, přestože mnoho programů poskytuje různé stupně poměru rychlost/přesnost.
Také je vzájemně těžké srovnávat různé studie, protože se zabývají různými proteiny a sadami testovaných látek (14). Ve srovnání samostatných dokovacích programů Warren et al. ukázali, že jednak je jejich přesnost vysoce závislá na použitém proteinu a také, že žádný z 10 hodnocených programů výrazně nepředčil ostatní (obrázek 13 a 14) (26). Nicméně, v případě této studie mohou být MVP, Glide, GOLD a FlexX považovány za vítěznou čtveřici, zatímco DOCK, DockIt a MOE reprodukovaly nativní pózu pouze v několika málo případech. Ostatní studie ukázaly, že Glide, GOLD a FlexX patří mezi nejlepší programy (14).
Obrázek 13. Úspěšnost dokovacích programů v závislosti na použitém receptoru (14).
31
Obrázek 14. Srovnávací studie dokovacích programů. Ve všech případech kromě studie Kontoyianni et al. bylo použito pro stanovení úspěšného dokování kritérium r.m.s.d <2 Å (14).
V kontrastu s dokovacímy programy, které často demonstrují podobné přesnosti, odhalily zveřejněné studie při porovnání samostatných skórovacích funkcí široké
32
spektrum přesností (obrázek 15). Bissantz et al. ukázali, že nezávisle na zvoleném dokovacím programu bylo GoldScore nejpřesnější SF jejich sady molekul. Wang et al. ukázali, že použití více SF místo jedné individuální je často lepší, avšak ne vždy významně (obrázek 16) (14).
Obrázek 15. Srovnání SF na základě Spearmanova koeficientu popisujícího schopnost reprodukovat seznam seřazených látek (14).
Obrázek 16. Srovnání Spearmanova koeficientu pro sadu SF a konsensus SF ukazuje zlepšení výsledků při použití více SF (14).
33
Obrázek 17. Srovnání komplexních nástrojů pro VS vzhledem k ideálním hodnotám (14).
Obrázek 17 ilustruje výsledky několika vybraných srovnávacích studií kompletních balíků programů. Z globálního pohledu lze vyvodit celkem tři závěry. Za prvé žádný z programů pro SBVS není univerzální, protože přesnost je vysoce závislá na typu proteinu. Za druhé, dodnes zatím žádný z programů neposkytuje konzistentně lepší výsledky než ostatní programy a za třetí všechny programy vyjma MOEDocku poskytují dostatečné obohacení v listu aktivních látek (14). Velmi zajímavá je studie Kellenbergera et al., kteří hodnotili 8 dokovacích programů (DOCK, FlexX, FRED, Glide, GOLD, Slide, Surflex a QXP) pro jejich schopnost reprodukce PDB krystalových struktur o vysokém rozlišení (27). Zároveň popsali silné a slabé stránky těchto programů na základě fyzikálně-chemických vlastností protein-ligandového komplexu (tabulka 5).
34
Tabulka 5. Hodnocení programů na základě fyzikálně-chemických vlastností protein-ligandového komplexu. Program
Silné stránky
Slabé stránky
Malá vazebná místa DOCK
Flexibilní ligandy
Otevřené dutiny
Velmi polární ligandy
Malé hydrofobní ligandy
FlexX
Malá vazebná místa
Velmi flexibilní ligandy
Malé hydrofobní ligandy
Velká vazebná místa FRED
Flexibilní ligandy
Malé, polární, zanořené ligandy
Malé hydrofobní ligandy Vysoká rychlost
Glide
GOLD
Slide
Flexibilní ligandy
Polární ligandy
Malé hydrofobní ligandy
Nízká rychlost
Malá vazebná místa
Velmi polární ligandy
Malé hydrofobní ligandy
Ligandy ve velkých dutinách
Flexibilita bočních řetězců
Citlivost na vstupní koordináty ligandů
Velké a otevřené dutiny Surflex
Malá vazebná místa
Nízká rychlost pro velké ligandy
Velmi flexibilní ligandy
QXP
AutoDock
Optimalizace známých
Citlivost na vstupní koordináty ligandů
vazebných módů Rigorózní silové pole založené na úplném
Ligandy s více než 15 torzními
termodynamickém modelu
stupni volnosti
35
4.4. Hodnocení komplexů Metody SBVS přináší obrovské množství dat zahrnujících předpokládaný vazebný mód každé testované látky a odhad její vazebné afinity. Bez další analýzy by bylo snadné vzít seznam látek pro další testování, který by byl založen čistě na výsledcích VS. Toto není možné z důvodu nepřiměřeného odhadu vazebné afinity skórovacích funkcí. Proto existuje řada strategií vedoucích k minimalizaci falešně pozitivních výsledků a řazení správných molekul na prvních místech seznamu testovaných látek (6).
(i) Dodatečné skórování Populární strategií, která se snaží prostřednictvím lineární kombinace jednotlivých výsledků těžit ze silných stránek několika skórovacích funkcí je tzv. konsensuální skórování. Finální skóre tedy charakterizuje frekvenci výskytu specifické molekuly v pořadí nejlépe hodnocených látek každou SF (13). Problémem SF je zahrnutí příspěvku van der Waalsových interakcí, které podporuje ligandy s větší molekulovou hmotností, protože mají větší počet atomů interagujících s cílovým receptorem. Řešení v podobě úpravy energetického skóre založeném na celkovém počtu těžkých atomů představili Pan et al. (28). Další zlepšení v porovnání mnoha potenciálních ligandů představili Guy Vigers a James Rizzi (29). Jejich jednoduchá statistická korekce „Multiple Active Site Corrections“ (MASC) počítá dokovací skóre každého ligandu pro sérii kontrolních míst. Výhodou této metody je fakt, že zmíněná korekce spolupracuje s dvěma dokovacími programy (FlexX a GOLD) a četnými SF. Rastelli et al. vyvinuli další přesný nástroj k úpravě dat získaných dokováním – „binding estimation after refinement“ (BEAR) (30). Tato nová automatizovaná procedura umožňuje konformační vylepšení vazebných módů prostřednictvím metod molekulové dynamiky, které je následováno přesnou predikcí volných vazebných energíí využívající MM-PBSA, resp. MM-GBSA („Molecular mechanics Poisson– Boltzmann surface area“, resp. „Molecular mechanics generalized Born Charges surface area“). Výpočet pomocí MM-PBSA tedy kombinuje molekulární mechanické energie (MM) s Poisson-Bolztmanovým modelem spojitého prostředí pro polární solvataci (PB) a konečně se členem charakterizujícím solventu přístupný povrch (SA). Všechny tyto výpočty jsou počítačově náročné a proto byly pro zjednodušení 36
vyvinuty příbuzné postupy, jako např. lineární interakční energie (LIE) či výše uvedený MM-GBSA (31).
(ii) Geometrická analýza Tato metoda zahrnuje výpočty ke stanovení komplementarity povrchu proteinu a každé navázané molekuly, resp. procenta povrchu ligandu, který se neúčastní interakcí s proteinem a nakonec ke stanovení celkového množství oblasti ligandu a proteinu zanořené v komplexu. Další možnou variantou této analýzy je prozkoumání důležitých strukturních aspektů protein-ligandového komplexu, jako např. požadavky specifických vodíkových vazeb. Před vlastním výběrem molekul pro experimentální testování jsou látky kontrolovány vizuálně, což zaručí smysluplnost interakcí mezi proteinem
a
ligandem.
K tomuto
účelu
slouží
např.
program
VIDA
(http://www.eyesopen.com/products/applications/vida-vivant.html) umožňující vizuální i grafickou analýzu rozsáhlého seznamu látek (6).
(iii) „Structural Interaction Fingerprint“ (SIFt) Dalším přístupem je selekce pouze těch orientací testovaných ligandů, které vytváří s receptorem specifické kontakty. SIFt algoritmus spočívá v generaci 1D binárního řetězce ze známých 3D strukturních informací protein-ligandového komplexu (7). Každý takovýto “otisk prstu“ reprezentuje strukturní interakční profil komplexu a může být
využit
k organizaci, analýze či vizualizaci velkého
zakódovaných v komplexu (32).
37
množství
informací