Dokkolás: mit, hogyan, mivel?
Grolmusz Vince egy. tan. ELTE Matematikai Intézet & Uratim Kft.
Uratim Kft. &
Iván Gábor és Szabadka Zoltán
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
2
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
3
Bevezetés: In silico gyógyszerkutatás
Virtuális gyógyszerkutatás: labor helyett számítógéppel. Ma még nem megy:
Modellek (fehérje szerk.) nem pontosak; Módszerek: közelítőek, így pontatlanok Arra jó, hogy ötleteket adjon, illetve hogy szűkítse a vizsgálandó molekulák számát.
Uratim Kft. & 2010.12.11.
4
Honnan szedjük a célpontokat?
Konzultálunk biológusokkal, mit érdemes támadni (ezek többnyire fehérjék);
23 000 fehérjét kódoló humán gén van, ennél több fehérje. 200-300 ma használt célpont van (!)
Keresünk a fehérjehálózatban fontos célpontot (következő előadáson).
Uratim Kft. & 2010.12.11.
5
Célpont struktúrája:
Fehérje 3D struktúra Legjobb forrás: A PDB (Protein Data Bank) Annotált változatok: PDBSum Wiki változat: wikipdb.org PDB javító, elemző program: decomp.pitgroup.org
Uratim Kft. & 2010.12.11.
6
Honnan szedjük a kismolekulákat?
Jó lenne: valódi drogkönyvtárakból. Baj van: Nagy gyáraknak van ilyen; Kicsik azt állítják, hogy van nekik ilyen, de … Miért nehéz fizikailag fenntartani több százezer molekulát?
Uratim Kft. & 2010.12.11.
7
Virtuális (in silico) könyvtárak
Miért jó? Nem romlik meg, Könnyen megosztható Nem kell fizikailag megvenni, csak azt, ami jó. A leghíresebb ilyen a ZINC (UCSF, Shoichet Lab); 13 millió megvásárolható molekulát tartalmaz
Uratim Kft. & 2010.12.11.
8
A ZINC egy oldala
Uratim Kft. & 2010.12.11.
9
Bevezetés: a dokkolási feladat Adott: egy fehérje és egy kismolekula (ligand) háromdimenziós térszerkezete. Szeretnénk számítógépes szimulációval modellezni a fehérje és a ligand vizes oldatbeli kölcsönhatását: (1) megjósolni a fehérje-ligand komplex képződése során keletkező szabadenergia-változást, és (2) megjósolni a fehérje-ligand komplex térszerkezetét. Két alapvető részfeladat: „Scoring”: A ligand adott konformációjához egy energiaérték rendelése (a fehérjét merevnek fogjuk tekinteni)
Uratim Kft. &
• Dokkolás: A fenti energiafüggvény minimalizálása a ligand konformációinak terében 2010.12.11.
10
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
11
A receptor és a ligand modellezése
Receptoratomok attribútumai: Atom típusa: { H, C, N, O, S, P } Receptoratom koordinátái: 3D vektor Partial charge O és H atomokhoz további paraméterek az energiafüggvény hidrogénhíd-kötéseket modellező tagjához (nemkötő elektronpárok elhelyezkedése stb.) Ligand: Atomtípusok: { H, C, N, O, S, P, F, Cl, Br, I} Ligandatom koordinátái Kötések típusa:
{ forgatható, nem forgatható }; (hányszoros; aromás-e; …) forgatható kötések = amelyek legalább egy nehézatomot forgatnak, és mindkét végpontjuk legalább 2-fokú ponthoz (atomhoz) csatlakozik
Uratim Kft. & 2010.12.11.
12
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
13
A dokkoláshoz használt energiafüggvény
Uratim Kft. & 2010.12.11.
14
A dokkoláshoz használt energiafüggvény 1.: Lennard-Jones potenciál
Szumma: a fehérje és a ligand összes lehetséges nehézatompárjára (persze úgyis csak az egymáshoz aránylag közeliek számítanak)
Szénatomhoz kapcsolódó H-atomok: külön atomtípusként
Az L-J potenciál rij-től, azaz a két atom távolságától függ
Az A és B együtthatók értéke a két atomhoz tartozó van der Waals sugaraktól függ
Uratim Kft. &
Kb.: hol legyen az L-J potenciálfv. minimumhelye 2010.12.11.
15
A dokkoláshoz használt energiafüggvény 2.: Hidrogénhíd-kötések
Nagy elektronegativitású poláris atom ( = akceptor) és hidrogén, vagy más poláris atom ( = donor) között jön létre Erőssége nemcsak a résztvevő atomok távolságától, de a hidrogénhidat alkotó funkciós csoportok térbeli helyzetétől is függ Szögfüggő tényező A Lennard-Jones potenciálhoz hasonló függvény, annál gyorsabban konvergál a nullához +∞-ben.
Uratim Kft. &
2010.12.11.
16
A dokkoláshoz használt energiafüggvény 3.: Elektrosztatikus kölcsönhatás
qi, qj: „partial charge”: olyan pontszerű töltések, amelyeket az egyes atomok pozíciójában elhelyezve a keletkező elektrosztatikus tér jól közelíti a valósat Az oldószernek az elektrosztatikus potenciált befolyásoló hatása távolságfüggő dielektromos állandó bevezetésével vétetik figyelembe (ε), bővebben itt nem részletezzük
Uratim Kft. & 2010.12.11.
17
A dokkoláshoz használt energiafüggvény 4.: Torziós energia-tag
A fehérjéhez való kötés során a kismolekula a fehérje-ligand komplex részévé válik, ezáltal a forgatható kötések általi szabadsági fokai elvesznek; a ligand egy jól definiált konformációban stabilizálódik A ligand entrópiája emiatt csökken; a csökkenés mértéke arányos a ligand adott energiaszinten lehetséges mikroállapotai számának logaritmusával Minden forgatható kötés háromféle stabil állapotban létezhet az entrópiaveszteség éppen a forgatható kötések számával arányos
Uratim Kft. &
(az arányossági tényezőt pedig már belevettük a modellbe, azt itt nem kell még egyszer szerepeltetni) 2010.12.11.
18
A dokkoláshoz használt energiafüggvény 5.: Vízmolekulák „aggregált” figyelembe vétele
Uratim Kft. &
Az oldatbeli szabadenergiaváltozást modellezi (anélkül, hogy minden egyes vízmolekulával egyenként számolnunk kellene) Szumma: a fehérje összes nehézatomjából és a ligand összes szénatomjából álló atompárra
•Vi: „fragmental volume” (minden fehérjeatomhoz eltároltuk), •Sj: „solvation parameter” (minden ligandatomhoz rendelkezésre áll) A szummázás során a két fenti tényező szorzatát az aktuális atompár távolságának Gauss-függvényével súlyozzuk. 2010.12.11.
19
A dokkoláshoz használt energiafüggvény 6.: A ligand belső energiája
A ligand kovalens kötésekkel meghatározott geometriája a dokkolás során nem változik, így az alábbi szumma csak a ligand kovalensen nem kötő atompárjaira vonatkozik A ligand belső energiáját a molekulán belüli van der Waals kölcsönhatások összegével modellezzük:
Aij B ij E ( L ) = ∑ 12 − k r r i , j∈ L ij ij i
Uratim Kft. & 2010.12.11.
20
Az energiafüggvény előzetes számítása háromdimenziós rácson Mivel a fehérjét merevnek fogjuk majd tekinteni, elegendő lesz az alábbi 3D-s potenciálfüggvényeket egy 3D-s rács (grid) rácspontjaiban kiszámítanunk: • EtP (x) : egyetlen ligandatomnak a teljes fehérjével való interakciójának energiája (minden lehetséges ligandatomtípusra kiszámoljuk – ez kb. 10 atomtípus) • QP (x) : elektrosztatikus potenciál a fehérje környezetében A fenti mennyiségek használatával az energiafüggvény az alábbi alakba írható:
(
)
E( P, L) = ∑ E ( x j ) + q j QP ( x j ) + Etor Ntor tj P
j∈L Uratim Kft. & 2010.12.11.
21
Az energiafüggvény előzetes számítása háromdimenziós rácson
A rácson mintavételezett értékekből a függvényeket harmadrendű B-spline approximációval közelítjük (később részletesebben), ennek előnyei: Egy adott helyen (=ligandkonformációban) való kiértékeléshez csak kb. 100 szorzás több tízezer helyett Az energiafüggvényt ezzel egyszersmind kétszer folytonosan differenciálhatóvá tesszük Ezen kívül figyelembe kell venni a ligand belső energiáját is (már utaltunk rá, van der Waals-jellegű):
Aij B ij E ( L ) = ∑ 12 − k rij i , j∈ L rij i
Uratim Kft. &
2010.12.11.
22
A 3D rács (grid ) rácspontjai közötti függvényértékek approximálása
Uratim Kft. & 2010.12.11.
23
B-spline approximáció
Uratim Kft. & 2010.12.11.
24
B-spline approximáció
Az f függvényt egyenletes lépésközzel mintavételezzük, és a mintavételezési pontok között a bázisfüggvények segítségével (jobb oldali ábra ) approximáljuk Mivel az l lépésköz állandó, az (egyelőre egydimenziós) f függvényünket egyenletesen mintavételezzük; ekkor uniform Bspline approximációról beszélünk.
A B-spline-nal approximált függvény:
Uratim Kft. & 2010.12.11.
25
Harmadrendű uniform B-spline approximáció
Uratim Kft. & 2010.12.11.
26
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
27
A ligand konformációs terének paraméterezése A célfüggvény független változói (n+6 dimenziós*): • x0, y0, z0
A ligand helyvektora
• φ0, ψ0, θ0
A ligand orientációját jellemző szögek
• φ1, φ2, …, φn
A ligand forgatható kötései menti torziós szögek
i ˆ F ( x) = E( P, L( x)) + E ( L( x)) Aij Bij E ( L) = ∑ 12 − 6 rij i , j∈L rij i
*: A továbbiakban a függvény dimenziószámát n -nel jelöljük.
Uratim Kft. & 2010.12.11.
28
Egy lokális optimalizáló algoritmus általános struktúrája Bemenet: a függvény és a tér egy pontja Ciklus:
•Választunk egy irányt •Az aktuális pontból ebben az irányban végzünk egy 1D-s minimalizálást •Az új pont az így megtalált minimum lesz
Leállási feltétel:
Amíg a gradiensvektor normája „elég kicsi” nem lesz
Uratim Kft. & 2010.12.11.
29
Egy lokális optimalizáló algoritmus általános struktúrája Bemenet: a függvény és a tér egy pontja (a kiindulópont) Inicializálás:
p 0 = g 0 = −∇f (x 0 )
x k +1 = x k + α k p k Ciklus:
g k +1 = −∇f (x k +1 ) p k +1 = g k +1 + β k p k
Leállási feltétel:
g k +1 < ε f 1 + f (x)
Uratim Kft. & 2010.12.11.
30
Lokális optimalizálás konjugált gradiens módszer(ek)kel
Uratim Kft. &
Konjugált gradiens módszer (CGM): speciális lokális optimalizáló algoritmus, melynél az irányparamétert (β) az alábbiak szerint számoljuk ki (~korábbi irányt minden n+1-edik lépésben elfelejtjük):
Tétel (Fletcher, Rieves): ha az optimalizálásban részt vevő függvényünk kvadratikus, és a lépésköz paraméterét (α) úgy választjuk meg, hogy a keresési irányok páronként ortogonálisak legyenek, akkor a CGM algoritmus legfeljebb n Lépésben megtalálja a lokális optimumot. („Lépés” = n db „lépés” ☺)
Jelentősége: A B-spline-okkal approximált energiafüggvényünk kétszer folytonosan differenciálható a minimum környezetében Taylor-sorba fejthető az algoritmusunk „gyorsan” konvergál majd a lokális optimumhoz. 2010.12.11.
31
A globális optimum megtalálásához használt heurisztikák
Multi-Start (MS): véletlenszerűen sorsolt (mondjuk 1000 darab) ligandkonformációkkal indítjuk a lokális optimalizálást, és végeredményként a legkisebb energiájú megtalált lokális optimumot jelenítjük meg. Kompetitív Multi-Start (CMS): A MS kiegészítése az alábbi heurisztikákkal:
Uratim Kft. &
Csak néhány lépést engedünk meg lefutni a lokális optimalizálásokból Az aktuális konformációkat rendezzük energia szerint, és csak a legkisebb energiájú 10 %-ukat tartjuk meg Erre a 10%-ra tovább futtatjuk a lokális optimalizálást 10szer több lépésben Ha már csak egy konformáció marad, megállunk 2010.12.11.
32
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
33
A dokkolóprogram értékelése II.: A teszthalmaz validálása
Uratim Kft. &
A fehérje-ligand komplex teszthalmazban szereplő konformációja
A fehérje-ligand komplex valós konformációja: homodimer fehérje 2010.12.11.
34
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
35
Az in-silico screening munkafolyamat 3D fehérje-térszerkezet (PDB formátumban)
Dokkolóalgoritmus • B-spline approx.
Fehérje előkészítése „Receptor specification file”
Energiaszámítás
ZINC kismolekulaadatbázis
• Globális keresés • Lokális optimalizálás
(2-5 millió ligand)
Legjobb 1000 ligand Oldhatóság jóslása
3D energia-rács (grid) Uratim Kft. &
Inhibitor-jelöltek 2010.12.11.
36
A dokkolóprogram párhuzamos futtatása I.
Egy kismolekula dokkolása: néhány perc A jelenleg használt kismolekula-adatbázis (ZINC7.purchasable) mérete: kb. 2.5 millió kismolekula A dokkolóprogramot párhuzamosan futtatjuk egy tetszőleges számú és földrajzi helyű PC-t tartalmazó klaszteren:
Uratim Kft. &
Előre kiszámoljuk: .pdb .rsf grid Egyetlen központi szerver vezérli a dokkolást: grid és feladatok kiosztása, eredmények begyűjtése, dokkoló PC-k állapotának figyelése Utófeldolgozás: energia újraszámolása az eredeti energiafüggvénnyel, a legjobb k találat konformációjának legyártása .pdb formátumban 37 2010.12.11.
A dokkolóprogram párhuzamos futtatása II.
A dokkolást felügyelő gép (datamine.cs.elte.hu):
MySQL adatbázisban nyilvántartja…
A dokkolást befolyásoló paraméterek (nem teljes lista):
Uratim Kft. &
A teljes ZINC7 adatbázist A dokkolásra előkészített gépek IP címét, processzormagok számát, állapotát Dokkolási eredményeket
Lokális optimalizáláshoz sorsolt kezdőpozíciók száma Véletlen kezdőpozíciók sorsolásához használt véletlenszámgenerátort inicializáló szám (seed) (elméletben legalábbis) reprodukálható eredmények Mely ligandok szerepeljenek a dokkolásban Mely gépek dokkoljanak Az energiafüggvény együtthatói (… … stb.) 2010.12.11.
38
Uratim Kft. & 2010.12.11.
39
Néhány eredmény
Találatok az MTB
Phosphoribosyl Isomerase Uratim Kft. &
enzimén (PDB kód: 2bnt)
Találat az MTB dUTP diphosphatase enzimjén
2010.12.11.
40
Áttekintés 1.
(Bevezetés)
2.
A receptorfehérje és a ligand modellezése
3.
A kötési energia modellezése
4.
Optimalizálás a ligand konformációs terében
5.
A dokkolóalgoritmus értékelése
6.
Dokkolás PC-kből álló klaszteren
7.
(Összefoglalás)
Uratim Kft. & 2010.12.11.
41
További gondok:
Hardver elavul Megvannak a jó molekula-találatok a ZINC-ből. Ezt meg kell rendelni. Lehet, hogy nem tudnak szállítani; Szállítanak, de nem azt, vagy nem elég jó tisztaságban; Nem árt, ha van szintetikus kémiai háttér, és analitika is.
Uratim Kft. & 2010.12.11.
42
Ha komoly molekuláink vannak:
Jó minőségben, aránylag nagy mennyiségben gyártani kell; Elsődleges farmakológiai, hatásvizsgálatok: pár tíz mg; Pre-klinika: akár pár kg kell!
Itt már nem virtuális világ van…
Uratim Kft. & 2010.12.11.
43
Köszönöm a figyelmet!