Kinázgátlók szerkezet-hatás összefüggései Doktori értekezés
Szántai-Kis Csaba Semmelweis Egyetem Gyógyszertudományok Doktori Iskola
Témavezető:
Dr. Őrfi László egyetemi docens, Ph.D.
Hivatalos bírálók:
Dr. Héberger Károly tud. tanácsadó, D.Sc. Dr. Molnár László osztályvezető-h., Ph.D.
Szigorlati bizottság elnöke: Dr. Takácsné Novák Krisztina egyetemi tanár, D.Sc. Szigorlati bizottság tagjai: Dr. Idei Miklós tudományos tanácsadó, D.Sc. Dr. Keserű György Miklós főosztályvezető-h., D.Sc.
Budapest 2007
TARTALOMJEGYZÉK TARTALOMJEGYZÉK ...........................................................................................................................1 RÖVIDÍTÉSEK JEGYZÉKE ...................................................................................................................3 1.
BEVEZETÉS ......................................................................................................................................7 1.1. IRODALMI ÁTTEKINTÉS..................................................................................................................8 1.1.1. Számítógéppel támogatott gyógyszertervezési módszerek (CADD)......................................8 1.1.1.1. Célmolekula 3D szerkezetén alapuló tervezés................................................................................ 8 1.1.1.2. Ligandumok szerkezetén alapuló tervezés.................................................................................... 10 1.1.1.2.1. Adatbázisbányászat és hasonlósági keresés ....................................................................... 10 1.1.1.2.2. Farmakofór modellezés és lekérdezés................................................................................ 11
1.1.2.
QSAR ..................................................................................................................................11
1.1.2.1. Klasszikus vagy 2D-QSAR .......................................................................................................... 14 1.1.2.2. 3D-QSAR ..................................................................................................................................... 14 1.1.2.3. OECD ajánlások a QSAR modellek validálására [24].................................................................. 15 1.1.2.3.1. Jól meghatározott körülmények között vizsgált kölcsönhatás – Defined endpoint ............ 15 1.1.2.3.2. Egyértelmű modellezési algoritmus – Unambiguous algorithm......................................... 15 1.1.2.3.3. Meghatározott alkalmazhatósági tartomány – A Defined domain of applicability ............ 15 1.1.2.3.4. Alkalmas mértékrendszer az illesztésének, robusztusságnak, becslőképességnek meghatározására – An appropriate measures of goodness-of-fit, robustness and predictivity.................... 16 1.1.2.3.5. A hatásmechanizmus magyarázata, ha lehetséges – Mechanistic interpretation, if possible 16
1.1.3.
Kinázok ...............................................................................................................................17
2.
CÉLKITŰZÉSEK ............................................................................................................................20
3.
MÓDSZEREK ..................................................................................................................................21 3.1. FELHASZNÁLT SZOFTVEREK ........................................................................................................21 3.1.1. Concord ..............................................................................................................................21 3.1.2. Molecular Operating Environment (MOE) ........................................................................21 3.1.3. Dragon Plus 4.1..................................................................................................................21 3.1.4. Microsoft Excel...................................................................................................................21 3.1.5. ISIS/Base.............................................................................................................................22 3.1.6. CHED .................................................................................................................................22 3.1.7. PHP-MySQL.......................................................................................................................23 3.1.8. 3DNET4W...........................................................................................................................23 3.2. ELEKTRONIKUS KÖNYVTÁR ÉS SZERKEZETI-HATÁSTANI ADATBÁZIS ..........................................25 3.2.1. Elektronikus könyvtár .........................................................................................................25 3.2.2. Szerkezeti-hatástani adatbázis............................................................................................26 3.2.2.1. 3.2.2.2.
Hatástani adatok típusai................................................................................................................ 27 Hatástani adatokat egységesítő algoritmus ................................................................................... 28
3.3. QSAR MODELLEZÉS ....................................................................................................................30 3.3.1. Bemenő adatok hibaforrásai...............................................................................................30 3.3.2. Bemenő adatok kigyűjtése, előkészítése..............................................................................31 3.3.3. Molekulamodellezés............................................................................................................32 3.3.4. Molekulaleírók és számításuk .............................................................................................33 3.3.5. Ellenőrzési módszerek (validálás) ......................................................................................36 3.3.5.1. 3.3.5.2.
3.3.6. 3.3.7.
Belső ellenőrzés - Internal Validation .......................................................................................... 36 Külső ellenőrzés - External validation.......................................................................................... 38
Becslőképesség ellenőrzésére használt statisztikai mérőszámok ........................................39 Modelloptimalizálás – változó-kiválasztás .........................................................................41
3.3.7.1. Molekulaleírók becslőképessége .................................................................................................. 41 3.3.7.2. Előszűrő módszerek...................................................................................................................... 44 3.3.7.2.1. 1D statisztika...................................................................................................................... 44 3.3.7.2.2. 2D statisztika...................................................................................................................... 46 3.3.7.3. Automatikus változó-kiválasztási algoritmusok ........................................................................... 46
1
3.3.7.3.1. Szekvenciális algoritmus - SA ........................................................................................... 47 3.3.7.3.2. Genetikus algoritmus - GA ................................................................................................ 47 3.3.7.4. Molekulaleíró kombináció bank - MKB....................................................................................... 48 3.3.7.5. Függvényillesztő módszerek ........................................................................................................ 49 3.3.7.5.1. MLR – Többszörös lineáris regresszió (Multiple Linear Regression) [64] ........................ 49 3.3.7.5.2. PLS – Részleges legkisebb négyzetek módszere (Partial Least Squares) [59]................... 52 3.3.7.5.3. ANN – Mesterséges ideghálózatok (Artificial Neural Network) ....................................... 54
3.4. IMAP ESSZÉ OPTIMALIZÁLÁS ......................................................................................................58 3.4.1. Elméleti háttér ....................................................................................................................58 3.4.2. IMAP esszé általános menete .............................................................................................59 3.4.3. Esszék statisztikai jellemzői ................................................................................................59 3.4.4. IMAP esszé optimalizálás ...................................................................................................60 3.5. TESZTELENDŐ VEGYÜLETEK LOGISZTIKÁJA ................................................................................61 4.
EREDMÉNYEK ÉS MEGBESZÉLÉS ..........................................................................................63 4.1. ELEKTRONIKUS KÖNYVTÁR ÉS SZERKEZETI-HATÁSTANI ADATBÁZIS ..........................................63 4.1.1. Megbeszélés ........................................................................................................................63 4.2. KÜLSŐ ELLENŐRZŐHALMAZ KIVÁLASZTÁSA ...............................................................................63 4.2.1. Megbeszélés ........................................................................................................................66 4.3. KINÁZGÁTLÓK QSAR MODELLEZÉSE .........................................................................................66 4.3.1.1. 4.3.1.2.
4.3.2.
EGFR gátlás modell ..................................................................................................................... 67 Megbeszélés ................................................................................................................................. 75
Akt1 gátlás modell ..............................................................................................................77
4.3.2.1. Akt1 szakirodalmi modell ............................................................................................................ 78 4.3.2.1.1. Megbeszélés....................................................................................................................... 83 4.3.2.2. Akt1 szakirodalmi modell gátlási% hatóértékek nélkül................................................................ 84 4.3.2.2.1. Megbeszélés....................................................................................................................... 85 4.3.2.3. Akt1 modell szakirodalmi és belső adatok alapján ....................................................................... 85 4.3.2.3.1. Megbeszélés....................................................................................................................... 94 4.3.2.4. Akt1 modell gátlási% hatóértékeket nem tartalmazó szakirodalmi és belső adatok alapján......... 96 4.3.2.4.1. Megbeszélés....................................................................................................................... 97 4.3.2.5. Akt1 modellezés eredményeinek megbeszélése ........................................................................... 97
4.3.3. 4.3.3.1.
4.3.4. 4.3.4.1.
4.3.5. 4.3.5.1.
PDGFRβ gátlás modell ......................................................................................................98 Megbeszélés ............................................................................................................................... 102
CDK4 gátlás modell .........................................................................................................103 Megbeszélés ............................................................................................................................... 108
ROCK-II gátlás modell.....................................................................................................109 Megbeszélés ............................................................................................................................... 112
4.4. ESSZÉ FEJLESZTÉS, ANYAGLOGISZTIKA .....................................................................................113 4.4.1. Akt1 IMAP esszé beállítás ................................................................................................113 4.4.1.1. 4.4.1.2. 4.4.1.3. 4.4.1.4. 4.4.1.5. 4.4.1.6. 4.4.1.7.
4.4.2. 4.4.2.1.
S1 – Kezdeti paraméterek meghatározása .................................................................................. 113 S2 – IMAP „kötő oldat” optimalizálás ....................................................................................... 115 S3 – kináz puffer optimalizálás .................................................................................................. 115 S4 – ATP Km, app meghatározás .................................................................................................. 116 S5 – Reakcióidő és kináz koncentráció meghatározása .............................................................. 117 S6 – Optimalizált esszé validálása ismert inhibitorokkal............................................................ 118 Megbeszélés ............................................................................................................................... 118
Kimérés alkalmazás..........................................................................................................119 Megbeszélés ............................................................................................................................... 120
5.
KÖVETKEZTETÉSEK.................................................................................................................121
6.
ÖSSZEFOGLALÁS .......................................................................................................................123
7.
SUMMARY.....................................................................................................................................124
8.
IRODALOMJEGYZÉK ................................................................................................................125
9.
SAJÁT PUBLIKÁCIÓK JEGYZÉKE .........................................................................................134
10.
KÖSZÖNETNYILVÁNÍTÁS....................................................................................................136
2
RÖVIDÍTÉSEK JEGYZÉKE 2PL: 2 Parameter Logistic, 2 paraméteres logisztikus (formula) 3PLFB: 3 Parameter Logistic Fixed Bottom, 3 paraméteres logisztikus (formula) alsó plató rögzített az elméleti minimum értékhez 3PLFT: 3 Parameter Logistic Fixed Top, 3 paraméteres logisztikus (formula) felső plató rögzített az elméleti minimum értékhez 4PL: 4 Parameter Logistic, 4 paraméteres logisztikus (formula) 5-FAM: 5-Carboxyfluorescein, 5-Karboxifluoreszcein AD: Applicability Domain, alkalmazhatósági tartomány ANN: Artificial Neural Network, mesterséges ideghálózat ATP: Adenozin trifoszfát AV: average, átlag BP: Back Propagation, (hiba) visszafuttatás CADD:
Computer
Assisted
Drug
Design,
számítógéppel
támogatott
gyógyszerfejlesztés CDK: Cyclin Dependent Kinase, ciklin függő kináz CDK4: Cyclin Dependent Kinase 4, ciklin függő kináz 4 CoMFA: Comparative Molecular Field Analysis CoMMA: Comparative Molecular Moment Analysis CoMSIA: Comparative Molecular Similarity Analysis CSV: Comma Separated Value; vesszővel elválasztott fájlformátum DDE: Dynamic Data Exchange, dinamikus adatcsere DMSO: Dimetil-szulfoxid DSGA: Deep Search Genetic Algorithm, alaposabb genetikus algoritmus EGFR: Epidermal Growth Factor Receptor; epidermális növekedési faktor receptor ELISA: Enzyme-Linked ImmunoSorbent Assay, enzim kapcsolt immunszorbens esszé EV: External Validation, külső ellenőrzés/ellenőrző EVS: External Validation Set, külső ellenőrző halmaz FP: fluoreszcencia polarizáció
3
GA: Genetic Algorithm, genetikus algoritmus HEPES: 4-(2-hidroxietil)-1-piperazinetánszulfonsav HPLC-MS: High-performance Liquid Chromatography-Mass spectrometry HTML: HyperText Markup Language, hipertext jelölő nyelv HTS: High Throughput Screening, nagy áteresztőképességű tesztelés IC50: Inhibitory Concentration 50%; gátlási koncentráció 50%-os értéke IGF1R: Insulin-like Growth Factor I Receptor; inzulin-szerű növekedési faktor receptor 1 IMAP: Immobilized Metal Assay for Phosphochemicals, immobilizált fémion esszé a foszfortartalmú vegyületek kimutatására IR: Infrared, infravörös ISIS: Integrated Scientific Information System ITK: ismételt tanulás/kiértékelés JCAMP: Joint Committee on Atomic and Molecular Physical Data, IR, NMR, MS spektrumokat tároló fájlformátum, ami tartalmazhat egyéb adatmezőket is Ki: Egyensúlyi inhibitor disszociációs konstans Km: Michaelis-Menten konstans LKNM: Legkisebb négyzetek módszere LLS: Liquid Library Stock, oldat vegyülettár Log: dolgozatomban ez jelölés a tízes alapú logaritmust jelöli LOO: Leave One Out, egyszerre egyet kihagyó ellenőrzés MES: 2-(N-morfolino)-etánszulfonsav MKB: Molekulaleíró kombináció bank MLR: Multiple Linear Regression, többszörös lineáris regresszió MODd = a 3DNET4W szoftverben egy modellen belüli egy adott molekulaleíró fontosságát jelző mennyiség, a modell matematikai szerkezetéből származó tényező. MOL fájl: Az MDL Information System Inc. által fejlesztett fájlformátum MOL2: Sybyl (Tripos) szerkezettároló fájlformátuma MOPS: 3-(N-morfolino)-propánszulfonsav MS: Mass spectrometry, tömegspektroszkópia MTS: Medium Throughput Screening, közepes áteresztőképességű tesztelés
4
NDL: Normal Distribution Likeness, normál eloszláshoz való hasonlóság NMR: Nuclear Magnetic Resonance, magmágneses rezonancia OECD: Organization for Economic Co-operation and Development, Gazdasági Együttműködés és Fejlesztés Szervezete PAS: Predictive Ability Scoring, molekulaleíró becslőképessége PC: Personal Computer, személyi számítógép PDF: Portable Data Format, platformfüggetlen dokumentumformátum PDGFR: Platelet Derived Growth Factor Receptor, vérlemezke eredetű növekedési faktor receptor PHP: PHP Hypertext Preprocessor, PHP hypertext előfeldolgozó nyelv pIC50: Az IC50 érték tízes alapú logaritmusának mínusz egyszerese PLS: Partial Least Square, részleges legkisebb négyzetek módszere PO: Perimeter Oriented, kerületi kiválasztás Q2: Cross-validated correlation coefficient, keresztkorrelációs együttható QSAR: Quantitative Structure-Activity Relationship, kvantitatív szerkezet-hatás összefüggés QSPR: Quantitative Structure-Property Relationship, kvantitatív szerkezettulajdonság összefüggés RRS: Repeated Randomly Split, ismételt véletlen felosztás RS: Random Selection, véletlen kiválasztás RTE: Repeated Trainings/Evaluations SA: Sequential Algorithm, szekvenciális algoritmus SD: Standard Deviation, szórás SDEP: Standard Deviation of Error of Prediction; a becslés standard hibája SDF: Structure Definition File; szerkezetleíró fájlformátum SEE: Standard Error of Estimate, reziduális szórás (a mérési adatok az illesztett függvénytől való eltérésének szórása) SMI: SMILES kódokat tároló fájlformátum SMILES: Simplified Molecular Input Line Entry Specification SQL: Structured Query Language; strukturált adatlekérdező programnyelv SSTE: Scout Scan Trial & Error, gyors szekvenciális molekulaleíró kiválasztó algoritmus
5
STE: Sequential Trial & Error, szekvenciális molekulaleíró kiválasztó algoritmus Tris: 2-amino-2-(hidroximetil)-1,3-propándiol US: Uniformly Distributed, egyenletes kiválasztás VEGFR: Vascular Endothelial Growth Factor Receptor; érendotél növekedési faktor receptor VS: Virtual Screening, virtuális szűrés VSS: Variable Subset Selection, (független) változó-kiválasztás, molekulaleíró kiválasztás WS: Work Set, munkahalmaz wwPDB: Worldwide Protein Data Bank, világméretű fehérje adatbázis XLS: Excel Sheet, Microsoft Excel alapvető fájlformátuma XYD file: a 3DNET4W szoftver alapvető fájlformátuma, ami tartalmazza a molekulaleírókat és a hatóértékeket
6
1. BEVEZETÉS Napjainkra a humán genom projekt befejezésének és a molekuláris biológiai módszerek fejlődésének köszönhetően egyre több betegségben azonosították a patológiás
folyamatokat
okozó
célmolekulákat.
Az
azonosított
és
validált
célmolekulákra már „csak” gyógyszert kell fejleszteni és a betegség gyógyíthatóvá válik, azonban az elmúlt években megfigyelhető folyamat, hogy világszerte egyre kevesebb originális gyógyszer került bevezetésre. A fejlesztési költségek növekedése miatt egyre nagyobb szükség van hatékonyabb gyógyszerkutatási és fejlesztési módszerekre. A gyógyszerkutatás felfedező fázisában – ahol a cél egy hatásos és optimális farmakokinetikájú vezérmolekula előállítása – a módszerek fejlesztésének egyik fő iránya olyan esszérendszerek megalkotása, amelyekkel nagymennyiségű vegyületet gyorsan és hatékonyan lehet tesztelni. A kifejlesztett technikák közül leginkább a fluoreszcencián alapuló mérési rendszereket alkalmazzák a közepes/nagy áteresztőképességű
tesztelések
(MTS/HTS)
módszereiként.
Jelenleg
ezek
az
esszérendszerek szolgáltatják a biológiai adatok túlnyomó többségét a gyógyszerkutatás felfedező fázisában, melyek feldolgozása külön tudományággá nőtte ki magát. A módszerek fejlesztésének másik fontos iránya a gyógyszerhatással kapcsolatos folyamatok számítógéppel támogatott modellezése. Az elkészített számítógépes modellekkel egyrészt lehet értelmezni a ligandumok/hatóanyagok és a célmolekula közötti kölcsönhatásokat, másrészt a szintetizálandó és tesztelendő molekulák számát lehet csökkenteni, az utóbbi folyamatot virtuális szűrésnek (VS) nevezik. A számítógéppel támogatott gyógyszertervezés (CADD) egyik fontos ága a kvantitatív
szerkezet-hatás
összefüggések
(QSAR)
módszere,
ami
akkor
is
alkalmazható, amikor a célmolekula 3D szerkezete kísérletesen nem határozható meg. Mai tudásunk szerint a molekuláris pathomechanizmusok nagy része sejten belüli jelátviteli folyamatok zavaraira vezethető vissza. A jelátviteli folyamatok kulcsszereplői a protein kinázok, ezért kiemelten indokolt a legmodernebb gyógyszerkutatási módszerek alkalmazása a kinázgátlók fejlesztésére.
7
1.1. Irodalmi áttekintés Ebben
a
fejezetben
röviden
áttekintem
a
számítógéppel
támogatott
gyógyszertervezési módszerek, a QSAR és a kinázok szakirodalmát. 1.1.1. Számítógéppel támogatott gyógyszertervezési módszerek (CADD) A CADD módszereit két nagy csoportra lehet felosztani: a célmolekula 3D szerkezetén alapuló tervezés, valamint a ligandumok szerkezetén alapuló tervezés, ez esetben a célmolekulán ható kismolekulák szolgálnak alapul a tervezéshez. A gyógyszertervezés felfedező fázisában használt molekula- vagy gyógyszertervezési módszereket és felhasználásukat az 1. ábra mutatja be.
1. ábra Gyógyszertervezési módszerek a gyógyszerfejlesztés felfedező fázisában [1].
Doktori munkámban alkalmazott kvantitatív szerkezet-hatás összefüggések (Quantitative Structure Activity Relationships, QSAR) módszere a ligandum alapú tervezés csoportjába tartozik, így a célmolekula 3D szerkezetén alapuló módszereket csak röviden mutatom be. 1.1.1.1.
Célmolekula 3D szerkezetén alapuló tervezés
A szerkezet alapú tervezés alapját tulajdonképpen P. Ehrlich alapozta meg, amikor kijelentette „Corpora non agunt nisi fixata” vagyis az anyag nem hat, hacsak nem kötődött. Ehrlich a receptort zárhoz, a kötődő molekulát (ligandumot) kulcshoz hasonlította [2, 3]. A biológiai hatás a célmolekula és a ligandum (hatóanyag) közötti
8
molekuláris felismerési folyamat eredménye, ebből következően a racionális megközelítés esetén szükséges a folyamat minőségi és mennyiségi leírása [4, 5]. A szerkezet alapú tervezés első lépése a célmolekula/célfehérje szerkezetének előkészítése. A későbbi VS-hez – a dokkoláshoz – nagy felbontású szerkezetre van szükség. Ennek meghatározása kétféle módon történhet: 1) Kísérleti úton: röntgen diffrakcióval vagy NMR segítségével lehet meghatározni a szerkezetet. Jelenleg az összes ismert fehérjének kb. 1-2%-ának van kísérletesen meghatározva a 3D szerkezete [6]. 2) Amennyiben a kísérletes meghatározás nem kivitelezhető, homológia modellezéssel is elő lehet állítani a szükséges 3D szerkezetet. Úgy becsülik, hogy az ismert fehérjék szekvenciáinak 56%-ára van lehetőség homológia modelleket generálni, azonban ezek minősége és felhasználhatósága a szűrővizsgálatokhoz korlátozott [4, 6]. A jelenlegi nagy átbocsátóképességű módszerek nem képesek kezelni a teljes fehérje szerkezetét, kezdeti feltételként igénylik az aktív hely megadását. Az aktív hely meghatározása történhet kísérleti úton: irányított mutációval (site directed mutagenesis), fehérje-ligandum komplex együttes kristályosítással; NMR segítségével; valamint elméleti módszerekkel, olyan algoritmusokkal amelyek a fehérjék felszíni üregeit érzékelik, de az azonosítás történhet fiziko-kémiai, geometriai molekulaleírók segítségével is [4]. Következő lépés a ligandum dokkolása a fehérje aktív helyére. A korai dokkoló algoritmusok a ligandumokat merev testként kezelték, manapság azonban az algoritmusok képesek figyelembe venni a ligandumok flexibilitását is. A ligandum és az aktív hely közötti létrejövő kölcsönhatásokat számszerűen jellemezni a kötődési szabadentalpia számításával lehet. A virtuális szűrés során a nagyszámú ligandum kötődési szabadentalpiája – elfogadható időtartam alatt – csak becsléssel határozható meg, erre szolgálnak a kiértékelő függvények (scoring function). A kiértékelő függvényeknek három csoportja van: erőtér alapú, empirikus és tudásbázis alapú. Univerzálisan alkalmazható kiértékelő függvény ma nem létezik, a becslések pontosságának javítására a különböző kiértékelő függvényeket kombinációban is szokták alkalmazni, amit konszenzus pontozásnak neveznek [4]. A szerkezet alapú tervezésnek mára számos sikeres alkalmazása ismert [4, 7, 8]. A módszer segítséget nyújt a vezérmolekula azonosításának folyamatában a HTS és a
9
ligandum alapú tervezés mellett. Korlátai: 1) a fehérje flexibilitás kezelése a dokkoló algoritmusokban, 2) értékelő függvények teljesítőképessége, 3) az informatika fejlődésével növekvő egyre olcsóbb számítási kapacitás ellenére még továbbra is jelentős hardveres és szoftveres beruházást igényelnek, 4) a fehérjéhez való kötődés szükséges, de nem elégséges feltétele a biológiai válasznak. 1.1.1.2.
Ligandumok szerkezetén alapuló tervezés
Számos esetben a célmolekula 3D szerkezetén alapuló tervezés eszközei nem alkalmasak vezérmolekula azonosításra és optimalizálásra, mivel a 3D szerkezetet nem lehet meghatározni vagy homológia alapján modellezni pl. a membrán receptorok esetében, amelyeket nagyon nehéz kristályosítani. Ilyen esetekben a ligandumok szerkezetén alapuló tervezés eszközeit lehet igénybe venni. Ezek a módszerek alapvetően az adott célmolekulán hatásos kismolekulák szerkezetéből indulnak ki [9]. A módszereket három csoportra lehet bontani: adatbázisbányászat és hasonlósági keresés, farmakofór modellezés, QSAR módszerek. Az előző két módszert az alábbi két alfejezetben rövidebben fejtem ki, a QSAR módszerek bemutatásával az 1.1.2 alfejezet foglalkozik. 1.1.1.2.1.
Adatbázisbányászat és hasonlósági keresés
Az adatbázisbányászat célja, hogy az adatokból nem triviális módon, implicit, előzőleg ismeretlen és potenciálisan hasznos információkat nyerjen ki. Az adatbázisbányászat felhasználja a gépi tanulás, a statisztika és az adatábrázolás módszereit, hogy a megtalálja és könnyen értelmezhetővé tegye az adatokban lévő információt. Az adatbázisbányászat segítséget nyújt a nagymennyiségű HTS adat értelmezésére és megjelenítésére. [10] A hasonlósági keresés azon a feltételezésen alapszik, hogy hasonló szerkezetű molekuláknak hasonló hatása van. Ez általában igaz, azonban vannak kivételek is, amikor kis szerkezeti módosítások különböző hatásokat mutatnak [11, 12, 13]. Fontos megjegyezni, hogy a (kémiai) hasonlóság relatív, alapvetően meghatározza a hasonlóság mérésére használt mértékrendszer. A hasonlósági keresés pl. a vállalati és kereskedelmi kémiai adatbázisokból történik. A keresőfeltétel lehet: ismert hatásos molekulák,
referenciamolekulák,
természetes
ligandumok,
kofaktorok,
hasonló
szerkezetű/funkciójú fehérjék ligandumai. A hasonlósági keresés folyamatában a
10
keresőfeltételben szereplő molekulát összevetik az adatbázis molekuláival és kiszámítják a hasonlóság mértéket [1, 14]. 1.1.1.2.2.
Farmakofór modellezés és lekérdezés
A farmakofór térbeli és elektrosztatikus tulajdonságok összessége, amelyek szükségesek egy adott célmolekulával az optimális szupramolekuláris kölcsönhatások kialakulásához, valamint a biológiai válasz kiváltásához vagy gátlásához. A farmakofór nem egy tényleges molekula vagy funkciós csoportok összessége, hanem csupán egy absztrakt koncepció. A farmakofórt az aktív molekulák „legnagyobb közös nevezőjének” lehet tekinteni. Farmakofór molekulaleírók: H-kötést, hidrofób és elektrosztatikus
kölcsönhatást
létesíteni
képes
zónák,
amelyeket
atomok,
gyűrűcentrumok és virtuális pontok határoznak meg [15]. A farmakofór modell az adott célmolekulára vonatkozóan releváns farmakofór molekulaleírókat és a közöttük lévő geometriai megkötések összességét tartalmazza. A farmakofór modelleken alapuló virtuális szűrés úgy történik, hogy szerkezeti adatbázisokból a modell alapján kiválasztják a megfelelő vegyületeket/ konformereket. 1.1.2. QSAR A
QSAR
történetének
pontos
kiindulópontját
nem
ismerjük,
alapjai
megközelítőleg 100 éven keresztül alakultak ki, az 1860-as évektől 1960-as évekig. 1868-ban A. Crum Brown és T. Fraser alkaloidok biológiai hatását tanulmányozták bázikus nitrogénjük metilálása előtt és után. Jelentős különbséget találtak a bázikus nitrogén és a kvaterner N-metil származékok között, a megfigyelésekből a következő konklúziót vonták le: a Φ fiziológiai hatás a C kémiai összetétel függvénye (1. egyenlet) [3, 16]. Φ = f(C) 1. egyenlet
Ma több ismeret áll rendelkezésre a gyógyszerek kémiai és biológiai sajátosságairól, mint a XIX. században, azonban az 1. egyenlet eredeti formájában nem alkalmazható, csak a biológiai hatásban történt változást (∆Φ) lehet korreláltatni a kémiai módosításokkal (∆C) (2. egyenlet). ∆Φ = f(∆C) 2. egyenlet
11
A XIX. század fordulóján egymástól függetlenül H. H. Meyer és C. E. Overton a narkózis mechanizmusának vizsgálata közben fedezték fel, hogy a semleges szerves vegyületek toxicitása és az olaj/víz fázisok közötti megoszlási hányadosuk között kapcsolat van [3, 17, 18]. Az 1930-as években vizsgálatok kezdődtek, hogy milyen összefüggés van a kémiai szerkezetek és a reakciósebességi, egyensúlyi állandó között. Az egyik legkiemelkedőbb L. P. Hammett munkája volt [3, 19]. 1960-as években nagy előrelépés történt C. Hansch, T. Fujita valamint S. M. Free Jr., J. W. Wilson munkásságának köszönhetően, tulajdonképpen elindult az, amit ma klasszikus szerkezet-hatás összefüggéseknek neveznek [3, 20]. Hansch megfigyelte hogy az oktanol/víz megoszlási hányados logaritmusa additív fiziko-kémiai tulajdonság, és a következő levezetést alkotta meg az aromás vegyületek lipofilitásának becslésére (3. egyenlet). log PR-X – log PR-H= πX
3. egyenlet
π = az X szubsztituens lipofilitás hozzájárulása a hidrogénhez, mint szubsztituenshez képest. A π érték szinte kizárólagosan oktanol/víz rendszerre vonatkozik. C. Hansch és T. Fujita további hozzájárulása a QSAR kialakulásához az volt, hogy a biológiai hatás leírására több fiziko-kémia paramétert kombináltak egy egyenletben (4. egyenlet). log 1/C = aπ +bσ+....+const. 4. egyenlet
C = moláris koncentráció, ami valamilyen biológiai hatást vált ki π = lipofilitás hozzájárulás σ = elektronikus Hammett konstans Ezzel a módszerrel – amit Hansch analízisnek neveztek el - számos in-vitro mért biológiai hatást tudtak modellezni [3, 20]. Hansch munkásságától függetlenül Free és Wilson 1964-ben publikáltak egy másik módszert a biológiai hatás modellezésére. Ma leginkább az 5. egyenlet formájában használják [3, 21].
12
log 1/C = Σai + µ 5. egyenlet
ai = az egyes szubsztituenseknek csoport-hozzájárulási értéke a biológiai hatáshoz µ = referenciaanyag számított biológiai hatása, ami általában a szubsztituálatlan származék A Hansch analízis megjelenésének idejében még csak néhány molekulaleíró létezett. A későbbiek során egyre több és több molekulaleírót publikáltak, fejlesztettek ki pl. kvantumkémiai, topológiai, térbeli, kötés kapcsolati, elektrotopológiai molekulaleírók [3]. A jelenleg használatos több ezer molekulaleíróról jó összefoglalást ad R. Todeschini, Handbook of Molecular Descriptors című könyve [22]. J. Topliss már 1972-ben rámutatott arra, hogy nemcsak a modellben felhasznált molekulaleírók nagy száma, hanem a kipróbálandó molekulaleírók nagy száma is nagyon megnöveli a véletlen korreláció esélyét [3, 23]. A QSAR modellezésben az egyik kulcskérdéssé a – független – változókiválasztás (Variable Subset Selection, VSS) vált – disszertációmban a változókiválasztás fogalma minden esetben a molekulaleírók, vagyis független változók kiválasztására vonatkozik. Nagyszámú molekulaleíró esetén változó-kiválasztásra célszerű globális optimum kereső módszereket használni. Ilyenek pl. genetikus algoritmus, Monte-Carlo szimuláció, szimulált megeresztés (simulated annealing) vagy tabu keresés [3]. A VSS-t illesztési statisztikák által irányítani nem célravezető, mivel egy jól illesztő modell meg még nem biztos, hogy jól is becsül. Ma már a legelfogadottabb módszer egy QSAR modell előrejelző képességének megállapítására a külső ellenőrzés, vagyis olyan molekulák mért értékeinek becslése, amelyeket nem használnak fel a modellezés során. Fontos azt is megadni, hogy milyen hatókörben alkalmazható az adott modell. A QSAR modellezés során a másik kulcskérdéssé
tehát
a
modellek
megbízhatóságának
és
becslőképességnek
meghatározása vált. A téma fontosságára utal, hogy a Gazdasági Együttműködés és Fejlesztés Szervezete, az OECD külön szakértői csoportot hozott létre ennek vizsgálatára és irányelvek meghatározására, a témával bővebben a 1.1.2.3 alfejezet foglakozik [24].
13
A QSAR modellezést két nagyobb csoportra lehet bontani: klasszikus vagy 2D QSAR és 3D QSAR. Az alapelvek mindkét esetben azonosak, vagyis olyan matematikai összefüggések azonosítása, amelyek kvantitatívan összekapcsolják a kémiai szerkezetet leíró független változókat a biológiai hatással. Az összefüggések keresése a legváltozatosabb regressziós és mintázatfelismerő technikákkal történhet. 1.1.2.1.
Klasszikus vagy 2D-QSAR
Eredetileg klasszikus QSAR modelleknek nevezték az olyan molekulaleírókból előállított modelleket, amelyek kiszámításához csak a molekulák 2D szerkezetét, illetve résszerkezetét vették alapul. Ma ez az elnevezés kissé megtévesztő lehet, mivel jelenleg számos olyan – klasszikus QSAR számításokban felhasznált – molekulaleíró kiszámítható, amihez a molekula 3D szerkezete szükséges. A szerkezet és a hatás közötti összefüggéseket lineáris és nemlineáris statisztikai módszerekkel vizsgálják. Doktori munkám során a klasszikus QSAR eszközeit használtam, amelyek részletes tárgyalása a Módszerek fejezetben található. 1.1.2.2.
3D-QSAR
Mivel a munkám során nem használtam fel a 3D-QSAR eszközeit, így csak rövid áttekintést adok a témában. A klasszikus QSAR gyengeségének tartják, hogy nem képes figyelembe venni a molekulák három dimenziós tulajdonságait pl. elhanyagolja a különböző konformerek vagy enantiomerek közötti különbséget; ezért a 3D-QSAR hatékonyabb módszer és jobb eredményeket szolgáltathat. Ez a feltételezés azonban nem minden esetben állja meg a helyét [25], valamint már megjelentek 3D szerkezeten alapuló, klasszikus QSARben használt molekulaleírók is. A legismertebb 3D-QSAR módszer a CoMFA (Comparative Molecular Field Analysis) elődje. A CoMFA analízis során egy próba-atom vagy molekula segítségével feltérképezik a vizsgálatba bevont molekulák sztérikus és elektrosztatikus mezőit. A kölcsönhatási energiákat az egyes rácspontokon meghatározzák, majd az így létrejött molekulaleírók és a hatás között PLS segítségével állítják elő a QSAR modellt. Az egyik kritikus pont a CoMFA analízis során a molekulák helyes egymásra helyezése, kis különbségek nagy változásokat okozhatnak a QSAR modellben. A másik kritikus pont a
14
bioaktív konformáció azonosítása [26, 27]. A CoMFA sikere után számos 3D-QSAR módszert fejlesztettek ki, amelyek részben kiegészítik a CoMFA-t, részben orvosolják hiányosságait pl. CoMMA, CoMSIA. 1.1.2.3.
OECD ajánlások a QSAR modellek validálására [24]
1.1.2.3.1.
Jól meghatározott körülmények között vizsgált kölcsönhatás – Defined endpoint
A vizsgált kölcsönhatás lehet – kémiai szerkezetek által okozott – bármilyen megmérhető és modellezhető fiziko-kémiai, biológiai vagy környezeti paraméter. Ez az alapelv biztosítja a modell által becslendő kölcsönhatás átláthatóságát, mivel egy adott kölcsönhatást
különböző
mérési
módszerekkel
és
körülmények
között
lehet
meghatározni. Ideális esetben a QSAR modellek homogén adathalmazból készülnek, ahol a mérés egy adott protokoll szerint történt. Ez a gyakorlatban ritkán valósítható meg, rendszerint a különböző forrásból származó eredményeket kombinálni szokták. Mért kölcsönhatások lehetnek: enzim gátló hatás, vízoldhatóság (LogKw), oktanol-víz megoszlási hányados (LogP), stb. 1.1.2.3.2.
Egyértelmű modellezési algoritmus – Unambiguous algorithm
Ez az alapelv biztosítja, hogy a modellezési algoritmus leírása átlátható legyen. Az eredmények mások által is reprodukálhatóak legyenek, valamint a felhasználók megérthessék, hogy a becslés hogyan történt. Az algoritmus ebben az értelemben a vizsgált kölcsönhatás és a kémiai szerkezeteket leíró molekulaleírók közötti kapcsolatot megadó matematikai modell vagy tudásbázis alapú szabályrendszer. A legtöbb modellezési algoritmus egyértelmű statisztikai módszereken alapul. A kereskedelmi szoftverek algoritmusai nem mindig nyilvánosak. Az algoritmusok egyértelmű leírása nem feltétlenül jelenti az algoritmus működéséhez szükséges matematikai, statisztikai módszerek részletekbe menő ismertetését. 1.1.2.3.3.
Meghatározott alkalmazhatósági tartomány – A Defined domain of applicability
A QSAR összefüggések leegyszerűsített modellek, ezért csak megszorításokkal képes megbízható előrejelzést adni a kémiai szerkezetre, fiziko-kémiai paraméterekre és hatásmechanizmusra vonatkozóan. Egy QSAR modell alkalmazhatósági tartománya (Applicability Domain, AD) az a kémiai- és hatástani tér, ahol a modell adott
15
megbízhatósággal képes előrejelzéseket adni. Az AD-n kívül eső becsléseket kevésbé megbízhatónak kell tekinteni A modell statisztikai mérőszámai – illesztési képesség, robusztusság, előrejelző képesség – csak akkor értelmezhetők helyesen, ha olyan molekulákra alkalmazzák, amelyek belül esnek az alkalmazhatósági tartományon. Fontos megjegyezni, hogy még a jól definiált AD-n belül eső becslések sem feltétlenül megbízhatóak, mivel a definiált szerkezeti, fiziko-kémiai tartományon belül eső molekulák teljesen más módon is kifejthetik a hatásukat. 1.1.2.3.4.
Alkalmas mértékrendszer az illesztésének, robusztusságnak, becslőképességnek meghatározására – An appropriate measures of goodness-of-fit, robustness and predictivity
Ez az alapelv hangsúlyozza, hogy statisztikai módszerekkel ellenőrizni kell mind a modell teljesítőképességét a tanulóhalmazon (illesztő-képesség, robusztusság), mind becslőképességét egy külső halmazon. A becslésnek nincs olyan abszolút mérőszáma, ami minden célra megfelelne. A téma részletes kifejtését a 3.3.5 és 3.3.6 alfejezet tartalmazza. Disszertációmban egy modell robusztussága azt jelenti, hogy a tanulóhalmaz molekuláinak megváltozására mennyire változnak a modell paraméterei és ebből következően a modell – belső – becslőképessége. Minél robusztusabb egy modell, annál kevésbé befolyásolja a tanulóhalmaz változásai a paramétereket és a becslést. A robusztusság belső ellenőrzés statisztikai mérőszámaival jellemezhető, pl. SDEPbelső, Q2belső. 1.1.2.3.5.
A hatásmechanizmus magyarázata, ha lehetséges – Mechanistic interpretation, if possible
A QSAR modellezésben alkalmazott statisztikai módszerek, amelyek megteremtik a kémiai szerkezet és hatás közötti kapcsolatot, nem helyettesíthetik a már meglévő kémiai, biológiai ismereteket. Amennyiben sikerül igazolni, hogy a QSAR modell konzisztens más alapvető természettudományos folyamatokkal, növeli a modell átláthatóságát és a becslések megbízhatóságát.
16
1.1.3. Kinázok Kinázoknak nevezik a foszforilációs enzimeket. Legkiemelkedőbb jelentőségűek a protein kinázok, amelyek az ATP γ-foszfátcsoportjának fehérjékre vagy peptidekre történő átvitelét segítik elő. Ezt a foszforilálódási folyamatot tekintik a jelátvitel fő mechanizmusának. A sejtfelszíni receptorokon keresztül érkező extracelluláris jelek különböző fehérje foszforilációs kaszkádok közvetítésével jutnak el a sejtmagba. Az elmúlt
évek
kutatási
eredményei
alapján
kimutatható,
hogy
a
molekuláris
patomechanizmusok nagy része intra- és intercelluláris kommunikációs folyamatok zavaraival állnak összefüggésben. A jelátviteli folyamatok sérülésének következtében különböző kórképek alakulhatnak ki pl. a daganatos, gyulladásos megbetegedések illetve az érelmeszesedés [27]. Az onkogének legtöbbje protein kinázokat kódol. Eddig ~ 530 protein kinázt írtak le a szakirodalomban. A protein kinázokat alapvetően két nagy csoportra lehet bontani: tirozin és szerin/treonin kinázok. Ezeket a csoportokat tovább lehet bontani receptor és nem-receptor protein kinázokra (1. táblázat). 1. táblázat Protein kinázok csoportosítása és néhány fontosabb képviselőjük. Munkám során a vastagon szedett kinázok gátlásnak modellezésével foglalkoztam.
Receptor tirozin kinázok
Receptor szerin/treonin kinázok
Epidermális növekedési faktor receptor (EGFR) Fibroblaszt növekedési faktor receptor (FGFR) Érendotél növekedési faktor receptor (VEGFR) Vérlemezke eredetű növekedési faktor receptor (PDGFRβ) Hepatocita növekedési faktor receptor (c-Met, HGFR) Kolónia stimuláló faktor receptor (CSFR) Ideg növekedési faktor receptor (NGFR) Inzulin-szerű növekedési faktor receptor (IGFR) Inzulin receptor (InsR)
Transzformáló növekedési faktor receptor (TGF)
Nem-receptor szerin/treonin kinázok cAMP-függő protein kináz (PKA) Foszfoinozitol-3-kináz (PI3K) Aurora kinázok (pl. Aurora A) Ciklin-függő kinázok (pl. CDK1, CDK2, CDK4) Mitogén-aktivált protein kinázok (pl.Erk, p38) Protein kináz-C (PKC) Janus kináz család (Jak) IκB kináz család (B sejtek kappa könnyű lánc gén enhanszerének inhibitora) Rapamicin emlős célmolekulája (mTor)
Nem-receptor tirozin kinázok Rous szarkóma vírus protein (Src) és családja pl. Limfocita specifikus protein tirozin kináz (Lck) , proto-onkogén protein tirozin kináz fyn (Fyn) Abelson patkány leukémia vírus v-abl onkogén homológ (Abl), BCR-Abl fúziós kináz C-terminális Src kináz (CSK)
Rho-függő protein kináz (ROCK) Protein kináz B (PKB/Akt)
A receptor protein kinázok katalitikus doménjének és a nem-receptor kinázok szerkezeti felépítése hasonló: egy kisebb N-terminális lebenyből és egy nagyobb Cterminális lebenyből áll, a két lebeny egy hajlékony hurokkal van összekötve, a kináz
17
aktív helye a két lebeny határfelületén található. Ezt a területet szokták zsanér (hinge) régiónak is nevezni. Az N-terminális lebeny elsősorban β-redőzőtt lemez másodlagos szerkezeti elemeket tartalmaz, a C-terminálist viszont főleg α-hélixek alkotják (2. ábra).
2. ábra A c-Abl kináz szerkezete (wwPDB kód: 1IEP) az STI-571 (Gleevec®) inhibitorral kristályosítva.
Az aktív hely a két szubsztrát – ATP: foszfát donor, protein vagy peptid: foszfát akceptor – részére fenntartott kötőhelyekből áll. Az aktív hely egyik kulcsfontosságú eleme az aktiváló hurok, amely foszforilációs mechanizmusok alapján a katalitikus aktivitást kontrollálja [28]. Habár a protein kináz inhibitorok fejlesztése már az 1980-as évek végén elkezdődött, az azonos katalitikus mechanizmus, a nagymértékű szekvencia azonosság, az egyforma protein hajtogatódási topológia, és az ATP, mint közös foszfátdonor miatt, sokáig azt feltételezték, hogy a protein kinázokra nem lehet gyógyszert fejleszteni [27]. Különösen az ATP kötőhelyen ható inhibitorok kifejlesztésének lehetőséget vetették el. Az 1990-es évek közepén a Parke-Davis Pharmaceutical Research kutatócégnek sikerült egy szelektív és nagyon hatásos (Ki = 5 pM) ATP kompetitív EGFR inhibitort kifejleszteniük (PD 153035) [28, 29]. Ez az eredmény bebizonyította, hogy mégis lehetséges ATP kompetitív inhibitorokat tervezni, sőt a mai napig a klinikai gyakorlatba bevezetett kismolekulás kináz inhibitorok ATP kompetitív módon hatnak. Későbbi vizsgálatok során kiderült, hogy a protein kinázok ATP kötőhelyének (3. ábra) nagymértékű hasonlósága ellenére, a kötőhelyhez közeli régiók térszerkezete lehetőséget nyújt a szelektív gátlószerek kifejlesztésére [30].
18
3. ábra Kináz ATP kötőhely felépítése [31].
Gyógyszertervezési szempontból az ATP zseb öt régióra bontható [27, 30, 31]: 1. Adenin régió: minden ATP kompetitív inhibitor kötődik ehhez a hidrofób régióhoz és hidrogénhíd kötések segítségével kerül kölcsönhatásba a zsanér régióval 2. Cukor zseb: Ez a terület hidrofil jellegű, ezért a kináz inhibitorok vízoldhatóságát növelő csoportokat lehet ide tervezni. Az egyes kinázokban ez a régió nagyon eltérő lehet, így az inhibitorok szelektivitásának növelésére is kihasználható. 3. Hidrofób hátsó zseb: Ez a zseb az ATP N-6 nitrogénjének irányába terjeszkedik ki, az ATP kötődésében nem játszik szerepet. Az inhibitorok affinitásának
és szelektivitásának növelésére kihasználható. A régió
hozzáférhetőségét két kapuőr aminosav szabályozza. 4. Hidrofób csatorna: az ATP kötődése során nem használja ezt a térrészt, emiatt ki lehet használni az inhibitorok affinitásának és szelektivitásának növelésére. 5. Foszfát kötő régió: Ez a terület hidrofil és nagymértékben elérhető az oldószerek számára, így tervezési szempontból a legkevésbé érdekes. A klinikai gyakorlatban 2001 óta használnak kináz inhibitorokat, ekkor vezette be a Novartis gyógyszergyár Glivec (Gleevec) nevű termékét krónikus mieloid leukémia (CML) gyógyítására [30]. Ez a lépés végleg igazolta, hogy lehetséges kináz enzimek ellen gátlószereket tervezni.
19
2. CÉLKITŰZÉSEK Munkám során elsődleges célul tűztük ki kvantitatív szerkezet-hatás összefüggés (QSAR) modellek készítését validált kináz célmolekulákon ható gátlószerek szerkezete és hatástani adatai alapján. Célul tűztük ki EGFR, Akt1, PDGFRβ, CDK4, ROCK-II kinázok gátlását jellemző QSAR modellek készítését. Megbízható QSAR modellek készítéséhez szükséges egy felhasználóbarát adatbázis, amiből könnyen kikereshetők a szakirodalmi, szerkezeti és hatástani adatok. Így első lépésként egy kinázokra és gátlószereikre fókuszáló elektronikus könyvtár elkészítését terveztük. Következő lépésként az elektronikus könyvtár alapján egy szerkezeti-hatástani adatbázis elkészítését és feltöltését terveztük. További célul tűztük ki olyan megbízható eredményeket szolgáltató biokémiai tesztelési rendszer kialakítását, amivel a racionális hatóanyagtervezéshez új adatokat szolgáltathatunk, ill. amellyel egyidejűleg ellenőrizni lehet az elkészített QSAR modellekkel végzett virtuális szűrések eredményeit. A potenciális gátlószerek vizsgálatára egy fluoreszcencia polarizáción alapuló módszer – IMAP – beállítását terveztük. További célunk volt a biokémia teszteléseknél általánosan használt oldat vegyülettár anyagkimérését elősegítő szoftver fejlesztése.
20
3. MÓDSZEREK 3.1. Felhasznált szoftverek 3.1.1. Concord A Concord a Tripos cég Sybyl programcsomagjában található szoftver, amely jó minőségű közelítő 3D szerkezetek gyors, interaktív vagy automatikus előállítására szolgáló eszköz. A 2D szerkezetek kötéskapcsolati információit atomi koordinátákká alakítja át. A 2D szerkezet alapján szabályrendszer segítségével egy kezdeti 3D szerkezetet állít elő, majd opcionálisan energiaminimalizálást hajt végre azon. A Concord Unix rendszer alatt fut, így használata Windows operációs rendszert futtató gépekről kényelmetlenebb [32, 33]. 3.1.2. Molecular Operating Environment (MOE) A MOE a Chemical Computing Group által fejlesztett, számítógéppel támogatott gyógyszertervezés különböző technikáit összefoglaló programcsomag. A MOE-nak van Windows-os változta is, és futtatható kötegelt (batch) üzemmódban, amivel hatékonyan automatizálható. Többféle szerkezeti fájlformátumot kezel. A munkám során két modult használtam belőle: 2D->3D konverzióra a molekulamechanikai modult és a molekulaleíró számoló modult. A MOE 473 db 2D, 3D molekulaleírót képes alapállapotban kiszámítani, de a beépített programozási nyelv segítségével bármilyen molekulaleíró kiszámítása megvalósítható [34]. 3.1.3. Dragon Plus 4.1 A Milano Chemometrics and QSAR Research Group által fejlesztett molekulaleíró számoló program, 1612 db 0D, 1D, 2D, 3D molekulaleírót tud kiszámítani. Ez a szoftver is képes kötegelt (batch) üzemmódban futni, amivel automatizálni lehet a számításokat és nagy mennyiségű molekulára molekulaleírót számítani. Különböző fájlformátumokat elfogad bemenő szerkezeti adatként pl. SDF, MOL2, SMI [35]. 3.1.4. Microsoft Excel A Microsoft cég táblázatkezelő szoftvere, az egyik legjobban elterjedt alkalmazás a
kategóriájában.
Számos
beépített
függvényével
alapvető
statisztikai,
adatrendszerezési, pénzügyi feladatot lehet elvégezni, de akár IC50 görbeillesztésre is
21
lehet használni [36]. A beépített programozási lehetőséggel – VBA Visual Basic for Application – az alapfüggvények területén kívül eső feladatokat is meg lehet oldani. 3.1.5. ISIS/Base Az MDL Information Systems, Inc gondozásában megjelenő Microsoft Windows alatt futó lokális kémiai adatbázis-kezelő program. Hierarchikus és síkszerkezetű (flat) felépítésű adatbázisok készíthetők vele. 2D és 3D kémiai szerkezetek és a hozzájuk kapcsolódó szöveges és numerikus adatok tárolására tervezték. Az elkészített adatbázisban szerkezet, részszerkezet, reakciók és az egyéb adatok szerint is lehet keresni, a logikai operátorok a keresés hatékonyságát növelik. A szerkezeteket és egyéb adatokat szöveges (SDF, RDF, MOL fájl) és XLS formátumba lehet exportálni. 3.1.6. CHED A CHED a TimTec LLC cég Microsoft Windows alatt futó kémiai adatbáziskezelő programja. 2D és 3D kémiai szerkezetek és a hozzájuk kapcsolódó szöveges és numerikus adatok, spektrumok tárolására tervezték. Az elkészített adatbázisban lehet szerkezet, részszerkezet és az egyéb adatok szerint keresni. A szoftver beépülő moduljaival lehet szintézis tervezést, diverzitás analízist, kombinatorikus könyvtár tervezést végezni. A szerkezeteket és egyéb adatok szöveges (SDF, MOL, JCAMP fájl) és XLS formátumba exportálhatók. Munkám során a CHED szoftver segítségével végeztem el a QSAR modellezéshez összeállított adatbázisok diverzitás analízisét. Az analízis a következő módon zajlik [37]: 1. A CHED az adatbázisban lévő minden egyes molekulát szerkezeti fragmensekre bont, majd ezeket egy belső adatbázisban tárolja. 2. A belső adatbázisban tárolt n darab fragmens alapján n dimenziós bitvektorokat képez minden egyes molekulára, ahol 1: a molekula tartalmazza a kérdéses fragmenst, 0: a molekula nem tartalmazza a kérdéses fragmenst. 3. A CHED két molekula (k, m) kémia különbözőségét a bitvektorok koszinusz koefficiense alapján határozza meg (6. egyenlet). A molekula párok különbözőségi értékeiből épül fel az adott adatbázis D különbözőségi mátrixa.
22
d =1−
∑k *m ∑k *∑m i i
i
i i
i
i
6. egyenlet
d = különbözőség ki = k molekula bitvektorának i-edik eleme mi = m molekula bitvektorának i-edik eleme 4. Egy adatbázis diverzitása a D különbözőségi mátrix nem diagonális elemeinek összege osztva a nem diagonális elemek számával. (7.
egyenlet) diverzitás =
∑d
i, j
p * ( p − 1)
7. egyenlet
di,j = különbözőségi mátrix egy eleme, i≠j p = molekulák száma A CHED súgójának ajánlása alapján egy adatbázis diverzitása nagy ha az adatbázisra számított diverzitás 0,8-0,9 között van, kicsi ha számított diverzitás 0,5-0,6 körül van.
3.1.7. PHP-MySQL PHP (PHP: Hypertext Preprocessor) egy nyílt forráskódú, általános célú programozási nyelv, HTML-be ágyazási lehetőségekkel. A kódokat a szerveren futtatja, így a programozók dinamikus weboldalakat készíthetnek, amelyek adatbázisokkal vannak kapcsolatban. A PHP többek között a MySQL, PostgreSQL, Oracle, Informix, Solid, InterBase adatbázis szervereket támogatja. MySQL egy relációs adatbázis-kezelő rendszer, amelyben strukturált lekérdező nyelv (SQL, Structured Query) segítségével lehet kereséseket végezni, adatokat módosítani és feldolgozni.
3.1.8. 3DNET4W A 3DNET4W kutatócsoportunk által fejlesztett Windows operációs rendszeren futó QSAR célszoftverünk. Kutatómunkám során a szoftver béta tesztelésben vettem részt, valamint javaslatokat tettem új beépítendő funkciókra pl. Y-randomizálás alkalmazása a véletlen korreláció ellenőrzésére, molekulaleíró kombináció bank (MKB)
23
alkalmazása. Alapelve, hogy a statisztikai elemzéseket becslés orientáltan végzi, sem a változó-kiválasztásban, sem a modellkiválasztásban nem használja az illesztési statisztikákat. A szoftver fő funkciói: 1) molekulaleírók manuális előszűrése, 2) automatikus változó-kiválasztás: szekvenciális vagy genetikus algoritmussal, 3) lineáris (MLR, PLS) és nemlineáris (ANN) függvényillesztés, 4) belső és külső ellenőrzések, 5) véletlen korreláció tesztelése Y-randomizálással, 6) QSAR modell alapú virtuális szűrés. Az ismeretlen hatóértékű molekulák becslése – virtuális szűrése – előtt a végső modellt illeszteni szoktuk a teljes bemenő adathalmazra. A 3DNET4W az alkalmazhatósági tartományt a modellben
felhasznált molekulaleírók bemenő
adathalmazbeli tartományaként értelmezi. A funkciók részletes bemutatását a Módszerek fejezet további alfejezeti tárgyalják. Munkám során a QSAR modellezési feladatok végrehajtására a 3DNET4W programot használtam [38, 39, 40]. A program működését a 4. ábra szemlélteti.
4. ábra A 3DNET4W szoftver működésének folyamatábrája. Az szoftver bemeneti fájlformátuma ún. XYD fájl, ami a molekulaleírókat és a biológiai adatokat tartalmazza. Ezt az adatmátrixot lehet manuális előszűrő módszerekkel csökkenteni, az előszűrt adatokat célszerű szétosztani munka és külső ellenőrző halmazokra. A következő lépés a munkahalmazon elvégzett belső ellenőrzések, az illesztés módszerének és a változó-kiválasztás típusának beállítása. Modelloptimalizálás során képződő jól becslő modellek molekulaleírói az MKBben gyűlnek, ebből nagyszámú véletlen felezéssel választjuk ki a legrobusztusabb modellt, amit külső ellenőrzéssel és véletlen korrelációs teszttel lehet tovább ellenőrizni. A külsőleg ellenőrzött és nem véletlen korreláló molekulaleírókat tartalmazó modellel lehet a virtuális szűrést végrehajtani.
24
3.2. Elektronikus könyvtár és szerkezeti-hatástani adatbázis A QSAR modellezés első lépése a szükséges bemenő adatok összegyűjtése, rendszerezése az e célra készített adatbázisokban. Az adatbázisban tárolt adatok három csoportra bonthatók: publikációs adatok, szerkezeti adatok, hatástani/biológiai adatok. Kereskedelmi forgalomban több használható szoftver elérhető a publikációs és a szerkezeti-hatástani adatok tárolására. Első próbálkozásként a publikációkat Reference Manager adatbázisban tároltuk, azonban ez nem felelt meg céljainknak, mivel minden egyes felhasználó számítógépére fel kellett telepíteni, nem lehetett a dokumentumokat PDF fájlban tárolni, nehézkes volt a karbantartása. A szerkezeti-hatástani adatok összegyűjtésére és tárolására kezdetben ISIS/Base adatbázist használtunk. Ez a rendszer sem felelt meg számunkra, mivel nem lehetett egyszerre több felhasználónak elérnie, minden számítógépre telepíteni kellett és az adatbevitel során számos redundáns adat került bele. Adataink integrált tárolására kifejlesztettünk egy PHP-MySQL adatbázist, amely standard adatbeviteli módokat tartalmaz és egyszerűen elérhető internet böngésző segítségével, ami az általánosan elterjedt operációs rendszerekben alapszoftverként szerepel. Az adatbázisunk beviteli felülete, megjelenítése HTML alapú. A HTML önmagában statikus programnyelv, ezért az űrlapok adatainak feltöltése az adatbázisba, valamint az adatbázis különböző lekérdezésekre adott válaszainak megjelenítése PHP segítségével történik. Az adatbázis rendszerünk Linux operációs rendszeren fut.
3.2.1. Elektronikus könyvtár Elektronikus könyvtárunk alapját néhány száz cikkből álló, papírformában meglévő gyűjtemény képezte, a további gyűjtés online elérhető adatbázisokból történt. A kereséshez általában a „kinase” és „inhibitor” kulcsszavakat, egyes esetekben a kináz saját nevét pl. ”EGFR”, „Lck”, „PDGFR” használtam. A felhasznált adatbázisok a következők voltak: OVID Medline, Science Direct, ISI Web of Science, PubMed, Beilstein Online. Publikációnak tekintjük a következő dokumentumtípusokat: folyóiratok, szabadalom, internetes dokumentum, könyvfejezet, személyes közlés, előadások. A beviteli űrlapot manuálisan vagy importálással lehet kitölteni.
25
A publikációs adatok bevitelére egy standard beviteli formát használunk (5.
ábra).
5. ábra Az elektronikus könyvtár egy rekordja.
Az adott publikáció rekordjához az eredeti közlemény elektronikus (PDF) formáját is csatoljuk. A teljes adatbázis szöveges keresése megoldott. Az elektronikus könyvtárból tetszőlegesen lehet exportálni a mezőket, ezáltal gyorsan elő lehet állítani a modellezésben felhasznált cikkek referencia adatait az adott folyóirat által megkövetelt módon.
3.2.2. Szerkezeti-hatástani adatbázis Az egyes publikációkhoz felelősöket lehet rendelni, akik a hatástani/biológiai és szerkezeti adatok kinyerést végzik. A hatástani/biológiai és szerkezeti adatbevitelre először két külső program (Excel-ISIS/Base) által előállított fájlpárokat használtunk. A hatástani adatokat publikációnként egy CSV fájl tartalmazta, a szerkezeti adatokat egy SDF fájl. Habár ezt az adatbeviteli lehetőséget meghagytuk – mivel sok hibalehetőséget rejtett magában – kifejlesztettünk egy teljesen HTML alapú beviteli formát. A szerkezetberajzoláshoz a JME Molecular Editor©-t használjuk [41], ez egy Java alapú HTML-be ágyazható program. A grafikusan berajzolt szerkezetek az adatbázisban SMILES kód formájában tárolódnak. A hatástani adatok bevitele ugyanezen a HTML
űrlapon keresztül történik (6. ábra).
26
6. ábra Szerkezeti és hatástani/biológiai adatok bevitele.
A hatástani adatok bevitelére is standard beviteli formát használunk, ahol lehetséges legördülő listákkal, amelyek használata csökkenti a hibás, redundáns adatbevitelt. 3.2.2.1.
Hatástani adatok típusai
Vegyületek hatékonyságát különböző típusú hatástani/biológiai mérőszámokkal lehet jellemezni, pl. Ki, IC50, pIC50, gátlási %, fennmaradó aktivitás %. A legmegfelelőbb és legmegbízhatóbb mérőszám a Ki érték lenne (8. egyenlet), amely az inhibitor egyensúlyi disszociációs konstansa kompetitív gátlás esetén. Ki =
[E ][I ] [EI ]
8. egyenlet
Ki = egyensúlyi disszociációs konstans [E] = egyensúlyi szabad enzim koncentráció [I] = egyensúlyi szabad inhibitor koncentráció [EI] = egyensúlyi enzim-inhibitor komplex koncentráció A munkám során feltételeztem, hogy a modellezésben felhasznált molekulák kompetitív gátlószerek vagy az adatok kigyűjtésénél törekedtem rá, hogy ilyen kinetikájú vegyületeket válogassak ki. Feltételezésemet arra alapoztam, hogy a klinikai gyakorlatban alkalmazott gyógyszervegyületek nagy részére kompetitív gátlószer [42]. A Ki meghatározása igényli a legtöbb ráfordítást, így a legritkábban megadott adat a publikációkban.
27
A következő mérőszám az IC50, amely definíciója: 1. Az az inhibitor koncentráció, ami 50%-os enzim aktivitás csökkenéshez szükséges (abszolút IC50). 2. Az az inhibitor koncentráció, ami az illesztett görbe felső és alsó platója által meghatározott tartomány felénél lévő enzimaktivitásnál számítható ki (relatív IC50). A legkevésbé megfelelő és megbízható érték a vegyületek egy adott koncentrációjánál mért enzimaktivitás változásának százalékban megadott értéke, vagyis a gátlási % vagy fennmaradó aktivitás %. Hatástani adatokat egységesítő algoritmus
3.2.2.2.
A szerkezeti-hatástani adatbázist nemcsak a QSAR modellezők használják, hanem a vegyészek is, akik gyors, kvalitatív szerkezet-hatás összefüggéseket úgy szoktak felállítani, hogy az adott célmolekulán mért molekulákat hatóértékeik alapján sorba rendezik. Ha egy adott célmolekulára több különböző típusú hatástani adat van, csak típusonkénti csoportokra bontással lehet a listákat előállítani, ezért kidolgoztunk a legelterjedtebb értékekre egy egységesítő algoritmust. Az algoritmus a különböző típusú értékeket először pIC50-re alakítja át. Ha egy szerkezetre, ugyanazon a célponton több mérést is elvégeztek, akkor a számított pIC50 értékek átlagát vesz. Ezt az új, egységesített mennyiséget cpIC50 értéknek nevezzük. A pIC50 számítása a következő egyenletek alapján történik a különböző hatástani mérőszám típusokból (9. egyenlet, 10. egyenlet, 11. egyenlet):
•
Gátlási % (=100-fennmaradó aktivitás %) esetén logit transzformációt használunk a %-os értékek átalakítására, majd a kapott értéket a vegyület koncentrációjával korrigáljuk [43, 44]. logit ym =log [(ym-c1)/(c2-ym)]
9. egyenlet
ym = gátlási % c1 = legkisebb mérési viszonyítási pont %-ban kifejezve c2 = legnagyobb mérési viszonyítási pont %-ban kifejezve
28
pIC50=-log(C)+ logit ym
10. egyenlet
C = vegyület koncentrációja [mol/dm3]
•
IC50 esetén a pIC50 érték az alábbi egyenlet alapján számítható. pIC50=-log(IC50)
11. egyenlet
IC50 = gátlási koncentráció 50%-os értéke [mol/dm3]
•
Ki esetén a számítás első lépése, hogy a Ki értéket IC50 értékké alakítjuk át a kompetitív gátlásra alkalmazható Cheng-Prusoff egyenlet segítségével (12. egyenlet). IC50,kompetitív = K i +
Ki [S ] Km
12. egyenlet
Ki = Egyensúlyi inhibitor disszosziációs konstans [mol/dm3] Km = Michaelis-Menten konstans [mol/dm3]
[S] = Egyensúlyi szubsztrát koncentráció [mol/dm3] Ha feltételezzük, hogy a kísérletben a szubsztrát – pl. ATP – koncentrációja megegyezett a Km értékével, a 13. egyenletet kapjuk. IC50,kompetitív = 2 * K i 13. egyenlet
Ki = Egyensúlyi inhibitor disszosziációs konstans [mol/dm3] A gátlószer kinetikáját és a kísérleti szubsztrát koncentrációt sok esetben nem lehet a publikációkból egyértelműen leellenőrizni, azonban egy durva összehasonlításhoz megfelelő. A második lépés, hogy az IC50 értéket a 11.
egyenlet segítségével pIC50 értékké alakítjuk. Az adatbázisból tetszőleges módon készíthetünk kigyűjtéseket és számos fájlformátumban exportálható a hatástani/biológiai és szerkezeti adat pl. XLS, SDF, CSV.
29
3.3. QSAR modellezés 3.3.1. Bemenő adatok hibaforrásai Modellezés előtt érdemes minél többet megtudni a kémiai és biológiai adatok minőségéről és hibájáról, mivel jó becslőképességgel rendelkező QSAR modellek készítéséhez megbízható adatok szükségesek. A publikációkban lévő vegyületek tisztaságát ritkán adják meg. Feltételeztem, hogy nagytisztaságú vegyületekből készültek a hatástani vizsgálatok, tehát a hatást az ábrázolt szerkezet okozta. Saját vegyülettárunkban az anyagok HPLC-MS-el meghatározott tisztasága nagyobb, mint 90%. A biológiai/hatástani tesztelésekhez a por formájú vegyületekből először oldatokat kell készíteni. Az oldatok koncentrációjának megadásánál is felmerülhet hiba, ami elsősorban a tömegmérés – a szokásos 1 mg körüli tömeg kimérése esetén ~ 0,05 mg az eltérés – ill. a hígítás hibájából adódik. A koncentráció különbségből származó eltérés viszont a biológiai mérések hibájához viszonyítva elhanyagolható. Gyakorlati tapasztalat, hogy a sejtes esszék nagyobb hibával terheltek, mint a biokémiai esszék. Ennek oka, hogy a sejtes rendszer bonyolultabb, és több – számunkra – véletlen folyamat befolyásolhatja a mérést. Ezért célszerűbb elsősorban biokémiai méréseket használni bemenő függő változóként. Egy adott vegyületre vonatkozó biokémiai, biológiai adatok (pl. IC50) függnek az enzim kinetikai paramétereitől. Például ATP kompetitív kinetikájú kinázgátló vegyületek esetén a gátlási % és az ebből származtatott IC50 értékek lineárisan függenek az [ATP]/KmATP hányadostól (7. ábra). Ez tovább bonyolítja a különböző protokollal mért adatok összevethetőségét. IC50 érték változása a [ATP]/KmATP függvényében (kompetitív gátlás)
2.5
y=x+1 R2 = 1
IC50
2.0 1.5 1.0 0.5 0.0 0
0.2
0.4
0.6
0.8
1
1.2
[ATP]/KmATP
7. ábra IC50 értékek függése az [ATP]/KmATP hányadostól, Ki=1 nM.
30
Lehetőség szerint meg kell vizsgálni a biológiai adatok hibáját. S. Wold és munkatársai szerint ha a modell reziduális szórása (SEE) kisebb, mint a hatástani/biológia adatok kísérleti hibája, akkor a modell túlillesztett [24, 45]. Ha nem állapítható meg a biológiai adtok mérési hibája, akkor ökölszabályként figyelembe lehet venni a következőket biokémiai, enzimatikus esszék esetében: egy adott vegyületre azonos laboratóriumban, azonos módszerrel mért IC50 értékek közötti ± kétszeres különbség elfogadható, logaritmusosan kifejezve ± 0,30 egység. Különböző laboratóriumok között, esetleg eltérő kísérleti módszerekkel ± háromszoros különbség, azaz ± 0,48 log egység még elfogadható kísérleti hiba [46, 47, 48].
3.3.2. Bemenő adatok kigyűjtése, előkészítése Szerkezeti-hatástani
adatbázisunkból
célmolekulánként
kigyűjthetjük
a
modellezéshez szükséges kémia szerkezeteket és a hozzájuk tartozó hatástani adatokat. Az ideális hatástani/biológiai adatok azok lennének, amelyeket egyféle protokollal, ugyanabban a laboratóriumban, ugyanazok az emberek mérnek, azonban ezek a feltételek egyszerre elég ritkán teljesülnek [49]. Ezen ismeretek alapján lehet összeállítani olyan bemeneti adathalmazt – még ha az előbb említett ideális feltételek nem is teljesülnek – ami alapján jó modelleket lehet készíteni. A
modellezés
során
alkalmazott
matematikai,
statisztikai
módszerek
számszerűsíthető értékeket kezelnek, viszont sok esetben egy vegyület hatástani – elsősorban IC50 , EC50 – értékét nem lehet meghatározni az adott biológiai mérési körülmények között. Ennek két leggyakoribb oka: 1) a vegyület oldhatatlansága az esszében használt pufferben, 2) az esszében vizsgálandó célfehérje, enzim koncentrációjának minimális értéke, amivel még megbízhatóan detektálható a reakció. Az első esetben „nagyobb, mint” (>) a második esetben, amely ritkábban fordul elő „kisebb, mint” (<) értékeket szoktak közölni. Az ilyen típusú értékek felhasználása a modellezésben nincs megoldva. Ha önkényesen egy adott számértéket rendelnénk pl. nagyobb, mint értékekhez, két problémával kellene szembenézni: 1) a szerkezet és hatás közötti összefüggés felborulhat, 2) valószínűleg eltorzítaná a mért adatok eloszlását, ami a statisztikai módszerek alkalmazhatóságát kérdőjelezné meg. Ennek következménye, hogy vegyületcsaládok maradhatnak ki a modellezésből.
31
A szerkezeti-hatástani adatbázisunkból egy adott célmolekulára kigyűjtött szűrt listából egyesével kizárhatunk olyan kilógó adatokat, amelyek nem felelnek meg a kívánalmaknak. Külön problémát jelent, hogy egy célmolekulának többféle szinonim neve is lehet. Ennek kiküszöbölésére készítettünk egy olyan táblázatot, ahol a célmolekulák hierarchikusan vannak rendszerezve a szinonim elnevezésükkel. Az általam használt kritériumok az adatok kigyűjtésénél a következők voltak: •
biokémiai – nem sejtes – esszékből származzon a biológiai adat,
•
rekombináns enzimmel vagy tisztított fehérjével történjen a mérés,
•
nagyobb részben IC50 legyen a mért adat típusa,
•
nem számszerűsíthető értékek – „nagyobb, mint”, „kisebb, mint” – eltávolítása,
•
vegyületek gátlási kinetikájuk alapján szét legyenek válogatva, ha lehetséges.
Ezekkel a kritériumokkal némileg szemben hat, hogy minél nagyobb kémiai teret szeretnénk lefedi a modellezésre használt vegyületekkel, hogy minél nagyobb legyen a modell alkalmazhatósági tartománya; valamint a QSAR modellezés alapvetően statisztikai módszer, amihez szükséges egy minimális elemszámot biztosítani. Modellezés előtt célszerű a hatástani/biológiai adatok eloszlását megvizsgálni. Jó modelleket egyenletes vagy Gauss eloszlású adatokból lehet készíteni, ezért az adatelőkészítésnél a hatástani adatokat tízes alapú logaritmusuk mínusz egyszeresévé alakítják át pl. IC50 értéket pIC50 értékké. Fontos, hogy a hatástani adatok terjedelme a kísérleti hiba legalább 2-3-szorosa legyen. A normalitást lehet ellenőrizni statisztikai próbákkal pl. Shapiro-Wilk féle W-teszt, az egyenletes eloszlást pedig, pl. információs entrópia alapján. Egy egyszerű hisztogram ábrával azonban „szemmel” is eldönthetjük hogy megfelel-e az eloszlás a modellezéshez.
3.3.3. Molekulamodellezés Háromdimenziós molekulaleírók használatához szükséges a molekulák 3D szerkezetének kiszámítása. Molekulamodellezésre két eszközt használtam, mindkét programmal kielégítően gyorsan lehet 3D szerkezeteket generálni. A két szoftver nem globális energiaminimalizált, és nem is bioaktív konformációjú 3D szerkezeteket állít
32
elő. Tapasztalataim szerint egyik szoftver sem képes egy adott 2D szerkezetből többszöri elindításra ugyanazt a szerkezetet megtalálni. Ez hátrány, mivel az eltérő 3D szerkezetből eltérő 3D molekulaleírók számolhatók. Ezt a problémát valamennyire lehet azzal ellensúlyozni, ha a szerkezeteket és a hozzájuk kiszámított molekulaleírókat adatbázisban tároljuk, és modellezés vagy virtuális szűrés az adatbázisban tárolt adatokkal történik. Annak ellenére, hogy a 3D molekulaleírók több információt hordoznak a szerkezetekre vonatkozón, az előbb említett okok miatt, munkám során – néhány kivételtől eltekintve – törekedtem arra, hogy elsősorban 2D szerkezetből számítható molekulaleírókat használjak fel.
3.3.4. Molekulaleírók és számításuk A kémiai szerkezet nem korreláltatható közvetlen módon a biológiai hatással, fiziko-kémiai tulajdonságokkal, mivel a kémiai szerkezetek nem illeszthetők bele közvetlenül a modellezési folyamatba. A legtöbb QSAR modellezésre alkalmazott módszer bemenő adatként azonos hosszúságú numerikus tulajdonságvektorokat igényel az összes molekulára. Ezt a problémát a molekulaleírók úgy oldják fel, hogy átalakítják a szerkezeteket jól meghatározott számértékek halmazaivá [25]. Roberto Todeschini szerint „A molekulaleíró matematikai-logikai műveletek végeredménye, amely a molekulaszerkezetben kódolt kémia információt jól felhasználható számokká alakít át, vagy egy standardizált kísérlet eredménye” [50]. A molekulaleírókat többféle módon szokták csoportosítani. Legkézenfekvőbbnek tűnne a számított molekulaleíró alapjául szolgáló kémiai szerkezet dimenziója alapján történő csoportosítás, vagyis a 2D szerkezetből 2D QSAR molekulaleírók, a 3D szerkezetből 3D QSAR molekulaleírók számíthatók. Ezek az elnevezések azonban félrevezetők lennének, mint a bevezetőben már említésre került. Egyes szerzők, pl. Roberto Todeschini az alapvetően 2D szerkezetből is számítható molekulaleírókat tovább bontják 0D, 1D molekulaleíró csoportokra, és 3D molekulaleíró csoportba sorolja azokat, amelyekhez szükséges 3D szerkezet. Más szerzők, pl. Jorge Gálvez vagy a MOE szoftver készítői a 0D, 1D molekulaleíró csoportokat is a 2D molekulaleíró csoportba sorolják [25]. Kereskedelmi forgalomban számos molekulaleíró számító szoftver kapható. A számításokhoz három szoftvert használtam: MOE molekulaleíró számoló modulja, Dragon Plus 4.1, valamint kollegáim
33
által programozott hisztogram típusú molekulaleírókat [51]. A használt molekulaleírók csoportosítását a 2. táblázat és a 3. táblázat tartalmazza. 2. táblázat 0D, 1D, 2D molekulaleírók csoportosítása [22, 34, 35, 51, 52]. Dimenziószám 0D
1D
2D
Leíró csoport
Példák, magyarázat
konstitúciós (a konnektivitástól és a konformációtól független) molekulaleírók funkciós csoportok száma Ghose-Crippen féle (atom-centered) fragmensek
molekulatömeg, átlagos molekulatömeg, különböző atom- és kötéstípusok előfordulási száma a molekulában, különböző atomi tulajdonságok (pl. atomi polarizálhatóság) összege/átlaga a molekulában, stb. különböző funkciós csoportok (pl. -COOH, -NH2 stb.) előfordulási száma a molekulában a Ghose-Crippen által definiált 120 “atom-centered” fragmens előfordulási száma a molekulában
sajátérték alapú leírók
a molekuláris gráfból származtatott mátrixok sajátértékeiből számolt molekulaleírók
topológiai molekulaleírók, molekuláris gráfok alapján számított utak és séták száma
molekulák gráfjából számolt indexek
BCUT leírók
hidrogénnel ellátott molekuláris gráfok alapján számított szomszédossági mátrixokból származtatott molekulaleírók
Gálvez topológiai töltés indexek
topológiai töltés index
2D autokorrelációk kapcsolódási indexek információs indexek hisztogram molekulaleírók él-szomszédossági indexek MACCS kulcsok VSA molekulaleírók részleges töltés molekulaleírók farmakofór tulajdonság molekulaleírók
fiziko-kémiai tulajdonságokkal súlyozott térbeli autokorrelációk a molekuláris gráf éleinek fokából számolt molekulaleírók a molekula információtartalmából számolt leírók különböző atomtípusok közötti távolságok eloszlása molekuláris gráfok él-szomszédossági mátrixából származtatott molekulaleírók molekula ujjlenyomat molekulaleírók 2D szerkezetből számított felületi molekulaleírók pl. + részleges töltések összege, teljes poláris vdW felszín H-híd akceptor atomok száma, hidrofób atomok száma
34
3. táblázat 3D és egyéb molekulaleírók csoportosítása [22, 34, 35, 51, 52]. Dimenziószám
Leíró csoport
Példák, magyarázat
Randic-féle molekuláris profilok
atomok közötti geometriai távolságokból származtatott molekulaleírók különböző, konformációfüggő molekulaleírók (pl. a geometriai távolságok összege bizonyos atomtípusok között)
geometriai molekulaleírók
3D
–
RDF (sugárirányú eloszlási függvény) molekulaleírók 3D-MoRSE molekulaleírók (elektrondiffrakción alapuló 3D molekulaábrázolás)
különböző atomok közötti távolságokon alapuló radiális bázisfüggvényekkel számolt leírók
Gasteiger-féle 3D molekulaleírók
WHIM molekulaleírók
atomi koordináták kovariancia mátrixának 3 főkomponenséből számolt molekulaleírók
GETAWAY leírók
Todeschini-féle molekula hatásmátrixból számított molekulaleírók
potenciális energia leírók térfogati és felszíni leírók konformáció-függő töltés leírók regressziós modellekkel számolt molekuláris tulajdonságok
pl. hidrofób atomok vízmolekula által elérhető felszíne
töltés molekulaleírók
a molekula töltésviszonyait jellemző molekulaleírók
pl. a potenciális energia elektrosztatikus komponense pl. vízmolekula által elérhető felszín
pl. molekuláris refrakció, poláris felület, Moriguchi logP
Az eredmények fejezetben bemutatott modellek molekulaleíróinak – a hisztogramm típusúak kivételével – magyarra fordítására nem vállalkoztam, így a legtöbb molekulaleíró elnevezése angol.
35
3.3.5. Ellenőrzési módszerek (validálás) A modellek minőségét belső és külső ellenőrzéssel lehet megállapítani. A 8. ábra illusztrálja a rendelkezésre álló adathalmaz – X-Y mátrix – javasolt felosztását a QSAR modellezéshez. A belső és külső ellenőrzés kiegészítik egymást. Belső ellenőrzéssel lehet megállapítani egy modell robusztusságát, a külső ellenőrzés pedig a valós becslőképességre ad információt.
8. ábra Külső és belső ellenőrzés folyamatábrája [24].
3.3.5.1.
Belső ellenőrzés - Internal Validation
A belső ellenőrzés folyamán a munkahalmazt különböző módszerekkel részhalmazokra osztják, majd ezeket a halmazokat felhasználva megállapítják az adott modell illesztő képességét, robusztusságát, becslőképességét. A belső ellenőrzés módszereit fel lehet használni modelloptimalizálás eredményeként kapott végső modell ellenőrzésére, valamint a modelloptimalizálás során változó-kiválasztásra. Már a molekulaleíró kiválasztás fázisában fontos törekedni arra, hogy inkább a modell becslőképessége legyen jó, mintsem illesztő-képessége. A legelterjedtebb belső ellenőrző technikák a bootstrap ellenőrzés, keresztellenőrzés, ismételt véletlen felosztás, Y-randomizálás. Munkám során az utóbbi két módszer alkalmaztam, így csak ezeket ismertetem részletesebben. A 3DNET4W belső ellenőrző módszereinek alapja az ismételt tanulás/kiértékelés (ITK, Repeated Trainings/Evaluations, RTE), amely során a
36
munkahalmazt ismételten tanuló halmazra és kiértékelő halmazra osztja. A tanulóhalmazon történik adott molekulaleíró kombinációval az illesztés, a kiértékelő halmaz pedig a modell belső becslőképességének megállapítására szolgál. •
Ismételt véletlen felosztás (Repeated Randomly Split, RRS): A módszer a munkahalmazt
ismételten
és
véletlenszerűen
két
egymást
kizáró
részhalmazra osztja, egy tanulóhalmazra és egy kiértékelő halmazra. A statisztikai eredmények függnek a felosztástól, így a megbízható eredményekhez többször ismételt felosztásokat szoktak végezni. Munkám során a felosztásokat leggyakrabban a munkahalmaz véletlen felezésével állítottam elő. •
Y-randomizálás (Y permutáció) módszerével meg lehet állapítani, hogy a modell által leírt összefüggés csak a véletlen következménye, vagy valóságos az összefüggés, valamint a modell robusztusságára is ad információt. A módszer lényege, hogy előállítanak olyan halmazokat, ahol a hatástani adatokat (függő változók) véletlenszerűen felcserélik, miközben a molekulaleírókat (független változók) változatlanul hagyják. A tesztelni kívánt modellt illesztik mindkét halmazra. Az illesztést vagy becslést jellemző statisztikai mérőszámokat összevetik egymással, ha szignifikáns a különbség, akkor nincs véletlen korreláció. Az eljárást általában többször megismétlik. A 3DNET4W a következőképpen végzi az Y-randomizálást: az összekevert Y értékű és a nem összekevert, eredeti Y értékű halmazon nagyszámú – tipikusan 1024 – véletlen felezést hajt végre, majd a kérdéses modellt illeszti az egyes tanulóhalmazokra és becsli a hozzátartozó kiértékelő halmazokat. Minden egyes felosztásra kiszámítja választott statisztikai mérőszámot, végül pedig az összekevert és az eredeti Y adatokon számított mérőszámok eloszlásait hasonlítja össze χ2 statisztika és kétmintás z-próba segítségével. A nullhipotézis az, hogy a két eloszlás egyforma, vagyis a modell ugyanúgy becsli a véletlen adatokat, mint valódiakat. Ha a két eloszlás között adott α szinten szignifikáns eltérés van, akkor a modell tartalmaz összefüggést az adott hatásra vonatkozóan. A kiértékelést α = 0,001 szinten szoktuk végezni. Ezen a két statisztikai próbán kívül a 3DNET4W megadja a két
37
eloszláshoz tartozó Z’ értékeket, ezt a mérőszámot a HTS esszék jellemzéséből kölcsönöztük [53]. Az eredeti cikkben Zhang és munkatársai szerint, ha a Z’ értéke nulla alatt van, akkor az esszé elméleti minimális és maximális jelszintjeinek eloszlásai – normális eloszlást feltételezve – egymásba érnek, ezért az esszé használhatatlan. QSAR modellek véletlen korrelációjának jellemzésére a nulla Z’ értéket választottam kritikus értéknek. A kétmintás z-próba és a Z’ statisztika kiszámításakor feltételezzük a mérőszámok normális eloszlását a központi határeloszlás tétele alapján. A 3DNET4W a következőképpen számítja Z’ értéket (14. egyenlet):
Z'= 1−
3SDoriginal + 3SDscrambled original − scrambled
14. egyenlet
original = az eredeti halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának átlaga
scrambled = az összekevert halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának átlaga SDoriginal = az eredeti halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának szórása SDscrambled = az összekevert halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának szórása A 3DNET4W változó-kiválasztásra – VSS – és a molekulaleíró kombináció bankból (MKB) történő legrobusztusabb molekulaleíró kombináció kiválasztásra használja a belső ellenőrzés módszereit. A véletlen korrelációs tesztet általában a külső ellenőrzés után szoktuk elvégezni az előszűrt bemenő halmazon. 3.3.5.2.
Külső ellenőrzés - External validation
Elméletileg nem lehet egy QSAR modell becslőképességét abszolút módon megadni, mivel nagymértékben függ az alkalmazott statisztikai eljárástól és a kiválasztott teszthalmaztól. Jelenleg a külső ellenőrzés az a módszer, amivel egy QSAR modell valós becslőképességéről többé-kevésbé képet lehet alkotni. Ehhez olyan
38
adathalmazra van szükség, ami nem vesz részt a modelloptimalizálás folyamatában (8.
ábra). Külső ellenőrző halmazt kétféleképpen lehet előállítani: 1) a QSAR modellezéshez összegyűjtött adatokból egy részt elválasztanak erre a célra, 2) újonnan letesztelt molekulákat használnak fel. Gyakorlatban nehezebb új kísérleti adatokhoz jutni, ezért általában a rendelkezésre álló adathalmazt osztják fel különböző módszerekkel munkahalmazra és külső ellenőrző halmazra. A szétválasztás módja befolyásolja a statisztikai jellemzőket. A különböző megoldásokkal számos értekezés foglalkozik
[24,
54,
55].
A
szétválasztás
kivitelezhető
véletlenszerűen,
csoportelemzéssel (cluster analysis), kísérlet-tervezés módszereivel. A külső ellenőrzést kiegészítő eljárásnak kell tekinteni a belső ellenőrzés mellett, mivel egy modell, ami külső halmazon jó becslőképességet mutat fontos, hogy robusztus is legyen. A 3DNET4W-ben háromféleképpen lehet kiválasztani a külső ellenőrző halmaz pontjait. A kiválasztás történhet véletlenszerűen (RS, Random Selection), egyenletesen kiválasztva (UD, Uniformly Distributed) vagy ú.n. kerületi kiválasztással (PO, Perimeter Oriented [54]. Az egyenletes felosztásnál a 3DNET4W a duplex algoritmus [56] alapján hozza létre a két halmazt, majd ezekben az adatpontok cserélgetésével a minimax algoritmussal [57] maximalizálja a pontok közötti minimális távolságokat. A kerületi kiválasztás algoritmusa kikeresi – az adott molekulaleíró térben – a legnagyobb euklédeszi távolságra lévő molekula párokat, a párok közül az egyiket a külső ellenőrző halmazba, a másikat a munkahalmazba teszi. Feltételezésünk szerint az ily módon kiválasztott ellenőrző halmaz tudja modellezni a virtuális szűrésre használt molekulák halmazát oly módon, hogy a modell jobban extrapolációra kényszerül. Ezt a kiválasztási módszert tapasztalataim szerint csak nagy molekulaszám esetén célszerű használni.
3.3.6. Becslőképesség ellenőrzésére használt statisztikai mérőszámok A QSAR modellezésben használt statisztikai mérőszámokról meg kell jegyezni, hogy definícióik eltérhetnek egyes programokban [58], valamint az egyes elnevezések más definíciókat takarhatnak. Például a Q2 definíciójában az y kiszámítása történhet az összes rendelkezésre álló mért értékből, vagyis a munkahalmazból (Tripos PLS, GOLPE) vagy csak a tanulóhalmazban használt mért értékekből (3DNET4W). Az SDEP kiszámítása történhet a kiértékelő halmaz (3DNET4W) számossága vagy a
39
tanulóhalmaz [24] számossága alapján is. Az alábbiakban ismertetem a 3DNET4W által használt statisztikai paramétereket és definíciójukat. •
Q2 (R2CV, r2PRESS) a becslésben megmagyarázott variancia mértékét jelenti. Kiszámítása a 15. egyenlet alapján történik.
Q2 = 1 −
∑ ( y − yˆ ) ∑ ( y − y)
2
i/i
i
i
2
i
i
15. egyenlet
yi =
i-edik molekula mért adata
yˆ i / i =
i-edik molekula modell által számított adata (a modell az i-edik
molekula nélkül készül) y =
az illesztésben felhasznált molekulák mért adatainak átlaga, belső
ellenőrzés esetén az aktuális tanulóhalmaz átlaga, külső ellenőrzés esetén a munkahalmaz átlaga. Ha egy modell Q2 értéke nulla, az azt jelenti, hogy a modell becslőképessége megegyezik a legegyszerűbb modellel. Ha a Q2 érték negatív, akkor rosszabb, ha pozitív a Q2 érték akkor, jobb a modell becslőképessége a legegyszerűbb modellnél. A legegyszerűbb modell az, ha az aktuális munkahalmaz átlagát használnánk minden ismeretlen hatóértékű molekula becslésére. •
SDEP („Standard Deviation of Error of Prediction”) a becslés hibájának szórása. Kiszámítása a 16. egyenlet alapján történik.
∑ (y i
SDEP =
i
2 − yˆ i / i )
n
16. egyenlet
yi =
i-edik molekula mért adata
yˆ i / i =
i-edik molekula modell által számított adata (a modell az i-edik
molekula nélkül készül)
n = az aktuális kiértékelő vagy külső ellenőrző halmaz molekuláinak száma •
Spearman-féle rangkorreláció (rs) a modell által számított és a mért adatok rangsora közötti összefüggés mértéke. Kiszámítása a 17. egyenlet alapján történik.
40
2
n
6 × ∑ ( y ri − y ri / i ) i =1
rs = 1 −
n3 − n
17. egyenlet
y ri =
i-edik molekula mért adatának rangja
yˆ ri / i =
i-edik molekula modell által számított adatának rangja (a modell
az i-edik molekula nélkül készül)
n = az aktuális kiértékelő vagy külső ellenőrző halmaz molekuláinak száma •
Felső25%(TOP25%) és Alsó25%(BOTTOM25%). Kifejezik, hogy a modell az ellenőrző halmaz felső illetve az alsó kvartilisből hány százalékot sorol be helyesen a megfelelő kvartilisbe.
3.3.7. Modelloptimalizálás – változó-kiválasztás Tapasztalati összefüggések keresése közben mindig felmerül a molekulaleírók közötti választás kényszere, mivel minél kevesebb molekulaleíróval praktikus leírni a jelenséget. Emellett csak a lényeges molekulaleírókat (független változókat) érdemes szerepeltetni, amivel a zaj hatását és a véletlen korreláció esélyét lehet csökkenteni. Elvben egyszerű a változók kiválasztása: a molekulaleírókat az összes lehetséges módon a modellbe be kell léptetni, és minden modell esetén ki kell számítani a függő változókat, azután valamilyen statisztikai mérőszám alapján a végső modellt ki kell választani. Ez a módszer az összes lehetséges regressziós egyenlet módszere („all possible regression”), ez a gyakorlatban nem járható út, ha nagyszámú molekulaleíró között kell válogatni, elsősorban a kombinatorikus robbanás miatt. A molekulaleíró kiválasztás (független változó-kiválasztás) tulajdonképpen optimalizálási feladat, amelyhez rendszerint sokváltozós szélsőérték kereső módszereket alkalmaznak [59]. Ebben a részfejezetben bemutatom a 3DNET4W szoftverünk molekulaleíró kiválasztásra és függvényillesztésre használt módszereit. 3.3.7.1.
Molekulaleírók becslőképessége
A változó-kiválasztás folyamatában a deszkriptorok – adott algoritmus szerinti – válogatása a becslőképességük – Predictive Ability Scoring, PAS – alapján is történik. Egy molekulaleíró PAS értéke megegyezik adott modell és adott ITK – ismételt
41
tanulás/kiértékelés – ciklus esetén a hozzájárulási (CONTRd,r) tagok összegének 0-1 közé skálázott értékével (18. egyenlet). A skálázás a legnagyobb PAS érték abszolút értéke alapján történik. A hozzájárulás érték két tényező szorzata egy adott ITK felosztásra, az egyik tényező a modell matematikai szerkezetéből adódik (MODd), a másik a modell becslőképességéből származó súlyozott paraméter (PREDd) (19.
egyenlet). A MODd érték kiszámítható a VSS ciklusán kívül is bármilyen modellre, így ezt az értéket fel lehet használni egy adott modellen belüli molekulaleírók fontosságának meghatározására. R
PAS d = ∑ CONTRd ,r r =1
18. egyenlet
CONTRd,r = ITK egy adott lépésében a d molekulaleíró hozzájárulási értéke R = ITK ismétlések száma
CONTRd ,r = MODd ⋅ PREDd 19. egyenlet
MODd = a modell matematikai szerkezetéből származó tényező, adott molekulaleíró és ITK egy adott lépés esetében PREDd = ITK egy adott lépésében a modell becslőképességéből származó súlyozott paraméter Többszörös lineáris regressziós – MLR – modell esetében a MODd értéket 20.
egyenlet szerint lehet kiszámítani:
MODd = cd ⋅ σ d 20. egyenlet
cd = az MLR megoldási vektor adott molekulaleíróhoz tartozó koefficiensének abszolút értéke
σ d = az adott molekulaleíró szórása Részleges legkisebb négyzetek módszerén – PLS – alapuló modell esetében a MODd értéket a 21. egyenlet szerint lehet kiszámítani:
MODd = sd ⋅ σ d 21. egyenlet
42
sd
=
a
PLS
megoldás
MLR
ekvivalens
mátrix
formájának
adott
molekulaleíróhoz tartozó koefficiensének abszolút értéke
σ d = az adott molekulaleíró szórása Mesterséges ideghálózat – ANN – technikán alapuló modell esetében a MODd értéket a 22. egyenlet szerint lehet kiszámítani
MODd = f d 22. egyenlet
f d = a molekulaleíró, mint bemeneti neuronhoz tartozó súlyfaktor, amely a következő módon képződik. A bemeneti réteg elé helyezett extra réteg segítségével a bemeneti molekulaleírók abszolút értékét fokozatosan nullára csökkenti az algoritmus. Eközben a hiba visszafuttatásos – back propagation, BP – algoritmus helyreállítja a molekulaleírók szerepét, ennek eredményképpen a nem fontos molekulaleírókat következmények nélkül nullára lehet csökkenteni, míg a fontos molekulaleírók szorzóját a fontosságukkal arányosan növeli meg a BP algoritmus. Az f d érték számítása a korrekciós súlyfaktorok abszolút értékét veszi figyelembe, majd a
legnagyobb abszolút értékűre van skálázva az
algoritmus [60, 61]. Az ANN estén számított MODd értékben nem szerepel a szórás, mivel a molekulaleírók -1 és +1 közé vannak skálázva. A PREDd az optimalizálandó statisztikai mérőszám 0-1 közé skálázott értéke, az ITK egy adott felosztásának becslőképességét jellemzi. Kiszámítását Q2, SDEP és rangkorreláció esetén a 23. egyenlet, a 24. egyenlet és a 25. egyenlet adja meg. TOP25% és BOTTOM25% értékek önmagukban adják a PREDd értéket, nem szükséges skálázni őket.
PREDd = e ( Q
2
−1)
23. egyenlet
PREDd = e
−
SDEP D
24. egyenlet
D = adott ITK felosztás kiértékelő halmazának Y értékeinek terjedelme
PREDd = 0,5 * rs + 0,5 25. egyenlet
43
Előszűrő módszerek
3.3.7.2.
Az előszűrő módszerekkel modell illesztés nélkül lehet a molekulaleírókat kiválasztani, számukat csökkenteni. A QSAR modellezésben jellemző, hogy viszonylag kevés számú molekulára, akár több ezer molekulaleírót számítanak ki. Nagyszámú molekulaleíróból kiindulva a fejlett VSS módszerek gyors számítógépeken is lassan végeznék el feladatukat. Ezenkívül nagy a valószínűsége, hogy a molekulaleírók nagyon korrelálnak egymással. Így az előszűrő technikák meggyorsíthatják a modellezés folyamatát, valamint csökkenthetik a X mátrixban felhalmozott felesleges információ mennyiségét. Az előszűrő módszerek lehetnek korreláció alapúak és információs elmélet alapúak. A vizsgálat történhet kizárólagosan a független változókat dimenziójában (X-X) vagy a független és függő változók (X-Y) korrelációjának tekintetében is. 1D statisztika
3.3.7.2.1.
Ezen előszűrések alkalmazásakor csak a molekulaleírók X mátrixát veszi figyelembe a szoftver. •
Konstans molekulaleírók eltávolítása: Az adott adathalmazra konstans molekulaleírók a biológiai hatásról semmilyen statisztikailag elemezhető információt nem hordoznak, sőt numerikus instabilitást okozhatnak.
•
Korrelált molekulaleírók eltávolítása: Egymással kollineáris – R2 ~ 1 – molekulaleíró párok közül célszerű eltávolítani az egyiket, mivel redundáns információt tartalmaznak. A biológiai hatás szempontjából fontos molekulaleíró kollineáris lehet más molekulaleírókkal a rosszul megtervezett adathalmazokban pl. homológ sorok. A kollinearitás a MLR módszert is nagyon instabillá teszi [49]. A 3DNET4W algoritmusa kiszámítja két normalizált molekulaleíró vektor skaláris szorzatát és a felhasználó által beállított E szorzatértéknél nagyobb értékkel rendelkező molekulaleíró párok közül az egyiket véletlenszerűen eldobja. A dolgozatomban szereplő összes esetben a beállított E érték 0,999 volt.
•
Molekulaleírók eloszlásának hasonlósága a normál eloszláshoz: A normál eloszláshoz való hasonlóság – Normal Distribution Likeness – ellenőrzésére az alábbi képleletet használja a 3DNET4W (27. egyenlet).
44
Első lépésként az algoritmus c db cellára osztja fel az adattartományt (26.
egyenlet). Ezáltal egy c osztályt tartalmazó diszkrét eloszlás jön létre. c=
ntotal 5
26. egyenlet
c = cellaszám NDL =
1 ln(1 + χ + g1 + g 2 ) + 1 2
27. egyenlet
χ 2 = A vizsgált adatokból képzett diszkrét eloszlás, valamint az adatok átlagára és szórására illesztett hipotetikus normál eloszlásból képzett diszkrét eloszlás összehasonlításából számított χ 2 érték.
g1 = az eloszlás lapultsága (kurtosis) g 2 = az eloszlás ferdesége (skewness) •
Információtartalom szerinti szűrés: A Shannon féle információs entrópia elvét felhasználva a molekulaleírókat sorba lehet rendezni, majd a kevés információtartalmúak eltávolíthatók. Az algoritmus itt is először létrehozza a c osztályt tartalmazó diszkrét eloszlást (26. egyenlet), majd kiszámítja az egyes cellák előfordulási arányait (pi) (28. egyenlet). pi =
ni ntotal
28. egyenlet
pi = előfordulási arány ni = adott cellában található molekulák száma ntotal = összes molekulaszám Az algoritmus a H információs entrópiát a 29. egyenlet alapján kiszámítja, majd skálázza a 0-100% közé.
H = −∑ pi ln( pi ) 29. egyenlet
Az információs entrópia 0 értéket vesz fel, ha a az összes molekula egyetlen cellában van benne, vagyis a molekulaleíró konstans. Maximális
45
az érteke akkor, ha minden cellába ugyanannyi molekula esik, azaz eloszlás egyenletes [62]. 3.3.7.2.2.
2D statisztika
A 2D statisztikai modul a molekulaleírók sorba rendezésénél figyelembe veszi a hatástani adatokat is. •
Determinációs együttható szerinti szűrés: a szoftver kiszámítja a kérdéses molekulaleíró és a hatás között fennálló determinációs együttható R2 értékét és sorba rendezi a molekulaleírókat. Az R2 megmutatja hogy az x változó a y varianciájának hány százalékáért felelős (30. egyenlet) 2
r =
s y2' s y2
30. egyenlet
s 2y ' = y varianciájának az a része, amit az x megmagyaráz s y2 = y teljes varianciája •
χ2 statisztika szerinti szűrés: A 3DNET4W minden egyes x-y párra kialakít egy p × p dimenziós táblázatot és ide elhelyezi az egyes objektumokat (molekulákat). A p értéke a c összcellaszámhoz (26. egyenlet) legközelebb eső négyzetszám négyzetgyöke, ezáltal átlagosan minden cellába legalább 5 molekula kerülhet. Ezzel a módszerrel előáll egy p × p dimenziós kontingenciatábla, amire a szoftver kiszámítja a χ2 statisztikát, majd skálázza a maximális χ2 értékre és sorba rendezi a molekulaleírókat.
3.3.7.3.
Automatikus változó-kiválasztási algoritmusok
Az automatikus módszerek használata megkönnyíti, felgyorsítja és hatékonyabbá teszi a molekulaleíró kiválasztást. A 3DNET4W szoftverbe implementált algoritmus többszörös iterációval ki- és bekapcsolja az egyes molekulaleírókat. Minden kiválasztott molekulaleíró kombinációra lefut egy ismétléses tanulás/kiértékelés – ITK – ciklus, azaz minden adatfelosztásra kiszámítja az adott molekulaleíró kombináció koefficienseit az aktuális tanulóhalmazon – a kiválasztott illesztési módszernek megfelelően – majd megbecsli az aktuális kiértékelő halmaz molekuláira vonatkozó hatóértékeket, és kiszámítja az optimalizálandó statisztikai mérőszámot pl. Q2, SDEP. A felosztások
46
áltagos mérőszáma alapján dönt, hogy az adott molekulaleíró kombinációra az MKB-be kerüljön-e vagy eldobásra. Az átlagos mérőszám és a modell koefficiensei alapján kiszámítja az egyes molekulaleírók PAS értékeit, majd kialakítja a következő tesztelendő molekulaleíró kombinációt. 3.3.7.3.1.
Szekvenciális algoritmus - SA
A 3DNETW szekvenciális molekulaleíró kiválasztó algoritmusa a lépésenkénti lineáris regresszió módszerének általánosított változata. Az első modell egy molekulaleírót tartalmaz, majd folyamatosan kapcsolódnak be a további molekulaleírók. Ha az adott kombináció jobb ITK statisztikát produkál, mint az előző, akkor a molekulaleíró hozzáadódik az aktuális kombinációhoz. Miután az ITK statisztika további molekulaleíró hozzáadásával nem javítható, az algoritmus megpróbálja eltávolítani a molekulaleírókat kezdve a legkisebb PAS értékűekkel. A gyorsabb és egyszerűbb módszer – Scout Scan Trial & Error, SSTE – az eltávolítást minden molekulaleíróra egyszer próbálja ki. Az alaposabb algoritmus – Sequential Trial & Error, STE – addig fut, amíg egy olyan modellt nem talál, amelynek optimalizálandó mérőszáma nem javul sem egy molekulaleíró hozzáadásával – a nem használt halmazból – sem egy, sem két molekulaleíró elvételével. A páronkénti eltávolítás kissé enyhít a szekvenciális algoritmusok azon problémáját, hogy lokális optimumba jussanak. 3.3.7.3.2.
Genetikus algoritmus - GA
A genetikus algoritmus globális optimalizáló módszer, ahol az optimalizálandó probléma általánosságban genetikai leírásban kerül tárgyalásra. A kezdeti állapotban az algoritmus egy véletlen populációt állít elő, amely az adott probléma lehetséges megoldásait reprezentálja. A populáció tagjait kromoszómák írják le, ahol a gének az optimalizálandó probléma változóinak felelnek meg [4]. A QSAR modellezés esetében a kromoszómák bináris vektorok, amelyekben a 0-1 érték az adott molekulaleíró kibekapcsolt állapotát jelenti. Az aktuálisan kiértékelendő molekulaleíró kombináció az 1es állapotú génekből áll elő. A kromoszómák generációkat alkotnak, azaz kiértékelendő modellek csoportját. A következő generációba kerülés esélye az adott modell optimalizálandó
statisztikai
mérőszámának
függvénye.
Az
előző
generáció
kromoszómái csak részben töltik fel az új generációt, a további kromoszómák az
47
előzőekből képződnek genetikából átvett és logikai transzformációk eredményeképpen. A 3DNET4W GA moduljában a generációkban lévő kromoszómák száma az adott munkahalmaz molekuláinak számával arányos. Kétféle algoritmus közül lehet választani a gyorsabb – Genetic Algorithm, GA – esetében kisebb a generációk tagszáma, a lassabb és alaposabb módszer – Deep Search Genetic Algorithm, DSGA – nagyobb tagszámú generációkat használ. Az szoftver az első generációt véletlenszerűen állítja elő, úgy, hogy az összes molekulaleíróinak p=0,5 valószínűsége van a bekapcsolódásra. Ezt a folyamatot addig folytatjuk, amíg egy előre rögzített generációszámot elérünk. Az új generációkba való kerülés „elitizmuson” alapszik, azaz előző 2n tagszámú generációból n legoptimálisabb átlagos statisztikai mérőszámmal rendelkező fog továbbkerülni. Az új generáció feltöltésére használt – véletlenszerűen kiválasztott – transzformációk a következők lehetnek 1) genetikai: pontmutáció, keresztezés 2) logikai: ÉS (AND), VAGY (OR), NEM (NOT), KIZÁRÓ VAGY (XOR). A pontmutáció valószínűsége a korai generációkban kisebb a többi transzformációhoz képest, a későbbi generációk során az egyéb transzformációk valószínűsége csökken és a pontmutációé nő. Ez a technika elősegíti, hogy a késői generációkban ne változzanak túl nagyot a jól becslő modellek molekulaleíró kombinációja, mivel feltehetően ekkor már csak a modell finomítására van szükség. A PAS érték a pontmutáció esetén tölt be fontos szerepet, ugyanis a különböző molekulaleíró kombinációkban szereplő molekulaleírók PAS értékei összeadódnak, ami arányos a pontmutációban való bekapcsolódásuk esélyével. A GA akkor áll le, ha eléri az előre definiált maximális generációszámot, vagy ha egy előre megadott generációszám után sem jelenik meg jobban becslő modell. 3.3.7.4.
Molekulaleíró kombináció bank - MKB
Robusztus modellt adó molekulaleíró kombinációhoz úgy lehet jutni, ha az ismételt tanulás/kiértékelés – ITK – iterációinak számát nagyra állítjuk, azaz sok felosztás
történik
egy
adott
munkahalmazra.
Ily
módon,
azonban
nagyon
meghosszabbodik a változó-kiválasztás – VSS – időtartama. A 3DNET4W-ben a VSS során általában kisszámú iterációval végezzük az ITK-t, viszont az optimalizálandó statisztikai mérőszám átlagos skálázott értékét legalább elérő modellek molekulaleíró kombinációit egy ún. molekulaleíró kombináció bankba (MKB) gyűjtjük. Ebbe többféle
48
statisztikai mérőszám alapján optimalizált modellek molekulaleírói is kerülhetnek, ezért az összevethetőség kedvéért a mérőszámokat 0-1 érték közé skálázza a 3DNET4W. A bekerülési határértéket a felhasználó adja meg, amit tapasztalataim szerint 0,4-0,5 között érdemes beállítani. A MKB-ből nagyszámú iterációval végzett ITK-val lehet a legrobusztusabb modellt adó molekulaleíró kombinációt kiválasztani. Egy adott MKB legrobusztusabb molekulaleíró kombinációja az, amelyik a legnagyobb átlagos statisztikai mérőszámot éri el a kiválasztás során. A modelloptimalizálás végső modellje a legrobosztusabb molekulaleírók a munkahalmaz összes elemére illesztett változata. Ezzel a modellel történik a külső ellenőrzés és a véletlen korrelációs (Y-randomizálás) teszt [63]. 3.3.7.5. A
Függvényillesztő módszerek természettudományos
folyamatok
elméleti
levezetéssel
igazolt
függvénykapcsolat használatával történő leírására ritkán van lehetőség (pl. BouguerLambert-Beer törvény). Elméleti levezetés hiányában korreláció analízissel vagy regresszió analízissel lehet a kapcsolatot megállapítani két mennyiség között. A korreláció általában két mennyiség olyan függése egymástól, aminek valószínűségi jellege van. Amennyiben nem elégséges az együttváltozás meglétét vagy hiányát megállapító vizsgálat, hanem valamilyen egyenlettel megfogalmazható összefüggésre van
szükség,
regresszió-analízist
kell
végezni.
Regresszió-analízis
során
a
paraméterbecslés az elsődleges feladat, ezekhez különböző paraméterbecslő modelleket használnak [64]. 3.3.7.5.1.
MLR – Többszörös lineáris regresszió (Multiple Linear Regression) [64]
Áltanosságban a lineáris regresszió a független változók X [N × K] mátrixa és a függő változó(k) Y [N × M] mátrixa között fennálló összefüggést adja meg, ahol N = objektumok, molekulák száma, K = molekulaleírók száma (független változók), M = biológiai hatások (függő változók) száma. Ha K = 1 akkor egyváltozós lineáris regressziónak nevezik az összefüggést. Biológia problémákban általában az M = 1, ebben az esetben a regresszió a 31. egyenletnek megfelelően írható fel [65].
y = Xb + u 31. egyenlet
y = a hatástani/biológia adatok [N × 1] elemű oszlopvektora
49
X = molekulaleírók [N × K] elemű mátrixa b = regressziós paraméter [K × 1] elemű vektora u = a hatástani/biológia adatok (függő változó) [N × 1] elemű reziduális vagy hibavektora Lineáris regresszió paramétereinek becslésére leggyakrabban a legkisebb négyzetek módszerét – LKNM, Ordinary Least Squares, OLS – szokták alkalmazni [66], azaz a reziduális uˆ = y − Xb vektorváltozó önmagával végzett skaláris szorzatát kell minimalizálni. Az ( X T X ) −1 X T mátrixot „kalap”, angolul „hat” mátrixnak nevezik, mivel megadja az y becslését.
min uˆ T uˆ ⇒ bˆLKNM = ( X T X ) −1 X T y ˆ b
32. egyenlet
A LKNM-nek használatához bizonyos feltételeknek teljesülését meg kell vizsgálni [67]. 1. Linearitási feltétel: a modell paramétereiben lineáris. 2. Autokorrelálatlansági feltétel: E[ui, uj] = 0, ha i≠j, azaz a különböző megfigyelésekhez tartozó reziduális változók korrelálatlanok. 3. Torzítatlansági feltétel: ui reziduális változók 0 várható értékűek. 4. Lineáris függetlenségi feltétel: xk változók lineárisan függetlenek. 5. Kiegyenlítő eljárás szükségessége feltétel: xk változók száma kisebb, mint a megfigyelések száma, azaz N > K. Ha N = K, akkor egy megoldás létezik. Ha N < K, akkor végtelen sok megoldás létezik. 6. Független
változók
molekulaleírók
nem
hibamentességére sztochasztikusak,
vonatkozó azaz
feltétel:
tetszőleges
xk
értékre
hibamentesen beállíthatók. 7. Homoszkedaszticitási feltétel: E[ui, uj] = σ2, ha i≠j, azaz a szórások minden megfigyelésnél azonosak. 8. Normalitási feltétel: az u vektor ui elemei egymástól független, Gauss eloszlású valószínűségi változók.
50
Igazolható, hogy ha az első hat feltétel teljesül, az LNKM becslő torzítatlan becslését adja a paramétereknek. Ha a hetedik feltétel is teljesül, akkor az LKNM becslő a torzítatlan becslők közül minimális varianciával rendelkező becslést ad. Ha a nyolcadik feltétel is teljesül, a becsléseket lehet statisztikailag – pl. F, t próbával – jellemezni. Az ( X T X ) mátrixot kovarianciamátrixnak (C) is szokták nevezni. A 32.
egyenlet csak akkor oldható meg, ha C mátrixot lehet invertálni. A Moore-Penrose általánosított mátrix inverz (pszeudoinverz) segítségével a 32. egyenlet formálisan mindig megoldható (33. egyenlet).
bˆ = C + X T y = ( X T X ) + X T y 33. egyenlet
C+ : pszeudoinverz Az is igazolható, hogy a 33. egyenlet helyett elég a következő egyenletet megoldani:
bˆ = X + y 34. egyenlet
A 33. egyenlet és 34. egyenlet csak formális megoldást szolgáltat a regressziós feladatra, az X+ mátrixot konkrétan meg kell határozni. Az általános inverz konkrét meghatározására többféle módszer létezik. A PCR-t és a PLS-t olyan módszereknek lehet tekinteni, amelyek konkrét X+ mátrixot állítanak elő, bár különböző becsléseket adnak a bˆ -re. A 3DNET4W-be implementált MLR modul a megoldásvektort a Moore-Penrose általánosított mátrix inverz segítségével számolja ki, így tetszőleges dimenziójú mátrixokra lehet alkalmazni az LNKM-t. Abban az esetben, ha N > K, azaz több a molekula, mint a molekulaleíró, akkor a klasszikus LKNM megoldást szolgáltatja. Ha N < K, azaz a molekulaleírók száma nagyobb, mint a mért adatoké, akkor a végtelen sok megoldás közül azt a megoldást adja vissza, amelynek a legkisebb a Frobenius normája [68]. Az m sorú n oszlopú A mátrix Frobenius normája – A F – megegyezik elemei abszolút értékeinek – ai , j – négyzetösszegének négyzetgyökével (35. egyenlet). m
AF =
2
n
∑∑ a
i, j
i =1 j =1
35. egyenlet
51
3.3.7.5.2.
PLS – Részleges legkisebb négyzetek módszere (Partial Least Squares) [59]
PLS olyan módszer, amely hatékonyan képes kezelni olyan regressziós problémákat, ahol a molekulaleírók száma több, mint a megfigyelések (hatástani adatok) száma, ilyen esetekben a molekulaleírók gyakran kollineárisak. A PLS képes kezelni bizonyos mennyiségű – kb. 10% –hiányzó változót is. A PLS olyan esetekben is használható, amikor nem egy hatástani adatokból álló y vektort kell számítani, hanem pl. hatásprofilokat, spektrumokat, vagyis egy Y mátrixot. A PLS úgy adja meg a függvénykapcsolatot az X molekulaleíró mátrix és az Y hatástani adatok mátrixa között, hogy az X mátrixot T mátrixba, az Y mátrixot U mátrixba vetíti, majd megkeresi az összefüggést a T mátrix tl és az U mátrix ul oszlopvektorai között [69]. A PLS matematikailag egy mátrixtranszformáció, amelyben a molekulaleírók X adatmátrixát három mátrix szorzatára bontják.
X
T = N
N
K
VT
Q L
L L
K
L
36. egyenlet
L = X mátrix rangja Q = TTXV T = XVQ-1 A 34. egyenletnek megfelelő X+ általánosított inverzt a 37. egyenlet adja meg. Ha L = N akkor bˆPLS = bˆLKNM , vagyis, ha a PLS rejtett változóinak/komponenseinek száma megegyezik a molekulaleírók számával, akkor a PLS modell megegyezik az MLR (LKNM) modellel.
X + = VQ −1T T 37. egyenlet
A paraméterek PLS becslése (38. egyenlet, 39. egyenlet)
bˆPLS = VQ −1T T y 38. egyenlet
y = biológiai hatások vektora
52
bˆPLS = (U T U ) −1U T y 39. egyenlet
U = TQ y = biológiai hatások vektora
Az X mátrix kifejezhető az alábbi egyenlettel (40. egyenlet), ahol U oszlopai a PLS koordináták, VT sorai, vagyis V oszlopai pedig a PLS bázisvektorai
X = UV T 40. egyenlet
A PLS modell másik megközelítése [70], ha magyarázó változók X mátrixát és a hatások Y mátrixát két-két mátrix szorzatára bontjuk a 41. egyenletnek és a 42.
egyenletnek megfelelően. Ezeket az egyenleteket külső összefüggéseknek nevezik. Az egy mátrixhoz tartozó rejtett változók/komponensek korrelálatlanok, azaz a mátrix oszlopai ortogonálisak. A PLS tehát összegzi a xk változókat L db tl ortogonális rejtett változóba, ezek alkotják a T [N × L] mátrixot. Az összegzés az X mátrix projekciója egy L dimenziós hipersíkba, ily módon jó közelítése az X-nek. Ha több biológiai hatást számítanak, azaz M>1 akkor a PLS egyidejűleg összegzi az Y mátrixot L db ul ortogonális rejtett változóba.
X = T PT + E
N ,K
N ,L L,K
N ,K
41. egyenlet
Y = U VT + F
N ,M
N ,L L ,M
N ,M
42. egyenlet
K = molekulaleírók száma N = molekulák/ megfigyelések száma M = biológiai hatások (függő változók) száma E = X-re vonatkoztatott reziduális hibatag F = Y-ra vonatkoztatott reziduális hibatag T = molekulaleírók rejtett változóinak mátrixa (scores) U = biológiai hatások (függő változók) rejtett változóinak mátrixa (scores) P = T mátrixhoz tartozó együtthatómátrix (loadings) V = V mátrixhoz tartozó együtthatómátrix (loadings)
A két adatmátrix rejtett változóin keresztül megvalósuló függvénykapcsolatot a 43.
egyenlet írja le, amit belső összefüggésnek neveznek. A függvénykapcsolat lehetne
53
nemlineáris is, sőt ki is dolgoztak erre eljárásokat, azonban az 1990-es évek végére az újabb nemlineáris módszerek pl. a mesterséges ideghálózatok módszere szinte teljesen kiszorította a nemlineáris PLS-t.
u =q t + h
N ,l
l ,l N ,l
N ,l
43. egyenlet
ul = Y l-edik rejtett változója tl = X l-edik rejtett változója qll = a számítandó l-edik regressziós együttható hl = l-edik hibatag
A 43. egyenlet mátrixformában is fel lehet írni (44. egyenlet).
U = T Q+ H
N ,L
N ,L L,L
N ,L
44. egyenlet
A 42. egyenletből és 44. egyenletből a következő egyenlet alapján lehet kiszámítani az Y-t.
Y = T QV T + F
N ,M
N , L L , L L ,M
N ,K
45. egyenlet
3.3.7.5.3.
ANN – Mesterséges ideghálózatok (Artificial Neural Network)
1986-ban robbant be a tudományos köztudatba a mesterséges ideghálózatok nevű nemlineáris közelítő eljárás. Ezzel a módszerrel lehetővé vált az olyan sokváltozós folyamatok matematikai modellezése, melyeknek elméleti háttere nem tisztázott, viszont elegendő empirikus tapasztalat és mérési eredmény állt rendelkezésre, valamint a függő és független változók között nemlineáris összefüggések állnak fenn [71].
9. ábra mesterséges idegsejt-egység.
A mesterséges ideghálózatok modell neuronokból épülnek fel (9. ábra), amelyek utánozzák a természetes neuronok négy alapvető funkcióját: bemenetek fogadása –
54
dendritek, bemenetek feldolgozása – szóma, bemenetek kimenetté alakítása – axon, kapcsolatok létrehozása – szinapszisok. A kapcsolódási helyek működését egy módosítható hatékonysági tényező, a súly fejezi ki. A mesterséges neuronok kimenő jelét egyetlen szám fejezi ki, amely az idegsejt aktivitásának mértékét jelöli. A modell idegsejt-egységek egyetlen kimenő jellé alakítják át a beérkező impulzusok összességét, és azt továbbítják a többi egység felé [71]. Az átalakítás két lépésből áll 1. Minden beérkező jel (x0…xn) a hozzá tartozó szinapszis hatékonysága szerinti
súllyal
(w0…wn)
szorzódik,
majd
a
súlyozott
értékek
összeadásával kialakul az eredő bemeneti érték (input, I) a 46. egyenlet alapján, ahol wji a j-edik és az i-edik egység közötti összeköttetés súlya, xi az i-edik beérkező jel értéke. I = Σ w ji xi i
46. egyenlet
2. Második lépésben a modell-egység a megfelelő átalakító függvény segítségével kiszámítja a kimenti jel (output) értékét (47. egyenlet) [71]. yi = f(I)
47. egyenlet
Egy ANN viselkedését a modell egységek kapcsolódási módja, a súlytényezők valamint az átalakító függvény határozza meg. A neuronok kapcsolódási módja az egymásra gyakorolt hatásukat határozza meg, a szinapszisokhoz rendelt súlyok pedig a befolyás
erősségét.
A
mesterséges
ideghálózatok
legfőbb
tulajdonsága
az
„alkalmazkodási”, „tanulási” képesség, ez tulajdonképpen olyan paraméter(súly) vektorok keresését jelenti, amelyekkel a hálózat valamely függvény minél jobb közelítésére lesz képes. Az ANN-ek mesterséges neuronok csoportosulása, ami legtöbb esetben rétegekben jelenik meg, a létrejött rétegek egymáshoz kapcsolódnak. Rétegek közötti kapcsolatok lehetnek: 1) teljesen összekapcsolt („fully connected”), amikor minden neuron az első rétegen hozzá van kapcsolva a második réteg minden neuronjához, 2) részelegesen összekapcsolt („partially connected”), amikor az első réteg neuronjai nem az összes második rétegen lévő neuronhoz vannak hozzákapcsolva, 3) előre adagolás („feed forward”) esetén az első réteg neuronjai a kimenetüket a második rétegnek küldik, azonban nincs
semmiféle visszacsatolás a második rétegtől, 4)
kétirányú kapcsolat („bi-directional”) esetén a második réteg neuronjainak kimeneti
55
értékei
visszacsatolnak
az
első
réteg
neuronjaihoz
[71,72].
A
mesterséges
ideghálózatokat lehet tanító algoritmusaik szerint csoportosítani: 1) felügyelt (ellenőrzött) tanítású hálózat, 2) nem felügyelt (nem ellenőrzött) tanítású hálózat, 3) analitikus tanítású hálózat. 3.3.7.5.3.1.
Felügyelt ”tanulású” hálózatok
Munkám során csak felügyelt tanulású hálózattal dolgoztam, így ezzel részletesebben foglakozom. A hálózat háromféle egységből, illetve annak rétegeiből épülhet fel. A bemeneti egységek rétege a rejtett egységek rétegével áll kapcsolatban, a rejtett réteg pedig a kimeneti egységek rétegével. Mesterséges idegsejtekből tetszőleges elrendezésű hálózat építhető fel. A leggyakrabban használt felügyelt „tanítású” mesterséges ideghálózatok három vagy négy réteggel rendelkeznek (10. ábra).
10. ábra Háromrétegű, előre adagoló, felügyelt mesterséges hálózat [40].
A bementi egységek rétege a hálózatba táplált nyers információnak felel meg – QSAR modellezés esetében ezek a molekulaleírók. A rejtett réteg neuronjainak tevékenységét a bemeneti egységek működése, valamint a két réteg közötti összeköttetésekhez rendelt súlyok határozzák meg. A kimeneti egységek tevékenységét a rejtett réteg neuronjai, valamint a rejtett és kimeneti réteg közötti kapcsolatok súlyai határozzák meg. A 47. egyenletben szereplő átalakító függvény lehet: szigmoid, tangens hiperbolikusz, lépcsős vagy valamilyen lineáris függvény. Kémiai problémákra leggyakrabban a szigmoid vagy tangens hiperbolikusz (48. egyenlet) függvényt szokták alkalmazni, ahol I a bemenő jelek súlyozott összege, a az ún. erősítés. f (I ) =
e I / a − e−I / a e I / a + e−I / a
48. egyenlet
56
Az ANN illesztés során az X0 bemeneti mátrixhoz olyan W súlymátrix keresése a cél, ami legpontosabban adja vissza az ismert Y0 kimeneti mátrixot. Olyan W súlymátrix, ami minden x0,n-t y0,n-be visz át általában nem létezik, viszont egy vagy több olyan W található ami a 49. egyenletben leírt hibafüggvényt minimalizálja.
E = Y0 − F (W , X 0 ) 49. egyenlet
A felügyelt ideghálózatok leggyakrabban használt tanítási módszere a hiba visszafuttatásos („back-propagation”) algoritmus [73]. Az algoritmus működéséhez példákra van szükség, amivel az ANN „betanítása” történik. A hiba visszafuttatásos algoritmus alkalmazása esetén, a „betanítás” során minden egyes kapcsolat súlytényezőjét annak arányában kell változtatni, amilyen mértékben ez a módosítás a hiba csökkenésére kihat. A rejtett réteg(ek)ben lévő csomópontok számát előre nem lehet megadni, ha túl kevés, akkor az illeszkedés rossz lesz, ha túl nagy, akkor túlillesztés következik be. A csomópontok számát vagy a felhasználó állítja be, vagy a szoftver határozza meg próbálgatással. A 3DNET4W programban implementált ANN jellemzői: három rétegű, előre adagoló, teljesen összekötött, hiba visszafuttatásos tanító algoritmus, a rejtett rétegben tangens hiperbolikusz átalakító függvény van. Az ilyen felépítésű hálózatok képesek illeszteni szinte bármilyen nem-lineáris hiperfelszínt az általános közelítés tétele alapján („universal approximation theorem”). A tétel kimondja, hogy a teljesen összekapcsolt, háromrétegű,
előre
adagoló
mesterséges
ideghálózatok,
nemlineáris
átalakító
függvénnyel képesek tetszőleges pontossággal közelíteni bármilyen függvényt, amely véges számú szakadást tartalmaz [60, 74]. A szoftverbe implementált ANN – a számítás egyszerűsítése végett – a tanulási fázis alatt mind a molekulaleírókat – bemenő réteg – mind a hatástani adatokat – kimenő réteg – -1 és +1 közé skálázza. A 3DNET4W a neurális hálózatot mindig konvergenciáig futtatja [75], ennek felgyorsítására az újabb szoftververziók a Levenberg-Marquardt algoritmust használják. A LevenbergMarquardt algoritmus egy iteratív módszer, amivel olyan függvények minimumát lehet megtalálni, amelyek nem-lineáris függvények négyzetösszegeként vannak kifejezve [76].
57
3.4. IMAP esszé optimalizálás 2005-ben lehetőségem nyílt 2,5 hónapot eltölteni a müncheni Axxima Pharmaceuticals AG, Assay Development and Screening laborjában. Itt elsajátíthattam az alapelveket és betekintést kaptam arról, hogyan zajlik a HTS esszéfejlesztés és tesztelés IMAP módszerrel, egy kinázokkal foglalkozó közepes biotechnológiai cégnél. Hazatérésem után a kutatócsoportunkban lehetőségem nyílt arra, hogy – az ott megismert IMAP technológia alapján – megszervezzem a biokémiai esszék beállítását kináz enzimekre, valamint a vegyületek tesztelését kialakítsam.
3.4.1. Elméleti háttér Az
IMAP
technológia
alapelve,
hogy
nanorészecskékhez
koordinációs
komplexszel rögzített (immobilizált) fémionokhoz (MIII) – megfelelően nagy só koncentráció (ionerősség) esetén – nagy affinitással kötődik a foszfát csoport. Az IMAP „kötő reagens” komplexet képez – a kináz által katalizált reakció során – a peptid szubsztrátra kötődő foszfát csoporttal. A szubsztrátok fluoreszcens festékkel vannak megjelölve. Az általunk használt peptid szubsztrátokon 5-karboxifluoreszcein (5-FAM) jelzés van. A kötődés lecsökkenti a jelölt peptid szubsztrát molekuláris mozgását, ami a mért fluoreszcencia polarizáció (FP) értékének növekedésével detektálható. Ez az eljárás – ellentétben az ellenanyag alapú kináz esszékkel – a szubsztrát peptid megválasztásának nagyobb szabadsága miatt a kinázok szélesebb körének a tesztelésére alkalmas, elsősorban a szerin/treonin kinázok területén. Az IMAP „kötő oldat” kétféle gyári pufferből áll, és ebben a pufferben van feloldva IMAP „kötő reagens” megfelelő hígításban.
58
11. ábra IMAP esszé működési elve.
3.4.2. IMAP esszé általános menete 1.
jelzett szubsztrátot és ATP-t tartalmazó oldat pipettázás
2.
tesztelendő vegyület pipettázás
3.
kináz pipettázás
4.
kináz inkubációs idő
5.
IMAP „kötő oldat” pipettázás
6.
IMAP inkubációs idő
7.
FP mérés (Ex: 458-20 nm, Em: 530-25 nm)
3.4.3. Esszék statisztikai jellemzői A futtatott esszéket az alábbi statisztikai mérőszámokkal jellemezzük: 1.
∆S: jelkülönbség: a minimum kontroll/háttér átlagos polarizációs értéke (nincs kináz), és a maximum kontroll átlagos polarizációs értéke (nincs inhibitor) közötti különbség. Az optimalizálás során a jelkülönbséget 100 mP körüli értékre szoktuk beállítani.
2. S/B: jel/háttér: a átlagos maximum jelszint és átlagos minimum jelszint/háttér aránya. Problémája, hogy nem tartalmaz információt a szórásról. (Minél nagyobb annál jobb.) 3. S/N: jel/zaj arány (50. egyenlet) Megadja, hogy a jel mennyire tér el a háttértől.
59
S/N =
max jel − min jel SDmin jel
50. egyenlet
max jel = elméleti maximális jelszint (nincs inhibitor) átlagos értéke min jel = elméleti minimális jelszint/háttér (nincs kináz) átlagos értéke SDmin jel = elméleti minimális jelszint/háttér szórása
4. Z’: Zhang és munkatársai által bevezetett HTS esszék statisztikai mérőszáma [53] (51. egyenlet).
Z '= 1−
3SDmax jel + 3SDmin jel max jel − min jel
51. egyenlet
max jel = elméleti maximális jelszint (nincs inhibitor) átlagos értéke min jel = elméleti minimális jelszint/háttér (nincs kináz) átlagos értéke SDmax jel = elméleti maximális jelszint/háttér szórása SDmin jel = elméleti minimális jelszint/háttér szórása
3.4.4. IMAP esszé optimalizálás A optimalizálás hat lépésből áll. Minden egyes lépés egy előre meghatározott kísérlet. Az általános protokoll kitöltetlen Excel fájlokból, ún. sablonokból áll, amit az adott kináznak megfelelően kell kitölteni, ekkor jön létre az adott optimalizáló lépésre és kinázra vonatkozó speciális protokoll. Minden sablonon vannak kötelezően kitöltendő mezők, pl. kináz neve, „stock” koncentrációja és szabadon változtatható mezők, pl. legnagyobb kináz koncentráció, ATP koncentráció. A Excel sablon függvényei a kitöltés után automatikusan kiszámítják a pipettázandó mennyiségeket, amivel tulajdonképpen elkészül a kísérleti protokoll. Minimum kontrollként: „nincs kináz” vagy „IMAP először”. Az „IMAP először” minimum kontrollként való ellenőrzése információt szolgáltat a gyöngyökhöz való aspecifikus kötődésről. Aspecifikusan kötődhet: 1) nem foszforilált 5FAM-szubsztrát, elsősorban
akkor ha
sok
negatívan
töltött
aminosavat
tartalmaz,
2) nagy
koncentrációban van jelen az ATP. Az „IMAP először” jel optimális esetben kb.
60
megegyezik a „nincs kináz” jellel. Maximum kontrollként azokat a reakcióedényeket használjuk, ahová nem adunk inhibitort. Az optimalizálás kis térfogatú (35 µl), fekete, polisztirol, 384 lyukú mikrolemezen történik (Corning 3676) történik. Az esszé végtérfogata 8 µl. A fluoreszcencia polarizáció (FP) mérését a Molecular Devices Analyst GT készülékével végezzük. Optimalizáló lépések: 1. S1 - Kezdeti paraméterek meghatározása 2. S2 - IMAP „kötő oldat” optimalizálás 3. S3 - kináz puffer optimalizálás 4. S4 - ATP Km, app meghatározás 5. S5 - Reakcióidő és kináz koncentráció meghatározása 6. S6 - Optimalizált esszé validálása ismert inhibitorokkal
3.5. Tesztelendő vegyületek logisztikája A tesztelendő vegyületek logisztikája az egyik kulcsfontosságú eleme egy jól működő tesztelő részlegnek. A vegyület-mintakezelés a gyógyszerkutatás minden fázisában fontos, hogy megbízható adatokhoz jussunk. Megfelelően megtervezett útvonalon kell haladni a vegyületeknek a különböző fázisok között, valamint a minták kezelésére vonatkozóan protokollokat kell lefektetni. A vegyületlogisztikai részlegnek szorosan kell csatlakoznia a vállalati adatbázishoz. A vegyületek a kutatási folyamatokban különböző halmazállapotokban és formátumokban léteznek. Ezek nyomon követése az adatbázisban kiemelkedő fontosságú. A nyomkövetésre ma a legelterjedtebb módszer a vonalkódok használata. Az általunk használt logisztikai rendszerben először a vegyületeket szilárd (por) formában tároljuk és regisztráljuk az adatbázisban. A vegyületek könnyebb kezelhetősége miatt később praktikusabb oldatban tárolni azokat. Az oldásra használt oldószer a legtöbb esetben 100% DMSO. Annak ellenére, hogy folyadék fázisban könnyebben bomolhatnak a vegyületek és eltarthatóságuk rövidebb, jelenleg a legtöbb
61
gyógyszergyárban folyamatos minőségellenőrzés mellett ilyen módon is tárolják a vegyületeket. Az oldat vegyülettárunkat (LLS, Liquid Library Stock) a Micronic BV által forgalmazott 2D vonalkóddal ellátott mintatartó csövekben tároljuk, a csövek 96-lyukú tárolókban helyezkednek el, a csőtárolókat szintén vonalkóddal látjuk el. A 2D vonalkódok beolvasására és azonosításra két lehetőség van, az egyik egy lapolvasóval összekapcsolt azonosító szoftver, ami a 96-lyukú csőtárolókat egyszerre képes beolvasni, a másik lehetőség egy részben általam tervezett egyedi csőbeolvasó. Ez tulajdonképpen egy kereskedelmi forgalomban kapható Dalatogic Gryphon D432E vonalkódolvasó és a köré épített henger alakú váz, amelynek a tetején kialakított nyílásba lehet helyezni egyesével a 2D vonalkódos csöveket. Az LLS-ból készülhetnek el tesztelésre a vegyületeket tartalmazó lemezek vagy egyéb céllal történő kimérések. Az egyik legkritikusabb lépés az oldat vegyülettár készítésekor a szilárd anyagok kimérése a 2D csövekbe, mivel ezután a cső 2D vonalkódja alapján történik az azonosításuk. Ennek a folyamatnak lebonyolítására készítettem egy számítógéppel felügyelt kimérő berendezést. A berendezés három egységből áll: egy standard PC, amin fut a mérést felügyelő alkalmazás, az előbb említett egyedi 2D csőbeolvasó és egy Sartorius CP225D mérleg. A felügyelő Microsoft Excel alkalmazás DDE kapcsolaton keresztül meghívja a Tal Technologies Inc. Software Wedge for Windows alkalmazását, amely a PC soros kapuin keresztül kommunikál a vonalkódolvasóval és a mérleggel.
62
4. EREDMÉNYEK ÉS MEGBESZÉLÉS 4.1. Elektronikus könyvtár és szerkezeti-hatástani adatbázis Részt vettem a kinázok területére fókuszáló elektronikus könyvtárunk megtervezésében és feltöltésében, ami jelenleg 3157 publikációt tartalmaz, ezek közül kb. 500 publikáció feltöltését végeztem el. Adatbázisunkban a következő keresési lehetőségek adottak: gyorskeresés (publikáció címe, szerzők, megjelenés éve, első oldal száma szerint) vagy teljes szövegű keresés. Egy publikáció meghatározott mezői tetszőleges formában exportálhatók referenciaként pl. cím, szerzők neve, folyóirat címe, kiadási év, stb. Az adatbázisunkban lévő – átlagosan nagyobb, mint öt cpIC50 értékkel rendelkező – molekulák diverzitása a CHED szoftver számítása alapján 0,803. Részt vettem a kinázok területére fókuszáló szerkezeti-hatástani adatbázisunk megtervezésében és feltöltésében, ami jelenleg 18492 adatrekordot tartalmaz, kb. 1000 adatrekord feltöltését és több száz ellenőrzését végeztem el.
4.1.1. Megbeszélés Az elektronikus könyvtárunk jól felépített, könnyen bővíthető, jól kereshető, jól exportálható, ezért alkalmas az összegyűjtött szakirodalom hatékony keresésre, a referenciák különböző módon való kinyerhetőségével pedig segítséget nyújt cikkírásnál. A szerkezeti-hatástani adatbázis képes kiszolgálni a vegyészek igényeit a racionális hatóanyag-tervezéshez,
egyszerűbb
kvalitatív
szerkezet
hatás
összefüggések
felállításához, emellett QSAR modellezéshez is könnyedén lehet adatokat kigyűjteni belőle.
4.2. Külső ellenőrzőhalmaz kiválasztása Ebben a részfejezetben bemutatott eredmények 2003-ban a Molecular Diversity folyóiratban jelentek meg [54]. A QSAR modellek virtuális szűrésre való felhasználhatóságának megállapítására szolgáló egyik módszer a külső ellenőrzés. Fontos, hogy a külső ellenőrző halmaz megfelelő módon legyen kiválasztva. A közlemény alapját képező számításban megvizsgáltuk, hogy a szoftverünk által ismert háromféle külső ellenőrző halmaz
63
kiválasztási módszer hogyan befolyásolja a modellezés eredményét. A vizsgálat elvégzéséhez az akkor rendelkezésünkre álló legnagyobb és jól modellezhető adathalmazt választottuk: 1381 molekulát és hozzátartozó vízoldhatóság adatot [77]. A molekulákra kiszámítottam 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, majd a konstans értékek és kollineáris molekulaleírók eltávolítása után, további 1D és 2D szűréssekkel 98 darabra csökkentettem a molekulaleírók számát. Az így előállt 1381×98 mátrix volt a kiindulási alaphalmaz. Ezt a halmazt véletlenszerűen kétfelé osztottam, ez a felosztás háromféle arányban történt meg: 2,5%-97,5%, 5%-95%, 10%-90%. A kisebbik halmaz lett a modellkészítő halmaz, a nagyobb pedig az ún. kémiai univerzum halmaz. Ebben a számításban egy adott modellkészítő halmaz tulajdonképpen megfelel a 4. ábrán bemutatott bemenő adathalmaznak. Az egyes felosztásokhoz tartozó modellkészítő halmazokat tovább osztottam munkahalmazra és külső ellenőrző halmazra. A felosztás (75%-25%) háromféleképpen történt meg: véletlenszerűen (RS), egyenletesen kiválasztva (UD) vagy ú.n. kerületi kiválasztással (PO). A modell optimalizálást PLS módszerrel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám az SDEP volt. A számítások során a 0,6 átlagos skálázott SDEP értéknél jobban becslő modellek molekulaleíróit – a modellkészítő halmaz felosztásaiként és külső ellenőrző halmazonként – MKB-kbe gyűjtöttem, azaz az összes VSS lefutása után végén 9 MKB volt. A MKB-kből a végső modell kiválasztása a különböző módon kiválasztott külső ellenőrző halmazokkal történt, oly módon hogy az adott MKB minden molekulaleíró kombinációját illesztette a szoftver a munkahalmazra, majd megbecsülte a külső ellenőrző halmazt. A legkisebb SDEP értékkel rendelkező végső modellel pedig megbecsültem a kémiai univerzum halmazt és kiszámítottam az SDEPkémiai
univerzum
értékeket. A számítás folyamatábráját a 12. ábra szemlélteti. A
számítások eredményeit a 13. ábra és a 4. táblázat foglalja össze.
64
12. ábra Külső ellenőrző halmaz kiválasztásának módját meghatározó számítás folyamatábrája.
1.30 1.25
1.26
Átlag SDEP
1.24 1.20 1.19 1.15 1.16 1.10
1.12
1.13
1.10 1.07
1.05
1.05
1.00 PO
RS Külső ellenőrző halmaz kiválasztási módszer MBS 2.5% MBS 5%
UD MBS 10%
13. ábra A két számítási folyamat kémia univerzum becslésének átlagos SDEP értékének változása a különböző kiválasztási módszerek szerint. MBS: modellkészítő halmaz, PO: kerületi kiválasztás, RS: véletlen kiválasztás, UD: egyenletes kiválasztás.
65
4. táblázat A különböző módon kiválasztott külső ellenőrző halmazok becslésének SDEP értékei kémiai univerzum halmazokon.
MBS mérete EVS PO kiválasztási módszer 1.15 SDEP1a b 1.12 SDEP2 1.13 Átlagos SDEP
2.5% RS
5% UD
PO
RS
10% UD
PO
RS
UD
1.20 1.19
1.20 1.28
1.05 1.27
1.10 1.11
1.07 1.06
1.14 1.38
1.17 1.08
1.09 1.01
1.19
1.24
1.16
1.10
1.07
1.26
1.12
1.05
4.2.1. Megbeszélés A 13. ábrán látható, hogy a különböző módokon készített külső ellenőrző halmazok által kiválasztott végső modellek SDEPkémiai univerzum értékei között nincs túl nagy különbség. Megállapítható azonban, hogy a 97,5%-2,5%-os felosztás esetében a kerületi kiválasztással (PO) előállított ellenőrző halmazon a legkisebb becslési hibával rendelkező modellel lehetett a kémiai univerzum molekuláit a legkisebb hibával becsülni. A 95%-5%-os, 90%-10%-os esetekben a modellkészítő halmaz már valószínűleg nagyon hasonló volt a kémiai univerzum halmazokhoz, így nem PO alapján történt kiválasztás adta a legjobb eredményt. A számítás eredményeit a későbbiekben több más modell alapján újraértékelve a modellkészítő halmazok számosságától függően a véletlen kiválasztás adta a legegyenletesebb eredményt, így a további számításaimban ezt a kiválasztást használtam.
4.3. Kinázgátlók QSAR modellezése Modellezési tapasztalataim alapján ha a külső ellenőrzés Q2 értéke ≥ 0,4, valamint SDEP értéke 0,8-1,4 között van, akkor a modell megbízhatóan használható az alkalmazhatósági tartományon belül lévő ismeretlen molekulák becslésére, feltéve, ha a modell nem véletlen korreláció eredménye. A modellekben felhasznált molekulaleírók közül némelyeknek fizikai-kémiai jelentése, némelyeknek topológiai jelentése van, azonban számos molekulaleíróinak nincs könnyen megfogható értelme, ezek ú.n. absztrakt molekulaleírók. Jelenleg a QSAR modellezés egyik hiányossága ezeknek a molekulaleíróknak az interpretálása és ábrázolása, valamint új molekulák tervezésében való alkalmazhatóságuk.
66
4.3.1.1.
EGFR gátlás modell
Ebben a részfejezetben bemutatott eredmények 2006-ban a Current Medicinal Chemistry folyóiratban jelentek meg [63]. Az EGF receptor túlzott mértékű expressziója (overexpression) és/vagy pontmutációja a kináz doménban részt vesz a karcinogenzeis különböző folyamataiban pl. sejtproliferáció, apoptózis gátlás, angiogenezis, sejtmotilitás változás és metasztázis képzés. Valószínűsíthetően az EGFR rendellenes működése által okozott betegségek: vastagbélrák, nem-kissejtes tüdő tumor, glioblasztóma multiform, különböző szilárd tumorok [78]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttük az EGFR kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC50 legyen, az EGF receptor A431-es sejtvonalból legyen izolálva, ne tartalmazzon autofoszforilációs méréseket, csak számszerűsíthető értékkel megadott hatástani adatokat tartalmazzon. Ezekkel a feltételekkel 623 különböző molekulát és hozzátartozó IC50 adatot gyűjtöttem ki [63]. Az kigyűjtött molekulák halmazának diverzitása a CHED szoftver számítása alapján 0,691. A molekulákat tizennyolc alapváz köré csoportosítottuk, tizenhét szerkezetet nem lehetett az általunk meghatározott alapvázak köré csoportosítani (14.
ábra).
67
(A)
R2
R1
R5
R7
R4
II(20)
R3 A R4 B C R5
N
N
R1
N
O
R1
R4
OH O
O R3
R1
OH
R2
O O S O
R2
R2
3
2
O
HN
R1
R3 N
XI(18)
X(4)
R5 R4
N
R2
O
VIII(5)
O R4
O2 N
O2N
R5
R3
VII(22)
R1
HO
R2 R1
R1
VI(83)
R1
O
OH
NH
OH
R3
IV(4)
R2
N
N H
R4
R2
R3
R3 N R2
III(69)
H
R2
V(317) HO
S
R3
R4 R5 N A D R8
7
R4
R1
N R2
6
O
I(9)
B C
S
R3
N R2
R2
R1
5
S
R6
HO
R1
4
N R1
R3
N
R3
IX(3)
Cl N
R2 R2
N
N O
R1
R2
HO
R1
N H
XV(4)
S R1
XVI(3)
O
Tyrphostins XVII(5)
(B)
O R2
XIV(4)
XIII(6)
N
N S
NH
OH
N H
R2
R1
XVII(21) H N
O
XII(9)
Y X
N
Cl N
N H
R1
S
O
OH
HO
OH
O
O
H N
HN HO
O
O
N
N
N H
O O
S
S
N O N
S OH
HO OH O
OH
HO
H
O
O O
O
O
H
O
O O
S
O S
H N
O
HN O
N H
Br
O
N
N
N
S
O
N
N O HN
HN
Br HO
HN
O N N N
NH
Cl
NH
N
HO
N HO
H
HO
O
Cl
NH2 O
O O
H
OH
HO
HO
NH
S
O
O
N
O
O
O
O
N H
NH2 N
N
N
14. ábra (A) A modellezés során felhasznált EGFR gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált EGFR gátló vegyületek, amelyeket nem lehetett az általunk meghatározott alapvázakhoz rendelni.
Az IC50 értékeket pIC50-né alakítottam át, a többszörösen előforduló molekulák esetében a pIC50 értékek átlagát vettem. A pIC50 értékek 8,8 log egységnyi tartományt fogtak át, eloszlásukat a 15. ábra szemlélteti.
68
15. ábra EGFR adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
1612 db 0D, 1D, 2D, 3D molekulaleírót számítottam ki a Dragon 4.1 segítségével. A molekulák 3D szerkezetét a Concord program segítségével állítottam elő. A modellezés további lépéseit a 3DNET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. A modellezés a cikkben bemutatott becslés orientált QSAR modellezés folyamata szerint zajlott (16. ábra).
16. ábra Becslés orientált QSAR modellezés folyamatábrája.
69
Az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: DsA (208 adatpont), DsB (208 adatpont), DsC (207 adatpont). Ugyanazon vegyületre közölt értékek legnagyobb pIC50 különbsége alapján – 2,2 – az EV várható Q2 értékének 0,5 körül kell lennie, ezt választottam küszöbértéknek. A küszöbérték meghatározása a cikkben közölt tapasztalati szabály alapján történt, amit számos QSAR/QSPR modell és hibával mesterségesen megterhelt adatok numerikus modellezése alapján vezettünk le (52. egyenlet). 2 QEV ≈ 1−
2 ⋅U D
52. egyenlet
U = Y adatok maximális bizonytalansága. Ha ismert a kísérleti adatok szórása,
akkor az U megegyezik kétszeres szórással. Ha nem, akkor önkényesen kell megválasztani pl. a vegyületek különböző mérései közötti legnagyobb különbség. D = Y adatok tartománya
A modelloptimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit – függvényillesztő módszerenként és munkahalmazonként – MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q2 értéket adta az adott munkahalmazon 512 véletlen felezéssel végrehajtott ITK-val. Az ANN módszer esetében nem történt molekulaleíró kiválasztás, mivel az ANN algoritmusunk – akkori – lassúsága miatt a modellt a legrobusztusabb MLR és PLS modellek molekulaleíróinak egyesítésével létrejött munkahalmazon történt ANN illesztéssel készítettem. Az DsAB halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy a DsC halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A
DsA
halmazokon
készített
modellek
DsB
halmazon
történt
külső
ellenőrzésének eredményei nem érték el a választott küszöbértéket. Az összevonás után létrejött DsAB munkahalmazon a fentebb leírtak szerint végeztem a modellezést. Sajnálatos módon a cikk írásakor a szoftver külső ellenőrzés, Q2 statisztika számoló moduljában hiba volt, amit a jelen disszertáció írásakor vettem észre. A hibát kijavítottuk és újraszámítottam a Q2 értékeket, majd elküldtük az újságnak a javított
70
adatokat. A hibát az okozta, hogy a 15. egyenlet nevezőjének számításához a szoftvermodul nem a mért hatástani adatok y vektorát, hanem a modell által számított hatástani adatok yˆ vektorát kapta meg. Az újraszámított Q2 értékek megerősítik a DsAB halmazon kiválasztott végső PLS modell virtuális szűrésre való alkalmasságát. A disszertáció ezeket a javított értékeket tartalmazza. A végső modellek jellemzőit és statisztikai eredményeit a 5. táblázat foglalja össze. A DsAB halmazon kiválasztott végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, az eredményeket az 6. táblázat mutatja be. 5. táblázat Az adott WS-en kiválasztott végső MLR, PLS EGFR modellek, valamint az előzetes ANN modellek jellemzői és statisztikai eredményei. Illesztési módszer
WS
Molekulaleírók száma
MLR MLR PLS PLS ANN ANN
DsA DsAB DsA DsAB DsA DsAB
26 73 36 53 48 113
PLS komp./ neuronok száma 17 42 4 2
WS illesztés R2
WS illesztés SEE
EVDsB Q2
EVDsB SDEP
0,7508 0,7848 0,7288 0,7614 0,8917 0,8648
0,8019 0,7737 0,8366 0,8184 0,5286 0,6134
0,5622 0,5640 0,3363 -
1,1442 0,5855 1,0081 1,1418 0,6077 0,9807 1,3749 0,5641 1,0338
EVDsC Q2
EVDsC SDEP
Az EV helyes Q2 értékeit figyelembe véve, már – a DsA halmazon kiválasztott végső MLR és PLS modellek – a DsB halmazon történt külső ellenőrzésének Q2 értékei is elérik az 52. egyenlet meghatározott küszöbértéket. Ha a 16. ábra alapján, további külső ellenőrzést végeztem a DsC halmazzal a statisztikai eredmények romlottak az MLR (Q2DsC = 0,3781; SDEPDsC=1,2362) és a PLS modell esetében is (Q2DsC = 0,3791; SDEPDsC=1,2352). 6. táblázat A DsAB halmazon kiválasztott végső MLR, PLS és ANN EGFR modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 623 molekula bevonásával történtek, 1024 (MLR,PLS) /512 (ANN) véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Modell MLR MLR MLR MLR MLR MLR PLS PLS
Tesztelt mérőszám /Teszt típusa Q2 / χ 2 Q2 / z Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’ Q2 / χ 2 Q2 / z
p
SzF
Krit. érték
Teszt értéke
0,001 0,001 0,001 0,001 0,001 0,001
203 203 203 -
406 3,29 0 406 3,29 0 406 3,29
2048 256,73 0,53 2048 277,46 0,54 2047,00 333,76
71
Q2eredeti AV/SD 0,61/ 0,04 0,64/ 0,03
Modell PLS PLS PLS PLS ANN ANN ANN ANN ANN ANN
Tesztelt mérőszám /Teszt típusa Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’ Q2 / χ 2 Q2 / z Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’
p
SzF
Krit. érték
Teszt értéke
0,001 0,001 0,001 0,001 0,001 0,001 -
203 101 101 -
0 406 3,29 0 150,67 3,29 0 150,67 3,29 0
0,63 2048,00 389,86 0,66 1024 197,46 0,55 1024,00 209,91 0,56
Q2eredeti AV/SD
0,63/ 0,03 -
A 17. ábrán a DsAB halmazon kiválasztott végső PLS modell illesztésének és a DsC halmazon való külső ellenőrzésének grafikus eredménye látható, a 18. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 7. táblázat a modell molekulaleíróit sorolja fel.
(A)
(B)
17. ábra (A) A DsAB halmazon kiválasztott végső PLS EGFR modell illesztése a DsAB-n. (B) A DsAB halmazon kiválasztott végső PLS EGFR modell külső ellenőrzésének eredménye a DsC-n.
72
(A)
(B)
18. ábra (A) A DsAB halmazon kiválasztott végső PLS EGFR modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A DsAB halmazon kiválasztott végső PLS EGFR modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 7. táblázat A DsAB halmazon kiválasztott végső PLS EGFR modell molekulaleírói MODd értékük alapján sorba rendezve. A MODd értékek a DsAB halmazon való illesztés alapján lettek számítva. Molekulaleíró kód
MODd
Molekulaleíró neve[22,35]
R7m+ JGI5 R5v+
100 32.6 29.3
R8v+
25.4
R3e+
20.9
X4Av X3Av HATS8u R3v+
17.7 16.1 15.1 14.2
Gu BIC0 R7v+
14.1 12.9 12.7
R3p+ RDF080e
12.2 11.3
SIC2 R7p+ GATS2p Mor04v nCaH JGT HATS0p
9.9 9.1 8.2 7.6 7.3 6.9 5.9
RDF010u MSD Mor18p
5.9 5.4 5.4
R maximal autocorrelation of lag 7 / weighted by atomic masses mean topological charge index of order5 R maximal autocorrelation of lag 5 / weighted by atomic van der Waals volumes R maximal autocorrelation of lag 8 / weighted by atomic van der Waals volumes R maximal autocorrelation of lag 3 / weighted by atomic Sanderson electronegativities average valence connectivity index chi-4 average valence connectivity index chi-3 leverage-weighted autocorrelation of lag 8 / unweighted R maximal autocorrelation of lag 3 / weighted by atomic van der Waals volumes G total symmetry index / unweighted bond information content (neighborhood symmetry of 0-order) R maximal autocorrelation of lag 7 / weighted by atomic van der Waals volumes R maximal autocorrelation of lag 3 / weighted by atomic polarizabilities Radial Distribution Function - 8.0 / weighted by atomic Sanderson electronegativities structural information content (neighborhood symmetry of 2-order) R maximal autocorrelation of lag 7 / weighted by atomic polarizabilities Geary autocorrelation - lag 2 / weighted by atomic polarizabilities 3D-MoRSE - signal 04 / weighted by atomic van der Waals volumes number of unsubstituted aromatic C(sp2) global topological charge index leverage-weighted autocorrelation of lag 0 / weighted by atomic polarizabilities Radial Distribution Function - 1.0 / unweighted mean square distance index (Balaban) 3D-MoRSE - signal 18 / weighted by atomic polarizabilities
73
Molekulaleíró kód
MODd
Molekulaleíró neve[22,35]
BEHe4
5.3
RCI Mor26u DISPp R2u+ ASP E3v
5.1 5.1 5 5 4.7 4.4
GATS4e
4
BELe4
3.9
GGI3 SPAM RDF035e
3.8 3.8 3.7
IC1 GATS6p PW2 IC5 CIC1 RDF020e
3.6 3.6 3.5 3.4 3.1 3
ESpm12d EEig03x Mor30u ATS2e
2.9 2.9 2.9 2.8
R3e
2.8
IC3 itk R3u RBN BEHm1 N-070
2.5 2.4 2.3 1.7 1.5 0.5
highest eigenvalue n. 4 of Burden matrix / weighted by atomic Sanderson electronegativities Jug RC index 3D-MoRSE - signal 26 / unweighted d COMMA2 value / weighted by atomic polarizabilities R maximal autocorrelation of lag 2 / unweighted Asphericity 3rd component accessibility directional WHIM index / weighted by atomic van der Waals volumes Geary autocorrelation - lag 4 / weighted by atomic Sanderson electronegativities lowest eigenvalue n. 4 of Burden matrix / weighted by atomic Sanderson electronegativities topological charge index of order 3 average span R Radial Distribution Function - 3.5 / weighted by atomic Sanderson electronegativities information content index (neighborhood symmetry of 1-order) Geary autocorrelation - lag 6 / weighted by atomic polarizabilities path/walk 2 - Randic shape index information content index (neighborhood symmetry of 5-order) complementary information content (neighborhood symmetry of 1-order) Radial Distribution Function - 2.0 / weighted by atomic Sanderson electronegativities Spectral moment 12 from edge adj. matrix weighted by dipole moments Eigenvalue 03 from edge adj. Matrix weighted by edge degrees 3D-MoRSE - signal 30 / unweighted Broto-Moreau autocorrelation of a topological structure - lag 2 / weighted by atomic Sanderson electronegativities R autocorrelation of lag 3 / weighted by atomic Sanderson electronegativities information content index (neighborhood symmetry of 3-order) R total index / unweighted R autocorrelation of lag 3 / unweighted number of rotatable bonds highest eigenvalue n. 1 of Burden matrix / weighted by atomic masses Ar-NH-Al
A DsAB halmazon kiválasztott végső PLS modellel megbecsültem a vegyülettárunkban lévő benzo-tieno-pirimidin származékok EGFR gátló hatását (19.
ábra), amelyeket kollégáim a Mycobacterium tuberculosis egyik szerin/treonin protein kináza (PknG) ellen terveztek. N
Ar N
S
N
19. ábra Benzo-tieno-pirimidin alapváz.
74
A származékok PknG kinázon hatástalanok voltak, azonban EGFR aktivitást mutattak. A legnagyobb gátlást elért tizenhárom vegyületeknek meghatározták az IC50 értékét is, ezeket összevetettük a becsült EGFR gátlással. A becslés előtt illesztettem a modellt a bemenő halmaz összes 623 molekulájára. A becsült és a mért EGFR pIC50 értékek korrelációját a 20. ábra mutatja be. A benzo-tieno-pirimidin részszerkezet nem található meg a modellkészítésre használt halmazban, a tieno-pirimidin részszerkezetre egy előfordulás van. Ennek ellenére a becsült származékok molekulaleírói nem estek kívül a modellben felhasznált molekulaleírók bemenő adathalmazbeli tartományából.
20. ábra A végső PLS EGFR modellel megbecsült 13 benzotieno-pirimidin származék becsült és mért pIC50 értékeinek összehasonlítása, a bemenő adathalmaz összes molekulájára történt illesztéshez képest. Piros kör: bemenő adathalmaz 623 molekulája, neonzöld teli négyzet: 13 benzo-tienopirimidin származék.
4.3.1.2.
Megbeszélés
A DsA halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének – akkor rosszul számított – Q2 értékei a DsB halmazon a modellezés előtt becsült Q2 küszöbérték (0,5) alatt voltak. Az összevont DsAB halmazon kiválasztott PLS modell DsC külső ellenőrző halmazon elért Q2 értéke a legnagyobb (0,61), SDEP értéke a legkisebb (0,98) volt, ezt az eredményt a legkevesebb molekulaleíróval érte el. A DsC halmazon való külső ellenőrzésen kielégítő eredményt nyújtott az ANN modell,
75
azonban a három végső modell közül a leggyengébbet: a Q2 értéke (0,56) a legkisebb, az SDEP értéke (1,03) a legnagyobb volt. Az ANN modell azonban nem teljesen összevethető a lineáris modellekkel, mivel nem történt változó-kiválasztás. Az MLR modell DsC halmazon való külső ellenőrzésen kielégítő eredményt nyújtott (Q2DsC = 0,56; SDEPDsC = 1,01), de több molekulaleírót tartalmazott, mint a PLS modell. A DsAB halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá a Z’ értékei – Q2 és SDEP esetén is – nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek – az eredeti Y adatok halmazán végzett 1024/512 véletlen felezéssel képzett – Q2 eloszlásainak átlagai 0,61 és 0,64 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,03-0,04) volt, így a Q2 érték még háromszoros szórással számítva sem érte el a nullát. Ebből az következik, hogy a végső modellek a teljes bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pIC50 értékek átlagából képzett legegyszerűbb modell (Q2=0). A végső modellek jó becslőképességének elérésében szerepet játszott a nagyszámú molekula (623) és a közepes diverzitás (0,69), a pIC50 értékek megfelelő eloszlása és széles tartománya (8,8 log egység). A DsAB halmazon kiválasztott végső modellek mindegyike elérte a tapasztalati határt és a becsült küszöbértéket. Ezek közül a PLS modellt választottam ki, amit virtuális szűrésre lehet használni, mivel a legkevesebb molekulaleíróval, a legjobb statisztikai eredményeket érte el. Ez a modell 53 molekulaleírót és 42 PLS komponenst tartalmazott. A Curr. Med. Chem. cikkben – a rosszul számított Q2 értékek ellenére – is a végső PLS modell bizonyult a legjobbnak. Az ANN modellt csak előzetes eredményként közöltük. A végső MLR modell DsC halmazon történt külső ellenőrzésének eredményei (Q2DsC = 0,52; SDEPDsC = 1,01) körülbelül azonosak voltak a végső PLS modell
76
eredményeivel (Q2DsC = 0,52; SDEPDsC = 0,98), azonban az utóbbi kevesebb molekulaleírót tartalmazott. A DsA halmazon kiválasztott végső MLR és PLS modellek rosszabb becslőképessége a DsC halmazon, a halmazok véletlen felosztásával magyarázható. Az 52. egyenlet által meghatározott küszöbérték kiszámításánál ugyanazon vegyületre közölt hatóértékek legnagyobb pIC50 különbsége valószínűleg kiugró érték, így nem lehet a teljes bemenő adathalmaz hibájaként felhasználni. Ha az EGFR gátlás modellezése esetén az öt legnagyobb különbséggel rendelkező vegyület pIC50 értékének átlagát (1,91) vennénk, akkor a képlet alapján az EV Q2 küszöbértéke: 0,566 lenne. Ha a tíz legnagyobb különbséggel rendelkező vegyület pIC50 értékének átlagát vennénk (1,38), akkor a képlet alapján az EV Q2 küszöbértéke: 0,686 lenne. A modellkészítés után tesztelt benzo-tieno-pirimidin származékok becslésének jó eredménye egy újabb bizonyíték, hogy a modell további virtuális szűrésekre alkalmas. A származékok benne vannak a modell AD-jében, a modell interpolált. Az interpoláció ellenére a származékok alapváza nem található meg a modellépítésre felhasznált molekulák adatbázisában – sőt, a kevésbé komplex tieno-pirimidin részszerkezetet is csak egy molekula tartalmazta.
4.3.2. Akt1 gátlás modell Az Akt (Protein kináz B) kináz a szerin/treonin kinázok családjába tartozó enzim, kulcsfontosságú szerepet játszik az anti-apoptotikus folyamatokban. Az Akt túlműködése bekövetkezhet a tumor szupresszor PTEN inaktiválódásától. Az Akt felelős olyan jelátviteli útvonalak fenntartásáért, amelyek leszabályozzák az apoptotikus útvonalakat és így hozzájárul a tumor progressziójához. Prosztatarák sejtvonalak és más humán tumoros szövetekben összefüggést figyeltek meg a kemoterápiára adott rezisztencia és az Akt aktiválódása között. Az Akt gátlása önmagában vagy kemoterápiával kombináltan a rákos sejtek programozott sejthalálát idézte elő, ami által csökkent a tumornövekedés és a kemoterápiára adott rezisztencia [79]. A következő alfejezetekben bemutatott Akt1 modellekben a következő modellezési lépések azonosak voltak. Minden esetben a bemenő szerkezetekre 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót és 427 db 2D MOE molekulaleírót számítottam
77
ki. A molekulaleírók számításai után a modellezés további lépéseit a 3DNET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit – függvényillesztő módszerenként – MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modellek azok voltak, amelyek a legnagyobb átlagos Q2 értéket adták az adott munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az összegyűjtött Akt1 szerkezeti és hatástani adatokat több bemenő adathalmazra válogattam szét: 1) szakirodalmi adatok, 2) szakirodalmi adatok gátlási% hatóértékek nélkül, 3) szakirodalmi és belső vállalati egyesített adatok, 4) szakirodalmi és belső vállalati
egyesített
adatok
gátlási%
hatóértékek
nélkül.
Az
egyes
bemenő
adathalmazokból kiindulva végeztem a modellezéseket. A modellezések eredményei alapján megállapítható, hogy 1) egyesíthetőek-e a szakirodalmi és a belső vállalati adatok, 2) a rosszabb minőségű gátlási% hatóértékek és a hozzájuk tartozó szerkezetek bevonása hogyan befolyásolja a modellezést? 4.3.2.1.
Akt1 szakirodalmi modell
Szerkezeti-hatástani adatbázisunkból kigyűjtöttem az Akt1 kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC50 vagy gátlási% legyen, Akt1 enzim rekombináns technológiával legyen előállítva, a gátlószerek – feltételezhetően – ATP kompetitívek legyenek. Ezekkel a feltételekkel 279 különböző molekulát és hozzátartozó mérési adatot gyűjtöttem ki [79-92]. A kigyűjtött szerkezetek diverzitása a CHED szoftver számítása alapján 0,536. A molekulákat hét alapváz köré csoportosítottam, hat molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani (21. ábra).
78
(A)
(B)
R
HN
N
H N
O
H N
O
O
S
O S O
R NH2
N H
N
II(35) O
R
O
H N N
[N,O,C]
N HH N
N
R1
V (8)
Ar
N H
HN
O
N
N
N
O O
N
N VII (3)
O N
R
H2N
O
O
Cl
IV (11) N
HN
Cl O VI (7)
NH
O
O
H N
O O O
O
[S,N]
N
S
O
O
R
S
S
N
OH
III(54)
N
HN
N
R2
N
I(155)
S
N
[O,N,C,S]
R1
O OH
N
O
21. (A) A modellezés során felhasznált szakirodalmi Akt1 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált szakirodalmi Akt1 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni.
Az IC50 és gátlási % értékeket pIC50-né alakítottam át, a többszörösen előforduló molekulák esetében a pIC50 értékek átlagát vettem. A pIC50 értékek 6,98 log egységnyi tartományt fogtak át, eloszlásukat a 22. ábra mutatja be.
22. ábra Szakirodalmi Akt1 adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
Az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: TAi (93 adatpont), TBi (93 adatpont), TCi (93 adatpont). Ugyanazon vegyületre közölt hatóértékek legnagyobb pIC50 különbsége (1,42) alapján az 52. egyenlet segítségével kiszámított Q2 küszöbérték: 0,59. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, VSS-re szekvenciális és genetikus algoritmusokat használtam, az optimalizálandó mérőszám a
79
Q2 volt. A TAi halmazon kiválasztott végső modellek külső ellenőrzése a TBi halmazon történt, amelyen sem az MLR-rel, sem a PLS-sel készült végső modell nem érte el a kitűzött küszöbértéket. A TAi és TBi halmaz egyesítésével létrejött TABi halmazon a modellezést a fentebb leírtak szerint végeztem, a végső modelleket a TCi halmazon ellenőriztem. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a TABi halmaz – a végső MLR modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem három neuronnal. A TABi halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy a TCi,ex halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A külső ellenőrzések során az egyik molekula – lineáris módszerekkel – becsült pIC50 értéke negatív volt. Megvizsgáltam a szerkezetet, amely annyira speciális volt, hogy még az alapvázra sem volt több példa az egész adatbázisban, így kivettem a TCi halmazból (23.
ábra) a hozzá tartozó molekulaleírókat és pIC50 értéket. Az így létrejött TCi,ex halmazon újra elvégeztem a külső ellenőrzéseket. O S
S O
S S
O S O
23. ábra TCi külső ellenőrző halmazból kizárt vegyület.
A végső modellek jellemzőit és statisztikai eredményeit a 8. és 9. táblázat foglalja össze. A TABi halmazon kiválasztott végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, az eredményeket a 10. táblázat mutatja be. 8. táblázat Az adott WS-en kiválasztott végső Akt1 jellemzői és illesztési statisztikai eredményei. PLS MolekulaWS Illesztési komp./ WS leírók illesztés módszer neuronok száma R2 száma MLR TAi 2 0,3638 MLR TABi 9 0,4945 PLS TAi 3 1 0,3569 PLS TABi 38 16 0,7036 ANN TABi 9 2 0,5481
80
modellek WS illesztés SEE 2,4667 1,0649 1,5097 0,8153 1,0067
9. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és becslési statisztikai eredményei. PLS MolekulaIllesztési EVTB,i EVTB,i EVTC,i EVTC,i EVTCi,ex EVTCi,ex komp./ WS leírók Q2 SDEP Q2 SDEP módszer Q2 SDEP neuronok száma száma MLR TAi 2 -0,8508 2,1323 MLR TABi 9 0,2853 1,1422 0,3928 1,0487 PLS TAi 3 1 0,1203 1,470 PLS TABi 38 16 0,1154 1,2713 0,2413 1,1723 ANN TABi 9 3 0,3445 1,0938 0,3568 1,0794 10. táblázat A TABi halmazon kiválasztott végső MLR, PLS és ANN Akt1 modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 278 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Tesztelt Teszt Q2eredeti mérőszám Modell p SzF Krit. érték értéke AV/SD /Teszt típusa MLR Q2 / χ 2 0,001 203 406 2047 0,43/ MLR Q2 / z 0,001 3,29 227,86 0,05 2 MLR Q /Z’ 0 0,42 2 MLR SDEP / χ 0,001 203 406 2048 MLR SDEP / z 0,001 3,29 203,37 MLR SDEP / Z’ 0 0,34 PLS Q2 / χ 2 0,001 203 406 2047 0,47/ PLS Q2 / z 0,001 3,29 85,2 0,07 2 PLS Q /Z’ 0 -0,36 2 PLS SDEP / χ 0,001 203 406 2030,67 PLS SDEP / z 0,001 3,29 121,14 PLS SDEP / Z’ 0 -0,12 ANN Q2 / χ 2 0,001 203 406 2048 0,41/ ANN Q2 / z 0,001 3,29 160,50 0,06 2 ANN Q /Z’ 0 0,16 2 ANN SDEP / χ 0,001 203 406 2048 ANN SDEP / z 0,001 3,29 154,41 ANN SDEP / Z’ 0 0,13
A 24. ábrán a TABi halmazon kiválasztott végső MLR modell illesztésének és a TCi,ex halmazon való külső ellenőrzésének grafikus eredménye látható, a 25. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 11. táblázat a modell molekulaleíróit sorolja fel.
81
(A)
(B)
24. ábra (A) A TABi halmazon kiválasztott végső MLR Akt1 modell illesztése a TABi-n. (B) A TABi halmazon kiválasztott végső MLR Akt1 modell külső ellenőrzésének eredménye a TCi,ex-n.
(A)
(B)
25. ábra (A) A TABi halmazon kiválasztott végső MLR Akt1 modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TABi halmazon kiválasztott végső MLR Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 11. táblázat A TABi halmazon kiválasztott végső szakirodalmi MLR Akt1 modell molekulaleírói MODd értékük alapján sorba rendezve. A MODd értékek a TABi halmazon való illesztés alapján lettek számítva. Molekulaleíró MODd Molekulaleíró neve [22, 35] kód BELe7 100 lowest eigenvalue n. 7 of Burden matrix / weighted by atomic Sanderson electronegativities CENT 99.9 centralization CIC3 82.4 complementary information content (neighborhood symmetry of 3-order) MACCS(165) 75.6 # ring atoms CIC5 41.1 complementary information content (neighborhood symmetry of 5-order) MATS8e 30.2 Moran autocorrelation - lag 8 / weighted by atomic Sanderson electronegativities MATS5e 27.7 Moran autocorrelation - lag 5 / weighted by atomic Sanderson electronegativities MATS5m 25.8 Moran autocorrelation - lag 5 / weighted by atomic masses kS_aaN 13 Kier Atom Type E-state Sum (aaN)
82
4.3.2.1.1.
Megbeszélés
A szakirodalmi adatok molekulaleírót és pIC50 értékeit tartalmazó halmazt véletlenszerűen három részre osztottam, az első modellezésre használt halmaz a TAi volt. Ezen a halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének Q2 értékei mind a modellezés előtt becsült Q2 küszöbérték (0,59), mind az általam megszabott tapasztalati határ (0,4) alatt voltak. Az összevont TABi halmazon kiválasztott végső modelleknek jobb statisztikai eredményeik voltak, mint a TAi halmazon kiválasztottaknak. A kilógó (23. ábra) molekula leíróinak és pIC50 értékeinek TCi halmazból való eltávolításával – mindkét lineáris végső modell esetében – az SDEP és Q2 is ~ 0,1 értéket javultak. A TCi,ex halmazon végzett külső ellenőrzés Q2 értékei (MLR Q2TCi,ex = 0,39; PLS Q2TCi,ex = 0,24; ANN Q2TCi,ex = 0,36) azonban még így sem érték el a küszöbértéket és a tapasztalati határt, az SDEP értékek beleestek a tapasztalati tartományba (MLR SDEPTCi,ex = 1,05; PLS SDEPTCi,ex = 1,17; ANN SDEPTCi,ex = 1,07). A TABi halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A végső MLR és ANN modell esetében a χ2 értékei mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá az MLR és az ANN modell esetében mind a Q2, mind az SDEP eloszlásra vonatkozó Z’ értékei nulla felett voltak. A PLS esetében a Q2 eloszlások nem fedtek át, azonban az SDEP eloszlások kissé átfedtek; továbbá mindkét statisztikai mérőszám eloszlása esetén a Z’ értékei nulla alatt voltak, ez azzal magyarázható, hogy az összekevert adatok eloszlása kissé nyújtott, így nagyobb a szórása. Ezek alapján megállapítható, hogy a végső MLR és ANN modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső PLS modell esetében pedig feltételezhető, hogy a modell nem véletlen korreláció. A végső modellek – az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett – Q2 eloszlásainak átlagai 0,41 és 0,47 között voltak. Az eloszlások szórása 0,05-0,07 , így a Q2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 278 molekulát tartalmazó adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pIC50 értékek
83
átlagából képzett legegyszerűbb modell (Q2=0). A végső modellek közepes becslőképességének okai lehetnek, hogy csak 2D molekulaleírókon alapul, esetleg más molekulaleírókon alapuló nemlineáris kapcsolat áll fenn a szerkezetek és a hatás között. Bár a TABi halmazon kiválasztott végső modellek közül egyik nem érte el a tapasztalati Q2 határt, sem a becsült küszöbértéket; az MLR modellt lehetne virtuális szűrésre használni, mert negyedannyi molekulaleíróval, jobb statisztikai eredményeket ért el, mint a végső PLS modell. Az MLR modell molekulaleíróira illesztett ANN modell jobban illesztette a TABi adatait, azonban gyengébb becslési és véletlen korrelációs statisztikai eredményeket ért el. Az MLR a modell 9 molekulaleírót tartalmazott. 4.3.2.2.
Akt1 szakirodalmi modell gátlási% hatóértékek nélkül
A kigyűjtött Akt1 szakirodalmi adatokból eltávolítottam a gátlási% hatóértékeket és azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak, majd újra kiszámítottam a pIC50 értékeket. Az így létrejött adatbázis 237 különböző molekulát tartalmazott a hozzátartozó pIC50 értékkel együtt. A szerkezetek diverzitása a CHED szoftver számítása alapján 0,499-re csökkent. A logaritmált biológiai adatok tartománya 5,87 log egységnyire csökkent. A molekulaleírók számítása után az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WSi(ni) (munkahalmaz): 177 adatpont; EVSi(ni) (külső ellenőrző halmaz): 60 adatpont. A modelloptimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WSi(ni) halmaz – a végső PLS modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem három neuronnal. A WSi(ni) halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVSi(ni) halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A kiválasztott végső lineáris modellek EVSi(ni) halmazon történt külső ellenőrzése során az egyik molekula becsült pIC50 értéke negatív volt. A kilógó molekula szintén a 23. ábrán bemutatott volt, az EVSi(ni) halmazból kivettem a hozzátartozó molekulaleírókat és pIC50 értéket. Az így létrejött EVSi(ni),ex halmazzal újra elvégeztem a külső ellenőrzést.
84
A végső modellek jellemzőit és statisztikai eredményeit a 12. táblázat foglalja össze. 12. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és statisztikai eredményei. PLS Molekula WS WS komp./ Illesztési EV Q2 EV SDEP EV Q2 EV SDEP illesztés illesztés WS -leírók módszer neuronok EVSi(ni) EVSi(ni),ex EVSi(ni) EVSi(ni),ex száma R2 SEE száma MLR WSi(ni) 63 0,7705 0,6488 -1,1503 1,9712 -0,0881 1,3856 PLS WSi(ni) 12 5 0,3816 1,2457 -0,3014 1,5335 -0,0995 1,3928 ANN WSi(ni) 12 3 0,5630 0,8955 0,3924 1,0479 0,3678 1,0562
4.3.2.2.1.
Megbeszélés
Megvizsgáltam, hogy a szakirodalmi adatok modellezhetősége hogyan változik, ha eltávolítom a gátlási% hatóértékeket, valamint azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak. A WSi(ni) halmazon kiválasztott végső MLR és PLS modellek EVSi(ni) halmazon való külső ellenőrzése során kiderült, hogy a TCi halmazból kilógó molekula ebben a halmazban is megtalálható és nagyon rontotta az eredményeket. A molekula leíróinak és pIC50 értékének eltávolításával az EVSi(ni),ex halmazon kapott Q2 és SDEP értékek javultak (MLR Q2EVSi(ni),ex = -0,09, SDEPEVSi(ni),ex = 1,39; PLS Q2EVSi(ni),ex = -0,10, SDEPEVSi(ni),ex = 1,39). A végső PLS modell molekulaleíróira illesztett ANN modell a kilógó molekulát is viszonylag jól becsülte (ANN Q2EVSi(ni)= 0,39; SDEPEVSi(ni) = 1,05), sőt eltávolításával rosszabbodtak a becslés statisztikái. Habár a teljes bemenő adathalmaz csak IC50 értékeket tartalmazott és csak 15%-al kevesebb molekula adatát tartalmazta, nem sikerült jobban becslő modellt találni, mint a gátlási% hatóértékekből számított pIC50 értékeket is tartalmazó szakirodalmi adathalmaz esetében. Az ANN modell is csak körülbelül azonos statisztikai eredményeket ért el, mint a TABi halmazon kiválasztott végső MLR modell. 4.3.2.3.
Akt1 modell szakirodalmi és belső adatok alapján
A kinázokra fókuszált vegyülettárunkból [93] származó molekulákra voltak belső vállalati (in-house) mérési eredményeink is, amelyet egyik kooperációs partnerünk mért. A 4.4.1 fejezetben tárgyalt Akt1 IMAP esszével mért eredményeink ekkor még nem álltak rendelkezésünkre. Azt feltételeztem, ha a belső adatokat hozzákeverem a már meglévő szakirodalmi adatokhoz, jobb modellt tudok majd készíteni, valamint ezzel növekedne az Akt1 modell alkalmazhatósági tartománya is. A szakirodalmi
85
adatokhoz hasonlóan a belső adatokra is ugyanazokat a szűrőfeltételeket alkalmaztam. Ily módon 440 különböző molekulát és hozzátartozó IC50 vagy gátlási% hatóértéket tartalmazó – belső adatokból álló – adatbázist kaptam. Az IC50 és gátlási% hatóértékeket pIC50 –né alakítottam át, a többszörösen előforduló molekulák esetében a pIC50 értékek átlagát vettem. A modellezés előtt a 3DNET4W segítségével a két bemenő adatmátrixot egyesítettem és az így előállt mátrixból [719×1318] kezdtem el a modellezést. Az egyesített adatmátrix szerkezeteinek diverzitása a CHED szoftver számítása alapján 0,786. A molekulákat negyvenkét alapváz köré csoportosítottam, tizenkilenc molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani, valamint harminc molekulának nem adtam meg az alapvázát sem szabadalmi okok miatt (26. ábra, 27.
ábra). Az egyesített, logaritmizált biológiai adatok 7,31 log egységnyi tartományt fogtak át, eloszlásukat a 28. ábra mutatja be.
86
HN
NH2
R3
HN
O S O
R
R
R1 [N,C]
N
III(23)
II(42)
[S,N] N H
R1 V (8)
Cl
VI (7)
R1 O
H2N
N
VII (3)
O
R1
R3
H N
O
R2
R4 O XII (10)
R2 R2
N
X (65) R1
R1
R1 N N R1
N
R2
XIX (8)
R
R1
O
N NH2
XXVI (7) R2
N XXV (12)
R3 R2
N
OH
R3
XXX(25) R1
R3 XXXI(6) HN
R8
XXXII(4)
R2
R1
R7
N
R1
R4 XXXVI(3)
R1
Ar
O
XXVIII (6) H N
N H
N H
XXXIV(4)
XXXV(12)
R2 O
O R3
R5
R3 XXIII (5)
R1
R6
R3
N
[O,N] R N R XXIX (9) R1R7 R2 [S,O,N,C] R6 [N,O,C] R3 R5 R4
N
R2
R2
N
N
XXXIII(4)
R2 N
R3
Ar1
S
O
R1 N
R2
O
N
NH
R1
XXVI (10) OH
XVII (7)
R5
R2 XXII (6)
N
N N H H XXVII (7) R1
N N Ar
OH
XXIV(4)
N
R2 Ar2
OH
HO O
H N
R2
R1
HO
H2N
R2
O
N N H XXI (19)
XX (5)
S
R1 N R3
N
N
XVIII (16) N
N
XI (14)
R4
R2
N
N
O
R2
XVI (13) O
R1
R3
N
R1
XV (18)
R2
N
R3
N H XIV (14) H N O O
N
R3
N
R1
R2
N H
H N
N
S
R3
R1
R4 R2
O
N
R3
N
IX (34) R4 O
XIII (43) R5
N
R2
N
R2
R2 R3
N
R1 R1
N
O VIII (14)
N
R1
R3
N
R N
R
Ar N
NH IV (11)
R2
N
O N
N
HN
[N,O,C]
N
N H
I(155)
H N
O
R
R
XXXVIII(3)
N N H XXXVII(2)
S
N N H XXXIX(3)
S
S
XL(2)
R2
R1 S
N
H N
N
NH2 R
O
XLI(5)
N
XLII(2)
26. ábra A modellezés során felhasznált szakirodalomból és belső vállalati mérésekből származó Akt1 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. OH
O
O O
O OH
S
S
S
S
O
O H H N N
OH
S
S
O
N
H2N
O
H N
N O
HN O S O
HO
N H
N H
H N
HO N
N
O
O
O HO
O
OH
O
NH2 N
O
N N
O
O
O
O
Br
HN
HO
OH
N O
O
HO
S N H O
N H
H N
NH2
N
O
H N
H N
H N
N
N
O
OH
OH
OH
NH
OH
O
O O
O
OH
OH
N
N
O
Cl
O
OH
OH
OH
HO
O
O
OH
OH OH
N HO HO
N O
O
N H
N H
O
OH
H2 N OH
N
OH
O
O
OH
O O
OH
27. ábra A modellezés során felhasznált szakirodalomból és belső vállalati mérésekből származó Akt1 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni.
87
28. ábra A szakirodalmi és belső Akt1 adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
A két adathalmaz egyesítése előtt a szakirodalmi bemenő adathalmaz 278 molekulájára illesztett modellel megbecsültem a belső molekulák Akt1 gátló hatását. Először az összes 440 belső vállalti molekula gátló hatását (29. A. ábra) becsültem meg, majd csak azt a 187 molekuláét (29. B. ábra), amelyek benne voltak az alkalmazhatósági tartományban (AD).
(A)
(B)
29. ábra A végső szakirodalmi Akt1 modellel megbecsült belső vállalati molekulák becsült és mért pIC50 értékeinek összehasonlítása, a bemenő adathalmaz 278 molekulájára történt illesztéshez képest. (A) Az összes 440 belső vállalati molekula becslése: piros kör: illesztés a 278 molekulán; neonzöld négyzet: AD-n belül lévő molekulák (187); kék négyzet: AD-n kívül eső molekulák (253). A Q2, SDEP érték a teljes 440 molekulára vonatkozik. (B) Az AD-n belül lévő 187 belső vállalati molekulák becslése: piros kör: illesztés a 278 molekulán; neonzöld négyzet: AD-n belül lévő molekulák.
88
A egyesítés után az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: TAi+b (240 adatpont), TBi+b (240 adatpont), TCi+b (239 adatpont). Ugyanazon vegyületre közölt értékek legnagyobb pIC50 különbsége (1,42) alapján az 52. egyenlet segítségével kiszámított Q2 küszöbérték: 0,61. Az első munkahalmaz a TAi+b volt, ezen a halmazon MLR és PLS módszerekkel, szekvenciális és genetikus algoritmus szerint végeztem az optimalizálást. Az optimalizálandó mérőszám a Q2 volt. A TAi+b halmazon kiválasztott végső modellek külső ellenőrzése a TBi+b halmazon történt. Az MLR modell külső ellenőrzése során az egyik molekula becsült pIC50 értéke negatív volt. Megvizsgáltam a szerkezetet, amin két hattagú gyűrűs cukorrész volt az alapvázhoz kapcsolva (30. ábra), ezért a TBi+b halmazból eltávolítottam a hozzátartozó molekulaleírókat és pIC50 értéket. Az így létrejött TBi+b,ex halmazzal újra elvégeztem a külső ellenőrzéseket. O O
O
O O O
O O O
O
O
O O O
O
30. ábra TB külső ellenőrző halmazból kizárt molekula.
A TBi+b,ex halmazon végzett külső ellenőrzés eredményei sem érték el a választott 2
Q küszöbértéket, így egyesítettem a TAi+b és a TBi+b halmazt. A modellezést az előzőekben leírtak szerint végeztem. A TABi+b halmazon optimalizált modelleket a TCi+b halmazon ellenőriztem. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a TABi+b halmaz – a végső PLS modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem három neuronnal. A TABi+b halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy a TCi+b,ex halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. Mindhárom TABi+b halmazon kiválasztott végső modell TCi+b halmazon való külső ellenőrzése során ugyanannak a két molekula Akt1 gátlóhatás becslésének (31. ábra) nagyon nagy volt a hibája – a hiba négyzetének négyzetgyöke három és négy között volt. A két molekula leíróit és pIC50 értékeit eltávolítottam a TCi+b halmazból és az így létrejött TCi+b,ex halmazzal újra elvégeztem a külső ellenőrzést.
89
N
N O N
N N N
O N
O
N
N
N
N
31. ábra A TCi+b külső ellenőrző halmazból kizárt molekulák
A végső modellek jellemzőit és statisztikai eredményeit a 13., 14. és 15. táblázat foglalja össze. A TABi+b halmazon kiválasztott végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, az eredményeket a 16. táblázat mutatja be. 13. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és illesztési statisztikai eredményei. PLS MolekulaWS WS Illesztési komp./ WS leírók illesztés illesztés módszer neuronok száma R2 SEE száma/ MLR TAi+b 59 0,7557 0,6619 MLR TABi+b 72 0,7078 0,7171 PLS TAi+b 49 13 0,5912 0,886 PLS TABi+b 42 18 0,6318 0,805 ANN TABi+b 42 3 0,6967 0,731 14. táblázat A TAi+b halmazon kiválasztott végső MLR, PLS Akt1 modellek jellemzői és becslési statisztikai eredményei a TBi+b, TBi+b,ex halmazokon. MolekulaPLS Illesztési EVTBi+b EVTBi+b EVTBi+b,ex EVTBi+b,ex WS leírók komp. módszer Q2 SDEP Q2 SDEP száma száma MLR TAi+b 59 0,2653 1,1278 0,4193 1,0038 PLS TAi+b 49 13 0,3462 1,0683 0,3452 1,066 15. táblázat A TABi+b halmazon kiválasztott végső MLR, PLS, ANN Akt1 modellek jellemzői és becslési statisztikai eredményei a TCi+b, TCi+b,ex halmazokon. PLS MolekulaIllesztési komp./ EVTCi+b EVTCi+b EVTCi+b,ex EVTCi+b,ex WS leírók módszer Q2 SDEP Q2 SDEP neuronok száma száma MLR TABi+b 72 0,5147 0,9339 0,5502 0,8955 PLS TABi+b 42 18 0,5335 0,9156 0,5655 0,8866 ANN TABi+b 42 3 0,5908 0,8575 0,6499 0,79 16. táblázat A TABi+b halmazon kiválasztott végső MLR, PLS és ANN Akt1 modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 717 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Tesztelt Krit. Teszt Q2eredeti Modell mérőszám p SzF érték értéke AV/SD /Teszt típusa 2 2 MLR Q /χ 0,001 203 406 2048 0,54/ MLR Q2 / z 0,001 3,29 279,37 0,04 2 MLR Q /Z’ 0 0,54 MLR SDEP / χ2 0,001 203 406 2048 MLR SDEP / z 0,001 3,29 304,95 MLR SDEP / Z’ 0 0,5744
90
Modell PLS PLS PLS PLS PLS PLS ANN ANN ANN ANN ANN ANN
Tesztelt mérőszám /Teszt típusa Q2 / χ 2 Q2 / z Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’ Q2 / χ 2 Q2 / z Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’
p
SzF
Krit. érték
Teszt értéke
0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,001 -
203 203 203 203 -
406 3,29 0 406 3,29 0 406 3,29 0 406 3,29 0
2048 373,94 0,65 2048 315,99 0,58 2048 266,55 0,5 2048 280,92 0,52
Q2eredeti AV/SD 0,58/ 0,03 0,59/ 0,05 -
A 32. ábrán a TABi+b halmazon kiválasztott végső PLS és ANN modellek illesztésének és a TCi+b,ex halmazon való külső ellenőrzésének grafikus eredményei láthatók, a 34. ábra és a 34. ábra a véletlen korrelációs tesztek eredményeinek grafikus ábrázolását mutatja be, a 17. táblázat modellek molekulaleíróit sorolja fel.
(A)
(B)
(C)
(D)
32. ábra A TABi+b halmazon kiválasztott végső Akt1 modellek illesztései a TABi+b halmazon és külső ellenőrzéseik eredménye az TCi+b,ex halmazon. (A) A végső PLS modell illesztése. (B) A végső PLS modell külső ellenőrzése. (C) A végső ANN modell illesztése. (D) A végső ANN modell külső ellenőrzése.
91
(A)
(B)
33. ábra (A) A TABi+b halmazon kiválasztott végső PLS Akt1 modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TABi+b halmazon kiválasztott végső PLS Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok.
(A)
(B)
34. ábra (A) A TABi+b halmazon kiválasztott végső ANN Akt1 modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TABi+b halmazon kiválasztott végső ANN Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 17. táblázat A TABi+b halmazon kiválasztott végső Akt1 ANN és PLS modellek molekulaleírói az ANN modell MODd értékei alapján sorba rendezve. A MODd értékek a TABi+b halmazon való illesztés alapján lettek számítva. Molekulaleíró MODd MODd Molekulaleíró neve [22,35] kód ANN PLS chi1v_C 100 22.5 Carbon valence connectivity index (order 1) D/Dr06 98.56 3.3 distance/detour ring index of order 6 MLOGP 83.41 5.1 Moriguchi octanol-water partition coeff. (logP) EEig14r 67.3 4.7 Eigenvalue 14 from edge adj. matrix weighted by resonance integrals GGI2 61.73 1.9 topological charge index of order 2 AMW 49.57 2.2 average molecular weight SMR_VSA4 48.24 2.6 Sum of vi such that Ri is in (0.39,0.44] ZM2V 46.31 7.7 second Zagreb index by valence vertex degrees CSI 43.88 2.4 eccentric connectivity index
92
Molekulaleíró kód EEig15r
MODd ANN 43.15
MODd PLS 3.3
Whetv
42.51
4.8
GATS1m BELe7
37.23 34.23
6.8 3.7
ESpm01d
33.87
5.9
TPSA PEOE_VSA_F POL MATS1v
30.49 28.65
1.9 100
27.74
8.9
TI2 SIC1
27.24 24.46
7 13.6
EEig09x PEOE_VSA_P NEG JGI6 MATS2e
23.42 21.29
5.4 2.6
19.48 18.64
7.4 4.2
MATS3e
18.28
29.4
BLI EEig07x GATS3v
17.77 16.31 14.6
14.6 32.4 7.9
MACCS(165) H-049 PHI SlogP
12.36 11.92 11.67 10.79
1.9 2.3 2.9 2.2
EEig09r
10.64
8.3
MATS2p
10.29
16.2
JGI9 logP(o/w) SMR_VSA2 GGI5 VDistEq Kier2 MATS4v
9.35 9.12 8.92 8.04 7.65 6.44 6.13
4.8 3.7 1.3 42.1 4.3 2.5 10.3
MATS3m diameter
5.48 4.89
9.8 1.3
Molekulaleíró neve [22,35] Eigenvalue 15 from edge adj. matrix weighted by resonance integrals Wiener-type index from van der Waals weighted distance matrix Geary autocorrelation - lag 1 / weighted by atomic masses lowest eigenvalue n. 7 of Burden matrix / weighted by atomic Sanderson electronegativities Spectral moment 01 from edge adj. matrix weighted by dipole moments Polar surface area calculated using group contributions Fractional polar van der Waals surface area Moran autocorrelation - lag 1 / weighted by atomic van der Waals volumes second Mohar index TI2 structural information content (neighborhood symmetry of 1order) Eigenvalue 09 from edge adj. matrix weighted by edge degrees Total negative polar van der Waals surface area mean topological charge index of order6 Moran autocorrelation - lag 2 / weighted by atomic Sanderson electronegativities Moran autocorrelation - lag 3 / weighted by atomic Sanderson electronegativities Kier benzene-likeliness index Eigenvalue 07 from edge adj. matrix weighted by edge degrees Geary autocorrelation - lag 3 / weighted by atomic van der Waals volumes # ring atoms H attached to C3(sp3) / C2(sp2) / C3(sp2) / C3(sp) Kier flexibility index Log of the octanol/water partition coefficient (including implicit hydrogens). Eigenvalue 09 from edge adj. matrix weighted by resonance integrals Moran autocorrelation - lag 2 / weighted by atomic polarizabilities mean topological charge index of order9 Log of the octanol/water partition coefficient Sum of vi such that Ri is in (0.26,0.35] topological charge index of order 5 Distance matrix descriptor Second kappa shape index Moran autocorrelation - lag 4 / weighted by atomic van der Waals volumes Moran autocorrelation - lag 3 / weighted by atomic masses Largest value in the distance matrix
93
4.3.2.3.1.
Megbeszélés
Akt1 kináz gátlásra voltak belső vállalati eredményeink is, azt feltételeztem, hogy az adatok egyesítésével jobb, de legalábbis tágabb alkalmazhatóságai tartománnyal rendelkező modelleket készíthetek. Az adatok egyesítése előtt meg szerettem volna győződni a TABi halmazon kiválasztott végső szakirodalmi Akt1 MLR modell becslőképességéről, ezért ezzel a modellel megbecsültem a 440 belső vállalati adat Akt1 gátló hatását. A becslés nagy hibája (SDEP = 2,04) és negatív Q2 értéke (-0,24) jelezte, hogy a modell nem képes jól becsülni a belső adatokat. Az AD-n belül lévő molekulák pIC50 értékének becslése jobb volt (SDEP = 1,47), azonban ez az érték is felette volt a szakirodalmi modell külső ellenőrzésén kapott SDEP értékének (1,05), sőt a „legszerencsétlenebb” véletlen felosztással kapott SDEP értéknek (~1,25) is (29. B.
ábra). Ezek alapján indokolt volt, hogy a szakirodalmi és belső adatokat egyesítsem. Az egyesítés után véletlenszerűen három részre osztottam a szakirodalmi és belső adatok molekulaleíróinak és pIC50 értékeinek halmazát, az első modellezésre használt halmaz a TAi+b volt. Ezen a halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének Q2 értékei – még a kilógó molekula leíróinak és pIC50 értékének eltávolítása után is – a modellezés előtt becsült Q2 küszöbérték (0,61) alatt voltak. Az összevont TABi+b halmazon kiválasztott végső modelleknek jobb statisztikai eredményeik voltak a TCi+b halmazon való külső ellenőrzés során, mint a TAi+b halmazon kiválasztottaknak a TBi+b halmazon. A külső ellenőrzés Q2 értékei nagyobbak (MLR Q2TCi+b = 0,51; PLS Q2TCi+b = 0,53) az SDEP értékei kisebbek (MLR SDEP TCi+b = 0,93; PLS SDEP
TCi+b
= 0,92) voltak. A külső ellenőrzések diagrammján enyhe
jobbirányú görbület figyelhető meg (32. B. ábra), ami nemlineáris összefüggés meglétét valószínűsíti, ezért a TABi+b halmazon kiválasztott végső PLS modell molekulaleíróira ANN illesztést végeztem. Az elkészült modell TCi+b halmazon való külső ellenőrzésen jobb eredményt adott, mint a lineáris módszerek (Q2TCi+b = 0,59, SDEPTCi+b = 0,86). A külső ellenőrzések során megfigyeltem, hogy két molekula becslésének nagy hibája volt, ez különösen az ANN modell esetén volt szembetűnő, ezért a két molekula leíróit és pIC50 értékeit eltávolítottam és az így létrejött TCi+b,ex halmazzal újra elvégeztem a külső ellenőrzéseket. Mind a Q2 értékei (MLR Q2TCi+b,ex = 0,55; PLS Q2TCi+b,ex = 0,57; ANN Q2TCi+b,ex = 0,65), mind az SDEP értékei (MLR SDEPTCi+b,ex 0,90; PLS SDEPTCi+b,ex = 0,89; ANN SDEPTCi+b,ex = 0,79) mindhárom
94
végső modell esetben javultak, bár a legnagyobb javulás az ANN modell esetében történt. A TABi+b halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá minden végső modell esetében a Z’ értékei – Q2 és SDEP esetén is – nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek – az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett – Q2 eloszlásainak átlagai 0,54 és 0,59 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,03-0,05), így a Q2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 717 molekulát tartalmazó bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pIC50 értékek átlagából képzett legegyszerűbb modell (Q2=0). A modellezéshez használt bemenő adathalmaz 56%-a tartalmazott a szerkezetekhez kizárólag gátlási% hatóértékből számított pIC50 értéket, valamint a pIC50 értékek eloszlása kevésbé hasonlított a normál eloszláshoz, mint a szakirodalmi hatóértékek pIC50 eloszlása. A TABi+b halmazon kiválasztott végső modellek azonban jobb becslőképességgel rendelkeztek, mint a szakirodalmi adatokon kiválasztott végső modellek. Ennek elérésében szerepet játszott: a nagy molekulaszám (717) és nagy diverzitás (0,79) – a legnagyobb a disszertációban bemutatottak közül – és a pIC50 értékek megfelelő eloszlása és széles tartománya (7,31 log egység). A TABi+b halmazon kiválasztott végső modellek mindegyike elérte a tapasztalati Q2 határt, a becsült küszöbértéket csak az ANN modell. Az ANN modell SDEP értéke (SDEPTCi+b,ex = 0,79) kívül esett a tapasztalati tartományon (0,8-1,4), azonban az Y randomizálás jó statisztikai eredményei azt mutatták, hogy a modell nem véletlen korreláció. A három modell közül az ANN-t választottam ki, amit virtuális szűrésre lehet használni. Habár az ANN modell esetében nem történt VSS, viszont a legkevesebb molekulaleíróval, a legjobb statisztikai eredményeket ért el. A 32. ábrán látható, hogy a
95
végső PLS a modell molekulaleíróival az ANN modell jobban illesztette a TABi+b adatait, valamint jobban is becsülte a TCi+b,ex adatait. Ez a modell 42 molekulaleírót és 3 neuront tartalmazott. 4.3.2.4.
Akt1 modell gátlási% hatóértékeket nem tartalmazó szakirodalmi és belső adatok alapján
Az egyesített szakirodalmi és belső adatokból eltávolítottam a gátlási% hatóértékeket és azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak, majd újra kiszámítottam a pIC50 értékeket. Az így létrejött adatbázis 318 különböző molekulát tartalmazott a hozzátartozó pIC50 értékkel együtt. A szerkezetek diverzitása a CHED szoftver számítása alapján 0,664-re csökkent. A logaritmizált biológiai adatok tartománya 5,87 log egységnyire csökkent. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WSi+b(ni) (munkahalmaz): 212 adatpont; EVSi+b(ni) (külső ellenőrző halmaz): 106 adatpont. A modelloptimalizálást MLR, PLS és ANN illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. Az ANN módszer esetében nem történt molekulaleíró kiválasztás, a modellt a legrobusztusabb MLR modell molekulaleíróit tartalmazó halmazon történt ANN illesztéssel készítettem. A WSi+b(ni) halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVSi+b(ni),ex halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A végső MLR modell EVSi+b(ni) halmazon történt külső ellenőrzés során egy molekula (35. ábra) Akt1 gátlóhatás becslésének nagy volt a hibája – a hiba abszolút értéke 5,42 volt. A molekula leíróit és pIC50 értékét eltávolítottam és az így létrejött EVSi+b(ni),ex halmazzal újra elvégeztem a külső ellenőrzéseket. A végső modellek jellemzőit és statisztikai eredményeit a 18. táblázat foglalja össze. O
O
OH
O
O OH
35. ábra Az EVSi+b(ni) külső ellenőrző halmazból kizárt molekula
96
18. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és statisztikai eredményei. Molekula PLS WS WS EV Q2 -leírók komp. illesztés illesztés EVSi+b(ni) száma száma R2 SEE
Illesztési módszer
WS
MLR PLS ANN
WSi+b(ni) WSi+b(ni) WSi+b(ni)
4.3.2.4.1.
61 30 61
3 2
0,7496 0,6449 0,424 1,4306 0,7804 0,604
0,2321 -0,0713 0,1307
EV SDEP EVSi+b(ni)
1,2213 1,4425 1,2995
EV Q2
EV SDEP
EVSi+b(ni),ex EVSi+b(ni),ex
0,3674 -0,0835 0,4116
1,107 1,4487 1,0676
Megbeszélés
A szakirodalmi adatokhoz hasonlóan megvizsgáltam, hogy az egyesített adatok modellezhetősége hogyan változik, ha eltávolítom a gátlási% hatóértékeket, valamint azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak. A WSi+b(ni) halmazon kiválasztott végső modellek EVSi+b(ni) halmazon való külső ellenőrzése során kiderült, hogy egy molekula gátlóhatás becslésének nagy volt a hibája. A molekula leíróinak és pIC50 értékének eltávolításával az EVSi+b(ni),ex halmazon kapott Q2 és SDEP értékek javultak (MLR Q2EVSi+b(ni) = 0,37, SDEPEVSi+b(ni) = 1,12; PLS Q2EVSi+b(ni)= -0,08, SDEPEVSi+b(ni) = 1,45; ANN Q2EVSi+b(ni) = 0,41, SDEPEVSi+b(ni) = 1,07), azonban ezek az értékek is rosszabbak voltak mint az egyesített szakirodalmi és belső adatokon készített modellek esetében. A teljes bemenő adathalmaz csak IC50 értékeket tartalmazott, azonban 44%-al kevesebb szerkezetet az egyesített szakirodalmi és belső adatokhoz képest, a viszonylag sok (318) szerkezetnek közepes diverzitása volt (0,66). A modellezés során azonban nem sikerült jobban becslő modellt találni, mint a gátlási% hatóértékeket is tartalmazó szakirodalmi és belső egyesített adathalmaz esetén. 4.3.2.5. A
Akt1 modellezés eredményeinek megbeszélése négy
adathalmazon
készített
modellezésből
megállapítható,
hogy
a
szakirodalmi adatok és a belső vállalati adatok egyesítésével jobb becslőképességű modelleket lehet készíteni. Továbbá megállapítható, hogy a rosszabb minőségű gátlási% hatóérték felhasználásával nem jobb becslőképességű modelleket lehetett készíteni. Az összes elkészült Akt1 gátlás modell közül a – szakirodalmi és belső vállalati adatokból
képzett
–
TABi+b
adathalmazon
kiválasztott
végső
PLS
modell
molekulaleíróira illesztett ANN modell ért el a legjobb statisztikai eredményeket. Így ezt a modellt választottam ki, amit virtuális szűrésre lehet használni.
97
4.3.3. PDGFRβ gátlás modell A PDGFR aktiváló mutációi kontrollálatlan sejtszaporodást eredményeznek és elősegítik a tumor véredények fennmaradását. A PDGFR túlműködése más proliferatív megbetegedésekben is szerepet játszik, pl. atherosclerosis, restenosis, transzplantátum kilökődés [78, 94]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem az PDGFRβ kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC50 legyen, PDGFRβ enzim rekombináns technológiával legyen előállítva, ne tartalmazzon autofoszforilációs méréseket, csak számszerűsíthető értékkel megadott hatástani adatokat tartalmazzon. Ezekkel a feltételekkel 154 különböző molekulát és hozzátartozó IC50 adatot gyűjtöttem ki [94-103]. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,486. A molekulákat négy alapváz köré csoportosítottam, öt szerkezetet nem lehetett az általam meghatározott alapvázak köré csoportosítani (36. ábra). Cl
(A) N R
N
N
O
R
N
O
II(22)
O
N
O
N
HN
Cl O
N
Ar
N N H
N H
N
N
NH R2
III(55)
O O
O
N HN
N IV(9)
N H
NH R2
R1
Br
F
N
O
N
I(63)
R1
(B)
Ar
N H
O
N
N O N
S N
N
HN
S N
36. ábra (A) A modellezés során felhasznált PDGFRβ gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált PDGFRβ gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni.
Az IC50 értékeket pIC50-né alakítottam át, a többszörösen előforduló molekulák esetében pIC50 értékek átlagát vettem. A pIC50 értékek 2,84 log egységnyi tartományt fogtak át, eloszlásukat a 37. ábra mutatja be.
98
37. ábra PDGFRβ adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
1612 db 0D, 1D, 2D, 3D Dragon 4.1 molekulaleírót és 8431 db saját fejlesztésű 3D hisztogram molekulaleírót számítottam ki. A molekulák 3D szerkezetét a Concord program segítségével állítottam elő. A modellezés további lépéseit a 3DNET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WSi (munkahalmaz): 115 adatpont; EVSi (külső ellenőrző halmaz): 39 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit – függvényillesztő módszerenként
–
MKB-kbe
gyűjtöttem.
Az
egyes
MKB-kből
kiválasztott
végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WSi halmaz – a végső MLR modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem két neuronnal. A WSi halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVSi halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen.
99
A végső modellek jellemzőit és statisztikai eredményeit a 19. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, az eredményeket a 20. táblázat mutatja be. 19. táblázat Az adott WS-en kiválasztott végső PDGFRβ eredményei. WS: munkahalmaz. PLS MolekulaWS Illesztési komp./ WS leírók illesztés módszer neuronok R2 száma száma MLR WSi 17 0,6571 PLS WSi 28 25 0,7113 ANN WSi 17 2 0,3744
modellek jellemzői és statisztikai WS illesztés SEE
EV Q2EVS
EV SDEPEVS
0,4257 0,3906 0,4152
0,3916 0,3831 0,4930
0,5512 0,555 0,5032
20. táblázat A WSi halmazon kiválasztott végső MLR, PLS és ANN PDGFRβ modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 154 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Tesztelt Teszt Q2eredeti mérőszám Modell p SzF Krit. érték /Teszt értéke AV/SD típusa MLR Q2 / χ 2 0,001 203 406 2042,8 0,44/ MLR Q2 / z 0,001 3,29 118,66 0,09 2 MLR Q /Z’ 0 -0,10 2 MLR SDEP / χ 0,001 203 406 1939,62 MLR SDEP / z 0,001 3,29 87,63 MLR SDEP / Z’ 0 -0,53 PLS Q2 / χ 2 0,001 203 406 1974,2 0,33/ PLS Q2 / z 0,001 3,29 80,50 0,14 2 PLS Q /Z’ 0 -0,59 2 PLS SDEP / χ 0,001 203 406 2005,67 PLS SDEP / z 0,001 3,29 100,37 PLS SDEP / Z’ 0 -0,32 ANN Q2 / χ 2 0,001 203 406 2003,50 0,37/ ANN Q2 / z 0,001 3,29 93,08 0,13 2 ANN Q /Z’ 0 -0,41 2 ANN SDEP / χ 0,001 203 406 2015,47 ANN SDEP / z 0,001 3,29 110,29 ANN SDEP / Z’ 0 -0,22
A 38. ábrán a WSi halmazon kiválasztott végső MLR modell illesztésének és az EVSi halmazon való külső ellenőrzésének grafikus eredménye látható, a 39. ábra a véletlen korrelációs tesztek eredményeinek grafikus ábrázolását mutatja be, a 21.
táblázat a modell molekulaleíróit sorolja fel.
100
(A)
(B)
38. (A) A WSi halmazon kiválasztott végső MLR PDGFRβ modell illesztése a WSi-n (B) A WSi halmazon kiválasztott végső MLR PDGFRβ modell külső ellenőrzésének eredménye a EVSi-n.
(A)
(B)
39. ábra (A) A végső MLR PDGFRβ modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső MLR PDGFRβ modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 21. táblázat A WSi halmazon kiválasztott végső MLR PDGFRβ modell molekulaleírói MODd értékük alapján sorba rendezve. A MODd értékek a WSi halmazon való illesztés alapján lettek számítva. Molekulaleíró kód
MODd
RDSQ 2_H_C.2_13 2_C.2_H.c_13 3_Any_C_8 3_C_C.2_5 2_Any_C.ar_6
100 66.8 55.1 37.7 34.4 25.9
VEv1 3_H_C.2_8 3_Any_C.2_3 2_C_C.ar_7 Xindex 3_Hev_Het_13
25.9 23 22.5 20.7 20.1 17.9
Molekulaleíró neve[22,35,51]
reciprocal distance squared Randic-type index 2D hisztogram:13 kötésre lévő H - sp2C atomtípusok száma 2D hisztogram:13 kötésre lévő sp2C - CH atomtípusok száma 3D hisztogram:8 Å-re lévő bármely atomtípus - C atomtípusok száma 3D hisztogram:5 Å-re lévő C-sp2C atomtípusok száma 2D hisztogram:6 kötésre lévő bármely atomtípus - aromás C atomtípusok száma eigenvector coefficient sum from van der Waals weighted distance matrix 3D hisztogram: 8 Å-re lévő H - sp2C atomtípusok száma 3D hisztogram:3 Å-re lévő bármely atomtípus - sp2C atomtípusok száma 2D hisztogram:7 kötésre lévő C - aromás C atomtípusok száma Balaban X index 3D hisztogram:13 Å-re lévő bármely nehézatom - bármely heteroatom
101
Molekulaleíró kód
MODd
ESpm04r
10.7
3_N_C.ar_6 2_C_C.2_6 H1u PJI3
10.5 6.6 5.4 4.9
4.3.3.1.
Molekulaleíró neve[22,35,51]
(N,O,S,P) atomtípusok száma Spectral moment 04 from edge adj. matrix weighted by resonance integrals 3D hisztogram:6 Å-re lévő N - aromás C atomtípusok száma 2D hisztogram:6 kötésre lévő C-sp2C atomtípusok száma H autocorrelation of lag 1 / unweighted 3D Petitjean shape index
Megbeszélés
Mindkét végső lineáris modell külső ellenőrzésének Q2 értéke alatta van a tapasztalati határnak (MLR Q2EVSi = 0,39; PLS Q2EVSi = 0,38), az ANN modell meghaladta ezt a határt (ANN Q2EVSi = 0,49). Az EV SDEP értékei nem estek bele a megszabott tapasztalati tartományba (MLR SDEPEVSi = 0,55; PLS SDEPEVSi = 0,56; ANN SDEPEVSi = 0,50). A WSi-n való illesztés SEE értékei (MLR SEE = 0,43; PLS SEE = 0,39; ANN SEE = 0,42) is kisebbek, mint az enzimatikus esszék átlagos hibája (0,5). A végső modellek Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális értékhez közel voltak, de nem érték el, vagyis az eloszlások – kismértékben – átfedtek. A Z’ értékek mindhárom modell és mindkét mérőszám esetében nulla alatt voltak. Ezek alapján megállapítható, hogy a modellek molekulaleírói közül néhány véletlenszerűen korrelál a hatással. A végső modellek – az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett – Q2 eloszlásainak átlagai kisebbek voltak, mint a virtuális szűrésre kiválasztott EGFR vagy Akt1 modellek esetében (MLR Q2orig,AV = 0,44; PLS Q2orig,AV = 0,33; ANN Q2orig,AV = 0,37), valamint az eloszlások szórása nagyobb (MLR Q2orig,SD = 0,09; PLS Q2orig,SD = 0,14; ANN Q2orig,SD = 0,13). Ebből az következik, hogy bár a végső modellek a teljes bemenő adathalmazon a legtöbb felosztásra jobb becslést adnak, mint a pIC50 értékek átlagából képzett legegyszerűbb modell (Q2=0), de az átlaghoz tartozó viszonylag nagy szórás jelzi, hogy számos érték közel van a nullához, illetve néhány érték nulla alatt van. Ezt az MLR modell esetében a 39. ábra is szemlélteti, a PLS és ANN modellek esetében több Q2 érték van nulla alatt.
102
A végső modellek majdnem elérik a külső ellenőrzésen a tapasztalati Q2 értéket (0,4). A túl kicsi SEE és SDEP értékek viszont azt mutatják, hogy a modell már valószínűleg a kísérleti hibát is leírja. A nulla alatti Z’ érték pedig valószínűsíti a molekulaleírók véletlen korrelációját. Egy másik magyarázata a rossz Z’ értékeknek és az eloszlások egymásba csúszásának, hogy a bemenő pIC50 értékek tartománya csak 2,84 log egység és bemenő adatok szerkezeteinek túl kicsi a diverzitása – a legkisebb a disszertációban bemutatottak közül – így az Y adatok összekeverése után számos szerkezetileg hasonló molekula hasonló pIC50 értéket kaphatott az eredetihez képest. A végső ANN modell adta a legnagyobb Q2 értéket és a legkisebb SDEP értéket a külső ellenőrzésen, azonban az eredeti Y adatok Q2 eloszlásának átlaga kisebb, mint az MLR modell esetében, vagyis a modell nem annyira robosztus. A nagy Q2 érték az EVn inkább egy szerencsés véletlen felosztásnak és az ANN hatékony illesztő képességének köszönhető. Egyik végső modell sem használható fel megbízhatóan virtuális szűrésre. A modell nem megfelelő becslőképességének okai lehetnek: a viszonylag kevés molekulaszám, az kicsi diverzitás és a pIC50 értékek szűk tartománya. Az új modellezés előtt mindenképpen további mérési eredmények összegyűjtése szükséges.
4.3.4. CDK4 gátlás modell A ciklin függő kinázok (CDK) hibás működése alapvetően a sejtciklus szabályozás folyamatának sérülésében jelentkezik. A CDK4 enzim aktivitásának gátlása leállítja a rákos sejtek ciklusát a G0/G1 fázisban és nem engedi az S fázisba lépni, így osztódni sem tud a rákos sejt [104]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem a CDK4 kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC50 legyen,
CDK4
enzim
rekombináns
technológiával
legyen
előállítva,
csak
számszerűsíthető értékkel megadott biológiai adatokat tartalmazzon. Ezekkel a feltételekkel 186 különböző molekulát és hozzátartozó IC50 adatot gyűjtöttem ki [105121]. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,733. A molekulákat tizennégy alapváz köré csoportosítottam, hét molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani (40. ábra).
103
(A) R1
R3
R2
N
N
N S
(B)
R1
R2 N
R1
N
N
N
N H
N
N
III(57)
R3
N
V(6)
N H
NH2
O OH N H
IX(9)
XI(8)
R2 R3
R2
HN
N
N H N
O
N
N R1
N H
N H
R2
OH
O
HN
NH
OH
O Br
R1 N H
O
N NH2
O
R2 R1 XII(6)
OH O
VIII(4)
R
O
O
X(7)
O HO
N H
N
N O
NH
VI(4)
N
O
N H OH
N
N R1
R1
R2 VII( 5)
OH
O [H,F,Cl,Br]
N
R1
O O O
R
O
N H N
HO
O
H N
OH
N
R2 IV(8) O
H N
O
N R1
N H
R2
R3 II(13)
I(49)
+
O
NH
NH2 S S NH2
NH2 N
R2
R O
HO R1 XIII(2)
N
NH
XIV(2)
40. ábra (A) A modellezés során felhasznált CDK4 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált CDK4 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni.
Az IC50 értékeket pIC50-né alakítottam át, a többszörösen előforduló molekulák esetében a pIC50 értékek átlagát vettem. A pIC50 értékek 6,16 log egységnyi tartományt fogtak át, eloszlásukat a 41. ábra mutatja be.
41. ábra CDK4 adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, 427 db 2D MOE molekulaleírót és 4353 db saját fejlesztésű 2D hisztogram molekulaleírót számítottam ki. A modellezés további lépéseit a 3DNET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek
104
segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WSi (munkahalmaz): 139 adatpont; EVSi (külső ellenőrző halmaz): 47 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit – függvényillesztő módszerenként
–
MKB-kbe
gyűjtöttem.
Az
egyes
MKB-kből
kiválasztott
végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WSi halmaz – a végső MLR modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem két neuronnal. A WSi halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVSi halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A végső modellek jellemzőit és statisztikai eredményeit a 22. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, eredményeket a 23. táblázat mutatja be. 22. táblázat Az adott WS-en kiválasztott végső CDK4 modell jellemzői és statisztikai eredményei. Molekula- PLS komp./ WS WS Illesztési EV WS leírók neuronok illesztés illesztés EV Q2EVSi módszer SDEP EVSi száma száma R2 SEE MLR WSi 21 0,9053 0,4213 0,6979 0,7706 PLS WSi 17 11 0,7555 0,6769 0,6502 0,8293 ANN WSi 21 2 0,9046 0,4228 0,7096 0,7557 23. táblázat A WSi halmazon kiválasztott végső MLR, PLS és ANN CDK4 modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjének eredményei. A teszt az összes 186 molekula bevonásával történt, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Tesztelt Teszt Q2eredeti Modell mérőszám p SzF Krit. érték értéke AV/SD /Teszt típusa MLR Q2 / χ 2 0,001 203 406 2048 0,80/ MLR Q2 / z 0,001 3,29 201,18 0,04 MLR Q2 /Z’ 0 0,44 MLR SDEP / χ2 0,001 203 406 2048 MLR SDEP / z 0,001 3,29 268,15 MLR SDEP / Z’ 0 0,53 PLS Q2 / χ 2 0,001 203 406 2048 0,67/ PLS Q2 / z 0,001 3,29 217,36 0,04 PLS Q2 /Z’ 0 0,43 PLS SDEP / χ2 0,001 203 406 2048 PLS SDEP / z 0,001 3,29 223,07
105
Modell PLS ANN ANN ANN ANN ANN ANN
Tesztelt mérőszám /Teszt típusa SDEP / Z’ Q2 / χ 2 Q2 / z Q2 /Z’ SDEP / χ2 SDEP / z SDEP / Z’
p
SzF
Krit. érték
Teszt értéke
0,001 0,001 0,001 0,001 -
203 203 -
0 406 3,29 0 406 3,29 0
0,41 2047 143,07 0,22 2048 240,27 0,46
Q2eredeti AV/SD 0,77/ 0,05 -
A 42. ábrán a WSi halmazon kiválasztott végső MLR modell illesztésének és az EVSi halmazon való külső ellenőrzésének grafikus eredménye látható, a 43. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 24. táblázat a modell molekulaleíróit sorolja fel.
(A)
(B)
42. ábra (A) A WSi halmazon kiválasztott végső MLR CDK4 modell illesztése a WSi-n (B) A WSi halmazon kiválasztott végső MLR CDK4 modell külső ellenőrzésének eredménye a EVSi-n.
(A)
(B)
43. ábra (A) A végső MLR CDK4 modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső MLR CDK4 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok.
106
24. táblázat A végső MLR CDK4 modell molekulaleírói MODd értékük alapján sorba rendezve. A MODd értékek a WSi halmazon való illesztés alapján lettek számítva. Molekulaleíró kód
MODd
Molekulaleíró neve[22,35,51]
2_Hev_H.n_7 2_Hev_C.2_10 2_Hev_H.na_7
100 50.98 37.05
2_C_C.2_9 EEig13x 2_H.c_H.na_8 2_Hev_H.n_3 2_C_N.pl3_6 ESpm02d 2_Any_H.c_16 GGI2 2_H_O.2o_5 2_C.ar_H.d_8
30.06 25.35 25.17 22.67 19.17 16.48 16.31 15.88 12.8 12.19
EEig10x 2_Hev_N.pl3_2 2_Hev_C.ar_12
11.76 10.21 10.09
2_N_C.ar_5 2_H_N.ar6_4
9.46 9.4
2_Hev_H_13 2_Hev_H.d_7
8.62 5.96
PEOE_VSA-0
4.91
2D hisztogram:7 kötésre lévő nehézatom - NH atomtípusok száma 2D hisztogram:10 kötésre lévő nehézatom - sp2 C atomtípusok száma 2D hisztogram:7 kötésre lévő nehézatom - NH (nem amid N) atomtípusok száma 2D hisztogram: 9 kötésre lévő C - sp2 C atomtípusok száma Eigenvalue 13 from edge adj. matrix weighted by edge degrees 2D hisztogram:8 kötésre lévő CH- NH (nem amid N) atomtípusok száma 2D hisztogram:3 kötésre lévő nehézatom - NH atomtípusok száma 2D hisztogram: 6 kötésre lévő C – NO2 atomtípusok száma Spectral moment 02 from edge adj. matrix weighted by dipole moments 2D hisztogram: 16 kötésre lévő bármely atom – CH atomtípusok száma topological charge index of order 2 2D hisztogram: 5 kötésre lévő H – - sp2 O atomtípusok száma 2D hisztogram: 8 kötésre lévő aromás C – hidrogénhíd kötés donor H atomtípusok száma Eigenvalue 10 from edge adj. Matrix weighted by edge degrees 2D hisztogram: 2 kötésre lévő nehézatom – NO2 atomtípusok száma 2D hisztogram: 12 kötésre lévő nehézatom – aromás C atomtípusok száma 2D hisztogram: 5 kötésre lévő N – aromás C atomtípusok száma 2D hisztogram: 4 kötésre lévő H – hattagú gyűrűben lévő aromás N atomtípusok száma 2D hisztogram: 13 kötésre lévő nehézatom – H atomtípusok száma 2D hisztogram: 7 kötésre lévő nehézatom – hidrogénhíd kötés donor H atomtípusok száma Sum of vi where qi is in the range [-0.05,0.00)
107
4.3.4.1.
Megbeszélés
Mindhárom végső modell külső ellenőrzésének Q2 értéke felül van a tapasztalati határon (MLR Q2EVSi = 0,70; PLS Q2EVSi = 0,65; ANN Q2EVSi = 0,71). Az EV SDEP értékek az MLR (SDEPEVSi = 0,77) és az ANN (SDEPEVSi = 0,76) modellek esetében kívül estek a tapasztalati tartományon, sőt a WSi-n való illesztés SEE érték (MLR SEE = 0,42; ANN SEE = 0,42) is kisebbek, mint 0,5, tehát feltételezhető, hogy a modellek véletlen korreláció eredményei. A végső modellek Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át A Z’ értékek mindhárom modell és mindkét mérőszám esetében nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek – az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett – Q2 eloszlásainak átlagai 0,67 és 0,80 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,04-0,05), így a Q2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 186 molekulát tartalmazó bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pIC50 értékek átlagából képzett legegyszerűbb modell (Q2=0). Az EGFR (623) vagy Akt1 (717) gátlás modellezésében felhasznált molekulák számához képest kisebb elemszám (186) ellenére a végső CDK4 modelleknek jó a becslőképességük. Ennek elérésében szerepet játszott a molekulák viszonylag nagy diverzitása (0,73), a pIC50 értékek megfelelő eloszlása és széles tartománya (6,16 log egység). A végső modellek közül az MLR és az ANN modellek jobb statisztikai eredményeket adtak, mint a PLS modell. A két modell Y randomizálás teszten adott jó statisztikai értékei azt mutatták, hogy a modellek nem véletlen korreláció eredményei. A kettő közül az ANN modell jobban illesztette a WSi halmazt, valamint jobb
108
eredményeket ért el a külső ellenőrzésen, azonban mégis az MLR modellt választottam, amit lehet virtuális szűrésre használni, mivel nagyobb volt a teljes bemenő halmazon végzett véletlen felezésekkel kapott Q2 értékek átlaga (MLR Q2orig,AV = 0,80), mint az ANN modell esetében (ANN Q2orig,AV = 0,77), azaz az MLR modell robusztusabb modell. Ez a modell 21 molekulaleírót tartalmazott.
4.3.5. ROCK-II gátlás modell A Rho kináz (ROCK) a szerin/treonin kinázok családjába tartozik. Két izoformáját írták le eddig: ROCK-I (p160 ROCK, ROKβ) és ROCK-II (ROKα). A két izoforma között 60%-os az aminosav szekvencia azonosság, az N-terminális domén aminosav szekvenciája 90%-ban azonos. A fasudil nevű ROCK inhibitort számos helyen alkalmazzák klinikai terápiás gyakorlatban pl. stabil angina, akut iszkémiás stroke, agyi érgörcs kezelésére. A ROCK enzim gátlása számos preklinikai modellen is hatást mutat pl. erektilis diszfunkció, glaukóma, szklerózis multiplex, gerincvelő sérülés, glióma, nem-kissejtes tüdőrák [78, 122]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem a ROCK-II kinázra vonatkozó adatokat, amelyek nem a szakirodalomból származtak, hanem belső vállalati adatok. A mérést az egyik kooperációs partnerünk végezte. A mérés rekombináns enzimen történt. 40 különböző molekulát és hozzátartozó számszerűsíthető értékkel rendelkező IC50 adatot gyűjtöttem ki. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,712. A molekulákat 9 alapváz köré csoportosítottam (44. ábra). R
O S O
R4 N
H N
N
N
H N
N
VI(2)
R3 [C,N] N
VII(2)
V(3)
IV(3)
N R
R1
R3
III(6)
N
N Ar
N
R2 O
R2
O
II(11)
I(10)
S
R R1
H N
O
O
O
N N H
R O
VIII(2)
O
N R
IX(1)
44. ábra A modellezés során felhasznált ROCK-II gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható.
Az IC50 értékeket pIC50-né alakítottam át, a többszörösen előforduló molekulák esetében a pIC50 értékek átlagát vettem. A pIC50 értékek 2,4 log egységnyi tartományt fogtak át, eloszlásukat a 45. ábra mutatja be.
109
45. ábra ROCK-II adatok pIC50 értékeinek eloszlása és statisztikai jellemzői.
891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, 427 db 2D MOE molekulaleírót és 2919 db saját fejlesztésű 2D hisztogram molekulaleírót számítottam ki. A modellezés további lépéseit a 3DNET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WSb (munkahalmaz): 30 adatpont; EVSb (külső ellenőrző halmaz): 10 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit – függvényillesztő módszerenként
–
MKB-kbe
gyűjtöttem.
Az
egyes
MKB-kből
kiválasztott
végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az ANN módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WSb halmaz – a végső PLS modell molekulaleírói által meghatározott – részhalmazán ANN illesztést végeztem két neuronnal. A WSb halmazon illesztett ANN modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVSb halmazon végzett külső ellenőrzés Q2 értéke a legnagyobb legyen. A végső modellek jellemzőit és statisztikai eredményeit a 25. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának – Y randomizálásnak – vetettem alá, eredményeket a 26. táblázat mutatja be.
110
25. táblázat Az adott WS-en kiválasztott végső ROCK-II modell jellemzői és statisztikai eredményei. Molekula- PLS komp./ WS WS Illesztési EV WS leírók neuronok illesztés illesztés EV Q2EVSb módszer SDEP EVSb száma száma R2 SEE MLR WSb 6 0,6906 0,3382 -0,2204 0,5970 PLS WSb 12 8 0,8337 0,2301 0,4045 0,4130 ANN WSb 12 2 0,9607 0,1121 -0,1800 0,5814 26. táblázat A WSb halmazon kiválasztott végső MLR, PLS és ANN ROCK-II modellek Q2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjének eredményei. A teszt az összes 40 molekula bevonásával történt, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q2eredeti AV/SD: az eredeti Y adatok Q2 eloszlásának átlaga és szórása. Tesztelt Teszt Q2eredeti mérőszám Modell p SzF Krit. érték értéke AV/SD /Teszt típusa MLR Q2 / χ 2 0,001 203 406 1704,19 0,09/ MLR Q2 / z 0,001 3,29 44,81 0,38 MLR Q2 /Z’ 0 -1,67 MLR SDEP / χ2 0,001 203 406 1685,78 MLR SDEP / z 0,001 3,29 62,54 MLR SDEP / Z’ 0 -1,12 PLS Q2 / χ 2 0,001 203 406 1607,90 0,36/ PLS Q2 / z 0,001 3,29 30,07 0,54 PLS Q2 /Z’ 0 -3,06 PLS SDEP / χ2 0,001 203 406 1786,02 PLS SDEP / z 0,001 3,29 55,15 PLS SDEP / Z’ 0 -1,32 ANN Q2 / χ 2 0,001 203 406 1308,7 -0,04/ ANN Q2 / z 0,001 3,29 28,48 0,68 ANN Q2 /Z’ 0 -3,02 ANN SDEP / χ2 0,001 203 406 1452,28 ANN SDEP / z 0,001 3,29 45,23 ANN SDEP / Z’ 0 -1,79
A 46. ábrán a WSb halmazon kiválasztott végső PLS modell illesztésének és az EVSb halmazon való külső ellenőrzésének grafikus eredménye látható, a 47. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be.
111
(A)
(B)
46. ábra (A) A WSb halmazon kiválasztott végső PLS ROCK-II modell illesztése a WSb-n (B) A WSb halmazon kiválasztott végső PLS ROCK-II modell külső ellenőrzésének eredménye a EVSb-n.
(A)
(B)
47. ábra (A) A végső PLS ROCK-II modell Q2-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső PLS ROCK-II modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok.
4.3.5.1.
Megbeszélés
A végső modellek közül csak PLS modell Q2 értéke van a tapasztalati határ felett (PLS Q2EVSb = 0,40). Az EV SDEP értékei nem estek bele a megszabott tapasztalati tartományba (MLR SDEPEVSb = 0,60; PLS SDEPEVSb = 0,41; ANN SDEPEVSb = 0,58). A WSb-n való illesztés SEE értékei (MLR SEE = 0,43; PLS SEE = 0,39; ANN SEE = 0,42) is kisebbek, mint az enzimatikus esszék átlagos hibája (0,5), tehát feltételezhető, hogy a modellek véletlen korreláció eredményei. A végső modellek Q2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve a kétmintás z-próba és a χ2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ2 értékei mindhárom végső modell és
112
mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték alatt voltak, vagyis az eloszlások átfedtek. A Z’ értékek mindhárom modell és mindkét mérőszám esetében nulla alatt voltak. Ezek alapján megállapítható, hogy a modellek a molekulaleírók véletlen korrelációjának eredményei. A végső modellek – az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett – Q2 eloszlásainak átlagai az MLR (Q2orig,AV = 0,09) és ANN (Q2orig,AV = -0,04) modellek esetében nulla körül voltak, a PLS modell esetében volt a legnagyobb (Q2orig,AV = 0,36), azonban ennek az eloszlásnak is nagy volt a szórása (Q2orig,SD = 0,54), a Q2 értékek ~ 20%-a nulla alatt volt. Habár sikerült olyan összefüggést felállítani ami – a z-próba és a χ2 statisztika alapján – nem véletlen korreláció, azonban a negatív Z’ érték és a teljes bemenő halmaz véletlen felezéseire kapott kicsi Q2 érték alapján megállapítható, hogy a modellek a molekulaleírók véletlen korrelációjának eredményei. A modell fő problémája, hogy a nagyon kevés molekulához (40) nagy diverzitás (0,71) tartozott. Az adatbázisunkban 106 különböző molekulára található ROCK-II IC50 érték, azonban ebből 66 molekulának „nagyobb, mint” értéke volt, így ezeket nem tudtam felhasználni. Az Y adatok szűk tartománya – 2,4 log egység – is kedvezőtlenül befolyásolta a modellezést. Az új modellezés előtt mindenképpen további mérési eredmények összegyűjtése szükséges, vagy más QSAR módszer használata, ami megengedi a nem számszerű Y adatok használatát.
4.4. Esszé fejlesztés, anyaglogisztika 4.4.1. Akt1 IMAP esszé beállítás 4.4.1.1.
S1 – Kezdeti paraméterek meghatározása
Az első optimalizáló lépés a célja, hogy találjunk egy megfelelő szubsztrátot, amely legalább 80 mP polarizációs értéket ad a minimum kontroll polarizációjához képest, és a szubsztrát konverzió maximum 50%-os. Ez a lépés támpontokat is szolgáltat a további optimalizáló lépésekhez. Ha nem találunk a fentebbi kritériumoknak megfelelő szubsztrátot, akkor az a szubsztrát, amely maximum 80%-os konverziónál 80 mP polarizációs értéket ad a minimum kontroll polarizációjához képest még elfogadható. Az IC50 érték 80%-os szubsztrát konverziónál 2,24-szeres eltérést mutat a
113
kezdeti reakciósebességnél mért IC50 értékhez képest [123]. Ez az eltérés – az IC50 értékek elfogadható hibáját figyelembe véve (3.3.2. fejezet) – még megengedhető. Az S1 optimalizáló lépés során maximum négyféle szubsztrátot és négyféle IMAP „kötő oldatot” lehet tesztelni növekvő kináz koncentráció mellett. Akt1 esetén csak egy –
Molecular
Devices
által
ajánlott
–
szubsztrátot
teszteltünk
100
nM-os
koncentrációban. Az Akt1 enzimet a ProQinase cégtől szereztük be. Az ATP koncentráció 10 µM volt. A kináz inkubációs idő 1 óra volt. A kísérletben az IMAP „kötő oldatok” arányai (A oldat%, B oldat %, IMAP „kötő reagens” hígítás):
•
100%A, 0%B, 1:400
•
90%A, 10%B, 1:400
•
80%A, 20%B, 1:400
•
80%A, 20%B, 1:800
A FP mérés a jelstabilitás vizsgálata miatt 20 percenként négy órán keresztül történt.
(B) A [% ], B [% ], hígítás [1:X]
delta S [mP]
250 200
FP [mP]
(A) 400 350 300 250
150 200 150
100
100
50
50 0
0 0
2
4
6
8
10
12
0
14
100 0 400
90 10 400
80 20 400
20
40
60
80
100
120
140
160
180
200
220
240
IMAP inkubációs idő [perc]
kináz [nM]
0.00 nM kináz 12.50 nM kináz
80 20 800
0.78 nM kináz 12.50 nM kináz IMAP "először"
48. ábra (A) ∆S a kináz koncentráció függvényében négy különböző IMAP beállítás esetén. (B) Az IMAP kötődés időfüggése, FP változása az inkubációs idővel (100% A oldat, 1:400 „kötő” reagens hígítás).
A 48. ábrán lévő grafikonokat elemezve az alábbi kezdeti paramétereket határoztuk meg:
•
Peptid szubsztrát: FAM-PKAtide (5-FAM-GRTGRRNSI-NH2)
•
kináz koncentráció: 6nM
•
IMAP detektáló puffer: 100% A oldat, 1:400 „kötő reagens” hígítás
•
IMAP inkubációs idő: 60 perc
114
4.4.1.2.
S2 – IMAP „kötő oldat” optimalizálás
A második lépés célja, hogy az IMAP reagensek optimális arányait beállítsuk, valamint az FP jel időfüggésének vizsgálatával meghatározzuk az optimális IMAP inkubációs időt. Huszonnégyféle IMAP „kötő oldatot” lehet tesztelni (négyféle IMAP „kötő reagens” hígítás és hatféle IMAP puffer A-B arány). Kétféle minimum kontrollt használunk: „nincs kináz”, „IMAP először”. Az Akt1 kináz esetén kihagytuk ezt a lépést, azaz összevontuk az S1 kísérlettel, mivel nemcsak a szubsztrát volt ismert, hanem a gyártó által javasolt optimális IMAP „kötő oldat” aránya is. Az S1 kísérletet úgy terveztem meg, hogy a javasolt arány mellett még három kissé eltérő összetételű „kötő oldatot” is teszteltük. Ha az S1 kísérletben nem a javasolt arány – 100% A oldat, 1:400 „kötő reagens” hígítás – lett volna a legjobb, elvégeztük volna az S2 lépést is, azonban erre nem volt szükség, így időt és reagenst spórolhattunk meg. 4.4.1.3.
S3 – kináz puffer optimalizálás
A harmadik optimalizáló lépés célja, hogy megtaláljuk az adott kinázhoz az optimális puffert, amellyel a legnagyobb ∆S értéket érhetünk el. Vizsgáljuk a Mg2+/Mn2+ ionok arányát, az ionerősséget (NaCl), a Ca2+ ionok hatását, detergensek hatását (Tween 20, Brij35, NP40, Triton X100), a pH hatását különböző puffer rendszerek segítségével (HEPES, Tris, MOPS, MES). Az alap kináz puffer: 10 mM MgCl2, 1mM DTT, 20 mM Tris 8,5, detergens nélkül. A kísérletet az S1 kísérletben meghatározott paraméterekkel végeztük.
(B)
350
delta S [mP]
delta S [mP]
(A) 300 250
250
200
150
200 150
100 100
50
50 0 0.001
0.01
0.1
1
10
0
100
MgCl2 [mM] MnCl2 [mM]
0.001
0.4
2
10
0
100
200
300
400
500
600
NaCl [mM]
50
115
(D) delta S [mP]
delta S [mP]
(C) 250
200
150
230 225 220 215 210 205
100 200 195
50
190 185
0 0
5
10
15
20
25
30
no detergent
Brij35
Tween20
Triton100
CaCl [mM]
NP40
detergens
delta S [mP]
49. ábra A ∆S függése Akt1 kináz esetén (A) a Mn2+ és a Mg2+ ionok arányától, (B) a NaCl koncentrációjától, (C) a CaCl2 koncentrációjától, (D) a különböző detergensektől. 295 245 195 145 95 45 -5 5
6
puffer
Mes
7 Mops
8 Hepes
9
pH
Tris
50. ábra A különböző puffer rendszerek és a pH hatása az Akt1 kinázra.
Az 49. és 50. ábrán lévő grafikonokat elemezve az alábbi paraméterek határoztuk meg:
•
Mn2+ és Mg2+ koncentráció aránya: 2 mM MgCl2 és 0,4 mM MnCl2
•
Ionerősség (NaCl koncentráció): 0 mM NaCl
•
CaCl2 koncentráció: 0 mM CaCl2
•
Detergensek (végkoncentráció: 0,01 V/V%): Triton X100
•
pH és puffer rendszer (puffer végkoncentráció: 20 mM): MOPS pH 7,0
4.4.1.4.
S4 – ATP Km, app meghatározás
A negyedik lépés célja, hogy meghatározzuk az ATP Km,app értékét, vagyis az ATP – adott peptid szubsztrát koncentrációnál – látszólagos Km értékét. Ezt az értéket használjuk
a
tesztelésben
és
a
további
optimalizáló
lépésekben
is
ATP
végkoncentrációként. A kináz esszékben az IC50 értéke függ az ATP koncentrációtól, ezt úgy választjuk meg, hogy a [ATP]/Km ATP =1 ekkor 1) kompetitív és unkompetitív gátlás esetén az IC50 = 2×Ki, 2) nem kompetitív gátlás esetén IC50 = Ki. Az IMAP esszében a peptid szubsztrátot nem lehet telítési koncentrációban használni, hanem csak
116
kisebb koncentrációkban, ezért nem a valós Km ATP, hanem a látszólagos Km ATP
delta S [mP]
kerül meghatározásra. 450 400 350 300 250 200 150 100 50 0 0
10
20
30
40
50
ATP [µM] kináz [nM]
2
4
8
16
32
51. ábra Km ATP app meghatározása különböző kináz koncentrációknál.
Az 51. ábrán lévő grafikonokat nemlineáris görbeillesztő szoftver (XLFit 4.0) segítségével elemezve az alábbi átlagos Km ATP app értéket határoztuk meg: Km ATP app = 7,42 µM
•
S5 – Reakcióidő és kináz koncentráció meghatározása
4.4.1.5.
Az ötödik lépés célja, hogy meghatározzuk a kináz reakció inkubációs idejét és az optimális kináz koncentrációt. Az optimális értékek kiválasztásánál fontos, hogy mind a meghatározott inkubációs idő, mind meghatározott kináz koncentráció a görbék lineáris tartományába essenek. További kritérium, hogy a kináz koncentráció minél kisebb legyen. Fontos, hogy a kiválasztott kináz koncentrációnál mért polarizációs érték legalább 80 mP legyen.
(B) delta S [mP]
delta S [mP]
(A) 350 300 250
350 300 250
200
200
150
150
100
100
50
50
0 0
5
10
15
20
25
30
35
kináz [nM] 0 min
15 min
30 min
60 min
90 min
120 min
240 min
0 0
kináz [nM]
60
120 0
2
180
240
300
kináz inkubációs idő [perc] 4
8
16
32
52. ábra (A) Akt1 kináz koncentráció meghatározás, ∆S változása a kináz koncentráció függvényében, különböző inkubációs idők esetében. (B) Akt1 kináz inkubációs idő meghatározása, ∆S változása az inkubációs idő függvényében, különböző kináz koncentrációknál.
Az 52. ábrán lévő grafikonokat elemezve az alábbi paraméterek határoztuk meg:
•
Kináz végkoncentráció: 6 nM
•
Kináz inkubációs idő: 60 perc
117
4.4.1.6.
S6 – Optimalizált esszé validálása ismert inhibitorokkal
Az utolsó lépés célja, hogy az optimalizált esszét kipróbáljuk ismert referencia inhibitorokkal, majd összevetjük a szakirodalmi adatokkal. Az IC50 illesztés nemlineáris regresszióval történik, a négyparaméteres logisztikus formula alapján. Az optimalizált Akt1 esszé paraméterei a következők (az adatok az esszé végtérfogatára értendők): 6 nM Akt1 (ProQinase); 100 nM FAM-PKAtide (5-FAMGRTGRRNSI-NH2); 7,42 µM ATP (=Km app ATP); 20 mM Mops, pH=7; 1 mM DTT; 2 mM MgCl2; 0,4 mM MnCl2; 0,01% Triton X100; kináz inkubációs idő: 60 perc; IMAP „kötő oldat”: 1:400 IMAP „kötő reagens”, 100% A puffer, 60 perc IMAP inkubációs idő. Az esszét egy általános kináz inhibitorral, a staurosporinnal validáltuk (53. ábra) Az esszének kielégítők voltak a statisztikai paraméterei: Jelkülönbség: 90 mP, S/B: 2, S/N: 18, Z’ = 0,67. A Z’ érték kiszámítása egy mikroplate-en található nyolc maximum és nyolc minimum kontroll alapján történt. A 4PL illesztéssel kapott IC50 = 23,85 nM érték a kísérleti hibán belül megfelel a szakirodalmi értékeknek IC50 = 24 nM [124].
53. ábra A staurosporin gátlási profilja a beállított Akt1 esszével mérve. A görbeillesztéshez négyparaméteres logisztikus modellt használtam, az XLFit 4.0 (IDBS) programcsomag segítségével. 2PL: minimum maximum kontroll érték rögzítve van az elméleti minimum és maximum értékekhez (0%, 100%), 4PL: mind a négy paraméter szabadon változhat az illesztés során, 3PLFB: alsó plató rögzített az elméleti minimum értékhez, 3PLFT: felső plató rögzített az elméleti maximum értékhez.
4.4.1.7.
Megbeszélés
Előállított vegyületeinket szerettük volna saját magunk által beállított és futtatott kináz esszérendszereken vizsgálni. Az egyik, elsőként beállítandó esszének az Akt1 kinázt
választottuk.
Esszérendszerünk
az
118
IMAP
technológián
alapul,
amely
fluoreszcencia polarizáción alapuló, antitest nélkül működő, homogén esszérendszer. A beállított esszével képesek vagyunk nanomólos IC50 tartományba eső inhibitorok mérésére. Az optimalizált esszénk működőképességét egy ismert kinázgátló – a staurosporin – IC50 értékének meghatározásával igazoltuk, a mért érték a kísérleti hibán belül megegyezett a szakirodalmi adattal.
4.4.2. Kimérés alkalmazás A kimérés alkalmazás a következő módon működik: a felhasználó a beállítások elvégzése után behelyezi a 2D csövet a vonalkódolvasó nyílásába, megnyitja az adatbeviteli űrlapot, majd beolvassa a kódot. A beolvasás után ráhelyezi a mérlegen található tartóba a csövet és tárálja a mérleget. A kimért anyagmennyiséget beolvassa az adatbeviteli űrlapra. Ha a tömeg megfelelő tartományba esik, akkor a felhasználó beírhatja az adatokat az Excel táblázatba. A csövekben maximum 1000 µl folyadék fér el, a felhasználó beállíthatja a leendő minimum ás maximum térfogatot. A minimum és maximum mennyiségek és a molekulatömeg alapján a program megvizsgálja, hogy a kimért tömeg megfelelő-e. Ha nem megfelelő a tömeg, akkor egyrészt nem engedélyezi az Excel táblázatba a visszaírást, másrészt színkódokkal elősegíti a kiveendő vagy hozzáadandó tömeg meghatározását. Az elkészült Excel táblázat tartalmazza azokat az adatokat, amelyeket továbbítani kell a központi adatbázisnak regisztrálásra. Kollégáim jelenleg több száz anyagot mértek már ki a berendezés segítségével.
119
54. ábra Kimérés alkalmazás adatbeviteli űrlapja, háttérben az Excel táblázattal.
4.4.2.1.
Megbeszélés
Egy optimalizált esszé csak a kezdeti lépése a sikeres biológiai teszteléseknek. A tesztelés során felléphet számos hiba pl. vegyületek kimérésének hibája; vegyületek hibás azonosítása; vegyületek bomlása az oldat vegyülettárban (LLS); vegyületek oldhatatlansága az LLS oldószerében vagy az esszé puffer-rendszerében; reagensek, vegyületek helytelen tárolása; mérőműszerek, analitikai eszközök hibás működése. A jó minőségű, megbízható biológiai adatok előállításához törekedni kell a GLP elveinek betartására. A tesztelések hatékony végrehajtásához elengedhetetlen egy LLS kialakítása. Az LLS kialakítása során nagy hangsúlyt kell tenni az egyértelmű azonosíthatóságra. Az LLS-ban lévő vegyületek azonosítása és a mintatartó csövekbe való kimérés hibájának csökkentésére összeállítottam egy berendezést, ami két hardverelemből és az ezeket vezérlő szoftverből áll.
120
5. KÖVETKEZTETÉSEK Doktori munkám során a elsődlegesen kvantitatív szerkezet-hatás összefüggések (QSAR) módszereivel vizsgáltuk validált kináz enzimek ellen ható vegyületek és aktivitásaik között fennálló kapcsolatokat. Munkám során részben foglalkoztam a potenciális gátlószerek biokémiai tesztelési körülményeiknek kialakításával. Kinázokra és gátlószereikre fókuszáló elektronikus könyvtárat állítottunk össze, valamint ehhez szorosan kapcsolódó szerkezeti hatástani adatbázist, amely internet böngésző segítségével hozzáférhető. Az elkészült adatbázis elősegíti a különböző hatóanyagtervezési folyamatokat, és különösen nagy segítséget nyújt a QSAR modellezéshez szükséges bemenő adathalmazok elkészítéséhez. A
külső
ellenőrző
halmaz
kiválasztására
végzett
számításaink
alapján
megállapítottuk, hogy olyan esetekben, ahol egy QSAR modellnek a becslések során nagy valószínűséggel extrapolálnia kell, – pl. virtuális szűrés esetén – megfelelőbb a kerületi kiválasztás módszere alapján készíteni a külső ellenőrző halmazt. A számítás eredményeit később újraértékelve megállapítottuk, hogy a véletlen külső ellenőrző halmaz kiválasztás adja – a bemenő adathalmazok számosságától függően – a legegyenletesebb eredményt. Készítettünk egy jó becslőképességgel rendelkező EGFR gátlást jellemző QSAR modellt PLS módszerrel. Statisztikai próbákkal igazoltam, hogy a modell nem a molekulaleírók véletlen korrelációja, valamint a teljes modellezéshez felhasznált bemenő adathalmazon robusztus. A modell a jól teljesített újonnan szintetizált benzotieno-pirimidin származékok EGFR gátlóhatásának becslésekor is, amelyet mérésekkel is igazoltunk. A bemenő adathalmaz nem tartalmazta a benzo-tieno-pirimidin részszerkezet – habár a származékok molekulaleírói benne voltak a modell alkalmazhatósági tartományában – a modell mégis jól becsülte meg a származékokat, tehát ezzel az EGFR gátlás QSAR modellel ki lehet lépni a modellépítésben felhasznált alapvázak köréből. Készítettem egy jó becslőképességgel rendelkező Akt1 gátlást jellemző QSAR modellt. A modell a végső PLS modell molekulaleíróin végrehajtott ANN illesztéssel készült. Statisztikai próbákkal igazoltam, hogy a modell nem a molekulaleírók véletlen korrelációja, valamint a teljes modellezéshez felhasznált bemenő adathalmazon robusztus, ezért biztonsággal felhasználható virtuális szűrésre.
121
Az elkészült Akt1 modellek alapján megállapítható, hogy a rosszabb minőségű gátlási% hatóértékből becsült pIC50 értékek és hozzájuk tartozó szerkezetek felhasználásával is lehet jó becslőképességgel rendelkező QSAR modellek készíteni, amelyek nem a molekulaleírók véletlen korrelációi. Készítettem egy jó becslőképességgel rendelkező CDK4 gátlást jellemző QSAR modellt MLR módszerrel. Statisztikai próbákkal igazoltam, hogy a modell nem a molekulaleírók véletlen korrelációja, valamint a teljes modellezéshez felhasznált bemenő adathalmazon robusztus, ezért biztonsággal felhasználható virtuális szűrésre. A
PDGFRβ
gátlás
modellezése
alapján
megállapítható,
hogy
olyan
adathalmazból, ahol szűk a hatástani – pIC50 – értékek tartománya és kicsi a szerkezetek diverzitása, nem lehet jól becslő modelleket készíteni, amelyek nem a molekulaleírók véletlen korrelációi. A
ROCK-II
gátlás
modellezése
alapján
megállapítható,
hogy
olyan
adathalmazból, ahol szűk a hatástani – pIC50 – értékek tartománya, kevés a molekulák száma és a szerkezetek diverzitása nagy, nem lehet jól becslő modelleket készíteni, amelyek nem a molekulaleírók véletlen korrelációi. Az elkészült QSAR modellek alapján megállapítható, hogy ha nincs idő ANN módszerrel
történő
változó-kiválasztásra,
érdemes
a legjobb
lineáris
modell
molekulaleíróira ANN illesztést végrehajtani, mivel sok esetben jobban illesztő és becslő modellt lehet kapni. Az elkészült QSAR modellek és statisztikai eredményeik alapján megállapítható, hogy nem elég csak egy véletlenszerűen kiválasztott külső ellenőrző halmaz alapján dönteni
a
becslőképességről,
hanem
fontos
megvizsgálni
a
végső
modell
molekulaleíróinak robusztusságát a teljes bemenő adathalmazon, amelyet nagyszámú véletlen felezéssel célszerű végrehajtani. Beállítottunk egy modern fluoreszcens technikán alapuló esszérendszert Akt1 kinázra, amivel a továbbiakban a virtuális szűrések alapján kiválasztott vegyületek aktivitását tesztelhetjük illetve hatástani adatokat nyújthatunk az Akt1 QSAR modell finomítására. Összeállítottam az oldat vegyülettárunk elkészítését elősegítő kimérő alkalmazást, amelyben a vegyülettár mintatartó csöveit modern 2D vonalkód technológiával azonosítjuk.
122
6. ÖSSZEFOGLALÁS A
protein
kinázok
fontos
szerepet
töltenek
be
számos
betegség
patomechanizmusában. Munkám során terápiás szempontból releváns kinázok ellen ható gátlószerek tervezését elősegítő QSAR modelleket készítettünk. A modellezéshez szükséges bemenő adatok – szerkezetek és hatástani adatok – tárolására és összegyűjtésének megkönnyítésére készítettünk egy adatbázist, amely egyszerűen hozzáférhető
internet
böngésző
segítségével.
A
modellek
készítéséhez
a
kutatócsoportunk által fejlesztett 3DNET4W szoftvert használtam. A modellkészítés folyamatában alapelv volt a becslőképesség maximalizálása. A modellek többszörös belső ellenőrzés után külső ellenőrzésre, valamint a molekulaleírók véletlen korrelációját meghatározó tesztelésre kerültek. Ezek alapján állapítottuk meg, hogy az adott modellt fel lehet-e használni virtuális szűrésre. A virtuális szűrésre felhasznált QSAR modelleknek nagy valószínűséggel extrapolálniuk kell. Egy modellszámításban megállapítottuk, hogy kicsi bemenő adathalmaz esetén a külső ellenőrző halmazt alkalmasabb a kerületi kiválasztás módszerével elkészíteni. Számításainkat később újraértékelve megállapítottuk, hogy a véletlen kiválasztás – a bemenő adathalmazok számosságától függően – egyenletesebb eredményt adott. Az elkészített EGFR, Akt1 és CDK4 gátlás modellek jó becslőképességgel rendelkeztek, valamint statisztikailag igazoltan nem a molekulaleírók véletlen korrelációi, ezeket a QSAR modelleket virtuális szűrésre használhatjuk. Az EGFR gátlás modell jól becsülte újonnan szintetizált benzo-tieno-pirimidin származékok gátlóhatását is. A PDGFRβ és ROCK-II adatokra nem sikerült olyan modelleket készíteni, amelyek jól becsülnek és nem a molekulaleírók véletlen korrelációi. A QSAR modellezéshez használt hatástani adatok leggyakrabban biokémiai esszérendszerekből származnak, valamint a virtuális szűrés alapján kiválasztott molekulákat is ilyen rendszerekben tesztelik le. Irányításommal sikeresen állítottunk be IMAP módszerrel Akt1 kináz esszét, ami alkalmas potenciális gátlószerek tesztelésére. A tesztelendő vegyületek tárolására és azonosítására 2D vonalkód technikán alapuló rendszert használunk. A vegyületek mintatartó csövekbe történő kimérésének megkönnyítéséhez összeállítottam egy mérlegből és egy szkennerből álló berendezést, valamint kifejlesztettem egy Excel alapú vezérlő alkalmazást.
123
7. SUMMARY Protein kinases play important role in the pathomechanism of many diseases. During my work we made QSAR models, which can be used for designing new inhibitors against therapeutically relevant kinases. We built a database for storing and collecting the input structures and activity data, which is needed for modeling. This can be accessed via a simple internet browser program. I have applied our in-house developed 3DNET4W software for model building. Model building algorithm was optimized for maximizing the predictive capability. We validated our models externally after the internal validation then we checked the selected descriptors for chance correlation. Based on these results we decided whether the given model can be used for virtual screening. Models, which are used for virtual screening, highly likely extrapolate when predicting molecules with unknown activities. We have compared the power of selection methods of the external validation set using a widely accepted dataset of solubility in water. The comparison of the methods suggested that it is preferable to use perimeter oriented external set selection. Recently analyzing our results we found that a randomly selected external validation set may give more balanced result depending on the size of the input dataset. QSAR models of EGFR, Akt1 and CDK4 inhibition had good predictive capability and there weren’t chance correlations of descriptors. These models can be used for virtual screening. The EGFR inhibition model predicted well a set of recently synthesized benzo-thieno-pyrimidin derivatives. Based on PDGFRß and ROCK-II data I couldn’t make well predicting models, which weren’t chance correlation of descriptors. Biological data which are used in QSAR studies usually originate from biochemical assays and molecules selected by virtual screening are also screened in this kind of assays. We have developed Akt1 IMAP assay successfully, which can be used for screening of potential inhibitors. We use a storage and identification system for these compounds which is based on 2D barcode technique. I have made an appliance, which consist of a balance and a 2D barcode scanner connected to a PC, for facilitating the compound weigh-out process to the storage tubes. I have developed an Excel based application for controlling the appliance.
124
8. IRODALOMJEGYZÉK
[1] Keserű GM. Molekulatervezési módszerek a gyógyszerkutatásban, Bevezetés a gyógyszerkutatásba speciálkollégium, 2006, Semmelweis Egyetem [2] Ehrlich P. (1913) Chemotherapeutics: scientific principles, methods and results. Lancet, II: 445-451 [3] Kubinyi H. (2002) From narcosis to hyperspace: The history of QSAR. Quant Struct-Act Relat, 21: 348-356 [4] Keserű GM. (2005) Szerkezet alapú virtuális szűrővizsgálatok a felfedező kutatásban. Magyar Kémiai Folyóirat, 111: 159-168 [5] Böhm HJ,Klebe G. (1996) What can we learn from molecular recognition in proteinligand complexes for the design of new drugs? Angew Chem Int Ed Engl, 35: 25892614 [6] Hillish A, Pineda LF, Hilgenfeld R. (2004) Utility of homology models in the drug discovery process. Drug Discov Today, 9: 659-669 [7] Muegge I, Enyedy J. (2004) Virtual screening for kinase targets. Curr Med Chem, 11: 693-707 [8] Lyne PD, Kenny PW, Cosgrove DA, Deng C, Zabludoff S, Wendoloski JJ, Ashwell S. (2004) Identification of compounds with nanomolar binding affinity for checkpoint kinase-1 using knowledge-based virtual screening. J Med Chem, 47: 1962-1968 [9] Walters DE. (1998) The rational basis of drug design http://www.rosalindfranklin.edu/cms/biochem/walters/walters_lect/walters_lect.html (2007. május 20.) [10] Persidis A. (2000) Data mining in biotechnology. Nat Biotechnol, 18: 237−238 [11] Kubinyi H. (1998) Similarity and dissimilarty: A medicinal chemists’s view. Persp Drug Disc Design, 9-11: 225-252 [12] Martin YC, Kofron JL, Traphagen LM. (2002) Do structurally similar molecules have similar biological activity? J Med Chem, 45: 4350-4358 [13] Nikolova N, Jaworska J. (2003) Approaches to Measure Chemical Similarity - a Review. QSAR Comb Sci, 22: 1006-1026 [14] Polgár T, Keserű GM. Virtual Screening. In: Swarbrick J, Boylan JC. Encyclopedia of pharmaceutical technology. Taylor and Francis Group, London and New York, 2005 :4013-4038 [15] Wermuth CG, Ganellin CR, Lindberg P, Mitscher LA. (1998) Glossary of terms used in medicinal chemistry (IUPAC Recommendations 1998) Pure Appl Chem, 70: 1129-1143 [16] Crum Brown A, Fraser TR. (1868) On the connection between chemical constitution and physiologic action. Part 1. On the physiological action of salts of the ammonium bases, derived from strychina, brucia, thebia, codeia, morphia and nicotia. Trans Roy Soc Edinburgh, 25:151-203 [17] Meyer H. (1899) Naunyn Schmiedebergs Arch Exp Path Pharm, 42:109-118 [18] Overton E. (1897) Z Physik Chem, 22:189 [19] Hammett LP. Physical organic chemistry. Reaction rates, equlibria and mechanism, 2nd edition. McGraw-Hill, New York, 1970
125
[20] Hansch C, Fujita T. (1964) ρ-σ-π analysis. A method for the correlation of biological activity and chemical structure. J Am Chem Soc, 86:1616-1626 [21] Free SM, Wilson JW. (1964) A mathematical contribution to structure activity studies. J Med Chem 7:395-399 [22] Todeschini R, Consonni V. Handbook of molecular descriptors, WILEY-VCH Verlag Gmbh, D-69469 Weinheim (Federal Republic of Germany), 2000 [23] Topliss JG, Costello RJ (1972) Chanche correlations in structure-activity studies using multiple regression analysis. J Med Chem, 15: 1066-1068 [24] GUIDANCE DOCUMENT ON THE VALIDATION OF (QUANTITATIVE) STRUCTURE-ACTIVITY RELATIONSHIP [(Q)SAR] MODELS, OECD Environment Health and Safety Publications, Series on Testing and Assessment, No. 69, 2007.03.30, http://appli1.oecd.org/olis/2007doc.nsf/linkto/env-jm-mono(2007)2 (hozzáférés: 2007.06.02) [25] Dudek AZ, Arodz T, Gálvez J. (2006) Computational methods in developing quantitative struscture-activity relationships (QSAR): A review. Comb Chem High Throughput Screen, 9: 213-228 [26] Cramer ITK III, Patterson DE, Bunce JD. (1988) Comparative Molecular Field Analysis (CoMFA).I. Effect of shape on binding of steroids to carrier proteins, J Am Chem Soc, 110: 5959-5967 [27] Kéri G, Őrfi L, Erős D, Hegymegi-Barakonyi B, Szántai-Kis C, Horváth Z, Wáczek F, Marosfalvi J, Szabadkai I, Pató J, Greff Z, Hafenbradl D, Daub H, Müller G, Klebl B, Ullrich A. (2006) Signal transduction therapy with rationally designed kinase inhibitors, Cur Sig Trans Ther, 1: 67-95 [28] Woolfrey JR. Weston GS. (2002) The use of computational methods in the discovery and design of kinase inhibitors. Curr Pharm Des, 8: 1527-1545 [29] Fry DW, Kraker AJ, Mcmichael A, Ambroso LA, Nelson JM, Leopold WR, Conners RW, Bridges AJ. (1994) A specific inhibitor of the Epidermal Growth-factor Receptor tyrosine kinase. Science, 265: 1093-1095 [30] Fabbro D, Ruetz S, Buchdunger E, Cowan-Jacob SW, Fendrich G, Liebetanz J, Mestan J, O’Reilly T, Traxler P, Chaudhuri B, Fretz H, Zimmermann J, Meyer T, Caravatti G, Furet P, Manley PW (2002) Protein kinases as targets for anticancer agents: from inhibitors to useful drugs. Pharmacol Ther, 93: 73-98 [31] Traxler P. (1998) Tyrosine kinase inhibitors in cancer treatment (Part II). Exp Opin Ther Patents, 8: 1599-1625 [32] CONCORD 6.0, TRIPOS Associates Inc., St. Louis, Missouri, 1992. [33] Ruskino, A.; Skell, J. M.; Balducci, R.; McGarity, C. M.; Pearlman, R. S. Univ. of Texas, Austin, TX and Tripos, St. Louis, MO USA, 1988. [34] Molecular Operating Environment (MOE), Chemical Computing Group Inc., Montreal, Quebec, Canada, (www.chemcomp.com hozzáférés: 2007.06.10) [35] Dragon plus 4.1 TALETE srl, Milano, Italy 1997-2003 (http://www.talete.mi.it/dragon_net.htm hozzáférés: 2007.06.20) [36] Parsons JD. (2007) A high-throughput method for fitting dose-response curves using Microsoft Excel. Anal Biochem, 360: 309-311 [37] http://software.timtec.net/ched/ched_diversity.htm (hozzáférés: 2007.08.24) [38] Vichem Chemie Ltd., Hungary, 1022 Budapest, Herman O. u. 15, 1999-2007
126
[39] Kéri G, Kövesdi I, Őrfi L. (2002) Method for generating. a quantitative structure property activity relationship, WO 02/082329 [40] Őrfi L, Kövesdi I. Lead search, selection and optimization, virtual screening. In: Kéri G, Toth I (Eds.), Molecular Pathomechanisms and New Trends in Drug Research. Taylor & Francis, London and New York, 2003: [41] Ertl P, Novartis Pharma AG, Basel, Switzerland,
[email protected] [42] Copeland RA. Evaluation of enzyme inhibitors in drug discovery. John Wiley & Sons, Inc., Hoboken, New Jersey, 2005: 51-53 [43] Tripos, Sybyl 7.2 (2006) QSAR and CoMFA manual, Expressing target property data, 278-280 [44] Kubinyi H (Ed.), 3D QSAR in Drug Design Theory, Methods and Applications. ESCOM Science Publishers B.V., Leiden, 1993: 531 [45] Wold S, Ruhe A, Wold H, Dunn III WJ. (1984) The collinearity problem in linear regression. The Partial Least Squares (PLS) approach to generalized inverses. SIAM J Sci Comp, 5:735-743 [46] Stouch TR, Kenyon JR, Johnson SR, Chen X-Q, Doweyko A, Li Y. (2003) In silico ADME/Tox: why models fail. J Comput Aided Mol Des, 17:83-92 [47] NCGC HTS Assay Guidance Criteria http://www.ncgc.nih.gov/resources/HTS_Assay_Guidance_Criteria.html (hozzáférés 2007.05.30) [48] Yang X, Lee J, Morgan P, Fitz L, Immermann F, Chaudhary D, Wolf S. (2005) IMAP Assay for Evaluating PKC Isoforms. SBS' 11th Annual Conference & Exhibition Drug Discovery: From Targets to Candidates September 11-15, 2005 Geneva, Switzerland, P08035, http://www.sbsonline.org/sbscon/2005/posters/050819145946.php (hozzáférés: 2007.05.30) [49] Cronin MTD, Schultz TW. (2003) Pitfalls in QSAR. J Mol Struct, 622: 39-51 [50] Todeschini R, Consonni V. Handbook of molecular descriptors, WILEY-VCH Verlag Gmbh, D-69469 Weinheim (Federal Republic of Germany), 2000: XI [51] Szegedi Zs, Erős D (2006) személyes közlés [52] Erős D. (2005) Kináz gátló molekulák szerkezet - hatás/tulajdonság összefüggéseinek vizsgálata számított és mért paraméterek alapján, és alkalmazásuk a gyógyszertervezésben és a gyógyszerfejlesztésben, PhD doktori disszertáció, 21 [53] Zhang J-H, Chung TDY, Oledenburg KR. (1999) A simple statistical parameter for use in evaluation and validation of high throughput screening assays. J Biomol Screen, 4: 67-73 [54] Szántai-Kis C, Kövesdi I., Kéri G, Örfi L. (2004) Validation subset selections for extrapolation oriented QSPAR models. Mol Divers, 7: 37-43 [55] Golbraikh A, Tropsha A. (2002) Predictive QSAR modeling based on diversity sampling of experimental datasets for the training and test set selection. J Comput Aided Mol Des, 16: 357-369 [56] Snee ITK. (1977) Validation of regression-models – methods and examples. Technometrics, 19: 415-428 [57] Johnson ME, Ylvisaker D, Moore L. (1990) Minimax and maximin distance designs. J Stat Plan Infer, 26: 131-148 [58] Kubinyi H, Abraham U. Practical problems in PLS analyses. In: Kubinyi H (Ed.), 3D QSAR in Drug Design Theory, Methods and Applications. ESCOM Science Publishers B.V., Leiden, 1993: 717-728
127
[59] Héberger K. Rajkó R, Kolossváry I. Modellépítés a regressziós számítások során, korrelált változók esetén. In: Horvay G (szerk.), Sokváltozós adatelemzés (kemometria). Nemzeti Tankönyvkiadó, Budapest, 2001: 177-214 [60] Kövesdi I, Dominguez-Rodriguez MF, Őrfi L, Náray-Szabó G, Varró A, Papp JG, Mátyus P. (1999) Application of neural networks in structure-activity relationships. Med Res Rev, 19: 249-269 [61] Masters T. Practical Neural Network Recipes in C++. Academic Press, Boston, 1996: 197 [62] Shannon CE. (1948) A Mathematical Theory of Communication. The Bell System Technical Journal, 27: 379-423, 623–656 [63] Szántai-Kis C, Kövesdi I, Erős D, Bánhegyi P, Ullrich A, Kéri G, Őrfi L, (2006) Prediction oriented QSAR modelling of EGFR inhibition. Curr Med Chem 13: 277-287 [64] Rajkó R. Sokváltozós fizikai és kalibrációs modellfüggvények paramétereinek becslése és alkalmazhatóságának vizsgálata. In: Horvay G (szerk.), Sokváltozós adatelemzés (kemometria). Nemzeti Tankönyvkiadó, Budapest, 2001: 109-176 [65] Trygg J. (2002) Have you ever wondered why PLS sometimes needs more than one component for a single-y vector? , http://www.chemometrics.se/images/stories/pdf/feb2002.pdf (hozzáférés 2007.06.11) [66] Draper NR, Smith H. Applied regression analysis. John Wiley & Sons Inc., New York, Chichester, Brisbane, Toronto, 1981: 11-17 [67] Draper NR, Smith H. Applied regression analysis. John Wiley & Sons Inc., New York, Chichester, Brisbane, Toronto, 1981: 10, 22-24 [68] HP 48G Series User’s Guide (1993), 18-12 http://h10032.www1.hp.com/ctg/Manual/c00442262.pdf (hozzáférés: 2007.09.10) [69] Wold S, Johansson E, Cocchi M. PLS – Partial Least Squares Projections to Latent Structures. In: Kubinyi H (Ed.), 3D QSAR in Drug Design Theory, Methods and Applications. ESCOM Science Publishers B.V., Leiden, 1993: 523-550 [70] Geladi P, Kowalski BR. (1986) Partial Least-Squares regression: A tutorial. Anal Chim Acta, 185: 1-17 [71] Borosy AP. Mesterséges ideghálózatok. In: Horvay G (szerk.), Sokváltozós adatelemzés (kemometria). Nemzeti Tankönyvkiadó, Budapest, 2001: 312-332 [72] Klerfors D. Artificial Neural Networks. St. Louis, Mo. St. Louis University, November 1998, http://www.hj.se/~de96klda/NeuralNetworks.htm , (hozzáférés: 2001.07.08) [73] Werbos P. (1974) Beyond regression, new tools for prediction and analysis of behavioral sciences, Ph.D dissertation, Harvard Univesity, Dep. Of Applied Mathematics, USA [74] Hornik K, Stinchcombe M, White H. (1990) Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Netw, 3: 551-560 [75] Masters T. Practical neural network recipes in C++ . Academic Press Inc., Boston, San Diego, New York, London, Sydney, Tokyo, Toronto, 1993: 182. [76] http://www.ics.forth.gr/~lourakis/levmar/levmar.pdf (hozzáférés: 2007.08.29.) [77] Erős D, Kéri G, Kövesdi I, Szántai-Kis C, Mészáros G. Őrfi L, (2004) Comparison of predictive ability of water solubility QSPR models generated by MLR, PLS and ANN methods, in press, Mini Rew in Med Chem, 4: 167
128
[78] Shchemelinin I, Šefc L, Nečas E. (2006) Protein kinase inhibitors. Folia Biol (Praha), 52: 137-148 [79] Zhu G-D, Gong J, Gandhi VB, Woods K, Luo Y, Liu X, Guan R, Klinghofer V, Johnson EF, Stoll VS, Mamo M, Li Q, Rosenberg SH, Giranda VL. (2007) Design and synthesis of pyridine–pyrazolopyridine-based inhibitors of protein kinase B/Akt Bioorg Med Chem, 15: 2441-2452 [80] Reuveni H, Livnah N, Geiger T, Klein S, Ohne O, Cohen I, Benhar M, Gellerman G, Levitzki A. (2002) Toward a PKB inhibitor: modification of a selective PKA inhibitor by rational design. Biochemistry, 41: 10304-10314 [81] Li Q, Woods KW, Thomas S, Zhu GD, Packard G, Fisher J, Li TM, Gong JC, Dinges J, Song XH, Abrams J, Luo Y, Johnson EF, Shi Y, Liu XS, Klinghofer V, Jong ITK, Oltersdorf T, Stoll VS, Jakob CG, Rosenberg SH, Giranda VL. (2006) Synthesis and structure–activity relationship of 3,40-bispyridinylethylenes: Discovery of a potent 3-isoquinolinylpyridine inhibitor of protein kinase B (PKB/Akt) for the treatment of cancer. Bioorg Med Chem Lett, 16: 2000-2007 [82] Thomas SA, Li TM, Woods KW, Song XH, Packard G, Fischer JP, Diebold RB, Liu XS, Shi Y, Klinghofer V, Johnson EF, Bouska JJ, Olson A, Guan R, Magnone SR, Marsh K, Luo Y, Rosenberg SH, Giranda VL, Li Q. (2006) Identification of a novel 3,5-disubstituted pyridine as a potent, selective, and orally active inhibitor of Akt1 kinase. Bioorg Med Chem Lett, 16: 3740-3744 [83] Ko JH, Yeon SW, Ryu JS, Kim TY, Song EH, You HJ, Park RE, Ryu CK. (2006) Synthesis and biological evaluation of 5-arylamino-6-chloro-1H-indazole-4,7-diones as inhibitors of protein kinase B/Akt. Bioorg Med Chem Lett, 16: 6001-6005 [84] Woods KW, Fischer JP, Claiborne A, Li T, Thomas SA, Zhu GD, Diebold RB, Liu XS, Shi Y, Klinghofer V, Han EK, Guan R, Magnone SR, Johnson EF, Bouska JJ, Olson AM, de Jong R, Oltersdorf T, Luo Y, Rosenberg SH, Giranda VL, Li Q. (2006) Synthesis and SAR of indazole-pyridine based protein kinase B/Akt inhibitors. Bioorg Med Chem, 14: 6832-6846 [85] Zhu GD, Gandhi VB, Gong JC, Luo Y, Liu XS, Shi Y, Guan R, Magnone SR, Klinghofer V, Johnson EF, Bouska J, Shoemaker A, Oleksijew A, Jarvis K, Park C, De Jong R, Oltersdorf T, Li Q, Rosenberg SH, Giranda VL. (2006) Discovery and SAR of oxindole-pyridine-based protein kinase B/Akt inhibitors for treating cancers. Bioorg Med Chem Lett, 16: 3424-3429 [86] Li Q, Li TM, Zhu GD, Gong JC, Claibone A, Dalton C, Luo Y, Johnson EF, Shi Y, Liu XS, Klinghofer V, Bauch JL, Marsh KC, Bouska JJ, Arries S, De Jong R, Oltersdorf T, Stoll VS, Jakob CG, Rosenberg SH, Giranda VL. (2006) Discovery of trans-3,4 '-bispyridinylethylenes as potent and novel inhibitors of protein kinase B (PKB/Akt) for the treatment of cancer: Synthesis and biological evaluation. Bioorg Med Chem Lett, 16: 1679-1685 [87] Zhu GD, Gong JC, Claiborne A, Woods KW, Gandhi VB, Thomas S, Luo Y, Liu XS, Shi Y, Guan R, Magnone SR, Klinghofer V, Johnson EF, Bouska J, Shoemaker A, Oleksijew A, Stoll VS, De Jong R, Oltersdorf T, Li Q, Rosenberg SH, Giranda VL. (2006) Bioorg Med Chem Lett, 16: 3150-3155 [88] Barnett SF, Defeo-Jones D, Fu S, Hancock PJ, Haskell KM, Jones RE, Kahana JA, Kral AM, Leander K, Lee LL, Malinowski J, McAvoy EM, Nahas DD, Robinson RG, Huber HE. (2005) Biochem J, 385: 399-408
129
[89] Breitenlechner CB, Friebe WG, Brunet E, Guido W, Graul M, Thomas U, Kunkele KP, Schafer W, Gassel M, Bosseineyer D, Huber R, Engh RA, Masjost B. (2005) Design and crystal structures of protein kinase B-selective inhibitors in complex with protein kinase a and mutants. J Med Chem, 48: 163-170 [90] Forino M, Jung D, Easton JB, Houghton PJ, Pellecchia M. (2005) Virtual docking approaches to protein kinase B inhibition. J Med Chem, 48: 2278-2281 [91] Graff JR, McNulty AM, Hanna KR, Konicek BW, Lynch RL, Bailey SN, Banks C, Capen A, Goode R, Lewis JE, Sams L, Huss KL, Campbell RM, Iversen PW, Neubauer BL, Brown TJ, Musib L, Geeganage S, Thornton D. The protein kinase C beta-selective inhibitor, enzastaurin (LY317615.HCI), suppresses signaling through the AKT pathway, induces apoptosis, and suppresses growth of human colon cancer and glioblastoma xenografts. (2005) Cancer Res, 65: 7462-7469 [92] Breitenlechner CB, Wegge T, Berillon L, Graul K, Marzenell M, Friebe WG, Thomas U, Schumacher R, Huber R, Engh RA, Masjost B. (2004) Structure-based optimization of novel azepane derivatives as PKB inhibitors. J Med Chem 47: 13751390 [93] Kéri G,Székelyhidi Z, Bánhegyi P,Varga Z, Hegymegi-Barakonyi B, Szántai-Kis C, Hafenbradl D, Klebl B, Müller G, Ullrich A, Erös D, Horváth Z, Greff Z, Marosfalvi J, Pató J, Szabadkai I, Szilágyi I, Szegedi Z, Varga I, Wáczek F, Őrfi L. (2005) Drug discovery in the kinase inhibitory field using the Nested Chemical Library™ technology. Assay Drug Dev Technol, 3: 543-551 [94] Hamby JM, Connolly CJC, Schroeder MC, Winters ITK, Showalter HDH, Panek RL, Major TC, Olsewski B, Ryan MJ, Dahring T, Lu GH, Keiser J, Amar A, Shen C, Kraker AJ, Slintak V, Nelson JM, Fry DW, Bradford L, Hallak H, Doherty AM. (1997) Structure-activity relationships for a novel series of pyrido[2, 3-d]pyrimidine tyrosine kinase inhibitors. J Med Chem, 40: 2296-2303 [95] Dahring TK, Lu GH, Hamby JM, Batley BL, Kraker AJ, Panek RL. (1997) Inhibition of growth factor-mediated tyrosine phosphorylation in vascular smooth muscle by PD 089828, a new synthetic protein tyrosine kinase inhibitor. J Pharmacol Exp Ther, 281: 1446-1456 [96] Klutchko SR, Hamby JM, Boschelli DH, Wu ZP, Kraker AJ, Amar AM, Hartl BG, Shen C, Klohs WD, Steinkampf RW, Driscoll DL, Nelson JM, Elliott WL, Roberts BJ, Stoner CL, Vincent PW, Dykes DJ, Panek RL, Lu GH, Major TC, Dahring TK, Hallak H, Bradford LA, Showa. (1998) 2-substituted aminopyrido[2, 3-d]pyrimidin-7(8H) ones. Structure-activity relationships against selected tyrosine kinases and in vitro and in vivo anticancer activity. J Med Chem, 41: 3276-3292 [97] Kraker AJ, Hartl BG, Amar AM, Barvian MR, Showalter HDH, Moore CW. (2000) Biochemical and cellular effects of c-Src kinase-selective pyrido[2, 3d]pyrimidine tyrosine kinase inhibitors. Biochem Pharmacol, 60: 885-898 [98] Panek RL, Lu GH, Klutchko SR, Batley BL, Dahring TK, Hamby JM, Hallak H, Doherty AM, Keiser JA. (1997) In vitro pharmacological characterization of PD 166285, a new nanomolar potent and broadly active protein tyrosine kinase inhibitor. J Pharmacol Exp Ther, 283: 1433-1444 [99] Schroeder MC, Hamby JM, Connolly CJC, Grohar PJ, Winters ITK, Barvian MR, Moore CW, Boushelle SL, Crean SM, Kraker AJ, Driscoll DL, Vincent PW, Elliott WL, Lu GH, Batley BL, Dahring TK, Major TC, Panek RL, Doherty AM, Showalter HDH. (2001) Soluble 2-substituted aminopyrido[2, 3-d]pyrimidin-7-yl ureas. Structure-
130
activity relationships against selected tyrosine kinases and exploration of in vitro and in vivo anticancer activity. J Med Chem, 44: 1915-1926 [100] Thompson AM, Connolly CJC, Hamby JM, Boushelle S, Hartl BG, Amar AM, Kraker AJ, Driscoll DL, Steinkampf RW, Patmore SJ, Vincent PW, Roberts BJ, Elliott WL, Klohs W, Leopold WR, Showalter HDH, Denny WA. (2000) 3-(3, 5dimethoxyphenyl)-1, 6-naphthyridine-2, 7-diamines and Related 2-urea Derivatives Are Potent and Selective Inhibitors of the FGF Receptor-1 Tyrosine Kinase. J Med Chem, 43: 4200-4211 [101] Thompson AM, Rewcastle GW, Boushelle SL, Hartl BG, Kraker AJ, Lu GH, Batley BL, Panek RL, Showalter HDH, Denny WA. (2000) Synthesis and structureactivity relationships of 7-substituted 3-(2, 6-dichlorophenyl)-1, 6-naphthyridin-2 (1H)ones as selective inhibitors of pp60(c-src). J Med Chem, 43: 3134-3147 [102] Trumpp-Kallmeyer S, Rubin JR, Humblet C, Hamby JM, Showalter HDH. (1998) Development of a binding model to protein tyrosine kinases for substituted pyrido[2, 3d]pyrimidine inhibitors. J Med Chem, 41: 1752-1763 [103] Wedge SR, Ogilvie DJ, Dukes M, Kendrew J, Chester R, Jackson JA, Boffey SJ, Valentine PJ, Curwen JO, Musgrove HL, Graham GA, Hughes GD, Thomas AP, Stokes ESE, Curry B, Richmond GHP, Wadsworth PF, Bigley AL, Hennequin LF. (2002) Zd6474 Inhibits Vascular Endothelial Growth Factor Signaling, Angiogenesis, and Tumor Growth Following Oral Administration. Cancer Res, 62: 4645-4655 [104] Mahalea S, Aubryb C, Wilsonb AJ, Jenkinsb PR, Maréchalc J-D, Sutcliffec MJ, Chaudhur B. (2006) CA224, a non-planar analogue of fascaplysin, inhibits Cdk4 but not Cdk2 and arrests cells at G0/G1 inhibiting pRB phosphorylation Bioorg Med Chem Lett, 16: 4272-4278 [105] Barvian M, Boschelli DH, Cossrow J, Dobrusin E, Fattaey A, Fritsch A, Fry D, Harvey P, Keller P, Garrett M, La F, Leopold W, McNamara D, Quin M, TrumppKallmeyer S, Toogood P, Wu ZP, Zhang EL. (2000) Pyrido[2, 3-d]pyrimidin-7-one inhibitors of cyclin-dependent kinases. J Med Chem, 43: 4606-4616 [106] Carini DJ, Kaltenbach RF, Liu J, Benfield PA, Boylan J, Boisclair M, Brizuela L, Burton CR, Cox S, Grafstrom R, Harrison BA, Harrison K, Akamike E, Markwalder JA, Nakano Y, Seitz SP, Sharp DM, Trainor GL, Sielecki TM. (2001) Identification of selective inhibitors of cyclin dependent kinase 4. Bioorg Med Chem Lett, 11: 22092211 [107] Fabbro D, Ruetz S, Buchdunger E, Cowan-Jacob SW, Fendrich G, Liebetanz J, Mestan J, O''Reilly T, Traxler P, Chaudhuri B, Fretz H, Zimmermann J, Meyer T, Caravatti G, Furet P, Manley PW. (2002) Protein kinases as targets for anticancer agents: from inhibitors to useful drugs. Pharmacol Ther, 93: 79-98 [108] Gray NS, Wodicka L, Thunnissen AMWH, Norman TC, Kwon SJ, Espinoza FH, Morgan DO, Barnes G, LeClerc S, Meijer L, Kim SH, Lockhart DJ, Schultz PG. (1998) Exploiting chemical libraries, structure, and genomics in the search for kinase inhibitors. Science, 281: 533-538 [109] Hamdouchi C, Keyser H, Collins E, Jaramillo C, DE Diego JE, Spencer CD, Dempsey JA, Anderson BD, Leggett T, Stamm NB, Schultz RM, Watkins SA, Cocke K, Lemke S, Burke TF, Beckmann RP, Dixon JT, Gurganus TM, Rankl NB, Houck KA, Zhang FM, Vieth M, Espinosa J, Timm DE, Campbell RM, Patel BKR, Brooks HB. (2004) The discovery of a new structural class of cyclin-dependent kinase inhibitors, aminoimidazo[1, 2-a]pyridines. Mol Cancer Ther, 3: 1-9
131
[110] Honma T, Yoshizumi T, Hashimoto N, Hayashi K, Kawanishi N, Fukasawa K, Takaki T, Ikeura C, Ikuta M, Suzuki-Takahashi I, Hayama T, Nishimura S, Morishima H. (2001) A novel approach for the development of selective Cdk4 inhibitors: Library design based on locations of Cdk4 specific amino acid residues. J Med Chem, 44: 46284640 [111] Jeong HW, Kim MR, Son KH, Han MY, Ha JH, Garnier M, Meijer L, Kwon BM. (2000) Cinnamaldehydes inhibit cyclin dependent kinase 4/cyclin D1. Bioorg Med Chem Lett, 10: 1819-1822 [112] Kim KS, Sack JS, Tokarski JS, Qian LG, Chao ST, Leith L, Kelly YF, Misra RN, Hunt JT, Kimball SD, Humphreys WG, Wautlet BS, Mulheron JG, Webster KR. (2000) Thio- and oxoflavopiridols, cyclin-dependent kinase 1-selective inhibitors: Synthesis and biological effects. J Med Chem, 43: 4126-4134 [113] McInnes C, Wang SD, Anderson S, O'Boyle J, Jackson W, Kontopidis G, Meades C, Mezna M, Thomas M, Wood G, Lane DP, Fischer PM. (2004) Structural determinants of CDK4 inhibition and design of selective ATP competitive inhibitors. Chem Biol, 11: 525-534 [114] Ryu CK, Kang HY, Lee SK, Nam KA, Hong CY, Ko WG, Lee BH. (2000) 5arylamino-2-methyl-4, 7-dioxobenzothiazoles as inhibitors of cyclin-dependent kinase 4 and cytotoxic agents. Bioorg Med Chem Lett, 10: 461-464 [115] Schoepfer J, Fretz H, Chaudhuri B, Muller L, Seeber E, Meijer L, Lozach O, Vangrevelinghe E, Furet P. (2002) Structure-based design and synthesis of 2benzylidene-benzofuran-3-ones as flavopiridol mimics. J Med Chem, 45: 1741-1747 [116] Vesely J, Havlicek L, Strnad M, Blow JJ, Donelladeana A, Pinna L, Letham DS, Kato J, Detivaud L, Leclerc S, Meijer L. (1994) Inhibition of Cyclin-dependent Kinases by Purine Analogs. Eur J Biochem, 224: 771-786 [117] Walker DH. (1998) Small-molecule inhibitors of cyclin-dependent kinases: Molecular tools and potential therapeutics. Curr Top Microbiol Immunol, 227: 149-165 [118] Wang SD, Meades C, Wood G, Osnowski A, Anderson S, Yuill R, Thomas M, Mezna M, Jackson W, Midgley C, Griffiths G, Fleming I, Green S, McNae I, Wu SY, McInnes C, Zheleva D, Walkinshaw MD, Fischer PM. (2004) 2-anilino-4-(thiazol-5yl)pyrimidine CDK inhibitors: Synthesis, SAR analysis, X-ray crystallography, and biological activity. J Med Chem, 47: 1662-1675 [119] Westwell AD. (2002) Novel antitumour molecules. Drug Discov Today, 7: 381383 [120] Zhu GX, Conner SE, Zhou X, Shih C, Li TC, Anderson BD, Brooks HB, Campbell RM, Considine E, Dempsey JA, Faul MM, Ogg C, Patel B, Schultz RM, Spencer CD, Teicher B, Watkins SA. (2003) Synthesis, structure-activity relationship, and biological studies of indolocarbazoles as potent cyclin D1-CDK4 inhibitors. J Med Chem, 46: 2027-2030 [121] Barvian MR, Dobrusin EM, Kaltenbronn JS, Toogood PL, Winters ITK, Sidhu IS, Singh R, Bathini Y, Micetich RG. (2006) Quinazolines and their use for inhibiting cyclin-dependent kinase enzymes. US 6,982,260 [122] Feng Y, Cameron MD, Frackowiak B, Griffin E, Lin L, Ruiz C, Schröter T, LoGrasso P. (2007) Structure–activity relationships, and drug metabolism and pharmacokinetic properties for indazole piperazine and indazole piperidine inhibitors of ROCK-II Bioorg Med Chem Lett, 17: 2355-2360
132
[123] Wu G, Yuan Y, Hodge CN. (2003) Determining appropriate substrate conversion for enzymatic assays in High-Throughput Screening. J of Biomol Screen, 8: 694-700 [124] http://www.invitrogen.com/downloads/Z-LYTE_Brochure_1205.pdf (hozzáférés: 2007.06.23.)
133
9. SAJÁT PUBLIKÁCIÓK JEGYZÉKE A disszertációhoz kapcsolódó közlemények: 1. Szántai-Kis C, Kövesdi I., Kéri G, Örfi L. (2004) Validation subset selections for extrapolation oriented QSPAR models. Mol Divers, 7: 37-43 (IF:-, független idézettség: 3) 2. Szántai-Kis C, Kövesdi I, Erős D, Bánhegyi P, Ullrich A, Kéri G, Őrfi L, (2006) Prediction oriented QSAR modelling of EGFR inhibition. Curr Med Chem 13: 277-287 (IF:4,904, független idézettség: -) 3. Kéri G, Őrfi L, Erős D, Hegymegi-Barakonyi B, Szántai-Kis C, Horváth Z, Wáczek F, Marosfalvi J, Szabadkai I, Pató J, Greff Z, Hafenbradl D, Daub H, Müller G, Klebl B, Ullrich A. (2006) Signal transduction therapy with rationally designed kinase inhibitors, Cur Sig Trans Ther, 1: 67-95 (IF:-, független idézettség: 4) 4. Kéri G,Székelyhidi Z, Bánhegyi P, Varga Z, Hegymegi-Barakonyi B,
Szántai-Kis C, Hafenbradl D, Klebl B, Müller G, Ullrich A, Erös D, Horváth Z, Greff Z, Marosfalvi J, Pató J, Szabadkai I, Szilágyi I, Szegedi Z, Varga I, Wáczek F, Őrfi L. (2005) Drug discovery in the kinase inhibitory field using the Nested Chemical Library™ technology. Assay Drug Dev Technol, 3: 543-551 (IF:2,060, független idézettség: 1) 5. Erős D, Kéri G, Kövesdi I, Szántai-Kis C, Mészáros G, Őrfi L. (2004) Comparison of predictive ability of water solubility QSPR models generated by MLR, PLS and ANN methods. Mini Rev in Med Chem, 4:167-177 (IF:-, független idézettség: 10) Poszterek 1. Dániel Erős, György Kéri, István Kövesdi, Csaba Szántai-Kis, László
Őrfi Comparison of Predictive Ability of Water Solubility QSPR Models Generated by MLR, PLS and ANN Methods, (2002) CHEMOMETRICS VI, Brno, Checz Republic
134
2. István Kövesdi, Csaba Szántai-Kis, Dániel Erős, György Kéri, László
Őrfi, QSAR modeling of ADME parameters, (2002) EuroQSAR 2002 Conference, Bournemouth, UK 3. Csaba Szántai-Kis, Dániel Erős, István Kövesdi, György Kéri, László
Őrfi QSAR modeling of ADME parameters, (2004) SE PhD Napok, Budapest 4. Csaba Szántai-Kis, Dániel Erős, István Kövesdi, György Kéri, László
Őrfi Development of a general QSAR model of EGFR inhibition, (2004) EUFEPS 2004 - 8th European Congress of Pharmaceutical Sciences, Brussels, Belgium 5. Csaba Szántai-Kis, Dániel Erős, István Kövesdi, György Kéri, László
Őrfi, Reliable QSAR models of EGFR, PDGFR and PDE5 inhibition, (2005) Conferentia Chemometrica 2005, Hajdúszoboszló 6. Csaba Szántai-Kis, Dániel Erős, István Kövesdi, György Kéri, László
Őrfi, Reliable QSAR models of EGFR, PDGFR and PDE5 inhibition, (2005) Pharmacy: Smart Molecules for Therapy. Semi-centennial conference of Semmelweis University, Faculty of Pharmacy, Budapest Előadások 1. Szántai Kis Csaba, Kövesdi István, Noszál Béla, Kéri György, Őrfi László, QSAR modellek a peptidomimetikus kinázinhibitorok körében, (2002) Peptidbiokémiai Kut.cs ülés, Balatonszemes 2. Szántai-Kis Csaba, Erős Dániel, Kövesdi István, Kéri György, Őrfi László, A független validáló készlet kiválasztási módjának hatása az extrapolációra, (2004), QSAR és Modellezési Szakcsoport ülés, Szeged
135
10. KÖSZÖNETNYILVÁNÍTÁS Ezúton szeretnék köszönetet mondani témavezetőmnek, Dr. Őrfi László docensnek azért a támogatásért, segítségért, amelyet az évek folyamán kaptam tőle, már az egyetemi TDK-s időktől fogva. Köszönöm neki azt a lehetőséget, hogy hat évvel ezelőtt lehetőséget adott doktori tanulmányaim elkezdésére. Köszönöm Dr. Kéri Györgynek professzor úrnak, hogy hosszú évek alatt egyengette szakmai karrieremet. Különösen szeretném megköszönni segítségét, hogy személyes kapcsolatait felhasználva megszervezte a müncheni utamat. Köszönöm Dr. Kövesdi Istvánnak, a szakmai konzultációkat és segítségét a QSAR modellezés területén, továbbá köszönöm, hogy a 3DNET4W program fejlesztésében ötleteimmel én is részt vehettem. Ezúton köszönöm Dr. Szegedi Zsoltnak, szakmai tanácsait és a MySQL adatbázisunkban részemre végzett módosításokat. Köszönettel tartozom Dr. Erős Dánielnek, akivel közösen tapasztalhattuk ki a QSAR modellezés rejtelmeit, köszönöm neki a munkámban nyújtott szakmai segítségét és hasznos tanácsait a disszertációm elkészítésében. Köszönettel tartozom Dr. Doris Hafenbradl-nak, Dr. Bert Klebl-nek, az exAxxima Pharmaceuticals munkatársainak, hogy a müncheni oldalon segítettek megszervezni a szakmai gyakorlatom megvalósulását. Köszönetet szeretnék mondani Dr. Lars Neumann-nak, aki az ex-Axxima Pharmaceuticals munkatársának, aki bevezetett az kináz esszék és a HTS világába. Köszönöm Szabadkai Istvánnak hasznos tanácsait a disszertációm elkészítésében. Köszönettel tartozom Szabó Editnek, Székely Ritának, Pénzes Kingának és Borbély Gábornak az IMAP esszék kivitelezésében való közreműködésükért. Köszönetet szeretnék mondani feleségemnek, Tímeának szeretetéért amivel folyamatosan támogatott és amiért a dolgozatomat korrektúrázta.
136