Fizikai és kémiai tulajdonságok számolása • Objektum: molekula vagy molekulák rendszere • Egy lehetséges csoportosítás: • Additivitáson alapuló becslések • Molekulamechanikai számolások • Kvantumkémiai számolások
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
1
Additivitáson alapuló becslések Feltevés: a számunkra érdekes tulajdonság a felépítő atomok/csoportok megfelelő jellemzőiből egyszerűen, additív séma szerint számolható X
S
X
+
Y
S
Y
2
X
S
Y
Az egyenlet két oldalán található molekulák adott tulajdonságainak összege megegyezik [S: váz (skeleton)] Atomi tulajdonságok additivitása (nulladrendű közelítés): X
X
+
Y
Y
2
X
Y
Kötések tulajdonságainak additivitása (elsőrendű közelítés): X
CH2
X
+
Y
CH2
Y
2
X
CH2
Y
Csoportok tulajdonságainak additivitása (másodrendű közelítés): X CH2CH2 X
Q.S.A.R 2009. április 16.
+
Y CH2CH2 Y
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
2
X CH2CH2 Y
2
Additivitáson alapuló becslések Milyen tulajdonságok becsülhetőek ilyen módon? • molekulatömeg (!)
N
• móltérfogat
Pm = ∑ pi
• diamágneses szuszceptibilitás • parachor • moláris hőkapacitás • képződéshő / atomizációs hő
i =1 Pm a molekuláris tulajdonság, N az atomok száma, pi az i-edik atom tulajdonsága
• ... Minden atomtípushoz ismernünk kell a megfelelő értéket!
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
3
Additivitáson alapuló becslések példa: 3 séma szénhidrogének atomizációs hőjének számolására C
• Benson: csoportokon alapuló séma:
C
C-(C)(H)3, C-(C)2(H)2, C-(C)3(H), C-(C)4
C CH
CH3 CH2
C
C
C
C C
C
E(C-H)p, E(C-H)s, E(C-H)t (első-, másod-, és harmadrendű szenekhez kapcsolódó H)
C
• Laidler: módosított kötésadditivitási séma, a C-H kötéseket differenciálja:
C
• Allen: a szénvázhoz tartozó kötésadditivitás kiegészítése két elemmel: G(CCC) és D(CCC): három C egymás után / ugyanazon szénatomhoz kapcsoltan A három séma egyformán szabatos (accurate)! C-(C)(H)3 C-(C)2(H)2 C-(C)3(H) C-(C)4
= 0,5E(C-C) + 3E(C-H)p = E(C-C) + 2E(C-H)s = 1,5E(C-C) + E(C-H)t = 2E(C-C)
Q.S.A.R 2009. április 16.
= 0,5B(C-C) + 3B(C-H) = B(C-C) + 2B(C-H) + G(CCC) = 1,5B(C-C) + B(C-H) + 3G(CCC) + D(CCC) = 2B(C-C) + 6G(CCC) + 4D(CCC)
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
4
Additivitáson alapuló becslések gyűrűk figyelembevétele • Ha a szerkezetben vannak gyűrűk, az nagymértékben befolyásolhatja a becsülendő értékeket • A gyűrűk stabilizálhatnak vagy destabilizálhatnak • Az additivitási sémákban plusz tagokat kell használni a gyűrűk hatásának figyelembevételéhez Példa: háromtagú gyűrűk feszülési energiái N H
O
115.6 kJ/mol
111.9 kJ/mol
115.2 kJ/mol
S
73.6 kJ/mol
Stabilizáció: aromás rendszerekben jelentős
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
5
Additivitáson alapuló becslések töltéseloszlás számolása: a PEOE modell • 1975-ös fejlesztés (Johann Gasteiger) • sokmilliós adatbázisokon ma is használják gyorsasága miatt • PEOE: Partial Equalization of Orbital Electronegativities • A Mulliken-féle elektronegativitás:
1 χ v = ( I v + Ev ) 2
Iv: ionizációs potenciál Ev: elektronaffinitás (adott vegyértékállapotra)
Fontos az adott vegyértékállapothoz tartozó értékek használata! • A PEOE-ben használt képlet: Ahol Q az adott atom töltése, a
χ v = av + bvQ + cvQ 2
koefficienseket az adott elektronpálya semleges, anionos és kationos ionizációs potenciálja és elektronaffinitása alapján lehet megkapni
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
6
Additivitáson alapuló becslések töltéseloszlás számolása: a PEOE modell • Kötések kialakulásakor az elektronpályák elektronegativitása elvileg kiegyenlítődik • A molekulában azonban az elektronegativitások megváltoznak • PEOE: iteratív eljárás (lépés száma: n) • minden atomra (i):
χiv = aiv + bivQ + civQi2 i
∆qij
= ( χ iv+ ) −1 ( χ iv − χ jv )d n
• minden párra (ij): ∆qij: töltéskülönbség a kötés mentén ∆qij = ∆qij + ∆qij dn: attenuációs faktor (d=1/2, az induktív effektus minden kötéssel felére-harmadára Qi = ∆qi j csökken) j χiv+: a pozitív állapot Qi = Qi + Qi< n > elektronegativitása • 6 iterációs lépés általában elegendő • A maradék (reziduális) elektronegativitás jól írja le az induktív effektust
∑
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
7
Additivitáson alapuló becslések kémiai eltolódások becslése • Tipikus becslés: analóg a táblázatos számolásokkal, az „alap” eltolódáshoz hozzáadogatjuk a szomszédos csoportokból eredő korrekciós tagokat (pl. ChemOffice) • Egy igazán nehéz probléma: fehérjék kémiai eltolódásának becslése • A térszerkezet befolyása döntő • SHIFTX program: δcalc: számolt eltolódás δcoil: alapérték („random coil” δRC: aromás köráramok hatása δEF: elektrosztatikus hatások δHB: hidrogénkötések hatása δHS: lokális konformációtól való függés
δcalc = δcoil +δRC + δEF + δHB + δHS Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
8
QSAR Jelentés: Quantitative/Qualitative Structure-Activity Relationship (mennyiségi/minőségi szerkezet-hatás összefüggés) Név-változatok: QSPR: Quantitative/Qualitative Structure-Property Relationship SAR, SPR – (Q) S A/P R Lényeg ugyanaz: modell építése analógiák és nem elmélet alapján. Quantitative: cél a predikció Qualitative: cél a megértés Felhasznált anyagok: Kalászi Adrián PhD dolgozata Hugo Kubinyi előadásai ChemAxon Screen Q.S.A.R 2009. április 16.
(http://www.kubinyi.de/lectures.html) (http://www.chemaxon.com/conf/Screen.ppt)
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
9
QSAR Történet
- Hammet egyenletek (~1950), pl. reakciók egyensúlyi állandójára:
log(K x K 0 )Y = σ x Az Y referencia reakció esetében meghatározhatók az x szubsztituensekre a konstansok, pl. aromás vegyületekre. 0 index a szubsztituálatlan vegyületet jelenti, majd az egyenletek általánosíthatók egyéb (Z) reakciókra is:
log(K x K 0 )Z = ρ Z σ x A Hammet egyenleteket reakciósebességre is alkalmazzák, a szubsztituens konstansok bizonyos mértékű additivitása is megfigyelhető. Tanulság: Elméleti megalapozás nélkül is kialakítható jól működő mennyiségi összefüggés valamely deszkriptor (szubsztituens állandó) és tulajdonság (reakciósebesség) között. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
10
QSAR Történet
A Hansch analízis (~1960) eredetileg lipofilicitással fejez ki kapcsolatot:
log(1 C ) = a log P + b ahol C az adott választ teljesítő koncentráció, P pedig az oktanol-víz megoszlási hányados. Bevezethető egy π, logP alapú új szubsztituens állandó is:
log(Px P0 )Z = π x melyet a Hammet σ-val kombinálva jobb korrelációt értek el:
log(1 C ) = k1π + k2σ + k3 ahol a k értékek az adott vegyületcsoportra illesztett paraméterek.
Ebben az esetben is a deszkriptorok (a szubsztituens állandók) önmagukban is származtatott mennyiségek. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
11
QSAR Történet
A Free-Wilson analízis (~1960) azt használja fel, hogy az adott molekulában (i) egy adott csoport (X) az adott pozícióban (j) megtalálható-e:
log(1 Ci ) = ∑ a j X ij + µ ahol C az adott választ teljesítő koncentráció, Xij pedig 1, ha X szubsztituens az i molekulában megtalálható a j-ik pozícióban, egyébként 0, µ a szubsztituálatlan alapvegyület kísérleti aktivitása, aj-k illesztett paraméterek, az adott szubsztitúció hozzájárulását fejezik ki.
A Free-Wilson analízis tekinthető a modern QSAR módszerek előfutárának. Az Xij deszkriptorok előállításához nincs szükség egyébre, csak a molekulák képletére, az összefüggés kizárólag a kérdéses aktivitások (1/Ci) megmérésével felállítható. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
12
QSAR A feladatok…
- A cél (összefüggés feltárása, predikció) és preferenciák (kívánt pontosság, vizsgálandó molekulák száma) meghatározása. - A vizsgált tulajdonság, aktivitás becsléséhez megfelelő deszkriptorok kiválasztása. - Adatelőkészítés, adatok validálása - Modellépítés, összefüggés felállítása - A modell validálása - Alkalmazás, alkalmazhatóság vizsgálata Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
13
QSAR A cél…
- Összefüggés feltárásához a deszkriptorok (független változók) és a vizsgált tulajdonság (függő változó) közötti kapcsolatot egyenletek vagy vizuálisan értékelhető modell formájában kell megadni. - Ha „csak” predikció a cél a modell szemléletessége nem szempont. - A modell előállításának, alkalmazásának költségei, pontossága megfelelőek-e. 3D QSAR ↔ HTS (High Throughput Screening) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
14
QSAR A deszkriptorok…
- Lehetőleg a molekulák szerkezetének (topológiájának) ismeretében automatikusan és olcsón kiszámíthatók legyenek. - Ne legyen túl sok deszkriptor (vagy ld. adatelőkészítés). - A deszkriptorok és függő változók nem megfelelő skálázása, származtatása „furcsa” eredményre, félrevezető modellre vezethet. - Ha a deszkriptorok kísérleti adatok, azok hibájának, megbízhatóságának ellenőrzése. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
15
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
16
QSAR Adatok előkészítése…
- Előkészítés: ld. Adatbázis1/6-11. - Figyelembe kell venni az adatok előkészítésekor, hogy a leendő modell a lehető legegyszerűbb (pl. lineáris összefüggés) legyen (Occam borotvája). - Ha túl sok a felhasználható jellemző (feature), ill. leíró (pl. spektrumok, grid-ek) kevés látszólagos (latent) változó, „pontszám” (score, vi) bevezetése megfelelő súlyfaktorokkal (loading, bij): t
vij = ∑ bkj xik ; v = B x; V = XB
A xt deszkriptorok X soraiban találhatók. Automatizálható főkomponens-analízis alapú bázis-transzformációval.
- Látszólagos vektorok bázis-transzformációval való előállításához elég egy jól meghatározott metrika (távolság definíció), az eredeti deszkriptor nem is kell hogy „vektor” jellegű legyen! Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
17
Parametrized metrics s min(x , y ) ∑ (x, y) = 1 − α(∑ x − ∑s min(x , y )) + (1 − α )(∑ y − ∑s min(x , y )) + ∑s min(x , y )
scaled,asymmetric Tanimoto
D
i i
i i
i i
i
i
i
i i
i
i i
i
i
i i
i
α ∈ [0,1] asymmetry factor si ∈ N
D
weighted , asymmetric Euclidean
scaling factor
( x, y ) =
∑ w α (x i
xi < y i
i
2
− yi ) +
∑ w (1 − α )(x i
i
2
− yi )
xi ≥ y i
α ∈ [0,1] asymmetry factor wi ∈ [0,1] weights Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
18
i
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
19
QSAR Modellalkotó minták vizsgálata…
Az n minta k „pontszám” (score) vektorai (X n sora) által kifeszített altér projektora (vetítő mátrix, PP = P) előállítható a következő módon:
H = X (X X ) X t t
−1
A H (angol Hat, azaz kalap) mátrix diagonális elemei az adott mintának a modellre várható befolyását jelzik (leverage), 1/n és 1 közötti értékeket felvéve. Minél nagyob a hii diagonális elem értéke, annál „függetlenebb” az adott minta és érdemes felhasználni a modell építéséhez. Ennek megfelelően, ha csökkenteni akarjuk a modell építéséhez felhasználandó tanító halmazt (training set) érdemes a kis befolyással bíró mintákat eltávolítani, ezekre várhatóan interpolációval tud majd a modell becslést végezni. Ha a modell tartalmaz kiugróan nagy befolyással rendelkező mintákat akkor a modell validálása során várhatóan rossz keresztvalidálási eredmények mellett jó predikciót mutathat. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
20
QSAR Modellépítés, összefüggés felállítása… - Ha lehetséges törekedjünk lineáris modell felépítésére: - Matematikai, statisztikai háttér jól megalapozott - Kevés paraméter - A buktatók elkerülésére nagy mennyiségű tapasztalat, tesztadat áll rendelkezésre (tanulj mások kárán) - Kész programcsomagok állnak rendelkezésre - A független változók (x) és a vizsgált tulajdonságok (y) közti lineáris kapcsolat, korreláció megléte könnyen vizsgálható:
r=
∑ (x − x )( y − y ) ∑ (x − x ) ∑ ( y − y ) i
i
2
i
2
i
r a Pearson korrelációs koefficiens, az x és y változó vektorok var(x) és var(y) varianciáira, ill. szórására normált cov(x,y) covarianciája. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
21
QSAR Lineáris korreláció Az r (Pearson) korrelációs koefficiens, az x és y változó vektorok var(x) és var(y) varianciáira, pontosabban szórására normált cov(x,y) covarianciája:
cov (x, y ) = cxy
(x − x )( y ∑ = i
i
− y)
n −1 2
var (x ) = s r=
cxy sx s y
2 x
=
(x − x ) ∑ = i
n −1 ∑ (xi − x )( yi − y ) 2
∑ (x − x ) ∑ ( y i
2
i
− y)
A felső vonal (pl. x ) a megfelelő változó átlaga, r pedig -1 és +1 közötti értéket vehet fel, ±1 tökéletes korrelációt jelent, a 0 közeli érték csak a lineáris korreláció hiányát mutatja. Centrált adatok esetén – az átlagok eltűnnek – r a két vektor szögének koszinusza. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
22
A Pearson-féle korrelációs koefficiens kapcsolata a lineáris regresszióval Lineáris regresszió (legkisebb négyzetek módszere, method of least squares):
(
2
)
(
2
)
min ∑ ( yi − (a + bxi )) = min ∑ ( yi − yˆ i ) ⇒
b=
cxy
s x2 a = y − bx
ahol yˆ i az yi érték becslése lineáris regresszióval. Ez alapján a Pearson-féle korrelációs együttható négyzete a következő alakban is megadható: 2 ˆ ( ) y − y ∑ i i r2 = 1 − 2 ∑ ( yi − y )
Ez az alak csak a függő változókat és becslésüket tartalmazza, ezért általánosan a becslés, a modell jóságának jelzésére használjuk és r2 alatt nem(!) a Pearson-féle r négyzetét értjük. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
23
QSAR Többváltozós lineáris regresszió (MLR) A centrálás(!) után kapott „pontszámok” (score, x) és a vizsgált, szintén centrált tulajdonság-, ill. aktivitás-értékek (y) között az aban szereplő súlyfaktorokkal (loading) kifejezve a következő függvénykapcsolatot tételezzük fel:
y = atx Ha n mintához tartozó k „pontszám”-hoz építjük a modellt, a n×k méretű score-mátrix (X) definiálásával, a kísérletileg meghatározott n tulajdonság-értéket (y) a következő egyenlettel közelíthetjük:
y = Xa ⇒ X y = a ⇒ X (XX −1
t
)
t −1
y=a
Amennyiben az adatok előkészítése főkomponens analízist és megfelelő bázistranszformációt is magában foglalt, X mátrix invertálható, egyébként a jobb oldali formulát, általánosított inverzzel használhatjuk az a súlyfaktorok kiszámítására. Ekkor „megspórolhatunk” egy bázistranszformációt (PCA regression). Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
24
QSAR Részleges legkisebb négyzetek módszere (Partial Least Squares, PLS) A legtöbb leírás az adatelőkészítés (bázistranszformáció) beolvasztásával bonyolítja el a módszer ismertetését, ezért egyszerűbb leírást adunk és feltételezzük a megfelelő adatelőkészítést, centrálást. A PLS eljárás nem adható meg zárt alakban, mert lépésenként számítja ki a súlyfaktorokat, minden lépésben kiválasztva a következő legjobban korreláló score vektort: l = 0, ~ y =y l
ha
~ y lt ~ yl t
kisebb a limitnél vagy minden score vektort felhasználtunk, vége
yy kiválasztjuk azt az eddig nem szereplő i − t, ahol
x it ~ yl maximális t ~t~ xxyy i
x it ~ y ai = t l xi xi ~ y l +1 = ~ y l − ai x i , l = l + 1 Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
i
l
l
~ yl
~ y l +1 xi 25
QSAR Részleges legkisebb négyzetek módszere (Partial Least Squares, PLS)
- A PLS manapság az egyik legelterjedtebben használt illesztési eljárás. - Sok „pontszám” (score) használatakor gyakorlatilag tökéletes illeszkedést produkálhat ezért érdemes megfelelő körültekintéssel használni. - A paraméterek száma a megállási kritériumként is megadható, de előnyösebb a kisszámú paramétert az adatok előkészítésekor dimenziószám csökkentő bázistranszformációval (PCA) elérni. - A PLS regresszió eredménye:
yˆ = Xa formában adható meg. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
26
QSAR A modell belső ellenőrzése…
- r2 kiszámítása a modellben felhasznált (training set) tulajdonság, aktivitás adatok becslésére. - Minden egyes mintára kiszámítjuk a predikciót úgy, hogy előtte kivesszük az illető molekulát (mintát) a modellből és így kapott predikcióra számítjuk ki az r2 értéket, amit általában q2–tel jelölnek (Leave-One-Out q2, LOO). - Több mintát is kihagyunk csoportokban, véletlenszerűen vagy szisztematikusan és a predikciókra q2–et számolunk (LeaveMany-Out q2, LMO). - Bootstrap: Az n mintából ismétlés megengedésével választunk ki minta-n-eseket melyekre pl. q2LOO átlagot számolunk. A bootstrap átlag és az eredeti érték eltérése statisztikai torzításról ad felvilágosítást és a regressziós együttható(k) konfidencia intervallumának becslésére is használható. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
27
QSAR A modell belső ellenőrzése…
- Jackknife: ugyanaz mint a bootstrap eljárás, de egy-egy mintát biztosan kihagyunk a modellből. - Randomizációs teszt: A tanító molekulákhoz rendelt tulajdonság, ill. aktivitás értékeket véletlenszerűen összekeverjük és újraépítjük a modellt. Ha a modell statisztikai jellemzői nem romlanak lényeges mértékben el kell vetnünk a modellt. - F-próba: A modell szignifikanciáját vizsgálhatjuk a statisztikai próbával (p az illesztésben szereplő paraméterek száma, n a minták száma): ( yˆ − y )2 / p
∑
F=
i
i 2
∑ ( yˆ − y ) i
i
/ n − p −1
i
Ebben az esetben, ha F> Fp,n-p-1,α, az α konfidencia intervallumhoz tartozó érték, a predikció szórása szignifikánsan kisebb mint a „nullbecslés”-ből adódó szórás. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
28
QSAR A modell külső ellenőrzése…
- Teszt1 halmaz: Előfordulhat, hogy a modell építése során a tanító halmazból (training set) kihagyunk mintákat, melyek a végső modellben nem vesznek részt. Az ezekre számított prediktív r2 lényegesen jobb becslését adja a modell predikciós erejének, mint pl. q2LOO. - Teszt2 halmaz: A modell predikciós képességének igazi ellenőrzése olyan adatokkal vizsgálható legjobban, melyek egyáltalán nem vettek részt a modellépítés folyamatában. Érdemes azonban megjegyezni, hogy a QSAR modellektől nem várható el hatékony extrapoláció, ezért érdemes predikció esetén az extrapoláció várható mértékét is megvizsgálni (pl. Hat-mátrix). - Kubinyi paradoxon: Jó statisztikai adatok produkálására „tanított” modellek nagyon rossz predikciós tulajdonságokkal is bírhatnak. Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
29
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
30
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
31
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
32
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
33
Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
34
QSAR Problémák…
- Hibás biológiai adatok - A biológiai adatok rossz skálázása - Különböző laborokból származó adatok (eltérő „szisztematikus” hiba) - Különböző módú kötődés - Különböző hatásmechanizmus (pl. toxicitás!) - Túl kevés rendelkezésre álló adat - Túl sok egyedülálló pont - Kismértékű kémiai változatosság - Blokkosodott adatok - Tulajdonság/aktivitás kismértékű varianciája - Szisztematikus vagy túl nagy mérési hiba - Kiugró pontok (outliers) - Rossz modellválasztás (TXK) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
35
QSAR Van még gond… - Nem megfelelő deszkriptorok - Túl sok deszkriptor - a modellválasztáskor - a modellben - Deszkriptorok skálázása (pl. CoMFA) - Kezelés nélküli mátrix szingularitás - Változók kihagyása, melyek csak a többivel együtt szignifikánsak - Model nem szignifikáns (F-teszt) - Deszkriptorok nem szignifikánsak (t-teszt) - Nincs kvalitatív modell - Nincs ok-okozati összefüggés - Predikció túl nagy extrapolációval - Ellenőrzés hiánya - Rossz eljárás használata ellenőrzésre (TXK) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
36
QSAR 3D QSAR (CoMFA, 1988)
- Összehasonlító molekula-mező elemzés (Comparative Molecular Field Analysis) - Hasonló diverzitású tréning/teszt halmaz - 3D szerkezetek(ek) generálása az összes vizsgálandó molekulára (predikciónál is) - Molekulák megfelelő átfedési szabályainak kialakítása (közös aktív rész) - Molekulák „összeforgatása” a megfelelő közös orientáció eléréséhez. - Molekulák „dobozba” illesztése - Tulajdonságok kiszámítása a grid pontokban (az összes molekulára tulajdonságonként) - Bázistranszformáció (latent variables) - PLS, tulajdonság-súlyok meghatározása - Predikció… - Thanks Kubinyi (TXK) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
37
QSAR 3D QSAR (CoMFA, 1988)
- Összehasonlító molekula-mező elemzés (Comparative Molecular Field Analysis) - Hasonló diverzitású tréning/teszt halmaz - 3D szerkezetek(ek) generálása az összes vizsgálandó molekulára (predikciónál is) - Molekulák megfelelő átfedési szabályainak kialakítása (közös aktív rész) - Molekulák „összeforgatás” a megfelelő orientáció eléréséhez. - Molekulák „dobozba” illesztése - Tulajdonságok kiszámítása a grid pontokban (az összes molekulára tulajdonságonként) - Bázistranszformáció (latent variables) - PLS, tulajdonság-súlyok meghatározása - Pedikció… - Thanks Kubinyi (TXK) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
38
QSAR és 3D QSAR Free-Wilson analízis + Egyszerű módszer, legtöbbször egyetlen megoldás + A szubsztituens effektusok tisztán szétválnak + Segíthet Hansch-modell felállításában + Hansch-modellel kombinálható - Legalább két pozícióban szükséges kémiai változatosság - Túl sok paraméter, kevés szabadsági fok - Szűk modell, nincs extrapoláció
Hansch analízis + Aktivitásokat fizikai-kémiai paraméterekkel korreláltatja + Lehetséges az extrapoláció - Származékokra használható csak - Aromás szusztituensek változtatásával működik leginkább - Csak 2D (topológiai) szerkezeti információt használ - Több megoldás is lehetséges - Sok változó, véletlen korreláció esélye nagy. - Nagymérvű extrapoláció esetén nagy lehet a hiba Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
39
QSAR és 3D QSAR 3D QSAR + Ligandumok 3D szerkezetét veszi figyelembe + Széleskörű mintahalmazra alkalmazható + Többféle tulajdonságot is figyelembe vehet (elektrosztatikus, sztérikus, hidrogénkötés donor/akceptor, stb.) + Képes előnyös és hátrányos pozíciók 3D feltérképezése -
A bioaktív konformáció megtalálása bizonytalan Különböző kötődési módokból adódhat bizonytalanság Levágási problémák (CoMSIA részben megoldotta) Változókiválasztás töredezett kontúr felületeket eredményez Nagy esélye van a véletlen korrelációnak Kizárólag in vitro adatokra alkalmazható
! ?
PFLR-3D-QSAR: http://pitanic.chem.elte.hu/pflr, http://pitanic.chem.elte.hu/pflr/examples/ Farkas, O.; Jakli, I.; Kalaszi, A.; Gabor, I. „Parameter-free linear relationship (PFLR) and its application to 3D QSAR.” J. Math. Chem. 2008, in press (on-line elérhető). Q.S.A.R ELTE Kémiai Intézet, 2009. április 16. Szerves Kémiai Tanszék
(TXK) 40
QSAR? ”Minden modell rossz, de néhány használható.” ”All Models Are Wrong But Some Are Useful.” George E. P. Box, 1979
(TXK) Q.S.A.R 2009. április 16.
ELTE Kémiai Intézet, Szerves Kémiai Tanszék
41