Matematika a biológiában és a gyógyszerkutatásban és a webgráf Ördög Rafael, Bánky Dániel, Iván Gábor Juhász Péter, Szerencsi Balázs Grolmusz Vince matematikus egyetemi tanár
ELTE Matematikai Intézet Protein Információs Technológia Csoport
Mi a cél? • Szinte mindig: betegségek gyógyítása, vagy legalábbis kezelése (HIV) gyógyszeres vagy egyéb (pl. gén, vagy immunológiai (vakcinák) terápiával).
Az FDA és környéke, azaz az állami bürokrácia •
Ugye, mindenki kapott kiskorában BCG oltást? Ma ezt nem engedélyeznék, mert a HIV pozitívok komolyan megbetegedhetnek tıle,
•
Hasonló a helyzet a penicilinnel vagy az aszpirinel is: (nem vicc)
•
Fen-Phen and Vioxx: kivonták a forgalomból, sok milliárd $ veszteség
•
Penicillin allergiás reakciója sokkal több embert ölt meg, mint a Vioxx,
•
Aszpirin gyomorvérzést okozhat
•
Furcsa világban élünk; ennek megváltoztatása nem a mi dolgunk, de azért szomorú: tízmilliók halnak meg borzasztó betegségekben évente az idióták miatt, mert nem engedélyezik a jó gyógyszereket, mert akinek – – – –
valami ritka genetikai rendellenessége van, és lekvárt evett reggelire, és fáj a torka, és erıs hasmenés gyötri, annak esetleg megárthat a gyógyszer…
Matematika a biológiában és a gyógyszerkutatásban & a webgráf • Webgráf: A WWW gráfja, a 90-es évek elején nézték komolyan (pl. Google PageRank: a fontos csúcsok meghatározása) • Fehérje-fehérje interakciós gráfok: ezredfordulótól nézik széleskörően Mirıl lesz szó? • A matematika alkalmazásáról a biológiában • A webgráfokra kifejlesztett eljárások biológiai alkalmazásai • Erdıs Webgráf Szerver
A gyógyszergyárakról • A magyar költségvetés 2010-ben 13 x 1012 Ft, azaz 60 milliárd USD. (a Harvard Egyetem vagyona (endowment) 27 milliárd USD) • A Pfizer 2008-as bevételei 48 milliárd USD, nyeresége 8 milliárd USD. • Egy gyógyszermolekula kifejlesztése 1 milliárd USD, és utána még óriásit lehet bukni vele (perek, ügyvédek, kártérítések, piacról való kivonás) • A gyógyszergyárak nem nagyon akarnak új gyógyszereket kifejleszteni: abból csak baj lehet. • Nagyon sok döntés egy gyógyszer kifejlesztése: mindig megkérdezik: menjünk-e tovább? Sokszor rossz döntést hoznak, nem mindig megfelelıen tájékozott emberek. • Pl. BCG oltás: ma nem engedélyeznék. • Nagy veszély: Találunk egy jó gyógyszermolekulát -> fejlesztjük amíg tudjuk -> (el-oda) adjuk egy gyógyszergyárnak -> kizárólagosságot követel meg magának -> utána kidobja a molekulánkat, és nem lesz belıle semmi… • Az aszpirint kihozni más csomagolásban: kicsi, de biztos jövedelem; • Új rákgyógyszerrel kijönni: kockázatos, és kicsi a piaca: a beteg vagy meggyógyul, és azért nem szedi tovább, vagy … • Elıny a pszichiátriai gyógyszereknél: pl. Cavinton, antidepresszánsok, neurodegenerativ betegségek ellenei szerek: sok-sok évig, naponta szedik, sokan.
A jogi környezet • Sok százmillió dolláros kártérítési perek (class action-ok) az USA-ban a gyógyszergyárak ellen; • Ez hátráltatja a kutatást, nagyon drágává teszi a gyógyszerfejlesztést, jó gyógyszereket kidobnak, szomorú.
Segíthet: a személyreszabott orvoslás
1
A biológiai, orvosi kutatások és a pénz • Drága: sok anyag, vegyszer, több százmillió Ft-os eszközök (röntgenkrisztallográf, NMR, 2D gélelektroforézis, MS, szekvenátorok). • Nagy munkaerıigényő • Sok pénz kell hozzá, viszont nagy a kereslet is jó ötletekre és eljárásokra • Bio-forradalom: vegyészek, fizikusok, matematikusok sokasága szeretne a piacból részt kapni • Q2 és a KKKI, Enzimológiai Intézet a szomszédba költözik • Izgalmas munka, ígéretes jövı.
II. rész: Hogyan keresünk és találunk új gyógyszermolekulákat?
Kutatási feltételek ma • • • •
Az internet miatt hihetetlenül jók; Olcsóak a számítógépek, kommunikáció Itthon is, másutt is vannak nehézségek, de a diákjaim évente többször mennek külföldi konferenciára, évente egyszerkétszer Amerikába vagy Ázsiába is • Folyóiratokhoz, cikkekhez való hozzáférés igen jó (nem az ELTEnek köszönhetıen, hanem az open access-nek).
Miért fehérje a cél? • A fehérjék egy jelentıs része enzim, (azaz katalizátor), mások segítik az enzimeket, megint mások a sejt kommunikációjában fontosak, vagy egy vázat adnak más folyamatok lezajlásának. Ha ezeket megzavarjuk, az enzimeket gátoljuk vagy mőködésüket elısegítjük, akkor befolyásoljuk a sejt mőködését. • Lehet más is (siRNA), errıl most ne beszéljünk.
Hogyan válasszuk ki, hogy mely fehérje mőködését akarjuk befolyásolni? • Olyan fontos fehérje mőködését kellene befolyásolni, amely nem jár káros mellékhatással. Pl. ha egy baktériumot akarunk kiirtani, akkor olyan bakteriális fehérjét jó megcélozni, amelyhez hasonló nincs az emberben. Ehhez: szekvenciális hasonlóságot jó megnézni (sok szó lesz errıl), illetve a funkcióját is a fehérje hálózatában, kapcsolatrendszerében.
Célfehérje azonosítás • Szekvenciák távolsága • Fehérjék fontossága • Fehérjék funkciója és kapcsolati rendszere (azaz gráfja vagy hálózata). Ezekrıl részletesen beszélünk majd. • Ez sokkal jobb és egzaktabb módszer, mint a ma is sokat használt „megálmodás”, azaz azt a fehérjét támadják a kutatók, melyet ismerik, amivel tudnak dolgozni.
2
Megvan a célfehérje, hogyan használjuk? • Jó lenne ha sokat tudnánk róla (3D szerkezet), lehetne termelni (beklónozni) . • 3D szerkezet: ez azért fontos, hogy a kismolekulákat hozzá tudjuk illeszteni Hogyan lehet ezt meghatározni? A fehérjék legnagyobb részénél (globuláris) az aminosavszekvencia meghatározza a (lényegileg egyértelmő) szerkezetet. Kiszámolni nehéz.
Mivel támadjuk a fehérjét? • Fehérjével nem jó: vagy immunválaszt vált ki (iv) vagy megemésztjük (orálisan). • Hasonlóan sok aminosavból álló peptidekkel sem jó, ugyanezért. • Kis peptidekkel vagy egyéb kismolekulákkal jó támadni a fehérjét: • Az a cél, hogy a kismolekula a fehérjéhez kössön, és vagy megváltoztassa a konformációját (alakját), vagy pedig elzárja az aktív centrumát.
Röntgenkrisztallográfia, NMR
Honnan szerzünk kismolekulákat?
Virtuális screening • • • •
Kismolekula könyvtár fehérjeszerkezet dokkolóprogram kiértékelés
Egy kismolekula leszállítva kb. 100 €. 1 millió kismolekula 100 millió €. Ezeket ellenırizni kell (hogy tényleg azok-e), esetleg tisztítani, tárolni. Utána kidolgozni a mérést, és mind az egymilliót megmérni a fehérjével: ehhez elég sok fehérje kell. Vagy: virtuálisan keresünk jó fehérje-kismolekula párt.
Kismolekula könyvtár A ZINC. Vegyületgyártók katalógusaiból összeállítva. 13 millió megvásárolható vegyület, dokkolásra kész 3D szerkezete, beszerzési információval.
Dokkolóprogram • Több dokkolóprogram kapható vagy letölthetı. • A matematikai feladat megfogalmazása • diszkrét-folytonos megoldások • Saját Fregatt programunk, amivel már sok gyógyszerjelölt molekulát találtunk
3
Listák • • • • • •
Sok jó találat legjobbak szőrése megrendelése laboratóriumi kipróbálása Ez már kivitelezhetı: 100 molekula 10 000 €, ez már kezelhetı. Wet-lab tesztek: – – – – – – –
kötés gátlás biológiai hatás sejttenyészet biológiai hatás állatkísérletek ADMET (absorption, distribution, metabolism, excretion, toxicology) Klinikai vizsgálatok I. II. III. Engedélyezés
Több fehérje együttes hatását kell nézni! • Rendszerbiológia, • Proteomika, • (metabolomika, genomika, stb.)
Néhány vélemény szerint: • A jelenlegi egy-egy fehérjét vagy egy receptort tekintı vagy támadó terápiás eljárásokból túl sok új eredményt nem lehet kihozni. • Sok betegség komplex, sok biokémiai folyamatot érint, sok fehérjével van kapcsolatban. • Pl. depresszió: nem felelıs érte egyetlen fehérje. Molekuláris mechanizmus nincs felderítve, molekuláris marker sincs.
Proteomikai technikák széles körő elterjedése Hatalmas mennyiségő mérési adat és fehérjehálózat Az eredmények „kézzel”, „ránézéssel” nem értékelhetık ki Gyors, hibatőrı, biológiailag verifikált kiértékelési eljárásokra van szükség
Itt és most nagy hálózatokban a fontos csúcsok megtalálására szeretnénk koncentrálni. Egy csúcs lehet fontos: 1. önmagában, a teljes hálózatban, 2. vagy néhány más csúcshoz képest A 2. típusú kérdés a biológiában például proteomikai mérések kiértékelésénél merül fel: Ha néhány fehérje koncentrációja megváltozik egy folyamatban, akkor szeretnénk tudni, hogy mely más fehérjék vannak ezekkel szoros kapcsolatban.
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Ha nem a saját méréseinket használjuk, hol találunk fehérjehálózatokat? MINT (UniRoma): 112 957 él, 29 587 fehérje, csak kisérleti DIP (UCLA): 57 683 él, 20 728 fehérje HPRD (Johns Hopkins): 38 806 él, 27 801 fehérje, humán IntAct (EMBL-EBI): 195 719 él, 59 017 fehérje KEGG (Kyoto Univ.) metabolikus hálózatok Generált hálózatok: nascent.pitgroup.org, nem csak modell organizmusokra
A cél: fontos csúcsok megtalálása fehérjehálózatokban
4
Milyen hálózatokat tekintünk?
Milyen hálózatokat tekintünk?
Fizikai interakciós hálózatok: Metabolikus hálózatokat: Csúcsok: fehérjék, élek: két fehérje éllel van összekötve, ha köztük interakció van: •mért {TAP, Y2H, ko-immunoprecitipáció vagy egyéb}, •jósolt Irányítatlan gráfok:
Csúcsok: reakciók, élek az A-ból B-be: ha van az A reakciónak olyan terméke, amelyet a B használ fel. A B Az éleket lehet a fluxussal is címkézni.
Példa: Az Mtb mikolsav pathway-e
A cél: fontos csúcsok megtalálása fehérjehálózatokban
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Diverzió: Hogy mőködik egy webkeresı? • • • •
Letöltés (robot, crawler) Tárolás Indexezés Inverz indexezés
De: kell, hogy a több milliárd weboldal közül a többmillió találatból a találati lista elején a FONTOS találatok legyenek.
Web-gráf: csúcsok: a web oldalai élek: A B, ha az A oldal hivatkozik B-re; DEF 1:Fontos oldal azaz fontos csúcs: amelyre sokan hivatkoznak,azaz magas a be-foka: be-fok=4 Sok alkalmazás; scientometria: hivatkozások száma, impakt faktor hátránya: nem veszi figyelembe a hivatkozók minıségét, ezért befolyásolható
A cél: fontos csúcsok megtalálása fehérjehálózatokban
DEF 2: Fontos oldal azaz fontos csúcs: amelyre sok fontos csúcs hivatkozik... Mint definíció, ez így persze rossz. De könnyen lehet egy iteratív algoritmust csinálni belıle: az elején mindenkinek adok egy egységnyi „fontosságot”, aztán ezt (pongyolán fogalmazva) a csúcsok átörökítik azokra a csúcsokra, akikre mutatnak, és ezt ismételjük, amíg egy stabilizálódott határ-eloszláshoz nem jutunk (ez legtöbbször létezik). Könnyen, gyorsan számolható, általában gyorsan konvergál.
Ennek az eljárásnak a hibatőrését és robusztusságát lehet egy új ötlettel növelni. Ezt véletlen bolyongással lehet jól elmondani. A cél: fontos csúcsok megtalálása fehérjehálózatokban
5
Irányítatlan gráfokban (ilyenek a fizikai interakciókat leíró gráfok) a PageRang nagyjából arányos a fokszámmal, azaz felesleges használni.
Elindítunk egy sétáló embert a gráfon: ha egy csúcsba ér, akkor egyenletes valószínőséggel valamely kimenı élen megy tovább, vagy egy c valószínőséggel teleportál, egy véletlenül kiválasztott csúcsba:
De! Metabolikus gráfokban érdemes, hiszen azok irányítottak; sıt, a fluxust is figyelembe lehet venni: az élválasztási valószínőségeket lehet vele súlyozni. Igaz: A nagy befokú csúcsok PageRangja átlagosan nagy. Tehát hub-okra nagy értéket ad a PageRang általában.
Pl. c=0.2
8/50 Egy csúcs fontossága az a valószínőség, amellyel ott tartózkodunk (pontosabban a határeloszlás)
Érdemes nézni azt is, hogy mely csúcsok kapnak a be-fokuknál nagyobb/kisebb PageRangot. Példa: Az Mtb mikolsav-szintézis gráfja
Relativ PageRank • PageRank irányítatlan gráfban kb. arányos a csúcsok fokszámával. • Nézzük a PageRank(v)/deg(v) hányadost • Ez irányítatlan gráfban megközelítıleg konstans minden csúcsra. • Nagy értéke a gráf belsı tulajdonságaitól függ, és független a hub tulajdonságtól!
A hányados a mikolsav útvonalra: Node ID
PageRank
In-Degree
PageRank/In-Degree
scaled inhA
13.0
1
13.0
fabH
14.7
2
7.3
kasB kasA
11.8
2
5.9
UNK1
14.1
3
4.7
fabD
33.2
8
4.2
pks13
7.7
2
3.9
fas
7.6
2
3.8
accD5,accD4,accA3
12.4
4
3.1
acpS
23.3
9
2.6
fas
23.3
9
2.6
Más fajok más hálózataira: • Mycobacterium tuberculosis, Plasmodium falciparum and MRSA Staphylococcus aureus-ban is nagyon sok olyan kisfokú (nem-hub) fehérjét találtunk magas PageRank/degree hányadossal, amelyek bizonyítottan jó célpontok. • Persze sok olyat is, amelyekrıl ez nem ismert lehetséges új célpontok.
6
PageRang másik relativizált változata: a perszonalizált PageRang 1-(c+d) vsz.
c vsz-el teleportál egyenletesen; d vsz-el a kiválasztott csúcsokba
A perszonalizált PageRank néhány tulajdonsága: • A biológiai hálózatok jelenlegi méreteire könnyen, gyorsan számolható; • hibatőrı, •Jól használható irányítatlan, fizikai interakciós hálózatokra is • óriási hálózatokra (kb. 100 millió csúcstól) jó közelítı algoritmusok vannak a gyors kiszámítására is (így pl. www, vagy az agy hálózatára is használható {Fogaras, Rácz}).
Azért nevezték perszonalizáltnak, mert a web egyes felhasználóinak személyes érdeklıdését is figyelembe lehet venni a csúcsok fontosságának kiszámolásánál.
Miért hangsúlyozzuk a kiértékelı módszer hibatőrését? Proteomikai mérések erısen laborfüggı eredményeket szolgálatnak gyakran; Pl. 2006-ban a Nature ugyanazon számában jelent meg Gavin et al. és Krogan et al. két cikke az élesztı (S. cerevisiae) teljes interaktómjáról; nagy (40% feletti) különbségek voltak a két csoport eredményei között. Értelmes kiértékeléshez jelentısen hibatőrı eljárások kellenek, különben értéktelen „eredményeket” kapunk.
Alkalmazás proteomikai adatok analízisére Forgber et al (PlosOne 2009. ápr.) melanoma páciensek vérszérumában az alábbi fehérjék megnövekedett szintjét találta: Enolase 1: P06733 Calumenin: O43852 HSP70 protein B: P08107 2,4-dienoyl-CoA reductase: Q9NUI1 Aldolase A: P04075 Fumarate hydratase: P07954 Aldose reductase: P15121
HSP70 protein 9B: Q96EY1 Aconitase 2: P21399 hnRNP1: P26599 VCP: P55072 LDH H: P07195 LAP3: Q944P7 UniProt accession numbers
A perszonalizált PageRang biológiai alkalmazásai - 2
•Tekintettük a HPRD-ben megtalálható humán interaktomot (38 806 él, 27 801 fehérje); •perszonalizáltunk az elızı oldalon látható mérési eredményekre •megnéztük a legnagyobb perszonalizált PageRang-ú csúcsokat:
7
Az Erdıs Webgráf Szerver • A www gráfja: csúcsok weboldalak, az X csúcsból irányított él mutat az Y csúcsba, ha az X oldal (hiper)hivatkozik az Y oldalra. Ez a webgráf. • Példa: kp.elte.hu hivatkozik a webgraph.org-ra, akkor kp.elte.hu web-graph.org
2356 csúcs, 13694 él, 2 sugarú környezet
Sokan és sokat vizsgálták: • Google PageRank • Hasonló oldalak (SimRank, ko-citáció) • Power-law, small world, scale free networks, stb. Intézetünkben sokan foglalkoznak nagy gráfokkal (LEMON projekt, Nagy Hálózatok Kutatócsoport). Kerestünk, és nem találtunk rendszeresen frissített, fenntartott webgraph oldalt. Májusban indult: web-graph.org címen.
Cél: használható mérető, rendszeresen frissített webgráf létrehozása • Élek domének közt • Így pár százmillió csúcsnál nem lesz több.
Erdıs Pál (1913-1996) Minden idık egyik legismertebb magyar matematikusa, az Erdıs-Rényi véletlen gráfmodell egyik létrehozója.
15 éve hunyt el.
Nehézségek: • A web letöltése – nagy (URL-ek száma 1012), és minden URL-t meg kell nézni elıbb-utóbb … • Adatbázis: Egyetlen webcrawler egy sztenderd MySQL adatbázist másfél nap alatt telít, utána használhatatlan a rendszer; (jelenleg 50100 webcrawlerünk fut) Nagyon sok jó ötlet kell; • URL-ek sztenderdizálása:
http://उदाहरण.पर ा/ http://παράδειγµα.δοκιµή/ http://טעסט.דוגמה/ http://yz{.~}تz}ا-وزارة.
{/ http://www.中中中中.中中.cn
8
További nehézségek:
Analízis: Power law
• Dinamikus URL-ek; • maps.google.hu 9,000,000 URL, cba.hu 6,000,000 „rossz” URL • Rossz URL-ek, 16 proceszoros gépünket fagyasztotta le az alábbi URL:
Pl. dobd.hu-n van 1000 aldomén pl. http://w503.dobd.hu és ezek mindegyikébıl legalább 100 link megy ki.
Statisztika • • • •
Time URLs Domains Edges
2011-07-01 15:59:45 144,116,829 1,632407 14,039,186
Napi URL kapacitás: május: 1 millió/nap ma: 3,3 millió/nap 60-80 crawler fut. .hu, .eu domain
Köszönöm a figyelmet!
9