Tusnády E. Gábor Sztochasztikus modellek a fehérjekutatásban Doktori (Ph.D.) értekezés
ELTE TTK Szerkezeti Biokémia Program
Témavezet˝o: Dr. Simon István
Készült: a Magyar Tudományos Akadémia Szegedi Biológiai Központjának Enzimológiai Intézetében Budapest 1999
TARTALOMJEGYZÉK
Tartalomjegyzék 1. Bevezetés
4
2. Irodalmi áttekintés
6
2.1. Az aminosav szekvenciák jellemzése . . . . . . . . . . . . . . . . . . . . . . .
6
2.1.1. A szekvenciák rendezettsége . . . . . . . . . . . . . . . . . . . . . . .
6
2.1.2. Hasonlósági mátrixok . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2. Transzmembrán fehérjék . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2.1. Az integráns membránfehérjék általános felépítése . . . . . . . . . . .
9
2.2.2. Transzmembránhélix predikciók . . . . . . . . . . . . . . . . . . . . .
11
2.2.3. Az ABC transzporter család és az MRP rokon fehérjék . . . . . . . . .
13
2.3. Statisztikai eljárások a fehérje kutatásban . . . . . . . . . . . . . . . . . . . .
15
2.3.1. Dinamikus programozási eljárások . . . . . . . . . . . . . . . . . . . .
15
2.3.2. Rejtett Markov eljárások . . . . . . . . . . . . . . . . . . . . . . . . .
16
3. Célkituzések ˝
18
4. Felhasznált módszerek és eszközök
20
4.1. Adatbázisok, felhasznált adatok . . . . . . . . . . . . . . . . . . . . . . . . .
20
4.1.1. Szekvencia adatbázisok . . . . . . . . . . . . . . . . . . . . . . . . .
20
4.1.2. Transzmembrán fehérjék topológia adatai . . . . . . . . . . . . . . . .
20
4.2. A függetlenségi divergencia . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.2.1. A divergencia definíciója . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.2.2. A divergencia használata aminosav hasonlóságok becslésére . . . . . .
23
4.3. Transzmembrán fehérjék topológiájának becslése . . . . . . . . . . . . . . . .
24
4.3.1. A becsléshez használt rejtett Markov modell . . . . . . . . . . . . . .
24
4.3.2. A becslés menete . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.3.3. A modell paraméterei . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.3.4. A becslés pontosságának mérése . . . . . . . . . . . . . . . . . . . . .
29
4.4. Programok, egyéb predikciós eljárások . . . . . . . . . . . . . . . . . . . . . .
29
5. Eredmények
31
5.1. Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján . . . . . .
31
5.2. Az MRP rokon fehérjék és membrántopológiájuk . . . . . . . . . . . . . . . .
37
5.3. Transzmembrán fehérjék topológiájának becslése . . . . . . . . . . . . . . . .
41
5.3.1. A rejtett Markov modell . . . . . . . . . . . . . . . . . . . . . . . . .
41
1
TARTALOMJEGYZÉK 5.3.2. A predikció pontossága . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.3.3. A predikciós módszerek összehasonlítása . . . . . . . . . . . . . . . .
47
5.3.4. A hipotézis igazolása . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
6. Összefoglalás
53
7. Hivatkozások
56
8. Az értekezés alapjául szolgáló közlemények jegyzéke
62
9. Egyéb közlemények jegyzéke
62
10. Köszönetnyilvánítás
63
11. Függelék
64
11.1. Diszkrét Markov folyamatok . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
11.2. A diszkrét Markov folyamatok kiterjesztése . . . . . . . . . . . . . . . . . . .
66
11.3. A rejtett Markov modell elemei . . . . . . . . . . . . . . . . . . . . . . . . . .
67
11.4. A rejtett Markov modell három alapfeladata . . . . . . . . . . . . . . . . . . .
68
11.4.1. Az els˝o feladat megoldása . . . . . . . . . . . . . . . . . . . . . . . .
69
11.4.2. A második feladat megoldása . . . . . . . . . . . . . . . . . . . . . .
70
11.4.3. A harmadik feladat megoldása . . . . . . . . . . . . . . . . . . . . . .
71
2
ÁBRÁK JEGYZÉKE
Ábrák jegyzéke 1.
Szekvencia és térszerkezeti adatbázisok mérete . . . . . . . . . . . . . . . . .
4
2.
A transzmembrán fehérjék három alaptípusa . . . . . . . . . . . . . . . . . . .
10
3.
Bináris aminosav hasonlósági fák (I) . . . . . . . . . . . . . . . . . . . . . . .
31
4.
Bináris aminosav hasonlósági fák (II) . . . . . . . . . . . . . . . . . . . . . .
32
5.
Bináris aminosav hasonlósági fák (III) . . . . . . . . . . . . . . . . . . . . . .
33
6.
Az MRP1 és CFTR szekvenciaillesztett hidrofóbicitási görbéje . . . . . . . . .
38
7.
Az MRP alcsalád . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
8.
A transzmembránhélixek közötti szekvenciadarabok hosszúságának eloszlása .
42
9.
A transzmembrán fehérjék tipikus szerkezeti elemei . . . . . . . . . . . . . . .
43
10.
A transzmembránhélix predikcióhoz használt rejtett Markov modell architektúrája 44
11.
Els˝orend˝u diszkrét Markov modell . . . . . . . . . . . . . . . . . . . . . . . .
64
12.
A rejtett Markov modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
13.
A forward-backward algoritmus . . . . . . . . . . . . . . . . . . . . . . . . .
69
14.
A rejtett Markov modell paramétereinek újrabecslése . . . . . . . . . . . . . .
71
Táblázatok jegyzéke 1.
A PIR (34.0) adatbázis sz˝urése . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.
Transzmembránhélix topológia becsl˝o programok URL címei . . . . . . . . . .
30
3.
Az aminosavak távolság mátrixa . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.
Az aminosav hasonlósági mátrixok korrelációja . . . . . . . . . . . . . . . . .
36
5.
A transzmembránhélix predikció pontossága . . . . . . . . . . . . . . . . . . .
46
6.
Különböz˝o topológia becsl˝o eljárások pontossága . . . . . . . . . . . . . . . .
48
3
Bevezetés
1. Bevezetés Az él˝o szervezetek legérdekesebb makromolekulái a fehérjék, amelyek néhány épít˝oelemet felhasználva a legváltozatosabb szerkezeteket spontán módon képesek kialakítani. Az épít˝okövek – az aminosavak – a fehérjékben láncszer˝uen kapcsolódnak össze, és az aminosavaknak a láncban való sorrendjének megadása elegend˝o a fehérje teljes szerkezetének és m˝uködésének megadásához. Ezt az információt az él˝olények genomjában a DNS molekulák tárolják, amelyr˝ol bonyolult szabályozási rendszereken keresztül szintetizálódnak a fehérjék. A hatvanas évek elején Anfinsen – most már klasszikusnak mondható kísérletével – megmutatta, hogy a fehérjék polipeptidlánca spontán módon képes „felcsavarodni”, azaz a fehérjére jellemz˝o háromdimenziós szerkezetet kialakítani. Kutatók ezreit foglalkoztatja azóta a kérdés, hogyan megy végbe ez a folyamat, valamint, hogy az aminosav sorrend mi módon határozza meg a térszerkezetet. A fehérjék háromdimenziós szerkezetének kísérleti meghatározása lényegesen 7
10
nehezebb feladat, mint az aminosavak sor-
GENBANK (nukleotid) SWISS-PROT (fehérje) PDB (térszerkezet)
6
10
Darab
rendjének meghatározása. Ez utóbbi az automatizált DNS szekvenálás révén rutinfeladattá vált, és mostanra annyira felgyor-
5
10
4
10
sult, hogy ma már néhány alacsonyabb ren-
3
10
d˝u él˝olény teljes genomiális DNS-ének bá2
10
zissorrendje ismertté vált. A térszerkezet
1980
és az aminosav sorrend meghatározás ne-
1985
1990
1995
2000
Évek
hézsége közötti különbség eredményekép- 1. ábra. A szekvencia és térszerkezeti adatbázisokban lev˝o pen a szekvencia adatbankok mérete mesz- fehérjék számának változása az évek függvényében sze meghaladja a térszerkezeti adatokat tartalmazó adatbankok méretét, és a kett˝o különbsége évr˝ol évre exponenciálisan n˝o (1. ábra). A szekvencia adatbázisok rohamos növekedésével lehet˝oség nyílt az aminosav szekvenciák statisztikai vizsgálatára. Az els˝o statisztikai eljárások a 70-es évek közepén jelentek meg, és már ezek a vizsgálatok is utaltak arra, hogy az aminosavak nem rendezetlen, véletlen módon következnek egymás után a szekvenciában. A szekvencia és a térszerkezet közötti összefüggések feltárására több statisztikai eljárás látott napvilágot, ezek közül a legtöbb a szekvencia és a másodlagos szerkezet közötti kapcsolatot vizsgálta. Napjainkban egyre több olyan eljárást dolgoznak ki, amelyek önállóan tanulják meg a szekvenciákban rejl˝o szabályokat, és ezáltal a fehérjék egyes térszerkezeti tulajdonságait képesek predikálni1. 1
Az angol ’prediction’ szó az Országh szótár szerint jóslást, jövendölést jelent. Mivel el szeretném kerülni a magyar kifejezések okkult jelentését, ezért meghagyom predikció-nak, vagy a becslés szóval fordítom.
4
Bevezetés Az aminosav szekvenciák vizsgálata két szintet érint. Egyrészt az eredményeket az ismert szekvenciájú, de ismeretlen tulajdonságú fehérjék szerkezet predikciójához használhatjuk fel, másrészt a statisztikai vizsgálatok célja a fehérjékre általánosan jellemz˝o tulajdonságok feltárása, végs˝o soron a háromdimenziós kód megfejtése. A vizsgálatok során célszer˝u figyelembe venni a fehérje szerkezet kialakulásakor szerepet játszó, illetve a szerkezet fenntartásához szükséges kölcsönhatásokat, amelyeket alapvet˝oen két osztályba sorolhatunk: az aminosavak közötti és az aminosavak és környezetük közötti kölcsönhatásokra. Az egyes aminosavaknak a fehérjén belül valamely más aminosavval való kölcsönhatása létrejöhet a szekvenciában közeli aminosavak között (rövidtávú kölcsönhatás), vagy szekvenciálisan távoli, de térben közeli aminosavak között (hosszútávú kölcsönhatás). A dolgozat els˝o részében azt vizsgáltam, hogy a rövidtávú kölcsönhatások miatt kialakuló rendezettséget hogyan mérhetjük, illetve ennek alapján mely aminosavak cserélhet˝ok ki a szekvenciában a szerkezet megváltozása nélkül. A dolgozat következ˝o részében egy konkrét fehérje esetében, az ABC (ATP Binding Casette) transzporterek családjába tartozó MRP1 (Multidrug Resistance-associated Protein) fehérjén mutatom meg a szekvencia vizsgálatok gyakorlati életben való felhasználását, és a kísérletek tervezéséhez való fontos hozzájárulását. Ezek a vizsgálatok irányították a figyelmemet – az értekezés harmadik részében leírt – transzmembrán fehérjék szerkezetének kialakításában fontos szerepet játszó tényez˝ok kutatására, amely során a kölcsönhatások el˝obb említett második csoportja, a fehérje molekula és környezete között lev˝o kölcsönhatások kerültek el˝otérbe. A fehérje szekvenciák statisztikai vizsgálatai során ilyen kölcsönhatásokat eddig még nem vettek figyelembe. Az aminosav szekvenciákat tekinthetjük id˝obeli folyamatoknak, ahol az id˝o az aminosavaknak a fehérje N-terminálisától számított sorszámának felel meg, ezért csak diszkrét, egységnyi értékeket vehet fel, az aminosavak pedig az adott id˝oponthoz tartozó megfigyelést jelentik. Ebben az értelemben a szekvenciák sztochasztikusnak tekinthet˝ok, ezért a statisztikusok által használt sztochasztikus modellek felhasználhatók a szekvencia vizsgálatoknál. Így bevezettem a vizsgálatok során a bioinformatika területén eddig még nem használt függetlenségi divergencia használatát, valamint megmutattam, hogyan alkalmazhatjuk a szekvenciák illesztésénél és a fehérjék térszerkezetének felismerésénél használt speciális eljárást – a rejtett Markov modellt – a transzmembrán fehérjék topológiájának becslésére. A dolgozatban leírt eredmények egy része – mivel az alkalmazott matematikai eljárásokat eddig még nem használták a szekvencia vizsgálatokban – metodikai jelleg˝u. Mivel el akartam kerülni a biokémikus szemszögéb˝ol száraz statisztikai módszerek leírását az eredmények ismertetése során, ezeket az általam kifejlesztett, tehát új eredménynek tekinthet˝o eljárásokat a Módszerek cím˝u fejezetben írtam le (4.2.1., 4.2.2., 4.3.1. és 4.3.2. fejezet). A rejtett Markov modell megértéséhez és használatához szükséges általános leírás a Függelékben található. 5
Irodalmi áttekintés
2. Irodalmi áttekintés 2.1. Az aminosav szekvenciák jellemzése 2.1.1. A szekvenciák rendezettsége A természetes fehérjék aminosav szekvenciáit vizsgálva az egyik legfontosabb kérdés annak tisztázása, hogy az aminosavak a szekvenciákban véletlen sorrendben követik-e egymást, vagy valamilyen általánosan érvényes szabályok határozzák meg sorrendjüket. A fehérjék a biológiai rendszerben és in vitro körülmények között is a másodpercek törtrésze alatt képesek kialakítani háromdimenziós szerkezetüket. A feltekeredésnek (’folding’) még nem tisztázott minden részlete, annyit azonban már lehet tudni, hogy a két legfontosabb hajtóer˝o a hidrofób aminosav oldalláncok kizárása a víz számára hozzáférhet˝o térrészb˝ol, illetve a szekvenciában közel lev˝o aminosav oldalláncok közötti kölcsönhatások (Sali és mtsi., 1994; Dill és mtsi., 1995; Fersht, 1997; Baldwin és Rose, 1999a, 1999b). A feltekeredés során kialakuló globuláris szerkezetben a fehérje belsejében többnyire apoláris, hidrofób aminosav oldalláncok találhatók, a fehérje felszínén pedig a poláris, hidrofil oldalláncok. Azt is kimutatták, hogy a térszerkezetben az atomok pakoltsága, a fehérje s˝ur˝usége majdnem olyan nagy, mint egyes molekulakristályok s˝ur˝usége. Ezek alapján feltételezhet˝o, hogy a biológiai fehérjék tulajdonságaival rendelkez˝o polipeptidláncot tetsz˝oleges aminosav szekvencia nem képes biztosítani. A rendezettséget kétféleképpen jellemezhetjük. Egyrészt vizsgálhatjuk az aminosavak sorrendjét a szekvenciákban (rövidtávú kölcsönhatások), másrészt vizsgálhatjuk az aminosavak, illetve szekvenciadarabok térbeli egymás mellé kerülését a kialakult térszerkezetben (hosszútávú kölcsönhatások). Ez utóbbiban megmutatkozó rendezettséget felhasználták a cisztein aminosavak oxidációs állapotának a becsléséhez pusztán a szekvencia alapján (Fiser és mtsi., 1992), illetve a térben közel álló aminosavak egy speciális csoportját – melyek valószín˝uleg fontos szerepet játszanak a fehérjék stabilitásában –, a stabilitás centrumokat az aminosavak térbeli egymás mellé kerülésének nem véletlen jellege miatt fel lehet ismerni a szekvencia alapján (Gugolya és mtsi., 1997; Dosztányi és mtsi., 1997; Dosztányi és Simon, 1999). A szekvencia mentén való rendezettséget el˝oször a szekvenciában közel lev˝o aminosav párok vizsgálatával mutatták ki (Vonderviszt és mtsi., 1986). Az aminosavak párpreferenciáinak távolság függésének vizsgálata alapján megállapították, hogy a rendezettség mértéke a szekvenciában egymástól tíz aminosavra álló aminosavak esetén már a véletlen esetben várt értékre esik (Cserz˝o és Simon, 1989). Az információs elméletben használt entrópia segítségével szintén igazolták az aminosav szekvenciák nem véletlen jellegét (Pincus és Singer, 1996), valamint az entrópia mérésével különbséget lehetett találni a genomokban lev˝o ténylegesen fehérjét kódoló 6
Az aminosav szekvenciák jellemzése és az olyan hosszabb, stop kodont nem tartalmazó nukleotid szekvencia darabok (ORF, Open Reading Frame) között, amelyekr˝ol fehérje nem íródik át (Rani és mtsi., 1995). Az aminosavak valamilyen bináris fizikai-kémiai paramétereit felhasználva (pl. poláris-apoláris) a szekvenciában lev˝o periodicitások jól kimutathatók, és azoknak a térszerkezet különböz˝o elemeivel való korrelációját is megállapították (West és Hecht, 1995). A szekvenciákban található periodicitások vizsgálatával Rackovsky (1998) a szekvenciák nem véletlen jellegén túlmen˝oen kapcsolatot tudott kimutatni a periodicitás és a térszerkezet szimmetriája között. 2.1.2. Hasonlósági mátrixok Az aminosav szekvenciák összehasonlítása a molekuláris biológia egyik alap-, és igen általánosan elterjedt feladata. Szükség van erre egy új fehérje szekvenciájának meghatározása után a szekvenciálisan rokon fehérjék adatbázisokban való keresésénél, és ezzel az új fehérje funkciójának és szerkezetének felderítésénél, továbbá a szekvenciák rendszerezésénél, a fehérjék családokba való sorolásánál, stb. A szekvencia összehasonlítás alapfeladata a szekvenciák illesztése (’alignment’), amely eljárást a 2.3.1. fejezetben részletesen ismertetek. Az eljárás lényege az, hogy ha definiáljuk az aminosavak egymással való kicserél˝odésének mértékét, más szóval az aminosavak hasonlóságát vagy távolságát (’score matrix’), akkor a szekvenciákat úgy illesztjük össze, hogy az aminosav hasonlóságok összege az összerendezett szekvenciák mentén maximális legyen (Needleman és Wunsch, 1970). Nagy hasonlóságot mutató szekvenciák esetén (>80%) majdnem mindegy, hogy az aminosavak hasonlóságát hogyan definiáljuk. Alacsonyabb szekvenciális hasonlóság esetében azonban az illesztés nagymértékben függ az alkalmazott hasonlósági mátrixtól (Risler és mtsi., 1988). Az egyes illesztések pontosságát ismert térszerkezet˝u fehérjék esetében tudjuk ellen˝orizni. A fehérjék térszerkezetét egymásra illesztve úgy, hogy a megfelel˝o atomok térbeli koordinátái távolságának négyzetösszege (’rms value: root mean square’) minimális legyen (Greer, 1981), pontosan megmondható, hogy a szekvencia illesztésben melyik aminosavnak melyik felel meg. Az elmúlt harminc év alatt több tucat aminosav hasonlósági mátrixot állítottak el˝o. Ezeket alapvet˝oen három csoportba sorolhatjuk: (i) szekvenciális hasonlóságot mutató fehérjék illesztésén alapuló hasonlósági mátrixok, (ii) térszerkezeti hasonlóságot mutató fehérjék vizsgálatából adódó mátrixok, (iii) az aminosavak fizikai kémiai tulajdonságainak összevetésén alapuló hasonlósági mátrixok. Az els˝o aminosav hasonlósági mátrix az aminosavak genetikai kódjainak távolságán alapult (Fitch, 1966; Fitch és Margoliash, 1967), amelyben két aminosav hasonlóságát az egyik aminosav kodonjának a másik aminosav kodonjára való cseréhez szükséges minimális nukleotid mutációk számával mérték. Ez azonban helytelen következtetésekre vezethet, hiszen a konkrét fehérjékben bekövetkezett mutációk hatása a fehérje m˝uködésének megvál7
Az aminosav szekvenciák jellemzése tozásában jelentkezik, és nem a DNS-ben. Éppen ezért ezt a fajta hasonlósági mátrixot csak közeli rokon szekvenciák esetében használhatjuk biztonsággal. Dayhoff és mtsi. (1968) alkalmazták el˝oször a szekvenciálisan hasonló aminosavak illesztésén alapuló eljárást az aminosav rokonságok megállapítására. Az általuk javasolt PAM mátrix(ok) (’PAM: accepted point mutation’) (Dayhoff és mtsi., 1968, 1978) használata teljesen általánossá vált a szekvencia analízissel foglalkozók körében. Eljárásuk lényege az, hogy a nagy hasonlóságot mutató szekvenciák összerendezése után a szekvencia illesztés egy-egy pontjában lev˝o aminosavak kicserél˝odését számolják, majd ezeket az értékeket egy els˝orend˝u Markov folyamatot feltételezve extrapolálják a kisebb hasonlóság esetén várt értékekre (nagyobb evolúciós távolságra). Az extrapoláció jogosságát számosan megkérd˝ojelezték (Risler és mtsi., 1988; George és mtsi., 1990). Ennek az eljárásnak – és általában a szekvencia illesztésen alapuló eljárásoknak – a másik hibája, hogy a statisztikához használt szekvenciaillesztés önmaga determinálja, hogy melyik aminosav melyikkel lesz hasonló. További hátránya, hogy a térszerkezetileg nem releváns pozíciókban lev˝o és a szerkezet konzervativitásában fontos szerepet játszó aminosavcseréket ugyanolyan súllyal veszi figyelembe (Risler és mtsi., 1988). A PAM mátrixokat 71 fehérjecsaládban megfi-
gyelt 1572 aminosavcsere alapján számolták, amely számolást 1992-ben ismételtek meg a teljes Swiss-Prot adatbázist használva, több mint 23000 fehérje szekvenciáját figyelembe véve (Bairoch és Boeckmann, 1991; Jones és mtsi., 1992).
Az ismert térszerkezet˝u fehérjék vizsgálata alapján már a hatvanas évek közepén felvetették, hogy a térszerkezet konzervatívabb, mint az aminosav szekvencia, azaz egymással nagyon kis szekvenciális hasonlóságot mutató fehérjéknek (25
30%) nagyon gyakran ugyanaz a térszer-
kezete (Perutz és mtsi., 1965). Ezt a feltevést a kés˝obbi megfigyelések alátámasztották, és mára teljesen elfogadottá vált. A térszerkezeti adatok birtokában tehát a kis szekvenciális hasonlóságot mutató rokon szekvenciákban vizsgálhatjuk az aminosavak kicserél˝odésének mértékét. McLachan (1971) készített el˝oször térszerkezeti adatokon nyugvó kicserél˝odési mátrixot, vizsgálata 16 fehérjecsalád elemzésén alapult. Risler és mtsi. (1988) 32 fehérje térszerkezetének illesztése után vizsgálta az aminosavak kicserél˝odését, de csak azokban a pozíciókban, amely aminosavak
C atomjainak távolsága az illesztésben 1:2 Å-nál közelebb volt. Így a fehérjék
felszíni hurkaiban lev˝o – a szerkezet stabilitásában és fenntartásában nem releváns – aminosavcseréket nem vették figyelembe a hasonlóságok megállapításánál. Az aminosavak fizikai-kémiai paramétereit felhasználva készített mutációs mátrixok nagyobb hasonlóságott mutattak a Dayhoff féle PAM mátrixokkal, mint a genetikai pontmutációs mátrixok (Grantham, 1974). Az immunoglobulinok hipervariábilis szakaszainak és az abnormális hemoglobinok vizsgálatával azt is sikerült kimutatni, hogy a fizikai-kémiai paraméterek konzervativitása csak azokban a pozíciókban várható, amelyek a szerkezet fenntartásáért felel˝o8
Transzmembrán fehérjék sek (Miyata és mtsi., 1979). Az irodalomban számos hasonlósági mátrixot találunk, amelyek az alkalmazott fizikai-kémiai paraméterekben különböznek egymástól, illetve abban, hogy ezekb˝ol az adatokból hogyan származtatták a hasonlóságokat. A leggyakrabban használt paraméterek a következ˝ok: az aminosavak polaritása, mérete, hidrofóbicitása, másodlagos szerkezet képz˝o potenciálja (Grantham, 1974; Miyata és mtsi., 1979; Pongor, 1987; Rao, 1987). Ezeken a módszereken kívül számos egyedi eljárás is napvilágot látott. Levin és mtsi. (1986) a másodlagos szerkezeti elemek predikciójához fejlesztett ki egy mátrixot, amellyel a predikció hatékonyságát sikerült 60% fölé vinni. Az egymással nagy hasonlóságot mutató szekvencia blokkok felhasználásával (Henikoff és Henikoff, 1992), illetve szekvencia és térszerkezeti adatok vegyes alkalmazásával (Henikoff és Henikoff, 1993) is készítettek hasonlósági mátrixokat, amelyek közül az utóbbi szintén az egyik leggyakrabban alkalmazott hasonlósági mátrix. Tüd˝os és mtsi. (1990) el˝oször használtak teljes adatbázist felhasználó, nem szekvencia illesztésen alapuló eljárást a hasonlóságok megállapítására.
2.2. Transzmembrán fehérjék 2.2.1. Az integráns membránfehérjék általános felépítése Az egyes sejtek és a sejteken belül az egyes térrészek féligátereszt˝o hártyával vannak körülvéve, amelyek biztosítják a környezett˝ol való elválasztást. A kett˝os lipidrétegen kisebb apoláris molekulák könnyen átjutnak diffúzióval, de a membrán az ionok és nagyobb molekulák számára átjárhatatlan. A nagyobb molekulák transzportja, illetve diffúziója csak segítséggel mehet végbe, a kett˝os lipidrétegbe ágyazott fehérjemolekulák révén. Az integráns membránfehérjék felel˝osek a legtöbb vegyület transzportjáért, a sejtek közötti komunikációért, az immunrendszer helyes m˝uködéséért, az ideg-ideg és ideg-izom kapcsolatok kialakításáért, a szervezet számára káros anyagok sejtekb˝ol való szelektív kipumpálásáért. A membránfehérjék polipeptidlánca a membránon egyszer, vagy többször f˝uz˝odik át. A membránon áthaladó rész mindig rendezett, vagy -hélix szerkezet˝u, vagy -szál. Ennek az a magyarázata, hogy az apoláris kett˝os lipidrétegben a szabad hidrogénhíd akceptor és donor atomok jelenléte kedvez˝otlen, és a peptidgerinc amino- (donor) és karboxil- (akceptor) csoportja folytonosan csak akkor lekötött, ha szerkezete -hélix, vagy ha több -szál alkot egy -hordót (2. ábra). Az utóbbi esetben a membránba való beépülés el˝ott a teljes hordónak össze kell szerel˝odnie, míg az -hélixek esetében az egyes hélixek egyesével is beépülhetnek a membránba (Booth és Curran, 1999). Ez lehet az oka annak, hogy az integráns memránfehérjék túlnyomó többségében a membránt átszel˝o szakasz -hélix szerkezet˝u, míg a -hordó csak néhány bakteriális fehérjére, a baktériumok sejtfalában lev˝o porinokra jellemz˝o. 9
Transzmembrán fehérjék
Külso˝ oldal
A
B
C
Belso˝ oldal 2. ábra. A transzmembrán fehérjék három alaptípusa. A, -hordó; B, rendezetlen -csokor; C, -hélixek gy˝ur˝u alakú elrendezésben A membránok átlagos vastagsága 60-70Å, amit 17-25 aminosavból álló 5-7 menet˝u -hélix ér át. Bár alig néhány transzmembrán fehérje szerkezete ismert atomi felbontásban, azokban a transzmembránhélixek többnyire a membrán síkjára mer˝olegesen helyezkednek el. A receptor molekulákban a membránhélixek szorosan pakoltak, míg a csatorna és transzporter fehérjékben gy˝ur˝ut alkotnak (2. ábra). Érdemes megjegyezni, hogy amíg a prolin a globuláris fehérjékben lev˝o -hélixben szinte egyáltalán nem fordul el˝o, addig számos transzmembrán -hélix közepén megtalálható és ezen a helyen konzervativitása is nagyobb, mint a globuláris fehérjékben (von Heijne, 1991; Woolfson és mtsi., 1991; Jones és mtsi., 1994a; Jacob és mtsi., 1999). Az ionokat, poláris vegyületeket transzportáló és átereszt˝o fehérjék bels˝o részének polárisnak kell lennie, ami a prolin beépítésével oldható meg úgy, hogy a csatorna bels˝o átmér˝oje a legkisebb mértékben csökkenjen, ugyanakkor poláris legyen. A prolin aminocsoportja ugyanis nem képes hidrogénhíd kötésre, így a szekvenciában négy aminosavval el˝orébb lev˝o aminosav gerinc karbonilcsoportja szabad marad, és ez biztosítja a csatorna polaritását. A szerin és treonin szintén gyakrabban fordul el˝o a transzmembránhélixekben, mint a globuláris fehérjék -hélixeiben, ami a kialakuló speciális hidrogénhíd szerkezettel magyarázható. Ezeknek az aminosavaknak az oldallánca -hélix szerkezetben ugyanis visszahajlik a peptidgerincre, egy nem szabályos, három centrumú hidrogénhíd kötést alakítva ki (Gray és Matthews, 1984). 10
Transzmembrán fehérjék A membránok minden tekintetben aszimmetrikusak. Különbözik az ionok, a kis molekulák, valamint a fehérjék koncentrációja a membrán két oldalán, aminek eredményeképpen potenciálkülönbség alakul ki az elválasztott térrészek között. Ugyancsak eltér a membránt alkotó kett˝os lipidréteg összetétele a membrán küls˝o és bels˝o rétege között (Bergelson és Barsukov, 1977; Rothman és Lenard, 1977). A plazmamembránban lev˝o fehérjék extracelluláris tér felé lev˝o részeken glikozilálódhatnak megfelel˝o szekvenciális környezetben lev˝o szerin és aszparagin oldalláncokon. 2.2.2. Transzmembránhélix predikciók Az apoláris lipidréteggel kölcsönható aminosav oldalláncok nagy részének szintén apolárisnak kell lennie, és így a szekvencia alapján a membránt átszel˝o peptidszakaszok megkereshet˝ok a szekvencia mentén az aminosavak valamilyen átlagos hidrofóbicitásának meghatározásával. Ezen az elven alapultak az els˝o transzmembránhélix predikciók (Kyte és Doolittle, 1982; Eisenberg és mtsi., 1984; Engelman és mtsi., 1986; Cornette és mtsi., 1987; Esposti és mtsi., 1990; Ponnuswamy és Gromiha, 1993; Gromiha és Ponnuswamy, 1995), amelyek egymástól abban térnek el, hogyan határozták meg az aminosavak hidrofóbicitását és azt hogyan átlagolták a szekvencia mentén. Az aminosavak hidrofóbicitása közvetlenül nem mérhet˝o, és az a környezett˝ol is függ (Ponnuswamy és Gromiha, 1993). Az oldalláncok hidrofóbicitásának meghatározására a következ˝o eljárásokat dolgozták ki: (i) az aminosavak oktanol és víz közötti egyensúlya alapján a Gibbs-féle szabadentalpia változás meghatározásával (Kyte és Doolittle, 1982; Eisenberg és mtsi., 1984), (ii) az egyes atomcsoportok számított hidrofób és hidrofil kölcsönhatásainak különbségéb˝ol, szintén az oktanolt és vizet tekintve oldószerként (Engelman és mtsi., 1986), (iii) a globuláris fehérjék belsejében található adott aminosav környezetében lev˝o aminosavak átlagos hidrofóbicitása alapján (Ponnuswamy és Gromiha, 1993), illetve (iv) a bizonyított transzmembrán -hélixek statisztikai vizsgálatával, az aminosavak gyakoriságának meghatározásával az -hélixekben, illetve a teljes fehérjében (Esposti és mtsi., 1990). Egyes hidrofóbicitási skáláknak a predikciókban való pontossága azonban nemcsak a skálától függ, hanem a becsült fehérjét˝ol is. Egyes skálák például a nem csatorna tipusú fehérjék szerkezetét nagy pontossággal képesek becsülni, ugyanakkor aktív transzporter fehérjék szerkezetét sokkal pontatlanabbul, más skálák pedig fordítva (Esposti és mtsi., 1990; Crimi és Esposti, 1991). Ez azt jelenti, hogy a transzmembrán fehérjéket nem lehet egységesen kezelni, egy adott hidrofóbicitási skálával vagy paraméter készlettel leírni, azokban különböz˝o tulajdonságú -hélixek találhatók. Az egyes predikciós eljárások abban is különböznek, hogy a hidrofóbicitásokat hogyan (pl. súlyozott-súlyozatlan átlag) és mekkora szekvenciadarab alapján átlagolják, hol húzzák meg azt a határértéket, ami alapján különbséget tesznek a transzmembrán és a nem 11
Transzmembrán fehérjék transzmembrán szakaszok között. A hidrofóbicitási görbék vizsgálatán nyugvó predikciók hátránya, hogy a globuláris fehérjék bels˝o apoláris részeit nem tudják megkülönböztetni az apoláris transzmembrán szakaszoktól, és ezért túlbecsülik a transzmembrán szakaszok jelenlétét, valamint csak a membránt átszel˝o régiók aminosav összetételét vizsgálják, és így nem használják ki a szekvencia más részeiben rejl˝o információt. A predikciók pontossága e két hiányosság figyelembevételével javítható volt. Egyrészt a hidrofóbicitási momentum bevezetésével különbséget lehet tenni a globuláris amfipatikus -hélixek és a transzmembránhélixek között (Eisenberg és mtsi., 1984), másrészt felhasználták azt a megfigyelést, hogy az aszimmetrikus lipideloszlás eredményeképpen a transzmembrán hélixek közötti rövidebb citoszolikus hurkokban általában több pozitívan töltött aminosav található, mint az extra-citoszolikus hurkokban (belül-pozitív szabály, ’positive-inside rule’) (Sipos és von Heijne, 1993; van Klompenburg és mtsi., 1997). A predikciók pontosságának további növelése az egyre több bizonyított topológiájú transzmembrán fehérje statisztikai vizsgálatával volt elérhet˝o. Jones és mtsi. (1994b) mutatták meg el˝oször, hogy nemcsak a pozitívan töltött aminosavak gyakorisága tér el a membrán két oldalán lev˝o hurkokban, hanem mind a 20 aminosav gyakoriságában látható különbség, Sipos és von Heijne (1993) pedig kimutatták, hogy a transzmembrán régión belüli szakaszokon is változik az egyes aminosavak gyakorisága, az apoláris aminosavak közül az apoláris aromás aminosavak gyakoribbak a lipidréteg széleinél, míg az alifás oldalláncú aminosavak a membrán közepe felé gyakoriabbak. A transzmembrán fehérjék szekvenciáit ezeknek a térrészeknek megfelel˝oen öt részre bontva, Jones és mtsi. (1994b) olyan predikciós eljárást dolgoztak ki (az eljárásuk neve MEMSAT), amelyben az egyes térrészeknek megfelel˝o aminosav gyakoriságokat maximalizálták egy dinamikus programozási eljárás segítségével. A predikció pontossága felülmúlta a hidrofóbicitási profil analízisen alapuló predikciók pontosságát. A predikció során felhasznált információ mennyiségének hatása a pontosságra jól látható Persson és Argos (1994) munkáján, akik csak két térszerkezeti részt különböztettek meg (transzmembránhélixek közepe és széle), viszont nem egy fehérje szekvenciája alapján végezték a becslést, hanem többszörösen illesztett rokon szekvenciák felhasználásával. Az általuk készített predikció pontossága összemérhet˝o volt a MEMSAT eljárás pontosságával. Szintén többszörösen illesztett szekvenciákat használ Rost és mtsi. (1996) által kidolgozott mesterséges idegháló (’artificial neural network’) szimuláción alapuló becsl˝o eljárás, amelynek hatékonysága az irodalomban az addigi legjobb volt. Ezeken az eljárásokon kívül számos más transzmembrán szegmenseket és topológiát becsl˝o eljárás látott napvilágot, melyek közül Cserz˝o és mtsi. (1994,1997) által készített eljárást érdemes kiemelni. Az általuk készített speciális pont-mátrixok segítségével ugyanis több olyan fehérje szerkezetét sikerült pontosan becsülni, amelyeket korábban nem tudtak helyesen predi12
Transzmembrán fehérjék kálni. Eljárásuk lényege, hogy az aminosavak párpreferenciái alapján képzett mutációs mátrixokat használva két szekvencia illesztésénél, az illesztéshez készült pont-mátrixok s˝ur˝usége a transzmembránhélixek helyén sokkal nagyobb, mint a szekvencia többi részén, még akkor is, ha szekvenciálisan nem hasonló transzmembrán fehérjék szekvenciáit hasonlítják össze. Ezt az eredményt azzal magyarázhatjuk, hogy bár a transzmembránhélixek esetében a szekvencia konzervativitása általában nagyon alacsony, a hélixek aminosav összetétele azonban konzervatív. A predikciós eljárásokkal kapcsolatban fontos megjegyezni két dolgot. Az egyik, hogy nem áll rendelkezésünkre olyan adatbázis, amelyben a transzmembránhélixek pontos elhelyezkedése a szekvencián belül helyesen, megbízható kísérleti adatokra támaszkodva lenne megadva. A Swiss-Prot szekvencia adatbázis ugyan tartalmazza a transzmembrán fehérjék topológiáját meghatározó adatokat, azonban nagyon sok esetben helytelenül. Ennek az az oka, hogy a fehérjék szekvenciájának meghatározásakor végzett els˝o szekvencia vizsgálatok eredményeit sokszor kísérleti tényként fogadják el. Így például az emberi MRP1 fehérje (lásd következ˝o fejezet) esetében a hidrofóbicitási görbe analízisén alapuló predikció eredménye került az adatbázisba, amelyet egyetlen kísérleti adattal sem támasztottak alá a szerz˝ok. Sajnos, ezeket a hibákat kés˝obb sem javítják ki, így az adatbázisban a hibák egyre halmozottabban vannak jelen. A másik oka az adatok pontatlanságának, hogy a membránt átszel˝o szakaszok kísérletesen nehezen tanulmányozhatók. Ezeket röntgendiffrakció segítségével határozhatjuk meg pontosan, azonban a membránfehérjék kristályosítása szinte lehetetlen feladat, és emiatt nagyon kevés (kb. 10) membrán fehérje szerkezete ismert atomi felbontásban. Molekuláris biológiai eszközöket felhasználva (fúziós fehérjék készítése, epitóp inzerció, glikozilációs helyek beépítése...) a kapott eredmények sokszor ellentmondóak, nehezen értelmezhet˝ok, és csak indirekt bizonyítékokat szolgáltatnak. Például egy vizsgált fehérje szekvenciájába beépített epitóp segítségével csak azt mondhatjuk meg, hogy a kérdéses szakasz a sejten kívül helyezkedik-e el vagy belül, s nem a membránt átszel˝o rész pontos határait. 2.2.3. Az ABC transzporter család és az MRP rokon fehérjék A transzmembrán fehérjék csatorna típusú transzporterek csoportjába tartoznak az ABC (ATP Binding Casette) transzporter család fehérjéi, amelyek a prokarióta egysejt˝uekt˝ol az éleszt˝okön át az emberig szinte valamennyi fajban megtalálhatók (Higgins, 1992). Ebbe a családba számos, az orvostudomány számára fontos fehérje tartozik, mint például a cisztikus fibrózis transzmembrán regulátor (CFTR), amelynek mutációja okozza a cisztikus fibrózist (Riordan és mtsi., 1989), az antigének prezentációjában szerepet játszó peptid transzporterek, a TAP-ok (Spies és mtsi., 1990), valamint a rákos betegek kemoterápiájának kudarcát okozó fehérjék, a multidrog rezisztencia fehérje (MDR1) és a multidrog rezisztenciához társuló fehérje (MRP1) 13
Transzmembrán fehérjék (Chen és mtsi., 1986; Cole és mtsi., 1992). Valamennyi, e családba tartozó fehérje az ATP hidrolízisekor felszabaduló energiát használja a transzport energiaigényének fedezésére. Az eukarióta ABC transzporterek többsége két homológ molekulafélb˝ol áll, amelyek egy transzmembrándomént és egy nukleotid köt˝o domént tartalmaznak. A két transzmembrándomén valószín˝uleg együtt alakítja ki a transzport funkció biztosításához szükséges csatornát, míg a két nukleotid domén az ATP hidrolízisét végzi. Az ATP kötésében és hidrolízisében szerepet játszó Walker A és B szekvencia motívumok (Walker és mtsi., 1982), valamint az ATP hidrolízisét a transzporttal összeköt˝o konformációs változásokban résztvev˝o, un. ’ABC signature’ régió valamennyi ABC transzporter fehérje nukleotid köt˝o doménjében megtalálható. Az egyes fehérjéket ez utóbbi szekvencia motívum megléte alapján sorolják az ABC családba (Shyamala és mtsi., 1991; Croop, 1993). A kilencvenes évek közepéig számos ABC transzporter topológiáját vizsgálták, és ezek legtöbbje azt mutatta, hogy a két transzmembrándoménban 6-6 transzmembránhélix található. Ezt a topológiát a maltóz és az oligopeptid bakteriális permeázok estében alkalikus foszfatázzal és -laktamázzal fuzionált fehérjék vizsgálatával támasztották alá (Pearce és mtsi., 1992; Dassa és Muir, 1993), az egér MDR3 esetében a beépített epitópok lokalizációját határozták meg (Kast és mtsi., 1995, 1996), a humán CFTR szekvenciájába glikolizációs helyek inszerciójával, és a képz˝odött fehérje glikoziláltsága alapján határozták meg a topológiát (Chang és mtsi., 1994). A humán MDR1 vizsgálatánál olyan funkcióját meg˝orzött fehérjét állítottak el˝o, amely nem tartalmazott ciszteint, majd ezen a cisztein nélküli fehérjén egyesével számos aminosavat ciszteinre cseréltek, és a ciszteinek lokalizációját membránpermeábilis és impermeábilis tiol reagensek segítségével határozták meg (Loo és Clarke, 1995). Az MRP1 szekvenciájának meghatározását követ˝oen több olyan fehérjét találtak, amelyek szekvenciájuk alapján a MRP1-hez álltak legközelebb az ABC családon belül. Ezek között található a májsejtek apikális membránjában elhelyezked˝o kanalikuláris multispecifikus organikus anion transzporter (cMOAT, vagy MRP2), aminek hibás müködése okozza a Dubin-Johnson szindrómát, a krónikus konjugált hiperbilirubinémiát (Jansen és mtsi., 1995; Paulusma és mtsi., 1996), a szulfonilurea receptor (SUR1, SUR2), amely az ATP függ˝o K + csatornák reguláló alegysége és defektusa a csatorna inaktiválódása folytán krónikus inzulin szekrécióhoz vezet (hiperinzulinémiás hipoglikémia) (Aguilar-Bryan és mtsi., 1995; Inagaki és mtsi., 1996; Bryan és Aguilar-Bryan, 1997). Az emberen kívül számos más fajban is meghatároztak az MRP1-hez hasonló fehérjéket. Nyúlban és patkányban az MRP2-vel megegyez˝o fehérjét írtak le (van Kuijck és mtsi., 1996), Caenorhabditis elegans-ban 4 MRP1 rokon szekvenciát találtak (Wilson és mtsi., 1994; Broeks és mtsi., 1996), az éleszt˝o genom szekvenálásakor a már korábban megismert YCF1 (yeast cadmium resistance protein) (Szczypka és mtsi., 1994) mellett további 4 MRP1 rokon szekvenciát határoztak meg (Decottignies és Goffeau, 1996). MRP1-hez hasonló 14
Statisztikai eljárások a fehérje kutatásban szekvenciájú fehérjét találtak növényekben is (Arabidobsis thaliana) (Lu és mtsi., 1997; Marin és mtsi., 1998), ami mutatja a fehérje igen széleskör˝u elterjedését az él˝ovilágban. Az eddig vizsgálatok alapján az MRP1 rokon fehérjék képesek organikus anionokat transzportálni, vagy valamilyen anionos vegyülettel kölcsönhatni. Az MRP1 a hidrofób rákellenes gyógyszereket glutationnal kotranszportálva távolítja el a sejtekb˝ol (Leier és mtsi., 1994), az MRP2 a konjugált epesók transzportjában vesz részt (Jedlitschky és mtsi., 1997), az YCF1 fehérje a kadmiumot glutation konjugátum formában transzportálja (Li és mtsi., 1996). Ezek alapján várható, hogy valamennyi MRP1 rokon fehérje szerkezete hasonló.
2.3. Statisztikai eljárások a fehérje kutatásban 2.3.1. Dinamikus programozási eljárások Az aminosav szekvenciák vizsgálatánál legelterjedtebben használt eljárások alapja az un. dinamikus programozási eljárás. A dinamikus programozás akkor használható, ha az adott probléma rekurzív módon felbontható kett˝o vagy több kisebb feladatra. Például, ha meg kell mondanunk, hogy A városból B városba hogyan juthatunk el a legrövidebb úton, akkor a feladat dinamikus programozáson alapuló megoldása, hogy ha C és D városok A és B között találhatók, hogy megkeressük a legrövidebb A-ból C-be és C-b˝ol B-be men˝o utat, valamint a legrövidebb A-ból D-be és D-b˝ol B-be vezet˝o utat, és e kett˝o lehetséges út közül a kiválasztjuk a rövidebbet. A szekvenciák globális illesztéséhez (’alignment’) Needleman és Wunch (1970) használt el˝oször dinamikus programozáson alapuló eljárást, amit Smith és Waterman (1981) módosított a lokális hasonlóságok kimutatására. Az illesztés készítése során el˝oször az aminosavak közötti hasonlóságokat (’score’) kell megadni, amely lehet az egység mátrix, vagy a 2.1.2. fejezetben leírt hasonlósági mátrixok valamelyike. Az illesztés lényege, hogy a két szekvenciát úgy rendezzük egymáshoz, hogy az azonos pozícióban lev˝o aminosavak hasonlóságainak összege maximális legyen. Mivel ez a feladat a lehetséges összerendezések csillagászati száma miatt nem oldható meg direkt kereséssel, ezért szükséges a dinamikus programozási eljárás alkalmazása. Mindkét algoritmus lényege, hogy a feladatot rekurzív módon visszavezeti egyre kisebb feladatokra, és azoknak megoldása után oldja meg a nagyobb feladatot. Tehát, ha az N és M
hosszúságú szekvenciákban lev˝o 1 : : : n-ig és 1 : : : m-ig tartó részszekvenciák maximális pont-
1 : : : n + 1-ig és 1 : : : m + 1-ig tartó részszekvenciák összerendezéséhez az 1 : : : n, 1 : : : m; az 1 : : : x, 1 : : : m (1 x < n) és az 1 : : : n, 1 : : : y (1 y < m) esetek közül kell kiválasztani a legnagyobb pontszámot adó számot adó összerendezését ismerjük, akkor ennek alapján az
összerendezést. A gyakorlati kivitelezés során ezt úgy oldják meg, hogy egy N M -es mátrixot töltenek fel a maximálist pontszámot adó összerendezés értékeivel (tehát a mátrix i; j eleme az 15
Statisztikai eljárások a fehérje kutatásban
1 : : : i, 1 : : : j részszekvenciák összerendezése során kapható maximális pontszámmal egyenl˝o), majd ezen a mátrixon visszafele lépegetve megadható a két szekvencia összerendezése. Több szekvencia esetében ezt a feladatot ilyen módon nem tudjuk megoldani, mert az illesztés során használt mátrix mérete meghaladja a mai számítógépek kapacitását (ha a szekvenciák száma m és átlagos hosszuk N , akkor egy N m elem˝u mátrix szükséges). Emiatt a többszörös szekvenciaillesztésekre többféle heurisztikus módszert dolgoztak ki, melyek általában a szekvenciák párosával való összehasonlításán alapulnak (Feng és Doolittle, 1987; Barton, 1994; Higgins, 1994; Wishart és mtsi., 1994). A dinamikus programozási eljárások másik nagy alkalmazási területe a szekvenciák vizsgálata során a rejtett Markov modell használata, amelyben a modellnek a megfigyelési sorozathoz való illesztésénél alkalmazott Baum-Welch algoritmus, illetve a legjobb állapot sorozat megkereséséhez használt eljárás, a Viterbi algoritmus alkalmazza ezt a programozási eljárást (Rabiner, 1989). A rejtett Markov modell alkalmazásait a következ˝o fejezetben írom le, az eljárás matematikai részleteit a Módszerek-ben (4.3.1. fejezet), illetve a Függelékben ismertetem. 2.3.2. Rejtett Markov eljárások A sztochasztikus modellek alkalmazása a bioinformatika területén az elmúlt néhány évben ugrásszer˝uen n˝ott meg. Az egyik els˝o modellt Churchill (1989) írta le, amelyben a különböz˝o mitokondriális és kromoszómális DNS szekvenciák és fragmentek nagy változásokat mutató nukleotid összetételét modellezte rejtett Markov modell segítségével. Rejtett Markov modellt szekvencia motívumok felismerésére el˝oször DNS-ben lev˝o fehérjeköt˝o régiók, promóter helyek felismerésére dolgoztak ki. Mivel ezekben a régiókban a nukleotidok alig néhány pozícióban konzerváltak, valamint a konzervált pozíciók egymástól és az RNS szintézis indító helyét˝ol való távolsága variábilis, a feladat megoldására különösen alkalmas a rejtett Markov modell, amelyben az EM (’Expectation-Maximization’, vagy ’Expectation-Modification’) algoritmus segítségével a nem ismert távolságok és nukleotid eloszlások ismert szekvenciák segítségével megtaníthatók (Lawrence és Reilly, 1990; Cardon és Stormo, 1992). A szekvencia illesztésekre és motívumok felismerésére a modell egy speciálisan erre a célra kidolgozott architektúra révén vált alkalmassá (Baldi és mtsi., 1994; Krogh és mtsi., 1994a). Az eljárás két nagy el˝onye a hagyományos szekvencia illesztésekkel szemben, hogy számítási igénye a szekvenciák számával nem exponenciálisan, hanem csak lineárisan n˝o, valamint, hogy az aminosavak közötti hasonlóságokat nem kell el˝ore megadni, s˝ot az eljárás képes az adott fehérje családra jellemz˝o kicserél˝odések között a szekvencia különböz˝o pontjain különbséget tenni, és ezáltal a térszerkezet szempontjából fontos és nem fontos szekvenciadarabokat megkülönböztetni. A tanítás során kapott modellt – a szekvencia profil eljárásokkal hasonló módon – felhasználhatjuk az 16
Statisztikai eljárások a fehérje kutatásban adatbázisokban lev˝o homológ szekvenciák keresésére (Hughey és Krogh, 1996), amely eljárás pontosságát a nagyon alacsony szekvenciális hasonlóságot mutató, de rokon fehérjék felismerését a Dirichlet keverék alkalmazásával tovább lehetett fokozni (Sjölander és mtsi., 1996). A rejtett Markov modell eljárások másik nagy alkalmazási területe a gének lokalizálása a genomokban. Ehhez olyan architektúrájú modellt készítettek, amely a kódoló régiók felismerése mellett figyelembe veszi az adott él˝olény kodon használatát, egyes szekvenálási hibákat automatikusan ki tud javítani (pl. frameshift-et okozó nukleotid inzerciót vagy deléciót), valamint különbséget tud tenni a rövidebb és hosszabb intergenikus régiók között, és számos intergenikus repetitív szekvenciát képes felismerni (Krogh és mtsi., 1994b; Borodovsky és mtsi., 1995; Lukashin és Borodovsky, 1998). A szekvencia illesztésekhez használt modell segítségével nemcsak az egyes szekvencia motívumokat ismerhetjük fel, hanem a fehérjék másodlagos szerkezeti osztályokba való besorolását is elvégezhetjük (Francesco és mtsi., 1997). Ezekben a modellekben a rejtett állapotokhoz nem rendeltek valamilyen konkrét megfigyelhet˝o fizikai tulajdonságot, míg a génfelismeréshez használt modellben a rejtett állapotokhoz hozzárendelhetjük pl. a kódoló vagy nem kódoló régiókat. A rejtett állapotokhoz az egyes másodlagos térszerkezeti elemeket rendelve és a megfelel˝o architektúrát kialakítva olyan eljárásokat is kidolgoztak, amelyek a fehérjék másodlagos szerkezetét becsülték (Stultz és mtsi., 1993; White és mtsi., 1993). A becslés pontossága alacsonyabb volt a már ismert másodlagos szerkezet becsl˝o eljárások pontosságánál, de megmutatták a rejtett Markov modellnek egy általánosabb használatát. A rejtett Markov modell szerkezete, architektúrája (a rejtett állapotok száma és a közöttük lev˝o lehetséges átmenetek) szinte tetsz˝oleges lehet, és emiatt a legkülönbözöbb biológiai problémák leírására alkalmazható az architektúra megfelel˝o megválasztásával.
17
Célkit˝uzések
3. Célkituzések ˝ Az aminosav szekvenciák vizsgálata, a rokon fehérjék családokba sorolása szekvencia illesztések segítségével történik. Az illesztéshez definiálni kell az aminosavak közötti hasonlóságok mértékét, amelyet vagy a rokon szekvenciák statisztikai analízisével határoznak meg, vagy az aminosavak fizikai-kémiai tulajdonságai alapján, vagy az ismert térszerkezet˝u fehérjék vizsgálata alapján. Az els˝o esetben az illesztésnél használt hasonlósági mátrix determinálja a készítend˝o hasonlósági mátrixot. Ezt a hibát úgy próbálják kiküszöbölni, hogy csak nagy szekvenciális hasonlóságot mutató fehérjék szekvenciáit illesztik az identitás mátrixot felhasználva, ekkor azonban a kisebb hasonlóságokra való extrapoláció kérd˝ojelezhet˝o meg. A fizikai-kémiai paraméterek használata során nem tudjuk, hogy a fehérje térszerkezetének stabilitásához az egyes tulajdonságok milyen mértékben járulnak hozzá, míg a térszerkezeti adatok használatakor a vizsgálatok nagyon kis számú minta statisztikáján alapulnak, és ezért kevésbé megbízhatók.
Ezen okok miatt célul t˝uztem ki az aminosavak közötti hasonlóságok meghatározására egy olyan eljárás kidolgozását, amely nagyszámú szekvencia adaton nyugszik, ugyanakkor mentes a szekvencia illesztésekb˝ol fakadó tautológiától, és képes meghatározni az aminosavaknak a fehérjeszerkezet építése és fenntartása szempontjából fontos tulajdonságait.
Intézetünk Aktív Transzporter Fehérje kutatócsoportja, illetve az Országos Haematológiai és Immunológiai Intézet Membrán kutatócsoportja két olyan fehérjének a kutatásában vesz részt, amelyek az esetek nagy többségében a daganatos megbetegedések kemoterápiás kezelésének kudarcát okozzák. E két fehérje a multidrog rezisztencia fehérje (MDR1) és a multidrog rezisztenciához társuló fehérje (MRP1), amelyek megnövekedett kifejez˝odése okozza a sejtek széleskör˝u drog rezisztenciáját. Mindkét fehérje az ABC transzporterek családjába tartozik, amely család eukarióta tagjainak többsége két homológ – egy transzmembrán és egy nukleotidköt˝o domént tartalmazó – molekulafélb˝ol áll. A családba tartozó fehérjék topológiai vizsgálata azt mutatta, hogy a a transzmembrándoménok 6-6 transzmembránhélixb˝ol állnak. Az MRP1 szekvenciájának meghatározásakor azonban a szerz˝ok azt javasolták, hogy az MRP1 fehérjét ett˝ol eltér˝o membrántopológia jellemez, az N-terminális transzmembrándoménban szerintük 8 transzmembránhélix van, míg a C-terminális felé es˝oben 4.
A fenti két kutatócsoporttal együttm˝uködve célul t˝uztük ki az MRP1 jól megalapozott membrántopológiai modelljének kidolgozását. Ezzel párhuzamosan arra is kíváncsiak voltunk, hogy az ABC családon belül milyen más hasonló szerkezet˝u fehérjék találhatók, és azok milyen szekvenciális viszonyban állnak az MRP1-gyel. 18
Célkit˝uzések Általánosan elfogadott, hogy a membránt átszel˝o szekvenciadarabok felismerése a szekvencia alapján könnyebb feladat, mint a globuláris fehérjék másodlagos szerkezeti részeinek a becslése, és ezt az irodalomban található becsl˝o eljárások – a másodlagos szerkezet becsléséhez viszonyítva – nagy pontossága is alátámasztja. Bár ezek a becsl˝o eljárások egyes aminosavaknak a topológia kialakításában betöltött szerepét is megmutatták, a transzmembrán fehérjék topológiáját els˝osorban meghatározó alapelvet nem ismerjük. Az Irodalmi áttekintésben ismertetett munkák alapján egyértelm˝uvé vált, hogy a transzmembrán fehérjék egyes térszerkezeti részei különböz˝o fizikai-kémiai környezetben találhatók. Az aminosavak affinitása az egyes térrészekhez különböz˝o, amit a transzmembrán fehérjéknek ezekben a régióiban lev˝o szekvenciadarabjainak az aminosav összetételeiben megmutatkozó különbségeik jól mutatnak. A különböz˝o membránokban lev˝o fehérjék összetétele, valamint az a tény, hogy egyes fehérjék topológiája egy adott paraméter sereget használva jól becsülhet˝o, míg mások más paraméterekkel írhatók le, azt mutatják, hogy nem az egyes térrészekben lev˝o szegmensek aminosav összetételeinek abszolut értéke határozza meg a fehérjék topológiáját, hanem feltételezésem szerint az, hogy az egyes térrészekben lev˝o szegmensek aminosav összetételeinek különbsége maximális legyen, és így a maximális különbséget adó felbontást megkeresve a fehérje topológiája a szekvencia alapján megadható.
Ezért célul t˝uztem ki egy olyan transzmembrán fehérjék topológiáját becsl˝o eljárás kidolgozását, amellyel megkereshetjük ezt a maximális aminosav összetételbeli különbséget adó felbontást a fehérjékben és ezáltal igazolhatjuk az el˝obbi feltételezést.
19
Felhasznált módszerek és eszközök
4. Felhasznált módszerek és eszközök 4.1. Adatbázisok, felhasznált adatok 4.1.1. Szekvencia adatbázisok Az aminosavak rokonsági viszonyainak feltárásához használt PIR aminosav szekvencia adatbázis (Barker és mtsi., 1999) 1992-ben kibocsátott verziója (PIR 34) 10550 szekvenciát és 3591370 aminosavat tartalmaz. Az adatbázisból a szekvenciális hasonlóságot mutató szekvenciákat Hobohm és
Szu˝rési Szekvenciák Aminosavak limit (%) száma száma 100 80 60 40 20
10 550 7 553 5 597 2 809 357
3 591 370 2 439 205 1 617 370 548 912 28 709
mtsi. (1992) által javasolt sz˝urési eljárás módosított változatával hagytam ki. A sz˝urés lényege a követ-
1. táblázat. A PIR (34.0) adatbázis sz˝urése
kez˝o: minden egyes szekvenciát az aminosav párok relatív gyakoriságával (400 elem˝u vektor) reprezentáltam. Két aminosav szekvenciát akkor tekintettem hasonlónak, ha az aminosav párok relatív gyakoriságainak korrelációs koefficiense egy el˝ore meghatározott hasonlósági limit felett volt. Az eredetileg kis méret˝u adatbázisra kidolgozott sz˝urési eljárást – hogy ezen a viszonylag nagy adatbázison is alkalmazhassam –, úgy módosítottam, hogy a hasonlósági limit értékét nem egy el˝ore fixált értéknek vettem, hanem azt 100%-tól folyamatosan csökkentettem a kívánt értékig. Az adatbázisban található majdnem egyforma fehérjék nagy száma miatt ezzel az eljárással a sz˝urési folyamat els˝o lépéseiben drasztikusan csökken az adatbázis mérete, és így a továbbiakban sokkal kevesebb szekvencia-szekvencia hasonlóságot kell figyelembe venni, ezáltal a sz˝urés lényegesen gyorsabb, mint az eredeti eljárásban. A különböz˝o sz˝urési limiteknél megmaradt szekvenciák és aminosavak száma az adatbázisban a 1. táblázatban találhatók. A divergencia számolásokhoz és faépítéshez a táblázatban látható 100%-,
20%-os sz˝urt adatbázist használtam.
80%-, 60%- , 40%- és
4.1.2. Transzmembrán fehérjék topológia adatai A transzmembrán fehérjék topológiájának becslését három, az irodalomban megtalálható, korábban összeállított adathalmazon teszteltem. Az els˝ot Jones és mtsi. (1994b) állították össze, amely 83 transzmembrán fehérje adatait tartalmazza (83TMP adatbázis). Ezt az adathalmazt Rost és mtsi. (1996) is használták, akik ezt további 48 fehérje adatával egészítették ki (48TMP adatbázis). A harmadik halmazt Cserz˝o és mtsi. (1997) állították össze, amely prokarióta szervezetek transzmembrán fehérjéinek adatait tartalmazza (prokTMP, 44 fehérje). Az ezekben az adatbázisokban található fehérjék topológiája kísérletileg alátámasztott (lásd még 2.2.2), azonban a kísérleti adatok birtokában sem lehet a membránt átszel˝o szakaszok helyét a szekvenciában pontosan megadni, ezért ezt a tényt a predikció pontosságának mérésénél és az eredmények 20
Adatbázisok, felhasznált adatok értékelésénél figyelembe kell venni. Az eredetileg megadott fehérjék közül a Swiss-Prot adatbázis 34.0-ás verziója (Bairoch és Boeckmann, 1991) a következ˝o fehérjéket már nem tartalmazta: EGFR_DROME, GP1B_HUMAN, PT2M_ECOLI és IGGB_STRSP. Ezeket a fehérjéket a megfe-
lel˝o újabb rekordokkal helyettesítettem, rendre: TOP_DROME, GPBB_HUMAN, PTMA_ECOLI és IG1B_STRSP. A 48TMP adathalmazban két fehérje hiányzott: AD1_RAT és COX1_PARDE. Az AD1_RAT szekvenciát nem helyettesítettem semmivel, mert az a 48TMP halmazban lev˝o CD63_RAT szekvenciával azonos, a COX1_PARDE szekvenciának pedig a Swiss-Prot új kibo-
csátásában a CX1B_PARDE szekvencia felelt meg. Számos esetben az adatbázisokban eredetileg megadott topológiai adatok hibásan szerepeltek, vagy kés˝obbi kísérletek azokat pontosították. Ezeket az adatokat szintén figyelembe vettem: van Beilen és mtsi. (1992) kísérletei szerint az ALKB_PSEOL 6 transzmembránhélixet tartalmaz (22-40, 41-49, 88-110, 114-137, 227-247 és 250-270); Iwata és mtsi. (1995) megmutatták, hogy a COX2_PARDE fehérjében a transzmembrán szegmenseket túl hosszúnak adták meg korábban, a pontosabb értékek szerintük: 66-88 és 108-128 (56-88 és 103-134 helyett); a Swiss-Prot adatbázisban az UHPT_ECOLI topológiai adatai hiányoztak, amelyeket Yan és Maloney (1993) kísérletei alapján pótoltam; számos esetben hiányzott a topológia, azaz a szekvencia N-terminálisának a lokalizációja a Swiss-Prot adatbázisból, ezeket Jones és mtsi. (1994b), illetve Rost és mtsi. (1996) által megadott adatokkal pótoltam; végül Cserz˝o és mtsi. (1997) által leírt hibákat szintén korrigáltam az adatbázisban. A javítások után a három adatbázis 83, 48 és 44 transzmembrán fehérje adatait (346, 194 és 262 transzmembránhélix), az összesített adatbázis pedig – a redundanciák miatt – 158 fehérje szekvenciáját és topológiai adatait (698 transzmembránhélix) tartalmazza. A membránhélixek becsléséhez rokon szekvenciákat is használtam, amelyeket a BLAST automatikus kiszolgáló programmal (Altschul és mtsi., 1990) kerestem meg az NIH-ban található nem redundáns PIR, Swiss-Prot, aminosav szekvenciára átfordított EMBL és GenBank adatbázisokban. A kérdéses, éppen becsülend˝o fehérje szekvenciájával 25% azonosságnál nagyobb hasonlóságot mutató szekvenciákat tekintettem homológoknak. Számos esetben ezeknek a száma nagyon nagy volt, ilyenkor a legnagyobb hasonlóságot mutató 50 szekvenciát használtam a becsléshez a számítógép limitált kapacitása miatt. Az egyes szekvenciákon mindazokat a módosításokat elvégeztem, amelyeket Jones és mtsi. (1994b) is javasoltak: a jelölt szignál szekvenciákat a becslés el˝ott levágtam, valamint a jelölt prekurzor fehérjék esetén csak az érett fehérje szekvenciáját használtam a topológia becsléséhez, illetve a rejtett Markov modell paramétereinek számolásához.
21
A függetlenségi divergencia
4.2. A függetlenségi divergencia 4.2.1. A divergencia definíciója Ugyanazon az !
2 téren értelmezett p(!) és q(!) diszkrét valószín˝uségeloszlás eltérését
a D (p kq ) információs divergenciával mérhetjük:
D (p kq ) =
X !2
p(! ) log
p( ! ) : q (! )
(1)
Ahhoz, hogy a divergencia minden esetben értelmezve legyen, a következ˝o konvenciókat alkalmazzák:
log
0 = 1; log p(!) = 1; 0 (1) = 0: q (! ) 0
Az információs divergencia megmutatja, hogy mennyi információ különbözteti meg p-eloszlást
q -tól, azaz a megfigyelések valóban p-b˝ol származnak-e, vagy pedig q -ból. D(p kq ) értéke mindig pozitív, vagy nulla, ez utóbbi esetben p- és q -eloszlások azonosak (Kullback, 1959; Yockey, 1992; Baldi és Brunak, 1998). Az aminosav szekvenciák rövidtávú rendezettségét a függetlenségi divergenciával az aminosav triplettek gyakoriságait felhasználva mértem, ez a megfigyelt eloszlásnak és a függetlenség mellett várható eloszlásnak az információs divergenciája :
D3 =
20 X 20 X 20 X i=1 j =1 k=1
Gijk log
Gijk ; Qijk
(2)
ahol Gijk az i, j , és k aminosavak által alkotott triplett gyakorisága az adatbázisban, Qijk pedig ugyanezen triplett várt gyakorisága, ha az aminosavak a szekvenciákban véletlen módon állnának egymás után. Az aminosav triplett fogalmát általánosítottam, nemcsak a szekvenciában közvetlenül kapcsolódó aminosavakat tekintettem annak, hanem a szekvenciában távolabb lev˝oket is. Például az ACDHGF szekvenciában az ACD -n kívül az ACH aminosav hármast
is figyelembe vettem, amelynek második aminosava az els˝ot˝ol a szekvenciában 1 aminosavra,
3 aminosav távolságra található, ezért az 1; 3 indexszel jelölöm, hasonlóan az AHF tripeptid a 3; 5 indexet kapja, stb. Az oligopeptidek rendezettségét a bennük lev˝o összes triplett alapján számolt divergenciák átlagával mértem, például a 6 aminosav hosszúságú szakaszokban az 1; 2; 1; 3 : : : 1; 5; 2; 3 : : : 2; 5 : : :; 4; 5 triplett divergenciáinak
a harmadik aminosava az els˝ot˝ol
átlagával. Ha a szekvenciákban semmiféle általánosan érvényesül˝o rendezettség nem volna, akkor az aminosav hármasok gyakoriságát az adatbázisban lev˝o egyes aminosavak relatív gyakoriságai-
22
A függetlenségi divergencia nak és az adatbázis méretének szorzata adná meg, ezért Qijk -ra a következ˝o becslést adhatjuk:
Q(1) ijk = NR Pi Pj Pk ;
(3)
Pi , Pj és Pk az i; j és k aminosavak relatív gyakorisága az adatbázisban a megfelel˝o pozícióban, NR pedig az adatbázisban található összes aminosav száma. Például, ha a 2; 5 index˝u triplettet vizsgáljuk, akkor Pi az összes hat aminosav hosszúságú szekvanciadarabban az els˝o pozícióban az i aminosav relatív gyakorisága, Pj a harmadik pozícióban lev˝o j aminosav relatív gyakorisága és Pk a hexapeptidek utolsó pozíciójában a k aminosav relatív gyakorisága. ahol
Erre a pontosításra azért van szükség, mert az aminosavak gyakoriságai az egyes pozíciókban eltérnek. A legjelent˝osebb eltérést a metionin mutatja, amelynek nukleotid kódja a start kodon is egyben, és ezért az aminosav szekvenciák nagyon nagy része metioninnal kezd˝odik, és így a triplettek els˝o pozíciójában a metionin gyakorisága sokkal nagyobb, mint a második vagy harmadik pozícióban. A szekvencia mentén a többi aminosav eloszlása sem egyenletes, ami még indokoltabbá teszi a pozíciótól függ˝o relatív gyakoriságok használatát. A szekvenciák rendezettségének kiterjedése véges, ami azt jelenti, hogy míg a szekvenciában a közel lev˝o aminosavak között bizonyos kiválasztások megfigyelhet˝ok, addig a távolabb lev˝ok között ilyen kiválasztás már nem érvényesül. Ez a rövidtávú rendezettség Cserz˝o és Simon (1989) vizsgálatai alapján a tizedik aminosav szomszédig érvényesül. Ezért a nem rendezett aminosav triplettek gyakoriságait olyan triplettek gyakoriságaival is becsülhetjük, melyben az egyes aminosavak tíz aminosavnál távolabb állnak egymástól, például azoknak az aminosav tripletteknek a gyakoriságainak az átlagával, amelyekben az aminosavak egymástól
20
30
aminosav távolságra vannak egymástól:
Q(2) ijk =
30 X 60 1 X G ; 100 x=21 y=51 ijk;xy
(4)
ahol Gijk;xy az xy index˝u ijk aminosav triplett gyakorisága. 4.2.2. A divergencia használata aminosav hasonlóságok becslésére Az aminosav triplettek alapján számolt divergenciák értéke jól mutatja az aminosav szekvenciák lokális rendezettségét, nem véletlen jellegét. Ha a szekvenciákban az aminosavak tetsz˝oleges sorrendben követnék egymást, akkor a szekvencia egy adott pontjáról egy aminosavat kitörölve nem tudnánk megmondani, hogy eredetileg milyen aminosav állhatott ott. A rendezettség azt jelenti, hogy minden aminosavra valamilyen a véletlent˝ol eltér˝o szekvenciális környezet jellemz˝o, ezért az aminosavak hasonlóságát a szekvenciális környezetek hasonlóságával 23
Transzmembrán fehérjék topológiájának becslése jellemezhetjük. Két aminosav tehát akkor hasonló, ha a két aminosav szekvenciális környezete a fehérjékben általában hasonló. Ennek megtalálására a következ˝o eljárást dolgoztam ki. Válasszunk ki két aminosavat, és a teljes adatbázisban ezt a két aminosavat jelöljük valamilyen egységes módon (vagy valamelyik helyére a másik kódját helyezzük, vagy mindkett˝ot egy harmadik, egyedülálló kóddal helyettesítsük). Számoljuk ki az így átkódolt teljes adatbázis alapján újból az aminosav triplett divergenciákat. Ha két aminosav a szekvenciális környezete teljesen azonos lenne, akkor a két aminosav a szekvenciális környezet alapján megkülönböztethetetlen, ezért az így kapott divergencia csak kis mértékben lenne kevesebb az eredeti, 20 aminosav alapján számolt divergencia értékénél (a divergencia csökkenése a szabadsági fokok csökkenése miatt adódik). Az eredeti divergenciához viszonyított csökkenés mértéke pedig megmutatja a két aminosav szekvencián belül betöltött szerepének hasonlóságát. A 20 aminosavból 190 aminosavpár képezhet˝o (mivel sorrendjük nem számít). Mind a 190 aminosavpárral elvégezve a fenti
összevonást és az egyesített aminosavak alapján számolt divergencia számolást, megadhatjuk, hogy melyik két aminosav hasonlít leginkább egymásra. Ezt a két aminosavat a továbbiakban már azonosnak tekintve az egész eljárást megismételhetjük a megmaradt 19 aminosavból (pon-
tosabban a 18 aminosavból és a már egyesített 1 aminosavpárból) képzett 171 aminosavpárra,
és ismét kiválaszthatjuk az egymásra leginkább hasonlító két aminosavat. Az eljárást
19-szer
ismételve eredményként egy bináris fát kapunk, amelynek az egyes elágazásai egy-egy aminosav vagy aminosav csoport hasonlóságát jelölik, az elágazás gyökért˝ol mért távolsága pedig az adott hasonlóság mértékével arányos.
4.3. Transzmembrán fehérjék topológiájának becslése 4.3.1. A becsléshez használt rejtett Markov modell A rejtett Markov modell általános leírása és matematikai alapjai a Függelékben találhatók. Ebben a fejezetben a modellb˝ol annyit írok le, amit specifikusan a transzmembrán fehérjék topológiájának predikciójához fejlesztettem ki. Ebben a modellben ötféle állapotot különböztettem meg, amelyek a transzmembrán fehérjéknek a sejtek különböz˝o térrészeiben lev˝o darabjait modellezik. Ezeknek az állapotoknak a sorozata képezi a nem megfigyelhet˝o els˝orend˝u Markov sorozatot. Az állapotok a következ˝ok: küls˝o és bels˝o hurok (K és B), küls˝o és bels˝o transzmembránhélixvég (k és b) és transzmembránhélix (H) (lásd a 43. oldalon a 9. ábrát). Az állapotok választásának a jogosságát az 5.3.4. fejezetben indoklom meg. A modell pontos megadásához definiálni kell az átmeneti (T), az indulási (I) és a kijelz˝o (P) mátrix szerkezetét. Az egyes valószín˝uségi értékeket a Markov modell optimalizálásakor kapjuk meg, de az indulási értékek megadásával a modell nagymértékben befolyásolható. A legfontosabb, hogy a nulla 24
Transzmembrán fehérjék topológiájának becslése és az egy érték˝u valószín˝uségek (tehát a lehetetlen, illetve a biztos esemény) az optimalizálás során nem változnak, így az átmeneti mátrix kezdeti nulla és egy érték˝u elemei meghatározzák a lehetséges átmeneteket. Az átmeneti mátrix (lásd 10. ábra) megadásához kétféle állapot típust vezettem be: az adott hosszúságú (AH) és a változó hosszúságú (VH) állapot típust. Egy VH típusú állapotból csak
kétféle átmenet lehetséges, az egyik ugyanabba az állapotba (P (a ja ) = T(a; a)) a másik pedig a következ˝o állapotba (illetve annak els˝o alállapotába, ha az AH típusú, lásd lejjebb) (P (k ja ) =
T(a; k)). Az átmeneti mátrix tulajdonságaiból adódóan T(a; a) + T(a; k)
= 1 (lásd a Füg-
gelékben a (12) egyenl˝oséget). A következ˝o állapotot kés˝obb definiálom. A VH típusú állapot definíciójából következik, hogy a folyamatosan ebben az állapotban eltöltött id˝ointervallumok – a fehérje adott szerkezeti elemeinek hosszúságainak – eloszlása geometriai eloszlást ad, a szerkezeti elem hosszúságának várható értéke pedig 1 T1(a;a) (lásd (16) egyenl˝oség). Az AH típusú állapotok esetén az állapotokat MAXLa darab alállapotra bontottam, mely-
MINLa alállapotából csak ugyanannak az állapotnak a következ˝o alállapotába lehetséges az átmenet, P (ai+1 jai ) = 1, i = 1 : : : MINLa 1. MINLa és MAXLa alál-
nek els˝o
lapot között az adott alállapotból ugyanannak az állapotnak a következ˝o alállapotába, valamint a következ˝o állapotba (ha az szintén AH típusú, akkor annak els˝o alállapotába) lehetséges az átmenet, minden más állapotba és alállapotba tiltott, T(ai ; ai+1 )
i = MINLa : : : MAXLa
1.
+ T(ai; k) = 1;
MAXLa alállapotból csak a következ˝o állapotba (vagy annak els˝o elemébe) lehetséges az átmenet, T(aMAXLa ; k ) = 1. Az átmenetek ilyen szerkeA
zetével biztosítható, hogy az AH típusú állapotban eltöltött id˝o (az ilyen típusú fehérje szakasz szekvenciájának a hossza) csak MINLa és MAXLa között lehetséges, a hosszúságok konkrét eloszlása pedig tetsz˝oleges lehet, és azt az átmeneti mátrix határozza meg. A küls˝o és bels˝o hurkokat VH típusú állapottal, a többi állapotot (küls˝o és bels˝o hélixvég, valamint transzmembránhélix) pedig AH típusú állapottal modelleztem. Ennek magyarázata szintén az 5.3.4. fejezetben található. A következ˝o állapot definíciója a transzmembrán fehérjék szerkezetéb˝ol adódik (9. és 10. ábra): küls˝o vagy bels˝o hurok után hélixvég állapot, transzmembránhélix el˝otti hélixvég állapot után transzmembránhélix, transzmembránhélix után hélixvég állapot, míg transzmembránhélixet követ˝o hélixvég után hurok, vagy transzmembránhélix el˝ott lev˝o hélixvég állapot a következ˝o állapot. Ebben az utóbbi esetben a
MINLa és MAXLa alállapotokból háromféle átmenet
lehetséges: a következ˝o alállapotba, hurok állapotba, vagy a transzmembránhélix el˝otti hélixvég állapot els˝o elemébe. Ezzel a szerkezettel a transzmembránhélixek közötti szekvenciadarabok kétféle állapot sorozattal írhatók le, a rövid szakaszok hélixvég – hélixvég szekvenciával, a hosszabbak pedig hélixvég – hurok – hélixvég szekvenciával. A négyféle hélixvég állapot 25
Transzmembrán fehérjék topológiájának becslése (küls˝o és bels˝o, valamint transzmembránhélix el˝otti vagy utáni) átmeneteit azonosnak vettem. Az indulási mátrix (I) értékeit szintén a transzmembrán fehérjék természetes szerkezete alapján határoztam meg. Mivel a transzmembrán fehérjék N-terminálisa sohasem található a membránban, ezért az indulási mátrix transzmembránhélix állapot értéke nulla. Szintén nullának vettem a mátrixban a transzmembránhélix után álló hélixvég állapotok valószín˝uségeit. Az ötféle állapotnak és a 20 féle aminosavnak megfelel˝oen a kijelz˝o (más néven megfigye-
lési) valószín˝uségeket egy 5 20 elem˝u mátrix adja meg (P). A VH típusú állapotok esetén az
egyes alállapotokhoz ugyanazt a kijelz˝o valószín˝uséget rendeltem. A membrán ugyanazon oldalán lev˝o hélixvég állapotokhoz függetlenül attól, hogy azok a transzmembránhélix el˝ott vagy után találhatók, szintén azonos kijelz˝o valószín˝uségeket rendeltem. 4.3.2. A becslés menete Ha adott egy rejtett Markov modell, azaz I, T és P mátrixok, melyek szerkezete az el˝obb leírtaknak megfelel, akkor egy kérdéses aminosav szekvencia valamilyen topológiáját – ami a rejtett Markov modellben az állapotok szekvenciájának felel meg – a következ˝oképpen állíthatjuk el˝o. Az állapot szekvencia els˝o elemét (q1 ) I valószín˝uségek alapján választjuk ki. (A „valamilyen valószín˝uségek alapján kiválasztani” alatt azt értem, hogy egy olyan kockával dobunk, melynek annyi oldala van, ahány lehetséges elem közül választunk, és az egyes oldalak bekövetkezésének valószín˝usége a kérdéses valószín˝uségekkel azonos.) Az állapot szekvencia következ˝o elemét (q2 ) a
P (x jq1 ) átmeneti valószín˝uség alapján választjuk, ahol x bármelyik
lehetséges következ˝o állapot vagy alállapot lehet. A topológia többi elemét hasonló módon
P (x jqi ) (i = 2 : : : N , N a kérdéses aminosav szekvencia hossza) feltételes valószín˝uségek alapján választjuk. Az s1 , s2 : : : sN aminosav szekvencia esetén az így el˝oállított állapot szekvencia (q1 , q2 : : : qN ) valószín˝usége, ha a modell (I, T, P ) adott, a következ˝o: a
P (q1 : : : qN ; s1 : : : sN jmodell ) = I(q1 ) P(q1 ; s1 )
N Y i=2
T(qi 1 ; qi ) P(qi ; si ):
(5)
Az aminosav szekvencia valószín˝uségét a modell alapján az összes lehetséges állapot sorozat figyelembe vételével adhatjuk meg:
P (s1 : : : sN jmodell ) =
X összes q1 :::qN
26
P (q1 : : : qN ; s1 : : : sN jmodell ) :
(6)
Transzmembrán fehérjék topológiájának becslése Homológ szekvenciák (S1 : : :SM , M a szekvenciák száma) együttes valószín˝uségét, ha a modell adott, a (6) egyenl˝oség alapján számolt egyes szekvenciák valószín˝uségeinek szorzata adja meg:
P (S1 : : : SM jmodell ) =
M Y j =1
P (Sj jmodell ) :
(7)
A topológia becslés lényege, hogy megkeressük azt a rejtett Markov modellt (tehát az indulási, átmeneti és kijelz˝o valószín˝uségeket) egy vagy több aminosav szekvencia esetén, amelyre a (7) egyenl˝oség alapján megadott valószín˝uség maximális. Ezt a maximális valószín˝uség˝u modellt az un. Baum-Welch algoritmus segítségével állíthatjuk el˝o, amelynek leírása a Függelékben (11.4.3. fejezet) található. Kicsit pontosítva, a Baum-Welch algoritmus a szekvenciák terében definiált valószín˝uségi eloszlás egy lokális maximum helyét adja meg a globális maximum hely helyett. Számos eljárás ismert, amelyek a Baum-Welch algoritmus ezen hibáját próbálják kijavítani, a két legismertebb ezek közül az un. „zaj bevitel” (Krogh és mtsi., 1994a), illetve egy, az optimalizálással foglalkozók körében korában kifejlesztett eljárás, a szimulált h˝okezelés (Eddy, 1995). Mindkét eljárás igen megnöveli – a már amúgy is nagy számítási id˝ot igényl˝o – eredeti Baum-Welch algoritmus számítás igényét, a szimulált h˝okezeléshez hasonló eljárás pedig – saját vizsgálataim alapján – azért sem használható, mert a h˝okezelés hatására a lokális maximum helyek egymáshoz viszonyított nagysága változik, így továbbra sem biztosított a globális maximum hely megtalálása. Minél több homológ szekvenciát használunk a becsléshez, illetve minél több különböz˝o valószín˝uségi eloszlásból indítjuk az optimalizálást, annál több esélyünk van a globális maximum hely megtalálására. Ezen túlmen˝oen a Dirichlet-keverék alkalmazása a valószín˝uségek újraszámolásánál ((Brown és mtsi., 1995; Sjölander és mtsi., 1996), lásd még 11.4.3. fejezet), illetve egy egyszer˝usített változatának – az egy komponens˝u keverék, vagy álszámláló (’pseudocount’) módszer – használatával a lokális maximum helyek száma nagymértékben csökken. A használt álszámláló vektor () mérete a kijelz˝o valószín˝uségek mátrixának (P) méretével megegyezik, és jelentése az, hogy egy adott állapotban tett megfigyeléseket mennyire vesszük figyelembe, mennyire engedjük az optimalizálás során a kijelz˝o valószín˝uségeket egy el˝ore meghatározott valószín˝uségi eloszlástól eltérni. Az álszámláló vektor elemeinek meghatározására a következ˝o, 4.3.3. fejezetben térek ki, használatával a (7) egyenl˝oségben megadott valószín˝uségek helyett a:
P (S1 : : : SM ; modell j ) = P (S1 : : : SM jmodell )
5 Y 20 Y j =1 i=1
P (ai jbj )ij
(8)
valószín˝uséget kell használni. A modell kezdeti paraméterei nagymértékben meghatározzák az optimalizálás eredményét. 27
Transzmembrán fehérjék topológiájának becslése Éppen ezért minden egyes maximum hely keresést minden szekvencia esetén ugyanabból, az álszámláló vektor által meghatározott kijelz˝o, illetve el˝ore megadott átmeneti és indulási valószín˝uségekból indítottam. 4.3.3. A modell paraméterei Az el˝oz˝o fejezetekben leírt rejtett Markov modell legfontosabb paraméterei az adott hosszúságú (AH) állapotok minimum és maximum hossza. Ezeket a kísérletekkel kell˝o képpen bizonyított topológiájú transzmembrán fehérjék vizsgálatával határoztam meg. A transzmembránhélix állapot minimális hosszát (MINLH )
17 aminosavnak választottam, maximális hosszát
pedig (MAXLH ) 25 aminosavnak. A küls˝o és bels˝o hélixvég állapotokra ugyanezekre az érté-
kekre 1 és 15 adódott (MINLk
= MINLb = 1, MAXLk = MAXLb = 15).
A rejtett Markov modell optimalizálásánál használt álszámláló vektor-t, illetve a valószín˝uségek kezdeti értékeit a 83TMP adathalmazban lev˝o fehérjék alapján számoltam. Ebb˝ol a halmazból azokat a fehérjéket, amelyeknek szekvenciája 500 aminosavnál hosszabb elhagytam. Szintén kihagytam a számolásból azokat a fehérjéket, amelyek csak egy transzmembránhélixet tartalmaznak, valamint azokat, amelyek topológiája nem volt kell˝oképpen alátámasztva kísérletekkel, vagy a különböz˝o csoportok által végzett kísérletek ellentmondtak egymásnak. Az elhagyások után
63 fehérje szekvenciája maradt meg, melyeket csillaggal jelöltem a becslés
eredményeit megadó teljes listában (Tusnády, 1998). Egy adott fehérje topológiájának becs-
63 fehérjéb˝ol álló halmazból azokat a fehérjéket, amelyek a vizsgált fehérje szekvenciájával 25%-nál nagyobb szekvencia hasonlóságot mutattak, szintén elhagytam. Ez az lésekor ebb˝ol a
un. bicskanyitogató (’jack-knife’) eljárás, amely biztosítja, hogy ne használjunk fel a topológia becsléshez olyan adatokat, amelyeket becsülni akarunk. A kísérleti eredmények által meghatározott topológiának megfelel˝oen kijelöltem a modellnek megfelel˝o ötféle állapotot. A hélixvég állapotok meghatározása úgy történt, hogy amenyiben két transzmembránhélix közötti szekvenciadarab hosszúsága a hélixvég állapot maximális hosszúságának kétszeresénél hosszabb volt (2 MINLk vagy b
= 30), akkor a két MAXLk vagy b = 15 aminosav hosszúságú szakaszt vet-
tem hélixvég állapotban lev˝onek, ellenkez˝o esetben két darab, a két transzmembránhélix közötti szakasz hosszúságának fele hosszúságú hélixvég állapotot. A kiválogatott fehérjékb˝ol az ötféle állapotban lev˝o aminosavaknak az egyes állapotokra normált relatív gyakorisága adta a kijelz˝o valószín˝uségek (P) kezdeti becslését. Az álszámláló vektor számolásához ugyancsak az ötféle állapotban lev˝o aminosavak gyakoriságát használtam. Ebben az esetben azonban a teljes halmaz méretével normáltam és egy konstanssal (T ) való G , ahol Gij az i állapotban lev˝o szorzás adta a megfelel˝o értékeket: ij = T P5 Pij20 i=1 j =1 Gij j aminosav gyakorisága a kiválasztott fehérjékben. T értéke adja meg, hogy az álszámláló 28
Programok, egyéb predikciós eljárások vektorból mennyit számolunk hozzá a várt gyakoriságokhoz. A topológia becslés legnagyobb pontosságát T
= 10000-nél értem el.
Az átmeneti mátrix kezdeti értékeinek becslését úgy számoltam, hogy azokkal a válogatott fehérjékben lev˝o egyes állapotok hosszúságainak eloszlását tudjam el˝oállítani. Legyen ij az i állapotú pontosan j hosszúságú szekvenciadarabok gyakorisága. Ennek segítségével az i állapotú j hosszúságú szekvenciadarab terminációjának, azaz a következ˝o állapotba való átmeP i . Az netnek a valószín˝uségét a következ˝oképpen adhatjuk meg: ij 1 = ij = ij = MAXL ik k=j ilyen hosszúságú szekvenciadarab megnövelésének, azaz a következ˝o alállapotba való átmenetnek a valószín˝usége pedig ij 0 = 1 ij . Amennyiben az adott állapotot kétféle állapot követhet a termináció valószín˝uségét kétfelé osztottam a megfigyelt két állapotba való átmenet relatív gyakoriságának megfelel˝oen. 4.3.4. A becslés pontosságának mérése A becsült topológia pontosságát azért nem lehet egyértelm˝uen megadni, mert a kísérletileg meghatározott topológiában a transzmembránhélixek pontos helyzete nincs meghatározva, a kísérletekkel csak annyit lehet igazolni, hogy a szekvencia egy adott pontja a membránon kívül, vagy belül található. A transzmembránhélixek szekvencián belüli pozícióit a kísérletek után a hidrofóbicitási görbék alapján adják meg. Emiatt a predikció pontosságát Cserz˝o és mtsi. (1997) által bevezetett módszer módosított változatával mértem. Ennek lényege, hogy a becsült és valódi transzmembránhélixet akkor veszem azonosnak, ha azok a szekvencia mentén átfednek (pl. ha a valódi transzmembránhélix a szekvencia 115
által meghatározott érték pedig 98
137 darabján van, a predikció
120, akkor ezt helyesen predikált transzmembránhélixnek
veszem). Az összes fehérje predikciója után a helyesen becsült (N or ), az összes becsült (Nprd )
és az összes valódi (Nobs ) transzmembránhélixek száma alapján a predikció teljes pontosságát q
or N or a QP = 100 N Nobs Nprd értékkel mértem. Mivel ez az érték igen magas a legtöbb becsl˝o eljárás esetén (90% felett), ezért a predikció pontosságát Rost és mtsi. (1996) által javasolt két másik értékkel is meghatároztam. Ezek: azoknak a fehérjéknek a száma, amelyekben az összes transzmembránhélixet helyesen becsülte az eljárás (NT M ), illetve azoknak a fehérjéknek a száma, amelyekben az összes transzmembránhélixet helyesen becsülte az eljárás és a szekvencia N terminálisának a lokalizációját is helyesen adta meg az eljárás (NT T ).
4.4. Programok, egyéb predikciós eljárások Az itt bemutatott valamennyi munkához a programokat C nyelven (Kernighan és Ritchie, 1978) Unix és Linux operációs rendszer alatt, Silicon Graphics (Personal Iris, Indigo2) és IBM 29
Programok, egyéb predikciós eljárások PC gépeken írtam. A transzmembrán fehérjék topológiájának becslésére kidolgozott HMMTOP eljárás az interneten elérhet˝o, és bárki számára használható (http://www.enzim.hu/hmmtop). A topológia becslések összehasonlításához az egyes eljárásokat vagy az interneten keresztül, a szerz˝ok által készítetett kiszolgáló programokat használva készítettem, vagy a szerz˝ok által írt programot saját gépeinken futtatva végeztem. Ezeknek a programoknak a listáját a konkrét internet címmel a 2. táblázat tartalmazza. Nem egyértelm˝u predikció esetében a szerz˝okkel személyesen konzultáltam. Eljárás
Internet cím (URL)
TOPPRED
http://www.biokemi.su.se/~server/toppred2
MEMSAT
http://globin.bio.warwick.ac.uk/~jones/memsat.html
PHDhtm_ref
http://www.embl-heidelberg.de/predictprotein
2. táblázat. Transzmembránhélix topológia becsl˝o programok címei az interneten
30
Eredmények
5. Eredmények 5.1. Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján Az aminosavak hasonlóságát az aminosavak szekvenciális környezetének hasonlóságával jellemeztem, amelyhez a fehérje kutatásban eddig még nem használt matematikai eszközt, a függetlenségi divergenciát használtam. Ennek az eljárásnak az alkalmazását a DNS szekvenálás révén méretükben nagy mértékben megnövekedett szekvencia adatbázisok tették lehet˝ové. A divergencia definíciója és az aminosavaknak a szekvenciákban betöltött hasonló szerepének feltárásához használt eljárás részletes leírása a 4.2.1 és a 4.2.2. fejezetben található. A szekvenciálisan hasonló fehérjékt˝ol különböz˝o mértékben megsz˝urt PIR adatbázist és különböz˝o hosszúságú oligopeptideket felhasználva számolt divergenciák alapján sokféle ami-
100%-, 60%- és 20%-os sz˝urési limitek mellett, a dekapeptidek felhasználásával számolt bináris fák a 3. ábra A-C részén láthatók. A 60%-os nosav rokonsági bináris fa képezhet˝o. A
A Q R
LM
F Y
S T
W
D
I V
S T E K
E K A
B S T
G P
F Y
LM
W D N
P
I V
Q R
D N
CH E K
A
LM
W
S T
I V
CH
D N
E
F Y
Q R
I V
A
G P
LM
W
QR
D N
CH
F Y
CH
E K P
G
G A
C E Q
F
MW F L
I
LM
W T
QR V
A
F Y
H P R
S T
I V D N
CH E K
C DK
P
GY N
A
G
S
3. ábra. Bináris aminosav hasonlósági fák (I). A-C, A 100%-, 60%- és 20%-os sz˝urt adatbázis felhasználásával és 10 tagú oligopeptidek alapján számolt, D-F, 3-, 6- és 9-tagú oligopeptidek alapján a 60%-os sz˝urt adatbázis felhasználásával készült bináris aminosav hasonlósági fák. Mind a hat esetben a véletlen sorrend˝u szekvenciák triplett gyakoriságait az egyedi aminosavak relatív gyakoriságainak szorzatával (Q(1) ) becsültem 31
Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján
(1)
Q
20%
3 EQ MW A V HP IL CFT R K DGNY S
4
5
EQ FMW IL A HP VT CR K GY DN S
40%
FYW IVLM QR CH STDN EK GP A
ST CH DN EK A GP
60%
FY CH W LM QR IV STDN EK A GP
QRDN EK A
80%
100%
FY LM CH W QRIV DN ST EK P G A
FY LM WIV
QR
FY LM W CH IV ST GP
FY LM W CH IV ST
QRDN EK
K GY DN S
FY LM WIV ST CH
EQ FI MW LT V HP A RC DKGY N S
8
10
EQFL MW IT V HP A RC GY DKN S
EQFL MW IT V HP A RC GY DKN S
FY LM W ST IV QR DN H EK A CGP
FY LM W ST IV QR DN H EK A CGP
GP
FY LM W ST IV QR DN H EK CG A P
FY LM W ST QR IV CH DN EK P G A
FY LM W ST QR IV CH DN EK P G A
FY LM W ST QR IV CH DN EK P G A
FY LM W IV ST QRDN CH EK PG A
FY LM W ST IV QR CH DN EK PG A
FY LM W IV
A
FY LM W ST IV CH DN QR EK P G A
FY LM W ST QR I CH DN V EK P G A
FY LM W ST QR I CH DN V EK P AG
FY LM W ST QR I CH DN V EK P AG
FY LM W QR ST I CH DN EK V P A G
LM ST FYW IV QR DN CH EK
LM ST FYW IV QR DN CH EK
LM ST FYW IV QR DN CH EK
FY LM W IV CHST
QRDN EK
GP
A
ST CH
QR DNEK GP
FY LM WIV ST
9
EQFI MW LT V HP A CR GY DKN S
QR DNEK A
GP
FY LM WIV ST CH GP
7 EQFL MW TI V HP A CR GY DKN S
QR DNEK A
QR DNEK A
GP
A
6
MW EQ FILT HP ARCV
CH
IVLM FY CH W ST DN GP
FY IVLM W ST QR CH DN EK A GP
FYW LM IV ST QR DN CH EK GP A
FY LM ST WIV QR DN CH EK GP A
FY IVLM ST W QR DN CH EK GP A
EQ MW A V FTHP IL C R D KN GY S
QT MW AE F IL HP V CR KGY D NS
EQ ILMW F T CVHP A R K GY D S N
MW FILQT V E HP A C R K GY D S N
MW FLQT I V E HP A CR K GY D S N
EQFI MW LT V HP A CR K GY D S N
EQFL MW IT V HP A CR K GY D S N
FY IW QR V CS HN LM K T D A GP E
FY MV W I STHN K C D L A GP E
FY IV W LM
E A
FY IV QR W LM CHST DN K E A GP
FY IV QR W LM ST CH DNK E A GP
FY IV QR W ST LM CH DNK E A GP
FY IV QR W LM HNK D CG E AP
A
FY QR W CH IVLM NST
FYW LM QRHN IV K C ST D E GP A
QR STHNK CG D E A P
FY LM WIV
FY LM WIV QRHN ST K D C E P A G
FY LM WIV QR ST HNK D C E AP G
FY LM WIV QR ST HNK D C E AP G
FY LM WIV QR ST HNK D C E AP G
FY LM WIV QR ST HNK D C E AP G
FY LM QR W HN ST C IV K D E GP A
FY LM QRHN WIV ST K C D E GP A
FY LM HNKR IV W ST Q CGD E P A
FY IVLM KR HN W ST Q D C E P A G
FY LM IV HNKR W ST Q D C E AP G
FY IVLM HNKR W ST Q D C E AP G
FY IVLM KR ST HN Q W D C E P A G
IVLM KR FY ST HN W Q D C E AP G
IV FY LM QRHN ST W C K D E GP A
IVLM DNFYW ST CH K E P A G
LM QRFY IV ST DN W K CH P E A G
LM QRFY IV ST DN W K CH P E A G
LM QRFY IV ST DN W K CH P E A G
IVLM DN QRFY K W
IVLM QR ST DN FY W K CH E A P G
QR EK A
A
GP
A
GP
A
GP
(2)
Q
20%
40%
60%
80%
100%
K A
E
GP D
QR
QR
QR ST K CH DN
GP
ST CH A
IVLM DN QRFY K W
P E G
EQFL MW IT V HP A CR K GY D S N
ST
ST CH A
P G
E
ST CH
FY QR WIV LM DNK
GP E
4. ábra. Bináris aminosav hasonlósági fák (II). A különböz˝o sz˝urési limitek (20%-100%), oligopeptid hosszak (3-10) és véletlen sorrend˝u szekvenciák aminosav triplett gyakoriságainak kétféle becslése (Q(1) és Q(2) ) alapján készült bináris aminosav hasonlósági fák. A 3. ábrán lev˝o fákat lila szín˝u hátérrel, míg az 5. ábrán lev˝o fákat világoskék háttérrel emeltem ki
32
Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján A
F Y L M W S
T I
V
Q R D N C H E K
P G A
B
19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
F Y L M I W Q R H N S
T K D C E
P A G
V
19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
5. ábra. Bináris aminosav hasonlósági fák (III). Heptapeptidek és a 60%-os sz˝urt adatbázis felhasználásával készült bináris fák a véletlen sorrend˝u szekvenciákban lev˝o triplettek gyakoriságainak kétféle becslésének esetében (A, Q(1) és B, Q(2) )
sz˝urési határ mellett, a véletlen sorrendet az egyedi aminosavak relatív gyakoriságainak szorzatával becsülve (Q(1) , (3) egyenl˝oség a 23. oldalon), tri-, hexa- és nonapeptidek alapján készített bináris fákat a 3. ábra D-F része mutatja be. A különböz˝o sz˝urési limitek, referenciák és oligopeptidek alapján számolt valamennyi bináris fa a 4. ábrán láthatók. Ezek közül kett˝ot, a 60%-os sz˝urési limit mellett heptapeptideket és a véletlen szekvenciákban az aminosav triplettek gyakoriságainak kétféle becslését (Q(1) és Q(2) , (3) és (4) egyenl˝oség) használva képzett fát, amelyek az irodalomban található aminosav hasonlósági mátrixokkal a legnagyobb korrelációt mutatják, az 5. ábrán külön kiemeltem. A bináris fákat tetsz˝oleges módon átírhatjuk aminosav hasonlósági, vagy távolsági mátrixba. Az egyik legegyszer˝ubb eljárás, hogy két aminosav távolsága a közöttük lev˝o legrövidebb útvonal a fán mérve:
Mij = A + B ahol
2C;
(9)
A és B az i és j aminosavak megjelenésének szintje a fán, C pedig a fának az a szintje, 33
Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján ahol ez a két aminosav el˝oször kerül egy csoportba. A (9) egyenl˝oséget felhasználva az 5. ábrán látható bináris aminosav hasonlósági fák alapján számolt aminosav távolsági mátrixok a 3. táblázatban láthatók. Fontos megjegyezni, hogy a függetlenségi divergenciák alapján számolt bináris fák adják az els˝odleges információt, míg a (9) egyenl˝oség alapján az ezekb˝ol képzett mátrixok csak egy a nagyon sokféle lehetséges módból, ahogy a fákat mátrix alakba konvertálhatjuk. Az ábrákról látható, hogy az eredeti, sz˝uretlen (100%-os) adatbázist használva a kapott bináris fák jobban hasonlítanak
60%-os sz˝urés esetében kapott bináris fákhoz, mint a túl sz˝urt
(20%) adatbázis esetében. Ez azt jelenti, hogy ez a módszer nem érzékeny az adabázisban nagy számban jelenlev˝o homológ fehérjékre, ami nagy el˝onyt jelent a módszer javára, ugyanis olyan adatbázist el˝oállítani, amelyben semmiféle ismétl˝odés nincs jelen, lehetetlen (gondoljunk arra, hogy szekvencia ismétl˝odés akár egy fehérjén belül is el˝ofordulhat a génduplikáció eredményeképpen). Ezzel szemben a túlsz˝urt adatbázis már nem tartalmaz elég információt az aminosavak hasonlóságának megállapítására, és ez a magyarázata annak, hogy miért a PIR szekvencia adatbázist használtam ebben a munkában, mint a méretében sokkal kisebb, de jobban annotált PDB térszerkezeti adatbázist, amely nagyrészt csak egyfajta – vízoldható, globuláris – fehérjéket tartalmaz. Éppen ezért, a következ˝okben az aminosavak csoportjaiból levonható következtetéseket csak a 40% , 60%
és 80%-os sz˝urési szintek alapján teszem.
Az 4. ábrán látható, hogy a
A A C D E F G H I K L M N P Q R S T V W Y
9 14 11 20 2 9 16 11 19 19 14 4 15 15 13 13 16 18 20
40%
,
60%
és
80%-os sz˝urési limitek mellett, mind Q(1) ,
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
12
9 17
10 14 15
22 12 27 24
1 11 8 9 21
13 21 4 19 31 12
20 10 25 22 14 19 29
15 19 20 5 29 14 24 27
21 9 26 23 21 20 30 19 28
21 9 26 23 21 20 30 19 28 0
13 21 4 19 31 12 0 29 24 30 30
1 13 10 11 23 2 14 21 16 22 22 14
18 22 23 8 32 17 27 30 3 31 31 27 19
18 22 23 8 32 17 27 30 3 31 31 27 19 0
8 20 17 18 30 9 21 28 23 29 29 21 7 26 26
8 20 17 18 30 9 21 28 23 29 29 21 7 26 26 0
20 10 25 22 14 19 29 0 27 19 19 29 21 30 30 28 28
19 9 24 21 3 18 28 11 26 18 18 28 20 29 29 27 27 11
22 12 27 24 0 21 31 14 29 21 21 31 23 32 32 30 30 14 3
23 20 29 7 0 25 20 28 28 23 5 24 24 10 10 25 27 29
15 30 16 23 26 15 29 29 0 18 19 19 27 27 26 28 30
27 13 20 23 0 26 26 15 15 12 12 24 24 23 25 27
22 29 12 27 21 21 30 24 31 31 33 33 12 2 0
7 18 13 21 21 16 2 17 17 11 11 18 20 22
25 20 28 28 23 5 24 24 10 10 25 27 29
23 17 17 26 20 27 27 29 29 0 10 12
26 26 15 15 12 12 24 24 23 25 27
0 29 23 30 30 32 32 17 19 21
29 23 30 30 32 32 17 19 21
18 19 19 27 27 26 28 30
19 19 9 9 20 22 24
0 28 28 27 29 31
28 28 27 29 31
0 29 31 33
29 31 33
10 12
2
3. táblázat. Az 5. ábrán lev˝o kétféle aminosav hasonlósági fa alapján készült aminosav távolság mátrixok (alsó baloldali háromszög az 5/A (Q(1) ), a fels˝o jobboldali háromszög az 5/B (Q(2) ) alapján számolt távolság mátrix) 34
Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján mind Q(2) esetében (összesen 48 eset) egy eset kivételével hét hidrofób aminosav (F; I; L; M; V; W és Y ) mindig egy csoportban található. Q(1) -t használva 24 esetb˝ol 23 esetben ez a hét
aminosav mindig egy csoportot alkot, míg Q(2) -t használva 11 esetben ugyanebben a csoportban található a cisztein is. Érdemes megjegyezni, hogy a cisztein bizonytalansága – vagy C
C
H;
G pár, egy esetben C S pár, illetve a hidrofób aminosavak közötti elhelyezkedése –
jól mutatja a cisztein fehérjékben betöltött sokféle szerepét. Extracelluláris fehérjékben mindig oxidált állapotban vagy diszulfid hídban vagy egyéb ligand kötött formában található, intracelluláris fehérjékben többnyire poláris állapotban szabad
SH csoportot tartalmazva. Az SH
csoport reaktivitása miatt sok fehérje aktív centrumában megtalálható, valamint DNS köt˝o enzimekben a hisztidinhez hasonló módon Zn2+ ionok kötésével stabilizálja a fehérje szerkezetét. Valószín˝u, hogy ez utóbbi szerepe miatt alkot sok esetben a hisztidinnel egy csoportot. Az alanin, glicin és prolin aminosavak egyetlen esetben sem alkotnak a hidrofób aminosavakkal egy csoportot, és mindig a fák alacsonyabb szintjein jelennek meg, ami minden más aminosavtól való nagy távolságukat mutatja. Érdekes, hogy ilyen alacsony szinten viszont 18 esetben a glicin és prolin egy csoportot alkot. Tudjuk, hogy mindkét aminosav a globuláris fehérjékben hélixtör˝o tulajdonságú, így lehetséges, hogy bár a két aminosav a fehérjék szerkezetépítése szempontjából igen eltér˝o, ez az a tulajdonság, amiben a legnagyobb mértékben megegyeznek. Természetesen a kollagén rostokban betöltött hasonló szerepük is eredményezheti ezt a megfigyelést. A poláris aminosavakat vizsgálva a szerin és a treonin – hasonlóan a leucin-metionin párhoz – 47 esetben a legközelebbi aminosav pár, ami az irodalmi adatokkal teljesen megegyez˝o
eredmény. A következ˝o leggyakoribb poláris aminosav pár a glutamin-arginin páros, amely 42
esetben szerepel együtt a 48 esetb˝ol. Bár az arginin töltött aminosav, a fehérje felszínén elleni-
onok veszik körül, és ezért a globuláris fehérjék oldhatóságában betöltött szerepe megegyezik a nem töltött glutamin aminosavval. Ugyanez lehet a magyarárata a glutaminsav-lizin aminosav pár gyakori felt˝unésének is – minden esetben, amikor Q(2) a referencia –, ugyanis a fehérjék oldhatóságának biztosításában a töltés el˝ojele nem játszik szerepet az ellenionok miatt. Általában elmondhatjuk, hogy míg az apoláris hidrofób aminosavak, kivéve az alanint, glicint és prolint, mindig egy csoportban találhatók hasonló elrendez˝odésben, addig a poláris aminosavak jobban elszórtak, kevésbé rendezetten jelennek meg a különböz˝o fákon, ami azt mutatja, hogy a fehérje szerkezet építés szempontjából a hidrofóbicitás sokkal fontosabb tulajdonság, mint a polaritás. A 4. táblázatban összefoglaltam az irodalomban található hasonlósági mátrixok, és az itt bemutatott két fajta hasonlósági mátrix (3. táblázat) egymás közötti korrelációit. Bár a korreláció értékek szignifikánsak, az itt bemutatott két mátrix mutatja szinte a legkisebb hasonlóságot 35
Az aminosavak kicserélhet˝osége a függetlenségi divergencia alapján
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Hivatkozás Altschul (1991) Cserzo˝ és mtsi. (1994) Dayhoff és mtsi. (1978) Fitch és Margoliash (1967) Gonnet és mtsi. (1992) Grantham (1974) Henikoff és Henikoff (1992) Henikoff és Henikoff (1993) Johnson és Overington (1993) Jones és mtsi. (1992) Jones és mtsi. (1994a) Levin és mtsi. (1986) McLachan (1971) Miyata és mtsi. (1979) Pongor (1987) Rao (1987) Risler és mtsi. (1988) Tüdo˝s és mtsi. (1990) Q2
Q1 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18
63 75 63 56 66 61 66 64 67 63 63 77 68 66 65 61 31 46 86
72 68 81 70 83 77 78 78 72 83 81 83 87 81 40 73 78
73 92 77 87 87 88 90 75 77 85 78 63 63 61 41 59
70 57 78 75 76 76 72 71 74 58 56 63 54 23 57
75 94 90 91 92 77 83 89 83 73 75 55 52 66
75 81 82 69 59 69 81 83 66 59 61 49 50
92 93 88 81 86 89 79 74 80 61 44 67
98 83 74 82 90 76 69 76 67 42 63
84 75 83 91 77 71 76 66 42 64
73 97 79 88 76 88 88 89 88 77 79 87 78 64 65 66 39 60
82 78 84 77 70 70 50 49 63
75 74 68 68 69 46 45 57
83 78 75 81 50 49 75
79 71 76 59 49 65
75 69 48 63 65
78 35 41 67 49 15 69 62 25 51
4. táblázat. Az aminosav hasonlósági mátrixok korrelációja a többi mátrixhoz. A táblázatban látható magas korrelációs értékek (>80%) azt mutatják, hogy a különböz˝o módszerek gyakran ugyanazon az elven alapulnak, vagy ugyanazt az adathalmazt használják a hasonlóságok megállapításához. Érdemes megjegyezni, hogy a Q(1) és Q(2) alapján számolt hasonlósági mátrixok – azon kívül, hogy egymással mutatják a legnagyobb hasonlóságot –, Cserz˝o és mtsi. (1994), illetve Levin és mtsi. (1986) által készített mátrixokkal mutatnak nagy hasonlóságot. Az el˝obbi esetben a hasonló adatbázis használata, illetve a hasonló kiindulási adatok használata miatt kapunk magas korrelációs értéket (75% és
78%) (Cserz˝o és mtsi.
(1994) az egymással közvetlenül kapcsolódó, illetve távolabb lev˝o aminosav párok gyakoriságainak korrelációs koefficiensei alapján készítették el a mátrixot). Az utóbbi esetben a magasabb korreláció (77% és
75%) a két mátrix hasonló blokkos szerkezetéb˝ol adódhat.
Az egyes mát-
rixok jóságát nehéz rangsorolni, míg az egyik mátrix a fehérjék egy csoportján alkalmazható megbízhatóan – például fehérje szekvenciák illesztésénél –, addig más mátrixok más fehérje csoportok vagy eljárásokhoz – például másodlagos szerkezet predikcióhoz –, nyújtanak segítséget. Általában elmondhatjuk azonban, hogy a nagyobb adatbázisokon nyugvó statisztikák megbízhatóbbak. Az itt bemutatott kétféle aminosav hasonlósági mátrixszal nem csak az irodalomban található számos mátrix számát növeltem kett˝ovel, hanem megmutattam, hogy nagy adatbázisokon, szekvencia illesztés nélkül hogyan határozhatjuk meg egy eddig még nem használt statisztikai eszköz, a függetlenségi divergencia felhasználásával az aminosavak hasonlóságait, egymással való kicserél˝odésük mértékét. Az aminosavak fizikai-kémiai tulajdonságai nyilvánvalóan fontos szerepet játszanak a fehérje szerkezet kialakításában, de hogy az egyes tulajdonságokat hogyan, 36
Az MRP rokon fehérjék és membrántopológiájuk milyen súllyal kell figyelembe venni, melyik aminosav esetében melyik tulajdonság játszik fontos szerepet, csak a szekvenciák vizsgálatával tudjuk megmondani. A függetlenségi divergencia használata ezért is célszer˝u, mert nem használ semmilyen a priori feltételezést az aminosavak tulajdonságairól, illetve azoknak a fehérje stabilitásában betöltött szerepér˝ol. Cikkünk megjelenését követ˝oen jelent meg egy olyan munka, amelyben térszerkezeti adatokon nyugvó szekvencia illesztéseket felhasználva vizsgálták az aminosavak szerepét az egyes térszerkezeti elemekben (Thompson és Goldstein, 1996). Ez a vizsgálat szintén kizárólag információelméleti megközelítésen alapult, és a szerz˝ok az itt bemutatott eredményekhez nagyon hasonló következtetéseket vontak le, megmutatva, hogy a fehérjeépítés szempontjából nem az egyes aminosavak játszanak fontos szerepet, hanem ahogy a bináris aminosav rokonsági fák mutatják, az egyes aminosav csoportok. A bináris fák alapján levonható következtetésekkel teljesen összhangban, vizsgálataik szerint az apoláris hidrofób aminosavak azonos szerepet játszanak a térszerkezet stabilításában, míg a poláris aminosavak kisebb súllyal szerepelnek, az alanin, és glicin aminosavak pedig különálló csoportot alkotnak.
5.2. Az MRP rokon fehérjék és membrántopológiájuk A humán MRP1 felfedezésekor az aminosavszekvencia vizsgálata alapján azt feltételezték, hogy a fehérje az eukarióta ABC transzporterekhez hasonlóan két homológ molekulafélb˝ol áll, amelyek egy transzmembrándoménb˝ol és egy citoszolikus nukleotid köt˝o doménb˝ol állnak. A membránhélixek Kyte-Doolittle féle predikciójára támaszkodva a szerz˝ok azt javasolták, hogy a fehérje N-terminális transzmembrándoménjében 8, míg a C-terminális felében 4 transzmembránhélix található. Ez a szerkezet azonban szokatlan volt az ABC családon belül, ahol számos esetben a 6-6 transzmembránhélixet magába foglaló topológiát kísérletileg is igazolták. Az eredeti topológiai modellel továbbá nem volt összegyeztethet˝o, hogy a fehérje egyik – az eredeti modell szerinti extracelluláris – hurka ellen termeltetett antitest a fehérjét csak a sejtek permeabilizálása után ismerte fel. Az Aktív Transzport Fehérje, valamint a Membrán kutatócsoporttal együttm˝uködve ezért elhatároztuk a fehérje aminosav szekvenciájának alaposabb vizsgálatát, és ezzel párhuzamosan olyan kísérletek elvégzését, amelyek megvizsgálják a 8 + 4-es membrántopológia helyességét. A kísérletek leírását és azok eredményét, mivel nem én végeztem, itt nem ismertetem (Bakos és mtsi., 1996). A szekvencia vizsgálatok során abból az általánosan elfogadott tényb˝ol indultunk ki, hogy a fehérjék térszerkezete konzervatívabb, mint az aminosav szekvencia. A szekvenciák hasonlóságára lefordítva ez azt jelenti, hogy azok a fehérjék, amelyek szekvenciális azonossága 25-30% felett van nagyon nagy valószín˝uséggel azonos szerkezet˝uek (Orengo és mtsi., 1994). Az MRP1 az 1996-ban ismert ABC transzporterek közül a humán cisztikus fibrózis transzmembrán kon37
Az MRP rokon fehérjék és membrántopológiájuk duktancia regulátorral (CFTR) mutatott nagy szekvenciális azonosságot, amely a szekvencia illesztés paramétereit˝ol függ˝oen 23-25%-nak adódott. Ennek alapján feltételezhet˝o volt, hogy a két fehérje szerkezete, így transzmembrán topológiája hasonló, és ennek a hidrofóbicitási görbéken meg kell mutatkoznia. Ezért a két fehérje Kyte-Doolittle féle hidrofóbicitási görbéjét úgy készítettem el, hogy azokat a ClustalW (Higgins, 1994) programmal készített szekvencia illesztésnek megfelel˝oen illesztettem is egymáshoz (6. ábra). A CFTR esetében az ABC transzporterekre általánosan jellemz˝o 6-6 transzmembránhélixet tartalmazó topológiát kísérletileg is alátámasztották (Chang és mtsi., 1994), amelyeket az ábrán a piros területek jeleznek. Ezeket a régiókat az MRP1 görbéjére levetítve az látható, hogy a CFTR transzmembránhélixeinek megfelel˝o pozíciókban valamennyi esetben nagy hidrofóbicitású szekvenciadarab található az MRP1-ben. Ennek alapján feltételezhet˝o volt, hogy az MRP1 két transzmembrándoménje a CFTR-hez hasonlóan 6-6 transzmembránhélixet tartalmaz. A szekvencia illesztés azt is megmutatta, hogy az MRP1 N-terminális, kb.
200 aminosavnyi része a CFTR-ben nem található
meg, és a hidrofóbicitási görbe tanúsága szerint ez a régió szintén membránkötött. Az MRP1
CFTR
0.8 0.6 Hidrofóbicitás
0.4 0.2 0.0 -0.2 -0.4
1
200
Aminosav szekvencia 400 600 800
-0.6 1000
1200
1400
0.8
MRP
0.6
Hidrofóbicitás
0.4
1
200
400
600
Aminosav szekvencia 800 1000
0.2 0.0 -0.2 -0.4
1200
1400
6. ábra. A humán MRP1 és a humán CFTR szekvencia illesztése alapján készített hidrofóbicitási görbéje
38
Az MRP rokon fehérjék és membrántopológiájuk hidrofóbicitási görbéje alapján a transzmembránhélixek száma ebben a szakaszban nem határozható meg pontosan – 4,
5 vagy 6 lehet –, azonban a kés˝obbi vizsgálatok azt mutatták (lásd lejjebb), hogy ebben a régióban 5 transzmembránhélix található. A humán MRP1 és a humán CFTR szekvencia vizsgálata alapján azt javasoltuk tehát, hogy a fehérje 3 nagy membránkötött régiót tartalmaz, amelyek közül az N-terminális rész az MRP1-re jellemz˝o és vélhet˝oleg 5 transzmembránhélixet foglal magába, míg a C-terminális felé es˝o két transzmembrándomén az ABC transzporterekre általánosan jellemz˝o topológiájú. Az N-terminális transzmemrándomént TMD0 -nak, míg a másik két membránkötött régiót TMD1 -nek és TMD2 -nek neveztük el. A kisérleti eredmények ezt a modellt alátámasztották, ugyanakkor azok az eredeti membrántopológiai modellel nem voltak összeegyeztethet˝ok. Az általunk kidolgozott modell helyességét cikkünk megjelenését követ˝oen két kutató csoport kísérleti eredményei teljes mértékben igazolták (Hipfner és mtsi., 1997; Kast és Gros, 1997, 1998). Az egyik vizsgálatban a fehérje feltételezett extra- és intracelluláris hurkaiba influenza hemagglutinin epitópot építettek be, majd az ép és permeabilizált mutáns fehérjéket termel˝o drogrezisztens sejteken vizsgálták az antitest köt˝odését. A beépített epitópok lokalizációja minden esetben megegyezett a modellünk szerinti inta-, vagy extracelluláris elhelyezkedéssel. A másik kísérletsorozatban a feltételezett glikozilációs helyeket változtatták meg, és vizsgálták a mutánsok glikoziláltságát. Azt találták, hogy azokban a feltételezett glikolizációs helyeken glikolizálódik a fehérje, amelyek modellünk szerint extracelluláris elhelyezkesés˝uek, míg az eredeti modell szerint ezek közül a helyek közül két esetben a glikolizációs hely intracelluláris elhelyezkedés˝u, ami természetesen nem lehetséges. A fehérje további vizsgálata során arra a kérdésre kerestük a választ, vajon az el˝obb ismertetett transzmembrán topológia csak az MRP1-re jellemz˝o, vagy más ABC transzporterekre is. Ezért elkészítettem az ABC transzporterek szekvenciális hasonlósági viszonyait tükröz˝o dendrogramot a PILEUP program segítségével (Feng és Doolittle, 1987), és ezzel párhuzamosan valamennyi fehérje hidrofóbicitási görbéjét is felrajzoltam (von Heijne, 1992). A görbék vizsgálata azt mutatta, hogy a családon belül számos fehérjét az MRP1 hidrofóbicitási görbéjéhez hasonló lefutású görbe jellemez, és ugyanakkor ezek a fehérjék a dendrogramon mind az MRP1hez állnak közel, ugyanúgy, ahogy a különböz˝o MDR-ek és CFTR-ek is egy-egy csoportot alkotnak. A 7. ábra A részén az ABC család tagjai közül az MDR és CFTR rokon szekvenciákat a jobb áttekinthet˝oség kedvéért egy-egy ággal jelöltem csak. Az ábra B részén a kiválasztott fehérjék hidrofóbicitási görbéit úgy rendeztem össze, hogy a két nukleotid köt˝o doménben (ABC1 és ABC2 ) található konzervatív Walker-A szekvenciák (WaA1 és WaA2 ) pontosan egymás alá
kerüljenek. Jól látható, hogy a humán MDR1 és humán CFTR 6-6 transzmembránhélixet tartalmazó membránkötött részeinek megfelel˝o régiókban valamennyi a humán MRP1 körül talál39
Az MRP rokon fehérjék és membrántopológiájuk
A
WaA1
B MDR szekvenciák
CFTR szekvenciák
WaA2
MDR1_HUMAN
CFTR_HUMAN
EBCR_RABBIT
MRP2_RAT MRP2_HUMAN MRP1_MOUSE
MRP1_HUMAN MRP1_CAEEL
YCFI_YEAST
SUR1_HUMAN
SUR1_RAT SUR2_RAT
10 20 30 40 50 60 70 80 90 100 % azonosság
TMD0
TMD1
ABC1 + R
TMD2
ABC2
7. ábra. Az MRP alcsalád. A, a humán MRP1 szekvenciájához hasonló fehérjék valamint az MDR-ek és CFTRek szekvenciális rokonságát mutató dendrogram. B, Az MRP rokon szekvenciák valamint az MDR1 és CFTR illesztett hidrofóbicitási görbéje ható fehérje tartalmaz 6-6 nagy hidrofóbicitású részt (az ábrán pirossal jelölt területek), továbbá, hogy az MRP1-hez hasonlóan ezeknek a fehérjéknek az N-terminálisán minden esetben található egy szintén nagy hidrofóbicitású kb.
200 250 aminosavból álló szekvencia, ami sem a
különböz˝o MDR-ekben, sem a CFTR-ekben nem található meg. A szekvencia illesztés alapján ezen a szakaszon a szekvenciák azonossága a legkisebb (15-20%), a hidrofóbicitási görbék azonos alakja alapján azonban feltételezhet˝o, hogy – ahogy a TMD1 és a TMD2 konzerválódott szerkezet˝u rész – a TMD0 topológiája szintén meg˝orz˝odött a különböz˝o MRP1 rokon fehérjék körében. A rokon szekvenciák közül a patkány SUR1 fehérje esetében bizonyították, hogy a fehérje N-terminális részén található potenciális glikozilációs helyen a fehérje valóban glikozilálódik, azaz az N-terminális a küls˝o oldal felé néz (Aguilar-Bryan és mtsi., 1995). Az MRP rokon szekvenciák N-terminális szekvenciáinak a vizsgálata azt is megmutatta, hogy a fehérjék els˝o
25 aminosavnyi részében minden esetben találunk egy potenciális glikozilálási 40
Transzmembrán fehérjék topológiájának becslése szekvencia motivumot (NxS=T , ahol
x bármely aminosav, kivéve prolin), és ez egyben arra
utalt, hogy a TMD0 5 transzmembránhélixet tartalmaz. Összefoglalva: a többszörös szekvencia illesztések és az illesztett hidrofóbicitási profilok vizsgálata alapján azt találtuk, hogy az ABC családon belül számos fehérje az MRP1-gyel egy külön csoportot alkot, amit MRP alcsaládnak neveztünk el. Az alcsaládba tartozó valamennyi fehérje tartalmaz egy az MDR-ek és CFTRek szekvenciáiban nem szerepl˝o N-terminális kb. membránkötött, és valószín˝uleg
200-250 aminosavnyi részt, amely szintén
5 transzmembránhélix található benne.
A fehérjék többi, az
MDR-ek és CFTR-ekben is megtalálható részét pedig az ABC transzporterekre általánosan jellemz˝o 6 + 6-os transzmembrán topológia jellemzi. Ebbe a családba kerültek az irodalmi bevezet˝oben ismertetett fehérjék, a különböz˝o fajokból származó MRP1-ek és MRP2-k, valamint a szulfonilurea receptorok és az éleszt˝o kadmium rezisztenciájáért felel˝os YCF1. Ezeken túlmen˝oen a különböz˝o genomprojektek által meghatározott szekvenciákban számos az alcsaládba tartozó, de még nem jellemzett fehérjét találtunk, és az EST (Expressed Sequence Tag) adatbázisban lev˝o MRP rokon szekvenciák nagy száma is azt jelzi, hogy az alcsalád még sok taggal fog b˝ovülni. Meg kell jegyezni, hogy ezekre a fehérjékre, bár valamennyi esetben megmutatták az MRP1-gyel való rokonságukat, mégis más és más topológiát javasoltak szekvenciájuk meghatározásakor: a nyúl EBCR és patkány MRP2 esetében
8 + 4, a patkány SUR1-ben 9 + 4, az YCF1-ben 6 + 6, az A. thaliana MRP1-ben
7 + 5 transzmembránhélixet. Fontos továbbá megjegyezni, hogy ezek a fehérjék képesek nagy organikus anionokkal kölcsönhatni vagy azokat transzportálni, így feltételezhet˝o, hogy ebben a kölcsönhatásban az alcsaládra jellemz˝o N-terminális rész, vagy annak egy része fontos szerepet játszik.
5.3. Transzmembrán fehérjék topológiájának becslése 5.3.1. A rejtett Markov modell A Célkit˝uzésekben vázolt feltételezés igazolására, és egyben a transzmembrán fehérjék topológiájának becslésére egy speciális szerkezet˝u rejtett Markov modellt dolgoztam ki. A modell kialakításánál megpróbáltam a transzmembrán fehérjékr˝ol a lehet˝o legtöbb eddig megismert információt felhasználni, valamint az adatbázis elemzésével újabb tulajdonságokat feltárni. Az ismert topológiájú, kísérletekkel alátámasztott transzmembrán fehérjékben a transzmembránhélixek eloszlását vizsgálva a szekvencia mentén, azt találtam, hogy azok eloszlása nem követi a véletlen esetben várt eloszlást, úgy t˝unik, hogy a transzmembránhélixek szeretnek csoportokat alkotni. A transzmembránhélixek közötti szekvenciadarabok, illetve a szekvencia citoszolikus és extra-citoszolikus terminális régióinak hosszúság eloszlását mutatja be a 8. ábra. Az ábrán 41
Transzmembrán fehérjék topológiájának becslése 25
Gyakoriság
20
15
10
5
0 0
10
20
30
40
50
60
70
80
90
A szekvencia darabok hossza
8. ábra. A transzmembránhélixek közötti szekvenciadarabok hosszúság eloszlása a vizsgált fehérjékben (piros görbe), illetve akkor, ha a transzmembránhélixeket véletlen módon helyezzük el a fehérjékben (kék görbe)
feltüntettem a véletlen esetben várt geometriai eloszlást is. A véletlen esetet úgy modelleztem, hogy az adatbázisban lev˝o transzmembrán fehérjék membránhélixeit véletlen módon helyeztem el a szekvenciákban, így a transzmembránhélixek darabszáma a két görbe estében megegyezik.
30 aminosavnál rövidebb szekvenciadarabok gyakorisága nagyobb a geometriai eloszlás esetén várt értékeknél, míg a 30 aminosavnál nagyobb szekvenciák esetében a
Jól látható, hogy a kb.
görbe lefutása hasonlít a véletlen esetben várt görbéhez. Ez az eloszlás a transzmembránhélixek közötti hurkok kett˝os szerepével magyarázható: a hosszabb régiók valószín˝uleg önálló globuláris doménok, míg a rövidebbek a transzmembránhélixek összekötésében, stabilitásában, illetve a globuláris részekkel való kapcsolatteremtésben játszhatnak szerepet. A hurkok hosszúság eloszlását figyelembevéve a transzmembrán fehérjék topológia becslésének pontossága minden bizonnyal növekedni fog. Az irodalmi áttekintésben említettem, hogy a membránokban található lipidek eloszlása aszimmetrikus. A foszfolipidek gyakorisága nagyobb a kett˝os lipidréteg citoszolikus oldalán, ugyanakkor a glikolipidek az extra-citoszolikus oldalon gyakoriabbak (Bergelson és Barsukov, 1977; Rothman és Lenard, 1977). A negatív töltés˝u foszfolipidek meghatározzák a transzmembránhélixek irányát a membránhoz képest, a negatív feji rész és a transzmembránhélixeket követ˝o pozitívan töltött aminosavak kölcsönhatásának révén (van Klompenburg és mtsi., 1997). 42
Transzmembrán fehérjék topológiájának becslése
Külso˝ hurok (K) Külso˝ hélixvég (k)
Hélix
Hélix
Hélix
Hélix
Hélix
Hélix
Külso˝ oldal Membrán Belso˝ oldal Belso˝ hélixvég (b) Belso˝ hurok (B)
Aminosav szekvencia: Állapot szekvencia:
MALRGFCSADGSDPLWDWNVTWNTSNPDFTKCFQNTVLVWVPCFYLWACFP... kkkkkkkkHHHHHHHHHHHHHHbbbbbBBBBBBBBBbbbbbHHHHHHHHHH...
9. ábra. Transzmembrán fehérjék szerkezeti részei és a rejtett Markov modell állapotai
A citoplazma plazmamembránhoz közeli részeinek magas fehérje- és ionkoncentrációja szintén régóta ismert. Mindezek alapján várható, hogy a membránhoz térben közel lev˝o szekvenciadarabok, azaz a transzmembránhélixek közötti rövid hurkok, illetve a hosszabb hurkok hélixek felé es˝o részei más környezetben vannak, ezért ezeknek a régióknak az aminosav összetétele különbözik a fehérje többi részében megfigyelhet˝o aminosav összetételt˝ol. A modellben használt rejtett állapotok a fehérjék egyes térszerkezeti részeinek felelnek meg (9. ábra), melyek a következ˝ok: bels˝o hurok, bels˝o hélixvég, membránhélix, küls˝o hélixvég és küls˝o hurok állapot. A membránhélix állapot a membránba ágyazott régióknak felel meg, a hurok állapotok a transzmembránhélixek közötti hosszabb szekvenciadarabokat jelentik, amelyek intra- vagy extracelluláris doménokat, vagy egyszer˝ubb szerkezeteket képezhetnek, a hélixvég állapotok pedig a membránhélixek el˝otti és utáni rövid szekvenciadarabok a membránon kívül. A hélixvég állapotot követheti hurok állapot, ilyenkor két transzmembránhélix között egy hosszú hurok képz˝odik, vagy egy újabb, a hurok állapotot kihagyva, a következ˝o membrénhélix el˝otti hélixvég állapot. Ebben az esetben két transzmembránhélix között egy rövid hurok keletkezik, mely a kett˝os lipidréteg küls˝o, vagy bels˝o oldalával kerülhet kölcsönhatásba. Meg kell jegyezni, hogy az állapotok ilyen rendszere a rejtett Markov modellben nagyon hasonlít Jones 43
Transzmembrán fehérjék topológiájának becslése
K
k
MAXLk
Hurok
1
Hélixvég
MINLk
MINLk
Hélixvég
H
1
Külso˝ oldal MAXLk
MAXLH
1
k
Hélix
MINLH
MINLH
Hélix
b
Membrán
1
MAXLH
MAXLb
Belso˝ oldal
1
H
Hélixvég
MINLb
MINLb
Hélixvég
1
B
MAXLb
b
Hurok
10. ábra. A transzmembránhélix predikcióhoz kidolgozott rejtett Markov modell architektúrája. A négyszögek adott hosszúságú típusú, a hatszögek a változó hosszúságú típusú állapotokat jelölik. Az azonos kijelz˝o valószín˝uségeket használó állapotokat azonos színnel jelöltem. Az állapotok és alállapotok közötti lehetséges átmeneteket a nyilak és vonalak mutatják
és mtsi. (1994b) által javasolt modellhez, a lényeges különbség a két modell között abban áll, hogy az általuk hélix sapkának nevezett szerkezeti rész, amely itt a hélixeket követ˝o hélixvég állapotnak felel meg, a membránon belül található, és éppen ezért két hélixsapka állapot között mindig van egy hurok régió. Az általam javasolt felosztás el˝onyeire a 5.3.3. fejezetben térek vissza. Az állapotok közötti lehetséges átmeneteket, az átmeneti mátrix szerkezetét úgy választottam meg, hogy az el˝obb említett speciális szekvenciahossz eloszlásokat a modell generálni tudja (10. ábra). A membránhélixek közötti hurkok hosszúságaiban látható különbséget – a 30 aminosavnál rövidebb, és az annál hosszabb hurkok esetében – úgy tudtam figyelembe venni, hogy az állapotok közötti lehetséges átmenetek leírásához kétféle típust definiáltam az adott 44
Transzmembrán fehérjék topológiájának becslése hosszúságú (AH) és a változó hosszúságú (VH) állapotot. Az utóbbi esetben kétféle lehetséges átmenet létezik: vagy ugyanabba az állapotba, amelyikben éppen tartózkodik a rendszer, és ezáltal az állapot hosszúsága egy aminosavval növekszik, vagy a következ˝o állapotba. Ezzel az egyszer˝u szerkezettel biztosítható, hogy a VH típusú állapotok hosszúsága geometriai eloszlást kövessen, és ezért a hurok állapotok esetében alkalmaztam ezt a típust. Az adott hosszúságú típust a membránhélix, illetve a hélixvég állapotok leírására használtam. Ebben a típusban az állapotok között MAXL számú alállapotot különböztetek meg, és az egyes alállapotok közötti lehetséges átmenetek speciális szerkezetével biztosítom a kívánt hosszúságeloszlások modellezését (részletesen lásd 4.3.1. fejezetben). A következ˝o állapotot minden egyes állapot esetében úgy határoztam meg, hogy a rejtett Markov modell automatikusan csak valóságos transzmembrán fehérjéket szolgáltasson. Így egy bels˝o hurok után bels˝o hélixvég állapot a következ˝o, azután membránhélix állapot, azután küls˝o hélixvég állapot, stb. A kijelz˝o valószín˝uségeket az ötféle állapotban különböz˝onek vettem, de az egyes alállapotok belül, illetve a membrán azonos oldalán lev˝o membránhélix el˝otti és utáni hélixvég állapotokban azonosnak. A predikció menete három f˝o lépésb˝ol áll. El˝oször a modell indulási paramétereit – az induló, kijelz˝o és átmeneti valószín˝uségeket – kell megadni. Ezeket a valószín˝uségeket választhatjuk tetsz˝olegesnek is, vagy valamilyen el˝ore meghatározott paraméter készletet használhatunk. A második lépés a paraméterek optimalizálása az adott szekvencián, vagy homológ szekvenciákon, mint megfigyelési sorozatokon. A harmadik lépés az optimalizált paraméterek felhasználásával a legjobb állapot szekvencia megkeresése az un. Viterbi algoritmus segítségével. Ez az állapotsorozat jelenti a predikciót, amely megadja minden egyes aminosavra annak lokalizációját. A rejtett Markov modell és az alkalmazott eljárások leírása a Módszerekben, illetve a Függelékben található. A predikció eredménye az indulási paraméterek választására érzékeny, mivel a szekvenciák terében definiált valószín˝uségi függvénynek – amelynek a globális maximum helye adná a predikciót – rendkívül sok lokális maximum helye van és az alkalmazott optimalizálási eljárás (Baum-Welch algoritmus) csak az indulási pont közelében lev˝o lokális extrémum helyet képes megtalálni. Emiatt minden egyes predikciót ugyanannak a paraméter készletnek a felhasználásával indítottam. Ezeket a valószín˝uségeket a kísérletileg megfelel˝oen alátámasztott topológiájú fehérjék adatait felhasználva készítettem, természetesen ügyelve arra, hogy azokat a fehérjéket ne használjam fel a paraméterek el˝oállítására, amelyek szekvenciális hasonlóságot mutatnak a becsülni kívánt fehérjével. Az alkalmazott eljárás nagy el˝onye, hogy homológ szekvenciákból származó információt is fel lehet használni a valószín˝uségek optimalizálásánál anélkül, hogy el˝oz˝oleg a szekvenciákat összerendeznénk. Mivel a transzmembránhélixek szekvenciáinak konzervativitása rendkí45
Transzmembrán fehérjék topológiájának becslése vül alacsony, ezért a szekvencia illesztés pontatlansága a predikció pontosságát csökkentheti. Ugyanakkor a több megfigyelés – a homológ szekvenciák – a predikció pontosságát nyilvánvalóan növeli. 5.3.2. A predikció pontossága A rejtett Markov modell pontosságát az irodalomban már korábban összeállított három különböz˝o fehérjehalmazon teszteltem. Ezek a következ˝ok (lásd 4.1.2. fejezet): 83TMP halmaz (Jones és mtsi., 1994b), 48TMP (Rost és mtsi., 1996) és prokTMP (Cserz˝o és mtsi., 1997) halmaz. Homológ szekvenciákat felhasználva a predikcióhoz a három adathalmazon becsült topológiák pontossága a 5. táblázatban látható. A három halmazon minden esetben a transzmembránhélix-
98% felett volt, a három halmazra összesen a valódi 698 hélix helyett egy pici túlbecsléssel 709 hélixet predikált az algoritmus, melyb˝ol 694 egyezett a megfigyelt
ek találati pontossága
transzmembránhélixek szekvencián belüli helyével. Az aminosavszint˝u egyezés pontossága a három halmazra összesen
94% felett volt.
Azoknak a fehérjéknek a száma, amelyben minden
egyes transzmembránhélix lokalizációja helyesen történt,
45=47 (96%)
a 48 TMP halmazon és
38=44 (86%)
74 volt a 83TMP halmazon (89%),
a prokTMP halmazon. Azoknak a fe-
hérjéknek a száma, amelyekben a transzmembránhélixek pontos egyezése mellett a fehérje topológiáját, az N-terminális küls˝o vagy bels˝o oldalon való elhelyezkedését is helyesen adta
72=83 (87%), 43=47 (91%), illetve 32=44 (73%) 158 fehérje esetében 135 (85%) volt. Ez az érték az ed-
meg a predikció szintén igen magas volt: az egyes halmazokon, az összes
digi legmagasabb az irodalomban található predikciós eljárások közül. A becsült és a valódi transzmembránhélixek pozíciója, illetve a
158 fehérje becsült és talált topológiája részletesen
megtalálható a http://www.enzim.hu/hmmtop/appendix.html internet cím alatt. A teljes genomok vizsgálata során olyan eljárásokra van szükség, amelyek homológ szekTranszmemrán hélixek száma Adathalmaz Nobs Nprd Ncor QP(%)
Q2
Helyesen becsült fehérjék száma NTOT NTM NTT QT(%)
83TMP
346
353
344
98.4
94.9
83
74
72
87
48TMP
194
197
194
99.2
94.6
47
45
43
91
prokTMP
262
264
259
98.5
89.8
44
38
32
73
Összesen
698
709
694
98.7
94.2
158
143
135
85
5. táblázat. A rejtett Markov modellen alapuló transzmembrán topológia becsl˝o eljárás pontossága. Nobs , Nprd
és N or a megfigyelt, becsült és helyesen becsült transzmembránhélixek száma; QP ezek alapján számolt pontosság (lásd 4.3.4. fejezet); Q2 az aminosav szint˝u egyezés pontossága; NTOT , NTM , NTT és QT az adathalmazban lev˝o fehérjék száma, azoknak a fehérjéknek a száma, amelyben az összes transzmembránhélixet helyesen becsülte, azoknak a fehérjéknek a száma, amelyben a topológiát is helyesen adta meg az eljárás, illetve ez utóbbi százalékban (QT = 100 NTT =NTOT )
46
Transzmembrán fehérjék topológiájának becslése venciális információkat nem használnak fel. Ezért a becslés pontosságát homológ szekvenciális információk felhasználása nélkül, egyedi szekvenciákat alkalmazva is meghatároztam. Természetesen ebben az esetben a becslés pontossága alacsonyabb, azonban az irodalomban található egyéb szintén csak egyedi szekvenciális információt felhasználó eljárásokkal összevetve a kapott eredményeket, a módszer pontossága kimagasló. A három adathalmazon
714 hélixet
predikált az algoritmus, amelyb˝ol 689 volt helyes pozícióban, azaz csak 5 hélixszel kevesebb,
158 fehérjéb˝ol 131 fehérjében egyezett minden transzmembránhélix pozíciója, melyekb˝ol 124 fehérjében (78%) a topológiai is megegyezett
mint a többszörös szekvenciák esetében. A
a megfigyelttel. Ez az érték sokkal nagyobb, mint a hidrofóbicitási görbék analízisén alapuló eljárások predikciós pontossága, mely ezen a három halmazon 60
65%.
A 5. táblázatban látható, hogy a legkisebb pontosságot a prokTMP halmazon nyújtja az eljárás. Ennek egyfel˝ol lehet az az oka, hogy a prokarióta transzmembrán fehérjék topológiájának kialakulása más szabályok, mechanizmusok alapján történik, mint az eukarióta fehérjéké, de meg kell azt is jegyezni, hogy ebben a halmazban található a legtöbb olyan fehérje, amelyek topológiáját, a transzmembránhélixek lokalizációját igazoló kísérletek eredményei, illetve az azokból levont következtetések megkérd˝ojelezhet˝ok. Jó példa erre a citokróm d terminális oxidáz I-es és II-es alegységének esete (CYDA_ECOLI és CYDB_ECOLI). Ezeknek a fehérjéknek a topológiáját igazoló eredeti cikkben (Georgiou és mtsi., 1988) a szerz˝ok szerint más, független kísérletekkel alá kell támasztani eredményeiket. Kés˝obbi eredmények alapján csak annyi bizonyítható, hogy a
239 és 393-as pozíciók között a fehérje tartalmaz intracelluláris régiót
(Dueweke és Gennis, 1990, 1991), azonban a kísérletek alapján nem zárható ki, hogy ebben a régióban a fehérje kétszer átszeli a membránt, ahogy azt a rejtett Markov modellen alapuló becslés adja. Szintén nem lehet a kísérleti eredmények alapján különbséget tenni ugyanennek a fehérjének a II. alegységére becsült, és a hidrofóbicitási görbe analízise alapján korábban elfogadott topológia között. A citokróm o terminális oxidáz 5 alegysége közül kett˝o esetében a kísérleti adatok (Chepuri és Gennis, 1990) nem mondanak ellent a rejtett Markov modell által predikált topológiának. A komplex I-es alegységénél a kísérletek nem bizonyítják, hogy a fehérjelánc utolsó feltételezett transzmembránhélixe valóban átmegy-e a membránon, az E alegység esetében pedig a citokróm d I-es alegységéhez hasonlóan nem zárható ki, hogy a feltételezett negyedik és ötödik transzmembránhélix között két további membránhélix található, ahogy azt a rejtett Markov modellen alapuló predikció mutatja. 5.3.3. A predikciós módszerek összehasonlítása A különböz˝o megfigyeléseken, feltételezéseken nyugvó topológia becsl˝o eljárások összehasonlítása alapján közetkeztethetünk a transzmembrán fehérjék szerkezetét els˝odlegesen meghatá47
Transzmembrán fehérjék topológiájának becslése
Adathalmaz 83TMP
Eljárás TOPPRED MEMSAT HMM1 PHDhtm_ref
Transzmemrán hélixek száma Helyesen becsült fehérjék száma Nprd Ncor QP(%) NTOT NTM NTT QT(%) Nobs 346
HMMmulti
48TMP
MEMSAT TOPPRED HMM1 HMMmulti
194
PHDhtm_ref
prokTMP
PHDhtm_ref MEMSAT TOPPRED HMM1
262
HMMmulti
Összesen
TOPPRED MEMSAT HMM1 PHDhtm_ref HMMmulti
698
381 351 358 351
336 336 342 342
92.5 96.4 97.2 98.1
353
344
98.4
174 200 198 197
165 193 192 194
89.8 98.0 98.0 99.2
192
192
99.5
259 255 264 264
254 250 255 258
97.5 96.7 97.0 98.1
264
259
98.5
740 673 714 699
681 647 689 685
94.8 94.4 97.6 98.1
709
694
98.7
83
47
44
158
54 69 68 75
54 65 66 73
65 78 80 81
74
72
87
26 40 40 45
23 25 39 43
49 53 83 91
45
42
89
31 33 32 36
28 29 30 30
64 66 68 68
38
32
73
112 114 131 136
95 103 124 128
60 65 78 81
143
135
85
6. táblázat. A transzmembrán fehérjék topológiáját becsl˝o eljárások pontossága a három adathalmazon. Az egyes oszlopok jelentése megegyezik az 5. táblázatban lev˝o oszlopok jelentésével
rozó elvekre. Ebb˝ol a célból a rejtett Markov modellen alapuló eljárást három más becsl˝o módszerrel vetettem össze. A TOPPRED eljárás (von Heijne, 1992) a legnagyobb pontosságú hidrofóbicitási görbék analízisén nyugvó módszer, amelynek pontosságát a már említett belülpozitív szabály felhasználásával növelték, és ennek a szabálynak az alkalmazásával a fehérjék topológiáját is meg tudták becsülni. A MEMSAT (Jones és mtsi., 1994b) eljárás az általam is használt 83TMP halmaz fehérjéinek statisztikai vizsgálata alapján felállított, a transzmembrán fehérjék ötféle szerkezeti részében lev˝o (membránhélix, küls˝o és bels˝o hurok, küls˝o és bels˝o hélixsapka) aminosavak logaritmált valószín˝uségeit felhasználva, egy dinamikus programozási eljárás segítségével határozza meg a legjobb (legvalószín˝ubb) topológiát. Valójában ez az eljárás a rejtett Markov modellen alapuló eljárás utolsó lépése, a valószín˝uségek ismeretében a legjobb állapot sorozat megtalálása a Viterbi algoritmust felhasználva. (Meg kell azonban jegyezni, hogy az általuk javasolt dinamikus programozási eljárásban – mivel nem a rejtett Markov modellt használták –, nem szerepelnek az induló és átmeneti valószín˝uségek.) A harmadik eljárás, amellyel az eredményeket összevettem, az irodalomban található (eddigi) legpontosabb eljárás volt, a PHDhtm_ref (Rost és mtsi., 1996), amely egy mesterséges ideghálózat tanítását 48
Transzmembrán fehérjék topológiájának becslése követ˝oen és a belül-pozitív szabály alkalmazásával határozza meg a fehérjék topológiáját. Ennek a három eljárásnak a pontosságát a három fehérjehalmazon teszteltem, az eredmények a 6. táblázatban láthatók. Mivel a transzmembránhélixek találati pontossága (QP ) mindegyik eljárásban magas (az összesített fehérjehalmazon nagyobb mint
94%), ezért célszer˝u a
becslések pontosságát azoknak a fehérjéknek a számával mérni, amelyekben az összes transzmembránhélix helyét (NT M ) pontosan adja meg az adott eljárás, illetve amelyekben a topológiát (NT T és QT ) is helyesen jelzi a becsl˝o módszer. A három eljárás közül az els˝oként kifejlesztett
TOPPRED módszer pontossága a legkisebb, és ennek a módszernek a túlbecslése szembet˝un˝o (Nprd
= 740).
Ennek az lehet a magyarázata, hogy a fehérjék globuláris részeinek bels˝o hid-
rofób magját a hidrofóbicitási görbék alapján nem lehet minden esetben megkülönböztetni a membránt átszel˝o szakaszoktól. A belül-pozitív szabály ugyan növeli a becslés pontosságát, de a töltött aminosavak eloszlásának a figyelembe vétele várhatóan kevésbé pontos eredményeket ad, mintha az összes aminosav eloszlását vennénk figyelembe. Emiatt nagyobb a MEMSAT eljárás pontossága, mert ebben az eljárásban az ötféle szerkezeti részben lev˝o aminosavak teljes eloszlását figyelembe veszik. A TOPPRED és MEMSAT eljárások pontossága a 48TMP fehérje halmazon egészen alacsony. Ennek valószín˝uleg az lehet a magyarázata, hogy ebben a halmazban több homológ fehérje található (pl. GABA-receptor alegységek, vagy a TM4 szupercsalád tagjai). A MEMSAT eljárás és az általam kifejlesztett eljárás pontosságában lev˝o különbség egyik oka az lehet, hogy vélhet˝oleg az egyes transzmembrán fehérjék különböz˝o szerkezeti részeinek aminosav gyakoriságai fehérjér˝ol fehérjére változnak, így mindegyik fehérje esetében ugyanazt az eloszlást használva kevésbé pontos predikciót kapunk, mintha ezeket az eloszlásokat engedjük változni a különböz˝o fehérjék esetében. A rögzített aminosav gyakoriságok használata esetén kevesebb transzmembránhélixet fog becsülni az eljárás (ez látható is a 6. táblázatban), ugyanis ha egy transzmembránhélixben több olyan aminosav is található, amely általában kevésbé fordul el˝o a transzmembránhélixekben, akkor ezt a szegmenst rögzített valószín˝uségeket használva nem, míg a rejtett Markov eljárás segítségével megtalálhatjuk. Ez a jelenség jól megfigyelhet˝o a következ˝o példán. A 7 transzmembránhélixet tartalmazó bakteriorodopszin D hélixében a hidrofób aminosavakat egyesével töltött, illetve poláris aminosavakra cserélték ki, és a mutált fehérjék szerkezetének épségét a fotoabszorpció megmaradásával mutatták ki (Chen és Gouaux, 1997). Azt találták, hogy a fehérje még öt aminosav (négy glutamin és egy aszparaginsav) kicserélése után is képes az abszorpcióra (bár az ötödik glutamin bevitele er˝osen csökkentette azt), azaz a fehérje meg˝orizte funkcióképes szerkezetét, a mutációk bevitele után a D hélix továbbra is a membránba ágyazódik. A MEMSAT eljárást alkalmazva ezeknek a mutánsoknak az esetében, az eljárás helyesen becsülte az egy és két glutamin cserét tartalmazó 49
Transzmembrán fehérjék topológiájának becslése mutáns fehérjék szerkezetét, azonban a több aminosav cserét tartalmazó fehérjék szerkezetét már nem. Ezzel szemben a rejtett Markov eljárás még a négy glutamint tartalmazó mutáns szerkezetét is helyesen becsülte. A MEMSAT és a rejtett Markov eljárás pontosságában lev˝o különbség a szerkezeti egységek eltér˝o definíciójából is adódhat. Mint korábban említettem, a két definíció közötti lényeges különbség, hogy a MEMSAT eljárásban a membránhélixet megel˝oz˝o és követ˝o szekvenciadarab, a hélixsapka modellük szerint szintén a membránban található, és ennek megfelel˝oen a membránhélix állapot hosszúsága rövidebb. A MEMSAT eljárásban lev˝o felosztás azon a megfigyelésen alapul, hogy a transzmembránhélixek középs˝o részében az alifás aminosavak gyakorisága nagyobb, míg a membrán széleinél, a lipid molekulák poláris feji részeivel kölcsönhatva az aromás aminosavak gyakorisága nagyobb. Ez a megfigyelés azonban nem nyújt többlet információt a transzmembránhélixek elhelyezkedésér˝ol, és különösképpen azoknak a membránhoz való viszonyáról, a topológiáról. Ezt a feltételezést támogatja az a megfigyelés, hogy a rejtett Markov eljárásban a modell paramétereit a MEMSAT módszerben alkalmazott paramétereknek választva a becslés pontossága a MEMSAT eljárás pontosságára csökkent. Az összesített fehérje halmazon, csak egyedi szekvenciákat használva a predikcióhoz, a MEMSAT eljárás felosztását használva – a membránhélix állapot minimális hosszát 9-nek, maximá-
lis hosszát 17-nek, a hélixvég állapotok hosszát pedig 4-nek választva – a módszer 658 hélixet
predikált, amelyb˝ol 644 volt helyes. A MEMSAT eljárásban ezek az értékek 673 és 647 voltak
(6. táblázat). A teljesen jól becsült szerkezet˝u fehérjék száma
124-r˝ol 100-ra csökkent, ami
jól egyezik a MEMSAT eljárás által kapott eredménnyel (103). Ezek a kísérletek azt mutatják, hogy a membrán közelében lev˝o vizes fázisban lev˝o szekvenciarészeknek fontos szerepük van a transzmembrán fehérjék szerkezetének kialakításában, valószín˝uleg a lipid feji részekkel és az azok közelében lev˝o fehérjékkel és ionokkal való kölcsönhatások révén. A PHDhtm_ref eljárás pontossága sokkal nagyobb, mint a MEMSAT és TOPPRED eljárásoké, ami egyrészt az alkalmazott eljárás nagyobb hatékonyságának, másrészr˝ol a homológ szekvenciák használatának tulajdonítható. A transzmembrán fehérjék illesztése után való predikció pontosságát azonban az illesztés pontossága is befolyásolja, ezért a transzmembránhélixek szekvenciáinak nagyon alacsony konzervativitása a predikció pontosságát csökkentheti. Éppen emiatt, ha a szekvencia illesztési lépés elhagyásával tudjuk a többszörös szekvenciális információt figyelembe venni, az a becslés pontosságának növekedéséhez vezet. Ez lehet az egyik magyarázata annak, hogy miért nagyobb a rejtett Markov eljárás pontossága. A PHDhtm_ref eljárás másik hiányossága, hogy az egyes szerkezeti részek hosszúságait nem tudja helyesen kezelni, valamint a hélixeken kívüli részeket nem veszi figyelembe, emiatt a topológia becsléséhez a belül-pozitív szabályt alkalmazza. Meg kell azt is jegyezni, hogy az alkalmazott mesterséges 50
Transzmembrán fehérjék topológiájának becslése ideghálózat – amely nagyban megnöveli a módszer pontosságát – nem nyújt számunkra semmilyen általánosan hasznosítható információt a transzmembrán fehérjék szerkezetét meghatározó elvekr˝ol. 5.3.4. A hipotézis igazolása A Célkit˝uzésekben vázolt feltételezés szerint a transzmembrán fehérjék topológiáját a fehérjék a sejtek egyes térrészeiben lev˝o szekvenciadarabjaiban lev˝o aminosavak eloszlásainak maximális különbsége határozza meg. Kérdés, hogy az itt bemutatott rejtett Markov modell felhasználásával készült becsl˝o eljárás vajon alátámasztja-e ezt a feltételezést, vagy sem. Az egyes térrészek aminosavösszetételeinek a teljes fehérje aminosavösszetételére vonatkozó divergenciáinak az ötféle térrészben vett összege ugyanaz, mint a megfelel˝o térrészekb˝ol vett relatív gyakoriságok logaritmusainak összege a szekvencia mentén (log likelihood), vagy logaritmálás nélkül, ezeknek a relatív gyakoriságoknak a szorzata (likelihood). Állításom szerint ennek a szorzatnak a maximum helye egybeesik a transzmembrán fehérjék valódi topológiájának megfelel˝o felosztásánál kapott eloszlással. Ahhoz, hogy ezt a maximum helyet megtaláljuk, a természetes fehérjékre jellemz˝o megszorításokat figyelembe kell venni, például egy transzmembránhélix hossza nem lehet rövidebb
17 aminosavnál és hosszabb 25 aminosavnál,
vagy hogy a transzmembránhélix el˝ott és után lev˝o részek nem lehetnek a membrán ugyanazon oldalán. Jones és mtsi. (1994b) is rámutattak arra, hogy ha az egyes térrészekben lev˝o aminosav gyakoriságokat ismerjük, a legnagyobb valószín˝uséget adó felosztást direkt kereséssel nem tudjuk megtalálni a lehetséges esetek csillagászati száma miatt. Feltételezésem szerint viszont a legnagyobb valószín˝uség˝u feloszlást ráadásul úgy kell megkeresni, hogy még az egyes térrészekben lev˝o aminosavak valószín˝uségeit sem ismerjük, ami természetesen még inkább lehetetlen direkt keresési módszert alkalmazva. Azonban a maximális valószín˝uséget adó felosztást a rejtett Markov módszer segítségével meg tudjuk találni, ráadásul úgy, hogy közben a biológiai megszorításokat is figyelembe tudjuk venni. Tehát a rejtett Markov modell használata nem pusztán egy predikciós eljárás, hanem egy eszköz a feltételezésben kimondott maximális divergenciájú felosztás megtalálásához. Az a tény, hogy a predikció pontossága nagyon nagy, azaz, hogy a maximális divergenciájú felosztás nagyon sok esetben egybeesik a transzmembrán fehérjék topológiájával, er˝osen támogatja feltételezésemet. A hipotézist igazolja továbbá az a megfigyelés, hogy ha az optimalizálást a kérdéses fehérje természetes topológiájának megfelel˝o valószín˝uségekb˝ol indítjuk, akkor eredményül az eredeti topológiát kapjuk vissza, amelyben a transzmembránhélixek helye néhány aminosavval változik csak. Ez azt mutatja, hogy a természetes topológiának megfelel˝o hely a szekvenciák terében minden esetben lokális széls˝oértéknek felel meg. 51
Transzmembrán fehérjék topológiájának becslése Az álszámláló vektor használata nélkül a predikció pontossága csak kis mértékben csökken, azoknak a fehérjéknek a száma, amelyekben az összes transzmembránhélixet helyesen becsli az eljárás 132-re, amelyekben a topológia is helyes 123-ra (79%) csökkent. Az álszámláló vektor használatát úgy értelmezhetjük, hogy a teljes aminosav gyakoriságok terének csak egy el˝ore meghatározott alterében keressük a maximumot, így annak használata nem kérd˝ojelezi meg a feltételezésem igazolását.
52
Összefoglalás
6. Összefoglalás A különböz˝o genomprojektek és a nagy mennyiség˝u egyéb cDNS szekvenálások által exponenciálisan növekv˝o aminosav szekvencia adatbázisok vizsgálata új statisztikai módszerek bevezetése nélkül elképzelhetetlen. Az aminosav szekvencia által meghatározott térszerkezet röntgendiffrakció segítségével, vagy NMR technikával igen költségesen és viszonylag hosszú id˝o alatt határozható meg, emiatt az ismert szekvenciák és az ismert térszerkezetek száma közötti különbség évr˝ol évre exponenciálisan n˝o. Ezért olyan szekvencia vizsgálati módszerek kidolgozása vált szükségessé, amelyek nagy számban és pontosan képesek a fehérjék egyes tulajdonságait és funkcióját megbecsülni. Ugyanakkor a becslési eljárások felfedhetik a fehérje térszerkezet kialakításának fontos alapelveit. Az egyes aminosavaknak a térszerkezet kialakításában játszott szerepét ugyan nem ismerjük, de számos kísérlet irányult arra, hogy a térszerkezet kialakításában hasonló szerepet játszó aminosavakat meghatározzák. Olyan eljárást azonban, amely nagyszámú szekvencia adaton nyugszik, ugyanakkor mentes a szekvencia illesztésekb˝ol fakadó tautológiától, és képes meghatározni az aminosavaknak a fehérjeszerkezet építése és fenntartása szempontjából fontos általános tulajdonságait, eddig még nem dolgoztak ki. Ahhoz, hogy a biológiailag aktív térszerkezet kialakuljon az aminosavaknak a szekvenciákban valamilyen általános szabályt követve, meghatározott módon kell követniük egymást. A véletlen sorrendt˝ol való eltérés mértékét, a rövidebb oligopeptidekben található aminosavhármasok eloszlásait felhasználva a függetlenségi (információs) divergencia segítségével határoztam meg. Az aminosavak páronként való egyesítésével a teljes adatbázisban a divergencia csökkenése arányos az aminosav pár átlagos szekvenciális környezetének a hasonlóságával, és ezért az egyesítés során bekövetkezett divergencia csökkenést az aminosavak hasonlóságának mérésére felhasználható. Az aminosavak fokozatos egyesítése megmutatta, hogy mely aminosavak cserélhet˝ok ki és mely aminosav(ak)ra könnyen a fehérjékben várhatólag a szerkezet károsodása nélkül, illetve melyek azok az aminosavak, amelyek speciális szerepet játszanak a fehérjék térszerkezetének biztosításában. Az eredményül kapott aminosav bináris fák azt mutatták, hogy a nagy apoláris és aromás aminosavak általában könnyebben cserélhet˝ok ki egymás között, mint a poláris aminosavak, valamint, hogy a glicin, prolin és alanin aminosavak a fehérjékben játszott többféle és/vagy speciális szerepük miatt nem cserélhet˝ok ki a szerkezet megváltozása nélkül más aminosavakra. A szekvenciák általános vizsgálata mellett a konkrét fehérjék vizsgálata kapcsán felmerül˝o problémák megoldása is sokat segíthet a fehérjék tulajdonságainak a megértésében. Dr. Sarkadi Balázs és Dr. Váradi András csoportjával együttm˝uködve szekvencia illesztés és hidrofóbicitási görbék analízisének segítségével meghatároztuk az MRP1 multidrog transzporter 53
Összefoglalás membrántopológiáját, amit a csoport által elvégzett kísérletek, illetve más kutatócsoportok kés˝obbi kísérletei teljes mértékben alátámasztottak. Eszerint a modell szerint az MRP1 három nagy membránkötött részt tartalmaz, amelyeket intracelluláris részek választanak el egymástól és a fehérje N-terminálisa extracelluláris lokalizációjú. Az egyes membránba ágyazott részek
5 + 6 + 6 transzmembránhélixet tartalmaznak, amelyb˝ol az utóbbi 6 + 6 transzmembránhélix az ABC transzporter családra általánosan jellemz˝o, míg az els˝o 5 az MRP1-re. Megmutattuk továbbá, hogy az ABC családon belül számos fehérje, amelyek membrántopológiáját egymástól különböz˝onek tartották, az MRP1-hez hasonló szerkezet˝u, és ezek a fehérjék egy alcsaládot alkotnak. Ezek a vizsgálatok azt is megmutatták, hogy a transzmembránhélix predikciók automatikus használata helyett célszer˝u minél több, a fehérjére vonatkozó információt felhasználni a helyes szerkezet megadásához. Az MRP1 membrántopológiai vizsgálata irányította a figyelmemet a transzmembrán fehérjék általános vizsgálatára. Bár az irodalomban számos nagy pontosságú topológia becsl˝o eljárás található, ezeknek a fehérjéknek a szerkezetét meghatározó alapelvét nem ismerjük. Tudjuk, hogy a membránon áthaladó szekvenciadarabnak túlnyomórészt hidrofób aminosavakat kell tartalmaznia, illetve azt, hogy a citoplazma felé es˝o oldalon a transzmembránhélixek közötti rövidebb hurkokban általában több pozitívan töltött aminosav található, mint a membrán küls˝o oldalán. Azt is kimutatták, hogy a transzmembrán fehérjék egyes szerkezeti részeinek aminosav összetétele különböz˝o, és az összetételek ismeretében a fehérjék topológiája többé-kevésbé meghatározható. Mivel az adatbázisok összetétele nem tükrözi a teljes fehérjevilág aminosav összetételét, olyan eljárás kidolgozása, amely nem függ az aktuálisan ismert fehérjék tulajdonságaitól, pontosabb eredményeket szolgáltathat. Ezért abból a kérdésb˝ol indultam ki, hogy vajon meghatározható-e a transzmembrán fehérjék membrántopológiája akkor, ha az egyes szerkezeti részek aminosav összetétele nem ismert. Erre a kérdésre akkor kapunk pozitív választ, ha az egyes térszerkezeti részek környezete meghatározza az adott térszerkezeti rész aminosavösszetételét. Ebben az esetben ugyanis a maximum-likelihood elv alapján a vizsgált fehérje szekvenciája mentén a valódi térszerkezeti részek relatív aminosav gyakoriságainak szorzata maximális. Ez egyben azt is jelenti, hogy a szekvenciának a valódi térrészeknek megfelel˝o felosztása esetén az egyes térrészek aminosav gyakoriságainak eltérése a fehérje teljes aminosav gyakoriságától maximális. Tehát, ha abból az egyszer˝u feltevésb˝ol indulunk ki, hogy az eltér˝o fizikai-kémiai környezetek különböz˝o aminosav összetételt preferálnak, akkor azt, hogy a szekvencia melyik része melyik térrészben, milyen környezetben található, a maximális aminosav összetételt adó felosztás megkeresésével határozhatjuk meg. A szekvencia felosztása során a biológiai megkötéseket figyelembe kell venni, például a membránon áthaladó szekvenciadarab hosszúsága 54
17-25
aminosav, egy küls˝o hurok után a
Összefoglalás membránba ágyazott rész következik, azután pedig egy bels˝o hurok és nem újból küls˝o hurok, stb. A maximális aminosav összetételbeli különbséget adó felosztást direkt módszerrel nem tudjuk megkeresni, viszont az általam kidolgozott speciális szerkezet˝u rejtett Markov modell segítségével a maximum hely megkereshet˝o, s˝ot eközben az összes biológiai megszorítást is figyelembe tudjuk venni. A kidolgozott becsl˝o módszer pontossága, az irodalomban található összes eddig ismert transzmembrán topológia becsl˝o eljárás pontosságánál nagyobb, ugyanakkor a becslés nagy pontossága alátámasztja a feltételezésemet, miszerint a topológiát az határozza meg, hogy az egyes térrészekben lev˝o szekvenciadarabok aminosav összetételének az eltérése maximális legyen. A modell paramétereit úgy állítottam be, hogy a predikció pontossága a lehet˝o legnagyobb legyen, és ezáltal azt is meg lehetett határozni, hogy melyek azok a szerkezeti egységek a transzmembrán fehérjékben, amelyek a topológia szempontjából fontosak. Megmutattam, hogy a korábban fontosnak vélt hélixsapka részek (a transzmembránhélixeknek a lipid poláris feji csoportjaival kölcsönható aminosavjai) a topológia meghatározásában nem játszanak fontos szerepet, ugyanakkor a transzmembránhélixek közelébe es˝o, a membránhoz közel lev˝o vizes fázisban lev˝o szekvenciadarabok kulcsfontosságúak. Az alkalmazott rejtett Markov modell segítségével a transzmembrán fehérjék topológiájának becslésén túlmen˝oen számos egyéb feladatot meg lehet oldani, például a transzmembrándoménok gyors keresésére lehet felhasználni adatbázisokban. A becslés alapjául szolgáló feltételezés várhatóan nem csak a transzmembrán fehérjékre teljesül, hanem globuláris fehérjék szerkezetére is, ebben az esetben a biológia megszorítások azonban sokkal lazábbak, mint a transzmembrán fehérjék esetében.
55
Hivatkozások
7. Hivatkozások Aguilar-Bryan, L., Nichols, C. G., Wechsler, S. W., Clement, I. J. P., Boyd, I. A. E., González, G., Herrera-Sosa, H., Nguy, K., Bryan, J. és Nelson, D. A. (1995). Cloning of the -cell high-affinity sulfonylurea receptor: A regulator of insulin secretion. Science, 268, 423–426. Altschul, S. F. (1991). Amino acid substitution matrices from an information theoretic perspective. J. Mol. Biol. 219, 555–565. Altschul, S. F., Gish, W., Miller, W., Myers, E. W. és Lipman, D. J. (1990). Basic local alignment search tool. J. Mol. Biol. 215, 403–410. Bairoch, A. és Boeckmann, B. (1991). The SWISS–PROT protein sequence bank. Nucl. Ac. Res. 19, 2247–2249. Bakos, É., Heged˝us, T., Holló, Z., Welker, E., Tusnády, G. E., Zaman, G. J. R., Flens, M., Váradi, A. és Sarkadi, B. (1996). Membrane topology and glycosylation of the human Multidrug Resistance– associated Protein. J. Biol. Chem. 271, 12322–12326. Baldi, P. és Brunak, S. (1998). Bioinformatics. A Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England. Baldi, P., Chauvin, Y., Hunkapiller, T. és McClure, M. A. (1994). Hidden Markov Models of biological primary sequence information. Proc. Natl. Acad. Sci. USA, 91, 1059–1063. Baldwin, R. L. és Rose, G. D. (1999a). Is protein folding hierarchic? I. Local structure and peptid folding. Trends Biochem. Sci. 24, 26–33. Baldwin, R. L. és Rose, G. D. (1999b). Is protein folding hierarchic? II. Folding intermediates and transition states. Trends Biochem. Sci. 24, 77–83. Barker, W. C., Garavelli, J. S., McGarvey, P. B., Marzec, C. R., Orcutt, B. C., Srinivasarao, G. Y., Yeh, L.-S. L., Ledley, R. S., Mewes, H.-W., Pfeiffer, F., Tsugita, A. és Wu, C. (1999). The pir-international protein sequence database. Nucl. Ac. Res. 27, 39–43. Barton, G. J. (1994). The amps package for multiple protein sequence alignment. Meth. Mol. Biol. 25, 327–347. van Beilen, J., Penninga, D. és Witholt, B. (1992). Topology of the membrane-bound alkane hydroxylase of Pseudomonas oleovorans. J. Biol. Chem. 267, 9194–9201. Bergelson, L. és Barsukov, L. I. (1977). Topological asymmetry of phospholipids in membranes. Science, 197, 224–230. Booth, P. J. és Curran, A. R. (1999). Membrane protein folding. Curr. Opin. Struct. Biol. 9, 115–121. Borodovsky, M., McIninch, J. D., Koonin, E. V., Rudd, K. E., Médigue, C. és Danchin, A. (1995). Detection of new genes in a bacterial genome using Markov Models for three gene classes. Nucl. Ac. Res. 23, 3554–3562. Broeks, A., Gerrard, B., Allikmets, R., Dean, M. és Plasterk, R. H. A. (1996). Homologues of the human multidrug resistance genes MRP and MDR contribute to heavy metal resistance in the soil nematode Caenorhabditis elegans. EMBO J. 15, 6132–6143. Brown, M., Hughey, R., Krogh, A., Mian, I. S., Sjölander, K. és Haussler, D. (1995). Using Dirichlet mixture priors to derive hidden Markov models for protein families. In Proceeding of First International Conference on Intelligent Systems for Molecular Biology, (Rawlings, C., ed.), pp. 47–55. AAAI/MIT Press Menlo Park. Bryan, J. és Aguilar-Bryan, L. (1997). The ABCs of ATP-sensitive potassium channels: More pieces of the puzzle. Curr. Opin. Cell Biol. 9, 553–559. Cardon, L. R. és Stormo, G. D. (1992). Expectation Maximization algorithm for identifying proteinbinding sites with variable lengths from unaligned DNA fragments. J. Mol. Biol. 223, 159–170. Chang, X. B., Hou, Y. X., Jensen, T. J. és Riordan, J. R. (1994). Mapping of cystic fibrosis transmembrane conductance regulator membrane topology by glycosylation site insertion. J. Biol. Chem. 269, 18572– 18575. Chen, C. J., Chin, J. E., Ueda, K., Clark, D. P. és Pastan, I. (1986). Internal duplication and homology with bacterial transport proteins in the mdr1 (P-glycoprotein) gene from multidrug-resistant human cells. Cell, 47, 381–389. Chen, G.-Q. és Gouaux, E. (1997). Reduction of membrane protein hydrophobicity by site–directed mutagenesis: Introduction of multiple polar residues in helix D of bacteriorhodopsin. Prot. Eng. 10, 1061–1066.
56
Hivatkozások Chepuri, V. és Gennis, R. B. (1990). The use of gene fusions to determine the topology of all of the subunits of the cytochrome o terminal oxidase complex of Escherichia coli. J. Biol. Chem. 265, 12978–12986. Churchill, G. (1989). Stochastic models for heterogeneous DNA sequences. Bull. Math. Biol. 51, 79–94. Cole, S. P. C., Bhardwaj, G., Gerlach, J. H., Mackie, J. E., Grant, C. E., Almquist, K. C., Stewart, A. J., Kurz, E. U., Duncan, A. M. V. és Deeley, R. G. (1992). Overexpression of a transporter gene in a multidrug-resistant human lung cancer line. Science, 258, 1650–1654. Cornette, J. L., Cease, K. B., Margalit, H., Spouge, L., Berzofsky, J. A. és DeLisi, C. (1987). Hydrophobicity scales and computational techniques for detecting amphipathic structures in proteins. J. Mol. Biol. 195, 659–685. Crimi, M. és Esposti, M. D. (1991). Structural predictions for membrane proteins: The dilemma of hydrophobicity scales. Trends Biochem. Sci. 16, 119. Croop, J. M. (1993). P-glycoprotein structure and evolutionary homologies. Cytotechnology, 12, 1–32. Cserz˝o, M., Bernassau, J.-M., Simon, I. és Maigret, B. (1994). Unusual alignment strategy for transmembrane proteins. J. Mol. Biol. 243, 388–396. Cserz˝o, M. és Simon, I. (1989). Regularities in the primary structure of proteins. Int. J. Pep. Protein Res. 34, 184–195. Cserz˝o, M., Wallin, E., Simon, I., von Heijne, G. és Elofsson, A. (1997). Prediction of transmembrane –helices in prokariotic membrane proteins: The Dense Aligment Surface method. Prot. Eng. 10, 673–676. Dassa, E. és Muir, S. (1993). Membrane topology of MalG, an inner membrane protein from the maltose transport system of Eschericia coli. Mol. Microbiol. 7, 29–38. Dayhoff, M. O., Schwartz, R. M. és Orcutt, B. C. (1968). Model of evolutionary changes in proteins. In Atlas of Protein Sequence and Structure, (Dayhoff, M. O., ed.), pp. 33–41. National Biomedical Research Foundation Washington, DC. Dayhoff, M. O., Schwartz, R. M. és Orcutt, B. C. (1978). Model of evolutionary changes in proteins. In Atlas of Protein Sequence and Structure, (Dayhoff, M. O., ed.), vol. 5, pp. 345–358. National Biomedical Research Foundation Washington, DC. Decottignies, A. és Goffeau, A. (1996). Complete inventory of the yeast ABC proteins. Nat. Genet. 15, 137–145. Dill, K. A., Bromberg, S., Yue, K. Z., Fiebig, K. M., Yee, D. P., Thomas, P. D. és Chan, H. S. (1995). Principles of protein folding – a perspective from simple exact models. Prot. Sci. 4, 561–602. Dosztányi, Zs., Fiser, A. és Simon, I. (1997). Stabilization centers in proteins: Identification, characterization and predictions. J. Mol. Biol. 272, 597–612. Dosztányi, Zs. és Simon, I. (1999). Stabilization centers in various proteins. Theor. Chem. Acc. 101, 27–32. Dueweke, T. J. és Gennis, R. B. (1990). Epitopes of monoclonal antibodies which inhibit ubiquinol oxidase activity of Escherichia coli cytochrome d complex localize functional domain. J. Biol. Chem. 265, 4273–4277. Dueweke, T. J. és Gennis, R. B. (1991). Proteolysis of the cytochrome d complex with trypsin and chymotrypsin localizes a quinol oxidase domain. Biochemisty, 30, 3401–3406. Eddy, S. R. (1995). Multiple alignment using Hidden Markov Models. In Proceeding of Third International Conference on Intelligent Systems for Molecular Biology, (Rawlings, C., ed.), pp. 114–120. AAAI/MIT Press Menlo Park. Eisenberg, D., Schwartz, E., Komáromy, M. és Wall, R. (1984). Analysis of membrane and surface protein sequences with the hydrophobic moment plot. J. Mol. Biol. 179, 125–142. Engelman, D. M., Steitz, T. A. és Goldman, A. (1986). Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins. Ann. Rev. Biophys. Chem. 15, 321–353. Esposti, M. D., Crimi, M. és Venturoli, G. (1990). A critical evaluation of the hydropathy profile of membrane proteins. Eur. J. Biochem. 190, 207–219. Feng, D. F. és Doolittle, R. F. (1987). Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J. Mol. Evol. 25, 351–360. Fersht, A. R. (1997). Nucleation mechanism in protein folding. Curr. Opin. Struct. Biol. 7, 3–9.
57
Hivatkozások Fiser, A., Cserz˝o, M., Tüd˝os, É. és Simon, I. (1992). Different sequence environment of cysteins and half cystines in proteins: Application to predict disulfide forming residues. FEBS Letters, 302, 117–120. Fitch, W. M. (1966). The relation between frequencies of amino acids and ordered trinucleotides. J. Mol. Biol. 16, 1–8. Fitch, W. M. és Margoliash, E. (1967). Construction of phylogenetic trees. Science, 155, 279–284. Francesco, V. D., Garnier, J. és Munson, P. J. (1997). Protein topology recognition from secondary structure sequences: Application of the hidden Markov models to the alpha class proteins. J. Mol. Biol. 267, 446–463. George, D. G., Barker, W. C. és Hunt, L. T. (1990). Mutation data matrix and its uses. Meth. Enzymol. 183, 333–351. Georgiou, C. D., Dueweke, T. J. és Gennis, R. B. (1988). -Galactosidase gene fusions as probes for the cytoplasmic regions of subunits I and II of the membrane-bound cytochrome d terminal oxidase from Escherichia coli. J. Biol. Chem. 263, 13130–13137. Gonnet, G. H., Cohen, M. A. és Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science, 256, 1443–1445. Grantham, R. (1974). Amino acid difference formula to help explain protein evolution. Science, 185, 862–864. Gray, T. M. és Matthews, B. W. (1984). Intrahelical hydrogen bonding of serine, threonine and cysteine residues within alpha-helices and its relevance to membrane-bound proteins. J. Mol. Biol. 175, 75–81. Greer, J. (1981). Comparative model-building of the mammalian serine proteases. J. Mol. Biol. 153, 1027–1042. Gromiha, M. M. és Ponnuswamy, P. K. (1995). Prediction of protein secondary structures from their hydrophobic characteristics. Int. J. Pep. Protein Res. 45, 225–240. Gugolya, Z., Dosztányi, Zs. és Simon, I. (1997). Interresidue interaction in protein classes. Proteins: Struct. Funct. Genet. 27, 360–366. von Heijne, G. (1991). Proline kinks in transmembrane -helices. J. Mol. Biol. 218, 499–503. von Heijne, G. (1992). Membrane protein structure prediction. J. Mol. Biol. 225, 487–494. Henikoff, S. és Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA, 89, 10915–10919. Henikoff, S. és Henikoff, J. G. (1993). Performance evaluation of amino acid substitution matrices. Proteins: Struct. Funct. Genet. 17, 49–61. Higgins, C. (1992). ABC transporters: From microorganisms to man. Ann. Rev. Cell Biol. 8, 67–113. Higgins, D. G. (1994). Clustal v: multiple alignment of dna and protein sequences. Meth. Mol. Biol. 25, 307–318. Hipfner, D. R., Almquist, K. C., Leslie, E. M., Gerlach, J. H., Grant, C. E., Deeley, R. G. és Cole, S. (1997). Membrane topology of the Multidrug Resistance Protein (MRP). A study of glycosylation-site mutants reveals an extracytosolic NH2 terminus. J. Biol. Chem. 272, 23623–23630. Hobohm, U., Scharf, M., Schneider, R. és Sander, C. (1992). Selection of representative protein data sets. Prot. Sci. 1, 409–417. Hughey, R. és Krogh, A. (1996). Hidden Markov Models for sequence analysis: Extension and analysis of the basic method. Comp. Appl. Biosci. 12, 95–107. Inagaki, N., Gonoi, T., Clement, IV. J.P, Wang, C.-Z., Aguilar-Bryan, L., Bryan, J. és Seino, S. (1996). A family of sulfonylurea receptors determines the pharmacological properties of ATP-sensitive K+ channels. Neuron, 16, 1011–1017. Iwata, S., Ostermeier, C., Ludwig, B. és Michel, H. (1995). Structure at 2.8 Å resolution of cytochrome c oxidase from Paracoccus denitrificans. Nature, 376, 660–669. Jacob, J., Duclohier, H. és Cafiso, D. S. (1999). The role of proline and glycine in determining the backbone flexibility of a channel-forming peptide. Biophys. J. 76, 1367–1376. Jansen, P. L. M., Peters, W. H. M. és Lamers, W. H. (1995). Hereditary chronic conjugated hyperbilirubinemia in mutant rats caused by defective hepatic anion transport. Hepatology, 5, 573–579. Jedlitschky, G., Leier, I., Buchholz, U., Hummel-Eisenbeiss, J., Burchell, B. és Keppler, D. (1997). ATP-dependent transport of bilirubin glucuronides by the Multidrug Resistance Protein MRP1 and its hepatocyte canalicular isoform MRP2. Biochem. J. 327, 305–310.
58
Hivatkozások Johnson, M. S. és Overington, J. P. (1993). A stuctural basis for sequence comparisons. An evaluation of scoring methodologies. J. Mol. Biol. 233, 716–738. Jones, D. T., Taylor, W. R. és Thornton, J. M. (1992). The rapid generation of mutation data matrices from protein sequences. Comp. Appl. Biosci. 8, 275–282. Jones, D. T., Taylor, W. R. és Thornton, J. M. (1994a). A mutation data matrix for transmembrane proteins. FEBS Letters, 339, 269–275. Jones, D. T., Taylor, W. R. és Thorton, J. M. (1994b). A model recognition approach to the prediction of all-helical membrane protein structure and topology. Biochemisty, 33, 3038–3049. Kast, C., Canfield, V., Levenson, R. és Gros, P. (1995). Membrane topology of P-glycoprotein as determined by epitope insertion: Transmembrane organization of the N-terminal domain of mdr3. Biochemisty, 34, 4402–4411. Kast, C., Canfield, V., Levenson, R. és Gros, P. (1996). Transmembrane organization of mouse Pglycoprotein determined by epitope insertion and immunofluorescence. J. Biol. Chem. 271, 9240– 9248. Kast, C. és Gros, P. (1997). Topology mapping of the amino-terminal half of the Multidrug Resistanceassociated Protein by epitope insertion and immunofluorescence. J. Biol. Chem. 272, 26479–26487. Kast, C. és Gros, P. (1998). Epitope insertion favors a six transmembrane domain model for the carboxyterminal portion of the Multidrug Resistance-associated Protein. Biochemisty, 37, 2305–2313. Kernighan, B. W. és Ritchie, D. M. (1978). The C Programming Language. Prentice-Hall, Englewood Cliffs, New Jersey. van Klompenburg, W., Nilsson, I., von Heijne, G. és de Kruijff, B. (1997). Anionic phospholipids are determinatnts of membrane protein topology. EMBO J. 16, 4261–4266. Krogh, A., Brown, M., Mian, I. S., Sjölander, K. és Haussler, D. (1994a). Hidden Markov models in computational biology. J. Mol. Biol. 235, 1501–1531. Krogh, A., Mian, I. S. és Haussler, D. (1994b). A Hidden Markov Model that finds genes in E. coli DNA. Nucl. Ac. Res. 22, 4768–4778. van Kuijck, M. A., van Aubel, R. A. M. H., Busch, A. E., Lang, F., Russel, F. G. M., Bindels, R. J. M., van Os, C. H. és Deen, P. M. T. (1996). Molecular cloning and expression of a cyclic AMP-activated chloride conductance regulator: A novel ATP-binding cassette transporter. Proc. Natl. Acad. Sci. USA, 93, 5401–5406. Kullback, S. (1959). In Information Theory and Statistics. Wiley New York. Kyte, J. és Doolittle, R. F. (1982). A simple method for displaying the hydropathic character of a protein. J. Mol. Biol. 157, 105–132. Lawrence, C. E. és Reilly, A. A. (1990). An Expectation Maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. Proteins: Struct. Funct. Genet. 7, 41–51. Leier, I., Jedlitschky, G., Buchholz, U., Cole, S., Deeley, R. és Keppler, D. (1994). The mrp gene encodes an ATP-dependent export pump for leukotriene C4 and structurally related conjugates. J. Biol. Chem. 269, 27807–27810. Levin, J. M., Robbson, B. és Garnier, J. (1986). An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Letters, 205, 303–308. Li, Z.-S., Szczypka, M., Lu, Y.-P., Thiele, D. és Rea, P. (1996). The yeast cadmium factor protein (YCFI) is a vacuolar glutathione s-conjugate pump. J. Biol. Chem. 271, 6509–6517. Loo, T. W. és Clarke, D. M. (1995). Membrane topology of a cysteine-less mutant of human Pglycoprotein. J. Biol. Chem. 270, 843–848. Lu, Y.-P., Li, Z.-S. és Rea, P. A. (1997). AtMRP1 gene of Arabidopsis encodes a glutathione S-conjugate pump: Isolation and functional definition of a plant ATP-binding cassette transporter gene. Proc. Natl. Acad. Sci. USA, 94, 8243–8248. Lukashin, A. V. és Borodovsky, M. (1998). GeneMark.hmm: New solution for gene finding. Nucl. Ac. Res. 26, 1107–1115. Marin, E., Leonhardt, N., Vavasseur, A. és Forestier, C. (1998). Cloning of AtMRP1, an Arabidopsis thaliana cDNA encoding a homologue of the mammalian Multidrug Resistance-associated Protein. Biochem. Biophys. Acta, 1369, 7–13.
59
Hivatkozások McLachan, A. D. (1971). Tests for comparing related amino-acid sequences. Cytochrome c and cytochrome c551. J. Mol. Biol. 61, 409–424. Miyata, T., Miyazawa, S. és Yasunaga, T. (1979). Two types of amino acid substitutions in protein evolution. J. Mol. Evol. 12, 219–236. Needleman, S. B. és Wunsch, C. D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48, 443–453. Orengo, C. A., Jones, D. T. és Thornton, J. M. (1994). Protein superfamilies and domain superfolds. Nature, 372, 631–634. Paulusma, C. C., Bosma, P. J., Zaman, G. J. R., Bakker, C. T. M., Otter, M., Scheffer, G. L., Scheper, R. J., Borst, P. és Oude-Elferink, R. P. J. (1996). Congenital Jaundice in rats with a mutation in a Multidrug Resistance-associated Protein gene. Science, 271, 1126–1128. Pearce, S. R., Mimmack, M. L., Gallagher, M. P., Gileadi, U., Hyde, S. C. és Higgins, C. F. (1992). Membrane topology of the integral membrane components, OppB and OppC, of the oligopeptide permease of Salmonella typhimurium. Mol. Microbiol. 6, 47–57. Persson, B. és Argos, P. (1994). Prediction of transmembrane segments in proteins utilising multiple sequence aligments. J. Mol. Biol. 237, 182–192. Perutz, M. F., Kendrew, J. C. és Watson, H. C. (1965). Structure and function of haemoglobin II. Some relations between polypeptide chain configuration and amino acid sequence. J. Mol. Biol. 13, 669– 678. Pincus, S. és Singer, B. H. (1996). Randomness and degrees of irregularity. Proc. Natl. Acad. Sci. USA, 93, 2083–2088. Pongor, S. (1987). The use of structural profiles and parametric sequence comparison in the rational design of polypeptides. Meth. Enzymol. 154, 450–473. Ponnuswamy, P. K. és Gromiha, M. M. (1993). Prediction of transmembrane helices from hydrophobic characteristics of protein. Int. J. Pep. Protein Res. 42, 326–341. Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proc. of the IEEE, 77, 257–286. Rackovsky, S. (1998). ”Hidden” sequence periodicities and protein architecture. Proc. Natl. Acad. Sci. USA, 95, 8580–8584. Rani, M., Mitra, C., Cserz˝o, M. és Simon, I. (1995). Proteins as special subsets of polypeptides. J. Biosciences, 20, 579–590. Rao, J. K. M. (1987). New scoring matrix for amino acid residue exchanges based on residue characteristic physical parameters. Int. J. Pep. Protein Res. 29, 276–281. Riordan, J. R., Rommens, J. M., Kerem, B. S., Alon, N. és Rozmahel, R. (1989). Identification of the cystic fibrosis gene: Cloning and characterization of complementary DNA. Science, 245, 1066–1073. Risler, J. L., Delorme, M. O., Delacroix, H. és Henaut, A. (1988). Amino acid substitutions in structurally related proteins: A pattern recognition approach. Determination of a new and efficient scoring matrix. J. Mol. Biol. 204, 1019–1029. Rost, B., Fariselli, P. és Casadio, R. (1996). Topology prediction for helical transmembrane proteins at 86% accuracy. Prot. Sci. 5, 1704–1718. Rothman, J. és Lenard, J. (1977). Membrane asymmetry. Science, 195, 743–753. Sali, A., Shaknovich, E. és Karplus, M. (1994). How does a protein fold? Nature, 369, 248–251. Shyamala, V., Baichwal, V., Beall, E. és Ames, G. F. (1991). Structure-function analysis of the histidine permease and comparison with cystic fibrosis mutations. J. Biol. Chem. 266, 18714–18719. Sipos, L. és von Heijne, G. (1993). Predicting the topology of eukaryotic membrane proteins. Eur. J. Biochem. 213, 1333–1340. Sjölander, K., Karplus, K., Brown, M., Hughey, R., Krogh, A., Mian, I. S. és Haussler, D. (1996). Dirichlet mixtures: A method for improved detection of weak but significant protein sequence homology. Comp. Appl. Biosci. 12, 327–345. Smith, T. F. és Waterman, M. S. (1981). Identification of common molecular subsequences. J. Mol. Biol. 147, 195–197. Spies, T., Bresnahan, M., Bahram, S., Arnold, D. és Blanck, G. (1990). A gene in the human major histocompatibility complex region controlling the class I antigen presentation pathway. Nature, 348, 744–747.
60
Hivatkozások Stultz, C. M., White, J. V. és Smith, T. F. (1993). Structural analysis based on state–space modeling. Prot. Sci. 2, 305–314. Szczypka, M. S., Wemmie, J. A., Moye-Rowley, W. S. és Thiele, D. J. (1994). A yeast metal resistance protein similar to human cystic fibrosis transmembrane conductance regulator (CFTR) and Multidrug Resistance- associated Protein. J. Biol. Chem. 269, 22853–22857. Thompson, M. J. és Goldstein, R. A. (1996). Constructing amino acid residue substitution classes maximally indicative of local protein structure. Proteins: Struct. Funct. Genet. 25, 28–37. Tüd˝os, É., Cserz˝o, M. és Simon, I. (1990). Predicting isomorphic residue replacements for protein design. Int. J. Pep. Protein Res. 36, 236–239. Tusnády, G. E. (1998). Appendix to ”Principles governing amino acid compositions of integral membrain proteins: Application to topology prediction”. WWW document, http://www.enzim.hu/hmmtop/appendix.html. Tusnády, G. E., Bakos, É., Váradi, A. és Sarkadi, B. (1997). Membrane topology distinguishes a subfamily of the ATP–Binding Cassette (ABC) Transporters. FEBS Letters, 402, 1–3. Tusnády, G. E. és Simon, I. (1998). Principles governing amino acid compositions of integral membrain proteins: Application to topology prediction. J. Mol. Biol. 283, 489–506. Tusnády, G. E., Tusnády, G. és Simon, I. (1995). Independence divergence–generated binary trees of amino acids. Prot. Eng. 8, 417–423. Vonderviszt, F., Mátrai, G. és Simon, I. (1986). Characteristic sequential residue environment of amino acids in proteins. Int. J. Pep. Protein Res. 27, 483–492. Walker, J. E., Saraste, M., Runswick, M. J. és Gay, N. J. (1982). Distantly related sequences in the alphaand beta-subunits of ATP synthase, myosin, kinases and other ATP-requiring enzymes and a common nucleotide binding fold. EMBO J. 1, 945–951. West, M. W. és Hecht, M. H. (1995). Binary patterning of polar and nonpolar amino acids in the sequences and structures of nativ proteins. Prot. Sci. 4, 2032–2039. White, J. V., Stultz, C. M. és Smith, T. F. (1993). Protein classification by stochastic modeling and optimal filtering of amino–acid sequences. Math. Biosci. 119, 35–75. Wilson, R., Ainscough, R. e. és mtsi. (1994). 2.2 Mb of contiguous nucleotide sequence from chromosome III of C. elegans. Nature, 368, 32–38. Wishart, D. S., Boyko, R. F. és Sykes, B. D. (1994). Constrained multiple sequence alignment using xalign. Comp. Appl. Biosci. 10, 687–688. Woolfson, D. N., Mortishire-Smith, R. J. és Williams, D. H. (1991). Conserved positioning of proline residues in membrane-spanning helices of ion-channel proteins. Biochem. Biophys. Res. Comm. 175, 733–737. Yan, R. és Maloney, P. (1993). Identification of a residue in the translocation pathway of a membrane carrier. Cell, 75, 37–44. Yockey, H. P. (1992). Information theory and molecular biology. Camridge University Press, Cambridge, UK.
61
Az értekezés alapjául szolgáló közlemények jegyzéke
8. Az értekezés alapjául szolgáló közlemények jegyzéke 1. Tusnády, G.E., Tusnády, G., and Simon, I. (1995). Independence divergence–generated binary trees of amino acids, Prot. Eng. 8, 417–423. 2. Tusnády, G.E., Bakos, É., Váradi, A., and Sarkadi, B. (1997). Membrane topology distinguishes a subfamily of the ATP–Binding Cassette (ABC) Transporters, FEBS Letters 402, 1–3. 3. Tusnády, G.E. and Simon, I. (1998). Principles governing amino acid composition of integral membrane proteins: Application to topology prediction. J. Mol. Biol. 283, 489– 506.
9. Egyéb közlemények jegyzéke 1. Fiser, A., Tusnády, G.E., and Simon, I. (1994). Chaos game representation of protein structures, J. Mol. Graph. 12, 302–304. 2. Bakos, É., Heged˝us, T., Holló, Z., Welker, E., Tusnády, G.E., Zaman, G.J.R., Flens, M., Váradi, A., and Sarkadi, B. (1996). Membrane topology and glycosylation of the human multidrug resistance–associated protein, J. Biol. Chem. 271, 12322–12326. 3. Tusnády, G.E. and Váradi, A. (1998). Short MRP may not be short, Biochem. Biophys. Res. Comm. 242, 465–466. 4. Váradi, A., Tusnády, G.E., Bakos, É., and Sarkadi, B. (1998) Membrane topology of human MRP homologs, Cytotechnology, 27, 71–79. 5. Bakos, É, Evers, R., Szakács, G., Tusnády, G.E., Welker, E., Szabó, K., de Haas, M., van Deemter, L., Borst, P., Váradi, A. and Sarkadi, B. (1998) Functional multidrug resistance protein (MRP1) lacking the N-terminal transmembrane domain. J. Biol. Chem. 273, 32167-32175.
62
Köszönetnyilvánítás
10. Köszönetnyilvánítás Köszönöm Dr. Friedrich Péter akadémikusnak, hogy az általa vezetett intézetben készíthettem el disszertációmat. Köszönöm témavezet˝omnek, Dr. Simon Istvánnak, hogy egyetemista koromban bevezetett a fehérje szekvenciák fantasztikusan érdekes világába, és azóta is sok hasznos tanáccsal támogatja munkámat, és akire mint nagyon jó vezet˝ore mindenkor számíthattam a nehéz szakmai és emberi helyzetekben egyaránt. Köszönöm csoportunk minden tagjának, Dr. Dosztányi Zsuzsannának, Dr. Fiser Andrásnak és Dr. Tüd˝os Évának, szakmai támogatásukat, segítségüket. Külön köszönöm Dr. Sarkadi Balázsnak és Dr. Váradi Andrásnak, hogy bekapcsolódhattam az általuk vezetett csoport munkájába, és érdekes új eredményeket érhettünk el a közös munka során. Végezetül köszönöm édesapámnak, hogy mindenkor mindenben segítségemre volt ennek a munkának az elkészítése során, és akit˝ol az itt felhasznált matematikai eljárásokat már gyerekkoromtól kezdve tanulhattam. Az itt bemutatott munka az OTKA (F19008, F22051) és a Qualitas Biologica Alapítvány támogatásával készült.
63
Függelék
11. Függelék2 11.1. Diszkrét Markov folyamatok A rejtett Markov modell leírásához el˝oször a modell alapjául szolgáló diszk-
a43
a44
rét Markov folyamatok megértése szükséges. Ezekben az id˝o folyamán egy rend-
a14
S4 a31
szer állapotaiban bekövetkez˝o változásokat vizsgáljuk. Az id˝o nem folytonosan, ha-
S3 a32
a41
a23
nem ugrásszer˝uen, egyenl˝o mértékben vála21
tozik, ezért értékei egész számokkal jelöl-
S1
het˝ok: t = 1; 2; : : : T: A rendszer állapotai
csak véges sok (N ) diszkrét értéket vehet-
nek fel, jelöljük ezeket Si -vel (S = fS1 ; S2 ; : : : SN g). Ekkor a folyamat id˝obeli vál-
a11
a12
S2
a22
11. ábra. Egy 4 állapotú els˝orend˝u diszkrét Markov modell
tozását leírhatjuk az állapotok id˝obeli soro-
Q = q1 : : : qT , ahol qt 2 S , minden t = 1;2; : : :T mellett. A Q sorozatok leírásához P meg kell adnunk a PQ = P (q1 = Sa ; q2 = Sb ; : : : qT = Sz ) valószín˝uségeket ( fQg PQ = 1). PQ értékei megadhatók a P (q1 = Sa ) kezdeti eloszlással, és a PQt = P (qt = Sk j qt 1 = Sj ; qt 2 = Si ; : : : q1 = Sa ) feltételes eloszlásokkal. Ha a folyamat Markov láncnak tekinthet˝o,
zatával:
akkor a markovítás feltétele azt jelenti, hogy ez utóbbiakban a feltételb˝ol az els˝o néhány tag kivételével a többi elhagyható. A legegyszer˝ubb – un. els˝orend˝u – Markov lánc esetében csak a közvetlen megel˝oz˝o id˝opillanathoz tartozó állapot ismerete szükséges a valószín˝uségi leíráshoz, azaz a feltételb˝ol az els˝o tag kivételével minden más tag elhagyható:
P [qt = Sk jqt 1 = Sj ; qt 2 = Si ; : : : q1 = Sa ℄ = P [qt = Sk jqt 1 = Sj ℄ :
(10)
További egyszer˝usítést jelent, ha a feltételes valószín˝uségek az id˝ot˝ol függetlenek, így a (10) egyenl˝oség jobb oldala független az id˝ot˝ol:
aij = P [qt = Sj jqt 1 = Si ℄ ; 1 i; j N; 1 < t T:
(11)
A (11) egyenl˝oségben definiált aij feltételes valószín˝uségeket a Markov modell nyelvén átmeneti valószín˝uségeknek nevezzük, melyek a következ˝o tulajdonságokkal rendelkeznek:
0 aij 1;
N X j =1
aij = 1; 1 i N:
(12)
2 A rejtett Markov modell itt található leírása L.R. Rabiner ’A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition’ (Proc. of the IEEE 77, 257–286, 1989) munkája alapján készült.
64
Diszkrét Markov folyamatok Az állapotsorozat teljes leírásához – mint írtam – szükséges a t = 1 id˝opillanatban lev˝o állapotok valószín˝uségének megadása, melyeket indító valószín˝uségeknek nevezünk:
i = P [q1 = Si ℄ ; 1 i N;
(13)
amelyre szintén teljesülni kell, hogy
0 i 1;
N X i=1
i = 1; 1 i N:
(14)
Nézzük meg egy egyszer˝u példán, ennek a sztochasztikus rendszernek a m˝uködését. A 11. ábrán látható állapotok jelöljenek különböz˝o id˝ojárásokat, pl. az egyes állapot legyen a napsütéses id˝o (S1 jéges˝ot (S3
=”napos”), a második a borongós id˝o (S2 =”borongós”), a harmadik jelentsen
=”jéges˝o”), míg a negyedik es˝os id˝ojárást (S4 =”es˝os”).
Az indító valószín˝uségek
és az ábrának megfelel˝o átmeneti valószín˝uségek legyenek a következ˝ok:
2 3 2 0:5 0 : 4 6 7 66 6 6 7 6 0:2 7 0:4 6 7 ; A = f a g = = fig = 66 ij 6 7 6 64 0:3 7 4 0:6 5
0:3 0:4 0:4 0:7 0:0
0:1
0:0 0:2 0:0 0:2
0:2 0:0 0:0 0:1
3 7 7 7 7 : 7 7 5
Modellünk alapján megkérdezhetjük, hogy mi a valószín˝usége annak, hogy egy hét id˝ojárása „napos-napos-borongós-jéges˝o-napos-es˝os-napos”. Ezt a megfigyelési sorozatot jelöljük
O-
O = fS1 ; S1 ; S2 ; S3 ; S1 ; S4 ; S1 g a t = 1; : : : 7 napoknak megfelel˝oen. A megfigyelési sorozat valószín˝uségét a következ˝oképpen adhatjuk meg: P (O jModell ) =P [S1; S1 ; S2 ; S3 ; S1 ; S4 ; S1 jModell ℄ = P [S1 ℄ P [S1 jS1 ℄ P [S2 jS1 ℄ P [S3 jS2 ℄ P [S1 jS3 ℄ P [S4 jS1 ℄ P [S1 jS4 ℄ =1 a11 a12 a23 a31 a14 a41 =1:008 10 3: val, melynek elemei:
Hasonlóan könnyen válaszolhatunk arra a kérdésre is, hogy ha egy adott napon napos az id˝o, akkor mi a valószín˝usége annak, hogy az következ˝o d
1 napon szintén napos lesz az id˝ojárás,
de a d-edik napon már nem. Ezt modellünk nyelvén úgy fejezhetjük ki, hogy a megfigyelési
sorozat elemei sorra a „napos” állapotot jelölik, vagy általánosan, valamelyik tetsz˝olegesen rögzített állapotot:
O = f Si ; Si ; Si ; : : : ;
1
2
3
Sj 6= Si g; d 1 d Si ;
aminek a valószín˝usége:
P (O jModell; q1 = Si ) = (aii )d 1 (1 aii ) = pi (d):
(15)
pi (d) az i-edik állapotban d ideig való tartózkodás diszkrét valószín˝uségi s˝ur˝uség függvénye, 65
A diszkrét Markov folyamatok kiterjesztése amely egyik fontos jellemz˝oje a Markov láncnak. pi (d)segítségével megmondhatjuk a várható értékét az i-edik állapotban való tartózkodásnak:
di =
1 X d=1
dpi (d) =
1 X d=1
d(aii )d 1 (1 aii ) =
1 ;
(16)
1 aii
így például a folyamatosan napos napoknak a várt értéke modellünk szerint 1=(1
0:5) = 2:
11.2. A diszkrét Markov folyamatok kiterjesztése Az eddigiekben olyan Markov folyamatot vizsgáltunk, melyben minden egyes
1
állapot valamilyen fizikailag megfigyelhe-
2
N ...
t˝o eseménynek felel meg (pl. a napos id˝o). Ezzel a modellel azonban csak néhány P( P( P(
) = b 2(1) ) = b 2(2) ) = b 2(3)
P( P( P(
) = b N(1) ) = b N(2) ) = b N(3)
figyelhet˝ok meg. Ebben az esetben a meg-
P(
) = b 1(M)
P(
) = b 2(M)
P(
) = b N(M)
...
) = b 1(1) ) = b 1(2) ) = b 1(3) ...
mos esetben az állapotok közvetlenül nem
P( P( P(
...
problémát tudunk jól leírni, ugyanis szá-
figyelhet˝o jel nem egy konkrét állapottal azonos, hanem annak valamilyen valószí-
O={
,
,
,
,...
...,
}
n˝uségi függvénye. Az így kapott modell 12. ábra. Egy N állapotú rejtett Markov modell
két egymásba ágyazott sztochasztikus fo-
lyamatnak felel meg, ahol van egy nem megfigyelhet˝o (rejtett) sztochasztikus folyamat – az állapotok –, illetve egy megfigyelhet˝o folyamat, melynek elemei a megfelel˝o állapotoktól függnek. Az ezen az elven „m˝uköd˝o” rejtett Markov modell (HMM, az angol - Hidden Markov Model - rövidítés alapján) megértéséhez nézzük meg a következ˝o példát. Legyen N darab urnánk, és mindegyiket töltsük meg különböz˝o szín˝u golyókkal úgy, hogy az egyes urnákban a golyók „színösszetétele” különbözzék (12. ábra). Ezután képzeljük el a következ˝o folyamatot: válasszunk ki egy urnát egy bizonyos „els˝o választás”, vagy ”indító” valószín˝uség szerint. Az urnából ezután húzzunk ki egy golyót és jegyezzük fel annak színét. A golyó színe a tulajdonképpeni megfigyelésünk. Ezután válasszunk egy másik urnát valamilyen véletlen módon, ami függjön attól, hogy éppen melyik urnából húztunk utoljára golyót. Abból is húzzunk ki egy golyót és ezt a folyamatot ismételjük meg valamilyen véges számú sok lépésben. Ebben az eljárásban az urnák sorozata egy els˝orend˝u Markov lánc, míg a golyók sorozata nem tekinthet˝o Markov láncnak. A golyók sorozatát rejtett Markov láncnak nevezik, hiszen ha csak a golyók színei alkotják a megfigyelést, akkor a golyósorozatot meghatározó Markov lánc rejtett.
66
A rejtett Markov modell elemei
11.3. A rejtett Markov modell elemei Az el˝oz˝o fejezetben leírt egyszer˝u példa jól szemlélteti, hogy hogyan néz ki a diszkrét rejtett Markov modell, és hogy hogyan kell azt egy egyszer˝u feladatra alkalmazni. Általános esetben egy rejtett Markov modellt a következ˝o paraméterek jellemzik: 1. Az állapotok száma (N ). Bár az állapotok rejtettek, mégis rendelhet˝o hozzájuk valódi fizikai jelentés, például az el˝oz˝o példában az urnák. Általános esetben bármely állapot után következhet bármely más állapot, azonban számos esetben a lehetséges átmenetek nagymértékben korlátozottak (mint a dolgozatomban bemutatott, a transzmembrán fehérjék topológiájának becslésére kidolgozott modell esetében is). A továbbiakban az egyedi
S = fS1 ; S2 ; S3 ; : : : ; SN g jelölést használom, valamint a t id˝opillanatban bekövetkezett állapotot qt -vel jelölöm. állapotokra, illetve azok halamazára az
2. Az egyes állapotokban megfigyelhet˝o jelek száma (M ). Az „urna és golyó” modellben ez a golyók színeinek számának felel meg. Az egyes megfigyelt jelet „megfigyelés”-nek vagy „kijelzés”-nek nevezem és a V
= fv1 ;v2;: : :; vM g jelölést használom.
3. Az egyes állapotok közötti átmenetek valószín˝uségét az átmeneti mátrix tartalmazza:
A = faij g, ahol
aij = P [qt 1 = Sj jqt = Si ℄ ; 1 i; j N:
Általános esetben, amikor bármely állapot után bármely más állapot következhet aij minden
(17)
>0
i; j párra. Ha valamely i; j párra aij = 0, akkor a j -edik állapotból az i-edik
állapotba való átmenet tiltott, azaz soha nem következhet be. 4. A modell leírásához szükséges továbbá megadni az egyes állapotokban a megfigyelési, vagy más néven kijelz˝o valószín˝uségi eloszlásokat, ami az „urna és golyó” modellben az egyes urnákban lev˝o golyók színeloszlásának felel meg. A j -edik állapotban a megfigye-
lési valószín˝uségi eloszlást B
= fbj (k)g-val jelölöm, ahol
bj (k) = P [vk a t: pillanatban jqt = Sj ℄ ; 1 j N; 1 k M:
(18)
5. A modell teljes leírásához ezenkívül már csak az un. indulási állapotok valószín˝uségi eloszlása szükséges, amely megadja az els˝o állapot kiválasztásának vagy bekövetkezésének valószín˝uségét:
= fi g, ahol
i = P [q1 = Si ℄ :
67
(19)
A rejtett Markov modell három alapfeladata A továbbiakban egy rejtett Markov folyamat leírásához szükséges paramétereket (N ,M ,A,B , )
a = (A; B; ) jelöléssel rövidítem.
Ha megadjuk az N , M , A, B és értékeket, akkor egy megfigyelési sorozatot – O
=O1 O2
: : : OT , ahol minden egyes Ot a lehetséges V jelek közül egy, és T a megfigyelések számával egyenl˝o – a következ˝oképpen állíthatunk el˝o a rejtett Markov modell segítségével: 1. Válasszuk ki az els˝o állapotot (q1 alapján.
= Si) az indulási állapot valószín˝uségi eloszlás ()
2. Ekkor „nullázuk” le a stopperünket (t = 1). 3. Válasszunk ki egy megfigyelési jelet ebben a pillanatban annak az állapotnak megfelel˝o kijelz˝o valószín˝uségi eloszlás alapján (B ), amelyben éppen tartózkodunk (Ot 4. Válasszunk ki egy új állapotot (qt+1 valószín˝uség eloszlás alapján. 5. Lépjünk egyet az id˝oben (t
= vk ).
= Sj ) az adott állapotnak (Si) megfelel˝o átmeneti
= t + 1), és ha t kisebb T -nél folytassuk az eljárást a 3.
ponttól.
11.4. A rejtett Markov modell három alapfeladata Ahhoz, hogy a rejtett Markov modellel valós problémákat tudjunk leírni, a következ˝o három alapfeladat megoldása szükséges: 1. Ha adott egy megfigyelési sorozat (O
= O1 O2 : : : OT ) és egy rejtett Markov modell
= (A; B; )), akkor mi a valószín˝usége a megfigyelési sorozatnak a modell alapján, azaz P (O j )mekkora.
(
= O1 O2 : : : OT ) és egy rejtett Markov modell ( = (A; B; )), akkor hogyan válasszuk ki azt az állapot sorozatot (Q = q1 q2 : : : qT ), amely legjobban „megmagyarázza” a megfigyelési sorozatot, azaz amelyre P (O; Q j )
2. Ha adott egy megfigyelési sorozat (O
maximális. 3. Hogyan válasszuk ki a modell paramétereit (
= (A; B; )) egy adott megfigyelési
sorozat esetén, hogy a modell a legjobban leírja a megfigyelési soroztatot, azaz úgy hogy
P (O j ) maximális legyen.
68
A rejtett Markov modell három alapfeladata 11.4.1. Az els˝o feladat megoldása A feladat megoldásához az összes lehetséges T hosszúságú állapotsorozat esetén ki kellene számolni a megfigyelési sorozat valószín˝uségét, és ezek összege adná meg a kívánt valószín˝uséget:
P (O j ) =
X összes Q
q1 bq1 (O1 ) aq1 q2 bq2 (O2) : : : aqT
T bqT (OT ):
1q
(20)
Természetesen ezzel a módszerrel csak nagyon rövid megfigyelési sorozatok ese-
N
tén tudjuk a sorozat valószín˝uségét kiszá-
azonban ez a direkt eljárás nem megfelel˝o. Például, ha az aminosavak egy-egy álla-
3
potnak felelnek meg, és egy átlagos fehérje
2
200 aminosavnak vesszük, akkor ebben az esetben 20200 tagú a (20) egyen-
1
méretét
...
lapotsorozat létezik. Nagyobb méretekben
...
Állapotok
molni, hiszen N
...
N-1
állapot esetén N T féle ál-
...
1
2
letben lev˝o összegzés. A feladat mégis meg-
3 4 Megfigyelések
T-1
T
oldható egy dinamikus progarmozási eljá-
13. ábra. A forward-backward algoritmus ráson alapuló algoritmus segítségével, az un. „el˝ore-hátra” algoritmussal (forward-backward). Az eljárás menete a következ˝o: Legyen t (i) annak az eseménynek a valószín˝usége, amelyben az els˝o t megfigyelés az, amit megfigyeltünk, és a t id˝opontban a rejtett Markov folyamat állapota Si , feltéve hogy a modell paramétere :
t (i) = P (O1O2 : : : Ot ; qt = Si j)
(21)
Természetesen ezt a valószín˝uséget ki lehet a (20) egyenlet alapján számolni, azonban a következ˝o induktív eljárás alkalmazásával a feladat számolásigénye sokkal kisebb: 1. Indítás: 2. Indukció: 3. Befejezés:
t+1 (j ) =
hP
1 (i) = i bi (O1 ); 1 i N:
N (i)a ij i=1 t
i
bj (Ot+1); 1 t T 1; 1 j N:
P (O j) =
PN
i=1 T (i);
(22) (23) (24)
ami az els˝o feladat megoldása. Ennek az eljárásnak az a lényege, hogy ha egy adott id˝opillanatban ismerjük az egyes állapotok bekövetkezési valószín˝uségét, akkor a rákövetkez˝o pillanatban az állapotok valószín˝uségei kiszámolhatók csak az el˝oz˝o id˝opillanat adataiból (13. ábra). Éppen ezért az eljárás számolásigénye sokkal kisebb, mint a direkt eljárásé, így nagyobb feladatok 69
A rejtett Markov modell három alapfeladata esetén is könnyen alkalmazható. Például az el˝obb említett példában nem összegzés szükséges, hanem csak kb.
400 200 m˝uvelet elvégzése.
20200 nagyságrend˝u
A harmadik feladat megoldásához szükségünk lesz az algoritmus „hátra” részére is. Mivel a „hátra” algoritmus hasonló elven alapul, mint az „el˝ore”, az eljárás lényegét itt ismertetem. Ebben az esetben nem az els˝ot˝ol t-edik pillanatig tartó részszekvencia valószín˝uségét számoljuk ki, hanem a t + 1-t˝ol T -ig tartó részszekvencia valószín˝uségét, ha tudjuk, hogy a t-edik állapot
éppen Si , és adott a modellünk ()
t (i) = P (Ot+1 Ot+2 : : : OT jqt = Si ; ) :
(25)
Fontos megjegyezni, hogy (21)-ben qt = Si része annak az eseménynek, aminek a valószín˝uségér˝ol beszélünk, a (25)-ben viszont ugyanez az esemény feltétele annak, amit a harmadik feladat megoldásában használunk ki. Az ekkor használt induktív eljárás a következ˝o:
T (i) = 1; 1 i N:
1. Indítás: 2. Indukció:
t (i) =
PN
j =1 aij bj (Ot+1 ) t+1 (j );
t=T
(26)
1; T 2; :::1; 1 i N:
(27)
11.4.2. A második feladat megoldása A feladat megoldásához definiáljuk a következ˝o mennyiséget:
Æt (i) =
max P [q1 ; q2 ; : : : ; qt = Si ; O1 ; O2; : : : ; Ot j ℄ ; q1 ; q2 ; : : : ; qt 1
azaz a legnagyobb valószín˝uség˝u q1 ; q2 ; : : : ; qt állapotsorozatot, mely a t
(28)
= 1 id˝opillanattól a t
id˝opontig tart, és ekkor az Si állapotban van, és adott a modell (). Æt (i) számolása a forward algoritmushoz nagyon hasonlít, a különbség abban van, hogy most az indukció során nem az összes lehetséges átmenet valószín˝uségét kell összegezni, hanem csak a legnagyobb valószín˝uség˝u útvonalat eredményez˝o átmenetet kell figyelembe venni. A „legjobb útvonal” megtalálásához ezeket az átmeneteket kell tárolni, és a dinamikus programozási eljárásnak megfelel˝oen visszafejteni:
Æ1 (i) = i bi (O1 );
1. Indítás: 2. Indukció:
1 ( i ) = 0;
1 i N:
max [Æt 1 (i)aij ℄bj (Ot ); 2 t T; 1 j N; 1iN t (j ) = argmax [Æt 1 (i)aij ℄; 2 t T; 1 j N: 1iN
Æt (j ) =
70
(29) (30) (31)
A rejtett Markov modell három alapfeladata
P =
3. Befejezés:
max [ÆT (i)℄; qT = argmax [ÆT (i)℄: 1iN 1iN
4. Állapot sorozat visszafejtése:
qt = t+1 (qt+1 ); t = T
1; T 2; : : : ; 1:
(32)
(33)
11.4.3. A harmadik feladat megoldása A harmadik, és egyben a legnehezebb feladatnak nem létezik analitikus megoldása. A létez˝o el-
= (A; B; )), akkor hogy választható egy 0 = (A0 ; B 0 ; 0 ) modell, amire P (O j0 ) P (O j) , azaz ami jobban megmagyarázza, job-
járások azon alapulnak, hogy ha adott egy modell (
ban illeszkedik a megfigyelési sorozatra. Éppen ezért ezekkel az eljárásokkal csak valamilyen lokális maximumot tudunk megkeresni, a legvalószín˝ubb modellt nem. Az irodalomban ismert eljárások közül (Baum-Welch algoritmus, EM (expectationmodification), gradiens módszerek) csak a Baum-Welch eljárást ismertetem. A HMM
Si
paramétereinek iteratív újrabecsléséhez el˝o-
Sj aijbj(Ot+1)
ször definiáljuk a következ˝o valószín˝usé-
t (i; j ) legyen annak a valószín˝usége, hogy a t pillanatban az Si állapot, míg a t +1 id˝opontban az Sj állapot követgeket:
αt(i) t-1
t
βt+1(j) t+1
t+2
kezik be, ha adott a megfigyelési sorozat és a modell, valamint t (i) legyen annak a valószín˝usége, hogy a t pillanatban az Si állapot következik be, ha adott a megfigye-
14. ábra. Segédlet a rejtett Markov modell paramétereinek újrabecsléséhez
lési sorozat és a modell:
t (i; j ) = P (qt = Si ; qt+1 = Sj jO; ) ;
(34)
t (i) = P (qt = Si jO; ):
(35)
A ’forward-backward’ algoritmus változóit felhasználva t (i; j ) és t (i) a következ˝oképpen számolható (14. ábra):
t (i; j ) =
t (i)aij bj (Ot+1 ) t+1 (j ) = PN Pt(Ni)aij bj (Ot+1) t+1 (j ) ; P (O j) k=1 l=1 t (k )akl bl (Ot+1 ) t+1 (l)
t (i) =
N X t (i) t (i) = PNt (i) t (i) = t(i; j ): P (O j) j =1 t (j ) t (j ) j =1
71
(36)
(37)
A rejtett Markov modell három alapfeladata
t (i) értékeket összegezve minden egyes id˝opillanatra megkapjuk a várt értékét az Si állapotban való tartózkodásnak, ami nem más, mint hogy hány alkalommal történt az Si állapotból átmenet valamely más állapotba (éppen ezért az összegzést t = 1-t˝ol t = T 1-ig kell csak elvégezni). t (i; j ) értékek összege pedig ugyanezekre a t id˝opillanatokra megadja a várt értékét az Si állapotból az Sj állapotba. Ezek alapján a rejtett Markov modell paramétereit A
a következ˝oképpen becsüljük újra minden egyes iterációs lépésnél:
i; = (Si v árt gyakorisága t = 1 ido˝ pontban) = 1 (i); a;ij
=
Si
b;j (k)
bo˝ l Sj
(38)
P
T 1 (i; j ) be való átmenet v árt gyakorisága t = Pt=1 T 1 (i) ; Si v árt gyakorisága t=1 t
= Sj állapotban vk jel várt gyakorisága = Sj v árt gyakorisága
72
(39)
PT
t=1;ha Ot =vk t (j ) : PT t=1 t (j )
(40)