Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig

Antal, Péter Hullám, Gábor Millinghoffer, András Hajós, Gergely Arany, Ádám Bolgár, Bence Gézsi, András Sárközy, Péter

Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig írta Antal, Péter, Hullám, Gábor, Millinghoffer, András, Hajós, Gergely, Arany, Ádám, Bolgár, Bence, Gézsi, András, és Sárközy, Péter Publication date 2014 Szerzői jog © 2014 Antal Péter, Hullám Gábor, Millinghoffer András, Hajós Gergely, Arany Ádám, Bolgár Bence, Gézsi András, Sárközy Péter

Created by XMLmind XSL-FO Converter.

Tartalom Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig ............... 1 1. 1 Biobankok. Laboratóriumi információs rendszerek ........................................................... 1 1.1. 1.1 Bevezetés ............................................................................................................ 1 1.1.1. 1.1.1 Biobankok ........................................................................................... 1 1.1.2. 1.1.2 Laboratóriumi információs rendszerek ............................................... 1 1.2. 1.2 A LIMS-ek képességei ....................................................................................... 1 1.2.1. 1.2.1 Alapvető funkciók ............................................................................... 1 1.2.2. 1.2.2 További funkciók ................................................................................ 2 1.3. 1.3 LIMS: esettanulmány .......................................................................................... 3 1.4. 1.4 Ellenőrző kérdések ............................................................................................. 7 2. 2 DNS rekombináns méréstechnológiák, zaj- és hibamodellek ............................................ 7 2.1. Betegségek és az odds ratio kapcsolata .................................................................... 7 2.2. Valós mérési adatok szimulálása .............................................................................. 8 2.3. Könyvtár előkészítése ............................................................................................... 8 2.4. Adapter eltávolítás .................................................................................................... 8 2.5. Minőségi szűrés ........................................................................................................ 9 2.6. Illesztés ..................................................................................................................... 9 2.7. Bowtie 2 illesztés ...................................................................................................... 9 2.8. Eredmények ábrázolása ............................................................................................ 9 2.9. Kérdések ................................................................................................................... 9 3. 3 Virtuális genotipizálási laboratóriumi segédlet ................................................................ 10 3.1. Genotipizáló rendszer ............................................................................................. 10 3.2. DNS-chipek ............................................................................................................ 10 3.3. Kontrollpontok ....................................................................................................... 11 3.4. Képdigitalizálási módszerek a genotipizálás során ................................................. 12 3.4.1. Szűrés ......................................................................................................... 12 3.4.2. Rácsillesztés ............................................................................................... 12 3.4.3. Szegmentáció ............................................................................................. 12 3.4.4. Zajminták ................................................................................................... 12 3.4.5. Genotipizálás .............................................................................................. 13 3.4.6. Anomáliák csökkentáse .............................................................................. 14 3.5. Kérdések ................................................................................................................. 14 4. 4 Kísérlettervezés: az alapoktól a tudásgazdag kiterjesztésekig .......................................... 15 4.1. Bevezetés ................................................................................................................ 15 4.2. SVM alapú génprioritizálás .................................................................................... 15 4.3. Kérdések ................................................................................................................. 18 4.4. Gyakorlatok ............................................................................................................ 18 4.5. Feladatok ................................................................................................................ 19 4.5.1. 1. Kernelek hozzáadása .............................................................................. 19 4.5.2. 2. Prioritizálás ............................................................................................ 19 4.5.3. 3. Az eredmények értelmezése ................................................................... 19 4.5.4. 4. Feldúsulási elemzés ................................................................................ 20 5. 5 Bioinformatikai munkafolyamatrendszerek ..................................................................... 20 5.1. 5.1 Adat és modell konstruálása ............................................................................. 20 5.1.1. Feladatok .................................................................................................... 20 5.2. 5.2 A BMLA-elemzést leíró fájl ............................................................................. 20 5.3. 5.3 Futtatást a HTCondor rendszerben ................................................................... 21 5.3.1. Feladatok .................................................................................................... 22 5.4. 5.4 Nyers futási eredmények aggregálása ............................................................... 22 5.4.1. Feladatok. ................................................................................................... 23 5.5. 5.5 Ellenőrző kérdések ........................................................................................... 23 6. 6 Genetikai asszociációs vizsgálatok standard elemzése laborgyakorlat ............................ 24 6.1. 6.1 Bevezetés .......................................................................................................... 24 6.2. 6.2 Hardy-Weinberg-egyenlőség vizsgálata ........................................................... 24 6.3. 6.3 Standard asszociációs tesztek ........................................................................... 25 6.4. 6.4 Haplotípus-asszociáció vizsgálata .................................................................... 26

iii Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 6.4.1. 6.4.1 Kapcsoltság ....................................................................................... 27 6.4.2. 6.4.2 Haplotípusblokkok meghatározása .................................................... 28 6.4.3. 6.4.3 Asszociációs tesztek .......................................................................... 29 6.4.4. 6.4.4 Permutációs tesztek ........................................................................... 29 7. Hivatkozások ....................................................................................................................... 30 8. 7 Génexpressziós adatok standard asszociációs elemzése .................................................. 30 8.1. 7.1 Bevezetés .......................................................................................................... 30 8.1.1. 7.1.1 Az adat .............................................................................................. 31 8.2. 7.2 Az elemzéshez szükséges további csomagok telepítése ................................... 31 8.3. 7.3 Az adatok letöltése ............................................................................................ 32 8.4. 7.4 Minőségi ellenőrzések ...................................................................................... 32 8.5. 7.5 Az adathalmaz szűrése ...................................................................................... 33 8.6. 7.6 Differenciálisan expresszálódó gének meghatározása ...................................... 34 9. Hivatkozások ....................................................................................................................... 36 10. 8 Bayes-i, rendszerszintű biomarker-elemzés ................................................................... 37 10.1. 8.1 Bevezető ......................................................................................................... 37 10.2. 8.2 Emlékeztető kérdések ..................................................................................... 38 10.3. 8.3 Feladatok ........................................................................................................ 39 10.4. 8.4 MBS poszteriorok utófeldolgozása és megjelenítése ...................................... 39 10.4.1. 8.4.1 Feltételes MBS poszteriorok megjelenítése a modell struktúrára vetítve 39 10.4.2. 8.4.2 MBS és k-MBS poszteriorok megjelenítése részhalmazhálón ........ 40 10.4.3. 8.4.3 A relevanciafa ................................................................................. 43 10.4.4. 8.4.4 A relevancia-interakció ................................................................... 44 11. Hivatkozások ..................................................................................................................... 45 12. 9 Heterogén biológiai adatok fúziós elemzése és értelmezése .......................................... 45 12.1. Bevezetés .............................................................................................................. 45 12.2. Hasonlóság-fúzió alapú sorrendezés ..................................................................... 46 12.3. Kérdések ............................................................................................................... 48 12.4. Gyakorlatok .......................................................................................................... 48 12.5. Feladatok .............................................................................................................. 48 12.5.1. 1. Adatforrások, hasonlóságfüggvények megválasztása .......................... 48 12.5.2. 2. Lekérdezési halmazok összeállítása, prioritizálás ................................ 49 12.5.3. 3. Az eredmények értelmezése ................................................................. 50 12.5.4. 4. Feldúsulási elemzés .............................................................................. 52 13. 10 Bayes-i oksági elemzés ................................................................................................ 53 13.1. 10.1 Bevezetés ...................................................................................................... 53 13.2. 10.2 Emlékeztető kérdések ................................................................................... 55 13.3. 10.3 Feladatok ...................................................................................................... 55 13.4. 10.4 Feltételes MBG poszteriorok megjelenítése a modellstruktúrára vetítve ..... 55 13.5. 10.5 Páronkénti poszteriorok megjelenítése a modellstruktúrára vetítve ............. 56 14. Hivatkozások ..................................................................................................................... 56 15. 11 Tudásmérnöki technikák alkalmazása döntési hálóknál ............................................... 57 15.1. 11.1 Bevezetés ...................................................................................................... 57 15.2. 11.2 Kérdések/Emlékeztetők ................................................................................ 57 15.3. 11.3 Tudásmérnöki technikák Bayes-hálókhoz .................................................... 57 15.4. 11.4 Feladatok ...................................................................................................... 57 15.5. 11.5 Bayes-háló-modellek szerkesztése ................................................................ 58 15.5.1. 11.5.1 Új modell létrehozása .................................................................... 58 15.5.2. 11.5.2 Létező modell megnyitása ............................................................. 58 15.5.3. 11.5.3 Modellstruktúra szerkesztése ........................................................ 58 15.5.4. 11.5.4 Csomópontok típusainak szerkesztése .......................................... 58 15.5.5. 11.5.5 Csomópontok csoportjainak szerkesztése ..................................... 59 15.5.6. 11.5.6 Csomópontok szerkesztése ............................................................ 60 15.5.7. 11.5.7 Annotáció és magyarázatkeresés ................................................... 64 15.6. 11.6 Következtetés Bayes-hálókban ..................................................................... 65 15.6.1. 11.6.1 Evidenciák/döntések bevitele ........................................................ 66 15.6.2. 11.6.2 Marginális eloszlások számítása ................................................... 66 15.6.3. 11.6.3 Következtetés érzékenységének vizsgálata ................................... 67 15.7. 11.7 Strukturális információk megjelenítése ........................................................ 68 iv Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 15.7.1. 11.7.1 Élek megjelenítése ........................................................................ 15.7.2. 11.7.2 Húrgráf megjelenítése ................................................................... 15.7.3. 11.7.3 Klikkfa megjelenítése .................................................................... 16. Hivatkozások ..................................................................................................................... 17. 12 Döntéstámogató rendszerek tanulása ........................................................................... 17.1. 12.1 Bevezető ....................................................................................................... 17.2. 12.2 Kérdések/Emlékeztetők ................................................................................ 17.3. 12.3 Feladatok ...................................................................................................... 17.4. 12.4 Becslések torzítása ........................................................................................ 17.5. 12.5 Paraméterek tanulása .................................................................................... 17.5.1. 12.5.1 Adatfájlok formátuma ................................................................... 17.5.2. 12.5.2 Paraméterek beállítása adatfájl alapján ......................................... 17.6. 12.6 Modellkiértékelés adatfájl alapján ................................................................ 17.6.1. Bemeneti mezők ....................................................................................... 17.6.2. Calculate gomb ........................................................................................ 17.6.3. Kimeneti mezők ....................................................................................... 17.7. 12.7 Struktúratanulás ............................................................................................ 18. Hivatkozások ..................................................................................................................... 19. 13 Virtuális szűrés kernel-módszerekkel .......................................................................... 19.1. 13.1 Bevezetés ...................................................................................................... 19.2. 13.2 A referencia-vegyülethalmaz elkészítése ...................................................... 19.3. 13.3 A kernelek elkészítése .................................................................................. 19.4. 13.4 Egy-osztályos prioritizálás ............................................................................ 19.5. 13.5 Kvantitatív struktúra-hatás összefüggés ....................................................... 19.6. 13.6 Kérdések ....................................................................................................... 20. Hivatkozások ..................................................................................................................... 21. 14 Metagenomika .............................................................................................................. 21.1. 14.1 Bevezetés ...................................................................................................... 21.2. 14.2 Előfeldolgozás .............................................................................................. 21.3. 14.3 Adatelemzés .................................................................................................. 21.3.1. 14.3.1 Taxonómiai alapegységek meghatározása .................................... 21.3.2. 14.3.2 Alfa-diverzitás ............................................................................... 21.3.3. 14.3.3 Béta-diverzitás ............................................................................... 21.4. 14.4 Ellenőrző kérdések ........................................................................................ 22. Hivatkozások .....................................................................................................................

v Created by XMLmind XSL-FO Converter.

68 69 69 70 70 70 70 70 71 71 71 71 72 72 72 72 72 73 74 74 74 75 76 78 78 78 79 79 79 82 82 83 86 87 87

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1. 1 Biobankok. Laboratóriumi információs rendszerek 1.1. 1.1 Bevezetés 1.1.1. 1.1.1 Biobankok A biobankok olyan speciális bioanyag-gyűjtemények, amelyek biológiai mintákat és azokkal kapcsolatos információkat tárolnak. Biobankokat leginkább kutatási célokra használnak; kiemelkedő jelentőségűek a genomikai és személyre szabott orvoslással kapcsolatos kutatásokban. A legtöbb genomikai kutatás során ahhoz, hogy értelmes, statisztikailag szignifikáns eredmények keletkezzenek, a kutatóknak nagy számú (adott esetben több tízezer) mintán kell molekuláris diagnosztikai teszteket végezniük. Ahhoz, hogy ezeket a vizsgálatokat el lehessen végezni, a biológiai mintákat eredeti állapotukban biobankokban kell megőrizni mindaddig, amíg elegendő minta össze nem gyűlik (ugyanis a vizsgálatok sokszor fajlagosan jóval olcsóbbak egyszerre sok mintán elvégezve, mint egyesével). Bizonyos esetekben, például ritka betegségek vizsgálatakor, a mintagyűjtés több (vagy több tíz) évig is eltarthat. Előfordulhat, hogy a biobankokban tárolt mintákat több vizsgálatban is felhasználhatják (különösen az ismert betegségektől mentes, ún. kontroll mintákét), ezzel csökkenthető a mintagyűjtéshez szükséges idő, vagy ugyanannyi idő alatt több minta felhasználására adódik lehetőség. Ez várhatóan sikeresebb vizsgálatokhoz vezet, amelyekben több biológiailag értelmes eredmény születik, vagy több, statisztikailag szignifikáns összefüggést lehet kimutatni (vagy cáfolni). A biobankok nélkülözhetetlenek a mai biológiai tudományokban.

1.1.2. 1.1.2 Laboratóriumi információs rendszerek A molekuláris diagnosztikai laboratóriumok rendszerint biológiai mintákat kezelnek, elemeznek és az eredményekről jelentéseket készítenek. Ennek a munkafolyamatnak számos lépését lehet információs rendszerekkel segíteni. Az ezeket támogató (illetve akár a laboratórium teljes működését lefedő) szoftvereket laboratóriumi információs rendszereknek (Laboratory Information Management Systems, LIMS) nevezzük. A LIMS-ek segítségével nagyon sok manuális - a hibázás lehetőségét magában rejtő munkát ki lehet váltani, ami elősegítheti a laboratóriumi dolgozók hatékonyabb munkavégzését.

1.2. 1.2 A LIMS-ek képességei 1.2.1. 1.2.1 Alapvető funkciók 1.2.1.1. Minták kezelése, felvitele és elérése A minták kezelése (felvitele és elérése) minden LIMS alapvető funkciója. Egy minta regisztrálása a LIMS-be rendszerint kétféle időpontban történhet: (1) amikor a minta megérkezik a laboratóriumba, és (2) a minta megérkezése előtt: mielőtt a mintát leveszik a pácienstől, a LIMS generált egy minta "rendelést", lehetőség szerint egy mintatároló létrehozásával és a páciensnek való elküldésével. A minta ebben az esetben "még nem 1 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig beérkezett" státuszba kerül, és amikor a mintatároló beérkezik a laborba, a regisztrációs folyamat tovább folytatódik. A LIMS-ek mintakezelési szolgáltatásainak a következő alapvető tulajdonságokat kell teljesítenie: • Egyszerű űrlapok. A beviteli űrlapok legyenek annyira egyszerűek és magától értetődőek, amennyire ez lehetséges. Támogassák a könnyű és gyors adatbevitelt, akár egyetlen, akár egyszerre sok minta beviteléről legyen szó. • Flexibilis adatbevitel. A LIMS-nek lehetővé kell tennie, hogy a megfelelő típusú adatokat lehessen felvinni, ami magában foglalja a numerikus, alfabetikus felsorolástípusokat, szimbólumokat, fényképeket stb. Opcionálisan támogathatja a felhasználó által definiált függvények automatikus lefuttatását az adatbevitel közben. • Intelligens adatbevitel. A beviteli űrlapok lehetőség szerint ne fogadjanak el olyan adatokat (de legalább figyelmeztessenek), amelyek valószínűleg hibásak, pl. az élettel összeegyeztethetetlen testi paraméterek, valószínűtlen dátumok stb. Ezek a kilógó értékek ugyanis erőteljesen rontják az adataink minőségét. • Klinikai információk. Az alapadatokon kívül klinikai és egyéb fenotípusos információkat is fel lehessen vinni a mintákhoz. • Tárolási információk támogatása. A LIMS-nek támogatnia kell a minták tárolási helyének nyomonkövetését, egészen alacsony szinten; például hűtő, polc, rekesz, doboz, sor, oszlop szinten. A tárolási információknak adaptálhatónak kell lennie a laboratórium felszereltségéhez. • Minták követése. A mintákkal történő minden egyes eseményt nyomon kell követni attól a perctől kezdve, hogy a minta beérkezik egészen addig a percig, amíg fel nem használjuk, vagy meg nem semmisül. Ezt a funkciót felügyeleti láncnak nevezzük (Chain of Custody, COC). A LIMS-nek képesnek kell lennie arra, hogy jelentést készítsen egy adott mintához tartozó teljes élettörténetről (ki, mikor és milyen célokra használta az adott mintát). 1.2.1.2. Mérőeszközökkel való integráció A modern LIMS-ek képesek a laboratóriumi mérőeszközökkel való kommunikációra. Ez az integráció alapvetően kétirányú lehet: (1) az adott eszköz irányítása (a technikus egy egységes felhasználói felületről képes vezérelni az adott eszközt) és (2) a mérőeszköz mérési eredményeinek importálása (a LIMS a mérési eredményeket importálja a saját adatbázisába, ezzel nagyban lecsökkentve az adatbevitel idejét és a beviteli hibák számát). Emellett a mérőműszer paramétereinek importálása elősegítheti a mérések minőségének ellenőrzését is. Ezen kívül a LIMS hozzáférési és karbantartási információkat is lekérhet a műszertől: ki, mikor és milyen célokra (milyen minták feldolgozásához) használta; figyelmeztethet, ha karbantartás szükséges stb. 1.2.1.3. Alkalmazásokkal való integráció A LIMS-eknek lehetővé kell tenniük, hogy külső szoftvereszközök felé adatokat lehessen exportálni, például táblázatkezelő, szövegszerkesztő programokba. Támogathatja az adatbázis-integrációt vagy különböző fájlelérési protokollokat távoli minták adatainak összegyűjtésére. 1.2.1.4. Jelentések készítése Minden LIMS-nek alapvető feladata, hogy a mintákról, a használatról és az alapvető működésről jelentéseket lehessen készíteni. A jelentéseket lehet automatikusan (például a nap végén vagy havonta), vagy szükség szerint (egy adott kérdés megválaszolására) generálni. A jelentések elkészítésének lehetőségét szigorú jogosultsági rendszer szerint kell szabályozni.

1.2.2. 1.2.2 További funkciók

2 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1.2.2.1. Felhasználói aktivitások naplózása A felhasználói aktivitás naplózása egyes laboratóriumokban alapvető követelmény lehet. 1.2.2.2. Vonalkódok kezelése A minták kezelésének munkafolyamatát nagyban leegyszerűsítheti és megkönnyítheti a vonalkódok használata. Ez csökkenti vagy megszünteti a beviteli hibák lehetőségét (pl. mintakeveredés) és leegyszerűsíti egy adott mintával kapcsolatos információk lekérdezését. 1.2.2.3. Adatbányászat A LIMS nyújthat egyes adatbányászati funkciókat is, például adatkezelési problémák keresésének támogatására vagy hibás készülékek azonosítására; megjelenítheti az adatokban lévő trendeket stb. 1.2.2.4. Dokumentumok kezelése A dokumentumok verzióinak kezelése, elektronikus aláírások használata és a dokumentumokhoz való hozzáférés szabályozása (azaz összességében a dokumentumok kezelése) gyakori követelmény a laboratóriumokban. Nagy előny, ha maga a LIMS képes ezeknek a funkcióknak a betöltésére, ekkor ugyanis megszűnik az igény más dokumentumkezelő rendszer használatára, illetve a LIMS-be való integrációjára. 1.2.2.5. Eseményvezérelt cselekvések Egyes LIMS-ek bizonyos események bekövetkezésekor automatikus cselekvéseket is végrehajthatnak. Például egy minta érkeztetésekor küldhet valakinek egy emailt vagy egy SMS-t; ha egy reagens szintje alacsony, akkor figyelmeztethet valakit, hogy szükséges lesz további reagens rendelése (vagy automatikusan vásárolhat az interneten). Ezeknek az eseményeknek teljesen konfigurálhatóaknak kell lenniük. 1.2.2.6. Készletezés A minták nyomonkövetésén túl a LIMS egyéb anyagok (pl. reagensek) használatát is nyomon követheti. Ez magában foglalja a helyük és használatuk (szintjük, rendelkezésre állásuk) követését is. 1.2.2.7. Munkafolyamatok kezelése A LIMS-eknek alapvetően támogatniuk kell a technikusok mindennapi munkáját. Ezt teljeskörűen konfigurálható munkafolyamat-kezeléssel lehet elérni.

1.3. 1.3 LIMS: esettanulmány A továbbiakban egy egyedi fejlesztésű laboratóriumi információs rendszer alapvető használatát mutatjuk be egy egyszerű példán keresztül. Ez a rendszer teljesen szabadon és viszonylag alacsony szinten konfigurálható. Minden adattáblát (és azok mezőit), valamint a munkafolyamatokat is magunknak kell definiálnunk. A LIMS elérése a böngészőn keresztül történik: http://mitpc40.mit.bme.hu:49080/LimsTrial/ Először a Property Classes fülre kattintva hozzuk létre az 1. ábrán látható adatmezőket (a jobb oldali űrlap értelemszerű kitöltésével, majd az Insert gombra kattintással).



Ezután hozzunk létre egy új adattáblát (Sample) a 2. ábrán látható módon az űrlap kitöltésével, majd az Insert gombra kattintással. Ezzel definiáltuk a pácienseinket tartalmazó adattáblát.

Ahhoz, hogy fel tudjunk venni egy új pácienst, először definiálnunk kell egy ún. Operation Class-t. Ez tulajdonképpen egy teljesen általános műveleti leírást jelent: milyen bemenő adatokból milyen kimeneti adatok keletkeznek, és erről a tényről (a feldolgozásról) milyen további információkat kell tárolni. Az operáció neve legyen: New Sample. Ennek nincsenek bemeneti adatai (pácienst bármikor fel tudunk vinni); a kimeneti eredmény egy új páciens lesz; a feldolgozásról pedig egy dátumot kell majd rögzíteni, méghozzá a páciens felvételének dátumát. Töltsük ki az űrlapot a 3. ábrán látható módon, majd kattintsunk az Insert gombra.



Ezután hozzuk létre a Viziteket tartalmazó adattáblát a már ismert módon a 4. ábrán látható űrlap szerint.

Most már csak annyi a teendőnk, hogy összekapcsoljuk a Pácienseket a Vizitekkel. Ezt is egy Operation Class létrehozásával tudjuk megtenni. Most a bemeneti adat egy Páciens, a kimeneti adat pedig egy Vizit (lásd a 5. ábrán látható módon).



Az Upload Data fülön tudunk adatokat bevinni a rendszerbe. Hozzunk létre egy új pácienst a 6. ábrán látható módon.

Végül hozzunk létre egy új vizitet a 7. ábrán látható módon.



1.4. 1.4 Ellenőrző kérdések 1. Definiálja a biobank fogalmát. 2. Definiálja a laboratóriumi információs rendszer fogalmát. 3. Mik a laboratóriumi információs rendszerek alapvető funkciói? 4. Milyen kívánalmaknak kell megfelelni egy laboratóriumi információs rendszernek a minták kezelésével kapcsolatban? 5. A laboratóriumi információs rendszer mérőeszközökkel való összekapcsolásának milyen lehetőségeit ismerte meg? 6. Vázolja egy dokumentumkezelő rendszer legfontosabb feladatait. 7. Vázolja, hogy milyen lépései vannak egy minta laboratóriumi információs rendszerbe való felvételének.

2. 2 DNS rekombináns méréstechnológiák, zaj- és hibamodellek 2.1. Betegségek és az odds ratio kapcsolata Egy betegségmodellt egy VCF file segítségével definiálunk. A méréshez tartozó VCF file az alábbi információt tartalmazza:



Ebben a fájlban levő adatok esetében a betegséggel 2 SNP mutat asszociációt. A ritka allél frekvenciája az első SNP esetén 0.2, ezt az AF annotációs mező jelöli a táblázatban. Az odds ratio a heterozigóta esetben 10 (megfelelően az mezőben levő értékkel), míg a homozigóta mutáns esetben az odds ratio 20 ( ). A második SNP egy olyan variáns, amely nem csak 2 értéket vehet fel. A két alternatív allélnak eltérő az allélfrekvenciája és mindegyikhez más odds ratio tartozik. Ezek egyesével meg vannak jelölve a fájlban, egymástól vesszővel elválasztva. További valósághűség érhető el azáltal, hogy egy valódi SNP adatbázis rendelünk a generátorhoz, amely tartalmazza a valós genotípus eloszlásokat és mind az esetek, mind a kontrollok esetében megfelelő eloszlást fognak mutatni.

2.2. Valós mérési adatok szimulálása A Flowsim eszközt arra tervezték, hogy a 454 Life Sciences által kifejlesztett piroszekvenálási eljárás mérési- és hibakarakterisztikáját hűen szimulálja. A rendszerbe beépítették a mérés ismert aspektusait és hibáit. Minden bemenő readet flow jelek sorozatává alakítát, ahol az egyes jelek nagysága arányos az egyes homopolimerrészek hosszával. Az így kapott flow értékekhez szabványos módon rendel bázishívásokat, majd a szokásos minőségi szűrőkkel kiszámítja a bázisonkénti Phred quality pontszámot. A program kimenete egy szabványos .SFF file (standard flowgram format).

2.3. Könyvtár előkészítése A Kitsim program segítségével, még a szekvenálás előtt a könyvtár előkészítéséhez szükséges szintetikus szekvenciákat ligáljuk a readek végeire. A 454 rendszerben az 5' végekre kerül az A adapter, míg a 3' végekre a B adapter. Ezeken helyezkednek el az emulziós PCR-hez szükséges primerek. A PCR során elegendő másolat kell, hogy rendelkezésre álljon a szekvenciáról ahhoz, hogy a szekvenálás közben keletkező fény mennyisége megbízhatóan detektálható legyen a luciferáz enzimmel. Az A adapter minden szekvencia elején a TCAG kulcs, amíg a B adapter csak akkor kerül leolvasásra, ha a két adapter közötti szekvencia elég rövid ahhoz, hogy végigszekvenálásra kerülhessen.

2.4. Adapter eltávolítás


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Illesztés előtt a könyvtárelőkészítés során ligált adaptereket el kell távolítani. Az Adapter Removal egy szoftvereszköz, amely segíti az újgenerációs szekvenálás során használt primerek és adaptorok felismerését és eltávolítását. Magas érzékenysége és specificitása megkönnyíti ennek a feladatnak az általános megoldását.

2.5. Minőségi szűrés A minőségi szűrést a Prinseq eszközzel végezzük. Ennek a paraméterei és szűrési feltételei széles határok között változtathatóak attól függően, hogy inkább mennyiségi vagy minőségi readekre van szükség. Például a readhossz, minimum quality, ismeretlen nukleotidok száma alapján lehet szűrni, vagy lehet metszeni a readek jobb és bal végeit, ha azok bizonyos minőségi szint alá esnek. Minden minőségi paramétert a Phred score segítségével reprezentálunk, ami annak a log10 valószínűsége, hogy a bázis hibás.

2.6. Illesztés A nagyon rövid vagy nagyon hasonló szekvenciákat kézzel is össze lehet illeszteni, de az érdekesebb feladatokban hosszú, nagyon variábilis vagy rendkívül sok szekvenciát kell illeszteni. Ezért a szakértői tudást inkább jó algoritmusok implementálására használják, és csak végső esetben szükséges kézzel belenyúlni az illesztésbe. Kétféle illesztési feladat van, a globális és a lokális illesztés. A globális illesztésben a teljes readnek illeszkednie kell, a lokális esetben a readekben keresünk nagyon hasonló részszekvenciákat. A lokális illesztést megnehezítik a kisebb ismétlődések.

2.7. Bowtie 2 illesztés A Bowtie 2 egy gyors és memóriahatékony illesztő, amely hosszú referenciákra is képes illeszteni. Különösen alkalmas legalább 50 nukleotid hosszú readek fejlett organizmusok teljes genomjaira való illesztésére. A memóriahasználat csökkentése érdekében a Bowtie 2 a referencia genomot előre indexi egy FM index-szel, amelyik a Burrows-Wheeler transzformáció egyik fajtája. Emberi genomra történő illesztés során a memóriahasználata tipikusan 2.3 GB alatt marad. Többmagos processzorok használata jelentősen gyorsítja a Bowtie 2 futását. Kimenetei pedig a de-facto bioinformatikai adatformátumok, amely elősegíti hogy szinte bármilyen más bioinformatika adatelemző alkalmazással együtt lehessen használni.

2.8. Eredmények ábrázolása Az újgenerációs szekvenálás gyakran olyan mennyiségű adatot generál, hogy automatizált eszközökkel is nehéz minden érdekes vagy lehetséges variáns azonosítása. Ennek ellenére rendkívül hasznosak abban, hogy az egyértelmű eseteket osztályozzák. Mi az Integrative Genomics Viewer (IGV) vizualizáló szoftver használatát ajánljuk, mert képes többféle forrásból származó adatforrás egyidejű ábrázolására, annotálására. Különös figyelmet igényel a hosszú homopolimer-szekvenciák illesztése piroszekvenálásból származó adat esetén, mert könnyen hamis pozitív inzerciót vagy törlődést találhatunk.

2.9. Kérdések 1. Mi a kihívás a hosszú homopolimer-szakaszok elemzésében? 2. Hányféle allélja lehet egy SNP-nek? 3. Milyen célt szolgálnak az adapterek? 4. Hogy hívják a fénykibocsájtó enzimet? 5. Mi a különbség a globális és a lokális illesztés között? 6. Milyen paraméterek alapján szűrhetünk readeket?


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 7. Mi az a Phred pontszám? Hogyan számítjuk?

3. 3 Virtuális genotipizálási laboratóriumi segédlet 3.1. Genotipizáló rendszer A genotipizálási mérés során egyszerre sok egyed DNS-én tudjuk megvizsgálni az egyes helyeken levő allélokat. A nagyszámú mintavizsgálathoz a DNS-chipek nyújtanak segítséget.

3.2. DNS-chipek A DNS-chipek egy szilárd hordozó lapocskához (üveg, szilícium, speciális műanyag) kötött, nagyszámú, különböző nukleotidszekvenciájú DNS-próbából állnak. A próbák lehetnek in situ, azaz fotolitografikus úton előállított oligonukleotidok (20-25 nukleotid hosszúságúak), vagy nagyobb méretű ( 500-5000 nukleotidból álló) DNS-fragmentumok. A jelenlegi technikai lehetőségek maximum 30-40 ezer, különböző próbát tartalmazó pont (spot) kialakítását teszik lehetővé egy chip 1-2 cm2-es felületén. A vizsgálat során először a vizsgálandó mintákból DNS-t izolálunk, majd a számunkra érdekes területekről - az egynukleotidos polimorfizmusok 150 bázispárnyi környezetéről - másolatokat szaporítunk fel polimeráz láncreakció (PCR) segítségével. Ezután a felszaporított vad és mutáns allélokat tartalmazó DNS-láncokról különböző színű fluoreszcens festékkel jelölt kópiát készítünk. A jelölés úgy történik, hogy olyan primert adunk a PCR-rel felszaporított DNSdarabokhoz, amelynek 3' végi utolsó bázisa az SNP 5' irányú közvetlen szomszédságú bázisával képez párt. Ez után következik a primer 3' végének meghosszabbítása egyetlen fluoreszcensen jelölt, módosított nukleotid beépítése által (az SNP helyén előforduló nukleotidokkal homológ kétféleképpen jelölt aciklonukleotidokkal, melyek beépülése egyrészt megjelöli a primert a 3' végen, másrészt pedig a lánc további növekedését megakadályozza a módosított nukleotid). Az SNP határozza meg, melyik nukleotid kerül beépülésre. Így a vad, ill. mutáns allélek két különböző festékkel jelölhetők meg.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Az előkészítés befejeztével a mintákat olyan előre elkészített DNS-chipre visszük fel, amelyen fizikailag kötve olyan DNS-láncok találhatók, amelyek komplementerei a vad, ill. az SNP-t tartalmazó mutáns DNS-szálaknak. A minták felszaporított és festékkel megjelölt DNS-szakaszai ezekhez a komplementer szálakhoz kötődnek (hibridizálnak). A nem kötődött szálakat mosással eltávolítjuk. Ezután a két fluoreszcens festék elnyelési tartományának megfelelő hullámhosszú fénnyel (lézerrel) bevilágítva a mintákat - vagyis magát a DNS-chipet - az eltérő fluoreszcens festékkel megjelölt vad és mutáns allélokat tartalmazó DNS-láncok a festékre jellemző hullámhosszú fényt fognak kibocsátani, amelyet detektálni tudunk. Ekkor készítünk a két színcsatorna alatt egy-egy felvételt, majd a későbbiekben részletezett képfeldolgozási eljárással megfigyeljük az egyes pontok fényességét, valamint a pontok további jellemzőit is rögzítjük. Ezután az egyes SNP-khez tartozó mintákat összegyűjtjük, és egy diagramon ábrázoljuk. A diagram X tengelye a minta színarányát jelöli, az Y tengelyen a pontok összegzett intenzitása szerepel. Attól függően, hogy az adott mintapont a diagram mely oldalára kerül, megállapítható, hogy a vizsgált DNS tartalmazta-e a keresett mutációt vagy sem. Végül több chipen elvégzett számos kísérlet eredményeit hierarchikus csoport- (cluster) analízis segítségével értékeljük.

3.3. Kontrollpontok A festési lépés során felhasznált PCR master mix oldat (amely a primereket és a fluoreszcensen jelölt aciklonukleotidokat is tartalmazza) kontroll-oligonukleotidokat is tartalmaz, melyek arról adnak felvilágosítást, hogy a mérés során a festési lépés megfelelően végbement-e. A 384 lyukú plate mindegyik plexe (48) tartalmaz három pozitív kontrollt és egy negatív kontrollt (ábra).

Az XY kontrollpont a heterozigóta kontrollt képes hibridizálni, amely mindkét (zöld és kék) festést is hordozza. Az XX homozigóta kontrollpont az XX homozigóta kontrollt engedi hibridizálni, amely a kék festést hordozza. Az YY homozigóta kontrollpont az YY homozigóta kontrollt engedi hibridizálni, amely a zöld festést hordozza. A negatív kontroll nem tartalmazza a keresett DNS-szakaszt, így nem fluoreszkál egyik hullámhosszon sem. A két alkalmazott fluoreszcens festék (TAMRA és a FAM) emissziós spektruma ugyan közel található egymáshoz, a készülék érzékelője képes megkülönböztetni őket (10. ábra). Az átfedés a hullámhosszak között kevesebb, mint három százalék. Minden egyes mintahelynél 488, ill. 532 nm-es fénnyel történik a megvilágítás.



3.4. Képdigitalizálási módszerek a genotipizálás során A képfeldolgozás feladata minden egyes minta esetében a hatalmas mennyiségű képi információ átalakítása hibridizációs eredményekre. A genotipizáláshoz alkalmazott képfeldolgozó programok minden egyes mintahely esetében kiszámolják a képpont- (pixel) intenzitásokat, ill. az azt övező háttérintenzitás-értékeket is. A képfeldolgozás általában több lépésből áll:

3.4.1. Szűrés Szűrök alkalmazásával minden egyes képpont (pixel) egy számértékre cserélődik le, amely az éppen vizsgált pixel és a környezetében lévő pixelek intenzitásértékéből származik. Medián szűrő alkalmazása ajánlott a mi esetünkben, amellyel a nagyfrekvenciás zajok szűrhetők ki, ill. ennek hatására a rácsillesztés is jobb lesz.

3.4.2. Rácsillesztés A rácsillesztés feladata az egyes mintapontok helyének megtalálása a wellről felvett képen. Általában egy előre megrajzolt rácsot illesztünk a képre, majd a rács manuálisan történő mozgatásával beállítható a rács pontos helyzete. A rácsillesztésben segítségünkre vannak a kontrollpontok (X, Y, XY, negatív kontroll), amelyekkel ellenőrizhető a rácsillesztés sikeressége.

3.4.3. Szegmentáció Miután a rácsillesztés megtörtént, még hátravan a rácspontokban lévő minták helyzetének meghatározása. Ennél a lépésnél kerül meghatározásra, hogy mely képpontok tartoznak magához a mintához (mintafolthoz), ill. melyek a háttér részei.

3.4.4. Zajminták Az intenzitásértékek kiszámítása nem mindig ad teljes mértékben megbízható eredményt a beolvasott képekről, mert számos olyan hibalehetőség van, amely torzíthatja a beolvasott képek minőségét. Ezek a következő ábrákon figyelhetők meg. 12 Created by XMLmind XSL-FO Converter.


A legtöbb ilyen hibaforrás nagymértékben csökkentheti a mérési adatok feldolgozhatóságát, de szerencsére szoftveresen felismerhetők és így hatásuk minimalizálható.

3.4.5. Genotipizálás A genotípus meghatározása során minden egyes minta intenzitásértékeit meghatározzuk mindkét csatornán, majd az intenzitásértékek alapján csoportokba rendezzük (klaszterezzük) őket. A jó minőségű adatpontok egymástól jól elkülönülő, de közel eső csoportokat alkotnak, kevés kiugró adatpont társaságában.

A klaszterezés során a felismert mintafoltok mindegyikéhez egy értéket rendelünk, ami alapján ábrázolni lehet őket egy kétdimenziós rendszerben. 13 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Ez a kétdimenziós térkép a következő értékeket tartalmazza: a diagram X tengelye a minta színaránya (a logaritmusa az összesített kék és zöld intenzitásoknak, egyetlen pont esetében . Ezt az értéket a pont intenzitásarányának függvényében ábrázoljuk. Összehasonlítva egy adatpont pozícióját a térképen a többi, ugyanazt az SNP-t hordozó minta pozíciójával, az adott minta genotípusa meghatározható. Bizonyos esetekben a csoportok közel sem különülnek el olyan szépen, mint a fenti képen. Ebben az esetben a Hardy-Weinberg-egyensúly az, aminek alkalmazásával végrehajthatjuk a klaszterezést. A Hardy-Weinbergegyensúly alapelve kimondja, hogy mind az allél, mind a genotípus-gyakoriságok egy populáción belül állandóak maradnak, olyan ideális eloszlású populációkban, ahol a párosodás véletlenszerű. Attól függően, hogy egy populáció milyen messze esik az ideális populációtól, Khi2 próbával vizsgálható. A Hardy-Weinberg-egyensúly meghatározása a manuális klaszterezés alapfeltétele.

3.4.6. Anomáliák csökkentáse Alkalomszerűen - ahogy azt fentebb említettük - porszemcsék, vegyszermaradványok, törlésnyomok jelenhetnek meg a felvételeken. Ezek potenciális hibaforrások lehetnek a képfeldolgozás, kiértékelés során, ezért eltávolításuk létfontosságú. Ezen anomáliák szoftveres eltávolításának eredménye a következő ábrákon látható:

3.5. Kérdések 1. Soroljon fel három zajforrást! 2. Egy DNS-chipen hány SNP-t lehet lemérni? 3. Milyen színű fluorescens festéket használnak? 4. Mi az a Hardy-Weinberg-egyensúly? 5. Milyen feltételek mellett áll fenn a Hardy-Weinberg-egyensúly? 6. Mivel lehet egy DNS-szálról sok kópiát készíteni? 7. Ha egy SNP-nek két allélja van, akkor milyen kombinációkban szerepelhetnek egy emberben? 14 Created by XMLmind XSL-FO Converter.


4. 4 Kísérlettervezés: az alapoktól a tudásgazdag kiterjesztésekig 4.1. Bevezetés Az orvosbiológiai kísérlettervezés összetett feladat, amelynek célja az elvégzendő kísérletek optimalitását biztosítani: a lehető legteljesebb tudáshoz jutni a lehető legkisebb áron (ideértve elméleti és gyakorlati megfontolásokat egyaránt: statisztikai anomáliák, idő, költségek stb.). Ebből a szempontból egyedülálló lehetőségeket kínál a jelenleg is zajló posztgenomikai korszakban felhalmozott orvosbiológiai tudás; a múltban történt számtalan eredmény irányt mutathat a jövő kísérleteinek összeállításában is. A rendelkezésre álló háttértudás azonban mostanra az ember számára felfoghatatlan méreteket öltött, átlátása messze túlmutat bármely tudós képességein. A kísérlettervezés így ismét a számítástudományok (főként az adatfúzió és a mesterséges intelligencia), valamint a statisztika területe felé fordult. Az experimentális biológia, a kísérlettervezés és a statisztika határterületének egy fiatal, ám igen népszerű képviselője a génprioritizálás. A génprioritizálás során célunk adott lekérdezés alapján a gének egy sorrendjének meghatározása; nem meglepő, hogy egyes rendszerek kifejezett hasonlóságot mutatnak az internetes keresőmotorokhoz. Az első, 2002-es próbálkozások után sorra jelentkeztek az újabb és újabb génprioritizáló csomagok, amelyek közül teljesítmény tekintetében a hálózat alapú és a kernel alapú megközelítések kezdtek kiemelkedni. A prioritizáló eljárások jelentős segítséget nyújthatnak a kísérlettervezés során, mivel az ember számára befogadhatatlan mennyiségű háttértudás alapján képesek leszűkíteni a vizsgálandó gének körét. A gyakorlat során a génprioritizálás kernel alapú megközelítésével ismerkedünk meg. Az első ilyen, Endeavour névre keresztelt rendszert 2007-ben írták le, legnagyobb előnyeként a heterogén információforrások egyszerű és hatékony kombinációját lehet említeni. Az általunk alkalmazott eszköz az Endeavourhöz hasonlóan ún. szupportvektor-gépeken (SVM) alapul, amelyek a legelterjedtebb gépi tanulási algoritmusok közé tartoznak.

4.2. SVM alapú génprioritizálás Az SVM alapú génprioritizálás munkafolyamatát az 15. ábra szemlélteti. Az algoritmus működésének részletei előtt ismerkedjünk meg a gyakorlat során is követett lépésekkel: 1. Jelölt gének kiválasztása. A teljes genom prioritizálása lehetséges, ám nem mindig praktikus megoldás. Ennek számos oka ismert: a. Emberi: munkaigény (gondoljunk bele: néhány százas nagyságrendű listát már nehéz átnézni!). b. Számítási: számításigény, tárigény. c. Statisztikai: a teljes genom prioritizálása lényegesen bonyolultabb - jelenleg csak részben megoldott feladat, amelynek során statisztikai anomáliák jelentkezhetnek (lásd később). d. Biológiai: "eredendően" értelmetlen találatok. 2. Az információforrások kiválasztása, kernelkészítés. Számtalan információforrás áll rendelkezésre különböző adatbázisok formájában, például szekvencia-, útvonal-, génexpressziós stb. adatbázisok. 3. A kernel alapú módszerek közös jellemzője, hogy az adatokat kizárólag páronkénti hasonlóságok formájában "látják". A hasonlóságokat tartalmazó pozitív szemidefinit mátrixot nevezzük kernelnek, amely a legtöbb információforrás esetén viszonylag könnyen kiszámítható. Ehhez meg kell adnunk egy alkalmas hasonlóságmértéket; választhatunk "jól bevált" metrikák közül, vagy tervezhetünk saját hasonlóságfüggvényt. Megjegyzendő, hogy az utóbbihoz szükséges matematikai apparátus messze túlmutat a tantárgy keretein, így erre a gyakorlat során sem térünk ki. Minden információforrás alapján kiszámítható egy vagy több amelyre tehát

hasonlósági mátrix,


hasonlóságmértékkel,


Minden pozitív szemidefinit hasonlóság mátrix (kernel) meghatároz egy

Hilbert-teret, amelyre

ahol az adatpont ún. kernel-reprezentációja, pedig a függvénytérben értelmezett belső szorzat. Az algoritmus az adatokat csak páronkénti hasonlóságok ( térben vett belső szorzatok) formájában látja, így implicite ebben a - potenciálisan végtelen dimenziós - térben dolgozik. 1. Az algoritmus paraméterezése. A részletekre a feladatok során fogunk kitérni. 2. Lekérdezések összeállítása. A lekérdezések összeállítása a legfontosabb feladat a munkafolyamatban. Egyes prioritizáló rendszerek megengednek betegség vagy kulcsszó alapú lekérdezéseket is, azonban az általunk alkalmazott SVM alapú megoldásoknál a lekérdezést is a gének nyelvén kell megfogalmazni. Ha adott betegségnél szeretnénk azok patogenezisét potenciálisan befolyásoló géneket találni, a lekérdezést összeállíthatjuk a betegség hátterében ismerten szerepet játszó gének alapján. 3. Ügyelnünk kell azonban a lekérdezés viszonylagos homogenitására. A gépi tanulási algoritmusok közös jellemzője, hogy a bemeneti adatokban szabályszerűséget, mintázatokat keresnek; túlzottan diverz entitások esetén ilyen mintázatok azonosítása kevéssé lehetséges, így az eredmények is értelmetlenné válnak. A jelenségre fokozottan kell figyelni heterogén molekuláris hátterű, multifaktoriális betegségeknél. 4. Az alkalmazott SVM alapú rendszer háromféle lekérdezést támogat: a. Egyosztályos. Ebben az esetben csak "pozitív" példáink vannak; megfelel a korábban említett keresőmotor-szerű működésnek. b. Kétosztályos. Amennyiben "pozitív" és "negatív" példákat is tudunk szolgáltatni (például a célunk két betegség molekuláris hátterének elválasztása), akkor kétosztályos lekérdezést építhetünk. c. Kvantitatív. Ha az egyes entitásokhoz számszerű értéket tudunk rendelni, a szupportvektor-gépet regresszióra is használhatjuk a további entitások értékeinek predikciójához. 5. Prioritizálás. A prioritizáláshoz szükséges paraméterezést a feladatok során fogjuk ismertetni. 6. Adatelemzés. A kapott sorrend értelmezéséhez az alábbi eszközöket és erőforrásokat fogjuk igénybe venni: a. Hálózati elemzés. A lista első részének hálózatos reprezentációját az entitás-entitás hasonlóságok alapján számíthatjuk ki; segítséget nyújthat az előre sorolt entitások kapcsolati viszonyainak, funkcionális csoportjainak feltérképezésében. b. Feldúsulási elemzés. Ennek során azt számítjuk ki, hogy adott kategóriák (pl. szignáltranszdukciós vagy metabolikus útvonalak, celluláris funkciók stb.) elemei milyen mértékben vannak felülreprezentálva a sorrend első részében. c. Statisztikai elemzés. A prioritizálás során kiszámított statisztikai jellemzők például a lekérdezés inhomogenitásának felismerésében játszanak szerepet. d. Szakirodalom. A szakirodalom (pl. Pubmed kereső), illetve a szakértői tudás a találatok interpretációját segíti.



Az egyosztályos algoritmus működéséhez a 16. ábra szolgáltat geometriai intuíciót. A lekérdezés elemei a kernelen keresztül egy magasabb dimenziószámú térbe képezhetők. Az egyosztályos SVM azt a (hiper)síkot keresi, amely ebben a térben a lehető legközelebb fekszik a lekérdezés elemeihez. A többi entitás a síktól való távolság alapján sorrendezhető.



4.3. Kérdések Válaszolja meg 1-2 mondatban az alábbi kérdéseket. 1. Az említetteken kívül milyen információforrásokat tudna elképzelni a génprioritizálás során? (3 példa) 2. Hogyan definiálná a hasonlóság fogalmát útvonal-, szekvencia-, génexpressziós és az előbbi három adatforrásnál? 3. Miért jelentkezik fokozottan a heterogén lekérdezések problémája multifaktoriális betegségeknél?

4.4. Gyakorlatok A gyakorlatok során egy választott betegséghez fogunk ismerten asszociáló, valamint jelölt géneket gyűjteni. 1. Válasszon ki egy tetszőleges, de lehetőleg jól ismert betegséget! Lehetséges szempontok például a többékevésbé ismert genetikai háttér, gyakoriság, médiában való megjelenés stb. 2. Nézzen utána, hogy milyen gének játszhatnak szerepet a betegség kialakulásában! Használja a Genetic Association Database adatbázist (http://geneticassociationdb.nih.gov/)! Ebben az adatbázisban jelölt gén(CGAS), valamint teljes genom-asszociációs vizsgálatok (GWAS) eredményei vannak összegyűjtve. A Search linkre kattintva keressen rá a választott betegségre, majd gyűjtsön össze 10-12 találatot. A feladatok során ezek mint jelölt gének fognak megjelenni; a kísérlettervezés célja az lesz, hogy kiválasszuk közülük a "legígéretesebb" jelölteket. 3. Állítson össze egy lekérdezési halmazt, amely a betegség kialakulásában feltehetően fontos szerepet betöltő géneket tartalmaz! Ehhez használja a DisGeNET adatbázist (http://ibi.imim.es/web/DisGeNET/v01/home). A DisGeNET számos egyéb adatbázisból származó gén-betegség asszociációkat integrál (manuálisan karbantartott és prediktált, szövegbányászati kapcsolatokat egyaránt). Hajtson végre egy lekérdezést a választott betegséggel, majd gyűjtsön össze 4-5 gént a legmagasabb pontszámmal rendelkező találatok közül. A génprioritizálás során ezek fogják a lekérdezési halmazt alkotni. 4. Végül pedig állítson össze egy 3-4 elemű kontrollhalmazt, amely a választott betegséghez NEM kapcsolódó géneket tartalmaz, majd adja őket a jelölt listájához. 18 Created by XMLmind XSL-FO Converter.


4.5. Feladatok 4.5.1. 1. Kernelek hozzáadása A munkafolyamat első lépése a gén-gén hasonlósági mátrixok (kernelek) hozzáadása. A következők közül választhat: • Génexpressziós profil alapú hasonlósági mátrixok • Szövegbányászati hasonlóságon alapuló mátrixok • Szekvenciahasonlóság alapú mátrixok • Útvonal alapú mátrixok • Szemantikai hasonlóság alapú mátrixok Indítsa el a programot, a Browse gombbal válasszon ki egy kernelt, majd a Type mezőben válassza ki a Precomputed opciót. Mivel a kernelek hiányosak, meg kell adnunk egy átlagértéket is, amellyel a hiányzó értékek lesznek helyettesítve; ezt az egyszerűség kedvéért állítsuk -ra. A kernelt az Add gombbal tudja a gyűjteményhez adni; adjon hozzá legalább hármat.

4.5.2. 2. Prioritizálás A kernelekben szereplő gének listáját a Load gombbal tudja betölteni. Az eszközt egyosztályos prioritizációra fogjuk használni. A gyakorlatok során összeállított lekérdezési halmaz génjeit az Add (+) gombbal, vagy enter leütésével adja hozzá a pozitív osztályhoz; a gén első néhány karakterének begépelésével egyúttal kereshet is az ablakban. A prioritizálást a Go gombbal indíthatja. A felugró ablakban megtekintheti a különböző futási paramétereket, valamint az egyes kernelekhez hozzárendelt súlyokat. Melyik kernel kapta a legnagyobb súlyt?

4.5.3. 3. Az eredmények értelmezése Vegye szemügyre a prioritizálás eredményét. Az első helyeket általában a lekérdezés elemei foglalják el; ha nem így van, vagy esetleg a lekérdezés több blokkra esett szét, túlzott heterogenitásra lehet gyanakodni. Vizsgálja meg az első 10-15 találatot. Lát ismerős géneket a lekérdezésen kívül? A prioritizált listában kereshet is a génnév első néhány karakterének begépelésével. Vizsgálja meg, hogy a jelölt lista melyik eleméhez milyen helyezést társított az algoritmus! Hányadik helyet foglalja el a legjobb jelölt? Hol helyezkedik el a többi jelölt, illetve a kontrollhalmaz elemei? Foglalja össze a tapasztaltakat 4-5 mondatban. A Show plots gombbal hívja elő a prioritizálási statisztikákat. Vegye szemügyre a kompaktsági grafikont. Az x tengelyen a sorrend első száz génje található, míg az y-on az első x gén átlagos hasonlósága. Az első gén esetén a hasonlóság értelemszerűen 1, majd a továbbiak hozzáadásával reciprokfüggvényre emlékeztető lecsengést kell mutatnia. Heterogén lekérdezésnél a grafikon gyökjel alakot vesz fel. A Show graph gombbal az első 50 gén hasonlósági hálózatát lehet megtekinteni. A gének a kombinált (források súlyaival kiátlagolt) hasonlóság alapján vannak összekötve. Állítson be egy alkalmas vágási szintet, majd a Graph layout gombbal rendezze a gráfot. A sorrend elején szereplő gének rózsaszínnel, a többiek kékkel ábrázolódnak. Lát szabályosságot a gráfban? Válasszon ki 2 tetszőleges gént a gráfról, majd vizsgálja meg, milyen más génekkel állnak kapcsolatban. A listát vesse össze a DisGeNET hasonló listájával, amelyet a génre való kereséssel, majd az "All genes associated with this gene" linkre való kattintással jeleníthet meg. Végezze el a fenti elemzési lépéseket, majd foglalja össze tapasztalatait! Kísérletezhet egyéb beállításokkal, például egyes információforrások kivételével, vagy más futtatási paraméterek alkalmazásával is.



4.5.4. 4. Feldúsulási elemzés Az utolsó feladat során a prioritizált listát leginkább jellemző, "feldúsult" útvonalakat, ill. betegségeket fogjuk keresni. Nyomjon az Enrichment analysis gombra, majd a felugró ablakban a Browse gombbal válassza ki az betegség alapú annotációs file-t. A következő paramétereket lehet állítani: 1. E-érték levágás: csak az ez alatti e-értékkel (Bonferroni-korrigált p-értékkel) rendelkező betegségek fognak megjelenni. Amennyiben így nincs találat, emelheti az értéket, vagy akár kiveheti a pipát a teljes lista megjelenítéséhez. 2. Találatok száma: csak azon betegségek kerülnek be az elemzésbe, amelyeknek legalább két génje szerepel a kiszámított sorrendben. Az elemzés az Analyze gombbal indítható. Az eredmények első oszlopában a kapott e-értékek láthatók, a második oszlopban pedig a kategóriák nevei. Az alacsony ( alatti) e-érték azt jelenti, hogy az adott betegség génjei szignifikánsan gyakrabban fordulnak elő a sorrend első találatai között. Megjelent a kiválasztott betegség a listában? Milyen más betegségek láthatók? Milyen kapcsolatot feltételez az alacsony e-értéket kapott betegségek között (pl. hasonló genetikai háttér, komorbiditás stb.)? Hasonlóképpen végezze el az elemzést az útvonal-annotációs file felhasználásával is. Milyen útvonalak dúsultak fel a listában? A szakirodalom alapján (PubMed kereső felhasználásával) elemezzen néhányat a legjobb eredményt elért találatok közül. Írtak le összefüggést az útvonal és a választott betegség között?

5. 5 Bioinformatikai munkafolyamatrendszerek A BayesCube szoftver a BMLA analízisek kivitelezését egy több lépésből álló, a felhasználó elől elrejtett munkafolyamaton keresztül végzi el. Ez a munkafolyamat több elemi lépésből áll, amelyek áttekintése pontosabb képet adhat magáról a BMLA elemzésről. A továbbiakban ezeket a lépéseket vizsgáljuk meg egy mintapéldán manuálisan végigkísérve az egyes fázisokat.

5.1. 5.1 Adat és modell konstruálása A BMLA-elemzések kiindulásául megfigyelési adatok egy halmaza és a hozzájuk tartozó Bayes-háló modell leírása szolgál, az elemzés alapvető célja pedig a háló csomópontjai közötti strukturális kapcsolatok vizsgálata.

5.1.1. Feladatok Konstruáljon egy tetszőlegesen választott tárgyterületet leíró, egyszerű (kb. 5-6 csomópontot tartalmazó) modellt a BayesCube szoftver használatával; adja meg a modellen belüli összefüggéseket (éleket) és határozza meg a csomópontok lokális feltételes függési modelljeinek paramétereit. Generáljon egy minta-adathalmazt a modellből, majd egy táblázatkezelő program (pl. OpenOffice Calc) segítségével particionálja ezt több részre az egyik változó értékei mentén.

5.2. 5.2 A BMLA-elemzést leíró fájl A BMLA-elemzések alapjául a tárgyterületi modell struktúrája felett végrehajtott MCMC-futtatások szolgálnak, ezek teszik ki az elemzés által igényelt számítási kapacitás tetemes részét. A vizsgált munkafolyamat-rendszer minden elemzéshez egy szöveges fájlt rendel, amely a végrehajtandó MCMC-futások számát és azok pontos paraméterezését határozza meg.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig ANALYSIS PARAMETERS name: ooi model: ALL.model target-variables: cc jointly: true analysis-level: MBM,MBS,MBG number-of-runs: 10 --burn-in: 10000000 --steps: 50000000 --query: mbm(X) 0 --query: edge(X) 0 --data: ALL_cases.csv -p: 2,3,4

Mint látható, a fájl az ANALYSIS PARAMETERS sorral kezdődik, ezt követik az MCMC futások halmazának összeállítására vonatkozó paraméterek (name-től number-of-runs-ig), majd az egyes MCMC futásoknak közvetlenül átadandó paraméterek (a kötőjellel kezdődő sorokban). Az egyes paraméterek értelmezése az alábbi: • A BMLA-analízis neve (csak akkor van jelentősége, ha a BayesCube felületén keresztül indítjuk az analízist). • A modell leírását tartalmazó fájl neve. • A vizsgált célváltozó(k), amely(ek) strukturális relációit vizsgálni fogjuk. • Több célváltozó esetén (más lehetséges paraméterekkel együtt) a célváltozók kezelését határozza meg. Egyetlen célváltozó esetén nincs jelentősége. • A célváltozó(k)hoz kapcsolódó mely strukturális jegyekről készüljön statisztika. Lehetséges értékei: MBM, MBM,MBS, MBM,MBS,MBG. • Egy adott paraméterezésű futtatás hányszor legyen elvégezve. A - jellel kezdődő sorok értékeit a bn-MCMC.exe program kapja meg közvetlenül paraméterekként. Ha egy sorban több érték is szerepel (vesszővel elválasztva) akkor annak megfelelően több, különböző paraméterezésű bn-MCMC.exe futás lesz végrehajtva. A legfontosabb lehetséges paraméterek a következők: • Az MCMC-futáson belül a mintavételezést megelőző ún. burn-in szakasz hossza. • Az MCMC-futás mintavételezési szakaszának hossza. • A futás során a modellek jósági mutatójának számításhoz használt megfigyelési adatokat tartalmazó csv fájl neve. • A csomópontonként megengedett szülők maximális száma. • A jósági mutató számításához használt mód. Lehetséges értékei: CH, BDeu.

5.3. 5.3 Futtatást a HTCondor rendszerben Maga a BMLA-elemzést végrehajtó teljes munkafolyamat a HTCondor feladatütemező rendszerbe töltött jobok végrehajtásából áll, a következő fő lépések szerint: 1. Az előzőleg leírt konfigurációs fájl alapján generálódnak a HTCondor jobokat leíró submit fájlok; ennek a lépésnek a végrehajtására a soapBMLAtools.jar csomagban található soapbmla.cmd.GenerateCondorJobs osztály szolgál. 2. A bn-MCMC.exe program végzi el az MCMC-szimulációkat, az egyes lefuttatandó szimulációk paraméterezései a calc* könyvtárakban található *.sub HTCondor submit fájlokban találhatók. 3. Az egyes MCMC-futások nyers eredményeit egy közös fájlba a mergeResults.exe program aggregálja, az ezt futtató HTCondor job leírása a aggregate.sub fájlban található. 21 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 4. A fenti jobok összehangolását a HTCondor rendszer által biztosított dagman eszköz valósítja meg; a jobok felsorolását és egymásra épülésének leírását a dagman.dag fájl tartalmazza, a futtatáshoz szükséges submit fájl pedig a dagman.dag.condor.sub.

5.3.1. Feladatok Szerkessze át a fent található konfigurációs fájlt a következők szerint: 1. A megfelelő helyeken hivatkozzon a korábbikban előállított modellre és az azokhoz tartozó adatfájlokra; a megfelelő sorban állítsa be, hogy a korábban előállított partíciókat külön-külön, illetve (azokat egy közös fájlban összesítve) együttesen felhasználva történjen a modell tanulása. 2. Adja meg, hogy milyen maximális szülőszámokra (-p paraméter) és paraméter-prior értékekre (-param-prior paraméter; lehetséges értékei: CH és BDeu) történjen MCMC-futtatás. A kész konfigurációs fájlból generálja le a HTCondor submit-fájlokat a java soapbmla.cmd.GenerateCondorJobs --bayeseye-conf

--run false --bin-dir

paranccsal, amelyben a helyére helyettesítse a saját konfigurációs fájljának nevét, helyére pedig a bn-MCMC.exe-t tartalmazó könyvtár elérési útját. Vizsgálja meg a parancs eredményeként létrejött könyvtárakat és fájlokat, majd indítsa el az analízist a HTCondor rendszerben a condor_submit dagman.dag.condor.sub

paranccsal. A HTCondor rendszerben futó jobok listáját a condor_q paranccsal kérheti le.

5.4. 5.4 Nyers futási eredmények aggregálása A HTCondor jobok lefutása után az egyes futások eredményei a calc* könyvtárakban keletkeznek. Ezek aggregálását (az egyedi futási eredmények összefésülését, köztük alapvető statisztikák kiszámítását) a mergeResults.exe program végzi. Az eredmények során a megadott eredményfájlok (és a hozzájuk tartozó bnMCMC.exe naplófájlok) alapján a program összeválogatja az azonos paraméterezésűnek tekintett futásokat, és azok eredményeit összefűzi, kiszámítva olyan alapvető statisztikákat mint pl. az átlag és a szórás. Alapértelmezetten csak a valóban tökéletesen egyező futások eredményei lesznek egymással aggregálva, de a mergeResults.exe paraméterezésével megadható, hogy az bizonyos paramétereket (pl. maximális szülőszám, futáshossz) "aggregáljon ki" (vagyis az aggregálást az összes olyan futás felett végezze el, amelyek csak a "kiaggregálandó" paraméter(ek) értékeiben különböznek). A program által szolgáltatott alábbi segítőüzenet alapján a fő paraméterek a következők (a + jelek jelzik, hogy az adott paraméter esetén több argumentum is megadható). $ mergeResults.exe Usage : mergeResults.exe IGNORE [parameter]+ : the parameter will not be taken into account in differentiating parameter configurations AGGREGATE [parameter]+ : the parameter will be aggregated out GROUP [parameter]+ : different value configurations will be put to different output files IN [features.csv]+

:


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig input files OUT : prefix of output file names IGNORE-CONSTANTS : do not display constant parameter values AGGREGATES-ONLY : do not print feature probabilities to output PROBS-ONLY : do not print aggregate function values to output ORDER-BY [parameter]+ : order columns in output by given parameter AGGREGATE-FUNCTIONS [name]+ : list of aggregate functions to calculate over results with the same parameterization

• Az adott paraméter nem lesz figyelembe véve, azaz az eredményfájlban nem is fog szerepelni, illetve ebből következően "ki lesz aggregálva". • A paraméter "ki lesz aggregálva" az eredményekből. • A paraméter által felvett értékek szerint külön-külön eredményfájl fog létrejönni. • A bemeneti (feldolgozandó) fájlok listája. • A kimeneti fájl nevének előtagja, a program ehhez még egyéb információkat is hozzáfűz, pl. a GROUP paraméter alkalmazása esetén. • Ha egy paraméter csak egy értéket vett fel az összes futásban, akkor annak értéke nem fog szerepelni a kimenteti fájlban (ez az olvashatóságot javítja). • Csak az aggregátumok (átlag, szórás, stb.) értékei fognak szerepelni a kimenetben, a "nyers" valószínűségi értékek nem. • Az előző ellenkezője: csak a "nyers" valószínűségek fognak szerepelni a kimenetben, az aggregátumok nem. • A kimeneti fájl oszlopai az itt megadott paraméterek értékei szerint lesznek sorrendezve. • A kiszámítandó aggregátumok listája. A megadható értékek: AVG - átlag, STDEV - szórás, STDEV_DIV_AVG a szórás aránya az átlaghoz, COUNT - az adott tulajdonság-érték hány bemeneti fájlban szerepelt, MIN - minimum, MAX - maximum. Ha tehát egy futás után az MBS valószínűségek átlagára és szórására vagyunk kíváncsiak, az adatfájlok feletti aggregálással, a paraméter-prior szerint külön fájlokba rendezve az eredményeket, a következő parancsot kell alkalmaznunk: mergeResults.exe IN *calc*/*MBS*.csv OUT kimenet AGGREGATES-ONLY AGGREGATE-FUNCTIONS AVG STDEV GROUP --data

5.4.1. Feladatok. A fentiek figyelembe vételével állítsa elő a vizsgált strukturális jegyekre külön-külön az MCMC-futások eredményeit összefogó aggregált eredményfájlokat. Vizsgálja meg, hogy hogyan hat az eredményekre bizonyos paraméterek feletti aggregálás. A kapott aggregált eredményfájlokat tekintse át a BayesCube szoftver segítségével is, illetve vizsgálja meg itt is az aggregálás hatásait.

5.5. 5.5 Ellenőrző kérdések 23 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1. A BMLA futások során milyen modellosztállyal ábrázoljuk a vizsgált tárgyterületet? 2. Milyen számítások alkotják a BMLA analízis alapját? 3. Nevezze meg a BMLA analízisek futtatásához használt feladatütemező rendszert! 4. Milyen parancssori eszközzel kérhetjük le az éppen futó számítások listáját, azok állapotát? 5. Nevezzen meg legalább hármat az eredmények aggregálására szolgáló mergeResults.exe program paraméterei közül! 6. Mit jelent egy paraméter "kiaggregálása"?

6. 6 Genetikai asszociációs vizsgálatok standard elemzése laborgyakorlat 6.1. 6.1 Bevezetés A laborgyakorlat során egyszerűen alkalmazható elemzőeszközök felhasználásával végzünk el néhány alapvető vizsgálatot, melyek célja genetikai asszociációs vizsgálatok (GAS-ok) eredményeinek statisztikai elemzése. A feladatokhoz egy már előzetesen szűrt, megtisztított mesterséges adathalmazt alkalmazunk (BIOINFO_LAB_Data.csv), amely 28 SNP-t tartalmaz és egy eset-kontroll státuszt leíró bináris célváltozót. A hiányzó értékek pótlása már megtörtént. Először a Hardy-Weinberg-egyenlőség (HWE) vizsgálatára, illetve alapvető allél és genotípus szintű asszociációs tesztekre kerül sor. Ezt követi a haplotípus szintű asszociációk vizsgálata, végül pedig az eredmények validitásának ellenőrzése permutációs teszteléssel.

6.2. 6.2 Hardy-Weinberg-egyenlőség vizsgálata A HWE vizsgálatához egy online elérhető ingyenes eszközt alkalmazunk [3], amely a http://ihg.gsf.de/cgibin/hw/hwa1.pl weboldalon érhető el. Bemenetként a genotípusok eloszlását várja a felület, azaz SNP-nként kell megadnunk az adott genotípusokat tartalmazó kontroll-, majd eset-mintaszámokat, a 17. ábrának megfelelő módon. A BIOINFO_LAB_Counts.csv fájl tartalmazza a szükséges mintaszámokat. A felületre az egész fájlt is fel lehet tölteni.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Kimenetként egy táblázatos formában áll elő a HWE-t, illetve allél és genotípus szintű asszociációt tesztelő próbák értéke, valamint a tesztek p-értéke. Ennek egy részletét mutatja a 18. ábra. A bal szélső oszlopban találhatóak a kontrollokra vonatkozó HWE-teszt eredmények. A megfelelő mintaszám miatt a Pearson-féle teszt szignifikanciáját vizsgáljuk. Amennyiben az itt látható p-érték kisebb, mint a szignifikancia-küszöbértékként használt , akkor a kontrollok csoportja eltér a HWE-től. Mivel ez a kontrolloknál legtöbbször mérési vagy mintavételi hibára utal, ezért ilyen esetben az adott SNP-t kizárjuk a további elemzésből. Esetünkben a 28 SNP-ből egyedül a SNP12 esetében sérül a HWE kontrolloknál (p=0,000038), ezért ezt a SNP-t kihagyjuk a további vizsgálatokból.

6.3. 6.3 Standard asszociációs tesztek A HWE mellett számos asszociációs teszt eredményét tartalmazza a táblázat. Minden SNP esetén két teszthalmazt láthatunk, melyek abban különböznek, hogy a feljebb lévőnél (Risk allele 2) allélt tekinti rizikó faktornak (ritka allélnak), míg a másiknál az allélt (Risk allele 1). Az allél asszociációs tesztnél az egyes allélokhoz tartozó mintaszámok alapján kell elvégezni a -próbát. Azaz ha jelöli a gyakori homozigóta, a heterozigóta, és a ritka homozigóta mintát, akkor allélhoz tartozó mintaszám: . Értelemszerűen . Ennek megfelelően tölthető ki a

-es kontingenciatáblázat, ami alapján pl. a SNP25 esetében ( )

a

megfigyelt értékekhez (1. táblázat) rendre elvárt értékek tartoznak (oszlopösszeg * sorösszeg / teljes). A kapcsolódó fejezetben ismertetett összefüggés alapján számítható a khi-négyzet statisztika értéke: , a hozzátartozó szignifikancia pedig , vagyis nem szignifikáns az allélok eloszlásának különbsége az eset és a kontrollcsoport között.

A heterozigóta és a homozigóta asszociációs teszteknél a gyakori homozigóta mellett rendre a heterozigóta és a ritka homozigóta mintákat kell használni. Az allélpozitivitás (allele positivity) tesztnél (azaz amikor a rizikót jelentő allél bármilyen mértékben jelen van) az egyik homozigóta eloszlását vizsgáljuk a másik homozigóta és a heterozigóta együttes eloszlásához képest (pl.: ). Például az SNP17 esetében (lásd 2. táblázat) az allélpozitivitásra végzett khi-négyzet próba ( ) szignifikáns eltérést jelez ( ) esetek és kontrollok között.



A 18 táblázat jobb szélső oszlopában pedig a Cochran-Armitage-trendteszt értéket láthatjuk.

értékét és a hozzá tartozó p-

Mindezek mellett a táblázat minden asszociációs tesztnél tartalmazza a vizsgált genotípusok egymáshoz képest vett hatáserősségét (odds ratio), és annak konfidencia intervallumát.

Összességében az eredmények alapján a SNP17 emelhető ki egyértelműen, melynél szinte az összes teszt szignifikáns eltérést jelez esetek és kontrollok között. A SNP7-9 esetében szintén több teszt jelez szignifikáns eltérést, ám ezek p-értéke kevésbé szignifikáns az előbb említett SNP-hez képest. Fontos megemlíteni, hogy eddig nem került sor többszörös hipotézistesztelés miatt szükséges korrekcióra, holott SNP-nként 16 tesztet végeztünk, ami a 28 SNP-re összesen 448 tesztet jelent. Mindez szignifikanciaküszöb mellett legrosszabb esetben azt jelenti, hogy az esetek 5 százalékában, azaz 22 tesztnél a szignifikáns eredmény pusztán a véletlen műve. Emiatt elengedhetetlen, hogy az eredményeket valamilyen módon validáljuk. Akár más módszerekkel való összevetés révén, akár egy megfelelő korrekció alkalmazásával, vagy permutációs teszteléssel.

6.4. 6.4 Haplotípus-asszociáció vizsgálata A haplotípusok vizsgálatához a Haploview (Barrett et al., Broad Institute) elemző és vizualizációs eszközt fogjuk alkalmazni [1], mely ingyenesen elérhető a következő címen: http://sourceforge.net/projects/haploview/. Első lépésként két adatfájl szükséges az elemzés megkezdéséhez: egy genotípus adatfájl, mely tartalmazza az eset-kontroll besorolást, illetve további információkat a mintákról; valamint egy SNP információs fájl, amely pozíciót, alléltípust és egyéb kiegészítő információkat foglal magába. Az adatfájl többféle formátumban is megadható, az egyszerűség kedvéért a laborgyakorlat folyamán a linkage formátumot használjuk. Töltsük be a mintaadathalmaz linkage formátumra konvertált megfelelőjét (BIOINFO_LAB_Haploview_Sample.ped), és a hozzá tartozó információs fájlt (BIOINFO_LAB_Haploview_Sample.info), ahogy az a 19. ábrán is látható.



Mivel eset-kontroll vizsgálat eredményeit elemezzük, ezért jelöljük be az ennek megfelelő kapcsolót (Case/Control data), illetve engedélyezzük az asszociációs tesztek elvégzését (Do association test). Mivel átfogó képet szeretnénk, ezért állítsuk a pozíció távolság korlátot minél nagyobbra (pl.: 500000).

6.4.1. 6.4.1 Kapcsoltság Az első panelen (LD) a SNP-k kapcsoltságát mérő mutatók vizualizációja látható. A kapcsoltsági egyenlőtlenség, azaz linkage disequilibrium (LD) azt fejezi ki, hogy két vagy több allél együttese a véletlenszerűen várhatótól eltérő mértékben fordul elő [2]. Tehát például két SNP ( , ) esetén a SNP-k alléljaiból ( ) formálódó haplotípusok ( ) gyakorisága ( ) eltér a megfelelő allélok frekvenciája ( ) szorzataként számított gyakoriságtól. Tehát az mindenképp teljesül, hogy


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig azonban a haplotípusok frekvenciái csak egyensúlyi állapotban állnak elő szorzatként az adott allélok frekvenciáiból, pl.: . Az egyensúlyi ( ) és a nem egyensúlyi (h) állapotbeli haplotípusgyakoriság közötti eltérést jelölje . Mivel a haplotípusok eloszlást alkotnak, az egyensúlyi állapottól való eltérés az alábbi egyenletekkel írható fel:

ahol . A eltérés normalizált alakja mérőszáma, mely az alábbi formában áll elő:

a kapcsoltság egyik gyakran használt

Az LD panelen a értékek láthatóak minden lehetséges SNP-beli allél párra kiszámolva (lásd 20. ábra). A színezés pedig a (logarithm of odds) értéknek feleltethető meg, ami két likelihood arányának a logaritmusa, vagyis annak, hogy az adat az allélok közötti kapcsoltság eredménye és annak, hogy pusztán a véletlen műve. A Haploview értéket tekint valódi kapcsoltságra utaló jelnek, melyet vörös árnyalatokkal jelez, míg a fehér és a kék a értékeket jelöli.

6.4.2. 6.4.2 Haplotípusblokkok meghatározása A kapcsoltság a haplotípusblokkok kijelölésében játszik szerepet, jelezve az egymással függésben lévő SNP-ket. A blokkok meghatározását elősegítendő, kibővítettük a SNP-k elnevezését egy génnével abban az esetben, ha egymáshoz közeli SNP-k azonos vagy egymáshoz közelálló génekben szerepelnek. Láthatóan a GN1 génbe tartozó SNP-k egy összetartozó blokkot formálnak, ezt jelöljük is ki egy blokknak (egérkurzor segítségével). A második blokk lehet a GN2 génbe tartozó SNP7 és SNP8, ami a korábbi tesztek folyamán már előtérbe került, értékük pedig elég magas, ami erős kapcsoltságra utal. Ezzel szemben a SNP6-tal szemben elenyésző mindkét kapcsoltsági mutató, így azt nem célszerű bevenni a haplotípusblokkba. A GN3A és GN3B génekhez tartozó SNP-k kapcsoltsági mutatói közepesen erős függőséget mutatnak, és a GN3A-hoz tartozó SNP9-en végzett asszociációs tesztek egy része szignifikáns eltérést jelzett az eset és kontrollcsoportok közt e SNP eloszlásában. Mindezért érdemes lehet megvizsgálni ezen SNP-k együttesét, legyen tehát ez a harmadik blokk. A GN4A-beli SNP16 és a GN4B-beli SNP17 még ennél is gyengébben függenek egymástól, viszont a SNP17 korábbi kiemelkedő eredményei miatt mindenképp célszerű megvizsgálni más SNP-kkel való együttes hatását.

Látható, hogy a haplotípusblokkok meghatározásánál több szempontot célszerű figyelembe venni, és akár több lehetséges konfiguráción is elvégezhető az asszociációs elemzés. Jelen esetben az előzőekben ismertetett négy


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig haplotípusblokkot fogjuk tovább vizsgálni. A kijelölt blokkok alléljainak eloszlását a Haplotypes panelen tekinthetjük át (lásd 21. ábra).

6.4.3. 6.4.3 Asszociációs tesztek Az adatfájlok betöltésénél megadott beállítás szerint (Do association test) a Haploview automatikusan elvégzi az asszociációs tesztet minden egyes SNP-re, illetve az általunk kijelölt haplotípusblokkokra is. Az eredmények vizsgálatára az Association fülön belül van lehetőségünk az egyváltozós tesztek (Single marker), illetve a haplotípustesztek (Haplotypes) kiválasztásával.

Az egyváltozós teszt (22. ábra) a másik eszközből már ismert, az eset és kontrollcsoportok közötti allélfrekvencia eltérését vizsgálja. A p-value oszlop fejlécére kattintva a SNP-k rendezhetők szignifikancia szerint. A Haploview által alkalmazott haplotípusteszt jellegét tekintve hasonló az egyváltozós teszthez, annyi különbséggel, hogy ebben az esetben a haplotípus értékeinek gyakoriságbeli eltérését vizsgálja. A Haplotypes panelen látható az általunk meghatározott haplotípusblokkok értékeire számított asszociációs teszt (23. ábra).

Az 1. blokk (GN1) haplotípusértékei közül a GGAG esetében magasabb a statisztika értéke, ami ugyan szignifikáns ( ), de a haplotípusérték (variáns) előfordulásának ritkasága miatt ( ) célszerű permutációs teszteléssel validálni. Ezzel szemben a 2. blokk (GN2) mindkét variánsa szignifikánsnak mutatkozik ( ). A 3. blokk (GN3) esetében az AAA variáns az egyetlen, amely küszöb alatti p-értékkel rendelkezik ( ), de valószínűleg sem egy permutációs tesztet, sem egy többszörös tesztelés miatti korrekciót követően nem maradna szignifikáns. A 4. blokk (GN4) eredményei viszont továbbra is meggyőzőek, mind az AG, mind az AA variáns tekintetében.

6.4.4. 6.4.4 Permutációs tesztek Az eredmények validálása szempontjából a permutációs tesztek elvégzése egy lényeges lépés, melynek célja azt kimutatni, hogy eredmények véletlenszerűen adódtak vagy vélhetően valódi hatást, kapcsolatot jeleznek. A 29 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig permutációs teszt lényege, hogy úgy kerül sor az asszociációs teszt ismételt elvégzésére, hogy az adathalmazbeli minták célváltozó szerinti besorolását véletlenszerűen megkeveri (adathalmazon belül). Ha a permutált adathalmazon is szignifikáns eredmény jön ki, az véletlenszerű eredményre utal. Az úgynevezett permutációs pérték azt mutatja meg, hogy az -szer elvégzett asszociációs teszt a permutált adathalmazon hányszor adott tévesen szignifikáns eredményt. Minél többször lesz végrehajtva a permutálás-tesztelés ciklus, annál biztosabb következtetést vonhatunk le. Állítsunk be 1000 permutációt, mind az egyedi SNP, mind a haplotípusblokkhoz kötődő asszociációs tesztekre (lásd 24. ábra).

Az eredmények azt mutatják, hogy kizárólag a SNP17 és az azt tartalmazó 4. blokk (GN4) variánsai maradnak szignifikánsak a permutációs tesztelést követően. Minden más elem nem szignifikáns permutációs p-értékkel rendelkezik ( ). Mindezek alapján kijelenthetjük, hogy klasszikus statisztikai eszközök felhasználásával csak a SNP17 és a SNP16-17 alkotta haplotípusblokk szignifikáns egyértelműen a célváltozó tekintetében.

7. Hivatkozások • [1] JC. Barrett, B. Fry, J. Maller, and MJ. Daly. 2005. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatics, 21(2):263-265. • [2] RC. Lewontin and K. Kojima. 1960. The evolutionary dynamics of complex polymorphisms. Evolution, 14(4):458-472. • [3] TM. Strom and TF. Wienker. Tests for deviation from Hardy-Weinberg equilibrium and tests for association (case-control studies). Institute for Human Genetics, TU Munich, http://ihg.gsf.de/cgibin/hw/hwa1.pl

8. 7 Génexpressziós adatok standard asszociációs elemzése 8.1. 7.1 Bevezetés


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Ebben a fejezetben bemutatjuk egy génexpressziós adat újraelemzését, amely Tölgyesi és mtsai [4] eredeti közleményéből származik. Munkájuk során a szerzők olyan új géneket, géncsoportokat és útvonalakat akartak azonosítani, amelyek szerepet játszanak az asztma patogenezisében, egy ovalbumin által kiváltott kísérletes asztma egérmodellt használva. Ehhez génexpressziós méréseket végeztek az asztmatikus folyamat különböző időpontjaiban az egerek tüdejéből szerzett minták alapján. A célunk ebben a fejezetben, hogy bevezetést nyújtsunk a génexpressziós adatok elemzésének folyamatába. Az elemzéseinkhez a BioConductort fogjuk használni, amely genomikai adatok elemzésére használható, nyílt forráskódú, szabadon fejleszthető szoftvercsomag. Az R statisztikai keretrendszer része, teljesen ingyenes, Linux/Unix, Mac OS X és Windows operációs rendszerek alatt is támogatott, nagy fejlesztői közösséggel rendelkezik és könnyen bővíthető az R szkriptnyelv használatával. A fejezet során feltételezzük, hogy az R szoftver megfelelően telepítve van a számítógépre.

8.1.1. 7.1.1 Az adat Az egerek három csoportját (6 egér/csoport) szenzitizálták és allergénnel (OVA) kezelték. Egy csoportot (a kontrollcsoportot, 6 egér) szenzitizáltak és placebóval (PBS) kezeltek. A 28. és a 30. napon négy órával az első és a harmadik allergénkezelés után az első és a második csoportba tartozó egerek tüdejét eltávolították a későbbi elemzéshez. A 31. napon, 24 órával a harmadik (utolsó) allergénkezelés után a harmadik és a kontroll csoportba tartozó egereket érzéstelenítették, majd megmérték a légúti túlérzékenységüket (AHR). Ezt követően tüdőszövetet gyűjtöttek ugyanúgy, mint az első és a második csoportba tartozó egerek esetén. Az első három csoport tüdőszöveti RNS mintáit Cy5 festékkel, míg a negyedik (kontroll-) csoportból származó mintákat poolozás után Cy3 festékkel jelölték. Ez utóbbi poolozott minta közös kontrollként szolgált az array-ken [4]. A kísérlet vázlatát az 25. ábrán láthatjuk. Megjegyezzük, hogy a letölthető adatok csak négy egér expressziós adatát tartalmazták csoportonként.

8.2. 7.2 Az elemzéshez szükséges további csomagok telepítése Nyissunk meg egy terminálablakot (Applications->Accessories->Terminal a menüből), és indítsuk el az R-t. $ R

A fenti parancs kiadásával belépünk az R interaktív módjába, amely a promptban várja a további parancsainkat. Először telepíteni fogjuk a BioConductort és néhány további csomagot, amelyre szükségünk lesz az elemzések során. A telepítési folyamat eltarthat egy ideig. > # download the BioC installation routines > source("http://bioconductor.org/biocLite.R") > # installing BioConductor


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig > > > > > > >

biocLite() # installing other packages used in our analyses biocLite("GEOquery") biocLite("oligo") biocLite("arrayQualityMetrics") biocLite("genefilter") biocLite("limma")

8.3. 7.3 Az adatok letöltése Az expressziós adatok letöltéséhez a GEOquery csomagot fogjuk használni, amely az NCBI Gene Expression Omnibus (GEO) adatbázisának interfészeként szolgál. A GEO adatbázisban rengeteg transzkriptomikai adatot találunk standardizált formában. Az általunk használni kívánt expressziós adathalmaz a GSE11911 referenciaszámmal érhető el a GEO-ból. Az adathalmaz nemcsak a génexpressziós mérési eredményeket, hanem a kísérlet tervezésével kapcsolatos egyéb információkat is tartalmazza. A szerzők a GPL4134 expressziós platformot használták, ami az Agilent Whole Mouse Genome Microarray platform rövid kódja. Ez 4x44 ezer transzkriptum párhuzamos mérésére képes. Először is a mérési adatokat letöltjük a GEO-ból. Ehhez betöltjük a GEOquery könyvtárat, és letöltjük a GSE11911 referenciaszámú kísérlet adatmátrixát (series matrix). Ennek eredménye egy ExpressionSet típusú objektum lesz, ami a BioConductor standard belső formátuma génexpressziós adatok és a hozzájuk tartozó kísérleti körülményekre vonatkozó információk tárolására. Az ExpressionSet osztály használatához lásd például a [5] irodalmi hivatkozást. Gépeljük be a következő parancsokat az R promptba: > > > > >

library(Biobase) library(GEOquery) gse11911 <- getGEO("GSE11911", GSEMatrix=TRUE) gse11911 <- gse11911$GSE11911_series_matrix.txt.gz show(gse11911)

Az expressziós mérési adatok első öt sorának megtekintéséhez adjuk ki a következő parancsot: > head(exprs(gse11911))

A mintákhoz kapcsolódó fenotípusos adatokat a következő paranccsal nézhetjük meg: > pData(gse11911)

Láthatjuk, hogy a fenotípusos adatok közül valójában hiányzik egy olyan oszlop, amely pontosan és egyszerűen leírná, hogy melyik egér melyik csoportból származik. Ennek a pótlásához adjuk ki a következő parancsot: > pData(gse11911)$Group
Azaz az első négy minta az első csoportból, a második négy minta a második csoportból, a harmadik négy minta pedig a harmadik csoportból származik. Megjegyezzük, hogy a negyedik csoportba tartozó minták közös referenciaként szolgálnak az összes array-n.

8.4. 7.4 Minőségi ellenőrzések 32 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Ahogyan azt a fenotípusos információkból láthatjuk, az adathalmazt az Agilent Feature Extraction 7.5 szoftver segítségével normalizálták. Mindazonáltal, mielőtt továbbhaladnánk, feltétlenül szükséges ellenőrizni, hogy minden rendben van-e az adatainkkal. Először is ellenőriznünk kell a normalizáció hatásait. Ezt megtehetjük például a próbaintenzitások hisztogramjainak és az eloszlásuk boxplotjainak kirajzolásával. Ehhez az oligo csomagot fogjuk használni. > library(oligo) > hist(gse11911) > boxplot(gse11911, horizontal=T)

Tipikusan a normalizáció után az array-k szignálintenzitás-eloszlásának hasonló alakúnak és hasonló tartományba esőnek kell lennie. Mindenképpen meg kell fontolnunk azoknak az array-knek a további felhasználását, amelyek lényegesen különböznek a többitől az előbbi szempontok alapján. Ezek alapján nem látunk semmilyen lényeges problémát az adatainkkal (lásd a 26. ábrát).

Ha haladóbb minőségi ellenőrzéseket szeretnénk végezni, akkor használhatjuk például az arrayQualityMetrics csomagot [6]. Ez, egy egyszerű függvényhívás után, egy szinte mindenre kiterjedő HTML formátumú jelentést készít a microarray adathalmazunkról. Fő célja az, hogy segítsen a döntéstámogatásban a normalizált adathalmaz minőségének kiértékelésével, abból a szempontból, hogy hogyan használjuk az adathalmazunkat (vagy annak egy részét) a további adatelemzési lépésekben [7]. A minőségellenőrzési folyamat elég egyszerűen, a következő parancs segítségével indítható: > library(arrayQualityMetrics) > arrayQualityMetrics(expressionset=gse11911, outdir="QCreport", force=T, intgroup=c("Group"))

A fenti arrayQualityMetrics függvény létrehoz egy QCreport nevű könyvtárat, amely tartalmazni fog egy index.html nevű HTML formátumú jelentést. Nyissuk meg ezt a kedvenc böngészőnkkel, és nézzük meg a minőségellenőrzés eredményeit.

8.5. 7.5 Az adathalmaz szűrése Az első betekintés után haladjunk tovább az adataink elemzésében. Először is kiszűrjük azokat a nem informatív adatokat (kontrollpróbák, alacsony variabilitású próbák, következetesen alacsony jelintenzitású próbák), amelyek valószínűleg úgysem mennének át a differenciális expressziós statisztikai teszteken. Ezekhez a szűrésekhez a genefilter csomagot [8] fogjuk használni. Először kiszámítjuk az összes transzkriptum jelintenzitásának interkvartilis régióját (IQR) az array-k között. Az IQR valójában a felső és az alsó kvartilis különbsége, . Ezt követően megbecsüljük az interkvartilis régió középértékét az ún. shorth-becslő segítségével. Az ún. shorth az a legrövidebb intervallum, amely lefedi az interkvartilis régiók értékeinek felét. A becslő értéke az interkvartilis régió azon értékeinek átlagával egyenlő, amelyek ebbe az intervallumba esnek. Adjuk ki a következő parancsokat:


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig > library(genefilter) > IQRs <- esApply(gse11911,1,IQR) > mIQRs <- shorth(IQRs)

Az interkvartilis régiók eloszlásának és a középértékük ábrázolásához adjuk ki a következő parancsokat (lásd a 27. ábrát): > plot(density(IQRs), xlab="Interkvartilis regio", main="IQR eloszlas") > abline(v=mIQRs, col="blue", lwd=3, lty=2)

Végül szűrjük ki azokat a transzkriptumokat, amelyek interkvartilis régiója kisebb, mint az összes interkvartilis régió középértéke. Más szavakkal, eltávolítjuk azokat a transzkriptumokat, amelyek expressziójának értéke nem változik jelentős mértékben az egyes vizsgált csoportok között (azaz alacsony variabilitásúak). Ehhez gépeljük be a következőt: > > > >

indices <- genefilter(exprs(gse11911), filterfun(function(x) { IQR(x) > mIQRs })) gse11911.filtered <- gse11911[indices,] # see the results of filtering show(gse11911.filtered)

Az eredeti

transzkriptum közül a szűrés során végül

maradt meg.

8.6. 7.6 Differenciálisan expresszálódó gének meghatározása Most, hogy az adathalmazt leszűrtük, folytathatjuk az adataink elemzését azoknak a transzkriptumoknak az azonosításával, amelyek a kísérleti csoportjaink között eltérő mértékben expresszálódnak. Erre a célra a limma csomagot [9] fogjuk használni. Először létre kell hoznunk egy úgynevezett modell-mátrixot. Ennek segítségével könnyen specifikálhatunk többszintű összehasonlításokat komplex microarray kísérleti rendszerekben is. Jelen esetben a kísérleti terv viszonylag egyszerű volt: a Cy3 festékkel megjelölt minták közös referenciaként szolgáltak a többi, Cy5 festékkel megjelölt kísérleti csoportnak. Létrehozunk egy targets nevű mátrixot, amely azt az információt fogja tartalmazni, hogy az egyes array-ken melyik minták vannak Cy3, illetve Cy5 festékkel megjelölve: 34 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig > targets <- cbind( Cy3=c("Ref","Ref","Ref","Ref","Ref","Ref","Ref","Ref","Ref","Ref","Ref","Ref"), Cy5=pData(gse11911.filtered)$Group ) > rownames(targets) <- paste("Array",1:12) > targets

Ezután a modelMatrix parancs segítségével létrehozzuk a modell-mátrixot a fenti mátrix alapján: > design <- modelMatrix(targets, ref="Ref") > design

Majd meghívjuk az lmFit függvényt, amely az adatainkra egy lineáris modellt illeszt, minden génre különkülön. Ezután az eBayes paranccsal kiszámítjuk a differenciális expresszióra vonatkozó moderált t-statisztikát, a moderált F-statisztikát és az esélyhányados logaritmusát egy empirikus bayesi zsugorítással (ún. "shrinkage"), amellyel az egyedi becslések standard hibáit közelítjük egy közös értékhez. > fit <- lmFit(gse11911.filtered, design) > fit <- eBayes(fit)

Vizsgáljuk meg a fenti parancs visszatérési értékét (a fit változót): > names(fit) [1] "coefficients" "df.residual" [6] "sigma" [11] "Amean" "s2.prior" [16] "var.prior" "df.total" [21] "p.value"

"rank"

"assign"

"qr"

"cov.coefficients" "stdev.unscaled" "method" "design"

"pivot" "df.prior"

"proportion"

"s2.post"

"t"

"lods"

"F"

"F.p.value"

Az eredmények első ellenőrzéséhez rajzoljuk ki a nyers

-értékek hisztogramját (lásd a 28. ábrát):

> hist(fit$p.value, 1000)


"genes"

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Az ábrán a vízszintes "padlón" elhelyezkedő értékek olyan transzkriptumokhoz tartoznak, amelyek nem expresszálódnak differenciáltan a kísérleti csoportjaink között. A 0.001-nél kisebb p-értékeknél megfigyelhető éles csúcs a differenciáltan expresszálódó géneket jelöli. Ennek a hisztogramnak az alakja a kísérletünk, illetve annak elemzésének sikerességéről árulkodik: ha a bal oldali csúcs hiányzik, az arra utal, hogy a kísérletnek alacsony statisztikai ereje volt a differenciális expresszió kimutatására. Ha az eloszlás többi része nem egészen egyenletes, az pedig egy másik változó zavaró hatására vagy egy nem szándékos keverék ("batch") hatásra utalhat [10]. A legjobb (statisztikailag leginkább szignifikánsan differenciálisan expresszálódó) transzkriptumokra vonatkozó adatokat és alapstatisztikákat a következő paranccsal tekinthetjük meg: > topTable(fit, number=10, adjust="BH")

A decideTests paranccsal kategorizálhatjuk a t-statisztikáinkat szignifikánsan alul- vagy felülregulálódó, illetve nem szignifikáns csoportokba. Ezzel a paranccsal a többszörös hipotézistesztelési problémát is kezelhetjük, például a Benjamini-Hochberg korrigált -értékek [11] kiszámításával. Ezen eredmények alapján Venndiagramok segítségével összehasonlíthatjuk a kísérleti csoportjaink között differenciálisan alul- és felülregulálódó géneket (lásd a 29. ábrát). > results <- decideTests(fit, p.value=0.05, lfc=0.5, adjust.method="BH") > vennDiagram(results, include="down", main="Down-regulated") > vennDiagram(results, include="up", main="Up-regulated")

Végezetül a statisztikai elemzések eredményeit exportáljuk egy tab karakterrel elválasztott fájlba a write.fit paranccsal. A létrehozott fájlt betölthetjük például egy táblázatkezelő szoftverbe. > write.fit(fit, file="fit.txt")

9. Hivatkozások • [4] Gergely Tölgyesi, Viktor Molnár, Ágnes F. Semsei, Petra Kiszel, Ildikó Ungvári, Péter Pócza, Zoltán Wiener, Zsolt I. Komlósi, László Kunos, Gabriella Gálffy, György Losonczy, Ildikó Seres, András Falus, and Csaba Szalai. Gene expression profiling of experimental asthma reveals a possible role of paraoxonase-1 in the disease. International immunology, 21(8):967-975, August 2009. PMID: 19556304. • [5] An Introduction to Bioconductor's ExpressionSet Class. http://www.bioconductor.org/packages/devel/bioc/vignettes/Biobase/inst/doc/ExpressionSetIntroduction.pdf


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • [6] Audrey Kauffmann, Robert Gentleman, and Wolfgang Huber. arrayQualityMetrics - a bioconductor package for quality assessment of microarray data. Bioinformatics (Oxford, England), 25(3):415-416, February 2009. PMID: 19106121 PMCID: PMC2639074. • [7] Introduction: microarray quality assessment with arrayQualityMetrics. http://www.bioconductor.org/packages/2.13/bioc/vignettes/arrayQualityMetrics/inst/doc/arrayQualityMetrics. pdf • [8] R. Gentleman, V. Carey, W. Huber, and F. Hahne. genefilter: methods for filtering genes from microarray experiments. R package version 1.40.0, http://www.bioconductor.org/packages/2.13/bioc/vignettes/genefilter/inst/doc/howtogenefilter.pdf • [9] Gordon K. Smyth. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical applications in genetics and molecular biology, 3:Article3, 2004. PMID: 16646809. • [10] Florian Hahne. Bioconductor case studies. Springer, New York, N.Y., 2008. • [11] Yoav Benjamini and Yosef Hochberg. Controlling the False Discovery Rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological), 57(1):289300. January 1995.

10. 8 Bayes-i, rendszerszintű biomarker-elemzés A Bayes-i rendszerszintű biomarker-elemzési módszerek egyedülálló lehetőséget kínálnak a biomarker-jelöltek közvetlen voltának, hatáserősségének, többváltozós szükségességének és elégségességének, illetve oki szerepüknek az elemzésére. A gyakorlaton egy olyan többváltozós Bayes-i megközelítésből származó eloszlást vizsgálunk, amely a prediktor részhalmazok felett definiált és értelmezése szerint egy halmaz esetén annak a valószínűségét adja meg, hogy a prediktor halmaz szükséges és elégséges a célváltozó(k) osztályozásához vagy becsléséhez. Megvizsgáljuk a relevancia többszintű definícióját, amely lehetővé teszi adat vezérelte mélységű vizualizációját a prediktorok szükséges és/vagy elégséges voltának. Bevezetjük és illusztráljuk a következő fogalmakat: relevancia-térkép, rész- és fedőrelevancia-térkép, relevanciafa és relevancia-interakció.

10.1. 8.1 Bevezető párral definiált Bayes-hálók, ahol a egy irányított körmentes gráf (Directed Acyclic Graph, DAG), pedig a kapcsolódó lokális modellek paraméterei, egyedi lehetőséget kínálnak az a priori ismeretek és adatok kombinálására. Az akauzális, valószínűségi értelmezésben a hipotézisek a megfigyelési ekvivalenciaosztályok, azaz a reprezentált függetlenségi modellek (lásd Valószínűségi gráfos modellek fejezet a Valószínűségi döntéstámogatás tárgynál). A Bayes-statisztikai megközelítésben egy hatékonyan számolható képlet származtatható a megfigyelési ekvivalencia osztályok nem normalizált poszterior valószínűségére (feltevéseket lásd az Intelligens adatelemzés tárgy jegyzetében): A

Akauzális struktúra prior és likelihood ekvivalenciát teljesítő paraméter prior esetében fennáll, hogy és bármely DAG-ra. Így, ha a DAG-okat mint a megfigyelési ekvivalencia osztályok (ekvivalens) reprezentációit használjuk, akkor a jelölést egyszerűsítve csak -t használhatunk (azaz a kardinalitás nem torzítja a poszteriort). A poszteriorból vetítéssel (marginalizációval) származtatható az prediktor halmazok feletti eloszlás, amely a Bayes-háló alapú többszintű elemzésnek (BMLA) az egyik központi eleme:

ahol az szüleinek, gyerekeinek, és gyerekei egyéb szüleinek a halmazát jelöli -ben. Ez a poszterior úgy értelmezhető, mint az célváltozó Markov-határai feletti eloszlás, mivel a Bayes-háló 37 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig strukturális reprezentációja a függetlenségeknek majdnem mindig tökéletes a Bayes-statisztikai keretrendszerben [14], és stabil eloszlásokra az egyértelmű, minimális Markov-takarót definiálja ra, (azaz Markov-takaróját) [15 és 16]. Az ebből származtatott (szimmetrikus) páronkénti reláció határbeliség

-ben

és

között a Markov-

Az MBM modelltulajdonság (jegy) fennállása a prediktorok átfogó jellemzését biztosítja az erős relevancia szempontjából, ami akár a teljes tárgyterületen egyszerre is vizsgálható. Természetesen a páronkénti relációkra történő vetítés a többváltozós aspektusokat nem tudja jól kifejezni, bár az elemzés rendszerszintű alapja a származtatott páronkénti relációkban is megnyilvánul. A skála másik végén a Markov-határ halmaz áll, amely az összes prediktorra egyszerre állít a releváns voltukról valamit, ám ezen halmazok számossága exponenciális. A -as Markov-takaró határ egy prediktorra korlátozott fogalom [12]. 1. Definíció Legyen az változó halmaz egy Markov-takaró a eloszlás esetén. Egy változóhalmazt relevánsbelinek és k-as Markov-takaró részhalmaznak (k-subMBS) nevezünk, ha és . Egy változóhalmazt részben relevánsnak és k-as Markov-takaró fedőhalmaznak nevezzük (k-supMBS), ha és . A k-subMBS és k-supMBS fogalmak a releváns változók jelenlétét és hiányát hivatottak kifejezni. Egy ksubMBS halmaz azokat a változókat tartalmazza, amelyek biztosan (szükségszerűen) erősen relevánsak. Egy k-supMBS halmazban nem szereplő változók a biztosan nem erősen releváns változókat tartalmazza (azaz egy k-supMBS részben releváns halmaz egy elégséges változóhalmazt tartalmaz). Vegyük észre, hogy a ksubMBS és k-supMBS fogalmak egy k-ban indexelt hierarchikusan kapcsolódó, átlapolódó hipotézishalmazt jelölnek. Valójában a k-subMBS-ek és k-supMBS-ek k-ban polinomiális számossága az MBM jegyek lineáris számosságát és az MBS-ek exponenciális számosságát hidalja át: , ahol jelöli változók számát. Mivel az MBG-k és DAG-ok számossága még ennél is magasabb [21], az MBM-ek, ksubMBS-ek/k-supMBS-ek, MBS-ek, MBG-k, esszenciális gráfok és DAG-ok egy egymásba ágyazott, egyre komplexebb hipotézisosztályt alkotnak a relevanciával kapcsolatban. Ennek megfelelően ezek a hierarchia szintek természetesen módon használhatóak fel egy többszintű relevanciaelemzésben, amelyben a -MBS-ek változó -ra egy skálázhatóan többváltozós relevanciaelemzést tesznek lehetővé. A Bayes-i megközelítésben egy

Analóg módon, egy

halmaz relevánsbeliségének poszteriorja:

halmaz részben releváns voltának poszteriorja:

A k-subMBS poszterior a statisztikai interakció új, rendszerszintű jellemzését is lehetővé teszi, amely a valódi poszterior és alacsonyabb rendű k-subMBS poszteriorokon alapuló közelítés különbségén alapul:

Ha a k-subMBS poszterior egy halmazra nagyobb, mint az MBM poszteriorokból származtatott, akkor ez azt jelzi, hogy ezek a változók egyszerre lépnek be a modellbe, így szinergiájuk valószínűbb. Ezzel szemben, ha a k-subMBS poszterior kisebb, mint az MBM approximációból származó, akkor valószínűleg redundáns változókról van szó.

10.2. 8.2 Emlékeztető kérdések 38 Created by XMLmind XSL-FO Converter.


1. Mit nevezünk Jegyrészhalmaz kiválasztási problémának (Feature Subset Selection, FSS)? 2. Mi a gyenge és erős relevanciának? 3. Mit nevezünk Markov-takarónak és Markov-határnak? Mi a jelentőségük diagnózisban és predikcióban? 4. Mi a gráfos reprezentációja a Markov-határnak Bayes-hálókban és Markov-há-lók-ban?

10.3. 8.3 Feladatok Oldja meg a következő feladatokat felhasználva a megadott MBS poszteriort. 1. Vizsgálja meg a sorrendezett MBS poszteriorok lecsengését (illesszen rá görbét, vizsgálja meg a Zipftörvényt). 2. Vizsgálja meg az MBS poszterior approximálhatóságát MBM poszteriorok alapján. 3. Jelenítse meg az MBM poszteriorokat a csomópontok modellbeli elhelyezését használva. 4. Jelenítse meg az MBS poszteriorokat a csomópontok modellbeli elhelyezését használva. Vizsgálja meg relevanciákra vonatkozó feltételek összeállítását és ezen feltételekkel vett MBS poszterior alakulását. 5. Jelenítse meg az MBS poszteriort a részhalmazháló felhasználásával, azaz konstruáljon és elemezzen relevancia-térképet. 6. Számítsa ki a maximális k-subMBS és k-supMBS görbéket, jellemezze bizonyosan szükséges és várhatóan szükségtelen prediktorokat. 7. Konstruáljon relevanciafát és értelmezze a dendrogramban látható releváns változóhalmazokat. 8. Számítsa ki a relevancia-interakció térképet és értelmezze.

10.4. 8.4 MBS poszteriorok utófeldolgozása és megjelenítése Az MBS poszterior utófeldolgozásában és megjelenítésében a következő fogalmak és módszerek kiemelkedő fontosságúak (felhasználói szoftversegédlet a BayesEye szoftverhez kapcsolódva elérhető).

10.4.1. 8.4.1 Feltételes MBS poszteriorok megjelenítése a modell struktúrára vetítve A Bayes-hálóstruktúra felhasználható az MBSs és az MBM marginális poszteriorok megjelenítésére, amely akár a következő feltételes formában is megkonstruálható

ahol egy tetszőleges logikai kifejezés a prediktorok MBS státuszáról. A 30. ábra illusztrálja ezt a lehetőséget és a logikai kifejezés konstruálását.



10.4.2. 8.4.2 MBS és k-MBS poszteriorok megjelenítése részhalmazhálón Mind a megjelenítés, mind az utófeldolgozás kihasználhatja a részhalmazok azon tulajdonságát, hogy a metszet és unió műveletekkel egy hálót alkotnak, ahol a minimális és maximális elemek az üres és a teljes halmazok. A megjelenítésben a háló tranzitív redukált térképét (TRM) használjuk, ahol a csomópontok a . oszlopban a méretű részhalmazokhoz tartoznak (lásd 31. ábra). A TRM egy DAG-ként is ábrázolható, ahol az élek a "part of" relációt jelölik.



A 32. és a 33. ábrák az MBS k-MBS poszteriorok megjelenítését mutatják a részhalmazháló felett.





10.4.3. 8.4.3 A relevanciafa A relevanciafa a relevanciabeliség poszteriorja szerint mutatja a prediktorok halmazait 34. ábra. A prediktorok részhalmazai méret szerint rendezve jelenik meg, mivel egy halmaz megjelenítésének vízszintes pozíciója, színe, mérete a halmaz relevanciabeliségétől függ (ami értelemszerűen monoton változik a mérettel).



10.4.4. 8.4.4 A relevancia-interakció A páronkénti, relevancia alapú statisztikai interakció egy hierarchikus interakciós diagramon ábrázolható, lásd 35. ábra. Ezen az egyes prediktorok (például SNP-k) erős relevanciáját egy oszlop jelzi a belső körön, a belső gyűrű egy magasabb aggregációs szintnek felel meg (például géneknek), a külső rész reprezentálja a


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig legmagasabb szintű entitások relevanciáját (például nagyobb kromoszomális régiók). Az élek vastagsága arányos az interakciók erősségével, illetve piros jelzi az interakciót és kék a redundanciát.

11. Hivatkozások • [12] P. Antal, A. Millinghoffer, G. Hullám, Cs. Szalai, and A. Falus. A Bayesian view of challenges in feature selection: Feature aggregation, multiple targets, redundancy and interaction. Journal of Machine Learning Research: Workshop and Conference Proceedings, 4:74-89, 2008. • [21] G. F. Cooper and E. Herskovits. A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 9:309-347, 1992. • [14] C. Meek. Causal inference and causal explanation with background knowledge. In Proc. of the 11th Conf. on Uncertainty in Artificial Intelligence (UAI-1995), pages 403-410. Morgan Kaufmann, 1995. • [15] J. Pearl. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Francisco, CA, 1988. • [16] I. Tsamardinos and C. Aliferis. Towards principled feature selection: Relevancy, filters, and wrappers. In Proc. of the Artificial Intelligence and Statistics, pages 334-342, 2003.

12. 9 Heterogén biológiai adatok fúziós elemzése és értelmezése 12.1. Bevezetés A poszt-genomikai korszak egyik jellemvonása a hatalmas mennyiségű, heterogén biológiai adat jelenléte. A méréstechnikák és a számítástechnika párhuzamos fejlődésének köszönhetően elérhetővé vált a különböző 45 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig omikai szintek együttes vizsgálata, amely az orvosbiológiai kutatások új paradigmájává vált. Az adatfúzió több évtizedes területe így szoros kapcsolatokat kezdett kialakítani a jóval fiatalabb bioinformatikával, később pedig a gyógyszerkutatásban is megjelent. Az elmúlt évtizedben a gyógyszergyárak által évente kibocsátott új molekulák száma erősen csökkenő tendenciát mutatott, míg a de novo gyógyszerfejlesztés költségei egyre nőttek. A helyzet kezelése érdekében számos eltérő stratégia fogalmazódott meg, ezek egyike a gyógyszer-újrapozicionálás ötlete. A gyógyszerújrapozicionálás a már törzskönyvezett gyógyszerek új indikációban történő alkalmazását jelenti, amely egyrészt olcsóbb és gyorsabb (a preklinikai toxikológiai vizsgálatokat nem kell ismét elvégezni), másrészt a bukás kockázata szempontjából biztonságosabb alternatívát jelent. Az elmúlt néhány évben számos in silico gyógyszer-újrapozicionálást támogató rendszert fejlesztettek, amelyek egyre inkább az adatfúzió területe felé mozdultak el. A gyakorlat során egy ilyen rendszerrel fogunk megismerkedni.

12.2. Hasonlóság-fúzió alapú sorrendezés Az adatfúzió módszereit három csoportba oszthatjuk: korai (adatszintű), köztes, illetve késői (döntés-szintű) módszerek. A korai fúzió során az adatok direkt integrációját (pl. konkatenációját) végezzük el, míg a késői fúzió során az egyes forrásokból származó adatokat külön-külön elemezzük, majd az elemzések eredményeit kombináljuk. E gyakorlatban a köztes megközelítést alkalmazzuk, azaz az adatoknak egy átmeneti reprezentációját használjuk fel a fúzióhoz. A szóban forgó reprezentáció a gyógyszerek hasonlósági mátrixa lesz, ám ehhez először alaposabban körbe kell járnunk a hasonlóság fogalmát. A gyógyszeriparban a "hasonló tulajdonságok elve" (similar property principle) régóta ismert fogalom, amely eredeti megfogalmazásában a kémiailag (szerkezetileg) hasonló molekulák hasonló tulajdonságaira (pl. élő szervezetekben kiváltott hatások) utal. A jelenséget a '90-es évek végén kezdték kihasználni a gyógyszerkutatásban - a "bevált" gyógyszerekhez szerkezetileg hasonló molekulák in silico keresése ígéretes eredményeket hozott. Az elgondolást azóta számtalanszor kiterjesztették, ilyen eljárás például az individuális gyógyszerek helyett gyógyszerhalmazok alapján történő keresés, vagy egyszerre több hasonlóságmérték felhasználása. Utóbbi lényegében egy késői adatfúziós módszer, ahol különböző kémiai hasonlóságmértékek alapján több sorrendet származtatnak, majd ezeket kombinálják sorrendi fúziós módszerekkel. A kernel alapú adatfúzió szintén páronkénti hasonlóságokat használ, ám mind hatékonyságában, mind pontosságában felülmúlja az előbbi megközelítést. Egyik legnagyobb előnye az adatok adaptív fúziója; az információforrások súlyozását a lekérdezés (tanítóhalmaz) információtartalma vezérli, szemben az eddigi, globális fúziót megvalósító módszerekkel. Ennek megértéséhez egy egyszerű példát mutatunk. Legyen a kérdés annak megállapítása, hogy mi hasonlít leginkább egy cseresznyére és egy piros gumilabdára együttesen. Alak tekintetében gondolhatunk kis, gömbölyű tárgyakra; szín tekintetében piros dolgokra. Íz tekintetében a két entitás igen távol esik egymástól, a kérdés megválaszolása nehezünkre esik. Így tehát az alak és a szín "hasznos" információforrásnak bizonyul, míg az íz "haszontalan"; ez azonban más lekérdezés esetén teljesen másképp alakulhat. Matematikai megfogalmazásban tehát az adatoknak azon reprezentációit súlyozzuk felül, amelyekben a lekérdezés elemei "közel" esnek egymáshoz, azaz egy kis "térfogatú" halmazt alkotnak. Minden információforrás alapján kiszámítható egy vagy több amelyre tehát

hasonlósági mátrix,

Minden pozitív szemidefinit hasonlósági mátrix (kernel) meghatároz egy

hasonlóságmértékkel,

Hilbert-teret, amelyre

ahol az adatpont kernel-reprezentációja, pedig a függvénytérben értelmezett belső szorzat. Azon információforrásokat súlyozzuk felül, ahol ezen reprezentációk "kis térfogatú" halmazt alkotnak. A gyakorlat során alkalmazott eszköz egyosztályos szupport-vektor gépet (one-class SVM) használ az információforrások automatikus súlyozására és a molekulák sorrendjének kiszámítására (prioritizálás) az adott lekérdezés alapján. Az algoritmus működését az 36. ábra szemlélteti. 46 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A lekérdezési halmaz homogenitása igen fontos kérdés a prioritizálás során. Mivel az információforrások súlyozását lényegében a lekérdezés forrásonként különböző mértékű heterogenitása vezérli, bizonyos fokú heterogenitás megléte kifejezetten előnyös. Az eljárás teljesítményét kiértékelő munkák azonban rámutattak a túl heterogén lekérdezések zavaró hatásaira is. E zavaró hatások sok tényezőtől függenek (súlyregularizációs séma, információforrások száma stb.), rossz esetben akár a kiszámított sorrend teljes értelmetlenségét okozhatják.

Ha kikötjük, hogy , azaz minden entitás önmagával vett hasonlósága minden hasonlóságmérték szerint , akkor a kerneltérben minden adatpont egy egység-hipergömb felületén helyezkedik el. Az algoritmus az alábbi feladatot oldja meg:

ahol parametrizálja a hipersíkot, jelöli a források súlyozását, a margót, szabályozza a komplexitást, a mintaszám, a slack változók vektora, pedig a súlyregularizációért felel. Az algoritmus azt a hipersíkot határozza meg, amely a lehető legtávolabb fekszik az origótól, és a lekérdezést tartalmazó gömbsapkát szeli le a gömbről. Minél közelebb helyezkednek el a minták egymáshoz, a távolság (margó) annál nagyobb; következésképpen a források súlyozását a margó alapján is végezhetjük. További minták a hipersíktól való távolságuk alapján sorrendezhetők. Az egyosztályos SVM és a prioritizálás. A -vel jelölt lekérdezés az 1. információforrás szempontjából inhomogén, így ez a forrás alacsony súlyt kap a számítások során. Ugyanezen információforrás a lekérdezésre magas súlyt kapna. A gyakorlat során a prioritizálást potenciális gyógyszer-újrapozicionálások jóslására fogjuk felhasználni. Az újrapozicionálás alapvetően kétféle kontextusban történhet. Kiindulhatunk egy indikációból (betegségből), amelyre új gyógyszereket szeretnénk találni, vagy egy gyógyszerből (például amelyre a szabadalmi védelem lejárt, vagy valamilyen okból elbukott, esetleg visszavonták), és ehhez keresünk új indikációkat. Előbbi esetben valamilyen, a vizsgálandó indikációt karakterizáló lekérdezést kell megadnunk; ez könnyen megvalósítható, ha a lekérdezést az indikációban alkalmazott gyógyszerekből állítjuk össze. Vigyázni kell azonban a lekérdezés viszonylagos homogenitására, különösen heterogén molekuláris biológiai hátterű betegségeknél. A kapott sorrend első találatairól feltételezhetjük, hogy szerepet játszhatnak a betegség kezelésében.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Ha gyógyszerhez (vagy gyógyszer-kombinációhoz) keresünk indikációt, a lekérdezés értelemszerűen a vizsgált szer(eket) tartalmazza. A sorrendezés után végrehajthatunk ún. feldúsulási elemzést, amelynek során azt vizsgáljuk, hogy a kapott sorrendben a sorrendezett elemek valamely tulajdonságát jelző annotációja mennyire véletlen eloszlású, speciálisan például, hogy "feldúsulnak"-e valamilyen tulajdonságok a sorrendi lista elején. A gyógyszer/hatóanyag prioritizálás esetén gyakori tulajdonság az indikáció, ekkor a feldúsulási elemzés azt vizsgálja, hogy az előre sorolt gyógyszerek között szignifikánsan gyakrabban fordulnak-e elő egy adott indikációt képviselő szerek.

12.3. Kérdések Válaszolja meg 1-2 mondatban az alábbi kérdéseket. 1. A kémiai hasonlóság mellett milyen információforrásokat tudna elképzelni a gyógyszer-prioritizálás során? (Néhány további példát láthat majd a feladatok között, ám ezeken kívül is számos lehetőség van.) 2. Milyen információforrásokat tudna elképzelni, ha a feladat génprioritizálás volna? 3. Milyen más reprezentációk alapján lehet adatfúziót végezni? (2 példa) 4. Miben különbözik a globális és az adaptív hasonlósági fúzió?

12.4. Gyakorlatok 1. A www.drugs.com oldalon az FDA által törzskönyvezett gyógyszerekről találhat információt. Válasszon egy tetszőleges betegséget, majd nézze meg, hány készítményt alkalmaznak az adott betegségben. Off-label gyógyszer alatt olyan, más indikációkban törzskönyvezett hatóanyagokat értünk, amelyeket az aktuális indikációban nem engedélyeztek, a klinikai gyakorlatban viszont elfogadott a felírásuk. Számolja meg, hány off-label szer áll rendelkezésre a választott betegségben. Jegyezzen fel 4-5 gyógyszert (törzskönyvezett és off-label) a 4. gyakorlathoz. 2. A www.clinicaltrials.gov oldalon a folyó klinikai kísérletekről találhat információt. A keresőbe írja be a választott betegséget, majd számolja meg, hogy hány kísérlet folyik a betegségben, illetve ezek milyen fázisban vannak (használja a kiterjesztett keresőt). 3. A "multifaktoriális" betegségek meghatározó tulajdonsága, hogy kialakulásuk nem köthető egy-egy jól meghatározott génhez; hátterükben rengeteg gén, illetve környezeti hatások és életmódbeli faktorok is szerepet játszanak. A legtöbb népbetegség (pl. asztma, cukorbetegség) multifaktoriálisnak tekinthető. Keresse fel a www.godisease.org oldalt, majd írja be a választott betegséget a keresőbe. Hány találatot kapott? 4. A www.drugbank.ca oldalon számos további információt találhat a gyógyszerekről. Keressen rá az 1. gyakorlatban feljegyzett gyógyszerekre, majd görgessen le a "Targets" mezőig. Hány célpontja van a gyógyszereknek? Hogyan viszonyul a célpontok száma az előző feladatban talált számhoz? 5. A http://sideeffects.embl.de/ oldalon a gyógyszerek mellékhatásai vannak összegyűjtve. Válasszon ki egy gyógyszert az 1. gyakorlatban feljegyzettek közül, majd keressen rá. Melyek a leggyakoribb mellékhatások?

12.5. Feladatok 12.5.1. 1. Adatforrások, hasonlóságfüggvények megválasztása A munkafolyamat első lépése az adatforrások hozzáadása. Az adatforrások az egyes entitások vektoriális leírását tartalmazzák ritka formátumban. A kernelek kiszámítását a leírások alapján az eszköz végzi el, ehhez ki kell választanunk minden adatforráshoz egy hasonlóságfüggvényt, illetve meg kell adnunk ezek paraméterezését, ha szükséges. Mivel az adatforrások hiányosak, meg kell adnunk egy kernel-átlagértéket is, amellyel a hiányzó értékek lesznek helyettesítve.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Indítsa el a programot, majd a Browse gombbal válasszon ki egy adatforrást. A Type mezőben válasszon ki egy alkalmas hasonlóságmértéket. A kémiai információforrások esetén a Tanimoto-hasonlóság, egyébként pedig a koszinusz-hasonlóság "bevált" választások, azonban nem kell hozzájuk feltétlenül ragaszkodni; a későbbiekben azonban lesz lehetősége kísérletezni a különböző hasonlóságfüggvényekkel. Kernel-átlagértéket az egyszerűség kedvéért nem állítunk be. Az információforrást az Add gombbal tudja a gyűjteményhez adni.

Adjon hozzá további információforrásokat: • Kémiai: MACCS fingerprint, 3D farmakofór alapú leírás, MolconnZ fingerprint • Mellékhatás: SIDER (mellékhatás-frekvenciák), TFDIF (szövegbányászat alapú mellékhatásprofil) • Célpont-profil: DrugBank

12.5.2. 2. Lekérdezési halmazok összeállítása, prioritizálás A lekérdezések összeállítása a munkafolyamat legfontosabb eleme. Válasszon ki három tetszőleges indikációt (betegséget), majd a gyakorlatok során használt oldalak segítségével vagy az ATC klasszifikáció (http://www.genome.jp/kegg-bin/get_htext?br08303.keg) alapján állítson össze mindegyikhez egy 3-5 elemű lekérdezési halmazt. Ügyeljen a heterogenitásra: az "antidotes" nevű ATC-osztályból például nem érdemes válogatni, mivel ez egy gyűjtőkategória, így az elemeinek biokémiai szempontból kevés közük van egymáshoz; célszerű tehát jól ismert molekuláris hátterű betegségeket választani. Az adatforrásokban szereplő hatóanyagokat a Load gombbal tudja betölteni. Az eszköz egyosztályos és kétosztályos prioritizációt, valamint szupport-vektor regressziót is támogat; ezek közül csak az elsővel foglalkozunk. A kiválasztott hatóanyagokat az Add (+) gombbal vagy enter leütésével adja hozzá a pozitív osztályhoz. Az ablakban öt paraméter beállítására van lehetőség, ezek közül kettő lényeges az egyosztályos prioritizáció szempontjából: •

: a súlyregularizációt szabályozza, magas értékei esetén az információforrások súlyai egyenletesebben oszlanak el. A intervallumból vehet fel értékeket.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • : a gyakorlatban az outlierekkel (a lekérdezés többi részéhez kevésbé illeszkedő elemekkel) szembeni toleranciát szabályozza. Magas értékei esetén az algoritmus az outliereket kevésbé veszi figyelembe. A intervallumból vehet fel értékeket. A prioritizálást a Go gombbal indíthatja. A felugró ablakban megtekintheti a különböző futási paramétereket, valamint az információforrásokhoz hozzárendelt súlyokat. Ha lehetséges (viszonylag ritkán), megpróbálhatja értelmezni az eredményt: melyik indikációnál melyik forrás kapta a legnagyobb súlyt? Miért?

12.5.3. 3. Az eredmények értelmezése Vegye szemügyre a prioritizálás eredményét. Az első helyeket általában a lekérdezés elemei foglalják el; ha nem így van, vagy esetleg a lekérdezés több blokkra esett szét, túlzott heterogenitásra lehet gyanakodni. Vizsgálja meg az első 5-10 találatot a gyógyszer-klasszifikációk alapján, illetve használja a PubMed keresőjét! Célszerű az adott hatóanyagnevet és a betegséget beírni a keresőbe, és találat esetén elolvasni néhány absztraktot. Az olvasottak alapján magyarázhatók az eredmények? Van olyan hatóanyag, amely nem tartozik a vizsgált indikációhoz, de jelenléte a közlemények alapján magyarázható?



A Show plots gombbal hívja elő a prioritizálási statisztikákat. Vegye szemügyre a kompaktsági grafikont. Az x tengelyen a sorrend első száz hatóanyaga található, míg az y-on az első x hatóanyag átlagos hasonlósága. Az első hatóanyag esetén a hasonlóság értelemszerűen 1, majd a továbbiak hozzáadásával reciprokfüggvényre emlékeztető lecsengést kell mutatnia. Heterogén lekérdezésnél a grafikon gyökjel alakot vesz fel.

A Show graph gombbal az első 50 hatóanyag hasonlósági hálózatát lehet megtekinteni. A hatóanyagok a kombinált (források súlyaival kiátlagolt) hasonlóság alapján vannak összekötve. Állítson be egy alkalmas vágási szintet, majd a Graph layout gombbal rendezze a gráfot.



A sorrend elején szereplő hatóanyagok rózsaszínnel, a többiek kékkel ábrázolódnak. Lát szabályosságot a gráfban (pl. egymáshoz nagyon hasonló nevű gyógyszerek a komponensekben)? Ismét a klasszifikációk alapján egy-két szóban próbálja megmagyarázni az egyes komponenseket. Az alábbi gráfon például jól láthatók a különböző gyógyszercsoportok: proton-pumpa inhibitorok, -receptor-antagonisták, reverz transzkriptáz inhibitorok, antitumor szerek, egyéb antivirális szerek.

Végezze el a fenti elemzési lépéseket, majd 5-10 mondatban foglalja össze tapasztalatait! Kísérletezhet egyéb beállításokkal, például egyes információforrások kivételével, vagy más hasonlóságmértékek és futtatási paraméterek alkalmazásával is.

12.5.4. 4. Feldúsulási elemzés Az utolsó feladat során adott hatóanyaghoz új indikációt fogunk keresni. Válasszon egy (vagy több) tetszőleges gyógyszert a betöltött listáról, és adja hozzá a lekérdezéshez. Ügyeljen rá, hogy olyat válasszon, amelyhez több információforrás áll rendelkezésre. Ezt a prioritizálás elindításával tudja ellenőrizni - ha egy forrás 0 súlyt kap, nem benne volt adat a keresett szerről. Nyomjon az Enrichment analysis gombra, majd a felugró ablakban a Browse gombbal válassza ki az ATC annotációs file-t. A következő paramétereket lehet állítani:


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • E-érték levágás: csak az ez alatti e-értékkel (korrigált p-értékkel) rendelkező kategóriák fognak megjelenni. Amennyiben így nincs találat, emelheti az értéket, vagy akár kiveheti a pipát a teljes lista megjelenítéséhez. • Találatok száma: csak azon kategóriák kerülnek be az elemzésbe, amelyeknek legalább két eleme szerepel a kiszámított sorrendben. Az elemzés az Analyze gombbal indítható. Az eredmények első oszlopában a kapott e-értékek láthatók, a második oszlopban pedig a kategóriák nevei. Az alacsony ( alatti) e-érték azt jelenti, hogy az adott ATC osztály elemei szignifikánsan gyakrabban fordulnak elő a sorrend első találatai között.

Visszakapta a szer eredeti indikációját? Milyen más indikációk láthatók még? Hogyan értelmezhetők az eredmények?

13. 10 Bayes-i oksági elemzés A Bayes-i rendszerszintű biomarker-elemzési módszerek egyedi lehetőséget kínálnak a potenciális biomarkerek közvetlenségének, hatáserősségének, többváltozós szempontból szükséges és elégséges voltának és okozati szerepüknek a vizsgálatára. A gyakorlat keretében megvizsgáljuk a tárgyterület átfogó oksági jellemzésének lehetőségét és célzottan egy adott célváltozó szempontjából is.

13.1. 10.1 Bevezetés Az oksági értelmezés szerint a Bayes-hálóbeli struktúra egy oksági struktúraként is értelmezhető, amelyben a csomópontok a véletlen változókat, az élek pedig a közvetlen hatásokat jellemzik (lásd Oksági Bayes-hálók fejezetet a Valószínűségi döntéstámogatás tárgyban). Az okság ezen valószínűségi megközelítésével kapcsolatban gyakran megfogalmazott kritika, hogy feltételezi az oksági relációk elégséges voltát (amely az Oksági Markov-feltételben formalizált, Causal Markov Assumption, CMA), gyakran tételez fel stabil eloszlást (az oksági struktúrában szereplő éle szükségessége miatt), a modell-minimalitás szigorú megkövetelése, és a kontrafaktuális következtetés kezelésének elégtelen volta (amely a funkcionális Bayeshálókban formalizált) [17 és 18]. Ezen korlátok ellenére is az oksági Bayes-hálók egyedi lehetőséget kínálnak a potenciálisan oksági elemeket is tartalmazó a priori tudás és akár beavatkozási adat kombinálására. Az alkalmazhatóságuk még inkább feltételezhető a posztgenomikai korszak omikai kutatásaiban, amelyekben az Oksági Markov-feltétel elvárható. A Bayes-statisztikai keretben egy hatékonyan számolható képlet származtatható a oksági struktúra poszteriorjára (feltevéseket lásd az Intelligens adatelemzés tárgy jegyzetében):



ahol a adat beavatkozási változókat is tartalmazhat. A poszteriorból vetítéssel (marginalizációval) származtatható az oksági modellek különböző tulajdonságaira eloszlások, mint például élekre, kényszerített élekre, Markov Határ gráfokra (Markov Boundary Graph, MBGs), változók páronkénti és teljes sorrendjére. Az MBG poszterior a Bayes-háló alapú többszintű elemzésnek (BMLA) az egyik központi eleme:

Vegyük észre, hogy egy

páronkénti reláció poszteriorja a következőképpen adódik:

A 3. táblázat ilyen asszociációs, relevancia- és oksági relációkat foglal össze gráfos valószínűségi modellek felhasználásával.

Több célváltozó esetén a következő komplex relációk is hasznosak lehetnek, amelyeket a 4. táblázat foglal össze.

A poszterior

páronkénti oksági reláció mellett a változók teljes sorrendjére (permutációira) is származtatható

ami a változók oksági sorrendjéről és idői viszonyaikról hordozhat információt. 54 Created by XMLmind XSL-FO Converter.


13.2. 10.2 Emlékeztető kérdések 1. Mi az Oksági Markov-feltétel? 2. Mit nevezünk v-struktúrának, esszenciális gráfnak és kényszerített élnek? 3. Mit nevezünk idális beavatkozásnak, do() szemantikának és gráf csonkolásnak?

13.3. 10.3 Feladatok Oldja meg a következő feladatokat, felhasználva a biztosított él-, sorrend- és MBG-poszteriorokat: 1. Elemezze az élek eloszlását a modell elrendezését felhasználva. 2. Elemezze az MBG poszteriort a modell elrendezését felhasználva. Hozzon létre logikai kifejezéseket az MBG-kre vonatkozó állításokból és vizsgálja meg a felhasználásukkal definiált feltételes MBG poszteriorokat. 3. Számítsa ki a változók várható indexét az oksági sorrendben és elemezze ennek tárgyterületi realitását. 4. Vizsgálja meg az élposzteriorok és a sorrendi poszteriorok kompatibilitását. 5. Standardizálja a többcélpontú relevancia-poszteriorokat analóg egycélpontú átlag poszteriorokká.

13.4. 10.4 Feltételes MBG poszteriorok megjelenítése a modellstruktúrára vetítve A Bayes-hálóstruktúra felhasználható az MBG és az MBG-beli élek feletti marginális poszteriorok megjelenítésére, amely akár a következő feltételes formában is megkonstruálható , ahol egy tetszőleges logikai kifejezés a prediktorok MBG-beli státuszáról. A 37. ábra illusztrálja ezt a lehetőséget és a logikai kifejezés konstruálását.



13.5. 10.5 Páronkénti poszteriorok megjelenítése a modellstruktúrára vetítve A Bayes-hálóstruktúra felhasználható az összes tárgyterületre vonatkozó él és MBM reláció marginális poszteriorjának a megjelenítésére is (lásd 38. ábra).

14. Hivatkozások • [17] C. Glymour and G. F. Cooper. Computation, Causation, and Discovery. AAAI Press, 1999. • [18] J. Pearl. Causality: Models, Reasoning, and Inference. Cambridge University Press, 2000. 56 Created by XMLmind XSL-FO Converter.


15. 11 Tudásmérnöki technikák alkalmazása döntési hálóknál A fejezetben több módszert is ismertetünk Bayes-hálók és döntési hálók konstruálására. Bemutatjuk az egyszerű és komplex következtetési módszerek alkalmazását, és a következtetés érzékenységvizsgálatát, ami a tökéletes információ értékének a fogalmához is kapcsolódik. Végezetül megvizsgáljuk a következtetés komplexitásának függését a modell strukturális tulajdonságaitól.

15.1. 11.1 Bevezetés A Bayes-háló-modellosztály és a kapcsolódó döntési hálók központi helyet foglalnak el a modern mesterséges intelligencia kutatásokban és alkalmazásokban [23]. A laboratórium célja ezen modellosztályok sokoldalú bemutatása, építésüktől, tanulásuktól az alkalmazásukig (elméleti áttekintésre a Valószínűségi döntéstámogatás tárgy megfelelő fejezeteit ajánljuk).

15.2. 11.2 Kérdések/Emlékeztetők 1. Mit nevezünk topológiai sorrendnek egy irányított gráfban (Bayes-hálóban)? 2. Milyen változósorrendet érdemes használni, amely tipikusan egy hatékony Bayes-háló konstruálását teszi lehetővé? 3. Hogyan konstruálhatunk egy Bayes-hálót, amely kompatibilis egy adott sorrenddel? 4. Mi a tár- és időkomplexitása az egzakt következtetésnek (poli)fákban és általános (többszörösen összekötött) Bayes-hálókban? 5. Hogyan definiált a tökéletes információ értéke? 6. Mi a maximális hasznosság elve?

15.3. 11.3 Tudásmérnöki technikák Bayes-hálókhoz A tudásmérnöki technikák a Valószínűségi döntéstámogatás tárgy Valószínűségi gráfos modellek fejezetében tárgyalt, itt csak a főbb lépéseket foglaljuk össze: 1. Célok, alkalmazási terület és modellezési szintek identifikációja. Terminológia és ontológia elfogadása. 2. Nem rendszerezett tudás begyűjtése. Ehhez a lépéshez tartozik az összes releváns elektronikus és egyéb szöveg alapú információforrás feldolgozása, ami magába foglalja az a priori információ kinyerését különféle szövegbányászati metódusok alkalmazásával. 3. Struktúra definiálása, több modellstruktúra létrehozása. 4. Paraméter és hiperparaméter kinyerése. A valószínűségi paraméterek számos módon nyerhetők: adatbázisok, szakirodalom vagy szakértők szubjektív véleménye alapján. 5. Érzékenységi analízis, verifikáció és validáció. Az utolsó lépésbeli modellvizsgálat a modell adaptációjához vezet, ami pedig a modell tanulásába. Ezeket a Döntéstámogató rendszerek tanulása fejezetben tárgyaljuk.

15.4. 11.4 Feladatok


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1. Egy szabadon választott tárgyterületen hozzon létre egy 5-10 csomópontos Bayes-háló-struktúrát. 2. Hozzon létre közelítő hálókat, lehetőleg egy polifát is. 3. Paraméterezze a hálókat. 4. Vizsgálja meg a működésüket egyszerű és „information sensitivity of inference” elemzéssel.

15.5. 11.5 Bayes-háló-modellek szerkesztése 15.5.1. 11.5.1 Új modell létrehozása Új modellt a File > New ... menü vagy az erre szolgáló ikon kiválasztásával hozhatunk létre. Az ekkor felugró fájlkiválasztó dialógusablakban kell meghatározni az új modellt tartalmazó fájl mentési helyét, majd ha ez megtörtént, kezdhetjük a modell szerkesztését.

15.5.2. 11.5.2 Létező modell megnyitása Egy már korábban fájlba mentett modellt a File > Open ... menü vagy a megfelelő ikon kiválasztásával nyithatunk meg: a felbukkanó fájlkiválasztó dialógusablakban kell kiválasztani a modell leírását tartalmazó fájl elérési útját.

15.5.3. 11.5.3 Modellstruktúra szerkesztése A megnyitott modellhez a szerkesztési paletta segítségével adhatunk új csomópontokat: a főablak jobb oldalán elhelyezkedő palettát kinyitva kiválaszthatjuk a hozzáadni kívánt csomópont típusát, majd ezután az egérrel a modell területére klikkelve ott megjelenik az új csomópont. Az élek modellhez adás hasonlóan történik: a palettáról kiválasztjuk a megfelelő ikont, majd a modellben először a forrás-, majd a célcsomópontra klikkelünk. A palettán a kiválasztott (a modellhez adandó) elemet reprezentáló ikonok "beragadnak", azaz a kiválasztás utáni első elemhozzáadás után még tetszőleges számú ugyanolyan elemet adhatunk a modellhez, anélkül, hogy a palettán való kijelölést újra meg kellene tennünk. Az alap - úgynevezett kiválasztási (select) - üzemmódba az Escape billentyű megnyomásával térhetünk vissza. A modell egy tetszőleges elemét (csomópontot vagy élt) törölni kattintással kijelölés után a Delete billentyű megnyomásával lehet.

15.5.4. 11.5.4 Csomópontok típusainak szerkesztése Minden valószínűségi és döntési csomópont egy-egy típushoz tartozik, ez a típus határozza meg, hogy hány és milyen értéket vehet fel az adott csomópont. A csoportokhoz hasonlóan a típusok listája is a változóktól függetlenül szerkeszthető, a főablak Variable Types ... környezeti menüjén keresztül. A menü kiválasztására felbukkanó párbeszédablakban szerkeszthetjük (1) a típusok listáját, (2) az egyes típusok által felvehető értékek listáját és az azokhoz rendelt valós intervallumokat, illetve (3) a típushoz rendelt szöveges annotációkat.



Alapértelmezésben minden új változó a default típusba tartozik, amely nem szerkeszthető. A csomópontokhoz rendelt típust a csomópont tulajdonságai között szerkeszthetjük.

15.5.5. 11.5.5 Csomópontok csoportjainak szerkesztése A modellben található csomópontok csoportokba szervezhetők. E csoportok listája a főablak Variable Groups ... környezeti menüjéből érhető el. A menüre kattintva a felugró dialógusablakban szerkeszthetők: a változók csoportjainak (1) nevei, (2) a csoportokhoz rendelt megjelenítési szín, és (3) a csoportokhoz tartozó szöveges annotációk listája.



Alapértelmezésben minden változó a default csoporthoz tartozik, ez a csoport nem szerkeszthető. Egy-egy változócsoporthoz rendelése a változó tulajdonságai között szerkeszthető.

15.5.6. 11.5.6 Csomópontok szerkesztése A főablak alatt elhelyezkedő Properties nézet szolgál a csomópontok alapvető információinak megjelenítésére és szerkesztésére. Bármely csomópontra ráklikkelve, azt kiválasztva a nézetben táblázatos formában megjelennek a következő információk: • Szöveges annotációk listája, egyetlen szövegfüzérbe fűzve. Az annotációk (kulcs, érték) alakú párosok, szerkesztésük egy külön dialógusablakban lehetséges, amely a nézet Annotations sorát kiválasztva annak ... gombjára kattintva érhető el. • A változó csoportja. A már definiált csoportok közül választható ki, hogy az adott változó melyikbe tartozzon. Egy változó pontosan egy csoportnak a tagja.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • A változó neve, ez a tulajdonság magában a főablakban is szerkeszthető, a változót kiválasztva, majd annak nevére még egyszer klikkelve. • A változó típusa. Hasonlóan a csoporthoz, a már definiált típusok közül választható pontosan egy. Ez a tulajdonság csak a valószínűségi és döntési csomópontok esetén érhető el, hasznosságcsomópontok esetén nem.

A csomópontok által leírt valószínűségi/hasznossági függvények a csomópontra duplán klikkelve elérhető dialógusablakokban szerkeszthetők. Ezek leírása a következő alfejezetekben található. 15.5.6.1. 11.5.6.1 Valószínűségi csomópont - feltételes valószínűségi tábla A valószínűségi csomópontok egy-egy diszkrét, véges értékkészletű valószínűségi változót reprezentálnak. Ezek legfontosabb jellemzője az általuk reprezentált feltételes valószínűségi eloszlás, azaz hogy szüleik adott értékkonfigurációi mellett milyen eloszlást vesznek fel lehetséges értékeik felett. A feltételes valószínűségi táblás (conditional probability table - CPT) csomópontok ezt a lehető legegyszerűbb módon, a valószínűségi értékeket egy táblázatban tárolva valósítják meg.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A táblázat sorai a változó egy-egy szülői konfigurációjának felelnek meg, az ezen belül található celláknak kell teljesíteniük a valószínűségi eloszlásokra vonatkozó feltételt. 15.5.6.2. 11.5.6.2 Valószínűségi csomópont - döntési fás Egy valószínűségi csomópontnak a szüleitől való feltételes függését a táblázatos forma mellett meg lehet adni egy döntési fával is. Ebben a döntési fában a belső csomópontok (azaz az elágazások) a szülőkkel lesznek felcímkézve, míg a levelek egy-egy eloszlást fognak tartalmazni. Egy újonnan felvett csomópont alapértelmezés szerint a szülei bármely konfigurációja esetén egyenletes eloszlással rendelkezik, azaz döntési fája egyetlen (egyenletes eloszlású) levélből áll. A döntési fát a következő műveletekkel építhetjük fel. • A szerkesztő jobb oldalán található palettából egy kattintással kiválasztjuk az egyik szülő csomópontot, majd egy második kattintással kiválasztjuk azt a levelet, amely elé be szeretnénk illeszteni a kiválasztott szülő szerinti elágazást. A rendszer ellenőrzi, hogy az adott szülő elhelyezhető-e a fa kiválasztott részén, és ha ez nem lehetséges, nem ajánlja fel a hozzáadás lehetőségét. Ekkor a levélcsomópont a fában lecserélődik egy részfára, amely az adott szülő szerinti döntési csomópontot és az ezen "lógó" annyi levél-eloszlást tartalmaz, ahány értéke a szülőnek van. • Egy döntési csomópontot kijelölve, majd ezután a Delete billentyűt megnyomva, az adott csomópont és az alatta levő teljes részfa törlődik, a helyére pedig egyetlen, egyenletes eloszlású levél kerül. • Egy levélcsomópontra duplán kattintva a CPT-szerkesztőhöz hasonló dialógusablak jelenik meg, amelyben a már ismert módon szerkeszthető az adott levélhez tartozó eloszlás. • A döntési fa egy részfája áthelyezhető egy másik levél helyér, a kérdéses csomópontot az egérrel a levél fölé húzva. A fentieken túl lehetőség van a fa grafikus megjelenítésének (a csomópontok elhelyezkedésének) meghatározására is: Egy vagy több kijelölt elemet az egér segítségével "arrébb húzhatunk" a szerkesztővásznon, illetve a Tree layout környezeti menü kiválasztására a program automatikusan elrendezi a fa csomópontjait. 15.5.6.3. 11.5.6.3 Döntési csomópont A döntési csomópontok a felhasználó által (a rendszer szempontjából kívülről) hozott döntéseket reprezentálják, azaz ezek nem függhetnek a modell más csomópontjaitól, nem lehetnek szüleik. Ennek megfelelően a döntési csomópontok nem reprezentálnak semmilyen függést, így hozzájuk nem tartozik ilyen jellegű szerkesztő. 15.5.6.4. 11.5.6.4 Hasznossági csomópont A hasznossági csomópontok a valószínűségiektől eltérően nem eloszlásokat, hanem csak hasznossági értékeket tartalmaznak, ennek megfelelően a hozzájuk tartozó, szintén táblázatos függvénytárolási forma annyiban egyszerűsödik, hogy soronként nem egy teljes eloszlást, hanem csak egyetlen valós számértéket kell megadnunk (ez természetesen lehet -nél nagyobb vagy negatív érték is).



A táblázat jobb áttekinthetősége érdekében szülő esetén lehetőség van a táblázat mátrixos formában való megjelenítésére is: ekkor az oszlopok az egyik, a sorok a másik szülő lehetséges értékeivel vannak felcímkézve.

15.5.6.5. 11.5.6.5 Döntési fás hasznossági csomópont


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A valószínűségi csomópontokhoz hasonlóan, a hasznossági csomópontoknak is létezik döntési fás változata. Ezek esetén a döntési fa szerkesztése hasonlóképpen történik, mint a valószínűségi csomópontoknál, annyi eltéréssel, hogy a levélcsomópontok ebben az esetben egyetlen hasznosságértéket tartalmaznak, nem egy eloszlást.

15.5.7. 11.5.7 Annotáció és magyarázatkeresés Az annotáció lényege, hogy egy modell különféle absztrakciós szintjein lévő elemeit kiegészítő információkkal gazdagítsuk. A változókhoz, illetve változók csoportjaihoz publikációs hivatkozást vagy akár adatbázisreferenciát rendelhetünk, egyes kiemelten fontos elemekhez további részleteket fűzhetünk. De lehetővé válik korábbi eredmények adott elemhez való linkelése is. A cél az, hogy az elemzést elősegítse a rendszerezett addicionális információ.

Az annotációs mezők elérhetőek a változók, változótípusok (Variable Types), változócsoportok (Variable groups) és a teljes modell szintjén is. Az egyes változók és a modell esetében az adott entitás Properties mezőjén belül található Annotations nyomógomb segítségével. A változócsoportok és változótípusok esetén pedig a tulajdonságok beállítására szolgáló ablakon belül lévő Annotations nyomógomb által érhetőek el. Az annotációs mezőkbe kulcs - érték (key - value) párok vihetők be. Ez azt a célt szolgálja, hogy az annotációk rendszerezetten álljanak rendelkezésre. Lehetséges egy elemet többféle annotációval ellátni, továbbá több elemet hasonló típusú (key) annotációval gazdagítani.



Az annotációk egy központi menüpontból is elérhetők az elemek hierarchiája szerint tagoltan. Ugyanerről a felületről nyílik lehetőség lekérdezések összeállítására. Ez az Operations menü Create query using annotations parancsával érhető el. A lekérdezéshez használni kívánt annotációk kiválasztása dupla kattintással történik. Ennek következtében a jobb oldalon lévő mezőben gyűlnek a kiválasztott annotációs kifejezések. Az OK gomb megnyomásával indítható egy általános keresés a Google keresőjében.

E funkció segítségével kapcsolódó dokumentumokat, illetve háttéranyagokat kereshetünk, aminek célja az eredmények értelmezésének elősegítése, a magyarázatkeresés támogatása.

15.6. 11.6 Következtetés Bayes-hálókban 65 Created by XMLmind XSL-FO Converter.


Az Operations > Inference mode menüre kattintva, azt aktívvá téve (ezt a mellette megjelenő pipa jelzi) válthatunk következtetési üzemmódba. Ekkor a főablak jobb oldalán megjelenik a csomópontok listáját tartalmazó úgynevezett következtetési nézet (Inference view), amelynek használatával az alapvető következtetési feladatokat elvégezhetjük.

15.6.1. 11.6.1 Evidenciák/döntések bevitele A szoftver jelenleg a biztos evidenciák (hard evidence) kezelését támogatja, azaz ennek megfelelően egy adott csomópontnak a következtetés során vagy teljes biztonsággal ismert az értéke (van biztos evidencia), vagy semmilyen információnk nincsen róla (nincs evidencia). Evidencia beállítása a következő módon történhet: az adott csomóponthoz tartozó értéklistát megjelenítjük (a csomópont neve melletti +/- szimbólum segítségével), majd a kiválasztott értéken jobb-klikkelve a felbukkanó menüben kiválasztjuk a Set as evidence pontot. Evidenciát törölni hasonlóképpen, a változónévre jobb-klikkelve, a Clear evidence menüvel lehetséges, ha csak a kérdéses változóra vonatkozóan akarunk törölni, az összes evidencia törlésére pedig a Clear all evidences menü szolgál. Döntési csomópontok esetén a kiválasztott érték bevitele hasonlóképpen történik, a Set as decision menü segítségével. Döntési csomópont esetén törlésre nincs lehetőség, mivel a döntési csomópontoknak minden pillanatban rendelkezniük kell egy kiválasztott értékkel. Evidenciák/döntések megjelenítése Az evidenciával rendelkező csomópontok nevei a főablakban félkövérrel szedve láthatók, a név alatt a felvett értékkel; a viselkedésükkel összhangban, a döntési csomópontok mindig így jelennek meg következtetési módban. A következtetési nézetben a csomópontok nevei mellett szintén megjelennek az általuk felvett evidenciák/döntések értékei.

15.6.2. 11.6.2 Marginális eloszlások számítása A prediktív következtetési műveletek közül a legalapvetőbb az aktuális evidenciák mellett az egyes csomópontok által felvett marginális eloszlások kiszámítása. Ezt a műveletet a szoftver automatikusan elvégzi minden evidencia/döntés módosítás után. Az egyes változók marginálisai a következtetési nézetben láthatók: a változót kattintással kiválasztva, annak eloszlása a nézet alsó részén jelenik meg, piros oszlopokkal ábrázolva. Az oszlopok által jelképezett valószínűség-értékek (3 tizedesjegy pontossággal) az egérkurzort az oszlop fölé helyezve jeleníthetők meg. 15.6.2.1. 11.6.2.1 A mintavételi nézet (Sampling view) A marginális eloszlások evidenciák függvényében történő változásának pontosabb nyomon követése érdekében lehetőség van az eredmények táblázatba szervezésére: erre szolgál a főablak alatt található úgynevezett Mintavételi nézet (Sampling view). Ennek működése a következő.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A következtetési nézetben a csomópontok, illetve azok értékeinek környezeti menüjében a Watch menüpontot kiválasztva az adott érték(ek) sorcímkeként a mintavételi nézet táblázatához adhatók. A mintavételi nézet Sample gombját megnyomva a táblázathoz egy új oszlop adódik, amely tartalmazott értékek aktuális konfiguráció melletti értékeit tartalmazza. A táblázat a fenti alapfunkciókon kívül még a következő funkcionalitásokat támogatja. • Egy adott sor bármely pontjára klikkelve a sor kiválasztódik. Ez az áttekinthetőséget javító szerepén túl még arra használható fel, hogy az ily módon kiválasztott sor a Remove selected környezeti menü kiválasztásával törölhető a táblázatból. • A Copy table to clipboard as text környezeti menü kiválasztására a táblázat tartalma (tabulátorokkal szeparált) szöveges formátumban a vágólapra kerül; innen pedig már könnyen beilleszthető valamilyen külső táblázatkezelő programba. • A Rem. columns gomb megnyomására a táblázat által tartalmazott minta-értékek törlődnek, de a sorok címkéi megmaradnak. • A Remove all gomb törli a táblázat teljes tartalmát.

15.6.3. 11.6.3 Következtetés érzékenységének vizsgálata Az érzékenységi vizsgálat (sensitivity of inference - SOI) során arra keressük a kérdést, hogy egy adott célkonfiguráció valószínűségét hogyan határozzák meg egy másik, az úgynevezett feltételcsomópontok halmazába tartozó változók lehetséges értékei, illetve, hogy a feltételcsomópontoknak egymás után értéket adva, ezek az értékadások hogyan módosítják a célkonfiguráció feltételes valószínűségét annak korábbi értékéhez képest. A tipikus érzékenységvizsgálat a következő lépésekből áll. • A szokásos módon (11.6.1) bevisszük a rendszerbe a fixen tartani kívánt evidenciákat és döntéseket. • A feltételváltozókat az Inference View nézetben a változók Add to SOI conditions környezeti menüjére kattintva jelölhetjük ki, majd ez után, ha szükséges, sorrendjükön a Sensitivity of Inference View nézet Move up és Move down gombjaival módosíthatunk. • A célkonfigurációba tartozó értékeket az Inference View nézetben, a változóértékek Set as SOI target környezeti menüjének segítségével vehetjük fel. • Ha összeállítottuk a kívánt vizsgálati konfigurációt, a Sensitivity of Inference View nézet Show gombjával hajtathatjuk végre a szükséges számításokat.A számítások lefutása után egy új szerkesztőablak nyílik meg, amely az érzékenységvizsgálat eredményeit ábrázoló diagramot tartalmazza.

15.6.3.1. 11.6.3.1 A "Sensitivity of Inference Diagram" értelmezése Az érzékenységvizsgálat során a fix evidenciákat (azok meghatározott sorrendjében) iteratívan bővítjük ki a feltételváltozók lehetséges értékeivel. Minden egyes ilyen lépésben kiszámítjuk (1) az aktuális evidenciahalmaz valószínűségét és (2) a célkonfiguráció valószínűségét az evidenciák halmaza mint feltétel mellett. 67 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Összefoglalva, a kapott valószínűség-párok egy fába rendezhetők, melynek gyökerében a található, ennek gyermekei pedig az első feltétel lehetséges értékeivel kibővített evidenciát tartalmazzák: , így folytatva az evidenciák halmazának bővítését a második, harmadik stb. feltételváltozókkal a fában lefelé haladva.

A diagram vízszintesen felosztva oszlopokra van tagolva, melyek a fent leírt fa egy-egy szintjének felelnek meg, egy-egy oszlopon belül pedig vízszintes vonalak jelképezik az ábrázolt valószínűségpárokat: a vonal annál sötétebb, minél nagyobb a valószínűség, a függőleges elhelyezkedése pedig a mennyiséggel arányos.

15.7. 11.7 Strukturális információk megjelenítése A diszkrét csomópontokat tartalmazó Bayes-hálókban való következtetésre a szoftver a PPTC (propagation of probabilities in trees of cliques) algoritmust alkalmazza (részletesen lásd [19]). Az eljárás folyamán az eredeti gráfstruktúrából több lépésen keresztül egy másodlagos struktúra (klikkfa) jön létre, amely a csomópontok meghatározott részhalmazait tartalmazza csomópontokként. A PPTC algoritmus során végrehajtott teljes strukturális átalakítás a következő lépésekből áll (az alábbiakban nem részletezett műveletek pontos leírása a [19] cikkben található). • A morális gráfot az eredetiből úgy kapjuk, hogy az egyes csomópontok szüleiből képezhető összes párt (irányítatlan élekkel) összekötjük, majd az eredeti élek irányítását is töröljük (vagyis ez már egy irányítatlan struktúra lesz). • A következő lépésben fel kell számolni a morális gráfban lévő minden olyan kört, amely 3-nál több csomópontot tartalmaz, és nem tartalmaz egy kisebb kört is (vagyis a 3-nál nagyobb köröket "háromszögekre kell bontani"). • Az immár háromszögesített gráfból már megkonstruálható a klikkfa: a háromszögesített gráf minden egyes maximális klikkje a klikkfa egy csomópontja lesz, ezeket pedig úgy kell egy minimális (tehát fa) gráfstruktúrába szervezni, hogy az számításigény szempontjából lehetőleg optimális legyen. A fentiekkel összhangban meghatározható, hogy a Bayes-hálóra jellemző strukturális információk közül melyek legyenek megjelenítve. Ezek felsorolása a következő alfejezetekben található.

15.7.1. 11.7.1 Élek megjelenítése


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Az Operations > Show connections menüpontra kattintva kapcsolható ki, illetve be az irányított körmentes gráf éleinek (vagyis a Bayes-hálót definiáló éleknek) a megjelenítése. Alapértelmezésben ez az egyetlen opció van bekapcsolva, a következők kikapcsolt állapotban indulnak.

15.7.2. 11.7.2 Húrgráf megjelenítése Az Operations > Show chordal graph menüpontra kattintva kapcsolható be, illetve ki a húrgráf éleinek megjelenítése.

15.7.3. 11.7.3 Klikkfa megjelenítése Az Operations > Show clique tree menüpontra kattintva kapcsolható be, illetve ki a klikkfa megjelenítése. Az itt megjelenített elemek a következők: • A klikkfa csomópontjait lekerekített sarkú fehér négy-zetek jelképezik. Az egyes klikkfa-csomópontok által tartalmazott csomó-pontok listája a kurzort a klikkfa-csomópont fölé helyezve jeleníthető meg: ezt a felbukkanó tooltip tartalmazza. • A klikkfában lévő klikkek egymáshoz úgynevezett határoló halmazokon (sepset) keresztül kapcsolódnak. Bár maguk a határoló halmazok nem jelennek meg, azok között a klikkek között, amelyek ily módon össze vannak kötve, vastag szaggatott élek futnak. • Az egyes klikkek által tartalmazott csomópontokat vékony szaggatott vonal köti az őket tartalmazó klikk(ek)hez.



16. Hivatkozások • [19] C. Huang and A. Darwiche, Inference in belief networks: A procedural guide. International Journal of Approximate Reasoning, 15:225-263, Elsevier Science Inc., 1996. • [23] S. Russel and P. Norvig. Artificial Intelligence. Prentice Hall, 2001.

17. 12 Döntéstámogató rendszerek tanulása A fejezetben megvizsgáljuk az emberi szakértőknél tipikus becslési heurisztikákat és elfogultságokat. Megvizsgáljuk a paraméterekre vonatkozó a priori eloszlások és mintaméret együttes hatását. Végezetül megvizsgáljuk a mintaméret hatását a struktúratanulásra és a tanulás függését az optimalizációtól.

17.1. 12.1 Bevezető A Bayes-háló-modellosztály és a kapcsolódó döntési hálók központi helyet foglalnak el a modern mesterséges intelligencia kutatásokban és alkalmazásokban [23]. A laboratórium célja ezen modellosztályok sokoldalú bemutatása, építésüktől, tanulásuktól az alkalmazásukig (elméleti áttekintésre a Valószínűségi döntéstámogatás tárgy megfelelő fejezeteit ajánljuk).

17.2. 12.2 Kérdések/Emlékeztetők 1. Bizonyítsa be, hogy a relatív gyakoriságok maximum likelihood becslők. 2. Milyen értelmezés adható a Beta és Dirichlet eloszlások hiperparamétereinek? 3. Milyen szakértői becslési heurisztikák és elfogultságok (bias-ek) léteznek? 4. Mi az időkomplexitása (poly)fa struktúrájú és általános Bayes-hálóknak?

17.3. 12.3 Feladatok 1. A szofter segítségével jelenítse meg a becsült paramétereket. 2. Vizsgálja meg a beépített paramétertorzítók hatását. 3. Generáljon különböző mennyiségű adatokat egy felparaméterezett, referencia Bayes-hálóból. 70 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 4. Felhasználva a referenciaháló struktúráját, tanulja meg a modell paramétereit. 5. Vizsgálja meg a tanulás függését az elérhető mintaszámtól és optimalizálásra használt időtől.

17.4. 12.4 Becslések torzítása A valószínűségi következtetés és modellezés szempontjából kétféle következménye lehet az embereknél megfigyelhető valószínűségi becslési heurisztikáknak a paraméterek meghatározását tekintve: túlzott magabiztosság (overconfidence) vagy a magabiztosság hiánya (underconfidence). A túlzott magabiztosság a valószínűségi skála szélsőséges értékei felé való eltolódást eredményez ( ). Ezzel szemben a magabiztosság hiánya az előzővel ellentétes, centrális tendenciát mutat, azaz minden esetben a maximális bizonytalanságot jelentő p=0.5 felé való torzítást jelent.

A becsléstorzítási funkciók az Estimation Bias menüpontból érhetőek el az Operations menün belül. Az 54. ábrán látható nézetben megadható a torzítás mértéke a Bias pontban egy közötti skálán (1 jelenti a legerősebb értéket.) A Method pontban pedig kiválasztható az alkalmazandó torzítás típusa: Extreme (túlzott magabiztosság), vagy Central (magabiztosság hiánya). A jobboldali listában kiválasztható, hogy mely csomópontoknál, vagyis azok feltételes valószínűségi tábláiban megadott értékeinél, kerüljön sor a torzítás alkalmazására. A beállításokat követően a Calculate gomb megnyomásával indítható a számítás.

17.5. 12.5 Paraméterek tanulása 17.5.1. 12.5.1 Adatfájlok formátuma A Bayes-hálókon végrehajtható számos művelet igényli egy adatfájl meglétét, amely a háló által reprezentált csomópontokra vonatkozó megfigyeléseket tartalmaz. A szoftver a vesszővel tagolt szövegfájlokat (commaseparated vectors - csv) támogatja, ezeknek a következőknek kell megfelelniük. • A fájl egy-egy során belül a cellákat vesszőkkel kell egymástól elszeparálni. • A fájl első sora az ún. fejléc, ebben a sorban a modellben található változók neveinek kell szerepelnie. A változók sorrendje tetszőleges lehet (nem kell megegyezni a modellen belüli sorrenddel), de minden változónak szerepelnie kell az adatfájlban. Esetlegesen további oszlopok is lehetnek az adatfájlban, ez nem jelent problémát. • A további sorok tartalmazzák a megfigyelési értékeket, ezeknek az egyes változók lehetséges értékei definíciójakor megadott intervallumok valamelyikébe eső számoknak kell lenniük, nem egész szám esetén tizedespontot alkalmazva (nem vesszőt). A cellák az ismeretlen megfigyelési értékek jelölésére hagyhatók üresen is.

17.5.2. 12.5.2 Paraméterek beállítása adatfájl alapján A modellhez a fentiek szerint illeszkedő adatfájl felhasználható arra, hogy a modell numerikus paramétereit (azaz a valószínűségi csomópontok feltételes valószínűségi tábláinak bejegyzéseit) az alapján beállítsuk.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Az Operations > Learning parameters ... menüpontot kiválasztva, meg kell adnunk a felhasználni kívánt adatfájlt, és ez alapján lezajlik a paraméterek beállítása. Ami valójában ekkor történik, az, hogy minden egyes változóra a szoftver megszámlálja az adatfájlban a változó családjához 1 tartozó teljes konfigurációk előfordulási gyakoriságait és ezekkel a számokkal tölti ki a csomópont CPT-jét, majd a kérdéses CPT-t normalizálja.

17.6. 12.6 Modellkiértékelés adatfájl alapján Az aktuális modellstruktúra jósága minősítésének eszköze az adatfájl alapján számított score-érték. A vonatkozó nézet az Operations > Show Calculate Score on Data view menü segítségével hívható elő, és az alábbi működési elemeket tartalmazza.

17.6.1. Bemeneti mezők • A Data file mezőben választható ki az adatokat tartalmazó fájl. • A Select param. prior mezőben választható ki, hogy a CH vagy a számítás pontos leírását a [21], illetve a [22] cikk tartalmazza.

mutató legyen kiválasztva. A kétféle

• A vss mezőben adható meg a számítás során alkalmazandó virtuális mintaméret.

17.6.2. Calculate gomb Ennek megnyomására zajlik le a számítás maga.

17.6.3. Kimeneti mezők • A score-számítás csomópontonkénti részeredményeit a Calculate gombtól jobbra eső táblázat tartalmazza. • A teljes score (vagyis a fenti táblázat elemeinek összege) a Sum címke mellett, a táblázat alatt található.

17.7. 12.7 Struktúratanulás A következő fejezet a szoftver által támogatott olyan eljárásokat ismerteti, amelyek célja, hogy az adott Bayeshálót (tipikusan vagy annak numerikus paraméterezését, vagy struktúráját, azaz éleinek halmazát) valamilyen szempont szerint optimalizálja. 1

Egy változó családja magát a változót és annak szüleit jelenti.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A továbbiakban feltesszük, hogy egy háló optimalitását egy adott adathalmaz, mint feltétel esetén értjük, azaz a célunk a

érték maximalizálása. Hogy a halmaz pontosan micsoda, természetesen alapvetően befolyásolja a tanulás/keresés jellegét: ha maga az struktúra adott, és csak a paraméterezést keressük, paramétertanulásról, ha az struktúrák közül keressük az optimálisat (tekintet nélkül a paraméterezésre) struktúratanulásról beszélünk. Paramétertanulás esetén egy adott Bayes-háló jóságának megállapítása viszonylag egyszerű: a Bayes-tétel alkalmazásával (bizonyos feltételek elfogadásával) belátható, hogy a

mennyiséget kell maximalizálni, ennek számítása pedig viszonylag egyszerű feladat. Struktúratanulás esetén a feladat már bonyolultabb, hisz egy adott struktúra jóságának megállapításához (azaz a mennyiség számításához) a lehetséges paraméterezések tere feletti integrálást kell elvégezni. A szoftver által támogatott kétféle struktúra-pontszám az ún. és az ezek képletét szolgáltató levezetések és kiszámítsuk módja a [21] és a [22] cikkekben található. Az alkalmazott K2 struktúratanulás alapötlete, hogy amennyiben ismert a Bayes-háló topologikus rendezése, úgy az optimális struktúra megtalálása viszonylag egyszerű: mivel a topologikus sorrendezés betartása által a DAG-kényszer automatikusan teljesül, az egyes csomópontok szülői halmazai külön-külön vizsgálhatók, adott sorrend mellett az lesz az optimális struktúra, amelyben minden csomópont a neki optimális szülői halmazzal bír (az algoritmus részletes leírása a [21] cikkben található). A K2-tanulás a következő lépésekkel indítható el: • Nyissuk meg a tanulás alapjául szolgáló adatfájlt (pl. File > Open... menüpont használatával). • A Data Manipulation View nézetben nyomjuk meg a Structure learning gombot. • A megnyíló dialógusablakban állítsuk be a tanulás paramétereit, ezek: az alkalmazott struktúra-pontszám (Prior), a maximális engedélyezett szülőszám (Max. parent count) és a megvizsgált (véletlenszerűen sorsolt) topologikus sorrendezések maximális számát (Max. permutation count), majd a Finish gomb megnyomásával indítsuk el a futást. A futás elindítása után automatikusan létrejön az adatfájl alapján generált modell, amely a megnyíló új fülön látható. Ez a következő elemeket tartalmazza: • A fő nézetben az adatfájl alapján generált modell csomópontjait és eddig megtalált legjobb struktúrát. • A Structure learning view nézetben a keresés előrehaladottságát jelző folyamatjelzőt. • A megszakításra szolgáló Stop gombot. Ennek megnyomására a keresés megszakad, és eredményül az addig talált legjobb struktúrát kapjuk vissza. • Parameters cím alatt a futás paramétereit. • Results cím alatt a futás állapotát leíró fő jellemzőket, azaz a státuszt (még fut a keresés/lefutott/megszakították), alapvető strukturális információkat, az eddig megvizsgált sorrendek számát, és a legjobb eddig talált struktúrához tartozó jósági pontszámot. • Illetve a score feliratú grafikonon a legjobb pontszám értékének időbeli alakulását. A futás befejeződése után a kapott modell a szokásos módon szerkeszthető, használható következtetésre, vagy bármely más, a fentiekben ismertetett műveletre.

18. Hivatkozások 73 Created by XMLmind XSL-FO Converter.


• [21] G. F. Cooper and E. Herskovits. A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 9:309-347, 1992. • [22] D. Heckerman, D. Geiger, and D. Chickering. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learnig, 20:197-243, 1995. • [23] S. Russel and P. Norvig. Artificial Intelligence. Prentice Hall, 2001.

19. 13 Virtuális szűrés kernel-módszerekkel 19.1. 13.1 Bevezetés Ebben a feladatban egy egyszerűsített szűrési rendszert használunk abból a célból, hogy bepillantást nyújtsunk a virtuális szűrés alapjaiba. A humán szerotonin transzporter (SERT) fehérje inhibitorait vizsgáljuk. Ez a fehérje különböző típusú sejtekben expresszálódik, beleértve a szerotonint szekretáló neuronokat is. A központi idegrendszerben betöltött funkciója a kibocsátott szerotonin visszavétele a szinaptikus résből, és ezzel a posztszinaptikus sejt aktivációjának megszüntetése. Ennek a transzporternek a szelektív gátlószereit SSRI-oknak (Selective Serotonin Reuptake Inhibitor) nevezzük, melyek széles körben használt és hatásos gyógyszerek különböző típusú depressziók, kényszerbetegség, evési zavarok és más pszichiátriai rendellenességek esetén.

19.2. 13.2 A referencia-vegyülethalmaz elkészítése Első lépésként egy referencia-halmazra van szükségünk a modelltanuláshoz. Egy részlegesen előkészített vegyülethalmazt csatoltunk ehhez a segédlethez SDF formátumban. Minden ChEMBL adatbázisban található SERT inhibitort letöltöttünk [24]. Mivel a ligandumok transzporterre gyakorolt gátló hatására a szerotonin mint endogén szubsztrát jelenlétében vagyunk kíváncsiak, ezért minden más szubsztrátot kiszűrtünk. Egy ligandum gátló hatása kifejezhető az 50%os inhibitoros koncentrációval ( ). Különböző értékek léteznek. Egy természetes értelmezés szerint az az az inhibitor koncentráció, amely mellett a fehérje képessége a szerotonin-transzportra a természetes aktivitás felére csökken. A gyakorlatban egy másik definíciót használnak technikai okok miatt: az a koncentráció, melynél a referencia ligandum (pl. radioaktívan jelzett szerotonin) 50%-a lecserélhető a fehérje kötőhelyén. Ebben az esetben feltételezzük, hogy az inhibitor képes kiszorítani azt az aktív helyről: az ilyen ligandumot kompetitív inhibitornak nevezzük. Ha a referencia ligandum szerotonin, és néhány egyéb feltétel is teljesül, a két definíció egybeeshet. Michaelis-Menten kinetikát feltételezve - ami egy közelítés - a tisztán kompetitív inhibitor értéke kifejezhető mint:

ahol a Michaelis-konstans, és a szubsztrát-koncentráció [25]. A fenti egyenletet Cheng-Prusoff egyenletnek hívjuk, és ez megmutatja, hogy az érték függ a mérés során használt szubsztrátkoncentrációtól. Ebben a feladatban minden fent említett eltérést elfogadunk, és zajként tekintünk rájuk. Ahogy majd látni fogjuk, ennek ellenére tudunk építeni véletlennél jobb prediktív értékkel rendelkező modellt. További nehézség a duplikátumok kérdése. A ChEMBL adatbázisban számos vegyülethez több aktivitás rekord tartozik, mert különböző kutatócsoportok különböző feltételek között mérték le őket. Egy éles környezetben a duplikátum-rekordok szűrése alapos irodalmazással kell, hogy történjen. Ebben a feladatban egyszerű heurisztikák használatával szűrt adathalmazon dolgozunk. Mivel a modellezési eljárás csak homogén adathalmazon használható, találnunk kell egy relatíve nagy kompakt részhalmazt, hogy tanítóhalmazt generálhassunk. Erre a célra klaszterezést használunk. 74 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A ChemAxon JKlustor programjának használatával különböző típusú klaszterezési algoritmusokat futtathatunk az adathalmazunkon [26]. Az alábbi példák szolgáljanak kiindulópontként: > jklustor -c kmeans:15 -d ecfp:tanimoto -o wrmols:sdf:cluster_*.sdf ChEMBL.sdf > jklustor -c sphex:0.85 -s 8080 -d ecfp:tanimoto -l ChEMBL.sdf > jklustor -c sphex:0.85 -d ecfp:tanimoto -o wrmols:sdf:cluster_*.sdf ChEMBL.sdf

Az első példa egy klasszikus K-means klaszterezést végez el a ChEMBL.sdf fájlban található adathalmazon 15ös klaszterszámmal. A program kimenete egy-egy sdf-file minden klaszterhez, cluster_.sdf elnevezéssel. A leíró, amit a klaszterezéshez használtunk, egy hash alapú ujjlenyomat: az ECFP (ExtendedConnectivity Fingerprint), a hasonlóságmérték pedig Tanimoto. A második egy Sphere Exclusion klaszterezés, 0.85-ös hasonlóság limittel. Ebben az esetben nincs kimeneti fájl, hanem egy szerver folyamatot indítunk, mely a 8080-as porton lesz elérhető. Egy böngésző használatával megvizsgálhatjuk a klasztereinket a http://localhost:8080/ URL használatával. A harmadik ugyanez a Sphere Exclusion klaszterezés, most kimeneti file írásával. A továbbiakban ennek a futtatásnak az eredményét használjuk. Az első, legnagyobb klasztert választottuk ki a további munkához. Ha megnyitjuk a cluster_1.sdf fájlt, nem találjuk benne az eredeti vegyület-azonosítókat. Újra hozzá kell rendelnünk az azonosítókat a vegyületekhez a struktúrájuk kanonikus reprezentációja segítségével. Kanonikus SMILES (Simplified Molecular-Input LineEntry System) kódokat generálunk az alábbiak szerint: > molconvert smiles:q ChEMBL.mrv > ChEMBL.smiles > molconvert smiles:q cluster_selected.sdf > cluster_selected.smiles

A SMILES kód a molekula-struktúra egy ember által is olvasható sztring reprezentációja [27]. Egy egyszerű bash script vagy az Excel VLOOKUP()/FKERES() függvényének segítségével hozzárendelhetjük a ChEMBL IDket a klaszterezett molekulákhoz, a kanonikus SMILES mezőt mint kulcsot használva. Hasonlóképpen készíthetünk egy táblázatot további adatokkal, mint az Célváltozóként az aktivitás negatív logaritmusát használjuk:

Számítsa ki a megkonstruálni!

, molekulatömeg stb.

értékeket és próbáljon néhány komplexitással büntetett ligandum-hatékonysági mércét

19.3. 13.3 A kernelek elkészítése Mivel kernel-módszereket szeretnénk használni, szükségünk van páronkénti hasonlósági mátrixokra. A ChemAxon egy másik parancssoros eszközét használva különbözőségi táblázatokat generálhatunk, majd ezekből egyszerűen kiszámíthatjuk a hasonlósági mátrixokat [28]. Néhány példa különböző kernelekre: > screenmd cluster_1.sdf -e 5 -g -o cfp.table > screenmd cluster_1.sdf -e 5 -g -o ecfp.table > screenmd cluster_1.sdf -e 5 -g -o fcfp.table > screenmd cluster_1.sdf

cluster_1.sdf -k CF -c cfp.xml -M Tanimoto cluster_1.sdf -k ECFP -c ecfp.xml -M Tanimoto cluster_1.sdf -k ECFP -c fcfp.xml -M Tanimoto cluster_1.sdf -k ECFP -c ecfc.xml -M Tanimoto


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig -e 5 -g -o ecfc.table > screenmd cluster_1.sdf cluster_1.sdf -k PF -c pharma-frag.xml -M Tanimoto -e 5 -g -o pharma.table

A hasonlóságok számításához és a megfelelő formátum-konverzióhoz egy egyszerű Python scriptet használunk: > python table2kernel.py ecfp.table ecfp Names_selected.csv

Az utolsó részben ezeket a kerneleket használjuk arra, hogy a vegyületeket prioritizáljuk és az aktivitásukat megbecsüljük.

19.4. 13.4 Egy-osztályos prioritizálás Első lépésként a vegyületeket SERT inhibitoros aktivitásuk alapján prioritizáljuk. Ehhez listát készítünk azokról a vegyületekről, ahol az , és ezt definiáljuk aktív halmazként. Fontos megjegyezni, hogy egyosztályos keretet fogunk használni, tehát nem állítjuk azt, hogy a többi vegyület inaktív. Általában a publikációk pozitív eredmények irányában torzítottak, ezért ritkán tudunk explicit inaktivitási állításokat tenni. Az aktív halmaz fájlformátuma az alábbi: Vegyület1 0 Vegyület2 0 ... VegyületN 0

Ezután elkülönítjük a sorok véletlen 70%-át tanítóhalmaznak és a fennmaradót teszthalmaznak. Ezt például bash parancsokkal (lásd sort -R) vagy Excelben tehetjük meg. Most elindítjuk a

eszközt. A grafikus felület hasonló lesz, mint ami az 56. ábrán látható.

Első lépésként a Python script által generált kernel-fájlokat "Precomputed" beállítás használatával hozzáadjuk a listához, majd betöltjük a minták címkéit a "Samples" lista melletti "Load" gombra kattintva. Minden paramétert alapbeállításon hagyva betöltjük a tanítóhalmazt tartalmazó fájlt a tanítóhalmazt tartalmazó listák alatti gombbal, és elindítjuk a prioritizálást a "Go" gombbal. Végül az eredményeket fájlba exportáljuk.



Az alapértelmezett paraméterekkel rendelkező modell statisztikai kiértékelése az 57. ábrán látható.



19.5. 13.5 Kvantitatív struktúra-hatás összefüggés Ebben a részben a több kerneles regresszió mint QSAR-modellező eszköz teljesítményét vizsgáljuk meg. Ennek a QSAR-megközelítésnek számos korlátja van: csak illesztés-mentes, két-dimenziós struktúrákon alapuló ujjlenyomat-információkat használunk mint jegyeket. Előnye ugyanakkor hogy nagyon gyors, tehát különösen alkalmas nagy adatbázisok előszűrésére, valamint relatíve diverzebb vegyülethalmazokon is alkalmazható, mint az illesztés alapú módszerek. Egy olyan fájlt hozunk létre, mely az ID-ket és a értékeket szóközzel elválasztva tartalmazza, majd szétválasztjuk a tanító- és a teszthalmazt, ahogy azt az előző részben is tettük. A regressziós esetben először bekapcsoljuk a "Regression" jelölőnégyzetet, majd betöltjük a tanítóhalmazt. Ebben az esetben hangolnunk kell a paramétereket, hogy elfogadható eredményeket kapjunk. Próbálja meg futtatni a QDF2 eszközt különböző és beállítások mellett! A hiperparaméter ajánlott tartománya ennél a problémánál és között van, míg a módszer érzékenysége egy jól megválasztott -ra nem olyan magas. Az alapértelmezett és hiperparaméterekkel rendelkező modell statisztikai kiértékelése az 58. ábrán látható.

19.6. 13.6 Kérdések 1. Mi a különbség az

definíciók között?

2. Miért kell óvatosnak lennünk, ha különböző laboratóriumokból származó használni? Milyen körülmények befolyásolhatják az értéket? 3. Miért különösen alkalmas az egyosztályos keretrendszer hatóanyagszűrésre? 4. Mi a szerepe a

hiperparaméternek egyosztályos SVM esetén?

5. Mik a limitációi az itt tárgyalt QSAR-modellnek? 6. Mi a szerepe a

és

hiperparamétereknek SVR esetén?

20. Hivatkozások • [24] EMBL - European Bioinformatics Institute. ChEMBL, January 2014.


méréseket szeretnénk

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • [25] Y. Cheng and W. H. Prusoff. Relationship between the inhibition constant (K1) and the concentration of inhibitor which causes 50 per cent inhibition (I50) of an enzymatic reaction. Biochem. Pharmacol., 22(23):3099-3108, Dec. 1973. • [26] ChemAxon. JKlustor User's Guide, February 2014. • [27] Inc. DayLight Chemical Information Systems. SMILES - a simplified chemical language, January 2014. • [28] ChemAxon. ScreenMD User's Guide, February 2014.

21. 14 Metagenomika 21.1. 14.1 Bevezetés Ebben a fejezetben bemutatjuk egy metagenomikai adat újraelemzését, amely Costello és mtsai [29] eredeti közleményéből származik. Costello és munkatársai kilenc személy testének 27 különböző helyéről származó mikrobiomját vizsgálták egyenként négy alkalommal. Céljuk az volt, hogy általános képet szerezzenek a humán mikrobiális életközösségek térbeli és időbeli változásairól és eloszlásáról. Jelen célunk ebben a fejezetben nem terjed ki az adat teljes újraelemzésére, hanem egy gyengéd bevezetést kívánunk nyújtani a 16S rRNS alapú metagenomikai taxonómiai profilozás alapjaiba. Ezen célból megvizsgáljuk és összehasonlítjuk két egyén bélflóráját, négy-négy időpontban vett mintavételezés alapján. Fő kérdésünk annak meghatározása, hogy vajon egy egyén mikrobiomjának változatossága nagyobb-e, mint a két különböző egyén mikrobiomja közötti változatosság. Az elemzésekhez a mothur szoftvert fogjuk használni, ami egy mikrobiális ökológiák bioinformatikai elemzésére használható, szabadon hozzáférhető és bővíthető keretrendszer [30]. Előre lefordított végrehajtható verziói is könnyen letölthetők, de a forráskód is elérhető. Jelen fejezetben a mothur ún. interaktív módját fogjuk használni (verzió: 1.29.2).

21.2. 14.2 Előfeldolgozás A data mappában három fájl található: • stool.fasta (a nyolc mintához tartozó szekvencia adatok, a 16S rRNS gén V1-V2 variábilis régiói lettek megszekvenálva), • stool.qual (a mintákhoz tartozó bázisminőségi adatok) és • stool.oligos (a mintákhoz tartozó primer és egyedi azonosító (vonalkód) szekvenciák). Első lépésben el kell távolítani a forward primer szekvenciákat, az egyedi azonosítók alapján szét kell válogatni a leolvasásokat, majd el kell távolítani az egyedi azonosítókat. Ezt követően az alacsony minőségű bázisokat tartalmazó rész-szekvenciákat le kell vágni a leolvasások végéről. Jelen esetben megengedünk 1 bázis eltérést az egyedi azonosítóktól és legfeljebb 2 bázisnyi eltérést a primer szekvenciáktól. Ez a beállítás meghagy számos olyan leolvasást, amelyet enélkül eldobnánk, de nem befolyásolja túlságosan nagy mértékben a leolvasások minőségét. Az alacsony minőségű bázisok levágására egy csúszóablakos megközelítést használunk, amely során megköveteljük, hogy az 50 bázispár szélességű ablakban az átlagos bázisminőség ne csökkenjen 35 Phredpontszám alá. Amikor lecsökken, levágjuk a leolvasást nem megfelelő minőségű részét. A fenti műveletekhez a trim.seqs parancsot fogjuk használni. mothur > trim.seqs(fasta=stool.fasta, oligos=stool.oligos, qfile=stool.qual, flip=T, bdiffs=1, pdiffs=2, qwindowaverage=35, qwindowsize=50)

A további lépések során az újonnan létrehozott stool.trim.* fájlokat fogjuk használni. A *scrap* fájlokban megvizsgálhatjuk azokat a szekvenciákat, amelyek elbuktak a minőségi szűrés során. A továbbiakban a


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig stool.groups fájl köti össze a szekvenciákat a mintákkal az egyedi azonosítók alapján. Ezután ki szeretnénk rajzolni a leolvasások hosszának eloszlását, hogy megvizsgáljuk a levágások hatását. Ehhez először összegezzük a szekvenciáinkat a következőképpen: mothur > summary.seqs(fasta=stool.trim.fasta) Minimum: 2.525Median: 7597.5Maximum: Mean: # of Seqs:

Start End NBases Ambigs Polymer NumSeqs 1 50 50 0 2 1 1 216 216 0 5 5071 1 244 244 0 6 10140 1 195.331 195.331 0 4.81085 10140

Ez létrehozott egy stool.trim.summary nevű fájlt, amelyben a minden egyes szekvenciára vonatkozó adatok láthatók. A szekvencia hossza az nbases oszlopban található. Rajzoljunk fel egy hisztogramot ezen adatokból a kedvenc ilyen célokra használható szoftverünkkel (pl. R, Matlab, Excel stb.). A leolvasások hosszának mintánkénti eloszlását az 59. ábrán láthatjuk.

Ezután a szekvenciákat a SILVA illesztési adatbázishoz illesztjük az align.seqs parancs használatával: mothur > align.seqs(fasta=stool.trim.fasta, reference=silva.bacteria.fasta)

Az illesztések eredménye egy újabb fasta fájl: stool.trim.align. Az illesztések ellenőrzéséhez használjuk a summary.seqs parancsot: mothur > summary.seqs(fasta=stool.trim.align) Minimum: 2.525Median: 7597.5Maximum: Mean: # of Seqs:

Start End NBases Ambigs Polymer NumSeqs 1143 6332 50 0 2 1 2060 6333 216 0 5 5071 5690 6334 244 0 6 10140 2609.28 6333 195.331 0 4.81085 10140


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A további elemzési lépések megkövetelik, hogy minden egyes szekvencia a génnek ugyanazt a szakaszát fedje le. A fenti eredmények alapján látjuk, hogy majdnem minden szekvencia a 6333-as pozícióban végződik. Ez nem meglepő, hiszen a primert V2 variábilis régiótól lefelé tervezték, majd a gén 5' vége felé szekvenáltak. Korábban láttuk, hogy a leolvasások többsége hosszabb volt 150 bázispárnál. Mindezen információkat összerakva úgy döntünk, hogy kiszűrjük azokat a szekvenciákat, amelyek a 6333-as pozíció előtt befejeződnek és rövidebbek 150 bázispárnál. Ehhez a screen.seqs parancsot használjuk: mothur > screen.seqs(fasta=stool.trim.align, group=stool.groups, minlength=150, end=6333)

A korábbi szekvenciából ezzel a lépéssel kiszűrtünk -at, azaz a leolvasások -át. A megmaradt leolvasások a stool.trim.good.align nevű fájlba kerültek. Ezt követően megnyessük a szekvenciáinkat, hogy teljesen átfedjék egymást ugyanabban az illesztési térben (ugyanott kezdődjenek és ugyanott fejeződjenek be). Ehhez a filter.seqs parancsot fogjuk használni. Ezzel eltávolítjuk az illesztett fasta fájlból azokat az oszlopokat, amelyek legalább egy "."-ot tartalmaznak, amely azt jelezi, hogy egy adott leolvasás még nem kezdődött meg vagy már befejeződött abban a pozícióban: mothur > filter.seqs(fasta=stool.trim.good.align, vertical=T, trump=.) Length Number Length Number

of of of of

filtered alignment: 208 columns removed: 49792 the original alignment: 50000 sequences used to construct filter: 8547

Output File Names: stool.filter stool.trim.good.filter.fasta

Ezután egyszerűsítjük az adathalmazunkat a redundáns szekvenciák figyelembevételével. Ehhez a unique.seqs parancsot használjuk: mothur > unique.seqs(fasta=stool.trim.good.filter.fasta)

Ezzel a stool.trim.good.filter.unique.fasta fájlban 2283 egyedi szekvenciát kapunk. A fenti parancs egy "names" fájlt is létrehoz, amely a redundáns és az egyedi szekvenciák közötti hozzárendeléseket tárolja. Végül a megmaradt szekvenciákat az RDP adatbázis felhasználásával a classify.seqs paranccsal, alapértelmezett beállítások használatával taxonómiai egységekbe soroljuk. Ez a módszer először az RDP minta adatbázisban szereplő minden egyes taxonómiai egységre vonatkozóan kiszámítja annak valószínűségét, hogy egy adott taxonómiai egységből származó szekvencia tartalmaz egy adott k hosszú részszekvenciát (alapértelmezetten 8 bázispár hosszúságú részszekvenciát). Majd egy adott, besorolni kívánt szekvencia esetén kiszámítja annak valószínűségét, hogy a szekvencia egy adott taxonómiai egységből származik-e a benne található k-hosszú részszekvenciák alapján. Ezt minden taxonómiai egységre elvégzi. Ezt követően a kérdéses szekvenciát abba a taxonómiai egységbe sorolja, amelybe a legnagyobb valószínűséggel tartozik. Ezután, egy bootstrap-pet használó algoritmus segítségével a besorolás konfidenciáját is meghatározza a k hosszúságú részszekvenciák véletlenszerű visszatevéses újramintavételezésével és újbóli taxonómiai besorolásával. mothur > classify.seqs(fasta=stool.trim.good.filter.unique.fasta, name=stool.trim.good.filter.names, template=trainset9_032012.pds.fasta, taxonomy=trainset9_032012.pds.tax, iters=1000) It took 396 secs to classify 2283 sequences. Reading stool.trim.good.filter.names...

Done.

It took 1 secs to create the summary file for 2283 sequences. Output File Names: stool.trim.good.filter.unique.pds.wang.taxonomy


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig stool.trim.good.filter.unique.pds.wang.tax.summary

A besorolás eredményét a summary kiterjesztésű fájlban tekinthetjük meg. A fájlok nevének egyszerűsítésére az alábbi parancsokat használhatjuk (vagy nevezzük át őket a fájlrendszerben kézzel): mothur mothur mothur mothur

> > > >

system(cp system(cp system(cp system(cp

stool.trim.good.filter.unique.pds.wang.taxonomy stool.final.taxonomy) stool.trim.good.filter.unique.fasta stool.final.fasta) stool.trim.good.filter.names stool.final.names) stool.good.groups stool.final.groups)

Ezen a ponton eljutottunk az előfeldolgozási lépések végéhez. A leolvasásainkat minőségileg leszűrtük, illesztettük, azonos lefedett régióra korlátoztuk, majd meghatároztuk a taxonómiai besorolásukat.

21.3. 14.3 Adatelemzés 21.3.1. 14.3.1 Taxonómiai alapegységek meghatározása Ebben az alfejezetben ún. taxonómiai alapegységeket (operational taxonomic unit, OTU) fogunk meghatározni. Ez organizmusok egy olyan csoportja, amelybe tartozó elemek 16S rRNS szekvenciái egy bizonyos előre meghatározott szintnél nagyobb mértékben hasonlítanak egymásra. Például -os hasonlóság mellett a csoportok nagyjából a faj-szintnek felelnek meg. Első lépésben kiszámítjuk a szekvenciák közötti távolságot a dist.seqs parancs segítségével: mothur > dist.seqs(fasta=stool.final.fasta, cutoff=0.25)

Ezt követően a cluster parancs segítségével az egyes szekvenciákat klaszterezzük, és ezzel OTU-khoz rendeljük: mothur > cluster(column=stool.final.dist, name=stool.final.names)

Végül minden egyes taxonómiai alapegységhez meghatározzuk annak taxonómiai besorolását az általa tartalmazott szekvenciák alapján. Ezt a classify.otu parancs segítségével végezzük, különbözőségi szint mellett (azaz -os hasonlósági szinten): classify.otu(taxonomy=stool.final.taxonomy, name=stool.final.names, list=stool.final.an.list, label=0.03)

Az így létrehozott stool.final.an.0.03.cons.taxonomy fájl minden egyes OTU-ra tartalmazza az adott alapegységbe tartozó szekvenciák számát és azok konszenzusos taxonómiai besorolását. Az első öt OTU a következőképpen néz ki: OTU Size Taxonomy Otu001 1663 Bacteria(100);"Bacteroidetes"(100);"Bacteroidia"(100);"Bacteroidales"(100);"Prevotellace ae"(100);Prevotella(100); Otu002 551 Bacteria(100);"Bacteroidetes"(100);"Bacteroidia"(100);"Bacteroidales"(100);Bacteroidacea e(100);Bacteroides(100); Otu003 373 Bacteria(100);"Bacteroidetes"(100);"Bacteroidia"(100);"Bacteroidales"(100);Bacteroidacea e(100);Bacteroides(100); Otu004 362 Bacteria(100);Firmicutes(100);Clostridia(100);Clostridiales(100);Ruminococcaceae(100);Fa ecalibacterium(100);


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Otu005 264 Bacteria(100);Firmicutes(96);Negativicutes(92);Selenomonadales(92);Veillonellaceae(92);A naeroglobus(92);

Figyeljük meg, hogy ugyanaz a családszintű besorolás több OTU esetén is előfordulhat (pl. Bacteroides). Ez azt jelzi, hogy ezek az OTU-k az adott család különböző tagjait tartalmazzák. A további feldolgozási lépésekhez szükségünk lesz arra, hogy meghatározzuk minden egyes minta OTU kompozícióját. Ezt a stool.final.an.list nevű fájl feldolgozásával, a make.shared paranccsal hajtjuk végre: make.shared(list=stool.final.an.list, group=stool.final.groups, label=0.03)

Ez 8 ".rabund" kiterjesztésű fájlt hoz létre (minden mintához egyet), és egy ".shared" kiterjesztésű fájlt. Tekintsük meg ennek az utóbbi fájlnak (stool.final.an.shared) a tartalmát egy szövegszerkesztő segítségével.

21.3.2. 14.3.2 Alfa-diverzitás Az eddigi lépések eredményeként jelenleg készen állunk arra, hogy válaszoljunk az eredeti kérdéseinkre. Ezt a mintáink ún. alfa-diverzitásának elemzésével kezdjük. Emlékszünk, hogy a közösség struktúrájának komplexitása az azt alkotó különböző fajok számától (richness, gazdagság) és azok relatív gyakoriságától (evenness, egyenletesség) függ. Elsőként ábrázoljuk a mintáink rang-gyakorisági görbéit (lásd a 60. ábrát). Ez a közösség egyenletességének (vagy egyenetlenségének) érzékeltetésére szolgál. A görbe az egyes taxonómiai egységek relatív gyakoriságát ábrázolja a leggyakoribb fajtól a legritkábbig. A relatív gyakorisági értékek a "rabund" kiterjesztésű fájlokban találhatók (lásd a stool.final.an.F*Fcsw.rabund fájlokat).

A fajgazdagság mérése első pillanatban könnyű feladatnak látszik: egyszerűen számoljuk meg a kérdéses környezetben előforduló különböző fajokat. Mindazonáltal, a mintavételezés miatt könnyen előfordulhat, hogy lesznek olyan fajok, amelyeket nem figyeltünk meg, így a mérésünk szükségképpen alulbecsüli a valódi 83 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig fajgazdagságot. A megfigyelt fajok számának a mintavételezett egyedek számától való függését szemlélteti az ún. faj-felhalmozódási görbe (species accumulation curve). A fajgyakoriság ezek után extrapolálással, a görbe ismeretlen aszimptotájának meghatározásával becsülhető. A faj-felhalmozódási görbe simított változatát, az ún. ritkítási görbét (rarefaction curve) a következőképpen rajzolhatjuk fel: véletlenszerűen (visszatevéses módon) mintavételezzünk , , ..., szekvenciát az összes lemért szekvencia közül, becsüljük meg, hogy hány fajt reprezentálnak, majd ábrázoljuk a sok ilyen mintavételezés által kapott érték átlagát (lásd a 61. ábrát). Amennyiben a görbe ellaposodik, az azt jelenti, hogy egyre több minta gyűjtésével egyre kevesebb és kevesebb új fajt azonosíthatunk, azaz további szekvenálással várhatóan nem találnánk sokkal több új fajt. Ellenben ha a görbe nem laposodik el, az azt jelenti, hogy még nem szekvenáltunk eleget. A ritkítási görbe adatpontjait a rarefaction.single paranccsal számolhatjuk ki. mothur > rarefaction.single(shared=stool.final.an.shared, freq=10)

Ez létrehoz egy stool.final.an.groups.rarefaction nevű fájlt, amely az OTU-k ritkított darabszámait tartalmazza 10 szekvenciánként minden egyes mintára. A kedvenc szoftverünk segítségével ábrázoljuk ezeket az eredményeket (lásd a 61. ábrát)!

A fentiek mellett léteznek nem-paraméteres fajgazdagság-becslők is, amelyek közül az egyik legegyszerűbb az ún. Chao1-index. Ezt a következőképpen számíthatjuk ki:

ahol a megfigyelt fajok száma, amihez hozzáadódik egy olyan tag, amely a megfigyelt singletonok ( , egyetlen szekvenciával reprezentált fajok száma) és doubletonok ( , két szekvenciával reprezentált fajok száma) számától függ. A nem-parametrikus becslők haszna abban rejlik, hogy képesek kevesebb minta alapján is meglehetősen pontos becslést adni a fajok várható számára, mint amennyi mintára a ritkítási görbékből történő becsléshez szükségünk lenne [31]. A fajgazdagság mellett a fajok relatív gyakorisága is hasonlóan fontos a közösség komplexitásának jellemzése szempontjából. Például egy olyan populáció, amelyben a fajok közel azonos arányban vannak jelen, komplexebb, mint egy olyan, amelyben kevesebb faj van, vagy amelyben a fajok aránya nem egyenletes. Egy közösség egyszerű, ha csak néhány faj dominálja a környezetet és az összes többi faj nagyon ritka. 84 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig A diverzitás-mutatók, amelyek az eloszlás kiegyensúlyozottságát is figyelembe veszik, a fenti mutatóknál szofisztikáltabbak [32 és 31]. A leggyakrabban használt mutatók a Shannon-diverzitásindex

és a Simpson-index

ahol az összes megfigyelt különböző faj száma, és az -edik faj relatív gyakorisága a mintában. A Shannon-diverzitásindex (vagy Shannon-entrópia) a közösség komplexitásának entrópiáját méri: minél több különböző faj van jelen a közösségben, és minél egyenletesebb eloszlásban vannak jelen, annál nehezebb pontosan megjósolni, hogy egy véletlenszerűen kiválasztott szekvencia milyen fajból származik. Ez a mutató ennek a becslésnek a bizonytalanságát méri. A Simpson-index ehhez hasonló, de kevésbé érzékeny a fajgazdagságra és érzékenyebb a relatív eloszlás egyenletességére, mint a Shannon-diverzitásindex. A Simpsonindex annak a valószínűségét adja meg, hogy két véletlenszerűen kiválasztott szekvencia ugyanahhoz a fajhoz tartozik. A fenti becslők és diverzitás-mutatók értékeit a collect.single parancs segítségével állíthatjuk elő: mothur > collect.single(shared=stool.final.an.shared, calc=chao-shannon-simpson, freq=10)

Ez létrehoz egy olyan táblázatot, amely minden egyes mintára tartalmazza a kiválasztott mutatók értékeit. Ábrázoljuk ezeket az eredményeket (lásd a 62. ábrát)!



21.3.3. 14.3.3 Béta-diverzitás A következő lépésben összehasonlítjuk a nyolc bélflóraminta mikrobiális közösségét azok felépítése és struktúrája alapján. Ez a minták ún. béta-diverzitásának elemzésével végezhető el (azaz az élőhelyek változásával összefüggő diverzitásbeli változások megfigyelésével [31]). Először vizualizáljuk a minták egymástól való távolságát a közösségi felépítésük alapján. Ehhez kiszámítjuk a minták távolságát a dist.shared paranccsal, majd kiszámítjuk a fő koordinátákat a pcoa paranccsal: mothur > dist.shared(shared=stool.final.an.shared, calc=jclass) mothur > pcoa(phylip=stool.final.an.jclass.0.03.lt.dist)

A közösségek egymástól való távolságát az ún. Jaccard-indexszel számítjuk ki:

ahol azon OTU-k száma, amelyek mindkét közösségben szerepelnek, száma az első, illetve a második közösségben.

és

pedig az egyedi OTU-k

Rajzoljuk ki a fő-koordináta elemzés (Principal Coordinate Analysis, PCoA) eredményét (lásd a 63. ábrát). A pcoa parancs létrehozott egy ".loading" kiterjesztésű fájlt, amely azt tartalmazza, hogy az egyes tengelyeknek megfelelő komponensek az adatokban rejlő teljes variancia hány százalékát magyarázzák meg. Jelen példában az első három tengely által megmagyarázott variancia összege . Az ".axes" kiterjesztésű fájl a minták 86 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig pozícióját tartalmazza a PCoA ábrán. Jól látható, hogy az első tengely tisztán szétválasztja egymástól a két egyén mintáit.

Annak meghatározásához, hogy pontosan mely OTU-k gyakorisága különbözik a két egyénben, egy statisztikai tesztet fogunk elvégezni a metastats parancs segítségével [33]. Először létrehozunk egy fájlt, amely leírja, hogy melyik minta melyik egyénből származik (lásd a stool.design nevű fájlt). Ez az ún. design fájl a kísérletünk tervét tartalmazza. Ezt követően lefuttatjuk a metastats parancsot: mothur > metastats(shared=stool.final.an.shared, design=stool.design)

amely létrehoz egy ".metastats" kiterjesztésű fájlt, amely minden OTU-ra kilistázza a hozzá tartozó p és q értékeket (hamis pozitív, illetve hamis felfedezés ráta). Ezek azt mutatják, hogy mely OTU-k vannak statisztikailag szignifikánsan felülreprezentálva valamelyik mintában a másikhoz képest.

21.4. 14.4 Ellenőrző kérdések 1. Ismertesse a 16S rRNS alapú metagenomikai elemzés alapvető lépéseit. 2. Ismertesse az RDP alapú taxonómiai besorolás módszerének lépéseit. 3. Definiálja a taxonómiai alapegység (Operational Taxonomic Unit, OTU) fogalmát. 4. Mi az alfa-diverzitás? 5. Mi a rang-gyakorisági görbe? 6. Mi a faj-felhalmozódási görbe és a ritkítási görbe? Magyarázza el a közöttük lévő különbséget. 7. Definiálja a Shannon-diverzitásindexet és a Simpson-diverzitásindexet. Ismertesse az intuitív értelmezésüket. 8. Mi a béta-diverzitás?

22. Hivatkozások • [29] Elizabeth K. Costello, Christian L. Lauber, Micah Hamady, Noah Fierer, Jeffrey I. Gordon, and Rob Knight. Bacterial community variation in human body habitats across space and time. Science, 326(5960):1694-1697, December 2009. 87 Created by XMLmind XSL-FO Converter.

Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig • [30] Patrick D. Schloss, Sarah L. Westcott, Thomas Ryabin, Justine R. Hall, Martin Hartmann, Emily B. Hollister, Ryan A. Lesniewski, Brian B. Oakley, Donovan H. Parks, Courtney J. Robinson, Jason W. Sahl, Blaz Stres, Gerhard G. Thallinger, David J. Van Horn, and Carolyn F. Weber. Introducing mothur: opensource, platform-independent, community-supported software for describing and comparing microbial communities. Applied and environmental microbiology, 75(23):7537-7541, December 2009. PMID: 19801464. • [31] Simon A. Levin, Stephen R. Carpenter, H. Charles J. Godfray, Ann P. Kinzig, Michel Loreau, Jonathan B. Losos, Brian Walker, and David S. Wilcove, editors. The Princeton Guide to Ecology. Princeton University Press, September 2012. • [32] Tom C. J. Hill, Kerry A. Walsh, James A. Harris, and Bruce F. Moffett. Using ecological diversity measures with bacterial communities. FEMS microbiology ecology, 43(1):1-11, February 2003. PMID: 19719691. • [33] James Robert White, Niranjan Nagarajan, and Mihai Pop. Statistical methods for detecting differentially abundant features in clinical metagenomic samples. PLoS Comput Biol, 5(4):e1000352, April 2009.


Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig

Recommend Documents