Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Antal, Péter Hullám, Gábor Millinghoffer, András Hajós, Gergely Arany, Ádám Bolgár, Bence Gézsi, András Sárközy, Péter
Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig írta Antal, Péter, Hullám, Gábor, Millinghoffer, András, Hajós, Gergely, Arany, Ádám, Bolgár, Bence, Gézsi, András, és Sárközy, Péter Publication date 2014 Szerzői jog © 2014 Antal Péter, Hullám Gábor, Millinghoffer András, Hajós Gergely, Arany Ádám, Bolgár Bence, Gézsi András, Sárközy Péter
Created by XMLmind XSL-FO Converter.
Tartalom Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig ............... 1 1. 1 Biobankok. Laboratóriumi információs rendszerek ........................................................... 1 1.1. 1.1 Bevezetés ............................................................................................................ 1 1.1.1. 1.1.1 Biobankok ........................................................................................... 1 1.1.2. 1.1.2 Laboratóriumi információs rendszerek ............................................... 1 1.2. 1.2 A LIMS-ek képességei ....................................................................................... 1 1.2.1. 1.2.1 Alapvető funkciók ............................................................................... 1 1.2.2. 1.2.2 További funkciók ................................................................................ 2 1.3. 1.3 LIMS: esettanulmány .......................................................................................... 3 1.4. 1.4 Ellenőrző kérdések ............................................................................................. 7 2. 2 DNS rekombináns méréstechnológiák, zaj- és hibamodellek ............................................ 7 2.1. Betegségek és az odds ratio kapcsolata .................................................................... 7 2.2. Valós mérési adatok szimulálása .............................................................................. 8 2.3. Könyvtár előkészítése ............................................................................................... 8 2.4. Adapter eltávolítás .................................................................................................... 8 2.5. Minőségi szűrés ........................................................................................................ 9 2.6. Illesztés ..................................................................................................................... 9 2.7. Bowtie 2 illesztés ...................................................................................................... 9 2.8. Eredmények ábrázolása ............................................................................................ 9 2.9. Kérdések ................................................................................................................... 9 3. 3 Virtuális genotipizálási laboratóriumi segédlet ................................................................ 10 3.1. Genotipizáló rendszer ............................................................................................. 10 3.2. DNS-chipek ............................................................................................................ 10 3.3. Kontrollpontok ....................................................................................................... 11 3.4. Képdigitalizálási módszerek a genotipizálás során ................................................. 12 3.4.1. Szűrés ......................................................................................................... 12 3.4.2. Rácsillesztés ............................................................................................... 12 3.4.3. Szegmentáció ............................................................................................. 12 3.4.4. Zajminták ................................................................................................... 12 3.4.5. Genotipizálás .............................................................................................. 13 3.4.6. Anomáliák csökkentáse .............................................................................. 14 3.5. Kérdések ................................................................................................................. 14 4. 4 Kísérlettervezés: az alapoktól a tudásgazdag kiterjesztésekig .......................................... 15 4.1. Bevezetés ................................................................................................................ 15 4.2. SVM alapú génprioritizálás .................................................................................... 15 4.3. Kérdések ................................................................................................................. 18 4.4. Gyakorlatok ............................................................................................................ 18 4.5. Feladatok ................................................................................................................ 19 4.5.1. 1. Kernelek hozzáadása .............................................................................. 19 4.5.2. 2. Prioritizálás ............................................................................................ 19 4.5.3. 3. Az eredmények értelmezése ................................................................... 19 4.5.4. 4. Feldúsulási elemzés ................................................................................ 20 5. 5 Bioinformatikai munkafolyamatrendszerek ..................................................................... 20 5.1. 5.1 Adat és modell konstruálása ............................................................................. 20 5.1.1. Feladatok .................................................................................................... 20 5.2. 5.2 A BMLA-elemzést leíró fájl ............................................................................. 20 5.3. 5.3 Futtatást a HTCondor rendszerben ................................................................... 21 5.3.1. Feladatok .................................................................................................... 22 5.4. 5.4 Nyers futási eredmények aggregálása ............................................................... 22 5.4.1. Feladatok. ................................................................................................... 23 5.5. 5.5 Ellenőrző kérdések ........................................................................................... 23 6. 6 Genetikai asszociációs vizsgálatok standard elemzése laborgyakorlat ............................ 24 6.1. 6.1 Bevezetés .......................................................................................................... 24 6.2. 6.2 Hardy-Weinberg-egyenlőség vizsgálata ........................................................... 24 6.3. 6.3 Standard asszociációs tesztek ........................................................................... 25 6.4. 6.4 Haplotípus-asszociáció vizsgálata .................................................................... 26
iii Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 6.4.1. 6.4.1 Kapcsoltság ....................................................................................... 27 6.4.2. 6.4.2 Haplotípusblokkok meghatározása .................................................... 28 6.4.3. 6.4.3 Asszociációs tesztek .......................................................................... 29 6.4.4. 6.4.4 Permutációs tesztek ........................................................................... 29 7. Hivatkozások ....................................................................................................................... 30 8. 7 Génexpressziós adatok standard asszociációs elemzése .................................................. 30 8.1. 7.1 Bevezetés .......................................................................................................... 30 8.1.1. 7.1.1 Az adat .............................................................................................. 31 8.2. 7.2 Az elemzéshez szükséges további csomagok telepítése ................................... 31 8.3. 7.3 Az adatok letöltése ............................................................................................ 32 8.4. 7.4 Minőségi ellenőrzések ...................................................................................... 32 8.5. 7.5 Az adathalmaz szűrése ...................................................................................... 33 8.6. 7.6 Differenciálisan expresszálódó gének meghatározása ...................................... 34 9. Hivatkozások ....................................................................................................................... 36 10. 8 Bayes-i, rendszerszintű biomarker-elemzés ................................................................... 37 10.1. 8.1 Bevezető ......................................................................................................... 37 10.2. 8.2 Emlékeztető kérdések ..................................................................................... 38 10.3. 8.3 Feladatok ........................................................................................................ 39 10.4. 8.4 MBS poszteriorok utófeldolgozása és megjelenítése ...................................... 39 10.4.1. 8.4.1 Feltételes MBS poszteriorok megjelenítése a modell struktúrára vetítve 39 10.4.2. 8.4.2 MBS és k-MBS poszteriorok megjelenítése részhalmazhálón ........ 40 10.4.3. 8.4.3 A relevanciafa ................................................................................. 43 10.4.4. 8.4.4 A relevancia-interakció ................................................................... 44 11. Hivatkozások ..................................................................................................................... 45 12. 9 Heterogén biológiai adatok fúziós elemzése és értelmezése .......................................... 45 12.1. Bevezetés .............................................................................................................. 45 12.2. Hasonlóság-fúzió alapú sorrendezés ..................................................................... 46 12.3. Kérdések ............................................................................................................... 48 12.4. Gyakorlatok .......................................................................................................... 48 12.5. Feladatok .............................................................................................................. 48 12.5.1. 1. Adatforrások, hasonlóságfüggvények megválasztása .......................... 48 12.5.2. 2. Lekérdezési halmazok összeállítása, prioritizálás ................................ 49 12.5.3. 3. Az eredmények értelmezése ................................................................. 50 12.5.4. 4. Feldúsulási elemzés .............................................................................. 52 13. 10 Bayes-i oksági elemzés ................................................................................................ 53 13.1. 10.1 Bevezetés ...................................................................................................... 53 13.2. 10.2 Emlékeztető kérdések ................................................................................... 55 13.3. 10.3 Feladatok ...................................................................................................... 55 13.4. 10.4 Feltételes MBG poszteriorok megjelenítése a modellstruktúrára vetítve ..... 55 13.5. 10.5 Páronkénti poszteriorok megjelenítése a modellstruktúrára vetítve ............. 56 14. Hivatkozások ..................................................................................................................... 56 15. 11 Tudásmérnöki technikák alkalmazása döntési hálóknál ............................................... 57 15.1. 11.1 Bevezetés ...................................................................................................... 57 15.2. 11.2 Kérdések/Emlékeztetők ................................................................................ 57 15.3. 11.3 Tudásmérnöki technikák Bayes-hálókhoz .................................................... 57 15.4. 11.4 Feladatok ...................................................................................................... 57 15.5. 11.5 Bayes-háló-modellek szerkesztése ................................................................ 58 15.5.1. 11.5.1 Új modell létrehozása .................................................................... 58 15.5.2. 11.5.2 Létező modell megnyitása ............................................................. 58 15.5.3. 11.5.3 Modellstruktúra szerkesztése ........................................................ 58 15.5.4. 11.5.4 Csomópontok típusainak szerkesztése .......................................... 58 15.5.5. 11.5.5 Csomópontok csoportjainak szerkesztése ..................................... 59 15.5.6. 11.5.6 Csomópontok szerkesztése ............................................................ 60 15.5.7. 11.5.7 Annotáció és magyarázatkeresés ................................................... 64 15.6. 11.6 Következtetés Bayes-hálókban ..................................................................... 65 15.6.1. 11.6.1 Evidenciák/döntések bevitele ........................................................ 66 15.6.2. 11.6.2 Marginális eloszlások számítása ................................................... 66 15.6.3. 11.6.3 Következtetés érzékenységének vizsgálata ................................... 67 15.7. 11.7 Strukturális információk megjelenítése ........................................................ 68 iv Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 15.7.1. 11.7.1 Élek megjelenítése ........................................................................ 15.7.2. 11.7.2 Húrgráf megjelenítése ................................................................... 15.7.3. 11.7.3 Klikkfa megjelenítése .................................................................... 16. Hivatkozások ..................................................................................................................... 17. 12 Döntéstámogató rendszerek tanulása ........................................................................... 17.1. 12.1 Bevezető ....................................................................................................... 17.2. 12.2 Kérdések/Emlékeztetők ................................................................................ 17.3. 12.3 Feladatok ...................................................................................................... 17.4. 12.4 Becslések torzítása ........................................................................................ 17.5. 12.5 Paraméterek tanulása .................................................................................... 17.5.1. 12.5.1 Adatfájlok formátuma ................................................................... 17.5.2. 12.5.2 Paraméterek beállítása adatfájl alapján ......................................... 17.6. 12.6 Modellkiértékelés adatfájl alapján ................................................................ 17.6.1. Bemeneti mezők ....................................................................................... 17.6.2. Calculate gomb ........................................................................................ 17.6.3. Kimeneti mezők ....................................................................................... 17.7. 12.7 Struktúratanulás ............................................................................................ 18. Hivatkozások ..................................................................................................................... 19. 13 Virtuális szűrés kernel-módszerekkel .......................................................................... 19.1. 13.1 Bevezetés ...................................................................................................... 19.2. 13.2 A referencia-vegyülethalmaz elkészítése ...................................................... 19.3. 13.3 A kernelek elkészítése .................................................................................. 19.4. 13.4 Egy-osztályos prioritizálás ............................................................................ 19.5. 13.5 Kvantitatív struktúra-hatás összefüggés ....................................................... 19.6. 13.6 Kérdések ....................................................................................................... 20. Hivatkozások ..................................................................................................................... 21. 14 Metagenomika .............................................................................................................. 21.1. 14.1 Bevezetés ...................................................................................................... 21.2. 14.2 Előfeldolgozás .............................................................................................. 21.3. 14.3 Adatelemzés .................................................................................................. 21.3.1. 14.3.1 Taxonómiai alapegységek meghatározása .................................... 21.3.2. 14.3.2 Alfa-diverzitás ............................................................................... 21.3.3. 14.3.3 Béta-diverzitás ............................................................................... 21.4. 14.4 Ellenőrző kérdések ........................................................................................ 22. Hivatkozások .....................................................................................................................
v Created by XMLmind XSL-FO Converter.
68 69 69 70 70 70 70 70 71 71 71 71 72 72 72 72 72 73 74 74 74 75 76 78 78 78 79 79 79 82 82 83 86 87 87
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1. 1 Biobankok. Laboratóriumi információs rendszerek 1.1. 1.1 Bevezetés 1.1.1. 1.1.1 Biobankok A biobankok olyan speciális bioanyag-gyűjtemények, amelyek biológiai mintákat és azokkal kapcsolatos információkat tárolnak. Biobankokat leginkább kutatási célokra használnak; kiemelkedő jelentőségűek a genomikai és személyre szabott orvoslással kapcsolatos kutatásokban. A legtöbb genomikai kutatás során ahhoz, hogy értelmes, statisztikailag szignifikáns eredmények keletkezzenek, a kutatóknak nagy számú (adott esetben több tízezer) mintán kell molekuláris diagnosztikai teszteket végezniük. Ahhoz, hogy ezeket a vizsgálatokat el lehessen végezni, a biológiai mintákat eredeti állapotukban biobankokban kell megőrizni mindaddig, amíg elegendő minta össze nem gyűlik (ugyanis a vizsgálatok sokszor fajlagosan jóval olcsóbbak egyszerre sok mintán elvégezve, mint egyesével). Bizonyos esetekben, például ritka betegségek vizsgálatakor, a mintagyűjtés több (vagy több tíz) évig is eltarthat. Előfordulhat, hogy a biobankokban tárolt mintákat több vizsgálatban is felhasználhatják (különösen az ismert betegségektől mentes, ún. kontroll mintákét), ezzel csökkenthető a mintagyűjtéshez szükséges idő, vagy ugyanannyi idő alatt több minta felhasználására adódik lehetőség. Ez várhatóan sikeresebb vizsgálatokhoz vezet, amelyekben több biológiailag értelmes eredmény születik, vagy több, statisztikailag szignifikáns összefüggést lehet kimutatni (vagy cáfolni). A biobankok nélkülözhetetlenek a mai biológiai tudományokban.
1.1.2. 1.1.2 Laboratóriumi információs rendszerek A molekuláris diagnosztikai laboratóriumok rendszerint biológiai mintákat kezelnek, elemeznek és az eredményekről jelentéseket készítenek. Ennek a munkafolyamatnak számos lépését lehet információs rendszerekkel segíteni. Az ezeket támogató (illetve akár a laboratórium teljes működését lefedő) szoftvereket laboratóriumi információs rendszereknek (Laboratory Information Management Systems, LIMS) nevezzük. A LIMS-ek segítségével nagyon sok manuális - a hibázás lehetőségét magában rejtő munkát ki lehet váltani, ami elősegítheti a laboratóriumi dolgozók hatékonyabb munkavégzését.
1.2. 1.2 A LIMS-ek képességei 1.2.1. 1.2.1 Alapvető funkciók 1.2.1.1. Minták kezelése, felvitele és elérése A minták kezelése (felvitele és elérése) minden LIMS alapvető funkciója. Egy minta regisztrálása a LIMS-be rendszerint kétféle időpontban történhet: (1) amikor a minta megérkezik a laboratóriumba, és (2) a minta megérkezése előtt: mielőtt a mintát leveszik a pácienstől, a LIMS generált egy minta "rendelést", lehetőség szerint egy mintatároló létrehozásával és a páciensnek való elküldésével. A minta ebben az esetben "még nem 1 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig beérkezett" státuszba kerül, és amikor a mintatároló beérkezik a laborba, a regisztrációs folyamat tovább folytatódik. A LIMS-ek mintakezelési szolgáltatásainak a következő alapvető tulajdonságokat kell teljesítenie: • Egyszerű űrlapok. A beviteli űrlapok legyenek annyira egyszerűek és magától értetődőek, amennyire ez lehetséges. Támogassák a könnyű és gyors adatbevitelt, akár egyetlen, akár egyszerre sok minta beviteléről legyen szó. • Flexibilis adatbevitel. A LIMS-nek lehetővé kell tennie, hogy a megfelelő típusú adatokat lehessen felvinni, ami magában foglalja a numerikus, alfabetikus felsorolástípusokat, szimbólumokat, fényképeket stb. Opcionálisan támogathatja a felhasználó által definiált függvények automatikus lefuttatását az adatbevitel közben. • Intelligens adatbevitel. A beviteli űrlapok lehetőség szerint ne fogadjanak el olyan adatokat (de legalább figyelmeztessenek), amelyek valószínűleg hibásak, pl. az élettel összeegyeztethetetlen testi paraméterek, valószínűtlen dátumok stb. Ezek a kilógó értékek ugyanis erőteljesen rontják az adataink minőségét. • Klinikai információk. Az alapadatokon kívül klinikai és egyéb fenotípusos információkat is fel lehessen vinni a mintákhoz. • Tárolási információk támogatása. A LIMS-nek támogatnia kell a minták tárolási helyének nyomonkövetését, egészen alacsony szinten; például hűtő, polc, rekesz, doboz, sor, oszlop szinten. A tárolási információknak adaptálhatónak kell lennie a laboratórium felszereltségéhez. • Minták követése. A mintákkal történő minden egyes eseményt nyomon kell követni attól a perctől kezdve, hogy a minta beérkezik egészen addig a percig, amíg fel nem használjuk, vagy meg nem semmisül. Ezt a funkciót felügyeleti láncnak nevezzük (Chain of Custody, COC). A LIMS-nek képesnek kell lennie arra, hogy jelentést készítsen egy adott mintához tartozó teljes élettörténetről (ki, mikor és milyen célokra használta az adott mintát). 1.2.1.2. Mérőeszközökkel való integráció A modern LIMS-ek képesek a laboratóriumi mérőeszközökkel való kommunikációra. Ez az integráció alapvetően kétirányú lehet: (1) az adott eszköz irányítása (a technikus egy egységes felhasználói felületről képes vezérelni az adott eszközt) és (2) a mérőeszköz mérési eredményeinek importálása (a LIMS a mérési eredményeket importálja a saját adatbázisába, ezzel nagyban lecsökkentve az adatbevitel idejét és a beviteli hibák számát). Emellett a mérőműszer paramétereinek importálása elősegítheti a mérések minőségének ellenőrzését is. Ezen kívül a LIMS hozzáférési és karbantartási információkat is lekérhet a műszertől: ki, mikor és milyen célokra (milyen minták feldolgozásához) használta; figyelmeztethet, ha karbantartás szükséges stb. 1.2.1.3. Alkalmazásokkal való integráció A LIMS-eknek lehetővé kell tenniük, hogy külső szoftvereszközök felé adatokat lehessen exportálni, például táblázatkezelő, szövegszerkesztő programokba. Támogathatja az adatbázis-integrációt vagy különböző fájlelérési protokollokat távoli minták adatainak összegyűjtésére. 1.2.1.4. Jelentések készítése Minden LIMS-nek alapvető feladata, hogy a mintákról, a használatról és az alapvető működésről jelentéseket lehessen készíteni. A jelentéseket lehet automatikusan (például a nap végén vagy havonta), vagy szükség szerint (egy adott kérdés megválaszolására) generálni. A jelentések elkészítésének lehetőségét szigorú jogosultsági rendszer szerint kell szabályozni.
1.2.2. 1.2.2 További funkciók
2 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 1.2.2.1. Felhasználói aktivitások naplózása A felhasználói aktivitás naplózása egyes laboratóriumokban alapvető követelmény lehet. 1.2.2.2. Vonalkódok kezelése A minták kezelésének munkafolyamatát nagyban leegyszerűsítheti és megkönnyítheti a vonalkódok használata. Ez csökkenti vagy megszünteti a beviteli hibák lehetőségét (pl. mintakeveredés) és leegyszerűsíti egy adott mintával kapcsolatos információk lekérdezését. 1.2.2.3. Adatbányászat A LIMS nyújthat egyes adatbányászati funkciókat is, például adatkezelési problémák keresésének támogatására vagy hibás készülékek azonosítására; megjelenítheti az adatokban lévő trendeket stb. 1.2.2.4. Dokumentumok kezelése A dokumentumok verzióinak kezelése, elektronikus aláírások használata és a dokumentumokhoz való hozzáférés szabályozása (azaz összességében a dokumentumok kezelése) gyakori követelmény a laboratóriumokban. Nagy előny, ha maga a LIMS képes ezeknek a funkcióknak a betöltésére, ekkor ugyanis megszűnik az igény más dokumentumkezelő rendszer használatára, illetve a LIMS-be való integrációjára. 1.2.2.5. Eseményvezérelt cselekvések Egyes LIMS-ek bizonyos események bekövetkezésekor automatikus cselekvéseket is végrehajthatnak. Például egy minta érkeztetésekor küldhet valakinek egy emailt vagy egy SMS-t; ha egy reagens szintje alacsony, akkor figyelmeztethet valakit, hogy szükséges lesz további reagens rendelése (vagy automatikusan vásárolhat az interneten). Ezeknek az eseményeknek teljesen konfigurálhatóaknak kell lenniük. 1.2.2.6. Készletezés A minták nyomonkövetésén túl a LIMS egyéb anyagok (pl. reagensek) használatát is nyomon követheti. Ez magában foglalja a helyük és használatuk (szintjük, rendelkezésre állásuk) követését is. 1.2.2.7. Munkafolyamatok kezelése A LIMS-eknek alapvetően támogatniuk kell a technikusok mindennapi munkáját. Ezt teljeskörűen konfigurálható munkafolyamat-kezeléssel lehet elérni.
1.3. 1.3 LIMS: esettanulmány A továbbiakban egy egyedi fejlesztésű laboratóriumi információs rendszer alapvető használatát mutatjuk be egy egyszerű példán keresztül. Ez a rendszer teljesen szabadon és viszonylag alacsony szinten konfigurálható. Minden adattáblát (és azok mezőit), valamint a munkafolyamatokat is magunknak kell definiálnunk. A LIMS elérése a böngészőn keresztül történik: http://mitpc40.mit.bme.hu:49080/LimsTrial/ Először a Property Classes fülre kattintva hozzuk létre az 1. ábrán látható adatmezőket (a jobb oldali űrlap értelemszerű kitöltésével, majd az Insert gombra kattintással).
3 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Ezután hozzunk létre egy új adattáblát (Sample) a 2. ábrán látható módon az űrlap kitöltésével, majd az Insert gombra kattintással. Ezzel definiáltuk a pácienseinket tartalmazó adattáblát.
Ahhoz, hogy fel tudjunk venni egy új pácienst, először definiálnunk kell egy ún. Operation Class-t. Ez tulajdonképpen egy teljesen általános műveleti leírást jelent: milyen bemenő adatokból milyen kimeneti adatok keletkeznek, és erről a tényről (a feldolgozásról) milyen további információkat kell tárolni. Az operáció neve legyen: New Sample. Ennek nincsenek bemeneti adatai (pácienst bármikor fel tudunk vinni); a kimeneti eredmény egy új páciens lesz; a feldolgozásról pedig egy dátumot kell majd rögzíteni, méghozzá a páciens felvételének dátumát. Töltsük ki az űrlapot a 3. ábrán látható módon, majd kattintsunk az Insert gombra.
4 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Ezután hozzuk létre a Viziteket tartalmazó adattáblát a már ismert módon a 4. ábrán látható űrlap szerint.
Most már csak annyi a teendőnk, hogy összekapcsoljuk a Pácienseket a Vizitekkel. Ezt is egy Operation Class létrehozásával tudjuk megtenni. Most a bemeneti adat egy Páciens, a kimeneti adat pedig egy Vizit (lásd a 5. ábrán látható módon).
5 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Az Upload Data fülön tudunk adatokat bevinni a rendszerbe. Hozzunk létre egy új pácienst a 6. ábrán látható módon.
Végül hozzunk létre egy új vizitet a 7. ábrán látható módon.
6 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
1.4. 1.4 Ellenőrző kérdések 1. Definiálja a biobank fogalmát. 2. Definiálja a laboratóriumi információs rendszer fogalmát. 3. Mik a laboratóriumi információs rendszerek alapvető funkciói? 4. Milyen kívánalmaknak kell megfelelni egy laboratóriumi információs rendszernek a minták kezelésével kapcsolatban? 5. A laboratóriumi információs rendszer mérőeszközökkel való összekapcsolásának milyen lehetőségeit ismerte meg? 6. Vázolja egy dokumentumkezelő rendszer legfontosabb feladatait. 7. Vázolja, hogy milyen lépései vannak egy minta laboratóriumi információs rendszerbe való felvételének.
2. 2 DNS rekombináns méréstechnológiák, zaj- és hibamodellek 2.1. Betegségek és az odds ratio kapcsolata Egy betegségmodellt egy VCF file segítségével definiálunk. A méréshez tartozó VCF file az alábbi információt tartalmazza:
7 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Ebben a fájlban levő adatok esetében a betegséggel 2 SNP mutat asszociációt. A ritka allél frekvenciája az első SNP esetén 0.2, ezt az AF annotációs mező jelöli a táblázatban. Az odds ratio a heterozigóta esetben 10 (megfelelően az mezőben levő értékkel), míg a homozigóta mutáns esetben az odds ratio 20 ( ). A második SNP egy olyan variáns, amely nem csak 2 értéket vehet fel. A két alternatív allélnak eltérő az allélfrekvenciája és mindegyikhez más odds ratio tartozik. Ezek egyesével meg vannak jelölve a fájlban, egymástól vesszővel elválasztva. További valósághűség érhető el azáltal, hogy egy valódi SNP adatbázis rendelünk a generátorhoz, amely tartalmazza a valós genotípus eloszlásokat és mind az esetek, mind a kontrollok esetében megfelelő eloszlást fognak mutatni.
2.2. Valós mérési adatok szimulálása A Flowsim eszközt arra tervezték, hogy a 454 Life Sciences által kifejlesztett piroszekvenálási eljárás mérési- és hibakarakterisztikáját hűen szimulálja. A rendszerbe beépítették a mérés ismert aspektusait és hibáit. Minden bemenő readet flow jelek sorozatává alakítát, ahol az egyes jelek nagysága arányos az egyes homopolimerrészek hosszával. Az így kapott flow értékekhez szabványos módon rendel bázishívásokat, majd a szokásos minőségi szűrőkkel kiszámítja a bázisonkénti Phred quality pontszámot. A program kimenete egy szabványos .SFF file (standard flowgram format).
2.3. Könyvtár előkészítése A Kitsim program segítségével, még a szekvenálás előtt a könyvtár előkészítéséhez szükséges szintetikus szekvenciákat ligáljuk a readek végeire. A 454 rendszerben az 5' végekre kerül az A adapter, míg a 3' végekre a B adapter. Ezeken helyezkednek el az emulziós PCR-hez szükséges primerek. A PCR során elegendő másolat kell, hogy rendelkezésre álljon a szekvenciáról ahhoz, hogy a szekvenálás közben keletkező fény mennyisége megbízhatóan detektálható legyen a luciferáz enzimmel. Az A adapter minden szekvencia elején a TCAG kulcs, amíg a B adapter csak akkor kerül leolvasásra, ha a két adapter közötti szekvencia elég rövid ahhoz, hogy végigszekvenálásra kerülhessen.
2.4. Adapter eltávolítás
8 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Illesztés előtt a könyvtárelőkészítés során ligált adaptereket el kell távolítani. Az Adapter Removal egy szoftvereszköz, amely segíti az újgenerációs szekvenálás során használt primerek és adaptorok felismerését és eltávolítását. Magas érzékenysége és specificitása megkönnyíti ennek a feladatnak az általános megoldását.
2.5. Minőségi szűrés A minőségi szűrést a Prinseq eszközzel végezzük. Ennek a paraméterei és szűrési feltételei széles határok között változtathatóak attól függően, hogy inkább mennyiségi vagy minőségi readekre van szükség. Például a readhossz, minimum quality, ismeretlen nukleotidok száma alapján lehet szűrni, vagy lehet metszeni a readek jobb és bal végeit, ha azok bizonyos minőségi szint alá esnek. Minden minőségi paramétert a Phred score segítségével reprezentálunk, ami annak a log10 valószínűsége, hogy a bázis hibás.
2.6. Illesztés A nagyon rövid vagy nagyon hasonló szekvenciákat kézzel is össze lehet illeszteni, de az érdekesebb feladatokban hosszú, nagyon variábilis vagy rendkívül sok szekvenciát kell illeszteni. Ezért a szakértői tudást inkább jó algoritmusok implementálására használják, és csak végső esetben szükséges kézzel belenyúlni az illesztésbe. Kétféle illesztési feladat van, a globális és a lokális illesztés. A globális illesztésben a teljes readnek illeszkednie kell, a lokális esetben a readekben keresünk nagyon hasonló részszekvenciákat. A lokális illesztést megnehezítik a kisebb ismétlődések.
2.7. Bowtie 2 illesztés A Bowtie 2 egy gyors és memóriahatékony illesztő, amely hosszú referenciákra is képes illeszteni. Különösen alkalmas legalább 50 nukleotid hosszú readek fejlett organizmusok teljes genomjaira való illesztésére. A memóriahasználat csökkentése érdekében a Bowtie 2 a referencia genomot előre indexi egy FM index-szel, amelyik a Burrows-Wheeler transzformáció egyik fajtája. Emberi genomra történő illesztés során a memóriahasználata tipikusan 2.3 GB alatt marad. Többmagos processzorok használata jelentősen gyorsítja a Bowtie 2 futását. Kimenetei pedig a de-facto bioinformatikai adatformátumok, amely elősegíti hogy szinte bármilyen más bioinformatika adatelemző alkalmazással együtt lehessen használni.
2.8. Eredmények ábrázolása Az újgenerációs szekvenálás gyakran olyan mennyiségű adatot generál, hogy automatizált eszközökkel is nehéz minden érdekes vagy lehetséges variáns azonosítása. Ennek ellenére rendkívül hasznosak abban, hogy az egyértelmű eseteket osztályozzák. Mi az Integrative Genomics Viewer (IGV) vizualizáló szoftver használatát ajánljuk, mert képes többféle forrásból származó adatforrás egyidejű ábrázolására, annotálására. Különös figyelmet igényel a hosszú homopolimer-szekvenciák illesztése piroszekvenálásból származó adat esetén, mert könnyen hamis pozitív inzerciót vagy törlődést találhatunk.
2.9. Kérdések 1. Mi a kihívás a hosszú homopolimer-szakaszok elemzésében? 2. Hányféle allélja lehet egy SNP-nek? 3. Milyen célt szolgálnak az adapterek? 4. Hogy hívják a fénykibocsájtó enzimet? 5. Mi a különbség a globális és a lokális illesztés között? 6. Milyen paraméterek alapján szűrhetünk readeket?
9 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 7. Mi az a Phred pontszám? Hogyan számítjuk?
3. 3 Virtuális genotipizálási laboratóriumi segédlet 3.1. Genotipizáló rendszer A genotipizálási mérés során egyszerre sok egyed DNS-én tudjuk megvizsgálni az egyes helyeken levő allélokat. A nagyszámú mintavizsgálathoz a DNS-chipek nyújtanak segítséget.
3.2. DNS-chipek A DNS-chipek egy szilárd hordozó lapocskához (üveg, szilícium, speciális műanyag) kötött, nagyszámú, különböző nukleotidszekvenciájú DNS-próbából állnak. A próbák lehetnek in situ, azaz fotolitografikus úton előállított oligonukleotidok (20-25 nukleotid hosszúságúak), vagy nagyobb méretű ( 500-5000 nukleotidból álló) DNS-fragmentumok. A jelenlegi technikai lehetőségek maximum 30-40 ezer, különböző próbát tartalmazó pont (spot) kialakítását teszik lehetővé egy chip 1-2 cm2-es felületén. A vizsgálat során először a vizsgálandó mintákból DNS-t izolálunk, majd a számunkra érdekes területekről - az egynukleotidos polimorfizmusok 150 bázispárnyi környezetéről - másolatokat szaporítunk fel polimeráz láncreakció (PCR) segítségével. Ezután a felszaporított vad és mutáns allélokat tartalmazó DNS-láncokról különböző színű fluoreszcens festékkel jelölt kópiát készítünk. A jelölés úgy történik, hogy olyan primert adunk a PCR-rel felszaporított DNSdarabokhoz, amelynek 3' végi utolsó bázisa az SNP 5' irányú közvetlen szomszédságú bázisával képez párt. Ez után következik a primer 3' végének meghosszabbítása egyetlen fluoreszcensen jelölt, módosított nukleotid beépítése által (az SNP helyén előforduló nukleotidokkal homológ kétféleképpen jelölt aciklonukleotidokkal, melyek beépülése egyrészt megjelöli a primert a 3' végen, másrészt pedig a lánc további növekedését megakadályozza a módosított nukleotid). Az SNP határozza meg, melyik nukleotid kerül beépülésre. Így a vad, ill. mutáns allélek két különböző festékkel jelölhetők meg.
10 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Az előkészítés befejeztével a mintákat olyan előre elkészített DNS-chipre visszük fel, amelyen fizikailag kötve olyan DNS-láncok találhatók, amelyek komplementerei a vad, ill. az SNP-t tartalmazó mutáns DNS-szálaknak. A minták felszaporított és festékkel megjelölt DNS-szakaszai ezekhez a komplementer szálakhoz kötődnek (hibridizálnak). A nem kötődött szálakat mosással eltávolítjuk. Ezután a két fluoreszcens festék elnyelési tartományának megfelelő hullámhosszú fénnyel (lézerrel) bevilágítva a mintákat - vagyis magát a DNS-chipet - az eltérő fluoreszcens festékkel megjelölt vad és mutáns allélokat tartalmazó DNS-láncok a festékre jellemző hullámhosszú fényt fognak kibocsátani, amelyet detektálni tudunk. Ekkor készítünk a két színcsatorna alatt egy-egy felvételt, majd a későbbiekben részletezett képfeldolgozási eljárással megfigyeljük az egyes pontok fényességét, valamint a pontok további jellemzőit is rögzítjük. Ezután az egyes SNP-khez tartozó mintákat összegyűjtjük, és egy diagramon ábrázoljuk. A diagram X tengelye a minta színarányát jelöli, az Y tengelyen a pontok összegzett intenzitása szerepel. Attól függően, hogy az adott mintapont a diagram mely oldalára kerül, megállapítható, hogy a vizsgált DNS tartalmazta-e a keresett mutációt vagy sem. Végül több chipen elvégzett számos kísérlet eredményeit hierarchikus csoport- (cluster) analízis segítségével értékeljük.
3.3. Kontrollpontok A festési lépés során felhasznált PCR master mix oldat (amely a primereket és a fluoreszcensen jelölt aciklonukleotidokat is tartalmazza) kontroll-oligonukleotidokat is tartalmaz, melyek arról adnak felvilágosítást, hogy a mérés során a festési lépés megfelelően végbement-e. A 384 lyukú plate mindegyik plexe (48) tartalmaz három pozitív kontrollt és egy negatív kontrollt (ábra).
Az XY kontrollpont a heterozigóta kontrollt képes hibridizálni, amely mindkét (zöld és kék) festést is hordozza. Az XX homozigóta kontrollpont az XX homozigóta kontrollt engedi hibridizálni, amely a kék festést hordozza. Az YY homozigóta kontrollpont az YY homozigóta kontrollt engedi hibridizálni, amely a zöld festést hordozza. A negatív kontroll nem tartalmazza a keresett DNS-szakaszt, így nem fluoreszkál egyik hullámhosszon sem. A két alkalmazott fluoreszcens festék (TAMRA és a FAM) emissziós spektruma ugyan közel található egymáshoz, a készülék érzékelője képes megkülönböztetni őket (10. ábra). Az átfedés a hullámhosszak között kevesebb, mint három százalék. Minden egyes mintahelynél 488, ill. 532 nm-es fénnyel történik a megvilágítás.
11 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
3.4. Képdigitalizálási módszerek a genotipizálás során A képfeldolgozás feladata minden egyes minta esetében a hatalmas mennyiségű képi információ átalakítása hibridizációs eredményekre. A genotipizáláshoz alkalmazott képfeldolgozó programok minden egyes mintahely esetében kiszámolják a képpont- (pixel) intenzitásokat, ill. az azt övező háttérintenzitás-értékeket is. A képfeldolgozás általában több lépésből áll:
3.4.1. Szűrés Szűrök alkalmazásával minden egyes képpont (pixel) egy számértékre cserélődik le, amely az éppen vizsgált pixel és a környezetében lévő pixelek intenzitásértékéből származik. Medián szűrő alkalmazása ajánlott a mi esetünkben, amellyel a nagyfrekvenciás zajok szűrhetők ki, ill. ennek hatására a rácsillesztés is jobb lesz.
3.4.2. Rácsillesztés A rácsillesztés feladata az egyes mintapontok helyének megtalálása a wellről felvett képen. Általában egy előre megrajzolt rácsot illesztünk a képre, majd a rács manuálisan történő mozgatásával beállítható a rács pontos helyzete. A rácsillesztésben segítségünkre vannak a kontrollpontok (X, Y, XY, negatív kontroll), amelyekkel ellenőrizhető a rácsillesztés sikeressége.
3.4.3. Szegmentáció Miután a rácsillesztés megtörtént, még hátravan a rácspontokban lévő minták helyzetének meghatározása. Ennél a lépésnél kerül meghatározásra, hogy mely képpontok tartoznak magához a mintához (mintafolthoz), ill. melyek a háttér részei.
3.4.4. Zajminták Az intenzitásértékek kiszámítása nem mindig ad teljes mértékben megbízható eredményt a beolvasott képekről, mert számos olyan hibalehetőség van, amely torzíthatja a beolvasott képek minőségét. Ezek a következő ábrákon figyelhetők meg. 12 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
A legtöbb ilyen hibaforrás nagymértékben csökkentheti a mérési adatok feldolgozhatóságát, de szerencsére szoftveresen felismerhetők és így hatásuk minimalizálható.
3.4.5. Genotipizálás A genotípus meghatározása során minden egyes minta intenzitásértékeit meghatározzuk mindkét csatornán, majd az intenzitásértékek alapján csoportokba rendezzük (klaszterezzük) őket. A jó minőségű adatpontok egymástól jól elkülönülő, de közel eső csoportokat alkotnak, kevés kiugró adatpont társaságában.
A klaszterezés során a felismert mintafoltok mindegyikéhez egy értéket rendelünk, ami alapján ábrázolni lehet őket egy kétdimenziós rendszerben. 13 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig Ez a kétdimenziós térkép a következő értékeket tartalmazza: a diagram X tengelye a minta színaránya (a logaritmusa az összesített kék és zöld intenzitásoknak, egyetlen pont esetében . Ezt az értéket a pont intenzitásarányának függvényében ábrázoljuk. Összehasonlítva egy adatpont pozícióját a térképen a többi, ugyanazt az SNP-t hordozó minta pozíciójával, az adott minta genotípusa meghatározható. Bizonyos esetekben a csoportok közel sem különülnek el olyan szépen, mint a fenti képen. Ebben az esetben a Hardy-Weinberg-egyensúly az, aminek alkalmazásával végrehajthatjuk a klaszterezést. A Hardy-Weinbergegyensúly alapelve kimondja, hogy mind az allél, mind a genotípus-gyakoriságok egy populáción belül állandóak maradnak, olyan ideális eloszlású populációkban, ahol a párosodás véletlenszerű. Attól függően, hogy egy populáció milyen messze esik az ideális populációtól, Khi2 próbával vizsgálható. A Hardy-Weinberg-egyensúly meghatározása a manuális klaszterezés alapfeltétele.
3.4.6. Anomáliák csökkentáse Alkalomszerűen - ahogy azt fentebb említettük - porszemcsék, vegyszermaradványok, törlésnyomok jelenhetnek meg a felvételeken. Ezek potenciális hibaforrások lehetnek a képfeldolgozás, kiértékelés során, ezért eltávolításuk létfontosságú. Ezen anomáliák szoftveres eltávolításának eredménye a következő ábrákon látható:
3.5. Kérdések 1. Soroljon fel három zajforrást! 2. Egy DNS-chipen hány SNP-t lehet lemérni? 3. Milyen színű fluorescens festéket használnak? 4. Mi az a Hardy-Weinberg-egyensúly? 5. Milyen feltételek mellett áll fenn a Hardy-Weinberg-egyensúly? 6. Mivel lehet egy DNS-szálról sok kópiát készíteni? 7. Ha egy SNP-nek két allélja van, akkor milyen kombinációkban szerepelhetnek egy emberben? 14 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
4. 4 Kísérlettervezés: az alapoktól a tudásgazdag kiterjesztésekig 4.1. Bevezetés Az orvosbiológiai kísérlettervezés összetett feladat, amelynek célja az elvégzendő kísérletek optimalitását biztosítani: a lehető legteljesebb tudáshoz jutni a lehető legkisebb áron (ideértve elméleti és gyakorlati megfontolásokat egyaránt: statisztikai anomáliák, idő, költségek stb.). Ebből a szempontból egyedülálló lehetőségeket kínál a jelenleg is zajló posztgenomikai korszakban felhalmozott orvosbiológiai tudás; a múltban történt számtalan eredmény irányt mutathat a jövő kísérleteinek összeállításában is. A rendelkezésre álló háttértudás azonban mostanra az ember számára felfoghatatlan méreteket öltött, átlátása messze túlmutat bármely tudós képességein. A kísérlettervezés így ismét a számítástudományok (főként az adatfúzió és a mesterséges intelligencia), valamint a statisztika területe felé fordult. Az experimentális biológia, a kísérlettervezés és a statisztika határterületének egy fiatal, ám igen népszerű képviselője a génprioritizálás. A génprioritizálás során célunk adott lekérdezés alapján a gének egy sorrendjének meghatározása; nem meglepő, hogy egyes rendszerek kifejezett hasonlóságot mutatnak az internetes keresőmotorokhoz. Az első, 2002-es próbálkozások után sorra jelentkeztek az újabb és újabb génprioritizáló csomagok, amelyek közül teljesítmény tekintetében a hálózat alapú és a kernel alapú megközelítések kezdtek kiemelkedni. A prioritizáló eljárások jelentős segítséget nyújthatnak a kísérlettervezés során, mivel az ember számára befogadhatatlan mennyiségű háttértudás alapján képesek leszűkíteni a vizsgálandó gének körét. A gyakorlat során a génprioritizálás kernel alapú megközelítésével ismerkedünk meg. Az első ilyen, Endeavour névre keresztelt rendszert 2007-ben írták le, legnagyobb előnyeként a heterogén információforrások egyszerű és hatékony kombinációját lehet említeni. Az általunk alkalmazott eszköz az Endeavourhöz hasonlóan ún. szupportvektor-gépeken (SVM) alapul, amelyek a legelterjedtebb gépi tanulási algoritmusok közé tartoznak.
4.2. SVM alapú génprioritizálás Az SVM alapú génprioritizálás munkafolyamatát az 15. ábra szemlélteti. Az algoritmus működésének részletei előtt ismerkedjünk meg a gyakorlat során is követett lépésekkel: 1. Jelölt gének kiválasztása. A teljes genom prioritizálása lehetséges, ám nem mindig praktikus megoldás. Ennek számos oka ismert: a. Emberi: munkaigény (gondoljunk bele: néhány százas nagyságrendű listát már nehéz átnézni!). b. Számítási: számításigény, tárigény. c. Statisztikai: a teljes genom prioritizálása lényegesen bonyolultabb - jelenleg csak részben megoldott feladat, amelynek során statisztikai anomáliák jelentkezhetnek (lásd később). d. Biológiai: "eredendően" értelmetlen találatok. 2. Az információforrások kiválasztása, kernelkészítés. Számtalan információforrás áll rendelkezésre különböző adatbázisok formájában, például szekvencia-, útvonal-, génexpressziós stb. adatbázisok. 3. A kernel alapú módszerek közös jellemzője, hogy az adatokat kizárólag páronkénti hasonlóságok formájában "látják". A hasonlóságokat tartalmazó pozitív szemidefinit mátrixot nevezzük kernelnek, amely a legtöbb információforrás esetén viszonylag könnyen kiszámítható. Ehhez meg kell adnunk egy alkalmas hasonlóságmértéket; választhatunk "jól bevált" metrikák közül, vagy tervezhetünk saját hasonlóságfüggvényt. Megjegyzendő, hogy az utóbbihoz szükséges matematikai apparátus messze túlmutat a tantárgy keretein, így erre a gyakorlat során sem térünk ki. Minden információforrás alapján kiszámítható egy vagy több amelyre tehát
hasonlósági mátrix,
15 Created by XMLmind XSL-FO Converter.
hasonlóságmértékkel,
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Minden pozitív szemidefinit hasonlóság mátrix (kernel) meghatároz egy
Hilbert-teret, amelyre
ahol az adatpont ún. kernel-reprezentációja, pedig a függvénytérben értelmezett belső szorzat. Az algoritmus az adatokat csak páronkénti hasonlóságok ( térben vett belső szorzatok) formájában látja, így implicite ebben a - potenciálisan végtelen dimenziós - térben dolgozik. 1. Az algoritmus paraméterezése. A részletekre a feladatok során fogunk kitérni. 2. Lekérdezések összeállítása. A lekérdezések összeállítása a legfontosabb feladat a munkafolyamatban. Egyes prioritizáló rendszerek megengednek betegség vagy kulcsszó alapú lekérdezéseket is, azonban az általunk alkalmazott SVM alapú megoldásoknál a lekérdezést is a gének nyelvén kell megfogalmazni. Ha adott betegségnél szeretnénk azok patogenezisét potenciálisan befolyásoló géneket találni, a lekérdezést összeállíthatjuk a betegség hátterében ismerten szerepet játszó gének alapján. 3. Ügyelnünk kell azonban a lekérdezés viszonylagos homogenitására. A gépi tanulási algoritmusok közös jellemzője, hogy a bemeneti adatokban szabályszerűséget, mintázatokat keresnek; túlzottan diverz entitások esetén ilyen mintázatok azonosítása kevéssé lehetséges, így az eredmények is értelmetlenné válnak. A jelenségre fokozottan kell figyelni heterogén molekuláris hátterű, multifaktoriális betegségeknél. 4. Az alkalmazott SVM alapú rendszer háromféle lekérdezést támogat: a. Egyosztályos. Ebben az esetben csak "pozitív" példáink vannak; megfelel a korábban említett keresőmotor-szerű működésnek. b. Kétosztályos. Amennyiben "pozitív" és "negatív" példákat is tudunk szolgáltatni (például a célunk két betegség molekuláris hátterének elválasztása), akkor kétosztályos lekérdezést építhetünk. c. Kvantitatív. Ha az egyes entitásokhoz számszerű értéket tudunk rendelni, a szupportvektor-gépet regresszióra is használhatjuk a további entitások értékeinek predikciójához. 5. Prioritizálás. A prioritizáláshoz szükséges paraméterezést a feladatok során fogjuk ismertetni. 6. Adatelemzés. A kapott sorrend értelmezéséhez az alábbi eszközöket és erőforrásokat fogjuk igénybe venni: a. Hálózati elemzés. A lista első részének hálózatos reprezentációját az entitás-entitás hasonlóságok alapján számíthatjuk ki; segítséget nyújthat az előre sorolt entitások kapcsolati viszonyainak, funkcionális csoportjainak feltérképezésében. b. Feldúsulási elemzés. Ennek során azt számítjuk ki, hogy adott kategóriák (pl. szignáltranszdukciós vagy metabolikus útvonalak, celluláris funkciók stb.) elemei milyen mértékben vannak felülreprezentálva a sorrend első részében. c. Statisztikai elemzés. A prioritizálás során kiszámított statisztikai jellemzők például a lekérdezés inhomogenitásának felismerésében játszanak szerepet. d. Szakirodalom. A szakirodalom (pl. Pubmed kereső), illetve a szakértői tudás a találatok interpretációját segíti.
16 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
Az egyosztályos algoritmus működéséhez a 16. ábra szolgáltat geometriai intuíciót. A lekérdezés elemei a kernelen keresztül egy magasabb dimenziószámú térbe képezhetők. Az egyosztályos SVM azt a (hiper)síkot keresi, amely ebben a térben a lehető legközelebb fekszik a lekérdezés elemeihez. A többi entitás a síktól való távolság alapján sorrendezhető.
17 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
4.3. Kérdések Válaszolja meg 1-2 mondatban az alábbi kérdéseket. 1. Az említetteken kívül milyen információforrásokat tudna elképzelni a génprioritizálás során? (3 példa) 2. Hogyan definiálná a hasonlóság fogalmát útvonal-, szekvencia-, génexpressziós és az előbbi három adatforrásnál? 3. Miért jelentkezik fokozottan a heterogén lekérdezések problémája multifaktoriális betegségeknél?
4.4. Gyakorlatok A gyakorlatok során egy választott betegséghez fogunk ismerten asszociáló, valamint jelölt géneket gyűjteni. 1. Válasszon ki egy tetszőleges, de lehetőleg jól ismert betegséget! Lehetséges szempontok például a többékevésbé ismert genetikai háttér, gyakoriság, médiában való megjelenés stb. 2. Nézzen utána, hogy milyen gének játszhatnak szerepet a betegség kialakulásában! Használja a Genetic Association Database adatbázist (http://geneticassociationdb.nih.gov/)! Ebben az adatbázisban jelölt gén(CGAS), valamint teljes genom-asszociációs vizsgálatok (GWAS) eredményei vannak összegyűjtve. A Search linkre kattintva keressen rá a választott betegségre, majd gyűjtsön össze 10-12 találatot. A feladatok során ezek mint jelölt gének fognak megjelenni; a kísérlettervezés célja az lesz, hogy kiválasszuk közülük a "legígéretesebb" jelölteket. 3. Állítson össze egy lekérdezési halmazt, amely a betegség kialakulásában feltehetően fontos szerepet betöltő géneket tartalmaz! Ehhez használja a DisGeNET adatbázist (http://ibi.imim.es/web/DisGeNET/v01/home). A DisGeNET számos egyéb adatbázisból származó gén-betegség asszociációkat integrál (manuálisan karbantartott és prediktált, szövegbányászati kapcsolatokat egyaránt). Hajtson végre egy lekérdezést a választott betegséggel, majd gyűjtsön össze 4-5 gént a legmagasabb pontszámmal rendelkező találatok közül. A génprioritizálás során ezek fogják a lekérdezési halmazt alkotni. 4. Végül pedig állítson össze egy 3-4 elemű kontrollhalmazt, amely a választott betegséghez NEM kapcsolódó géneket tartalmaz, majd adja őket a jelölt listájához. 18 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
4.5. Feladatok 4.5.1. 1. Kernelek hozzáadása A munkafolyamat első lépése a gén-gén hasonlósági mátrixok (kernelek) hozzáadása. A következők közül választhat: • Génexpressziós profil alapú hasonlósági mátrixok • Szövegbányászati hasonlóságon alapuló mátrixok • Szekvenciahasonlóság alapú mátrixok • Útvonal alapú mátrixok • Szemantikai hasonlóság alapú mátrixok Indítsa el a programot, a Browse gombbal válasszon ki egy kernelt, majd a Type mezőben válassza ki a Precomputed opciót. Mivel a kernelek hiányosak, meg kell adnunk egy átlagértéket is, amellyel a hiányzó értékek lesznek helyettesítve; ezt az egyszerűség kedvéért állítsuk -ra. A kernelt az Add gombbal tudja a gyűjteményhez adni; adjon hozzá legalább hármat.
4.5.2. 2. Prioritizálás A kernelekben szereplő gének listáját a Load gombbal tudja betölteni. Az eszközt egyosztályos prioritizációra fogjuk használni. A gyakorlatok során összeállított lekérdezési halmaz génjeit az Add (+) gombbal, vagy enter leütésével adja hozzá a pozitív osztályhoz; a gén első néhány karakterének begépelésével egyúttal kereshet is az ablakban. A prioritizálást a Go gombbal indíthatja. A felugró ablakban megtekintheti a különböző futási paramétereket, valamint az egyes kernelekhez hozzárendelt súlyokat. Melyik kernel kapta a legnagyobb súlyt?
4.5.3. 3. Az eredmények értelmezése Vegye szemügyre a prioritizálás eredményét. Az első helyeket általában a lekérdezés elemei foglalják el; ha nem így van, vagy esetleg a lekérdezés több blokkra esett szét, túlzott heterogenitásra lehet gyanakodni. Vizsgálja meg az első 10-15 találatot. Lát ismerős géneket a lekérdezésen kívül? A prioritizált listában kereshet is a génnév első néhány karakterének begépelésével. Vizsgálja meg, hogy a jelölt lista melyik eleméhez milyen helyezést társított az algoritmus! Hányadik helyet foglalja el a legjobb jelölt? Hol helyezkedik el a többi jelölt, illetve a kontrollhalmaz elemei? Foglalja össze a tapasztaltakat 4-5 mondatban. A Show plots gombbal hívja elő a prioritizálási statisztikákat. Vegye szemügyre a kompaktsági grafikont. Az x tengelyen a sorrend első száz génje található, míg az y-on az első x gén átlagos hasonlósága. Az első gén esetén a hasonlóság értelemszerűen 1, majd a továbbiak hozzáadásával reciprokfüggvényre emlékeztető lecsengést kell mutatnia. Heterogén lekérdezésnél a grafikon gyökjel alakot vesz fel. A Show graph gombbal az első 50 gén hasonlósági hálózatát lehet megtekinteni. A gének a kombinált (források súlyaival kiátlagolt) hasonlóság alapján vannak összekötve. Állítson be egy alkalmas vágási szintet, majd a Graph layout gombbal rendezze a gráfot. A sorrend elején szereplő gének rózsaszínnel, a többiek kékkel ábrázolódnak. Lát szabályosságot a gráfban? Válasszon ki 2 tetszőleges gént a gráfról, majd vizsgálja meg, milyen más génekkel állnak kapcsolatban. A listát vesse össze a DisGeNET hasonló listájával, amelyet a génre való kereséssel, majd az "All genes associated with this gene" linkre való kattintással jeleníthet meg. Végezze el a fenti elemzési lépéseket, majd foglalja össze tapasztalatait! Kísérletezhet egyéb beállításokkal, például egyes információforrások kivételével, vagy más futtatási paraméterek alkalmazásával is.
19 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig
4.5.4. 4. Feldúsulási elemzés Az utolsó feladat során a prioritizált listát leginkább jellemző, "feldúsult" útvonalakat, ill. betegségeket fogjuk keresni. Nyomjon az Enrichment analysis gombra, majd a felugró ablakban a Browse gombbal válassza ki az betegség alapú annotációs file-t. A következő paramétereket lehet állítani: 1. E-érték levágás: csak az ez alatti e-értékkel (Bonferroni-korrigált p-értékkel) rendelkező betegségek fognak megjelenni. Amennyiben így nincs találat, emelheti az értéket, vagy akár kiveheti a pipát a teljes lista megjelenítéséhez. 2. Találatok száma: csak azon betegségek kerülnek be az elemzésbe, amelyeknek legalább két génje szerepel a kiszámított sorrendben. Az elemzés az Analyze gombbal indítható. Az eredmények első oszlopában a kapott e-értékek láthatók, a második oszlopban pedig a kategóriák nevei. Az alacsony ( alatti) e-érték azt jelenti, hogy az adott betegség génjei szignifikánsan gyakrabban fordulnak elő a sorrend első találatai között. Megjelent a kiválasztott betegség a listában? Milyen más betegségek láthatók? Milyen kapcsolatot feltételez az alacsony e-értéket kapott betegségek között (pl. hasonló genetikai háttér, komorbiditás stb.)? Hasonlóképpen végezze el az elemzést az útvonal-annotációs file felhasználásával is. Milyen útvonalak dúsultak fel a listában? A szakirodalom alapján (PubMed kereső felhasználásával) elemezzen néhányat a legjobb eredményt elért találatok közül. Írtak le összefüggést az útvonal és a választott betegség között?
5. 5 Bioinformatikai munkafolyamatrendszerek A BayesCube szoftver a BMLA analízisek kivitelezését egy több lépésből álló, a felhasználó elől elrejtett munkafolyamaton keresztül végzi el. Ez a munkafolyamat több elemi lépésből áll, amelyek áttekintése pontosabb képet adhat magáról a BMLA elemzésről. A továbbiakban ezeket a lépéseket vizsgáljuk meg egy mintapéldán manuálisan végigkísérve az egyes fázisokat.
5.1. 5.1 Adat és modell konstruálása A BMLA-elemzések kiindulásául megfigyelési adatok egy halmaza és a hozzájuk tartozó Bayes-háló modell leírása szolgál, az elemzés alapvető célja pedig a háló csomópontjai közötti strukturális kapcsolatok vizsgálata.
5.1.1. Feladatok Konstruáljon egy tetszőlegesen választott tárgyterületet leíró, egyszerű (kb. 5-6 csomópontot tartalmazó) modellt a BayesCube szoftver használatával; adja meg a modellen belüli összefüggéseket (éleket) és határozza meg a csomópontok lokális feltételes függési modelljeinek paramétereit. Generáljon egy minta-adathalmazt a modellből, majd egy táblázatkezelő program (pl. OpenOffice Calc) segítségével particionálja ezt több részre az egyik változó értékei mentén.
5.2. 5.2 A BMLA-elemzést leíró fájl A BMLA-elemzések alapjául a tárgyterületi modell struktúrája felett végrehajtott MCMC-futtatások szolgálnak, ezek teszik ki az elemzés által igényelt számítási kapacitás tetemes részét. A vizsgált munkafolyamat-rendszer minden elemzéshez egy szöveges fájlt rendel, amely a végrehajtandó MCMC-futások számát és azok pontos paraméterezését határozza meg.
20 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig ANALYSIS PARAMETERS name: ooi model: ALL.model target-variables: cc jointly: true analysis-level: MBM,MBS,MBG number-of-runs: 10 --burn-in: 10000000 --steps: 50000000 --query: mbm(X) 0 --query: edge(X) 0 --data: ALL_cases.csv -p: 2,3,4
Mint látható, a fájl az ANALYSIS PARAMETERS sorral kezdődik, ezt követik az MCMC futások halmazának összeállítására vonatkozó paraméterek (name-től number-of-runs-ig), majd az egyes MCMC futásoknak közvetlenül átadandó paraméterek (a kötőjellel kezdődő sorokban). Az egyes paraméterek értelmezése az alábbi: • A BMLA-analízis neve (csak akkor van jelentősége, ha a BayesCube felületén keresztül indítjuk az analízist). • A modell leírását tartalmazó fájl neve. • A vizsgált célváltozó(k), amely(ek) strukturális relációit vizsgálni fogjuk. • Több célváltozó esetén (más lehetséges paraméterekkel együtt) a célváltozók kezelését határozza meg. Egyetlen célváltozó esetén nincs jelentősége. • A célváltozó(k)hoz kapcsolódó mely strukturális jegyekről készüljön statisztika. Lehetséges értékei: MBM, MBM,MBS, MBM,MBS,MBG. • Egy adott paraméterezésű futtatás hányszor legyen elvégezve. A - jellel kezdődő sorok értékeit a bn-MCMC.exe program kapja meg közvetlenül paraméterekként. Ha egy sorban több érték is szerepel (vesszővel elválasztva) akkor annak megfelelően több, különböző paraméterezésű bn-MCMC.exe futás lesz végrehajtva. A legfontosabb lehetséges paraméterek a következők: • Az MCMC-futáson belül a mintavételezést megelőző ún. burn-in szakasz hossza. • Az MCMC-futás mintavételezési szakaszának hossza. • A futás során a modellek jósági mutatójának számításhoz használt megfigyelési adatokat tartalmazó csv fájl neve. • A csomópontonként megengedett szülők maximális száma. • A jósági mutató számításához használt mód. Lehetséges értékei: CH, BDeu.
5.3. 5.3 Futtatást a HTCondor rendszerben Maga a BMLA-elemzést végrehajtó teljes munkafolyamat a HTCondor feladatütemező rendszerbe töltött jobok végrehajtásából áll, a következő fő lépések szerint: 1. Az előzőleg leírt konfigurációs fájl alapján generálódnak a HTCondor jobokat leíró submit fájlok; ennek a lépésnek a végrehajtására a soapBMLAtools.jar csomagban található soapbmla.cmd.GenerateCondorJobs osztály szolgál. 2. A bn-MCMC.exe program végzi el az MCMC-szimulációkat, az egyes lefuttatandó szimulációk paraméterezései a calc* könyvtárakban található *.sub HTCondor submit fájlokban találhatók. 3. Az egyes MCMC-futások nyers eredményeit egy közös fájlba a mergeResults.exe program aggregálja, az ezt futtató HTCondor job leírása a aggregate.sub fájlban található. 21 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig 4. A fenti jobok összehangolását a HTCondor rendszer által biztosított dagman eszköz valósítja meg; a jobok felsorolását és egymásra épülésének leírását a dagman.dag fájl tartalmazza, a futtatáshoz szükséges submit fájl pedig a dagman.dag.condor.sub.
5.3.1. Feladatok Szerkessze át a fent található konfigurációs fájlt a következők szerint: 1. A megfelelő helyeken hivatkozzon a korábbikban előállított modellre és az azokhoz tartozó adatfájlokra; a megfelelő sorban állítsa be, hogy a korábban előállított partíciókat külön-külön, illetve (azokat egy közös fájlban összesítve) együttesen felhasználva történjen a modell tanulása. 2. Adja meg, hogy milyen maximális szülőszámokra (-p paraméter) és paraméter-prior értékekre (-param-prior paraméter; lehetséges értékei: CH és BDeu) történjen MCMC-futtatás. A kész konfigurációs fájlból generálja le a HTCondor submit-fájlokat a java soapbmla.cmd.GenerateCondorJobs --bayeseye-conf
--run false --bin-dir
paranccsal, amelyben a helyére helyettesítse a saját konfigurációs fájljának nevét, helyére pedig a bn-MCMC.exe-t tartalmazó könyvtár elérési útját. Vizsgálja meg a parancs eredményeként létrejött könyvtárakat és fájlokat, majd indítsa el az analízist a HTCondor rendszerben a condor_submit dagman.dag.condor.sub
paranccsal. A HTCondor rendszerben futó jobok listáját a condor_q paranccsal kérheti le.
5.4. 5.4 Nyers futási eredmények aggregálása A HTCondor jobok lefutása után az egyes futások eredményei a calc* könyvtárakban keletkeznek. Ezek aggregálását (az egyedi futási eredmények összefésülését, köztük alapvető statisztikák kiszámítását) a mergeResults.exe program végzi. Az eredmények során a megadott eredményfájlok (és a hozzájuk tartozó bnMCMC.exe naplófájlok) alapján a program összeválogatja az azonos paraméterezésűnek tekintett futásokat, és azok eredményeit összefűzi, kiszámítva olyan alapvető statisztikákat mint pl. az átlag és a szórás. Alapértelmezetten csak a valóban tökéletesen egyező futások eredményei lesznek egymással aggregálva, de a mergeResults.exe paraméterezésével megadható, hogy az bizonyos paramétereket (pl. maximális szülőszám, futáshossz) "aggregáljon ki" (vagyis az aggregálást az összes olyan futás felett végezze el, amelyek csak a "kiaggregálandó" paraméter(ek) értékeiben különböznek). A program által szolgáltatott alábbi segítőüzenet alapján a fő paraméterek a következők (a + jelek jelzik, hogy az adott paraméter esetén több argumentum is megadható). $ mergeResults.exe Usage : mergeResults.exe IGNORE [parameter]+ : the parameter will not be taken into account in differentiating parameter configurations AGGREGATE [parameter]+ : the parameter will be aggregated out GROUP [parameter]+ : different value configurations will be put to different output files IN [features.csv]+
:
22 Created by XMLmind XSL-FO Converter.
Bioinformatika laboratórium: molekuláris méréstechnikától az orvosi döntéstámogatásig input files OUT