Semmelweis Egyetem Orvosi Biokémia Intézet
BIOINFORMATIKA A bioinformatika a biológia és a számítástechnika határán elhelyezkedő rendkívül széles terület, számítógépes technikák alkalmazása az exponenciális mértékben növekvő biológiai információk tárolására és analizálására. A biológiai adatbázisokat több szempont szerint kategorizálhatjuk; leggyakrabban az alapján, milyen típusú adatokat tartalmaznak (DNS illetve fehérje szekvencia, 3D struktúrák, gén expressziós adatok, metabolikus utak, stb.) A Nucleic Acids Research újságban 2004 óta évenként megjelenik egy adatbázisokról szóló kötet ( http://www3.oup.co.uk/nar/database/c/ ). Jelen pillanatban több mint 1000 adatbázis létezik; a főbb nukleotid adatbázisok között találjuk az „International Nucleotide Sequence Database Collaboration” által fejlesztett és fenntartott, egymással állandó kapcsolatban álló három adatbázist: 1. DDBJ (DNA Data Bank of Japan)/ http://www.ddbj.nig.ac.jp/Welcome-e.html 2. EMBL Nucleotide DB (European Molecular Biology Laboratory) /http://www.ebi.ac.uk/embl/index.html 3. GenBank/NCBI (National Center for Biotechnology Information)/ http://www.ncbi.nlm.nih.gov/ (1. ábra) Az NCBI oldalán találjuk a Pubmed adatbázist, amely több mint 17 millió orvosi/orvosbiológiai cikket tartalmaz. A fő kereső felületen a Pubmed mellett választhatjuk a PubMed Central (PMC) opciót; az itt található cikkek mindenki által elérhetőek. A gyakorlat során az NCBI-t fogjuk használni; a gyakorlat célja az adatbázis használatának elsajátítása orvosi példákon keresztül.
The different types of databases One may characterize the available biological databases by several different properties. Here is a list to help you think about the various properties a particular database may have. Type of data nucleotide sequences protein sequences • o o
Fig 1 1 ábra Alkalmazások A. Mycobacterium tuberculosis diagnózisa polimeráz láncreakcióval A tuberkulózis újjáéledése komoly egészségügyi problémát jelent. A betegség diagnózisa fizikális, röntgen és laboratóriumi vizsgálatok összességén alapul. A laboratóriumi tesztek közül legérzékenyebbnek és Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
1
Semmelweis Egyetem Orvosi Biokémia Intézet
legspecifikusabbnak tekintett tenyésztés csak hosszú idő után (2-8 hét) hoz eredményt, mivel a bakterium növekedése megfelelő kultúra esetén is lassú (18 óra/osztódás). Ezért kidolgozták a tuberkulózis PCR-on alapuló diagnózisát, amely néhány óra alatt eredményt hoz kismennyiségű minta esetén is. Az egyik, a tuberkulózis diagnosztikájáról szóló publikációban a következő szekvenciájú primereket használták: Forward primer: 5’-CAC ATG CAA GTC GAA CGG AAA GG-3’ Reverse primer: 5’-GCC CGT ATC GCC CGC ACG CTC ACA-3’ A/I. Vajon csak a tuberkulózis ad pozitív tesztet ezzel a primerpárral? A diagnózishoz használt primerek ellenőrzése a következőképpen történik az NCBI adatbázis segitségével: Másolja be a következő internet oldalt: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?PAGE=Nucleotides&PROGRAM=blastn&MEGABLAST=on& BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on Ezzel a Blastn program oldalára jut, ahol lehetőség van az ismert nukleotid szekvenciával megegyező szekvenciák megtalálására. 1. „Enter Query Sequence”: az üres ablakba másolja be a Forward primer szekvenciáját (CAC ATG CAA GTC GAA CGG AAA GG) 2. „Choose Search Set”: ellenőrizze, hogy az others (nr) nucleotide collection van e bejelölve (ahol az ‘nr’ nonredundánst jelent) 3. „Program Selection”: „Highly similar sequences (megablast)” 4. Kattintson a „Blast” jelre A program rövid keresés után megadja a keresett szekvenciával azonos szekvenciákat. Az eredmény oldalon a következő látható: Job Title: Nucleotide sequence (23 letters) (nukleotid szekvencia, 23 bázis) Reference: A blast programot eredetileg leíró cikk Database: A program a következő adatbázisokban keres: GenBank+EMBL+DDBJ+PDB Query= Length=23 a keresőbe bedobott szekvencia bázisainak száma Sequences producing significant alignments: Azonosságot/nagyfokú hasonlóságot mutató szekvenciák Accession(accession number): Azonosítószám: a szekvencia egyedi azonosítója Description: A nukleotid szekvencia rövid leírása, pl. minek a génje Query coverage: 100% esetén teljes az azonosság Ha megnézzük az azonosságot mutató szekvenciák leírását, eltérő baktérium törzseket látunk. A keresett szekvencia ezen eltérő baktériumok 16S rRNS szekvenciájával mutat azonosságot. Ez azt jelenti, hogy a primert a 16S rRNS-t kódoló gén szekvenciájának konzervatív (távoli fajok közt is megegyező, evolúció szempontjából fontos) részére tervezték, létrehozva ezzel egy pán-specifikus primert. Ellenőrizze le a Blastn program segítségével a reverse primert is: GCC CGT ATC GCC CGC ACG CTC ACA A/II Tervezzen Mycobacterium-ra specifikus primert! A 16S rRNS-t kódoló génnek van variábilis, speciesenkent változó része is, amire specifikus primer tervezhető. Ezt a DNS szakaszt most leegyszerűsítve fogjuk megkeresni. Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
2
Semmelweis Egyetem Orvosi Biokémia Intézet
Összehasonlítjuk egy Mycobacterium tuberculosis 16S rRNS gén, (ACCESSION: AM283534) és egy egyéb, szekvenciájában nagyon hasonló de nem mycobaktérium 16S rRNS gén (ACCESSION: EU133135) szekvenciáját. A Blast programon belül találunk egy „Blast 2 sequences” programot. Ez a program képes megtalálni 2 szekvencia között az egymással megegyező szekvenciákat. 1. Lépjen ide: http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi 2. Másolja be az azonosító számokat a „sequence1” illetve „sequence2” ablakokba. (sequence1: AM283534, sequence2: EU133135) 3. Klikkeljen az „align” jelre! A megjelenő eredményoldalon láthatjuk a két szekvencia mely részei átfedőek. (2. ábra)
2. ábra Ha a szekvenciák részletes összehasonlítását megnézzük, láthatjuk, hogy a hasonlóság a Mycobacterium 452. bázisánál megszakad, és csak a 483. bázisnál jelenik meg megint. Ezért feltetelezhetjük, hogy a 452-483 közötti rész, és az erre tervezett primer is specifikus lesz Mycobacteriumra. A primer tervezéséhez a szekvencia ismeretén kívül egy primertervező programra is szükségünk van. A számos lehetőség közül a mindenki számára elérhető Primer3-at választjuk: 4. http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi Nyissa meg a primertervező programot és másolja be a szekvenciát (3. ábra) (a bemásolt szekvencia a 451. bázisnál kezdődik, tartalmazza a variabilis részt, illetve annyi plussz nukleotidot, hogy lehetőség legyen egy 200-400 bázis hosszú DNS szakasz amplifikálására (sokszorosítására). 451 caccatcgac gaaggtccgg gttctctcgg 481 attgacggta ggtggagaag aagcaccggc caactacgtg ccagcagccg cggtaatacg 541 tagggtgcga gcgttgtccg gaattactgg gcgtaaagag ctcgtaggtg gtttgtcgcg 601 ttgttcgtga aatctcacgg cttaactgtg agcgtgcggg cgatacgggc agactagagt Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
3
Semmelweis Egyetem Orvosi Biokémia Intézet
661 actgcagggg agactggaat tcctggtgta gcggtggaat gcgcagatat caggaggaac 721 accggtggcg aaggcgggtc tctgggcagt aactgacgct gaggagcgaa agcgtgggga 781 gcgaacagga ttagataccc tggtagtcca cgccgtaaac ggtgggtact aggtgtgggt 841 ttccttcctt gggatccgtg ccgtagctaa cgcattaagt accccgcctg gggagtacgg 901 ccgcaaggct aaaactcaaa ggaattgacg ggggcccgca caagcggcgg agcatgtgga 961 ttaattcgat gcaacgcgaa gaaccttacc tgggtttgac atgcacagga cgcgtctaga
3. ábra Mivel itt az egyik primernek mindenképpen a variábilis régióra kell esnie, ezt mi választjuk ki: a „Pick left primer, or use left primer below”: ablakba másolja be a következő szekvenciát: 451 caccatcgacgaaggtccgg 470 Kattintson a pick primers jelre! (3. ábra) A program nem fogadja el az általunk adott left (forward) primert: „WARNING: Left primer is unacceptable: Tm too high”: azaz a forward és a lehetséges reverse (right) primer olvadáspontja között túl nagy a különbség. A primerek olvadáspontja meghatározza a PCR reakció során használt “annealing temperature”-t (annelációs hőmérsékletet; ezen a hőmérékleten kötődnek a primerek a sokszorosítandó szekvenciához). Mivel a kísérletben csak egy annelációs hőmérsékletet tudunk használni, a két primert úgy kell tervezni, hogy ugyanaz vagy nagyon közeli legyen az olvadáspontjuk. Alacsony Tm esetén a kötődés nem elég specifikus, többféle termék is keletkezhet, túl magas Tm viszont megnehezíti a primerek kötődését, és kevés PCR termékhez vezet. A programban beállított Tm 57C° - 63C° között mozog. Az olvadáspontot a primer hossza ill. GC tartalma határozza meg: Tm = 4(G+C) + 2(A+T)oC, ahol G, C, A és T a megfelelő nukleotidok száma a szekvenciában. Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
4
Semmelweis Egyetem Orvosi Biokémia Intézet
Válasszunk alacsonyabb olvadáspontú primert! Pl: 471 gttctctcggattgacggta 490 Ez már elfogadható primer. A program megadja a kiválasztott primerek főbb jellemőit, és kijelöli azt a DNS szakaszt, amit a PCR reakció sokszorosítani fog (4. ábra).
4. ábra 5. Ellenőrizze a Blastn program segítségével, hogy a kiválasztott left/forward primer (gttctctcggattgacggta) valóban specifikus-e Mycobacterium-ra. („Choose Search Set”: ellenőrizze, hogy az others (nr) nucleotide collection van e bejelölve) 6. Specifikus e a primer Mycobacterium tuberculosis-ra? Lehetségesnek gondolja-e, hogy Mycobacterium fajokat, vagy fajon belüli változatokat PCR reakcióval meg tudjunk különböztetni? B. Faktor V mutáció A hemosztázis konzultáción már ismertetett V faktor egyik lehetséges mutációja az ún. Leiden-mutáció; pontmutáció következtében a fehérje 506-dik aminosava argininról glutaminra változik (egybetűs aminosav kóddal jelölve R506Q). A mutáció kimutatása két primer párral történik, az egyik (H) primer pár abban az esetben ad PCR terméket, ha nincs jelen mutáció (az 506. aminosav arginin), míg a (S) primer pár abban az esetben ad PCR terméket, ha az 506. aminosav a pontmutáció következtében glutaminra módosult. Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.) 5
Semmelweis Egyetem Orvosi Biokémia Intézet
B/I Tervezze meg a két primer párt! 1. Másolja be az NCBI kereső programjába (http://www.ncbi.nlm.nih.gov/) a következő keresőszavakat: Homo sapiens coagulation factor V A gyakorlat írásakor a következő eredményeket lehet látni (mivel az adatbázisok folyamatosan bővülnek, elképzelhető, hogy a gyakorlat pillanatában más értékek láthatók): 4453
PubMed: biomedical literature citations and abstracts
225
PubMed Central: free, full text journal articles
Azaz 4453 cikk tartalmazza a keresett kifejezést, ebből 225 cikk teljes anyaga bárki számára elérhető.
72
CoreNucleotide: Core subset of nucleotide sequence records
Azaz 72 nukleotid szekvencia tartozik a kulcsszavakhoz. Ezek között találunk teljes és részleges cDNS-t, splice variansokat, stb. Ugyanehhez az eredményhez juthatunk, ha az NCBI keresőben a „nucleotide”-ot választjuk:
Az Expressed Sequence Tag vagy EST a teljes génterméknél rövidebb, nem feltétlenül fehérjét kódoló nukleotid szekvencia. Kattintson rá a „CoreNucleotide records” eredményeire. A gyakorlat írásakor az első megjelenő szekvencia az NM_000130 azonosító számú volt: NM_000130 Homo sapiens coagulation factor V (proaccelerin, labile factor) (F5), mRNA Keressék meg ezt a szekvenciát, és kattintsanak rá. Megjelennek általános információk, a szekvencia tagolása, jellemzői (features) és maga a szekvencia (sequence).
Általános információk: LOCUS: NM_000130 (azonosítószám) 9179 bp (bázisszám) mRNA linear (lineáris mRNS) Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
6
Semmelweis Egyetem Orvosi Biokémia Intézet
DEFINITION: Homo sapiens coagulation factor V (proaccelerin, labile factor) (F5), mRNA. ACCESSION (azonosítószám): NM_000130 SOURCE: Homo sapiens (human) ORGANISM Homo sapiens REFERENCE: A nagyszámú referencia (irodalmi hivatkozás) arra utal, hogy megbízható, sokak által használt szekvenciát találtunk. Features: Source: 1..9179 (bázisszám) /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" (taxonómiai adatbázis (rendszertan)) /chromosome="1" /map="1q23" gene 1..9179 (a tulajdonképpeni gén) CDS 146..6820 (coding sequence, kódoló szekvencia) Protein adatbázisban található azonosító szám és egyéb keresztreferenciák: /protein_id="NP_000121.2" /db_xref="GI:105990535" /db_xref="CCDS:CCDS1281.1" /db_xref="GeneID:2153" /db_xref="HGNC:3542" /db_xref="HPRD:01964" /db_xref="MIM:227400" Gyakorló orvos számára különösen érdekes lehet a MIM keresztreferencia: ez az „OMIM, Online Mendelian Inheritance in Man” adatbázisra vonatkozik, melyben a humán gének és a genetikai betegségek kapcsolatát katalogizálták. translation= A nukleinsav szekvencia átfordítása fehérjére, az egybetűs aminosav kód alapján sig_peptide (szignál peptid) 146..229 mat_peptide (érett peptid) 230..6817 polyA_signal 6948..6953 polyA_site 6967 Keressük meg, hol található a nukleotid szekvenciában az 506. aminosav! 506 aminosav (506x3)= 1518 bázist jelent. Ehhez hozzá kell adnunk 229-et, mivel a szignál peptid itt végződik, csak ezt követi a tényleges V faktor. 1518+229=1747 Tehát az 506. aminosavat az 1745-1747 bázis kódolja. Keressék ki ezt a 3 nukleotidot a szekvenciából! 1741 caggcgagga atacagaggg cagcagacat cgaacagcag gctgtgtttg ctgtgtttga A CGA az arginint kódolja, tehát a referencia szekvencia nem tartalmaz mutációt. Ebből a tripletből pontmutációval úgy keletkezhet glutamin, ha a triplet CAA-ra módosul. Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
7
Semmelweis Egyetem Orvosi Biokémia Intézet
Tervezze meg a mutáció mentességet (H) kimutató primerpárt! Ismét a Primer3-at választjuk: http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi Másolja be az üres ablakba az NM_000130 azonosító számú szekvenciát. Mivel itt az egyik primernek mindenképpen tartalmaznia kell az 506. aminosavat kódoló bázis tripletet, mi több, igazán sikeresen akkor tudunk pontmutációt (SNP, single nucleotide polymorphism) kimutatni, ha az pontmutáció helye a primer 3’ végén van, ismét nekünk kell az egyik primert megadni. A „Pick left primer, or use left primer below”: ablakba másolja be a következő szekvenciát (a primer 3’ vége a pontmutáció esetleges helye): agcagatccctggacaggcg Kattintson a pick primers jelre! A program nem fogadja el az általunk adott left (forward) primert: WARNING: Left primer is unacceptable: Tm too high/High end self complementarity/High 3' stability A primerek részt vehetnek másodlagos struktúrák képzésében: ilyen a hajtű (hairpin) vagy a saját ill. a primerpárok közti dimerizáció; ezek csökkentik a PCR reakció specificitását, eredményességét. Mivel a program figyelmeztet, hogy önkomplementer részek vannak (azaz fennáll a másodlagos struktúrák keletkezésének esélye) szerencsésebb másik primert keresni. Legyen most a szóbanforgó nukleotid a reverse/right primer 3’ végén. A reverse primer a következő (pirossal kiemelt/aláhúzott) részhez fog kapcsolódni a kódoló (sense) láncon: 1741 caggcgagga atacagaggg cagcagacat cgaacagcag gctgtgtttg ctgtgtttga A primer ennek komplementere lesz (antisense; fekete betűk) : 5’gagga atacagaggg cagca 3’ 3’ctcct tatgtctccc gtcgt 5’ A primer (és általában a nukleinsavak) szekvenciáját mindig 5’ 3’ irányban adjuk meg, tehát a Primer3 programban a “Pick right primer, or use right primer below (5' to 3' on opposite strand) ablakba a következő szekvenciát másoljuk be: 5’tgctgccctctgtattcctc 3’ A „paste your sequence” ablakba másolják be az NM_000130 azonosító számú szekvenciát. Kattintson a pick primers jelre. Igy már megfelelő primer párt kaptunk. Ellenőrizze a Blastn program segítségével, hogy a tervezett primerek valóban csak a kimutatandó primerhez kötődnek (specifikusak). Link: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?PAGE=Nucleotides&PROGRAM=blastn&MEGABLAST=on& BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on (A keresőoldalon a „Database: Human”-t kell bejelölni)
Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
8
Semmelweis Egyetem Orvosi Biokémia Intézet
A mutánst kimutató primerpárban a 3’ C-t T-re cseréljük (azaz a kódoló láncban a G-t A-ra), így a primer csak akkor fog megfelelően kötődni, ha a PCR mintában található DNS ezt a nukleotidot tartalmazza az 1746. helyen, azaz glutamint kódol. 5’ tgctgccctctgtattcctt 3’ Ellenőrizze ezt a primert is a Blastn keresőprogram segítségével. B/II Vizsgáljuk meg, kimutatható e ez a mutáció PCR-RFLP vizsgálattal! (Ebben az esetben a kérdéses mutációt tartalmazó DNS fragmentumot PCR segítségével felszaporítjuk, majd restrikciós endonukleázzal (RE) emésztjük. Amennyiben a mutáció során a kiválasztott restrikciós endonukleáz felismerő helye eltűnt/megjelent, az emésztés során kapott fragmentumok különböző méretűek lesznek mutációt hordozó és nem hordozó személynél. 1. Keresse meg, van e olyan restrikciós endonukleáz, melynek felismerő helye a mutáció helyén található! Ehhez a következő programot használjuk: http://tools.neb.com/NEBcutter2/index.php (5. ábra)
5. ábra Megtehetnénk, hogy a “GenBank number:” ablakba beírnánk a már ismert azonosító számot, de ha a teljes génnel dolgozunk, a kép meglehetősen bonyolult. Tételezzük fel, hogy a gén 1731-1750-ig terjedő részét sokszorozzuk fel PCR-ral, és ez kerül RE emésztésre (a valóságban hosszabb DNS fragmentummal dolgozunk). Vad típusú szekvencia: gatccctgga caggcgagga atacagaggg Mutáns szekvencia: gatccctgga caggcaagga atacagaggg Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
9
Semmelweis Egyetem Orvosi Biokémia Intézet
Másolja be a vad típusú szekvenciát az “or paste in your DNA sequence:„ ablakba, majd klikkeljen a „submit” jelre. Az eredmény oldalon megjelenik a szekvencia, az azt vágó restrikció endonukleázok és vágási helyük (6. ábra). Ha a kurzort az egyes RE-ra irányítjuk, megjelenik a felismerő helyük is (piros aláhúzás).
6. ábra Mivel a vizsgált fragmentumokban a 16. nukleotid módosulhat, az MnlI RE első felismerési helye változhat meg a mutáció során. (Az MnlI RE eltér az eddig tanult restrikciós endonukleázoktól; felismerési helye nem palindrom szekvencia, és az enzim nem a felismerő helyen hasít.) Ha ráklikkelnek a “custom digest” opcióra, megjelenik mely enzim, hányszor vágja a fragmentumot, illetve az enzim mely pufferben (1,2,3,4) hány %-os aktivitást mutat. Válassza ki az MnlI restrikciós endonukleázt, majd kattintson a „digest” jelre! Megjelennek a szekvencián a vágási helyek. (7. ábra)
Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
10
Semmelweis Egyetem Orvosi Biokémia Intézet
7. ábra Ha most az opciók közül a „view gel” jelre klikkelünk, akkor láthatjuk az emésztés után mekkora fragmentumok keletkeznek és ezek milyen képet mutatnak gélelektroforézissel (8.ábra). Mivel a fragmentumok között csak 1-2 bázisnyi különbség van, érdemes a legjobban szeparáló (szétválasztó) gél választani („gel type” legördülő ablak: Spreadex). Ekkor megjelenik a két hasítási hely erdeményezte három fragmentum (8. ábra).
8.ábra Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
11
Semmelweis Egyetem Orvosi Biokémia Intézet
Most másolja be a mutáns szekvenciát (gatccctgga caggcaagga atacagaggg) az “or paste in your DNA sequence:„ ablakba, majd klikkeljen a submit jelre. Látható, hogy az MnlI RE első felismerési helye eltűnt: azaz a mutáció következtében eltérő méretű restikciós fragmentumok keletkeznek. A „custom digest” opciót választva látható, hogy két MnlI helyett itt csak egy van. Válassza ki újból az MnlI restrikciós endonukleázt, majd kattintson a „digest” jelre! Megjelenik a szekvencia, egy hasítási hellyel, amit a „view gél” opció/Spreadex gélben való szétválasztás szintén igazol.
Orvosi Biokémia és Molekuláris Biológia Gyakorlati Jegyzet: Bioinformatika (2008. IV. 30.)
12