Bioinformatika gyakorlat csilabusz Cserháti Mátyás Szeged Tudományegyetem
BioEdit Szekvencia szerkesztő és elemző program Honlap: http://www.mbio.ncsu.edu/BioEdit/bioedit.html Telepítés: Elég egyszerű: BioEdit.zip file letöltése és kibontása, és a program telepítése. Gyakorlatok 1. Egyetlen szekvencia analízise, manipulálása A BioEditbe töltsük be a HvP1.mfa file-t. Az mfa annak a jele, hogy “multi fasta” formátumú file. Vizsgáljuk meg a bázisösszetételét! (Sequence, Nucleic Acid, Nucleotide Composition). Ilyenkor táblázat jön létre, amely az adtokat tartalmazza. Alakítsuk át a reverz komplemens szekvenciájára (Sequence, Nucleic Acid, Reverse Complement). Fordítsuk le a szekvenciát vagy annak egy részét aminosav szekvenciákra (Sequence, Nucleic Acid, Translate, 1., 2., vagy 3. Frame-re). Egy szekvencia részét a Sequence, Extract Positions menüponttal lehetséges, ha a 12,14 számokat beütjük, akkor a gct tripletet szedi ki a szekvenciából, ami a HvP1 gén megfelelő részéből származik. Restrikciós enzim térkép készítését a Sequence, Nucleic Acid, Restriction Map menüponttal lehetséges. Sok megjelenítési opciót ki lehet választani. A Select from list gombot lenyomva ki lehet választani több enzimből, válasszuk ki pl. az EcoRI és EcoRII enzimeket, majd a Generate map gombot nyomjuk meg. Ekkor térkép generálódik a megfelelő enzimek hasítóhelyeinek bejelölésével és a megfelelő statisztikák megjelenítésével. 2. ORF megtalálása genomi szekvenciában Töltsük be az OSJNBa0005H20.mfa file-t. Ez egy ún. rizs BAC klón szekvencia, ami több tízezer bp hosszú, és ami több gent tartalmaz. Válasszuk ki a Sequence, Nucleic Acid, Find Next ORF menüpontot. Ilyenkor a program felfedezi a szekvenciában a következő gén helyét (2522..2689), és megjelöli. 3. Több szekvencia analízise Töltsük be a HvP1osszes.mfa file-t. Válasszunk ki bármelyik két szekvenciát, amelyet össze akarunk hasonlítani egymással! Illesszük össze a két szekvenciát (Sequence, Pairwise alignment, Align two sequences). Ezzel kapunk egy két szekvenciából álló illesztést, másrészt megmondja, hogy a két szekvencia mennyire hasonlít egymásra. Dot Plot: Válasszunk ki bármelyik két szekvenciát, és a Sequence, Dot Plot menüpontot válaszsuk ki. Lehet változtatni az ablak méretet és (window size) a mismatch számot (mismatch limit). Ez azt adja meg, hogy az ablakon belül hány mismatch
lehetséges. Minél nagyobb a mismatch szám, annál több vonal jelenik meg. Kipróbálhatjuk 10,2 és 10,4 paraméterek mellett. A Do full shaded matrix opcióval egy helyi illesztés jóságát mutatja. A mátrixot el is lehet menteni. Ez a program arra jó hogy ismétlődő szakaszokat, alegységeket fedezzünk fel egy génben. Illesztést a beépített CLUSTALW programmal lehet létrehozni a kijelölt szekvenciákból. Válasszuk ki az Accessory Application, ClustalW Multiple Alignment menüpontot. Felugrik egy DOS program ami az illesztést mutatja. Különféle módon lehet a bázisok színét színesre, fekete-fehérre változtatni. Szekvencia hasonlósági matrix létrehozása: válasszuk ki az összes szekvenciát, és az Alignment, Sequence Identity Matrix gombot válasszuk ki, majd egy nevet adjunk a kiszámítandó mátrixnak. Létrejön egy négyzetes matrix ami mutatja a páronkénti szekvenciák hasonlóságát (önmagával 100% azonos, amit az ID jelez). A többszörös illesztésből lehet konszenzus szekvenciát létrehozni az Alignment, Create Consensus Sequence menüponttal. Ilyenkor újabb szekvenciaként jelenik meg a konszenzus szekvencia. Ahol SNP van a szekvenciák között, ott a megfelelő IUPAC szimbólum jön létre a konszenzus szekvenciában: M=A vagy C, R=A vagy G, W=A vagy T, S=C vagy G, Y=C vagy T, K=G vagy T, B=nem A, D=nem C, H=nem G, V=nem T, N=bármi A többszörös illesztésből lehet entrópia, illetve információ plotot készíteni. Ezt az Alignment, Entropy (H(x)) plot, vagy az Alignment, Information Scan menüpontokkal lehet elkészíteni. Ilyenkor színes téglalapok mutatják az illesztés entrópia illetve információ tartalmát az illesztés mentén. Az információ és az entrópia fordított összefüggésben vannak egymással. Az információtartalom arra vonatkozik, hogy milyen eséllyel tudjuk megjósolni azt, hogy ha egy illesztéshez újabb homológ gént adunk hozzá, adott pozícióban milyen bázis lesz. Minél több ugyanolyan bázis van adott pozícióban, annál nagyobb az információtartalom. Ehhez képest az entrópia egy pozíció változatosságát mutatja. Ha mind a négy bázis aránya ugyanaz egy adott pozíciónál, az entrópia maximális lesz. Arra lehet használni ezt a két mérőszámot hogy homológ, vagy konzervált génszakaszokat különítsünk el. Ezeket a konkrét konzervált szakaszokat az Alignment, Find Conserved Regions menüponttal lehet megtalálni. A legfontosabb paraméterek a Minimum length (legrövidebb megengedett szakasz hossz), illetve a Max ave entropy (maximális entrópia érték). Minél hosszabb és minél alacsonyabb entrópiájú szakaszról van szó, annál konzerváltabb. Konzervált szakaszok felfedezése jó arra, hogy rájuk olyan primereket, oligonukleotidokat lehessen tervezni, ami egy géncsalád összes tagját megtalálja. 4. BLAST lehetőségek A BioEditbe be van építve egy olyan lehetőség, hogy a szekvenciáinkat az NCBI vagy egyéb adatbázisokban lehessen BLAST-olni. A többszörös illesztésből válasszunk
ki az egyik szekvenciát, mondjuk a HvP1-16D szekvenciát. Válasszuk ki az Accessory Application, BLAST, WWW, blastx menüpontot. Ezzel a kiválasztott génszekvenciánkat fehérje adatbázisban fogjuk tudni megkeresni. Ilyenkor egy NCBI BLAST interfész ugrik fel, és ha a „BLAST” gombot megnyomjuk, akkor elvégzi a BLAST-ot a BioEdit kerestén belüli böngésző. A keresett fehérje accession-je BAB18681.1. A lehetséges BLAST programok itt fel vannak sorolva (mindig összekutyulják ): Program típus blastn blastp blastx tblastn tblastx
Mit hasonlít össze mivel nukleinsav szekvencia nukleinsav adatbázissal fehérje szekvencia fehérje adatbázissal lefordított nukleinsav fehérje adatbázissal fehérje lefordított nukleinsav adatbázissal lefordított nukleinsav lefordított nukleinsav adatbázissal
Lehetőség van arra, hogy helyi file-ból hozzunk létre adatbázist. Ehhez az Accessory Application, BLAST, Create a local protein/nucleotide database file. Ilyenkor egyszerűen ki kell választani a megfelelő multifasta file-t, és automatikusan generál belőle egy adatbázis file-t. Ehhez a uniprot_sprot_mainplants.fasta file-t. Ezek után az Accessory Application, BLAST, Local BLAST menüpontot válasszuk ki, és válasszuk ki az adatbázisunkat válasszuk ki, majd a programot állítsuk át blastx-re. Utána nyomjuk meg a „Do Search” gombot. A BioEdit elvégzi a BLAST-ot. A leghomológabb fehérje szekvencia azonosítója Q06572 az 5 találat közül, az E-value pedig e-103. 5. Összetett illesztés készítése cikkekhez Egy összetett illesztést úgy lehet átalakítani, hogy be lehessen tenni egy Word dokumentumba cikkhez. Ezt úgy lehet csinálni, hogy ha a File, Graphic View menüpontot kiválasztjuk. Ilyenkor a többszörös illesztést grafikailag meg lehet szerkeszteni. Olyan dolgokat lehet módosítani, mint a betűméret, az illesztés tagoltsága, színe, hasonló szakaszok színezése, szekvencia nevek hossza és elnevezése. Ha a megfelelő paramétereket beállítottuk, akkor a „Redraw” gombbal az illesztést újra lehet rajzolni. A File, Export as Rich Text menüpont kiválasztásával az illesztést el lehet menteni. Az első 80 bp lent látható.
HvP132A HvP148B HvP174C HvP116D HvP163E HvP170U1 HvP179U3
10 20 30 40 50 60 70 80 ....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....| -----------------------------------------------------GTAGTTGCTGTAATCAACATCGTGAGT ------------------------------------------------------TAGTTTCTGTAATCAACATCGTGAGT ------------------------------------------------------TAGTTGCTGTAATCAACATCGTGAGT GAGTACTACACAAGCAATGCATACAGGTACTTGCAATTTTGGCGATATATTTAGTAGTTGCTGTAATCAACATCGTGAGT GAGTACTACACAAGCAATGCATACAGGTACTTGCAATTTTGGCGATATATTTAGTAGTTGCTGTAATCAACATCGTGAGT -----------AAGCAATGCATACAGGTACTTGCAATTTTGGCGATATATTTAGTAGTTGCTGTAATCAACATCGTCAGT GAGTACTACACAAGCAATGCATACAGGTACTTGCAATTTTGGCGATATATTTAGTAGTTGCTGTAATCAACATCGTGAGT
CLC Sequence Viewer Szekvencia szerkesztő és elemző program Honlap: http://www.clcbio.com/index.php?id=28 Gyakorlatok A főmenüben az ”Import data” gombra kattintva töltsük be a HvP1osszes.mfa file-t. A jobb felső sorban lehet a szekvencián belül navigálni, vagy a Ctrl gombot lenyomva az egér görgetőjével ki-be-zoomolni. Jobboldalt lehet a szekvenciák kinézetét módosítani, pl. betűtípus, betűméret, betűszín, az illesztés formátuma. Emellett lehet ismert restrikciós enzimek hasítóhelyeit feltüntetni a ”Restriction sites” opcióval. Emellett meg lehet keresni rövid motívumokat a szekvenciákon belül a ”Find” opcióval. A bal alsó sarokban lehet látni az eszköztárat (Toolbox). Ezekből néhányat át fogunk venni. 1. Create Alignment: Többszörös illesztés elkészítése. Beállítható paraméterek: résnyitás, réstovábbítási büntető pontszám, pontosság. 2. Create Tree: Fa készítése többszörös illesztésből. Ezt pl. a HvP1osszes_alignment filelal csináljuk meg. A Neighbor Joining és az UPGMA algoritmust lehet ehhez használni. Bootstrap analízist lehet választani, illetve a ciklusok számát. Különböző opciók léteznek arra hogy a fa formátumát alakítsuk (standard vagy topologikus szerkezet), fel lehet tüntetni a faágak hosszát, illetve bootstrap értékét. 3. Create Sequence Statistics: Általános statisztikát lehet ezzel kiszámoltatni vagy a szekvenciákra egyenként, vagy összesítve. Szekvencia típus, hossz, súly, funkcionális leírás, bázisösszetétel. 4. Nucleotide Analyses: DNS lefordítása RNS-re, RNS lefordítása DNS-re, reverz complement létrehozása, fehérjére való lefordítása, ORF-ok megtalálása (ehhez a HvP132A.mfa, HvP1_mrna.mfa, és az OSJNBa0005H20.mfa file-okat használjunk). 5. Restriction Site Analysis: Restrikciós hely analízis: megfelelő restrikciós enzimek kiválasztása illetve a helyek számának beállítása. A szekvenciákhoz annotációként hozzáadja, térképet és statisztikákat készít: mintázat, hossz, darabszám, pozíció. 6. NCBI szekvenciák letöltése: Nukleinsav vagy fehérje szekvenciák letöltése az NCBI adatbázisból több lehetséges parameter alapján: élőlény, molekula típus, funkció/név, pozsíció, vagy hossz alapján. Pl. a 100 bp-nál hosszabb valódi Oryza sativa (rizs) glutathione reductase fehérjék öten vannak: BAA11214, BAA37092, BAD22392, BAA36283, BAD21653 Definition/Title: glutathione reductase Organism: Oryza sativa Description doesn’t contain putative Length > 100
primer3 Primer és oligonuleotid tervező program Honlap: http://frodo.wi.mit.edu/primer3/ Gyakorlatok Itt fogjuk végig tekinteni egy primerpár, illetve oligonukleotid próbák tervezésének menetét. Más programokat kellene inkább használni oligonukleotidok tervezésére, amelyek génenként több és jobb próbát lehet tervezni, ráadásul le is lehet ellenőrízni azt hogy nem illeszkedik-e más génhez. Lent sorra fogjuk tekinteni a főbb paramétereket amelyeket be kell állítani a primer tervezés során. Azt, hogy jobboldali, baloldali primert (hozzál magaddal még egy embert...) illetve oligonukleotidot lehessen tervezni, ahhoz ki kell pipálni a ”Pick left primer”, ”Pick hybridization probe”, vagy ”Pick right primer” melleti kis dobozkát. Sequence ID: a tervezendő primer/oligonukleotid azonosítója. Targets: olyan régiót lehet ezzel megjelölni, amelynek biztosan benne kell lennie a próbában. Pl.: 50,2 azt a két bp-t jelöli, amely az 50. bázsitól kezdődő 2 bp-t öleli fel. Excluded regions: ez olyan régiót jelent a génen belül, amelyet ki kell hagyni. Product Size Ranges: Primerpárnál azt jelöli, hogy mekkora lehet a termék. Pl.: 50-150. Number To Returns: A visszaadandó primerpárok száma. Primer Size: A primerek méretének minimális, maximális, illetve optimális értéke. Maximum 36 bp. Primer Tm: A primerek olvadási hőmérsékletének minimális, maximális, illetve optimális értéke. Product Tm: A termék olvadési hőmérsékletének minimális, maximális, illetve optimális értéke. Primer GC%: A primerek GC tartalmának százalékos aránya. A következő két paraméter arra vonatkozik, hogy milyen mértékben engedhetők meg a primer dimerek. Ez azért fontos, mert a primer szekvenciák önmagukkal, illetve egymással képesek komplementert képezni. A Max Complementarity azt mondja meg, hogy egy primer milyen mértékben képes önamgához kötődni. A Max 3’ Complementarity azt mondja meg, hogy a két primer milyen mértékben kötődik össze egymással. Ehhez egy score értéket lehet kiszámolni a két primer közti illesztésre, a
következő módon: komplementer egyezés 1 pontot ér, hézag -2 pontot ér, téves illesztés 0.25 pontot ér. 5' ATCGNA 3' || | | 3' TA-CGT 5'
A fenti illesztés így tehát 1+1-2+1-0.25+1=1.75 pontot ér. Ezért próbáljuk meg minél alacsonyabb szinten tartani a komplementaritás értéket. Max #N’s: hány darab téves bázis lehet benne a primerben. Általában a próba hosszának 10%-a lehet N maximum, de ajánlatos 0-nál tartani. Max Poly-X: Azt mondja meg, hogy hány darab azonos bázis lehet egymás mellett. Included Region: Ezzel meg lehet adni, hogy melyik régiókon belül lehessen csak primert keresni. Start Codon Position: Ezzel meg lehet adni olyan pozíciót a szekvencián belül, ami kódoló rész kezdete. Fontos cDNS és genomi DNS megkülönböztetésére, vagy fúziós fehérje detektálására. Példa: Ehhez a fenti honlap címet másoljuk bele egy nyitott böngészőbe, majd nyissuk meg a HvP1-32A.mfa file-t, és másoljuk bele a tartalmát a honlap első szövegdobozába. Válasszunk i jobb és baloldali primereket. Kapjunk 50-200-es terméket, adjon vissza 5 terméket, ezen kívül a maximum komplementaritás legyen 4.00, a maximum 3’ komplementaritás legyen 3.00, és maximum 4 hosszú futam legyen azonos bázisból. Ahhoz, hogy a HvP1-32A allélra egyedi primert tervezzünk, tervezzünk egy primert az allélnak teljesen a végére, az utolsó 6 bázisára, mivel az nem fordul elő egyik másik allélban sem. Ehhez állítsuk be a Targets paramétert arra, hogy 1278,1. Mivel a HvP132A gén 1299 bp hosszú, ezért ezzel még a végére lehet tervezni egy 20 bp hosszú primert, ami még a 1278. bázist még közrefogja. Így a legoptimálisabb primer pár: OLIGO LEFT PRIMER RIGHT PRIMER
start len tm gc% any 3' 1177 20 60.19 55.00 4.00 0.00 1296 18 61.01 61.11 4.00 3.00
seq acccattagtcgggaagacc ggccttgtggcagtcaga
Ellenőrzésképpen nézzük meg, mennyire egyediek az általunk tervezett primer párok! Ehhez nyissunk egy böngészőt és az NCBI BLAST-ra menjünk, majd a job oldali primert másoljuk be. Találatok vannak a GU108425.1 és AB032839.1 azonosítójú genre, illetve mRNS-re. Az összes többi allélra is van találat, de hiányzik az első 3 bázis, így ebből látszik, hogy a megtervezet primerünk specifikus a HvP1-32A allélra.
Array Designer 4.1 Oligonukleotid szekvencia tervező program Honlap: http://www.premierbiosoft.com/dnamicroarray/index.html Gyakorlatok Az Array Designer 4.exe program file-t indítsuk el. Indítsunk egy új projektet azzal, hogy egy új mappát hozunk létre (File, New Project). A HvP1osszes.mfa file-t nyissuk ki, amely azokat a szekvenciákat tartalmazza, amelyre oligonukleotid próbát szeretnénk tervezni (File, Open, Sequences, From file). 1. Oligonukleotid próbák keresése Az Analyze, Probe Search menüponttal lehet a próbák paramétereit beállítani: A próba hossza Olvadási hőmérséklet Elhelyezkedés Maximálisan hány darab azonos bázis lehet egymás mellett Azt hogy szekvenciánként csak 1 próba legyen Egy szekvenciához a próbák száma Egy szekvenciához a legjobb próba helyett hány másik próbát tervezzen Próbát a sense vagy antisense szálhoz tervezzünk A „Search” gomb lenyomásával lehet a keresést elindítani. Az eredményeket Excel file-ba lehet exportálni. Minden szekvencia minden olgionukleotidjára a következő információk fel vannak jegyezve: Azonosító A szekvencia neve A szekvencia hossza A próba minősége (Poor (0-50), Good (50-75), vagy Best (75-100), ajánlatos csak vagy a Good vagy a Best minőségűeket elfogadni) A próba pontozása Szekvenciája Pozíciója Hossza Olvadási hőmérséklete GC%-a Hairpin belső energiája és kötési erőssége Önmagával képzett dimer belső energiája és kötési erőssége Leghosszabb azonos bázist tartalmazó szekvencia futam A felső panelen lehet néhány általános információt leolvasni a szekvenciákat illetően, pl. a „Sequence Information” fülön. A „Search Status” a keresés állapotát
mutatja be. Ha valamelyik génszekvenciára kattintunk és az „All Probes” gombra kattintunk, felugrik egy olyan ablak, ami az összes az adott génre tervezett oligonukleotid szekvencia adatait mutatja be. Ha több próbát terveztünk meg, lehet az egyes próbát kicserélni. Ha 5 próbát terveztünk 5 alternatív optimális próbával, ebben a táblázatban azt látjuk, hogy szürkében vannak a munkahalmazbeli próbák, míg fehérben a tartalék próbák. Csak a munkahalmazbeli próbákra lehet például BLAST-ot futtatni. Ha viszont ki akarunk cserélni egy tartalék próbát, akkor egyszerűen ki kell jelölni, és a „Replace” gombot megnyomni, aminek hatására ő a legelső helyen lévő munkahalmazbeli próba helyére kerül. Az „All Structures” gombra kattintva az összes mellékterméket lehet megtekinteni, ami ronthatja az adott oligonukleotid minőségét, mint pl. az önmagával alkotott dimer, illetve a hairpin szerkezeteket. Emellett az összes hosszú bázis futamot (Runs) vagy szekvenciarészlet ismétlést (Repeats) meg lehet nézni, ami be van jelölve adott oligonukleotidnél. 2. Ellenőrzés a BLAST funkcióval Nagyon fontos, hogy oligonukleotid array tervezésnél le kell ellenőrizni, hogy egy próba nem kötődik keresztbe más génekkel, mint amelyre meg lett tervezve. Azért van erre szükség, mert ha egy oligonukleotid próba szekvencia több génhez illeszkedik, az array eredményeit meghamisíthatja, és úgy tűnhet, hogy egy adott gén jóval nagyobb mennyiségben expresszálódik mint amilyen valójában. Egy másik oligonukleotid program, ami arra nagyon alkalmas, hogy automatizáltan nagy genomoknál (pl. búzánál) ilyen keresztkötési BLAST ellenőrzést végezzen a Picky nevű program (http://www.complex.iastate.edu/download/Picky/), de fizetni kell érte. Így tehát hogy ha az Analyze, BLAST Search, Probe menüpontot választjuk, egy panel ugrik fel a következő opciókkal: Include all probes: Ha ez a kis dobozka ki van pipálva, akkor a program BLAST futtatást csinál az összes gén összes próbájára Lehet humán, eukarióta, mikrobiális genomokban keresni, vagy az NCBI nr (nonredundant, nem redundáns) adatbázisában keresni (eukarióta vagy mikrobiális genomnál a fajt is meg kell adni) Lehet lokális illetve saját adatbázisban keresni, ilyenkor meg kell adni az adatbázis elérési útját Meg lehet adni a BLAST program típusát (blastn, blastp, stb…) Specifikusabb beállításokat is meg lehet adni (pl. leírások száma, kimenet típusa, alacsony komplexitásra vagy ismétlő szekvenciák kiszűrése) A BLAST futások néhány percbe telik. Ha sok próbánk van (pl. több ezer), amit mind le kell ellenőrizni, a próbák kiszámítása akár több órába is telhet. Ebben az esetben azonban szinte kikerülhetetlen hogy ne legyen keresztkötés adott oligonukleotid és több gén között. Ha a BLAST futás kész van, akkor a „Search Status” panelen belül a megfelelő gén próba ikon alatti pipára kattintva feljön az adott próba BLAST eredményének NCBI lapja. Ezért is célszerű tervezni több próbát, mert ha az egyiknél keresztkötés van, akkor egy másikkal lehet helyette próbálkozni.
Promoter analízis Egyre több molekuláris genetikai vizsgálatnál szükséges a gének szabályozó régióit vizsgálni. Több promoter illetve motívum adatbázis létezik, így tudni kell ezeket használni. Gyakorlatok 1. Promoter szekvencia kiszedése genomi szekvenciából NCBI blasttal. Az Os10g054340.mfa szekvencia file-t nyissuk ki, és a tartalmát másoljuk bele egy NCBI BLAST ablakba. Rizsben (Oryza sativa) keressük meg ennek a kitináz génnek a genomi találatát és szedjük ki az előtte lévő 2000 bp-t. Ez találatot ad az OSJNBb0015I11 genomi BAC klónnal (accession number AC051633.7), és az ATG start a 101866. bázistól kezdődik, és a plusz szálon van. Nyissuk meg ezt a szekvenciát, és váltsunk FASTA nézetre. Jobboldalt a „Change Region Shown” melleti nyílra kattintsunk, és a „Selected Region”-nál a from: 99866 és az end: 101865 számokat üssük be, majd nyomjuk meg az „Update View” gombot. Töltsük le és mentsük el a szekvenciát (pl. „Os10g054340_promoter.mfa”). Ezzel meg van a promoter szekvencia, amit analízis alá vethetünk. Egy másik kitináz gén (Os10g0542900.mfa) promoter régióját szedjük ki! Ez a gén az AC051633.7 accession szintén az OSJNBb0015I11 BAC klón plusz szálához illeszkedik. Ennek a szekvenciának a 85977-től 87976-ig terjedő 2 Kbp-os szakaszát szedjük ki hasonló módon. Ha netán a génszekvencia az ellenkező szálon van, akkor a promoter szakasza az ATG start után kezdődik, ilyenkor a kezdőpozíciótól downstream régiót kellene venni, ráadásul annak reverz komplementer szekvenciáját. Ezt az NCBI szekvenciánál úgy lehet előállítani, hogy a „Customize View” panelnél a „Show reverse complement” kis dobozkát kipipáljuk. Promoter szekvenciát másképpen is lehet kiszedni, ugyanis a BioEdit-ben van olyan lehetőség, hogy egy adott szekvenciának bizonyos részletét kivágjuk. Szekvencia szakaszok kiszedését scriptekkel is lehet elvégezni. Célszerű olyan élőlényeknél kiszedni a promotert amelynek elég sok genomi szekvenciáját szekvenálták eddig, és nemcsak cDNS-t. Vannak olyan adatbázisok is amelyek azonban már meglévő promotereket vagy upstream szekvenciákat tartalmaznak. 2. Különböző promoter, illetve transzkripciós faktor kötőhely (TFKH) adatbázisok
Transcriptional Regulatory Element Database: http://rulai.cshl.edu/cgi-bin/TRED/tred.cgi?process=home PLACE (A Database of PLAnt Cis-Acting Regulatory DNA Elements) (növényi TFKH adatbázis): http://www.dna.affrc.go.jp/PLACE/ PantCARE (növényi TFKH adatbázis): http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
Eukaryotic Promoter Database: http://cmgm.stanford.edu/help/manual/databases/epd.html The Eukaryotic Promoter Database: http://www.epd.isb-sib.ch/ Gene2Promoter: http://www.genomatix.de/online_help/help_gpd/gpd_help.html Database of Orthologous Promoters: http://doop.abc.hu/ Plant Promoter Database: http://ppdb.gene.nagoya-u.ac.jp/cgi-bin/index.cgi PRESTA promoter database: http://baloun.entu.cas.cz/presta/
3. PLACE adatbázis: Baloldalt a „Signal Scan Search”-re kattintsunk (jelkeresés). Másoljuk be a promoter szekvenciát a szövegdobozba, majd nyomjuk meg a „submit” gombot. Egy rakás szabályozó elemet találunk, amelynek a neve, pozíciója, orientációja, és szekvenciája van megadva valamint egy link a motívumról szóló leíráshoz. Arra is lehet használni az adatbázist, hogy van egy ismeretlen TFKH szekvenciánk, akkor le tudjuk ellenőrizni, hogy hasonlít-e egy másik, létező szekvenciához. Ilyenkor csak a TFKH szekvenciát írjuk bele a beviteli mezőbe. Egyszerre csak 1 szekvenciát lehet bevinni. 4. PlantCARE adatbázis: Három alapvető funkciója van, egyrészt lehet benne motívumokat keresni, másrészt pedig promoter szekvenciákat is lehet analizálni benne, hogy azok milyen TFKH-eket tartalmaznak. Emellett lehet benne motívumokat keresni egy Motif Sampler nevű algoritmus futtatásával. Először keressünk meg létező motívumokat az adatbázisban. Ehhez a „Query CARE” gombra kattintsunk. Ilyenkor különböző beviteli mezők találhatók ahol be lehet gépelni különböző adatokat (motívum azonosítója, neve, hosszú neve, gén azonosító, faj, sejt típus, funkció, szekvencia). Ilyenkor adott motívumról különböző táblázatos információk láthatók, mint faj, funkció, név/NCBI azonosító, szekvencia. A találatok számát lehet szabályozni. Példaként gépeljük be a megfelelő mezőkbe a megfelelő keresőszavakat: ID of a CARE: DRE – a Drought Response Element információi jönnek fel Cell Type: meristeme: merisztéma sejtekre jellemző motívumok jönnek fel Function: wound: a WUN-motif információi jönnek fel Sequence: ACGTGKC: ezzel olyan szekvenciák jönnek fel, amelyek vagy tartalmazzák a begépelt motívum szekvenciát, vagy nagymértékben hasonlítanak rá. Ez a szekvencia pedig az ABRE elem, ami az ABA Responsive Element Most pedig próbáljuk ki a PlantCARE adatbázis promoter szekvencia analizáló programját, ami létező, kísérletesen igazolt motívumokat képes megtalálni. Váltsunk Internet Explorer-re, mert a program nem kompatibilis a Firefox-szal, ha történetesen fut a Firefox. Nyomjuk meg a „Search for CARE” gombot, és másoljuk be a promoter szekvenciát a beviteli mezőbe, majd nyomjuk meg a „Search” gombot. Az eredményre várni kell néhány percet. A program az 1500 bp-nál hosszabb promoter szekvenciákat levágja. Az lap alján fel vannak sorolva a szekvenciában
megtalált szabélyozó elemek nevei, mellettük egy „+” gombbal. Ha rákattintunk a gombra, akkor a motívumra vonatkozó információk jönnek fel, mint pl. a motívum neve, melyik fajban fedezték fel először, melyik pozíciónál helyezkedik el, melyik szálon van, mi a score értéke, mi a szekvenciája, és mi a funkciója. Az ARE elemet pl. kukoricában fedezték fel (Zea mays), és a 31. bp-nál kezdődik, a plusz szálon, 6-os score értéke van, és a TGGTTT szekvenciával rendelkezik, egyébként anaerób körülmények között indukálódik, a neve is ezt jelenti: Anaerobic Response Element. 5. Motif Sampler A PlantCARE adatbázisnak a baloldali paneljén kattintsunk a „Motif Sampler” linkre, majd a lap közepén lévő „Motif Sampler” linkre kattintsunk. Ehhez a European Promoter Database-ből letöltött 3 darab 1Kbp Arabidopsis snRNA promotert fogjuk használni, amit az Ath_snRNA_promoters.mfa file-ban lehet megtekinteni (letölteni elég könnyű, a http://www.epd.isb-sib.ch/ honlapon a „Download promoter sequences” linkre kattintva a „Plant promoters (198)” melletti dobozt pipáljuk ki, és a lap alján válasszuk ki a -1000-től 0-ig terjedő promoter szakaszokat). A bemeneti dobozba másoljuk be mindhárom szekvenciát. Az alsó kisdobozkát pipáljuk ki, aszerint hogyha azt akarjuk, hogy az algoritmus mind a három szekvenciát vizsgálja meg. Válasszuk ki az Arabidopsis thaliana háttér modelljét. Ha pl. más növényeket használsz, elég, ha a „Plants (EPD)” opciót választod ki, mivel ebben az esetben általánosságban a növényi promoterek bázisösszetételét használja háttérként. Írjuk át a szekvenciánkénti maximális motívum számot 1-re, és a maximális átfedést 0-ra. Utána nyomjuk meg a „Start search” gombot! 6. oligo és dyad-analysis A Regulatory Sequence Analysis Tools (RSAT) website címét írjuk be böngészőbe: http://rsat.ulb.ac.be/rsat/. A baloldali panelen a „Pattern discovery” linkre kattintsunk, ahol lehet keresni oligonukleotidokat, illetve diádokat. A diádok olyan genetikai elemek, amelyek két oligonukleotid motívumból állnak, köztük egy meghatározott hosszúságú spacer szakasszal. Egyelőre egyszerű oligonukleotid szekvenciánkat vizsgáljunk, a diádok vizsgálata hasonlóan megy. Az előző pontban kiszedett 3 Arabidopsis snRNA promotert másoljuk be a bemeneti szövegdobozba, és a következő paramétereket állítsuk be:
A szekvencia típusát hagyjuk dna-nak A „purge sequences” (szekvencia szűrés) opciót hasznos, fontos funkció, ami azt csinálja, hogy a hasonló szekvencia részleteket (40 bp-nál hosszabb, max. 3 mismatch) kiszűri Keressünk 6 hosszú motívumokat Analizáljunk mindkét szálat Ne legyenek átfedő motívumok A szekvencia típusa legyen upstream Az faj legyen Arabidopsis thaliana
A Markov modell rendje legyen 2 Az összes eredménymezőt pipáljuk ki
Nyomjuk meg a „GO” gombot, majd nézzük meg az eredményt. Ha az email kisdobozt pipáljuk ki, akkor email-en keresztül is megkaphatjuk az eredményt, amelyek itt láthatók: seq
identifier
agggag
agggag|ctccct
0.001673
actata
actata|tatagt
0.002008
observed_freq
exp_freq
occ
exp_occ
0.000171
5
0.51
0.000302
6
0.9
occ_P
occ_E
occ_sig
rank
0.00019
0.5
0.3
1
0.00034
0.92
0.04
2
A legfontosabb eredmények a következők: Seq: maga a megtalált szekvencia Identifier: azonosító Oberved_freq: megfigyelt gyakoriság/bp Exp_freq: várt gyakoriság/bp Occ: valódi előfordulás Exp_occ: várt gyakoriság Occ_P: a háttér bázis összetétel alapján számított motívum előfordulási gyakoriság Occ_E: gyakoriság E-érték Occ_sig: az előfordul Sok szignifikancia értéke Rank: rangsor
7. gene-regulation.com A gene-regulation egy olyan website, amely széles körben ismert és használt szabályozó elemeket tartalmazó adatbázisokat tartalmaz, pl. a TRANSFAC vagy a TRANSPATH. A címe http://www.gene-regulation.com/pub/databases.html.