Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály
SZEKVENCIA ADATBÁZISOK
-Accession #? -Annotációja elérhető?
Már benne van az adatbázisokban? Egyéb információ?
Fehérjét kódol? Tulajdonságai? -Hol lokalizálódik? -Oldható? -3D szerkezete?
Vannak konzervált szakaszai? Illesztések? Domének? Funkciója?
PCReztél,klónoztál egy gént, szekvencia a kezedben
Vannak hasonló szekvenciák? -azonosság mértéke? % -Géncsalád/fehérjecsalád?
-Expresszió? -Mutációk?
Rokonsági kapcsolatok? -Törzsfa
NUKLEOTID SZEKVENCIA ADATBÁZISOK NCBI – Genbank (USA) DDBJ (DNA DataBase of Japan) European nucleotide archive EBI
TGI – Gene Index Project Genom adatbázisok
FEHÉRJE ADATBÁZISOK - Swissprot – manuálisan annotált, ellenőrzött - A Swissprotba még be nem került szekvenciák, fordítás alapján készült, szoftveresen annotált, nem ellenőrzött!
- 3D szerkezetek alapján létrehozott szekvenciák
PIR – Protein Information Resource (UniProt konzorcium tagja)
SPECIALIZÁLT ADATBÁZISOK Faj, szövetspecifikus, szignál transzdukciós útvonal specifikus, stb… ESTs – Expressed Sequence Tag Gene Expression Omnibus (NCBI)
Drosophila adatbázis Rfam – RNS családok adatbázisa TRANSFAC – Transzkripciós faktor adatbázis
Hogyan is kezdődött? Margaret Oakley Dayhoff : Az első fehérje adatbázis (1965) Az első program a szekvenciák illesztésére
Biológiai adatokat elérni, elemezni, tárolni, annotálni, vizuálisan elemezni Mi kellett ehhez? Jó számítógép Tároló kapacitás Megfelelő algoritmusok Valami megfelelő formátum Egymással összefüggő adatbázisok
Notepad, a barátunk
TXT = fasta, genbank, xml, aln, nwk, cff
fasta formátum
> Jellel kezdődik, mögötte bármilyen az adattal kapcsolatos információ jöhet, majd a szekvencia új sorban, általában 60-80 nukelotidos sorokba betördelve Lehet nukleotid és lehet peptid szekvencia is! Tömör, lényegre törő Számos alkalmazás bemeneti adata Mi magunk is tudunk fasta fileokat gyártani
GenBank formátum Sok információt (ANNOTÁCIÓT) tartalmaz Nukleotid/Fehérje fastahoz képest kevésbé használják Előfordulhat, hogy pont az annotációra van szükségünk! Pl. referenciák, dns vagy mrns? milyen fajból? milyen szövetből?
Accession # A DNS vagy fehérje adat egyedi azonosítója Adott adatbázisra vonatkozik – minden adatbázis más azonosító Lehetnek változatai Nem feltétlenül jelent unikális szekvencia információt pl.: ugyanazt a gént többen megtalálták, más-más azonosítóval jelölik Gén index (gi) egyedi azonosító és leginkább az NCBI használja, irodalomban szinte soha nem használjuk
Annotáció
Minden amit arról a biológiai adatról tudnunk kell
GenBank formátum Mi ez? Honnan származik #1? Publikáció?
Honnan származik #2? faj molekula típusa fajta kromoszóma szövet fejlődési állapot
Szekvencia
mérete neve
Szekvenciával kapcsolatos infók UniProt Q43659
TrEMBL
Kereszt referenciák Milyen azonosítóval találjuk meg más adatbankokban?
Ugyanaz a gén -sok fajtában -több kópiában
Van róla szerkezet infó
Melyik fehérje család? Milyen domének/funkció
Protein FAMilies
Újabb és újabb infók (újabb fajokban, fajtákban azonos szekvencia, további publikációk, újabb információk (pl. promoter, szignál peptid)!
Hogyan kereshetünk a szekvencia adatbázisokban?
Szabadszavas keresés gén neve (pl. Glu-A1x) fehérje család neve (pl. HMW glutenin) tovább szűkíthető pl. complete /partial seq pl. csak T. aestivumban Szekvencia alapján PCR – szekvenálás- kromatogram-szekvencia
Szabadszavas keresés pl. NCBI Pl.: Grain softness protein Irodalom
Egészségügyi vonatkozások
Taxonómiai infók NUKLEOTID Expresszió Primerek
Szabadszavas keresés pl. NCBI Genom szintű információk Milyen genomokban? SNP – variabilitás? gDNA, cDNA klóntárak?
Gén szintű adatok Homológok? Expressziós profilok?
FEHÉRJE ADATOK Konzerváltság? Domainek, funkció? Rokon fehérjék? Szerkezet?
Milyen szabályozási útvonalakban vesz részt?
Nagyon sok találat lehet! Érdemes szűrni!
Keresés hasonlóság alapján Kell hozzá egy vagy több szekvencia (QUERY), amit egy másik szekvenciához, vagy egy adatbázis adataihoz hasonlítunk (SUBJECT) Kell hozzá egy megfelelő algoritmus (pl. BLAST, FASTA stb.) A keresés gyors és elég szenzitív kell legyen FASTA – két szekvenciát hasonlít össze, hasonló nukleotid szekvenciák összehasonlítása esetében jobb, mint a BLAST BLAST
– jóval gyorsabb, általában véve hasonlóan érzékeny algoritmus - lokálisan illeszt - eredmény adott szempontok alapján értékelve (pl. score, evalue) - beállítható paraméterek (wordsize, gap cost, match scores, treshholds, stb)
Wordsize - BLAST-nál
protein wordsize – min. 3 DNS – min. 11
Variációk FASTA:
nukleotid/nukleotid vagy fehérje/fehérje
FASTX:
Lefordított DNS-t fehérjéhez
TFASTA:
Fehérjét lefordított DNS-hez
BLASTN:
nukelotid / nukleotid adatbázis
BLASTP:
fehérje / fehérje adatbázis
BLASTX:
6-frame fordított DNS / fehérje adatbázis
TBLASTN:
fehérje / 6-frame fordított DNS adatbázis
TBLASTX:
6-frame fordított DNS / 6-frame fordított DNS adatbázis
Illesztés
Lokális vagy globális
Dilemma:
DNS vagy fehérje adatbázisban keressünk?
Attól függ!!! Mi a cél? (Pl. PCR primer tervezés, akkor DNS) Mi a biológiai kérdés? (pl. expresszált legyen? ) Melyikkel pontosabb? Melyikkel veszítünk kevesebb adatot?
Hasonlóság alapján
Nukelotid szekvencia A, C, G, T nem kódoló
Melyiket ???
Fehérje aminosav szint fehérje funkciója?
Dilemma:
DNS vagy fehérje adatbázisban keressünk?
Először fehérje szinten, utána nukleinsav szinten Mennyire átlátható, ha két nukleotid szekvenciát hasonlítunk össze? 3 x az aminosavak száma és csak A, C, T, G – akár több ezer betű Mennyire pontos? Például egy 50%-os szekvencia azonosság sok vagy kevés? Jelenthet jó, de jelenthet rossz illesztést is! Ha lefordítjuk a nukelotid szekvenciát veszíthetünk információt? Degenerált kodontábla (egy aminosavat több kód is jellemezhet) Nagyon eltérő DNS szekvencia kódolhat hasonló fehérjét , hasonló DNS kódolhat nagyon eltérő funkciójú fehérjét
Konzerváltság fehérje szinten erősebb! DNS szinten jóval gyakoribb a mutáció, de ez nem feltétlen jelent változást fehérje szinten Domainek jelentősége Fehérjék funkciója, „foglalkozása” (Gene Ontology, GO terms)
Pár tipp a szekvencia adatbázisok használatához Használd a legfrissebb adatbázis verziókat. Elsőként BLASTolj! Utána jöhetnek a finomabb módszerek (FASTA,…) FASTA esetén mindkét szálon keress! Ha egy mód van rá fordítsd le nukleotidból aminosav sorenddé Mind a hat transzlációs keretet használd! E < 0.05 statisztikailag szignifikáns, általában biológiailag is értelmes eredmény. Ha a szekvenciád sok ismétlődő szakaszt tartalmaz készíts egy olyan szekvencia változatot, amiből ezeket törlöd és így ismételd meg a szekvencia keresést!
Hogy tudjuk elmenteni a találatokat?
Fasta formátumban Igényeinknek megfelelően szűrt keresés után Akár több szekvnciát egyszerre Ne használj Word-öt a szekvenciák mentéséhez, szerkesztéséhez!!! A Word formáz, felesleges karaktereket szúr be!!! Nem tudod fasta formátumban menteni! Notepad stb.
Táblázatos jellegű adatokat (pl. blast találati listáját) csv formátumban
Genomok genom projektek, genomböngészők Virális RNS genom – bakteriofág MS2 (Fiers, 1976) Phi X174 Phage genom – az első DNS genom (Sanger, 1977)
Első baktérium genom- H. influenzae (1995) Első eukarióta genom – S. cerevisiae (1995) Első növény – Arabidopsis thaliana (2000) kétszikűek modell növénye Első egyszikű – Oryza sativa (2002) Humán genom (2003) Jelentős technológiai fejlődés
Genomok mérete – kódoló vs. nem kódoló
Plant Genome Composition: Junk vs. Genes Arabidopsis Moss Rice Tomato Soy Canola Potato
Human
repetitive “junk” DNA
Grass Corn
Wheat
valuable genespace
(C. Guze 2005)
Miért kell nekünk ennyi (növényi) genomot szekvenálni? •Új gének azonosítása •Promoterek / génexpresszió szabályozása •Génexpressziós vizsgálatok • (qRT PCR, microarray, RNAseq) •Metabolikus és szabályozási útvonalak mi, mikor, hol, miért, mit csinál? signalling •Környezeti változások abiotikus (pl. fagy, hő, szárazság , só…) biotikus (kártevők …) •Fejlődés biológiai ismeretek •Nagyobb terméshozam, stabilitás •Táplálkozástani vonatkozások •Rokonsági kapcsolatok (pl. ha megvan a rizs szekvenciája, sokat elárul a búzáról is)
A hexaploid búza genomjának szekvenálása - A nagy kihívás International Wheat Genome Sequencing Consortium (www.wheatgenome.org) AA, BB, DD – 3 pár genom Genomonként 7 kromoszóma Mérete 4 x humán genom Rengeteg a repetitív szakasz
Genom browserek
Genom browserek
Genom browser •Rengeteg információ – vizuális megjelenítés szükséges •Vonalzó szerű kromoszóma ábrázolás, zoomolható •Gének tulajdonságok a genomhoz illesztve
Genom browserek •Kereshető •Gén szerkezete •irányultsága, 3’ és 5’ UTR, promoter, exon/intron) •Hasonló szekvenciák kereshetőek •Ortológok és paralógok •Gén, transzkript, fehérje információk •Expressziós adatok elérhetőek •(EST szekvenciák ugyanúgy illesztve) •pl. melyik szövetben termelődik?
Genom szinténiák •Teljes genomok egymáshoz illeszthetőek •Konzervált kromoszóma szakaszok, lókuszok stb •Evolúciós elemzések
Hátradőlhetünk? Egy szekvenált genom = egy fajta genomját jelenti pl. búza Chinese Spring nevű fajta -ez egy nem termesztett fajta - minősége nem jó „állatorvosi ló” Amire kíváncsiak lennénk: a termesztett fajták hasznos tulajdonságokra nézve mekkora a változatosság? mi az ami meg is nyilvánul (fehérje expresszió) Megéri-e új és új fajtákat teljes egészében megszekvenálni ? - NEM!!! csak amire kíváncsiak vagyunk NGS projectek, SNP analízis
Humán genom – 1000 genomes egyedi orvoslás
[email protected] MTA Agrártudományi Kutatóközpont Mezőgazdasági Intézet Alkalmazott Genomikai Osztály