Molekuláris biológiai adatbázisok és adatbázis keresések
Barta Endre ― Tóth Gábor MBK Bioinformatikai Csoport
Adatbázisok: megvalósítás
Szöveges adatbázis
általában szekvenciális, néha indexelt megfelelő programmal indexelt bináris formába alakítható (pl. EMBOSS/dbiflat, BLAST/formatdb) „flatfile” – emberi olvasásra is alkalmas XML (eXtensibe Markup Language; DTD: Document Type Definition)
Bináris
adattárolás és adatmegjelenítés különválik számítógépes programmal dolgozandó fel
ASN.1 („Abstract Syntax Notation 1”) – adatcsere szabvány
Relációs adatbázis
keresztreferenciák, logikai kapcsolatok kezelése többszörös indexelhetőség bonyolult lekérdezések lehetősége gyors hozzáférés az adatokhoz adatbáziskezelő program
Molecular phylogenetics
2
XML formátum (példa)
Molecular phylogenetics
3
Relációs adatbázisok szerkezete
Tábla 1
Mező 1 Mező 2 Mező n
Egy DNS adatbanknál egyszerű, de egy nagyobb adatbanknál sokkal bonyolultabb struktúra
Tábla 2
Mező 3 Mező 4 Mező n
Molecular phylogenetics
4
Kereszthivatkozások (táblák összekapcsolása)
Tábla 1 (GenBank)
Mező 1 (LOCUS) … Mező n taxid pl. 3702
Több rekord is mutathat ugyanarra a fajra
Molecular phylogenetics
Tábla 2 (Taxonomy)
Mező 1 (taxid, pl. 3702) … Mező n (fajnév) Arabidopsis thaliana
5
Szekvencia adatbázis szerkezete
Tábla (pl. GenBank)
Rekord 1
(Annotáció)
Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb.
(Szekvencia)
Å szöveges keresés
Å hasonlóság keresés
Mező n (pl. cgagcatgcatctagtagcagcgtactac)
Molecular phylogenetics
6
Szöveges keresés adatbázisokban
Flatfile-ban keresés egy szóra, szórészletre
A találat sorát (pl. UNIX grep) és környezetét látjuk csak, holott mi az egész rekordra lennénk kíváncsiak
Megoldás: adatbázismotorok
SQL (Simple Query Language), pl. MS Access, Oracle, MySQL stb.
ENSEMBL, UCSC (MySQL) EMBL, InterPro (Oracle)
Saját motor
ACEDB SRS (icarus)
Molecular phylogenetics
7
Keresés alapfilozófiája
SQL:
SELECT * (összes olyan rekord) FROM tábla (pl. GenBank) WHERE mező1 CONTAINS/SIMILAR/IDENTICAL (LIKE) valami AND … SORT BY … DISPLAY … stb. Ezeket össze lehet fűzni
Pl. keressük az összes burgonya szekvenciát
SELECT * FROM GenBank WHERE OS=„Solanum tuberosum”
Molecular phylogenetics
8
Dinamikus weboldalak
Megadjuk, hogy mit akarunk keresni Kiválasztjuk, hogy miben A szerver ezt átalakítja pl. egy SQL paranccsá (sokszor ezt meg is lehet nézni) Az SQL parancsot végrehajtja egy vagy több adatbázison (ezek lehetnek különböző szervereken) A kapott eredményt „on-the-fly” átalakítja és megjeleníti a kliens böngészőn
Molecular phylogenetics
9
Keresési stratégiák
Megfelelő kulcsszavak kiválasztása Szélesebbtől a szűkebb fele 2 legfontosabb hiba:
Túl sok találat Túl kevés találat
Általában mindegy hogy kisbetű vagy nagybetű Kifejezéseket idézőjelbe Logikai kifejezések használata
a AND b = akkor, ha mindkettő megvan az adott rekordban a OR b = bármelyikben megvan a BUT(AND)NOT b = a benne van, de b nincs
http://www.altavista.com/help/adv_search/syntax
Molecular phylogenetics
10
Molekuláris biológiai adatbázisok típusai
Elsődleges adatbázisok
DNS (RNS) adatbázisok (International Nucleotide Sequence Database Collaboration)
(pl. térszerkezeti adatbázisok)
Másodlagos v. származtatott adatbázisok
EMBL (European Bioinformatics Institute, EBI) GenBank (National Center for Biotechnology Information, NCBI) DDBJ (DNA DataBank of Japan)
Fehérje adatbankok Motívum adatbankok
Egyéb (nem szekvencia) adatbázisok (Nucleic Acids Res. januári első száma)
Molecular phylogenetics
11
Molecular phylogenetics
12
Molecular phylogenetics
13
Elsődleges adatbázisok
Mi a közös a 3 elsődleges adatbankban?
International Nucleotide Sequence Database Collaboration
adatcsere naponta taxonómia projekt azonos „accession number” közös „feature table”
Elég eggyel foglalkozni, főbb adatokban nincs különbség Eltérő adatbázis-szerkezet/formátum formátumkonverzió: pl. readseq (UNIX), seqret (EMBOSS), ForCon (Windows)
Molecular phylogenetics
14
Adatbázisok története – Honnan jönnek az adatok?
Irodalomban közölt adatok kézi bevitele Papíron beküldött szekvenciák (pl. GCG-ben „Submission form”) Csak akkor fogadták el a cikket, ha a benne lévő szekvenciát már beküldték valamelyik adatbankba, innentől adatbankok szinkronizálása
Floppy Internet (WWW, e-mail)
egyedileg a kutatók által nagyobb adagokban a szekvenáló központokból
Molecular phylogenetics
15
Adatbázisok és a tárolókapacitás növekedése (MBK vs. EMBL)
1990: MicroVax szerver
1993: SUN SparcServer 1000
8x 512 Mbyte HDD – 150 Mbp
1997: SUN Ultra Enterprise II
2x 160 Mbyte HDD – 50 Mbp
4x 9 Gbyte HDD – 1 Gbp
2002: SUN Fire V480 8x 180Gbyte HDD – 38 Gbp Szekvencia + annotáció + index: ~140 Gbyte (2004)
Molecular phylogenetics
16
Molecular phylogenetics
17
Adatbázisok exponenciális növekedése EMBL: rekordok száma (millió)
Molecular phylogenetics
EMBL: nukleotidok száma (gigabázis)
18
Adatbázisok szerkezete
Úgynevezett „flatfile” formátum
EMBL: 64,8 Gb – 38,3 millió rekord (2004.04.15.) (WGS szekcióval együtt)
GenBank Release 140 (2004. február) 32,6 millió szekvencia 37,9 milliárd nukleotid (37,9 gigabázis) ~127 Gbyte (indexekkel együtt ~143 GByte)
Szekciók/divíziók
Rendszertani kategóriák alapján De inkább ahogy történelmileg alakult
Rekordok (vagy „entry”-k) Mezők
Annotáció Szekvencia
Molecular phylogenetics
19
EMBL szekciók
Eredeti felosztás: Pl. 1989-ben vírusok, prokarióták, eukarióták stb.
Release 18, february 1989 Division Entries ---------------- ------Artificial 509 Chloroplast 278 Genetic elements 92 Mitochondrial 584 Prokaryotic 2576 Viral/Phage 2443 Eukaryotic 13417 Unclassified 46 Unannotated 2993 ---------------- ------Total 22938
Nucleotides ----------195102 636203 102768 661670 415673 3722036 15100242 70092 3346044 ----------27249830
Nagy mennyiségű szekvenálás → újabb szekciók bevezetése (pl. EST, HTG, GSS stb.), valamint egyes szekciók felosztása vált szükségessé
Molecular phylogenetics
20
Főbb EMBL szekciók I.
EST: „expressed sequence tag” (cDNS részl. szekv.) STS: „sequence tagged site” (PCR) GSS: „genome survey sequences” (random genomi) HTG: „high throughput genomic” (unfinished) WGS: „whole genome shotgun” PLN: növények FUN: gombák PRO: prokarióta ORG: organellum VRL: vírus PHG: bakteriofág PAT: szabadalommal védett SYN: szintetikus
Molecular phylogenetics
21
Főbb EMBL szekciók II.
HUM: humán MUS: egér ROD: egyéb rágcsáló MAM: egyéb emlős VRT: egyéb gerinces INV: gerinctelen
Molecular phylogenetics
22
Különböző EMBL szekciók mérete EMBL Release 78
EST →
HTG →
Molecular phylogenetics
23
EMBL: megoszlás fajok szerint (első 10) Nukleotidok száma: ecetmuslica egyéb
kutya ember
csimpánz patkány
egér
Molecular phylogenetics
24
Egy EMBL rekord (részlet) ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC OC XX RN RP RX RX RA RT RL XX DR DR XX FH FH FT FT FT FT FT FT
HSCYCLOX
standard; mRNA; HUM; 3387 BP.
M90100; M90100.1 30-MAR-1992 (Rel. 31, Created) 04-MAR-2000 (Rel. 63, Last updated, Version 7) Homo sapiens cyclooxygenase-2 (Cox-2) mRNA, complete cds. cyclooxygenase-2; prostaglandin synthase. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. [1] 1-3387 MEDLINE; 92366465. PUBMED; 1380156. Hla T., Neilson K.; "Human cyclooxygenase-2 cDNA"; Proc. Natl. Acad. Sci. U.S.A. 89(16):7384-7388(1992). GOA; P35354. SWISS-PROT; P35354; PGH2_HUMAN. Key
Location/Qualifiers
source
1..3387 /db_xref="taxon:9606" /mol_type="mRNA" /organism="Homo sapiens" /cell_type="endothelial" /tissue_type="umbilical vein"
Molecular phylogenetics
25
Egy EMBL rekord (folytatás) FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT XX SQ
5'UTR CDS
sig_peptide mat_peptide
3'UTR polyA_signal
1..97 /gene="Cox-2" 98..1912 /codon_start=1 /db_xref="GOA:P35354" /db_xref="SWISS-PROT:P35354" /gene="Cox-2" /EC_number="1.14.99.1" /product="cyclooxygenase-2" /protein_id="AAA58433.1" /translation="MLARALLLCAVLALSHTANPCCSHPCQNRGVCMSVGFDQYKCDCT RTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYVLT ... KGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSFSVPDPELIKT VTINASSSRSGLDDINPTVLLKERSTEL" 98..148 /gene="Cox-2" 149..1909 /gene="Cox-2" /EC_number="1.14.99.1" /product="cyclooxygenase-2" 1913..3387 /gene="Cox-2" 3369..3374 /gene="Cox-2"
Sequence 3387 BP; 1010 A; 712 C; gtccaggaac tcctcagcag cgcctccttc aagcctaccc ccgcgccgcg ccctgcccgc ... tacctgaact tttgcaagtt ttcaggtaaa ttaagaagat taaaaaaaaa aaaaaag
633 G; 1032 T; 0 other; agctccacag ccagacgccc tcagacagca cgctgcgatg ctcgcccgcg ccctgctgct cctcagctca ggactgctat ttagctcctc
60 120 3360 3387
//
Molecular phylogenetics
26
Főbb mezők az EMBL adatbankban
ID
AC SV DT DE KW O? R? DR CC FT XX SQ //
egyedi azonosító, (entryname dataclass; molecule; division; sequencelength BP.) accession number, változatlan, erre kell hivatkozni szekvencia verzió létrehozás, módosítás ideje description, a szekvencia rövid leírása kulcsszavak teljes taxonómiai besorolás referenciák adatbázis keresztreferenciák megjegyzések feature table: a szekvencia egy-egy részének a tulajdonsága üres, csak térkitöltő szekvencia rekord vége
Molecular phylogenetics
27
Annotáció: EMBL vs. GenBank
EMBL:
ID – egyedi azonosító
GenBank:
LOCUS – kihalóban? formátum miatt marad
AC – egyedi azonosító!
= GenBank ACCESSION
SV – entry verzió (volt: NI)
ACCESSION – egyedi! = EMBL AC
VERSION – entry verzió* GI = EMBL NI
DE – rövid leírás OS – faj OC – taxonómiai besorolás FT – „feature table”:
tulajdonság/pozíció
FT CDS – kódoló szekvencia (PID)
Molecular phylogenetics
DEFINITION – rövid leírás SOURCE – faj triviális neve ORGANISM – faj, taxonómia FEATURES – „feature table” tulajdonság/pozíció
CDS – kódoló szekvencia
/protein_id /db_xref – tr. fehérje GI No. * Accession.Version GI: NCBI belső azonosító (ld. BLAST DB)
28
Egy GenBank rekord (részlet) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
HUMCYCLOX 3387 bp mRNA linear PRI 31-DEC-1994 Homo sapiens cyclooxygenase-2 (Cox-2) mRNA, complete cds. M90100 M90100.1 GI:181253 cyclooxygenase-2; prostaglandin synthase. Homo sapiens (human) Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 3387) AUTHORS Hla,T. and Neilson,K. TITLE Human cyclooxygenase-2 cDNA JOURNAL Proc. Natl. Acad. Sci. U.S.A. 89 (16), 7384-7388 (1992) MEDLINE 92366465 PUBMED 1380156 COMMENT Original source text: Homo sapiens umbilical vein cDNA to mRNA. FEATURES Location/Qualifiers source 1..3387 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /cell_type="endothelial" /tissue_type="umbilical vein" gene 1..3387 /gene="Cox-2" 5'UTR 1..97 /gene="Cox-2"
Molecular phylogenetics
29
Egy GenBank rekord (folytatás) CDS
98..1912 /gene="Cox-2" /EC_number="1.14.99.1" /codon_start=1 /product="cyclooxygenase-2" /protein_id="AAA58433.1" /db_xref="GI:181254" /translation="MLARALLLCAVLALSHTANPCCSHPCQNRGVCMSVGFDQYKCDC TRTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYV ... VEVGAPFSLKGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSF SVPDPELIKTVTINASSSRSGLDDINPTVLLKERSTEL" sig_peptide 98..148 /gene="Cox-2" mat_peptide 149..1909 /gene="Cox-2" /product="cyclooxygenase-2" /EC_number="1.14.99.1" 3'UTR 1913..3387 /gene="Cox-2" polyA_signal 3369..3374 /gene="Cox-2" BASE COUNT 1010 a 712 c 633 g 1032 t ORIGIN 1 gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 61 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct ... 3301 tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3361 ttaagaagat taaaaaaaaa aaaaaag //
Molecular phylogenetics
30
EMBL adatbázis fejlődése
EMBL Sequence Version Archive http://www.ebi.ac.uk/cgi-bin/sva/sva.pl Nem csak az adatok, hanem az adatbázis szerkezete is folyamatosan változik
elsősorban a „feature table” új keresztreferenciák más adatbázisokkal
Molecular phylogenetics
31
Szekvencia-beküldés az adatbankokba
EMBL: WEBin
GenBank: BankIt
(http://www.ebi.ac.uk/submission/webin.html) (http://www.ncbi.nlm.nih.gov/BankIt/index.html)
EMBL/GenBank: Sequin (lokálisan futó PC-s program)
(ftp://ftp.ebi.ac.uk/pub/software/sequin/)
Molecular phylogenetics
32
WEBIN
Molecular phylogenetics
33
Molecular phylogenetics
34
Fehérjeszekvencia adatbázisok I.
Swiss-Prot
Kollaborációban készíti a SIB és az EBI Protein tudásbázis (ExPASy = Expert Protein Analysis System) Legjobban annotált adatbázis (kézi annotáció) Jó keresztreferenciák Non-profit kutatóknak ingyenes EMBL-hez hasonló adatbázis-szerkezet Szekvenciák lassú megjelenése
TrEMBL
Translated EMBL Automatikusan annotált SP-TrEMBL és REM-TrEMBL
Molecular phylogenetics
35
Fehérjeszekvencia adatbázisok II.
PIR (Protein Identification Resource)
PIR-PSD Formátum: NBRF/PIR Kézi annotáció Keresztreferenciák (SWISS-PROT jobb!) Szupercsalád-besorolás 4 szekció: PIR1, PIR2, PIR3, PIR4 (legjobban annotált: PIR1) Megszűnik → beolvadt az UniProt adatbázisba
Genpept
Lefordított GenBank CDS-ek (NCBI) Mint TrEMBL
Molecular phylogenetics
36
Fehérjeszekvencia adatbázisok III.
Universal Protein Resource (UniProt)
Az EBI/SIB Swiss-Prot + TrEMBL és a PIR-PSD egyesítésével létrehozott adatbank EBI + SIB + PIR → UniProt Consortium (2002) Három adatbázisréteg:
UniProt tudásbázis: két rész
UniProt Archive (UniParc) — az összes publikus fehérjeszekvencia (nem redundáns) UniProt Knowledgebase (UniProt) — megbízhatóan, konzisztensen és gazdagon annotált központi fehérjeszekvencia-adatbázis UniProt Non-redundant Reference (UniRef) — kondenzált szekvenciakészlet kézzel annotált rekordok: Swiss-Prot (2004 végéig licenszköteles) számítógéppel elemzett rekordok (kézi annotáció előtt): TrEMBL
UniRef
UniRef100 (=UniProt), UniRef90, UniRef50
Molecular phylogenetics
37
Egy UniProt (Swiss-Prot) rekord ID AC DT DT DT DE DE GN OS OC OC OX RN RP RA RA RT RL DR DR DR DR DR DR DR DR DR DR FT SQ
AHA1_HUMAN STANDARD; PRT; 338 AA. O95433; Q96IL6; Q9P060; 16-OCT-2001 (Rel. 40, Created) 16-OCT-2001 (Rel. 40, Last sequence update) 15-SEP-2003 (Rel. 42, Last annotation update) Activator of 90 kDa heat shock protein ATPase homolog 1 (AHA1) (p38) (HSPC322). AHSA1 OR C14ORF3. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. Michaud J., Chrast R., Rossier C., Papassavas M.P., Antonarakis S.E., Scott H.S.; "Isolation of a novel gene underexpressed in Down syndrome."; Submitted (JUN-1999) to the EMBL/GenBank/DDBJ databases. EMBL; AF111168; AAD09623.1; -. EMBL; AJ243310; CAB45684.1; -. EMBL; AF164791; AAF80755.1; -. EMBL; BC000321; AAH00321.1; -. EMBL; BC007398; AAH07398.1; ALT_INIT. EMBL; AF161440; AAF29000.1; -. PIR; JC7769; JC7769. Genew; HGNC:1189; AHSA1. InterPro; IPR007821; DUF704. Pfam; PF05146; DUF704; 1. CONFLICT 67 68 EA -> CL (IN REF. 4). SEQUENCE 338 AA; 38274 MW; E6B686DDD8D7D729 CRC64; MAKWGEGDPR WIVEERADAT NVNNWHWTER DASNWSTDKL KTLFLAVQVQ NEEGKCEVTE VSKLDGEASI NNRKGKLIFF YEWSVKLNWT GTSKSGVQYK GHVEIPNLSD ENSVDEVEIS VSLAKDEPDT NLVALMKEEG VKLLREAMGI YISTLKTEFT QGMILPTMNG ESVDPVGQPA LKTEERKAKP APSKTQARPV GVKIPTCKIT LKETFLTSPE ELYRVFTTQE LVQAFTHAPA TLEADRGGKF HMVDGNVSGE FTDLVPEKHI VMKWRFKSWP EGHFATITLT FIDKNGETEL CMEGRGIPAP EEERTRQGWQ RYYFEGIKQT FGYGARLF
//
Molecular phylogenetics
38
„Nem redundáns” adatbázisok
NCBI NRDB
OWL (http://www.bioinf.man.ac.uk/dbbrowser/OWL/)
összetett, nem redundáns fehérje adatbázis egyetlen aminosavban eltérő szekvenciák közül csak 1 marad prioritási sorrend: SWISS-PROT, PIR1-PIR4, GenPept, NRL-3D
NCBI UniGene
egyesített GenPept, PDB szekvenciák, SWISS-PROT, PIR nem azonos (!) fehérjék (polimorfizmus és szekvenálási hibák miatt redundáns) nr: indexelt BLAST formátumban letölthető
egyedi gének átfedő EST-k klaszterezésével 10 állat: pl. humán, egér, patkány, szarvasmarha, béka, zebrahal 7 növény: pl. rizs, búza, árpa, kukorica
TIGR TC (Tentative Consensus)
klaszterezett és összefűzött EST-szekvenciák
Molecular phylogenetics
39
Molecular phylogenetics
40
http://www.tigr.org/
Molecular phylogenetics
41
Molecular phylogenetics
42
Fehérje-mintázat, -motívum és profil-adatbázisok ADATBÁZIS
VERZIÓ
REKORDOK
Swiss-Prot
42.5
138922
PRINTS
37.0
1850
TrEMBL
25.5
1013263
Pfam
11.0
7255
PROSITE patterns
18.10
1659
PROSITE preprofiles
N/A
131
ProDom
2002.1
1021
InterPro
7.1
10403
Smart
3.4
654
TIGRFAMs
3.0
1977
PIR SuperFamily
2.3
219
SUPERFAMILY
1.63
552
Molecular phylogenetics
INTERPRO adatbázis 2003. dec.
43
Az INTERPRO adatbázis generálása
Molecular phylogenetics
44
PROSITE adatbank
Protein családok és domének adatbázisa Biológiailag szignifikáns:
Helyek Mintázatok Profilok
Ezek alapján lehet eldönteni, hogy egy adott fehérje milyen csoportba tartozik
http://www.expasy.ch/prosite/
Molecular phylogenetics
45
Pfam (Protein families database of alignments and HMMs)
Gyűjteménye a:
Többszörös illesztéseknek, és a Hidden Markov modelleknek
A legtöbb protein domént tartalmazza Pfam-A: Kurátorok által annotált domének Pfam-B: Automatikusan generált domének Fehérjék doménszerkezetének vizsgálata http://www.sanger.ac.uk/Software/Pfam/in dex.shtml
Molecular phylogenetics
46
PRINTS adatbázis
Protein „fingerprint”-ek gyűjteménye „fingerprint” = konzerválódott motívumok csoportja UNIPROT-ból nyerik ki http://www.bioinf.man.ac.uk/dbbrowser/P RINTS/
Molecular phylogenetics
47
PRODOM protein domén adatbázis
Automatikus keresése a homológ doméneknek Módszer: rekurzív PSI-BLAST http://prodes.toulouse.inra.fr/prodom/curr ent/html/home.php
Molecular phylogenetics
48
SMART (Simple Modular Architecture Research Tool)
Genetikailag „mozgó” domének vizsgálata Domén felépítés vizsgálata Több mint 500 domén részletes annotációja http://smart.embl-heidelberg.de/
Molecular phylogenetics
49
TIGRFAM
Protein családok gyűjteménye Többszörös illesztések Funkcionálisan rokon fehérjék azonosítása http://www.tigr.org/TIGRFAMs/index.sht ml
Molecular phylogenetics
50
PIR SuperFamily (PIRSF)
Klasszifikációs rendszer A fehérjék teljes aminosav sorrendjének az evolúciós elemzésén alapul A családok tagjai monofiletikusak és homeomorfak http://pir.georgetown.edu/iproclass/
Molecular phylogenetics
51
SUPERFAMILY
Ismert szerkezetű fehérjék Hidden Markov Model profilok A SCOP adatbázisban alkalmazott szerkezeti osztályozáson alapul http://supfam.mrclmb.cam.ac.uk/SUPERFAMILY/
Molecular phylogenetics
52
Evolúciós adatbázisok I., Tree of Life
Biológusok közös erőfeszítése egy teljes törzsfa kialakítására
http://tolweb.org/tree/
Molecular phylogenetics
53
Evolúciós adatbázisok I., Treebase
Filogenetikai kapcsolatok adatbázisa Adatokat a kutatók küldik be
http://www.treebase.org/ treebase/index.html
Molecular phylogenetics
54
3-D fehérjetérszerkezeti adatbázisok
PDB (Protein Data Bank)
MMDB
EBI: http://www.ebi.ac.uk/pdb/
SCOP
NCBI: http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml fehérje és nukleinsav; PDB egy része (elméleti modellek nélkül)
EBI-MSD (~PDB)
Research Collaboratory for Structural Bioinformatics, USA http://www.rcsb.org/pdb/ kísérletesen meghatározott szerkezetek (röntgendiffrakció, NMR, MRI)
3-D szerkezetek hierarchikus osztályozása 4 szint: osztályok, gombolyok, szupercsaládok, családok)
CATH
Molecular phylogenetics
55
Genomi adatbázisok I.
NCBI
159 baktérium- és archeon genom (néhány fajból több törzs) 7 gomba, 10 egyéb eukarióta
COGs (Clusters of Orthologous Groups)
http://www.ncbi.nlm.nih.gov/COG/ teljes eubaktérium és archeon, valamint élesztő genomok (jelenleg 43 teljes genom, 30 fő filogenetikai vonalból)
ortológ gének csoportjai (fehérje-BLAST alapján) legalább 3 fajban előforduló nagyon hasonló fehérjék
COGnitor program felhasználás:
funkciópredikció egy adott genomból hiányzó konzervált COG - annotálatlan gén detektálása
Molecular phylogenetics
56
Molecular phylogenetics
57
Molecular phylogenetics
58
Molecular phylogenetics
59
Genomi adatbázisok II.
ENSEMBL
http://www.ensembl.org/ (Sanger Institute, EBI) integrált genom annotációs rendszer automatikus genomannotációs „csövezeték” genom böngésző szabad szoftver (MySQL motor) eredetileg humán annotációra fejlesztették most: humán, (csimpánz), egér, patkány, (tyúk), zebrahal, fugu, moszkító, ecetmuslica, C. elegans, C. briggsae
Molecular phylogenetics
60
http://www.ensembl.org/ Molecular phylogenetics
61
Kontig nézet
Molecular phylogenetics
62
UCSC genom böngésző
http://genome.ucsc.edu/ ENSEMBL amerikai alternatívája Néha frissebb az annotáció Kevesebb szervezet Új géncsalád böngésző
Molecular phylogenetics
63
UCSC Genome Browser (példa)
Molecular phylogenetics
64
Gén-ontológia (GO)
The Gene Ontology Consortium http://www.geneontology.org/ bármely élő szervezetben megtalálható géntermék leírására hierarchikus besorolás egységes terminológia 3-féle ontológia:
molekuláris funkció biológiai folyamat sejtalkotórész
online: pl. Mouse Genome Initiative GO Browser http://www.informatics.jax.org/go/
GOA
Molecular phylogenetics
65
Molecular phylogenetics
66
Molecular phylogenetics
67
NCBI adatbázisok
LocusLink / RefSeq / Entrez Gene
LocusLink: kiindulópont egy genetikai lókusz (pl. gén) egyedi azonosító: LocusID kapcsolt információ: pl. fenotípus, térképpozíció, homológ gének RefSeq: egyedi gének (nem redundáns) – mRNS és fehérje szekvenciák humán, egér, patkány, szarvasmarha, zebrahal, ecetmuslica
Taxonomy taxonómiai adatbázis
OMIM (Online Mendelian Inheritance in Man) humán gének és genetikai betegségek
PubMed (bibliográfiai adatbázis)
magában foglalja a MEDLINE adatbázist azonosító: PMID (PubMed identifier), MUID (MEDLINE unique identifier)
http://www.ncbi.nlm.nih.org/
Molecular phylogenetics
68
Keresés az annotációkban I. NCBI
Bármilyen adatbázisrekord
(Annotáció)
Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb.
(Szekvencia)
Å szöveges keresés
Å hasonlóság keresés
Mező n (pl. cgagcatgcatctagtagcagcgtactac)
Molecular phylogenetics
69
Integrált információkeresés I.
NCBI Entrez
NCBI (National Center of Biotechnology Information, Bethesda, USA) → http://www.ncbi.nlm.nih.gov/Entrez/ >20 részadatbázis
Molecular phylogenetics
70
Molecular phylogenetics
71
Molecular phylogenetics
72
Molecular phylogenetics
73
Molecular phylogenetics
74
Molecular phylogenetics
75
Molecular phylogenetics
76
Molecular phylogenetics
77
Molecular phylogenetics
78
Molecular phylogenetics
79
Molecular phylogenetics
80
Keresés az annotációkban II. SRS
Bármilyen adatbázisrekord
(Annotáció)
Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb.
(Szekvencia)
Å szöveges keresés
Å hasonlóság keresés
Mező n (pl. cgagcatgcatctagtagcagcgtactac)
Molecular phylogenetics
81
Sequence Retrieval System (SRS) Adatbázis indexelő és kereső rendszer Thure Etzold kezdte el fejleszteni a 90-es évek elején Heidelbergben az EMBL-ben 1996-tól az EBI-ben 1999-től a Lion Biosciences-ben közösen az EBIvel
5.1-es verzió szabad (de a legújabb adatbázisokkal már nehéz használni)
6.0-ás verziótól akadémiai liszenszet lehet kérni 7.0-ás verziótól EMBOSS integrálva van http://srs.ebi.ac.uk/ és helyileg: http://bioinfosv/srs6/
Molecular phylogenetics
82
Mire jó az SRS?
Keresés mindenfajta adatbázis annotációban Szekvenciák letöltése
egy faj, vagy egy adott taxonómiai egységhez tartozó szekvenciák egy adott annotált tulajdonsághoz tartozó szekvenciák (pl. intronok, domének) adott szekvenciákhoz tartozó referenciák keresése legmegfelelőbb adatbázis keresése
Molecular phylogenetics
83
Segítség az SRS használatához
Lehet keresni a dokumentációban (természetesen az is egy adatbázis) Meglehet nézni on-line vagy le lehet tölteni PDF formátumban a teljes dokumentációt Legfontosabb az „SRS User Guide” SRS-t lehet Linux alá is telepíteni, ilyenkor az „SRS Administrators Guide” ad segítséget Természetesen minden oldalról van link
Molecular phylogenetics
84
Mit lehet keresni az SRS segítségével?
Az összes adatbázis összes mezőjében bármilyen szöveget
ID, Elérési szám (accession number) Definíció Organizmus Szekvenciához kapcsolódó referencia Feature (pl. domén, kötőhely stb.)
Molecular phylogenetics
85
Hogyan működik az SRS? Az adatbázis felbontása rekordokra és mezőkre ID TRBG361 standard; mRNA; PLN; 1859 BP. AC X56734; S46826; SV X56734.1 DT 12-SEP-1991 (Rel. 29, Created) DT 15-MAR-1999 (Rel. 59, Last updated, Version 9) DE Trifolium repens mRNA for noncyanogenic beta-glucosidase KW beta-glucosidase.
Molecular phylogenetics
86
Adatbázis felbontása rekordokra és mezőkre
Molecular phylogenetics
87
Indexelés
Molecular phylogenetics
88
SRS kezdőoldal — http://srs.ebi.ac.uk/
Molecular phylogenetics
89
Keresés a szekvenciákban
Bármilyen adatbázisrekord
(Annotáció)
Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb.
(Szekvencia)
Å szöveges keresés
Å hasonlóság keresés
Mező n (pl. cgagcatgcatctagtagcagcgtactac)
Molecular phylogenetics
90
Hasonlósági keresések adatbázisokban
Optimális illesztéssel: nagyon időigényes, csak célhardveren
Sokprocesszoros számítógép vagy számítógép-klaszter, párhuzamos processzálás Erre a célra fejlesztett chip
„Heurisztikus” algoritmusok használata
Bizonyos elhanyagolásokkal, gyakran tapasztalati úton beállított algoritmusok, paraméterek és statisztika Sok tesztfuttatással igazolt használhatóság Sebességnövekedés bizonyos fokú érzékenységvesztés árán
FASTA (W. Pearson fejlesztette) BLAST (az NCBI-nál fejlesztik; S. Altschul), PSI-BLAST
Molecular phylogenetics
91
FASTA
FASTA2 és FASTA3 (Lipman és Pearson, 1985; Pearson és Lipman, 1988; Pearson, 2000)
FASTA3 programcsomag (ftp://ftp.virginia.edu/pub/fasta) Rövid (10 nukleotidnyi) keresőszekvenciák is használhatók A keresés időigénye nagyban függ az alkalmazott k-tuple értéktől
Molecular phylogenetics
92
(1) a kereső („query”) és az adatbázisszekvencia között közös „szavak” (ktuple) keresése
database sequence
database sequence
FASTA algoritmus
query sequence
Molecular phylogenetics
(2) az azonos átlón található „szavak” összefűzése és pontozása a helyettesítési mátrix-szal
query sequence 10 legjobb szegmens: Init1 score
93
FASTA algoritmus (3) eltérő, de egy bizonyos eltoláson belüli „átlók” egyesítése és pontozása (helyettesítési mátrix + hézagbüntetések)
(4) optimális lokális illesztés egy sávban (S-W alg.)
database sequence
database sequence
query sequence: Initn score
Molecular phylogenetics
query sequence: Opt score
94
A FASTA3 csomag programjai
Molecular phylogenetics
95
Mikor melyik programot használjuk?
Molecular phylogenetics
96
FASTA a weben
WWW:
http://www.ebi.ac.uk/fasta33/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/fasta.html (Institut Pasteur)
Molecular phylogenetics
97
BLAST
BLAST (http://www.ncbi.nlm.nih.gov/BLAST/)
a leggyorsabb, helyben is futtatható (pl. blastp Linux PC-n is hamar lefut) gyors, lokális illesztéseket végez szekvenciaillesztésre optimalizált, nem motívumkeresésre statisztikai módszerek alkalmazásával becsüli a találatok szignifikanciáját NCBI-BLAST két verziója:
1.0-1.4 (régi, nem enged hézagokat), 2.0-2.2 (új, hézagokat enged: „gapped BLAST”)
WU-BLAST 2.0
Warren Gish (Washington University) implementációja (hézagokat enged)
Molecular phylogenetics
98
BLAST algoritmus (Altschul et al., 1990, 1997) (1) W hosszúságú szavakból „szomszédos szó” lista generálása L hosszúságú kereső szekvencia Maximum L-W+1 szó (w~3 fehérjékre) Mátrix használata (PAM vagy BLOSUM, stb.) → szó-lista ≥ T (threshold) pontértékű szavakból (2) Szavak ↔ adatbázis: tökéletes egyezések keresése adatbázis-szekvenciák tökéletes egyezések (3) Találatok kiterjesztése és a legjobb lokális illesztés megkeresése: HSP-k ≥ S pontértékkel kereső szekv.: adatbázis szekv.:
X
EGDCVFDGMIGSDQGSL E C+ +G G+D GS+ EAGCLQNGQRGTDVGSV
G S D Q G S L R F D G F D V E C D G T D V G S V M D E I P N D F E C 6 1 6-2 6 4 2-1-3 2-4-4 1-3-3-4-5
Molecular phylogenetics
99
BLAST algoritmus és statisztika
A keresés lépései:
W hosszúságú szavak („word”) keresése találatok pontozása szubsztitúciós mátrix használatával nagy pontértékű találatok kiválasztása: HSP-k („High scoring Segment Pairs”) HSP-k kiterjesztése mindkét irányban (szubsztitúciós mátrix használatával), amíg a szekvencia el nem fogy, vagy az egyezés már nem szignifikáns végeredmény: MSP-k („Maximal scoring Segment Pairs”)
Statisztikai szignifikanciabecslés:
E érték: hasonló vagy nagyobb pontértékű találat véletlen előfordulásának várható száma; minél kisebb, annál jobb.
Molecular phylogenetics
100
BLAST programok
NCBI BLAST lokális futtatásánál a –p opcióval kell megadni, pl.: blastall –p blastp
Molecular phylogenetics
101
NCBI BLAST
Paraméterek:
W (-W opció): blastn alapértelmezés: 11 (kompromisszum: szinte minden véletlen illeszkedést kizár, de divergált homológokét is) szűrés (-F opció): kis komplexitású régiók N-ekre vagy X-ekre cserélése a keresőszekvenciában; alapértelmezés: igen (T); blastn: DUST, többi: SEG és/vagy XNU; pontosabban is specifikálható (pl. szűrés csak a szó-lista létrehozásánál) opció: nem (F) szubsztitúciós mátrix (-M opció): BLOSUM45, BLOSUM62, BLOSUM80, PAM30, PAM70 E-határérték („expected score threshold”) (-e opció); alapértelmezés: 10 blastn: egyező (M) és nem egyező (N) nukleotidok pontszámának aránya; alapértelmezés: M = 5, N = -4 (|M/N| = 1.25; ~47 nukleotid PAM); minél nagyobb az arány, annál távolabbi szekvenciákat talál meg
Molecular phylogenetics
102
BLAST programok
WWW:
NCBI-BLAST: http://www.ncbi.nlm.nih.gov/BLAST (NCBI)
http://www.ebi.ac.uk/blastall/ (EBI)
WU-BLAST:
http://www.ebi.ac.uk/blast2/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/wublast2.html (Institute Pasteur) (és sok más helyen, gyakran speciális adatbázisokkal, pl. fajok szerint)
Lokálisan futtatható:
blastall FASTA formátumú adatbázis formázása és indexelése: formatdb -i nr -o T BLAST keresés: blastall -p blastp -d nr -i query.fasta –o \ out.query
Molecular phylogenetics
103
Potenciális „műtermékek”, fals pozitívok
Forrásai:
Kis komplexitású régiók Repetitív elemek
„Figyelmeztető” találatok (pl. Alu szekvencia)
Vektor-szennyezés
Megoldás: keresőszekvencia „maszkolása”, szűrése
Kis összetételi komplexitású régiók:
BLAST-ba beépítve: seg ill. xnu (aminosav), dust (nukleotid)
kis komplexitású régiók, mikroszatellitek maszkolása
Mikroszatellitek (SSR):
Sputnik (http://abajian.net/sputnik/)
mikroszatellitek (SSR) azonosítása; Windows, UNIX
TRF (Tandem Repeat Finder)
mikroszatellitek (SSR) azonosítása; Windows, UNIX
Molecular phylogenetics
104
Kis komplexitású régiók szűrése
SEG (fehérjékre) HILCDEVNEGDEENEDFLPS HILCXXXXXXXXXXXXFLPS
DUST (nukleinsavakra) GCTCAAAAAATAAAAACACG GCTCNNNNNNNNNNNNCACG
Molecular phylogenetics
105
Elszórtan ismétlődő DNS-szekvenciák maszkolása
RepeatMasker (http://repeatmasker.genome.washington.edu/) (A. Smit & Phil Green)
elszórtan ismétlődő szekvenciák és egyszerű ismétlődések azonosítása DNS-szekvenciákban, maszkolás („hard masking”: X, „soft masking”: nagybetűk → kisbetűk); WWW (http://repeatmasker.genome.washington.edu/cgibin/RepeatMasker), UNIX
Censor szerver (Genetic Information Research Institute, http://www.girinst.org/) (J. Jurka)
elszórtan ismétlődő szekvenciák és egyszerű ismétlődések azonosítása DNS-szekvenciákban, maszkolás WWW (http://www.girinst.org/Censor_Server.html), e-mail szerver (
[email protected]) Repbase Update: repetitív szekvencia adatbázis (RepeatMasker is ezt használja)
Molecular phylogenetics
106
Távoli hasonlóságok keresése: PSI-BLAST
Pozícióspecifikus pontozómátrixok (PSSM)
„Position-Specific Scoring Matrix” Más elnevezések: rejtett Markov modell (HMM), profil, motívum Készítése: pl. a HMMER programcsomaggal, „többszörös szekvenciaillesztés”-ből. PSSM automatikus generálása + iteratív keresések: PSI-BLAST („Position-Specific Iterated BLAST”)
Molecular phylogenetics
107
PSI-BLAST
„Position-Specific Iterated BLAST”
PSSM készítése és finomítása a keresőszekvenciánkból és az ahhoz hasonló adatbázis-szekvenciákból automatizált iteratív módon. Keresés az így előállított profilokkal a fehérjeszekvenciaadatbázisban Távoli hasonlóságok detektálhatók VIGYÁZAT! Nagyon könnyű fals pozitívokat kapni! Amint egy nem-rokon szekvencia bekerül a profilkészítéshez használt illesztésbe, az ő rokonait is összeszedi a következő körben. Ne az egész fehérjeszekvenciával keressünk, különösen, ha egy gyakori domént tartalmaz, mert ez a domén dominálhat a keresésben.
Molecular phylogenetics
108