DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
MOLEKULÁRNÍ TAXONOMIE 2015
MARIAN NOVOTNÝ
OSNOVA
co je substrát pro molekulární taxonomii? kde se shromažďují data? jak data vyhledávat ?
REKONSTRUKCE EVOLUČNÍ HISTORIE rekonstrukce na základě srovnávání znaků v molekulární taxonomii se používají sekvence sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem
HTTP://LGIMAGES.S3.AMAZONAWS.COM/DATA/IMAGEMANAGER/7793/PHYLOTREE1.GIF
KDE NAJÍT SEKVENCE?
BIOINFORMATICKÉ DATABÁZE
úložiště dat (volně) dostupné pro kohokoliv snadno k nalezení lednové číslo Nucleid Acid Research (NAR)
HTTP://NAR.OXFORDJOURNALS.ORG/CONTENT/42/D1.TOC
LEDNOVÉ ČÍSLO NAR
NUCLEOTIDE SEQUENCE DATABASES RNA SEQUENCE DATABASES PROTEIN SEQUENCE DATABASES STRUCTURE DATABASES GENOMICS DATABASES (NON-VERTEBRATE) METABOLIC AND SIGNALING PATHWAYS HUMAN AND OTHER VERTEBRATE GENOMES HUMAN GENES AND DISEASES MICROARRAY DATA AND OTHER GENE EXPRESSION DATABASES PROTEOMICS RESOURCES OTHER MOLECULAR BIOLOGY DATABASES ORGANELLE DATABASES PLANT DATABASES IMMUNOLOGICAL DATABASES
VLASTNOSTI DATABÁZE četnost aktualizace dat četnost aktualizace software redundance anotace dat anotace databáze
...A NÁSTROJE
DNA DATABÁZE GenBank(NCBI) EMBL (EBI) DDJB (Japonsko)
MÁLO ANOTOVANÁ SEKVENCE
ANOTOVANÁ SEKVENCE
GENOMICKÁ DATA První RNA genom bacteriofág MS2 ... 1976... 3569 bazí První DNA genom fág Φ-X 174 ... 1978 ... 5386 bazí První bakteriální genom ... Heamophilus influenze ... 1995 ... 1,83 Mb Největší genom ... Amoeba dubia ... 670 Gb
Organism
Complete
Draft assembly
In progress
total
Prokaryotes
946 (658)
644
610
17884
Archaea
84 (61)
4
46
134 (97)
Bacteria
862 (598)
640
564
2066 (1606)
Eukaryotes
40 (22)
270
344
2439
Viruses
3552
228 000 HUMAN GENOMES SEQUENCED IN 2014
GENOMOVÉ DATABÁZE HTTP://WWW.NCBI.NLM.NIH.GOV/SITES/ENTREZ?DB=GENOME
HTTP://WWW.ENSEMBL.ORG/INDEX.HTML HTTP://VEGA.SANGER.AC.UK/INDEX.HTML HTTP://GENOME.UCSC.EDU/ HTTP://WWW.YEASTGENOME.ORG/
PROTEINOVÉ DATABÁZE
Uniprot - Swissprot + TrEMBL - 52,7 mil. sek. Swiss-prot - anotováno, ~550 000 sekvencí GenPept - překládaný GenBank
UNIPROT + TREMBL
AMINO ACID COMPOSITION 2.1 ALA ARG ASN ASP CYS
(A) (R) (N) (D) (C)
COMPOSITION IN PERCENT FOR THE COMPLETE DATABASE 8.57 5.47 4.17 5.28 1.29
GLN GLU GLY HIS ILE
(Q) (E) (G) (H) (I)
ASX (B) 0.000
3.88 6.14 7.08 2.20 6.00
LEU LYS MET PHE PRO
(L) (K) (M) (F) (P)
GLX (Z) 0.000
9.81 5.30 2.45 4.03 4.74
SER THR TRP TYR VAL
(S) (T) (W) (Y) (V)
XAA (X) 0.06
6.72 5.61 1.31 3.06 6.71
JAK DATA VYHLEDÁVAT ?
>ASTAKINE MKMRGVSVGVLVVAMMSGLAMAGSCNSQEPDCGPSECCLQGWMR YSTRGCAPLGEAGSSCNVFTQAPVKGFYIGMCPCRAGLVCTRPSATCQLPSQDNTLDSYY
EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT?
HLEDÁNÍ V DATABÁZÍCH - ALGORITMY tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé pro prohledávání velkých databází používány heuristické metody - rychle vede k výsledku, který se blíží optimálnímu řešení (ale nezaručuje jej) -> pro vyšší rychlost je obětována přesnost (rule of thumb) v případě sekvenčního srovnávání se metoda vzdává jistoty nalezení optimálního alignmentu, aby v krátkém čase provedla srovnání se všemi sekvencemi v databázi (50 - 100x rychlejší) klasickými heuristickými metodami jsou FASTA a BLAST obě metody použitelné pro DNA i proteinové sekvence
FASTA metoda popsaná v 80. letech 20. století (Lipman & Pearson) rychlá, heuristická metoda (na úkor senzitivity), globální alignment zjednodušení v první fázi, sekvence rozděleny na krátké úseky program generuje všechny možné “k-tuples” o délce k z dané sekvence k = 1-2 pro proteiny, k = 4-6 pro DNA k-tuples jsou porovnávány s k-tuples sekvencí v databázích
FASTA hledání SHOD v k-tuples skórováni shod pomocí skórovací tabulky (Blosum 50) a rozšíření alignmentu (bez mezer) vysoce skórující shody vybrány vybere úseky, které budou součástí alignmentu dynamické programování pro konečný alignment (mezery)
BLAST BLAST = Basic Local Alignment Search Tool Altschul et al., 1990 sekvence rozděleny na slova (words) a slova skórována vůči databázi všech slov slova skórována skórovací tabulkou (Blosum 62) a jen ty, které dosáhnou předem nadefinovaného minimálního skóre (treshold) jsou dále používány slova se skóre větším než treshold nemusí nutně obsahovat jen shody ( na rozdíl od Fasty) v prvním kroku se porovnávají slova bez mezer
BLAST – step 1 • w=3 SEWRFKHIYRGQPRRHLLTTGWSTFVT SEW EWR WRF
Parameter: Word length (w) Increase = faster, but less sensitive
74
01.06.2010
Sequence searching - Andrew Cowley
BLAST - HSP HSP - high scoring pair vyber jen taková “slova”, která dosahují alespoň skóre X (treshold) PEG versus PQA PEQ má s Blosum 62 skóre 15, PQA jen 12 pokud si stanovíme treshold 13, tak budeme dále hledat jen slovo PEQ
BLAST – step 2 • Then it scans database sequences for exact matches with ith th these words d
76
01.06.2010
Sequence searching - Andrew Cowley
BLAST II takto vybráná slova jsou hledána v databázi modifikovaným SmithWatermanem (50 x rychlejší) HSP jsou dále rozšiřovány na obě strany dokud skóre roste v posledním kroku jsou nejlépe skórující páry (HSP`s) podrobeny dynamickému programování, které produkuje výsledné skóre a alignment vzhledem k rostoucí velikosti databází je třeba algoritmus neustále modifikovat (dvě shody v okně definované velikosti) obvykle citlivější než FASTA implementován jako server na řadě míst (NCBI, EBI)
BLAST – step 3 • If two hits are found on the same diagonal the alignment is extended until the score drops by a certain amount • This results in a High-scoring Segment Pair (HSP) Parameters: Drop off Substitution matrix
77
01.06.2010
Sequence searching - Andrew Cowley
BLAST – step 4 • If the total HSP score is above another threshold then a gapped extension is initiated
Parameters: Extension threshold (Sg) Substitution matrix
78
01.06.2010
Sequence searching - Andrew Cowley
VERZE BLASTU blastn - hledá s DNA sekvencí (query) v DNA databázi blastp - hledá s proteinovou sekvencí v proteinové databázi blastx - hledá s DNA sekvencí (6 rámců) v proteinové databázi tblastn - hledá s proteinovou sekvencí v DNA databázi tblastx - překládaná DNA v překládané DNA databázi megablast - víc query najednou
C. On-line Summaries
Sequences producing High-scoring Segment Pairs:
High Score
Smallest Sum Probability P(N) N
............................................................................... sp|P08506|DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURS... 894 5.0e-120 1 sp|P38422|DACF_BACSU PENICILLIN-BINDING DACF PROTEIN PREC... 209 5.0e-47 3 ............................................................................... sp|P28271|IREB_MOUSE IRON-RESPONSIVE ELEMENT BINDING PROT... 59 0.9996 1 sp|P31571|CAIA_ECOLI PROBABLE CARNITINE OPERON OXIDOREDUC... 48 0.9998 2 D. Alignments .............................................................................. >sp|P08506|DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURSOR (D-ALANYL-D-ALANINE CARBOXYPEPTIDASE FRACTION C) (EC 3.4.16.4) (DD-PEPTIDASE) (DD-CARBOXYPEPTIDASE) (PBP-6). Length = 400 Score = 894 (409.5 bits), Expect = 5.0e-120, P = 5.0e-120 Identities = 169/342 (49%), Positives = 237/3 42 (69%) Query: Sbjct: Query: Sbjct: Query: Sbjct: Query: Sbjct: Query:
1 MDYTTGQILTAGNEHQQRNPASLTKLMTGYVVDRAIDSHRITPDDIVTVGRDAWAKDNPV 60 MDY +G++L GN ++ +PASLTK+MT YVV +A+ + +I D+VTVG+DAWA NP 45 MDYASGKVLAEGNADEKLDPASLTKIMTSYVVGQALKADKIKLTDMVTVGKDAWATGNPA 104 61 FVGSSLMFLKEGDRVSVRDLSRGLIVDSGNDACVALADYIAGGQRQFVEMMNNYAEKLHL 120 GSS+MFLK GD+VSV DL++G+I+ SGNDAC+ALADY+AG Q F+ +MN YA+KL L 105 LRGSSVMFLKPGDQVSVADLNKGVIIQSGNDACIALADYVAGSQESFIGLMNGYAKKLGL 164 121 KDTHFETVHGLDAPGQHSSAYDLAVLSRAIIHGEPEFYHMYSEKSLTWNGITQQNRNGLL 180 +T F+TVHGLDAPGQ S+A D+A+L +A+IH PE Y ++ EK T+N I Q NRN LL 165 TNTTFQTVHGLDAPGQFSTARDMALLGKALIHDVPEEYAIHKEKEFTFNKIRQPNRNRLL 224 181 WDKTMNVDGLKTGHTSGAGFNLIASAVDGQRRLIAVVMGADSAKGREEEARKLLRWGQQN 240 W +N DG+KTG T+GAG+NL+ASA G RLI+VV+GA + + R E+ KLL WG + 225 WSSNLNEDGMKTGTTAGAGYNLVASATQGDMRLISVVLGAKTDRIRFNESEKLLTWGFRF 284 241 FTTVQILHRGKKVGTERIWYGDKENIDLGTEQEFWMVLPKAEIPHIKAKYTLDGKELTAP 300 F TV + T+R+W+GDK ++LG + + +P+ ++ ++KA YTL +LTAP
BLAST - VÝBĚR databáze - DNA x protein, anotovaná x kompletní, strukturní, genomové, specializované (protilátky) ... organismus datum - sekvence za poslední dva týdny skórovací tabulka - blosum 62 velikost slova low-complexity region filter - často P, D, N, E - false positive “default”nastavení algoritmu vhodné ve většině případů
BLOSUM BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 %
BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %
BLOSUM VERSUS PAM PAM 10 BLOSUM 90
VELMI PŘÍBUZNÍ
PAM 250 BLOSUM 62
VZDÁLENĚ PŘÍBUZNÍ
VÝZNAMNOST NÁLEZU
optimální alignment lze nalézt pro jakékoliv dvě sekvence dvě náhodné DNA sekvence = ~ 25% SI dvě náhodné proteinové sekvence = ~ 5% SI jak určit, že je alignment statisticky významný ?
PARAMETRY VÝZNAMNOSTI
P-value E-value pouze statistická významnost skóre -> biologickou relevanci záhodno ověřovat experimentálně
P-VALUE P-value - pravděpodobnost, že sekvence budou srovnány s nalezeným nebo vyšším skóre a zároveň nebudou příbuzné (false positive hit) P-value - pravděpodobnost, že bude skóre x nebo vyššího dosaženo náhodou pro účely výpočtu lze náhodu simulovat přeskládáváním sekvencí nebo výběrem vzorku z databáze druhá možnost lépe odpovídá realitě a poskytuje lepší výsledky (především u DNA)
EVD rozložení skóre lokálních alignmentů nepříbuzných sekvencí neodpovídá normálnímu rozdělení, ale rozdělení podle extrémních hodnot (EVD) při normálním rozdělení by docházelo k přeceňování významu dosažených skóre
DUNDAS ET AL. BMC BIOINFORMATICS 2007
P-VALUE
P-value (S>x) = 1-exp (-exp (-λ(x-u))), u = charakteristická hodnota = Kmn/λ m,n = délky sekvencí; K = konstanta; λ = “decay factor” K a λ mohou být kalkulovány z vlastností skórovací tabulky
E-VALUE E-value = pravděpodobnost, že bude dosaženo skóre x nebo vyššího náhodou v databázi dané velikosti E-value = P-value x N ; velikost databáze příklad: databáze o miliónu sekvencí a P-value = 10-6
E-value = 10-6 x 106 =1 cutoff (expect treshold) parametr v BLASTU - udává kolik lze průměrně očekávat false positives v databázi dané velikosti -> způsob jak vyvažovat senzitivitu a selektivitu nižší hodnota cutoff zvyšuje selektivitu, ale snižuje senzitivitu
BLAST / EVOLUČNÍ VZDÁLENOST říká nám BLAST něco o příbuznosti nalezených sekvencí ? Je první “hit” evolučně nejpříbuznější query (hledané sekvenci)?
BLAST většinou nalezá příbuzné sekvence nejpříbuznější sekvence však mohou chybět v databázi lokální alignment - často skóruje nejlépe vzdálené příbuzné 7 % sekvencí E.coli mělo nejlépe skórující sekvenci mimo Bacteria
2JTK
SEQUENCE IDENTITA/HOMOLOGIE NEHOMOLOGNÍ PROTEINY
ROST, 1999
SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY
ROST, 1999
SEQUENCE IDENTITA/HOMOLOGIE
sekvenční identita > 35% - pravděpodobně homolog
sekvenční identita = 20-35% (“twilight zone”; Doolittle) může být homolog
sekvenční identita < 20% - “midnight zone” (Rost) sekvence zcela nedostatečná k určení homologie
SANDER ET AL., PREPRINT
Average sequence identity of random alignments - 5.6 %
Average sequence identity of remote homologues - 8.5 %
SSEARCH
pokud máte moře času nebo počítačový klastr nebo jste zoufalí rigorózní Smith-Waterman - local alignment v databázi
When to use what?
Query length
NCBI BLAST WU-BLAST
FASTA
PSI-SEARCH
Database size 85
01.06.2010
Sequence searching - Andrew Cowley
When to use what?
time to search h
NCBI BLAST WU-BLAST
FASTA
PSI-SEARCH
PDB Swiss-Prot UniRef50 UniRef 90 UniRef100 UniProtKB UniParc 86
01.06.2010
Sequence searching - Andrew Cowley
01.06.2010
Sequence searching - Andrew Cowley
DALŠÍ METODY HLEDÁNÍ V DATABÁZÍCH
profilové metody HMM modely
PROFILY modifikují skórovací tabulky specificky pro skupiny proteinů a pozici v alignmentu (např. globiny) pro každou pozici v alignmentu jsou generovány specifická skóre jak pro záměnu za jakoukoliv aa, tak pro inzerci nebo deleci Prof (pos,aa) = Σtype N(pos,type) x S(type, aa) x 10 N(pos,type) = podíl výskytu aa x na pozici y S(type, aa) = skóre skórovací tabulky pro zaměňovaný pár
PŘÍKLAD PROFILU v alignmentu globinů se na pozici 3 vyskytuje 3x Ala, 6x Val, 1x Ile, používáme tabulku Blosum 62 jaké bude profilové skóre pro výskyt Ile a His ? N(x,A) = 0.3, N(x,V) = 0.6, N(x, I) = 0.1 S(A,I) = -1, S(V,I) = 3, S(I,I) = 4 S(A,H) = -2, S(V,H) = -3, S(I,H) = -3 Prof (x, I) = 0.3 x -1 + 0.6 x 3 + 0.1 x 4 = 2.1 x 10 (v profilu) = 21 ( -1, 3, 4) Prof (x, H) = 0.3 x -2 + 0.6 x -3 + 0.1 x -3 = -2.7 x 10 = -27 (-2, -3, -3)
PSI-BLAST PSI-BLAST = Position Specific Iterative Blast Altschul et al., 1997 profilová metoda, používá Position Specific Scoring Matrix (PSSM) v prvním kole klasický BLAST, z vysoko skórujících alignmentů je generována PSSM v dalším kole hledání je už použita nová matrice a následně znovu generována nová PSSM opakováno libovolně dlouho (až ke konvergenci) benchmark metoda
CS/CSI BLAST Context-Specific Iterative Blast Biegert, Soeding, 2009 context vytváří 12 aa v okolí sledované aa (6 na každé straně) 2x více vzdálených homologů než klasický blast při zachování rychlosti a chybovosti CSI - podobná aplikace na PSI-blast po dvou iteracích csi blast stejné výsledky jako po pěti iteracích psi-blast benchmark metoda???
HMM HMM = Hidden Markov Model profilová metoda, používána při rozhodování, zda protein spadá do jisté skupiny proteinů, typicky pro sekvence s nízkou %SI velmi citlivá metoda, která vytváří statistický model pro definovanou skupinu sekvencí na základě “tréninku” na sekvencích patřících do jedné skupiny (globiny) generuje pravděpodobnost nejen pro jednotlivé záměny a inzerce a delece, ale i pro přechody mezi nima dovede do modelu zahrnout i aminokyseliny, které se v tréninkové skupině nevyskytují alignment s největší pravděpodobností je optimální posuzuje jak dobře daná sekvence odpovídá modelu
HMM
HTTP://HMMER.JANELIA.ORG/
SHRNUTÍ databáze by měly být pravidelně updatovány přehled dostupných biologických databází vždy v lednovém čísle NAR řada velmi specializovaných databází hledání v databázích povětšinou heuristickými metodami standard dnes BLAST nutno hodnotit statistickou významnost nálezu citlivější metodou PSI-Blast nebo HMM metody