Bio-informatica Sequentie Patronen Peter De Rijk
7
Patroon Herkenning
Patroon Herkenning
Patroon Herkenning
Afhankelijk van groepsspecificaties!
Patroon Herkenning ●
Doel – – –
●
Motieven of patronen – – –
●
Met een gegeven set sequenties Behoort een sequentie tot de set of niet Behoort een deel (en welk) van een sequentie tot de set definiëren samenvatting wetmatigheden in een bepaald type van (sub)sequentie Bij multiple alignatie: geconserveerde gebieden Vaak belangrijke rol: structureel of functioneel (domeinen)
Methoden om patronen te vast te leggen en te herkennen: –
Van zeer simpel (string) tot zeer complex (HMM)
Patroon Herkenning ●
Toepassing: – – – – –
●
Domeinen in sequentie herkennen Toewijzing sequentie aan gekend type, familie Onbekende sequentie vergelijken met database van motieven -> idee over functie, familie Verdere verwantschappen (cfr. PSI-BLAST: zie later) Herkenning van signalen (bv. Splice donor) in sequentie
Correcter en sensitiever? –
Sequentie voldoet aan basis wetmatigheden van alle sequenties in een set/groep
String searching ●
Exact matching – –
Patroon voorstellen door (training) set zelf Zoeken of de query sequentie (of een deel van de query) identiek in de set zit ● ●
– –
Zoeken is gemakkelijk Vele optmalisaties (bv. Knuth-Morris-Pratt, Boyer-Moore)
goed als set volledig is Vaak zoeken naar multiple strings ● ●
●
Zoeken welke van een set strings voorkomt bv. Restrictie enzyme analyse, translatie (welk codon), ... Vele optimalisaties: trees, hashtable
String searching ●
Inexact matching –
Patroon voorstellen door (training) set zelf ● ●
–
Meestal set onvolledig vat niet echt wetmatigheden in hele set samen
Similariteit zoeken met alignatie technieken ●
Similariteit met 1 of meer sequenties van de set → behoort ws. tot set
Consensus sequenties ●
Ambiguiteitscodes (IUPAC notatie) – –
code beschrijft welke AZ/NZ mogelijk zijn (op een positie) Voor NZ ambiguiteitscodes beschikbaar voor alle mogelijke combinaties ●
–
–
bv. S (G of C), W (A of T) , ...
Voor AZ weinig ambiguiteitscodes beschikbaar (vrijwel alle letters zijn al bezet, zeer veel combinaties) → X voor eender welk AZ
Consensus sequenties ●
Consensus sequentie = string met ambiguiteitscodes op plaatsen met meer dan 1 mogelijk AZ/NZ ●
●
Vaak meer dan 1 consensus sequentie nodig om patroon goed te beschrijven Voorbeeld: tyrosine phosphorylation site – – – –
●
RXXDXXXY RXXEXXXY KXXDXXXY KXXEXXXY
Eigenschappen – – –
Beperkte flexibiliteit, enkel simpele patronen Kan gebruikt worden met snelle zoek algoritmes Bij zoeken kan gebruik gemaakt worden van score matrices
Regular expressions ●
Reguliere expressies (RE) –
–
Expressie (string met controle karakters met specifieke betekenis) die kan vertaald worden in een eindige set van strings Flexibelere mogelijkheden om ambiguiteiten aan te duiden (met meerdere controle karakters) ●
– –
bv. [RKY] om R, K of Y aan te duiden
ook verschillen in aantallen mogelijk Speciale karakters en hun betekenis kunnen verschillen bij verschillende programmas
Regular expressions . * + [] [^] {x,y}
●
Eender welk karakter Nul of meer 1 of meer Een van Niet een van Aantal tussen x en y
T..A TG*A TG+A T[GC]A T[^GC]A TG{2,4}A
TTTA, TAAA, TGCA, TGGA, ... TA, TGA, TGGA, TGGGGA, ... TGA, TGGA, TGGGGA, ... TGA, TCA TAA, TTA TGGA, TGGGA, TGGGGA
Voorbeelden ●
tyrosine phosphorylation site –
●
Zinc Finger (C2H2 type) –
●
C.{2,4}C.{12}H.{3,5}H
N-Glycosylation Site –
●
[RK]X{2}[DE]X{3}Y
N[^P][ST][^P]
Homeobox Domain Signature –
[LIVMF].{5}[LIVM].{4}[IV][RKQ].W.{8}[RK]
Regular expressions ●
Eigenschappen – –
Flexibeler dan consensus, sneller Strikte matching ● ●
●
–
binair resultaat: match of geen match sterk gelijkende sequenties met 1 klein verschil (niet voorzien in de reguliere expressie worden gemist Keuze van motief soms moeilijk: gekozen motief kan later toch variabeler blijken
Sterk geconserveerde motieven (10-20 AZ) met typisch een belangrijke rol
Regular expressions ●
Automatisch vinden van (nieuwe) regular expression patronen –
EmotifMaker ●
●
–
Vindt patronen (~ regular expression) in gealigneerde sequenties Vindt ook patronen voor subsets van het alignement (subfamilies)
Pratt ●
Vindt regular expression in ongealigneerde sequenties
Sequentie Sequentie logo's logo's
– –
–
Grafische voorstelling Verdeling afhankelijk van voorkomen verschillende elementen Totale hoogte grafiek geeft een aanduiding van de conservatie
Sequentie logo's –
Sequentie logo ● ● ● ●
–
Voordelen ● ● ●
●
–
Grafische representatie patroon, gestapelde karakters Hoogte proportioneel tot frequentie karakter Meest frequente karakter bovenaan Totale hoogte positie hangt af van de informativiteit/conservatie Meer correct dan consensus sequentie Significante residuen zijn duidelijk Subtiele sequentie patronen worden minder gemakkelijk gemist Aangename voorstelling voor onderzoekers
Maar ●
Niet voor automatische herkenning
Profielen ●
Profiel –
Statistische representatie van het volledige alignement van een similariteitsgroep ●
Mogelijke informatie – – –
–
Welke karakters kunnen voorkomen op elke positie, en in welke verhoudingen Welke posities zijn belangrijk/geconserveerd Welke regios kunnen wegvallen, inserties krijgen
Verschillende methoden mogelijk om deze informatie bij te houden en te gebruiken (benamingen kunnen verschillen afhankelijk van auteurs) ● ●
Weight matrices: profielen die geen indels toelaten, PSSM: position specific scoring matrices, wel indels door scoring via alignment
Position Weight Matrices (PWM)
Position Weight Matrices (PWM) ●
PWM = matrix met – – –
Lijn voor elk mogelijk karakter Kolom voor elke positie Waarden die aangeven hoe ws. Het is dat dit karakter voorkomt op deze positie, bv. ● ●
log-likelihood Log-odds –
●
Logaritme van de ratio van hoe dikwijls we dit karakter zien op deze positie in de set t.o.v. Hoeveel we het verwachten (frequentie van voorkomen)
Eigenschappen – – –
Rechtstreeks gemaakt op basis alignement elke positie onafhankelijk van andere posities geen indels
Position Weight Matrices (PWM) ●
PWM score – – –
●
geeft aan hoe ws. het is dat een test string tot de groep behoort. som van positie-specifieke scores voor elk symbool in de test string (wanneer PWM log waarden bevat) bv. bij PWM met log-odds ->PWM score = log-odds dat de test string gegenereerd werd door het motief versus gegenereerd door de background
MEME (Multiple EM for Motif Elicitation) – –
Vindt automatisch weight matrices voor set van sequentie statistische modelering om de beste grootte, aantal, en beschijving van elk motief te kiezen
Fingerprints ●
Fingerprint –
= Groep van motieven voor karakterisatie van familie Locale Alignementen zonder gaps ●
–
van alle geconserveerde delen
Matrices ●
Unweighted – – –
●
Matrices met frequenties geobserveerd op de verschillende posities Vaak onvoldoende variatie in basis alignemten → slechte herkenning verdere verwanten Iteratief werken: hoe meer sequenties, hoe meer mogelijke variaties goed herkend kunnen worden
Weighted – – –
Weging matrix met b.v. PAM matrix Betere herkenning verdere verwanten Veel lagere specificiteit en dus veel meer ruis
PSSM (Gribskov) ●
PSSM = Positie Specifieke Score matrix –
●
Matrix met per positie de score voor de vervanging/alignment met elk mogelijk AZ
Gemaakt op basis proteïne alignement – –
voor elke positie analyse distributie van verschillende AZ replacement scores berekenen voor de vervanging door alle AZ, gebaseerd op een PAM matrix ●
M(p,a) = Σ W(p,b)·Y(a,b) ● ●
–
W(p,b) is gewicht voorkomen van AZ b op positie p Y(a,b) is PAM matrix
Variabele gap opening en extension penalties (op basis van gaps gezien in het alignement)
Consensus sequentie
PSSM “DEAD” box (Gribskov) Cons A G 11 T 12 D 1 T 2 K 0 G 3 L 5 B 5 L 1 D 7 K 11 V 7 K 4 F -3 L -5 V 10 L -4 D 30 E 30 A 121 D 30 R -7
B 17 9 1 2 1 3 -6 16 -13 19 10 -10 16 -10 -18 -11 -23 110 70 17 110 9
rhle_ecoli dbp2_schpo dbp2_yeast dbpa_ecoli rm62_drome p68_human rhlb_ecoli yn21_caeel yhm5_yeast me31_drome drs1_yeast if4a_rabit if41_human vasa_drome srmb_ecoli
C 0 -1 0 0 -3 0 -4 -6 -12 -7 -3 11 -11 3 -19 11 -37 -50 -60 24 -50 -16
D 16 7 2 3 0 4 -7 15 -14 22 10 -11 16 -14 -21 -11 -24 150 100 25 150 7
E F 14 -16 7 -8 1 -1 2 -2 1 0 4 -1 -4 16 11 -15 -9 27 17 -22 9 -12 -10 14 17 -21 -10 29 -14 42 -11 15 -14 53 100 -100 150 -70 25 -41 100 -100 10 -23
G 19 9 1 3 0 6 -2 10 -8 13 5 0 6 -10 -16 8 -23 70 50 58 70 -7
NA....VKLDQVEILVLDEADR NK....TNLRRVTYLVLDEADR GK....TNLKRVTYLVLDEADR GT....VSLDALNTLVMDEADR GS....TNLKRCTYLVLDEADR GK....TNLRRTTYLVLDEADR NH....INLGAIQVVVLDEADR TK...GFNLKALKFLIMDEADR TK...GFSLRKLKFLVMDEADR KV....ADMSHCRILVLDEADK SA...SFNVDSVEILVMDEADR RY....LSPKYIKMFVLDEADE RY....LSPKYIKMFVLDEADE TF....ITFEDTRFVVLDEADR EN....FDCRAVETLILDEADR
H 5 2 0 0 0 -1 -4 6 -7 7 9 -8 9 -3 -8 -17 -11 40 40 -8 40 17
I -6 4 1 2 1 3 21 -3 24 -6 -4 31 -7 20 34 66 39 -20 -20 0 -20 -9
K 11 12 0 0 4 0 -4 16 -8 19 16 -11 27 -9 -12 -11 -10 30 30 0 30 36
L -11 0 0 0 1 1 23 -8 36 -11 -6 19 -12 26 51 46 73 -50 -30 -9 -50 -14
dead_ecoli if4a_orysa dead_klepn pl10_mouse p54_human if4a_drome ded1_yeast ms16_yeast pr28_yeast if4n_human an3_xenla dbp1_yeast if4a_yeast spb4_yeast if4a_caeel
M -5 4 0 0 3 1 17 -1 30 -3 0 16 0 19 40 34 67 -40 -20 0 -40 7
N 16 10 1 1 1 3 -5 15 -10 14 10 -10 16 -7 -15 -17 -19 70 50 17 70 8
P 9 5 0 1 0 1 -4 4 -5 8 6 0 7 -12 -12 4 -14 10 10 41 10 10
Q 8 4 1 1 1 1 -4 9 -7 15 11 -10 16 -13 -10 -12 -4 70 70 16 70 18
R 4 3 0 -1 1 -2 -8 10 -10 14 12 -12 20 -10 -15 -17 -14 0 0 -24 0 49
GT....LDLSKLSGLVLDEADE QS....LRPDYIKMFVLDEADE GT....LDLSKLSGLVLDEADE GK....IGLDFCKYLVLDEADR GV....AKVDHVQMIVLDEADK KL.....RTQYIKLFVLDEADE GK....ISLANVKYLVLDEADR YS...NKFFRFVDYKVLDEADR HL....LVMKQVETLVLDEADK RS....LRTRAIKMLVLDEADE GK....IGLDFCKYLVLDEADR GK....VSLANIKYLVLDEADR RR....FRTDKIKMFILDEADE PA....VKTSACSMVVMDEADR NA....LDTSRIKMFVLDEADE
S 14 9 0 1 0 4 -2 12 -4 17 10 2 12 -6 -12 -6 -19 20 20 33 20 5
T 15 12 1 4 3 3 4 7 7 6 4 8 8 5 -3 11 -4 20 20 33 20 0
V W -1 -13 7 -8 2 -3 2 -5 1 0 5 -6 19 0 -2 -3 23 6 -5 -5 -4 3 34 -22 -7 0 14 10 32 16 83 -43 39 17 -20 -110 -20 -110 16 -66 -20 -110 -10 35
pr05_yeast if42_mouse dhh1_yeast db73_drome yk04_yeast ybz2_yeast yhw9_yeast glh1_caeel
Y -14 -8 -1 -2 -2 -3 6 -11 9 -18 -8 9 -18 20 17 -4 11 -50 -50 -25 -50 -25
Z 11 5 1 2 1 2 -4 10 -8 16 10 -10 17 -11 -11 -11 -9 90 110 16 90 14
Gap 100 100 22 22 22 22 22 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100
Len 100 100 22 22 22 22 22 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100
ND.GKLLSTKRITFVVMDEADR RY....LSPKWIKMFVLDEADE KV....ADLSDCSLFIMDEADK TK...GFCLKSLKFLVIDEADR TKVIKEQLSQSLRYIVLDEGDK DN.TLIKRFSKVNTLILDEADR SGDDTVGGLMRAKYLVLDEADI GT....IKLDKCRFFVLDEADR
..
PSSM (Gribskov) ●
Testen sequentie –
Alignatie (dynamic programming) van test sequentie met de PSSM ●
Score van alignatie van een positie in de PSSM met een positie in de test sequentie → uit matrix gehaald –
●
Weging van gaps is ook afhankelijk van de positie –
–
Positief of negatief effect van vervangingen in geconserveerd gebied (rood) is veel groter bv. in het magenta gebied met gaps in het alignment is de gap penalty (Gap) en indel penalty (Len) lager
Verbeteringen ● ●
Houdt wel rekening met indels Geeft rechtstreeks een score rekening houdend met wat de kans is dat je dat bepaald karakter kan tegenkomen.
PSSM (Gribskov) ●
PSSM conclusies –
Sensitiever door gebruik score matrix ● ●
–
Houd rekening met Indels ● ●
–
gelijkende AZ kunnen ook goed matchen Mogelijk wel lagere specificiteit Informatie indels in de set worden gebruikt in patroon Laat ook andere indels toe (test via alignment)
Mogelijke verbeteringen ●
● ●
verschillende weging sequenties → om overrepresentatie eigenschappen van vele sterk verwante sequenties vermijden Gap penalties gebaseerd op gemiddelde gap lengte Profile alignementen t.o.v. 6-frame translaties van DNA sequenties
PSI-BLAST ●
Position Specific Iterative BLAST –
Doel ●
Vinden van sequentie families – –
–
inclusief verre verwanten weinig overeenkomst) Patroon (PSSM) van deze familie
Methode ● ●
Gewone BLAST search PSSM (Position-Specific Score Matrix) – –
●
Doorzoek databank met PSSM (ipv sequentie) –
●
profiel op basis van alle significante alignementen Evt. eerst selectie correcte hits Voeg sequenties toe van dezelfde familie die mogelijk nog niet gevonden werden
Iteratief –
maak nieuw profiel met nieuwe sequenties en herhaal
Nog andere BLASTS
PHI-BLAST
Patern Hit Initiated BLAST Sequenties die matchen aan een gegeven query sequentie EN een gegeven patroon PSSM gebaseerd op (omgeving van) patroon Vaak begin van PSI-BLAST
RPS-BLAST
Reverse Position Specific BLAST Query t.o.v databank van voorgecompileerde PSSM's bv. CDD: Conserved Domain Database
Hidden Markov Modellen (HMM) ●
HMM (Hidden Markov Model) – – –
Veel gebruikte techniek voor patroonherkenning Kan complexe patronen herkennen Machine learning techniek ●
leert zelf patronen herkennen op basis van trainings/voorbeeld data
Hidden Markov Modellen (HMM) ●
Markov Model –
–
–
Aantal toestanden waarin een waarneming wordt gedaan Verbindingen tussen toestanden met een gewicht dat de waarschijnlijkheid van doorgang bepaald Pad: opeenvolging van toestanden in het model
Start 0.4
0.6 0.3
Rainy 0.7
●
●
●
0.4
Sunny 0.6
Simpel voorbeeld dat het weer per dag modeleert Cirkels = toestanden → het weer op een bepaalde dag: Rainy of Sunny Pijlen = verbindingen/overgangen bv. Wanneer het vandaag regenachtig is, is er 30% kans dat het morgen zonnig is
Hidden Markov Modellen (HMM) ●
Hidden Markov Model –
–
● ●
●
toestand kan niet direct waargenomen worden: serie waarnemings waarschijnlijkheden Evt. Begin en eindtoestand zonder waarneming Walk (non-emitting)
Start 0.4
0.6 0.3
Rainy
0.1
Sunny
0.4
0.7
0.5
0.6 0.4
We kunnen de toestand (weer) niet direct waarnemen We krijgen wel de activiteiten van een persoon te weten (waarnemingen) Waarschijnlijkheid activiteiten is afhankelijk van het weer ● bv. als het regenachtig is, is er slechts 10% kans dat er gewandeld werd
0.6
0.1
0.3
Clean Shop
Hidden Markov Modellen (HMM) ●
Evaluatie –
●
wat is de kans dat een serie waarnemingen gegenereerd wordt door een gegeven model (Forward algoritme)
Padvinden –
Walk Wat is het meest waarschijnlijke pad door het model gegeven een serie waarnemingen (Viterbi algoritme) → toewijzen van toestand aan elke waarneming
Start 0.4
0.6 0.3
Rainy
0.1
Sunny
0.4
0.7
0.6
0.5
0.6 0.4
0.1
0.3
Clean Shop
Hidden Markov Modellen (HMM) ●
Training van een HMM –
Gegeven ●
●
–
Model waarbij parameters (gewichten, …) niet zijn ingevuld een aantal waarnemingen = trainings data
Automatische instelling parameters (gewichten, ...) van het model om zo goed mogelijk de observaties te produceren (Forward-Backward algoritme)
Profile of lineair HMM
● ● ●
Statistisch model vergelijkbaar met profiel Aan elke verbinding is een waarschijnlijkheid verbonden Staten – – –
●
Match: match een karakter aan een kolom in een multiple alignement (meerdere “emissies” mogelijk) Insert: emit karakters niet gemodelleerd door het HMM Delete: sla een kolom over
Alignement – –
Elk karakter in de sequentie wordt geassocieerd met een match of insert staat Pad van hoogste probabiliteit door HMM
Profile of lineair HMM ●
Probabiliteit pad – –
– ●
Alignement uit het profiel halen vermenigvuldiging probabiliteiten van alle overgangen op het pad en de probabiliteiten dat het specifiek AZ wordt gevonden in elke staat in het pad Klein! → optelling via log odds
Programma's: HMMer, SAM
Profile of lineair HMM –
Voordelen (t.o.v. Profielen) ● ●
–
Betere afhandeling deleties en inserties Kan automatisch getraind worden op ongealigneerde sequenties
Probleem: Overfitting ●
Statistisch insignificante AZ distributies per positie –
door klein aantal sequenties: bv. 2 seq. met H op positie 2 → kans 0 dat er een ander AZ op die positie kan komen → Oplossing: Pseudocounts ● Aangepaste scores die geen waarschijnlijkheid van '0' toelaten
→ Belang trainingset!
Neurale netwerken ●
Model gebaseerd op werking neuronen – – –
Gebaseerd op verschillende lagen neuronen/perceptrons Elke neuron/perceptron combineert informatie uit de onderliggende laag Perceptronen werken samen om patronen te herkennen
Perceptron ●
Perceptron – –
mathematische contructie die een set regels omvat 1 invoer ● ●
–
sequentie gegevens met discreet aantal posities Gewichts functie: elke verschillende invoer heeft een bepaald gewicht
Uitvoer ● ●
Getal > 1 sequentie behoort tot de set / bevat de feature Getal < -1 sequentie behoort niet tot de set
Perceptron ●
Training –
Met een Dataset (trainings set) die bestaat uit: ● ●
–
aantal positieve sequenties (behoren tot de set) aantal negatieve sequenties (lijken sterk op de set maar behoren niet tot de set)
Iteratief proces ● ● ●
●
Afwisselend positieve en negatieve sequentie aanbieden Score berekenen Als pos. score < 0 of neg. score > 0 → gewichten aanpassen Herhalen tot gewichten gelijk blijven bij 1 iteratie over de hele lijst
Neurale netwerken –
Neuraal netwerk ●
●
●
–
Voordelen ● ●
–
Verschillende lagen samenwerkende neuronen/perceptrons Parameters: invoer gewichten, treshhold, uitvoer gewicht Training: feed-forward, back-propagation Zeer complexe patronen mogelijk Enkel trainingsdata nodig: geen vooraf opgesteld model
Nadelen ● ● ●
Model kan niet gemakkelijk worden afgeleid (Veel) positieve en negatieve trainingsdata nodig Wat wordt er getraind?
Patroon databanken ●
Databanken van patronen/motieven – – –
Patronen/motieven met gegevens (functie, structuur) afgeleid van alignmenten van sequenties in primaire databanken t.o.v. Sequentie databanken ●
minder redundatie – –
●
Kortere weg naar mogelijke structuur en functie – –
● ●
1 patroon ipv. veel gelijkende sequenties in db bv. in primaire db. Kunnen de vele hits voor 1 domein de enkele, minder duidelijke hits voor een ander domein verdoezelen Geen problemen met plaats van hit, domeinen annotatie
Vaak gevoeliger voor verdere verwantschappen Echter niet compleet
Patroon databanken: PROSITE regular expressions – – –
Een van de eerste patroon databanken Gebruikt regular expressions om patronen weer te geven Motieven specifiek voor een proteine familie ●
●
–
nadruk op de meest geconserveerde en functioneel belangrijke residues Vaak functioneel belangrijke motieven
Korte, zeer strikte patronen ● ● ●
Geen volledige domeinen Minder geschikt voor minder sterk verwante sequenties Vaak niet genoeg informatie om statistisch significante 'matches' in grote proteïne databanken op te leveren
Patroon databanken: PROSITE ●
Formaat –
Patroon en hits file ● ● ● ●
● ●
–
Formaat ~ SWISS-PROT ID id, AC (accessie nummer) PA (patroon) NR diagnostic power: aantal correct herkende leden familie in SWISS-PROT, aantal vals positieven en vals negatieven CC commentaar: evt. repeats, functionele sites, ... DR accessie nummers
Documentatie file ● ● ●
Details over de gekarakteriseerde familie Beschrijving biologische rol motief/motieven, bibliografie Vrije text
Patroon databanken: PROSITE –
Definitie patroon – – – – – – – – – –
–
IUPAC 1 letter codes voor AZ X eender welk AZ [] keuze uit verschillende AZ {} keuze uit alle AZ behalve degene tussen de accolades - scheiding elementen (x) x maal het voorgaand (x,y) tussen x en y maal het voorgaande < N-terminus > C-terminus “Any” : eender welk karakter
Voorbeelden –
–
[AC]-x-V-x(4)-{ED} ● vertaald als: [Ala or Cys]-any-Val-any-any-any-any-{alles behalve Glu or Asp}
id
PROSITE
documentatie
regular expression
Patroon databanken: via alignementen –
PRINTS ●
● ●
–
Prodom ●
–
Fingerprints: meeste/alle motieven in sequenties van de families als diagnostische signatuur Lokale alignementen zonder gaps Uitgebreide annotatie Alignementen met gaps uit SWISS-PROT
Blocks ●
Lokale alignementen zonder gaps
Patroon databanken: profielen ●
PROSITE profile library –
Profielen ● ● ● ●
– –
Worden gebruikt om patronen beter voor te stellen Ook informatie variabelere stukken, indels Zoeken naar complete domeinen Detectie van veel verdere verwanten
Zelfde annotatie standaard als PROSITE Formaat ● ●
Gelijkaardig aan PROSITE MA matrix lijnen i.p.v. patroon lijn (PA) –
Bevatten alle parameters zoals alfabet,cut-off scores en positie specifieke scores voor match posities (/M) en indels posities (/I)
Prosite profile entry ID AC DT DE MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA ...
KRINGLE_2; MATRIX. PS50070; NOV-1997 (CREATED); NOV-1997 (DATA UPDATE); JUN-2013 (INFO UPDATE). Kringle domain profile. /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=79; /DISJOINT: DEFINITION=PROTECT; N1=6; N2=74; /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=.7529; R2=.00952475; TEXT='-LogE'; /CUT_OFF: LEVEL=0; SCORE=813; N_SCORE=8.5; MODE=1; TEXT='!'; /CUT_OFF: LEVEL=-1; SCORE=603; N_SCORE=6.5; MODE=1; TEXT='?'; /DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105; /I: B1=0; BI=-105; BD=-105; /M: SY='D'; M=-15,29,-30,44,37,-36,-15,1,-34,5,-25,-24,10,-6,13,-4,0,-10,-30,-34,-19,25; /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /M: SY='Y'; M=-11,-21,-25,-25,-20,16,-27,-1,10,-12,9,15,-20,-25,-12,-12,-18,-9,3,1,31,-18; /M: SY='H'; M=-13,-8,-26,-9,0,-9,-23,16,-13,-2,-9,-1,-5,-15,2,2,-8,-6,-13,-19,4,-1; /M: SY='G'; M=-4,-5,-11,-4,-14,-29,45,-17,-38,-18,-28,-21,0,-21,-17,-19,-1,-17,-27,-26,-28,-16; /M: SY='N'; M=-9,19,-22,11,2,-22,-10,1,-19,4,-22,-14,26,-17,5,5,5,0,-21,-32,-14,3; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='E'; M=-10,-1,-27,1,17,-26,-19,0,-19,11,-16,-7,-2,-11,16,8,-4,-8,-17,-25,-11,16; /M: SY='S'; M=-1,8,-18,3,-2,-19,5,-6,-22,-7,-25,-17,16,-15,-2,-7,17,6,-18,-33,-18,-2; /M: SY='Y'; M=-20,-20,-30,-20,-20,30,-30,20,0,-10,0,0,-20,-30,-10,-10,-20,-10,-10,30,80,-20; /M: SY='R'; M=-18,-7,-30,-7,3,-21,-19,1,-27,25,-18,-7,0,-18,12,54,-9,-10,-20,-21,-10,4; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='T'; M=-4,2,-18,-4,-3,-17,-18,-12,-16,5,-16,-10,5,-10,-3,1,8,21,-9,-28,-11,-4; /M: SY='V'; M=-1,-19,-19,-22,-17,-2,-21,-13,5,-12,2,5,-16,-21,-13,-12,-7,-1,9,-13,0,-16; /M: SY='S'; M=14,6,-13,2,-1,-20,-1,-9,-19,-8,-25,-18,12,-12,-3,-10,25,10,-12,-35,-19,-2; /M: SY='T'; M=-5,-8,-17,-14,-10,-10,-23,-15,-4,-2,-7,-4,-7,-15,-9,-3,3,20,5,-27,-8,-10; /M: SY='T'; M=0,2,-12,-6,-9,-12,-19,-19,-10,-10,-11,-10,1,-10,-9,-11,17,41,-1,-30,-11,-9; /M: SY='V'; M=-4,-12,-20,-14,-5,-12,-22,-13,-2,-2,-5,0,-11,-17,-7,-2,-4,3,5,-20,-9,-7; /M: SY='S'; M=5,0,-13,-5,-5,-17,-6,-11,-15,-7,-19,-12,6,-12,-4,-9,22,21,-8,-33,-15,-5; /M: SY='G'; M=0,-10,-30,-10,-19,-30,68,-20,-40,-19,-30,-20,0,-20,-19,-19,0,-20,-30,-20,-30,-19;
Prosite profile entry … MA MA MA NR NR NR CC CC CC CC CC CC DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR ...
/M: SY='R'; M=-7,-2,-25,-2,5,-22,-17,-3,-18,8,-17,-8,-1,-12,13,14,0,-3,-15,-23,-9,7; /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /I: E1=0; IE=-105; DE=-105; /RELEASE=2013_08,540732; /TOTAL=219(94); /POSITIVE=219(94); /UNKNOWN=0(0); /FALSE_POS=0(0); /FALSE_NEG=0; /PARTIAL=1; /MATRIX_TYPE=protein_domain; /SCALING_DB=reversed; /AUTHOR=K_Hofmann; /TAXO-RANGE=??E??; /MAX-REPEAT=38; /FT_KEY=DOMAIN; /FT_DESC=Kringle; /VERSION=1; P08519, APOA_HUMAN , T; P14417, APOA_MACMU , T; P98140, FA12_BOVIN , T; Q04962, FA12_CAVPO , T; P00748, FA12_HUMAN , T; Q80YC5, FA12_MOUSE , T; O97507, FA12_PIG , T; D3ZTE0, FA12_RAT , T; Q5E9Z2, HABP2_BOVIN, T; Q14520, HABP2_HUMAN, T; Q8K0D2, HABP2_MOUSE, T; Q6L711, HABP2_RAT , T; Q6QNF4, HGFA_CANFA , T; Q04756, HGFA_HUMAN , T; Q9R098, HGFA_MOUSE , T; Q24K22, HGFL_BOVIN , T; P26927, HGFL_HUMAN , T; P26928, HGFL_MOUSE , T; Q76BS1, HGF_BOVIN , T; Q867B7, HGF_CANFA , T; Q9BH09, HGF_FELCA , T; P14210, HGF_HUMAN , T; Q08048, HGF_MOUSE , T; P17945, HGF_RAT , T; Q96MU8, KREM1_HUMAN, T; Q99N43, KREM1_MOUSE, T; Q924S4, KREM1_RAT , T; Q90Y90, KREM1_XENLA, T; Q8NCW0, KREM2_HUMAN, T; Q8K1S7, KREM2_MOUSE, T; Q16609, LPAL2_HUMAN, T; Q2TV78, MST1L_HUMAN, T; Q8AXY6, MUSK_CHICK , T; Q5G270, NETR_GORGO , T; P56730, NETR_HUMAN , T; Q5G267, NETR_MACMU , T; O08762, NETR_MOUSE , T; Q5G268, NETR_NOMLE , T; Q5G271, NETR_PANTR , T; Q5G269, NETR_PONPY , T; G3V801, NETR_RAT , T; Q5G265, NETR_SAGLB , T; Q5G266, NETR_TRAPH , T; Q1RMT9, P3IP1_BOVIN, T; Q7SXB3, P3IP1_DANRE, T; Q96FE7, P3IP1_HUMAN, T; Q7TMJ8, P3IP1_MOUSE, T; Q5RCS3, P3IP1_PONAB, T; Q56A20, P3IP1_RAT , T; P06868, PLMN_BOVIN , T; P80009, PLMN_CANFA , T; Q7M323, PLMN_CAPHI , T; Q29485, PLMN_ERIEU , T; P80010, PLMN_HORSE , T;
Patroon databanken: HMMs –
PFAM ●
●
Herkenning via HMMs , maar ook lokale alignementen met gaps PFAM-A –
●
PFAM-B –
–
–
Kleine families gebaseerd op de Prodom database (lokale alignementen met gaps uit Swiss-Prot) die niet overlappen met PFAM-A Niet gecurateerd/nagekeken
SMART ●
–
gecurateerd
Uitgebreid geannoteerd
TIGRFAMs ● ●
PIR SuperFamily Superfamily
Interpro ●
Samengestelde patroon databank ● ● ● ●
●
Samenwerking curatoren verschillende databanken Unificatie in documentatie en identificatie Zoektocht met verschilende methoden Resultaten worden samengesteld na toepassing alle methodes
Databanken in Interpro ● ● ● ● ● ● ● ● ●
PROSITE (regular expressions + profielen) PRINTS PFAM-A PRODOM UniProt SMART TIGRFAMs PIRSF (PIR Super Family)) Superfamily
Interpro
InterPro
● ● ●
Korte hits: regular expression Hidden Markov model: match over groter deel van de sequentie Fingerprinting: kleine korte stukjes matchen
Conserved Domain Database ●
CDD – – – –
Samengestelde patroon/motief databank PSSM Doorzocht met RPS-BLAST Databanken gebaseerd op ● ● ●
SMART PFAM Lokale contributies
CDD