Bio-informatica Sequentie Patronen. Peter De Rijk

Bio-informatica Sequentie Patronen Peter De Rijk

7

Patroon Herkenning

Patroon Herkenning

Patroon Herkenning

Afhankelijk van groepsspecificaties!

Patroon Herkenning ●

Doel – – –

●

Motieven of patronen – – –

●

Met een gegeven set sequenties Behoort een sequentie tot de set of niet Behoort een deel (en welk) van een sequentie tot de set definiëren samenvatting wetmatigheden in een bepaald type van (sub)sequentie Bij multiple alignatie: geconserveerde gebieden Vaak belangrijke rol: structureel of functioneel (domeinen)

Methoden om patronen te vast te leggen en te herkennen: –

Van zeer simpel (string) tot zeer complex (HMM)

Patroon Herkenning ●

Toepassing: – – – – –

●

Domeinen in sequentie herkennen Toewijzing sequentie aan gekend type, familie Onbekende sequentie vergelijken met database van motieven -> idee over functie, familie Verdere verwantschappen (cfr. PSI-BLAST: zie later) Herkenning van signalen (bv. Splice donor) in sequentie

Correcter en sensitiever? –

Sequentie voldoet aan basis wetmatigheden van alle sequenties in een set/groep

String searching ●

Exact matching – –

Patroon voorstellen door (training) set zelf Zoeken of de query sequentie (of een deel van de query) identiek in de set zit ● ●

– –

Zoeken is gemakkelijk Vele optmalisaties (bv. Knuth-Morris-Pratt, Boyer-Moore)

goed als set volledig is Vaak zoeken naar multiple strings ● ●

●

Zoeken welke van een set strings voorkomt bv. Restrictie enzyme analyse, translatie (welk codon), ... Vele optimalisaties: trees, hashtable

String searching ●

Inexact matching –

Patroon voorstellen door (training) set zelf ● ●

–

Meestal set onvolledig vat niet echt wetmatigheden in hele set samen

Similariteit zoeken met alignatie technieken ●

Similariteit met 1 of meer sequenties van de set → behoort ws. tot set

Consensus sequenties ●

Ambiguiteitscodes (IUPAC notatie) – –

code beschrijft welke AZ/NZ mogelijk zijn (op een positie) Voor NZ ambiguiteitscodes beschikbaar voor alle mogelijke combinaties ●

–

–

bv. S (G of C), W (A of T) , ...

Voor AZ weinig ambiguiteitscodes beschikbaar (vrijwel alle letters zijn al bezet, zeer veel combinaties) → X voor eender welk AZ

Consensus sequenties ●

Consensus sequentie = string met ambiguiteitscodes op plaatsen met meer dan 1 mogelijk AZ/NZ ●

●

Vaak meer dan 1 consensus sequentie nodig om patroon goed te beschrijven Voorbeeld: tyrosine phosphorylation site – – – –

●

RXXDXXXY RXXEXXXY KXXDXXXY KXXEXXXY

Eigenschappen – – –

Beperkte flexibiliteit, enkel simpele patronen Kan gebruikt worden met snelle zoek algoritmes Bij zoeken kan gebruik gemaakt worden van score matrices

Regular expressions ●

Reguliere expressies (RE) –

–

Expressie (string met controle karakters met specifieke betekenis) die kan vertaald worden in een eindige set van strings Flexibelere mogelijkheden om ambiguiteiten aan te duiden (met meerdere controle karakters) ●

– –

bv. [RKY] om R, K of Y aan te duiden

ook verschillen in aantallen mogelijk Speciale karakters en hun betekenis kunnen verschillen bij verschillende programmas

Regular expressions . * + [] [^] {x,y}

●

Eender welk karakter Nul of meer 1 of meer Een van Niet een van Aantal tussen x en y

T..A TG*A TG+A T[GC]A T[^GC]A TG{2,4}A

TTTA, TAAA, TGCA, TGGA, ... TA, TGA, TGGA, TGGGGA, ... TGA, TGGA, TGGGGA, ... TGA, TCA TAA, TTA TGGA, TGGGA, TGGGGA

Voorbeelden ●

tyrosine phosphorylation site –

●

Zinc Finger (C2H2 type) –

●

C.{2,4}C.{12}H.{3,5}H

N-Glycosylation Site –

●

[RK]X{2}[DE]X{3}Y

N[^P][ST][^P]

Homeobox Domain Signature –

[LIVMF].{5}[LIVM].{4}[IV][RKQ].W.{8}[RK]


Eigenschappen – –

Flexibeler dan consensus, sneller Strikte matching ● ●

●

–

binair resultaat: match of geen match sterk gelijkende sequenties met 1 klein verschil (niet voorzien in de reguliere expressie worden gemist Keuze van motief soms moeilijk: gekozen motief kan later toch variabeler blijken

Sterk geconserveerde motieven (10-20 AZ) met typisch een belangrijke rol


Automatisch vinden van (nieuwe) regular expression patronen –

EmotifMaker ●

●

–

Vindt patronen (~ regular expression) in gealigneerde sequenties Vindt ook patronen voor subsets van het alignement (subfamilies)

Pratt ●

Vindt regular expression in ongealigneerde sequenties

Sequentie Sequentie logo's logo's

– –

–

Grafische voorstelling Verdeling afhankelijk van voorkomen verschillende elementen Totale hoogte grafiek geeft een aanduiding van de conservatie

Sequentie logo's –

Sequentie logo ● ● ● ●

–

Voordelen ● ● ●

●

–

Grafische representatie patroon, gestapelde karakters Hoogte proportioneel tot frequentie karakter Meest frequente karakter bovenaan Totale hoogte positie hangt af van de informativiteit/conservatie Meer correct dan consensus sequentie Significante residuen zijn duidelijk Subtiele sequentie patronen worden minder gemakkelijk gemist Aangename voorstelling voor onderzoekers

Maar ●

Niet voor automatische herkenning

Profielen ●

Profiel –

Statistische representatie van het volledige alignement van een similariteitsgroep ●

Mogelijke informatie – – –

–

Welke karakters kunnen voorkomen op elke positie, en in welke verhoudingen Welke posities zijn belangrijk/geconserveerd Welke regios kunnen wegvallen, inserties krijgen

Verschillende methoden mogelijk om deze informatie bij te houden en te gebruiken (benamingen kunnen verschillen afhankelijk van auteurs) ● ●

Weight matrices: profielen die geen indels toelaten, PSSM: position specific scoring matrices, wel indels door scoring via alignment

Position Weight Matrices (PWM)

Position Weight Matrices (PWM) ●

PWM = matrix met – – –

Lijn voor elk mogelijk karakter Kolom voor elke positie Waarden die aangeven hoe ws. Het is dat dit karakter voorkomt op deze positie, bv. ● ●

log-likelihood Log-odds –

●

Logaritme van de ratio van hoe dikwijls we dit karakter zien op deze positie in de set t.o.v. Hoeveel we het verwachten (frequentie van voorkomen)

Eigenschappen – – –

Rechtstreeks gemaakt op basis alignement elke positie onafhankelijk van andere posities geen indels

Position Weight Matrices (PWM) ●

PWM score – – –

●

geeft aan hoe ws. het is dat een test string tot de groep behoort. som van positie-specifieke scores voor elk symbool in de test string (wanneer PWM log waarden bevat) bv. bij PWM met log-odds ->PWM score = log-odds dat de test string gegenereerd werd door het motief versus gegenereerd door de background

MEME (Multiple EM for Motif Elicitation) – –

Vindt automatisch weight matrices voor set van sequentie statistische modelering om de beste grootte, aantal, en beschijving van elk motief te kiezen

Fingerprints ●

Fingerprint –

= Groep van motieven voor karakterisatie van familie Locale Alignementen zonder gaps ●

–

van alle geconserveerde delen

Matrices ●

Unweighted – – –

●

Matrices met frequenties geobserveerd op de verschillende posities Vaak onvoldoende variatie in basis alignemten → slechte herkenning verdere verwanten Iteratief werken: hoe meer sequenties, hoe meer mogelijke variaties goed herkend kunnen worden

Weighted – – –

Weging matrix met b.v. PAM matrix Betere herkenning verdere verwanten Veel lagere specificiteit en dus veel meer ruis

PSSM (Gribskov) ●

PSSM = Positie Specifieke Score matrix –

●

Matrix met per positie de score voor de vervanging/alignment met elk mogelijk AZ

Gemaakt op basis proteïne alignement – –

voor elke positie analyse distributie van verschillende AZ replacement scores berekenen voor de vervanging door alle AZ, gebaseerd op een PAM matrix ●

M(p,a) = Σ W(p,b)·Y(a,b) ● ●

–

W(p,b) is gewicht voorkomen van AZ b op positie p Y(a,b) is PAM matrix

Variabele gap opening en extension penalties (op basis van gaps gezien in het alignement)

Consensus sequentie

PSSM “DEAD” box (Gribskov) Cons A G 11 T 12 D 1 T 2 K 0 G 3 L 5 B 5 L 1 D 7 K 11 V 7 K 4 F -3 L -5 V 10 L -4 D 30 E 30 A 121 D 30 R -7

B 17 9 1 2 1 3 -6 16 -13 19 10 -10 16 -10 -18 -11 -23 110 70 17 110 9

rhle_ecoli dbp2_schpo dbp2_yeast dbpa_ecoli rm62_drome p68_human rhlb_ecoli yn21_caeel yhm5_yeast me31_drome drs1_yeast if4a_rabit if41_human vasa_drome srmb_ecoli

C 0 -1 0 0 -3 0 -4 -6 -12 -7 -3 11 -11 3 -19 11 -37 -50 -60 24 -50 -16

D 16 7 2 3 0 4 -7 15 -14 22 10 -11 16 -14 -21 -11 -24 150 100 25 150 7

E F 14 -16 7 -8 1 -1 2 -2 1 0 4 -1 -4 16 11 -15 -9 27 17 -22 9 -12 -10 14 17 -21 -10 29 -14 42 -11 15 -14 53 100 -100 150 -70 25 -41 100 -100 10 -23

G 19 9 1 3 0 6 -2 10 -8 13 5 0 6 -10 -16 8 -23 70 50 58 70 -7

NA....VKLDQVEILVLDEADR NK....TNLRRVTYLVLDEADR GK....TNLKRVTYLVLDEADR GT....VSLDALNTLVMDEADR GS....TNLKRCTYLVLDEADR GK....TNLRRTTYLVLDEADR NH....INLGAIQVVVLDEADR TK...GFNLKALKFLIMDEADR TK...GFSLRKLKFLVMDEADR KV....ADMSHCRILVLDEADK SA...SFNVDSVEILVMDEADR RY....LSPKYIKMFVLDEADE RY....LSPKYIKMFVLDEADE TF....ITFEDTRFVVLDEADR EN....FDCRAVETLILDEADR

H 5 2 0 0 0 -1 -4 6 -7 7 9 -8 9 -3 -8 -17 -11 40 40 -8 40 17

I -6 4 1 2 1 3 21 -3 24 -6 -4 31 -7 20 34 66 39 -20 -20 0 -20 -9

K 11 12 0 0 4 0 -4 16 -8 19 16 -11 27 -9 -12 -11 -10 30 30 0 30 36

L -11 0 0 0 1 1 23 -8 36 -11 -6 19 -12 26 51 46 73 -50 -30 -9 -50 -14

dead_ecoli if4a_orysa dead_klepn pl10_mouse p54_human if4a_drome ded1_yeast ms16_yeast pr28_yeast if4n_human an3_xenla dbp1_yeast if4a_yeast spb4_yeast if4a_caeel

M -5 4 0 0 3 1 17 -1 30 -3 0 16 0 19 40 34 67 -40 -20 0 -40 7

N 16 10 1 1 1 3 -5 15 -10 14 10 -10 16 -7 -15 -17 -19 70 50 17 70 8

P 9 5 0 1 0 1 -4 4 -5 8 6 0 7 -12 -12 4 -14 10 10 41 10 10

Q 8 4 1 1 1 1 -4 9 -7 15 11 -10 16 -13 -10 -12 -4 70 70 16 70 18

R 4 3 0 -1 1 -2 -8 10 -10 14 12 -12 20 -10 -15 -17 -14 0 0 -24 0 49

GT....LDLSKLSGLVLDEADE QS....LRPDYIKMFVLDEADE GT....LDLSKLSGLVLDEADE GK....IGLDFCKYLVLDEADR GV....AKVDHVQMIVLDEADK KL.....RTQYIKLFVLDEADE GK....ISLANVKYLVLDEADR YS...NKFFRFVDYKVLDEADR HL....LVMKQVETLVLDEADK RS....LRTRAIKMLVLDEADE GK....IGLDFCKYLVLDEADR GK....VSLANIKYLVLDEADR RR....FRTDKIKMFILDEADE PA....VKTSACSMVVMDEADR NA....LDTSRIKMFVLDEADE

S 14 9 0 1 0 4 -2 12 -4 17 10 2 12 -6 -12 -6 -19 20 20 33 20 5

T 15 12 1 4 3 3 4 7 7 6 4 8 8 5 -3 11 -4 20 20 33 20 0

V W -1 -13 7 -8 2 -3 2 -5 1 0 5 -6 19 0 -2 -3 23 6 -5 -5 -4 3 34 -22 -7 0 14 10 32 16 83 -43 39 17 -20 -110 -20 -110 16 -66 -20 -110 -10 35

pr05_yeast if42_mouse dhh1_yeast db73_drome yk04_yeast ybz2_yeast yhw9_yeast glh1_caeel

Y -14 -8 -1 -2 -2 -3 6 -11 9 -18 -8 9 -18 20 17 -4 11 -50 -50 -25 -50 -25

Z 11 5 1 2 1 2 -4 10 -8 16 10 -10 17 -11 -11 -11 -9 90 110 16 90 14

Gap 100 100 22 22 22 22 22 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100

Len 100 100 22 22 22 22 22 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100

ND.GKLLSTKRITFVVMDEADR RY....LSPKWIKMFVLDEADE KV....ADLSDCSLFIMDEADK TK...GFCLKSLKFLVIDEADR TKVIKEQLSQSLRYIVLDEGDK DN.TLIKRFSKVNTLILDEADR SGDDTVGGLMRAKYLVLDEADI GT....IKLDKCRFFVLDEADR

..

PSSM (Gribskov) ●

Testen sequentie –

Alignatie (dynamic programming) van test sequentie met de PSSM ●

Score van alignatie van een positie in de PSSM met een positie in de test sequentie → uit matrix gehaald –

●

Weging van gaps is ook afhankelijk van de positie –

–

Positief of negatief effect van vervangingen in geconserveerd gebied (rood) is veel groter bv. in het magenta gebied met gaps in het alignment is de gap penalty (Gap) en indel penalty (Len) lager

Verbeteringen ● ●

Houdt wel rekening met indels Geeft rechtstreeks een score rekening houdend met wat de kans is dat je dat bepaald karakter kan tegenkomen.

PSSM (Gribskov) ●

PSSM conclusies –

Sensitiever door gebruik score matrix ● ●

–

Houd rekening met Indels ● ●

–

gelijkende AZ kunnen ook goed matchen Mogelijk wel lagere specificiteit Informatie indels in de set worden gebruikt in patroon Laat ook andere indels toe (test via alignment)

Mogelijke verbeteringen ●

● ●

verschillende weging sequenties → om overrepresentatie eigenschappen van vele sterk verwante sequenties vermijden Gap penalties gebaseerd op gemiddelde gap lengte Profile alignementen t.o.v. 6-frame translaties van DNA sequenties

PSI-BLAST ●

Position Specific Iterative BLAST –

Doel ●

Vinden van sequentie families – –

–

inclusief verre verwanten weinig overeenkomst) Patroon (PSSM) van deze familie

Methode ● ●

Gewone BLAST search PSSM (Position-Specific Score Matrix) – –

●

Doorzoek databank met PSSM (ipv sequentie) –

●

profiel op basis van alle significante alignementen Evt. eerst selectie correcte hits Voeg sequenties toe van dezelfde familie die mogelijk nog niet gevonden werden

Iteratief –

maak nieuw profiel met nieuwe sequenties en herhaal

Nog andere BLASTS 

PHI-BLAST    



Patern Hit Initiated BLAST Sequenties die matchen aan een gegeven query sequentie EN een gegeven patroon PSSM gebaseerd op (omgeving van) patroon Vaak begin van PSI-BLAST

RPS-BLAST   

Reverse Position Specific BLAST Query t.o.v databank van voorgecompileerde PSSM's bv. CDD: Conserved Domain Database

Hidden Markov Modellen (HMM) ●

HMM (Hidden Markov Model) – – –

Veel gebruikte techniek voor patroonherkenning Kan complexe patronen herkennen Machine learning techniek ●

leert zelf patronen herkennen op basis van trainings/voorbeeld data


Markov Model –

–

–

Aantal toestanden waarin een waarneming wordt gedaan Verbindingen tussen toestanden met een gewicht dat de waarschijnlijkheid van doorgang bepaald Pad: opeenvolging van toestanden in het model

Start 0.4

0.6 0.3

Rainy 0.7

●

●

●

0.4

Sunny 0.6

Simpel voorbeeld dat het weer per dag modeleert Cirkels = toestanden → het weer op een bepaalde dag: Rainy of Sunny Pijlen = verbindingen/overgangen bv. Wanneer het vandaag regenachtig is, is er 30% kans dat het morgen zonnig is


Hidden Markov Model –

–

● ●

●

toestand kan niet direct waargenomen worden: serie waarnemings waarschijnlijkheden Evt. Begin en eindtoestand zonder waarneming Walk (non-emitting)

Start 0.4

0.6 0.3

Rainy

0.1

Sunny

0.4

0.7

0.5

0.6 0.4

We kunnen de toestand (weer) niet direct waarnemen We krijgen wel de activiteiten van een persoon te weten (waarnemingen) Waarschijnlijkheid activiteiten is afhankelijk van het weer ● bv. als het regenachtig is, is er slechts 10% kans dat er gewandeld werd

0.6

0.1

0.3

Clean Shop


Evaluatie –

●

wat is de kans dat een serie waarnemingen gegenereerd wordt door een gegeven model (Forward algoritme)

Padvinden –

Walk Wat is het meest waarschijnlijke pad door het model gegeven een serie waarnemingen (Viterbi algoritme) → toewijzen van toestand aan elke waarneming

Start 0.4

0.6 0.3

Rainy

0.1

Sunny

0.4

0.7

0.6

0.5

0.6 0.4

0.1

0.3

Clean Shop


Training van een HMM –

Gegeven ●

●

–

Model waarbij parameters (gewichten, …) niet zijn ingevuld een aantal waarnemingen = trainings data

Automatische instelling parameters (gewichten, ...) van het model om zo goed mogelijk de observaties te produceren (Forward-Backward algoritme)

Profile of lineair HMM

● ● ●

Statistisch model vergelijkbaar met profiel Aan elke verbinding is een waarschijnlijkheid verbonden Staten – – –

●

Match: match een karakter aan een kolom in een multiple alignement (meerdere “emissies” mogelijk) Insert: emit karakters niet gemodelleerd door het HMM Delete: sla een kolom over

Alignement – –

Elk karakter in de sequentie wordt geassocieerd met een match of insert staat Pad van hoogste probabiliteit door HMM

Profile of lineair HMM ●

Probabiliteit pad – –

– ●

Alignement uit het profiel halen vermenigvuldiging probabiliteiten van alle overgangen op het pad en de probabiliteiten dat het specifiek AZ wordt gevonden in elke staat in het pad Klein! → optelling via log odds

Programma's: HMMer, SAM

Profile of lineair HMM –

Voordelen (t.o.v. Profielen) ● ●

–

Betere afhandeling deleties en inserties Kan automatisch getraind worden op ongealigneerde sequenties

Probleem: Overfitting ●

Statistisch insignificante AZ distributies per positie –

door klein aantal sequenties: bv. 2 seq. met H op positie 2 → kans 0 dat er een ander AZ op die positie kan komen → Oplossing: Pseudocounts ● Aangepaste scores die geen waarschijnlijkheid van '0' toelaten

→ Belang trainingset!

Neurale netwerken ●

Model gebaseerd op werking neuronen – – –

Gebaseerd op verschillende lagen neuronen/perceptrons Elke neuron/perceptron combineert informatie uit de onderliggende laag Perceptronen werken samen om patronen te herkennen

Perceptron ●

Perceptron – –

mathematische contructie die een set regels omvat 1 invoer ● ●

–

sequentie gegevens met discreet aantal posities Gewichts functie: elke verschillende invoer heeft een bepaald gewicht

Uitvoer ● ●

Getal > 1 sequentie behoort tot de set / bevat de feature Getal < -1 sequentie behoort niet tot de set

Perceptron ●

Training –

Met een Dataset (trainings set) die bestaat uit: ● ●

–

aantal positieve sequenties (behoren tot de set) aantal negatieve sequenties (lijken sterk op de set maar behoren niet tot de set)

Iteratief proces ● ● ●

●

Afwisselend positieve en negatieve sequentie aanbieden Score berekenen Als pos. score < 0 of neg. score > 0 → gewichten aanpassen Herhalen tot gewichten gelijk blijven bij 1 iteratie over de hele lijst

Neurale netwerken –

Neuraal netwerk ●

●

●

–

Voordelen ● ●

–

Verschillende lagen samenwerkende neuronen/perceptrons Parameters: invoer gewichten, treshhold, uitvoer gewicht Training: feed-forward, back-propagation Zeer complexe patronen mogelijk Enkel trainingsdata nodig: geen vooraf opgesteld model

Nadelen ● ● ●

Model kan niet gemakkelijk worden afgeleid (Veel) positieve en negatieve trainingsdata nodig Wat wordt er getraind?

Patroon databanken ●

Databanken van patronen/motieven – – –

Patronen/motieven met gegevens (functie, structuur) afgeleid van alignmenten van sequenties in primaire databanken t.o.v. Sequentie databanken ●

minder redundatie – –

●

Kortere weg naar mogelijke structuur en functie – –

● ●

1 patroon ipv. veel gelijkende sequenties in db bv. in primaire db. Kunnen de vele hits voor 1 domein de enkele, minder duidelijke hits voor een ander domein verdoezelen Geen problemen met plaats van hit, domeinen annotatie

Vaak gevoeliger voor verdere verwantschappen Echter niet compleet

Patroon databanken: PROSITE regular expressions – – –

Een van de eerste patroon databanken Gebruikt regular expressions om patronen weer te geven Motieven specifiek voor een proteine familie ●

●

–

nadruk op de meest geconserveerde en functioneel belangrijke residues Vaak functioneel belangrijke motieven

Korte, zeer strikte patronen ● ● ●

Geen volledige domeinen Minder geschikt voor minder sterk verwante sequenties Vaak niet genoeg informatie om statistisch significante 'matches' in grote proteïne databanken op te leveren

Patroon databanken: PROSITE ●

Formaat –

Patroon en hits file ● ● ● ●

● ●

–

Formaat ~ SWISS-PROT ID id, AC (accessie nummer) PA (patroon) NR diagnostic power: aantal correct herkende leden familie in SWISS-PROT, aantal vals positieven en vals negatieven CC commentaar: evt. repeats, functionele sites, ... DR accessie nummers

Documentatie file ● ● ●

Details over de gekarakteriseerde familie Beschrijving biologische rol motief/motieven, bibliografie Vrije text

Patroon databanken: PROSITE –

Definitie patroon – – – – – – – – – –

–

IUPAC 1 letter codes voor AZ X eender welk AZ [] keuze uit verschillende AZ {} keuze uit alle AZ behalve degene tussen de accolades - scheiding elementen (x) x maal het voorgaand (x,y) tussen x en y maal het voorgaande < N-terminus > C-terminus “Any” : eender welk karakter

Voorbeelden –

–

[AC]-x-V-x(4)-{ED} ● vertaald als: [Ala or Cys]-any-Val-any-any-any-any-{alles behalve Glu or Asp}
id

PROSITE

documentatie

regular expression

Patroon databanken: via alignementen –

PRINTS ●

● ●

–

Prodom ●

–

Fingerprints: meeste/alle motieven in sequenties van de families als diagnostische signatuur Lokale alignementen zonder gaps Uitgebreide annotatie Alignementen met gaps uit SWISS-PROT

Blocks ●

Lokale alignementen zonder gaps

Patroon databanken: profielen ●

PROSITE profile library –

Profielen ● ● ● ●

– –

Worden gebruikt om patronen beter voor te stellen Ook informatie variabelere stukken, indels Zoeken naar complete domeinen Detectie van veel verdere verwanten

Zelfde annotatie standaard als PROSITE Formaat ● ●

Gelijkaardig aan PROSITE MA matrix lijnen i.p.v. patroon lijn (PA) –

Bevatten alle parameters zoals alfabet,cut-off scores en positie specifieke scores voor match posities (/M) en indels posities (/I)

Prosite profile entry ID AC DT DE MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA ...

KRINGLE_2; MATRIX. PS50070; NOV-1997 (CREATED); NOV-1997 (DATA UPDATE); JUN-2013 (INFO UPDATE). Kringle domain profile. /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=79; /DISJOINT: DEFINITION=PROTECT; N1=6; N2=74; /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=.7529; R2=.00952475; TEXT='-LogE'; /CUT_OFF: LEVEL=0; SCORE=813; N_SCORE=8.5; MODE=1; TEXT='!'; /CUT_OFF: LEVEL=-1; SCORE=603; N_SCORE=6.5; MODE=1; TEXT='?'; /DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105; /I: B1=0; BI=-105; BD=-105; /M: SY='D'; M=-15,29,-30,44,37,-36,-15,1,-34,5,-25,-24,10,-6,13,-4,0,-10,-30,-34,-19,25; /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /M: SY='Y'; M=-11,-21,-25,-25,-20,16,-27,-1,10,-12,9,15,-20,-25,-12,-12,-18,-9,3,1,31,-18; /M: SY='H'; M=-13,-8,-26,-9,0,-9,-23,16,-13,-2,-9,-1,-5,-15,2,2,-8,-6,-13,-19,4,-1; /M: SY='G'; M=-4,-5,-11,-4,-14,-29,45,-17,-38,-18,-28,-21,0,-21,-17,-19,-1,-17,-27,-26,-28,-16; /M: SY='N'; M=-9,19,-22,11,2,-22,-10,1,-19,4,-22,-14,26,-17,5,5,5,0,-21,-32,-14,3; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='E'; M=-10,-1,-27,1,17,-26,-19,0,-19,11,-16,-7,-2,-11,16,8,-4,-8,-17,-25,-11,16; /M: SY='S'; M=-1,8,-18,3,-2,-19,5,-6,-22,-7,-25,-17,16,-15,-2,-7,17,6,-18,-33,-18,-2; /M: SY='Y'; M=-20,-20,-30,-20,-20,30,-30,20,0,-10,0,0,-20,-30,-10,-10,-20,-10,-10,30,80,-20; /M: SY='R'; M=-18,-7,-30,-7,3,-21,-19,1,-27,25,-18,-7,0,-18,12,54,-9,-10,-20,-21,-10,4; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='T'; M=-4,2,-18,-4,-3,-17,-18,-12,-16,5,-16,-10,5,-10,-3,1,8,21,-9,-28,-11,-4; /M: SY='V'; M=-1,-19,-19,-22,-17,-2,-21,-13,5,-12,2,5,-16,-21,-13,-12,-7,-1,9,-13,0,-16; /M: SY='S'; M=14,6,-13,2,-1,-20,-1,-9,-19,-8,-25,-18,12,-12,-3,-10,25,10,-12,-35,-19,-2; /M: SY='T'; M=-5,-8,-17,-14,-10,-10,-23,-15,-4,-2,-7,-4,-7,-15,-9,-3,3,20,5,-27,-8,-10; /M: SY='T'; M=0,2,-12,-6,-9,-12,-19,-19,-10,-10,-11,-10,1,-10,-9,-11,17,41,-1,-30,-11,-9; /M: SY='V'; M=-4,-12,-20,-14,-5,-12,-22,-13,-2,-2,-5,0,-11,-17,-7,-2,-4,3,5,-20,-9,-7; /M: SY='S'; M=5,0,-13,-5,-5,-17,-6,-11,-15,-7,-19,-12,6,-12,-4,-9,22,21,-8,-33,-15,-5; /M: SY='G'; M=0,-10,-30,-10,-19,-30,68,-20,-40,-19,-30,-20,0,-20,-19,-19,0,-20,-30,-20,-30,-19;

Prosite profile entry … MA MA MA NR NR NR CC CC CC CC CC CC DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR ...

/M: SY='R'; M=-7,-2,-25,-2,5,-22,-17,-3,-18,8,-17,-8,-1,-12,13,14,0,-3,-15,-23,-9,7; /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /I: E1=0; IE=-105; DE=-105; /RELEASE=2013_08,540732; /TOTAL=219(94); /POSITIVE=219(94); /UNKNOWN=0(0); /FALSE_POS=0(0); /FALSE_NEG=0; /PARTIAL=1; /MATRIX_TYPE=protein_domain; /SCALING_DB=reversed; /AUTHOR=K_Hofmann; /TAXO-RANGE=??E??; /MAX-REPEAT=38; /FT_KEY=DOMAIN; /FT_DESC=Kringle; /VERSION=1; P08519, APOA_HUMAN , T; P14417, APOA_MACMU , T; P98140, FA12_BOVIN , T; Q04962, FA12_CAVPO , T; P00748, FA12_HUMAN , T; Q80YC5, FA12_MOUSE , T; O97507, FA12_PIG , T; D3ZTE0, FA12_RAT , T; Q5E9Z2, HABP2_BOVIN, T; Q14520, HABP2_HUMAN, T; Q8K0D2, HABP2_MOUSE, T; Q6L711, HABP2_RAT , T; Q6QNF4, HGFA_CANFA , T; Q04756, HGFA_HUMAN , T; Q9R098, HGFA_MOUSE , T; Q24K22, HGFL_BOVIN , T; P26927, HGFL_HUMAN , T; P26928, HGFL_MOUSE , T; Q76BS1, HGF_BOVIN , T; Q867B7, HGF_CANFA , T; Q9BH09, HGF_FELCA , T; P14210, HGF_HUMAN , T; Q08048, HGF_MOUSE , T; P17945, HGF_RAT , T; Q96MU8, KREM1_HUMAN, T; Q99N43, KREM1_MOUSE, T; Q924S4, KREM1_RAT , T; Q90Y90, KREM1_XENLA, T; Q8NCW0, KREM2_HUMAN, T; Q8K1S7, KREM2_MOUSE, T; Q16609, LPAL2_HUMAN, T; Q2TV78, MST1L_HUMAN, T; Q8AXY6, MUSK_CHICK , T; Q5G270, NETR_GORGO , T; P56730, NETR_HUMAN , T; Q5G267, NETR_MACMU , T; O08762, NETR_MOUSE , T; Q5G268, NETR_NOMLE , T; Q5G271, NETR_PANTR , T; Q5G269, NETR_PONPY , T; G3V801, NETR_RAT , T; Q5G265, NETR_SAGLB , T; Q5G266, NETR_TRAPH , T; Q1RMT9, P3IP1_BOVIN, T; Q7SXB3, P3IP1_DANRE, T; Q96FE7, P3IP1_HUMAN, T; Q7TMJ8, P3IP1_MOUSE, T; Q5RCS3, P3IP1_PONAB, T; Q56A20, P3IP1_RAT , T; P06868, PLMN_BOVIN , T; P80009, PLMN_CANFA , T; Q7M323, PLMN_CAPHI , T; Q29485, PLMN_ERIEU , T; P80010, PLMN_HORSE , T;

Patroon databanken: HMMs –

PFAM ●

●

Herkenning via HMMs , maar ook lokale alignementen met gaps PFAM-A –

●

PFAM-B –

–

–

Kleine families gebaseerd op de Prodom database (lokale alignementen met gaps uit Swiss-Prot) die niet overlappen met PFAM-A Niet gecurateerd/nagekeken

SMART ●

–

gecurateerd

Uitgebreid geannoteerd

TIGRFAMs ● ●

PIR SuperFamily Superfamily

Interpro ●

Samengestelde patroon databank ● ● ● ●

●

Samenwerking curatoren verschillende databanken Unificatie in documentatie en identificatie Zoektocht met verschilende methoden Resultaten worden samengesteld na toepassing alle methodes

Databanken in Interpro ● ● ● ● ● ● ● ● ●

PROSITE (regular expressions + profielen) PRINTS PFAM-A PRODOM UniProt SMART TIGRFAMs PIRSF (PIR Super Family)) Superfamily

Interpro

InterPro

● ● ●

Korte hits: regular expression Hidden Markov model: match over groter deel van de sequentie Fingerprinting: kleine korte stukjes matchen

Conserved Domain Database ●

CDD – – – –

Samengestelde patroon/motief databank PSSM Doorzocht met RPS-BLAST Databanken gebaseerd op ● ● ●

SMART PFAM Lokale contributies

CDD

Bio-informatica Sequentie Patronen. Peter De Rijk

Recommend Documents