Bio-informatica Structuur
10
Structuur niveaus ●
Primaire structuur ●
●
Sequentie
Secundaire structuur ●
Basis structuur elementen – –
●
Tertiaire structuur ● ●
3D structuur Posttranslationele (posttranscriptionele) modificaties –
●
Helices (binding korte complementaire gebieden) in RNA Alpha helices, beta sheets, ... in proteïnes
signaal peptide cleavage, glycosylatie, …
Quaternaire structuur ● ● ● ●
Complexen van 2 of meer ketens Niet covalente binding Specifieke ratios en 3D configuratie Predictie moeilijk
CATH Proteïne structuur klassificatie ●
Klasse (C) ● ●
●
Architectuur (A) ● ● ●
●
Algemene vorm domein structuur Orientatie secundaire structuur bv.: barrel, 3-layer sandwich
Topologie (fold) (T) ●
●
●
Samenstelling secundaire structuur Mainly-alpha, mainly-beta, alpha-beta, low secundary structure
Fold families met gelijkaardige algemene vorm en connectiviteit van de secundaire Structuur bv. alpha-beta 3-layer sandwich
Homologe superfamilie (H) ● ●
Zelfde afkomst Hoge sequentie identiteit (>35%) en/of SSAP (Sequential Structure Alignment Program) score
CATH
SCOP proteine klassificatie ●
SCOP ● ●
●
Database over alle proteinen met gekende 3D structuur Geeft structurele en evolutionaire verwantschappen aan
Classificatie ●
Familie – – –
●
Superfamilie – – –
●
duidelijke evolutionaire verwantschap Gewoonlijk sequentie identiteit > 30% Soms kleinere identiteit wanneer structurele en functionele gelijkenissen zeer overtuigend zijn Waarschijnlijke evolutionaire verwantschap Lage sequentie identiteit Structurele en functionale eigenschappen sugereren gemeenschappelijke afkomst
Fold –
Grote structurele gelijkenis
Proteïne domeinen
HLA-A2
Proteïne domeinen ●
Modulaire opbouw – –
Proteinen bestaan vaak uit verschillende herkenbare delen (domeinen) met vaak specifieke functies Domein ●
●
Structureel: deel van een polypeptideketen dat onafhankelijk vouwt tot een ruimtelijk te onderscheiden structurele eenheid (fold) Functioneel: goed-gedefinieerde regio in een proteïne dat overeenkomt met een specifieke functie –
Binding ligand, transmembranair element, catalytische site, DNA-binding, ...
Domein structuur ● ●
Domeinen best afzonderlijk bekijken Domeinstrucuur voorspellen – – – –
grote sequenties (>500) vrijwel altijd multidomein deel sequentie → homologie met gekende proteinen domein databanken domeinen vaak gescheiden door ●
low complexity sequence –
● ●
–
Kan voorspeld worden met programma SEG
transmembranaire segmenten coiled-coils
secundaire structuur kan soms aanwijzingen geven ●
"all α domein", "all β domein"
Experimentele 3D structuur ●
Methoden –
X-straal diffractie ● ● ●
“De” Referentie Veel werk, tijd, rekentijd (atomaire structuur berekenen) Vaak moeilijk / niet altijd mogelijk –
–
NMR ●
●
Kristallisatie, stabiliteit, flexibiliteit, grootte
Vnl voor dynamische structuur
Databank van experimenteel bepaalde structuren ●
PDB (protein data bank) – –
Verzameling van de gekende 3D structuren Viewers, ...
Andere experimentele methoden ●
Analyse van de zwavelbruggen –
●
Cysteines die zwavelbrug vormen bevinden zich in elkaars buurt (in 3d structuur)
Spectroscopische data ●
●
Site-directed mutagenesis –
aminozuren veranderen heeft effect op structuur en/of functie ● ●
●
in het aktief centrum bij bindingsplaatsen
Proteolytische klievingsplaatsen –
●
idee over de secundaire structuur van het eiwit
toegankelijkheid betrokken aminozuren
post-translationele modificaties –
toegankelijkheid betrokken aminozuren
Kwaliteit structuur predictie ●
CASP – –
–
Critical Assessment of Techniques for Protein Structure Prediction Workshop waar verschillende groepen/programmas structuur voorspellen van proteinen waarvoor de structuur experimenteel bepaald is maar nog niet publiek beschikbaar (vergelijkbaar met EGASP) Verschillende categorien ●
●
tertiaire structuur, secundaire structuur, complexen, domein grenzen, functie, model refinement, ... Verdere opdeling tertaire structuur voorspelling – –
homology modeling, fold recognition, de novo predictie ( nu ”new fold” omdat vaak gebruik gemaakt word van gekende folds voor training ML) sinds CASP7: Template based modeling, Template free modeling
Proteïne secundaire structuur ●
DSSP –
Database of secondary structure assignments ● ● ●
–
secundaire structuur “sequentie” van secundaire structuur elementen gebaseerd op coordinaten in PDB files met programma DSSP (Definition of Secondary Structure of Proteins)
Secundaire structuur elementen in database – – – –
●
H B E G
alpha helix beta-sheet extended strand 3/10 helix
Belang ● ● ●
Alignatie Klassificatie Actieve sites
I pi helix T hydrogen bonded turn S bend
Proteïne secundaire structuur predictie ●
Statistische methoden ●
Residu waarschijnlijkheden voor verschillende staten (empirisch afgeleid) –
●
●
Sliding window
Hydrofoob moment ● ●
Assymetrie van hydrophobiciteit van een AZ keten b.v. Alfa helix (periodiciteit 3.6) met een kant in de core: –
●
Typisch hydrophobiciteits patroon
Comparatief ● ●
●
Patronen van conservatie Structuur wordt beter geconserveerd dan sequentie want heeft een rechtstreeks belang voor de functie Gebaseerd op alignementen –
●
Gly hoge ws. in reverse turns, Pro weinig ws. in helix,
sterke verbetering predictie
Machine learning methoden ● ●
Trainingset: gekende proteïnen en proteïne structuren → DSSP databank NN, HMM
Proteïne secundaire structuur ●
Programma's –
JPRED2 – –
–
PHD, PHDsec, PHDacc – – –
–
–
Verbeterde versie van PHD Profile-based neuraal netwerk predictie
JPRED –
–
Secundaire structuur, solvent accessibiliteit Neurale netwerken Op basis van alignementen (10% betere predictie dan op basis van 1 sequentie)
PROF, PROFseq, PROFacc –
–
Combinatie van verschillende methoden (PHD, PREDATOR, ...) Consensus voorspelling
2 3-layer neurale netwerken (sliding window)
PSIPRED –
Neurale netwerken die positie-specifieke score matrix in PSI-BLAST output analyseren
Transmembranaire regios ●
Transmembranaire regios –
Typishe hydrophobiciteits profiel ●
–
Herkenning transmembranaire elementen
Patroonherkennings algoritmen ● ●
NN HMM
Transmembranaire regios ●
Programma's –
PHDhtm – – – –
–
TMHMM –
–
– –
multiple alignmenten: als slechts 1 sequentie, zoekt andere in db propensity values voor midden en uiteinde transmembranaire regio weging volgens conservatie
TopPred –
–
HMM
TMAP –
–
Locatie en topologie van transmembranaire helices Op basis van alignementen Neurale netwerken, verfijning met empirische filter en dynamic programming ~95% correcte predictie
Hydrofobiciteits patronen
DAS –
Hydrofobiciteits patronen
Coiled Coils ●
Coiled coils – –
●
verschillende α-helixen op hun beurt nog eens in elkaar gedraaid bv. in myosine of fibrine
programma COILS ●
waarschijnlijkheid dat de sequentie een coiled coil conformatie zal aannemen – –
● ●
similariteits score in databank van gekende coiled-coil structuren (~ alignatie) vergeleken met distributie scores met gekende globulaire en coiled coil eiwitten
specifiek voor linksdraaiende coiled coils gewogen scan – – –
coiled coil vnl. hydrofiel behalve aminozuren op plaats 1 en 4 ongewogen → hydrofiele aminozuren erg bevoordeeld gewogen scan → plaatsen 1 en 4 extra gewicht
Andere structuur elementen ●
Programma's –
CYSPRED – – –
–
Welke Cys residus vormen disulfide bruggen Neuraal netwerk Predictie score 72% (81% voor alingementen)
GLOBE –
Predictie van globulariteit proteine
3D proteïne structuur
Databank zoektocht –
Patronen ●
Domein databanken – –
–
Gekende domeinen Kunnen informatie opleveren over structuur en functie van delen
Sequentie ●
methoden – –
●
PDB – –
●
BLAST, FASTA,BLITZ, SCANPS PSI-BLAST, HMMer: verhoging gevoeligheid Gekende 3D structuren Structuur naar homologie
Proteine databanken – – –
Geen gekende structuur Multiple alignementen van homologe sequenties met gelijkaardige structuur Kunnen gebruikt worden om predictie te verbeteren
Proteïne 3D structuur ●
Theoretische methoden –
Homology modeling –
–
Threading / Fold herkenning –
–
Gekende structuur met goede similariteit (>30% identiteit) Minder goede / geen similariteit
Ab initio –
Geen homologen
Homology modelling ●
Methode –
Homologie searches ● ● ●
–
sequenties met gekende 3D structuur BLASTP, MAXHom, PSIBlast duidelijke globale similariteit
Structurele alignatie ●
Modelleer backbone –
● ●
●
vertrekkend vanaf alignment ~ rekening houden met indel
Modelleer zijketens Energie optimalisatie (structuur met minimum free energy) → tijdsrovend
Resultaten ● ● ●
90% id.: resultaat vergelijkbaar met X-straal diffractie 50% id.: fouten tot 1.5Å en grotere locale fouten 25% id.: grote fouten (slechte alignatie)
Homology modelling ●
Programma's –
SWISS-MODEL ●
●
● ●
– – –
MODELLER WHAT IF CPHmodels ●
– –
BLASTP2: Zoek similaire sequenties met gekende structuur in database (ExNRL) SIM: Selecteer templates met id>20%, model langer dan 20AZ, detecteer domeinen ProModII: genereer modellen Gromos96: energie minimalisatie van alle modellen dat ProModII genereert
Collectie databases en methoden
iMolTalk ...
Fold herkenning ●
Beperkt aantal mogelijke folds zijn energetisch interessant – –
Proteinen vaak zelfde fold, zelfs zonder significante similariteit Voor veel proteinen ● ●
– ●
geschikte structuur in de databanken Niet gevonden wegens gebrek aan similariteit
Databanken van gekende folds
Fold herkenning (Inverse folding problem) – – –
Voorspelling welke fold best past op een gegeven sequentie Alle mogelijke structuren voorspellen: tijdsrovend evt. gebruik maken van gegevens over secundaire structuur, … → om zoektocht te beperken
Threading ●
Threading (~techniek fold herkenning) – – –
●
Database van gekende folds “thread” sequentie door meest waarschijnlijke / alle structuren Selecteer “beste” structuur
Predictie gebaseerde threading – –
Verre homologen zonder significante sequentie gelijkenis (0-25%) Detectie van gelijkaardige patronen van sec. structuur en accessibiliteit tussen ongekende sequentie en gekende fold ● ●
–
Voorspel sec. structuur onbekende sequentie Alignatie met DSSP
Verhoog zo mogelijkheid tot gebruik homologie gegevens
Threading/fold recognition programma's –
TOPITS ● ●
Predictie gebaseerd threading programma Zoekt naar structurele homologen in de DSSP databank – – –
●
–
Gekende 3D structuren in de vorm van 1D strings van sec. structuur en solvent accessibiliteit Predictie SS en solvent accessibiliteit van query sequentie met PHD -> string Alignatie strings met dynamic programming
Eerste hit in 30% van de gevallen correct (beter bij hogere score)
Threader 2 ●
Database van folds –
●
Dynamic programming voor alignatie sequentie – structuur – –
● ●
Afgeleid van gekende structuren (geen sequentie info) Scoring op basis van continue, statistische afgeleide potentiaal Werkt met volledige database
Test query sequentie t.o.v. alle folds Bereken energie -> laagste energie is beste match
Ab initio ●
Ab initio methoden – – – – –
Wanneer er geen gekende structuur op de onbekende sequentie past Enkel vertrekkende van de sequentie Energie minimalisatie; minimale energie berekenen Simulaties van folding (molecular dynamics) Problemen ● ● ●
●
Zeer rekenintensief Enkel kleine molecules Beperkt succes
Rosetta – –
Gebruikt wel homologie wanneer gevonden (~geen zuivere “ab initio”) De novo modeling wanneer geen homologie ● ● ●
Fragmenten van bestaande PDB structuren als gids Combinatie met energie functies is niet “puur” ab initio
Conclusie structuur predictie ●
Secundaire structuur – –
●
Relatief betrouwbare resultaten wanneer we vertrekken van een alignement Gebruik en vergelijk verschillende methoden
Tertiaire structuur – – –
Betrouwbare resultaten wanneer goed gekend homoloog voorhanden is Problematischer bij minder duidelijke of geen homologen Gebruik en vergelijk verschillende methoden
Homologie en functie ●
Genfamilies –
Groepen genen die homoloog zijn ● ●
– – ●
door duplicatie (paralogen) ~ binnen 1 soort door speciatie (orthologen) ~ tussen verschillende soorten
Vaak dezelfde of gelijkaardige functie b.v. transporter eiwitten Niet altijd dezelfde/gelijkaardige functie: kan soms compleet anders zijn
Domein analyse – –
Belangrijke stap bij bekijken onbekend proteïne Domein databanken: sequentie patronen ● ●
– –
profielen, weight matrices, ... Interpro, ...
Komt vaak overeen met typische folds Domeinen hebben vaak een typische functie, maar kan toch verschillen in bv. specificiteit
RNA structuur
Primary structure
AG U C ...
Secondary structure
GA U. A G A. . A A G G. . UC G A. . CC A U G. C G. U C C A
Belang RNA structuur ●
Invloed structuur – –
●
Translationele controle in mRNA Replicatie controle bij virussen
Vele functionele/actieve RNA moleculen die niet coderen voor AZ (ncRNA) – – – – – –
rRNA (ribosomaal RNA): translatie snRNA (small nuclear RNAs): splicing snoRNA (small nulceolar RNAs): constructie ribosomen, telomeren miRNA (microRNA): regulatie van expressie siRNA: targetting voor afbraak ...
Base interacties in RNA ●
Canonische paren (Watson-Crick type) –
●
Wobble paren – – –
●
AU en GC zoals bv. 3d base in anticodon met 1st base codon GU paar wordt vaak gevonden in RNA structuur Vrijwel zelfde gedrag als canonische paren
Niet - canonische paren – – –
experimenteel vastgesteld (X-straal diffractie van kleine artificiële RNAs) b.v. GA paar komt vrij regelmatig voor (vaak uiteinde helix) Er zijn verschillen in de waarschijnlijkheid van voorkomen van niet-canonische paren
Secundaire RNA structuur 1. Helix ●
3
duplex (A-form) van minstens 2 baseparen
2. Enkelstrengige gebieden 3. Hairpin ●
tetraloops –
UUCG, GCAA, CUUG
4. Bulge loop 5. Internal loop 6. Junctie of multibranched loop
3
1 5 1
1
4 6 1 2
Tertiaire structuur interacties –
Tertiaire base paringen ●
loop-loop interacties –
●
Pseudoknopen –
–
–
Vaak zeldzame interactions segment in “hairpin” vormt helix met segment buiten de hairpin helix Moeilijk te zeggen welke interactie secundair en welke tertiair is
Andere tertiaire interacties ● ● ●
intercalatie base triples helix - helix interacties
Pseudoknoop
RNA Structuur voorspelling ●
Experimenteel –
Chemische en enzymatische methoden ●
–
X-straal diffractie ●
– ●
Single of double strand specifieke modificatie, crosslinking, ... Maken van kristallen is moeilijk
NMR
Voorspellen – – –
Thermodynamische methoden Probabilistische modellen Comparatieve methoden
Thermodynamische methoden ●
Vinden van de energetisch meest voordelige structuur – – –
MFE (minimum Free Energy) Theoretisch mogelijk Problemen: ●
●
●
–
experimenteel bepaalde thermodynamische data is niet altijd accuraat Invloed van interacties met solvent, ionen, proteinen, etc. moeilijk te quantificeren → dikwijls niet in rekening gebracht computationeel complex
zware vereenvoudigingen zijn noodzakelijk
Thermodynamische methoden ●
Vrije energie parameters – –
Variatie van parameters tot gekende structuren (tRNA and 5S) correct voorspeld worden experimentele studies op de stabiliteit van structuren gevormd door kleine oligoribonucleotides ●
–
Door Calorimetrie (bepalen smeltcurves)
Stabiliteit basepaar (door waterstofbruggen) wordt beinvloed door zijn omgeving → Nearest neighbor model ●
●
simplificatie: stabiliteit van de interacties is enkel afhankelijk van vlakbij gelegen base paren loop regios: enkel afhankelijk van lengte –
Niet correct: b.v. tetraloops (sommige sequenties van 4 basen in de loop zijn veel stabieler dan andere sequnties)
Thermodynamische methoden Combinatorische Algoritmen ●
Algoritme ●
●
●
Voordelen ●
●
●
Lijst van alle mogelijke helices (op basis canonische en wobble paren) Combinatie met laagste vrije energie Niet nearest neigbor interacties kunnen in rekening gebracht worden Pseudo-knopen zijn mogelijk
Nadelen ●
Aantal mogelijkheden stijgt te snel voor grotere sequenties
Thermodynamische methoden Dynamic programming algoritme ●
Algoritme ●
● ●
●
●
Voordeel ●
●
Bereken laagste energie voor segment S met lengte i-j S(i,j) voor elke subsequentie ri...rj: is afhankelijk van subsequenties Start met pentanucleotides, dan hexanucleotides, etc. Herhaal tot laagste vrije energie voor de volledige sequentie wordt gevonden Vind de structuur door backtracing snelheid
Nadeel ● ●
Enkel nearest-neighbor kan in rekening gebracht worden Geen pseudoknopen
Thermodynamische methoden Dynamic programming algoritme e(ri,rj) = vrije energie bij paren van ri en rj S(i,j) = optimale vrije energie van segment ri...rj
S(i+1,j) –
S(i,j-1)
S(i+1,j-1)+e(ri,rj)
S(i,k)+S(k+1,j)
De optimale vrije energie van een segment van positie i tot j ● ●
= beste van alle mogelijkheden hierboven Laatste mogelijkheid maakt vertakkingen mogelijk –
k varieert tussen I en j
Thermodynamische methoden programma's ●
Mfold ● ● ●
Nearest-neighbor, geen pseudoknopen Dynamic programming om energie optimalisatie te doen Verschillende verbeteringen –
●
●
Grote complexiteit: O(n3) – tijd, O(n2) – ruimte
Vienna RNA Package –
Verschillende dynamic programming algoritmes ● ● ●
●
Suboptimale folds, experimentele constraints
Minimum free energy (~mfold) Partition function Suboptimal folding
Rnadraw –
Dynamic programming (~ mfold)
Probabilistische modelen ●
Probabilistische modellen –
statistische modellen van RNA structuur ●
●
~ vergelijkbaar met HMM, maar HMM veronderstellen dat alle posities onafhankelijke, niet interagerende distributies hebben. Dit klopt niet voor RNA structuur b.v. stochastic context free grammars (SCFG) –
●
–
komen van computationele linguistiek
parameters worden berekend op basis van gekende sequenties – structuur relaties (set geannoteerde RNA sequenties)
Programmas ●
CONTRAfold –
conditional log-linear models (extensie van SCFGs)
Pobabilistische modellen ●
Stochastic Context Free grammars –
set van formele regels (productions). bv. (simpel) –
–
Opeenvolging van regels (=parse) → sequentie – –
–
ws. vorige parse = pS→aSu·pS→gSc·pS→uS·pS→e
Mapping van een parse → structuur ●
–
bv. sequentie agucu: S → aSu → agScu → aguScu → agucu Meerdere parses mogelijk voor zelfde sequentie
waarschijnlijkheden voor verschillende mogelijkheden –
–
S → aSu | uSa | cSg | gSc | gSu | uSg | aS | cS | gS | uS | e
Base paar wanneer twee letters worden gegenereerd in dezelfde stap
Training: gegeven een set sequenties → waarschijnlijkheden invullen
Comparatieve methode ●
Basis – – –
secondaire structuur van functioneel RNA wordt geconserveerd in de evolutie Zoeken naar een structuur model dat past op een set van homologe sequenties Structuur model gemeenschappelijk in een set van homologe sequenties
Comparatieve methode
Comparatieve Analyse ●
Compenserende base veranderingen –
– ●
Verandering van een base in een helix wordt gecompenseerd door een verandering op de complementaire positie om de baseparing te behouden Bevestigt de aanwezigheid van een interactie
Covariatie – – –
2 posities varieren gelijktijdig (zonder per se canonieke base paren te vormen) duidt op constraints in de structuur mutual information I ( X ; Y )= ∑ ∑ p ( x , y )log ( ● ●
●
p(x , y) ) p( x ) p ( y)
y ∈Y y ∈ X Maat voor covariatie tussen 2 posities berekend op basis van voorkomen van elk paar basen op de twee posities t.o.v. hoeveel we ze verwachten terug te vinden bij toeval =0 als posities onafhankelijk (log van verhouding, die 1 is als toeval)
Automatische comparatieve analyse ●
Alignement gevolgd door covariatie analyse – –
Covariatie scores voor mogelijke baseparen met b.v. mutual-information Combinatie met MFE methoden ●
●
–
ILM (Iterative Loop Matching) supporteert ook pseudoknopen Vienna RNA pakket (als nieuwe methode)
Probabilistische modelen ●
●
parameters worden berekend op basis van gekende sequentie – structuur relaties Pfold – –
stochastic context free grammars probabiliteit van structuur gegeven alignement en boom
automatische comparatieve analyse ●
Simultane alignatie en structuur predictie –
Sankoff-Algorithm ● ●
–
zoeken naar structureel geconserveerde ankers en iteratieve extensie binnen deze ankers ●
●
zeer computationeel intens (traag, beperkte grootte) vb. Carnac, Foldalign, Dynalign, Pmcomp
vb. RNAscf (RNA stacks based consensus folding), caRNAc
Structuur alignatie – –
Bij zeer slecht aligneerbare sequenties methode ● ● ●
–
Predictie structuur sequenties afzonderlijk Alignatie van structuur Zoeken naar consensus structuur
bv. RNAforester, MARNA
Overzicht
Plan A: align, then fold
Plan B: align and fold
Scores
Plan C: fold and compare folds
Comparatieve methode ●
Voordelen – – –
enkel sequencing experimenten Geen hinder van interacties met andere moleculen Succesvol ●
●
nieuwe structurele elementen voorgesteld op basis van comparatieve analyse zijn later bewezen op basis van hoge resolutie experimentele methoden (pseudo-knoop, niet-canonische paringen, tetraloops) correcte predictie structuur (t.o.v. latere resultaten met X-straal diffractie) – –
tRNA ribosomaal RNA
Comparatieve methode ●
Nadelen – – – –
(groot) aantal verwante sequenties nodig Volledig geconserveerde regios kunnen niet opgelost worden Arbeidsintensief Zeer variable regios ●
● ●
–
Problemen met alignement (maar alignement kan verbeterd worden met behulp van structuur informatie) Locale variaties in structuur zijn altijd mogelijk Inserties die slechts terugevonden worden in een beperkt aantal sequenties
sequentie fouten
X straal diffractie