Bio-informatica Structuur

Bio-informatica Structuur

10

Structuur niveaus ●

Primaire structuur ●

●

Sequentie

Secundaire structuur ●

Basis structuur elementen – –

●

Tertiaire structuur ● ●

3D structuur Posttranslationele (posttranscriptionele) modificaties –

●

Helices (binding korte complementaire gebieden) in RNA Alpha helices, beta sheets, ... in proteïnes

signaal peptide cleavage, glycosylatie, …

Quaternaire structuur ● ● ● ●

Complexen van 2 of meer ketens Niet covalente binding Specifieke ratios en 3D configuratie Predictie moeilijk

CATH Proteïne structuur klassificatie ●

Klasse (C) ● ●

●

Architectuur (A) ● ● ●

●

Algemene vorm domein structuur Orientatie secundaire structuur bv.: barrel, 3-layer sandwich

Topologie (fold) (T) ●

●

●

Samenstelling secundaire structuur Mainly-alpha, mainly-beta, alpha-beta, low secundary structure

Fold families met gelijkaardige algemene vorm en connectiviteit van de secundaire Structuur bv. alpha-beta 3-layer sandwich

Homologe superfamilie (H) ● ●

Zelfde afkomst Hoge sequentie identiteit (>35%) en/of SSAP (Sequential Structure Alignment Program) score

CATH

SCOP proteine klassificatie ●

SCOP ● ●

●

Database over alle proteinen met gekende 3D structuur Geeft structurele en evolutionaire verwantschappen aan

Classificatie ●

Familie – – –

●

Superfamilie – – –

●

duidelijke evolutionaire verwantschap Gewoonlijk sequentie identiteit > 30% Soms kleinere identiteit wanneer structurele en functionele gelijkenissen zeer overtuigend zijn Waarschijnlijke evolutionaire verwantschap Lage sequentie identiteit Structurele en functionale eigenschappen sugereren gemeenschappelijke afkomst

Fold –

Grote structurele gelijkenis

Proteïne domeinen

HLA-A2

Proteïne domeinen ●

Modulaire opbouw – –

Proteinen bestaan vaak uit verschillende herkenbare delen (domeinen) met vaak specifieke functies Domein ●

●

Structureel: deel van een polypeptideketen dat onafhankelijk vouwt tot een ruimtelijk te onderscheiden structurele eenheid (fold) Functioneel: goed-gedefinieerde regio in een proteïne dat overeenkomt met een specifieke functie –

Binding ligand, transmembranair element, catalytische site, DNA-binding, ...

Domein structuur ● ●

Domeinen best afzonderlijk bekijken Domeinstrucuur voorspellen – – – –

grote sequenties (>500) vrijwel altijd multidomein deel sequentie → homologie met gekende proteinen domein databanken domeinen vaak gescheiden door ●

low complexity sequence –

● ●

–

Kan voorspeld worden met programma SEG

transmembranaire segmenten coiled-coils

secundaire structuur kan soms aanwijzingen geven ●

"all α domein", "all β domein"

Experimentele 3D structuur ●

Methoden –

X-straal diffractie ● ● ●

“De” Referentie Veel werk, tijd, rekentijd (atomaire structuur berekenen) Vaak moeilijk / niet altijd mogelijk –

–

NMR ●

●

Kristallisatie, stabiliteit, flexibiliteit, grootte

Vnl voor dynamische structuur

Databank van experimenteel bepaalde structuren ●

PDB (protein data bank) – –

Verzameling van de gekende 3D structuren Viewers, ...

Andere experimentele methoden ●

Analyse van de zwavelbruggen –

●

Cysteines die zwavelbrug vormen bevinden zich in elkaars buurt (in 3d structuur)

Spectroscopische data ●

●

Site-directed mutagenesis –

aminozuren veranderen heeft effect op structuur en/of functie ● ●

●

in het aktief centrum bij bindingsplaatsen

Proteolytische klievingsplaatsen –

●

idee over de secundaire structuur van het eiwit

toegankelijkheid betrokken aminozuren

post-translationele modificaties –

toegankelijkheid betrokken aminozuren

Kwaliteit structuur predictie ●

CASP – –

–

Critical Assessment of Techniques for Protein Structure Prediction Workshop waar verschillende groepen/programmas structuur voorspellen van proteinen waarvoor de structuur experimenteel bepaald is maar nog niet publiek beschikbaar (vergelijkbaar met EGASP) Verschillende categorien ●

●

tertiaire structuur, secundaire structuur, complexen, domein grenzen, functie, model refinement, ... Verdere opdeling tertaire structuur voorspelling – –

homology modeling, fold recognition, de novo predictie ( nu ”new fold” omdat vaak gebruik gemaakt word van gekende folds voor training ML) sinds CASP7: Template based modeling, Template free modeling

Proteïne secundaire structuur ●

DSSP –

Database of secondary structure assignments ● ● ●

–

secundaire structuur “sequentie” van secundaire structuur elementen gebaseerd op coordinaten in PDB files met programma DSSP (Definition of Secondary Structure of Proteins)

Secundaire structuur elementen in database – – – –

●

H B E G

alpha helix beta-sheet extended strand 3/10 helix

Belang ● ● ●

Alignatie Klassificatie Actieve sites

I pi helix T hydrogen bonded turn S bend

Proteïne secundaire structuur predictie ●

Statistische methoden ●

Residu waarschijnlijkheden voor verschillende staten (empirisch afgeleid) –

●

●

Sliding window

Hydrofoob moment ● ●

Assymetrie van hydrophobiciteit van een AZ keten b.v. Alfa helix (periodiciteit 3.6) met een kant in de core: –

●

Typisch hydrophobiciteits patroon

Comparatief ● ●

●

Patronen van conservatie Structuur wordt beter geconserveerd dan sequentie want heeft een rechtstreeks belang voor de functie Gebaseerd op alignementen –

●

Gly hoge ws. in reverse turns, Pro weinig ws. in helix,

sterke verbetering predictie

Machine learning methoden ● ●

Trainingset: gekende proteïnen en proteïne structuren → DSSP databank NN, HMM

Proteïne secundaire structuur ●

Programma's –

JPRED2 – –

–

PHD, PHDsec, PHDacc – – –

–

–

Verbeterde versie van PHD Profile-based neuraal netwerk predictie

JPRED –

–

Secundaire structuur, solvent accessibiliteit Neurale netwerken Op basis van alignementen (10% betere predictie dan op basis van 1 sequentie)

PROF, PROFseq, PROFacc –

–

Combinatie van verschillende methoden (PHD, PREDATOR, ...) Consensus voorspelling

2 3-layer neurale netwerken (sliding window)

PSIPRED –

Neurale netwerken die positie-specifieke score matrix in PSI-BLAST output analyseren

Transmembranaire regios ●

Transmembranaire regios –

Typishe hydrophobiciteits profiel ●

–

Herkenning transmembranaire elementen

Patroonherkennings algoritmen ● ●

NN HMM

Transmembranaire regios ●

Programma's –

PHDhtm – – – –

–

TMHMM –

–

– –

multiple alignmenten: als slechts 1 sequentie, zoekt andere in db propensity values voor midden en uiteinde transmembranaire regio weging volgens conservatie

TopPred –

–

HMM

TMAP –

–

Locatie en topologie van transmembranaire helices Op basis van alignementen Neurale netwerken, verfijning met empirische filter en dynamic programming ~95% correcte predictie

Hydrofobiciteits patronen

DAS –

Hydrofobiciteits patronen

Coiled Coils ●

Coiled coils – –

●

verschillende α-helixen op hun beurt nog eens in elkaar gedraaid bv. in myosine of fibrine

programma COILS ●

waarschijnlijkheid dat de sequentie een coiled coil conformatie zal aannemen – –

● ●

similariteits score in databank van gekende coiled-coil structuren (~ alignatie) vergeleken met distributie scores met gekende globulaire en coiled coil eiwitten

specifiek voor linksdraaiende coiled coils gewogen scan – – –

coiled coil vnl. hydrofiel behalve aminozuren op plaats 1 en 4 ongewogen → hydrofiele aminozuren erg bevoordeeld gewogen scan → plaatsen 1 en 4 extra gewicht

Andere structuur elementen ●

Programma's –

CYSPRED – – –

–

Welke Cys residus vormen disulfide bruggen Neuraal netwerk Predictie score 72% (81% voor alingementen)

GLOBE –

Predictie van globulariteit proteine

3D proteïne structuur

Databank zoektocht –

Patronen ●

Domein databanken – –

–

Gekende domeinen Kunnen informatie opleveren over structuur en functie van delen

Sequentie ●

methoden – –

●

PDB – –

●

BLAST, FASTA,BLITZ, SCANPS PSI-BLAST, HMMer: verhoging gevoeligheid Gekende 3D structuren Structuur naar homologie

Proteine databanken – – –

Geen gekende structuur Multiple alignementen van homologe sequenties met gelijkaardige structuur Kunnen gebruikt worden om predictie te verbeteren

Proteïne 3D structuur ●

Theoretische methoden –

Homology modeling –

–

Threading / Fold herkenning –

–

Gekende structuur met goede similariteit (>30% identiteit) Minder goede / geen similariteit

Ab initio –

Geen homologen

Homology modelling ●

Methode –

Homologie searches ● ● ●

–

sequenties met gekende 3D structuur BLASTP, MAXHom, PSIBlast duidelijke globale similariteit

Structurele alignatie ●

Modelleer backbone –

● ●

●

vertrekkend vanaf alignment ~ rekening houden met indel

Modelleer zijketens Energie optimalisatie (structuur met minimum free energy) → tijdsrovend

Resultaten ● ● ●

90% id.: resultaat vergelijkbaar met X-straal diffractie 50% id.: fouten tot 1.5Å en grotere locale fouten 25% id.: grote fouten (slechte alignatie)

Homology modelling ●

Programma's –

SWISS-MODEL ●

●

● ●

– – –

MODELLER WHAT IF CPHmodels ●

– –

BLASTP2: Zoek similaire sequenties met gekende structuur in database (ExNRL) SIM: Selecteer templates met id>20%, model langer dan 20AZ, detecteer domeinen ProModII: genereer modellen Gromos96: energie minimalisatie van alle modellen dat ProModII genereert

Collectie databases en methoden

iMolTalk ...

Fold herkenning ●

Beperkt aantal mogelijke folds zijn energetisch interessant – –

Proteinen vaak zelfde fold, zelfs zonder significante similariteit Voor veel proteinen ● ●

– ●

geschikte structuur in de databanken Niet gevonden wegens gebrek aan similariteit

Databanken van gekende folds

Fold herkenning (Inverse folding problem) – – –

Voorspelling welke fold best past op een gegeven sequentie Alle mogelijke structuren voorspellen: tijdsrovend evt. gebruik maken van gegevens over secundaire structuur, … → om zoektocht te beperken

Threading ●

Threading (~techniek fold herkenning) – – –

●

Database van gekende folds “thread” sequentie door meest waarschijnlijke / alle structuren Selecteer “beste” structuur

Predictie gebaseerde threading – –

Verre homologen zonder significante sequentie gelijkenis (0-25%) Detectie van gelijkaardige patronen van sec. structuur en accessibiliteit tussen ongekende sequentie en gekende fold ● ●

–

Voorspel sec. structuur onbekende sequentie Alignatie met DSSP

Verhoog zo mogelijkheid tot gebruik homologie gegevens

Threading/fold recognition programma's –

TOPITS ● ●

Predictie gebaseerd threading programma Zoekt naar structurele homologen in de DSSP databank – – –

●

–

Gekende 3D structuren in de vorm van 1D strings van sec. structuur en solvent accessibiliteit Predictie SS en solvent accessibiliteit van query sequentie met PHD -> string Alignatie strings met dynamic programming

Eerste hit in 30% van de gevallen correct (beter bij hogere score)

Threader 2 ●

Database van folds –

●

Dynamic programming voor alignatie sequentie – structuur – –

● ●

Afgeleid van gekende structuren (geen sequentie info) Scoring op basis van continue, statistische afgeleide potentiaal Werkt met volledige database

Test query sequentie t.o.v. alle folds Bereken energie -> laagste energie is beste match

Ab initio ●

Ab initio methoden – – – – –

Wanneer er geen gekende structuur op de onbekende sequentie past Enkel vertrekkende van de sequentie Energie minimalisatie; minimale energie berekenen Simulaties van folding (molecular dynamics) Problemen ● ● ●

●

Zeer rekenintensief Enkel kleine molecules Beperkt succes

Rosetta – –

Gebruikt wel homologie wanneer gevonden (~geen zuivere “ab initio”) De novo modeling wanneer geen homologie ● ● ●

Fragmenten van bestaande PDB structuren als gids Combinatie met energie functies is niet “puur” ab initio

Conclusie structuur predictie ●

Secundaire structuur – –

●

Relatief betrouwbare resultaten wanneer we vertrekken van een alignement Gebruik en vergelijk verschillende methoden

Tertiaire structuur – – –

Betrouwbare resultaten wanneer goed gekend homoloog voorhanden is Problematischer bij minder duidelijke of geen homologen Gebruik en vergelijk verschillende methoden

Homologie en functie ●

Genfamilies –

Groepen genen die homoloog zijn ● ●

– – ●

door duplicatie (paralogen) ~ binnen 1 soort door speciatie (orthologen) ~ tussen verschillende soorten

Vaak dezelfde of gelijkaardige functie b.v. transporter eiwitten Niet altijd dezelfde/gelijkaardige functie: kan soms compleet anders zijn

Domein analyse – –

Belangrijke stap bij bekijken onbekend proteïne Domein databanken: sequentie patronen ● ●

– –

profielen, weight matrices, ... Interpro, ...

Komt vaak overeen met typische folds Domeinen hebben vaak een typische functie, maar kan toch verschillen in bv. specificiteit

RNA structuur

Primary structure

AG U C ...

Secondary structure

GA U. A G A. . A A G G. . UC G A. . CC A U G. C G. U C C A

Belang RNA structuur ●

Invloed structuur – –

●

Translationele controle in mRNA Replicatie controle bij virussen

Vele functionele/actieve RNA moleculen die niet coderen voor AZ (ncRNA) – – – – – –

rRNA (ribosomaal RNA): translatie snRNA (small nuclear RNAs): splicing snoRNA (small nulceolar RNAs): constructie ribosomen, telomeren miRNA (microRNA): regulatie van expressie siRNA: targetting voor afbraak ...

Base interacties in RNA ●

Canonische paren (Watson-Crick type) –

●

Wobble paren – – –

●

AU en GC zoals bv. 3d base in anticodon met 1st base codon GU paar wordt vaak gevonden in RNA structuur Vrijwel zelfde gedrag als canonische paren

Niet - canonische paren – – –

experimenteel vastgesteld (X-straal diffractie van kleine artificiële RNAs) b.v. GA paar komt vrij regelmatig voor (vaak uiteinde helix) Er zijn verschillen in de waarschijnlijkheid van voorkomen van niet-canonische paren

Secundaire RNA structuur 1. Helix ●

3

duplex (A-form) van minstens 2 baseparen

2. Enkelstrengige gebieden 3. Hairpin ●

tetraloops –

UUCG, GCAA, CUUG

4. Bulge loop 5. Internal loop 6. Junctie of multibranched loop

3

1 5 1

1

4 6 1 2

Tertiaire structuur interacties –

Tertiaire base paringen ●

loop-loop interacties –

●

Pseudoknopen –

–

–

Vaak zeldzame interactions segment in “hairpin” vormt helix met segment buiten de hairpin helix Moeilijk te zeggen welke interactie secundair en welke tertiair is

Andere tertiaire interacties ● ● ●

intercalatie base triples helix - helix interacties

Pseudoknoop

RNA Structuur voorspelling ●

Experimenteel –

Chemische en enzymatische methoden ●

–

X-straal diffractie ●

– ●

Single of double strand specifieke modificatie, crosslinking, ... Maken van kristallen is moeilijk

NMR

Voorspellen – – –

Thermodynamische methoden Probabilistische modellen Comparatieve methoden

Thermodynamische methoden ●

Vinden van de energetisch meest voordelige structuur – – –

MFE (minimum Free Energy) Theoretisch mogelijk Problemen: ●

●

●

–

experimenteel bepaalde thermodynamische data is niet altijd accuraat Invloed van interacties met solvent, ionen, proteinen, etc. moeilijk te quantificeren → dikwijls niet in rekening gebracht computationeel complex

zware vereenvoudigingen zijn noodzakelijk

Thermodynamische methoden ●

Vrije energie parameters – –

Variatie van parameters tot gekende structuren (tRNA and 5S) correct voorspeld worden experimentele studies op de stabiliteit van structuren gevormd door kleine oligoribonucleotides ●

–

Door Calorimetrie (bepalen smeltcurves)

Stabiliteit basepaar (door waterstofbruggen) wordt beinvloed door zijn omgeving → Nearest neighbor model ●

●

simplificatie: stabiliteit van de interacties is enkel afhankelijk van vlakbij gelegen base paren loop regios: enkel afhankelijk van lengte –

Niet correct: b.v. tetraloops (sommige sequenties van 4 basen in de loop zijn veel stabieler dan andere sequnties)

Thermodynamische methoden Combinatorische Algoritmen ●

Algoritme ●

●

●

Voordelen ●

●

●

Lijst van alle mogelijke helices (op basis canonische en wobble paren) Combinatie met laagste vrije energie Niet nearest neigbor interacties kunnen in rekening gebracht worden Pseudo-knopen zijn mogelijk

Nadelen ●

Aantal mogelijkheden stijgt te snel voor grotere sequenties

Thermodynamische methoden Dynamic programming algoritme ●

Algoritme ●

● ●

●

●

Voordeel ●

●

Bereken laagste energie voor segment S met lengte i-j S(i,j) voor elke subsequentie ri...rj: is afhankelijk van subsequenties Start met pentanucleotides, dan hexanucleotides, etc. Herhaal tot laagste vrije energie voor de volledige sequentie wordt gevonden Vind de structuur door backtracing snelheid

Nadeel ● ●

Enkel nearest-neighbor kan in rekening gebracht worden Geen pseudoknopen

Thermodynamische methoden Dynamic programming algoritme e(ri,rj) = vrije energie bij paren van ri en rj S(i,j) = optimale vrije energie van segment ri...rj

S(i+1,j) –

S(i,j-1)

S(i+1,j-1)+e(ri,rj)

S(i,k)+S(k+1,j)

De optimale vrije energie van een segment van positie i tot j ● ●

= beste van alle mogelijkheden hierboven Laatste mogelijkheid maakt vertakkingen mogelijk –

k varieert tussen I en j

Thermodynamische methoden programma's ●

Mfold ● ● ●

Nearest-neighbor, geen pseudoknopen Dynamic programming om energie optimalisatie te doen Verschillende verbeteringen –

●

●

Grote complexiteit: O(n3) – tijd, O(n2) – ruimte

Vienna RNA Package –

Verschillende dynamic programming algoritmes ● ● ●

●

Suboptimale folds, experimentele constraints

Minimum free energy (~mfold) Partition function Suboptimal folding

Rnadraw –

Dynamic programming (~ mfold)

Probabilistische modelen ●

Probabilistische modellen –

statistische modellen van RNA structuur ●

●

~ vergelijkbaar met HMM, maar HMM veronderstellen dat alle posities onafhankelijke, niet interagerende distributies hebben. Dit klopt niet voor RNA structuur b.v. stochastic context free grammars (SCFG) –

●

–

komen van computationele linguistiek

parameters worden berekend op basis van gekende sequenties – structuur relaties (set geannoteerde RNA sequenties)

Programmas ●

CONTRAfold –

conditional log-linear models (extensie van SCFGs)

Pobabilistische modellen ●

Stochastic Context Free grammars –

set van formele regels (productions). bv. (simpel) –

–

Opeenvolging van regels (=parse) → sequentie – –

–

ws. vorige parse = pS→aSu·pS→gSc·pS→uS·pS→e

Mapping van een parse → structuur ●

–

bv. sequentie agucu: S → aSu → agScu → aguScu → agucu Meerdere parses mogelijk voor zelfde sequentie

waarschijnlijkheden voor verschillende mogelijkheden –

–

S → aSu | uSa | cSg | gSc | gSu | uSg | aS | cS | gS | uS | e

Base paar wanneer twee letters worden gegenereerd in dezelfde stap

Training: gegeven een set sequenties → waarschijnlijkheden invullen

Comparatieve methode ●

Basis – – –

secondaire structuur van functioneel RNA wordt geconserveerd in de evolutie Zoeken naar een structuur model dat past op een set van homologe sequenties Structuur model gemeenschappelijk in een set van homologe sequenties

Comparatieve methode

Comparatieve Analyse ●

Compenserende base veranderingen –

– ●

Verandering van een base in een helix wordt gecompenseerd door een verandering op de complementaire positie om de baseparing te behouden Bevestigt de aanwezigheid van een interactie

Covariatie – – –

2 posities varieren gelijktijdig (zonder per se canonieke base paren te vormen) duidt op constraints in de structuur mutual information I ( X ; Y )= ∑ ∑ p ( x , y )log ( ● ●

●

p(x , y) ) p( x ) p ( y)

y ∈Y y ∈ X Maat voor covariatie tussen 2 posities berekend op basis van voorkomen van elk paar basen op de twee posities t.o.v. hoeveel we ze verwachten terug te vinden bij toeval =0 als posities onafhankelijk (log van verhouding, die 1 is als toeval)

Automatische comparatieve analyse ●

Alignement gevolgd door covariatie analyse – –

Covariatie scores voor mogelijke baseparen met b.v. mutual-information Combinatie met MFE methoden ●

●

–

ILM (Iterative Loop Matching) supporteert ook pseudoknopen Vienna RNA pakket (als nieuwe methode)

Probabilistische modelen ●

●

parameters worden berekend op basis van gekende sequentie – structuur relaties Pfold – –

stochastic context free grammars probabiliteit van structuur gegeven alignement en boom

automatische comparatieve analyse ●

Simultane alignatie en structuur predictie –

Sankoff-Algorithm ● ●

–

zoeken naar structureel geconserveerde ankers en iteratieve extensie binnen deze ankers ●

●

zeer computationeel intens (traag, beperkte grootte) vb. Carnac, Foldalign, Dynalign, Pmcomp

vb. RNAscf (RNA stacks based consensus folding), caRNAc

Structuur alignatie – –

Bij zeer slecht aligneerbare sequenties methode ● ● ●

–

Predictie structuur sequenties afzonderlijk Alignatie van structuur Zoeken naar consensus structuur

bv. RNAforester, MARNA

Overzicht

Plan A: align, then fold

Plan B: align and fold

Scores

Plan C: fold and compare folds


Voordelen – – –

enkel sequencing experimenten Geen hinder van interacties met andere moleculen Succesvol ●

●

nieuwe structurele elementen voorgesteld op basis van comparatieve analyse zijn later bewezen op basis van hoge resolutie experimentele methoden (pseudo-knoop, niet-canonische paringen, tetraloops) correcte predictie structuur (t.o.v. latere resultaten met X-straal diffractie) – –

tRNA ribosomaal RNA


Nadelen – – – –

(groot) aantal verwante sequenties nodig Volledig geconserveerde regios kunnen niet opgelost worden Arbeidsintensief Zeer variable regios ●

● ●

–

Problemen met alignement (maar alignement kan verbeterd worden met behulp van structuur informatie) Locale variaties in structuur zijn altijd mogelijk Inserties die slechts terugevonden worden in een beperkt aantal sequenties

sequentie fouten

X straal diffractie

Bio-informatica Structuur

Recommend Documents