Bio-informatica Genpredictie

Bio-informatica Genpredictie

9

Genpredictie ●

Genpredictie –

opsporen van functionele gebieden en elementen die verantwoordelijk zijn voor de genstructuur, genregulatie en gentranscriptie in genomische sequenties

Prokaryoten ●

Bacteriele genomen –

Dense, compacte genomen ● ● ●

–

85-88% coderend Continue genen Korte intergenische afstanden

Elementen prokaryote genen ●

Promotor –

– –

Een beperkt aantal σ factoren ● Herkenning specifieke promotors ● Consensus rond -35 en -10 t.o.v transcriptie start ● Meest courante σ70 consensus TATAAT op -10 Andere regulatoren in/achter promotor, vaak negatieve regulatie Verschillende genen vaak samen afgeschreven in 1 operon Promotor 5' CDS

DNA

Prokaryoten ●

Start translatie –

Shine-Delgarno sequentie (AGGAGGU) ●

–

Start codon ●

●

Vaak vlak achter promotor, vlak voor start codon AUG (zelden UUG of GUG)

Terminatie transcriptie –

Geinverteerde repeat ● ●

–

Kan haarspeld structuur vormen Kan RNA polymerase doen pauzeren

Een zestal opeenvoldende Uracil nucleotiden vlak na deze repeat ●

Zwakkere binding

Prokaryoten ●

Open Reading Frame (ORF) –

= Stuk sequentie zonder stopcodons (in coderend stuk zitten er nl. Geen stopcodons) Detectie van genen door grotere ORF te zoeken ● ● ●

Meeste genen > 60 codons Willekeurig: 1 stopcodon per 21 codons (3/64) > 60 codons -> ws. Gen

Prokaryoten ●

Genpredictie in prokaryoten – – – – –

●

Continue genen Meestal lange ORFs (> 60 codons) Relatief simpel herkenbare promotors Herkenbaar einde transcriptie Meeste nucleotiden zijn coderend

Problemen – – –

Korte genen (~korter dan 60 codons) Sequentie fouten (ORF is hier gevoelig voor) Overlappende genen op beide strands

Eukaryoten ●

Eukaryote genomen – –

Slechts enkele procenten zijn coderend Complexe genstructuur ● ● ●

–

Lange genen ●

– –

splicing Geneste en overlappende genen Alternatieve splicing ~ verschillende isovormen CDS verspreid over grote gebieden (lange intronen)

Niet simpelweg zoeken naar ORFs Promotor ●

geconserveerde sequenties diffuser en veel verder van start

Van DNA tot proteine Upstream Genomisch DNA 5'

Promotor Exon 1

Intron 1

Intron 2 Exon 2

Intron 3 Exon 3

Downstream Genomisch DNA 3'

Intron 4 Exon 4

Exon 5

DNA

Transcriptie en processing Intron 1 Intron 2 Intron 3 Intron 4 CAP PolyA (7-methylguanosine) Exon 1 Exon 2 Exon 3 Exon 4 Exon 5

pre-mRNA

Splicing CAP 5'UTR

3'UTR PolyA

mRNA

CDS

Translatie Proteïne Posttranslationele processing

GFF ●

GFF – –

“General Feature Format” (vroeger “Gene Feature Format”) Eenvoudig, standaard formaat voor identificatie regios in een sequentie (exon, CDS, ...) ●

●

●

–

Verschillende velden met vaste volgorde (gescheiden door TAB karakters) Eerste lijn → commentaar (begint met #) die file formaat en versie aanduid Volgende lijnen → data

Gemakkelijk te bekijken, vergelijken, testen, integreren

GFF

– – – – – – – – –

##gff-version 3 SEQ1 EMBL SEQ1 EMBL SEQ1 EMBL SEQ1 netgene SEQ1 EMBL

mRNA CDS splice5 splice5 CDS

seqid

feature start

322 173 174 174 322

. . . 0.94 .

+ + + + +

. 0 . . 2

einde score streng fase

ID=gene1 Parent=gene1 Parent=gene1 attributen

seqid: naam van de sequentie bron: programma, publieke database annotatie, experimenteel feature: feature type, karaktereigenschappen start: getal dat begin van feature op sequentie aangeeft (nummering start met 1) einde: getal dat einde feature aangeeft score: getal → waarschijnlijkheid dat deze voorspelling correct is (. voor geen score) streng: +, - or . (“.” wordt gebruikt wanneer niet relevant) fase: 0,1,2 or . Geeft aan waar deze feature zit t.o.v. het reading frame → hoeveel nucleotiden vanaf start feature horen nog bij vorige codon [group/attributen]: optioneel, in de vorm van tag1=value1;tag2=value2; … ●

–

bron

103 103 173 173 263

ID en Parent tags kunnen worden gebruikt om een hierarchie aan te geven

[comments]: optionele string

Accuraatheid ●

Vergelijking methoden –

Met gekende genen (test set) voorspellingen van verschillende methoden vergelijken ●

– ●

testset eigenlijk liefst zo representatief mogelijk voor wat je gaat vergelijken

Standaard test en trainings datasets (Burset and Guigo, Reese)

Maar – – – – –

Bias in training data door welke genen aanwezig zijn in de databases Bias naar standaard test sets/genen 1 gen per sequentie vs meerdere/partiele in reëele data Toelaten organisme specifieke training? In hoeverre zijn deze standaard test/training sets representatief

Accuraatheid ●

EGASP – –

ENCODE Genome Annotation Assessment Project Workshop om accuraatheid voorspellingen na te gaan ●

● ●

● ●

ENCODE, HAVANA → hoge kwaliteit annotatie op manuele en experimentele basis (langdurig en kostelijk) een deel hiervan vrij gegeven (als trainings data) deelnemers werden gevraagd om met hun methoden de overige encode regios te annoteren (zonder kennis van de experimentele annotatie) vergelijking automatische predictie met annotatie verschillende categorien: –

–

1. eender welke informatie 2. enkel ab-initio 3. extrinsieke methoden 4. comparatieve methoden 5. nieuwe genen 6. ongewone genen 7. exon-only

Doel ● ●

Hoe goed reproduceren verschillende automatische methodes deze annotatie hoe ver rijkt onze kennis: predicties niet in de manuele annotaties worden uitgebreid experimenteel gecontroleerd via RT-PCR

Accuraatheid ●

Categorie: Exon level – –

–

Sensitiviteit: Sn = TP/(TP+FN) ●

–

Proportie van echte exonen die correct voorspeld werd (beide einden exact correct)(start-stop op juiste positie)

Specificiteit (volgens EGASP): Sp = TP/(TP+FP) –

●

–

TP = True Positives, TN = True Negatives FP = False Positives, FN = False Negatives

Volgens klassieke definities heet deze maat eigenlijk de “precision”, de “specificiy” volgens klasieke definitie, TN/(TN+FN), kan hier niet gemakkelijk berekend worden

Proportie van voorspelde exonen die correct voorspeld werd

→ Hoe hoger Sp: hoe minder vals positieven → Hoe hoger Sn: hoe minder vals negatieven Andere ● ● ●

Hoeveel missing exons (niet voorspelde exonen)? Hoeveel wrong exons (volledig incorrecte voorspelling)? Hoeveel half exons (een uiteinde correct)?

Accuraatheid ●

Categorie: Nucleotide level –

Sensitiviteit (Sn) ● ●

–

= TP / (TP + FN) Proportie van exonische nucleotiden die correct voorspeld werd

Specificiteit (Sp) (volgens EGASP) ● ●

= TP / (TP + FP) Proportie van nucleotiden die voorspeld werden exonisch te zijn waarbij die voorspelling correct is

Accuraatheid –

Matthews Correlatie coefficient ●

●

Probeert Sn en Sp samen te vatten in 1 getal → 1 maat voor de globale accuraatheid van nucleotide predictie CC=(TP x TN – FP x FN)/(ANxAPxPPxPN)-2 – – – –

●

Tussen -1 and 1 – –

●

AN = Actual Negatives (FP+TN) AP = Actual Positives (TP+FN) PP = Predicted Positives (TP+FP) PN = Predicted Negatives (TN+FN) 1: perfecte predictie -1: perfect verkeerde predictie

Waarde 0 betekent geen correlatie tussen predictie en werkelijkheid: ~ random toewijzing

Typische problemen ●

Training – –

Species specificiteit van signalen, training, parameters Goede datasets zijn moeilijk te vinden ● ●

● ●

Experimenteel geverifieerd Representatief ?!

Alternatieve splicing is moeilijk te voorspellen Geneste genen

Overzicht methoden ●

Extrinsieke methoden – –

Vergelijking met cDNA, ESTs, gekende proteinen Externe data ● ●

●

BLAST, FASTA met databases -> exonen Spliced alignment

Intrinsieke methoden –

Patroonherkenning ●

Signal sensors –

●

Content sensors –

– ●

Coderende regios

Geintegreerde methoden

Comparative genomics ●

●

Splice sites, start en stop codons, polyA site, ...

Conservatie bij vergelijking van verschillende genomen

Analyse pipelines

Extrinsieke methode: Spliced alignement ●

Spliced alignement – –

Alignatie van cDNA (→ enkel exonen), proteïne t.o.v. genomische sequentie Rekening houdend met intronen ● ●

Grote gaps Positionering van gaps op intron grenzen –

Upstream Genomisch DNA 5'

Moeilijker door mogelijke overlap van alignmenten

Downstream Promotor Intron 1 Intron 2 Intron 3 Intron 4 Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 Genomisch DNA 3'

CAP 5'UTR

3'UTR PolyA

mRNA

DNA

Spliced RNA alignement ●

Soorten RNA –

EST ● ●

–

mRNA, geclusterde ESTs ● ● ● ●

●

Veel Lage sequentie kwaliteit, korte stukken transcript Langer/volledig transcript Gen structuren Minder beschikbaar Interessantste → goede spliced alignment van mRNA ~ experimenteel bewijs!

Annotatie van genomische regio –

Geschikte RNA sequenties evt. Vinden in databanken met bv. BLAST


Problemen –

Bias naar sterk geexpresseerde genen ● ●

– –

Sequentie kwaliteit – bij fouten in de sequentie is correct alignatie moeilijker Contaminatie met genomische sequenties ●

–

Meer informatie over sterk geëxpresseerde genen Weinig/facultatief geexpresseerde genen worden gemakkelijker gemist

Wanneer er nog een intron in een mRNA sequentie zit).

Modellering splice sites


Programma's –

Spidey (zie oefeningen) – –

–

GeneSeqer –

–

Alignatie mRNA, ESTS (lokaal alignement exonen) Gebaseerd op BLAST algoritme ● Construct genomic windows: stringente BLAST, sorteren, consistente hits ● Alignement in windows: weinig stringente BLAST + Dotview ● Detectie splice sites (met PWM) in gebieden waar alignementen van exonen overlappen ● Beste splice sites (score) die de alignementen het minst verstoren ● Niet consistente hits worden eruit gefilterd.

sim4

Ook minder verwante ESTs

Spliced proteïne alignement – –

Spliced alignement met verwante, gekende proteïne sequenties Programma's ●

Procrustes –

●

Genewise (WISE2) –

–

beste combinatie mogelijke exonen met dynamic programming dynamic programming, statistische modellen van splice sites

Problemen ● ●

●

Bias naar gekende genen/genfamilies Databases (SWISS PROT/TrEMBLE) met b.v. ook hypothetische/verkeerd geannoteerde proteïnen Modellering splice sites

Intrinsieke methoden ●

Patroonherkenning –

Signal sensors ● ● ●

–

Content sensors ● ● ●

●

Patronen in een regio (dus niet 1 specifieke positie) in genstructuur Coderende regios Methoden: Statistische analyse in window, HMM, …

Geintegreerde systemen –

●

Patronen met specifieke positie in genstructuur Splice sites, start en stop codons, polyA site, ... Methoden: Consensus sequenties, weight matrices, HMM, NN, ...

Integratie van verschillende sensoren tot volledige genstructuur predictie → meest gebruikt

Ook wel eens ab-initio methoden genoemd = Vanuit eerste beginselen, zonder gebruik te maken van extra data (Maar: veel methoden gebruiken wel trainingsdata om patronen te leren ...)

Promotor herkenning ●

Polymerasen ● ● ●

●

RNA polymerase I RNA polymerase II RNA polymerase III

-40 tot +20 ... tot -25 +50 tot +100

simpel zeer complex simpel

rRNA, snRNA coderende genen (belangrijkste) tRNA, small RNAs

Herkenbare elementen (~ niet altijd aanwezig) – –

CpG eilanden bij sommige promotoren Initiator (Inr) sequentie ●

–

[CT][CT]CA[GA][GA] rond +1

Transcriptie factoren (TF) ● ● ● ● ●

Basale transcriptie factor bindende site rond -25 consensus TATA[AT]A[AT] → TATA box Vele andere TF binding sites, en combinaties Dicht bij transcriptie start b.v. CAAT-box: zelfde orientatie, -80 Enhancers kunnen werken op grote afstand van transcriptie start, en in verschillende orientaties

Promoter herkenning ●

TF databases – –

TF binding sites gebaseerd op profielen/matrices TRANSFAC ●

–

Zeer uitgebreid, commercieel

JASPAR ●

Open alternatief, kleiner, niet redundant, curated

Promoter herkenning ●

Problemen – –

TATA-loze promoters Transcriptie factor binding sites ● ● ●

– – –

zijn zeer kort komen veelvuldig voor, ook buiten promotoren Zoeken naar combinaties

Promotor kan groot gebied beslaan Context is belangrijk! Niet zoveel uitgebreid experimenteel bepaald

Promoter herkenning Programma's –

PromoterScan –

–

MatInd en MatInspector –

–

–

QDA (Quadratic Discrimination Analysis) Zoekt TSS en core promoter in sequentie van beperkte lengte

Neural Network Promoter Prediction –

–

Neurale netwerken geoptimaliseerd m.b.v genetische algoritmen

CorePromoter –

–

LDA combinatie van herkenning verschillende features (TATA-box, Inr signaal, upstream regio)

CBS Promoter 2.0 –

–

Consensus matches met gekende TF bindingsplaatsen (TRANSFAC)

TSSG/TSSW –

–

database van bindingssites van gekende transcriptie factoren

“time-delay neural network”

Markov Chain Promoter Finder

Splice sites ●

Herkenbare elementen –

Donor consensus ●

–

Acceptor consensus ●

–

●

(T>C)nN(C>T)AG^gt

Branch site ●

–

[CA]AG^GT[AG]AGt

tussen 18 en 40 basen upstream van 3' splice junctie

Meestal in combinatie met coding bias

Problemen – – – –

overpredictie Context ! U12 afhankelijke (AT-AC) splice sites Andere types intronen (vnl. In non-coding genes)

Splice site programma's ●

NetGene2 ●

●

NNSPLICE ●

●

“Multi-layered feed-forward neural network”

BCM Genefinder HSPL (human) ●

●

Combinatie neurale netwerken en en “rule-based” systemen

Triplet frequenties in de functionele gebieden van de splice regio in combinatie met codon statistieken

SplicePredictor ●

“Logitlinear models” – –

Match t.o.v. Splice site consensus Lokaal compositioneel contrast

Startcodon ●

Kozak rules – –

●

Meestal eerste methionine van 5' dat je in transcript tegen komt = startcodon Consensus [AG]CCAUGG

Programma's –

Netstart ●

●

–

Neuraal netwerk gebaseerd op lokale start codon informatie en globale sequentie informatie Getraind op cDNA sequenties

ATGpr ●

lineaire discriminant analyse

PolyA ●

PolyA – –

Herkenning plaats waar poly-A tail (200-250 A's) wordt aangehangen herkenning sequenties ● ● ● ●

●

A[AT]TAAA ~20 basen voor knipplaats Zwak geconserveerd GT gebaseerd motief Werkt enkel in de juiste context ! dikwijls laatste exon

Programma's –

BCM GeneFinder POLYAH ● ●

Triplet frequenties in functionele delen LDA

Coding potential –

Hoe coderend is een sequentie? ●

–

Moet werkzaam proteïne produceren → Evolutie van coderende sequenties wordt sterk beinvloed door het gecodeerde product

Vele methoden om de “coderendheid” van sequenties te herkennen ● ● ●

Van statistiek over een window van een bepaalde grootte Tot complexe machine learning technieken Moeilijker exacte grenzen te bepalen ~ combinatie met splice donor/acceptor


Methoden gebaseerd op de (vertaalde) AZ sequentie – –

–

Codon gebruik – –

–

ORF: afwezigheid van stop codons AZ of diAZ gebruik Codon usage vector: frequentie van 64 mogelijke codons Verschillen o.w.v. verschillend AZ gebruik, codon voorkeuren

Bias in base samenstelling tussen codon posities – – –

Meest frequente codons RNY ([AG][UCAG][UC]) Positie assymetrie: assymetrie in basensamenstelling op de drie verschillende codon posities Periodiciteit ● Coderende sequence (CDS) heeft een inherente periodiciteit van 3 ● Vooral duidelijk in lange CDS; moeilijk voor korte CDS ● Auto-correlatie, FFT (fourier transformaties), ...


Invloed reading frame – – –

–

“In-phase” woorden – –

– –

–

AZ samenstelling in coding frame vs niet-coding frame (meer stop codons dan bij toeval) Codon samenstelling in alle frames Codon positie correlaties (dinucleotide distributie) Frequenties van voorkomen van woorden (lengte N) Hexameer frequenties zeer succesvol ● Omvat eigenlijk meeste hiervoor vermelde elementen Brengen correlaties over korte regios in rekening b.v. Codon eindigend op een G wordt meestal niet gevolgd door een codon dat begint met een G

Machine Learning gebaseerde methoden – –

HMM, NN training op gekende sets (experimenteel bepaalde CDS)

Coding potential ●

Programma's –

GRAIL I –

–

GeneMark –

–

Neuraal netwerk met shifting window Inhomogene Markov chain models

Glimmer –

Interpolated Markov chains

Geintegreerde systemen ●

Vinden van volledige genstructuren kan via verschillende methoden – – – –

Integratie van de resultaten van een aantal sensoren m.b.v. HMMs, neurale netwerken and decision trees Integratie binnen 1 systeem b.v. HMM Beste combinatie exonen met dynamic programming Evt. incorporatie homologie informatie

Genscan ●

Model Genscan HMM –

Cirkels en ruiten → functionele eenheden (toestanden) van een gen ● ● ● ●

●

– –

Bij test sequentie wordt elke base toegewezen aan een toestand Volledig model ●

Forward Strand

N → neutraal (niet in een gen) Prom → promotor 5' → start transcriptie Exon Sngl → voor genen die uit 1 enkel exon bestaan Exonen (Exon 0,1,2) en intronen (I0,I1,I2) worden geassocieerd met de fase (t.o.v. het reading frame)

● ●

Getoonde model enkel forward strand ditzelfde ook nog eens voor reverse strand Genen in beide richtingen tegelijk voorspeld

Reverse Strand → gelijkaardig aan hierboven


GENSCAN – – –

●

AUGUSTUS – – – –

●

Generalized HMM annoteert ook UTR, alternatieve transcripten. incorporatie van extrinsieke data is mogelijk (AUGUSTUS+) lijkt nog acurater dan Genscan (EGASP)

TWINSCAN – –

●

Meerdere signaal en content modellen, HMM sensoren Verschillende modellen afh. Van GC Zeer goede resultaten

Gebaseerd op GENSCAN Incorporeert homologie informatie uit genome comparison

GeneID, GeneID+ – – – –

Signalen met Position Weight Matrices, coding potential met MM Combinatie exonen met dynamic programming GeneID+ incorporeert homologie data Goede resultaten, snelheid en geheugenverbruik


Eugène – –

●

MORGAN –

●

–

–

Verbeterde sensoren Incorporatie EST/cDNA data

GeneParser –

●

Verschilende sensoren+NN (neural networks) Combinatie rule-based

GRAILExp –

●

Decision trees, dynamic programming

GRAIL –

●

Combinatie van vele systemen, plugins Vnl. Getraind op plant genomen

NN, dynamic programming

Andere –

FGENEH, Genemark, Genemark.hmm, NetGene2, SORFIND, GenLang,VEIL, GENIE, HMMgene, ...

Genome comparison ●

Methode – –

●

Vergelijking homologe genomische regios binnen verwante soorten bv. mens – muis Studie van conservatie → Regios met belangrijke functies (CDS, regulatoire gebieden) worden sterker geconserveerd

Problemen –

Interessante homologe region moet beschikbaar zijn ● ●

–

voldoende geconserveerd, maar niet helemaal Soms ook conservatie buiten CDS, ...

Conservatie duidt op belang regio, zegt niet direct welke functie (CDS, regulatie)


PipMaker – –

Alignatie gebieden met BLASTZ pip: percent identity plot ● ●

Percent identiteit van gap-vrije gealigneerde segmenten Uitzetten in grafiek – –

●

positie in sequentie similariteit van de gealigneerde segmenten

Veel/Langere alignmenten met hoge similariteit → exonen, regulatoire elementen

PipMaker

●

Pipmaker output – – –

Exonen in groen aangeduid Regulatoire gebieden in rood Intronen in het geel


AGenDA –

Kandidaat exonen ● ●

–

Fragmenten gevonden met dialign alignatie algoritme Splice sites met PWM en start/stop codons in buurt van geconserveerde regios

Beste combinatie met dynamic programming

AGenDa

Agenda example


SLAM ● ● ●

●

SGP2 ● ●

●

Simultane alignatie en predictie GPHMM (Generilized Pair HMM) onderscheid tussen conserved non-coding sequence (CNS; UTR, regulatoire elementen, ...) en conserved coding sequence tblastx tussen 2 “anonieme” homologe genomische sequenties Geneid combineert “hit” data met ab-initio genpredictie

Twinscan ●

Genscan gebaseerd algoritme combineert “hit” data met ab-initio genpredictie

Annotatie pipelines ●

Pipeline –

– – ●

Scripts/programma's die automatisch opeenvolging/combinatie van verschillende analyse programma's regelen Vaak parallelle computer systemen Alle annotatie wordt centraal verzameld, beschikbaar gesteld

Voorbeelden – –

Ensembl NCBI mapviewer

Bio-informatica Genpredictie

Recommend Documents