Základy bioinformatického zpracování dat v proteomice Pavel Řehulka
[email protected]
Historie sekvencování DNA • nepřímé metody – určení sekvence bílkovin • 1970: Ray Wu – 12 nukleových bazí – 3 roky práce 1975: Frederic Sanger & A. R. Coulson – Sangerova sekvenační metoda 1977: Allan Maxam a Walter Gilbert – Maxam-Gilbertova sekvenační metoda • 1996: Pål Nyrén & Mostafa Ronaghi – pyrosekvencování
Historie sekvencování DNA • v dnešní době je rozvoj metod, jež jsou rychlé a pokud možno levné, například: – 454 sekvencování – paralelní sekvencování DNA na streptavidinových substrátech v pikolitrových reaktorech – SMRT (Single molecule real-time) – 1 molekula DNA, 1 molekula DNA-polymerázy 20 zeptolitrové nádobce, detekce záblesku po uvolnění fluorescenčního barviva při navázání značené báze – detekce bazí el. proudem při průchodu DNA nanopóry
Maxam-Gilbertova metoda • též chemické sekvencování • vstupem je jednovláknová DNA značená radioaktivním 32P na 5’ (pomocí polynukleotid kinázy) nebo 3’ konci • rozdělení na 4 části, každá štěpena různými chemikáliem
• vzniklé různě dlouhé sekvence DNA ve všech směsích jsou separovány gelovou elektroforézou a detekovány autoradiografií
Maxam-Gilbertova metoda •
guanin: destrukce báze dimethylsulfátem, destrukce glykosidické vazby (zahřívání při neutrální pH), destrukce vazby (zahřívání při alkalickém pH)
•
adenin + guanin: destrukce báze dimethylsulfátem, destrukce glykosidické vazby (zahřívání při neutrální pH), destrukce vazby (zahřívání při kyselém pH)
•
cytosin a thymin: hydrazinolýza + štěpení piperidinem
•
cytosin: hydrazinolýza v 2M NaCl + štěpení piperidinem
G
A+G
C+T
5’-TACCGCTTA-3’
C
Sangerova metoda • biochemická metoda, též dideoxy metoda nebo primed synthesis • pro krátké sekvence jednovláknové DNA • využívá se procesu replikace DNA v přítomnosti DNApolymerázy • reakční směs: – primer
– DNA-polymeráza – radioaktivně značené (32P) 2’-deoxyribonukleosidtrifosfáty – 4 směsi obsahující navíc jednotlivé značené (32P) 2’,3’dideoxyribonukleosidtrifosfáty (menší množství, asi 1%)
Sangerova metoda • DNA polymeráza při náhodném začlenění dideoxy analogu nemůže dále syntetizovat => vznik fragmentu
ddATP
ddTTP
ddCTP
ddGTP
• separace těchto fragmentů na polyakrylamidovém gelu s následnou autoradiografickou detekcí sekvenovaný úsek DNA
3’-GAATTCATTCGCCAT-5’ 5’-CTTAAGTAAGC primer
reakce ve syntetizovaný fragment směsi s ddCTP
5’-TAAGCGGTA-3’ 3’-ATTCGCCAT-5’
Automatizovaná Sangerova metoda •
místo radioaktivního značení (32P) použita fluorescenční detekce
•
dnes nejpoužívanější metoda
•
reakční směs: – fluorescenčně značený primer (4 směsi => 4 značky) – DNA-polymeráza – 2’-deoxyribonukleosidtrifosfáty – jednotlivé směsi obsahují navíc příslušné 2’,3’-dideoxyribonukleosidtrifosfáty (menší množství, asi 1%)
•
po reakci se směsi smíchají a probíhá separace kapilární elektroforézou s fluorescenční detekcí na konci kapiláry
A T C G
T
A
A
G
C
G
G
T
A
Pyrosekvencování •
•
•
•
syntéza nových sekvnencí DNA s různou detekcí nukleotidů bez elektroforézy
Polymerase
…GATCACCTGAAGTCAGCCCTTG… ACTTCAGTCGGGAAC…
přítomno spousta enzymů –
DNA polymeráza
–
ATP sulfuryláza
–
luciferáza
–
apyráza
dATP
substráty –
adenosinfosfosulfát
–
luciferin
PPi ATPsulfurylase
Apyrase
přidávají se nukleotidy postupně dATP, dGTP, dCTP, dTTP za sebou
•
detekce uvolnění světla (i jeho intenzita) po uvolnění pyrofosfátu při začlenění konkrétního nukleotidu
•
na konci spotřeba ATP luciferázou k oxidaci luciferinu a degradace přidaného nukleotidu
ATP (d)XMP
Ronaghi M, Genome Res. 2001 Jan;11(1):3-11.
Luciferase
Light
Shotgun sequencing • též nazýváno „shotgun cloning“ • metoda sekvencování dlouhých DNA vláken • delší sekvence DNA (> 800 bazí) fragmentovány na menší kousky restrikčními endonukleázami (nebo mechanicky) • DNA-fragmenty jsou vloženy do plazmidů – BAC knihovny (= bacterial artificial chromosome library) – pro větší fragmenty DNA, ty se pak fragmentují na menší, které jsou vnášeny do bakterií v plazmidech
• plazmidy jsou vneseny do bakterií (obvykle E. coli)
• bakterie se namnoží a DNA obsahující analyzovaný fragment se po vyizolování osekvenuje
Shotgun sequencing • tyto sekvenované kousky jsou pak reasemblovány zpět – každá část sekvence musí být osekvenována 5-10x Strand
Sekvence
Původní
TGCAGATTGGCTGACTGAATGCCTG
První shotgun sekvence
TGCAGATTGGCTGACT------------------------GAATGCCTG
Druhá shotgun sekvence
TGCAGATTG------------------------GCTGACTGAATGCCTG
Rekonstrukce
TGCAGATTGGCTGACTGAATGCCTG
– problém s repetitivními úseky
Shotgun sequencing
http://www.bio.davidson.edu/courses/GENOMICS/method/shotgun.html
cDNA knihovny a ESTs • cDNA = complementary DNA nebo též copy DNA • cDNA není přímo genomová DNA, ale pochází z přepisu mRNA, tzn. kóduje exprimovaný gen (bílkovinu) • tkáň -> lýza buněk -> izolace mRNA • hybridizace s poly-T primerem • vytvoření kopie (= cDNA) pomocí reverzní transkriptázy
• odbourání mRNA alkalickým roztokem • syntéza komplementárního řetězce DNA pomocí DNA-polymerázy (spárovaný 3’ konec slouží jako primer)
• sekvencováním cDNA dostáváme tzv. EST (expressed sequence tag) – viz http://www.ncbi.nlm.nih.gov/dbEST/index.html
Sekvencování proteinů • Určení N-koncové aminokyseliny • Edmanova degradace • sekvencování peptidů a proteinů pomocí hmotnostní spektrometrie
Určení koncové aminokyseliny •
provádí se pomocí reakce dansyl chloridu s N-koncovou aminoskupinou a po hydrolýze peptidu/proteinu se identifikovala N-koncová aminokyselina chromatograficky
•
dříve se též provádělo pomocí 1-fluoro-2,4-dinitrobenzenu (F. Sanger, sekvenace insulinu)
...
pH 8-10 20 deg.C, 1 h
...
6M HCl 105 deg.C, 16 h
...
n
Edmanova degradace •
•
•
N-koncová aminoskupina peptidu/proteinu reaguje s fenylisothiokyanátem v bazickém prostředí za zvýšené teploty (2,5 % PITC ve směsi pyridin/voda = 1:1, 30 min, 50 oC) v kyselém prostředí (100 % TFA, 10 min, 50 oC) pak odštěpuje 5-thiozolinonový derivát N-koncové aminokyseliny, který je po konverzi (1M HCl, 10 min, 80 oC) na fenylthiohydantoinový derivát identifikován
PITC coupling
Phenylisothiocyanate (PITC)
N-terminus of the protein immobilized on a solid support
Cleavage
Phenylthiocarbamyl-derivatized protein
Conversion
5-Thiozolinone derivative
zbytek peptidu/proteinu je podroben dalšímu identifikačnímu cyklu
N-terminus of the degraded protein immobilized on a solid support
next degradation cycle
Phenylthiohydantoin derivative
Edmanova degradace • dnes plně automatizovaný proces • nutná dostatečné množství čistého proteinu nebo alespoň izolovaného na membráně • reagenty jsou dodávány v plynné fázi, peptid/protein je ukotven na pevném nosiči (kvarterní ammoniová sůl Polybren) • citlivost: 1-5 pmol pro více než 20 cyklů (tj. stanovených aminokyselin) • délka cyklu: ~ 45 min, tj. asi 3 vzorky/den • blokovaný N-terminus proteinu => pracné odstraňování modifikace, ne vždy efektivně úspěšné • přes spoustu nevýhod ve srovnání s hmotnostní spektrometrií je to stále alternativní metoda určování sekvence bílkovin
Hmotnostní spektrometrie (MS) •
separace nabitých částic na základě poměru jejich hmotnosti a náboje, tj. m/z
•
výsledkem je tzv. hmotnostní spektrum, kde na ose x je vynesena hodnota m/z a na ose y intenzita odezvy detektoru, často normalizovaná na nejintenzivnější pík v zobrazovaném rozsahu m/z
Ion Source + + + + + +
Mass Analyzer
+
+
Detector
+ --
+
% Recorded Spectrum m/z
Tandemová hmotnostní spektrometrie (MS/MS) • spojení dvou hmotnostně spektrometrických analýz v prostoru nebo čase, oddělených od sebe procesem disociace iontů (většinou kolizí s neutrálním plynem) • výsledkem je opět hmotnostní spektrum, popisující vztah rodičovského iontu a jeho fragmentů • důležité pro získání strukturní informace rodičovského iontu
ionization
MS 1 precursor ion selection
fragmentation of selected precursor
MS 2 analysis of fragment ions
Trojitý kvadupól – příklad MS/MS přístroje
ion source
detector
+
Q0
Q1
Q2
Q3
ion transmission
precursor ion selection
collision cell
fragment ion analysis
Sekvenace proteinů pomocí MS • izolace bílkovin, jejich separace (často gelovou elektroforézou) • digesce vhodným enzymem (nebo chemicky) na peptidy • směs peptidů buď přímo nebo po separaci (kapalinovou chromatografií) analyzujeme pomocí MS/MS • vzniklé fragmentové ionty umožňují identifikaci/sekvenaci peptidů, a v důsledku i proteinů
x4 y4 z4
x3 y3 z3 x2 y2 z2 x1 y1 z1 +
R1 O
R2 O
R3 O
R4 O
R5
H
H2 N C C N C C N C C N C C N C COOH H
H H
a1 b1 c1
H H
H H
H H
a2 b2 c2 a3 b3 c3 a4 b4 c4
Fragmentové ionty peptidů • [N] – hmotnost Nkoncové skupiny peptidu
Ion type
a
[N] + [M] – CO – [e]
• [C] – hmotnost Ckoncové skupiny peptidu
b
[N] + [M] – [e]
c
[N] + [M] + NH3 – [e]
x
[C] + [M] + CO – [e]
y
[C] + [M] + H2 – [e]
z
[C] + [M] – NH – [e]
d
[a-ion] – [part of side chain]
v
[y-ion] – [whole side chain]
w
[z-ion] – [part of side chain]
• [M] – součet hmotností aminokyselinových zbytků obsažených ve fragmentovém iontu
• [e] – hmotnost elektronu
Ion mass
immonium ion [M] + H – CO – [e] internal yman
[M] + H – CO – [e]
internal ymbn
[M] + H – [e]
Struktura fragmentových iontů peptidů R1 O
R3 O
R2
R5
R1 O
O C N C C N C C N C COOH
H2N C C N C H
R4 O
+
+
H H
H H
H H
a2
HC R'
H
+
H2N C C N C
H H
H
H H
x3
d2 +
R1 O
R3 O
R2
H2N C C N C C O H
R4 O
H3N C C N C C N C COOH H
H H
H H
R1 O
R3 O
R2 O
H2 N C C N C C H H
+
NH3
R4 O
R' CH O
R5
R4 +
H2N C C N C H H
y3a4
H H
H H
R4 O
R5
H
+
C C N C C N C COOH
C C N C C N C COOH
H
H
H H
H H
z3
R3 O
R5
v3
+
c2 H
H
H H
R4 O
HN C C N C C N C COOH
y3
b2
H
O
R5
+
+
H
R3 O
H H
w3 R
R4 +
H2 N C C N C C O H
H H
+
H2 N CH
H H
y3b4
immonium ion
Příklad MS/MS spektra peptidu • interpretace MS/MS spektra vede k získání částečné nebo úplné sekvence peptidu Parent mass [M+H]+ 112.09
506.24
821.33
129.10
574.21
871.32
175.10
576.16
960.36
211.12
593.26
968.41
271.13
689.22
1088.44
90
288.17
706.32
1097.44
80
314.10
774.30
1184.46
70
418.18
777.30
1281.49
60
427.17
802.29
1335.55
435.20
804.30
100
% Intensity
1394.744
50
40
intepreted sequence: LPSEFDLSAFLR
y6
2254.5
y1
30
10 0 59.0
y10
y8
20 R
y3
y2 341.8
y4
y5-NH3 y5 624.6
b6
b7 y7
Mass (m/z)
y11
y9 907.4
1190.2
1473.0
Sekvenční databáze
Od DNA k proteinu (eukaryotní buňka) • transkripcí z DNA vzniká primární RNA-transkript (exony + introny)
• modifikace konců primárního RNA-transkriptu (čepička RNA + poly(A) konec) • vyštěpení intronů v enzymově katalyzovaném sestřihu RNA => vznik mRNA • transport mRNA z jádra do cytoplasmy, kde dochází k translaci a vzniku bílkoviny
cytoplasma jádro exony
DNA
gen
transkripce
primární RNA-transkript čepička RNA
přidání 5’-čepičky a poly(A) konce AAAAA
sestřih
mRNA AAAAA
export do cytoplasmy
mRNA AAAAA
translace
protein
• některé procesy probíhají současně
introny
Od DNA k proteinu (prokaryotní buňka) • jednodušší proces (absence jádra) • 5’-konec mRNA vzniká iniciací transkripce, 3’-konec je určen místem terminace genu • translace může začít již před dokončením transkripce
DNA
gen
transkripce
mRNA
translace protein
Sekvenční databáze • • • • •
Historie vzniku databází Primární a sekundární databáze Nukleotidové sekvenční databáze Struktura záznamu nukleotidové sekvence Proteinové sekvenční databáze
Historie vzniku databází • snaha o zpřístupnění výsledků sekvenačních experimentů a vzájemnou výměnu informací • 60. léta minulého století – Margaret Dayhoff se spolupracovníky – Protein Information Resource (PIR) – sbírka proteinových sekvencí známých v té době – vyšlo v tištěné podobě jako Atlas of Protein Sequence and Structure – původně pouze sekvence proteinů z Edmanova sekvenování, později přidávány i nukleotidové sekvence – byly přidávány i popisy sekvencí => první anotovaná databáze – 1972 – nutnost převést do el. podoby (nárůst rozsahu) – distribuce na magn. pásku spolu s programy pro analýzu vzdálených evolučních příbuzností
Historie vzniku databází • 1982: vzniká DNA sekvenční databáze na European Molecular Biology Laboratory (EMBL) v Heidelbergu • krátce nato se připojuje GenBank při National Center for Biotechnology Information (NCBI) – součást National Library of Medicine při National Institutes of Health • o několik let později se připojuje i DNA Database of Japan (DDBJ) • 1988: sjednocení formy spolupráce a formátu dat mezi EMBL, GenBank a DDBJ
• dnes: DDBJ / EMBL / GenBank konsorcium tvořené – the National Institute of Genetics in Mishima, Japan – the European Bioinformatics Institute (EBI) in Hinxton, UK – NCBI in Bethesda, Maryland, USA
Historie vzniku databází • 80. léta minulého století: Amos Bairoch (Ženeva) převedl PIR Atlas do formátu podobného EMBL formátu pro nukleotidové sekvence a přidal anotace k proteinovým sekvencím => PIR+ • 1986: distribuce PIR+ na síti US Bionet (předchůdce Internetu) – tehdy obsahovala 3900 sekvencí • později vzniká SwissProt
Typy databází • hlavní úkol databází – zpřístupnit obsažené sekvence • primární databáze – archivní funkce
– obsahují experimentální výsledky s částečnou interpretací – neobsahují však odborně doplněné popisy mnoha vlastností vztahujících se k dané sekvenci
• sekundární databáze – administrované experty – někdy též nazývané databáze vzorů (pattern databases)
– obsahují výsledky analýzy sekvencí z primárních databází
• kompozitní databáze – kombinují různé zdroje primárních databází – není nutno procházet každou primární databázi zvlášť
Příklady databází primární
sekundární kompozitní
DDBJ
PROSITE
NRDB
EMBL
Profiles
OWL
GenBank
PRINTS
PIR
Pfam
SwissProt
BLOCKS
TrEMBL
IDENTIFY
Nukleotidové sekvenční databáze • hlavním zdrojem nukleotidových sekvenčních databází je International Nucleotide Sequence Database Collaboration – DDBJ / EMBL / GenBank – nové sekvence lze zadávat do kterékoliv z těchto databází – každá databáze si spravuje pouze sekvence do ní vložené – jednou za 24 hodin si databáze navzájem vymění nová data a celkový obsah konsorcia je synchronizován (umožněno společným formátem dat) – primární zdroj sekvenční a biologické informace => mnoho databází závisí na správnosti údajů v DDBJ / EMBL / GenBank
Konsorcium DDBJ / EMBL / GenBank NIH
Entrez
submissions updates
NCBI
GenBank SRS
NIG DDBJ submissions updates
EMBL
EBI
CIB
getentry
EMBL
submissions updates
Vlastnosti databází DDBJ / EMBL / GenBank • pokud pro danou nukleotidovou sekvenci není indikována kódující sekvence, tak není vytvořen odpovídající záznam v proteinové databázi – příslušné porovnávání sekvencí vycházející z proteinových sekvencí může některé dostupné informace ztratit
• pokud záznam obsahující kódující sekvenci obsahuje chybu, tak tato chyba může být dále propagována mezi databázemi (i pomocí odvození dalších sekvencí na základě podobnosti) • pokud důležitá vlastnost o proteinové sekvenci není na správném místě, tak programy navržené pro jejich získávání ji mohou ztratit
Formáty dat • FASTA formát – jednoduchý formát pro sekvence
• flatfile – základní jednotka pro informaci o konkrétní sekvenci – konkrétní formáty pro jednotlivé databáze se od sebe částečně liší
– ale jeho struktura přesto umožňuje vzájemnou výměnu vložených sekvencí mezi databázemi
FASTA formát začátek nového záznamu
zdrojová databáze přístupové (SwissProt) číslo krátký popis
definiční řádek
UniProt ideintifikátor
>sp|P48598|IF4E_DROME Eukaryotic translation initiation factor 4E OS=Drosophila melanogaster GN=eIF-4E PE=1 SV=1 MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN TATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTVEDFWSLY NHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDNLWLDVLLCL IGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDALRLGRNNSLQYQ LHKDTMVKQGSNVKSIYTL
sekvence proteinu (obvykle 60 znaků na řádek)
http://www.uniprot.org/uniprot/P48598.fasta
FASTA formát – více záznamů >sp|Q55D85|CAS1_DICDI Cycloartenol synthase OS=Dictyostelium discoideum GN=cas1 PE=1 SV=1 MTTTNWSLKVDRGRQTWEYSQEKKEATDVDIHLLRLKEPGTHCPEGCDLNRAKTPQQAIK KAFQYFSKVQTEDGHWAGDYGGPMFLLPGLVITCYVTGYQLPESTQREIIRYLFNRQNPV DGGWGLHIEAHSDIFGTTLQYVSLRLLGVPADHPSVVKARTFLLQNGGATGIPSWGKFWL ATLNAYDWNGLNPIPIEFWLLPYNLPIAPGRWWCHCRMVYLPMSYIYAKKTTGPLTDLVK DLRREIYCQEYEKINWSEQRNNISKLDMYYEHTSLLNVINGSLNAYEKVHSKWLRDKAID YTFDHIRYEDEQTKYIDIGPVNKTVNMLCVWDREGKSPAFYKHADRLKDYLWLSFDGMKM QGYNGSQLWDTAFTIQAFMESGIANQFQDCMKLAGHYLDISQVPEDARDMKHYHRHYSKG AWPFSTVDHGWPISDCTAEGIKSALALRSLPFIEPISLDRIADGINVLLTLQNGDGGWAS YENTRGPKWLEKFNPSEVFQNIMIDYSYVECSAACIQAMSAFRKHAPNHPRIKEINRSIA RGVKFIKSIQRQDGSWLGSWGICFTYGTWFGIEGLVASGEPLTSPSIVKACKFLASKQRA DGGWGESFKSNVTKEYVQHETSQVVNTGWALLSLMSAKYPDRECIERGIKFLIQRQYPNG DFPQESIIGVFNFNCMISYSNYKNIFPLWALSRYNQLYLKSKI >sp|Q05581|CAS1_STRCL Clavaminate synthase 1 OS=Streptomyces clavuligerus GN=cs1 PE=1 SV=3 MTSVDCTAYGPELRALAARLPRTPRADLYAFLDAAHTAAASLPGALATALDTFNAEGSED GHLLLRGLPVEADADLPTTPSSTPAPEDRSLLTMEAMLGLVGRRLGLHTGYRELRSGTVY HDVYPSPGAHHLSSETSETLLEFHTEMAYHRLQPNYVMLACSRADHERTAATLVASVRKA LPLLDERTRARLLDRRMPCCVDVAFRGGVDDPGAIAQVKPLYGDADDPFLGYDRELLAPE DPADKEAVAALSKALDEVTEAVYLEPGDLLIVDNFRTTHARTPFSPRWDGKDRWLHRVYI RTDRNGQLSGGERAGDVVAFTPRG >sp|P18503|CAS4_EPHMU Short-chain collagen C4 (Fragment) OS=Ephydatia muelleri PE=2 SV=1 DTGPQGPQGVAGPPGIDGAKGDKGECFYPPPPTCPTCPAGPPGAPGPQGAPGAPGAPGLP GPAGPQGPKGDKGLPGNDGQPGAPGAPGYDGAKGDKGDTGAPGPQGPKGDQGPKGDQGYK GDAGLPGQPGQTGAPGKDGQDGAKGDKGDQGPAGTPGAPGKDGAQGPAGPAGPAGPAGPV GPTGPQGPQGPKGDVGPQGPQGAPGSNGAVVYIRWGNNVCPAGETNVYSGHIVESSNAND ANGDYLCLPDTHNAYPPQTQNPLLNLKDVTDSYGKTVPCVACLASGRSTVFTFPDNTVCP YGWTTEYVGYEAANPKWPGQNLCVDTYFGDKLSQTPCNNLAVIAKGPLNAYSYQPQDVVS CVVCSI >sp|P02662|CASA1_BOVIN Alpha-S1-casein OS=Bos taurus GN=CSN1S1 PE=1 SV=2 MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIG SESTEDQAMEDIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYK VPQLEIVPNSAEERLHSMKEGIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWY YVPLGTQYTDAPSFSDIPNPIGSENSEKTTMPLW
počet záznamů
Time files compressed : Time files compressed (int) : Time / date of fasta file : Time of fasta files (int) : Number of residues : Number of sequences : Number with invalid residues: Number of sequences too long: Length of longest sequence : Maximum Accession Length :
souhrnné informace o databázi UniProt/SwissProt
verze databáze Tue Feb 02 19:18:46 2010 1265134726 Thu Jan 21 06:55:34 2010 1264053334 180900945 514212 0 0 35213 11
ftp://ftp.expasy.org/databases/uniprot/knowledgebase/uniprot_sprot.fasta.gz
Flatfile v DDBJ / EMBL / GenBank • DDBJ a GenBank flatfiles jsou téměř shodné; používají slovní označení oddílů (lépe srozumitelnější) • EMBL používá dvojpísmenné prefixy pro jednotlivé řádky
• obsahují 3 hlavní oddíly: – hlavička (header) – informace o celém záznamu – vlastnosti (features) – anotace záznamu – nukleotidová sekvence
• poslední řádek končí znaky //
LOCUS DEFINITION
DMU54469 2881 bp DNA linear INV 22-FEB-1998 Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products, complete cds. ACCESSION U54469 VERSION U54469.1 GI:1322283 KEYWORDS . SOURCE Drosophila melanogaster (fruit fly) ORGANISM Drosophila melanogaster Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila; Sophophora. REFERENCE 1 (bases 1 to 2881) AUTHORS Lavoie,C.A., Lachance,P.E., Sonenberg,N. and Lasko,P. TITLE Alternatively spliced transcripts from the Drosophila eIF4E gene produce two different Cap-binding proteins JOURNAL J. Biol. Chem. 271 (27), 16393-16398 (1996) PUBMED 8663200 REFERENCE 2 (bases 1 to 2881) AUTHORS Lasko,P.F. TITLE Direct Submission JOURNAL Submitted (09-APR-1996) Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield, Montreal, QC H3A 1B1, Canada FEATURES Location/Qualifiers source 1..2881 /organism="Drosophila melanogaster" /mol_type="genomic DNA" /db_xref="taxon:7227" /chromosome="3" /map="67A8-B2" gene 80..2881 /gene="eIF4E" mRNA join(80..224,892..1458,1550..1920,1986..2085,2317..2404, 2466..2881) /gene="eIF4E" /product="eukaryotic initiation factor 4E-I" mRNA join(80..224,1129..1458,1550..1920,1986..2085,2317..2404, 2466..2881) /gene="eIF4E" /product="eukaryotic initiation factor 4E-I" mRNA join(80..224,1550..1920,1986..2085,2317..2404,2466..2881) /gene="eIF4E" /product="eukaryotic initiation factor 4E-II" CDS join(201..224,1550..1920,1986..2085,2317..2404,2466..2629) /gene="eIF4E" /note="Method: conceptual translation with partial peptide sequencing" /codon_start=1 /product="eukaryotic initiation factor 4E-II" /protein_id="AAC03524.1" /db_xref="GI:1322284" /translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETG EPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTV EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDN LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL RLGRNNSLQYQLHKDTMVKQGSNVKSIYTL" CDS join(1402..1458,1550..1920,1986..2085,2317..2404, 2466..2629) /gene="eIF4E" /note="Method: conceptual translation with partial peptide sequencing; two alternatively spliced transcripts both encode 4E-I" /codon_start=1 /product="eukaryotic initiation factor 4E-I" /protein_id="AAC03525.1" /db_xref="GI:1322285" /translation="MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKD VKPKEDPQETGEPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWED MQNEITSFDTVEDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVIT LNKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAA LEIGHKLRDALRLGRNNSLQYQLHKDTMVKQGSNVKSIYTL" ORIGIN 1 cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca 61 acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt 121 cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata
Flatfile v GenBank a EMBL - příklad ID XX AC XX DT DT XX DE DE XX KW XX OS OC OC OC XX RN RP RX RX RA RT RT RL XX RN RP RA RT RL RL RL XX FH FH FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT
U54469; SV 1; linear; genomic DNA; STD; INV; 2881 BP. U54469; 19-MAY-1996 (Rel. 47, Created) 17-APR-2005 (Rel. 83, Last updated, Version 4) Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products, complete cds. . Drosophila melanogaster (fruit fly) Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila; Sophophora. [1] 1-2881 DOI; 10.1074/jbc.271.27.16393 PUBMED; 8663200. Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.; "Alternatively spliced transcripts from the Drosophila eIF4E gene produce two different Cap-binding proteins"; J. Biol. Chem. 271(27):16393-16398(1996). [2] 1-2881 Lasko P.F.; ; Submitted (09-APR-1996) to the EMBL/GenBank/DDBJ databases. Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield, Montreal, QC H3A 1B1, Canada Key
Location/Qualifiers
source
1..2881 /organism="Drosophila melanogaster" /chromosome="3" /map="67A8-B2" /mol_type="genomic DNA" /db_xref="taxon:7227" join(80..224,1129..1458,1550..1920,1986..2085,2317..2404, 2466..2881) /gene="Eif4E" /product="eukaryotic initiation factor 4E-I" join(80..224,892..1458,1550..1920,1986..2085,2317..2404, 2466..2881) /gene="Eif4E" /product="eukaryotic initiation factor 4E-I" join(80..224,1550..1920,1986..2085,2317..2404,2466..2881) /gene="Eif4E" /product="eukaryotic initiation factor 4E-II" join(201..224,1550..1920,1986..2085,2317..2404,2466..2629) /codon_start=1 /gene="Eif4E" /product="eukaryotic initiation factor 4E-II" /note="Method: conceptual translation with partial peptide sequencing." /db_xref="FLYBASE:FBgn0015218" /db_xref="GOA:P48598" /db_xref="InterPro:IPR001040" /db_xref="InterPro:IPR019770" /db_xref="UniProtKB/Swiss-Prot:P48598" /protein_id="AAC03524.1" /translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGE
mRNA
mRNA
mRNA
CDS
Příklad: Eukaryotic translation initiation factor 4E • http://www.uniprot.org/uniprot/P48598 • http://www.ebi.ac.uk/cgibin/expasyfetch?U54469 • http://www.ncbi.nlm.nih.gov/nuccore/132228 3?report=genbank • http://getentry.ddbj.nig.ac.jp/search/get_ entry?accnumber=U54469
Third party annotation (TPA) • http://www.ncbi.nlm.nih.gov/genbank/TPA.html • databáze navržená pro doplnění experimentálních / odvozených informací doplňující / potvrzující informace poskytnuté zadavatelem sekvence • vhodné pro ostatní vědce nemající přímý přístup k databázové položce • TPA dataset obsahuje – reanotace existujících položek – kombinace nových sekvencí a existujících primárních položek – anotace archivu a celých genomových shotgun dat
• př.: http://www.ncbi.nlm.nih.gov/nuccore/28317386
RefSeq projekt • http://www.ncbi.nlm.nih.gov/RefSeq/ • administrovaná sekundární databáze s cílem poskytnout souhrnný, integrovaný a neredundantní soubor sekvencí jak z genomické, tak transkripční a proteinové úrovně pro stále se zvyšující počet organismů • důvodem vzniku byla redundance sekvencí a nejasnost původu záznamu (experiment vs. počítačové odvození) • referenční sekvenci pro každou molekulu (DNA, mRNA, protein) • opět vyžaduje hodně práce biologických odborníků • 2+6 formát přístupového kódu
genomický úsek (DNA) mRNA protein
experimentální data NT_123456
genomická anotace
NM_123456 NP_123456
XM_123456 XP_123456
modelová mRNA modelový protein
EMBL Genome Reviews • http://www.ebi.ac.uk/GenomeReviews/ • přechází na Ensembl Genomes – http://www.ensemblgenomes.org/ • opět důvodem překlenutí nedovoleného přístupu pro ostatní • sekundární databáze pro administrované verze kompletních genomových sekvencí v DDBJ / EMBL / GenBank • přidané další informace např. z UniProt knowledgebase, Gene Ontology Annotation (GOA), InterPro a pod. • synchronizace s databází UniProt
Proteinové sekvenční databáze • vznikly hlavně z důvodu analýzy proteinů kódovaných v genomech • důležité obzvláště s příchodem aplikací hmotnostní spektrometrie v analýze proteinů (mj. analýza posttranslačních modifikací) • z větší části jsou to sekundární databáze protože obsahují sekvence odvozené z DNA databází
Proteinové sekvenční databáze – příklady • GenPept – jen pro proteinové sekvence odvozené translací nukleotidových sekvencí – dnes součástí NCBI Protein - http://www.ncbi.nlm.nih.gov/protein
• RefSeq – obsahuje též proteinové sekvence (pro vybrané organismy) – http://www.ncbi.nlm.nih.gov/RefSeq/
• UniProt – administrovaná databáze; kompozit SwissProt, TrEMBL a PIR-PSD – http://www.uniprot.org – UniProt Archive (UniParc) – vkládání nových sekvencí – UniProt Knowledgebase – rozšíření práce původně prováděné se SwissProt, TrEMBL a PIR-PSD s cílem poskytnout expertní administrovanou databázi – UniRef – UniProt nonredundant reference database – poskytuje neredundantní pohled na data v UniParc a UniProt Knowledgebase
UniProt Archive (UniParc) • podstatná část sekvenčních dat proteinů pochází z přímé sekvenace proteinů – SwissProt, TrEMBL, PIR-PSD – patentové aplikace, PDB – IPI, RefSeq, FlyBase, WormBase
• UniParc dává dohromady tyto zdroje (spolu s přímým zadáváním sekvencí) • každá sekvence reprezentována pouze jednou svým jedinečným identifikačním číslem – křížové referencování se zdrojovými databázemi (včetně verze vložené sekvence) spolu s označením stavu sekvence
• UniParc nemá žádné anotace sekvencí – ty jsou dostupné přes původní databáze • UniParc slouží k párovému přikládání sekvencí – UniProt NREF 100, UniProt NREF 90, UniProt NREF 50 (UniRef klastry) – seskupovány sekvence bez ohledu na druh
UniProt Knowledgebase • SwissProt – manuálně anotované záznamy založené na informaci z literatury + administrátorem vyhodnocené počítačové analýzy sekvencí • TrEMBL – počítačové anotované záznamy čekající na manuální anotaci (CDS z EMBL, které nejsou ve SwissProt) • také PIR-PSD – záznamy, které nejsou ve SwissProt/TrEMBL
UniProt Knowledgebase • Knowledgebase je také neredundantní – snaha popsat produkty odvozené z jednoho genu (nebo genů) jednoho druhu organismu – jedno přístupové číslo spolu s identifikátorama isoforem (alternativní sestřihy, proteolytické štěpy, post-translační modifikace)
• rozsáhlé křížové reference => rozbočovač pro biomolekulární informace – http://www.uniprot.org/uniprot/P10896
• např. link k SWISS-2DPAGE – http://www.expasy.org/ch2d/
UniProt – tok dat z primárních zdrojů UniProt NREF 50 UniProt NREF 90 UniProt NREF 100 Proteome Sets
UniProt Knowledgebase SwissProt + TrEMBL
IPI
UniProt Archive
Sub/ Peptide Data
DDBJ/ EMBL/ GenBank
VEGA
PDB
Patent Data
WGS
Database sources
EnsEMBL
RefSeq
FlyBase
WormBase
UniProt http://www.uniprot.org/
ID AC DT DT DT DE DE DE DE DE GN OS OC OC OC OX RN RP RX RA RT RT RL RN RP RX RA RT RT RL RN RP RP RC RX RA RT RT RL RN RP RC RX RA RA RA RA RA RA RA RA RA RA RA RA
IF4E_DROME Reviewed; 259 AA. P48598; A4V1Q6; Q95SV3; Q9VSX8; Q9VSX9; 01-FEB-1996, integrated into UniProtKB/Swiss-Prot. 01-FEB-1996, sequence version 1. 20-APR-2010, entry version 89. RecName: Full=Eukaryotic translation initiation factor 4E; Short=eIF-4E; Short=eIF4E; AltName: Full=mRNA cap-binding protein; AltName: Full=eIF-4F 25 kDa subunit; Name=eIF-4E; Synonyms=Eif4e, EIF4F; ORFNames=CG4035; Drosophila melanogaster (Fruit fly). Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila; Sophophora. NCBI_TaxID=7227; [1] NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM I), AND DEVELOPMENTAL STAGE. MEDLINE=95260867; PubMed=7742371; Hernandez G., Sierra J.M.; "Translation initiation factor eIF-4E from Drosophila: cDNA sequence and expression of the gene."; Biochim. Biophys. Acta 1261:427-431(1995). [2] NUCLEOTIDE SEQUENCE [GENOMIC DNA] (ISOFORMS I AND II), AND FUNCTION. MEDLINE=96279193; PubMed=8663200; DOI=10.1074/jbc.271.27.16393; Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.; "Alternatively spliced transcripts from the Drosophila eIF4E gene produce two different Cap-binding proteins."; J. Biol. Chem. 271:16393-16398(1996). [3] NUCLEOTIDE SEQUENCE [GENOMIC DNA] (ISOFORMS I AND II), TISSUE SPECIFICITY, AND DEVELOPMENTAL STAGE. STRAIN=Canton-S; MEDLINE=97218035; PubMed=9065696; DOI=10.1007/s004380050365; Hernandez G., del Corral R., Santoyo J., Campuzano S., Sierra J.M.; "Localization, structure and expression of the gene for translation initiation factor eIF-4E from Drosophila melanogaster."; Mol. Gen. Genet. 253:624-633(1997). [4] NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA]. STRAIN=Berkeley; MEDLINE=20196006; PubMed=10731132; DOI=10.1126/science.287.5461.2185; Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N., Sutton G.G., Wortman J.R., Yandell M.D., Zhang Q., Chen L.X., Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D., Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Miklos G.L.G., Abril J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D., Ballew R.M., Basu A., Baxendale J., Bayraktaroglu L., Beasley E.M., Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S., Borkova D., Botchan M.R., Bouck J., Brokstein P., Brottier P., Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I., Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P.,
Flatfile v UniProtu - příklad http://www.uniprot.org/uniprot/P48598
EMBL-EBI http://www.ebi.ac.uk/
NCBI – Natinal Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/
Nástroje pro práci se sekvenčními databázemi
Databázové nástroje • ExPASy, UniProt, NCBI – nástroje • Mascot – identifikace proteinů • BLAST (pro nukleové kyseliny a proteiny)
ExPASy – Expert Protein Analysis Server http://www.expasy.org/ • odkazy na databáze • užitečné programy a nástroje • zdroje informací pro výuku a návody k použití
ExPASy – http://www.expasy.org/
rozebereme podrobněji
UniProt – http://www.uniprot.org/
UniProt – vyhledávání (Search) http://www.uniprot.org/ vyhledávání v • základních datech – Protein Knowledgebase (UniProtKB) – Sequence Clusters (UniRef) – Sequence Archive (UniParc)
• doplňující data • různé informace
Protein Knowledgebase – UniProtKB http://www.uniprot.org/uniprot/?query=trypsin&sort=score
Sequence Clusters (UniRef) http://www.uniprot.org/uniref/UniRef50_P35042
reprezentativní sekvence 64 bílkovin v klastru
UniProt – další nástroje • BLAST – párové přiložení sekvencí • Align – vícenásobné přiložení sekvencí (ClustalW algoritmus) • Retrieve – dávkové získání sekvencí na základě identifikátorů sekvencí • ID Mapping – mapování identifikátorů v jednotlivých databázích
UniProt – BLAST http://services.uniprot.org/blast/blast-20100427-2222061727
zadaná sekvence
výsledky párového přiložení detail
UniProt – BLAST (detail) http://services.uniprot.org/blastalignment/blast-20100427-2222061727/P06871#align-info0
informace o párovém přiložení (ID sekvence, skóre, atd.) zadaná sekvence přiřazená sekvence z databáze
informace o totožnosti, resp. podobnosti residuí
UniProt – Align (ClustalW) http://services.uniprot.org/clustalw/clustalw2-20100427-2148368204
zadání
a výsledek
UniProt – Retrieve zadané identifikátory sekvencí
různé formáty výstupních dat
UniProt – ID Mapping
zadané identifikátory sekvencí
identifikační čísla v databázi EMBL/GenBank/DDBJ zadaných čísel
ExPASy – databáze http://www.expasy.org/databases.html
mezi dalšími např. • databáze obrazů 2D gelů (SWISS2DPAGE) • databáze glykanů (GlycoSuiteDB)
ExPASy – nástroje http://www.expasy.org/tools/ mnoho nástrojů, jak na ExPASy serveru, tak mimo, rozdělených do několika kategorií: • identifikace a charakterizace proteinů • identifikace a charakterizace proteinů pomocí peptidového mapování • identifikace a charakterizace proteinů pomocí tandemové hmotnostni spektrometrie • idetifikace pomocí pI, MW nebo aminokyselinového složení • ostatní predikční a charakterizační nástroje • ostatní proteomické nástroje • vyhodnocování MS dat (vizualizace, kvantifikace atd.) • analýza dat z 2D gelové elektroforézy • překlad DNA sekvencí na proteinové sekvence • podobnostní vyhledávání • vyhledávání vzorů a profilů • predikce post-translačních modifikací, topologií • analýza primární, sekundární, terciární a kvarterní struktury proteinů • přiložení sekvencí (párové, násobné) • fylogenetická analýza aj.
ExPASy – GlycoMod http://www.expasy.org/tools/glycomod/ •
návrh teoretických struktur glykanů/glykopept idů na základě experimentálně zjištěné molekulové hmotnosti
vložení experimentálních hodnot
nastavení parametrů
ExPASy – GlycoMod (příklad výsledku)
identifikovaný N-glykan
odkaz do databáze GlycoSuiteDB
ExPASy – predikční proteomické nástroje •
•
• • •
•
http://www.expasy.org/tools/ ProtParam – fyzikálně-chemické parametry proteinové sekvence (aminokyselinové složení, elementární složení, izoelektrický bod, extinkční koeficient) Compute pI/Mw – spočítá hodnotu pI a molekulové hmotnosti jak pro sekvence v UniProt (pomocí ID sekvence), tak pro uževatelem zadanou sekvenci GlycanMass – spočítá hmotnost oligosacharidové struktury PeptideCutter – predikce štěpných míst v proteinové sekvenci PeptideMass – spočítá teoretické hmotnosti peptidů (spolu s posttranslačními modifikacemi uvedenými v databázi) po digesci proteinu IsotopIdent – predikce teoretické isotopové distribuce peptidy, proteinu polynukleotidu nebo jiné chem látky
ExPASy – ProtParam http://www.expasy.org/tools/protparam.html
vložení ID proteinu nebo sekvence
část výpisu výsledných hodnot
pro výpočet hodnot pI/Mw lze analogicky použít program Compute pI/Mw (http://www.expasy.org/tools/pi_tool.html)
ExPASy – PeptideMass http://www.expasy.org/tools/peptide-mass.html část výpisu výsledných hodnot vložení ID proteinu nebo sekvence
zadání parametrů teoretického štěpení
Nástroje pro identifikaci proteinů pomocí MS dat • Mascot – databázové vyhledávaní a identifikace proteinů s MS a/nebo MSMS daty (Matrix Science Ltd., London) • ProFound – databázové vyhledávaní a identifikace proteinů s MS daty (MSMS data – program X! Tandem a X! Hunter); též predikční nástroje (The Rockefeller University, New York) • ProteinProspector – databázové vyhledávání + predikční nástroje pro identifikaci proteinů z MS a MSMS dat (University of California, San Francisco)
Mascot http://www.matrixscience.com/search_form_select.html tři nástroje pro vyhledávání: • Peptide Mass Fingerprinting – nástroj pro prohledávání databáze na základě metody otisku prstu (MS data) • Sequence Query – vyhledávání na základě MSMS dat nebo jejich částečné interpretace • MS/MS Ion Search – prohledávání databází s MSMS daty (vetší soubory)
Typické MS spektrum peptidové směsi po digesci v gelu 1413.7413
100
1.8E+4
90 80
% Intensity
70 925.5274
60 50
1137.6631
40 1144.5979
30 20 10
1653.8485 1809.9584
1370.7491 1525.6969 1156.5598 842.5183 1320.6467 1688.9136 2529.3186 2212.1663 1159.6367 1494.7484 989.5385 1759.93211992.9878 2383.9719 1323.6652 825.0976 2705.1929 2225.1443
0 800
1240
1680
2120
Mass (m/z)
2560
3000
http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF
Typické MSMS spektrum vybraného peptidového prekurzoru 100
86.0977 3249.6 136.0765
90 80
% Intensity
70 60 101.0736 50 40 646.3367 30 201.1172 112.0810 20 223.1073 288.1706 379.1458 251.0971 10 88.0840 348.1409 492.2104 526.1935639.2639 183.1031 439.1602 775.4004 922.4632 0 60
340
620
900
Mass (m/z)
1213.5955 1180
1460
http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=SQ
BLAST – Basic Local Alignment Search Tool at NCBI (http://blast.ncbi.nlm.nih.gov/)
porovnávání na úrovni nukleových kyselin
porovnání na základě sekvencí proteinů
další nástroje pro analýzy sekvencí
BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)
zadávací formulář
výběr databáze
volba algoritmu
BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)
sekvence z databáze přiřazená k dotazu
Příklady ke cvičení
Informace o vzorku • protein byl separován pomocí gelové elektroforézy
• redukce disulfidických můstků byla provedena dithiothreitolem, následná modifikace cysteinů byla provedena jodacetamidem (= „Carbamidomethyl (C)“) • enzymatické štěpení bylo provedeno v gelu pomocí trypsinu (štěpí za lysinem (K) a argininem (R), nenásleduje-li prolin) • hmotnostní analýza byla provedena na hmotnostním spektrometru typu MALDI-TOF/TOF
• pro databázové vyhledávání použijte jeden z nástrojů http://www.matrixscience.com/search_form_select.html http://prospector.ucsf.edu/prospector/mshome.htm
Nastavení databázového vyhledávání (Mascot) • database:
SwissProt
• enzyme:
Trypsin
• missed cleavages:
1
• taxonomy:
All entries
• fixed modifications:
Carbamidomethyl (C)
• variable modifications: Gln->pyro-Glu (N-term Q) Oxidation (M) Acetyl (Protein N-term) • peptide tolerance:
30 ppm
– MSMS tolerance:
300 mmu
• mass values:
[M+H]+ Monoisotopic
zde doplnit svoje m/z hodnoty
Nastavení databázového vyhledávání (Protein Prospector) • database:
SwissProt
• digest:
Trypsin
• max missed cleavages: 1 • taxonomy:
All
• fixed modifications:
Carbamidomethyl (C)
• variable modifications: Peptide N-terminal Gln to pyroGlu Oxidation of M Protein N-terminus Acetylated • peptide tolerance:
30 ppm
– MSMS tolerance:
300 mmu
• mass are:
monoisotopic
zde doplnit svoje m/z hodnoty
Příklad MS spektra 1
817.418 870.544 915.461 952.517 998.551 1169.646 1170.658 1254.726 1266.721 1275.575 1282.737 1286.720 1326.762 1340.752 1358.748 1368.781 1383.783 1404.688 1463.900 1511.791 1529.795 1545.801 1566.827 1694.915 2054.867 2092.827 2173.933 2239.145 2264.945 2278.960 2279.997 2280.987 2366.275 2427.017 2518.023 2532.038 2616.210 2707.224 2720.217 2721.235 2722.235 2723.231 2737.223 2807.314
4800 Refl ector Spec #1 MC=>BC[BP = 1326. 8, 4573]
1326.763
100
získaný seznam píků
90 1254.727
80
70
% Inte ns ity
hmotnostní spektrum
915.462
60
50
40
1529.795
1694.917
30
2707.224
20 2366.275
842.515
10
1170.657
870.543 807.405
0 800
998.551
938.484
2054.866
1275.575 1184.566
1358.747
1450
1511.791 1545.799
1716.890
2082.931
2264.945 2280.989
2100
2518.023 2532.039
2723.231 2739.230
2750 Mass (m/z)
2901.286
4573.3
3220.519
3400
4050
Výsledky vyhledávání z programu MS-Fit
nejvyšší skóre
exp. vs. teor. m/z hodnoty
identifikovaný protein
identifikované peptidové sekvence
nástroje pro další analýzu nezidentifikovaných m/z hodnot
Výsledky vyhledávání z programu Mascot PMF
hity mimo zelený rámeček jsou významné nejvyšší skóre identifikovaný protein
parametry vyhledávání
Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)
skóre a „expect“ hodnota molekulová hmotnost a pI
sekvenční pokrytí
Detailní popis výsledku vyhledávaní v programu Mascot PMF (II) identifikované peptidové sekvence exp. vs. teor. m/z hodnoty
rozložení experimentálních chyb
flat file záznamu proteinu v databázi
Příklad MSMS spektra s označenými ionty MS/MS Precursor 1694.915 y13
100 90 80
% Intensity
70 60 50 40
ion type
m/z
147.11 246.15 359.26 487.33 574.36 673.41 801.49 930.54 1077.58 1178.64 1235.65 1322.67 1419.74 1566.85
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 y13 y14
y7
30
y14 y8 y5
20 y1
10 0 10
y9
y2
y11
y6 y3
350
y12
y4
690
1030 Mass (m/z)
1370
1710
ion type
m/z
difference
AA
alt. AA
y1
147.11
y2
246.15
99.04
V
y3
359.26
113.11
L
I
y4
487.33
128.07
Q
K
y5
574.36
87.03
S
y6
673.41
99.05
V
y7
801.49
128.08
Q
y8
930.54
129.05
E
y9
1077.58
147.04
F
y10
1178.64
101.06
T
y11
1235.65
57.01
G
y12
1322.67
87.02
S
y13
1419.74
97.07
P
y14
1566.85
147.11
F
sequence FPSGTFEQVSQLV
K
odečítáme odspodu (protože y-ionty)
rozkliknout
informace o parametrech vyhledávání
http://www.uniprot.org/uniprot/P02774
zde další informace a nástroje
Program mMass (http://www.mmass.org/)
Ke stažení (Windows, Mac OSX, Linux) na adrese http://www.mmass.org/download/
Zpracování spektra v programu mMass
detekce píků manuálně nebo automaticky
Zadání získaných dat do programu Mascot PMF
Detail dialogového okna programu Mascot PMF
Výsledek vyhledávání v programu Mascot PMF (zadáno z programu mMass)
Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)
skóre a „expect“ hodnota molekulová hmotnost a pI
sekvenční pokrytí (zde je vyšší oproti 43%)
Detailní popis výsledku vyhledávaní v programu Mascot PMF (II)
identifikované peptidové sekvence
exp. vs. teor. m/z hodnoty rozložení experimentálních chyb
flat file záznamu proteinu v databázi
Vyhledávací program PROFOUND (pro PMF)
Detail dialogového okna programu PROFOUND
Detail dialogového okna programu MS-Fit v programu mMass
Výsledky vyhledávání z programu MS-Fit identifikovaný protein
nejvyšší skóre
identifikované peptidové sekvence exp. vs. teor. m/z hodnoty
nástroje pro další analýzu nezidentifikovaných m/z hodnot
Automatický výběr píků v programu mMass
Výsledek vyhledávání v programu Mascot PMF (zadáno z programu mMass po automatickém výběru píků)
mnoho falešných píků snižují skóre sekvenční pokrytí docela dobré