Bioinformatika a funkční studie
Bioinformatika
Vztah informace a funkce Sekvenování
Databáze
DNA Proteinů Primární Sekundární
Integrované internetové zdroje informací Vyhledávání sekvenční podobnosti, porovnávání sekvencí Predikce struktury a funkce
Bioinformatika je aplikace počítačové technologie na zpracování a analýzu biologických dat. Počítače slouží pro hromadění, ukládání, analýzu a propojení biologických dat.
Bioinformatika je mezioborové vědecké odvětví, které stojí na pomezí biologie a počítačové vědy. Konečným cílem bioinformatiky je odhalení bohatství biologické informace ukryté v množství dat a ozřejmit tak základní biologické chování organismů. Tyto nové poznatky mohou mít velký vliv na široké spektrum oblastí od medicíny, zemědělství, životního prostředí, biotechnologie až po energetiku.
DNA
RNA Protein
5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3‘ | | | | | | | | | | | | | | | 3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5' 5' C-G-A-U-U-G-C-A-A-C-G-A-U-G-C 3‘ R
W
Q
R
C
Arg
Trp
Gln
Arg Cys
Třípísmenné a jednopísmenné zkratky aminokyselin Aminokyselina
Xxx
X
Aminokyselina
Xxx
X
Alanine
Ala
A
Lysine
Lys
K
Arginine
Arg
R
Methionine
Met
M
Asparagine
Asn
N
Phenylalanine
Phe
F
Kyselina asparagová
Asp
D
Proline
Pro
P
Cysteine
Cys
C
Serine
Ser
S
Glutamine
Gln
Q
Threonine
Thr
T
Kyselina glutamová
Glu
E
Tryptophan
Trp
W
Glycine
Gly
G
Tyrosine
Tyr
Y
Histidine
His
H
Valine
Val
V
I
Asparagine nebo kyselina asparagová
Asx
B
L
Glutamine nebo kyselina glutamová
Glx
Z
Isoleucine Leucine
Ile Leu
Hemoglobin HBB, human hemoglobin Beta řetězec DNA sekvence - 444 bp
atggtgcatctgactcctgaggagaagtctgccgttactgccctgtggggcaaggtgaac gtggatgaagttggtggtgaggccctgggcaggctgctggtggtctacccttggacccag Proteinová sekvence - 147 aa aggttctttgagtcctttggggatctgtccactcctgatgctgttatgggcaaccctaag gtgaaggctcatggcaagaaagtgctcggtgcctttagtgatggcctggctcacctggac MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGD aacctcaagggcacctttgccacactgagtgagctgcactgtgacaagctgcacgtggat LSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL cctgagaacttcaggctcctgggcaacgtgctggtctgtgtgctggcccatcactttggc HVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHK aaagaattcaccccaccagtgcaggctgcctatcagaaagtggtggctggtgtggctaat YH gccctggcccacaagtatcactaa
•DNA sekvence určuje proteinovou sekvenci •proteinová sekvence určuje proteinovou strukturu •struktura proteinu určuje funkci
DNA
DNA sekvenace
1972 DNA klonování 1975 DNA sekvenace 80-tá 90-tá léta – sekvenační revoluce
Manuálně – Sanger Automaticky J. Craig Venter
Celera Genomics
Současný stav sekvenačních projektů 6.3.2007 http://www.ncbi.nlm.nih.gov/genomes/leuks.cgi
Eukaryotické projekty-343 kompletní – 26 ve stavu anotace – 127 nedokončené - 190
Mikrobiální projekty-1156 kompletní – 468 –
432 Bakterie 36 Archea
ve stavu anotace – 304 nedokončené- 384
Viry 1774
Projekt Lidský genom (The Human Genome Project)
Zahájen v polovině 80-tých let 20. století Odhad: 100,000 genů, dokončeno v roce 2005 Automatické sekvenování a zdokonalení výpočetní techniky
Shotgun methody
První verze publikována v roce 2000 společně
International Consortium Human Genome Project (veřejně financovaná společnost)
Celera Genomics (soukromá společnost)
Referenční sekvence lidské DNA dokončena v dubnu 2003
Projekt Lidský genom (The Human Genome Project)
20 -25 tis genů
Alternativní sestřih – 1,000,000 proteinů
Stovky genů jsou výsledkem horizontálního přenosu z bakterií (v linii obratlovců) Desítky genů jsou odvozeny od transpozibilních elementů Rychlost mutací u můžu je asi 2x větší než u žen >1,400,000 jednoduchých nukleotidových polymorfismů (SNPs)
•The human genome is composed of more than 3 billion nucleotide bases. •The total number of human genes is estimated to be between 30,000 - 40,000. •Worms have 19,098 genes, fruit flies have 13,602 and yeast has 6,034. •Almost all nucleotide bases (99.9%) are exactly the same in all people. •Less than 2% of the genome codes for proteins. •The vast majority of the DNA in the genome (>97%) has no known function. •The functions remain unknown for over 50% of discovered genes. •Chromosome 1 has the most genes (2,968) and chromosome Y has the least (231). •Humans have about 3 times as many proteins as flies and worms. This is because different proteins can be produced by the same gene using the processes of mRNA splicing and protein post-translational modifications. •Our DNA is 98% identical to chimpanzees. The average amount of genetic difference between any 2 chimpanzees is 4 or 5 times more than the average difference between any 2 humans. •There are 100 trillion cells in your body. •If unwound and tied together, the strands of DNA in one cell would stretch 6 feet. •If all the DNA in your body was tied together, it would stretch to the sun and back over 600 times. •12,000 letters of DNA are decoded by human genome project computers every second. •The entire human genome requires more than 3 gigabytes of computer storage space. •If a person recited the genome at a rate of one nucleotide per second, 24 hours a day, it would take them a full century to complete. •To sequence the human genome, researchers collected a large number of blood samples from females and sperm from males. A few of these samples were then chosen at random for sequencing. The identities of the sample sources have never been disclosed, either to the donors or to the scientists.
proteiny
Proteinové sekvenování
Edmanovo odbourávání - N-terminální sekvenace 1955 Ryle et al. - insulin 1960 Hirs et al. – ribonuclease 1980s automatické sekvenátory Hmotnostní spektrometrie
Hemoglobin, lidský, beta řetězec
DNA databáze
GenBank (NCBI)
EMBL (EBI)
67,218,344 sequence entries, 71,292,211,453 bases, February 15 2007
83,666,567 sequence entries, 150,163,403,742 bases, 30-NOV2006. 69 GB compressed (376 GB uncompressed)
DDBJ (DNA DataBase of Japan)
64,267,978 entries, 68,259,314,742 bases Dec. 2006
Hemoglobin, lidský, beta řetězec EMBL databázový záznam
Primární proteinové databáze
Primary databases
UniProt (PIR-PSD, SwissProt, TrEMBL)
UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases 309,349 entries (March 2007)
UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 3,874,166 entries (March 2007)
NCBInr; compiled from a variety of sources, including SwissProt, PIR,
PRF, PDB, and translations from annotated coding regions in GenBank and RefSeq 4,396,331 entries (January 2007) - 4GB
Hemoglobin, lidský, beta řetězec Uniprot databázový záznam
FASTA formát – jednoduchý formát zápisu sekvence
>P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLS TPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVD PENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
Sekundární databáze Obsahují výsledky analýzy dat z primárních databází Sestaveny pomocí mnohočetného porovnávání (multiple alignment) homologních sekvencí pro zachycení konzervovaných oblastí – zařazení do rodin
Sekundární databáze
Sekundární databáze Sekundární databáze
Zdroj dat
Princip řazení
PROSITE
UNIPROT
Regulární výrazy (patterns)
PRINTS
OWL
motivy (fingerprints)
Pfam
UNIPROT
Skryté Markovovy Modely (HMMs)
BLOCKS
PROSITE/PRINTS motivy (blocks)
INTERPRO
Integrovaný zdroj dokumentace o proteinových rodinách, doménách a funkčních místech
Metody rozeznávající sekvenční signatury mají různé optimum použití díky rozdílným principům a vlastnostem algoritmů. Pro nejlepší výsledek je proto ideální kombinace všech metod.
InterPro databáze zahrnuje: PROSITE, PRINTS, Pfam, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D a PANTHER
InterPro
Hemoglobin, lidský, beta řetězec Interpro databázový záznam
Strukturní databáze
PDB - repository for the processing and distribution of 3-D biological macromolecular structure data 42082 structures (6.3.2007)
přírůstek 3-D struktur v databázi
ročně celkem
•Krystalografická analýza – 80% •Nukleární magnetická rezonance – 18% •Modelování – 2%
nepoměr sekvence/struktura Počet záznamů v db
Růst sekvenčních dat
Růst jedinečných struktur
čas
Hemoglobin, lidský, beta řetězec Struktura uložena v PDB
Hemoglobin - struktura funkčního proteinu
Hemoglobin beta řetězec
Heterotetramer – 2x alfa, 2x beta
Systémy pro získání informací (Information retrieval systems) ENTREZ (NCBI) DBGET (Genomnet) SRS (EBI)
ENTREZ
http://www.ncbi.nlm.nih.gov/Entrez/
SRS3D
SRS záznam
Vyhledávání a srovnávání (searching & alignment) >P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDL STPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLH VDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
Hledání homologních proteinů pomocí sekvenční podobnosti
Homologie vs. podobnost
Sekvence jsou HOMOLOGNÍ, jestliže jsou odvozeny ze stejné původní sekvence ( vs.
analogní – proteiny s podobnými vlastnostmi, ale jiného původu, např. β-barrelové struktury, které mohou být dílem konvergence)
Ortholog – proteiny, které plní stejnou funkci v jiných organismech Paralog – proteiny, které plní různou funkci v jednom organismu Homologie je absolutní výraz, ne míra podobnosti
Platí: 2 proteiny jsou homologní Neplatí: proteiny jsou homologní z 50% !!!
Hledání sekvenční podobnosti srovnání DNA Seq1:ATTCGACTCCA Seq2:ATTCGG-TCCA Protein Seq1: KLIKATY Seq2: KLID-TY Párové srovnávací algoritmy - pracují se dvěma sekvencemi a hledají nejlepší přeložení Lokální srovnávání - Smith-Waterman (1981) (http://pir.georgetown.edu/pirwww/search/pairwise.html ) Globální srovnávání– Needleman-Wunsch (1970)
Databázové vyhledávání
BLAST FASTA
heuristické
Rychlejší než párové srovnávací algoritmy, ale méně přesné
algoritmy sloužící pro nalezení sekvenčních podobností zadané sekvence proti sekvencím v databázi Zaměřují se na vyhledávání krátkých identických úseků
HSPs (BLAST)
K-tuples (FASTA)
Gapped BLAST – zavedení mezer, které lépe odrážejí biologické procesy http://www.ncbi.nlm.nih.gov/BLAST/
Hemoglobin, lidský, beta řetězec Výsledek algoritmu BLAST
Statistické skórovací hodnoty
Z-score – míra, jak nepravděpodobná je nalezená
P-value – pravděpodobnost, že pozorovaná shoda je
E-value – počet podobných záznamů se stejnými
shoda; čím větší číslo, tím větší pravděpodobnost, že srovnání není dílem náhody
dílem náhody
hodnotami skóre jako pozorovaný záznam, které mohou vzniknout v dané databázi náhodně (E=P*N ; N – velikost databáze)
E< 0.02 – sekvence jsou pravděpodobně homologní 0.02 < E< 1 – homologie není vyloučena E > 1 – shoda je výsledkem náhody
Nepsaná pravidla
> 45% sekvenční identity – proteiny budou mít podobnou strukturu > 25% sekv. id. – pravděpodobně budou mít shodný obecný způsob 3-D uspořádání 18-25% sekv. id. - twilight zone – homologie je pravděpodobná, ale může být nepravdivá Důležitá je textura srovnání rozptýlené vs. ledovce
Sperm whale myoglobin vs. lupin leghaemoglobin – 15% identita, podobná 3D – opravdu vzdáleně příbuzné
Mnohočetné sekvenční srovnávání
2D tabulka sekvence v řádcích srovnaná podle podobnosti (sloupce) sekvence konsensu – shrnutí srovnání do jedné souhrnné sekvence ClustalW
http://www.ebi.ac.uk/clustalw/index.html
Funkční charakteristika
Základní vlastnosti proteinu
pI MW Hydrofobicita
Specifické sekvenční prvky – predikce
Lokalizace Funkce modifikace
Expasy - Proteomický server
http://www.expasy.ch/
pI/MW,
http://www.expasy.ch/tools/protparam.html http://www.expasy.ch/tools/pi_tool.html
Sekundární, terciární strukturní znaky
Predikční programy
TMHMM – predikce transmembránových domén Signal P – predikce signálního peptidu Lipo P – predikce lipoproteinů Secretome P – predikce secernovaných proteinů
Psort B – lokalizace a vlastnosti proteinů Gbakterií
http://www.cbs.dtu.dk/services/
http://www.psort.org/psortb/
Posttranslační modifikace proteinů
Fosforylace glykosylace
Základní adresy
http://www.ebi.ac.uk/ - European Bioinformatic Institute (UK)
http://www.ebi.ac.uk/2can/home.html základní kurz bioinformatiky
http://www.ncbi.nlm.nih.gov/ - National Center for Biotechnology Informatics (USA)
>UNIPROT|Q5NFW3|Q5NFW3_FRATT Conserved hypothetical lipoprotein. MTKKKLLKALAVAAIATSLVACSDSSSNDKTLTTAVSSGSSVATTTVAAPADNTNVTANA SYIIGYGMGSSIATDKNIKTFNLNNDKVMAGFEDAINAKKPAIPLEDIANNMNTLRDKMQ QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVVVYEFFDYQCMYCSKLAPEIEKIMKD NSDVQVVFAEFPIFGQKLPASEYAAEVSTAIYKLYGADAYVKYHNGIFATGEDEGSLKNA TVDNVAKQAGADMTKVNKAIQDDKIADHLKDMLKMGFGQLGIQGTPFLVIAPAKNATVAN TTIIGGYTTADGIQAAINKAKSTATTTSTSNNGQTDTKQAQNDIATVTAEAQATSGSTEQ LAQPR >UNIPROT|Q5NEC5|Q5NEC5_FRATT Intracellular growth locus, subunit C. MIMSEMITRQQVTSGETIHVRTDPTACIGSHPNCRLFIDSLTIAGEKLDKNIVAIDGGED VTKADSATAAASVIRLSITPGSINPTISITLGVLIKSNVRTKIEEKVSSILQASATDMKI KLGNSNKKQEYKTDEAWGIMIDLSNLELYPISAKAFSISIEPTELMGVSKDGMRYHIISI DGLTTSQGSLPVCCAASTDKGVAKIGYIAAA >UNIPROT|Q5NEB3|Q5NEB3_FRATT Multidrug resistance protein MFLMWKYSPLKTILILGPMVFAFALAMDVYMPVLPDMREALHTTQQMVQVTLSLFLVVTG VGQLFLGPLSDQLGRFRVILLSAVLFVIGSVLCALSSNIEFLIASRVVQGLGCCGLSVCA FAIIRDAFSGKTSSMIYSFINAIISVSPIIGPLIGVQLAIHFHWQSAFVFLTGLAVVAFL IVVIFVKESLPVERRKKMSWNVFARYLYVAKSLQFWAFSLAAVSGMASFFILFSMTPYII NYLGYPISEIYVVFGSAGLAFLIGSLFAGVIVNALGVYKTALLGVACVFAAGILSLSIYE IWGLSLWGFFAPCFLATFGCALTVGTGASGSMEPFYEIAGVAAALFGTMEFAISGIIGSI AMLFPATSSLPIAITMIIMSILCFVLLFLIKGKTKH >P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG KEFTPPVQAAYQKVVAGVANALAHKYH >UNIPROT|P02768|ALBU_HUMAN Serum albumin precursor. MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGEENFKALVLIAFAQYLQQCPF EDHVKLVNEVTEFAKTCVADESAENCDKSLHTLFGDKLCTVATLRETYGEMADCCAKQEP ERNECFLQHKDDNPNLPRLVRPEVDVMCTAFHDNEETFLKKYLYEIARRHPYFYAPELLF FAKRYKAAFTECCQAADKAACLLPKLDELRDEGKASSAKQRLKCASLQKFGERAFKAWAV ARLSQRFPKAEFAEVSKLVTDLTKVHTECCHGDLLECADDRADLAKYICENQDSISSKLK ECCEKPLLEKSHCIAEVENDEMPADLPSLAADFVESKDVCKNYAEAKDVFLGMFLYEYAR RHPDYSVVLLLRLAKTYETTLEKCCAAADPHECYAKVFDEFKPLVEEPQNLIKQNCELFE QLGEYKFQNALLVRYTKKVPQVSTPTLVEVSRNLGKVGSKCCKHPEAKRMPCAEDYLSVV LNQLCVLHEKTPVSDRVTKCCTESLVNRRPCFSALEVDETYVPKEFNAETFTFHADICTL SEKERQIKKQTALVELVKHKPKATKEQLKAVMDDFAAFVEKCCKADDKETCFAEEGKKLV AASQAALGL