Bioinformatika a funkční studie

Bioinformatika a funkční studie

Bioinformatika

Vztah informace a funkce Sekvenování

Databáze

DNA Proteinů Primární Sekundární

Integrované internetové zdroje informací Vyhledávání sekvenční podobnosti, porovnávání sekvencí Predikce struktury a funkce

Bioinformatika je aplikace počítačové technologie na zpracování a analýzu biologických dat. Počítače slouží pro hromadění, ukládání, analýzu a propojení biologických dat.

Bioinformatika je mezioborové vědecké odvětví, které stojí na pomezí biologie a počítačové vědy. Konečným cílem bioinformatiky je odhalení bohatství biologické informace ukryté v množství dat a ozřejmit tak základní biologické chování organismů. Tyto nové poznatky mohou mít velký vliv na široké spektrum oblastí od medicíny, zemědělství, životního prostředí, biotechnologie až po energetiku.

DNA

RNA Protein

5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3‘ | | | | | | | | | | | | | | | 3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5' 5' C-G-A-U-U-G-C-A-A-C-G-A-U-G-C 3‘ R

W

Q

R

C

Arg

Trp

Gln

Arg Cys

Třípísmenné a jednopísmenné zkratky aminokyselin Aminokyselina

Xxx

X

Aminokyselina

Xxx

X

Alanine

Ala

A

Lysine

Lys

K

Arginine

Arg

R

Methionine

Met

M

Asparagine

Asn

N

Phenylalanine

Phe

F

Kyselina asparagová

Asp

D

Proline

Pro

P

Cysteine

Cys

C

Serine

Ser

S

Glutamine

Gln

Q

Threonine

Thr

T

Kyselina glutamová

Glu

E

Tryptophan

Trp

W

Glycine

Gly

G

Tyrosine

Tyr

Y

Histidine

His

H

Valine

Val

V

I

Asparagine nebo kyselina asparagová

Asx

B

L

Glutamine nebo kyselina glutamová

Glx

Z

Isoleucine Leucine

Ile Leu

Hemoglobin HBB, human hemoglobin Beta řetězec DNA sekvence - 444 bp

atggtgcatctgactcctgaggagaagtctgccgttactgccctgtggggcaaggtgaac gtggatgaagttggtggtgaggccctgggcaggctgctggtggtctacccttggacccag Proteinová sekvence - 147 aa aggttctttgagtcctttggggatctgtccactcctgatgctgttatgggcaaccctaag gtgaaggctcatggcaagaaagtgctcggtgcctttagtgatggcctggctcacctggac MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGD aacctcaagggcacctttgccacactgagtgagctgcactgtgacaagctgcacgtggat LSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL cctgagaacttcaggctcctgggcaacgtgctggtctgtgtgctggcccatcactttggc HVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHK aaagaattcaccccaccagtgcaggctgcctatcagaaagtggtggctggtgtggctaat YH gccctggcccacaagtatcactaa

•DNA sekvence určuje proteinovou sekvenci •proteinová sekvence určuje proteinovou strukturu •struktura proteinu určuje funkci

DNA

DNA sekvenace

1972 DNA klonování 1975 DNA sekvenace 80-tá 90-tá léta – sekvenační revoluce

Manuálně – Sanger Automaticky J. Craig Venter

Celera Genomics

Současný stav sekvenačních projektů 6.3.2007 http://www.ncbi.nlm.nih.gov/genomes/leuks.cgi

Eukaryotické projekty-343 kompletní – 26 ve stavu anotace – 127 nedokončené - 190

Mikrobiální projekty-1156 kompletní – 468 –

432 Bakterie 36 Archea

ve stavu anotace – 304 nedokončené- 384

Viry 1774

Projekt Lidský genom (The Human Genome Project)

Zahájen v polovině 80-tých let 20. století Odhad: 100,000 genů, dokončeno v roce 2005 Automatické sekvenování a zdokonalení výpočetní techniky

Shotgun methody

První verze publikována v roce 2000 společně

International Consortium Human Genome Project (veřejně financovaná společnost)

Celera Genomics (soukromá společnost)

Referenční sekvence lidské DNA dokončena v dubnu 2003

Projekt Lidský genom (The Human Genome Project)

20 -25 tis genů

Alternativní sestřih – 1,000,000 proteinů

Stovky genů jsou výsledkem horizontálního přenosu z bakterií (v linii obratlovců) Desítky genů jsou odvozeny od transpozibilních elementů Rychlost mutací u můžu je asi 2x větší než u žen >1,400,000 jednoduchých nukleotidových polymorfismů (SNPs)

•The human genome is composed of more than 3 billion nucleotide bases. •The total number of human genes is estimated to be between 30,000 - 40,000. •Worms have 19,098 genes, fruit flies have 13,602 and yeast has 6,034. •Almost all nucleotide bases (99.9%) are exactly the same in all people. •Less than 2% of the genome codes for proteins. •The vast majority of the DNA in the genome (>97%) has no known function. •The functions remain unknown for over 50% of discovered genes. •Chromosome 1 has the most genes (2,968) and chromosome Y has the least (231). •Humans have about 3 times as many proteins as flies and worms. This is because different proteins can be produced by the same gene using the processes of mRNA splicing and protein post-translational modifications. •Our DNA is 98% identical to chimpanzees. The average amount of genetic difference between any 2 chimpanzees is 4 or 5 times more than the average difference between any 2 humans. •There are 100 trillion cells in your body. •If unwound and tied together, the strands of DNA in one cell would stretch 6 feet. •If all the DNA in your body was tied together, it would stretch to the sun and back over 600 times. •12,000 letters of DNA are decoded by human genome project computers every second. •The entire human genome requires more than 3 gigabytes of computer storage space. •If a person recited the genome at a rate of one nucleotide per second, 24 hours a day, it would take them a full century to complete. •To sequence the human genome, researchers collected a large number of blood samples from females and sperm from males. A few of these samples were then chosen at random for sequencing. The identities of the sample sources have never been disclosed, either to the donors or to the scientists.

proteiny

Proteinové sekvenování

Edmanovo odbourávání - N-terminální sekvenace 1955 Ryle et al. - insulin 1960 Hirs et al. – ribonuclease 1980s automatické sekvenátory Hmotnostní spektrometrie

Hemoglobin, lidský, beta řetězec

DNA databáze

GenBank (NCBI)

EMBL (EBI)

67,218,344 sequence entries, 71,292,211,453 bases, February 15 2007

83,666,567 sequence entries, 150,163,403,742 bases, 30-NOV2006. 69 GB compressed (376 GB uncompressed)

DDBJ (DNA DataBase of Japan)

64,267,978 entries, 68,259,314,742 bases Dec. 2006

Hemoglobin, lidský, beta řetězec EMBL databázový záznam

Primární proteinové databáze

Primary databases

UniProt (PIR-PSD, SwissProt, TrEMBL)

UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases 309,349 entries (March 2007)

UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 3,874,166 entries (March 2007)

NCBInr; compiled from a variety of sources, including SwissProt, PIR,

PRF, PDB, and translations from annotated coding regions in GenBank and RefSeq 4,396,331 entries (January 2007) - 4GB

Hemoglobin, lidský, beta řetězec Uniprot databázový záznam

FASTA formát – jednoduchý formát zápisu sekvence

>P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLS TPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVD PENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

Sekundární databáze Obsahují výsledky analýzy dat z primárních databází Sestaveny pomocí mnohočetného porovnávání (multiple alignment) homologních sekvencí pro zachycení konzervovaných oblastí – zařazení do rodin

Sekundární databáze

Sekundární databáze Sekundární databáze

Zdroj dat

Princip řazení

PROSITE

UNIPROT

Regulární výrazy (patterns)

PRINTS

OWL

motivy (fingerprints)

Pfam

UNIPROT

Skryté Markovovy Modely (HMMs)

BLOCKS

PROSITE/PRINTS motivy (blocks)

INTERPRO

Integrovaný zdroj dokumentace o proteinových rodinách, doménách a funkčních místech

Metody rozeznávající sekvenční signatury mají různé optimum použití díky rozdílným principům a vlastnostem algoritmů. Pro nejlepší výsledek je proto ideální kombinace všech metod.

InterPro databáze zahrnuje: PROSITE, PRINTS, Pfam, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D a PANTHER

InterPro

Hemoglobin, lidský, beta řetězec Interpro databázový záznam

Strukturní databáze

PDB - repository for the processing and distribution of 3-D biological macromolecular structure data 42082 structures (6.3.2007)

přírůstek 3-D struktur v databázi

ročně celkem

•Krystalografická analýza – 80% •Nukleární magnetická rezonance – 18% •Modelování – 2%

nepoměr sekvence/struktura Počet záznamů v db

Růst sekvenčních dat

Růst jedinečných struktur

čas

Hemoglobin, lidský, beta řetězec Struktura uložena v PDB

Hemoglobin - struktura funkčního proteinu

Hemoglobin beta řetězec

Heterotetramer – 2x alfa, 2x beta

Systémy pro získání informací (Information retrieval systems) ENTREZ (NCBI) DBGET (Genomnet) SRS (EBI)

ENTREZ

http://www.ncbi.nlm.nih.gov/Entrez/

SRS3D

SRS záznam

Vyhledávání a srovnávání (searching & alignment) >P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDL STPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLH VDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

Hledání homologních proteinů pomocí sekvenční podobnosti

Homologie vs. podobnost

Sekvence jsou HOMOLOGNÍ, jestliže jsou odvozeny ze stejné původní sekvence ( vs.

analogní – proteiny s podobnými vlastnostmi, ale jiného původu, např. β-barrelové struktury, které mohou být dílem konvergence)

Ortholog – proteiny, které plní stejnou funkci v jiných organismech Paralog – proteiny, které plní různou funkci v jednom organismu Homologie je absolutní výraz, ne míra podobnosti

Platí: 2 proteiny jsou homologní Neplatí: proteiny jsou homologní z 50% !!!

Hledání sekvenční podobnosti srovnání DNA Seq1:ATTCGACTCCA Seq2:ATTCGG-TCCA Protein Seq1: KLIKATY Seq2: KLID-TY Párové srovnávací algoritmy - pracují se dvěma sekvencemi a hledají nejlepší přeložení Lokální srovnávání - Smith-Waterman (1981) (http://pir.georgetown.edu/pirwww/search/pairwise.html ) Globální srovnávání– Needleman-Wunsch (1970)

Databázové vyhledávání

BLAST FASTA

heuristické

Rychlejší než párové srovnávací algoritmy, ale méně přesné

algoritmy sloužící pro nalezení sekvenčních podobností zadané sekvence proti sekvencím v databázi Zaměřují se na vyhledávání krátkých identických úseků

HSPs (BLAST)

K-tuples (FASTA)

Gapped BLAST – zavedení mezer, které lépe odrážejí biologické procesy http://www.ncbi.nlm.nih.gov/BLAST/

Hemoglobin, lidský, beta řetězec Výsledek algoritmu BLAST

Statistické skórovací hodnoty

Z-score – míra, jak nepravděpodobná je nalezená

P-value – pravděpodobnost, že pozorovaná shoda je

E-value – počet podobných záznamů se stejnými

shoda; čím větší číslo, tím větší pravděpodobnost, že srovnání není dílem náhody

dílem náhody

hodnotami skóre jako pozorovaný záznam, které mohou vzniknout v dané databázi náhodně (E=P*N ; N – velikost databáze)

E< 0.02 – sekvence jsou pravděpodobně homologní 0.02 < E< 1 – homologie není vyloučena E > 1 – shoda je výsledkem náhody

Nepsaná pravidla

> 45% sekvenční identity – proteiny budou mít podobnou strukturu > 25% sekv. id. – pravděpodobně budou mít shodný obecný způsob 3-D uspořádání 18-25% sekv. id. - twilight zone – homologie je pravděpodobná, ale může být nepravdivá Důležitá je textura srovnání rozptýlené vs. ledovce

Sperm whale myoglobin vs. lupin leghaemoglobin – 15% identita, podobná 3D – opravdu vzdáleně příbuzné

Mnohočetné sekvenční srovnávání

2D tabulka sekvence v řádcích srovnaná podle podobnosti (sloupce) sekvence konsensu – shrnutí srovnání do jedné souhrnné sekvence ClustalW

http://www.ebi.ac.uk/clustalw/index.html

Funkční charakteristika

Základní vlastnosti proteinu

pI MW Hydrofobicita

Specifické sekvenční prvky – predikce

Lokalizace Funkce modifikace

Expasy - Proteomický server

http://www.expasy.ch/

pI/MW,

http://www.expasy.ch/tools/protparam.html http://www.expasy.ch/tools/pi_tool.html

Sekundární, terciární strukturní znaky

Predikční programy

TMHMM – predikce transmembránových domén Signal P – predikce signálního peptidu Lipo P – predikce lipoproteinů Secretome P – predikce secernovaných proteinů

Psort B – lokalizace a vlastnosti proteinů Gbakterií

http://www.cbs.dtu.dk/services/

http://www.psort.org/psortb/

Posttranslační modifikace proteinů

Fosforylace glykosylace

Základní adresy

http://www.ebi.ac.uk/ - European Bioinformatic Institute (UK)

http://www.ebi.ac.uk/2can/home.html základní kurz bioinformatiky

http://www.ncbi.nlm.nih.gov/ - National Center for Biotechnology Informatics (USA)

>UNIPROT|Q5NFW3|Q5NFW3_FRATT Conserved hypothetical lipoprotein. MTKKKLLKALAVAAIATSLVACSDSSSNDKTLTTAVSSGSSVATTTVAAPADNTNVTANA SYIIGYGMGSSIATDKNIKTFNLNNDKVMAGFEDAINAKKPAIPLEDIANNMNTLRDKMQ QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVVVYEFFDYQCMYCSKLAPEIEKIMKD NSDVQVVFAEFPIFGQKLPASEYAAEVSTAIYKLYGADAYVKYHNGIFATGEDEGSLKNA TVDNVAKQAGADMTKVNKAIQDDKIADHLKDMLKMGFGQLGIQGTPFLVIAPAKNATVAN TTIIGGYTTADGIQAAINKAKSTATTTSTSNNGQTDTKQAQNDIATVTAEAQATSGSTEQ LAQPR >UNIPROT|Q5NEC5|Q5NEC5_FRATT Intracellular growth locus, subunit C. MIMSEMITRQQVTSGETIHVRTDPTACIGSHPNCRLFIDSLTIAGEKLDKNIVAIDGGED VTKADSATAAASVIRLSITPGSINPTISITLGVLIKSNVRTKIEEKVSSILQASATDMKI KLGNSNKKQEYKTDEAWGIMIDLSNLELYPISAKAFSISIEPTELMGVSKDGMRYHIISI DGLTTSQGSLPVCCAASTDKGVAKIGYIAAA >UNIPROT|Q5NEB3|Q5NEB3_FRATT Multidrug resistance protein MFLMWKYSPLKTILILGPMVFAFALAMDVYMPVLPDMREALHTTQQMVQVTLSLFLVVTG VGQLFLGPLSDQLGRFRVILLSAVLFVIGSVLCALSSNIEFLIASRVVQGLGCCGLSVCA FAIIRDAFSGKTSSMIYSFINAIISVSPIIGPLIGVQLAIHFHWQSAFVFLTGLAVVAFL IVVIFVKESLPVERRKKMSWNVFARYLYVAKSLQFWAFSLAAVSGMASFFILFSMTPYII NYLGYPISEIYVVFGSAGLAFLIGSLFAGVIVNALGVYKTALLGVACVFAAGILSLSIYE IWGLSLWGFFAPCFLATFGCALTVGTGASGSMEPFYEIAGVAAALFGTMEFAISGIIGSI AMLFPATSSLPIAITMIIMSILCFVLLFLIKGKTKH >P68871|HBB_HUMAN Hemoglobin subunit beta - Homo sapiens MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG KEFTPPVQAAYQKVVAGVANALAHKYH >UNIPROT|P02768|ALBU_HUMAN Serum albumin precursor. MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGEENFKALVLIAFAQYLQQCPF EDHVKLVNEVTEFAKTCVADESAENCDKSLHTLFGDKLCTVATLRETYGEMADCCAKQEP ERNECFLQHKDDNPNLPRLVRPEVDVMCTAFHDNEETFLKKYLYEIARRHPYFYAPELLF FAKRYKAAFTECCQAADKAACLLPKLDELRDEGKASSAKQRLKCASLQKFGERAFKAWAV ARLSQRFPKAEFAEVSKLVTDLTKVHTECCHGDLLECADDRADLAKYICENQDSISSKLK ECCEKPLLEKSHCIAEVENDEMPADLPSLAADFVESKDVCKNYAEAKDVFLGMFLYEYAR RHPDYSVVLLLRLAKTYETTLEKCCAAADPHECYAKVFDEFKPLVEEPQNLIKQNCELFE QLGEYKFQNALLVRYTKKVPQVSTPTLVEVSRNLGKVGSKCCKHPEAKRMPCAEDYLSVV LNQLCVLHEKTPVSDRVTKCCTESLVNRRPCFSALEVDETYVPKEFNAETFTFHADICTL SEKERQIKKQTALVELVKHKPKATKEQLKAVMDDFAAFVEKCCKADDKETCFAEEGKKLV AASQAALGL

Bioinformatika a funkční studie

Recommend Documents