Probabilistische modellen in de bio-informatica Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002
Overzicht
n
Wat is bio-informatica? Waarom bio-informatica? Planning van de cursus
n
Elementen van de moleculaire biologie
n n
Practische regelingen
Uurrooster n
Les n n n
n n
Week 39-40 Donderdag 8:25-10:25 Lokaal 00.57
Geen les op 4 october en op 1 november Oefenzittingen n n n n n
Vr Di Di Vr Ma
23 27 04 14 17
nov nov dec dec dec
2001 2001 2001 2001 2001
14.00 10.30 10.30 14.00 10.30
91.33 91.33 91.33 91.33 91.33
Kernreferenties n
Hoofdreferentie: R. Durbin, A. Krogh, S. Eddy, G. Mitchinson, Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Oxford University Press, 199x.
n
B. Alberts, D. Bray, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter, Essential Cell Biology: An Introduction to the Molecular Biology of the Cell, Garland Publishing, 1998 (+ Interactive CD). P. Baldi, S. Brunak, Bioinformatics: The Machine Learning Approach, MIT Press, 2001. A. Baxevanis, B. Ouellette, Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Wiley-Interscience, 2001.
n
n
n
Twee kopieën zullen beschikbaar zijn in de bibliotheek TELE
Cursusoverzicht n
Inleiding tot de moleculaire biologie
n
Aligneren van biologische sequenties n n
n
Motieven vinden in sequenties I n n n
n
Globale aligneringsmethoden Locale aligneringsmethoden
Meerdere aligneringen Consensussequentie Positie-gewichtmatrices
Motieven vinden in sequenties II n n
Verborgen Markovketens Leeralgoritmes
Cursusoverzicht n
Genvoorspelling n n
n
Analyse van genuitdrukking n n
n
Prokaryoten Eukaryoten
Microroostertechnologieen Clusteranalyse
Ontdekking van regulatiemotieven n n n
Frequentiemethoden Expectation-Maximization Gibbs sampling
Overzicht van de oefenzittingen n
Oefenzitting 1 n
n
Oefenzitting 2 n
n
Genvoorspelling
Oefenzitting 4 n
n
Ontwikkeling van een verborgen Markovketen
Oefenzitting 3 n
n
Web resources, BLAST, CLUSTALW
Microroosteranalyse
Oefenzitting 5 n
Ontdekking van motieven
Bio-informatica
Wat is bio-informatica? n
Computers in de biologie en de geneeskunde n n n n
Medische informatica Computationele biologie Chemo-informatica Bio-informatica
Wat is bio-informatica?
Oefenzittingen
Databanken Gedistribueerde software Supercomputing
DNA RNA Proteïnen
Moleculaire Biologie
Information Technologie
Algoritmiek
Lessen
Wiskunde Statistiek Patroonherkenning A.I.
Waarom bio-informatica? n
Human Genome Project n n n
n
Menselijk genoom: 3 miljard basenparen Celera: ‘shotgun’ – grootste burgerlijke computercluster Post-genomica
Pharma & biotech n n
Genomica levert massale hoeveelheden data Pharma: n n n
n
Kostprijs per drug: ~ $500.000.000 Return per drug daalt Pijplijn moet gestroomlijnd worden
Biotech: onderzoekspijplijn voor n n n
Transgenische gewassen (Gentse specialiteit) ‘Nutraceuticals’ (e.g., Procter & Gamble, kanker-beschermende broccoli) Productie van medicamenten en moleculen met hoge toegevoegde waarde (e.g., Pharming)
Pharma/biotech in Belgïe n
Janssen Pharmaceutica
n
GlaxoSmithKline
n
Aventis Crop Science
n
Tibotec-Virco
n
DevGen
n
CropDesign
Bio-informatica op ESAT n
Onderzoeksteam van 12 mensen n
n
n
Elekt. ir., CW, statistiek, physica, wiskunde Bioingenieurs, arts
Microroostergegevensanalyse
Moleculaire machines n
“DNA replication fork”
n
“mRNA translation”
n
“Safecrackers” n
Uit “Essential Cell Biology – Interactive CD”, Alberts et al., Garland Publishing, 1999
Complexiteit in de moleculaire biologie n
Kyoto Encyclopedia of Genomes and Genes
n
Evolutie van Genbank en Swissprot
n
Publieke databanken van genomische informatie
n
MEDLINE query (cancer, tp53)
Moleculaire paden n
Kyoto Encyclopedia of Genomes and Genes - Biosynthesepad
Evolutie van sequentiedatabanken n n
Genbank SWISSProt
Publieke databanken van genomische informatie
MEDLINE
Elementen van de moleculaire biologie
Illustraties uit Molecular Biology of the Cell en Essential Cell Biology + interactive CD
Tree of Life n n
Eukaryoten / prokaryoten (bacteriën + archaeabacteriën) Phylogenie
Modelorganismen E. coli (3 µm) Arabidopsis thaliana (20 cm)
Gist (10 µm) (Saccharomyces Cerevisae)
Caenorrabdhitis elegans (1mm)
Muis (Mus musculus)
Fruitvlieg (Drosophila melanogaster)
Mens (Homo sapiens)
De cel n
n
Bacteriën/prokaryoten hebben geen celkern om hun genoom te beschermen Eukaryoten hebben een celkern
DNA makes RNA makes proteins n
Centraal dogma
n
Verschillende mechanisme voor prokaryoten en eukaryoten
DNA n
DNA helix (6.1)
n
Complementaire strengen (A-T, G-C)
n
Draait ‘clockwise’, 10 nucleotiden per omwenteling
Chemische structuur van het DNA n
Deoxyribonucleïnezuur n n n n
n
Structuur n n n
n
n
Adenine Thymine Cytosine Guanine Suiker (ribose) Phosphaatgroep Ringverbinding
Basecomplementariteit via waterstofverbinding Orientatie: van 5’ naar 3’
RNA n
Adenine – Uracil (vs. Thymine), Guanine – Cytosine
n
Enkelvoudige streng (A-U paar zwakker dan A-T) Waarschijnlijk voorouder van DNA Dient vooral als informatiedrager van DNA naar proteïne
n n
Functioneel RNA n n n
RNA heeft ook belangrijke en complexe functionele rollen Functionele RNAs hebben een complexe structuur RNA ribosomal subunit 30S
Proteïnen n
Grote polymeren van 20 aminozuren F
S
Y
C W
L
H P
R
Q I
T
K
M V
N
A
D E
S R G
Tridimensionale structuur van proteïnen n
Basis tridimensionale structuren n n n
n
Voorbeelden van proteïnen n n n
n
Alpha helix (ECBI 5.2) Beta sheet (ECBI 5.3) Loop
Antilichaam (ECBI 5.4) Neuramidase (ECBI 5.5) Elongation factor EF-Tu (ECBI 5.6)
Computationele biologie
Proteïnerollen n
Proteïne hebben veel functies in cellen n n n n n n n n
n
Katalyse (enzymen) Bouwstructuur Vervoer Motor Moleculaire opslag Signalisatie Receptoren Regulatie
Voorspelling van proteïnefamilies
Kleine moleculen n
Allerhande kleine organische moleculen zijn nodig voor de cel en zijn betrokken bij het metabolisme
n
Enzymen zijn proteïne die de chemische transformatie van deze moleculen catalyseren.
n
Glucose (ECBI 2.1) Adenosine triphospaat (ECBI 2.3)
n
Energieproductie
Glycolyse
Metabolisme
Databanken van moleculaire paden
DNA makes RNA makes proteins n
Genen dragen de informatie voor de productie van proteïnen n n
n
Transcriptie (van DNA naar mRNA) door RNA polymerase Translatie (van mRNA naar proteïne) door ribosomen
Genvoorspelling
Aminozuren en de genetische code n
64 codons
n
Start & Stop codon
n
6 reading frames
Operons in prokaryoten n
Prokaryoten hebben operons waar meerdere genen tegelijk worden getranscribeerd.
RNA splitsing in eukaryoten n
n
In eukaryoten wordt het gen getranscribeerd naar pre-mRNA, na welke intronen verwijderd worden langs de splice sites om een boodschapper mRNA van exonen te vormen De mRNA wordt getranslateerd van de START codon tot de STOP codon (de 5’ en 3’ UnTranslated Regions worden niet getranslateerd)
Alternatieve splitsing n
Alternatieve splitsing genereert meerdere proteïnenvarianten uit één gen
Voorbeeld van alternatieve splicing
Controle van regulatie n
Om transcriptie te kunnen beginnen moet een uitgebreide complex van proteïnen aanwezig zijn
n
De controle van regulatie gebeurdt via de promotor n n
n
Bindingplaats Bindingproteïne / transcriptie factor
Promotorvoorspelling en motif finding
Promotor-architectuur n
n
Kernpromotor: TATA box – TATA binding protein, RNA polymerase II, … Distale promoter: enhancers, repressoren
Enhancers en repressoren n n n n
Homeodomain (8.1) Zinc finger motif (8.2) Leucine zipper motif (8.3) TATA-binding protein (8.4)
Combinatoriale controle n n
Complexe integratie van signalen bepaalt de genactiviteit Microroostergegevensanalyse van coexpressie-experimenten