Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105 Naam:
Studentnummer:
NB: er zijn extra vellen achteraan bijgevoegd die je kunt gebruiken om antwoorden verder uit te werken, mocht je over een pagina heen gaan. Vermeld duidelijk welke vraag je beantwoordt op de extra vellen. Het tentamen bestaat uit 20 meerkeuzevragen (deel A) en 4 open vragen (deel B) A. Meerkeuzevragen: 1. Heuristische methoden voor homology searching zoals FASTA en BLAST hebben een snelle stap om sequenties in een database te filteren, waarna dan d.m.v. een langzamere (maar preciezere) stap de sequentieparen (query sequentie-database sequentie) aligned worden. Het gevaar dat samenhangt met de snelle stap in deze methoden is het optreden van: a. True positives b. False positives c. True negatives d. False negatives 2. De waargenomen tijden waarop tijdens protein folding een α-helix en een β-hairpin worden gevormd hebben de volgende verhouding en bijhorende verklaring: a. De β-hairpin vouwt sneller omdat de eiwit-hoofdketen maar eenmaal een bocht moet maken. b. De β-hairpin vouwt sneller omdat er geen waterstofbruggen tussen de β-strands gemaakt worden in een β-hairpin. c. De α-helix vouwt sneller omdat de waterstofbruggen in een α-helix lokaal gevormd worden, en er geen waterstofbruggen met andere structuren gevormd hoeven te worden. d. Er is geen verschil aan te geven tussen de vouwingssnelheid van beide structuren omdat het aantal waterstofbruggen identiek is. 3.
Een twee-domein eiwit waartussen drie linkers worden waargenomen bestaat uit a. twee discontinue domeinen b. drie β-hairpins c. twee β-barrels d. een continu en een discontinu domein
4. Onderstaande fragmenten duiden twee stukjes duplex DNA sequentie aan in de meest voorkomende 3-dimensionale vorm (B-DNA) waaraan een transcriptie factor kan binden. Wanneer een transcriptiefactor lokaal (TF) bindt aan DNA segment A en een andere TF aan DNA segment B zoals aangegeven in de onderstaande figuur (d.w.z. de TFs binden aan de dikgedrukte lijnen in segment A en B), en de twee bindingsplaatsen in segment B liggen aan dezelfde kant van de driedimensionale structuur van het DNA, dan is de meest waarschijnlijke manier van binden aan het DNA: B
A
1
a. De TF voor A bindt in de major groove en de TF voor segment B bindt in de minor groove. b. De TF voor A bindt in de minor groove en de TF voor segment B bindt in de major groove. c. De TFs voor de segmenten A en B binden beide in de major groove. d. De TFs voor de segmenten A en B binden beide in de minor groove. 5. Om de stabiliteit van internal nodes in een phylogenetische boom te testen wordt bootstrapping uitgevoerd. Dit wordt vaak gedaan door 100 alternatieve multiple alignements te genereren door random trekkingen met terugleggen over de oorspronkelijke alignment kolommen te doen. Wanneer alle interne nodes laag scoren, bijv. met waarden <50%, dan betekent dit dat a. de alignment kolommen een verschillend conserveringspatroon laten zien. b. alle alignment kolommen een zelfde conserveringspatroon laten zien. c. de alignment kolommen totaal geconserveerd zijn. d. de alignment kolommen veel gaps bevatten. 6. De onderstaande tabel (slide van het college) toont het conserveringspatroon over een multiple DNA alignment van vier gistsoorten. Op drie plaatsen zijn de waarden in de tabel weggelaten. Wanneer de ontbrekende drie waarden (x, y, z) worden ingevuld, zijn die als volgt: a. x = 15%, y = 13%, z = 10.5% b. x = 60%, y = 13%, z = 10.5% c. x = 60%, y = 0.13%, z = 0.0019% d. x = 15%, y = 13%, z = 0.0019% identity
gap
frame shift
Coding sequences
x
1.3%
0.14%
Intergenic sequences
30%
y
z
ratio
2x
10x
75x
+stop codons
7. Phylogenetic shadowing is een techniek om a. een schaduw van de DNA sequentie op de RNA sequentie te werpen b. m.b.v. een genoom-alignment van verwante soorten uit te vinden welke stukken van het DNA geconserveerd zijn, waarbij de schaduwen die opgebouwd worden de DNA posities aangeven die tussen de soorten éen of meerdere veranderingen hebben ondergaan. c. m.b.v. een genoom-alignment van verwante soorten uit te vinden welke stukken van het DNA geconserveerd zijn, waarbij de schaduwen die opgebouwd worden de DNA posities aangeven die geconserveerd zijn. d. zonder een genoom-alignment te maken van verwante soorten uit te kunnen vinden welke stukken van het DNA volledig geconserveerd zijn, waarbij de schaduwen die opgebouwd worden de DNA posities aangeven die tussen de soorten éen of meerdere veranderingen hebben ondergaan.
2
8. Het grootste probleem dat optreedt bij het sequencen van genoom-sequenties m.b.v. de shotgun methode is: a. het voorkomen van repeats in DNA sequenties b. het voorkomen van single nucleotide polymorphisms (SNPs) in DNA sequenties c. het feit dat de shotgun methode een bottom-up benadering is d. het in random stukken opdelen van de DNA sequenties.
9. Genome sequencing: gaps tussen contigs kunnen worden veroorzaakt door: a. alternative splicing b. sequencing errors c. Stukken van het genoom, zoals vaak in de regio van het centromeer op het chromosoom, die niet gesequenced kunnen worden. d. Het willekeurig verkrijgen van DNA fragmenten door toepassen van de shotgun methode. (NB: meerdere antwoorden kunnen goed zijn) 10. Single nucleotide polymorphisms (SNPs) in DNA sequenties komen in de mens ongeveer met de volgende frequentie voor: a. 1 op de 15 nucleotiden b. 1 op de 150 nucleotiden c. 1 op de 1500 nucleotiden d. 1 op de 15000 nucleotiden 11. Het verschil tussen de moleculaire dynamica techniek en de Monte Carlo techniek is: a. het feit dat moleculaire dynamica de dynamiek van eiwitten simuleert en Monte Carlo de dynamiek van DNA moleculen. b. dat m.b.v. moleculaire dynamica de moleculaire bewegingen door de tijd gesimuleerd worden en met de Monte Carlo methode niet. c. dat m.b.v. moleculaire dynamica energieën worden uitgerekend en met de Monte Carlo methode niet. d. het feit dat moleculaire dynamica een veel snellere techniek is dan Monte Carlo. 12. Met gene fusion wordt bedoeld dat a. twee DNA strengen hybridiseren tot een DNA dubbelstreng. b. twee genen die oorspronkelijk uit elkaar liggen op een genoom, door een translocatie of duplicatie naast elkaar komen te liggen in een enkel open reading frame (ORF). c. twee genen die oorspronkelijk op twee verschillende genomen liggen, door een translocatie of duplicatie naast elkaar komen te liggen in een enkel open reading frame (ORF). d. het oligomeriseren van twee eiwitten waarvoor de twee gefuseerde genen coderen. 13. De rood-groen ratio bij microarray experimenten wordt vastgesteld met de formule Log2(Red intensity/Green intensity). Om de intensiteiten van rood en groen vast te stellen: a. wordt gebruik gemaakt van de voorgrond-intensiteit van rood en van de achtergrond-intensiteit van groen. b. wordt gebruik gemaakt van de achtergrond-intensiteit van rood en van de voorgrond-intensiteit van groen. c. Wordt voor zowel rood als groen het verschil tussen de voorgrond- en de achtergrond-intensiteit berekend. d. Worden voor zowel rood als groen de voorgrond- en de achtergrond-intensiteit opgeteld. 3
14. Het belangrijkste verschil tussen een C-DNA microarray experiment en Serial Analysis of Gene Expression (SAGE) is a. dat bij SAGE met een enkele kleur gewerkt wordt en bij microarrays met twee kleuren. b. dat microarray experimenten veel duurder zijn dan SAGE. c. dat bij microarrays altijd twee samples nodig zijn (bijv. een gezonde en een zieke cel) en bij SAGE meer dan twee. d. Dat m.b.v. SAGE absolute hoeveelheden transcripten gemeten worden en met microarrays altijd relatieve hoeveelheden. 15. De similariteitsmaat die gebruikt wordt om paarsgewijs de gen-expressieprofielen (zoals in de onderstaande figuur) met elkaar te vergelijken is: a. cityblock distance, omdat daarmee de absolute verschillen tussen corresponderende punten van de profielen in de score betrokken worden. b. het verschil tussen de gemiddelde waarden van de profielen, omdat hierdoor het verloop van de profielen uitgemiddeld wordt. c. Pearson’s correlatie, omdat daarmee de absolute verschillen tussen de gen expressie patronen er niet toe doen en alleen het relatieve verloop van de expressiepatronen belangrijk is. d. de gemiddelde som van de punten op iedere curve, omdat hierdoor de totale amplitude van twee expressiepatronen uitgerekend wordt.
16. Een geobserveerde trend in cellen m.b.t. gen expressie is dat a. genen die het meest tot expressie komen (100-1000 mRNA kopieën per cel) de belangrijkste functies vervullen. b. genen die het minst tot expressie komen (gemiddeld 1 of minder mRNA kopieën per cel) de belangrijkste functies vervullen. c. er geen verband is tussen het belang van de functie van een gen en de hoogte van de expressie. d. de belangrijkste genen meestal een middenpositie innemen wat betreft de hoogte van de expressie.
4
17. De CATH, SCOP en 3Dee databases bevatten de volgende data: a. gegroepeerde tertiaire structuren van eiwitten b. gegroepeerde tertiaire structuren van DNA c. gegroepeerde primaire structuren van eiwitten d. gegroepeerde primaire structuren van DNA 18. Een voorbeeld van een reguliere expressie is [AS]-D-[IVL]-G-x4-{PG}-C-[DE]-R-[FY]2, met x4 = 4 aminozuren van ieder type, {PG} = not (P or G), en [IVL] = I of V of L. Een onderzoeker wil een regulaire expressie opschrijven waarbij (i) een Valine (V) gevolgd wordt door 5 aminozuren van onbepaald type en dan een Cysteine (C), of (ii) waarbij een Leucine (L) gevolgd wordt door 5 onbepaalde aminozuren en dan een Isoleucine (I). De regulaire expressie zal dan zijn: a. [VL]-x5-[CI] b. [V]-x5-[C]-[L]-x5-[I] c. [CI]-x5-[VL] d. een enkele reguliere expressie is niet mogelijk want deze informatie kan niet vastgelegd worden in een enkele reguliere expressie. 19. Wanneer we met een gegeven query sequentie twee maal het programa PSI-Blast gebruiken, éen keer met e-value = 0.01 en een keer met e-value = 2, dan verwachten we a. de meeste true positives (FP) met e-value = 0.01, b. de meeste false negatives (FN) met e-value = 0.01 c. de meeste true negatives (TN) met e-value = 2 d. de meeste false positives met e-value = 0.01 20. Het verschil tussen het standaard programma BLAST en PSI-BLAST is: a. PSI-BLAST is sneller dan BLAST. b. PSI-BLAST zoekt met eiwitsequenties en BLAST niet. c. PSI-BLAST is een iteratieve methode en BLAST niet. d. BLAST gebruikt een position-specific scoring matrix (PSSM) en PSI-BLAST niet.
5
B. Open vragen: B.1. Een veel gebruikte operationele definitie voor het vinden van orthologe genen is bidirectional best hit. Dit wordt meestal uitgevoerd met het programma BLAST. Vraag: Leg uit hoe dit werkt, hoe BLAST wordt gebruikt, en waarom op deze manier goed naar orthologe genen gezocht kan worden.
B.2. Hoe zou je de operationele definitie van bi-directional best hit en het programma BLAST kunnen gebruiken om naar paraloge genen te zoeken? Hiervoor moet de definitie iets gewijzigd worden. Hoe?
6
B.3. Leg uit hoe de methode van phylogenetic profiling werkt aan de hand van de onderstaande tabel. Herinner je dat deze methode is ontwikkeld om functionele relaties tussen genen te vinden.
7
B.4. Leg uit hoe de Rosetta stone methode werkt voor het vinden van functionele verwantschappen.
8
Extra vel 1
9
Extra vel 2
10