Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
Tentamen Bioinformatic Data Analysis (1/3 deel van de cursus Systems Biology) April 9th 2015, 17:00 - 20:00, Educatorium Gamma Cursuscode: B‐B1SYSB09
Enkele regels van orde (niet uitputtend): - De eerste 30 minuten mag u de zaal niet verlaten. - Laatkomers worden tot 30 minuten na aanvang toegelaten. - Alle elektronische apparatuur dient uitgeschakeld te zijn, vooral telefoons! - Tassen en jassen op de grond leggen. Tassen dienen gesloten te zijn. - Toiletbezoek dient gemeld te worden. Er zal een surveillant met u meelopen. - Steek uw hand op bij vragen, onduidelijkheden, extra papier, etc. Leg uw collegekaart en identiteitsbewijs (met een foto) op tafel. Schrijf uw naam en collegekaartnummer bovenaan elke pagina. Dit tentamen bestaat uit 6 vragen. Er staat bij elke vraag tussen haakjes vermeld hoeveel punten er behaald kunnen worden. Het maximum aantal punten is 10. Als u aan alle voorwaarden voor het bonuspunt heeft voldaan dan zal er 1.0 punt bij uw eindcijfer worden opgeteld, als dit eindcijfer vóór optellen hoger is dan een 4.0. Het maximale eindcijfer inclusief het bonuspunt is een 10. Beantwoord de tentamenvragen op dezelfde pagina als de vraag. Dit is nodig omdat verschillende mensen verschillende vragen nakijken! Gebruik bij gebrek aan ruimte de achterzijde en alleen in noodgevallen extra kladpapier, waarop uw naam en collegekaartnummer bovenaan vermeld zijn. Gebruik niet teveel woorden. (Gebruik maximaal 4 zinnen per antwoord tenzij anders is aangegeven. Less is more!) Antwoorden kunnen in het Engels of in het Nederlands gegeven worden, maar u dient consistent te zijn (dus alle antwoorden in het Engels, of alle antwoorden in het Nederlands). Schrijf uw antwoorden met potlood, blauwe pen, of zwarte pen. Schrijf in een leesbaar handschrift. Onleesbare antwoorden zullen fout worden gerekend en geen punten opleveren. Uitsluitend de volgende hulpmiddelen zijn toegestaan: - U mag gebruik maken van een eenvoudige rekenmachine. - U mag gebruik maken van een handgeschreven cheat sheet (A4 formaat). Kladpapier dient na afloop samen met het tentamen ingeleverd te worden. Veel succes!
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
1. In his Notebook B on the Transmutation of Species (1837‐1838), Charles Darwin wrote "I think", and then drew a diagram of an evolutionary tree (above). In het Notebook B on the Transmutation of Species (1837‐1838) schreef Charles Darwin "I think", en tekende hij een diagram van een evolutionare boom (zie boven). (Total max score: 1.3)
a. What is represented by the letters A, B, C, and D? Wat wordt er voorgesteld door de letters A, B, C, en D? (0.2) b. What is represented by the circled number ①? Wat wordt er voorgesteld door het omcirkelde cijfer ①? (0.1) c. Why would you not be able to obtain this tree by using the UPGMA algorithm? Waarom zou je deze boom niet kunnen verkrijgen met het UPGMA algoritme? (0.5) d. Observe the sub‐branch within the dashed red circle. In the figure above, label the root of this sub‐branch "R" and give arbitrary names to the leaves. Write this sub‐branch as a bracket‐notation. Bekijk de sub‐tak van de boom in de gestippelde rode cirkel. Geef in de figuur hierboven met een "R" aan waar de root van deze sub‐tak zit, en geef willekeurige namen aan de blaadjes. Schrijf deze sub‐tak als een haakjes‐notatie. (0.5)
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer: Many reads aligned Few reads aligned
2. The figure above is derived from metatranscriptomic sequencing of bacteria in a few different corals. De figuur hierboven is verkregen door middel van metatranscriptomic sequencing van de bacteria op enkele koralen. (Total max score: 1.8) a. What is metatranscriptomics? Wat is metatranscriptomics? (0.2) b. How many corals are included in the study above? Hoeveel koralen zijn er bestudeerd? (0.1) c. Explain how this figure was obtained. Leg uit hoe deze figuur is verkregen. (0.7) d. Use arrows in the figure above to indicate which three corals are colonized by the most similar bacterial communities. Gebruik pijlen in de figuur hierboven om aan te geven welke drie koralen de meest op elkaar lijkende bacteriële gemeenschappen bevatten. (0.4) e. Give a possible explanation why some bacteria may have similar abundance patterns across corals. Use a maximum of 4 sentences. Geef een mogelijke verklaring waarom bepaalde bacteriën vergelijkbare patronen van vóórkomen hebben over verschillende koralen. Gebruik max 4 zinnen. (0.4)
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
3. The BLOSUM62 matrix (left) and an alignment matrix (right) are given above. De BLOSUM62 matrix (links) en een alignment matrix (rechts) zijn hierboven gegeven. (Total max score: 1.8) a. What is the name of the algorithm used in the alignment matrix? Hoe heet het algoritme dat gebruikt is om de alignment matrix te maken? (0.2) b. What is the gap opening penalty? Wat is de gap openings penalty? (0.2) c. What is the gap extension penalty? Wat is de gap extensie penalty? (0.2) d. Was the BLOSUM62 matrix used for making the alignment matrix? Werd de BLOSUM62 matrix gebruikt om de alignment matrix te maken? (0.3) e. Give the optimal alignment(s). Geef de optimale alignment(s). (0.9)
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
4. Together, hemoglobins, myoglobins, and leghemoglobins form a large protein family. The relationships between the proteins are shown in the phylogenetic tree above. Hemoglobines, myoglobines, en leghemoglobines vormen samen een grote eiwitfamilie. De verwantschappen tussen de eiwitten staan hierboven aangegeven in een fylogenetische boom. (Total max score: 1.6)
a. In the figure above, indicate speciation nodes with circles and gene duplication nodes with squares. Geef in de figuur hierboven de speciatie nodes aan met cirkels, en de genduplicatie nodes met vierkantjes. (0.6) b. How many members of this protein family were present in the ancestor of all vertebrates? Hoeveel leden telde deze eiwitfamilie in de voorouder van alle vertebraten? (0.4) c. In the figure above, indicate where gene losses occurred with arrows. Assume that the indicated species are completely sequenced and all homologs are included in the tree. Give the most parsimonious solution. Geef in de figuur hierboven met pijlen aan waar genen verloren zijn gegaan. Neem aan dat de soorten in de boom compleet gesequencet zijn en dat alle homologen in de boom zijn opgenomen. Geef de meest parsimone oplossing. (0.6)
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
I (k ) log 2 (4)
Information content of position k in DNA sequences: Information content of position k in amino acid sequences:
p log
i i A,C ,G ,T
I (k ) log 2 (20)
2
( pi )
p log
i 1..20
i
2
( pi )
5. Answer the following questions based on the sequence logo above. Beantwoord de volgende vragen aan de hand van het sequentie logo hierboven. (Total max score: 1.3) a. Does the logo represent a DNA or an amino acid sequence profile? Stelt dit logo een DNA of een eiwit sequentie profiel voor? (0.4) b. Which positions are fully conserved? Welke posities zijn volledig geconserveerd? (0.3) c. Which positions are fully random? Welke posities zijn volledig willekeurig? (0.3) d. Give the consensus sequence. Geef de consensus sequentie. (0.3)
Tentamen Bioinformatic Data Analysis April 9th 2015 Naam: Collegekaartnummer:
6. The Basic Local Alignment Search Tool (BLAST) identifies sequences in a database that are similar to a query sequence. BLAST does this relatively fast. De Basic Local Alignment Search Tool (BLAST) herkent sequenties in een database die lijken op een query sequentie. BLAST doet dit relatief snel. (Total max score: 2.2) a. Why is the BLAST algorithm faster than local alignment by dynamic programming? Use a maximum of 7 sentences. Waarom is het BLAST algoritme sneller dan local alignment door middel van dynamic programming? Gebruik max 7 zinnen. (0.9) b. What is the E‐value of the hit shown above? Wat is de E‐value van de hit hierboven? (0.1) c. What does this E‐value tell us? Use a maximum of 4 sentences. Wat vertelt deze E‐value ons? Gebruik max 4 zinnen. (0.5) d. You have obtained the sequence of a protein and want to find out what function it has. You use blastp to search a database for proteins that are similar to your query protein, and find several hits. The hit in the figure above has the lowest E‐value. What do you think is the function of your query protein, and why do you think that? Use a maximum of 4 sentences. Je hebt de sequentie van een eiwit verkregen en wilt te weten komen wat voor functie het heeft. Je gebruikt blastp om een database te doorzoeken op eiwitten die lijken op je query eiwit, en je vindt een aantal hits. De hit in de figuur hierboven heft de laagste E‐value. Wat denk je dat de functie van je query eiwit is, en waarom denk je dat? Gebruik max 4 zinnen. (0.5)
e. Imagine that you are interested in finding homologs of your query protein in more distantly related species. Which bioinformatic tool or approach would allow you to do this? Stel je voor dat je homologen van je eiwit in verder verwante soorten wilt vinden. Welke bioinformatische tool kun je gebruiken om dit te doen? (0.2)