Faculteit Wetenschappen Vakgroep Moleculaire Genetica Departement Plant Systems Biology – VIB
Invloed van de genomische context op genexpressie van gedupliceerde genen.
James Cauwelier
Scriptie voorgelegd tot het behalen van de graad van licentiaat/master in de biotechnologie Academiejaar 2005 - 2006
Promotor: Prof. Dr. Y. Van de Peer Begeleidster: Tineke Casneuf
Faculteit wetenschappen Vakgroep Moleculaire Genetica Departement Plant Systems Biology – VIB
Invloed van de genomische context op genexpressie van gedupliceerde genen.
James Cauwelier
Scriptie voorgelegd tot het behalen van de graad van licentiaat/master in de biotechnologie Academiejaar 2005 - 2006
Promoter: Prof. Dr. Y. Van de Peer Begeleidster: Tineke Casneuf
Dankwoord Bij het begin van deze thesis wil ik graag alle personen bedanken die me hebben geholpen met de realisatie ervan. Eerst wil ik Prof. Dr. Y. Van de Peer bedanken voor het opnemen van het promotorschap. Mijn begeleidster, Tineke Casneuf, wil ik bedanken voor de begeleiding en het beantwoorden van al mijn vragen gedurende het afgelopen jaar. Maar ook Stefanie De Bodt heeft me goed geholpen in het promoteronderzoek, waarvoor ik haar wil bedanken. Twee mensen wil ik hier speciaal vermelden.
Mijn vriendin, die mij, ondanks de vele
eenzame uren die ik samen met de computer doorbracht, nog steeds even graag ziet en steeds klaar staat bij problemen. Johan Vandekerkhove, mijn mentor en vriend, verdient hier een speciale vermelding. Zonder hem zou mijn leven een héél andere wending genomen hebben en ik bedank hem voor de begeleiding die ik van hem ontving. Maar ook mijn grootouders wil ik hier niet vergeten. Zij hebben de rol van mijn ouders graag op zich genomen en ik ben hen daar dankbaar voor. Een speciale plaats in mijn hart is voor hen gereserveerd. En last but not least, wil ik al mijn vrienden bedanken voor het tonen van interesse in mijn werk, zelfs al meenden ze het niet.
Inhoudstafel Dankwoord Inhoudstafel 1
Doelstelling van de thesis ............................................................................................1
2
Literatuurstudie.............................................................................................................3 2.1 2.1.1
Inleiding...............................................................................................................................3
2.1.2
Substitutiematrices .............................................................................................................3
2.1.3
Sequentie-alignering...........................................................................................................4
2.2
Genduplicatie..........................................................................................................5
2.2.1
Mechanismen......................................................................................................................5
2.2.2
Identificatie van grootschalige genduplicaties ....................................................................8
2.2.3
Datering van genduplicatie met Ks....................................................................................11
2.3
3
Alignering van sequenties .......................................................................................3
Evolutie na duplicatie ............................................................................................12
2.3.1
Behoud van het gedupliceerde genetisch materiaal.........................................................13
2.3.2
Divergentie van gedupliceerde genen ..............................................................................13
2.4
Modelorganisme: Arabidopsis thaliana..................................................................15
2.5
Microarrays ...........................................................................................................17
2.5.1
Inleiding.............................................................................................................................17
2.5.2
Types en productie ...........................................................................................................18
2.5.3
Het meten van de genexpressie .......................................................................................20
2.5.4
Normalisatie van microarray data .....................................................................................21
Materiaal en methode..................................................................................................24
3.1
Algemeen overzicht ..............................................................................................24
3.2
Algemene technieken ...........................................................................................25
3.2.1
Perl....................................................................................................................................25
3.2.2
R en Bioconductor ............................................................................................................25
3.3 3.3.1
BLAST...............................................................................................................................25
3.3.2
Methode van Rost.............................................................................................................26
3.3.3
i-ADHoRe..........................................................................................................................26
3.3.4
i-ADHoRe2genedraw_real_TE.pl .....................................................................................28
3.3.5
rearrangement_search.pl..................................................................................................29
3.3.6
Onderverdelen in type herschikkingen .............................................................................32
3.3.7
Berekenen van de correlatie van genexpressie ...............................................................34
3.4 4
Detectie en klassificatie van ankerpunten .............................................................25
Promoteranalyse van gedupliceerde genen ..........................................................36
Resultaten....................................................................................................................38 4.1
Grootte van de ankerpunt groepen........................................................................38
4.1.1
Inleiding.............................................................................................................................38
4.1.2
Overzicht van de ankerpunt groepen ...............................................................................39
4.2
Correlatie van genexpressies................................................................................41
4.2.1
Analyse van alle herschikte en alle niet herschikte ankerpuntgenen ...............................41
4.2.2
Analyse van herschikte en niet herschikte ankerpuntgenen ............................................42
4.2.3
Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte
ankerpunten (eiwitcoderende herschikking)...................................................................................43 4.2.4
Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte
ankerpunten (RNA coderende herschikking). ................................................................................44 4.2.5
Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte
ankerpunten (transposon coderende herschikking). ......................................................................45 4.2.6
Analyse van herschikte ankerpunten (RNA coderende herschikking) en herschikte
ankerpunten (eiwitcoderende herschikking)...................................................................................45
4.2.7
Analyse van herschikte ankerpunten (TP coderende herschikking) en niet herschikte
ankerpunten (zonder pseudogenen). .............................................................................................46 4.2.8
Analyse van herschikte ankerpunten (TP coderende herschikking) en herschikte
ankerpunten (RNA coderende herschikking). ................................................................................47 4.2.9
Analyse van herschikte ankerpunten die herschikt werden door deletie in vergelijking tot
die die herschikt werden door insertie............................................................................................48
4.3
Promoter-onderzoek. ............................................................................................50
4.3.1
Inleiding.............................................................................................................................50
4.3.2
Vergelijken van de aligneerbaarheid van het upstream gebied. ......................................50
4.3.3
Verband tussen de aligneerbaarheid van de promoterregio’s en de leeftijd van duplicatie52
4.3.4
De aligneerbaarheid van de promoterregio’s in functie van de correlatie van
genexpressie. .................................................................................................................................53
5
6
7
Discussie .....................................................................................................................56 5.1
Correlatie van genexpressie..................................................................................56
5.2
Promoter onderzoek .............................................................................................57
5.3
Besluit...................................................................................................................58
Bijlagen ........................................................................................................................59 6.1
Bijlage A: microarray dataset ................................................................................59
6.2
Bijlage B: Lijst met afkortingen ..............................................................................63
6.3
Bijlage C: CD-ROM...............................................................................................64
Referenties...................................................................................................................65
1 Doelstelling van de thesis Het erfelijk materiaal van ieder organisme is vervat in zijn DNA. Dit DNA bestaat uit coderende regio’s (de genen) en niet coderende regio’s die een structurele of regulerende rol kunnen vervullen. Ieder gen codeert over het algemeen voor een eiwit en komt slechts éénmaal voor in een haploïd genoom, maar dit betekent niet dat ieder gen uniek is. In het verleden zijn sommige genen meerdere malen gekopieerd geweest, waardoor genfamilies onderscheiden kunnen worden die bestaan uit sterk op elkaar lijkende gensequenties. Na duplicatie van één of meerdere genen kan mutatie ervoor zorgen dat de sequenties van de genen gewijzigd worden, waardoor ze na verloop van tijd minder op elkaar lijken en zelfs verschillende functies kunnen gaan uitvoeren. Enkel die wijzigingen in sequentie die een voordeel betekenen voor de overleving en algemene fitness van het organisme worden behouden in een populatie van dat organisme. Onderzoek heeft aangetoond dat gen- en zelfs grootschalige genoomduplicaties frequent voorkomen, in het bijzonder bij planten (Adams KL and Wendel JF, 2005). Deze verdubbeling van genetisch materiaal is een belangrijke factor in het genereren van nieuwe functies door het leveren van extra ruw genetisch materiaal waarop selectie kan inwerken (Ohno S., 1970). Het bij een duplicatie gevormd genetisch materiaal kan ook voordelen bieden aan een organisme doordat deze zich beter kan aanpassen aan veranderende omgevingsfactoren. Verder zijn gedupliceerde genen ook beter bestand tegen mutatie (Gu Z. et al., 2003).
Duplicatie, gevolgd door divergentie, kan
bijvoorbeeld aanleiding geven tot het ontstaan van nieuwe soorten. Hoe dit alles in zijn werk gaat wordt momenteel nog onvoldoende begrepen. Divergentie van genexpressie na herschikkingen1 van het gedupliceerde materiaal kan hier een rol in spelen maar of dit zo is, werd nog niet onderzocht. Recent werd aangetoond dat de wijze van duplicatie (groot- of kleinschalig) een rol speelt bij de divergentie van genexpressie (Casneuf et al., 2006). Grootschalig gedupliceerde gensegmenten vertonen een hogere correlatie van genexpressie dan genen die op kleinere schaal gedupliceerd werden en verspreid voorkomen in het genoom (Casneuf et al., 2006). In deze thesis wordt verder ingegaan op deze resultaten en nagegaan of herschikkingen van grootschalig gedupliceerde
1
Met herschikkingen bedoelt men het verwijderen (deletie)van DNA, invoegen van DNA (insertie),
omdraaien van DNA (inversie) waarbij de oriëntatie van de genen in dat stuk gewijzigd worden of translocatie waarbij DNA verplaatst wordt naar een ander gebied van het genoom.
1
regio’s in het DNA van de modelplant Arabidopsis thaliana verantwoordelijk zijn voor de divergentie van genexpressie van homologe genen.
Initieel worden gedupliceerde
regio’s opgespoord en onderverdeeld in lijsten van herschikte en niet herschikte gedupliceerde genpaartjes. Vervolgens wordt de genexpressie nagegaan. Aan de hand van deze sets van genpaartjes en hun genexpressie kan nagegaan worden of herschikkingen in het genoom verantwoordelijk zijn voor de divergentie van genexpressie van homologe genen.
Figuur 1.1 toont twee homologe gebieden die
ontstaan zijn door een duplicatie en die oorspronkelijk elk twee genen bevatten (zwarte balkjes). Voor elk gen ligt een promoterregio die instaat voor de controle van initiatie van transcriptie (grijze balkjes). Deletie (segment B, figuur 1.1) of insertie (niet getoond) van een stroomopwaarts gelegen gen kan de promoter verstoren. Aangezien dit gebied de initiatie van transcriptie controleert, kunnen wijzigingen in dit gebied eventueel de oorzaak zijn van divergentie van genexpressie.
Fig. 1.1: Verstoring van een promoterregio door deletie van het stroomopwaarts gelegen gen. Ieder zwart blok stelt een gen voor, terwijl de promoterregio schuin gearceerd is.
Een tweede luik van deze thesis is het nader onderzoeken van de promoterregio’s van enkele gedupliceerde genen om meer inzicht te verkrijgen in de wijze waarop divergentie optreedt als gevolg van de verstoring van de promoterregio.
2
2 Literatuurstudie 2.1 Alignering van sequenties 2.1.1 Inleiding Het aligneren van sequenties is het proces waarin twee sequenties tegenover elkaar geplaatst worden, waarbij de overeenkomsten alsook de verschillen tussen beide opgespoord worden. Dit alignement vertelt in welke mate twee sequenties gelijkaardig zijn. Dit gebeurt door het paren van individuele karakters van de te aligneren sequenties, waarbij het aantal onderbrekingen (“gaps”) en niet gealigneerde karakters zo klein mogelijk gehouden wordt, zoals in het voorbeeld hieronder (Van De Peer Y., 2005).
Sequentie 1 Sequentie 2
A G C T T G - - C C T C G C A … A G – T T G T T C C T G G C A …
Omdat het praktisch niet haalbaar is om alle mogelijke alignementen van twee of meer sequenties te overlopen, worden algoritmen ingeschakeld om een “beste alignement” te selecteren. Voor een alignement van twee sequenties met een lengte van 300 nucleotiden, zouden anders 10179 mogelijkheden overlopen moeten worden wat teveel computerkracht vereist (Van De Peer Y., 2005). In bovenstaand voorbeeld worden nucleotidensequenties vergeleken met een alfabet met 4 karakters (A, T, G en C), waardoor ieder karakter een kans van ¼ heeft om op gelijk welke positie enkel op basis van toeval voor te komen. Daarom kan beter van een rijker alfabet gebruik gemaakt worden omdat de kans dat een karakter per toeval voorkomt kleiner is naarmate het alfabet meer uitgebreid is (Van De Peer Y., 2005). Bij het aligneren van proteïne coderende sequenties wordt beter gebruik gemaakt van de AZ-sequentie dat een alfabet gebruikt met 20 karakters, waardoor ieder karakter per toeval gemiddeld slechts 1/20 maal voorkomt. Voor het vergelijken van niet coderende sequenties, zoals promoterregio’s, moet steeds de nucleotide-sequentie gebruikt worden, aangezien een dergelijke sequentie niet tot een aminozuursequentie vertaald wordt.
2.1.2 Substitutiematrices Twee sequenties die afkomstig zijn van dezelfde gemeenschappelijke voorouder divergeren door het optreden van mutaties in de vorm van inserties, deleties en substituties. Voor aminozuursequenties worden bepaalde substituties beter getolereerd dan andere omdat de 3
eigenschappen van het nieuwe aminozuur (bv. grootte, lading, hydrofobiciteit) gelijkaardig zijn aan dat van het oude aminozuur . De functie van het genproduct wordt op die manier minder gemakkelijk gewijzigd. Een substitutiematrix wordt samengesteld op basis van een alignement van gekende aligneerbare sequenties waarin het geobserveerde aantal van een bepaald aminozuurpaar vergeleken wordt met het aantal dat men op basis van toeval zou verwachten (Henikoff and Henikoff, 1992). Men bekomt een matrix die waarden bevat voor de aligneerbaarheid van aminozuurpaartjes in aminozuursequenties met een gelijkaardige evolutionaire afstand en context.
De bekomen aligneerbaarheid van aminozuurpaartjes
wordt dan verder gebruikt voor het opstellen van een alignement van sequentie (Henikoff and Henikoff, 1992), waardoor eerder de verandering in eigenschappen van twee sequenties vergeleken wordt in plaats van hun sequentie.
2.1.3 Sequentie-alignering Alignementen kunnen berekend worden via verschillende algoritmen, zoals het algoritme van (Needleman and Wunsch, 1970) en dat van (Smith and Waterman, 1981).
Beide zijn
gebaseerd op het bouwen van een score-matrix, waarin sequentie 1 de X-as en sequentie 2 de Y-as voorstelt en de vakjes van de matrix een score bevatten voor elke aminozuurparing in de matrix. De scores zelf worden berekend aan de hand van toegekende strafpunten bij het openen van een leegte (“gap”) in het alignement of het verlengen van zo’n “gap”, samen met punten voor het aligneren van een aminozuurpaar, berekend aan de hand van een substitutiematrix.
In de loop van het aligneringsproces worden op die manier leegtes
geïntroduceerd, om de uiteindelijk bekomen score zo hoog mogelijk te houden.
4
2.2 Genduplicatie 2.2.1 Mechanismen Genduplicatie is het verdubbelen van een gen en kan op verschillende manieren tot stand komen. Het volgende overzicht gaat in op enkele van die mechanismen. Autopolyploïdie Autopolyploïdie
is
de
vorming
van
een
verdubbeld genoom als het gevolg van een fout in de ontwikkeling van de gameten (Van de Peer Y. and Meyer A., 2005). Dergelijke gameten met een dubbel genoom bezitten steeds een even aantal homologe chromosomen die bivalenten kunnen vormen tijdens de meiose. Zo kunnen nog steeds fertiele gameten gevormd worden na een autopolyploïdie.
Het organisme kan nog
steeds reproduceren, maar is niet meer in staat om te kruisen met de oorspronkelijke diploïde organismen. kruissing
In het geval dat een dergelijke
zou
optreden,
worden
gameten
gevormd met een oneven aantal homologe chromosomen die niet in staat zijn om bivalenten te vormen in de meiose en het organisme zou zich niet kunnen reproduceren. Figuur 2.1: In de profase I van de meiose wordt het aantal homologe chromosomen gehalveerd. Deze homologen worden in de profase II verdeeld over de gevormde gameten (links helft van de figuur). Als door een fout in de meiose de homologen niet gehalveerd worden in profase I, dan bekomt men gameten met een dubbel aantal homologen dan normaal (rechtse helft van de figuur).
5
Figuur 2.1 illustreert autopolyploïdie. Het toont een onderdeel van de meiose waarbij de gepaarde homologe chromosomen
(rood en zwart) na profase I in afzonderlijke nucleï
terecht komen (linker helft van de figuur) om daarna verdeeld te worden in 2 nieuwe nucleï na profase II. Het resultaat is dat 4 nieuwe haploïde cellen gevormd worden. Wanneer de meiose foutief verloopt (rechter helft van de figuur) en het genetisch materiaal na profase I niet verdeeld wordt over 2 nucleï, zal de meiose 2 diploïde cellen produceren in plaats van 4 haploïde. De bevruchting met 2 diploïde geslachtscellen zal aanleiding geven tot een fertiel tetraploïd organisme met verdubbeld genomisch materiaal.
Allopolyploïdie Allopolyploïdie treedt op bij bevruchting tussen 2 organismen van een verschillende soort, maar enkel wanneer na die bevruchting een verdubbeling optreedt van het genetisch materiaal. In dat geval kunnen de homologe chromosomen nog correct verdeeld worden over de gameten en aanleiding geven tot een nageslacht (Van de Peer Y. and Meyer A., 2005). Polyploidie is een belangrijk fenomeen bij de evolutie van planten (Adams and Wendel, 2005). Men neemt aan dat de meeste oude polyploïden op deze manier ontstaan zijn in plaats van door autopolyploïdie (Spring, 2003).
Aneuploïdie Aneuploïdie is een toestand waarbij meer of minder chromosomen aanwezig zijn dan de normale set van chromosomen (Van de Peer Y. and Meyer A., 2005). Het chromosoomaantal is dan niet langer een exact meervoud van de haploïde set chromosomen, in tegenstelling tot bij allopolyploïdie en autopolyploïdie.
Een voorbeeld hiervan is het
“syndroom van Down”, dat veroorzaakt wordt door een trisomie van chromosoom 21 bij de mens.
Segmentale duplicatie Een segmentale duplicatie is de duplicatie van grote stukken DNA en is het gevolg van een fout in het replicatieproces (Koszul et al., 2004).
6
Tandem duplicatie Tandem duplicatie ontstaat door ongelijke crossing-over tijdens de meiose waarbij een stuk DNA uitgewisseld wordt tussen twee homologe chromosomen (Van de Peer Y. and Meyer A., 2005). Eén van de homologen zal een extra DNA segment bijkrijgen en het andere homoloog zal datzelfde DNA segment verliezen. Omdat deze fout in overkruissing (“crossing over”) locaal gebeurdt, blijven de duplicaten naast elkaar gelocaliseerd op het chromosoom (Van de Peer Y. and Meyer A., 2005).
Retropositie Bij retropositie wordt een genduplicaat gevormd op een nieuwe positie in het genoom. Hiertoe wordt het gen op zijn originele plaats overgeschreven naar RNA, dat met behulp van een reverse transcriptase aanleiding kan geven tot een DNA kopij.
Een reverse
transcriptase katalyseert de polymerisatie van DNA vertrekkende van een RNA , dus tegen de normale informatiestroom in (DNA RNA) .
Omdat de RNA template enkel de
coderende sequentie van het gen bevat zonder de regulerende sequenties van de promoter, wordt enkel het coderend gebied van het gen gedupliceerd. Het duplicaat wordt dus afhankelijk van reeds aanwezige regulerende sequenties op zijn nieuwe positie in het genoom (Long et al., 2003). Indien het duplicaat geen promoter meer heeft, kan het niet worden afgeschreven en zal het eiwitproduct niet meer gevormd worden. In het geval een gen niet langer aanleiding geeft tot een functioneel product, noemt men dit een pseudogen en kan het verloren gaan. Wanneer een pseudogen noodzakelijk is voor de structuur van het DNA in die regio kan de aanwezigheid ervan toch getolereerd worden. Een pseudogen wordt dus niet zomaar verwijderd op basis van de afwezigheid van zijn product.
Laterale gen-transfer Bij prokaryoten worden genen getransfereerd tussen organismen van dezelfde generatie (laterale of horizontale gentransfer). Veelal leidt dit tot de uitwisseling van homologe genen zonder dat die daarbij gedupliceerd worden, maar soms kan de transfer van nieuwe genen zorgen voor het ontstaan van nieuwe fenotypes (Long et al., 2003). Ook bij eukaryoten doet zich laterale gentransfer voor, maar in dat geval gaat het om organelgenen die volgens de endosymbiont-hypothese afkomstig zijn van prokaryoten en doet de gentransfer zich voor binnenin de eukaryote cel en niet tussen de cellen onderling.
7
2.2.2 Identificatie van grootschalige genduplicaties Grootschalige gen- en volledige genoomduplicaties kunnen gedetecteerd worden door het opsporen van gedupliceerde gebieden met geconserveerde gen-inhoud en volgorde (= “colineariteit”) (Van de Peer Y. and Meyer A., 2005). Eerst worden met BLASTp en de methode van Rost de gedupliceerde genen opgespoord in het genoom en vervolgens wordt nagegaan welke gedupliceerde genpaartjes samen gedupliceerd werden.
Hiervoor wordt een “gene homology
matrix” (GHM) opgesteld waarbij twee segmenten ten opzichte van elkaar uitgezet worden en gezocht wordt naar diagonale elementen die de samen gedupliceerde genen aanduiden (figuur 2.2).
Verder wordt onderzocht of de geobserveerde
diagonaliteit het gevolg kan zijn van louter toeval door het uitvoeren van een permutatietest. Wanneer een gedupliceerd blok geïdentificeerd wordt dat ontstaan is door eenzelfde duplicatiegebeurtenis,
worden
de
homologe
genen
van
beide
sequenties
“ankerpunten” genoemd.
2.2.2.1
i-ADHoRe
i-ADHoRe (Automatic Detection of Homologous Regions) is een tool om in groep gedupliceerde genen op te sporen aan de hand van een paarsgewijze vergelijking van genomische segmenten (Simillion et al., 2004). Hiervoor worden twee lijsten met alle proteïne-coderende genen vergeleken en ze worden gerangschikt in de volgorde die ze innemen op de te onderzoeken segmenten. Met BLASTp en de methode van Rost worden eerst de homologe genparen geïdentificeerd en het resultaat hiervan wordt opgeslagen in een (m x n)-matrix, waarbij m en n de lengte geven van de gebruikte genlijsten. De bekomen matrix wordt de “gene homology matrix” (GHM) genoemd omdat het alle gevonden homologen bevat (figuur 2.2). Ieder element in de matrix stelt een gedetecteerd homoloog genpaar voor en kan positief of negatief zijn afhankelijk van het feit of beide genen van het paar wel of niet dezelfde oriëntatie bezitten op het genoom.
Eenmaal deze matrix is samengesteld, kunnen
blokduplicaties geïdentificeerd worden als diagonale reeksen van ankerpunten, terwijl de tandem repeats aanwezig zijn in horizontale of verticale reeksen. De tandem repeats worden eerst herschikt tot één enkel gen, waarna clusters van diagonale series van ankerpunten kunnen gedetecteerd worden die de paraloge gebieden aangeven. Bij deze detectie van paraloge gebieden wordt gebruikt gemaakt van een “maximum gap size” (G) en een “quality parameter” (Q) om te beslissen of clusters 8
van ankerpunten inderdaad een blokduplicatie vormen. Met een permutatietest wordt nagegaan of de gevonden diagonaliteit significant en dus niet door toeval ontstaan is.
blok duplicatie
tandem duplicatie
inversie
Figuur 2.2: Een hypothetisch voorbeeld van een “Gene Homology Matrix” (GHM), waarbij de homologie wordt nagegaan tussen het genomisch segment op de x-as (segment nr. 1) en dat op de y-as (segment nr. 2). De grijze cellen stellen de ankerpunten voor, met andere woorden de plaatsen waar het gen op de x-as het homoloog is van het gen op de y-as. De diagonale gebieden van de matrix, inversies en tandem duplicaties zijn duidelijk zichtbaar. (A) De originele organisatie van alle genen in hun genomische context, waarbij tandem duplicaties en inversies nog duidelijk zichtbaar zijn. (B) Dezelfde GHM, maar na “tandem remapping” en het verwijderen van niet relevante data punten (diegene die niet het gevolg zijn van een grootschalige duplicatie) mbv het ADHoRe algoritme. Ook geïnverteerde gebieden worden hermapt zodat diagonaliteit beter detecteerbaar wordt. (Gregory T., 2005; Van de Peer Y. and Meyer A., 2005) (bewerkt)
2.2.2.2
Hidden en ghost duplications
Met de hierboven beschreven aanpak kunnen al heel wat duplicaties gevonden worden, maar toch kan men de gevoeligheid van bovenstaande benadering nog verbeteren (Simillion et al., 2002). Wanneer onvoldoende gedupliceerde genen geclusterd kunnen worden over een bepaald gebied, worden beide genomische regio’s niet als duplicaten beschouwd. Dit
9
betekent niet noodzakelijk dat deze geen duplicaat zijn van elkaar, want misschien zijn ze zodanig herschikt dat de duplicatiegebeurtenis niet meer duidelijk waarneembaar is. Om dergelijke duplicaties toch nog te herkennen kan het gebruik van een derde segment uitkomst bieden. Dit wordt voorgesteld in figuur 2.3 waarbij in het eerste voorbeeld een gewone duplicatie voorgesteld wordt.
In figuur 2.3.B kan de homologie tussen twee
segmenten (1 en 3) gedetecteerd worden met de hulp van een derde segment (middelste segment) in hetzelfde organisme (organisme 1) en men noemt dit een verborgen duplicatie (“hidden duplication”).
In figuur 2.3.C wordt de homologie
tussen het 1ste en 3de segment op een gelijkaardige manier gedetecteerd, met dat verschil dat het bijkomende segment (middelste segment) afkomstig is van een ander organisme (organisme 2).
Figuur 2.3: Schematisch voorstelling van niet verborgen, verborgen (“hidden duplication”) en spook duplicaties (“ghost duplication”) (Van de Peer Y. and Meyer A., 2005) (bewerkt)
2.2.2.3
Genomische profielen
Door rekening te houden met verborgen en spook duplicaties kan men de gevoeligheid voor de detectie van gedupliceerde segmenten verhogen (Simillion et al., 2004). In gevallen van extreem verlies en/of herschikking van genen kan het toevoegen van verborgen en spook duplicaties onvoldoende blijken om bepaalde duplicaties te detecteren, maar kan het gebruik van een genomisch profiel uitkomst bieden (Simillion et al., 2004).
10
Men begint, zoals voordien, met het opstellen van een GHM, waarbij een eerste genomisch segment vergeleken wordt met een tweede segment. Als men besluit dat beide segmenten homoloog zijn, dan worden deze samengevoegd tot een groep van segmenten, een profiel. Voor het onderzoeken van een extra genomisch segment op homologie met de segmenten in het profiel, worden de segmenten van het profiel samen uitgezet op de x-as van de GHM en wordt het nieuwe segment uitgezet op de y-as. De gevoeligheid van de detectie kan zo merkbaar verbeterd worden, want in het profiel worden meer homologe genen gevonden dan met de standaard benadering op basis van slechts één genomisch segment in de x-as (zie figuur 2.4). Deze aanpak zorgt ervoor dat uitvoerig herschikte genomische segmenten toch nog als homoloog gebied kunnen herkend worden. De bekomen groep van homologe, gedupliceerde segmenten (de segmenten van het profiel) die ontstaan zijn door één of meerdere duplicaties noemt men een multiplicon. Het multiplicatie niveau duidt op het aantal colineaire genomische segmenten die in het multiplicon aanwezig zijn.
Figuur 2.4: Verduidelijking van het gebruik van een profiel bij detectie van gedupliceerde gensegmenten. Het profiel bestaat hier uit genomische segmenten A en B. Deze worden getest op colineariteit met segment C. Vergelijken van A met C levert 3 homologe genparen (blauw). Vergelijken van B met C levert 2 homologe genparen (rood). Vergelijken van C met het profiel (= A + B) levert 4 homologe genparen. Vergelijken met een profiel levert steeds minimaal even veel genparen als in gelijk welk ander genomisch segment in het als profiel gebruikte multiplicon. (Van de Peer 2005)(herwerkt)
and
Meyer,
2.2.3 Datering van genduplicatie met Ks De genetische code is degeneratief, wat wil zeggen dat verschillende codons voor hetzelfde aminozuur coderen. Substituties van een nucleotide op de derde positie van een codon resulteren veelal niet in een aminozuurverandering en worden synonieme substituties 11
genoemd. Verondersteld wordt dat dergelijke substituties continu gebeuren en hun aantal wordt als maat gebruikt voor de ouderdom van duplicatiegebeurtenissen (Hurst, 2002). Hierbij moet opgemerkt worden dat in de realiteit toch selectie kan optreden op synonieme substituties. Een voorbeeld hiervan volgt uit het feit dat codongebruik specifiek is voor een organisme en het organisme hieraan aangepast is met een eigen specifieke concentratie van tRNA’s. Daardoor kan de concentratie van die tRNA’s limiterend werken als het gebruik van het corresponderend codon door synonieme substitutie verhoogd wordt. De verstreken tijd sinds de duplicatiegebeurtenis, de “tijd van divergentie” (T) kan berekend worden door T = Ks /2λ waarbij λ de gemiddelde snelheid van synonieme substitutie is en T uitgedrukt wordt in “miljoen jaar geleden” (Van de Peer Y. and Meyer A., 2005).
2.3 Evolutie na duplicatie Duplicatie van een gen resulteert in twee kopieën van datzelfde gen, waardoor de informatieinhoud van het gen nu dubbel aanwezig is (“redundantie”). Duplicatie zorgt op die manier voor een toename van het ruw genetisch materiaal, dat na duplicatie gemakkelijker mutaties accumuleert door het bufferende effect van de extra genkopij op eventuele nadelige mutaties. Beide gensequenties evolueren na duplicatie waardoor ze divergeren in zowel genexpressie als functie (Taylor and Raes, 2005).
Het ontstaan van mutaties speelt een
grote rol in deze divergentie (Haldane, 1933). Door mutatie ontstaan voordelige en nadelige allelen. Evolutie selecteert de voordelige allelen waardoor deze verspreid worden in de populatie.
Een nadelig allel wordt niet
verspreid in de populatie, maar ge-non-functionaliseerd (het verliest zijn functie) en verandert in een pseudogen (Taylor J. S. and Raes J., 2005). Dit pseudogen kan vervolgens verwijderd worden op voorwaarde dat het geen andere functie vervult (bv. een structurele functie). In zeldzame gevallen kan het door mutatie ontstane allel ook voordelig zijn en behouden worden. Het belang van grootschalige duplicaties voor evolutie werd in 1970 opgemerkt door Ohno in zijn boek “Evolution by Gene Duplication”2.
Volgens Ohno zou het niet
mogelijk geweest zijn om enkel met natuurlijk selectie de huidige diversiteit van organismen te creëren vertrekkende van een bacterie. Uit die bacterie zouden dan enkel verscheidene vormen van andere bacteriën kunnen ontstaan, terwijl voor de overstap naar meercelligen meer ingrijpende veranderingen noodzakelijk zijn geweest, zoals duplicatie.
2
Ohno was niet de eerste om dit op te merken, zie Taylor & Raes (2005)
12
2.3.1 Behoud van het gedupliceerde genetisch materiaal Het eventueel ontstaan van nieuwe voordelige genfuncties uit gedupliceerde genen is een effect op lange termijn, maar een allel moet ook op korte termijn voordelig zijn voor het organisme want anders kan het verloren gaan voordat voldoende mutaties kunnen accumuleren (Van de Peer and Meyer, 2005). Ten eerste kan het extra genetisch materiaal optreden als buffer tegen het nadelig schommelen van omgevingsfactoren.
Het organisme kan door zijn groter aantal
gedupliceerde genen beter omgaan met stress en veranderingen in zijn milieu, maar de bijkomende gedupliceerde genen kunnen ook de nadelige effecten van mutaties teniet doen. Wanneer zich een mutatie in een gen voordoet, is door duplicatie nog een andere correcte kopij aanwezig die de functie kan uitvoeren waardoor het effect van de mutatie minder ingrijpend is. Null mutaties zijn hiervan een voorbeeld waarbij het duplicaat de functie kan overnemen (Gu et al., 2003).
2.3.2 Divergentie van gedupliceerde genen Gedupliceerde genen accumuleren mutaties waardoor hun sequenties divergeren(Taylor J. S. and Raes J., 2005).
Bij divergentie zal de functie van het genproduct en/of het
expressiepatroon van het gen wijzigingen ondergaan. Bij divergentie van genexpressie zal het genproduct onder andere omstandigheden of hoeveelheden geëxpresseerd worden, zoals in een ander weefsel, of enkel onder stress.
2.3.2.1
Non-functionalisatie
De functie van het overgrote deel van gedupliceerde genen gaat verloren door het proces van non-functionalisatie (Taylor J. S. and Raes J., 2005). Hierbij wordt het functionele genproduct niet langer gevormd, bijvoorbeeld omdat door mutatie een nieuw stopcodon is ontstaan in de coderende sequentie (figuur 2.7).
13
Figuur 2.7: Na verloop van tijd accumuleren gedupliceerde genen mutaties waardoor de expressie en functie van de gedupliceerde genen divergeren. (“R” duidt op een wijziging in een regulatorische sequentie, terwijl een wijziging van de coderende sequentie aangeduid wordt met een “C”) (Taylor J. S. and Raes J., 2005)
2.3.2.2
Neo-functionalisatie
In zeldzame gevallen kunnen door mutaties ook nieuwe functies ontstaan (Prince and Pickett, 2002; Taylor and Raes, 2005), die voordien niet aanwezig waren, zoals een nieuwe transcriptie-factor bindingsplaats in de regulatorische sequentie of een wijziging in de actieve plaats van het genproduct waardoor dit bijvoorbeeld een ander substraat zal accepteren (figuur 2.7).
2.3.2.3
Sub-functionalisatie
Als genen enkel geselecteerd worden op basis van aanwezigheid van voordelige of nadelige mutaties, dan verwacht men dat de meeste gedupliceerde genen snel verdwijnen als er niet snel nieuwe voordelige functies gevormd worden. Toch ligt het aantal niet verdwenen gedupliceerde genen nog vrij hoog (Prince and Pickett, 2002), wat betekent dat bepaalde mechanismen zorgen voor het behoud van gedupliceerde genen zodat deze niet door non-functionalisatie verloren gaan. Een mogelijke verklaring wordt geboden door het sub-functionalisatiemodel waarbij aparte onderdelen van de gedupliceerde genen afzonderlijk mutaties accumuleren terwijl hun functies elkaar aanvullen en samen de functies van het ancestrale gen uitvoeren (Force et al., 1999; Taylor J. S. and Raes J., 2005).
Dit mechanisme 14
baseert zich op het feit dat genen modulair kunnen opgebouwd zijn (zowel in regulatorische als coderende regio’s), waarbij die verschillende modules instaan voor onafhankelijke subfuncties. Een module in het ene gen kan dan als buffer optreden tegen mutaties in de overeenkomstige subfunctie van zijn homoloog gen. Omdat dergelijke gebufferde mutaties terzelfdertijd in beide kopijen van een gen optreden, is de aanwezigheid van beide genen vereist (Force et al., 1999).
Volgens dit model
zorgen mutaties eerder voor het behoud van gedupliceerde genen, dan de verwijdering ervan zoals het geval is bij nonfunctionalisatie. Een voorbeeld van subfunctionalisatie zijn transcriptiefactor bindingsplaatsen op de promoter (Taylor and Raes, 2005). In de promoter van een gen kunnen verschillende dergelijke bindingsplaatsen aanwezig zijn die de expressie van het gen onder verschillende condities reguleren. Mutatie van één van die TF-bindingsplaatsen kan voor een differentiële genexpressie zorgen. Een tweede voorbeeld zijn transmembraanreceptoren die uit 3 domeinen bestaan, een extracellulair receptor domein, transmembraan domein en intracellulair domein met effector functie.
Een mutatie in het receptor domein kan een gewijzigde
substraatsspecificiteit veroorzaken, terwijl de effector functie ongewijzigd blijft. Als na duplicatie een dergelijke mutatie optreedt, dan zullen in het vervolg twee substraten dezelfde intracellulaire actie uitlokken, één substraat voor elk van de duplicaten.
2.4 Modelorganisme: Arabidopsis thaliana Arabidopsis
thaliana,
de
zandraket,
is
een
veelvoorkomende
plant
die
een
gemeenschappelijke voorouder heeft met het herderstasje (Capsella bursa-pastoris). Het behoort tot de Brassicaceae en is een angiosperm. Het volledig gesequeneerde genoom is slechts ongeveer 125Mb groot (Arabidopsis Genome Initiative, 2000).
De kleine
genoomsgrootte is een nuttige eigenschap voor onderzoeksdoeleinden, evenals de snelle groei en beperkte omvang waardoor ze gemakkelijk in een labo te kweken zijn. Andere voordelen voor het gebruik van A. thaliana in een labo zijn de efficiëntie van transformatie en de overvloedige en snelle productie van zaden waardoor het eenvoudig en snel gecultiveerd kan worden. Verder is het plantje op het gebied van ontwikkeling, reproductie en reactie op stress analoog aan belangrijke voedingsgewassen, zoals soja, rijst, tarwe, rogge, maïs, tomaat, katoen, aardappel en sorgum. Hierdoor is het reeds intens bestudeerd en is heel wat informatie over A. thaliana publiek beschikbaar (The Institute for Genomic Research, ZD).
15
Bij de analyse van de genomische sequentie van Arabidopsis thaliana is gebleken dat dit genoom grootschalige genduplicaties of zelfs volledige genoomduplicaties heeft ondergaan (Arabidopsis Genome Initiative, 2000). Door genverlies na duplicatie-gebeurtenissen gaat veel colineariteit tussen de gedupliceerde regio’s verloren en wordt het moeilijker om gedupliceerde gebieden als dusdanig te herkennen.
Eerder werden reeds technieken
besproken om de gevoeligheid te verhogen in het zoeken naar in groep gedupliceerde genen. Gebruik makend van deze technieken werden in A. thaliana homologe genomische gebieden vaak in 5 tot 8 kopijen teruggevonden (Simillion et al., 2002). Dit impliceert drie genoomduplicaties in de evolutionaire geschiedenis van A. thaliana. In deze thesis wordt gezocht naar grootschalige duplicatiegebeurtenissen om onderzoek te doen naar de divergentie van genexpressie na duplicatie. Arabidopsis thaliana, met zijn drie volledige genoomduplicaties, vormt daarom een goede keuze voor dit onderzoek.
16
2.5 Microarrays 2.5.1 Inleiding Microarrays zijn chips waarop enkelstrengig DNA van verschillende sequenties zijn gehecht (Draghici, 2003). Door hybridisatie van de microarray met een doelwit-oplossing (cRNA of cDNA), kan de expressie van duizenden genen in één experiment worden nagegaan waarbij als het ware een snapshot van de mRNA inhoud van het organisme wordt gemaakt (Draghici, 2003). Hierdoor zijn microarrays zéér waardevol in vele soorten onderzoek, zoals bijvoorbeeld het onderzoek naar kanker.
Bij kanker worden vele genen differentieel
geëxpresseerd in vergelijking met gezonde weefsels en met microarrays wordt het mogelijk om kanker meer in detail te onderzoeken op expressieniveau van die differentieel geëxpresseerde genen. Microarrays openen ook nieuwe deuren voor het ontwikkelen van geneesmiddelen omdat het effect van een product op genexpressie van vele genen terzelfdertijd kan worden nagegaan. In deze thesis wordt microarray data gebruikt voor het berekenen van correlaties van genexpressie van verschillende soorten gedupliceerde genen. Figuur 2.8: Werking van een cDNA microarray. Vertrekkende van een doelwitweefsel wordt een mRNA extractie uitgevoerd om daarmee cDNA te bereiden dat dan kan hybridiseren met de probes van de microarray. (Draghici, 2003)
17
Figuur 2.9: Na het scannen van de microarray wordt een figuur met intensiteitswaarden bekomen die later nog verwerkt wordt. Deze figuur toont hiervan een voorbeeld van een Affymetrix chip. (Draghici, 2003)
2.5.2 Types en productie Het maken van een microarray is gesteund op één van twee principes waarbij ofwel de DNA probes eerst worden aangemaakt en nadien op de microarray worden gehecht ofwel worden de probes in situ gesynthetiseerd (Draghici, 2003). Bij de eerste aanpak kan ofwel met PCR amplificatie het gewenste cDNA aangemaakt worden of kunnen oligonucleotiden synthetisch aangemaakt worden. Het cDNA wordt nadien met een robot opgenomen en verdeeld op de microarray. De tweede aanpak, in situ synthese van de probes, wordt ondermeer toegepast bij Affymetrix microarrays (GeneChip) en aangezien in deze thesis de data van dergelijke chips wordt gebruikt, wordt het productieproces nader toegelicht in figuur 2.10 en figuur 2.11.
18
Figuur 2.10: Affymetrix microarrays worden fotolithografisch aangemaakt waarbij met een fotogevoelige maskerende laag gebieden worden afgeschermd, waarna basen op specifieke plaatsen worden toegevoegd. Het herhalen van het proces van aanbrengen van bescherming, vernietigen van bescherming op specifieke plaatsen door belichting en aanhechten van deoxynucleosiden op onbeschermde gebieden zorgt ervoor dat op iedere plaats van de microarray het gewenste oligonucleotide bekomen wordt. (Draghici, 2003)
De sequentie van iedere probe op dergelijke chips is volledig bekend, in tegenstelling tot microarrays waar de probes niet in situ gesynthetiseerd worden. Belangrijke voordelen zijn dat veel ruis vermeden wordt door het elimineren van verschillende stappen in het productieproces (bv. clonering en spotten) en dat een onderscheid tussen nauw verwante genen ook mogelijk is aangezien de probe-sequentie zelf gekozen wordt (Draghici, 2003). De eerste stap is het aanhechten van synthetische linkers aan het glasoppervlak met daarbovenop beschermende groepen die door belichting kunnen verwijderd worden. In de daaropvolgende stap wordt met een lichtstraal een specifiek gebied op de array beschenen, waardoor de bescherming van de fotogevoelige laag in dat gebied doorbroken wordt. Vervolgens worden deoxynucleosides toegevoegd die zich op de onbeschermde regio’s kunnen aanhechten. Het hele proces wordt herhaald, totdat op iedere spot het gewenste oligonucleotide gesynthetiseerd is (Affymetrix, ZD; Draghici, 2003). De oligonucleotiden op de array worden probes genoemd en zullen later hybridiseren met het doelwit (“target”).
19
Figuur 2.11: Principe van de Affymetrix technologie. Wanneer het target-DNA volledig complementaire gebieden bevat ten opzichte van een probe, zal het daarop binden. Reactieomstandigheden worden zo gekozen, dat zelfs met één verschillend nucleotide in de mismatch probe, hybridisatie niet meer mogelijk is. Verschillende match/mismatch paartjes (10) per gen zorgen ervoor dat zwakke signalen eenvoudiger te onderscheiden zijn ten opzichte van achtergrond. (Draghici, 2003)
Speciaal voor de Affymetrix technologie is een match/mismatch strategie waarbij gecorrigeerd wordt voor achtergrond(Affymetrix, ZD; Draghici, 2003). Figuur 2.11 stelt deze strategie schematisch voor.
De match probe (PM of “perfect match”) is een sequentie
bestaande uit 25 nucleotiden die volledig complementair is met het gen dat door deze probe moet gedetecteerd worden. De mismatch (MM) probe telt ook 25 nucleotiden en verschilt van de match probe in slechts één nucleotide (de middelste), maar de hybridisatiecondities worden zo gekozen dat zelfs bij een dergelijk klein verschil de target niet meer kan binden op de mismatch probe. Beide probes liggen naast elkaar, want enkel dichtbij gelegen probes geven een correcte schatting van het achtergrondsignaal. Een set van 16 tot 20 probe paren (PM + MM), vormt een probeset die gebruikt wordt voor detectie van een gen. Eén gen wordt door de Affymtrix technologie dus vertegenwoordigd door een set van match en mismatch probes.
2.5.3 Het meten van de genexpressie Bij het meten van genexpressie met behulp van microarrays vertrekt men van een weefsel waarvan een mRNA extract bereid wordt.
Men veronderstelt dat de concentratie van
aanwezige mRNA speciës een correcte maat vormt voor de activiteit van een gen en men wil 20
met een microarray de aanwezigheid en hoeveelheid van verschillende mRNA speciës terzelfdertijd bepalen. Twee algemene methodes worden hiervoor onderscheiden. Bij de eerste wordt gebruik gemaakt van één (oligonucleotide microarray) en bij de tweede van twee weefselextracten (cDNA microarray). In het geval van de cDNA microarray wordt vertrekkende van beide weefselextracten eerst een cDNA kopij gemaakt met reverse transcriptase (RT) en het mRNA weefselextract als template (figuur 2.8).
Bij de reverse transcriptie wordt gebruik gemaakt van fluorescent
gelabelde nucleotiden, waardoor het cDNA visualiseerbaar wordt door excitatie met licht van de gepaste golflengte (Butte, 2002; Quackenbush, 2001). Voor beide mRNA extracten wordt een afzonderlijk label gekozen, bijvoorbeeld cy3 en cy5. tegelijkertijd
op
dezelfde
microarray
chip
gehybridiseert
De cDNA targets worden en
kunnen
afzonderlijk
gevisualiseerd worden door de golflengte van het gebruikt excitatielicht aan te passen. In het geval van de oligonucleotide microarray wordt vertrekkende van één enkel weefselextract een cDNA kopij gemaakt met reverse transcriptase, met dat verschil dat het nu niet gemerkt wordt (Coe and Antler, ZD).
Een merker wordt pas toegevoegd in de
daaropvolgende stap, waarbij door in vitro transcriptie een cRNA kopij gevormd wordt. Een voorbeeld van dergelijke oligonucleotide microarrays is de GeneChip (Affymetrix, ZD). Bij GeneChips wordt het target cRNA gemerkt met biotine en het is de bedoeling om via de visualisatie van deze biotine-tags een absolute waarde te bekomen voor de genexpressie van de geëxpresseerde genen. Na detectie wordt door het verwerken van de foto’s (figuur 2.9) en preprocessing van de data (achtergrond correctie en normalisatie) een absolute waarde bepaald voor de genexpressie van de genen die corresponderen met de probes op de chip (Draghici, 2003). Een voorbeeld van een ruwe ingescande foto’s waarop nog geen bewerkingen werden uitgevoerd, is weergegeven in figuur 2.9 en dergelijke foto’s worden bij affymetrix genechips CEL-files genoemd.
2.5.4 Normalisatie van microarray data Een microarray experiment wordt uitgevoerd met als doel om biologisch significante variatie in genexpressie te detecteren. De waargenomen variatie wordt hiertoe ingedeeld in twee types, namelijk de interessante (biologische) variatie en de obscure variatie die het gevolg is van ruis en systematische verschillen (Irizarry et al., 2003). De obscure variatie wil men uiteraard vermijden of elimineren door gebruik te maken van replicatie en normalisatie.
21
Ruis treedt op bij alle microarray experimenten en is niet te vermijden. We kunnen de effecten ervan alleen verminderen door eenzelfde experiment meerdere malen te herhalen (replicatie) om zo een onderscheid te maken tussen biologisch significante variantie en variantie ten gevolge van ruis (Draghici, 2003).
Vele factoren geven ontstaan aan dit
fenomeen, zoals bv. mRNA bereiding, labeltype, vochtigheid, hybridisatie-omstandigheden, … Systematische verschillen tussen meerdere datasets zijn die verschillen die een bepaalde wetmatigheid volgen en kunnen gecorrigeerd worden door middel van normalisatie. Die normalisatie zorgt ervoor dat microarray data betrouwbaar kan vergeleken worden (Irizarry et al., 2003). Een dergelijk systematisch verschil kan zich voordoen in de mRNA concentratie, wanneer voor het ene experiment 5% meer RNA gebruikt werd voor de cDNA bereiding. Een voorbeeld waar normalisatie vereist is, specifiek voor cDNA microarrays, is bij het gebruik van verschillende fluorescente labels, waarbij de gemeten intensiteit van het eerste label (bv. cy3), niet vergelijkbaar is met de gemeten intensiteit van het tweede label (bv. cy5) (figuur 2.12) ten gevolge van een verschil in eigenschappen van de labels (Draghici, 2003). In beide gevallen wordt nochtans hetzelfde weefselextract gebruikt bij de bereiding van de target. Om te normaliseren voor dit verschil in intensiteit wordt de data in groepjes verdeeld en worden een centraliteitsmaat (bv. gewogen gemiddelde) voor elk van de groepjes berekend zoals voorgesteld in figuur 2.12. Aan de hand van de exponentiële curve van deze gemiddelden wordt een afwijking van de ratio ten opzichte van 0 berekend om vervolgens te corrigeren voor die afwijking. Deze normalisatie wordt LOWESS of LOESS normalisatie (LOcally WEighted polynomial regreSSion) genoemd. Als laatste moet ook opgemerkt worden dat het meten van expressiewaarden met behulp van microarrays bestaande meer tijdsrovende analyses, zoals opzuivering van een eiwit en spectroscopische concentratiebepaling, niet volledig kan vervangen want niet enkel de transcriptie en translatie zijn van belang voor de goede werking van een genproduct (Draghici, 2003). Vaak zijn post-translationele modificaties noodzakelijk voor het uitvoeren van een functie en deze processen kunnen afhankelijk zijn van een groot aantal factoren die niet in een microarray experiment in rekening kunnen gebracht worden (bv. correcte opvouwing van het eiwit). Verder wordt bij het werken met microarrays verondersteld dat de hoeveelheid mRNA direct proportioneel is met de hoeveelheid functioneel eiwit, maar ook dit is niet altijd het geval, bijvoorbeeld wanneer de translatie vroegtijdig onderbroken wordt.
22
Figuur 2.12: Op de verticale as staat het logaritme van de verhouding van de intensiteiten, cy3 gemeten met twee verschillende fluorescente labels (log /cy5) op hetzelfde mRNA weefselextract. Indien met beide labels dezelfde intensiteit gemeten wordt, zou men een ratio van 0 bekomen, maar dit is niet het geval (linksboven). Normalisatie van deze afwijkende waarden voor verschillende labels gebeurdt door het indelen van de data in groepen die gekenmerkt worden door hun eigen gemiddeldes en varianties (rechtsboven). Vervolgens wordt een exponentiële curve gepast door de gemiddeldes van de groepen (linksonder) om de afwijking van de ratio ten opzichte van 0 te bepalen. Op basis van die gevonden afwijking wordt een correctie uitgevoerd (rechtsonder). (Draghici, 2003)
23
3 Materiaal en methode 3.1 Algemeen overzicht
Figuur 3.1: Deze figuur geeft een overzicht van de gebruikte technieken in deze thesis. De thesis is opgedeeld in drie onderdelen: a) het vinden van in groep gedupliceerde genen en opdelen in soort herschikkingen; b) het bekomen van expressie-waarden voor de te onderzoeken ankerpuntgenen en c) het onderzoeken van de aligneerbaarheid van de promoterregio’s van de gevonden ankerpuntgenen.
24
3.2 Algemene technieken 3.2.1 Perl Perl (http://www.r-project.org) is een scripttaal die het gemakkelijk maakt om taken te automatiseren, zo kunnen bijvoorbeeld grote hoeveelheden tekst gemanipuleerd worden zoals kolommen verwijderen en verwisselen.
Twee voorbeelden waarvoor perl in deze
thesis gebruikt wordt zijn het zoeken naar genpaartjes die aan specifieke voorwaarden voldoen en het berekenen van correlatie coëfficiënten. Welke andere taken door middel van perl-scripts geautomatiseerd werden, wordt duidelijk naarmate de bespreking van het materiaal en methode vordert.
3.2.2 R en Bioconductor Link: http://www.r-project.org R is een gratis en open-bron statistisch software pakket met een modulaire opbouw. Hiermee bedoelt men dat het programma uit een basis bestaat die verder aangevuld kan worden met uitbreidingen, namelijk de modules, die specifieke functies verzorgen.
De
gewenste modules kunnen eenvoudig geladen worden naargelang de behoeftes van de uit te voeren analyse. Bioconductor (Gentleman et al., 2004) is eveneens een gratis en openbron software pakket, bestaande uit R-modules voor de analyse van genomische data. Voor de analyse van Affymetrix CEL-files wordt in deze thesis een beroep gedaan op het “affy” pakket van bioconductor.
3.3 Detectie en klassificatie van ankerpunten 3.3.1 BLAST Link: http://www.ncbi.nlm.nih.gov/BLAST/ BLAST (Basic Local Alignment Search Tool) is een tool dat op zoek gaat naar aligneerbare sequenties door het paarsgewijs aligneren van de sequenties (Altschul et al., 1990). Deze alignering wordt gestart met het zoeken naar korte gelijkaardige woordjes in beide sequenties en het blast algoritme probeert de alignering van dit woord te verlengen in beide richtingen (5’ en 3’) totdat beide sequenties niet meer als voldoende gelijkaardig herkend worden omdat teveel “gaps” in het alignement geïntroduceerd worden. Het zoeken naar gelijkaardige sequenties steunt op het feit dat bepaalde mutaties in aminozuursequentie beter geaccepteerd worden dan andere (Van de Peer, 2005). Dit is bijvoorbeeld het geval als het aminozuur vervangen wordt door een ander, maar met gelijkaardige eigenschappen 25
(zoals grootte, lading) zodat die mutatie waarschijnlijk geen functiewijziging van het genproduct teweeg brengt. De kans dat een specifieke mutatie zich voordoet, kan met verschillende methodes berekend worden en wordt daarna in een substitutiematrix opgeslaan. Deze substitutie-matrix wordt door BLAST gebruikt om de similariteit van twee sequenties te bepalen en deze gelijkaardigheid zal gebruikt worden om het alignement zo ver mogelijk te verlengen. Verschillende BLAST algoritmes zijn beschikbaar: -
BLASTp voor het vergelijken van een proteïnesequentie met een proteïnedatabank,
-
BLASTn voor het vergelijken van een nucleotidesequentie met een nucleotidedatabank,
-
BLASTx voor het vergelijken van een 6 leesraam-vertaling van een nucleotidesequentie met een proteïnedatabank,
-
tBLASTn voor het vergelijken van een proteïnesequentie met de 6 leesraam-vertaling van een nucleotidedatabank en
-
tBLASTx voor het vergelijken van een 6 leesraam-vertaling van een nucleotidesequentie met de 6 leesraam-vertaling van een nucleotidedatabank.
In deze thesis wordt enkel het BLASTp algoritme gebruikt. Hiermee wordt een proteïne sequentie (query) vergeleken met andere proteïne sequenties, waarbij BLASTp eerst een woord bestaande uit 3 aminozuren tracht te aligneren. Voor deze thesis wordt met BLASTp gezocht naar alle homologe sequenties binnen het genoom van Arabidopsis thaliana om zo groepen van genen te identificeren die samen gedupliceerd werden.
3.3.2 Methode van Rost De methode van Rost is een methode die vertrekkende van een lijst van aligneerbare sequenties (BLASTp output) homologe genen identificeert.
Genen worden genen als
homoloog beschouwd indien ze meer dan 30% sequentie identiteit bezitten over een aligneerbare regio van tenminste 150 aminozuren (Rost, 1999).
3.3.3 i-ADHoRe De lijst van homologe genen is de input voor i-ADHoRe, samen met de chromosoomlijsten van A. thaliana en andere parameters die in de athlevel2R.ini file terug te vinden zijn en reeds in de literatuurstudie besproken werden (Simillion, 2005). i-ADHoRe geeft als output een lijst met ankerpunten en hun beschrijving en maakt hierbij gebruik van de “map based approach” en genomische profielen. 26
De door i-ADHoRe gebruikte parameters zijn (Simillion C., 2005): -
gap size: Geeft de maximum afstand die kan bestaan tussen de ankerpunten in een cluster.
-
cluster gap: Geeft de maximum afstand die kan bestaan tussen basisclusters van ankerpunten. Deze basisclusters kunnen nadien samengevoegd worden indien ze voldoende dicht bij elkaar voorkomen.
-
Q value: Geeft de vereiste diagonale kwaliteit voor een gevonden ankerpuntcluster.
-
ankerpunten: Geeft het minimaal aantal ankerpunten waaruit een cluster van ankerpunten moet bestaan.
-
waarschijnlijkheid cutoff: Geeft een maximum limiet voor de kans dat een gevonden cluster door toeval ontstaan is en niet door een duplicatiegebeurtenis.
-
enkel multiplicatieniveau 2: Bij het zoeken naar multiplicons van maximum niveau 2 worden geen profielen opgebouwd zoals in de literatuurstudie beschreven staat.
De in deze thesis gebruikte i-ADHoRe parameters3 zijn: Gap size
25
Cluster gap
25
Q waarde
0,90
Ankerpunten
3
Waarschijnlijkheids cutoff
0,01
Enkel multiplicatieniveau 2
TRUE
» echo “./i-ADHoRe athlevel2R.ini” | cluster_job.pl i-ADHoRe Dit commando start i-ADHoRe op een cluster, dit is een verzameling van computers die samen werken alsof het één computer zou zijn, waarbij de taken over de verschillende cluster-nodes (dit zijn de afzonderlijke computers van de cluster) verdeeld worden.
De
output van i-ADHoRe wordt opgeslaan in de volgende tabellen4 (Simillion, 2005):
3
zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R.ini
4
zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots >> output
27
–
Multiplicons tabel: Beschrijft alle multiplicons5 voor ieder multiplicatieniveau. Deze tabel wordt opgeslaan in de tekstfile multiplicons.txt.
–
Ankerpunten tabel: Een opsomming van homologe genpaartjes met vermelding van
de
vergeleken
genomische
segmenten
voor
multiplicons
met
multiplicatieniveau 2. (anchorpoints.txt) –
Segmenten tabel:
Geeft een overzicht van de segmenten die met elkaar
vergeleken worden in elk multiplicon. (segments.txt) –
Genen tabel:
Bevat de positie van alle genen uit het configuratiebestand
(athlevel2R.ini) en info over de plaats van tandem repeats. (genes.txt) –
Lijst elementen: Een lijst van alle genen die voorkomen in de segmenten van de multiplicons, samen met hun orientatie en positie. (list_elements.txt)
3.3.4 i-ADHoRe2genedraw_real_TE.pl i-ADHoRe2genedraw_real_TE.pl is een perl script dat de output van i-ADHoRe neemt en gebruikt om tekstfiles (zie bijlagen op cd-rom)6 te genereren voor ieder multiplicon met multiplicatieniveau 2 met daarin: –
Een lijst met de elementen van het eerste segment met daarbij hun relatieve positie op het segment, hun orientatie en hun naamcode (bv. At2g032570).
–
Diezelfde lijst voor de genen van het tweede segment.
–
Een lijst met ankerpunten die beide segmenten met elkaar verbindt via hun homologe genpaartjes.
Vervolgens worden deze tekstfiles door hetzelfde script gebruikt om figuren te genereren (zie bijlagen op cd-rom)7, waarin de genrelaties tussen beide genomische segmenten visueel voorgesteld worden. Het volgende commando illustreert hoe dit script gebruikt kan worden:
5
Een groep van segmenten die homoloog zijn met elkaar, gevonden via de “map based approach”
met profiel (zoals besproken in de literatuurstudie). 6
Zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots
7
Zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots
28
» ./i-ADHoRe2genedraw_real_Te.pl athlevel2R.ini TIGRv5_lists/coding_list.txt TIGRv5_lists/non_coding_list.txt De “coding_list.txt” en “non_coding_list.txt” bestanden zijn lijsten met daarin de genen die wel coderen voor een functioneel polyproteïne en die genen die dit niet doen (bv. pseudogenen).
Voor deze thesis wordt hiervoor de annotatie van TIGR5 gebruikt (The
Institute for Genomic Research, ZD). i-ADHoRe2genedraw werd gebruikt omdat de gegenereerde tekstfiles een handig overzicht geven van alle i-ADHoRe output die voor dit onderzoek gebruikt wordt. De output van iADHoRe2genedraw wordt hiertoe ingelezen met behulp van een perl-script dat de data zodanig formateerd om de manipulatie ervan in een MySQL database te vereenvoudigen. Hiervoor werd fill_database.pl8 gebruikt die als output een aantal tabellen genereert die dan geïmporteerd worden in de database. » ./fill_database.pl Er worden vier tekstfiles gegenereerd: –
elements_info: Bevat informatie over alle genen van de homologe segmenten in de gevonden multiplicons (hun start- en stopposities, oriëntatie en naam).
–
segment_pairs: Bevat informatie over start- en stopposities van de genomische segmenten die vergeleken werden en samen in een multiplicon geplaatst werden op basis van gevonden homologie.
–
elements_info_2_segment_pairs: Verbindt elements_info aan segment_pairs met een gemeenschappelijke kolom (element_id) in de tabel. Aan de hand van deze tabel kan opgezocht worden welke genen tot een bepaald genomisch segment behoren, samen met hun oriëntatie en volgorde.
–
gene_relations: Geeft de genrelaties weer voor een bepaald “segment paar” (multiplicon van niveau 2).
3.3.5 rearrangement_search.pl Eén van de doelstellingen van deze thesis is om de correlatie van genexpressie van groepen van ankerpuntgenen te vergelijken. opgesplitst
8
worden
in
subgroepen,
Hiertoe moet de lijst met ankerpuntgenen eerst bijvoorbeeld
herschikte
en
niet
herschikte
zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_lineair_plots
29
ankerpuntgenen. Hiervoor werd een script geschreven dat aan de hand van de informatie in de MySQL database op zoek gaat naar eventuele9 herschikkingen in de promoterregio van de ankerpunten. » ./rearrangement_search.pl pseudogenes_list.txt
Figuur 3.1: Om de correlatie van genexpressie te vergelijken tussen herschikte en niet herschikte ankerpunten, moet eerst een onderscheid gemaakt worden tussen de verschillende groepen van ankerpuntgenen. Herschikte ankerpunten worden aangeduid in het rood en de niet herschikte in het groen.
Om de herschikte ankerpunten te onderscheiden van de niet herschikte overloopt het script eerst alle multiplicons (multiplicatieniveau 2) en in ieder multiplicon overloopt het script alle elementen van het eerste genomische segment (segment A), zoals in figuur 3.1 aangeduid wordt met een nummering van die elementen. Het script onderzoekt daarbij of een element een ankerpunt is (groen of rood in figuur 3.1) of niet (zwart in figuur 3.1) en indien dit zo is, controleert het dat ankerpunt op herschikkingen. Bij deze controle op herschikkingen van een ankerpunt (fig. 3.2), wordt eerst de orientatie opgevraagd zodat de positie van de promoterregio gekend is. De volgende stap is een controle van de eerstvolgende elementen op segmenten A en B vertrekkende vanaf de promoterregio’s van de te onderzoeken ankerpunt-genen. De gevonden genen moeten een ankerpunt zijn van elkaar en indien dit niet het geval is, zijn de bestudeerde ankerpunten herschikt geweest sinds hun duplicatie.
9
In deze thesis wordt onderzocht of deze herschikkingen zich voordoen of niet en welke invloed ze uitoefenen op de genexpressie. We splitsen de lijst met ankerpunten dus in aparte lijsten waarvan we denken dat deze wel of niet herschikkingen bevatten in de promoterregio. De benamingen “herschikt” en “niet herschikt” moeten eerder geïnterpreteerd worden als “eventueel herschikt” en “eventueel niet herschikt”.
30
1
2
Figuur 3.2: Illustreert hoe gecontroleerd wordt op herschikkingen in twee gedupliceerde segmenten. (1) Wanneer beide genen upstream van het bestudeerde ankerpunt genpaar ook ankerpunten zijn en bovendien elkaars ankerpunt zijn, kan nog geen herschikking vastgesteld worden. (2) In het andere geval, wanneer de genen direct stroomopwaarts van de ankerpunten niet elkaars ankerpunt zijn, stelt men wel een herschikking vast.
Maar bovenstaande test geeft geen sluitend bewijs voor het al dan niet voorkomen van een herschikking. Want indien een genpaar geïnverteerd werd, moet nog gecontroleerd worden indien de nabije genen ook nog steeds elkaars ankerpunt zijn en of deze genen geïnverteerd werden in dezelfde inversiegebeurtenis (figuur 3.3).
En alleen als blijkt dat deze door
dezelfde inversie geïnverteerd werden, wordt besloten dat de promoterregio’s niet verstoord werden door herschikkingen.
31
Figuur 3.3: Een inversiecontrole neemt het gen in de promoterregio van het ankerpunt paar op het eerste segment (hier A) en zoekt het homologe gen op het tweede segment om de absolute positie van dat gen (positie 1) te kunnen vergelijken met de absolute positie (positie 2) van het gen van het bestudeerde ankerpunt paar op dat tweede genomisch segment (B). Enkel waneer positie 1 kleiner is dan positie 2 bij een negatieve orientatie van het eerste ankerpuntgen (groen De vanpromoterregio het ankerpunt verloopt A),inversie-controle zijn de genen in de vanpaar het bestudeerde ankerpuntpaar door dezelfde inversie geïnverteerd, op voorwaarde dat ook de orientatie van de genen in de promoterregio’s tegengesteld is.
3.3.6 Onderverdelen in type herschikkingen Herschikkingen spelen een belangrijke rol in de evolutie (Sankoff, 2003) en in deze thesis wordt de invloed van herschikkingen op divergentie van genexpressie nagegaan. Bij het onderverdelen van de ankerpuntgenen in een lijst van herschikte en niet herschikte ankerpunten, stellen zich echter een aantal problemen. Wanneer stroomopwaarts van een ankerpuntgen een pseudogen gevonden wordt, is het niet langer mogelijk om dit ankerpunt te klassificeren als wel of niet herschikt omdat niet geweten is of het gen in de promoterregio van het gen van het andere segment hier het ankerpunt van was of niet. Wanneer deze ankerpunten waren, zou het ankerpunt als niet herschikt moeten worden geïdentificeerd aangezien de promoter waarschijnlijk niet verstoord zal worden door het niet functioneel worden van het stroomopwaartse gen.
Want alhoewel selectie op het pseudogen zal
wegvallen, blijft de promoterregio van het ankerpuntgen aanwezig en onverstoord.
Om
rekening te kunnen houden met de aanwezigheid van dergelijke speciale gevallen, worden de genen die deel uitmaken van de herschikking ingedeeld in de groepen “pseudogen”, “TP” (transposon), “RNA” (RNA coderend) en “eiwitcoderende herschikkingen”. De mogelijkheid om deze gevallen te onderscheiden wordt toegevoegd aan het rearrangement_search.pl script. Een tweede probleem stelt zich in het begin en einde van een gedupliceerd segment. Als bijvoorbeeld het eerste gen een positieve oriëntatie bezit en ook een ankerpunt is, dan wordt deze als herschikt geïdentificeerd omdat het upstream gen geen ankerpunt vormt. Omdat de 32
informatie van het upstream gen niet in de gebruikte database aanwezig is, kan geen verdere indeling gebeuren op de type genen die deel uitmaken van de herschikking en de ankerpunten met + oriëntatie in het begin en – oriëntatie op het einde van de gedupliceerde segmenten worden daarom ingedeeld in de groep “RAND” en worden bij verdere berekeningen buiten beschouwing gelaten.
Figuur 3.4: Een insertie kan opgespoord worden wanneer slechts één van beide genen stroomopwaarts van het ankerpunt zelf geen ankerpunt is. A) Als het gen in de promoterregio van een ankerpuntgen zelf een ankerpunt is in A. thaliana en daarbij een homoloog heeft in populier, wordt aanvaard dat het homoloog met populier oorspronkelijk aanwezig was en dat het niet ankerpuntgen op het andere segment (hier segment 1 van A) na duplicatie geïnsereerd werd. B) Als één van de genen in de promoterregio van het bestudeerde ankerpuntgenpaar homoloog is met een gen van populier, maar zelf geen homoloog heeft in A. thaliana, wordt besloten dat het oorspronkelijke duplicaat verdwenen is (deletie).
33
Als laatste kan het type herschikking in eenvoudige gevallen verder onderzocht en geklassificeerd worden op basis van deleties of inserties in de promoterregio.
Deze
klassificatie wordt uitgevoerd met een perl script dat een lijst van “eenvoudige herschikkingen” selecteert en in die lijst zoekt naar deleties en inserties door een vergelijking te maken met gevonden homologen in populier (Populus trichocarpa).
Het script is
gebaseerd op het feit dat Arabidopsis en populier een gemeenschappelijk voorouder hebben, waarna ze apart zijn geëvolueerd. Pas na het ontstaan van beide organismen, heeft Arabidopsis thaliana zijn laatste genoomduplicatie ondergaan (3R) en als een gen uit Arabidopsis een homoloog bezit in populier, maar niet in Arabidopsis, wordt dit verklaard door een deletie van het duplicaat in Arabidopsis. Figuur 3.4 illustreert wat bedoeld wordt met deletie en insertie. Het zoeken naar deleties en inversies gebeurt enkel bij eenvoudige herschikkingen, waarbij slechts één van de promoterregio’s van de ankerpuntgenen eventueel herschikt is door slechts één insertie of één deletie. Bij meer complexe herschikkingen is het niet meer mogelijk te bepalen welke herschikking(en) zich hebben voorgedaan.
Een stroomopwaarts gen is geïnsereerd,
wanneer het geen homoloog heeft in populier én Arabidopsis, terwijl het stroomopwaartse gen op het andere segment wel een homoloog bezit in populier én Arabidopsis.
Een
stroomopwaarts gen is gedeleteerd, wanneer het stroomopwaartse gen op het andere segment wel een homoloog bezit in populier, maar niet in Arabidopsis.
3.3.7 Berekenen van de correlatie van genexpressie 3.3.7.1
Overzicht
Voor het berekenen van de correlaties van genexpressie, wordt microarray-data gebruikt. Een overzicht van de gebruikte microarray dataset is beschikbaar in bijlage A. De volledige dataset bestaat uit 153 Affymetrix GeneChip slides die tot 16 experimentreeksen behoren. Iedere reeks bestaat uit een aantal experimentele condities (aangeduid met “e”) en tenminste één controle-slide (aangeduid met “c”) die de wild type conditie (WT) voorstelt. De microarray data is publiek beschikbaar vanaf het “Nottingham Arabidopsis Stock Centre” (NASC, ZD). Volgende stappen worden ondernomen voor het vergelijken van de correlaties van genexpressie: –
Normalisatie van de microarray dataset dient om te corrigeren voor de systematische verschillen, zoals reeds werd toegelicht in de literatuurstudie. Bij het uitvoeren van de normalisatie wordt RMA gebruikt en deze wordt toegepast met R en bioconductor.
34
–
Unieke probe-ID’s voor de microarray data worden geselecteerd. Aan de hand van de gemeten intensiteitswaarden in de CEL-files wordt een waarde voor de expressie van de genen in de lijsten van herschikte en niet herschikte ankerpuntgenen bekomen. Het selecteren van probesets die uniek zijn voor één gen is noodzakelijk om cross-hybridisatie te vermijden.
–
Per experiment zijn een aantal slides aanwezig overeenkomstig met gekozen experimentele condities, waarbij elke slide tenminste éénmaal gerepliceerd is. Replicatie corrigeert voor de experimentele fout bij het uitvoeren van de hybridisatie (Draghici, 2003).
Van deze gerepliceerde experimenten wordt een gemiddeld
expressiesignaal berekend. Om te corrigeren voor effecten die het gevolg zijn van een variatie in technologie in plaats van een biologisch verschil tussen planten, wordt voor ieder gen bovendien de intensiteitswaarde van de wild type (controle-slide) afgetrokken van dat van de behandelde plant. De gebruikte dataset bestaat hierna uit 49 expressiewaarden per gen, terwijl de originele dataset met replicaten en controles 153 microarrays bevat verdeeld over 16 experimenten10. –
Een perl script11 overloopt de lijst van herschikte en niet herschikte ankerpunten en leest de genormaliseerde microarray data in om daarmee de spearman correlatiecoëfficiënt te berekenen. De correlatie geeft dan aan in welke mate de expressie van de ankerpuntgenen eenzelfde patroon volgen.
–
In de laatste stap worden de correlatie coëfficiënten vergeleken met behulp van R om te controleren of deze coëfficiënten significant verschillend zijn tussen de afzonderlijke lijsten met ankerpuntgenen.
3.3.7.2
RMA
RMA staat voor “robust multi-array average” en is een verkennende data analyse van de ruwe microarray data op het probe-niveau (Irizarry et al., 2003). Volgende bewerkingen worden door RMA analyse uitgevoerd: -
achtergrond correctie
-
normalisatie
-
log-transformatie van de PM waarden
10
Zie bijlagen op CD-ROM: dataset.pdf
11
zie bijlagen op CD-ROM: rearrangement_search >> rearrangement_search.pl
35
De door RMA gebruikte normalisatie, is “quantile normalisation” en het doel hiervan is het verwijderen van systematische verschillen tussen afzonderlijke microarray slides. Daartoe probeert men om de distributie van probe intensiteiten voor iedere array in een set van arrays identiek te maken (Bolstad et al., 2003; Irizarry et al., 2003). Het wordt dan mogelijk om de gen expressie waarden van die slides met elkaar te vergelijken (Irizarry et al., 2003). Log-getransformeerde waarden worden gebruikt voor de genexpressie door het variantie stabiliserende effect van deze transformatie.
3.4 Promoteranalyse van gedupliceerde genen In deze thesis wordt onderzocht of herschikkingen van gedupliceerde genen een invloed kunnen hebben op divergentie van genexpressie.
Een dergelijke herschikking kan de
promoterregio van ankerpuntgenen namelijk verstoren.
Deze verstoring kan onderzocht
worden door het vergelijken van de promoterregio’s van wel en niet herschikte ankerpuntgenen
waarbij
verwacht
wordt
dat
de
promoterregio’s
van
herschikte
ankerpuntgenen in mindere mate aligneerbaar zullen zijn dan die van niet herschikte ankerpuntgenen. De alignering van een ankerpunt genpaar gebeurt als volgt: –
2000 bp van de promoterregio van beide ankerpuntgenen worden geselecteerd, te beginnen vanaf het startcodon (startcodon zelf wordt niet geselecteerd). Wanneer het stroomopwaartse gen zich dichterbij bevindt dan 2000 bp, wordt enkel de sequentie tussen beide genen geselecteerd.
–
De geselecteerde promoterregio’s van beide ankerpuntgenen worden gealigneerd met de aligneringsmethode avid (Bray et al., 2003).
–
“Vista” neemt de output van avid en selecteert die regio’s die minimaal 70% identiek zijn aan elkaar over een minimale lengte van 10 bp en zet deze uit op een plot.
–
Aangezien sommige promoterregio’s geen 2000 bp lang zijn, wordt het aantal aligneerbare basenparen gedeeld door de lengte van de kleinste promoter om zo de aligneerbaarheid van de promoterregio’s vergelijkbaar te maken.
De berekende
waarde wordt het “% alignement” genoemd. –
Verdere analyse zoals het vergelijken van het % alignement van de verschillende lijsten met ankerpuntgenen wordt in R uitgevoerd:
Histogrammen worden getekend die het % alignement van de promoterregio’s vergelijkt voor herschikte en niet herschikte genparen om te controleren of 36
promoterregio’s van herschikte genparen minder geconserveerd zijn dan niet herschikte.
Het aantal gealigneerde basen voorstellen in functie van de Ks om de relatie tussen
de
leeftijd
van
de
gedupliceerde
genen
en
de
aligneerbaarheid/conservatie van de promoters na te gaan.
Het % alignement uitzetten in een densiteitsplot in functie van de correlatie van genexpressie om te onderzoeken of de genexpressies van ankerpunten genen met beter aligneerbare promoters meer gecorreleerd zijn.
37
4 Resultaten 4.1 Grootte van de ankerpunt groepen 4.1.1 Inleiding In deze thesis wordt gezocht naar groepen van Arabidopsis thaliana genen die samen gedupliceerd werden. Vervolgens worden deze ankerpuntgenen opgedeeld naargelang de eventuele aanwezigheid van structurele herschikkingen in hun upstream gebied.
Een
dergelijke herschikking kan de promoterregio wijzigen, en het is de invloed van dergelijke herschikkingen dat in dit onderdeel onderzocht wordt. Een verdere onderverdeling gebeurt naargelang het type gen dat aanwezig is in de directe stroomopwaartse omgeving van een ankerpuntgenpaar: -
Herschikte ankerpuntgenen: o
RNA: Eén van de directe stroomopwaartse genen codeert voor een functioneel RNA, zoals een tRNA.
o
TP: Eén van de directe stroomopwaartse genen codeert voor een transposeerbaar element.
o
Eiwitcoderend: Beide directe stroomopwaartse genen coderen voor een eiwit dat geen transposon activiteit vertoond.
-
Niet herschikte ankerpuntgenen: o
Pseudogen: Eén van de directe stroomopwaartse genen codeert voor een pseudogen.
o
Zonder pseudogen: Beide directe stroomopwaartse genen coderen voor een eiwit.
De groep met pseudogenen in de stroomopwaartse regio vormt een speciaal geval. Eénmaal een gen gepseudogeniseerd wordt, kan zijn sequentie snel divergeren wat de herkenning van een ankerpunt waartoe het pseudogen behoort moeilijker kan maken. Het is dan niet langer mogelijk om het bestudeerde ankerpunt te herkennen als wel of niet herschikt. Verwacht wordt dat bij niet herschikte ankerpunten met een pseudogen in hun upstream regio, de promotorregio niet aangetast wordt en de pseudogenisatie geen invloed heeft op divergentie van genexpressie. De onderverdeling van de groep met pseudogenen is een arbitraire keuze omdat niet geweten is of dit pseudogen deel heeft uitgemaakt van een
38
niet herschikt ankerpunt.
Bij de verdere analyses die uitgevoerd worden op de
bovenstaande groepen wordt hier rekening mee gehouden.
Ankerpuntgroepen voor 3R
Herschikt (1)
Niet herschikt (2)
RNA coderend (1.1)
met pseudogen (2.1)
TP coderend (1.2)
zonder pseudogen (2.2)
eiwit coderend (1.3)
Figuur 4.1: Dit stelt de onderverdeling van ankerpuntgroepen voor zoals die vergeleken worden in onderstaande analyses. Enkel ankerpunten van de 3R duplicatiegebeurtenis behoren tot deze groepen.
Enkel ankerpuntgenen van de 3R duplicatiegebeurtenis in A. thaliana worden in aanmerking genomen. Voor andere duplicatiegebeurtenissen is volgens de door ons gekozen methode onvoldoende data beschikbaar.
4.1.2 Overzicht van de ankerpunt groepen De gevonden groepen van ankerpuntgenen zijn niet allemaal even groot. Omdat het verschil in populatiegrootte belangrijk is voor de statistische analyse van de resultaten, worden de populatiegroottes in tabel 4.1 weergegeven. Type niet herschikte ankerpuntgenen
Aantal paartjes van ankerpunten
Totaal
256
Zonder pseudogenen in de promoterregio
225
Enkel met pseudogenen in de promoterregio
31
Type wel herschikte ankerpuntgenen
Aantal paartjes van ankerpunten
Totaal
1184
39
Zonder transposon of RNA gen in de
1058
promoterregio Met transposon in de promoterregio
61
Met RNA gen in de promoterregio
65
Herschikking door deletie in de promoterregio
6
Herschikking door insertie in de promoterregio
6
Tabel 4.1: In de rechterkolom zijn de populatiegroottes van de bekomen datasets weergegeven.
Hierbij moet nog opgemerkt worden dat het aantal herschikkingen door deletie en insertie enkel die situaties voorstellen, waarin een deletie of insertie nog eenvoudig herkend kan worden. Met andere inserties en deleties wordt geen rekening gehouden.
40
4.2 Correlatie van genexpressies Doel: Wat is de invloed van herschikkingen op de divergentie van genexpressie van ankerpuntgenen? Expressiedata van ankerpuntgenen wordt op grote schaal vergeleken, waarbij de nadruk gelegd wordt op het zoeken van verschillen in genexpressie tussen groepen van herschikte en niet herschikte ankerpuntgenen. Het vergelijken van de expressiedata gebeurt via de correlatiecoëfficiënt van de genexpressie van ankerpuntgenen. Deze coëfficiënt geeft weer in welke mate de expressie van beide ankerpuntgenen nog dezelfde is over alle bestudeerde microarray experimenten. De distributie van de correlatie coëfficiënten
wordt vergeleken met behulp van ANOVA
(“analysis of variance”) voor de verschillende groepen in figuur 4.1.
De analyse wordt
uitgevoerd voor ankerpunten met een Ks waarde die overeenstemt met de laatste duplicatieronde in Arabidopsis thaliana (3R) omdat enkel voor die ronde voldoende data bekomen werd. De Ks-waarde van de geanalyseerde ankerpuntgenen voor 3R ligt tussen 0,4 en 1,0. De anova-test gaat na of de nulhypothese kan verworpen worden (H0 = de distributie van de correlatie coëfficiënten is gelijk). Deze test wordt niet 1 maal, maar 10 000 maal uitgevoerd op gesampelde populaties.
De nulhypothese voor de totale populatie wordt verworpen
indien de nulhypothese in meer dan 95 % van het aantal sample testen verworpen kan worden. Het grote verschil in populatiegrootte van de verschillende datasets (zie tabel 4.1) vraagt om een speciale aanpak. Populaties met een te groot verschil in populatiegrootte kunnen niet meer op een statistisch correcte manier vergeleken worden. De oplossing is het gebruik van “sampling” (staalname), waarbij de kleinere dataset vergeleken wordt met een even grote dataset die bekomen werd door het random samplen van de grotere dataset. De grootte van de gebruikte datasets zijn dan gelijk en de analyse leidt tot een betrouwbaar besluit. Bij het vergelijken van de groepen ankerpunten, worden deze telkens met een nummer zoals in figuur 4.1 weergegeven wordt.
4.2.1 Analyse van alle herschikte en alle niet herschikte ankerpuntgenen In deze analyse worden alle herschikte (groep 1) en alle niet herschikte (groep 2) ankerpuntgenen vergeleken. De lijst met herschikte ankerpunten bevat genpaartjes met een
41
eiwitcoderend, RNA coderend of TP (transposon) coderend gen in de upstream regio van het ankerpunt genpaar. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1 en 2 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1 en 2 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 5433 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Herschikte ankerpunten (groep 1)
Niet herschikte ankerpunten (groep 2)
0,306 ± 0,273
0,255 ± 0,287
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 54,33% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
5433 0,95 10000
4.2.2 Analyse van herschikte en niet herschikte ankerpuntgenen Bij deze analyse wordt enkel rekening gehouden met de ankerpunten die herschikt werden met een eiwitcoderend gen (groep 1.3) en met de niet herschikte ankerpunten zonder pseudogen (groep 2.2) in de promoterregio. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.3 en 2.2 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.3 en 2.2 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 2995 / 10000 testen
42
Gemiddelde correlatie coëfficiënt van één sample test Herschikte ankerpunten (eiwitcoderende
Niet herschikte (zonder pseudogenen) (groep
herschikking) (groep 1.3)
2.2)
0,303 ± 0,271
0,259 ± 0,295
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 29,95% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
2995 0,95 10000
4.2.3 Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte ankerpunten (eiwitcoderende herschikking). Enkel de niet herschikte ankerpuntgenen met een pseudogen (groep 2.1) in het upstream gebied worden vergeleken met de ankerpunten die herschikt zijn en geen transposon of RNA coderend gen bevatten in hun upstream gebied (groep 1.3). ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 2.1 en 1.3 is gelijk H1 = de correlatiecoëfficiënt voor groepen 2.1 en 1.3 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 1244 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Niet herschikte ankerpunten (enkel met
Herschikte ankerpunten (herschikking enkel
pseudogen in promoterregio) (groep 2.1)
door eiwitcoderende genen) (groep 1.3)
0,231 ± 0,227
0,303 ± 0,271
43
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 12,44% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
1244 0,95 10000
4.2.4 Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte ankerpunten (RNA coderende herschikking). Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een RNA coderend gen bevat (groep 1.1), worden vergeleken met de ankerpunt genpaartjes die een pseudogen bezitten in hun upstream gebied (groep 2.1). ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.1 en 2.1 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.1 en 2.1 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 2660 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Niet herschikte ankerpunten (enkel met
Herschikte ankerpunten (herschikking enkel
pseudogen in promoterregio) (groep 2.1)
door RNA-coderende genen) (groep 1.1)
0,231 ± 0,227
0,306 ± 0,273
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 26,60% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
2660 0,95 10000
44
4.2.5 Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte ankerpunten (transposon coderende herschikking). Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een transposon coderend gen bevat (groep 1.2), worden vergeleken met de ankerpunt genpaartjes die een pseudogen bezitten (groep 2.1) in hun upstream gebied. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.2 en 2.1 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.2 en 2.1 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 1218 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Niet herschikte ankerpunten (enkel met
Herschikte ankerpunten (herschikking enkel
pseudogen in promoterregio) (groep 2.1)
door transposon-coderende genen) (groep 1.2)
0,231 ± 0,227
0,315 ± 0,248
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 12,18% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
1218 0,95 10000
4.2.6 Analyse
van
herschikking)
herschikte en
ankerpunten
herschikte
(RNA
ankerpunten
coderende
(eiwitcoderende
herschikking). Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een RNA coderend gen bevat (groep 1.1), worden vergeleken met de ankerpunt genpaartjes die enkel eiwitcoderende genen bevat (groep 1.3) in hun upstream gebied. 45
ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.1 en 1.3 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.1 en 1.3 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 3293 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Herschikte ankerpunten (enkel met RNA-
Herschikte ankerpunten (herschikking enkel
coderende gen(en) in promoterregio; groep
door eiwitcoderende genen; groep 1.3)
1.1) 0,306 ± 0,273
0,303 ± 0,271
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 32,93% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
3293 0,95 10000
4.2.7 Analyse van herschikte ankerpunten (TP coderende herschikking) en niet herschikte ankerpunten (zonder pseudogenen). Deze analyse vergelijkt de herschikte ankerpunten met een transposon (groep 1.2) in hun upstream gebied met de niet herschikte ankerpunten zonder pseudogenen (groep 2.2) in hun upstream gebied. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.2 en 2.2 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.2 en 2.2 is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten
46
1017 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Herschikte ankerpunten (enkel met TP-
Niet herschikte ankerpunten (zonder
coderende gen(en) in promoterregio; groep
pseudogenen; groep 2.2)
1.2) 0,315 ± 0,248
0,259 ± 0,295
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 10,17% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
1017 0,95 10000
4.2.8 Analyse van herschikte ankerpunten (TP coderende herschikking) en herschikte ankerpunten (RNA coderende herschikking). Deze analyse vergelijkt de herschikte ankerpunten met een transposon in hun upstream gebied (groep 1.2) met de herschikte ankerpunten die een RNA coderend gen in hun upstream regio (groep 1.1) bezitten. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen 1.2 en 1.1 is gelijk H1 = de correlatiecoëfficiënt voor groepen 1.2 en 1.1 is niet gelijk
47
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 0 / 10000 testen Gemiddelde correlatie coëfficiënt van één sample test Herschikte ankerpunten (met TP-coderende
Herschikte ankerpunten (met RNA-coderende
gen(en) in promoterregio; groep 1.2)
gen(en) in promoterregio; groep 1.1)
0,315 ± 0,248
0,306 ± 0,273
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 0% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
0 0,95 10000
4.2.9 Analyse van herschikte ankerpunten die herschikt werden door deletie in vergelijking tot die die herschikt werden door insertie. Deze analyse vergelijkt herschikte ankerpunt genpaartjes naargelang de wijze van herschikking, namelijk insertie of deletie. De onderstaande resultaten zijn weinig betrouwbaar, aangezien beide datasets slechts 6 ankerpunt genpaartjes groot zijn. Voor de volledigheid worden de bekomen resultaten toch vermeld, alhoewel men moet opletten met het interpreteren van deze resultaten. ANOVA: hypothesen H0 = de correlatiecoëfficiënt voor groepen met deleties en groepen met inserties is gelijk H1 = de correlatiecoëfficiënt voor groepen met deleties en groepen met inserties is niet gelijk
Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten 0 / 10000 testen
48
Gemiddelde correlatie coëfficiënt van één sample test Herschikt door deletie
Herschikt door insertie
0,274 ± 0,360
0,518 ± 0,300
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 0% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.
0 0,95 10000
49
4.3 Promoter-onderzoek. 4.3.1 Inleiding Met dit promotoronderzoek wordt nagegaan of de aligneerbaarheid van de promotorregio’s een rol speelt in de correlatie van genexpressie van een ankerpunt genpaar. Verwacht wordt dat bij herschikkingen van gedupliceerde genen de promotorregio verstoord wordt en daardoor divergentie van genexpressie optreedt.
In dat geval verwacht men dat een
verstoring van de promotorregio herkend kan worden door een verlaging van de aligneerbaarheid van de upstream regio. Ver worden bij oudere duplicatiegebeurtenissen meer herschikkingen en dus een lagere aligneerbaarheid van de promotorregio’s verwacht.
4.3.2 Vergelijken van de aligneerbaarheid van het upstream gebied. Doel: Zorgen herschikkingen voor een verlaging van de aligneerbaarheid van de upstream regio van ankerpunten? Door het verschil is populatiegrootte van de datasets, wordt opnieuw gebruik gemaakt van sampling. ANOVA: hypothesen H0 = de % aligneerbaarheid voor groepen met herschikkingen en groepen zonder herschikkingen is gelijk H1 = de % aligneerbaarheid voor groepen met herschikkingen en groepen zonder herschikkingen is niet gelijk
Aantal testen die duiden op significant verschil tussen de aligneerbaarheid van de promoterregio’s 340 / 10000 Gemiddelde % aligneerbaarheid Herschikt (groep 1)
Niet herschikt (groep 2)
0,456 ± 0,090 %
0,451 ± 0,090 %
50
Grafiek 4.1 toont de aligneerbaarheid van de promoterregio’s voor herschikte en niet herschikte ankerpunt genpaartjes, waarbij de % aligneerbaarheid weergeeft in welke mate de promoterregio’s van beide ankerpuntgenen aligneerbaar zijn en de frequentie de hoeveelheid ankerpunt genpaartjes weergeeft met die aligneerbaarheid (uitgedruk in procenten omdat de populatiegroottes verschillend zijn).
60
frequentieie
niet herschikte ankerpunten herschikte ankerpunten
50 40 30 20 10 0 10
20
30
40
50
60
70
80
90
100
% aligneerbaarheid Grafiek 4.1: De grafiek stelt de aligneerbaarheid van de promoterregio’s van herschikte en niet herschikte ankerpunten voor.
Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk 3,40% van de sample testen een significant verschil in % aligneerbaarheid gevonden wordt. De % aligneerbaarheid van de promotorregio’s van beide groepen ankerpuntgenen zijn gelijk.
340 0,95 10000 Dit resultaat wordt grafisch voorgesteld in grafiek 4.1 waar beide curves eenzelfde verloop volgen.
51
4.3.3 Verband tussen de aligneerbaarheid van de promoterregio’s en de leeftijd van duplicatie Doel: Is er een correlatie tusen de leeftijd van duplicatie en de aligneerbaarheid van de promotorregio’s van ankerpunten? Verwacht wordt dat de aligneerbaarheid van een gedupliceerd genpaar afneemt naarmate de duplicatie zich langer geleden voordeed en meer herschikkingen zijn opgetreden. Om dit te onderzoeken wordt in de volgende grafieken de % aligneerbaarheid uitgezet in functie van de Ks (synonieme substituties per synonieme site), die een maat is voor de leeftijd van de duplicatiegebeurtenis. In tegenstelling tot de vorige analyses, die zich beperkten tot 3R ankerpunten, wordt voor deze analyse gebruik gemaakt van de volledige groep ankerpuntgenen. Een Ks cutoff van 5 wordt gebruikt om verstoring van de grafieken door outliers tegen te gaan.
De aligneerbaarheid van de promotorregio's van gedupliceerde herschikte genpaartjes in functie van de leeftijd van de duplicatie (Ks) voor Ks < 5. 5 4,5 4 3,5 Ks
3 2,5 2 1,5 1 0,5 0 0
10
20
30
40
50
60
70
80
% aligneerbaarheid van de promotorregio's
Grafiek 4.2: In de x-as staat de relatieve aligneerbaarheid van de promoterregio’s van de ankerpuntgenen, met andere woorden het aantal gealigneerde basen gedeeld door de lengte van de sequenties die vergeleken werden. In de y-as staat de overeenkomstige leeftijd van duplicatie van het ankerpunt genpaar, uitgedrukt in Ks. Deze grafiek bestudeerdt enkel de herschikte gedupliceerde genpaartjes.
52
De aligneerbaarheid van de promotorregio's van gedupliceerde niet herschikte genpaartjes in functie van de leeftijd van de duplicatie (Ks) voor Ks < 5. 4 3,5 3
Ks
2,5 2 1,5 1 0,5 0 0
10
20
30
40
50
60
70
80
% aligneerbaarheid van de promotorregio's
Grafiek 4.3: In de x-as staat de relatieve aligneerbaarheid van de promoterregio’s van de ankerpuntgenen, met andere woorden het aantal gealigneerde basen gedeeld door de lengte van de sequenties die vergeleken werden. In de y-as staat de overeenkomstige leeftijd van duplicatie van het ankerpunt genpaar, uitgedrukt in Ks. Deze grafiek bestudeerdt enkel niet herschikte gedupliceerde genpaartjes.
Besluit: Grafieken 4.2 en 4.3 tonen dat de aligneerbaarheid van de promotorregio’s van ankerpuntgenen niet wijzigt in functie van de leeftijd van hun duplicatie.
4.3.4 De aligneerbaarheid van de promoterregio’s in functie van de correlatie van genexpressie. Doel: Is de correlatie van genexpressie van ankerpuntgenen hoger voor ankerpunten met beter aligneerbare promotorregio’s? Verwacht wordt dat een hogere correlatie van genexpressie gecorreleerd is met beter aligneerbare
promoterregio’s
van
ankerpuntgenen.
Dit
wordt
onderzocht
in
de
densiteitsplots van grafiek 4.4 waarbij donkerder kleuren een hogere densiteit van datapunten voorstellen.
Op de X-as staat de % aligneerbaarheid.
De correlatie van
genexpressie op de Y-as is een maat voor de divergentie van genexpressie van ankerpuntgenen nadat ze ontstaan zijn door duplicatie.
53
54
Grafiek 4.4: De densiteitsplots vergelijken de aligneerbaarheid van de promoterregio’s (x-as) van de ankerpuntgenen met de correlatie van genexpressie van de ankerpuntgenen (y-as).
Besluit: Uit grafiek 4.4 blijkt, in tegenstelling tot wat verwacht wordt, dat de correlatie van genexpressie van ankerpuntgenen niet gecorreleerd is met de aligneerbaarheid van hun promotorregio’s.
55
5 Discussie 5.1 Correlatie van genexpressie De belangrijkste groepen van ankerpuntgenen die bestudeerd werden, zijn de groep met herschikte en de groep met niet herschikte ankerpuntgenen.
Bij de sample testen met
ANOVA kan de nulhypothese niet verworpen worden en moet men dus besluiten dat verstoringen in de stroomopwaartse regio geen invloed hebben op de correlatie van genexpressie. Indien bij herschikkingen de promoterregio van de ankerpunten aangetast zou worden, verwacht men voor gewijzigde (herschikte) promoterregio’s van ankerpunten een lagere aligneerbaarheid van de promoters evenals gedaalde correlatie van genexpressie. Het feit dat het belang van een eventuele verstoring van de promotorregio voor divergentie van genexpressie niet kan aangetoond worden in dit onderzoek, betekent dat de globale genomische context van een genpaar waarschijnlijk belangrijker is voor de expressie van hun genen dan een eventuele verstoring van de promoterregio. Hierbij wordt bijvoorbeeld gedacht aan het verschil in expressie bij eu- versus heterochromatine, aan de invloed van genomische locaties zoals telomeren, centromeren en aan histon versus interhiston gelocaliseerde genen. Een verschil in correlatie van genexpressie tussen in groep gedupliceerde genen (ankerpunten) en op kleine schaal gedupliceerde genen werd reeds aangetoond (Casneuf et al., 2006). Bij ANOVA testen tussen andere groepen van ankerpuntgenen wordt hetzelfde resultaat gevonden. Te weinig ANOVA testen12 duiden op een verschil in correlatie van genexpressie en de nulhypothese (correlatie coëfficiënten zijn gelijk) kan niet verworpen worden. De correlatie van genexpressie Bij het vergelijken van herschikkingen door insertie met herschikkingen door deletie wordt gevonden dat de correlatie coëfficiënt tussen beide groepen opnieuw gelijk is (0 / 10000 ANOVA testen duiden op een verschil). Ook in dit geval kan de nulhypothese niet verworpen worden en moet ze aanvaard worden. Voorzichtigheid is hier geboden gezien de beperkte populatiegrootte van beide groepen ankerpuntgenen.
12
De precieze hoeveelheden staan vermeld in het onderdeel “resultaten”.
Omdat het om
verschillende groepen gaat, wordt naar het onderdeel “resultaten” verwezen in plaats van het aantal hier expliciet te vermelden..
56
5.2 Promoter onderzoek De aligneerbaarheid van de promoterregio’s van ankerpuntgenen werd met ANOVA en sampling vergeleken voor herschikte en niet herschikte ankerpuntgenen.
De resultaten
tonen dat de nulhypothese niet kan verworpen worden, de aligneerbaarheid van beide groepen is dus gelijk.
Slechts 3,4 % van de sample testen toont een verschil in
aligneerbaarheid, wat onvoldoende is om te besluiten dat de aligneerbaarheid verschillend is. De plots met de % aligneerbaarheid in functie van de Ks tonen, tegen de verwachtingen in, aan dat de leeftijd van een ankerpunt (Ks) geen invloed heeft op de aligneerbaarheid van zijn promoterregio’s. Verwacht wordt dat naarmate de duplicatiegebeurtenissen langer geleden hebben plaatsgevonden, de aligneerbaarheid afneemt. Dit is niet af te leiden uit figuren 4.2 en 4.3. De mogelijkheid bestaat dat de duplicatiegebeurtenissen te lang geleden hebben plaatsgevonden om een vergelijking van de aligneerbaarheid van de promoterregio’s toe te laten aangezien de promoters reeds te veel gedivergeerd zijn. De densiteitplots met de “% aligneerbaarheid” in functie van de correlatie van genexpressie tonen dat de correlatie van genexpressie van een ankerpunt genpaar niet gecorreleerd is met de aligneerbaarheid van de promoterregio’s van dat genpaar. De methode die gebruikt wordt voor het onderzoeken van de aligneerbaarheid van de promotorregio’s is avid.
Het onderzoeken van de promotorregio’s met avid geeft
onverwachte resultaten en alternatieve methoden voor promotoranalyse kunnen gebruikt worden om de resultaten te verifiëren.
Alternatieve methoden kunnen andere zaken in
rekening brengen. Als voorbeeld hierbij kan men aanhalen dat avid veronderstelt dat de aligneerbare sequenties in dezelfde volgorde en oriëntatie voorkomen en de methode legt zo een beperking op zijn praktische toepassing (Bray et al., 2003).
Aligneerbare, maar
getransloceerde of geïnverteerde sequenties worden gewoon genegeerd. Een
mogelijke
verklaring
duplicatiegebeurtenissen.
voor
de
gevonden
resultaten
is
de
leeftijd
van
de
Indien de promotors van de ankerpuntgenen reeds sterk
gedivergeerd zijn, zal hun aligneerbaarheid misschien niet langer correleren met de leeftijd van
duplicatie.
Wanneer
ankerpuntgenen
duplicatiegebeurtenis van een andere plant
13
13
van
een
zéér
recente
grootschalige
bestudeerd wordt, kan een relatie tussen de
De in deze thesis bestudeerde grootschalige duplicatiegebeurtenis 3R in Arabidopsis thaliana is de
meest recente in deze plant. Voor meer recente grootschalige duplicaties kan dus enkel een beroep gedaan worden op andere planten.
57
leeftijd van duplicatie en de aligneerbaarheid van promotorregio’s eventueel wel gevonden worden.
5.3 Besluit Dit thesisonderzoek toont aan dat herschikkingen van gedupliceerde genen na een grootschalige duplicatiegebeurtenis niet verantwoordelijk zijn voor een verlaging van correlatie van genexpressie. Bovendien is de ouderdom van de duplicatiegebeurtenis (Ks) niet gecorreleerd met de aligneerbaarheid van de promoterregio’s van de ankerpuntgenen voor die ankerpuntgenen van de laatste duplicatieronde (3R) in A. thaliana of is dit niet meer zichtbaar door divergentie van de promoterregio’s.
Ook is voor de ankerpunten geen
correlatie tussen de aligneerbaarheid van de promoterregio’s en de correlatie van genexpressie vastgesteld.
58
6 Bijlagen 6.1 Bijlage A: microarray dataset De dataset bevat 153 microarrays die tot 16 experimentreeksen behoren, bestaande uit een aantal experimentele condities ("e") met telkens tenminste één controle-slide ("c", de wild type). Alle microarrays zijn publiek beschikbaar vanaf het "Nottingham Arabidopsis Stock Centre" (NASC). Experiment Slide Naam
Slide type
correspondeert met controle…
1 A1.MILL.AIR.CEL A1.MILL.AIR.REP2.CEL A2.MILL.ETH.CEL A2.MILL.ETH.REP2.CEL A3.MILL.LL.CEL A3.MILL.LL.REP2.CEL A4.MILL.AIR.REP3.CEL A5.MILL.ETH.REP3.CEL A6.MILL.LL.REP3.CEL
c1 c1 e1 e1 e2 e2 c1 e1 e2
2 A10.Warre.Wca.CEL A11.Warre.6ca.CEL A12.Warre.6ca.CEL A13.Warre.3ca.CEL A14.Warre.3ca.CEL A15.Warre.2ca.CEL A16.Warre.2ca.CEL A17.Warre.Wdr.CEL A18.Warre.Wdr.CEL A19.Warre.6dr.CEL A1.Warre.Wna.CEL A20.Warre.6dr.CEL A2.Warre.Wna.CEL A3.Warre.6na.CEL A4.Warre.6na.CEL A5.Warre.3na.CEL A6.Warre.3na.CEL A7.Warre.2na.CEL A8.Warre.2na.CEL A9.Warre.Wca.CEL
e1 e6 e6 e9 e9 e4 e4 e2 e2 e7 c1 e7 c1 e5 e5 e8 e8 e3 e3 e1
c1 c1 c1 c1 c1 c1 c1 c1 c1 c1
3 A1.Wilson.mla.CEL A2.Wilson.mlb.CEL A3.Wilson.lea.CEL A4.Wilson.Ler.CEL A1.GVB.Rep1.CEL A1.Wilson.Rep2.CEL
e1 e2 c1 c2 e1 e1
c1 c2
c1 c1 c1 c1 c1 c1
c1 c1 c1 c1 c1 c1 c1 c1
c1 c1
59
A2.GVB.Rep1.CEL A2.Wilson.Rep2.CEL A3.GVB.Rep1.CEL A3.Wilson.Rep2.CEL A4.GVB.Rep1.CEL A4.Wilson.Rep2.CEL
e2 e2 c1 c1 c2 c2
c2 c2
4 A1.WARRE.WTC.2..CEL A2.WARRE.WTW.CEL A3.WARRE.S6C.CEL A4.WARRE.S6W.2..CEL A5.WARRE.S2C.new..CEL A6.WARRE.S2W.CEL
c1 c1 e1 e1 e2 e2
c1 c1 c1 c1
5 Control.3.new.CEL Control.4..CEL Heat.3.new.CEL Heat.4..CEL Sen.3.new.CEL Sen.4..CEL
c2 c2 e3 e3 e4 e4
c2 c2 c2 c2
6 A1.1.cornah.icl.CEL A1.2.cornah.icl.CEL A1.3.cornah.icl.CEL A2.1.cornah.irv.CEL A2.2.cornah.irv.CEL A2.3.cornah.irv.CEL A3.1.cornah.msx.CEL A3.2.cornah.msx.CEL A3.3.cornah.msx.CEL A4.1.cornah.wsx.CEL A4.2.cornah.wsx.CEL A4.3.cornah.wsx.CEL
e1 e1 e1 e2 e2 e2 e3 e3 e3 c1 c1 c1
c1 c1 c1 c1 c1 c1 c1 c1 c1
7 A1.LLOYD.POH.CEL A2.LLOYD.POH.CEL A3.LLOYD.POH.CEL A4.LLOYD.CON.CEL A5.LLOYD.CON.CEL A6.LLOYD.CON.CEL
e1 e1 e1 c1 c1 c1
c1 c1 c1
8 A10.grevi.AT1.CEL A11.grevi.AT2.CEL A12.grevi.AT3.CEL A1.grevi.CC1.CEL A2.grevi.CC2.CEL A3.grevi.CC3.CEL A4.grevi.AC1.CEL A5.grevi.AC2.CEL A6.grevi.AC3.CEL A7.grevi.CT1.CEL A8.grevi.CT2.CEL
e3 e3 e3 c1 c1 c1 e1 e1 e1 e2 e2
c1 c1 c1
c1 c1 c1 c1 c1
60
A9.grevi.CT3.CEL
e2
9 A1.Heggi.CAG.CEL A2.Heggi.CEG.CEL A3.Heggi.HAG.CEL A4.Heggi.HEG.CEL A5.Heggi.CAW.CEL A6.Heggi.CEW.CEL A7.Heggi.HAW.CEL A8.Heggi.HEW.CEL
c1 e3 e2 e1 c1 e3 e2 e1
c1
c1 c1 c1 c1 c1 c1
10 A1.jones.WT1.CEL A2.jones.WT2.CEL A3.jones.rh1.CEL A4.jones.rh2.CEL
c1 c1 e1 e1
11 A1.deeke.tum.CEL A2.deeke.Inf.CEL A3.deeke.tum.CEL A4.deeke.Inf.CEL
e1 c1 e1 c1
c1
12 A1.MUT.Top1.CEL A2.MUT.Top2.CEL A3.MUT.Base1.CEL A4.MUT.Base2.CEL A5.Turner.WT.Top1.CEL A6.WT.Top2.CEL A7.WT.Base1.CEL A8.WT.Base2.CEL
e1 e1 e2 e2 c1 c1 c2 c2
c1 c1 c2 c2
13 A1.Fille.WT.nodex.CEL A2.Fille.WT..dex.CEL A3.Fille.ANGR4.12.CEL A4.Fille.ANGR4.12.dex.CEL A5.Fille.WTnodex.CEL A6.Fille.WT.dex.CEL A7.Fille.ANGR4.12nodex.CEL A8.Fille.ANGR4.12.dex.CEL
c1 e1 e2 e3 c1 e1 e2 e3
14 A10.Smith.17.CEL A11.Smith.21B.CEL A1.Smith.21A.CEL A2.Smith.22.CEL A3.Smith.23.CEL A4.Smith.1.CEL A5.Smith.5.CEL A6.Smith.8.45.CEL A7.Smith.10.CEL A8.Smith.11.CEL A9.Smith.13.CEL A10.smith.20h.CEL A11.smith.24h.CEL
c10 c1 c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c1
c1 c1
c1
c1 c1 c1 c1 c1 c1 c9 c10 c10 c1 c2 c3 c4 c5 c6 c7 c8 c9 c10
61
c1 c2 c3 c4 c5 c6 c7 c8 c9
c10 c1 c2 c3 c4 c5 c6 c7 c8
15 A10.Bwoll.Col2.CEL A1.Bwoll.COG.CEL A2.Bwoll.C5G.CEL A3.Bwoll.COS.CEL A4.Bwoll.CSS.CEL A5.BwolINGI.CEL A6.Bwoll.NG2.CEL A7.Bwoll.E11.CEL A8.Bwoll.E12.CEL A9.Bwoll.Col1.CEL
e4 c1 e1 c1 e1 e2 e2 e3 e3 e4
c1
16 A1.WILLA.CON.CEL A2.WILLA.ISOX.CEL A1.willa.CON.REP2.CEL A1.willa.CON.REP3.CEL A2.willa.ISOX.REP2.CEL A2.willa.ISOX.REP3.CEL
c1 e1 c1 c1 e1 e1
A1.smith.00h.CEL A2.smith.01h.CEL A3.smith.02h.CEL A4.smith.04h.CEL A5.smith.08h.CEL A6.smith.12h.CEL A7.smith.13h.CEL A8.smith.14h.CEL A9.smith.16h.CEL
c1 c1 c1 c1 c1 c1 c1
c1
c1 c1
62
6.2 Bijlage B: Lijst met afkortingen – ANOVA Analysis Of Variance: – BLAST Basic Local Alignment Search Tool – GHM Gene Homology Matrix: De homologie matrix die door i-ADHoRe gebruikt worden voor het opsporen van in groep gedupliceerde genen. – Ks Het aantal synonieme substituties per synonieme site. Een synonieme substitutie is hierbij een mutatie op veelal de derde positie van een codon die niet voor een gewijzigde aminozuursequentie zorgt. – MM Mismatch: een probe bij de Affymetrix genechips die enkel in het middelste nucleotide niet complementair is met de sequentie van het overeenkomstige gen. – PCR Polymerase Chain Reaction – PM Perfect Match: een probe bij de Affymetrix genechips die volledig complementair is met de sequentie van het overeenkomstige gen. – TIGR The Institute of Genomic Research: Een “non-profit” centrum voor de ontcijfering en analyse van genomische data. – TP Transposon: Een element die zichzelf kan kopiëren naar een andere positie in een genoom. – ZD Zonder Datum: aanduiding bij referenties zonder datum
63
6.3 Bijlage C: CD-ROM De CD-ROM met bijlagen bevindt zich in een hoesje dat op de achterkaft van deze bundel is gekleefd. De CD-ROM bevat de files die vermeld worden in de tekst, alsook een pdf-versie van deze thesis.
64
7 Referenties 1.
Adams, K.L., and J.F. Wendel. 2005. Polyploidy and genome evolution in plants. Current Opinion Plant Biology 8:135-41.
2.
Affymetrix. ZD. Affymetrix GeneChip array technology [Online]. Available by Affymetrix Inc. http://www.affymetrix.com/technology/index.affx.
3.
Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman. 1990. Basic local alignment search tool. J Mol Biol 215:403-10.
4.
Arabidopsis Genome Initiative. 2000. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 408:796-815.
5.
Bolstad, B.M., R.A. Irizarry, M. Astrand, and T.P. Speed. 2003. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics 19:185-93.
6.
Bray, N., I. Dubchak, and L. Pachter. 2003. AVID: A global alignment program. Genome Res 13:97-102.
7.
Butte, A. 2002. The use and analysis of microarray data. Nat Rev Drug Discov 1:951-60.
8.
Casneuf, T., S. De Bodt, J. Raes, S. Maere, and Y. Van de Peer. 2006. Nonrandom divergence of gene expression following gene and genome duplications in the flowering plant Arabidopsis thaliana. Genome Biol 7:R13.
9.
Coe, B., and C. Antler. ZD. Spot your Genes - An Overview of the MicroArray [Online] http://bioteach.ubc.ca/MolecularBiology/microarray/index.htm.
10. Draghici, S. 2003. Data analysis tools for DNA microarrays Chapman & Hall/CRC, Boca Raton. 11. Force, A., M. Lynch, F.B. Pickett, A. Amores, Y.L. Yan, and J. Postlethwait. 1999. Preservation of duplicate genes by complementary, degenerative mutations. Genetics 151:1531-45. 12. Gentleman, R.C., V.J. Carey, D.M. Bates, B. Bolstad, M. Dettling, S. Dudoit, B. Ellis, L. Gautier, Y. Ge, J. Gentry, K. Hornik, T. Hothorn, W. Huber, S. Iacus, R. Irizarry, F. Leisch, C. Li, M. Maechler, A.J. Rossini, G. Sawitzki, C. Smith, G. Smyth, L. Tierney, J.Y. Yang, and J. Zhang. 2004. Bioconductor: open software development for computational biology and bioinformatics. Genome Biol 5:R80. 13. Gregory T. 2005. The evolution of the genome Elsevier Inc. 14. Gu, Z., L. Steinmetz, X. Gu, C. Scharfe, R. Davis, and W. Li. 2003. Role of duplicate genes in genetic robustness against null mutations. Nature 421:63-66. 15. Gu Z., Steinmetz LM, Gu X, Scharfe C., Davis RW, and Li WH. 2003. Role of duplicate genes in genetic robustness against null mutations. Nature 421:63-66. 16. Haldane, J.B.S. 1933. The Part Played by Recurrent Mutation in Evolution. The American Naturalist 67:5-19. 65
17. Henikoff, S., and J.G. Henikoff. 1992. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89:10915-9. 18. Hurst, D.L. 2002. The Ka/Ks ratio: diagnosing the form of sequence evolution. TRENDS in Genetics 18:486-487. 19. Irizarry, R.A., B. Hobbs, F. Collin, Y.D. Beazer-Barclay, K.J. Antonellis, U. Scherf, and T.P. Speed. 2003. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics 4:249-64. 20. Koszul, R., S. Caburet, B. Dujon, and G. Fischer. 2004. Eucaryotic genome evolution through the spontaneous duplication of large chromosomal segments. Embo Journal 23:234-43. 21. Long, M., E. Betrán, K. Thornton, and W. Wang. 2003. The origin of new genes: glimpses from the young and old. Nature Reviews Genetics 4:865-875. 22. NASC. ZD. Nottingham http://www.arabidopsis.info/.
Arabidopsis
Stock
Centre
[Online]
23. Needleman, S.B., and C.D. Wunsch. 1970. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol 48:44353. 24. Ohno S. 1970. Evolution by Gene Duplication Springer Verlag., New York. 25. Prince, V.E., and F.B. Pickett. 2002. Splitting pairs: the diverging fates of duplicated genes. Nat Rev Genet 3:827-37. 26. Quackenbush, J. 2001. Computational analysis of microarray data. Nature Reviews Genetics 2:418-27. 27. Rost, B. 1999. Twilight zone of protein sequence alignments. Protein Engineering 12:85-94. 28. Sankoff, D. 2003. Rearrangements and chromosomal evolution. Current Opinion in Genetics & Development 13:583-7. 29. Simillion, C. 2005. Documentation for i-ADHoRe v2.0. VIB - Ghent University. 30. Simillion, C., K. Vandepoele, Y. Saeys, and Y. Van de Peer. 2004. Building genomic profiles for uncovering segmental homology in the twilight zone. Genome Research 14:1095-106. 31. Simillion, C., K. Vandepoele, M.C. Van Montagu, M. Zabeau, and Y. Van de Peer. 2002. The hidden duplication past of Arabidopsis thaliana. Proceedings of the National Academy of Sciences 99:13627-32. 32. Smith, T.F., and M.S. Waterman. 1981. Identification of common molecular subsequences. Journal of Molecular Biology 147:195-7. 33. Spring, J. 2003. Major transitions in evolution by genome fusions: from prokaryotes to eukaryotes, metazoans, bilaterians and vertebrates. Journal of Structural and Functional Genomics 3:19-25.
66
34. Taylor, J.S., and Raes, J. 2005. Small-Scale Gene Duplications, p. 289-327, In G. T. R., ed. The evolution of the genome. Elsevier Inc. 35. The Institute for Genomic Research. ZD. The Institute for Genomic Research [Online] http://www.tigr.org. 36. Van de Peer, Y. 2005. GGS Course in Bioinformatics [Online]. Available by UGent http://bioinformatics.psb.ugent.be/intranet.php. 37. Van de Peer Y., and Meyer A. 2005. Large-Scale Gene and Ancient Genome Duplications, p. 329-368, In G. T., ed. The evolution of the genome. Elsevier Inc.
67