1
DOELSTELLING ............................................................................................................ 3
2
INTRODUCTIE ............................................................................................................... 4 2.1 METHODEN VOOR HET DETECTEREN VAN PROTEÏNE – PROTEÏNE INTERACTIES ............ 4 2.1.1 Yeast 2 Hybrid ........................................................................................................ 4 2.1.2 Tandem affinity purification (TAP) ........................................................................ 6 2.1.3 Co-Immunoprecipitation ........................................................................................ 8 2.1.4 Cross-linkage ......................................................................................................... 9 2.1.5 Protein Affinity Chromatography......................................................................... 11 2.1.6 Andere methoden voor het detecteren van proteïne – proteïne interacties.......... 12 2.1.7 Conclusie .............................................................................................................. 13 2.2 METHODEN VOOR IDENTIFICATIE VAN EIWITTEN....................................................... 15 2.2.1 Matrix Assisted Laser Desorption Ionisation – Time Of Flight Massaspectormetrie (MALDI-TOF)................................................................................. 15 2.3 GENE ONTOLOGY (VERSIE 05:09:2006) .................................................................... 16 2.4 HOMOLOGEN, ORTHOLOGEN EN PARALOGEN ........................................................... 17 2.5 METEN VAN GENEXPRESSIE ....................................................................................... 19 2.5.1 Microarrays .......................................................................................................... 19 2.6 MODELORGANISMEN ................................................................................................. 24 2.6.1 Arabidopsis thaliana ............................................................................................ 24 2.6.2 Drosophila melanogaster ..................................................................................... 25 2.6.3 Homo sapiens ....................................................................................................... 26 2.6.4 Saccharomyces cerevisiae .................................................................................... 26
3
MATERIAAL EN METHODEN.................................................................................. 28 3.1 DATABASES MET INFORMATIE OVER PROTEÏNE – PROTEÏNE INTERACTIES ................. 28 3.1.1 BIND: Biomolecular Interaction Network Database ........................................... 28 3.1.2 IntAct .................................................................................................................... 29 3.1.3 DIP: Database of Interacting Proteins ................................................................ 29 3.1.4 Overzicht .............................................................................................................. 30 3.2 COMBINEREN VAN INTERACTIEDATABANKEN ........................................................... 30 3.2.1 Uniprotkb:swissprot+trembl ................................................................................ 31 3.2.2 Ensembl ................................................................................................................ 31 3.2.3 Tair ....................................................................................................................... 31 3.2.4 OrthoMCL ............................................................................................................ 32 3.3 EXPRESSIEDATA ........................................................................................................ 34 3.4 CYTOSCAPE 2.3.2 ...................................................................................................... 35 3.5 GEBRUIKTE TECHNIEKEN .......................................................................................... 36 3.5.1 Vergelijken van twee sets GO labels .................................................................... 36 3.5.2 Berekenen van de co-expressie correlatie ............................................................ 38 3.5.3 Verschillen weergeven tussen random combinaties en een echte dataset ........... 38
4
STRATEGIE................................................................................................................... 41
5
RESULTATEN ............................................................................................................... 43 5.1 BOUWEN VAN DATASETS MET INTERACTIEDATA ....................................................... 43 5.2 IDENTIFICATIE VAN GECONSERVEERDE INTERACTIES ................................................ 45 5.3 PREDICTIE OP BASIS VAN ORTHOLOGE RELATIES ....................................................... 47 5.4 VALIDATIE OP BASIS VAN GO SIMILARITEIT .............................................................. 49 5.4.1 GO: Cellular Component (Arabidopsis thaliana) ................................................ 49 5.4.2 GO: Biological Process (Arabidopsis thaliana) .................................................. 51 1/86
VALIDATIE OP BASIS VAN EXPRESSIECORRELATIE ..................................................... 53 5.5 5.5.1 Testen van de impact van de gebruikte expressiedataset ..................................... 53 5.5.2 Validatie op basis van co-expressie ..................................................................... 56 5.6 ONTWIKKELEN VAN HET PREDICTIEPROGRAMMA ...................................................... 63 6
DISCUSSIE ..................................................................................................................... 70 6.1 6.2 6.3 6.4 6.5 6.6
BOUWEN VAN DATASETS MET INTERACTIEDATA ....................................................... 70 IDENTIFICATIE VAN GECONSERVEERDE INTERACTIES ................................................ 72 PREDICTIE OP BASIS VAN ORTHOLOGE RELATIES ....................................................... 73 VALIDATIE OP BASIS VAN GO SIMILARITEIT .............................................................. 74 VALIDATIE OP BASIS VAN EXPRESSIECORRELATIE ..................................................... 75 ONTWIKKELEN VAN HET PREDICTIEPROGRAMMA ...................................................... 77
7
PERSPECTIEVEN ........................................................................................................ 78
8
REFERENTIES .............................................................................................................. 80
9
APPENDICES ................................................................................................................ 83 9.1 9.2 9.3
HET SPI FILE FORMAAT ............................................................................................. 83 LIJST MET GEBRUIKTE AFKORTINGEN ........................................................................ 85 VERKLARENDE WOORDENLIJST ................................................................................. 86
2/86
1 Doelstelling
Proteïnen gaan binnen een cel interacties aan met andere proteïnen. Door deze interacties ontstaan proteïnecomplexen die, als moleculaire machines, ingewikkelde biologische processen voor hun rekening nemen zoals: histon modificaties, ATP synthese, DNApolymerisatie, … Bovendien zijn er veel proteïnen die in dimere vorm voorkomen of, als deel van een signalisatie-pathway, andere proteïnen (de)fosforyleren, ubiquitinileren, acetyleren, …
Het kennen van deze interacties is cruciaal voor het begrijpen van celbiologische
processen en om inzicht te krijgen in de structuur en werking van deze moleculaire machines. Hoewel er reeds meerdere methoden beschikbaar zijn voor het experimenteel detecteren van deze interacties, blijft het een zeer omslachtige, kostelijke en tijdrovende zaak. Daarom is het zeer waardevol om over een techniek te beschikken, die deze interacties computationeel kan voorspellen. Het doel van deze thesis is het ontwikkelen van een dergelijke techniek. Hiervoor dient er eerst te worden getoetst of interacties tussen proteïnen geconserveerd zijn in een aantal modelorganismen waarover reeds voldoende experimentele data beschikbaar is. Vervolgens wordt een programma geschreven dat op basis hiervan predicties kan doen. Tenslotte worden een aantal methodes ontwikkeld en getest om deze predicties te valideren.
3/86
2 Introductie
2.1 Methoden voor het detecteren van proteïne – proteïne interacties In veel gevallen is het van belang te weten welke proteïnen onderling interacties aangaan. Om deze interacties experimenteel aan te tonen zijn er meerdere technieken ontwikkeld, elk met een eigen toepassingsgebied. Hier volgt een algemene beschrijving van de meest courante methoden en hun specifieke voor- en nadelen.
2.1.1 Yeast 2 Hybrid (http://www.iscid.org/encyclopedia/Yeast_2_Hybrid_Assay ) Opvallend aan deze techniek is dat er met een in vivo gistsysteem gewerkt wordt. cDNA coderend voor een proteïne wordt in een plasmide in frame geligeerd na de sequentie van de activator van een reporter gen (prey). cDNA coderend voor een ander (of eventueel hetzelfde) proteïne wordt in een ander plasmide in frame geligeerd na de sequentie van het DNA bindend domein (bait). Na transformatie van deze plasmiden in gist zullen hier 2 fusieeiwitten tot expressie komen. Een alternatief is in een a-stam één plasmide transformeren, in een α-stam het andere en deze 2 stammen laten “maten” (Young 1998; Legrain, Wojcik et al. 2001). Deze laatste methode geniet de voorkeur bij grootschalige experimenten gezien het aantal transformaties op deze manier beduidend lager is. Indien beide proteïnen een interactie aangaan zullen de transcriptie activator en het DNA bindend domein voldoende dicht met elkaar in contact zijn om de transcriptie van het reporter gen te activeren. Als reportergenen worden meestal prototrofe merkers gebruikt zoals LEU2 of HIS3. Stammen die na het “maten” geen interagerend proteïne paar dragen zullen niet kunnen overleven op een medium zonder respectievelijk leucine of histidine.
4/86
Gezien deze techniek volledig geautomatiseerd kan worden, zijn er een aantal grote experimenten, die duizenden interacties hebben getest met deze methode. Voor Saccharomyces cerevisiae zijn er door Ito (Ito, Tashiro et al. 2000) en Uetz (Uetz, Giot et al. 2000) duizenden interacties bepaald. Door Formstecher (Formstecher, Aresta et al. 2005), Stanyon (Stanyon, Liu et al. 2004) en Giot (Giot, Bader et al. 2003) is er een gelijkaardig grootschalig experiment gedaan voor Drosophila melanogaster. Opvallend is de beperkte overlap tussen deze experimenten. Dit doordat er verschillende plasmiden werden gebruikt, met andere fusie-eiwitten als resultaat. Door verschil in opvouwing kan dit tot gemiste interacties leiden. Ook is de strategie verschillend (aantal reportergenen en welke types) hierdoor zijn niet alle experimenten even stringent. Onvermijdelijk onstaan er ook verschillen door de onnauwkeurigheden van de Yeast 2 Hybrid methode zelf.
Figuur 1 Schematische voorstelling van de werking van het Y2H systeem, BD is “binding domain” en AD is “activating domain”.
Nadelen:
•
Moeilijk bruikbaar voor onderzoek naar interacties met transcriptie activatoren en membraan gebonden eiwitten.
•
Een vals positief resultaat kan voorkomen indien auto-activatie optreedt, dit gebeurt als het eiwit + DNA bindend domein rechtstreeks een interactie aangaan met het transcriptie activerend deel van het fusie-eiwit en niet met het aangehechte eiwit.
•
Overexpressie van het proteïne kan leiden tot associatie met eiwitten die onder natuurlijke omstandigheden geen interactie aangaan (zoals proteasoom eiwitten en hitteshock proteïnen).
•
Men verwacht tot 50% vals positieven bij gebruik van deze methode omwille van hoger vermelde redenen. (Sprinzak, Sattath et al. 2003)
•
Indien er bij het inbrengen van het cDNA in de vector een frame shift mutatie optreedt is er kans op een vals negatief. Ook kan de 3D structuur van het fusie-eiwit een
5/86
interactie onmogelijk maken. Dit kan echter vermeden worden door het experiment voldoende te herhalen. •
Het kan dat er tot 70% reële interacties gemist worden (Liu, Liu et al. 2005).
Voordelen:
•
Er bestaan high-throughput toepassingen van deze techniek die het toelaten om automatisch grote hoeveelheden interacties geautomatiseerd te testen.
2.1.2 Tandem affinity purification (TAP) Oorspronkelijk was deze methode niet ontwikkeld om proteïne - proteïne interacties aan te tonen, maar om actieve proteïne complexen te zuiveren (Puig, Caspary et al. 2001). Er worden hier dus complexen gedetecteerd; in tegenstelling tot de Yeast 2 Hybrid methode waar binaire interacties worden opgepikt. (zie 2.1.1) Deze methode labelt één proteïne (het target proteïne) met een “TAP-tag” (Figuur 2), dat voor optimaal resultaat, in normale hoeveelheden moet voorkomen in de cellen. De “TAP-tag” bestaat uit 2 IgG bindings domeinen van Staphylococcus aureus proteïne A (prot A) en een calmoduline bindend eiwit (CBP). Van mekaar gescheiden door een TEV protease knipplaats. Er bestaan versies voor zowel N als C-terminale aanhechting van de tag.
C-terminal TAP tag N
CBP
TEV
ProtA
C
N-terminal TAP tag N
ProtA
TEV
CBP
EK
C
Figuur 2 Schematische voorstelling van de N en C terminale TAP-tag.
6/86
Figuur 3 Werking TAP
De eerste zuiveringsstap gebeurt over een matrix met IgG, het ProtA domein bindt hier zó sterk aan, dat het complex pas lost na toevoeging van TEV protease. Men kan dus eerst contaminanten wegspoelen uit de matrix, hierna protease toevoegen en deze fractie van het eluens opvangen. De 2de zuiveringsstap gebeurt op een calmoduline matrix; het calmoduline bindend domein zal hier aan de matrix binden. Hierdoor kunnen resterende contaminanten en het protease worden weggespoeld. Na het spoelen van de matrix kan het complex van de kolom worden geëlueerd met EGTA (Figuur 3). De eiwitten gekoppeld aan het target proteïne kunnen geïdentificeerd worden met MALDITOF, … (zie 2.2)
7/86
Door Gavin (Gavin, Aloy et al. 2006) zijn voor Saccharomyces cerevisiae reeds op een genoomwijde schaal TAP experimenten gedaan. Men vond deze methode zeer nauwkeurig gezien de meeste in de literatuur beschreven complexen werden teruggevonden.
Nadelen:
•
Het “TAP-tag” kan zo in de structuur van het eiwit verwerkt zijn dat het niet kan binden aan de matrices. Het is ook mogelijk dat de aanwezigheid van het label de expressie beïnvloedt. Meestal zijn deze twee euvels op te lossen door gebruik te maken van een N terminaal label in plaats van een C terminaal of visa versa.
•
Het gelabeld of geassocieerd proteïne bevat een sequentie die door het TEV protease geknipt wordt. Dit komt in de praktijk echter bijna nooit voor.
•
Endogeen calmoduline kan binden met het calmoduline bindend domein van het label waardoor het gelabeld proteïne en geassocieerde proteïnes niet meer binden aan de calmoduline matrix. Door tijdens de eerste zuiveringsstap te spoelen met EGTA, kan dit worden vermeden.
•
Target proteïne moet in natuurlijke concentratie voorkomen, om geen onnatuurlijke associaties met hitteshock en proteasoom eiwitten door overexpressie te bekomen.
Voordelen:
•
Kan geautomatiseerd worden. Mogelijkheid tot high-throughput.
•
Erg betrouwbare methode. Weinig valse negatieven en valse positieven.
2.1.3 Co-Immunoprecipitation Deze klassieke methode om proteïne - proteïne interacties aan te tonen werd reeds vaak gebruikt. Het concept is vrij simpel, na lyse van de cellen wordt aan het ruwe lysaat een antilichaam toegevoegd tegen het gewenste proteïne. Het antigeen slaat neer samen met geassocieerde proteïnen (Phizicky and Fields 1995). Achteraf kunnen de proteïnen in het complex gezuiverd en geïdentificeerd worden met bijvoorbeeld massaspectrometrische methoden (zie 2.2). 8/86
Nadelen:
•
Er dienen, liefst monoclonale, antilichamen gemaakt te worden tegen het target proteïne. Door een “epitope-tag” aan het eiwit te hechten en een antilichaam tegen deze tag te gebruiken, kan dit worden omzeild.
•
Moeilijk om na te gaan of de interactie ook in de cel voorkomt en niet ontstaan is door lyse.
•
Minder gevoelig dan affiniteitchromatografie
Voordelen:
•
De proteïnen zijn in dezelfde relatieve hoeveelheden in het lysaat aanwezig, waardoor onnatuurlijke interacties door overexpressie vermeden worden. Hierdoor heeft de test een ingebouwde specificiteitscontrole, in het lysaat is de competitie tussen bindingspartners identiek aan die in de cel zelf.
•
Neergeslagen complexen bevinden zich nog in de natuurlijke conformatie, die in vitro niet altijd terug opgebouwd kan worden.
2.1.4 Cross-linkage De twee proteïnen worden fysiek aan mekaar gebonden met een splitsbaar molecule R-S-SR’, waarbij R en R’ reacties kunnen aangaan met aminozuren van de proteïnen. Hierna wordt er een scheiding gedaan door middel van een chromatografie. De proteïnen die een interactie aangingen zijn nu effectief met elkaar verbonden en bewegen als 1 spot. Hierna wordt er een reducerend agens toegevoegd om de disulfide brug te splitsen en wordt een 2de gel elektroforese uitgevoerd in een 2de dimensie. Vervolgens zullen spots, die origineel uit een complex bestonden, uit elkaar vallen in meerdere spots, die sneller bewegen dan in de eerste elektroforese. Proteïnen zonder cross-linkage bewegen zich even snel als in de eerste elektroforese en vormen een diagonaal (Phizicky and Fields 1995).
9/86
Figuur 4 Voorbeeld van een gel. Merk op dat alle proteïnen zonder interacties op de diagonaal liggen.
Figuur 5 Werking van het cross-linking experiment
Nadelen:
•
Detecteert proteïnen die dicht in de buurt zijn, dit zijn niet noodzakelijk proteïnen die direct met elkaar interageren.
Voordelen:
•
Detecteert zelfs zeer zwakke interacties die met andere methoden verloren gaan.
10/86
•
Kan tijdelijke interacties detecteren door ze vast te “vriezen”.
•
In vivo bruikbaar met membraanpermeabele cross-linkers.
2.1.5 Protein Affinity Chromatography Hierbij wordt één proteïne covalent gebonden op een matrix (bijvoorbeeld een separose kolom). Als men dan een proteïne extract door de kolom laat lopen zullen alle proteïnen die interageren met het aan de matrix gebonden proteïne, niet te elueren zijn met een zoutoplossing met lage concentratie. Proteïnen die vastgehouden worden zijn hierna weg te wassen met een zoutoplossing met hoge concentratie (Phizicky and Fields 1995). Eventueel kunnen in een volgende stap ook cofactoren worden geëlueerd met Sodium Dodecyl Sulfate (SDS) of een chaotroop solvent.
Figuur 6 Werking Affiniteits Chromatografie
11/86
Nadelen:
•
Zó gevoelig dat soms dermate zwakke interacties worden teruggevonden, die in vivo eigenlijk geen fysiologisch belang hebben.
•
Vals positieven kunnen ontstaan door interacties omwille van lading.
•
Vals positieven kunnen ook ontstaan door een interactie aangegaan met een proteïne dat op zichzelf al een interactie aangaat met de matrixproteïnen.
Voordelen:
•
Zeer gevoelige methode
•
Eiwitten komen voor in dezelfde relatieve hoeveelheden als in de cel, dus de competitie tussen meerdere eiwitten voor een bepaalde bindingspartner is hetzelfde.
2.1.6 Andere methoden voor het detecteren van proteïne – proteïne interacties Er zijn nog meerdere technieken om proteïne - proteïne interacties aan te tonen, in de praktijk komen deze echter minder courant voor, daarom volgt er hier slechts een korte opsomming en geen beknopte beschrijving (Droit, Poirier et al. 2005).
•
Interacties aangetoond met behulp van 3D structuren.
•
Split-ubiquitin systeem: Vergelijkbaar systeem met yeast 2 hybrid, maar toepasbaar op membraangebonden eiwitten.
•
Sedimentatie experimenten.
•
Peptide array: een directere methode om de biochemische activiteit van proteïnen te meten in een microarray experiment.
•
Surface Plasmon Resonance (SPR): Proteïnen veranderen de brekingsindex in hun nabije omgeving, deze techniek maakt hiervan gebruik om de interacties te detecteren.
12/86
2.1.7 Conclusie Door de automatiseerbaarheid van de yeast 2 hybrid (2.1.1) en TAP (2.1.2) zijn er veel interacties binnen de databanken (zie 3.1) terug te vinden (Grafiek 1 tot en met 4) die met deze methoden aangetoond zijn. Voor het aantonen van binaire interacties is yeast 2 hybrid de meest gebruikte methode en is voor elk organisme meer dan de helft van de gekende interacties met deze methode gedetecteerd. Met de klassieke co-immunoprecipitatie (2.1.3) zijn er telkens vrij veel interacties aangetoond. Andere technieken zijn niet of nog niet automatiseerbaar. Hierdoor is er dus enkel data uit relatief kleinschalige experimenten.
13/86
Arabidopsis thaliana
Drosophila melanogaster
Homo sapiens
Saccharomyces cerevisiae
Grafiek 1 Aantal interacties per gebruikt experiment
14/86
2.2 Methoden voor identificatie van eiwitten De volgende methode is hier beschreven omdat ze een belangrijk werktuig is in de zoektocht naar proteïne - proteïne interacties. Binnen vele methoden worden de eiwitten die interageren met een gekend proteïne, het bait genoemd, gezuiverd. Na zuivering dienen deze componenten te worden geïdentificeerd.
2.2.1 Matrix Assisted Laser Desorption Ionisation – Time Of Flight Massaspectormetrie (MALDI-TOF) Hier wordt het te onderzoeken eiwit gefragmenteerd, in een UV-absorberende matrix gebracht en vervolgens met een laser bestraald. Door deze bestraling zullen deze fragmenten ioniseren. Deze ionen worden door het magnetische veld van een vluchtbuis gejaagd. De tijd die de geïoniseerde fragmenten erover doen om de afstand in de buis af te leggen komt overeen met hun verhouding tussen massa en lading. Indien de fragmentatie door middel van een enzyme is gebeurd (meestal trypsine) zal er een soort fingerprint (voor trypsine een tryptic map genaamd) ontstaan die door vergelijking met een database tot identificatie van het eiwit kan leiden. Is de fragmentatie echter mechanisch uitgevoerd kan uit het patroon de aminozuursequentie informatie worden afgeleid. Deze informatie kan worden vergeleken met het genoom (indien gesequeneerd en geannoteerd) om via deze weg tot identificatie van het proteïne te komen. Deze techniek laat toe zeer snel een proteïne te identificeren. De limiterende stap van het onderzoek is meestal het zuiveren van de proteïnen (Shoemaker and Panchenko 2007).
15/86
2.3 Gene Ontology (versie 05:09:2006) Gene Ontology (www.geneontology.org) is een beperkt vocabularium voor de beschrijving van de cellulaire component, het biologisch proces en de moleculaire functie van een eiwit. Elk van de 21 617 ‘woorden’ binnen dit vocabularium heeft niet alleen een eigen unieke code meegekregen
maar
ook
een
verwijzing
naar
‘woorden’
die
een
algemenere
locatie/proces/functie beschrijven via een ‘is a’ en ‘part of’ relatie (Harris, Clark et al. 2004) (Figuur 18 toont deze relaties voor een subset van de graph). Een ontologie kan dus voorgesteld worden in een graph waar elke node, in tegenstelling tot een boom, meerdere ouders kan hebben. Zo is de beschrijving van een proteïne minder subjectief en wordt het vergelijken
van
beschrijvingen
van
meerdere
proteïnen
vereenvoudigd
en
zelfs
automatiseerbaar (zie ook 3.5.1).
Tabel 1 Aantal proteïnen met GO labels binnen verschillende datasets
Dataset Arath_unique Drome_unique Human_unique Yeast_unique
Proteïnen met GO 673 7842 7838 4896
Totaal 711 9832 10929 5744
Tabel 2 Voorbeeld van een proteïne met zijn GO labels
Entry name
GCN5_YEAST
Accession number
Q03330
Cellular
Ada2/Gcn5/Ada3 transcription activator
component
complex
Cellular
SAGA complex
GO:0000124
SLIK (SAGA-like) complex
GO:0046695
Molecular function
histone acetyltransferase activity
GO:0004402
Molecular function
transcription coactivator activity
GO:0003713
Biological process
histone acetylation
GO:0016573
GO:0005671
component Cellular component
16/86
2.4 Homologen, Orthologen en Paralogen Om met een pas gesequeneerd genoom een robuuste classificatie van genen te maken op basis van hun evolutie, of om een correcte functionele annotatie te doen is het nodig om een duidelijke definitie te hebben voor homologen, orthologen en paralogen. De term homoloog verscheen het eerst in 1843, waar Richard Owen hem gebruikte om hetzelfde orgaan in verschillende dieren aan te geven, ongeacht de vorm of functie. Dit was verschillend van een analoog wat hij omschreef als een deel of orgaan van een organisme wat dezelfde functie heeft als een ander deel of orgaan in een ander dier. Dit kan geïllustreerd worden met het volgende voorbeeld: onze handen, de flippers van een dolfijn en de vleugels van een vleermuis zijn homologen van elkaar, hetzelfde orgaan maar met een andere functie. De vleugels van een vleermuis en de vleugels van een vlieg zijn echter analogen, dezelfde functie maar een volledig verschillend orgaan. Dit werd na het verschijnen van Darwins Origin of Species in 1859 snel in verband gebracht met evolutie. Pas een eeuw later begon men na te denken over hoe men homologe en analoge genen en proteïnen kon onderscheiden. Hier werden homologen gedefinieerd als genen (en dus ook hun genproducten) die een gemeenschappelijke voorouder hebben. Deze definitie bleek te algemeen en er werden in 1970 twee nieuwe begrippen naar voren geschoven namelijk ortholoog en paraloog (Fitch 1970). Orthologen zijn genen ontstaan uit één enkel ancestraal gen in de recentste gemeenschappelijke voorouder van de twee vergeleken genomen. Paralogen werden gedefinieerd als genen die met elkaar verwant zijn door een duplicatie. Dus zoals in Figuur 7 zijn genen Xa, Xb, Xc1 en Xc2 afkomstig van een ancestraal gen X uit de laatste gemeenschappelijke voorouder (Last Common Ancestor: LCA) en zijn dus allemaal homoloog. Xa en Xb kunnen worden beschouwd als orthologen omdat ze zijn ontstaan door een speciatiegebeurtenis. Xc1 en Xc2 zijn paralogen, ontstaan uit een duplicatie die gebeurde na speciatie.
17/86
Figuur 7 Hypothetische boom om begrippen ortholoog en paraloog te illustreren
Men kan naast orthologen ook co-orthologen beschouwen, dit zijn één of meerdere genen in een bepaalde tak van de boom die een orthologe relatie hebben met één of meerdere genen in een andere tak. In Figuur 7 zijn volgens deze definitie Xc1 en Xc2 co-ortholoog met Xa en Xb. Paralogen kunnen verder opgesplitst worden in in- en uit-paralogen. Het verschil is dat de duplicatie respectievelijk gebeurde na of voor de speciatie. Men neemt momenteel aan dat orthologen een gelijkwaardige functie vervullen, maar er zijn uitzonderingen. Het is echter theoretisch te verklaren en experimenteel aangetoond dat orthologen equivalente functies vervullen in de organismen waar ze voorkomen (Koonin 2005).
18/86
2.5 Meten van genexpressie Wil men weten of een gen tot expressie komt, zal men dit meten aan de hand van mRNA niveaus binnen een staal. Hier wordt steeds mRNA beschouwd en niet de eiwitconcentraties omdat er een aantal moeilijkheden zijn bij het rechtstreeks meten van eiwitten. Tussen de minst en meest abundante eiwitten zijn er concentratieverschillen van meerdere grootteorden. Bovendien zijn eiwitten erg fragiel, waar mRNA kan omgezet worden naar cDNA via een reverse transcriptase wat stabieler is (Stoughton 2005). Met behulp van microarrays is het mogelijk om op grote schaal deze mRNA niveaus te meten (Draghici 2003).
2.5.1 Microarrays (Draghici 2003)
2.5.1.1 Toepassingsgebied De mogelijke toepassingen van microarrays zijn erg ruim. Hoofdzakelijk worden ze gebruikt voor onderzoek naar de werking van levende cellen. Interessante experimenten zijn het vergelijken van de genexpressie in gezonde en zieke weefsels, verschillende weefsels onderling, de ontwikkeling van een weefsel gedurende een bepaalde periode, de wijziging van de genexpressie door toevoeging van een bepaalde stof aan het weefsel (vb. Interferon). Ook is het mogelijk om een organisme zoals gist in verschillende milieus en temperaturen op te laten groeien en een microarray te maken voor elke toestand. Men verwacht dat genen die in dezelfde toestanden sterk up of down gereguleerd zijn in hetzelfde proces betrokken zijn (“guilt by association”). Zo is het mogelijk met behulp van microarrays een idee te krijgen van de functie van een ongekend gen. Andere mogelijke toepassingen zijn sequentiebepaling en het opsporen van single nucleotide polymorphismen (SNPs).
19/86
2.5.1.2 Productie Er zijn 2 technieken waarmee een microarray gemaakt kan worden, de eerste maakt gebruik van (c)DNA fragmenten, de tweede is in situ synthese van DNA.
2.5.1.2.1 cDNA microarrays Het gewenste DNA wordt meestal via PCR-amplificatie van gewenste cDNA-clones afzonderlijk bereid. Hierna wordt kleine hoeveelheden DNA gespot op de microarray-chip; dit kan automatisch met behulp van een robot. Het voordeel van deze methode is dat er, in tegenstelling tot in situ synthese, lange DNA fragmenten gespot kunnen worden (zoals een volledig gen).
2.5.1.2.2 In situ synthese Hier wordt door middel van fotolithografie, “ink jet technology” of electrochemische synthese direct op de microarray chip een klein oligonucleotide gesynthetiseerd. Het grote voordeel hiervan is dat de sequentie van elke spot perfect gekend is, dit is met cDNA microarrays meestal niet het geval. Op deze manier kan men ook expressie van nauw verwante genen onderscheiden door een oligo te synthetiseren tegen een uniek deel van de sequentie.
2.5.1.2.3 Affymetrix Deze producent van microarrays maakt een uitgebreid gamma microarrays die commercieel verkrijgbaar zijn. Zij maken gebruik van fotolithografische technieken om korte oligo’s van 26 baseparen in situ te synthetiseren. Hier worden
per gen meerdere probes over de
microarray verspreid en komt een probe steeds voor naast een mismatch probe die in het midden in één nucleotide verschilt. De expressiewaarde is de gemiddelde waarde van de verschillende perfecte match probes min de waardes van de overeenkomstige mismatch probes.
20/86
Figuur 8 Affymetrix' GeneChips
2.5.1.3 Gebruik Bij eukaryoten zal men meestal mRNA zuiveren uit een bepaald weefsel. Dit gezuiverde mRNA wordt met een reverse transcriptase en een primer tegen de poly-A staart omgezet naar cDNA. Door middel van een fluorescente of radioactieve merker dient dit cDNA te worden gemerkt. Hierna kan dit gemerkte cDNA aangebracht worden op een microarray chip. Waar hybridisatie mogelijk is zal dit gebeuren en zal er bij het analyseren van de chip een spot zichtbaar worden. De intensiteit van de spot is een maat voor de hoeveelheid mRNA aanwezig in het weefsel. Er kan gebruik gemaakt worden van 2 verschillende kleuren fluorescente merker (cfr. één voor een gezonde cel en een andere voor een kankercel) bij het maken van cDNA uit 2 verschillende bronnen. Deze worden vervolgens gespot op 1 microarray. Afhankelijk van de kleur (groen, rood of de mengkleur geel) zal dan een gen down of up gereguleerd zijn of in beide bronnen tot expressie komen (Figuur 9). Dit is erg handig voor paarsgewijs vergelijkende studies. Daarnaast kunnen ook one-color arrays worden gebruikt. Hier wordt niet vergeleken tussen twee weefsels/condities/… maar wordt het expressieprofiel van één weefsel onder één conditie gemeten (Figuur 10). Hierbij kan dit experiment herhaald worden voor een ander
21/86
weefsel en/of een andere conditie en daarna deze resultaten met elkaar te vergelijken. Deze D laatste methode wordt voor Arabidopsis gebruikt.
Figuur 10 Array met één kleur, achteraf bijgewerkt rode spots zijn sterk aanwezig, blauwe minder
Figuur 9 twee kleuren array
2.5.1.4 Analyse + interpretatie Na hybridizatie van het cDNA op de chip wordt deze gescand. gescand De intensiteit van de spots in deze
scan
kan
softwarematig
geanalyseerd
worden
en
omgezet
worden
naar
expressiewaarden. Zeer belangrijk is dat mRNA NA concentraties worden gemeten; de echte expressie van een gen is echter de aanwezige hoeveelheid actief proteïne.. Meestal hangt dit sterk samen met de concentratie mRNA maar zeker niet altijd. Het H is mogelijk dat proteïnen een aantal postpost translationele veranderingen,, zoals glycosylaties, phosphorylaties, … ondergaan voordat ze actief worden. Microarrays zijn hier ‘blind’ voor.
2.5.1.4.1 Bronnen van variatie en fouten fou Microarrays zijn zeer gevoelig aan variatie, in elke stap van van het productieproces en bereiding van gemerkt emerkt cDNA uit een weefsel, weefsel kunnen kleine variaties optreden.. Niet alleen in de productie maar ook bij het spotten van cDNA op de microarray zit er eenn variatie op, doordat er kleine fluctuaties zitten op de hoeveelheid vloeistof die wordt gespot. Cross-hybridisatie,
22/86
een cDNA die met een probe hybridiseert die niet ontwikkeld is voor het gen, zorgt ook voor fouten. Stofdeeltjes en beperkingen van de scanner zorgen voor artefacten, … De enige oplossing hiervoor is het experiment voldoende te herhalen en verschillende probes tegen hetzelfde gen te plaatsen op de microarray. Voorafgaand aan de normalisatie is een verwerkingsstap nodig zoals het nemen van een logaritme van de waarden. De logaritmes van de expressiewaarden liggen dichter bij mekaar dan de expressiewaarden zelf. Hierdoor is de variantie op de logaritmes een stuk kleiner dan die van de expressiewaarden zelf. Bovendien is de distributie van de logaritmes bijna normaal verdeeld. Vervolgens kan de normalisatie tussen verschillende microarray experimenten, eventueel zelfs met andere types microarrays worden genormaliseerd. Dit kan op meerdere manieren, er is momenteel nog geen consensus over welke de aangewezen methode is. Een eenvoudige methode om dit te doen is alle expressie waarden te delen door het gemiddelde van die array of indien er reeds het logaritme van deze waarde is genomen het logaritme van het gemiddelde aftrekken. Indien mogelijk kan men ook controle spots/genen op elke microarray aanbrengen die het volledige gamma van intensiteiten bedekken. Indien een controlespot op microarray A 2x zo intens is als die op microarray B dan zal men alle waarden van microarray A met een vergelijkbare intensiteit door 2 delen. Voor het uitvoeren van deze berekeningen werd reeds software ontwikkeld. GCOSv4, software door Affymetrix ontwikkeld, of Bioconductor (Gentleman, Carey et al. 2004) kan bijvoorbeeld gebruikt worden voor de normalisatie en analyse van microarrays. Zo werd voor de AtGenExpress Tissues (3.3) de RMA (Robust Multi-array Average) normalisatie van Bioconductor gebruikt.
23/86
2.6 Modelorganismen In de wetenschap zijn er verschillende modelorganismen die aan de basis liggen van verschillende experimenten. Er wordt voor deze organismen gekozen om meerdere redenen; ze moeten makkelijk en goedkoop te verzorgen zijn, liefst niet te groot worden zodat in een kleine ruimte veel exemplaren kunnen worden gehouden. Voor genetische experimenten is het ook belangrijk dat ze een korte generatiecyclus hebben, gezien bij het maken van homozygote mutanten, knock-out of knock-in dieren altijd de resultaten pas na enkele generaties worden bekomen. Ook is het voor genetici belangrijk dat het aantal genen niet te uitgebreid is en het genoom niet te groot is (zeker in de beginfase van sequentieanalyse). In deze thesis wordt onderzocht of proteïne – proteïne interacties voor Arabidopsis thaliana te voorspellen zijn door middel van gekende interacties in andere organismen. Deze gekende interacties zijn hoofdzakelijk afkomstig uit grootschalige studies met gist (Saccharomyces cerevisiae), fruitvliegen (Drosophila melanogaster) en mens (Homo sapiens) (zie 3.1.4). Deze vier organismen en hun rol in de wetenschap zullen daarom hier verder besproken worden.
2.6.1 Arabidopsis thaliana Dit kleine plantje, zandraket in het Nederlands, is lid van de Brassicaceae, en is verwant met commercieel geteelde Figuur 11 Arabidopsis thaliana
gewassen zoals mosterd en koolsoorten. Velen kennen dit ongetwijfeld als een onkruid wat zowat overal te vinden is in tuinen, parken en wegbermen. Met zijn generatietijd van 6 weken en kleine genoom: 157 miljoen baseparen dat codeert voor ongeveer 25000 genen, dat bovendien volledig
gesequeneerd is, voldoet het aan alle kenmerken van een modelorganisme. Veel organisaties (meer dan 4000) die onderzoek doen op Arabidopsis plaatsen hun gegevens in het Arabidopsis Information Resource (TAIR) (http://www.arabidopsis.org), dit is een gecentraliseerde databank waarin informatie van genoom tot fenoom te vinden is. Aan deze
24/86
databank werd een web based platform gekoppeld zodat alle informatie vrij toegankelijk is via internet en online een aantal analyses mogelijk zijn (Rhee, Beavis et al. 2003). Doordat Arabidopsis bij plantkundigen en plantengenetici zo‘n geliefkoosd organisme is, zijn er laboratoria en bedrijven die een aantal werktuigen hebben ontwikkeld om dit onderzoek te ondersteunen. Zo worden er door Affymetrix microarrays gemaakt met 22 500 probes. Deze zijn op de markt verkrijgbaar onder de naam GeneChip Array : Arabidopsis ATH1 Genome Array. Verder zijn er bijvoorbeeld Gateway™ vectoren beschikbaar, die via Recombinational Cloning technieken, manipulaties met genen en het genoom vereenvoudigen (Hartley, Temple et al. 2000). Hierdoor worden grootschalige studies mogelijk gemaakt. De rol van Arabidopsis voor de plantkunde is te vergelijken met die van de muis in de dierkunde.
2.6.2 Drosophila melanogaster Al sinds het begin van de 20ste eeuw werd Drosophila gebruikt door Morgan om aan te tonen dat de wetten van Mendel ook in dieren geldig zijn. Het organisme is slechts 2,5 mm groot en er is een duidelijk verschil tussen mannetjes en vrouwtjes. De vrouwtjes leggen in een periode van 10 dagen tot 500 eitjes, waaruit larven komen die in 7 dagen tot een adult groeien. Figuur 12 Drosophila melanogaster
Het genoom bestaat uit 3 paar autosomale chromosomen en
1 paar geslachtschromosomen, is 132 miljoen baseparen groot en codeert voor 13 767 proteïnen. 75% van de gekende menselijke genetische defecten die aan de basis liggen van ziekten zoals Parkinson, Alzheimer, … bestaan ook in Drosophila. Het is dus ook een geschikt model voor onderzoek naar deze ziektes.
25/86
2.6.3 Homo sapiens Zeer veel genetisch en moleculair biologisch onderzoek gebeurt in kader van menselijke ziektes. Er is vanuit de farmacie een grote druk op onderzoek dat toelaat nieuwe strategieën te ontwikkelen om ziektes aan te pakken. Eenmaal de technologie voldoende op punt staat om op een complex organisme toegepast te worden zal deze snel haar weg vinden naar de mens. Een mooi voorbeeld hiervan is dat het genoom Figuur 13 Vitruviaanse Man door Leonardo Da Vinci
van de mens (Venter, Adams et al. 2001) eerder gesequeneerd was dan dat van de muis (Marshall 2002). Met de yeast 2
hybrid methode (zie 2.1.1) was dit niet anders, en er zijn reeds vrij veel bruikbare proteïne interacties (zie 3.1) voor de mens beschikbaar (Rual, Venkatesan et al. 2005).
2.6.4 Saccharomyces cerevisiae De bakkersgist, een unicellulaire schimmel die beschouwd wordt als een lagere eukaryoot, is een vaste waarde voor de allereerste
biotechnologische
toepassingen
zoals
het
brouwen van bier en het bakken van brood. De levenscyclus van gist bestaat uit twee fasen. Haploïde cellen ontstaan uit sporen. Deze cellen kunnen zich aseksueel voortplanten door knopvorming, twee cellen van verschillende mating types kunnen echter samensmelten en een diploïde zygote Figuur 14 Saccharomyces cerevisiae
vormen. Deze zygote zal verder delen en aanleiding geven
tot een ascus of sporenlichaam. Hieruit ontstaan door meiose nieuwe haploïde sporen die verder kunnen delen.
26/86
Figuur 15 De levenscyclus van Saccharomyces cerevisiae
Het gistgenoom is 13 miljoen basenparen groot, volledig gesequeneerd en zeer goed geannoteerd. Het genoom bevat ongeveer 6200 genen waarvan men vermoedt dat er ongeveer 5800 functionele genen zijn.
27/86
3 Materiaal en Methoden
3.1 Databases met informatie over proteïne – proteïne interacties Meerdere databases, waarin wetenschappers de resultaten van hun interactie experimenten kunnen plaatsen, zijn via internet vrij toegankelijk. De hoeveelheid data in deze databanken neemt erg snel toe door de beschikbaarheid van high-throughput methoden voor het aantonen van proteïne - proteïne interacties die momenteel beschikbaar zijn. Om het overzicht te bewaren en om het mogelijk te maken op een efficiënte manier gegevens van verschillende databases te vergelijken, te combineren of uit te wisselen, ontwikkelde men het PSI-MI formaat (Hermjakob, Montecchi-Palazzi et al. 2004). Dit op XML gebaseerde file-format is specifiek ontwikkeld voor het voorstellen van interacties. Hoewel de 2.5 versie van dit formaat al enige tijd geleden verschenen is, wordt het jammer genoeg nog lang niet door elke databank gebruikt. Als het wordt gebruikt zijn er soms hier en daar lichte verschillen tussen databases. Hier volgt een bondige beschrijving van de inhoud en het formaat van de gebruikte databases.
3.1.1 BIND: Biomolecular Interaction Network Database ( http://bond.unleashedinformatics.com/ ) (Bader, Betel et al. 2003; Gilbert 2005) Deze database bevat 190824 interacties (eind 2006), het gaat hier echter niet alleen om proteïne-proteïne interacties, maar ook om volledige complexen, proteïne-DNA, proteïneRNA interacties en interacties tussen proteïnen en hun co-factoren. De gegevens zijn per taxonomische groep te downloaden in XML formaat. De opmaak is geheel gebaseerd op eigen tags.
28/86
3.1.2 IntAct ( http://www.ebi.ac.uk/intact/site/ ) In deze database zijn 126351 interacties terug te vinden (versie 01/09/2006). In tegenstelling tot BIND zijn hier enkel proteïne - proteïne interacties in de database opgenomen, zowel binaire interacties als complexen. Op hun FTP server is de data per organisme te downloaden in XML formaat. Voor de opmaak heeft men gekozen voor het PSI-MI 2.5 formaat (Hermjakob, Montecchi-Palazzi et al. 2004).
3.1.3 DIP: Database of Interacting Proteins ( http://dip.doe-mbi.ucla.edu/ ) Hier zijn er 55790 interacties terug te vinden (versie 04/02/2006). Hier gaat het enkel om binaire proteïne - proteïne interacties. De gegevens zijn te downloaden in 3 verschillende formaten. Als flat-file, deze file bevat enkel informatie over welke proteïnen interacties aangaan. Meer uitgebreide informatie is terug te vinden in XIN (XML met eigen opmaak) of MIF (XML met PSI-MI opmaak echter hier en daar verschillend van IntAct) (Salwinski, Miller et al. 2004).
29/86
3.1.4 Overzicht
Aantal interacties in de database
Aantal interacties per organisme 60000 50000 40000 30000 20000 10000 0 Yeast
Drome
Human BIND
C. elegans IntAct
Mouse
Arath
DIP
Grafiek 2 Aantal interacties per organisme per database
Merk op (Grafiek 2) dat voor gist en fruitvlieg de grootste hoeveelheid interacties zijn gekend.
3.2 Combineren van interactiedatabanken Elke databank gebruikt niet alleen een ander formaat (zie 3.1) maar ook steeds een andere code om de proteïnen te beschrijven. Swissprot/Uniprot accession codes, GI codes, Gene names en ORF names werden allen gebruikt, soms zelfs verschillenden per database. Om na combinatie redundanties uit de database te halen en om interacties met elkaar te kunnen vergelijken diende elk proteïne in de gecombineerde dataset echter eenzelfde type code mee te krijgen. Ook dient aan elk proteïne GO informatie te worden gekoppeld en dient het proteïne in een orthologe groep te worden ingedeeld aan de hand van deze codes (zie 2.3 en 3.2.4).
30/86
3.2.1 Uniprotkb:swissprot+trembl ( http://www.ebi.ac.uk/uniprot/ ) (O'Donovan, Martin et al. 2002; Boeckmann, Bairoch et al. 2003) In deze databank is gedetailleerde informatie over proteïnen te vinden. Elk proteïne heeft een eigen accessienummer, maar bevat vaak ook verwijzingen naar namen waaronder het proteïne in andere databases is terug te vinden. Aan elk eiwit zit de aminozuursequentie en een beschijving van het eiwit aan de hand van GO codes verbonden (zie 2.3). Het verschil tussen swissprot en trembl is dat swissprot genen bevat die door expert annotators zijn geverifieerd terwijl trembl enkel automatisch geannoteerde genen bevat.
3.2.2 Ensembl ( http://www.ensembl.org/index.html ) (Hubbard, Aken et al. 2007) Dit is een databank die annotaties bevat voor 33 (gedeeltelijk) gesequeneerde genomen van eukaryoten. Dit gaat van modelorganismen zoals de muis, gist en fruitvlieg tot dieren die men zelden in een labo zal vinden zoals de olifant, het varken en de egel. Net als de Uniprot (zie 3.2.1) bevat deze databank gedetailleerde beschrijvingen van genen en hun producten.
3.2.3 Tair ( http://www.arabidopsis.org/ ) (Rhee, Beavis et al. 2003) Deze databank is gewijd aan Arabidopsis thaliana en haar genoom. Deze resource bevat uitgebreide informatie over Arabidopsis. Voor vele genen is er een functionele annotatie terug te vinden. Proteïnen zijn beschreven aan de hand van een set GO labels.
31/86
3.2.4 OrthoMCL ( http://orthomcl.cbil.upenn.edu/ ) (Li, Stoeckert et al. 2003) Hier werden proteïnen van 55 verschillende organismen ingedeeld in orthologe groepen op basis van de OrthoMCL databank. Tussen deze organismen bevinden zich zowel pro- als eukaryote modelorganismen zoals Escherichia coli K12, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Arabidopsis thaliana, Caenorhabditis elegans, Drosophila melanogaster, Danio rerio, … Deze informatie is publiek toegankelijk gemaakt en is vergelijkbaar
met
Inparanoid
(http://inparanoid.sbc.su.se/)
of
COG
(http://www.ncbi.nlm.nih.gov/COG/). In Figuur 16 wordt de werking van het OrthoMCL algoritme weergegeven. Men start met een dataset met proteïnesequenties van alle organismen. Al deze sequenties worden tegen mekaar vergeleken met BLASTP met een Evalue cutoff van 1e-5. Deze BLAST resultaten worden naar een graph omgezet met als nodes de proteïnen en als gewogen edges de similariteit. Hierna volgt een normalisatiestap, omdat edges tussen recente paralogen te zwaar doorwegen en er hierdoor een bias ontstaat in het clusteringsproces. Na deze normalisatie worden, door een Markov clustering toe te passen, de proteïnen in orthologe groepen gedeeld die bestaan uit orthologen tussen verschillende species en recente in-paralogen binnen deze species (zie 2.4).
32/86
Figuur 16 Flow chart met de werking van het OrthoMCL algoritme
Alternatief zouden er ook genfamilies gemaakt kunnen worden door de aminozuur-sequentie te vergelijken met het BLAST algoritme en deze gegevens te clusteren met het MCL (Enright, Van Dongen et al. 2002) algoritme. Daarna kunnen fylogenetische bomen van deze genfamilies worden geconstrueerd om orthologen en paralogen te identificeren.
33/86
3.3 Expressiedata Er werden hier vier sets met expressiedata gebruikt, waarvan twee voor gist en twee voor Arabidopsis. De eerste gist dataset (Gasch, Spellman et al. 2000) bevat zeer verscheiden expressiedata. Men onderzocht de groei, reactie op stress (hitteshock, peroxide, DTT, …), de reactie van mutanten op stressfactoren, … In totaal werden 179 verschillende datapunten opgemeten. De genen die een vergelijkbaar expressiepatroon vertoonden werden geclusterd. Hier werd met deze analyse dieper op de regulatie op omgevingsstress ingegaan. Dit in tegenstelling tot de tweede gist dataset (Hughes, Marton et al. 2000) waar de clustering van functioneel gerelateerde genen werd bestudeerd. Het aantal datapunten voor deze tweede dataset is uitgebreider, namelijk 300 datapunten per gen. Dit onderzoek was meer toegespitst op expressiepatronen in verschillende mutanten. Voor Arabidopsis werd de dataset AtGenExpress Tissues gebruikt (Schmid, Davison et al. 2005) en een heterogene dataset afkomstig van The Nottingham Arabidopsis Stock Centre. (NASC; Craigon, James et al. 2004). De AtGenExpress Tissues dataset bevat expressiedata afkomstig van verschillende weefsels van Arabidopsis. De NASC dataset is een heterogene dataset die gegevens bevat van verschillende weefsels, condities, diverse knock-out mutanten, enz.
34/86
3.4 Cytoscape 2.3.2 ( http://www.cytoscape.org/ ) Dit opensource programma is speciaal ontwikkeld om (biologische) netwerken te visualiseren. Het is mogelijk om in een aantal formaten (flat-file, GML en XGMML) nodes en edges (hier respectievelijk proteïnen en interacties) in te laden en deze netwerken door middel van een aantal algoritmes grafisch voor te stellen (zie Figuur 17).
Figuur 17 Gist interacties in Cytoscape (subset betrouwbare interacties)
35/86
3.5 Gebruikte Technieken 3.5.1 Vergelijken van twee sets GO labels Het is niet voor de hand liggend om twee sets van GO labels (zie 2.3) geautomatiseerd met elkaar te vergelijken. Er zijn echter een aantal methoden ontwikkeld om dit te doen (Lei and Dai 2006). Hiervoor dient er steeds een similariteitsmatrix (zie 3.5.1.1) te worden opgesteld en hieruit kan dan op verschillende manieren een similariteitsscore worden berekend (zie 3.5.1.2).
3.5.1.1 Opstellen van een similariteitsmatrix Voor het vergelijken van twee sets van GO labels dient een similariteitsmatrix te worden opgesteld. Voor elke mogelijke combinatie van GO labels worden de gemeenschappelijke nodes hoger in de graph bepaald. Voor elke van deze nodes wordt dan het niveau (shortest path to root) gezocht (Figuur 18). De hoogst gevonden waarde wordt in de matrix geplaatst. Een voorbeeld van een similariteitsmatrix tussen een hypothetisch proteïne met GO labels GO: 0005488, GO: 0005515 & GO: 0006412 en een proteïne met de labels GO: 0005737, GO: 0006412, GO: 0006415 & GO:0016149 is weergegeven in Tabel 3.
Tabel 3 een voorbeeld van een similariteitsmatrix
Proteïne Y
Proteïne X GO: 0005737 GO: 0006412
GO: 0006415
GO:0016149
GO: 0005488
0
0
0
2
GO: 0005515
0
0
0
2
GO: 0006412
0
7
7
0
36/86
Figuur 18 Graph met GO labels, toont de gemeenschappelijke node van GO: 0019538 en GO:0009059, en het "shortest path to root" vanuit deze gemeenschappelijke voorouder (GO:0043170)
3.5.1.2 Berekenen van similariteitsscore Er kunnen uit de opgestelde similariteitsmatrix meerdere similariteitsscores worden berekend. Zo kan de maximale waarde, de som en het gemiddelde van de cijfers in de matrix worden gebruikt. Deze manier kan ook worden gebruikt op een similariteitsmatrix waar enkel identieke labels aanleiding geven tot een waarde. Tabel 4 is een voorbeeld van een similariteitsmatrix waar enkel met exacte matches rekening wordt gehouden.
Tabel 4 Similariteitsmatrix waar enkel een exacte matches worden bekeken
Proteïne Y
Proteïne X GO: 0005737
GO: 0006412
GO: 0006415
GO:0016149
GO: 0005488
0
0
0
0
GO: 0005515
0
0
0
0
GO: 0006412
0
7
0
0
37/86
3.5.2 Berekenen van de co-expressie correlatie Expressiedata kan na normalisatie zoals Tabel 5 worden weergegeven. Uit deze gegevens kan voor elk paar genen statistisch worden vergeleken of deze genen een vergelijkbaar expressiepatroon hebben. Een statistische berekening die hier veel voor wordt gebruikt is de “Pearson’s Correlation Coefficient” (PCC).
Tabel 5 Voorbeeld van genexpressiedata
Toestand 1
Toestand 2
Toestand 3
…
Toestand n
Gen 1
-0.22
-0.12
-0.29
…
-0.51
Gen 2
0.19
0.25
0.69
…
0.34
…
…
…
…
…
…
Uit deze gegevens kan de Pearsons Correlatie Coëfficiënt worden berekend. Hierbij verkrijgt men altijd een waarde tussen -1 en 1, waarbij -1 volkomen anti-correlatie is en 1 volledige correlatie.
3.5.3 Verschillen weergeven tussen random combinaties en een echte dataset In een eerste stap wordt een dataset gemaakt van random paren. Deze dataset moet hetzelfde aantal paren hebben als er interacties zijn in de dataset met experimenteel aangetoonde interacties waarmee wordt vergeleken. Men zou hier ook gebruik kunnen maken van een Gold Negative Standard, een set van proteïne paren waar men zeker van is dat ze geen interactie aangaan met elkaar. Voor proteïne interacties is er momenteel nog geen betrouwbare GNS set beschikbaar. Het gebruik van random paren is hier verantwoord. Door overlap tussen twee datasets worden er per proteïne 5-8 interactoren geschat (Grigoriev 2003). Bijgevolgd is de kans dat er willekeurig een echte interactor wordt gekozen uit enkele duizenden proteïnen zeer klein. Vervolgens wordt voor elk random paar een waarde berekend, hier zal dit de GO similariteit zijn of de expressiecorrelatie. Omdat deze scores maximaal zijn bij self-interactions moeten deze genegeerd worden in zowel de dataset als de random paren. Voor co-expressie is het ook
38/86
aangewezen om interacties waar minder dan 20 gemeenschappelijke datapunten beschikbaar zijn te negeren. Dit omdat de kans dat door louter toeval twee genen co-expressie vertonen in 20 situaties groter is dan dat twee genen in 100 situaties co-expressie vertonen en bijgevolg misleidende resultaten kunnen ontstaan. Deze waarden worden opgeslagen in een tabel. Dit wordt herhaald voor een dataset met experimenteel aangetoonde interacties. Voor de correlatiecoëfficienten/similariteitsscores worden gepaste intervallen gezocht en omgezet naar een histogram (Grafiek 3) of een grafiek die laat zien hoeveel percent random/interagerende paren er in de dataset aanwezig zijn met een waarde gelijk of groter dan die in de x-as (Grafiek 4). Die laatste weergave laat toe een gepaste waarde te zoeken om een cutoff filter te plaatsen. Van de opgeslagen waarden kan nagegaan worden of ze normaal verdeeld zijn. Als dat zo is kunnen de waarden voor de random paren met een t-test worden vergeleken met de waarden berekend uit de set experimenteel aangetoonde paren.
16 14 12 10 Aantal geobserveerd met deze waarde
8 Random 6
Reëel
4 2 0 0
1
2
3
4
5
6
7
8
9
10 11 12 13
Waarde variabele
Grafiek 3 Voorbeeld van een histogram dat het verschil tussen random en reële data toont
39/86
120,00% 100,00% 80,00% Percentage observaties met een waarde groter of gelijk
60,00% Random 40,00%
Reëel
20,00% 0,00% 0
1
2
3
4
5
6
7
8
9 10 11 12 13
Waarde variabele
Grafiek 4 Voorbeeld voor het vergelijken van reële met random data
40/86
4 Strategie
Interactiedata wordt momenteel opgeslagen in een aantal grote databanken (zie 3.1), deze data is meestal in een op XML gebaseerd bestandsformaat te downloaden. De exacte opmaak van deze XML files verschilt van databank tot databank, voor elke databank dient dus een specifieke parser gemaakt te worden. Lastiger is dat de proteïnen die interacties aangaan niet in elke databank met hetzelfde type van code zijn beschreven. In sommige databanken wordt er met een ORF of locus naam gewerkt, andere werken met UniProt accessienummers, en tot slot worden soms ook GI nummers gebruikt. Voor het correct combineren van deze databanken en om redundanties uit de dataset te verwijderen moeten deze proteïnen echter allemaal met hetzelfde type code worden beschreven. Hier werd voor de UniProt accessie gekozen. Om GI nummers, ORF en locus names om te zetten dienden dus conversie tabellen te worden gemaakt. Hiervoor zullen ook andere databanken zoals UniProt (zie 3.2.1) en Ensembl (zie 3.2.2) geparsed worden naar lookup tables om deze codes om te zetten naar UniProt accessienummers. In het geval van Arabidopsis thaliana wordt buiten een UniProt accessienummer ook een At code toegevoegd (die ook algemeen wordt gebruikt). Aan elk eiwit wordt ook GO informatie en een orthologe groep toegekend, indien mogelijk. Eenmaal de dataset is opgebouwd kan deze worden gevisualiseerd met Cytoscape (zie 3.4). Zo kan onder meer de topologie van het interactienetwerk worden bekeken en geanalyseerd. Ook zal een subset met interacties, aangetoond met minimaal twee verschillende methoden, worden gemaakt en gevisualiseerd. Verder zal er met deze datasets worden gezocht naar geconserveerde interacties ook ‘interologs’ genoemd (Matthews, Vaglio et al. 2001; Yu, Luscombe et al. 2004). Om deze interologen (Figuur 19) te detecteren wordt gebruik gemaakt van hun orthologe groep (zie 3.2.4). Indien er voldoende interologen gevonden worden tussen twee datasets kan de functie van de proteïnen in deze interologen worden opgezocht. Zo kan worden nagegaan binnen welke processen en complexen interacties geconserveerd zijn.
41/86
Figuur 19 Voorbeeld van een Interolog Xa en Ya zijn proteïnen die interageren in organisme A en Xb en Yb interageren in organisme B
Er dienen ook een aantal methoden te worden bedacht en getest om interacties, zowel experimenteel aangetoond als voorspeld, te valideren. Hierbij gaan we uit van een aantal stellingen: interagerende proteïnen dienen zich in dezelfde locatie binnen de cel te bevinden en nemen waarschijnlijk deel aan dezelfde biologische processen. Verwacht wordt ook dat interagerende proteïnen een vergelijkbaar expressiepatroon hebben en dat hun orthologen in gist ook co-expressie vertonen. Het testen van deze stellingen zal steeds gebeuren door interagerende proteïnen, experimenteel aangetoond, te vergelijken met random paren (zie 3.5.3). Op basis van deze resultaten kunnen dan cutoff waarden bepaald worden die later gebruikt worden voor predicties te valideren. Tot slot zal er een programma geschreven worden dat op basis hiervan, startend van een bestaande dataset, interacties binnen Arabidopsis thaliana kan voorspellen en valideren met de gewenste methoden. Door verschillende combinaties van validatiemethoden te gebruiken kan de betrouwbaardheid van de dataset worden beïnvloed. De interacties, voorspeld met zeer strenge instellingen, zullen worden nagegaan.
42/86
5 Resultaten
5.1 Bouwen van datasets met interactiedata Voor het parsen van de databanken werd een oplossing gemaakt zowel in Perl als C#, deze laten ook toe om de informatie te combineren met conversietabellen en redundanties uit de dataset te verwijderen. Voor het maken van de conversietabellen uit de UniProt, Ensembl, TAIR en OrthoMCL databanken werden enkel Perl scripts gemaakt. Aan de hand van deze programma’s en scripts werden datasets gemaakt voor Arabidopsis thaliana
(arath),
Drosophila
melanogaster
(drome),
Homo
sapiens
(human)
en
Saccharomyces cerevisiae (yeast). Alle interacties met eiwitten waar geen uniprot accessienummer voor kon worden gevonden werden niet opgenomen in deze datasets om redundanties en onnauwkeurigheden te vermijden. Bovendien is het zonder accessienummer niet mogelijk het proteïne in de juiste orthologe groep onder te verdelen, en dus onbruikbaar in deze studie (Tabel 6).
Tabel 6 Aantal proteïnen en interacties per organisme
Organisme Arath Drome Human Yeast # proteinen 711 9823 10929 5744 #interacties 1550 34667 13335 30557
Van deze datasets werden ook subsets gemaakt van interacties die met 2 of meer verschillende methoden zijn aangetoond. Gezien de meeste high-throughput methoden voor het detecteren van interacties gevoelig zijn voor fouten is de betrouwbaarheid van deze subsets groter dan die van de volledige datasets. In Tabel 7 wordt weergegeven hoeveel interacties er in deze subset zitten en hoeveel percent dit is van de totale dataset voor dat organisme.
43/86
Tabel 7 Aantal interacties in de subset betrouwbare interacties
Organisme Arath Drome Human Yeast # interacties 151 421 131 1202 % van totaal 9,74% 1,21% 0,98% 3,93%
Niet elk proteïne kon een orthologe groep en Gene Ontology annotatie worden toegewezen. Interacties met proteïnen zonder OG zijn niet bruikbaar om predicties mee te doen. In Tabel 8 is zichtbaar dat ongeveer de helft van de gist en Arabidopsis interacties verloren gaan hierdoor. Zonder GO annotatie of expressiedata zal een interactie niet door de filters kunnen raken. Bij validatie zijn er om deze reden ook steeds interacties die verloren gaan.
Tabel 8 Aantal interacties in de 4 datasets waar beide proteïnen een orthologe groep (OG), gene ontology annotatie (GO), expressiedata (expr) of een combinatie ervan hebben
Yeast Unique 30557 interacties 18031 interacties 17229 interacties 17848 interacties 17064 interacties Drome Unique 34667 interacties 13585 interacties 9101 interacties
met OG met OG met OG met OG
met OG met OG
GO expressie GO+ expr.
GO
Door de dataset van gist met Cytoscape
Arath Unique 1550 interacties 1099 interacties 1099 interacties 888 interacties 888 interacties Human Unique 13335 interacties 2275 interacties 1581 interacties
met OG met OG met OG met OG
GO expressie GO+expr.
met OG met OG
GO
(zie 3.4) te visualiseren is te zien dat het
interactienetwerk vermoedelijk een scale-free netwerk is. De interactiedata is momenteel nog niet volledig genoeg om hier zekerheid rond te hebben. Ook binnen de literatuur zijn de meningen verdeeld (Jeong, Tombor et al. 2000; Lee and Megeney 2005; Khanin and Wit 2006). De 5 belangrijkste hubs (proteïnen die het grootste aantal verschillende interactoren hebben) zijn HSP82 (327 interactoren), JSN1 (312 interactoren), CDC28 (218 interactoren), IMA1 (210 interactoren) en NU116 (156 interactoren).
44/86
5.2 Identificatie van geconserveerde interacties Na de identificatie van geconserveerde interacties tussen gist, Drosophila én Arabidopsis bleek dat er slechts 2 interologs werden gevonden. Eén interolog binnen het complex dat histon modificaties doet en één interactie binnen het DNA repair complex. Gezien de dataset van Arabidopsis nog zeer klein is en de andere datasets ook niet volledig zijn, is het aantal gevonden geconserveerde interacties tussen deze 3 organismen zeer laag. Voor het aantal geconserveerde interacties tussen twee andere datasets (voor elk organisme werd de dataset met alle unieke interacties gebruikt) zie Tabel 9. Tabel 9 Aantal gevonden interologen tussen verschillende datasets
yeast yeast yeast human human drome
drome arath human drome arath arath
128 21 56 34 2 6
Van de 128 interologs tussen gist en fruitvlieg werden de complexen of processen waar deze interagerende proteïnen een rol in spelen opgezocht. Deze werden in een aantal algemene klassen gegroepeerd (Tabel 10). Klassen waarin slechts één interolog werd gevonden werden onder Other gegroepeerd. Indien er voor geen enkel proteïne binnen het interolog een functie werd gevonden werd dit bij Unknown geteld. Tabel 10 Aantal gevonden interologs tussen gist en Drosophila per proces of complex
Transcriptie Vacuole Ribonucleoproteïnes Cel cyclus DNA repair DNA replicatie Histon gerelateerd Kinases Peroxisoom Proteasome Transport/Translocatie Ubiquitin (pre)mRNA Processing
14 8 7 6 6 6 4 4 4 4 4 4 3
Actine Golgi/ER Splicing Tubuline GTP bindend Hitte Shock Replicatie Factor Ribosomaal RNA polymerase snRNA Unknown Other
3 3 3 3 2 2 2 2 2 2 2 28
45/86
Ook de 21 gevonden interologen tussen gist en Arabidopsis werden nader onderzocht. Hier werden meer interacties gevonden die met het golgi apparaat en het endoplasmatisch reticulum te maken hadden (Tabel 11). Tabel 11 Aantal gevonden interologs tussen gist en Arabidopsis per proces of complex
Golgi/ER Ubiquitin Kinases DNA repair Histon gerelateerd Tubuline RNA polymerase Exonuclease Telomeren Chromtine Detoxifiëring zwaar metaal Meiose
6 4 2 1 1 1 1 1 1 1 1 1
46/86
5.3 Predictie op basis van orthologe relaties Hier worden, startend vanaf een experimentele dataset, mogelijke interologs voorspeld. Dit werkt als volgt: indien in het bron-organisme (hier meestal gist) er een interactie is aangetoond tussen proteïne Xa en proteïne Ya, nemen we aan dat deze interactie geconserveerd kan zijn tussen proteïnen Xb en Yb in het doel organisme (in deze thesis steeds Arabidopsis thaliana) waarbij Xa ten opzichte van Xb en Ya ten opzichte van Yb orthologen zijn (zie ook Figuur 20). Dit is verschillend van andere onderzoeken waar in plaats van orthologe relaties enkel de similariteit (bekomen via BLAST E-value) wordt bekeken (Mika and Rost 2006). In deze studies worden homologen eerder dan orthologen beschouwd. Een orthologe relatie is echter robuuster, de voorwaarden voor proteïnen om in één orthologe groep te zitten zijn veel strenger dan families gemaakt enkel op basis van similariteit (Li, Stoeckert et al. 2003). Nadien kan deze voorspelde interactie worden gevalideerd met één of meer van de later besproken methodes (zie 5.4 en 5.5)
Figuur 20 Predictiemethode in geval van single copy genen in doelorganisme
Indien een proteïne in een orthologe groep zit samen met meer dan één proteïne van Arabidopsis worden alle mogelijke combinaties tussen de Arabidopsis-proteïnen in beide orthologe groepen gemaakt en opgeslagen (Figuur 21). Dit zouden immers allemaal geconserveerde interacties kunnen zijn. Nadien werd als controle deze set voorspelde 47/86
interacties vergeleken met de experimentele dataset van Arabidopsis zelf om een idee te hebben hoeveel voorspelde interacties ook experimenteel aangetoond zijn. Ook werd het aantal voorspelbare interacties in de experimentele dataset geteld. Dit zijn interacties in de Arabidopsis dataset tussen twee proteïnen die beide een ortholoog in gist hebben. De resultaten zijn terug te vinden in Tabel 12.
Figuur 21 Werkwijze indien er meer orthologen zijn in het doelorganisme
Tabel 12 Aantal voorspelde interacties voor Arabidopsis thaliana en hoeveel er hiervan in de Arabidopsis dataset terug te vinden zijn.
Bron Gist Gist Mens Mens
Aantal voorspelde interacties 32754 1530 1119 56
Enkel single copy Neen Ja Neen Ja
Experimenteel Aantal Percentage bevestigd voorspelbaar 33 79 41,77% 6 6 100,00% 2 179 1,12% 1 24 4,17%
48/86
5.4 Validatie op basis van GO similariteit Hiervoor werd de dataset met unieke experimentele interacties van Arabidopsis vergeleken met een dataset met random data zoals beschreven in 3.5.3. Voor zowel elk paar interagerende proteïnen als random paren werd de GO similariteit berekend op basis van hun GO labels die de cellulaire component en het biologische proces beschrijven. Dit werd gedaan op de manier beschreven in 3.5.1. De techniek die het duidelijkste resultaat gaf was in beide gevallen de MAX similariteitsscore, de maximale waarde uit de similariteitsmatrix. De andere resulaten gaven minder verschil tussen random en reële data en/of waren moeilijker interpreteerbaar.
5.4.1 GO: Cellular Component (Arabidopsis thaliana) Uit Grafiek 5 blijkt duidelijk dat voor een reële dataset de meerderheid van de reële interacties een max waarde van 0 of 5 hebben. De waarde 0 komt voor indien een proteïne een slechte of ontbrekende GO annotatie heeft voor de cellulaire component, dit is echter een onoverkomelijk probleem. De waarde 5 komt overeen met locaties zoals: Golgi apparaat, actine filament, chromatine, clatrine coat van coated pits, … Dit zijn dus steeds vrij specifieke locaties binnen de cel. Belangrijker is dat reële interacties een sterke verhoging in GO similariteit vertonen. Dit is het verwachte resultaat gezien proteïnen binnen een cel op eenzelfde plaats dienen voor te komen om te kunnen interageren. In Grafiek 6 is te zien dat er bij een MAX similariteitsscore van 5 een sterk verschil is tussen random data en echte data. Uit deze grafiek is ook af te lezen dat indien men een cutoff filter zou plaatsen en enkel voorspelde interacties zou overhouden met een MAX similariteitsscore van 5 of hoger men ongeveer 50% van de reële interacties verliest. Echter, op dit niveau raakt er < 5% van de ruis door de filter. Door deze filter toe te passen verhoogt de betrouwbaarheid van de dataset dus sterk, hoewel ten koste van een deel reële interacties. Om deze reden wordt voor de predicties de cutoff filter op ≥ 5 geplaatst.
49/86
MAX frequency of this range
80,00% 70,00% 60,00% 50,00% Arath
40,00%
Random
30,00% 20,00% 10,00% 0,00% 0
1
2
3
4
5
6
7
MAX
Grafiek 5 Histogram met frequenties van interacties/random combinaties die een bepaalde GO similariteit hebben tussen GO labels voor Cellular Component
MAX
% of data equal or higher
120,00% 100,00% 80,00% 60,00%
Arath
40,00%
Random
20,00% 0,00% -20,00%
0
2
4
6
8
MAX value
Grafiek 6 Vorige histogram omgezet om het percentage van de set interacties/random combinaties dat een waarde hoger heeft of gelijk aan een bepaalde waarde weer te geven.
50/86
5.4.2 GO: Biological Process (Arabidopsis thaliana) Op identiek dezelfde wijze als voor de Cellulaire Component werden ook grafieken gemaakt met de sets GO labels die het Biological Process beschrijven. De resultaten zijn zeer vergelijkbaar. Ook hier is er een duidelijke verhoging in MAX similariteitsscore in reële interacties ten opzichte van random paren. Opnieuw kan vastgesteld worden dat voor veel paren één of twee proteïnen een slechte of ontbrekende GO annotatie hebben. Ook hier kan verschil tussen reële en random data opgemerkt worden. Indien gefilterd wordt op biologisch proces wordt de cutoff steeds op ≥ 7 gezet.
Max Biological Process 90,00%
% of data with value
80,00% 70,00% 60,00% 50,00%
Arath_Max
40,00%
Random_Max
30,00% 20,00% 10,00% 0,00% 0
1
2
3
4
5
6
7
more
Max value
Grafiek 7 Histogram met frequenties van interacties/random combinaties die een bepaalde GO similariteit hebben tussen GO labels voor Biological Process
51/86
Max biological process 120,00%
% of data equal or higher
100,00% 80,00% Arath
60,00%
Random
40,00% 20,00% 0,00% 0
2
4
6
8
10
MAX value
Grafiek 8 Vorige histogram omgezet om het percentage van de set interacties/random combinaties weer te geven dat een waarde hoger heeft of gelijk aan een bepaalde waarde.
52/86
5.5 Validatie op basis van expressiecorrelatie Op analoge manier als de validatie op basis van de GO annotatie werd ook co-expressie getest als validatiemethode. Hier spelen er echter meer factoren een rol die een invloed kunnen hebben op de bruikbaarheid van deze methode. Zoals bijvoorbeeld de gebruikte expressiedata; a priori is niet uit te sluiten dat de aard van de experimenten invloed heeft op expressiecorrelatie. Ook het aantal datapunten in de expressiedata kan een invloed hebben, het is immers meer voor de hand liggend dat twee genen voor een twintigtal datapunten gecoexpresseerd zijn dan dat twee genen voor tweehonderd datapunten co-expressie vertonen.
5.5.1 Testen van de impact van de gebruikte expressiedataset
5.5.1.1 Verschillende soort experimenten Gezien het type experimenten opgenomen in de dataset een invloed zou kunnen hebben op de co-expressiewaarde tussen twee proteïnen werd een XY plot gemaakt. De expressiecorrelatie tussen alle interagerende proteïnen van de Arabidopsis thaliana dataset werden berekend aan de hand van twee sets met expressiedata. Elk punt in de grafiek heeft een x-coördinaat gelijk aan de PCC berekend aan de hand van de eerste dataset (AtGenExpress Tissues) en een ycoördinaat berekend aan de hand van de tweede (NASC). In een ideaal geval zou de coexpressiecoëfficiënt berekend uit de twee datasets identiek zijn, en zullen alle punten op een diagonaal liggen van coördinaat -1,-1 door het nulpunt naar 1,1. De realiteit is echter anders. Zoals zichtbaar in Grafiek 9 is er slechts een algemene tendens dat proteïnen, die een lage of hoge co-expressiewaarde hebben, berekend aan de hand van een dataset, ook een lage of hoge waarde hebben in de andere dataset. Bij het beschouwen van individuele interacties dient dit in rekening worden gebracht. Men kan bijvoorbeeld een zeer strenge of mildere predictie uitvoeren met behulp van beide datasets. Indien men erg streng wenst te zijn kan men kijken naar de doorsnede, bijvoorbeeld interacties die in beide datasets een correlatie coëfficiënt groter dan 0,5 hebben. Minder streng
53/86
is men indien de unie wordt beschouwd, bijvoorbeeld interacties die in één van de twee datasets een PCC groter dan 0,5 hebben.
AtGenExpress Tissues vs heterogene dataset 1 0,8 R² = 0,481 0,6 0,4 0,2 0 -1
-0,5
-0,2 0
0,5
1
-0,4 -0,6 -0,8 -1 interactions Lineair (interactions) Grafiek 9 XY scatter van expressiecorrelatie tussen proteïne interacties berekend met AtGenExpress Tissues (X-coordinaat) en heterogene expressiedata (Ycoordinaat)
5.5.1.2 Grootte van de dataset Het aantal datapunten in de expressiedata kan ook een rol spelen. Is er een significant verschil in co-expressie tussen een dataset met 20 experimenten en 100? Hiervoor werd met de dataset van Hughes en de set unieke interacties van gist het volgende gedaan: eerst werden er 20,30,40, … tot 100 random microarray experimenten gekozen. Dan werd er enkel op basis van deze experimenten voor elke interactie de PCC berekend en opgeslagen. Deze gegevens werden met elkaar vergeleken door middel van een t-test.
54/86
Figuur 22 de p-values verkregen door een t-test door 2 datasets van verschillende groottes te vergelijken. A random kolommen B de eerste n kolommen.
Uit Figuur 22 A blijkt dat er niet echt een lijn zit in de resultaten. Dit zou kunnen liggen aan het feit dat er steeds random experimenten worden gekozen. Andere experimenten kunnen, zoals reeds aangetoond (zie 5.5.1.1), invloed hebben op de PCC en waaraan het resultaat in Figuur 22 A te wijten kan zijn. Dit eerder dan aan het aantal experimenten op zich. Het experiment werd herhaald maar met de eerste n experimenten in de dataset te beschouwen en niet een aantal random experimenten. De random factor speelt hier geen rol en dat is merkbaar in de resultaten (Figuur 22 B). De kolom met 60 experimenten springt eruit, maar voor de rest is de figuur vrij logisch. De slechtste similariteit is er tussen zeer grote en zeer kleine sets. Het verschil wordt kleiner indien de datasets qua grootte bij mekaar in de buurt komen. We zien dat een verschil van 10 tot 20 datapunten hier enkel bij de set met 60 experimenten een significant verschil geeft.
55/86
Bovendien werd het experiment 3x herhaald met 80 random, steeds verschillende experimenten. Hier werden ook significante verschillen gevonden tussen een aantal reeksen, het is dus mogelijk dat de gekozen experimenten belangrijker zijn dan het aantal datapunten. Hieruit blijkt ook dat het voorgaande experiment meermaals herhaald moet worden om sluitende conclusies te kunnen trekken.
Versie
Tabel 13 Resultaten door experimenten met 80 verschillende kolommen te vergelijken
1 0,5048 1 0,02598 0,1296 1 V1 V2 V3 Versie met 80 experimenten
V1 V2 V3
5.5.2 Validatie op basis van co-expressie Voor zowel Arabidopsis als Saccharomyces zijn er meerdere datasets met expressiegegevens beschikbaar. Per organisme werden er hier twee uitgepikt om te vergelijken. Gezien alle gegevens in een vergelijkbaar formaat beschikbaar waren was dit met een minimum aan extra scripts/software te doen.
5.5.2.1 Saccharomyces cerevisiae De eerste set met expressiedata was afkomstig van Hughes (Hughes, Marton et al. 2000) en de tweede van Gasch (Gasch, Spellman et al. 2000). Hier werd zoals beschreven in 3.5.3 een echte interactieset (hier alle unieke interacties voor gist) vergeleken met een set random gepaarde proteïnes. Voor elk interagerend/random paar werd de PCC berekend. Deze waarden werden uitgeplot in een Gauss curve (Grafiek 10) en in een grafiek die het percentage van de data toonde die een expressiecorrelatie gelijk of groter heeft als de waarde in de x-as (Grafiek 11).
56/86
30,00% 25,00% 20,00% Frequentie van voorkomen binnen dataset
15,00% 10,00% 5,00% 0,00%
-1,1
-0,6
-0,1
0,4
0,9
Co-expressie correlatie Gasch_real
Gasch_random
Hughes_real
Hughes_random
Grafiek 10 Distibutie toont verschil tussen correlatiecoëfficiënt van de dataset van Gasch en Hughes.
In Grafiek 10 is duidelijk te zien dat er tussen de twee datasets een groot verschil in breedte van de curve is. Voor beide datasets is wel te zien dat de de curves voor echte interagerende paren naar rechts verschuiven ten opzichte van de curves van random paren. Er is dus wel degelijk een verhoging erhoging in expressiecoëfficiënt tussen interagerende paren ten opzichte van random paren. Dit geld voor beide sets met expressiedata.
100,00% 90,00% 80,00% 70,00% Percentage van de 60,00% data met een 50,00% waarde hoger of 40,00% gelijk aan X 30,00% 20,00% 10,00% 0,00% -1
-0,5
0
0,5
1
Correlatie coëfficiënt Gasch_real
Gasch_random
Hughes_real
Hughes_random
Grafiek 11 Verschil tussen Gasch en Hughes dataset weergegeven als het percentage van de data dat een gelijke of hogere waarde had voor een gegeven expressie correlatie.
57/86
In Grafiek 11 is dit nog beter zichtbaar. Met deze voorstelling is ook de verhouding tussen reëel en random zichtbaar, dit is de waarde waar je bijvoorbeeld tweemaal meer kans hebt om een echte interactie aan te treffen dan achtergrond. Hoewel er duidelijk een positieve correlatie is tussen de expressiecorrelatiecoëfficiënt en het al dan niet interageren van de corresponderende proteïnen is deze relatief klein. Als men een groot verschil wil hebben tussen echte data en achtergrond verliest men ook een groot percentage van echte interacties. Het kiezen van een cutoff waarde is dus steeds een wikken en wegen van betrouwbaarheid ten opzichte van hoeveelheid data men wil overhouden.
5.5.2.1.1 Co-expressie tussen geconserveerde gist proteïnen Deze keer wordt niet gekeken naar de co-expressie van de gist genen, maar enkel naar de coexpressie van gist proteïnen met Arabidopsis orthologen die effectief een interactie aangaan. Elk van de 79 interacties in Arabidopsis waar beide proteïnen een ortholoog in gist hebben (Tabel 12) werd gebruikt. Voor elke experimenteel aangetoonde interactie in Arabidopsis werden beide gist orthologen gezocht en de expressiecoëfficiënt berekend. Deze resultaten werden dan vergeleken met random paren tussen gist proteïnen die steeds een ortholoog in Arabidopsis hebben (zie 3.5.3). De gist expressiedata was afkomstig van Hughes. Grafiek 12 toont het resultaat, ook hier is een positieve correlatie merkbaar. Dus gist genen waarvan de orthologen in Arabidopsis interagerende producten hebben, vertonen een hogere expressiecorrelatie dan gist genen die een ortholoog in Arabidopsis hebben en waarvoor geen interactie is aangetoond. Opvallend is ook dat het gemiddelde van de random data hier hoger dan 0 is. 60% heeft een PCC > 0 terwijl dit voor echt random paren 50% is. Hier werd aangetoond dat random combinaties tussen deze geconserveerde eiwitten gemiddeld een hogere expressiecorrelatie hebben dan verwacht.
58/86
120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
0,00% -1,5
-1
-0,5
0
Gist geconserveerd met interagerend ortholoog
0,5
1
1,5
Gist geconserveerd
Grafiek 12 Vergelijking in correlatie coëfficiënt tussen geconserveerde gist genen en geconserveerde gist genen met Arabidopsis orhtologen die een interactie aangaan.
Om dit na te gaan werd uit de dataset met unieke interacties van gist een subset gemaakt met geconserveerde interacties (zie 5.2). De co-expressie van deze geconserveerde genen werd vergeleken met de volledige interactiedataset en met random data (Grafiek 13;Grafiek 14). Hier is duidelijk zichtbaar dat genen uit interologs tussen Drosophila/gist en mens/gist een veel hogere co-expressie vertonen dan de gemiddelde co-expressie tussen interagerende proteïnen.
59/86
35,00% 30,00% 25,00% 20,00%
drome_yeast human_yeast
15,00%
yeast random
10,00% 5,00%
1
0,8 0,9
0,7
0,5 0,6
0,4
0,2 0,3
0,1
0
-0,2 -0,1
-0,3
-0,5 -0,4
-0,6
-0,8 -0,7
-0,9
-1
0,00%
Grafiek 13 Co-expressie vergeleken tussen random genen, genen die coderen voor interagerende genproducten en genen die coderen voor geconserveerde interagerende genproducten
120,00%
100,00%
80,00% drome_yeast
60,00%
human_yeast yeast 40,00%
random
20,00%
0,00% -1,5
-1
-0,5
0
0,5
1
1,5
-20,00% Grafiek 14 Co-expressie vergeleken tussen random genen, genen die coderen voor interagerende genproducten en genen die coderen voor geconserveerde interagerende genproducten (andere weergave)
60/86
5.5.2.2 Arabidopsis thaliana Net als voor gist werd dit experiment gedaan met de dataset van Arabidopsis thaliana. Hierbij werd gebruik gemaakt van AtGenExpress Tissues (Schmid, Davison et al. 2005) expressiedata en een heterogene dataset (willekeurige experimenten: stress, ontwikkeling, mutanten, …) afkomstig van NASC. Het verschil tussen random en reëel is bij Arabidopsis groter dan bij gist. De invloed van de gebruikte dataset is hier echter kleiner. Desondanks is er toch een sterk verschil op het niveau van individuele interacties (zie 5.5.1.1).
14,00% 12,00%
Frequentie
10,00% 8,00% 6,00% 4,00% 2,00% 0,00% -1 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 PCC Waarde AtGenExpress_Real
AtGenExpress_Random
Heterogenous_Real
Heterogenous_Random
Grafiek 15 Frequentie van geobserveerde PCC waarden voor interacties en random data aan de hand van twee sets met expressiegegevens
61/86
100,00% 90,00% 80,00% 70,00% 60,00%
AtGenExpress Real
50,00%
AtGenExpress Random
40,00%
Heterogene dataset Real
30,00%
Heterogene dataset Random
20,00% 10,00% 0,00% -1
-0,5
0
0,5
1
Grafiek 16 Verschil tussen AtGenExpress Tissues en de heterogene dataset maar nu weergegeven als het percentage van de data dat een gelijke of hogere waarde had voor een gegeven expressie correlatie.
62/86
5.6 Ontwikkelen van het predictieprogramma Om deze predictiemethode uit te voeren en de gemaakte predictie te kunnen valideren met één of meerdere van de vermelde strategieën diende een programma ontwikkeld te worden. Hier werd dit volledig object georiënteerd ontwikkeld in C#. Dit liet toe om met de geschreven klassen
kleine
programma’s
te
maken
om
bijvoorbeeld
de
bruikbaarheid
van
expressiecorrelatie na te gaan (zie 5.5). Ook kon door gebruik te maken van het .NET framework een grafische interface aan het programma worden gekoppeld waardoor predicties met verschillende parameters snel, overzichtelijk en op een toegankelijke manier kunnen worden gemaakt. Uit de vorige resultaten (zie 5.2 en 5.3) blijkt dat er momenteel weinig experimentele data voorhanden is om aan te tonen of interacties al dan niet geconserveerd zijn en wat er met interacties gebeurt na duplicatie. Enkel een voorspelling doen op basis van orthologie is dus momenteel niet de meest aangewezen methode. Gezien er tussen interagerende proteïnen een verhoogde similariteit in GO termen is en een verhoogde expressiecorrelatie, kunnen we hierop filteren om zo een meer betrouwbare voorspelling te maken. Voor het maken van voorspellingen werd een programma ontwikkeld dat op basis van een dataset met experimenteel aangetoonde interacties predicties kan doen voor gist, fruitvlieg, mens en Arabidopsis. De experimenteel aangetoonde interacties kunnen uit eender welk organisme afkomstig zijn. Enige voorwaarde is dat de proteïnen in de originele dataset binnen een orthologe groep ingedeeld zijn. Via een menu kunnen de gewenste filters aan en uit worden geschakeld om zo meer of minder betrouwbare voorspellingen te maken. Het programma is zo bedacht dat deze filters ook op een experimentele dataset toegepast kunnen worden (validate only). Zo kunnen dus experimenteel aangetoonde interacties meer betrouwbaar worden gemaakt en kunnen biologisch niet relevante interacties, artefacten die ontstaan door lyse bijvoorbeeld, uit de dataset worden gefilterd.
63/86
Figuur 23 Opties voor het maken van een predictie
Om dit programma te testen werd er op basis van de dataset van gist een predictie gedaan met volgende, zeer strenge, instellingen (zie ook Figuur 23):
•
Source: yeast_unique.spi
•
Target : Arabidopsis thaliana
•
Single Copy : Both
•
Coexpression Correlation : 0,57
•
Same Cellular Component : True
•
Same Biological Process : True
•
Ignore Homodimer : Target
Door de instellingen zeer streng te houden zijn er slechts 31 interacties door de filters geraakt. Voor elk van deze 31 interacties werd in de TAIR database een beschrijving van de
64/86
interagerende proteïnen gezocht om te controleren of deze biologisch relevant zijn. Deze voorspelde interacties bevatten zeer veel interacties tussen eiwitten uit het proteasoom complex, het ‘Origin Recognition Complex’ en ribonucleoproteinen waarvan ook een aantal interacties in de beschrijving maar niet in de databanken voorkwamen. Overzicht van voorspelde interacties. PROTEASOOM At5g58290 & At4g38630 : RPT3 & RPN10 At5g23540 & At5g58290 At1g64520 & At5g58290 : RPN12 & RPT3 At1g29150 & At5g58290 : RPN6 & RPT3 At5g58290 & At4g24820 : RPT3 & RPN7 At5g23540 & At4g38630 At1g64520 & At4g38630 : RPN12 & RPN10 At1g29150 & At4g38630 : RPN6 & RPN10 At4g38630 & At4g24820 : RPN10 & RPN7 At1g64520 & At1g29150 : RPN12 & RPN6 At1g64520 & At4g24820 : RPN12 & RPN7 At1g29150 & At4g24820 : RPN6 & RPN7 At5g23540 & At1g64520
65/86
Figuur 24 Voorstelling van voorspelde proteasoom interacties
ORC
At2g37560 & At2g01120 : subunit su 2 & subunit 4 At2g37560 & At4g29910 : subunit 2 & subunit 5 At2g01120 & At4g29910 : subunit 4 a subunit 5
De interacties voorspeld voor het “Origin Recognition Complex” werden in de beschrijving van de genen in TAIR teruggevonden. Transcriptiefactoren
At2g29540 & At3g25940 : subunit van RNA-polymerase RNA polymerase I & Transcriptiefactor S-II S At4g35800 & At2g38560 : grootste subunit van RNARNA polymerase II & Transcriptiefactor S-II S At4g31720
&
At1g02680
:
subunits
van
transcriptie
initiatiefactor IID
66/86
De interactie tussen At4g31720 (TAF 10) & At1g02680 (TAF 13) werd onlangs aangetoond (Lawit, O'Grady et al. 2007) in een relatief kleinschalig yeast-two-hybrid experiment om de structuur van TFIID te achterhalen. Hier werd ook gevonden dat de ruimtelijke structuur en de opbouw van het TFIID van Arabidopsis thaliana sterke gelijkenissen vertoont met die van Saccharomyces cerevisiae. Dit is dus een sterk geconserveerd complex. Hoe komt het dan dat we niet meer interacties voorspellen die binnen dit complex vallen? Er kunnen meerdere oorzaken zijn. De eerste is dat de interacties tussen de orthologen binnen Saccharomyces cerevisiae nog niet in de gist dataset aanwezig zijn. Ten tweede kan het zijn dat deze genen gedupliceerd zijn in Arabidopsis thaliana of Saccharomyces cerevisiae en hier werden enkel single copy genen bekeken. Tot slot is het ook mogelijk dat de cutoff filters voor expressiecorrelatie en GO MAX similariteit te streng zijn ingesteld en deze interacties uit de predictie verwijderd worden. Ribonucleoproteïnen At1g03330 & At2g03870 At4g30220 & At1g09760 Merk op dat sommige ribonucleoproteïnen sticky proteins zijn (Gavin, Bosche et al. 2002; Ho, Gruhler et al. 2002; Van Leene, Stals et al. 2007). Enige voorzichtigheid is dus nodig met interacties tussen deze proteïnen. Hier echter werden logische interacties tussen ribonucleoproteïnen onderling voorspeld. De kans dat dit vals positieven zijn is kleiner dan indien het een interactie was tussen een ribonucleoproteïne en een proteïne betrokken in een heel ander proces. Overige At5g64630 & At1g65470 : FAS1 & FAS2 : delen van FASCIATA complex At5g51660 & At1g61010 : Delen van polyadenylatie complex At2g16950 & At4g27640 : Importines At5g23290 & At5g49510 : c-myc bindend proteïne & VHL bindend proteïne
67/86
At4g02620 & At1g78900 : vacuolaire ATPase subunits At4g02620 & At3g58730 : vacuolaire ATPase subunits At1g78900 & At3g58730 : vacuolaire ATPase subunits At1g61570 & At5g50810 : mitochondrie: binnenste membraan translocases At1g08250 & At1g13180 : prephenate dehydratase & actine gerelateerd proteïne
Een overzicht van het aantal interacties, voorspeld met verschillende instellingen, is terug te vinden in Tabel 14 en Tabel 15. In Tabel 14 zijn ook het aantal experimenteel bevestigde en het aantal voorspelbare interacties erbij vermeld. Merk op dat indien enkel single copy genen worden gebruikt het aantal voorspelde interacties zeer sterk daalt. Verder is er ook een factor 2 verschil in het aantal voorspelde interacties indien de expressiecorrelatie van 0,7 naar 0,5 wordt verlaagd. Door een combinatie van filters toe te passen wordt het aantal voorspellingen lager, maar deze voorspellingen zijn dan wel zeer betrouwbaar. De instellingen kunnen naar wens aangepast worden om zo een gewenst aantal interacties te voorspellen (Tabel 15).
Tabel 14 Overzicht van voorspelde interacties met verschillende instellingen, het aantal experimenteel bevestigde en het aantal voorspelbare interacties
Filter none Same CC Same BP Coexpressed Coexpressed No paralogs
Instelling 0,7 0,5 Both
Aantal voorspelde interacties 32745 4644 3757 3172 6489 1530
Experimenteel aangetoond 33 23 5 5 12 6
Voorspelbaar 79 59 8 5 27 6
68/86
Tabel 15 Aantal voorspelde interacties met een combinatie van filters
VERY STRICT
STRICT
MEDIUM LOOSE
Same CC Same BP Coexpressed 0,7 No paralogs Both Same CC Same BP Coexpressed 0,7 Same CC Coexpressed 0,7 Same CC Coexpressed 0,5
58 voorspelde interacties 497 voorspelde interacties 884 voorspelde interacties 1508 voorspelde interacties
69/86
6 Discussie
6.1 Bouwen van datasets met interactiedata Het combineren van de drie databases en het meegeven van eenzelfde type code aan de proteïnen was, hoewel het enig zoekwerk en verschillende parsers/scripts vereiste, technisch geen noemenswaardig probleem. Praktisch had dit echter als complicatie dat er data verloren ging omdat bepaalde proteïnen geen accessienummer toegewezen kregen. Een universeel formaat en het gebruik van één soort accessienummer zou dit proces een stuk eenvoudiger maken. Het PSI-MI formaat (3.1) is al een stap in de goede richting. De versie 2.4 van Cytoscape (3.4) laat ook toe om rechtstreeks met dit formaat te werken. Na het combineren van de databases en het verwijderen van redundanties valt op dat de dataset van gist eigenlijk zeer groot is. Men verwacht, door overlap van verschillende experimenten te vergelijken, in gist gemiddeld 5 interacties per proteïne, wat dus in totaal 16 000 à 26 000 interacties oplevert (Grigoriev 2003). In de dataset zitten echter al meer dan 30 000 unieke interacties. Enerzijds kan dit veroorzaakt zijn door het grote aantal vals positieven in deze dataset. Dit is momenteel niet uit te sluiten gezien er bij de veelgebruikte yeast-twohybrid tot 50% vals positieven zijn te verwachten. Mogelijks zijn er sticky proteins in de dataset aanwezig, proteïnen die, indien overgeëxpesseerd, interacties gaan vertonen die biologisch niet relevant zijn. Daarom worden in recente experimenten regelmatig interacties getest met proteïnen die niet eigen zijn aan het organisme (zoals GFP of β-Gal); proteïnen die hiermee interacties aangaan worden gezien als sticky proteins (Van Leene, Stals et al. 2007). Anderzijds is het mogelijk dat er gemiddeld meer dan 5 interacties per proteïne zijn en is deze voorspelling wat te laag (als je het aantal interactoren per proteïne berekent enkel aan de hand van deze dataset kom je immers uit op gemiddeld 7 à 8 interactoren per proteïne). Voor gist is er vrij veel data beschikbaar. Voor mens en Drosophila zijn ook vrij veel interacties gekend maar voor andere organismen, waaronder Arabidopsis, is de hoeveelheid gekende interacties nog zeer gering. Dit tekort aan data maakt dat het moeilijk was om
70/86
geconserveerde interacties tussen verschillende organismen op te sporen. Validatie van predicties werd hierdoor ook bijzonder lastig. Zo is bv. het inschatten van vals positieven en vals negatieven erg moeilijk. Door te filteren op interacties die met twee verschillende methoden werden aangetoond werden datasets gemaakt met een hogere betrouwbaarheid. Deze datasets bevatten echter te weinig interacties om verder mee te werken (Tabel 7). De netwerktopologie wordt verwacht scale-free te zijn (Lee and Megeney 2005), zo kunnen er veel genen uitgeschakeld worden zonder connectiviteit in het netwerk te verliezen. De hubs zijn echter de zwakke plekken van dit netwerk. Indien enkele hubs worden uitgeschakeld valt het netwerk uit mekaar in een aantal kleine losse netwerken. Door de datasets met Cytoscape te visualiseren wordt dit vermoeden min of meer bevestigd. Conclusies rond de netwerktopologie moeten steeds met voorzichtigheid worden getrokken. De interactie data is immers nog niet volledig en van hoge kwaliteit.
71/86
6.2 Identificatie van geconserveerde interacties De gevonden geconserveerde interologen zijn stuk voor stuk zéér vitale processen bij eukaryote organismen, zowel voor de gist/Arabidopsis als gist/Drosophila interologen. Dit was te verwachten omdat de vergeleken organismen evolutionair gezien zeer ver uit elkaar liggen. Planten en dieren zijn immers 1580 miljoen jaar (± 90 miljoen jaar) van elkaar gedivergeerd. Dieren en gist zijn vermoedelijk iets recenter gedivergeerd, namelijk ongeveer 1500 miljoen jaar (Hedges 2002). Voorspellingen maken voor Arabidopsis op basis van aangetoonde gist interacties (zie 5.3) zal enkel interacties tussen sterk geconserveerde proteïnen opleveren. Opvallend is dat er erg veel interologen te maken hebben met transcriptie. Dit is natuurlijk ook een erg ruime klasse en zou verder opgedeeld kunnen worden in initiatie, elongatie en terminatie.
72/86
6.3 Predictie op basis van orthologe relaties Indien we een predictie maken voor Arabidopsis en deze dan vergelijken met de gekende interacties voor dit organisme (Tabel 12) blijkt dat er zeer weinig van de voorspelde interacties in de Arabidopsis dataset terug te vinden zijn. De reden hiervoor is dat de dataset van Arabidopsis slechts een zeer kleine fractie van alle proteïne – proteïne interacties bevat. Ideaal zou zijn mocht er van twee organismen een volledig interactoom beschikbaar zijn; dit zou toelaten exacte uitspraken te doen over hoeveel vals negatieven en vals positieven er in de voorspelling aanwezig waren. Maar momenteel zijn er nog geen volledige interactomen beschikbaar dus bleek het meer aangewezen te kijken naar het aantal voorspelbare interacties in de Arabidopsis dataset en hoeveel van deze interacties effectief voorspeld waren. Wel dient men er bewust van te zijn dat de dataset met interacties van het bronorganisme ook niet volledig is, en dat het dus mogelijk is dat een voorspelbare interactie in de Arabidopsis dataset niet wordt gevonden omdat de interactie tussen de orthologen in het bronorganisme nog niet is aangetoond of is opgenomen in een databank. Hoe sterk geconserveerd interacties zijn is momenteel nog een punt van discussie. Sommigen beweren zelfs dat interacties binnen een soort beter geconserveerd zijn dan tussen soorten onderling (Mika and Rost 2006). Dit is eigenlijk contra-intuïtief; deze paralogen, ontstaan uit een vroegere duplicatie, kunnen immers makkelijker divergeren. Slechts 1 paraloog moet de originele functie behouden voor de correcte werking van de cellen (zie ook 2.4). Het werd ook door andere onderzoekers vastgesteld dat paralogen zeer vaak voorkomen in dezelfde complexen (Musso, Zhang et al. 2007).
73/86
6.4 Validatie op basis van GO similariteit Gezien twee proteïnen op dezelfde plaats in de cel moeten voorkomen om effectief te kunnen interageren, wordt verwacht dat enkel proteïnen, die een hoge similariteit vertonen in de cellulaire component GO labels, met elkaar interacties aangaan. Voor gist werd reeds eerder aangetoond dat interagerende proteïnen significant meer voorkomen in hetzelfde compartiment van de cel (Huh, Falvo et al. 2003). Ook werd aangenomen dat interagerende proteïnen vaak betrokken zijn in hetzelfde biologische proces. In de histogrammen en grafieken valt duidelijk op dat er een significant verschil is in GO similariteit tussen een set reële interacties en random interacties, zowel voor de cellulaire component als het biologisch proces. Ze bewijzen dus, wat al intuïtief kon worden aangenomen, dat interagerende proteïnen op dezelfde of nabijgelegen plaatsen in de cel moeten voorkomen. Bovendien wordt aangetoond dat interagerende proteïnen vaak in hetzelfde biologische proces een rol zullen spelen. Door toepassing van cutoff filters gaat ook een deel reële data verloren. Hier gaat “slechts” 50% verloren voor een goede ruis/signaal verhouding te bekomen. Vergeleken met de coexpressie is dit een zeer goed resultaat. Het nadeel van deze techniek is dat er correcte GO annotatie nodig is voor beide proteïnen in de interactie. Dus indien voldoende GO annotatie voorhanden is, geeft deze methode een zeer goed resultaat. Voor proteïnen waar geen GO annotatie beschikbaar is worden beter andere technieken gebruikt; deze zullen toch door de filter worden tegengehouden.
74/86
6.5 Validatie op basis van expressiecorrelatie Dat proteïnen die een interactie aangaan soms een vergelijkbaar expressiepatroon hebben is voor andere organismen al eerder vastgesteld. In 2005 werd dit al voor de mens (Hahn, Rahnenfuhrer et al. 2005) en voor gist (Tirosh and Barkai 2005) aangetoond. Voor beide organismen werd een significant verschil gevonden in expressiecorrelatie tussen een set reële interacties en een set random proteïne - proteïne combinaties. Dit blijkt voor Arabidopsis thaliana ook zo te zijn (Grafiek 16). Uit voorgaande experimenten (5.5.1) blijkt echter wel dat expressiedata met enige voorzichtigheid gebruikt dient te worden. De dataset heeft wel degelijk een impact op de resultaten. Dit werd reeds aangetoond voor de mens. In het experiment opgezet door Rhodes et al. (Rhodes, Tomlins et al. 2005) bleek dat er voor 5 van de 80 geteste expressiedatasets een significant verschil was in positieve correlatie. In dit thesisonderzoek zijn er slechts twee datasets getest per organisme. Niettemin is er een duidelijk verschil in distributie van PCC voor Saccharomyces cerevisiae (Grafiek 10). Voor Arabidopsis thaliana (Grafiek 16) was er bijna geen verschil in distributie, maar toch bleek dat op niveau van één proteïne paar er grote verschillen zijn tussen de correlatie berekend aan de hand van de twee datasets (Grafiek 9). Deze verschillen kunnen te wijten zijn aan het type experimenten gedaan om de microarray data te bekomen. Ook mogelijk is dat voor de ene dataset de experimenten nauwkeuriger zijn uitgevoerd; door de experimenten meer te herhalen zal de hoeveelheid ruis op de data kleiner worden, wat ook een invloed heeft op de berekende correlatie coëfficiënt. Het aantal datapunten speelt ook een rol, maar deze is waarschijnlijk kleiner dan het type experimenten in de dataset. Hier was er een erg sterk verschil tussen de twee geteste methodes. Bovendien zouden deze experimenten meermaals herhaald moeten worden om sluitende conclusies uit te trekken, wat hier, wegens tijdgebrek, niet is gebeurd. Ook hier is er een duidelijk verschil tussen expressiecorrelatie in random paren en interagerende paren, het verschil is echter kleiner dan bij de MAX GO similariteitsscore. Voor beide methoden is er het probleem dat indien een cutoff filter wordt toepast ook een groot gedeelte reële interacties verloren gaat. Zeker indien het verschil tussen ruis en signaal 75/86
vrij klein is, kan tot 90% van de echte interacties verloren gaan om 2 maal meer echte interacties over te houden dan ruis. Door verdere studie van geconserveerde genen werden ook een aantal resultaten bekomen. Random paren met geconserveerde genen vertonen gemiddeld steeds een hogere expressiecorrelatie dan random paren die niet noodzakelijk geconserveerd zijn (Grafiek 12). Een mogelijke reden hiervoor is dat de geconserveerde processen tussen gist en Arabidopsis zeer basale processen zijn. Tussen deze processen zitten ook huishoudgenen die weinig in expressieniveau variëren en dus aanleiding geven tot een hogere PCC. Hier werd aangetoond dat gist genen die voorkomen in interologen (met Arbidopsis, mens of Drosophila) ook een hogere expressie coëfficiënt hebben dan niet geconserveerde gist genen die coderen voor interagerende proteïnen. Enerzijds is het verschil in co-expressie tussen interagerende proteïnen en random paren bruikbaar om de dataset met gist interacties, het beginpunt van de voorspellingen, betrouwbaarder te maken (Deane, Salwinski et al. 2002). Anderzijds is deze predictiemethode sterk gericht op interacties tussen geconserveerde genen. Net deze genen vertonen een hoger dan gemiddelde expressie coëfficiënt, wat voor meer ruis zorgt.
76/86
6.6 Ontwikkelen van het predictieprogramma Startend vanuit de experimentele dataset met gist interacties voorspellen we met zeer strenge instellingen 31 interacties in Arabidopsis (5.6). Deze interacties bleken steeds zeer logisch, meer zelfs, 4 interacties werden teruggevonden in de functionele beschrijving (TAIR) of in de literatuur. De methode werkt dus zeer goed, maar het aantal voorspelde interacties is eerder laag. Misschien zijn deze instellingen dus te streng. Zo werd er enkel op basis van de coexpressie één interactie van het TFIID complex gemist. Anderen werden gemist omdat ze niet als single copy gen voorkwamen in gist of Arabidopsis en zijn dus met deze instellingen niet op te pikken. De validatiemethodes die hier worden gehanteerd zijn niet bruikbaar om homotypische interacties te valideren, deze interacties zullen altijd door de filters (GO, expressiecorrelatie) raken. Homotypische interacties met deze methode voorspeld berusten dus enkel op orthologie.
77/86
7 Perspectieven
Door de voorspelde interacties met strenge instellingen met de literatuur te vergelijken blijkt deze methode goed te functioneren. Met lossere instellingen is het aantal voorspelde interacties te groot om ze handmatig na te gaan. Deze voorspellingen kunnen wel getoetst worden tegen een dataset met gekende interacties in Arabidopsis. Maar door de kleine omvang van deze experimentele dataset is er steeds erg weinig overlap. Veel experimentele data is bovendien onbruikbaar voor voorspellingen omdat sommige proteïnen geen orthologe groep of GO annotatie hebben. Als alternatief voor globale correlatiecoëfficiënt, wat erg streng is, zou er ook naar deels overlappende expressiepatronen gekeken kunnen worden. Men stelde reeds vast dat paralogen deel blijven uitmaken van dezelfde complexen, maar een sterk verschillend expressiepatroon kunnen vertonen. Als reden hiervoor wordt subfunctionalisatie en verschil in regulatie naar voor geschoven. Als een organisme over meerdere licht verschillende kopijen van eenzelfde gen beschikt, kan dit een voordeel zijn. De genproducten van deze verschillende genen verschillen waardoor ze, onder andere omstandigheden, optimaal kunnen werken. In situatie A zal het eerste genproduct beter functioneren en in situatie B het tweede. Dit levert een evolutionair voordeel op. Hoewel de functie gelijkaardig blijft zullen deze genen weinig expressiecorrelatie vertonen. Een voorbeeld hiervan zijn de twee paraloge Ser/Thr kinasen DBF2 en DBF20. Deze hebben ondanks een grote zekerheid op een gelijkaardige functie en 77% similariteit een negatieve expressie coëfficiënt (Guan, Dunham et al. 2007; Musso, Zhang et al. 2007). De expressiedata op basis van microarrays, waarbij mRNA concentraties worden gemeten, zouden aangevuld kunnen worden door effectieve concentraties actief eiwit binnen een bepaalde celtype onder bepaalde omstandigheden. Deze data is echter nog zeer schaars gezien technologieën en technieken om deze gegevens op te meten jaren achterstand hebben op de mRNA technologie (Stoughton 2005). Het voordeel van eiwitten te bestuderen is dat posttranslationele modificaties in rekening kunnen worden gebracht.
78/86
Een andere mogelijkheid is om complexen te voorspellen aan de hand van proteïne complexen. De methode die hier wordt gebruikt vertrekt van een dataset met binaire interacties. De filters zijn ook enkel geschikt voor een co-expressiecoëfficiënt of GO MAX similariteit te berekenen tussen een proteïne paar. Hier kunnen echter ook nieuwe algoritmes en technieken ontwikkeld worden om predicties te maken en te valideren vanuit proteïne complexen. Het gebruik van de verschillende cutoff filters kan zoals reeds in de discussie aangehaald beter worden vervangen door een scoring system waarbij aan elke voorspelling een score wordt toegekend op basis van hun betrouwbaarheid. Nog betrouwbaarder, maar complexer, is een probabilistic approach, waar aan elke validatiemethode een gewicht wordt toegekend wat in rekening wordt gebracht (Rhodes, Tomlins et al. 2005). Ook zouden hier meer filters kunnen worden gemaakt; zo stelt men vast dat tussen interagerende proteïnen bepaalde domeinen meer voorkomen dan tussen proteïnen die geen interactie met elkaar aangaan. Verder dient ook de rol van paralogen en hun interacties binnen Arabidopsis thaliana nagegaan te worden. Is het hier zo dat paralogen sneller gaan divergeren omdat slechts één kopij de originele functie dient te behouden? Of zullen de paralogen net hun interacties behouden en aan neo- of subfunctionalisatie doen, op regulatieniveau, en wel deel blijven uitmaken van het complex waar ze oorspronkelijk toe behoorden? Eenmaal het systeem op punt staat kan men toepassingsmogelijkheden bedenken. Aan de hand van deze predicties kunnen wet lab experimenten worden gestuurd of geverifieerd. De evolutie van proteïne interacties kan worden nagegaan tussen verschillende species. Het lot van gedupliceerde genen kan verder geanalyseerd worden.
79/86
8 Referenties
Bader, G. D., D. Betel, et al. (2003). "BIND: the Biomolecular Interaction Network Database." Nucleic Acids Res 31(1): 248-50. Boeckmann, B., A. Bairoch, et al. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003." Nucleic Acids Res 31(1): 365-70. Craigon, D. J., N. James, et al. (2004). "NASCArrays: a repository for microarray data generated by NASC's transcriptomics service." Nucleic Acids Res 32(Database issue): D575-7. Deane, C. M., L. Salwinski, et al. (2002). "Protein interactions: two methods for assessment of the reliability of high throughput observations." Mol Cell Proteomics 1(5): 349-56. Draghici, S. (2003). Data Analysis tools for DNA Microarrays, Chapman & Hall/CRC. Droit, A., G. G. Poirier, et al. (2005). "Experimental and bioinformatic approaches for interrogating proteinprotein interactions to determine protein function." J Mol Endocrinol 34(2): 263--280. Enright, A. J., S. Van Dongen, et al. (2002). "An efficient algorithm for large-scale detection of protein families." Nucleic Acids Res 30(7): 1575-84. Fitch, W. M. (1970). "Distinguishing homologous from analogous proteins." Syst Zool 19(2): 99-113. Formstecher, E., S. Aresta, et al. (2005). "Protein interaction mapping: a Drosophila case study." Genome Res 15(3): 376-84. Gasch, A. P., P. T. Spellman, et al. (2000). "Genomic expression programs in the response of yeast cells to environmental changes." Mol Biol Cell 11(12): 4241-57. Gavin, A. C., P. Aloy, et al. (2006). "Proteome survey reveals modularity of the yeast cell machinery." Nature 440(7084): 631-6. Gavin, A. C., M. Bosche, et al. (2002). "Functional organization of the yeast proteome by systematic analysis of protein complexes." Nature 415(6868): 141-7. Gentleman, R. C., V. J. Carey, et al. (2004). "Bioconductor: open software development for computational biology and bioinformatics." Genome Biol 5(10): R80. Gilbert, D. (2005). "Biomolecular interaction network database." Brief Bioinform 6(2): 194-8. Giot, L., J. S. Bader, et al. (2003). "A protein interaction map of Drosophila melanogaster." Science 302(5651): 1727-36. Grigoriev, A. (2003). "On the number of protein-protein interactions in the yeast proteome." Nucleic Acids Res 31(14): 4157-61. Guan, Y., M. J. Dunham, et al. (2007). "Functional analysis of gene duplications in Saccharomyces cerevisiae." Genetics 175(2): 933-43. Hahn, A., J. Rahnenfuhrer, et al. (2005). "Confirmation of human protein interaction data by human expression data." BMC Bioinformatics 6: 112. Harris, M. A., J. Clark, et al. (2004). "The Gene Ontology (GO) database and informatics resource." Nucleic Acids Res 32(Database issue): D258-61. Hartley, J. L., G. F. Temple, et al. (2000). "DNA cloning using in vitro site-specific recombination." Genome Res 10(11): 1788-95. Hedges, S. B. (2002). "The origin and evolution of model organisms." Nat Rev Genet 3(11): 838-49. Hermjakob, H., L. Montecchi-Palazzi, et al. (2004). "The HUPO PSI's molecular interaction format--a community standard for the representation of protein interaction data." Nat Biotechnol 22(2): 177-83.
80/86
Hermjakob, H., L. Montecchi-Palazzi, et al. (2004). "IntAct: an open source molecular interaction database." Nucleic Acids Res 32(Database issue): D452-5. Ho, Y., A. Gruhler, et al. (2002). "Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry." Nature 415(6868): 180-3. Hubbard, T. J., B. L. Aken, et al. (2007). "Ensembl 2007." Nucleic Acids Res 35(Database issue): D610-7. Hughes, T. R., M. J. Marton, et al. (2000). "Functional discovery via a compendium of expression profiles." Cell 102(1): 109-26. Huh, W. K., J. V. Falvo, et al. (2003). "Global analysis of protein localization in budding yeast." Nature 425(6959): 686-91. Ito, T., K. Tashiro, et al. (2000). "Toward a protein-protein interaction map of the budding yeast: A comprehensive system to examine two-hybrid interactions in all possible combinations between the yeast proteins." Proc Natl Acad Sci U S A 97(3): 1143-7. Jeong, H., B. Tombor, et al. (2000). "The large-scale organization of metabolic networks." Nature 407(6804): 651-4. Khanin, R. and E. Wit (2006). "How scale-free are biological networks." J Comput Biol 13(3): 810-8. Koonin, E. V. (2005). "Orthologs, paralogs, and evolutionary genomics." Annu Rev Genet 39: 309-38. Lawit, S. J., K. O'Grady, et al. (2007). "Yeast two-hybrid map of Arabidopsis TFIID." Plant Mol Biol 64(1-2): 73-87. Lee, R. E. and L. A. Megeney (2005). "The yeast kinome displays scale free topology with functional hub clusters." BMC Bioinformatics 6: 271. Legrain, P., J. Wojcik, et al. (2001). "Protein--protein interaction maps: a lead towards cellular functions." Trends Genet 17(6): 346-52. Lei, Z. and Y. Dai (2006). "Assessing protein similarity with Gene Ontology and its use in subnuclear localization prediction." BMC Bioinformatics 7: 491. Li, L., C. J. Stoeckert, Jr., et al. (2003). "OrthoMCL: identification of ortholog groups for eukaryotic genomes." Genome Res 13(9): 2178-89. Liu, Y., N. Liu, et al. (2005). "Inferring protein-protein interactions through high-throughput interaction data from diverse organisms." Bioinformatics 21(15): 3279-85. Marshall, E. (2002). "Genome sequencing. Public group completes draft of the mouse." Science 296(5570): 1005. Matthews, L. R., P. Vaglio, et al. (2001). "Identification of potential interaction networks using sequence-based searches for conserved protein-protein interactions or "interologs"." Genome Res 11(12): 2120--2126. Mika, S. and B. Rost (2006). "Protein-protein interactions more conserved within species than across species." PLoS Comput Biol 2(7): e79. Musso, G., Z. Zhang, et al. (2007). "Retention of protein complex membership by ancient duplicated gene products in budding yeast." Trends Genet. NASC. "The Nottingham Arabidopsis Stock Centre." from http://affymetrix.arabidopsis.info/. O'Donovan, C., M. J. Martin, et al. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL." Brief Bioinform 3(3): 275-84. Phizicky, E. M. and S. Fields (1995). "Protein-protein interactions: methods for detection and analysis." Microbiol Rev 59(1): 94--123. Puig, O., F. Caspary, et al. (2001). "The tandem affinity purification (TAP) method: a general procedure of protein complex purification." Methods 24(3): 218--229. Rhee, S. Y., W. Beavis, et al. (2003). "The Arabidopsis Information Resource (TAIR): a model organism database providing a centralized, curated gateway to Arabidopsis biology, research materials and community." Nucleic Acids Res 31(1): 224-8. Rhodes, D. R., S. A. Tomlins, et al. (2005). "Probabilistic model of the human protein-protein interaction network." Nat Biotechnol 23(8): 951-9.
81/86
Rual, J. F., K. Venkatesan, et al. (2005). "Towards a proteome-scale map of the human protein-protein interaction network." Nature 437(7062): 1173-8. Salwinski, L., C. S. Miller, et al. (2004). "The Database of Interacting Proteins: 2004 update." Nucleic Acids Res 32(Database issue): D449--D451. Schmid, M., T. S. Davison, et al. (2005). "A gene expression map of Arabidopsis thaliana development." Nat Genet 37(5): 501-6. Shoemaker, B. A. and A. R. Panchenko (2007). "Deciphering Protein-Protein Interactions. Part I. Experimental Techniques and Databases." PLoS Comput Biol 3(3): e42. Sprinzak, E., S. Sattath, et al. (2003). "How reliable are experimental protein-protein interaction data?" J Mol Biol 327(5): 919-23. Stanyon, C. A., G. Liu, et al. (2004). "A Drosophila protein-interaction map centered on cell-cycle regulators." Genome Biol 5(12): R96. Stoughton, R. B. (2005). "Applications of DNA microarrays in biology." Annu Rev Biochem 74: 53-82. Tirosh, I. and N. Barkai (2005). "Computational verification of protein-protein interactions by orthologous coexpression." BMC Bioinformatics 6: 40. Uetz, P., L. Giot, et al. (2000). "A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae." Nature 403(6770): 623-7. Van Leene, J., H. Stals, et al. (2007). "A tandem affinity purification-based technology platform to study the cell cycle interactome in Arabidopsis thaliana." Mol Cell Proteomics. Venter, J. C., M. D. Adams, et al. (2001). "The sequence of the human genome." Science 291(5507): 1304-51. Young, K. H. (1998). "Yeast two-hybrid: so many interactions, (in) so little time." Biol Reprod 58(2): 302--311. Yu, H., N. M. Luscombe, et al. (2004). "Annotation transfer between genomes: protein-protein interologs and protein-DNA regulogs." Genome Res 14(6): 1107--1118.
82/86
9 Appendices
9.1 Het SPI file formaat Alle gebruikte interactiedata werd uit databases gehaald en via parsers naar het SPI formaat omgezet. Dit is een “tab delimited” formaat met een opmaak die eenvoudig in zowel PERL als C# in te lezen is. Alle tools die voor deze thesis geschreven zijn maken gebruik van dit formaat. [integer] moet gelijk zijn aan het aantal proteïnen in de dataset. Voor elk proteïne op één regel gescheiden door tabs: •
[id] integer: geeft het id van het proteïne binnen de dataset weer
•
[naam] string: naam van het proteïne
•
[alternatief] string: alternatieve naam
•
[swissprot accessie] string: swissprot accessie van het proteïne
•
[organisme] string: naam van het organisme waarin het proteïne voorkomt
•
[GI] integer: GI code van het proteïne
•
[At] string: TAIR accessienummer (wordt enkel gebruikt bij Arabidopsis anders gelijk stellen aan undef)
•
[Familie] integer: bevat familie waar het proteïne deel van is
•
[Orthologe groep] string: bevat orthologe groep waar proteïne deel van is, belangrijk voor voorspellingen
•
[GO labels] string: bevat verschillende GO labels gescheiden door ‘/’ .
[integer] moet gelijk zijn aan het aantal interacties in de dataset. Voor elke interactie op één regel gescheiden door tabs: •
[id] integer: geeft het id van de interactie binnen de dataset weer
•
[naam] string: naam van de interactie
•
[proteïne id 1] integer: verwijst naar id van eerste proteïne in de interactie
•
[proteïne naam 1] string: de naam van het eerste proteïne in de dataset (informatief)
•
[proteïne id 2] integer: verwijst naar id van tweede proteïne in de interactie
•
[proteïne naam 2] string: de naam van het tweede proteïne in de dataset (informatief)
83/86
•
[methode id] integer: code van de methode gebruikt voor interactie aan te tonen (informatief)
•
[methode naam] string: naam van de methode gebruikt voor interactie aan te tonen, door ‘/’ gescheiden indien op meerdere verschillende manieren aangetoond.
[integer] aantal regels extra info •
[string] extra info kan worden gebruikt voor te beschijven hoe dataset tot stand is gekomen
84/86
9.2 Lijst met gebruikte afkortingen Arath: Arabidopsis thaliana BLAST: Basic Local Alignment Search Tool Drome: Drosophila melanogaster EGTA: Ethylene Glycol Tetraacetic Acid EST: Expressed Sequence Tag GI: Genbank ID GNS : Gold Negative Standard GO: Gene Ontology MALDI-TOF: Matrix Assisted Laser Desorption Ionisation – Time Of Flight ORC: Origin Recognition Complex ORF: Open Reading Frame PCC: Pearson’s Correlation Coefficient PCR: Polymerase Chain Reaction SDS: Sodium Dodecyl Sulphate TEV: Tobacco Etch Virus TAP: Tandem Affinity Purification XML: eXtensible Markup Language
85/86
9.3 Verklarende woordenlijst
Antigeen: Benaming voor een lichaamsvreemde stof die in dieren een immuunrespons uitlokt. Antilichaam: Immunoglobulines die onstaan tijdens de immuunrespons, deze zijn genetisch geselecteerd om specifiek te binden aan een bepaald antigeen. BLAST: Algoritme gebruikt om 2 sequenties (DNA, RNA of proteïne) onderling met elkaar te vergelijken en een similariteit toe te kennen. Frame-Shift: Tijdens de translatie van mRNA naar eiwit worden 3 nucleotiden op RNAniveau omgezet naar één aminozuur. Indien één nucleotide gedeleteerd wordt zal vanaf dat punt het leesraam verstoord zijn en zullen er foute aminozuren worden ingebouwd. Fusie-eiwit: ook chimeer eiwit genoemd. Dit zijn 2 eiwitten die aan elkaar zijn gehecht. Meestal gebeurt dit door op DNA niveau de coderende sequenties in frame aan mekaar te ligeren. Tussen de 2 eiwitten kan een spacer aanwezig zijn. Homoloog: Genen afkomstig van eenzelfde bron, dit kunnen zowel paralogen als homologen zijn. Lyse: Openbreken van de een cel. Dit kan op verschillende manieren gebeuren. Bijvoorbeeld door toevoeging van detergenten, maar ook mechanisch zoals met een french-press. Ortholoog: Gen afkomstig uit een gemeenschappelijke voorouder ontstaan door een speciatiegebeurtenis. Paraloog: Gen ontstaan door een recente duplicatie. Protease: Enzyme dat andere polypeptiden afbreekt. Dit kan via verschillende mechanismen gebeuren. Proteasoom: Sterk geconserveerd complex dat instaat voor de afbraak van eiwitten.
86/86