Moleculaire Genetica 2e Kan Biomedische Wetenschappen K.U.Leuven
Prof . Peter Marynen 2000 – 2001
MOLECULAIRE GENETICA
1
1.
5
Morfologie van een genoom 1.1
Het humaan genoom
5
Algemene organisatie
5
Genen
6
Proteïne-coderende genen
6
Pseudogenen
6
RNA-genen
7
Niet-coderend DNA
7
Tandem herhalingen
7
Verspreide herhalingen
8
‘Junk’ DNA, ‘selfish’ DNA
8
Variabiliteit van het genoom 1.2
8
Andere organismen
9
Complexiteit
9
Tabel 1.1 : Complexiteit van enkele genomen
9
Mycoplasma genitalium
9
Evolutie 1.3
9
Het humaan genoom project
9
Inleiding
9
Fig 1.1 Evolutie van de genomen van multicellulaire eukaryoten 2.
10
Mendeliaanse overerving
11
2.1
Inleiding
11
2.2
Genetische koppelingsanalyse: definities en principes
11
2.3
Homologe recombinatie: de biologische basis voor koppelingsanalyse.
12
2.4
Koppelingsanalyse: kwantitatieve methodes
13
Fig. 2.1 Segregatie van twee merkers in een nucleaire familie
13
Genetische kaarten
15
Genetische heterogeniteit
15
‘Linkage disequilibrium’
16
2.5
Genetische merkers
16
2.6
Koppelingsanalyse: toepassingen
17
3.
Complexe eigenschappen
18
3.1
Inleiding
18
3.2
Kwantitatieve analyse van complexe kenmerken
18
Parametrische analyses
18
Niet-parametrische analyses
19
Associatie Moleculaire Genetica 2000
19 -2-
Associatie – koppelingsanalyse
20
Single nucleotide polymorphisms (SNP’s) 4.
20
Constitutionele aandoeningen : mucoviscidose
22
4.1
Inleiding
22
4.2
Positionele klonering van het CF gen
22
Strategie
22
Fysische kaart – ‘walking’
23
Contigs
23
STS’s
23
Figuur 4.1 Genomische ‘wandeling’
24
Transcript kaart
25
Klonering van transcripten
25
Onrechtsreekse experimentele methodes
25
Sequentie analyse
26
Het CFTR gen
26
Identificatie
26
Moleculaire pathologie
27
Diagnose
5.
28
Genetische testen – koppelingsanalyse
28
Mutatie-analyse
28
DNA diagnose – klassieke diagnostiek
29
Testen - screenen
29
Moleculaire cytogenetica
31
5.1
Inleiding
31
5.2
Cytogenetica
31
Karyotypes
31
Karyotypering: medische toepassingen
32
5.3
Moleculaire cytogenetica
33
Fluorescente in situ hybridisatie (FISH)
33
DNA sondes voor FISH
33
Merken en detectie van de sondes
33
Doelwit DNA
34
FISH: toepassingen
34
6.
Het Humaan Genoomproject
35
6.1
Genetische kaarten
35
6.2
Fysische kaarten van het humaan genoom
35
Systematische constructie van contigs
35
EST gegevensbanken – transcript kaarten
36
6.3
De sequentie van het humaan genoom
36
6.4
Bio-informatica
37
Moleculaire Genetica 2000
-3-
Gegevensbanken
37
Similariteit
38
Definities
38
BLAST
38
Toepassingen
38
Informatica – internet
39
Moleculaire Genetica 2000
-4-
Inleiding Een van de belangrijkste thema's van moleculair genetisch onderzoek is het verband tussen een geobserveerd kenmerk van een organisme (het fenotype) en het genotype van dit organisme. Hoe sturen genen de ontwikkeling en het functioneren van een organisme? Eng vertaald naar een specifiek medisch standpunt luidt dit : de detectie en analyse van genen die verantwoordelijk zijn voor aandoeningen. Het begrip fenotype moet hier in de brede zin beschouwd worden : het betreft hier niet enkel erfelijke kenmerken (waarvan de genetische component bij de bevruchting vast ligt) maar ook somatische fenotypes (verworven aandoeningen). Een voorbeeld hiervan is
één cel die de
controle over haar gedrag verliest en zo een tumorcel wordt. De doelstelling van deze cursus is inzicht krijgen in de structuur van een complex genoom, in de moleculaire processen die verantwoordelijk zijn voor het vertalen van een complex genoom naar een fenotype en de fouten die hierbij kunnen optreden. Om dit mogelijk te maken is het essentieel een inzicht te krijgen in de technologie die gebruikt wordt voor de studie van complexe genomen.
1. Morfologie van een genoom 1.1 Het humaan genoom Algemene organisatie Het genoom definiëren wij als de volledige genetische informatie die zich in een cel bevindt. In menselijke cellen bevat het nucleair genoom >99.9995% van de genetische informatie. De overige 0.0005% van de genetische informatie vinden wij in de mitochondriën. Het haploïd genoom van de mens heeft een omvang van ongeveer 3.3 109 bp. Genen maken slechts ongeveer 25% van het genoom uit. Het overige deel van het genoom heeft een structurele functie (telomeren, centromeren) of heeft geen (gekende) functie. Ongeveer 3% van het genoom codeert voor proteïnen, 60% van het genoom heeft een unieke sequentie, 40 % van het genoom bestaat uit herhalingen. Het mitochondriaal genoom bestaat uit één enkel dubbelstrengig DNA molecule van 16 569 bp. Menselijke cellen kunnen duizenden mitochondria bevatten, kwantitatief vormt mitochondriaal DNA tot 0.5% van het DNA van een cel. De mitochondriën in een zygote zijn exclusief afkomstig van de eicel. Mitochondriaal DNA wordt dus materneel overgeërfd. Door zijn geringe afmeting en het hoog aantal kopieën per cel blijft mitochondriaal DNA beter bewaard in oude biologische stalen. Mitochondriaal DNA is dus een belangrijk doelwit voor de moleculaire biologie in forensische en archeologische onderzoeken. Moleculaire Genetica 2000
-5-
Het nucleair DNA komt voor als 2x23 lineaire dubbelstrengige DNA molecules. Elk van die molecules vormt in associatie met proteïnes een chromosoom. Er zijn 24 types chromosomen : 22 autosomen (genummerd 1-22) en twee geslachtschromosomen (X en Y). Genen De klassieke genetica definieert genen als ‘overerfbare eenheden die verantwoordelijk zijn voor een kenmerk (fenotype)’. Dat beperkt het begrip ‘gen’ essentieel tot coderende sequenties. In de moleculaire genetica hanteren wij een brede definitie : een gen is een deel van het genoom dat overgeschreven wordt in een RNA molecule (transcriptie). Wij onderscheiden dan coderende (strikt genomen : proteïne-coderende) genen die vertaald worden in een proteïne, en genen die aanleiding geven tot een RNA molecule met een eigen functie. Proteïne-coderende genen Proteïne-coderende genen bestaan uit exon sequenties die het mature mRNA vormen en intron sequenties die uit het oorspronkelijke transcript verwijderd worden (‘splicing’). Deze genen kunnen één tot tientallen exonen bevatten. Exonen hebben een gemiddelde lengte van enkele tientallen tot enkele honderden bp. Uitzonderlijk kan die lengte oplopen tot enkele duizenden bp. De fysische lengte van een gen wordt voornamelijk bepaald door de lengte van de intron sequenties. Een gen kan dus van enkele honderden tot enkele miljoenen bp lang zijn. Zo is het dystrophine (DMD) gen meer dan 2.400 mb lang (79 exonen, mRNA van 16 kb). Deleties in het DMD gen zijn verantwoordelijk voor becker en duchenne
musculaire
dystrofie
(OMIM
310200
;
http://www3.ncbi.nlm.nih.gov/Omim/).
Experimentele evidentie suggereert dat de transcriptie van een gen met die afmetingen meer dan 16 uur vergt. Pseudogenen Pseudogenen zijn niet-functionele genen. Zij ontstaat door twee verschillende processen : de inactivering van gedupliceerde genen en retrotranspositie van mRNAs in het genoom. Het genoom van een organisme is een dynamische entiteit. Op een evolutionaire tijdschaal gebeuren er herrangschikkingen van het genoom (duplicaties, deleties, translokaties) en accumuleren er puntmutaties.
Duplicaties generen bijkomende kopieën van genen, mutaties
kunnen dan aanleiding geven tot een homoloog gen of tot het inactiveren van het gen (geen transcript of geen translatie door verlies van het open leesraam).
Genen die op die wijze
geïnactiveerd zijn conventionele pseudo-genen (‘unprocessed pseudogenes’). Uitzonderlijk kan in een eukaryote cel een mRNA door een reverse transcriptase terug overgeschreven worden in een cDNA. Als dit cDNA dan in het genoom ingebouwd wordt ontslaat een pseudo-gen dat een directe kopie is van de mRNA, zonder intronsequenties (‘processed pseudogene’). Dit proces heet retrotranspositie. ‘Processed’ pseudo-genen accumuleren ook mutaties die het ORF onderbreken. Moleculaire Genetica 2000
-6-
Sommige pseudo-genen zijn transcriptioneel actief en geven dus aanleiding tot RNA molecules (‘expressed pseudogenes). Deze mRNAs worden dan niet meer vertaald in proteïnes. RNA-genen Ongeveer 5% van de genen coderen voor RNA molecules die niet vertaald worden in proteïnes. Daartoe behoren ribosomaal RNA (rRNA), transfer RNA (tRNA), ‘small nuclear RNA’ (snRNA). Andere RNA molecules zijn gekend die een belangrijke rol spelen in het functioneren van de cel. Voorbeelden daarvan zijn het RNA molecule dat de complementaire streng vormt voor de synthese van de telomeersequenties en het transcript van het XIST gen. Dat gen bevindt zich in het ‘X-inactivation center’ (Xic), de regio op het X-chromosoom die verantwoordelijk is voor de inactivering van één van de twee X-chromosomen in een vrouwelijke cel. Van het XIST gen op de inactieve X wordt een 15 kb transcript afgeschreven. De precieze rol van dat transcript in het Xinactiverings proces is nog niet opgehelderd.
Niet-coderend DNA Uit het voorgaande blijkt dat de betekenis van de begrippen ‘gen’ en ‘coderend’ door de context bepaald wordt. In deze paragraaf behandelen wij DNA sequenties die niet coderen voor proteïnes, dat zijn dus intron sequenties en inter-genische sequenties. Ongeveer 40% van die sequenties zijn repetitief DNA. Wij onderscheiden verspreide herhalingen (‘interspersed repeats’) en tandem herhalingen. Tandem herhalingen Tandem herhalingen worden gevormd door de kop-aan-staart herhaling van een sequentiemotief. Afhankelijk van de lengte van dat motief spreken wij van satelliet DNA, minisatelliet DNA of microsatelliet DNA. Satelliet DNA wordt gevormd door de herhaling van een fragment van 5-200 bp. Het precieze sequentiemotief bepaalt de familie van satelliet DNA. Zo spreken wij van α-satelliet DNA (of alphoid DNA), β-satelliet DNA, satelliet 1, satelliet 2 en satelliet 3 DNA. Satelliet DNA is de voornaamste DNA component van de centromeren. Bij de mens zijn de centromeren enkele mb lang. Minisatellieten (ook gekend als VNTR’s ‘variable number of tandem repeats’) bestaan uit de herhaling van enkele tot enkele tientallen kopieën van een motief van een tiental bp. Minisatellieten komen vooral voor in de subtelomere regio’s van de chromosomen, hun lengte varieert van .1 tot 20kb. Microsatellieten (ook SSR’s, ‘simple sequence repeats’ of STR’s, ‘simple tandem repeats’ genoemd) bestaan uit herhalingen van een blok van 1-4 bp. Deze herhalingen zijn meestal korter dan 150 bp. Microsatellieten komen verspreid over het gehele genoom voor.
Moleculaire Genetica 2000
-7-
Verspreide herhalingen Bij verspreide herhalingen (‘interspersed repeats’) zijn de individuele herhalings-units verspreid over het genoom. SINEs (‘short interspersed nuclear element’) hebben een sequentie tot 300 bp. De belangrijkste familie zijn de Alu-herhalingen met een lengte <280 bp en ongeveer 1000 000 kopieën in het menselijk genoom. Alu herhalingen komen dus gemiddeld alle 3 kb voor. Alu herhalingen hebben de structuur van ‘processed’ pseudo-genen , er wordt aangenomen dat Alu herhalingen door retrotranspositie over het genoom verspreid werden. LINE’s (‘long interspersed nuclear elements’) hebben een maximale lengte van 5 à 6 kb. De belangrijkste is de LINE-1 herhaling waarvan er meer dan 100 000 kopieën in het humaan genoom voorkomen. Deze bevat twee potentiële open leesramen, één ervan codeert voor een reverse transcriptase domein. Er is dus een gelijkenis met retrovirussen. In het humaan genoom zijn er enkele LINE-1 herhalingen die nog actief zijn. ‘Junk’ DNA, ‘selfish’ DNA Omwille van hun eigenschappen hebben verspreide herhalingen een invloed op de stabiliteit ven een genoom (bvb. door het induceren van homologe recombinatie). Deze sequentie kunnen dus een rol spelen in de evolutie van een genoom. Er wordt aangenomen dat deze sequenties in de individuele cel of in het organisme geen functionele rol spelen, zij zijn dus eerder een ballast voor het genoom en worden wel eens ‘junk’ DNA genoemd. Vanuit het standpunt van de evolutie worden deze sequenties eerden als parasieten beschouwd van een genoom (‘Selfish DNA’). Moderne neo-Darwiniaanse theorieën argumenteren dat de eenheid van selectie de DNA sequentie is en niet het organisme. Op deze wijze zou het voorkomen van dit ‘selfish’ DNA evolutionair verklaard kunnen worden. Variabiliteit van het genoom Elk van ons heeft een uniek genoom (eeneiige tweelingen delen dat genoom). De sequentie van twee individuen verschilt in ongeveer 1/700 bp. De meeste van die verschillen komen voor in nietcoderende sequenties, of geven geen aanleiding tot aminozuur substituties in de overeenkomstige proteïnes (codon redundantie). De sequentieverschillen die wel vertaald worden in proteïnes, of die een invloed hebben op het expressieniveau van een proteïne, vormen de genetische component van ons uniek fenotype. Tandem herhalingen vertonen een bijzondere vorm van variabiliteit. Het aantal herhalingen in een bepaalde locus kan sterk variëren. Een voorbeeld daarvan zijn de CA-herhalingen. Dat zijn microsatellieten van het sequentie motief CA, zij hebben dus de vorm -(CA)n-. N kan dan variëren van 5 – 75. Alle satellietsequenties vertonen die variatie. Die variatie vormt de moleculaire basis voor de identificatie van individuen in de forensische geneeskunde.
Moleculaire Genetica 2000
-8-
1.2 Andere organismen Complexiteit Tabel 1.1 geeft een overzicht van de structuur van het genoom van bacteriën, ééncellige en meercellige eukaryoten.
Tabel 1.1 : Complexiteit van enkele genomen Organisme
Chromosomen
bp
Genen (ORF)
C
1
580 073
467
E. coli
C
1
4 214 814
4289
Saccharomyces cerevisiae
L
16
12 069 247
6000
Arabidopsis thaliana
L
2x5
116 800 000
25 000
C. elegans
L
2 x 10
90 000 000
19 000
D. melanogaster
L
2x5
137 000 000
13 500
Tetraodon rubripes (Fugu)
L
400 000 000
35 000
M. musculus
L
2 x 20
3 300 000 000
50 000
H. sapiens
L
2 x 23
3 300 000 000
50 000
Mycoplasma genitalium
C: circulair, L : lineair, als het aantal genen ter discussie staat is dit aantal in italic weergegeven
Evolutie Er is evidentie dat er gedurende evolutie van meercellige eukaryoten tweemaal een genoom duplicatie heeft plaatsgevonden (Fig. 1.1). De complexiteit van het genoom van mammalia is dus ongeveer 4 x dit van een rondworm (C. elegans) of de fruitvlieg (D. melanogaster). Het genoom van de mens en de bonobo (dwergchimpansee, Pan paniscus) is ±98.5% identiek indien wij de volledige sequentie beschouwen. Een analyse van 20 gekende cDNAs leert dat sequenties die voor proteïnes coderen minder dan 0.7% verschillen. Coderende sequenties voor homologe genen van mens en muis zijn 50 – 90% identiek. Voor mens - C. elegans en mens - D. melanogaster is dit 30 – 75%.
1.3 Het humaan genoom project Inleiding Het 'Human Genome Project' is een internationaal collaboratief project waarvan de algemene doelstelling in 1985 als volgt werd geformuleerd: 'Acquiring complete knowledge of the organisation, structure and function of the human genome.' Om dit doel te bereiken ontwikkelde de internationale onderzoeksgemeenschap 7 specifieke subdomeinen. Deze behelzen de constructie van genetische kaarten van het menselijke genoom, Moleculaire Genetica 2000
-9-
de constructie van fysische kaarten met als ultiem doel de complete sequentie van het genoom, de studie van model-organismen, de verdere ontwikkeling van de nodige informatica, de ontwikkeling van nieuwe technologieën en de overdacht van die technologie naar de onderzoeksgemeenschap en de industrie en ten slotte de studie van ethische, legale en sociale aspecten van dit project. De coördinatie van dat project gebeurt door de 'Human Genome Organisation' (HUGO). De 'Genome Database' (GDB) , die voor iedereen toegankelijk is via elektronische weg (http://gdbwww.gdb.org/) is een centrale gegevensbank die de data van de verschillende laboratoria integreert. Een web site die een uitstekende start vormt voor het opsporen van gegevens uit het HGP is http://www.ncbi.nlm.nih.gov/
Fig 1.1 Evolutie van de genomen van multicellulaire eukaryoten
worm
N
Genes
1
18 000
1
14 000
C. Elegans fly D. Melanogaster starfish
1
amphioxus hagfish
2
fish
4
35 000
4
50 000 – 120 000
Tetraodon viridis mammalia Mus musculus Homo sapiens N : kopie nummer, genes : proteïne coderende sequenties
Moleculaire Genetica 2000
- 10 -
2. Mendeliaanse overerving 2.1 Inleiding Genetische kenmerken die afhangen van één enkel gen (meer precies : locus) noemen wij mendeliaans. Mendeliaanse kenmerken segregeren in families
volgens een
autosomaal
dominant, autosomaal recessief, X-gebonden dominant of X-gebonden recessief patroon. Niet alle kenmerken die in een familie voorkomen zijn mendeliaans, sommige kenmerken zijn multifactorieel (bepaald door een combinatie van genetische en omgevingsfactoren), andere zijn uitsluitend bepaald door omgevingsfactoren (bvb. cultuur). Koppelingsanalyse is een kwantitatieve methode die toelaat aan te tonen dat een kenmerk bepaald wordt door één enkele locus die in de nabijheid ligt van andere gekende loci op een genoom. Koppelingsanalyse bepaalt ook de afstand tussen die loci. Koppelingsanalyse kan dus bewijzen dat een kenmerk mendeliaans is en meteen dat kenmerk op een genetische kaart van het genoom plaatsen.
2.2 Genetische koppelingsanalyse: definities en principes locus:
fysische plaats op een chromosoom. Op een locus bevindt zich een bepaalde sequentie of gen. Een locus draagt een specifiek allel van dit gen.
allel:
een van de alternatieve vormen van een gen op een bepaald locus.
genetische merker: elk locus kan gebruikt worden als genetische merker van zodra het mogelijk is genetische variatie ter hoogte van dit locus te detecteren. haplotype:
in een strikte betekenis, de specifieke allelen van verschillende loci die zich op dezelfde fysische chromosoom bevinden. In de brede betekenis zeggen we dat een set allelen voor verschillende loci een haplotype vormen. We erven dan een haplotype van onze moeder en een haplotype van onze vader.
genotype:
genetische constitutie van een organisme. Ons genotype wordt gedefinieerd door twee specifieke allelen voor elke locus.
In het algemeen worden allelen van twee verschillende loci onafhankelijk van elkaar overgeërfd (onafhankelijke segregatie van allelen). Voor twee merkers met als allelen respectievelijk A, a en B, b zijn de mogelijke haplotypes (in de brede betekenis) van de gameten: AB, Ab, ab en aB. Deze worden in een ratio 1:1:1:1 doorgegeven aan de nakomelingen. Sommige paren van genen worden niet onafhankelijk overgeërfd, deze genen zijn gekoppeld. Veronderstellen we een individu met als haplotypes AB en ab voor twee loci zoals hierboven beschreven. Erven nakomelingen van dit individu het AB of het ab haplotype, dan noemen we deze niet-recombinant voor deze twee loci. Nakomelingen die een Ab of aB haplotype erven van deze ouder hebben een recombinant haplotype. Segregeren deze twee genen niet onafhankelijk, Moleculaire Genetica 2000
- 11 -
dan zullen de niet-recombinante haplotypes voor deze twee genen frequenter voorkomen bij de nakomelingen dan de recombinante haplotypes. De allelen van beide genen overgeërfd van één ouder zijn dan schijnbaar gekoppeld, zij het niet absoluut. Dit fenomeen heet genetische koppeling (genetic linkage). Kwantitatief wordt koppeling gemeten als de recombinatie fractie θ, de verhouding recombinanten/niet-recombinanten. Dit is ook de waarschijnlijkheid
dat een
bepaalde ouder een recombinant haplotype doorgeeft aan een kind. Loci die onafhankelijk overerven zijn niet gekoppeld. De geobserveerde recombinatiefractie is dan θ = 1/2. Zijn twee loci volledig gekoppeld, dan komen er geen recombinanten voor en θ = 0. Deze definitie van koppelingsanalyse heeft drie belangrijke gevolgen: (i) koppelingsanalyse vereist onderzoek van verwante individuen, niet verwante individuen zullen geen informatie opleveren. (ii) recombinante en niet-recombinante haplotypes kunnen niet altijd onderscheiden worden. Stel dat een persoon een Ab/ab genotype bezit (de twee haplotypes zijn dan Ab en ab). Omwille van de homozygositeit van de tweede locus (genotype b/b) kan men de recombinante haplotypes afkomstig van dit individu niet onderscheiden van de niet-recombinante haplotypes. Om dit onderscheid te kunnen maken moet een persoon dus heterozygoot zijn voor beide loci. Dan alleen is een individu informatief voor koppelingsanalyse. (iii) een Ab haplotype is recombinant als het afkomstig is van een AB/ab individu en nietrecombinant als het voortkomt van een individu met Ab/aB genotype. Deze twee mogelijkheden voor een dubbele heterozygoot moeten dus onderscheiden worden (met andere woorden, een persoon met haplotypes Ab en aB moet onderscheiden worden van een persoon met haplotypes AB en ab). De specifieke haplotypes die voorkomen bij een dubbele heterozygoot worden ook fase genoemd.
2.3 Homologe recombinatie: de biologische basis voor koppelingsanalyse. Gameten ontstaan uit diploïde kiemcellen door een specifieke celdeling: de meiose. Gedurende de profase van de eerste meiotische deling kunnen homologe chromosomen genetisch materiaal uitwisselen door homologe recombinatie of crossing-over. Op die wijze worden recombinante haplotypes gegenereerd. Dergelijke crossing-over kan overal op een chromosoom plaatsgrijpen. De kans dat die voorkomt tussen twee loci die op één chromosoom liggen is dus veel kleiner als die kort bijeen liggen dan wanneer die ver van elkaar verwijderd zijn. Er is dus een verband tussen de fysische en de genetische afstand die twee loci scheidt. De recombinatie fractie θ wordt ook uitgedrukt in centiMorgan (cM): 1 cM komt overeen met 1% recombinatie. Gemiddeld komt 1% recombinatie overeen met 106 bp (1 mb). Hier kunnen lokaal echter grote verschillen optreden: op specifieke plaatsen van het menselijk genoom kan 1% recombinatie overeenstemmen met 5 104 bp, op andere met meerdere mbp. In het algemeen komt recombinatie aan de uiteinden van de chromosomen frequenter voor dan rond de centromeer. Recombinatie is ook frequenter in de vrouwelijke meiose dan in de mannelijke meiose. Er zijn dus Moleculaire Genetica 2000
- 12 -
vrouwelijke en mannelijke genetische kaarten. Voor de meeste toepassingen wordt hiervan een gemiddelde genomen.
2.4 Koppelingsanalyse: kwantitatieve methodes Het hoofdprobleem bij de constructie van een genetische kaart van de mens is de bepaling van de meest waarschijnlijke reële recombinatiefractie uitgaande van een beperkt aantal observaties in families. Stel dat we binnen één familie de overerving van twee merkers analyseren en een aantal recombinaties waarnemen. De vraag is nu wat deze waarneming ons leert over de reële recombinatiefrequentie tussen de twee merkers, en met welke statistische zekerheid.
Het is
immers mogelijk dat de gemeten recombinatie frequentie in de familie afwijkt van gemiddelde recombinatie frequentie tussen de twee merkers in de populatie. Beschouwen we de overerving van twee merkers de 3-generatie familie van fig. 2.1
A
a
a
a
A
a
A
a
B
B
b
B
b
b
b
b
A
a
a
a
B
b
b
b
A
a
a
a
a
a
A
a
B
b
b
b
B
b
B
b
*
*
!
*
Fig. 2.1 Segregatie van twee merkers in een nucleaire familie * : niet recombinant, ! : recombinant
De vader is dubbel heterozygoot voor beide merkers en dus informatief. De haplotypes van de vader (of de fase) kunnen bepaald worden door de genotypes van zijn ouders te analyseren. De moeder is homozygoot voor beide merkers en dus niet informatief. Er zijn dus vier informatieve Moleculaire Genetica 2000
- 13 -
chromosomen (preciezer: meioses), drie niet-recombinanten (*) en één recombinant (!). De geobserveerde recombinatie frequentie tussen de merkers A en B binnen deze familie is dus 0.25. Het is echter duidelijk dat als wij de hele populatie zouden onderzoeken de gemiddelde recombinatiefrequentie tussen de twee merkers dan merkelijk zou kunnen verschillen van de waarde in die familie, omdat recombinatie een toevallig proces is. Wij hebben dus een statistische methode nodig om, uitgaande van deze experimentele waarnemingen, de gemiddelde of reële recombinatiefractie te bepalen tussen merkers, en een idee te krijgen over de statistische zekerheid waarmee wij die uitspraak kunnen doen. De meest gebruikte statistische methode voor koppelingsanalyse is de lod score (logarithm of odds) methode. L(θ) definiëren we als de probabiliteit dat we een waarneming doen in een experiment (familie) als de reële gemiddelde recombinatiefractie θ is (gekoppelde merkers). De wijze waarop wij L(θ) berekenen hangt dus af van de structuur van de familie die we analyseren. De waarschijnlijkheid dat er bij één meiose recombinatie optreed is θ. De waarschijnlijkheid dat erbij één meiose geen recombinatie optreed is dus (1-θ). In deze familie is zijn vier informatieve meioses. Bij één van deze vier meioses trad er recombinatie tussen de merkers op. Voor deze waarneming is L(θ) = (1-θ)3θ Vervangen wij in die formule θ door 0.5 (recombinatiefractie 0,5 of 50% recombinatie zoals wij verwachten voor twee merkers die onafhankelijk segregeren), dan verkrijgen we L(1/2). Dat is dan de probabiliteit dat we die waarneming doen als de twee merkers volledig onafhankelijk overgeërfd worden. Voor die waarneming binnen die familie is L(0.5) = 1/16. Dit betekent dat zelfs als de twee merkers volledig onafhankelijk zijn er 1 kans op 16 is dat er in een familie zoals hierboven beschreven slechts 1 recombinatie wordt waargenomen. Beide probabiliteiten (L(θ) en L(1/2)) hebben een waarde tussen 0 en 1. Absoluut betekenen deze getallen echter niet veel omdat ze sterk afhangen van het aantal geobserveerde haplotypes in de familie. Daarom definiëren we de lod score Z(θ) als: Z(θ)=log [ L(θ)/L(0.5)] Die formule geeft dan een absolute maat voor hoeveel waarschijnlijker het is dat wij een bepaalde waarneming doen in een familie (experiment) als de recombinatie fractie θ zou zijn, dan als die 0.5 zou zijn
Moleculaire Genetica 2000
- 14 -
Door θ te laten variëren tussen 0 en 0.5 kunnen we de maximale lod score en de waarschijnlijkste recombinatie fractie bepalen. Een maximale lod score >3 bij een recombinatie fractie θ wordt als significante evidentie voor koppeling met de recombinatie fractie θ beschouwd. Dit betekent dat een bepaalde waarneming in een familie 1000x waarschijnlijker is bij koppeling van twee merkers met een recombinatiefractie θ dan bij onafhankelijke segregatie van deze merkers. Een lod score van -2 wordt als significantie grens voor niet-koppeling genomen. In het voorbeeld dat wij hier hebben uitgewerkt is Z(θ) = log[16(1-θ)3θ] of voor
θ=0
is Z(θ) = - ∞
θ = 0.05
is Z(θ) = - 0.164
θ = 0.1
is Z(θ) = 0.067
θ = 0.25
is Z(θ) = 0.227
θ = 0.35
is Z(θ) = 0.187
De probabiliteit dat twee of meer onafhankelijke waarnemingen samen voorkomen is het product van de probabiliteiten voor elke waarneming afzonderlijk. Lod scores zijn logaritmes, lod scores voor twee merkers bekomen in verschillende families kunnen dus opgeteld worden. Bekomen we zo een score > +3 dan zijn beide merkers gekoppeld met een bepaalde maximale recombinatie fractie θ. Bekomen we een score < -2 dan is koppeling bij die θ uitgesloten. Merk op dat van het ogenblik dat er één recombinant haplotype wordt opgemerkt, de lod score bij θ=0 noodzakelijk -∞ is of de probabiliteit voor θ = 0 is 0. In de praktijk zullen wij dus nieuwe waarnemingen blijven doen tot Z(θ) groter is dan 3. Is Z(θ) > 3 dan zeggen dat de twee merkers gekoppeld zijn en de θ waarbij Z(θ) maximaal is, geeft de afstand tussen de twee merkers. Is Z(θ) < -2, dan zeggen wij dan dat de koppeling van de twee merkers met een deze θ uitgesloten is. Genetische kaarten Een genetische kaart is een verzameling geordende, gekoppelde merkers die verspreid zijn over het volledige genoom. De afstand tussen de merkers wordt gemeten als % recombinatie en uitgedrukt in cM. De genetische kaart van de mens omvat ongeveer 3000 cM. Genetische heterogeniteit Als er verschillende genen zijn die onafhankelijk van elkaar éénzelfde fenotype veroorzaken, dan spreken we van genetische heterogeniteit. Een voorbeeld daarvan is de mendeliaanse vorm van borstkanker. Die zeldzame vorm van borstkanker kan veroorzaakt worden door mutaties in het BRCA1 gen of in het BRCA2 gen. BRCA1 ligt op chromosoom 17, BRCA2 ligt op chromosoom 13. Die vorm van borstkanker is dus wel mendeliaans, want veroorzaakt door mutaties in één enkel Moleculaire Genetica 2000
- 15 -
gen, maar dat gen is ofwel BRCA1, ofwel BRCA2. Heterogeniteit bemoeilijkt koppelingsanalyse: het is duidelijk dat lod scores bekomen voor verschillende families niet zomaar opgeteld kunnen worden. Dat is enkel toegelaten respectievelijk binnen de groep van alle families met een mutatie in BRCA1, en binnen de groep van alle families met een mutatie on BRCA2. ‘Linkage disequilibrium’ Beschouwen wij twee loci A en B met als allelen respectievelijk A1, A2 en B1, B2 die in de algemene populatie voorkomen met de frequentie a1, a2, b1, b2 (uiteraard is a1 + b2 = 1 en b1 + b2 = 1). Er zijn vier haplotypes mogelijk: A1B1, A1B2, A2B1 en A2B2. Als deze allelen reeds voldoende lang in de populatie aanwezig zijn, dan zal de frequentie van die haplotypes in die populatie respectievelijk a1b1, a1b2, a2b1 en a2b2 bedragen (a1b1 + a1b2 + a2b1 + a2b2 = 1) . Als de merkers A en B zeer dicht bijeen liggen in het genoom, of de allelen zijn van meer recente datum, dan is het mogelijk dat er niet voldoende recombinaties gebeurd zijn om de verschillende haplotypes met hun voorspelde frequentie te vormen. Met andere woorden, de frequentie van één haplotype, bvb. A1B2, kan dan hoger zijn dan de voorspelde a1b2, de frequentie van de andere haplotypes zal dan lager zijn dan voorspeld. Dat noemen wij ‘linkage disequilibrium’. Linkage disequilibrium is dus ook een instrument dat een idee kan geven over de afstand tussen twee loci. Is die afstand zeer klein (10 kb), dan kan linkage disequilibrium optreden, is de afstand groot, dan kunnen wij geen linkage disequilibrium meten
2.5 Genetische merkers Uit het voorgaande kunnen we afleiden dat we dus over talrijke hoogpolymorfe merkers moeten beschikken om een genetische kaart van de mens te maken. De proteïne polymorfismen die oorspronkelijk hiervoor gebruikt werden zijn dus niet geschikt voor die taak. De ontwikkeling van restrictie fragment lengte polymorfismen (RFLP's) waren een eerste stap in de goede richting. De eerste genetische kaarten van de mens waren dan ook op RFLP's gebaseerd. De meest RFLP's zijn echter polymorfismen met slechts twee allelen en hebben dus een relatief lage informativiteit. Bovendien is hun gebruik ook zeer arbeidsintensief zodat snel bleek dat op die wijze geen gedetailleerde en volledige kaarten van het menselijk genoom mogelijk waren. De doorbraak is er gekomen door de ontwikkeling van STR's, en voornamelijk de (CA)n-herhalingen. Die vertonen een zeer hoge graad van polymorfisme met veel verschillende allelen. Die polymorfismen worden na PCR gedetecteerd als lengteverschillen op denaturerende sequentiegels. Die procedure leent zich dus uitstekend tot automatisatie. Op dit ogenblik beschikken we over een genetische kaart van de mens met ongeveer 6000 (CA)n-merkers en een gemiddelde afstand van 2 cM tussen de verschillende merkers. Omdat het weinig zin heeft om genetische kaarten te maken met een nog hogere resolutie kunnen we stellen dat de genetische kaart van de mens 'af' is en gaat de aandacht nu vooral naar de verbetering van de kwaliteit van die kaart (merkers op een constante afstand over het hele genoom) en de ontwikkeling van merkers waarvan de detectie nog eenvoudiger is (tri- en tetranucleotide herhalingen). Moleculaire Genetica 2000
- 16 -
De analyse van multifactoriële eigenschappen (zie verder) vereist echter een nog hogere densiteit aan genetische merkers. Daarvoor kunnen de verschillen in één enkele base (single nucleotide polymophism, SNP) gebruikt worden (ongeveer 1/700). Die worden, na PCR, door middel van sequentiebepaling of hybridisatie bepaald zodat ‘high-throughput’ experimenten mogelijk zijn. De informatie van één SNP is beperkt (slechts twee allelen), dat wordt gecompenseerd door hun grote aantal en de automatisatie van de detectie.
2.6 Koppelingsanalyse: toepassingen Het is zeer belangrijk op te merken dat aan een genetische merker geen bijzondere eisen worden gesteld: een fenotype waarvan de overerving duidelijk kan worden bepaald, kan als genetische merker dienst doen. Dat betekent dat een mendeliaanse aandoening (een fenotype of ziekte veroorzaakt door één gen) als merker op de genetische kaart gebracht kan worden zonder dat we ook maar enige informatie hebben over de biochemische aard van het primaire defect dat de ziekte veroorzaakt. Eenmaal het gen voor een aandoening op de genetische kaart is geplaatst wordt het gebied van het menselijk genoom dat we moeten analyseren om het eigenlijke gendefect te vinden sterk beperkt en kunnen we daarvoor nu fysische methodes gebruiken. Bovendien kunnen we in familieverband de overerving van de flankerende merkers (merkers voor en na het ziektegen) volgen en zo komen tot een (prenatale) diagnose of detectie van dragers komen. Een presymptomatische diagnose (voor aandoeningen die pas op latere leeftijd tot uiting komen) wordt dan, eveneens in familieverband, mogelijk. De constructie van een genetische kaart van de mens was dus één van de prioriteiten van het 'humaan genoom project'.
Moleculaire Genetica 2000
- 17 -
3. Complexe eigenschappen 3.1 Inleiding Complexe kenmerken (ook multifactoriële eigenschappen genoemd) hebben een genetische component en een component die door de omgeving bepaald kan worden. Het frequenter voorkomen van bepaalde eigenschappen in sommige families wijst op de aanwezigheid van een genetische component. In tegenstelling tot de mendeliaanse kenmerken zijn er hier multipele loci die elk een (kleine) bijdrage leveren aan het fenotype. Voorbeelden van complexe kenmerken zijn hart- en vaatziekten, astma en allergieën, kanker, psychiatrische aandoeningen, gedrag…. Genen die een bijdrage leveren aan dergelijke complexe kenmerken noemen wij susceptibiliteitsgenen of risicofactoren. Kwantitatieve kenmerken (lengte, gewicht, spierkracht, IQ,….) zijn bijna altijd multifactorieel. Loci die bijdragen aan een kwantitatief kenmerk noemen we ‘quantitative trait loci’ of QTL’s.
3.2 Kwantitatieve analyse van complexe kenmerken Parametrische analyses Koppelingsanalyse zoals boven beschreven voor mendeliaanse kenmerken noemen wij parametrisch omdat er een precies genetisch model nodig is voor de wijze waarop het kenmerk overgeërfd wordt (recessief, dominant, ….). Het is meestal moeilijk om dergelijk model op te stellen voor een complex kenmerk. Een mogelijke strategie om dit probleem te omzeilen is het opsporen van grote families waarin een complex kenmerk ‘bijna’ mendeliaans overgeërfd word. Dit kan het geval zijn wanneer één locus een belangrijke bijdrage levert aan het kenmerk, of wanneer het genotype voor de andere susceptibiliteitsloci voor het kenmerk in de familie min of meer constant is. In dergelijke families is (parametrische) koppelingsanalyse mogelijk. Een mogelijke valstrik is ook hier genetische heterogeniteit: borstkanker is, zoals de andere vormen van kanker, in de meeste gevallen multifactorieel, maar er zijn ook mendeliaanse vormen van borstkanker (nl. deze veroorzaakt door mutaties in BRCA1 of BRCA2). Koppelingsanalyse in grote families waar borstkanker mendeliaans overgeërfd wordt kan respectievelijk BRCA1 of BRCA2 identificeren, maar dat zijn niet noodzakelijk risicofactoren voor de complexe vormen van borstkanker. Een alternatieve strategie bestaat erin in een stamboom enkel rekening te houden met de individuen die het kenmerk vertonen. Meestal wordt koppelingsanalyse gebruikt om een aanduiding te krijgen van de genen die mogelijk een rol spelen (kandidaat genen). Andere testen (zie verder) moeten dan uitsluitsel geven of die genen inderdaad belangrijk
zijn voor het complex kenmerk. Over het algemeen is
koppelingsanalyse weinig succesvol geweest voor de studie van complexe aandoeningen.
Moleculaire Genetica 2000
- 18 -
Niet-parametrische analyses Het probleem dat de bepaling van het overervingsmodel stelt bij de analyse van complexe aandoeningen kan vermeden worden door gebruik te maken van niet-parametrische methodes. Die methodes vertrekken van de veronderstelling dat individuen die een fenotype delen, voor de relevante loci dezelfde allelen vertonen. Dergelijk onderzoek kan op het niveau van families gebeuren. Men analyseert dan het genoom van broers of zussen (sibs) van een familie die een complex kenmerk delen (sib pair analysis). Deze ‘sibs’ zullen, voor loci die een bijdrage leveren aan dat kenmerk, dezelfde allelen bezitten. Concreet onderzoekt men voor welke regio’s van het genoom er allelen zijn die frequenter voorkomen bij sibs die het kenmerk vertonen dan verwacht. Gebeurt dergelijk onderzoek op het niveau van populaties, dan spreken wij van associatie-studies Associatie Bij associatie-studies wordt voor elke locus onderzocht of er allelen zijn die frequenter voorkomen bij individuen die het kenmerk vertonen dan bij de algemene populatie. Er zijn binnen deze context twee mogelijk relevante verklaringen voor associatie: (i) er is een causaal verband tussen allel en kenmerk, (ii) ‘linkage disequilibrium’. Er kan een causaal verband zijn tussen allel A1 en een fenotype als A1 invloed heeft op het functioneren van zijn genproduct en als dat product een rol speelt in een biologisch proces dat betrokken is bij het kenmerk. Als er een causaal verband is, dan verwachten wij dat in alle populaties voor dat kenmerk associatie met A gevonden wordt. Daarbij mogen wij niet uit het oog verliezen dat de aanwezigheid van allel A bij een individu noch voldoende, noch noodzakelijk is voor de expressie van het fenotype. Het gaat hier immers om een multifactorieel kenmerk. Daarom gebruiken wij in dit verband de term ‘risicofactor’. Een tweede oorzaak voor het vinden van associatie tussen een allel en een fenotype is ‘linkage disequilibrium’. Veronderstellen wij dat een locus X een risicofactor is voor astma, dat voor X verschillende allelen mogelijk zijn (X1, X2 of X3) en dat het allel X1 een verhoogd risico oplevert voor astma (causaal verband). X ligt op het genoom in een regio waar ook de locus A voorkomt. A is polymorf met als mogelijk allelen A1, A2 … en de genetische afstand tussen A en X is zeer klein. Indien er linkage disequilibrium bestaat tussen A en X, dan zal er een haplotype (bvb A2-X1) frequenter voorkomen dan de andere mogelijk haplotypes met X1. Een associatiestudie kan dan A2 identificeren als een risicofactor. Linkage disequilibrium veronderstelt een gemeenschappelijke voorouder waar het haplotype ontstaan is. Een positieve associatie die te wijten is aan linkage disequilibrium kan dus een andere allel (bvb A1) als risicofactor identificeren in een verschillende populatie (waar het A1-X1 haplotype zou voorkomen). Een belangrijke valkuil voor associatiestudies is stratificatie van de populatie. Stratificatie betekent dat de populatie bestaat uit genetisch verschillende subgroepen. Het is dan mogelijk dat bij toeval allel A1 en het fenotype frequenter voorkomen in één groep van de populatie. Zo komt het fenotype ‘eten met chopsticks’ frequenter voor bij Aziaten dan bij Westerlingen. Het allel A1 voor Moleculaire Genetica 2000
- 19 -
de HLA locus komt eveneens frequenter voor bij Aziaten. De associatie HLA-A1 - ‘eten met chopsticks’ is een gevolg van stratificatie van de populatie, er is geen relevant verband tussen beide. Associatie – koppelingsanalyse Bij veel toepassingen is het onderscheid tussen associatie en koppeling belangrijk. Associatie meet het verband tussen één allel en een fenotype. Het allel E4 van het APOE gen is een risicofactor voor de ziekte van Alzheimer. Alle personen die homozygoot zijn voor het E4 allel hebben een verhoogd risico voor alzheimer. Koppelingsanalyse meet het verband tussen twee loci. De locus voor mucoviscidose (CF, ‘cystic fibrosis’) is gekoppeld aan de RFLP locus pJ3.11. De verschillende allelen van pJ3.11 vertonen echter geen associatie met CF. Koppelingsanalyse bestudeert individuen in familieverband. Door het beperkt aantal meioses dat per familie onderzocht kan worden, kan koppeling gemeten worden voor loci die tot ± 20cM van elkaar verwijderd zijn. Koppelingsanalyse werkt dus op grote afstand (± 20 mb). Een ‘whole genome scan’ voor een mendeliaans kenmerk vergt de analyse van ± 300 merkers, één merker alle 10 cM. Associatiestudies analyseren genotypes van individuen in een populatie. Linkage disequilibrium, dat verantwoordelijk is voor veel associaties, veronderstelt dat bepaald haplotypes bewaard blijven in de populatie. Bij elke generatie kan er recombinatie optreden, linkage disequilibrium blijft dus alleen meetbaar als de merkers zeer dicht bij elkaar liggen (< 10 - 100 kb). Een ‘whole genome scan’ voor associatie met een bepaald fenotype vergt dus de analyse van 10 tot 100 duizend merkers. Single nucleotide polymorphisms (SNP’s) De genetische dissectie van multifactoriële eigenschappen vereist dus een zeer hoge densiteit aan genetische merkers. Er zijn onvoldoende STR’s voor dat doel. Daarvoor kunnen wij sequentieverschillen van één enkele base (single nucleotide polymorphism, SNP) gebruiken (ongeveer 1/700). De informatie van één SNP is beperkt (meestal zijn er slechts twee allelen), maar dat wordt gecompenseerd door hun grote aantal en door de mogelijkheid om hun detectie te automatiseren. SNP’s worden bepaald op PCR producten : de regio die de SNP wordt geamplificeerd. De nucleotide
op
de
polymorfe
positie
wordt
dan
bepaald
door
sequenering
(Sanger,
sequentiebepaling op chips), SSCP analyse (single-strand conformational polymorphism analysis’) of methodes die gebaseerd zijn op veranderingen in smelttemperatuur van het PCR fragment veroorzaakt door het sequentieverschil. Het gebruik van SNP’s heeft, naast praktische voordelen, ook potentieel een conceptueel voordeel. STR’s (in het bijzonder de CA-herhalingen) komen niet voor in de open leesramen van coderende sequenties. Het is dus niet waarschijnlijk dat er een causaal verband zal voorkomen tussen een allel van een STR en het fenotype. SNP’s zijn verschillen in één enkele nucleotide. Deze kunnen dus wel voorkomen in de open leesramen van genen. Als dat gevolgen heeft op Moleculaire Genetica 2000
- 20 -
aminozuurniveau, dan kan de SNP ook functionele (biochemische) effecten hebben. Een causaal verband tussen het genotype en het fenotype is dan mogelijk.
Moleculaire Genetica 2000
- 21 -
4. Constitutionele aandoeningen : mucoviscidose 4.1 Inleiding Mucoviscidose (‘Cystic fibrosis’, CF) is de meest frequente letale mendeliaanse aandoening in onze populatie. Het is een recessieve aandoening die ongeveer 1/2500 van de nieuwgeborenen treft. De ziekte wordt gekenmerkt door een abnormaal zouttransport aan de apicale zijde van de epithelen van verschillende (exocriene) organen zoals long, pancreas, zweetklieren, darm enz. CF vertoont een complex fenotype met variabele aantasting van de longen, pancreas … Bijna alle CF patiënten vertonen een verhoogde Cl- concentratie in het zweet (> 60 mEq/l). Dat vormt de basis van de belangrijkste diagnostische test voor CF. In 1985 werd door koppelingsanalyse aangetoond dat de CF locus (CF) zich op chromosoom 7 bevindt en op de genetische kaart geflankeerd wordt door de merkers MET
en D7S8. MET
codeert voor een oncogen, D7S8 is een anonieme DNA sequentie. Beide vertonen RFLP’s. Die observatie was de start van een gigantische inspanning om het gen dat verantwoordelijk is voor CF te identificeren. Dergelijke strategie noemen wij ‘positionele klonering’. De strategie is universeel, de concrete invulling wordt mede bepaald door de evolutie van de moleculaire technieken die tot onze beschikking staan. De positionele klonering van het CF gen heeft zelf (samen met andere gelijkaardige projecten) een belangrijke rol gespeeld bij de ontwikkeling van de moleculair genetische technologie. Bovendien is er gelijktijdig met de ‘bottom-up’ aanpak van de positionele klonering een ‘top-down’ aanpak ontwikkeld om het volledig menselijk genoom in kaart te brengen en was er tussen beide inspanningen een vruchtbare wisselwerking. Bij de studie van positionele klonering is dan ook de optie genomen om de huidige stand van de moleculaire genetica als referentie te hanteren en niet de geschiedenis van zijn ( stormachtige) ontwikkeling gedurende de laatste 15 jaar.
4.2 Positionele klonering van het CF gen Strategie Positionele klonering van een locus gebeurt in verschillende stappen. Eerst wordt een ruwe positie van het locus bepaald, meestal door middel van koppelingsanalyse. Dat definieert dan een gebied van het genoom, geflankeerd door twee genetische merkers, dat de locus bevat. De grootte van dat gebied is afhankelijk van de concrete omstandigheden van de koppelingsanalyse (meer bepaald het aantal informatieve meioses die onderzocht kunnen worden) en de densiteit van de genetische kaart. In de praktijk zal dat variëren van enkele honderden kb tot enkele mb. In een tweede stap wordt een gedetailleerde fysische kaart van dat gebied gemaakt. Die wordt dan gebruikt voor de constructie van een transcript-kaart. Een mutatie-analyse van de kandidaat-genen moet dan uiteindelijk de locus identificeren.
Moleculaire Genetica 2000
- 22 -
Fysische kaart – ‘walking’ Contigs De constructie van een fysische kaart van een genomische regio komt in de praktijk overeen met het isoleren van een verzameling genomische klonen die samen het volledig gebied als inserts bevatten. Een verzameling overlappende genomische klonen (meer precies : klonen waarvan de inserts overlappen) is een contig (van ‘contiguous’). De fysische kaart is dus af als wij over een contig van het gebied beschikken. De gemiddelde lengte van de insert van de genomische klonen bepaalt het aantal klonen dat nodig is om de contig te bouwen en dus zowel de resolutie van de contig als de grootte van de inspanningen die nodig zijn om de contig te bouwen. De gemiddelde lengte van de inserts in een genomische bibliotheek wordt bepaald door het vector – gastheersysteem dat gebruikt is voor de aanmaak van de bibliotheek (zie tabel). Op dit ogenblik zijn
PAC’s (P1-derived artificial
chromosomes, gastheer E. coli) BAC’s (Bacterial artificial chromosomes, gastheer E. coli) en YAC’s (Yeast artificial chromosomes, gastheer Sacharomyces cerevisiae) de belangrijkste vectoren.
Vector
Replicon
gastheer
Lengte insert
Plasmide
colE1
E. coli
0 - 10 kb
Cosmide
colE1
E. coli
30 – 50 kb
PAC
afgeleid van P1 faag
E. coli
70 – 150 kb
BAC
afgeleid van F’ plasmide
E. coli
70 – 300 kb
YAC
Gist telomeren – ARS - centromeer
S. cerevisiae
100 – 2000 kb
Tabel 4.1 Belangrijkste vector – gastheersystemen gebruikt bij de constructie van genomische contigs
STS’s Een STS (‘sequence tagged site) is een korte genomische sequentie (100 – 500 bp) die gebruikt kan worden om twee unieke primers te ontwerpen om het fragment door middel van PCR te amplificeren. De sequentie van beide primers is uniek, de PCR zal dus een unieke locus van het genoom amplificeren of detecteren. De inhoud van de STS is niet bepaald, dat kan een unieke sequentie zijn, een polymorfe (CA)n – herhaling of een andere repetitieve sequentie. Een SNP is een voorbeeld van een polymorfe STS. STS’s zijn universele fysische merkers voor een genoom. De aan- of afwezigheid van een STS in een genomische kloon kan door een eenvoudige PCR onderzocht worden. Zien wij een product van de correcte grootte, dan is de STS aanwezig in het insert van de kloon. Levert de PCR geen product op , dan is de STS afwezig in de sequentie van het insert. De inserts van twee klonen die eenzelfde STS bevatten, moeten overlappen. Dat vormt de basis van het bouwen van contigs. Moleculaire Genetica 2000
- 23 -
Genomisch wandelen - ‘Walking’ Bij een positioneel kloneringsproject beschikken we over twee merkers (meestal STS’s) die het te onderzoeken gebied flankeren. Deze STS’s worden gebruikt om genomische klonen te identificeren die deze merkers bevatten. In een recursief proces gebruiken wij nu die klonen om nieuwe STS’s te ontwerpen die gebruikt worden om nieuwe klonen te isoleren waarvan de inserts met de originele klonen overlappen. Meestal bepalen wij voor het ontwerpen van STS’s de sequentie van de uiteinden van de inserts van de klonen. Na een aantal van die stappen (zie figuur 4.1) beschikken wij over een contig van het volledige gebied (in laboratorium jargon : het gat is dichtgewandeld). Door gebruik te maken van geordende genomische bibliotheken kan dat selectieproces efficiënt gebeuren (zie verder : ‘Het Humaan Genoomproject’).
MET
A2L
C2L
A3R C2LR
D7S8 A3
A1 A2
A4 A5
B1 C1
B2 B3
A6
C2 D1 D2 D3
Figuur 4.1 Genomische ‘wandeling’ De constructie start met het identificeren van de flankerende merkers MET en D7S8 (het genomisch gebied is aangeduid met de driedubbele lijn). Met die merkers wordt in een eerste experiment de klonen A1 - A6 geïsoleerd (de inserts van de klonen is aangeduid met een volle of een dubbele lijn). Daarna worden van kloon A3 en A2 nieuwe STS’s afgeleid, bijvoorbeeld door het sequensen van de uiteinden van de inserts. Met STS A2L zijn dan de klonen B1 – B3 geselecteerd, STS A3R identificeerde de klonen C1-2. Dat proces wordt herhaald door het ontwerpen van STS’s voor de nieuwe klonen tot de contig volledig is. In dit geval bevat kloon B2 de STS C2L. Dat verbindt het linker- en rechterfragment van de contig. STS’s zijn aangeduid met , Ο,
. De gevulde symbolen duiden de klonen aan die
gebruikt werden om de STS te ontwerpen. De verzameling klonen die het gebied overspannen met de kleinste overlapping noemen wij een ‘minimal tiling path’. Die klonen zijn hier weergegeven met een dubbele lijn.
Moleculaire Genetica 2000
- 24 -
Transcript kaart De volgende stap in de positionele klonering strategie is het bepalen van alle transcripten in de kritische genomische regio. Door de opsplitsing van de genen van hogere eukaryoten in exonen van enkele honderden baseparen en intronen die tot honderden kb lang kunnen zijn, is dat geen eenvoudige stap. Er zijn dan ook talrijke methodes ontwikkeld om transcripten te identificeren in genomische DNA fragmenten. Klonering van transcripten Er zijn verschillende hybridisatie-selectie methodes ontwikkeld. Bij die experimenten worden cDNA banken gebruikt die door PCR kunnen vermenigvuldigd worden. Die cDNAs worden op genomische fragmenten van de doelwit regio gehybridiseerd en de niet specifiek gebonden cDNA’s worden weggewassen. De cDNAs die complementair zijn aan sequenties in de doelwitregio worden dan geëlueerd, vermenigvuldigd door PCR en voor een tweede selectiecyclus gebruikt. Exon-trap experimenten zijn gebaseerd op het natuurlijk transcriptie- en splicingproces in eukaryote cellen. Bij exon-trap experimenten worden de te onderzoeken genomische fragmenten gekloneerd in een intron van een eukaryote transcriptie eenheid die in een plasmide is ingebouwd. Die plasmiden worden vervolgens in een cellijn ingebracht door transfectie. De cellen die een plasmide hebben opgenomen zullen het gen van de eukaryote transcriptie-eenheid afschrijven en omvormen tot een mature mRNA. Als het genomisch fragment dat in de transcriptie eenheid gekloneerd is een exon bevat zal dat exon in de mature mRNA terecht komen. De aanwezigheid van een extra exon in het transcript dat afkomstig is van de plasmide kan dan door PCR bepaald worden. Onrechtsreekse experimentele methodes De selectiedruk op coderende sequenties is doorheen de evolutie groter dan de selectiedruk op niet-coderende sequenties. De functie van een bepaald gen wordt komt immers tot uiting via het proteïne, veranderingen in de coderende sequentie kunnen deze functie verloren doen gaan, daar waar veranderingen in niet-coderende sequenties over het algemeen geen effect zullen hebben. Exonsequenties zijn dus veel sterker geconserveerd tussen verschillende species dan intronsequenties. Zoo-blots zijn membranen voor southern analyse die restrictie digesten dragen van genomisch DNA afkomstig van verschillende species (mens-rat-hamster-kip...). Fragmenten van een genomische regio die bij southern hybridisatie signalen geven met DNA van verschillende species zijn met een hoge probabiliteit coderende sequenties. Die mogelijke exonsequenties kunnen verder onderzocht kunnen worden door sequentiebepaling en hybridisatie op northern blots en cDNA banken. CpG dinucleotiden vormen een signaal voor methylatie van de cytosine door cytosine-DNA methyltransferases.
Oxidatieve deaminatie van 5’-methylcytosines leiden tot de vorming van
thymidine nucleotides die door de DNA repair mechanismen van de cel niet als mutaties herkend Moleculaire Genetica 2000
- 25 -
worden. CpG nucleotiden verdwijnen dus gedurende de evolutie uit het genoom, in het humaan genoom is de frequentie van CpG dinucleotiden ongeveer 20 % van de frequentie die verwacht kan worden aan de hand van het G+C gehalte van ons genoom (±43 %). De CpG dinucleotiden in ons genoom komen meestal als clusters voor en zijn dan niet gemethyleerd. Deze clusters, CpG eilanden genoemd, zijn geassocieerd met de 5’ uiteinden van genen. CpG eilanden kunnen dus als ‘wegwijzers’ naar gen-regio’s gebruikt worden. De methylatie status van de CpG eilanden is dan meestal gecorreleerd met de expressie van die genen. CpG eilanden kunnen experimenteel opgespoord worden door restrictie-analyse met restrictie enzymen die CG sequentie in hun restrictiesite bevatten (bvb. NotI : GCGGCCGC; NruI : TCGCGA; …). Sequentie analyse Eénmaal wij over een contig van de kritische regio beschikken, is het natuurlijk mogelijk om de sequentie van de volledige regio te bepalen (zo deze al niet aanwezig is in de gegevensbanken van het Humaan Genoomproject). Er zijn verschillende algoritmes ontwikkeld om coderende sequenties te definiëren in een genomische sequentie. Deze houden rekening met de ‘biologische’ eigenschappen van coderende sequenties zoals de aanwezigheid van open leesramen, donor- en acceptorsequenties voor splicing, het bewaren van het open leesraam over verschillende exonen, codongebruik etc. Deze eigenschappen worden aangevuld met empirische statistische parameters. Een goed voorbeeld is een programma gebaseerd op een neuraal netwerk, GRAIL (Gene Recognition by Internet Link) dat via het internet geraadpleegd kan worden. Het succes van deze algoritmes is wisselend. Veralgemenend kunnen we stellen dat zij 60-80 % van de exonen correct zullen voorspellen en dat omgekeerd 60-80 % van de voorspelde exonen reële exonen blijken te zijn. Een alternatief is het opsporen van similariteit tussen de genomische sequentie en gekende coderende sequenties. Daarvoor kunnen verschillende gegevensbanken geraadpleegd worden die gekende genen bevatten, of verzamelingen cDNA sequenties (EST gegevensbanken, zie ‘Het Humaan Genoomproject’). Het CFTR gen Identificatie De transcript kaart levert ons kandidaat-genen voor de aandoening of het fenotype op. Een mutatie analyse van die genen kan dan het ziektegen identificeren. De status van dat gen moet dan gevalideerd worden. Dat kan door aan te tonen dat mutaties in het gen in families segregeren met het fenotype. Andere aanwijzingen zijn de expressie van het gen in weefsels die aangetast zijn, de eigenschappen van het genproduct … Een finaal bewijs kan geleverd worden door een analyse van het fenotype in cellijnen of proefdieren waarin de mutatie geïntroduceerd werd (transgenese) en door de complementatie van defecten in die modellen na introductie van de oorspronkelijke sequentie. Moleculaire Genetica 2000
- 26 -
Het gen dat verantwoordelijk is voor CF werd in 1989 gekloneerd. Het codeert voor een membraanproteïne met de eigenschappen van een chloride kanaal : de ‘cystic fibrosis transmembrane conductance regulator’. Het CFTR gen overspant 250 kb genomisch DNA en bevat 27 exonen. CFTR codeert voor een proteïne van 1480 aminozuren met verschillende domeinen en een symmetrische structuur : twee transmembraan domeinen elk opgebouwd uit 6 transmembraan helices en twee nucleotide bindingsdomeinen gescheiden door een regeldomein. Het CFTR eiwit functioneert als een Cl- kanaal. Deze functie wordt gemoduleerd door het binden van ATP aan de nucleotide bindingsdomeinen en door fosforylatie van serine en threonine residu’s in het regeldomein. Naast zijn functie als Cl- kanaal interageert CFTR ook met andere ionenkanalen. Dat verklaart gedeeltelijk de variabele en complexe CF pathologie. Moleculaire pathologie Gedurende de translatie wordt de CFTR polypeptide geïntegreerd in de membraan van het endoplasmatisch reticulum waar het N-geglycosyleerd wordt. De polypeptide keten wordt dan gevouwen met de hulp van gespecialiseerde proteïnes, de chaperonnes. CFTR molecules met een correcte tertiaire structuur worden dan naar de Golgi getransporteerd waar de glycosylatie voltooid wordt tot de mature vorm die dan als Cl- kanaal naar de celmembraan getransporteerd wordt. CFTR polypeptide ketens die niet correct gevouwen zijn worden naar proteasomen gebracht en afgebroken. In normale omstandigheden bereiken ongeveer 25 % van de CFTR ketens het Golgi apparaat. Er zijn meer dan 600 CF mutaties gekend, die in verschillende klassen ingedeeld kunnen worden. Een eerste groep van mutaties verlagen de stabiliteit van de CFTR mRNA. Tot die klasse behoren de meeste stopmutaties (‘non-sense’ mutaties), mutaties die het leesraam verstoren, (‘frame shift’ mutaties) en mutaties die het splicingsproces verstoren. In die gevallen wordt er geen polypeptide gevormd. Een tweede groep beïnvloedt de maturatie van de CFTR polypeptide. De keten wordt wel gesynthetiseerd, maar niet correct gevouwen. Het CFTR eiwit wordt dus voortijdig afgebroken en bereikt de celoppervlakte niet. De ∆F508 (een deletie van het codon voor fenylalanine 508 in de CFTR keten) mutatie behoort tot deze klasse. ∆F508 is de meest frequente mutatie in onze populatie en komt bij ongeveer 70% van de dragers voor. Een derde klasse van mutaties beïnvloedt de functie van CFTR als een Cl- kanaal. Er wordt wel een membraanproteïne gevormd maar het Cl- transport wordt gehinderd door substituties van aminozuren die de wand vormen van het eigenlijke kanaal, of door mutaties in de nucleotide bindingsdomeinen of het regeldomein die de modulatie van het kanaal beletten. Tot deze klasse behoren de meeste mutaties die leiden tot de substitutie van een aminozuur (‘missense’ mutaties). Tot slot zijn er mutaties die leiden tot een functioneel Cl- kanaal, maar waarbij de interactie met andere ionenkanalen verstoord is. De laatste twee klassen van mutaties leiden meestal tot mildere CF fenotypes. Genotype-fenotype correlaties, waar mogelijk, laten een verbeterde diagnose, en een gerichte therapie toe. Het ontrafelen van de moleculaire pathologie van een aandoening levert ook nieuwe aanknopingspunten voor het ontwerpen van nieuwe gerichte therapeutische strategieën. Zo Moleculaire Genetica 2000
- 27 -
worden er verbindingen getest die het vouwen van de CFTR keten kunnen verbeteren bij mutaties die dat verhinderen (moleculaire chaperonnes). Diagnose De klassieke diagnostische test voor CF is het bepalen van de Na+ en Cl- concentratie in zweet. De klonering van het CFTR gen heeft DNA diagnose mogelijk gemaakt. Genetische testen – koppelingsanalyse Als een locus voor een aandoening op de genetische kaart is gelokaliseerd, dan kunnen wij door middel van koppelingsanalyse een diagnose stellen voor die aandoening. In de praktijk zullen wij de segregatie van twee merkers die het ziektelocus flankeren in een familie bepalen. Daarbij bepalen wij het haplotype dat de ziektemutatie draagt. De aan- of afwezigheid van dat haplotype bepaald dan of iemand drager is of niet van het ziekte-allel. Door flankerende merkers te gebruiken is het mogelijk meiotische recombinaties te detecteren die het stellen van een correcte diagnose zouden beletten. Net zoals voor de constructie van genetische kaarten is voor dit type van diagnose dus familie-informatie nodig en moeten de gebruikte merkers in de onderzochte individuen informatief zijn. Anderzijds is die vorm van DNA diagnose mogelijk vanaf het ogenblik dat de ziekte locus in kaart gebracht is, het gen zelf moet nog niet geïdentificeerd zijn. Koppelingsanalyse wordt ook toegepast voor diagnose wanneer een directe mutatieanalyse moeilijk is. Mutatie-analyse Is het ziektegen gekend, dan kunnen wij bij individuen rechtreeks mutaties opsporen. Dat kan op het niveau van genomisch DNA : alle exonen van het gen moeten dan onderzocht worden. Het genomish DNA kan op eenvoudige wijze uit een bloedstaal geëxtraheerd worden, als alternatief kunnen bijvoorbeeld wat cellen met een borsteltje van de binnenkant van de wang geschraapt worden. Mutaties kunnen ook bepaald worden op mRNA niveau. Omdat hier enkel
de
exonsequenties aanwezig zijn, kan de mutatieanalyse soms eenvoudiger zijn. mRNA kan wel enkel geïsoleerd worden uit weefsels of cellen die het gen tot expressie brengen. Voor veel genen die in witte bloedcellen niet afgeschreven worden is dat een ernstige beperking. Bovendien is RNA zeer gevoelig voor afbraak door RNAses. RNAses vinden we overal waar biologisch materiaal aanwezig is en deze enzymen zijn bovendien moeilijk te inactiveren. In routine omstandigheden wordt dus dikwijls de voorkeur gegeven aan de analyse van DNA stalen. Voor de mutatie-analyse wordt het relevant DNA fragment (genomisch DNA of cDNA) eerst geamplificeerd met PCR. De detectie van mutaties in PCR producten is een snel evoluerend domein. Is de specifieke mutatie gekend, dan kan die in het PCR-product opgespoord worden bijvoorbeeld door rectrictie-analyse (als de mutatie de herkenningsplaats van een restrictie-enzym wijzigt), hybridisatie met allel-specifieke oligonucleotiden (ASO’s) en systemen daarvan afgeleid, ‘oligo-ligation assays’, methodes gebaseerd op heteroduplex analyse enz. Is de mutatie niet gekend, dan moet de sequentie van het PCR product bepaald worden. Dat kan rechtstreeks op het Moleculaire Genetica 2000
- 28 -
PCR product door middel van de dideoxi-ketenterminatiemethode. Als alternatief voor de bepaling van de sequentie van korte DNA fragmenten is recent pyrosequencing ontwikkeld. In die methode wordt de pyrofosfaat die vrijkomt bij het inbouwen van een dNTP in een DNA streng gedurende de sequentiereactie enzymatisch omgezet in ATP dat op zijn beurt in een tweede enzymatische reactie gebruikt wordt voor de productie van licht. Door sequentieel dNTP toe te voegen aan het reactiemengsel en de lichtproductie te observeren kan de sequentie bepaald worden. In de toekomst zullen DNA-chips die speciaal ontworpen zijn om door hybridisatie de sequentie van PCR fragmenten te bepalen mogelijk een grote rol spelen in dat domein. Voor CFTR zijn reeds meer dan 600 mutaties beschreven. Door de grootte van het gen met zijn 27 exonen is een sequentiebepaling als routine diagnosemethode economisch niet mogelijk. In onze populatie is 70% van de mutaties de ∆F508 mutatie. Een diagnostische test die enkel die mutatie opspoort detecteert dus 70 % van de dragers van CF. De andere mutaties zijn minder frequent, testen die naast ∆F508 specifiek een 15-tal mutaties opsporen zullen 85 – 90% van de dragers detecteren. DNA diagnose – klassieke diagnostiek De klassieke diagnostiek detecteert fenotypes. DNA diagnostiek detecteert genotypes en dat leidt tot fundamentele verschillen tussen beide vormen van diagnostiek. Een eerste belangrijk verschil betreft het ogenblik van diagnose. Een genotype kan bepaald worden voordat het daarmee geassocieerd fenotype tot uiting komt. DNA diagnostiek laat dus presymptomatische diagnose toe van aandoeningen die pas op latere leeftijd tot uiting komen. Een voorbeeld daarvan is de ziekte van Huntington. DNA diagnose is ook prenataal mogelijk. Bij een prenatale diagnose zullen we wat embryonaal weefsel collecteren door middel van een vruchtwaterpunctie of een vlokkenbioptie. Ten slotte is ook pre-implantatiediagnose mogelijk. Daarbij worden van een in vitro gevormd embryo in het acht-cellig stadium twee cellen verwijderd. De embryonale cellen zijn in dat stadium totipotent en het overblijvend embryo kan zich na implantatie normaal ontwikkelen. De twee cellen die verwijderd werden kunnen gebruikt worden voor DNA diagnose, de hoge gevoeligheid van de DNA testen speelt daarbij een belangrijke rol. Een tweede belangrijk verschil is de ‘reikwijdte’ van de testen. Klassieke diagnose is in principe toegespitst op een individu. Een DNA diagnose die bij een individu wordt gesteld heeft onmiddellijke consequenties voor de familieleden van dat individu. Testen - screenen Een genetische test is een onderzoek bij een individu, of individuen uit één familie, naar een specifieke genetische aandoening, bijvoorbeeld CF. Er is een aanleiding voor het onderzoek, zoals een medische familiegeschiedenis of een specifieke pathologie. DNA technologie laat ook toe om dragers van een mutatie op te sporen in een algemene populatie, dat noemen wij screenen. Er zijn voorbeelden van populatie screenings, zoals die voor HPRT mutaties, verantwoordelijk voor het Lesch-Nyhan syndroom, in de joodse Askhenasi populatie, waar dat probleem frequent was. Screeningsprogramma’s zijn niet altijd zinvol. Routine diagnostische testen voor CF zoals Moleculaire Genetica 2000
- 29 -
hierboven beschreven detecteren 85 – 90% van de dragers. Dat leidt tot de vraag of we bereid zijn een test te gebruiken die 10 – 15% van de dragers zou missen. Er moet rekening gehouden worden met het risico op stigmatisering van dragers voor een genetische aandoening (beter : gekende dragers, elk van ons is drager van een aantal recessieve mutaties). Vele genetische aandoeningen zijn zeldzaam zodat de kosten van een DNA screening de baten ver zouden overtreffen. Screenen moet ook beantwoorden aan het recht van elk individu om (niet) te weten en het recht om zelf te beslissen welke consequenties men aan die nformatie verbindt. Een deel van die opmerkingen houden verband met de DNA technologie, andere met de culturele context. Onze houding tegen screeningsprogramma’s zal dus met beide elementen mee evolueren. In deze context is het ook belangrijk op te merken dat alle testen een antwoord geven op een specifieke vraag : is dit gen gemuteerd of niet. De analyse van een individueel volledig humaan genoom (3.3 109 bp) als diagnose gaat onze technische mogelijkheden ver te boven. Alle screeningsprogramma’s zullen dus moeten geëvalueerd worden tegen de natuurlijke achtergrond van nieuwe mutaties die altijd ontstaan.
Moleculaire Genetica 2000
- 30 -
5. Moleculaire cytogenetica 5.1 Inleiding De fysische lengte van het menselijk DNA bedraagt ongeveer 2 m. Deze moet verpakt worden in de celkern (ongeveer 10 µm) en bij celdeling precies verdeeld worden over de twee dochtercellen. Dit betekent dat het DNA in de celkern gecondenseerd voorkomt, de hoogste condensatiegraad zien we bij de metafase van de mitose: het DNA komt dan voor als chromosomen die we als transporteenheden van het DNA kunnen beschouwen. Die condensatie is het gevolg van verschillende niveaus van 'coiling'. Het basisniveau is de vorming van nucleosomen gevormd uit basische proteïnen, histonen, waarrond het DNA (150 bp) tweemaal gewikkeld wordt. Deze parelsop-een-ketting structuur levert een zevenvoudige reductie van de lengte van het DNA molecule op. Verdere condensatie gebeurt door rangschikken van de nucleosomen in verschillende hogere-orde structuren. Die condensatie van het DNA speelt ook een grote rol in de regulatie van expressie van de genen. Het
menselijk
genoom
bestaat
uit
22
paar
chromosomen
(autosomen)
en
2
geslachtschromosomen. Die worden op een chromosomenkaart of karyotype geordend volgens grootte en morfologie. Chromosoom 1 bevat ongeveer 8.5% van het menselijk genoom of 255 mb, chromosoom 22 2.0% of 60 mb.
5.2 Cytogenetica Karyotypes Een kaart van de (menselijke) chromosomen noemen we een karyotype. Een karyotype bekomen we in verschillende stappen. (i) Omdat chromosomen als gecondenseerde structuren enkel voorkomen gedurende de celdeling kunnen we dergelijke kaart enkel opstellen als we over delende cellen beschikken. In de praktijk gebruiken we witte bloedcellen. Die cellen worden gestimuleerd door toevoegen van lectines. Zo zal phytohema-agglutinin (PHA) specifiek T-cellen tot deling aanzetten. (ii) Om een grotere proportie delende cellen te bekomen wordt de cultuur gesynchroniseerd. Dat doen we door toevoegen van methotrexaat aan het cultuurmedium. Methotrexaat is een inhibitor van dihydrofolaatreductase, een sleutelenzyme voor de biosynthese van pyrimidines en dus van DNA. De cellen accumuleren dus aan de grens tussen de G1 en de S fase van de celcyclus. Die blokkering wordt dan opgeheven door wegwassen van het methotrexaat en toevoegen van thymidine of bromo-deoxi-uridine aan het cultuurmedium. De cellen zetten nu synchroon de celdeling verder. (iii) De celdeling moet nu geblokkeerd worden in de profase of de prometafase: dit is de fase waarin het DNA als de ons bekende chromosomen voorkomt. Aan het cultuurmedium wordt nu colcemid of colchicine toegevoegd. Deze stoffen depolymeriseren de microtubuli door aan het Moleculaire Genetica 2000
- 31 -
tubuline te binden. Microtubuli zijn verantwoordelijk voor de vorming van de 'mitotic spindle' en het transport van de chromosomen naar de respectievelijke dochtercellen. (iv) De celkernen worden nu onderworpen aan hypotone shock (behandeling met 0.075 M KCl), de
chromosomen
worden
gefixeerd
met
azijnzuur/methanol
en
uitgespreid
op
een
microscoopglaasje. (v) De identificatie van de chromosomen wordt mogelijk na toepassen van kleuringen die een specifiek bandenpatroon generen op de chromosomen. De meest gebruikte kleuring, de Gbanding, wordt bekomen na behandeling met trypsine en Giemsa kleurstof of HCl en Wright kleurstof. Op die wijze bekomen we een bandenpatroon met ongeveer 800 banden op de chromosomen. Karyotypering: medische toepassingen Door chromosomen te analyseren, bekijken we grote hoeveelheden DNA ineens. Bij ongeveer 50% van de spontane abortussen vinden we chromosomale afwijkingen. Ongeveer 0.5% van de pasgeborenen vertonen chromosomale afwijkingen. Dat illustreert het belang van de cytogenetica. Bij kwantitatieve afwijkingen kom een extra chromosoom voor of ontbreekt er een chromosoom. De meest voorkomende kwantitatieve afwijking is een extra chromosoom 21 of trisomie 21. Deze veroorzaakt het syndroom van Down of mongolisme. Met uitzondering van chromosoom 13 en 18 zijn kwantitatieve afwijkingen van alle andere autosomen niet levensvatbaar. Ook bij de geslachtschromosomen vinden we kwantitatieve afwijkingen. De frequentste zijn het ontbreken van een X-chromosoom bij vrouwen (karyotype 45, X0) dat het syndroom van Turner veroorzaakt en het voorkomen van een extra X-chromosoom bij mannen (karyotype 47,XXY) verantwoordelijk voor het Klinefelter syndroom. Er komen ook structurele chromosoomafwijkingen voor: inserties, deleties, duplicaties, inversies, translokaties. Deze afwijkingen kunnen kwantitatieve effecten hebben (gene dosage effect) als een bepaalde chromosomale regio in een extra kopie voorkomt of ontbreekt. Het herrangschikken van het chromosomaal DNA kan echter ook rechtstreeks bepaalde genen inactiveren of hun expressie activeren door coderende sequenties in de nabijheid te brengen van nieuwe regulatorische sequenties. Structurele chromosoomafwijkingen kunnen belangrijk zijn voor de positionele kloneringsprojecten. Als een structurele afwijking, bijvoorbeeld een translokatie, gecorreleerd is met een fenotype, dan zal de plaats van de chromosomale breukpunten een aanduiding geven over de lokatie van het gen dat verantwoordelijk is voor het fenotype. De klonering van het breukpunt kan dan ook rechtstreeks leiden tot de identificatie van een kandidaat-gen. Verworven (somatische) chromosoomafwijkingen zijn zeer frequent in tumoren. Zij spelen een rol in de genese en de ontwikkeling van die tumoren door de activatie van oncogenen en de inactivering van tumorsuppressorgenen
Moleculaire Genetica 2000
- 32 -
5.3 Moleculaire cytogenetica Fluorescente in situ hybridisatie (FISH) FISH combineert de methodes van de moderne gentechnologie met de cytogenetica. Door gebruik te maken van DNA sondes die fluorescent gemerkt zijn kan de aan- of afwezigheid van een bepaalde sequentie op menselijk DNA rechtstreeks geobserveerd worden. Door gebruik te maken van verschillende fluorochromen worden verschillende kleuren bekomen en kunnen verschillende sondes in combinatie gebruikt worden. Door de behandeling van het doelwit DNA aan te passen kan een verschillende resolutie bekomen worden. DNA sondes voor FISH Unieke sequenties : deze sondes detecteren unieke loci van het menselijk genoom. Die kunnen dus cDNA fragmenten zijn of genomische klonen. Maken we gebruik van genomische klonen, dan kan de aanwezigheid van repetitief DNA interfereren met de detectie van de unieke sequenties. Dat vermijden we door de hybridisatie uit te voeren in de aanwezigheid van een exces genomisch DNA dat eventueel aangerijkt is voor repetitieve fragmenten (commercieel als Cot1 DNA bekend). Bij gebruik van cDNA sondes is dat over het algemeen geen probleem. Om detectie mogelijk te maken moet een sonde echter een minimale lengte hebben. Sondes > 10kb kunnen in de grote meerderheid van de experimenten gedetecteerd worden. De meest gebruikte sondes zijn op dit ogenblik PAC en BAC klonen. De grootte van de inserts van deze sondes garandeert een sterk FISH signaal De efficiëntie van kortere sondes hangt van de specifieke aard van elke sonde af. Repetitieve sondes: deze sondes bevatten een DNA herhaling. Een sonde met en alu-herhaling zal bijvoorbeeld een humaan chromosoom volledig ‘kleuren’. Een sonde met de TTAGGG telomeer-herhaling zal telomeren merken. Belangrijke sondes zijn die met een
fragment van
satelliet DNA dat specifiek is voor de centromeer regio van één chromosoom (centromeer sondes). Die sondes geven dus een sterk signaal rond de centromeer van een chromosoom en worden gebruikt voor de identificatie van chromosomen. ‘Chromosome paints’ zijn sondes die een volledig chromosoom of een belangrijk deel van een chromosoom opkleuren. Chromosoom-paints kunnen bereid worden door een humaan chromosoom af te zonderen in een hybride cellijn van een andere species (bvb. een hamster cellijn). Door middel van PCR met primers die specifiek humane alu-sequenties herkennen amplificeert men dan het DNA van het humane chromosoom dat in de hybride aanwezig is, dat wordt dan als sonde gebruikt Merken en detectie van de sondes De sondes kunnen rechtstreeks gemerkt worden door incorporatie van deoxynucleotiden die een fluorochroom dragen. Dat is de minst gevoelige methode en wordt voornamelijk gebruikt voor het merken van repetitieve sondes. Veelal gebeurt de detectie onrechtstreeks. Daarbij worden de sondes gemerkt met nucleotides die een digoxigenine of biotine dragen. Digoxigenine wordt dan Moleculaire Genetica 2000
- 33 -
gedetecteerd door binding van fluorescent gemerkte anti-digoxigenine antilichamen. Het signaal kan versterkt worden door fluorescent gemerkte anti-immunoglobulines gericht tegen het eerste immunoglobuline te gebruiken. Gebiotinyleerde sondes detecteert men door incubatie met fluorescent gemerkte avidine. Het signaal kan versterkt worden door opeenvolgende incubaties met biotine gemerkte anti-avidine antilichamen en fluorescent gemerkte avidine. Opgezuiverde sondes kunnen rechtstreeks gemerkt worden door 'nick-translatie' of 'random primed labeling'. Hiervoor beschikken we over gemerkte nucleotiden. Doelwit DNA FISH kan uitgevoerd worden op metafase of prometafase chromosomen. Op die wijze kunnen we loci rechtstreeks in kaart brengen op chromosomen. De resolutie is hier ongeveer 1 mb. Signalen van sondes die korter bij elkaar liggen zullen overlappen. Gedurende de interfase komt het DNA minder gecondenseerd voor in de celkern. Bij FISH op interfase kernen kunnen we dus signalen onderscheiden van loci die ongeveer 100 kb van elkaar gescheiden zijn. Hiervoor gebruiken we bij voorkeur nuclei van cellen in de G1 fase van de celcyclus. In de G2 fase (na de S fase) is het DNA in de kern reeds gedupliceerd en zullen alle signalen dubbel voorkomen, wat de analyse kan bemoeilijken. Ten slotte kunnen we FISH uitvoeren op DNA filamenten (fiber FISH) : de resolutie is hier 1000 bp. FISH: toepassingen FISH is een analytisch instrument dat toelaat op snelle en eenvoudige wijze loci op het menselijk genoom in kaart te brengen. We gebruiken FISH om de chromosomale lokalisatie van een sonde te bepalen. FISH-experimenten met sondes die verschillende fluorochromen dragen laten toe de relatieve volgorde van die loci op het menselijk genoom te bepalen. FISH is ook een diagnostisch instrument dat de mogelijkheden van de klassieke cytogenetica sterk verhoogt. Door centromeer sondes te gebruiken kunnen we chromosoomaantallen bepalen op interfase kernen. Een sonde voor chromosoom 21 zal bijvoorbeeld drie signalen geven bij trisomie 21, en hiervoor moeten we de cellen niet in cultuur brengen. Die sondes laten ook toe metafase chromosomen te identificeren met structurele afwijkingen. FISH verhoogt de resolutie van de klassieke cytogenetica. FISH wordt dus veel gebruikt om structurele chromosoomafwijkingen nauwkeuriger in kaart te brengen en de breukpunten precies te situeren bij positionele kloneringsprojecten.
Moleculaire Genetica 2000
- 34 -
6. Het Humaan Genoomproject Het ‘Humaan Genoomproject’ (HGP) is een conglomeraat van projecten met als uiteindelijke doelstelling het begrijpen van de structuur van het menselijk genoom en de relatie van dat genoom tot ons fenotype. Het project heeft een grote technologische impact op de ontwikkeling van automatisatie voor biologische experimenten, de ontwikkeling van hoge-doorvoer strategieën (high throughput) en de ontwikkeling van bio-informatica om de gegevens verzameld door talrijke laboratoria te integreren en beschikbaar te maken voor de onderzoeksgemeenschap. De resultaten van het HGP hebben ook ethische, legale en sociale implicaties. Het onderzoek naar die aspecten heeft van bij de aanvang deel uitgemaakt van het HGP.
6.1 Genetische kaarten De strategie voor de constructie van genetische kaarten en hun significantie zijn reeds aan bod gekomen. Hier bespreken wij een aantal elementen die de strategie van het HGP illustreren. Alle genetische kaarten van het humaan genoom zijn gebaseerd op de koppelingsanalyse in een 40-tal nucleaire 3-generatie families (4 grootouders, 2 ouders en een derde generatie met kinderen). Zodra de haplotypes van de ouders bepaald zijn (studie van de genotypes van de grootouders) is de informatie die wij per familie kunnen bekomen evenredig met het aantal meioses die wij kunnen bestuderen. Families met veel kinderen zijn dus efficiënter. Het ‘Centre d’Etude des Polymorphismes Humains’ (CEPH) in Parijs heeft een belangrijke bijdrage geleverd aan de constructie van genetische kaarten van de mens door een verzameling aan te leggen van cellijnen (witte bloedcellen getransformeerd met het Epstein Bar Virus) van alle individuen van 40 grote (>8 kinderen) nucleaire families. Die cellijnen vormen een permanente bron van DNA dat ter beschikking is gesteld van alle laboratoria die een bijdrage konden leveren aan de constructie van een genetische kaart. Een tweede belangrijk element vormen de ontwikkeling van STR’s als genetische merkers. Volledige genetische kaarten van het humaan genoom werden in 1996 gepubliceerd door CEPH (Parijs) en het Cooperative Human Linkage Center (CHLC, NIH, Boston).
6.2 Fysische kaarten van het humaan genoom Systematische constructie van contigs De constructie van fysische kaarten van een genoom is terug te brengen tot de constructie van contigs met genomische klonen van dat genoom. Het vector-gastheersysteem dat dan gebruikt wordt, bepaalt de grootte van de individuele klonen en dus de resolutie van de fysische kaart. Een belangrijk element bij de systematische constructie van contigs is het gebruik van gestandaardiseerde geordende bibliotheken. Dat zijn bibliotheken waarvan elke individuele kloon gegroeid en bewaard wordt in de well van een microtiterplaat (plastic recipiënten met 96 (8x12) of 384 (16x24) wells. Die organisatie laat een efficiënte screening van de bibliotheek toe (zie iguren). Moleculaire Genetica 2000
- 35 -
De bibliotheken (verzamelingen microtiterplaten) worden bewaard in centrale ‘resource centers’, en kunnen aan geïnteresseerde laboratoria gedistribueerd worden. Elke kloon krijgt dus een adres: nummer van de plaat – rij – kolom. Als een kloon is geïdentificeerd door een laboratorium, dan vormt zijn adres (samen met de identiteit van de bibliotheek) een eenheid van informatie die elk ander laboratorium toelaat om onmiddellijk dezelfde kloon te bekomen en te gebruiken voor verdere analyses. Dat laat een integratie toe van inspanningen geleverd door verschillende laboratoria. Anderzijds kan de informatie over een contig, gegenereerd door één laboratorium, onmiddellijk door de volledige onderzoeksgemeenschap benuttigd worden. Het CEPH heeft ook in dat domein een belangrijke rol gespeeld met de constructie van de megaYAC bibliotheken die gebruikt worden voor de constructie van YAC contigs van het humaan genoom die in 1995 gepubliceerd werden. Het YAC/S. cerivisiae systeem vertoont nadelen eigen aan de efficiënte homologe recombinatie die in gisten optreedt. De YAC bibliotheken zijn nu opgevolgd door PAC en BAC bibliotheken. Pieter de Jong van het Roswell Park Cancer Institute (RPCI, USA) heeft de PAC en BAC bibliotheken (http://www.chori.org/bacpac/) gebouwd die door alle genoom centra gebruikt zijn voor de constructie van contigs. Die contigs vormen de basis voor de sequenering van het humaan genoom. EST gegevensbanken – transcript kaarten Van bij de aanvang van het HGP was er het idee dat de analyse van cDNA’s een kostenefficiënt inzicht kon verschaffen in het transcriptoom (het geheel van sequenties die tot expressie komen) van de mens. Ongeveer 3% van ons genoom wordt afgeschreven naar mRNA’s en vertaald in proteïnes. De genetische component van een fenotype is uiteindelijk terug te voeren tot het (niet) functioneren van proteïnevarianten, de 3% coderende sequenties bevatten dus kwalitatief en belangrijk deel van de informatie in ons genoom. Startpunt van deze inspanningen is weer de constructie van geordende bibliotheken met cDNA klonen. Expressed sequence tags’ (EST’s) zijn sequenties bepaald op het 5’ en het 3’ uiteinde van deze klonen. EST’s geven een inzicht in de complexiteit van ons transcriptoom. EST’s bepaald op een cDNA bank gekopieerd van mRNA van één enkel cel type of weefsel geeft ons ook een kwantitatief inzicht in het niveau van expressie van de verschillende genen in dat weefsel (expression profiling). De sequentiegegevens van EST’s zijn aanwezig in de sequentie-gegevensbanken. Net zoals dit voor genomische klonen het geval is kunnen de adressen van elke cDNA de onderzoeker van de sequentie meteen naar de correcte cDNA kloon leiden.
6.3 De sequentie van het humaan genoom De PAC en BAC contigs van ons genoom vormen de ruggengraat van de inspanningen om de volledige sequentie van het genoom te bepalen. Dat is wellicht het project dat het meest symbool stond voor het HGP. In december 1999 werd de volledige sequentie van humaan chromosoom 22 Moleculaire Genetica 2000
- 36 -
gepubliceerd ( Dunham et al. , Nature 402,489 – 495,1999). In mei 2000 werd de volledige sequentie van chromosoom 21 gepubliceerd (Hattori et al.,Nature, 405, 311 – 319, 2000). De term ‘volledige sequentie’ heeft een operationele definitie : de accuraatheid van de sequentie is beter dan 99.99% (merk op dat die precisie groter is dan de polymorfismen in het genoom) en het betreft alle sequenties die met de huidige technologie kunnen bepaald worden (‘the best that humans and computers can accomplish’). De huidige technologie heeft twee beperkingen. Alle DNA fragmenten moeten (in E. coli) gekloneerd zijn vooraleer de sequentie bepaald kan worden en niet alle gebieden van het humaan genoom zijn vertegenwoordigd in de genomische bibliotheken. De sequentie zelf wordt bepaald in fragmenten van 500 – 1000 bp, die beperking is het gevolg van het feit dat sequenering de elektroforetische scheiding vergt van een DNA fragment met n nucleotiden van een fragment met n+1 nucleotiden. De uiteindelijke sequentie is een contig van die fragmenten en de constructie van die contigs is niet mogelijk voor domeinen met tandem herhalingen. In juni 2000 werd de voltooiing van de volledige sequentie van het humaan genoom in de pers aangekondigd. Het betreft hier echter de ‘kladversie’ (draft sequence) van het genoom. Met ‘klad’ wordt bedoeld dat van elke BAC de sequentie van de insert gekend is als een verzameling contigs van gemiddeld 10000 nt. De volgorde van die sequentiecontigs en de grootte van de fragmenten die de contigs nog scheiden zijn echter niet gekend.
6.4 Bio-informatica Gegevensbanken Alle sequentiegegevens verzameld door academische instellingen worden bewaard in publieke gegevensbanken. De belangrijkste algemene DNA gegevensbanken zijn GenBank (USA), EMBL (Duitsland) en DDBJ (Japan). Die banken zijn equivalent, dagelijks worden de nieuwe gegevens uitgewisseld. Proteïnesequenties worden bewaard in SwissProt (Zwitserland), PIR (USA) en PRF (Japan). Er bestaan ook gegevensbanken met subsets van de algemene banken, zoals EST’s, STS’s, herhalingen, vectorsequenties… Iedere onderzoeker kan sequenties bijdragen aan de gegevensbanken, alle sequenties in de banken kunnen door alle onderzoekers vrij geraadpleegd worden (meestal via het WWW). Elke sequentie in de bank heeft een annotatie, daar worden alle (functionele) gegevens over de sequentie verzameld (bron van de sequentie, referentie, open leesramen, exonen - intronen, herhalingen, polymorfismen, etc.), het ontwikkelen en bijhouden van deze annotatie vormt de grootste uitdaging voor de gegevensbanken en de onderzoekswereld.
Moleculaire Genetica 2000
- 37 -
Similariteit Definities Bijna alle toepassingen van de gegevensbanken gaan uit van de detectie van similariteit of identiteit tussen de onderzochte sequentie en sequentie(s) in de bank. De centrale hypothese is dat similaire sequenties gelijkaardige functies hebben. Deze similariteit kan beperkt zijn tot een specifiek domein, bvb het katalytisch domein van een proteïne, of de volledige sequentie omvatten. Dat laatste wijst dan meestal op een gemeenschappelijke evolutionaire oorsprong. Sequenties of genen bij verschillende species die een gemeenschappelijke voorouder hebben, bvb het α-globin gen in mens en muis, zijn orthologen. Sequenties die door duplicatie ontstaan zijn in het genoom van één species, bvb de α-globin en β-globin genen bij de mens zijn paralogen. Alle sequenties met een gemeenschappelijk evolutionaire oorsprong (orthologen en paralogen) zijn homologen. BLAST Het opsporen van similariteit tussen een sequentie en de data aanwezig in de banken vereist krachtige algoritmes en computers. Zo waren er in oktober 2000 ongeveer 9,103,000 sequenties met een totaal van 10,336,000,000 basen aanwezig in GenBank. Een belangrijke groep van algoritmes zijn de BLAST programma’s (Basic Local Alignment Search Tool). Die programma’s aligneren fragmenten van twee sequenties en bepalen de similariteit. Elke nucleotide of elk aminozuur dat in beide sequenties overeenstemt krijgt een positieve score, elke mismatch krijgt een nulscore of een negatieve score. Die scores kunnen bepaald worden aan de hand van biologische gegevens (bvb een cysteïne of proline is belangrijker voor de driedimensionale structuur van een eiwit dan een alanine) en worden bewaard als matrices. Door het verschuiven van de sequentie en de introductie van ‘gaten’ (‘gaps’) worden de scores gemaximaliseerd, voor deze introductie zijn er ook negatieve scores. De maximale score definieert de optimale alignering en de similariteit. Een statistische analyse geeft dan de significantie van de waarneming. Die algoritmes kunnen zowel DNA als aminozuursequenties aligneren. De vergelijking van aminozuursequenties is gevoeliger omdat wij daarbij rekening kunnen houden met de chemische eigenschappen van aminozuren en de degeneratie van codonen. Toepassingen De extractie van gegevens uit de gegevensbanken (‘data mining’) is een van de grote uitdagingen van de bio-informatica. Veel toepassingen starten met de identificatie van een ‘interessante’ sequentie (bvb een fragment coderende sequentie) in het laboratorium. Een onderzoek naar identieke of overlappende sequenties in de EST banken kan dan cDNA klonen identificeren voor deze coderende sequentie. De constructie van een volledige cDNA is dan eventueel mogelijk (in silico klonering). Daar EST afgeleid zijn van cDNA in geordende banken, zal de annotatie van deze sequenties ons meteen naar de originele cDNA kloon leiden, die dan voor experimenteel werk kan Moleculaire Genetica 2000
- 38 -
aangevraagd worden. Een onderzoek naar de similariteit tussen de aminozuursequentie voorspeld uit de cDNA sequentie en proteïnes met een gekende functie kan een aanduiding geven over mogelijke functies voor het nieuwe eiwit, bijvoorbeelb door de detectie van domeinen die similair zijn aan het katalytisch domein van een enzym. Het screenen van de genomische sequenties in de DNA banken kan PAC of BAC klonen identificeren die de sequentie bevatten en zo leiden tot het lokaliseren van het gen in het humaan genoom. Een vergelijking van de cDNA en de genomische sequentie zal dan ook toelaten de exon-intron structuur van het gen op te helderen en kan een eerste stap zijn bij de analyse van de promotor van het gen. Informatica – internet De toegang tot de gegevensbanken en de informatica nodig om deze te analyseren gebeurt essentieel via het internet en zijn publiek toegankelijk. Zeer interessante startpunten om deze mogelijkheden te exploreren zijn : http://www.ncbi.nlm.nih.gov/ http://gdbwww.gdb.org/ Een mooi overzicht van bio-informatica sites vindt u op : http://www.agr.kuleuven.ac.be/vakken/i287/bioinformatica.htm
Moleculaire Genetica 2000
- 39 -