Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M)
Miklós István SOTE, 2010. október 28.
DNS-szekvenciák összeszerelése • Ún. shot-gun szekvenálással lehet teljes genomot szekvenálni • Egy darab DNS szekvenálásánál 200-500 bázis hosszú darabokat kapunk (egy menetben ekkorát lehet szekvenálni, újabban azért max. 1000-et is) • Szekvenálási hibák: kb. 5% (hibás bázisok; kimaradt/tévesen beszúrt bázisok: ún. fantom INDEL-ek) • Emiatt mindkét szálat többször meg kell szekvenálni a megbízhatóság végett • A teljes szekvenciát a darabokból kell összeszerelni és konszenzust konstruálni:
A mai el!adás témája: • Kontigok összeállítása • Primerek tervezése • Hasonlósági keresések adatbázisokban ! BLAST programcsalád ! ISS ! Rejtett Markov modellek • Hasonlósági keres!k összehasonlítása • A fals pozitív találatok okai, és kisz"résük • Szekvenciaösszehasonlítások genomikai alkalmazásai ! A Homophila project, a gyümölcslégy mint genomikai modell
DNS-szekvenciák összeszerelése AACCGTTTACGAAACCAGGTGC AACCGTTTACGAAACCAGGTGCGCGCCCGCGGGAAT AACCGTTTACGAACCCAGGTGC (konszenzus:) AACCGTTTACGAAaCCAGGTGCGCGCGCGcGGGAATCCTAAAAA CGCGCGCGCGGGAATCCTAAAAA TGCGCGCGCGAGGGAATCCTAAAAA
Kisbetûk: kisebb megbízhatóság Összeszerelés:
különféle
programokkal,
pl.
TIGR
http://www.tigr.org/software/assembler/ Szabad szoftver, azaz forráskód ingyen letölthet!
Next Generation Sequencing • Fluoreszcencián alapuló szekvenálási technika • Automatikusan több ezer/tízezer szekvenálás párhuzamosan • Rövid readek • régebben 25-30 hosszú • ma már százas/többszázas readek • Speciális programok, referenciához illesztés
Assembler:
Primerek tervezése PCR:
Referenciához illesztve, csak a különbségeket, mint lényegi információt eltárolva, betömörítve, a végeredmény egy 4 Mbyte-os file!
Primerek tervezése PCR:
Primerek tervezése PCR:
Primerek tervezése PCR:
Primerek tervezése PCR:
Primerek tervezése
Primer3-Whitehead
A primerek szükséges tulajdonságai:
http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi
• Kb 20 hosszúságú • Specifikus legyen a targetre, ne legyenek kompetitív köt!helyek • Hatékony amplifikáció ! 3’ komplementáció pontos legyen ! Ne legyen lokális térszerkezet ! Ne tudjanon a két primer egymással bázispárosodni ! A kísérleti körülményeknek megfelel!ek legyenek (olvad’asi h!mérséklet, sókoncentráció, stb) Az „optimális” primer sok feltételnek kell, hogy eleget tegyen ! számítógépes tervezés
Primer3-Whitehead Sequence Id:
Primer3-Whitehead General Primer Picking Conditions
A string to identify your output.
E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: Targets: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. E.g. 401,7 68,3 forbids selection of primers in the 7 bases starting at Excluded 401 and the 3 bases at 68. Or mark the source sequence with < and Regions: >: e.g. ...ATCT
TCAT.. forbids primers in the central CCCC. Product Size Ranges Click here to specify the min, opt, and max product sizes only if you absolutely must. Using them is too slow (and too computationally intensive for our server). Number To Return: Max 3' Stability: Max Mispriming: Pair Max Mispriming: 1141,1
851-1000
5
9.0
12.00
24.00
Primer3-Whitehead
Primer Size Min: Primer Tm Min: Product Tm Min:
15
Primer GC% Min:
20.0
57.0
Max Self Complementarity: Max #N's:
Opt: Opt: Opt: Opt: 8.00
5
Inside Target Penalty:
20 60.0
Max: Max: Max:
35
Max:
80.0
Max Tm Difference:
63.0
Max 3' Self Complementarity: Max Poly-X:
3.00
5
Outside Target Penalty:
0
First Base Index:
1
CG Clamp:
0
Salt Concentration:
50.0
Annealing Oligo Concentration:
50.0
Liberal Base
Show Debuging Info
10.0
Set Inside Target Penalty to allow primers inside a target. (Not the concentration of oligos in the reaction mix but of those annealing to template.)
Do not treat ambiguity codes in libraries as consensus
Primer3-Whitehead output
Other Per-Sequence Inputs E.g. 20,400: only pick primers in the 400 base region starting at Included position 20. Or use { and } in the source sequence to mark the Region: beginning and end of the included region: e.g. in ATC{TTC...TCT}AT the included region is TTC...TCT. Start Codon Position: 20,150
Sequence Quality
WARNING: Numbers in input sequence were deleted. Using mispriming library humrep_and_simple.txt Using 1-based sequence positions OLIGO start len tm gc% any LEFT PRIMER 540 21 59.72 47.62 6.00 RIGHT PRIMER 1508 20 59.79 40.00 2.00 SEQUENCE SIZE: 3120 INCLUDED REGION SIZE: 1500
3' rep seq 2.00 11.00 ccatttgtagatggagcttcg 1.00 11.00 tggatggtttggtgttttga
PRODUCT SIZE: 969, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00 TARGETS (start, len)*: 1141,10 1 ttatgggcgaacgacgggaattgaacccgcgcatggtggattcacaatccactgccttga ................... 61 tccacttggctacatccgccccctcgcctacttacattccgtttttacattatttaaatt
Min Sequence Quality:
0
Min End Sequence Quality:
0
Sequence Quality Range Min:
0
Sequence Quality Range Max:
kizárt rész
Primer3-Whitehead output 481 gaaaatgattattgctcctttcttttcaaaacctcctatagactaggccaggatcttatc > 541 catttgtagatggagcttcgatagcagctaggtctagagggaagttgtgagcattacgtt >>>>>>>>>>>>>>>>>>>>
5’ primer kötése
Primer3-Whitehead output További találatok: ADDITIONAL OLIGOS start
len
tm
gc%
any
3'
rep seq
1 LEFT PRIMER 618 21 59.52 47.62 4.00 0.00 10.00 ccaaggttagcacggttaatg RIGHT PRIMER 1508 20 59.79 40.00 2.00 1.00 11.00 tggatggtttggtgttttga PRODUCT SIZE: 891, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00 2 LEFT PRIMER 540 21 59.72 47.62 6.00 2.00 11.00 ccatttgtagatggagcttcg RIGHT PRIMER 1443 20 59.55 50.00 3.00 2.00 12.00 tcattgctgctcctccagta PRODUCT SIZE: 904, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 2.00
3’ primer kötése
1441 tgaaggcaataataaatacagaagttgccgtcaataaggtagggatcatcaaaacaccaa <<<<<<<<<<<< 1501 accatccaatgtaaagacggttttcagtgctagttatccagttacagaagcgaccccata <<<<<<<< .........................................
Stb.
Statisztika a vizsgált esetekr!l Statistics con too in in no tm tm high high high high sid many tar excl bad GC too too any 3' lib poly end ered Ns get reg GC% clamp low high compl compl sim X stab ok Left 12205 0 0 0 2790 0 4311 2931 16 58 38 71 45 1945 Right 6283 0 0 0 28 0 2320 2754 0 1 0 0 64 1116 Pair Stats: considered 2346, unacceptable product size 2327, high any compl 2, high end compl 1, ok 16 primer3 release 1.0
Hasonlósági keresések • Az alapkérdés: mely szekvenciákhoz hasonlít egy adott szekvencia? • Mivel távoli homológok is érdekelnek, csak lokális illesztéseket nézek • A pontos szekvenciaillesztés nem érdekel, a bizonytalan régiókat kidobálhatom • Hatalmas adatbázisból keresek • Online, szerveroldali er!forrás, sokan használják • Következmény: heurisztikus algoritmus kell, a standard szekvenciailleszt! algoritmusok túl lassúak • Szeretnénk gyors statisztikai elemzést, megválaszolandó a kérdést: mely találatokban bízhatunk meg
A BLAST programcsalád Basic Local Alignment Search Tool Altschul et al. (1990) J. Mol. Biol. A legtöbbet idézett bioinformatikai témájú cikk Altschul et al. (1997) Gapped BLAST and PSI BLAST Nucl. Acid Res. • Alapötlet: seed-eket keres. Ezek rövid egzakt egyezések • A seedeket kiterjeszti, amíg a hasonlósági pontozás növelhet! • A BLAST résmentes illesztéseket keres, Gapped BLAST olyan szekvenciaillesztéseket is keres, amelyekben rések is vannak. A PSI BLAST-ról részletesebben kés!bb • Statisztikai elemzést is ad
Hipotézisvizsgálat
Hipotézisvizsgálat és a BLAST
H0 hipotézis: az adataimban semmi összefüggés nincs H1 (alternatív) hipotézis: H0 nem igaz
A BLAST statisztikája a lokális szekvenciaillesztés pontozása, legyen ez S A BLAST nem közvetlenül ezt adja vissza, hanem két értéket számol ebb!l
Ha H0 igaz, az adatokból legyártott statisztika valamilyen eloszlást követ. A H0 hipotézist elfogadjuk, ha a kapott érték nem extrém az eloszlásban
p érték:
0.45
0.4
Megadja, hogy mi a valószín"sége annak, hogy random szekvenciák BLASTolása esetén S-t, vagy ennél nagyobb értéket kapunk
0.35
0.3
E érték:
0.25
0.2
Megadja, hogy ha ugyanakkora méret" random query szekvenciát ugyanakkora méret" random szekvenciákból álló adatbázissal BLAST-olunk össze, mekkora az S-t vagy ennél nagyobb pontozást adó lokális illesztések számának a várható értéke
0.15
0.1
0.05
0
extrém érték
A BLAST programcsalád
A BLAST programcsalád Translated
http://www.ncbi.nlm.nih.gov/BLAST/
• •
Nucleotide • • • • •
•
Quickly search for highly similar sequences (megablast) Quickly search for divergent sequences (discontiguous megablast) Nucleotide-nucleotide BLAST (blastn) Search for short, nearly exact matches Search trace archives with megablast or discontiguous megablast
Genomes • • • •
Protein • • • • •
•
Protein-protein BLAST (blastp) Position-specific iterated and pattern-hit initiated BLAST (PSI- and PHI-BLAST) Search for short, nearly exact matches Search the conserved domain database (rpsblast) Protein homology by domain architecture (cdart)
Translated query vs. protein database (blastx) Protein query vs. translated database (tblastn) Translated query vs. translated database (tblastx)
Human, mouse, rat, chimp , cow, pig, dog, sheep, cat Chicken, puffer fish, zebrafish Environmental samples Malaria Insects, nematodes, plants, fungi, microbial genomes, other eukaryotic genomes
Special • • • • •
Search for gene expression data (GEO BLAST) Align two sequences (bl2seq) Screen for vector contamination (VecScreen) Immunoglobin BLAST (IgBlast) SNP BLAST
Options for advanced blasting
Nucleotide
Protein
Translations
Limit by entrez query
Retrieve results for an RID
or select from:
Choose filter taaatcggaccaaaccggtttactaatgggatgccctaatacggtacaaaagtttgct
Expect
Search
Word Size
Set subsequence From: Choose database
To:
Low complexity
All organisms
Human repeats
Mask for lookup table only
Mask lower case
10
11
Other advanced
nr
Now:
or
BLASTn parancssori utasítások >
Program Advanced Options -G Cost to open gap [Integer]
default = 5 for nucleotides 11 proteins
-E Cost to extend gap [Integer]
default = 2 nucleotides 1 proteins
-q Penalty for nucleotide mismatch [Integer]
default = -3
-r reward for nucleotide match [Integer]
default = 1
-e expect value [Real]
default = 10
-W wordsize [Integer]
default = 11 nucleotides 3 proteins
-y Dropoff (X) for blast extensions in bits (default if zero) default = 20 for blastn 7 for other programs -X X dropoff value for gapped alignment (in bits) default = 15 for al programs except for blastn for which it does not apply -Z final X dropoff value for gapped alignment (in bits) 50 for blastn 25 for other programs
gi|76559634|emb|Z00044.2|CHNTXX Length=155943
Nicotiana tabacum chloroplast genome DNA
Score = 117 bits (59), Expect = 3e-24 Identities = 59/59 (100%), Gaps = 0/59 (0%) Strand=Plus/Plus Query
1
Sbjct
2461
TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT
> gi|77799536|dbj|AB237912.1| complete sequence Length=155941
59 2519
Nicotiana sylvestris chloroplast DNA,
Score = 117 bits (59), Expect = 3e-24 Identities = 59/59 (100%), Gaps = 0/59 (0%) Strand=Plus/Plus Query
1
Sbjct
2461
Stb.
TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT
59 2519
Többszörös lokális keresések Távoli homológokat lehetetlen páronkénti lokális kereséssel megtalálni, mert a hasonlósági pontozásukra akkora értéket kapunk, amekkora értéket random szekvenciák összehasonlítására is kaphatunk
Lehetséges megoldások • ISS: Intermediate sequence search • PSI BLAST: Position specific iterative BLAST • Rejtett Markov modellek
PSI BLAST (i)
A query szekvenciához hasonló szekvenciákat keres ki az adatbázisból Gapped BLAST-tal és egy pontozómátrixszal, pl BLOSUM62 (ii) Összeilleszti azokat a szekvenciákat, amelyeknek az E értéke egy adott szám alatt van (EM) (iii) Egy pozícióspecifikus pontozómátrixot készít (iv) Újabb Gapped BLAST, de most a (iii) pontban legyártott pontozómátrixot használjuk (v) A jó találatokból újabb többszörös illesztés, újabb keresés (vi) Adott iterációig (j) folytatjuk az eljárást, vagy amíg nem kapunk további találatokat Irodalomban javasolt értékek: EM = 0.0005
j = 20
Rejtett Markov Modellek (HMMs)
Profile-HMMs
A bioinformatikában az egyik leggyakrabban használt sztochasztikus modell.
A profile HMM-eknek alapvet!en háromféle állapota van: M (match, azaz egyezés), I (insert) és D (delete); ezeken kívül szokás még kiinduló- és végállapotokat és egyéb speciális állapotokat is definiálni. Pl:
Egy képzeletbeli gép, amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden egyes állapotában kibocsáthat egy karaktert (aminosav vagy nukleotid), ezekb!l áll össze a gép által generált szekvencia. Attól rejtett, hogy a szemlél! csak a kibocsátott szekvenciát látja, az az utat, amin a gép végiglépkedett, nem. Az állapotok modellezik a biológiai szekvencia egyes pozícióját, a kibocsátott karakterek összetétele ennek megfelel!. A feladat az, hogy a szekvenciát „illesszük” a rejtett Markov modellhez, azaz keressük meg a valószín"síthet! kibocsájtási utat Lehet többszörös szekvenciaillesztést csinálni ún. profile rejtett Markov modellekkel, ekkor minden szekvenciát hozzáillesztjük a HMM-hez, ezen keresztül egymáshoz Nagyon hasonló a PSI-BLAST-hoz, de statisztikailag jobb
Hasonlósági keres!k összehasonlítása A feladat ugyanaz, mint a szekvenciaillesztések összehasonlításánál, kell valami referenciaadatbázis, ahol tudjuk a megoldásokat Erre használható a SCOP adatbázis (Structural Classification of Proteins) • http://scop.mrc-lmb.cam.ac.uk/scop/ • Domain-eket csoportosít: kis fehérjék önálló domain-ek, a nagyokat domain-enként elemzi • Hasonló domainek családokba vannak rendezve, ezek közötti evolúciós kapcsolat szinte biztos • A családok tovább csoportosítva szupercsaládokba, ezek közötti evolúciós kapcsolat valószín" • A szupercsaládok gomolyag-osztályokba vannak csoportosítva (fold classification) Egy gomolyag-osztályba tartozó fehérjék másodlagos térszerkezeti elemei ugyanolyan sorrendben követik egymást. Szinte biztos, hogy evolúciósan nem rokonok
Hasonlósági keres!k összehasonlítása Park et al. (1998) J. Mol. Biol. A SCOP-ból létrehoztak egy referenciaadatbázist, a PDB40-J-t. Ebben csak távoli homológok szerepelnek, melyekre hasonlósága kisebb, mint 40%, összesen 935 szekvencia A lehetséges 436645 párból csak 2096 olyan volt, amelyek homológok voltak Öt metódust hasonlítottak össze: GAP-BLAST, FASTA, ISS, PSI-BLAST és SAM-T98 (egy profile rejtett Markov modell)
Hasonlósági keres!k összehasonlítása
Hasonlósági keres!k összehasonlítása True positives
False positives
A módszerek a hibás találatokban térnek el nagyon
A fals pozitív találatok okai és kisz"résük
Censor, példa http://www.girinst.org/censor/
• Véletlen. Adott módszer esetén nem lehet semmit sem tenni ellene, tovább kell fejleszteni • Közös domain egyezése fehérjék esetében. A közös domain nem jelent szükségképpen funkcionális egyezést vagy homológiát! • Vektorszennyezés. Nukleinsav szekvenciák esetén az adatbázisba beküldött szekvencia tartalmazhat egy vektort. • Repetitív elemek: Gyakran el!forduló elemek Eukarióta genomokban. Pl. transzpozábilis elemek, Alu-szekvenciák, poliglutamin CAG repeat, stb. ! Külön adatbázisuk van, RepBase ! Kisz"résük ún. repeat-maskerek-kel, mint pl. Censor, RepeatMasker
Bemenõ szekvencia: humán kreatin kináz génjének részlete > HUMCKMM1 GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACCCTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAAT TGTTTTTTGTTTTTTGTTTTTTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCCTCACCTCCCAGGCTCAAGTGATCCTCCCAT CTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACATGTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCCTGAGCTCAAG CAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATGTTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTT TTTTTTGTGAGACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTCCTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAG CTGGGATTACAGGCGTGTGTCACCATGCCAGGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGCCTCAAGTGATCCACCCGCCT CCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCCCGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA
CENSOR futtatás eredménye: Megtalált repetitív elemek: humckmm1 humckmm1 humckmm1 humckmm1 humckmm1 humckmm1
kezdet 2 67 138 383 451 481
vég 63 119 382 449 480 775
elem neve Alu-Jb L1MA2 Alu-Jb L1MA2 (TTTTC) Alu-Sz
1 697 42 623 5 1
62 751 290 696 33 290
c c c c d c
A repetitív elemektõl megtisztított szekvencia (a törölt részek kiikszelve): GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT TGTTTTTTGTTTTTTGTXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA
RepeatMasker http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker • Leterhelt szerver, a beküldött szekvenciák sorbanállásra kerülnek • Az eredmények tar.gz tömörítéssel tölthet!ek le ! Standard linux/Unix operációs szervereken ! Windows nem tudja kezelni, külön program kell rá, pl. WinRar, http://www.rarlab.com/, de ez nem ingyenes
Homológiakeresés az orvosi genomikában • Humán betegséggének homológjainak megkeresése modellorganizmusokban ! Egér ! Gyümölcslégy ! C. elegans ! Éleszt! ! stb. • A funkció ismert lehet a modellorganizmusban, amelyr!l következtetni tudunk az emberben betöltött szerepre • Ha funkció nem ismert, akkor a modellben könyebben vizsgálható mert: ! Könnyebb a fenntartása, mint egy sejtkultúrának ! Mutagenezis, szelektálás nagyméret", rövid generációs idej" populációkban ! Kevésbé redundáns biokémiai rendszer
Mikor melyik modellt használjuk? • Mitokondriális betegségeknél, sejt-autonóm géneknél éleszt!t • Számos konzervatív gén meg!rizte funkcióját mind a Vertebrata és Invertebrata vonalon, ezekre (meglep!en) jó a gyümölcslégy • Nyílvánvalóan vannak gerinces, ill. eml!s specifikus gének, amelyek csak egérben vizsgálhatóak, mint pl: ! Négykamrás szív kialakításáért felel!s gének ! Tejelválasztásért felel!s gének ! Vázrendszer kialakításáért felel!s gének • Nyílvánvaló feltétel, hogy az adott génnek az adott modellorganizmusban legyen funkcionális homológ párja, ehhez els! lépés a szekvenciális homológia kimutatása
A Homophila adatbázis • http://superfly.ucsd.edu/homophila/ • 2001-ben indult, folyamatosan frissül • Az OMIM adatbázisban lev! géneket BLAST-olja össze a Drosophila melanogaster genommal • A cél egy olyan adatbázis létrehozása, amely tartalmazza az ismert humán betegséggéneket és a gyümölcslégyben található homológjaikat • Információt tartalmaz a Drosophila homlógok patológiájáról is • A humán betegséggének kb. 75%-ának van homológja a gyümölcslégyben. (E < 10-10) • A 2309 ismert humán génb!l kb. 700 az, amelyik meggy!z!en azonos (E < 10-100)
Homlóg gének a Homophila adatbázisban (Példák) Fejl!dési rendellenességek • Polydaktylia Idegrendszeri betegségek • Parkinson kór • Altzheimer kór • Huntington kór
Bilaterális közös !s Rendelkezett: • • • • •
6-8 szegmentb!l álló testtel Jól definiált idegrendszerrel Izomzattal Számos függelékkel Fényérzékel! szervvel
Számos genetikai mechanizmus konzerválódott annak ellenére, hogy látványos morfológiai különbségek vannak
Tumor betegségek • Melanoma • Retinoblastoma
Regulációt szabályozó gének, pl. TWIST gén
Szignál transzdukció, pl. Notch Emberben a gerinc kialakulásában van szerepe
Szignál transzdukció, pl. Notch
CAG repeat okozta neurális betegségek
Drosoplhilában a szárny erezettségében Kontrol szem, amely humán HSP70 fehérjét expresszál (GMR vezérelt, specifikusan a szemben expresszálódik)
CAG repeat okozta neurális betegségek Degenerált szem, amely egy 78 glutaminból álló repeat szekvenciát tartalmazó mutáns MJDTr-Q78 expresszál
További perspektívák • Multigénes betegségek vizsgálata ! Az emberben nagyfokú linkage disequilibrium lehet ! Gyümölcslégyben gyors szelektálás lehetséges • Genetikai szemantika ! Az egyes vezérlési szerkezetek egymásravetítése két genomban ! Genom hálózat modellezése
CAG repeat okozta neurális betegségek A megfelel! humán chaperonnal való ko-expresszió nem okoz káros elváltozást
Irodalomjegyzék • Altschul et al. (1990) Basic local alignment search tool. J. Mol. Biol. 215:403-410. • Altschul et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucl. Asid Res. 25:3389-3402. • Park et al. (1998) Sequence comparison using multiple sequences detect three times as many remote homologues as pairwise methods. J. Mol. Biol. 284:1201-1210. • Reiter et al. (2001) A systematic analysis of Human disease-associated gene sequences in Drosophila melanogaster. Genome Research 11:1114-1125 • Bier, E (2005) Drosophyla, the golden bug, emerges as a tool for human genetics. Nature Reviews Genetics 6:9-23.