Szekvenciaillesztés
Gyakorlati bioinformatika PhD kurzus 2. Szekvenciaillesztés
Fajtái: - egyszer ill. többszörös illesztés - globális ill. lokális illesztés
Alkalmazása: - adatbázisokban való keresés - szekvenciák összehasonlítása - szerkezet/funkció jóslása
Bagossi Péter
Szekvenciaillesztés A hasonlóság egy megfigyelhet , mérhet mennyiség (pl. pontszám, százalék), a homológia pedig az ebb l levont min ségi következtetést jelenti, azaz hogy a két gén/fehérje közös evoluciós családfáról származik. Egy adott illesztéshez számolható egy adott pontszám, azonban fontos annak meghatározása, hogy ez a pontszám elég magas-e ahhoz, hogy bizonyítsa a homológiát. Az E érték annak az eseménynek a valószín ségét mutatja, hogy az adatbázisban való keresés során véletlenül kapunk azonos nagyságú pontszámot, és nagysága függ az adott szekvencia hosszától, a hasonlóságtól és az adatbázis nagyságától.
Retrovirális proteinázok többszörös illesztése
Algoritmusok: - Smith-Waterman - Pearson-Lipman - Needleman-Wunsch Programok: - FASTA - BLAST - ClustalW Pontozási rendszereket - PAM - BLOSUM - Overington
HIV proteinázok egyszer illesztése
HIV-1 HIV-2
PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQY PQFSLWKRPVVTAHIEGQPVEVLLDTGADDSIVAGIELGNNYSPKIVGGIGGFINTKEY ** ** ** ** * ** * ******** * ** ******* *
HIV-1 HIV-2
DQIPVEICGHKAIGTVLVGPTPVNIIGRNLLTQIGCTLNF KNVEIEVLNKKVRATIMTGDTPINIFGRNILTALGMSLNL * * * * ** ** *** ** * **
Retrovirális proteinázok szerkezeti illesztése
HIV-1 PQITLW..QRPLVTIRIG..........GQLKEALLDTGADDTVLEE..MN....LPGKWK..PKMIGGIGGFIKVRQY HIV-2 PQFSLW..KRPVVTAHIE..........GQPVEVLLDTGADDSIVAG..IE....LGNNYS..PKIVGGIGGFINTKEY SIV PQFSLW..RRPVVTAHIE..........GQPVEVLLDTGADDSIVTG..IE....LGPHYT..PKIVGGIGGFINTKEY EIAV VTYNLE..KRPTTIVLIN..........DTPLNVLLDTGADTSVLTTAHYNRLKYRGRKYQ..GTGIGGVGGNVETFST FIV -TTTTLE..KRPEILIFVN..........GYPIKFLLDTGADITILNRRDFQ.VKN.SIENG..RQNMIGVGGGKRGTNY RSV LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDSGADITIISEEDWP...TDWPVMEAANPQIHGIGGGIPMRKS ** *** *** * ** HIV-1 HIV-2 SIV EIAV FIV RSV
.DQIPVEICG......HKAIGTVLVG...PTPVNIIGRNLLTQIGCTLNF.. .KNVEIEVLN......KKVRATIMTG...DTPINIFGRNILTALGMSLNL.. .KNVEIEVLG......KRIKGTIMTG...DTPINIFGRNILTALGMSLNL.. .P.VTIKKKG......RHIKTRMLVA...DIPVTILGRDILQDLGAKLVL.. .INVHLEIRDENYKT.QCIFGNVCVLEDNSLIQPLLGRDNMIKFNIRLVMAQ RDMIELGVINRDGSLERPLLLFPAVA...MVRGSILGRDCLQGLGLRLTNL. **
1
Szekvenciaillesztés 1 Globális illesztés
2 1
2
1
2
1 1
3
2
1 Lokális illesztés
3
2
3
3 2 3
BLAST 4
2
4 4
2
2
Clustal-W Clustal-X http://bips.u-strasbg.fr/fr/Documentation/ClustalX/
3
FASTA formátum
PIR formátum
4
Molekuláris evolúció Madarak
Eml sök Gombák C. krusei
pingvin
tehén
D. klockeri
nyúl
kutya
kenguru
Kétélt ek
kecskebéka
Rovarok süt éleszt
tyúk pekingi kacsa galamb tekn s
ló
moly
tonhal ponty
légy
Hüll k Halak Növények bab
macskacápa angolna búza
N. crassa
szezám ricinus napraforgó
A természetes mutációs változások szimulálhatóak két vagy több szekvencia olyan illesztésével, amelyben a változtatások számát (amely egyik szekvenciát átalakítja a másikká) minimalizálták. A filogenetikai fa ennek a függvénynek a grafikus megjelenítése, amelyben a mutációk száma arányos az egyes ágak hosszúságával.
( ( ( gypsy-dm:0.14506, gypsy-dv:0.11630) :0.29313, ( ( ( ( ( bfv:0.21969, efv:0.19698) :0.03334, ffv:0.24583) :0.03729, ( ( hfv:0.02698, sfvcpz:0.02902) :0.09724, ( sfv1:0.09470, sfv3:0.09884) :0.02884) :0.14790) :0.16035, ty3:0.43213) :0.01274, ( ( ty1-at:0.38615,
PHYLIP PHYLogeny Inference Package, consists of 35 programs. protpars: protein parsimony dollop: Dollo and polymorphism parsimony dnapars: DNA sequence parsimony dolpenny: Dollo and polymorphism branch and bound parsimony dnapenny: DNA parsimony branch and bound dolmove: Dollo and polymorphism interactive parsimony dnamove: interactive DNA parsimony clique: 0/1 characters compatibility method dnacomp: DNA compatibility factor: Character recoding program dnaml: DNA maximum likelihood drawgram: Rooted tree drawing program dnamlk: DNA maximum likelihood with clock drawtree: Unrooted tree drawing program proml: Protein sequence maximum likelihood consense: Consensus tree program promlk: Protein sequence maximum likelihood with clock treedist: Tree distance program dnainvar: DNA invariants retree: interactive tree rearrangement program dnadist: DNA distance protdist: Protein sequence distance restdist: Restriction sites and fragments distances restml: Restriction sites maximum likelihood seqboot: Bootstrapping/Jackknifing fitch: Fitch-Margoliash distance matrix method kitsch: Fitch-Margoliash distance matrix with clock neighbor: Neighbor-Joining and UPGMA method contml: Maximum likelihood continuous characters and gene frequencies contrast: Contrast method gendist: Genetic distance pars: Unordered multistate parsimony mix: Mixed method parsimony penny: Branch and bound mixed method parsimony move: Interactive mixed method parsimony
PHYLIP drawgram: rooted tree drawing program
drawtree: unrooted tree drawing program
5
2. Gyakorlati feladat Töltsd le az adatbázisból az általad korábban választott humán gén 1-1 egér, sertés és csirke homológját, majd: - illesszd össze a nukleotid szekvenciákat (ClustalW) - a szekvenciákat fordítsd le fehérje szintre (Expasy) - illesszd össze a fehérje szekvenciákat (ClustalW) - a fehérje szekvenciákat fordítsd vissza DNS szintre (Expasy) - hasonlítsd össze az eredeti és a visszafordított DNS szekvenciát (ClustalW) - készitsd el a gén és a fehérje filogenetikai fáját és hasonlítsd össze ket (ClustalW, Phylip) Az egybeszerkesztett dokumentumot email-ben küld el a
[email protected] cimre!
6