Bevezetés a bioinformatikába 20092010 őszi félév, biológia BSC, levelező képzés
Bálint Balázs (
[email protected])
http://biotech.szbk.uszeged.hu/
Információ a kurzusról I. elméleti alapok (az év végi vizsga anyaga) II. az elméleti részhez tartozó gyakorlati munka (nem számon kért) (szakirodalmazás, adatbázisbányászat szekvencia homológia keresés, fehérje térszerkezet vizsgálat, stb.) Vizsga: írásban, tesztek / rövid választ igénylő kérdések
A bioinformatika definíciója
informatika
biológia
hardverek, szoftverek
megválaszolandó kérdés, biológiai adat
Bioinformatika: biológiai adatok számítógépes analízise.
Centrális dogma és a bioinformatika főbb területei a molekuláris biológiában Gén
genomika
DNS
transzkripció, RNS szerkesztés RNS
transzkriptomika
degradáció
transzláció, poszttranszlációs módosítás
proteomika
fehérje
degradáció
biokémiai aktivitás
metabolikus útvonalak
metabolomika
a DNS a fő biológiai információhordozó
F. Griffith 1925-1928
Avery 1944
Streptococcus pneumoniae
a transzformáló anyag DNS
proteáz
RNáz DNáz
a baktérium módosítható (transzformálható)
egér meghal egér meghal egér túlél
Hershey és Chase 1952 1., Escherichia colit fertőztek radioaktívan jelölt T2 fággal a DNS P32vel, a fehérje burok S35tel jelölve (a DNSben nincs S, a fehérjében nincs P)
2., A baktériumhoz tapadt kiürült fág burkokat rázással leválasztották
3., A baktériumokat és a szabaddá vált fág burkokat centrifugálással elkülönítették felülúszó, (S35 fág fehérje)
baktérium pellet, P32 (fág DNS)
DNS szerkezete (1953)
"Nem kerülte el a figyelmünket az, hogy az általunk feltételezett párosítási szabály egy másolási mechanizmust is sugall a genetikai anyag számára."
James Watson és Francis Crick
DNS replikáció
RNS szintézis (transzkripció)
Fehérje szintézis (transzláció)
Az univerzális genetikai kód Második karakter
Els ő karakter
Harmadik karakter
DNS: ATG
RNS: AUG
AS: Metionin
Hogyan nyerjük ki a szekvencia információt?
Fehérje
DNS
Könnyen tisztítható
Nehezebben tisztítható
Stabil Számos instabil fehérje létezik Könnyebben, szekvenálható A közvetlen fehérje szekvenálás igen nehéz feladat
A szekvencia információkat zömmel DNS molekuláról nyerik, amiket azután számítógéppel (in silico) fehérje szekvenciára fordítanak.
A DNS információ tartalmának megismerése – a kezdet kezdete P s t I ( 1)
V a r ia t io n 1 V a r ia t io n 2 V a r ia t io n 3 M is c F e a t u r e 2
V a r ia t io n 4 C D S 4
A paLI (4780)
A v a I ( 16 3 )
C D S 5 R e p O r ig in 1
C D S 6 m R N A 2
p h i- x - 1 7 4 M is c F e a t u r e 1
C D S 7
5386 bp
C D S 8 C D S 9
Frederick Sanger
C D S 1 1 m R N A 1 C D S 1 0
• az első publikált teljes genom (1977) • kb. 5000 nukleotid (!)
Sangerféle DNS szekvenálás elve
P
P
P
P P P
P
lánc termináció ddGTP jelenlétében
P
termék keverék
Sangerféle DNS szekvenálás elve ddGTP
ddTTP
ddATP
ddCTP P
P
P P
P P
P
P
P
P
P P
P
P P
zseb
poliakrilamid gél
futtatás iránya:
Egy igazi szekvenáló létra
Szekvencia: 5’ tcaactttgtcggcttgagaaagacctgggatctgggtat...
A technológia korlátai: • emberpróbáló, extrém munkaigényes eljárás • igen kicsi leolvasási hossz • a termékek detektálása P32 izotóp segítségével
A Sangerféle DNS szekvenálás automatizálása
• A négyféle dideoxy nukleotid analóg egy reakcióban adva • mind a négy ddNTP egyedi fluoreszcens festékkel jelölve • a termékek méret szerinti elválasztása kapilláris oszlopon • a detektor előtt elhaladó festékek sorrendje=> bázissorrend • teljesen automatizált berendezés • ~6001000 nukleotid hosszú DNS darabok olvashatóak szekvenogram: festékintenzitások változása az időben
1995 Haemophilus influenzae genom szekvencia „Shotgun módszer”
DNS tisztítás
darabolás
futtatás
ideális méretű darabok (1,52 kb) kinyerése
miden klónból plazmid tisztítás
inszert szekvenálása
a plazmidok bejuttatása E. coliba
contig assembly
a genomi fragmentek plazmidokba ligálása
A Sangerszekvenálásra alapozott shotgun módszer korlátai
Könyvtárkészítés szükséges • munkaigényes, időigényes, költséges folyamat • egyenetlen lefedettség, a gazdára (E. coli) toxikus régiók teljesen kimaradnak • a gazda genom nyomokban szennyeződésként megjelenhet • különböző projektek közötti keresztszennyeződés könnyen előfordulhat
Alacsony áteresztőképesség • az új szál szintézise és a bázissorrend meghatározása külön lépés • kapilláris elektroforézis lépés szükséges • kevéssé párhuzamosítható (max 96 kapilláris / berendezés) • magas költség / szekvenálási reakció
Új generációs szekvenálási technológiák
Roche 454 FLX
Illumina Solexa
ABI Solid
Nincs szükség hagyományos genomi könyvtárra • Közvetlenül a tisztított genomi DNS kerül a gépbe • A gDNSt fizikailag törik, a fragmenteket hordozóhoz rögzítik, majd PCR segítségével felsokszorozzák Óriási átereszőképesség • nagyfokú párhuzamosítás: akár többmillió szekvenálási reakció egyszerre • az új szál szintézise és a nukleotid sorrend meghatározása egyidejűleg történik • kisebb költség / szekvenálási reakció
Elkészült genom szekvenciák statisztikája 2009 Bakteriális genom
1001 (714*)
Eukarióta genomok
74 (22*)
• Caenorhabditis elegans (talajlakó fonalféreg) • Ecetmuslica (Drosophila melanogaster) • Egér (Mus musculus) • Ember (Homo sapiens) • Kutya (Canis lupus familiaris) • Lúdfű (Arabidopsis thaliana) • Méh (Apis mellifera) • Patkány (Rattus norvegicus) • Rizs (Oryza sativa) • Sertés (Sus scrofa) • Szarvasmarha (Bos taurus)
• Szőlő (Vitis vinifera)
* 2008as adat
Összefogás a nukleinsav adatbankok között http://www.ncbi.nih.gov
NIH USA
NCBI
GenBan k EMBL CIB
DDBJ
NIG Japan
http://www.ebi.ac.uk/embl EBI
EMBL Europe
http://www.ddbj.nig.ac.jp
NIH: National Institute of Health > NCBI: National Center for Biotechnology Information > GenBank NIG: National Institute of Genetics > CIB: Center of Information Biology > DDBJ EMBL: European Molecular Biology Laboratory > EBI>European Bioinformatics Institute >EMBL
Mi az adatbázis? számítógépes fájl strukturált adattartalommal – szabványosított adatszerkezet
– gyors összetett keresések végezhetőek
/indexelés/
– rendszeresen frissített, naprakész
/új kiadások/
– kapcsolatok más adatbázisok felé
/kereszthivatkozások/
Megfelelő szoftverek kellenek, melyekkel adat lekérdezés, adat frissítés, adat törlés, adat hozzáadás végezhető
Hogyan épül fel egy adatbank? szabványosítás, szabványosítás, szabványosítás
Feladat: • adatok tárolása: jól dokumentált szekvencia formátumban • a nyers szekvenciákon kívül további fontos kiegészítő információkat tároljon (szekvencia leírása, eredete, típusa, hossza, stb. stb.) • lehessen keresni ezekben a "kiegészítő" információkban • kereshető legyen a szekvencia • a kutatók új szekvenciákat küldhessenek be az adatbankba • legyen lehetőség a hibajavításra (update) • ne legyen redundáns • minél inkább automatizált legyen
Adatbázisok
Az adatbázisok típusai Elsődleges adatbázisok • A kísérletezők eredeti elküldött adatai • Közvetlen kísérleti eredményeket tartalmaznak • Pl. GeneBank, GEO (génexpressziós adatbank)
Származtatott adatbázisok • Elsődleges adatok analízisével nyert többletinformációkat tárol • Hivatkozások az elsődleges adatbázis eredeti bejegyzéseire • Néhány példa: RefSNP(pontmutáció adatbank) CDD (konzervált domain adatbázis), PFAM (fehérje családok adatbázisa)
A GeneBank adatbázis • 1979ben alapítva (Los Alamos). • 1992 óta az NCBI gondozza (Bethesda). • az adatbázis saját szekvencia formátuma a genebank • szekvencia információ • szekvenciákhoz kapcsolódó egyéb információk, annotációk • kereszthivatkozások más adatbankok kapcsolódó bejegyzéseire • az adatbázis divíziókra osztott: PRI főemlős szekvenciák
ROD
rágcsálók szekvenciái
PLN nővényi, gomba és alga
BCT
bakteriális
EST
expresszált szekvencia darabkák (cDNS)
ENV
környezeti mintákból nyert szekvenciák
PAT
szabadalmakhoz kapcsolódó szekvenciák
~taxonómia
szekvencia jellege
A GeneBank adatbázis gyarapodása 2009 október 120 100
90 80 70
80 60 40 20 0 1980
60
Nukleotid (milliárd bp)
50
Szekvencia (millió db)
40 30 20 10 0 1980 1985
1985 1990
1990 1995
1995 2000
2000 2005
2005 2010
Töretlen, közel exponenciális növekedés
2010 2015
Egy GeneBank bejegyzés LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE PUBMED REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL
REMARK COMMENT
AF062069 3808 bp mRNA linear INV 23-OCT-2002 Limulus polyphemus myosin III mRNA, complete cds. AF062069 AF062069.2 GI:7144484 . Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. 1 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated phosphoprotein J. Neurosci. 18 (12), 4548-4559 (1998) 98279067 9614231 2 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA 3 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA Sequence update by submitter On Mar 2, 2000 this sequence version replaced gi:3132700.
Egy GeneBank bejegyzés lókusz LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus mRNA, complete LOCUS AF062069 3808myosin bp III mRNA linear cds.INV 23-OCT-2002 ACCESSION AF062069 VERSION AF062069.2 GI:7144484 KEYWORDS . SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231 REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
Hossz
Lókusz név
Molekula típus
Divízió
Módosítás Dátum
A GeneBank azonosítók LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
AF062069 3808 bp mRNA linear INV 23-OCT-2002 Limulus polyphemus myosin III mRNA, complete cds. AF062069 AF062069.2 GI:7144484 . Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. 1 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated phosphoprotein J. Neurosci. 18 (12), 4548-4559 (1998) 98279067 9614231 2 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA 3 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA Sequence update by submitter On Mar 2, 2000 this sequence version replaced gi:3132700.
ACCESSION VERSION REFERENCE AUTHORS TITLE JOURNAL MEDLINE PUBMED REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT
AF062069 AF062069.2
GI:7144484
Egyedi azonosító (fix)
GB azonosító (változhat!)
GeneBank a szekvencia eredete (Atlanti tőrfarkú) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
AF062069 3808 bp mRNA linear INV 23-OCT-2002 Limulus polyphemus myosin III mRNA, complete cds. AF062069 AF062069.2 GI:7144484 . Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. SOURCE Limulus polyphemus (Atlantic horseshoe crab) REFERENCE 1 (bases 1 to 3808) ORGANISM Limulus polyphemus AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Eukaryota; Greenberg,R.M. and Metazoa; Smith,W.C.Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231 REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
NCBI Taxonómia
GeneBank referenciák LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
AF062069 3808 bp mRNA linear INV 23-OCT-2002 Limulus polyphemus myosin III mRNA, complete cds. AF062069 AF062069.2 GI:7144484 . Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein REFERENCE 1 (bases 1 to 3808) JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., MEDLINE 98279067 PUBMED 9614231Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated REFERENCETITLE 2 (bases 1 to 3808) phosphoprotein AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) Greenberg,R.M. and Smith,W.C. TITLE MEDLINE Direct 98279067 Submission PUBMED 9614231 JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
szakirodalom kereszthivatkozás
A GeneBank tulajdonság tábla FEATURES source
CDS
Location/Qualifiers 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ 1201 a 689 c 782 g 1136 t
/protein_id="AAC16332.2" /db_xref="GI:7144485"
fehérje adatbank kereszthivatkozás
BASE COUNT ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa //
A GeneBank (GenePept) bejegyzés FASTA formátumban
>gi|7144484|gb|AF062069.2| Limulus polyphemus myosin III mRNA, complete cds TCGACATCTGTGGTCGCTTTTTTTAGTAATAAAAAATTGTATTATGACGTCCTATC TGTTGTTGTGTTACACAGGTACATATTAATAACAGGTAGCTAACGTACTTATATAT ACATATATATAATTGGTCTGTTACTTTCAGTTACTCCCTGACTTGTGATCCTACTTG TTGCTGTGTTATACAGGTATATATCACTAAAACAGACTGCTAACGTGCATATATTT ATATATGTGTAGCTTTGTTAATGCTTTAACATGGAGTATAAGTGTATCAGTGAACA TTTACCATTTGAGACTCTGCCTGATCCAGGTGATCGGTTTGAAGTACAAGAACTCG TTGGAACAGGAACTTATGCTACCGTATACTCAGCGATTGATAAGCAAGCAAACAA GAAGGTAGCGCTGAAGATTATAGGACACATTGCGGAAAATCTACTTGATATCGAA ACTGAATATCGTATTTATAAAGCTGTCAATGGAATCAGTTTTTCCCCGAATTCCGT GGTGCTTTCTTCAAGCGTGGGGAACGAGAATCTGACAATGAGTATGGCTGGGAAT TGAGTTTCTGGAAGAAGGGACAGCAGCTGACTTGCTTGCAACACACAGAAGGTTT GGAATTCACTTGAAGAAGACTTGATTGCTTTAATAATCAAGGAGGTTGTACGAGC TGTGCAGTACTTACATGAAAACAGCATTATCCACAGAGATATTCGTGCTGCCAAT ATAATGTTTTCTAAAGAGGGATATGTCAAATTAATTGACTTTGGTCTTTCTGCTTC AGTAAAGAACACGAACGGCAAAGCACAGTCTTCTGTGGGCTCCCCCTATTGGATG GCTCCTGAGGTGATATCCTGTGACTGTCTTCAAGAACCTTATAACTACACATGTGA CGTTTGGTCTATGGAATAACTGCTATAGAATTAGCAGACACAGTGCCCTCACTTA GCGATATTCATGCTTTAGCGCCATGTTTCGGATTAACAGAAATCCTCCCCCTAGTG TTAAGAGGGAAACACGCTGGTCAGAAACATTGAAAGATTTTATCAGCGAATGTTT GGTGAAAAATCCCGAATATCGACCGTGTATCCAAGAAATTCCCCAACACCCATTTT T...
További szekvencia formátumok
ID SQ
EMBL //
nameless standard; DNA; UNC; 457 BP. Sequence 457 BP; GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC GCGGTTTTTC \\\ AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC nameless_1 TTCGTTGCCT CGGACCTGCA TCCCTTTGGG ENTRY AGATGCTTCA GAGAGCAAGG nameless_1 TTGATTGCGC 475 bases ATACAGATGC TITLE TCGGTTCGCG ACGGCCTGCG TGAGGATACC SEQUENCE CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG 5 10 15 20 AGTGTCCACT GGGCAGCGGG 1 M S R CAGGGTCTCC T V T I E P VCCCGGGA T R I E G H A R I T L Q
nameless_1 PIR
GCG
31 D A K F H L T Q F R G F E K F C E G R P 61 T C G I C P V S H V L A S N K A C D H L 91 K L R R I I N L A Q L T Q S H A L S F F 121 W D S D P V S R N I F G V M R Q D P A L 151 G Q T I I E T L G G K K I H P T W V V P 181 K R D A M L K L I P E G L E I A K R T Y 211 K D E A N H F G S Q P T M F L S L V S P Length: 457 241 L R L K D A QNov G R I15, L E 2004 D M V P 10:24 P H E Y 271 F S Y M K F P Y Y K P H G Y P N G I Y R CGGCCAGGCA AAGAAGAGCG CGACGAATGG 301 D A C G T P Y A D V A L A E F H M L Q E 331 H Y A R L V E I I Y A L ECCAACCATGC M M E R L L K ATTCCTCCGT ACCCCATGCC 361 A R A R S N R Y E G I G V A E A P R G I ATCACCACGA GCAGCCCGAA 391 G L I T W V N L I I A T GGACGATGGCC H N N L A M N 421 V D G N N L Q E G M L N R V E A V I R C CCGCGCCCTC CATGCGGTCC GCGGTTTTTC 451 A F G E M P L A I E L K D A T G R V V D
nameless_1 1 GGCGAAGATT 51 CCATGGCTGT 101 TTCGTGAAAG 151 CGTGAATGAA 201 AGGGAATCGG /// CAACTTGAGT 251 AGATGCTTCA GAGAGCAAGG 301 ATACAGATGC TCGGTTCGCG 351 CGGTTCCAGT CCGTGCGACG 401 GGGACACTAG CCAACCGGGC 451 CCCGGGA
GGAGTCAGTC TTCGTTGCCT ACGGCCTGCG ACCATTAATA AGTGTCCACT
ATATCAGGAG CGGACCTGCA TTGATTGCGC AGGCGCTCCA GGGCAGCGGG
CCATGGCTGT ATCACCACGA CATGCGGTCC ATATCAGGAG TCACCCAACC CGGTTCCAGT CCAACCGGGC
25 30 L G D A G E V E Y R E M P A L T A R L S V S I P P T G E H L S S P D L L L G A K D G I R L R Q I G G V S E P L T Q E A F F K T L V P K F K G H L E H Y D G F E Check: R L I G E7178 A V E D.. V G P L A R L N N V GAGCATGTAG S G P I A S S F H Y D P T I L D A R V R GAGTCAAACC L M H H Y R I D D E ATCCACACGA Q S I R Q V A D A Y F D P C L S C A S H AATGATCGAA T L R R G
TCCCTTTGGG TCACCCAACC TGAGGATACC CAGTTCCCGC CAGGGTCTCC
60 120 180 240 300 360 420 457
Konverzió különféle szekvencia formátumok között
A különféle szekvencia formátumok könnyen átkonvertálhatóak egymásba • „Seqret” program az EMBOSS csomagból • http://cbi.labri.fr/outils/Pise/seqret.html • helyileg telepített változattal • (Bio)perl script segítségével • EBI ReadSeq portálján
Második rész
Szekvencia evolúció • A legtöbb DNS polimeráz nagyon hűen másol. (Az E. coli DNS polimeráza nagyjából egy hibát vét tízmillió nukleotidonként) • Elegendő hosszú idő alatt számos pontmutáció • Kromoszóma átrendeződéssel hirtelen, nagyobb változások (inszerció, deléció) történhetnek • A DNS (vagy fehérje) szekvencia összehasonlításával evolúciós rokonsági fok is kimutatható:
rDNS szekvencia elemzés alapján felállított univerzális törzsfa
Változások a szekvenciákban
A T C C T A T T C A C A G A T A
A T C C A C A G A T A
A T C C G A T T A A C A G A T A
A T C C G A T T A A C A G A T A
pontmutációk
inszerció / deléció
A T C C C C A A T A C A G A T A
A T C C T A T T G GC A G A T A
inverzió
Szekvencia evolúció Homológ szekvenciák: •
hasonlóak
•
közös ősre vezethetőek vissza
Analóg szekvenciák: •
hasonlóság közös evolúciós ős nélkül
leszármazott#2
leszármazott#1 (rombusz)
(téglalap)
közös ős (paralelogramma)
ortológ: a homológ fehérjék két külön fajban találhatók, a funkció általában azonos Pl. szarvasmarha inzulin emberi inzulin paralóg: a homológ fehérjék ugyanazon fajban találhatók (általában nem teljesen azonos funkció)
Pl. emberi hemoglobin A és hemoglobin B láncok
Homológia keresés a hőskorban: Dotplot zaj
• A két szekvencia az X illetve Y tengelyre kerül • Minden X pozíciót minden Y pozícióval összehasonlítunk • Ahol egyezés van, oda egy pontot teszünk
• Az közös régiók átlós vonalként jelennek meg
Homológia keresés: szekvencia illesztés • Nukleinsav vagy fehérje szekvenciák egymáshoz rendezése • Nagyon sok illesztés lehetséges • Melyik a legjobb? Valós hasonlóságot mutat? Tényleg homológ a két szekvencia? Az illesztések kiértékeléséhez pontozási rendszer szükséges
Szekvencia1 Szekvencia 2
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
Homológia keresés: pontozás
actaccagttcatttgatacttctcaaa
Szekvencia1
taccattaccgtgttaactgaaaggacttaaagact
Szekvencia 2
Negatív érték bünteti az eltéréseket: A
T
C
G
A
5
-4 -4 -4
T
-4
5 -4 -4
C
-4
-4
G
-4
-4 -4
5 -4 5
Illeszkedik: 5 Nem illeszkedik: 19 Score: 5 x 5 + 19 x (4) = 51
A DNS pontozási rendszer hibája
CCTCCTTTGT 5 5 5 5 5 5 5 5 5 5 Pont = 50
CCTCCTTTGT Pro
A A
T
C
5 -4 -4 -4
T -4
5 -4 -4
G –4 -4
Leu
G
5 -4
C -4 -4 -4
5
CCTCCTTTGG 5 5 5 5 5 4 5 5 4 5
Pont = 32
CCTCCCTTAG Pro
Leu
Nem veszi figyelembe, hogy egy aminosavat több kodon is kódolhat (néma mutációk)
Fehérje pontozási rendszer – a háttér • Az aminosavaknak különböző fizikaikémiai tulajdonságaik vannak, ezek befolyásolják a kicserélhetőségüket • Például a valin(V) és az izoleucin(I) kicserélhető egymásra
alifás L hidrofób
P
C S+S I M
V
pici
A
kicsi
G CSH
S
K
E
D
T F
Y W
H
R
aromás
N Q pozitív poláris
töltött A: alanin, R: arginin, N: aszparagin, D: aszparaginsav, C: cisztein, Q: glutamin, E: glutaminsav, G: glicerin, H: hisztidin, I: izoleucin, L: leucin, K: lizin, M: metionin, F: fenilalanin, P: prolin, S: serin, T: treonin, W: triptofán, Y: tirozin
Fehérje pontozási rendszerek (mátrixok) • pontszámot rendel az összes lehetséges aminosavaminosav cseréhez • fehérje szekvenciák többszörös illesztésének vizsgálatából származó adatok
Blossum62es mátrix
Szekvencia illesztés: globális vagy lokális
Globális illesztés: a teljes szekvenciát igyekszik optimálisan elrendezni
Σ 50 pont
Lokális: a legnagyobb jól illeszkedő közös szakaszt keresi meg
Σ 55 pont
Természetesen a két módszer eltérő illesztést ad
BLAST: Basic Local Alignment Tool
• BLAST: egyszerű lokális szekvenciaillesztő eszköz • az NCBI portálon hozzáférhető: http://blast.ncbi.nlm.nih.gov/Blast.cgi • igen gyors, igen elterjedt • alkalmas nagyméretű szekvencia adatbázisokban történő homológia keresésre • program variációk:
szekvencia
adatbázis
program
nukleotid
nukleotid
blastn
fehérje
fehérje
blastp
transzlált nukleotid
fehérje
blastx
fehérje
transzlált nukleotid
tblastn
transzlált nukleotid
transzlált nukleotid
tblastn
BLAST: Basic Local Alignment Tool
keresett szekvencia (query)
Választható fehérje blast adatbankok: melyik adatbankban keressen
nr
ismétlődéstől mentes, ~GenePept
refseq
jól jellemzett, felülvizsgált adatok (NCBI)
swissprot
jól jellemzett, felülvizsgált adatok (Swiss Institute)
pat
szabadalmakhoz kacspolódó szekvenciák
pdb
ismert 3Ds modellel rendelkező szekvenciák
env
környezeti szekvenálások eredményei
Keresés folyamatban...
Becsült hátralévő idő (minimum)
Eredmények... Fajok szerint rendezve
találatok
Pontszámszínkód
Eredmények... találat neve + hivatkozás
találat leírása
E érték
megengedett csere
azonos aminosavak
deléció (gap) nem megengedett csere
Milyen információkat kaphatunk fehérje szekvenciák vizsgálatával
• A fő kérdés: mi az adott fehérje pontos szerepe, funkciója? • Segítte a szekvencia ismerete a funkció meghatározásában?
Fehérje aminosav sorrend meghatározza a térszerkezetet Anfinsen, 1961
• Urea hatására az RNáz kicsapódik, (harmadlagos térszerkezete elvész) • Az urea eltávolítása után az RNáz külső segítség nélkül visszanyerte a térszerkezetét, és az aktivitását! katalitikus zseb
diszulfid hidak
hidrofil oldalláncok hidrofób mag
Fehérje szekvencia analízis révén funkció jóslás
• Hasonló szekvencia keresése adatbázisban, ismert funkcióval • Hasonló szekvencia keresése adatbázisban, ismert térszerkezettel • Ismert funkcióval bíró domainek azonosítása az ismeretlen szekvencián
Funkció jóslás Pusztán szekvencia analízissel a fehérje funkcióját nem lehet megállapítani A bioinformatikai vizsgálatok ötleteket, kiindulópontot adnak a kísérletes munkához
Protein Data Bank
Kísérletesen meghatározott háromdimenziós fehérje szerkezeti modellek
http://www.rcsb.org/pdb/home/home.do
Keresés a PDB adatbázisban
CDD konzervált domain adatbank
Domain: a fehérjén belüli részegység, amely jól definiált strukturális vagy funkcióbeli szerepet tölt be. Egy fehérjén belül gyakran több domaint találunk, amelyek együttesen járulnak hozzá a fehérje működéséhez
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
CDD konzervált domain adatbank találat
azonosított aktív központ, szubsztrát kötő helyek
azonosított domainek
NCBI portál – az információ özöne
Entrez: az NCBI integrált keresőmotorja
OMIM
PubMed PubMed Central
3D Domains
Journals
Structure
Books
CDD/CDART
Entrez
Protein
Taxonomy Genome
GEO/GDS
UniSTS
UniGene Nucleotide
PopSet
SNP
Szakirodalmi adatbázis: Pubmed
• közel 5300 tudományos folyóirat cikkeinek összefoglalóiban kereshetünk
• a szabadon letölthető teljes cikkekre hivatkozás
Szakirodalmi adatbázis: Pubmed
• a megtalált összefoglaló munkákat (review article) külön is kilistázhatjuk
Szakirodalmi adatbázis: Pubmed
• különféle ikonok jelzik, hogy a megtalált teljes cikk hozzáférhetőe
ingyenes hozzáférés
Pubmed Central
• 500 szabadon, elektronikusan elérhető folyóirat
Map viewer • interaktív genetikai térképek az elkészült és a folyamatban lévő genom projektekhez
Map viewer Kulcsszavas keresés
találatok a kromoszómákon
Humángenetikai adatbázis OMIM • Örökletes betegségekkel kapcsolatos információk
Rendszertani adatbázis (taxonómia)
Szabadon olvasható könyvek: NCBI Books
Szabadon olvasható könyvek: NCBI Books
Berg, Jeremy M.; Tymoczko, John L.; and Stryer, Lubert. New York: W. H. Freeman and Co.; c2002
Biochemistry
Cooper, Geoffrey M. Sunderland (MA): Sinauer Associates, Inc.; c2000
The Cell A Molecular Approach
Gilbert, Scott F. Sunderland (MA): Sinauer Associates, Inc.; c2000
Developmental Biology
Janeway, Charles A.; Travers, Paul; Walport, Mark; Shlomchik, Mark New York and London: Garland Science; c2001
Immunobiology
Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore, David; Darnell, James E. New York: W. H. Freeman & Co.; c1999
Molecular Cell Biology
Coffin, John M.; Hughes, Stephen H.; Varmus, Harold E. Plainview (NY): Cold Spring Harbor Laboratory Press; c1997
Retroviruses
Egyéb hasznos adatbankok: BRENDA enzim adatbázis
Átfogó adatgyűjtemény enzimekről • az enzim helye a metabolikus hálózatban • az enzim által katalizált reakciók leírása • előfordulás különféle élőlényekben, irodalmi hivatkozások • aktivitás adatok, enzimkinetikai adatok • optimális hőmérséklet, pH adatok • gátlószerek hatása
http://www.brendaenzymes.org/
KEGG anyagcsere útvonal adatbázis http://www.genome.jp/kegg/