Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc.
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
2
Proteiny Nejrůznější funkce: stavební funkce (kolagen) katalyzátory chemických reakcí (enzymy) transport látek v organismu (hemoglobin) pohybová (myosin) zásobní (ferritin) signální (insulin) receptory (rhodopsin) regulace genové exprese
Složitá 3D struktura vzniká po vytvoření peptidického vlákna (protein folding) 8. 10. 2007
3
Proteiny Protein – sekvence aminokyselin, řetězec nad abecedou aminokyselin Složení aminokyselin: aminoskupina, alfa uhlík, karboxylová skupina
Aminokyseliny: hodrofobní, polární, aminokyseliny s nábojem Sekvence aminokyselin = primární struktura proteinu Primární struktura určuje fyzikální a chemické vlastnosti proteinu, jeho prostorovou strukturu a biologickou funkci
8. 10. 2007
4
Proteiny
8. 10. 2007
5
Proteiny
8. 10. 2007
6
Proteiny Atomy mimo postranní řetězce – kostra proteinu Délky vazeb a planární vazebné úhly vazeb atomů páteře proteinu jsou víceméně pevné Ohebnost páteře proteinu je odvozena od torzních úhlů φ a ψ
Nejběžnější lokální struktury: α-helix, β-sheet
8. 10. 2007
7
Proteiny
8. 10. 2007
8
Proteiny Oblasti sekundární struktury a méně strukturované oblasti vytváří celkový prostorový tvar proteinu – terciární struktura Kvartérní struktura – komplex tvořený více proteinovými řetězci
8. 10. 2007
9
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
10
Zdroje dat Primární databáze biologických dat:
databáze sekvencí nukleotidů (EMBL-Bank, DDBJ) databáze sekvencí proteinů (Swiss-Prot, TrEMBL) databáze struktur proteinů (PDB, MSD) genomové databáze (Ensembl) databáze s informacemi o expresi genů (ArrayExpress)
Sekundární databáze:
informace získané analýzou dat v primárních databázích (Prosite, Blocks)
8. 10. 2007
11
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
12
Predikce struktury proteinů pokud dokážeme odhadnout strukturu proteinů, můžeme odhadnout i jejich funkci molekula zaujme prostorovou konfiguraci na základě přitažlivých a odpudivých sil jednotlivých atomů (konfigurace s nejmenší energií) strukturu je možné určit pouze na základě těchto sil – příliš výpočetně složité
8. 10. 2007
13
Predikce struktury proteinů Modelování struktury na základě homologie
(porovnávání primárních struktur, databáze sekvencí, nástroje BLAST)
Threading (porovnání energetické výhodnosti uspořádání sekvence do jednotlivých známých struktur, rodiny proteinů)
Ab initio modelování (modelování na základě energetické výhodnosti)
Skládání ze sekvenčně-strukturních fragmentů (I-sites library, Ch. Bystroff a D. Baker )
8. 10. 2007
14
Sekvenčně-strukturní fragmenty APSKPDNP CPSKPDNP APSKPENP …….
LITRQR LVTRQR VITRQR ……
prostor sekvencí 8. 10. 2007
prostor struktur 15
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
16
Cíle disertační práce nalezení shlukovací metody, která umožní nalézt takové skupiny sekvencí aminokyselin, které se v přírodě vyskytují v omezeném počtu strukturních elementů získání vhodných vstupních dat pro shlukování ověření existence těchto sekvencí nalezení vzdálenostní funkce pro hodnocení podobnosti sekvencí shlukování sekvencí
8. 10. 2007
17
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
18
Vstupní data zdroj dat: databáze PDB výběr záznamů z PDB: sekvence pod 40% podobnosti rozlišení lepší než 2,5Å (http://dunbrack.fccc.edu/PISCES.php) ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM …
61 62 63 64 65 66 67 68 69
8. 10. 2007
N CA C O CB OG1 CG2 N CA
THR THR THR THR THR THR THR LEU LEU
A A A A A A A A A
8 8 8 8 8 8 8 9 9
25.403 24.928 23.791 22.738 24.489 25.705 23.871 23.986 22.834
-4.103 -5.170 -4.609 -4.247 -6.445 -7.000 -7.434 -4.585 -4.113
23.195 22.299 21.452 21.978 23.044 23.581 22.043 20.109 19.291
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
29.15 30.32 31.84 32.86 31.50 31.53 34.60 34.02 31.51
N C C O C O C N C 19
Vstupní data výpočet torzních úhlů φ, ψ a ω pro jednotlivé AK (torsion.c) pdb1aba.ent PHI PSI OMEGA ----------------------------------------------1 MET 9999.000 149.203 169.010 2 PHE -73.440 150.925 176.171 3 LYS -118.516 127.200 -177.035 4 VAL -120.498 113.770 175.150 5 TYR -91.440 133.671 178.822 6 GLY -173.910 -157.307 179.997 7 TYR -114.851 146.967 170.889 8 ASP -78.496 124.390 -176.234 9 SER -69.858 -16.892 170.189 8. 10. 2007
20
Vstupní data konverze souborů s torzními úhly na: soubor s kódy AK (1 znak) soubor s kódy pro úhly jednotlivých AK (5 znaků) soubor s názvy pdb souborů #***MFKVYGYDSNIHKCGPCDNAKRLLTVKKQPF EFINIMPEKGVFDDEKIAELLTKLGRDTQIGLTMP QVFAPDGSHIGGFDQLREYFK#****KNSLLEKR… #####***************Mxx65M2166M1261 M1158M1762M0104M1365M2060M2232M2230 M1626M0758M2461M0653M2426M2528M2326 M2228M2328M2326M2426M2229M2327M2328 M2326… pdb1aba.ent pdb1afw.ent pdb1agj.ent pdb1aho.ent pdb1ah7.ent pdb1aie.ent pdb1ajs.ent …
8. 10. 2007
21
Vstupní data Vytvoření databáze se vstupními daty tabulky pro délku sekvencí: 4 – 14 AK ID, sekvence, struktura, pdb soubor
8. 10. 2007
58 AAAA
M2426M2226M2428M2328
pdb1o66
59 AAAA
M2327M2326M2227M2229
pdb1rm6
60 AAAA
M2327M2426M2327M2327
pdb1rm6
61 AAAA
M2327M2326M2327M2327
pdb1svd
62 AAAA
M2227M2327M2328M1541
pdb1tca
63 AAAA
M2227M2327M2327M2227
pdb1tca
64 AAAA
M2128M2227M2327M2327
pdb1uuq
65 AAAA
M2428M2228M2227M2328
pdb1u4b
22
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
23
Shlukování proteinů – 1. metoda nalezení všech struktur pro všechny sekvence AK (délka 4 až 14) shlukování nalezených struktur ⇒ počet různých prostorových konformací pro danou sekvenci AK podobné struktury – hodnoty úhlů φ a ψ se nacházejí v sousedních polích Ramachandrovy mapy výstup: sekvence AK nalezeny min. 10x počet shluků struktur < 8
8. 10. 2007
24
Shlukování proteinů – 1. metoda ALALEUALAALAPHEALA: ALATYRILEGLNTHRARG: ARGGLYALAASPTHRARG: ARGPHELYSASPGLUILE: ASNTRPGLYTHRASPLEU: ASPGLUILETHRARGGLU: ASPGLYVALASNVALILE: ASPLEUGLYMETGLUSER: ASPLEUILEPROSERMET: ASPLYSGLYGLUVALLEU: ASPSERALAALALEUALA: GLNGLUTYRLEUASPSER:
8. 10. 2007
nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno nalezeno
24 22 22 24 24 24 22 24 24 22 24 24
x x x x x x x x x x x x
pocet pocet pocet pocet pocet pocet pocet pocet pocet pocet pocet pocet
konformaci konformaci konformaci konformaci konformaci konformaci konformaci konformaci konformaci konformaci konformaci konformaci
1 2 4 2 2 2 2 2 2 3 2 2
25
Shlukování proteinů – 1. metoda LEUARGSERTYRASP: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHIS: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMET: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVAL: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSER: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSERASP: nalezeno 14 x pocet konformaci 1
8. 10. 2007
26
Shlukování proteinů – 1. metoda Délka sekvence
Počet cílových Celkový počet sekvencí sekvencí
Teoreticky možný počet sekvencí
4
1893
133908
1,10e+12
5
1779
486121
9,54e+13
6
1156
589579
3,66e+15
7
1040
595634
7,98e+16
8
955
592702
1,15e+18
9
870
589010
1,22e+19
10
798
585188
1,00e+20
11
739
581340
6,72e+20
12
693
577487
3,83e+20
13
657
573651
1,90e+22
14
632
569835
8,37e+22
8. 10. 2007
27
Slukování proteinů – 1. metoda ASNLEUVALLYSGLYLEUALAALAGLU: nalezeno 12 x pocet konformaci 1 A2128MA2427MA2527MA2227MA2327MA2226MA2428MA2426MA2030M ASNSERLEUARGLYSLEUALAILEGLU: nalezeno 12 x pocet konformaci 1 A2326MA2427MA2227MA2426MA2328MA2228MA2327MA2327MA2327M skóre: 21
8. 10. 2007
28
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
29
Shlukování proteinů založené na hustotě Shluky = oblasti s velkou hustotou objektů v prostoru dat oddělené oblastmi s malou hustotou vyskytujících se objektů Shluky různých tvarů Jsou schopné vypořádat se s výskytem šumu a odlehlých hodnot v datech Využití distribučních funkcí hustoty Funkce vlivu odvozená od vzdálenosti mezi dvěma objekty
f Gauss ( x, y ) = e
8. 10. 2007
−
d ( x , y )2 2σ 2
⎧0 f Square ( x, y ) = ⎨ ⎩1
pro d ( x, y ) > σ pro d ( x, y ) ≤ σ
30
Shlukování proteinů založené na hustotě
8. 10. 2007
31
Shlukování proteinů založené na hustotě 1 1 3 1 1 3 5 3 1 1 3 1
1 1
3
1
1
1
8. 10. 2007
32
Shlukování proteinů založené na hustotě 1 1 3 1 1
1
1 3 1
1
1
1
1 1 3 1
1 6 2 5 1 1 2 3 7 2 1 4 4 3 1 2
1 1 1 4 1
2 6 2
1 4 1
2
1
1 1
1 3 1
1 3 1
1
1 8. 10. 2007
33
Shlukování proteinů založené na hustotě 1kifA 1nhp_ 2dldA 2nacA 3grs_ 1psdA 1nhp_ 1pbe_ 9ldtA 1fcdA 2pgd_ 3grs_ 3cox_ 2tmdA 1gadO 1cdoA 1din_ 1ncfA
3 152 149 194 173 148 3 5 22 5 5 6 10 392 4 196 117 109
3 152 149 194 190 154 3 5 24 5 5 23 14 392 3 196 117 119
8. 10. 2007
VVVIGAGVI VVVIGSGYI VGVVGTGHI VGTVAAGRI SVIVGAGYI LGIIGYGHI VIVLGSSHG VAIIGAGPS ITVVGVGAV VVVVGGGTG IALIGLAVM YLVIGGGSG ALVIGSGYG VLIVGAGPS VGINGFGRI CAVFGLGAV VGLVGYXLG LCLNGTVHL
3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs 3grs
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23
EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH EEEE__SHH
9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090 9090
143.98 141.37 140.59 140.28 135.58 134.09 129.79 129.48 129.26 128.52 125.51 123.87 123.44 123.00 119.87 118.34 114.72 68.80
0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.45 0.41 0.01
0.34 26.3 0.17 19.9 0.43 38.2 0.45 26.9 0.54 36.7 0.44 44.0 0.43 36.4 0.22 20.7 0.21 18.8 0.22 55.8 0.48 33.3 0.00 0.0 0.22 27.3 0.22 21.4 0.22 29.9 0.31 35.4 1.72 156.6 2.59 170.1
34
Shlukování proteinů založené na hustotě
8. 10. 2007
35
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů – 1. metoda Shlukování proteinů založené na hustotě Shrnutí
8. 10. 2007
36
Shrnutí Vytvořena databáze se vstupními daty (sekvence délky 4 – 14 AK)
Shlukování proteinů pomocí 1. metody:
- ověření existence sekvenčně-strukturních fragmentů
Shlukování proteinů založené na hustotě: - funkce vlivu - propojení shluků pro jednotlivé pozice
Databáze nalezených sekvenčně – strukturních fragmentů 8. 10. 2007
37