PENGEMBANGAN HIDDEN SEMI MARKOV MODEL DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK PREDIKSI STRUKTUR SEKUNDER PROTEIN
TOTO HARYANTO
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
ii
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis : Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Protein Sekunder adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Januari 2011
Toto Haryanto NIM: G651080091
iii ABSTRACT
HARYANTO, TOTO. The Development of Hidden Semi Markov Model with Empirical State Duration Distribution for Protein Secondary Structure Predictions. Under direction of AGUS BUONO and ANTO SATRIYO NUGROHO This research aimed to develop Hidden Semi Markov Model (HSMM) with longduration distribution of state empirically and theoretically to predict protein secondary structure. Data used in this study are subset data taken from database of secondary protein structure in DSSP program with three secondary protein structures of alpha-helix (H), betha-sheet (B), and coil (C). Accuracy of the predicted protein structure with HSMM is compared with Hidden Markov Model (HMM) standard. The results showed that the HSMM generally provides a prediction accuracy 72. 1% , 35.3% and 63,1% for H, B and C respectively. The accuracy of standard HMM is 98.4% for (B), 1% for (B) and 6.4% for (C). The use of empirical state duration distribution gives better accuracy on average compared a theoretical state duration distribution. Use of the empirical state duration distribution provides accuracy 71.2% for (H), 37.1% for (B) and 64.0% for (C). Use of theoretical state duration distribution provides accuracy 75% for (H), 30.2 % for (B) and 60.6% for (C). Less accuracy in betha-sheet prediction with HSMM was caused by high of the dispute between distribution in training data and testing data. Keyword: Hidden Semi Markov Model (HSMM), Hidden Markov Model (HMM), protein secondary structure
iv
RINGKASAN HARYANTO, TOTO. Pengembangan Hidden Semi Markov Model dengan
Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein. Dibimbing oleh AGUS BUONO dan ANTO SATRIYO NUGROHO. Protein merupakan unsur yang sangat esensial dalam makhluk hidup. Secara hierarki, struktur protein dapat dikelompokkan menjadi protein primer, protein sekunder dan protein tersier. Struktur primer berupa untaian asam amino pembentuk protein, sedangkan struktur sekunder adalah segmentasi asam amino berupa alpha-helix (H), betha-sheet (B) dan coil (C). Adapun struktur protein tersier adalah struktur sekunder yang telah mengalami proses pelipatan atau folding. Fungsi protein akan terlihat, apabila telah membentuk struktur tersiernya. Pembentukan struktur protein dari primer sampai tersier dapat dilakukan dengan menggunakan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Meskipun kedua teknik tersebut mampu mendapatkan struktur baru, akan tetapi membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik komputasi banyak digunakan untuk menentukan struktur suatu protein terutama struktur sekunder. Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov (HMM) untuk memprediksi struktur sekunder suatu protein. Pada prediksi struktur sekunder protein dengan Hidden Markov Model (HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model. Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas O((MD+M2)T) dan menggunakan beberapa jenis distribusi durasi maksimum yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan menggunakan distribusi teoritis. Hasil akurasi yang didapatkan akan dibandingkan dengan hasil akurasi HMM standar. Di samping itu, penelitian ini akan mengkaji pengaruh selisih distribusi durasi terhadap nilai akurasi yang dihasilkan pada model Hidden Semi Markov Model (HSMM). Metode yang digunakan pada penelitian dilakukan melalui tiga tahap utama, yaitu tahap pengumpulan data, tahap pembuatan model dan tahap pengujian. Data yang digunakan pada penelitian ini adalah subset dari dari DSSP (Define Secondary Structure of Protein) pada alamat http://swift.cmbi.ru.nl/gv/dssp/ .
v
Data untuk proses pelatihan terdiri atas 42556 residu asam amino, sedangkan data pengujian sebanyak 14057 residu. Dari data latih tersebut dibuat beberapa model baik dengan model HMM maupun model HSMM dengan delapan distribusi durasi yang digunakan. Enam dari delapan menggunakan distribusi empiris dan dua menggunakan distribusi teoritis dengan fungsi kepekatan peluang. Selanjutnya model yang telah didapatkan tersebut divalidasi dengan melakukan pengujian. Pengujian HSMM dilakukan dengan 8 skenario pengujian dengan menggunakan 100% , 90%, 75% dan 50% panjang durasi. Pengujian HSMM juga dilakukan dengan menggunakan durasi yang ditetapkan yaitu 21 dan 15. Pada HSMM dengan menggunakan distribusi teoritis yaitu distribusi dengan fungsi kepekatan peluang eksponensial negatif dan fungsi kepekatan peluang dengan distribusi normal. Hasil penelitian menunjukkan bahwa secara umum prediksi dengan menggunakan model HSMM memberikan akurasi yang lebih tinggi bila dibandingkan dengan akurasi prediksi menggunakan HMM standar. Ini terlihat dari nilai akurasi prediksi untuk HSMM sebesar 56,9% sedangkan pada prediksi struktur sekunder protein menggunakan HMM menghasilkan akurasi sebesar 35,3%. Penggunaan distribusi durasi secara empiris mampu merepresentasikan kondisi data yang sebenarnya sehingga dalam prediksi akurasi struktur sekunder protein menghasilkan akurasi sebesar 57,4% sementara penggunaan distribusi teoritis menghasilkan akurasi sebesar 55,2%. Secara detail akurasi masing-masing struktur protein dengan distribusi empiris adalah 71,2% , 37,1% dan 64,0% untuk alpha-helix (H), betha-sheet (B) dan coil (C). Adapun prediksi dengan distribusi teoritis menghasilkan akurasi 75,0% untuk struktur alpha-helix(H), 30,2% untuk betha-sheet(B) dan 60,6% untuk coil (C). Pada hasil prediksi, struktur betha-sheet memberikan nilai akurasi yang paling rendah. Setelah dilakukan perbandingan selisih distribusi data latih dan data uji diperoleh bahwa struktur betha-sheet memiliki selisih yang paling besar dibandingkan dengan selisih distribusi alphahelix dan coil. Hal ini juga didukung oleh besarnya perbedaan distribusi empiris dan teoritis yang dimiliki oleh struktur betha-sheet. Prediksi struktur sekunder protein dengan Hidden Markov Model dan Hidden Semi Markov Model (HSMM) belum dapat mengakomodasi kondisi data yang tidak seimbang. Dengan demikian, jumlah data uji yang paling sedikit akan menyebabkan akurasi yang rendah. Oleh karena itu, penelitan berikutnya sebaiknya dilakukan metode pada HSMM yang dapat menanggulangi ketidakseimbangan data ini.
Kata Kunci : Hidden Markov Model, Hidden Semi Markov Model, struktur sekunder protein
vi
©Hak Cipta Milik IPB, tahun 2011 Hak Cipta dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB. Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis dalam bentuk apapun tanpa izin IPB.
vii
PENGEMBANGAN HIDDEN SEMI MARKOV MODEL DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK PREDIKSI STRUKTUR SEKUNDER PROTEIN
TOTO HARYANTO
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
viii
Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Iman Rusmana, M.Si
ix
Judul Penelitian
Nama NIM
: Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein : Toto Haryanto : G651080091
Disetujui Komisi Pembimbing
Dr. Ir. Agus Buono, M.Si, M.Kom. Ketua
Dr. Eng Anto Satriyo Nugroho Anggota
Diketahui
Ketua Program Studi Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom
Tanggal Ujian : 10 Februari 2011
Dekan Sekolah Pascasarjana
Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
Tanggal Lulus:
x
PRAKATA Alhamdulillah segala puji penulis panjatkan ke hadirat Allah Subhanahu wa ta‘ala atas segala rahmat, kasih sayang dan cinta-Nya sehingga tesis ini berhasil diselesaikan. Shalawat dan salam semoga senantiasa tercurah pada teladan kita Nabi Muhammad Shallallahu alaihi wasallam, kerabat, sahabat dan umatnya. Judul yang dipilih dalam karya ilmiah ini ialah Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein. Terima kasih penulis ucapkan kepada Bapak Dr. Ir. Agus Buono, M.Si, M.Kom dan Bapak Dr. Eng Anto Satriyo Nugroho selaku pembimbing atas arahan dan masukannya. Ucapan terima kasih juga penulis sampaikan kepada Bapak Dr. Ir. Iman Rusmana, M.Si selaku penguji pada sidang tesis kali ini. Penulis mengucapkan terima kasih kepada Departemen Ilmu Komputer IPB yang telah memberikan beasiswa selama melaksanakan studi S2. Penulis juga mengucapkan terima kasih kepada dosen dan seluruh staf Departemen Ilmu Komputer IPB atas dukungan dan bantuan yang telah diberikansertarekan-rekan S2 (Pak Aziz, Pak Defiana, Pak Altien, Pak Aristoteles dan Pak Rossy) atas kebersamaannya selama penulis menyelesaikan studi. Di samping itu, penulis mengucapkan terima kasih kepada keluarga khususnya istri dan anakku tercinta atas kesabaran dan kasih sayang selama penulis melakukan studi S2. Ucapan terima kasih juga penulis ucapkan kepada Ibunda tercinta atas Do’a dan segala perhatiannya. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu proses penelitian ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2011 Toto Haryanto
xi
RIWAYAT HIDUP Penulis lahir di Kota Mangga, Indramayu pada tanggal 17 November 1982, anak dari pasangan Caca Goembira (alm) dan Iyus Rusyati. Penulis merupakan anak kedua dari empat bersaudara. Tahun 2001 penulis lulus dari SMU Negeri 1 Cirebon dan pada tahun yang sama melanjutkan program sarjana ke Institut Pertanian Bogor (IPB), Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) melalui jalur Undangan Seleksi Masuk IPB (USMI) dan lulus pada tahun 2006. Pada Tahun 2008, penulis meneruskan studi S2 dan diterima di Program Studi Ilmu Komputer Pascasarjana IPB. Selama mengikuti studi S2, penulis berkerja sebagai staf pengajar di Departemen Ilmu Komputer IPB. Di Departemen Ilmu Komputer, penulis masuk pada Bagian Kecerdasan Komputasional. Selama studi, penulis pernah mempublikasikan karya ilmiah dengan judul Penggunaan Hidden Markov Model (HMM) untuk klasifikasi Asam Ribonuleat (RNA) Family yang dipresentasikan pada Acara Seminar Nasional Teknologi Informasi 2010 di Universitas Tarumanegara.
DAFTAR ISI DAFTAR TABEL ……………………………………………………………......iv DAFTAR GAMBAR ……......................................................................................v I PENDAHULUAN ............................................................................................. viii 1.1 Latar Belakang ............................................................................................... 1 1.2 Penelitian Terkait ........................................................................................... 4 1.3
Tujuan Penelitian ...................................................................................... 4
1.4
Ruang Lingkup Penelitian......................................................................... 4
II TINJAUAN PUSTAKA ...................................................................................... 5 2.1 Struktur Protein.............................................................................................. 5 2.2 Prediksi Struktur Sekunder Protein .............................................................. 9 2.3 Hidden Markov Model (HMM) ................................................................... 10 2.4 Algoritme Baum-Welch .............................................................................. 11 2.5 Algoritme Viterbi ........................................................................................ 13 2.6 Hidden Semi Markov Model ....................................................................... 14 III METODE PENELITIAN ................................................................................. 17 3.1 Kerangka Pemikiran .................................................................................... 17 3.2 Studi Pustaka ............................................................................................... 18 3.3 Perumusan Masalah dan Hipotesa Awal ..................................................... 19 3.4 Pendefinisian Metode Penelitian ................................................................. 19 3.5 Pengambilan Data Struktur Sekunder Protein ............................................ 19 3.6 Pembuatan Model dengan HMM Standar ................................................... 20 3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM) ............ 21 3.8 Pengujian ..................................................................................................... 21 3.9 Riset Pendahuluan ....................................................................................... 21
ii
IV HASIL DAN PEMBAHASAN ....................................................................... 23 4.1 Praproses dan Pengkodean Data .................................................................. 23 4.2 Skenario Pengujian ...................................................................................... 23 4.2.1 Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35 ........................... 25 4.2.2 Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31 ........................... 25 4.2.3 Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26 ........................... 26 4.2.4 Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18 ............................. 27 4.2.5 Pengujian skenario 5 dengan panjang durasi state maksimum 21 ......... 28 4.2.6 Pengujian skenario 6 dengan panjang durasi state maksimum 15 ......... 28 4.2.7 Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif ...................... 29 4.2.8 Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik . 30 4.3 Perbandingan akurasi Hidden Semi Markov Model (HSMM) .................... 31 4.4 Analisis Error Identifikasi Struktur sekunder protein ................................. 32 4.4.1 Matriks Konfusi Skenario 1 ........................................................................ 32 4.4.2 Matriks Konfusi Skenario 2 ........................................................................ 33 4.4.3 Matriks Konfusi Skenario 3 ........................................................................ 34 4.4.4 Matriks Konfusi Skenario 4 ........................................................................ 35 4.4.5 Matriks Konfusi Skenario 5 ........................................................................ 36 4.4.6 Matriks Konfusi Skenario 6 ........................................................................ 37 4.4.7 Matriks Konfusi Skenario 7 ........................................................................ 38 4.5 Perbandingan Akurasi Prediksi HSMM Distribusi Empiris dan Teoritis.... 40
iii
4.6 Matriks Konfusi Hidden Markov Model (HMM) Standar .......................... 42 4.7 Perbandingan Akurasi Prediksi HSMM dan HMM Standar ....................... 43 4.8 Pengaruh Distribusi Empiris Durasi State terhadap Akurasi HSMM ......... 43 4.9 Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan............ 47 V SIMPULAN DAN SARAN .............................................................................. 51 5.1 Simpulan ...................................................................................................... 51 5.2 Saran ............................................................................................................ 51 DAFTAR PUSTAKA ........................................................................................... 53 LAMPIRAN ......................................................................................................... 55
iv
DAFTAR TABEL
Halaman
1. Asam amino, singkatan, simbol dan karakteristik .............................................. 6 2. Codon pembentuk protein .................................................................................. 7 3. Skenario pengujian struktur sekunder protein .................................................. 24 4. Perbandingan akurasi tertinggi setiap skenario pengujian ................................ 31 5. Matriks konfusi pengujian skenario 1 ............................................................... 32 6. Matriks konfusi pengujian skenario 2 ............................................................... 33 7. Matriks konfusi pengujian skenario 3 ............................................................... 34 8. Matriks konfusi pengujian skenario 4 ............................................................... 35 9. Matriks Konfusi Skenario 5 .............................................................................. 36 10. Matriks Konfusi Skenario 6 ............................................................................ 37 11. Matriks Konfusi Skenario 7 ............................................................................ 38 12. Matriks Konfusi Skenario 8 ............................................................................ 39 13. Matriks Konfusi Prediksi dengan HMM Standar............................................ 42
v
DAFTAR GAMBAR Halaman
1. Proses pembentukan protein ............................................................................... 5 2. Contoh urutan asam amino pembentuk suatu protein ......................................... 6 3. Contoh susuan asam amino hormon prolaktin pada manusia ............................. 8 4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). betha-sheet (B) dan (c). coil (C) ......................................................................................................... 8 5. Struktur tersier protein ........................................................................................ 9 6. Bentuk umum HSMM (Yu 2009) .................................................................... 15 7. Diagram alur penelitian prediksi struktur sekunder protein ............................. 18 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein) .......................................................... 20 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005) .......................................................................................... 20 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM) ......................................................................... 21 11. Visualisasi hasil praproses dan pengkodean ................................................... 23 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar ............................................................................... 25 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar .................................................................... 26 14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar .................................................................... 27 15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar ............................................................................... 27
vi
16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar .................................................................... 28 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar .................................................................... 29 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar .................................................................... 30 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar .................................................................... 30 20. Perbandingan akurasi setiap skenario model HSMM .................................... 31 21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 1 ................................................ 33 22. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 2 ................................................ 34 23. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 3 ................................................ 35 24. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 4 ................................................ 36 25. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 5 ................................................ 37 26. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 6 ................................................ 38 27. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 7 ................................................ 39 28. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 8 ................................................ 40 29. Perbandingan akurasi prediksi struktur sekunder protein model HSMM dengan durasi empiris dan teoritis .................................................................... 41 30. Perbandingan rata-rata akurasi prediksi struktur alpha-helix, betha-sheet dan coil model HSMM dengan durasi empiris dan teoritis..................................... 41
vii
31. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HMM standar ....................................................... 42 32. Perbandingan Akurasi prediksi struktur sekunder protein model HSMM dan HMM standar ................................................................................................... 43 33. Visualiasi distribusi empiris struktur alpha-helix (H) pada data latih dan data uji ...................................................................................................................... 44 34. Visualiasi distribusi empiris struktur betha-sheet (B) pada data latih dan data uji ...................................................................................................................... 44 35. Visualiasi distribusi empiris struktur coil (C) pada data latih dan data uji ..... 45 36. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM ......................................................................................... 46 37. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM dengan RMSD ................................................................ 46 38. Visualiasi perbandingan distribusi teoritis dan empiris struktur alpha-helix (H) pada data latih ................................................................................................... 47 39. Visualiasi perbandingan distribusi teoritis dan empiris struktur betha-sheet (B) pada data latih ................................................................................................... 48 40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil (C) pada data latih ........................................................................................................... 48 41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) ........................... 49 42. Perbedaan distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) dengan RMSD ............ 49
viii
I PENDAHULUAN
1.1
Latar Belakang Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan
menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Para ahli di bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf (triplet) dari Asam Deoksiribosa (DNA) yang disebut dengan codon (Jones dan Pevzner 2004). Struktur primer dari protein adalah urutan sekuens asam amino penyusun protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik struktur alpha-helix (H), betha-sheet (B) maupun coil (C). Adapun struktur tersier adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan (folding). Peranan protein sangat terlihat pada saat telah melakukan pelipatan (protein folding) dalam bentuk tiga dimensi (3D) sebagai struktur tersier. Namun, struktur tersier (3D) tersebut ditentukan oleh struktur sebelumnya baik primer maupun struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika. Menurut Albert et al. (1998) struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Keduanya mampu menghasilkan struktur protein sampai dengan bentuk tiga dimensinya. Dengan teknik ini, sangat memungkinkan ditemukannya struktur protein baru. Akan tetapi, penggunaan kedua teknik tersebut membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik
2
komputasi digunakan untuk melakukan prediksi struktur sekunder protein berbasis model komputasi, salah satunya adalah Hidden Markov Models (HMM). Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu protein. Menurut Eddy (1998), Hidden Markov Model (HMM) merupakan suatu kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu, HMMs merupakan metode yang dianggap memiliki kesuksesan dalam menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi kompleksitas masih sulit untuk ditentukan secara manual (Won et al. 2007). Martin et al. (2005) mengatakan bahwa di dalam memprediksi struktur sekunder protein dapat dilakukan dengan dua metode, yaitu:
Membandingkan model yang telah ada dengan struktur yang akan diprediksi atau dikenal dengan comparative modelling
Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk dibandingkan dengan struktur yang akan diklasifikasikan.
Pada penelitian ini yang akan dilakukan adalah membuat model untuk mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat melakukan proses pelatihan atau training. Pada prediksi struktur sekunder protein dengan Hidden Markov Model (HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini
3
adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model. Hidden Semi Markov Model (HSMM) diperkenalkan pertama kali oleh Ferguson (1980) yang diaplikasikan untuk konversi teks ke suara. Yu dan Kobayashi (2003) melakukan penelitian untuk memperbaiki Algoritme pada HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan oleh Ferguson adalah O((MD2+M2)T). Dengan M adalah banyaknya state, D adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya menjadi O((MD+M2)T) dan mengimplementasikannya untuk menganlisa trafik suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada chipfield-progammable gate-array (FPGA). Prediksi struktur sekunder protein dengan Hidden Semi Markov Model (HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000) sebagai metode baru dalam prediksi struktur sekunder protein. Aydin et al. (2006) juga melakukan penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson. Pada
penelitian
kali
diimplementasikan dengan
ini,
prediksi
struktur
algoritme yang telah
sekunder
protein
memiliki kompleksitas
2
O((MD+M )T) dan menggunakan beberapa jenis distribusi durasi maksimum yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan
4
menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan dibandingan dengan hasil akurasi HMM standar.
1.2
Penelitian Terkait Prediksi struktur sekunder protein dengan Hidden Semi Markov Model
(HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000). Hasil akurasi prediksi struktur sekunder protein adalah 61,8 % untuk alpha-helix(H) dan 61,3 % untuk betha-sheet (B) dan 65,9 % untuk coil (C). Pada penelitian tersebut panjang durasi yang digunakan adalah 30 dengan kompleksitasnya adalah O((MD2+M2)T). Aydin et al. (2006) melakukan penelitian untuk melakukan prediksi struktur sekunder protein
pada sekuens tunggal. Hasil akurasi yang
diperoleh adalah 65, 9 % untuk alpha-helix(H), 45,4 % untuk betha-sheet(B) dan 81,3 % untuk coil (C).
1.3
Tujuan Penelitian Penelitian ini bertujuan untuk
mengembangkan Hidden Semi Markov
Model (HSMM) yang telah memiliki kompleksitas lebih efisien untuk memprediksi struktur sekunder protein kemudian membandingkan hasil akurasi tersebut dengan penggunaan Hidden Markov Models (HMM) standar. Di samping itu, penelitian ini juga bertujuan untuk melihat pengaruh distribusi panjang durasi state sebagai informasi biologi dalam proses pelatihan model HSMM yang dilakukan terhadap hasil akurasi yang diperoleh. 1.4
Ruang Lingkup Penelitian Penelitian ini hanya dibatasai pada proses identifikasi struktur sekunder
protein
dengan menggunakan sekuens tunggal pada proses pengujiannya.
Penelitian ini juga dikembangkan sampai dengan pembuatan aplikasi untuk melakukan prediksi struktur sekunder protein. Penentuan struktur sekunder pada penelitian ini dibatasi menggunakan (DSSP).
Define Secondary Structure of Protein
5
II TINJAUAN PUSTAKA
2.1
Struktur Protein Protein merupakan bagian yang sangat penting pada setiap makhluk hidup.
Proses untuk mendapatkan protein dinamakan dengan translasi. Setiap makhluk hidup memiliki kode genetik yaitu DNA (deoxyribonucleic acid) yang tersusun dari basa nitrogen adenin (A), guanin (G), thymine (T) dan cytosine (C). Melalui proses transkripsi, DNA tersebut ditranskripsikan menjadi RNA (ribonucleic acid). RNA mengalami proses translasi untuk kemudian menghasilkan protein (Jones dan Pevzner 2004). Secara ringkas proses terbentuknya protein dapat dilihat pada Gambar 1.
DNA
transkripsi
RNA
translasi
PROTEIN
Gambar 1. Proses pembentukan protein Protein merupakan elemen dasar dari suatu organisme yang dibentuk dari asam amino. Terdapat 20 asam amino dengan struktur kimia yang berbeda (Polanski dan Kimmel 2007). Susunan asam amino pembentuk protein dapat dilihat pada Tabel 1. Asam amino tersebut terbentuk dari tiga huruf (triplet) dari kombinasi Asam Deoksirobosa (DNA) yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 2. Satu protein protein terdiri atas sejumlah sekuens asam amino. Ilustrasi dari pembentukan satu protein berdasarkan sekuensnya dapat dilihat pada Gambar 2.
6
DNA
: TAC CGC GGC TAT TAC TGC CAG GAA GGA ACT
RNA
: AUG GCG CCG AUA AUG ACG GUC CUU CCU UGA
Protein
: Met Ala Pro Ile Met Thr Val Leu Pro Stop
Gambar 2. Contoh urutan asam amino pembentuk suatu protein Gambar 2 merupakan ilustrasi proses pembentukan protein mulai dari urutan sekuens DNA sampai dengan proses translasi yang dapat menghasilkan suatu protein.
Tabel 1. Asam amino, singkatan, simbol dan karakteristik Asam Amino
Singkatan
Simbol
Karakteristik
Alanine
Ala
A
Nonpolar, hydrophobic
Arginine
Arg
R
Polar, hydrophilic
Asparagine
Asn
N
Polar, hydrophilic
Aspartic acid
Asp
D
Polar, hydrophilic
Cystein
Cys
C
Polar, hydrophilic
Glutamine
Gln
Q
Polar, hydrophilic
Glutamic acid
Glu
E
Polar, hydrophilic
Glycine
Gly
G
Polar, hydrophilic
Histidine
His
H
Polar, hydrophilic
Isoleucine
Ile
I
Nonpolar, hydrophobic
Leucine
Leu
L
Nonpolar, hydrophobic
Lysine
Lys
K
Polar, hydrophilic
Methionine
Met
M
Nonpolar, hydrophobic
Phenylalanine
Phe
F
Nonpolar, hydrophobic
Proline
Pro
P
Nonpolar, hydrophobic
Serine
Ser
S
Polar, hydrophilic
Threonine
Thr
T
Polar, hydrophilic
Tryptophan
Trp
W
Nonpolar, hydrophobic
Tyrosine
Tyr
Y
Polar, hydrophilic
Valine
Val
V
Nonpolar, hydrophobic
7
Tabel 2. Codon pembentuk protein U
C
A
G
UUU Phe
UCU Ser
UAU Tyr
UGU Cys
UUC Phe
UCC Ser
UAC Tyr
UGC Cys
UUA Leu
UCA Ser
UAA Stop
UGA Stop
UUG Leu
UCG Ser
UAG Stop
UGG Trp
CUU Leu
CCU Pro
CAU His
CGU Arg
CUC Leu
CCC Pro
CAC His
CGC Arg
CUA Leu
CCA Pro
CAA Gln
CGA Arg
CUG Leu
CCG Pro
CAG Gln
CGG Arg
AUU Ile
ACU Thr
AAU Asn
AGU Ser
AUC Ile
ACC Thr
AAC Asn
AGC Ser
AUA Ile
ACA Thr
AAA Lys
AGA Arg
AUG Met
ACG Thr
AAG Lys
AGG Arg
GUU Val
GCU Ala
GAU Asp
GGU Gly
G GUC Val GUA Val
GCC Ala
GAC Asp
GGC Gly
GCA Ala
GAA Glu
GGA Gly
GUG Val
GCG Ala
GAG Glu
GGG Gly
U
C
A
Struktur protein terdiri atas struktur primer, struktur sekunder dan struktur tersier ( Polanski dan Kimmel 2007). Struktur primer dari suatu protein adalah rangkaian asam amino pembentuknya di sekitar rantai polipeptida. Database Bioinformatics memiliki 3 x 106 atau 3.000.000 sekuens asam amino dari protein. Struktur primer ini yang dibentuk dari hasil translasi DNA sampai menjadi codon. Hormon merupakan contoh protein yang dapat dilihat dari susunan asam aminonya. Sebagai contoh, prolaktin adalah salah satu hormon pertumbuhan yang dimiliki setiap makhluk hidup. Gambar 3 adalah contoh asam amino dari hormon prolaktin pada manusia.
8
Gambar 3. Contoh susunan asam amino hormon prolaktin pada manusia Struktur sekunder adalah struktur protein yang ditentukan oleh bentuk alpha-helix (H), betha-sheet (B) dan coil (C) penyusunnya. Struktur sekunder diperoleh dari sekuens asam amino, yang terikat dengan ikatan péptida. Dari sekuens asam amino tersebut, akan membentuk tiga kemungkinan segmen yaitu alpha-helix (H) yang bentuknya berpilin, betha-sheet (B) yang bentuknya lurus atau coil (C). Contoh bentuk ketiganya dapat dilihat pada Gambar 4. Gambar struktur sekunder protein tersebut didapatkan dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 sebagai perangkat lunak untuk memodelkan struktur protein yang bersifat free software.
(a)
(b)
(c)
Gambar 4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). bethasheet (b) dan (c). coil (c) Struktur tersier protein adalah struktur sekunder protein yang mengalami pelipatan atau dikenal dengan istilah melakukan folding protein. Struktur tersier protein terjadi dengan adanya interaksi untaian rantai alpha-helix, betha-sheet dan coil yang kemudian melakukan proses pelipatan (Lesk 2002). Bentuk struktur
9
tersier protein seperti dilihat pada Gambar 5 dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 .
Gambar 5. Struktur tersier protein Data struktur tersier protein dapat diperoleh dari suatu database yang bernama Protein Data Bank (PDB). Dari data ini protein dapat divisualisasikan dalam bentuk tiga dimensi. Fungsi protein akan terlihat apabila sudah melakukan pelipatan atau protein folding. Protein merupakan molekul kompleks dengan struktur tiga dimensi (3D) yang dikenal dengan struktur tersier. Namun, demikian struktur kompleks tersebut dibangun dari struktur primer yang terdiri atas sekuens asam amino pembentuknya ( Polanski dan Kimmel 2007). 2.2
Prediksi Struktur sekunder protein Struktur sekunder protein
merupakan tahap awal dari proses prediksi
struktur tiga dimensi (3D) suatu protein. Prediksi struktur sekunder protein bertujuan untuk mendapatkan informasi segmen alpha-helix (H), betha-sheet (B) atau coil (C) dari untaian asam amino primer yang membentuknya. Struktur Protein dapat diprediksi dengan beberapa cara. Cara pertama adalah dengan
melakukan
eksperimen
secara
kimiawi
menggunakan
X-Ray
10
Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. (Albert et al. 2007). Cara ini akan menghasilkan struktur protein secara tepat dan sangat memungkinkan menghasilkan struktur baru. Cara kedua adalah dengan pendekatan heuristic yaitu dengan comparative modelling yang hasilnya berupa prediksi. Prediksi struktur protein dengan menggunakan pendekatan heuristik ini, tidak akan menghasilkan penemuan struktur protein baru karena pendekatan ini hanya melakukan perbandingan antara data yang kita miliki dengan model yang sudah ada. 2.3
Hidden Markov Model (HMM) Hidden Markov Model (HMM) merupakan model probabilistik yang dapat
diaplikasikan untuk menganalisis model deret waktu atau sekuens linear (Eddy 1998). Pada sekitar tahun 1990, untuk membandingkan dua buah sekuens data biologi baik DNA atau RNA digunakan perbandingan pasangan antara dua sekuens yang akan disamakan. Namun, terdapat kendala yang ada apabila dua sekuens tersebut tidak sama di samping kesulitan apabila adanya sekuens baru (Baldi dan Brunak 2001). HMMs adalah salah satu pendekatan yang digunakan untuk
memodelkan
kumpulan
sekuens
tersebut.
HMMs
telah
banyak
dikembangkan pada banyak permasalahan seperti speech recognition (Rabiner 1989). Menurut Rabiner (1989), aplikasi pada HMMs pada akhirnya akan direduksi untuk menyelesaikan tiga jenis permasalahan, yaitu : 1. Jika diberikan suatu model λ = (A, B, π) ,
bagaimana menghitung
peluang dari sukuens observasi O = O1,O2,...OT yang dinotasikan dengan P(O | λ) 2. Jika diberikan suatu model λ = (A, B, π) , bagaimana memilih state sekuens
I = I1,I2,...IT sehingga P(O, I | λ) sebagai peluang bersama
dari sekuens observasi O = O1,O2,...OT dan state sekuens tersebut memiliki nilai maksimum 3. Mendapatkan parameter model HMM yang optimal sehingga peluang suatu observasi memiliki nilai maksimum,
11
dengan
λ adalah model HMM A adalah Matriks peluang transisi, B adalah Matriks peluang emisi dan
π adalah Matriks peluang awal / Matriks priority O = O1,O2,...OT adalah variabel observasi P(O | λ) adalah peluang variabel observasi jika diberikan model
Hidden Markov Model (HMMs) menggambarkan distribusi peluang dari sejumlah sekuens yang tidak terbatas (Eddy 1998). Nama "Hidden Markov Model" berawal dari fakta bahwasannya state dari sekuens merupakan orde pertama dari rantai Markov sebagai variabel yang tidak teramati. Adapun sekuens dari simbol (seperti A,C,G,T/U) merupakan variabel yang secara langsung dapat diobservasi. Pada kasus analisis sekuens dari data biologi, state sekuens akan berasosiasi dengan label biologis yang bermakna (seperti: struktur pada posisi lokus 42) (Eddy 1998).
2.4
Algoritme Baum-Welch Algoritme Baum-Welch merupakan salah satu algoritme yang digunakan
untuk melakukan pelatihan dalam melakukan estimasi parameter model dari HMMs yang dinotasikan sebagai . Algoritme ini mampu melakukan perbaruan nilai Matrikss peluang transisi A, Matriks peluang emisi B dan Matriks prioritas π . Algoritme ini disebut juga dengan nama forward-backward algorithm.
Berikut adalah prosedur Algoritme Baum-Welch (Dugad dan Desai 1996) : set nilai λ = (A, B, π) . Algoritme ini akan memperbaiki
Inisialisasi
nilai λ secara iteratif sampai konvergen. prosedur forward
:
definisikan
αt (i) = p(O1 = O1 ,O2 ,...Ot ,it = i |, λ) sebagai
peluang observasi parsial dari sekuens O1,O2,...Ot sampai dengan state ke-i pada saat t. Secara rekursif, t (i) dapat dihitung sebagai berikut :
12
αt (i) = πi bi (o1 ) …………………...……….……….....……….………..(1) N αt+1 (j) = b j (ot+1 ) αt (i).aij ……………………….........….…....……(2) i=1 :definisikan
prosedur backward
β t (i) = P(O
t +1
,O t + 2 ,... ,O T | i t = i, λ) adalah
peluang observasi parsial sekuens dari t + 1 sampai T dengan state i pada saat t dan model λ . Secara efisien dapat dihitung : βT (i) = 1 , 1 i N ………………….....………………….......…......(3)
β t (i) =
N
a
ij
j=1
b j (o t +1 )β t +1 (j) .................................................................(4)
Dengan menggunakan α dan β , akan ditentukan dua variabel, yaitu γt (i) dan
ξt (i, j) dengan persamaan sebagai berikut: α (i) β (i) t γ t (i) = N t α t (i) β t (i) i= 1
ξ t (i, j) =
.......................................................................................(5)
α t (i)a ij β t +1 (j)b j (o t +1 ) N
N
α i= 1
t
(i)a ij β t +1 (j)b j (o t +1 ) ...........................................................(6)
j=1
Dengan mengasumsikan model saat inisialisasi adalah λ = (A, B, π) , maka, update nilai baru untuk mereestimasi parameter adalah: π i = γ 1 (i)
1 i N …...........................................................(7)
,
T 1
ξ (i, j) t
a ij =
t=1 T 1
γ (i) t
t=1
,
1 i N , 1 j N …........................................(8)
13 T
b j (k )
t 1 O t vk T
γ t (i) 1 j N
, 1 k M ….................................................(9)
γ t (i)
t=1
dengan
λ adalah model HMM A adalah matriks peluang transisi, B adalah matriks peluang emisi dan
π adalah matriks peluang awal / matrik priority O = O1,O2,...OT adalah variabel observasi P(O | λ) adalah peluang variabel observasi jika diberikan model λ
t (i) adalah peluang parsial dari sekuens observasi O1, O2,… Ot sampai dengan state ke-i pada saat ke-t β T (i) adalah peluang parsial dari sekuen dari t + 1 sampai dengan T (dimana T
= t-1) pada state ke-i pada saat t
2.5
Algoritme Viterbi Algoritme Viterbi digunakan untuk mendapatkan state yang optimal
sehingga peluang suatu observasi adalah yang paling maksimal. Berikut adalah langkah-langkah algoritme Viterbi. Inisialisasi
……………………… ……………………………................………..(10) Proses rekusif
untuk
untuk
dan
dan
……….......…….(11)
14 Terminasi
………………………………………………………(12)
Proses menemukan kemungkinan nilai peluang paling besar dari suatu observasi yang berakhir pada saat t = T Backtracking
sehingga
,
…….(13)
Membaca (decoding) path sekuens terbaik dari vektor
2.6
Hidden Semi Markov Model Hidden Semi Markov Model (HSMM) adalah bentuk perluasan dari
Hidden Markov Model (HMM) yang mempertimbangkan durasi suatu observas terhadap state yang dimiliki. Pada HSMM, panjang durasi D pada suatu state secara eksplisit dinyatakan sehingga dinamakan juga dengan HMM dengan durasi variabel (Yu 2009). State durasi atau D merupakan varibel acak yang memiliki nilai integer D = {1, 2, 3… D}. Peluang panjang durasi P(d) adalah peluang panjang durasi suatu state dengan panjang tertentu. Bentuk umum dari Hidden Semi Markov Model seperti yang dilihat pada Gambar 6 (Yu 2009)
15
Gambar 6. Bentuk umum HSMM (Yu 2009) Pada HSMM terlihat bahwa suatu state dapat membangitkan lebih dari satu observasi atau bahkan sejumlah sekuens observasi. Sepanjang observasi T, setiap state pada HSMM akan memiliki panjang durasi state dengan nilai tertentu. Pada prediksi struktu protein sekunder observasi ini merupakan sekuens dari asam amino yang membentuk protein sedangkan state adalah struktur protein yang akan diidentifikasi atau diprediksi. Berikut ini adalah tahap algoritme pada HSMM (Yu dan Kobayashi 2006)
Proses Forward
……………….…………...……..(16)
16
Proses Backward
Penentuan State Optimal
Estimasi Parameter
17
III METODE PENELITIAN
3.1
Kerangka Pemikiran Protein merupakan aktor utama pada makhluk hidup yang memiliki
berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Prediksi struktur sekunder protein memiliki peranan yang penting sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model (HMM). Umumnya proses pelatihan untuk membuat model pada HMMs dapat dilakukan
dengan
Algoritme
Baum-Welch.
Proses
pelatihan
ini
tidak
mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik alpha-helix (H), betha-sheet (B) atau coil (C). Aydin et al. (2006) melakukan penelitian
untuk
memprediksi
struktur
sekunder
protein
dengan
mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein tersebut yang dikenal dengan Hidden Semi Markov Model (HSMM). Namun demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan. Di sisi lain, Hidden Semi Markov Model (HSMM) yang pertama kali diperkenalkan oleh Ferguson memiliki kompleksitas sebesar O((MD2+M2)T) dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah panjang durasi state (Yu dan Kobayashi 2003). Algoritme ini kemudian diefisienkan sehingga kompleksitasnya menjadi O((MD+M2)T dan kebutuhan alokasi memori memiliki kompleksitas O(MT) (Yu dan Kobayashi 2003). Penelitian ini mengusulkan untuk membuat model dengan menggunakan Hidden Semi Markov Model (HSMM) yang telah diefisienkan kompleksitasnya
18
dan dibandingkan dengan akurasi Hidden Markov Model (HMM) standar. Model HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.
mulai
perumusan masalah
pendefinisian metode penelitian
pengambilan data
data uji
data latih data latih tanpa panjang durasi state
data latih dengan beberapa panjang durasi state
Pelatihan
Model HMM
Pelatihan tahap pengujian
tahap pelatihan
Model HSMM
pengujian
selesai
dokumentasi
perhitungan dan perbandingan akurasi
Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein
3.2
Studi Pustaka Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait
dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut, penggunaan Hidden Markov Model (HMM) memang telah banyak digunakan
19
untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.
3.3
Perumusan Masalah dan Hipotesa Awal Perumusan masalah dilakukan sebagai kerangka untuk melakukan
penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model (HSMM) dapat meningkatkan akurasi dibandingkan dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.
3.4
Pendefinisian Metode Penelitian Setelah dilakukan perumusan masalah, maka dipilih metode penelitian
yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang digunakan dalam penelitian ini dapat dilihat pada Gambar 7.
3.5
Pengambilan Data Struktur sekunder protein Proses prediksi struktur sekunder protein ini diawali dengan pengambilan
data
sekuens
protein
sekunder
yaitu
DSSP
dari
alamat
webstitehttp://swift.cmbi.ru.nl/gv/dssp/ yang merupakan database assignment struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada di Protein Data Bank (PDB). Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8 segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Aydinet al. 2006). Segmen hasil reduksi adalah {I,H,G} alpha-helix(H), {E,B} betha-sheet (B) , segmen lainnya menjadi coil (C). Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format dengan ekstensi .dssp (Define Secondary Structure of Protein). Oleh karena itu,
20
sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp
# … … … … …
RESIDUE AA … I … D … E … G … L
STRUCTURE H H H C C
BP1 … … … … … …
… … … …
… … … …
… … … …
… … … … …
X-CA … … … …
Y-CA … … …
Z-CA … … …
…
…
Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein)
3.6
Pembuatan Model dengan HMM standar Pada tahap ini dilakukan proses pembentukan model dari data latih baik
dengan HMMs standar dan Hidden Semi Markov Model (HSMM). Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.
Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005) Barisan H-B dan C merepresentasikan
menunjukkan
model hidden state yang
alpha-helix (H), betha-sheet (B) dan coil (C), sedangkan
barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi (observable sequence). Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan
21
model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.
3.7
Pembuatan Model dengan Hidden Semi Markov Model (HSMM) Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda
dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder protein dengan HSMM dapat dilihat pada Gambar 10.
observasi waktu
D
E
V
H
A
S
…….
1
2
3
4
5
6 ……...
durasi
d1
d2
……..
state sekuens
H
B
……..
OT
dn in
transisi
Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM)
3.8
Pengujian Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang
dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk melakukan pengujian dapat dilihat pada persamaan (28).
...............................................(28)
3.9
Riset Pendahuluan Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen
baik alpha-helix (H), betha-sheet (B) dan coil (C). Distribusi pada awalnya dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi
22
permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya. Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi.
23
IV HASIL DAN PEMBAHASAN 4.1
Praproses dan Pengkodean Data Data struktur sekunder protein
yang diperoleh dari database masih
memiliki format tertentu berekstensi (.dssp) sehingga harus dilakukan praproses dan pengkodean terlebih dahulu. Setiap satu file berekstensi .dssp akan diambil sekuens asam amino dan struktur sekundernya. Praproses dan pengkodean dilakukan agar data tersebut dilakukan untuk memudahkan proses komputasi pada tahap berikutnya. Adapun data tersebut pada memiliki format sebagai berikut: # RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA.
Header pada kolom ketiga dan keempat yaitu {AA} dan {STRUCTURE} yang akan diambil sebagai pasangan data asam amino dan struktur sekunder protein . Baik {AA} maupun {STRUCTURE} akan dikodekan ke dalam suatu bilangan integer. Gambar 11 adalah visualisasi praproses dan pengkodean data. # … … … …
RESIDUE … … … …
AA D E G L
STRUCTURE H H C C
BP1 … … … … … … … …
… … … … …
… … … … …
… … … … …
X-CA Y-CA Z-C … … … … … … … … … … … …
AA = [ D E G L ... ... ... ... ]
AA = [ 4 7 8 11 ... ... ... ... ]
ST = [ H H C C ... ... ... ... ]
ST = [ 1 1 3 3 ... ... ... ... ]
Gambar 11. Visualisasi hasil praproses dan pengkodean Hasil dari praproses dan pengkodean adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Format data lengkap struktur sekunder protein dapat dilihat pada Lampiran 1.
4.2
Skenario Pengujian Skenario pengujian dilakukan untuk melakukan kombinasi pengujian
sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein .
24
Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix (H) dengan panjang durasi maksimal adalah 54 residu, betha-sheet (B) dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100% panjang segmen, 90% , 75% dan 50%. Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan. Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix (H) sebanyak 6053 residu, betha-sheet (B) sebanyak 2834 dan coil (C) sebanyak 5153 residu. Tabel 3. Skenario pengujian struktur sekunder protein
Skenario
Panjang durasi state
1
100 %
2
90 %
3
75 %
4
50 %
5
21
6
15
7
fungsi kepekatan peluang eksponensial negatif
8
fungsi kepekatan peluang normal rataan geometrik
Distribusi durasi state
Empiris
teoritis
25
4.2.1
Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35 Pengujian pada skenario 1 ini bertujuan untuk membandingkan akurasi
prediksi struktur sekunder protein
dengan menggunakan panjang durasi
maksimum dari setiap segmen baik alpha, betha maupuan coil. Panjang maksimum segmen alpha pada skenario ini adalah 54 residu, segmen betha 15 residu dan segmen coil 35 residu yang diperoleh secara empiris dari data latih. Prediksi pada skenario 1 ini membandingkan hasil akurasi berdasarkan model yang diperoleh pada HMM standar dan model setelah dilakukan perbaikan parameter dengan menggunakan Hidden Semi Markov Model (HSMM). Akurasi pada HSMM ditentukan dengan membandingkan seluruh struktur yang diidentifikasi dengan struktur pada data sebenarnya tanpa melihat akurasi tiap segmen. Akurasi prediksi yang diperoleh dengan HSMM adalah 64,2% sedangkan dengan HMM standar menghasilkan akurasi 53,8%. Perbandingan akurasi tersebut dapat dilihat pada grafik Gambar 12.
Gambar 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar
4.2.2
Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31 Pengujian skenario dua menggunakan 90% panjang durasi state dari
masing-masing segmen. Pada skenario 2 ini, didapatkan masing-masing panjang durasi state untuk segmen alpha adalah 48, segmen betha adalah 14 dan segmen
26
coil adalah 31. Perbandingan akurasi untuk HMM standar dan Hidden Semi Markov Model (HSMM) skenario 2 dapat dilihat pada grafik Gambar 13.
Gambar 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar Berdasar hasil percobaan, terlihat bahwa model yang diperoleh dengan menggunakan HSMM lebih baik dibandingkan dengan HMM standar. Hal ini terlihat dari rata – rata akurasi proses prediksi struktur sekunder protein yang secara umum menghasilkan nilai lebih tinggi bila dibandingkan dengan rata-rata akurasi HMM standar. Gambar 12, dapat dilihat bahwa akurasi prediksi struktur sekunder protein dengan HSMM memiliki akurasi 64,1%, sedangkan akurasi dengan HMM standar menghasilkan akurasi 53, 8%.
4.2.3
Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26 Pengujian pada skenario 3 dilakukan dengan menggunakan 75% dari
panjang state masing-masing segmen baik alpha-helix, betha-sheet dan coil. Masing-masing panjang segmen tersebut adalah 40 residu alpha-helix, 11 residu betha-sheet dan 26 residu coil. Perbandingan hasil pengujian skenario 3 dapat dilihat pada Gambar 14. Gambar 14 menunjukkan hasil akurasi prediksi struktur sekunder protein secara total dengan HSMM sebesar 63,8% yang mengalami penurunan. Hal ini disebabkan informasi yang semakin berkurang dengan penggunaan 75% panjang durasi.
27
Gambar 14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar
4.2.4
Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18 Pengujian pada skenario 4 dilakukan dengan menggunakan panjang durasi
state 50 persen dari panjang total dengan durasi alpha-helix adalah 27 residu, betha-sheet 8 residu dan coil 18 residu. Hasil akurasi prediksi struktur sekunder protein model HSMM pada skenario adalah 63,8% sedangkan akurasi dengan model HMM standar sebesar 53,8%. Perbandingan hasil akurasi model HSMM dan HMM standar untuk skenario 4 dapat dilihat pada Gambar 15.
Gambar 15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar
28
4.2.5
Pengujian skenario 5 dengan panjang durasi state maksimum 21 Berbeda dengan keempat skenario sebelumnya, pada skenario 5 ini,
pengujian dilakukan dengan menggunakan panjang durasi state tertentu dengan mengasumsikan bahwa segmen/state yang memiliki frekuensi kurang dari 10 tidak diperhitungkan. Dalam skenario ini, pengujian dilakukan dengan menggunakan durasi state maksimum 21. Artinya untuk semua segmen baik alpha-helix, betha-sheet maupun coil akan diambil distribusi panjang durasi maksimumnya sama dengan 21. Hasil akurasi prediksi struktur sekunder protein dengan model HSMM sebesar 63,4% sedangkan akurasi prediksi dengan HMM standar sebesar 53,8%. Bila dibandingkan dengan empat skenario sebelumnya hasil prediksi dengan HSMM di skenario 5 ini relatif lebih kecil. Hal ini dikarenakan
dengan
ditetapkannya
distribusi
panjang
durasi
state
ada
kemungkinan hilangnya informasi dari setiap segmen tersebut. Grafik Gambar 16 memperlihatkan hasil perbandingan akurasi skenario 5.
Gambar 16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar
4.2.6
Pengujian skenario 6 dengan panjang durasi state maksimum 15 Pengujian pada skenario 6 menggunakan distribusi panjang durasi state 15
dengan menggunakan asumsi seperti yang terdapat pada pengujian dengan skenario 5. Perbandingan hasil akurasi prediksi struktur sekunder protein skenario 6 dapat dilihat pada Grafik Gambar 17. Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi
29
panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.
Gambar 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.
4.2.7
Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif Pengujian pada skenario 7 ini distribusi panjang state dibangkitkan dengan
menggunakan distribusi teoritis. Distribusi yang digunakan adalah fungsi kepekatan peluang eksponensial negatif. Hasil pembangkitan ini kemudian digunakan pada proses pelatihan untuk melakukan reestimasi parameter pada HSMM. Akurasi hasil prediksi struktur sekunder protein pada pengujian skenario 7 dapat dilihat pada grafik Gambar 18. Berdasar Gambar 18, dapat dilihat bahwa prediksi struktur sekunder protein
model HSMM dengan distribusi panjang durasi secara teoritis
menggunakan fungsi kepekatan peluang eksponensial negatif menghasilkan akurasi sebesar 64%.
30
Gambar 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar
4.2.8
Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik Pada skenario 8, nilai peluang dari panjang durasi state menggunakan
distribusi peluang normal, akan tetapi rataan panjang segmen yang digunakan dihitung dengan rataan geometrik. Hal ini disebabkan karena panjang segmen yang diperoleh dari data latih memang tidak menyebar secara merata. Hasil prediksi pada pengujian dari model HSMM pada skenario 8 dapat dilihat pada grafik Gambar 19.
Gambar 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar
31
Hasil prediksi dengan model HSMM dengan distribusi teoritis dengan fungsi kepekatan peluang normal adalah 61,7%. Hasil ini relatif kecil diantara skenario yang digunakan dalam proses prediksi struktur sekunder protein .
4.3 Perbandingan akurasi Hidden Semi Markov Model (HSMM) Secara umum, dari seluruh skenario pengujian yang dilakukan, terlihat bahwa model yang dihasilkan dengan menggunakan Hidden Semi Markov Model dapat menambah tingkat akurasi bila dibandingkan dengan
Hidden Markov
Model Standar. Namun demikian, rataan tingkat akurasi yang dihasilkan dari tujuh skenario pengujian tersebut masih relatif rendah. Perbandingan akurasi tertinggi setiap skenario pengujian dapat dilihat pada Tabel 4 berikut: Tabel 4. Perbandingan akurasi tertinggi setiap skenario pengujian Skenario
1
2
3
4
5
6
7
8
Akurasi tertinggi
64,4
64,1
63,8
63,8
63,4
63,3
64
61,7
Pada Tabel 3 terlihat bahwa akurasi yang paling tinggi berada pada skenario 1. Pada skenario tersebut panjang durasi state yang digunakan adalah distribusi empiris dengan presentase 100% distribusi panjang segmen alpha, betha dan coil. Hal ini beralasan karena dengan mengambil 100% panjang durasi ini informasi dari setiap segmen terwakili.
Gambar 20. Perbandingan akurasi setiap skenario model HSMM
32
4.4
Analisis Error Identifikasi Struktur Sekunder Protein Analisis error dilakukan untuk mengetahui bagaimana akurasi dari setiap
segmen kelas/struktur yang dihasilkan dan mengetahui distribusi kelas yang salah diprediksi. Akurasi setiap segmen kelas/struktur yang dihasilkan pada proses identifikasi struktur sekunder protein
dibuat dalam bentuk matriks konfusi.
Matriks konfusi memperlihatkan persentasi struktur alpha-helix (H) , betha-sheet (B) dan coil (C) yang dikenali sesuai dengan kelasnya.
4.4.1
Matriks Konfusi Skenario 1 Matriks konfusi hasil pengujian skenario 1 memperlihatkan persentasi
akurasi setiap kelas baik (H), (B) maupun (C) dengan Hidden Semi Markov Model (HSMM). Pada skenario ini durasi state yang digunakan adalah distribusi empiris dengan menggunakan 100% panjang maksimum durasi setiap state. Hasil Matriks konfusi dapat dilihat pada Tabel 5. Tabel 5. Matriks konfusi pengujian skenario 1
kelas asal
kelas hasil prediksi
akurasi prediksi (%)
H
B
C
H
4401
295
1357
72, 7
B
978
1040
816
36,7
C
1495
417
3241
62,9
Berdasar hasil prediksi dari Matriks konfusi, terlihat bahwa dari 6053 residu asam amino yang memiliki struktur alpha-helix, ternyata 4401 residu yang terprediksi dengan benar, sedangkan sisanya terprediksi di kelas betha-sheet (B) sebanyak 295 residu dan coil sebanyak 1357 residu. Adapun struktur betha-sheet (B) dan coil (C) masing-masing diprediksi sesuai dengan kelasnya sebanyak 1040 residu dan 3241 residu. Akurasi prediksi setiap segmen struktur dapat dilihat pada grafik Gambar 21. Hasil akurasi prediksi pada Gambar 21 memperlihatkan bahwa akurasi struktur alpha-helix (H) relatif lebih tinggi dibandingkan dengan akurasi struktur betha-sheet (B) dan coil dengan nilai 72, 7%. Adapun akurasi betha-sheet (B) dan coil (C) masing-masing sebesar 36,6% dan 62,9%.
33
Gambar 21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 1
4.4.2
Matriks Konfusi Skenario 2 Prediksi tiap segmen struktur alpha-helix (H), betha-sheet (B) dan coil (C)
pada skenario 2 ini menggunakan 90% panjang durasi state. Matriks konfusi pada pengujian skenario 2 dapat dilihat pada Tabel 6 untuk menggambarkan sebaran hasil identifikasi struktur sekunder protein baik alpha-helix (H), betha-sheet (B) maupun coil (C). Tabel 6. Matriks konfusi pengujian skenario 2 H
B
C
akurasi prediksi (%)
H
4396
295
1362
72,6
B
973
1043
818
36,6
C
1491
420
3242
62,9
kelas asal
kelas hasil prediksi
Pada pengujian dengan 90% durasi state, terlihat bahwa dari sebanyak 4396 residu asam amino yang memiliki struktur alpha-helix (H), mampu diprediksi sesuai dengan strukturnya. Adapun struktur betha-sheet (B) dan coil masingmasing diprediksi dengan benar sebanyak 1043 residu dan 3242 residu. Hasil akurasi prediksi (Gambar 22) memperlihatkan bahwa akurasi struktur alpha-helix (H) relatif lebih tinggi dibandingkan dengan akurasi struktur
34
betha-sheet (B) dan coil dengan nilai 72, 6%. Adapun akurasi betha-sheet (B) dan coil (C) masing-masing sebesar 36,8% dan 62,9%.
Gambar 22. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 2
4.4.3
Matriks Konfusi Skenario 3 Matriks konfusi skenario 3 menunjukkan hasil identifikasi struktur protein
dengan model HSMM yang menggunakan panjang durasi state 75 % dari panjang total tiap struktur kelasnya. Hasil prediksi berupa Matriks konfusi dapat dilihat pada Tabel 7. Tabel 7. Matriks konfusi pengujian skenario 3
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4394
295
1364
72,6
B
972
1019
843
36
C
1498
412
3243
62,9
Persentase akurasi prediksi pada pengujian skenario 3 masih memperlihatkan hasil masing-masing 72,6%, 36% dan 62,9% untuk prediksi struktur alpha-helix(H), betha-sheet(B) dan coil. Secara grafik, akurasi prediksi pada pengujian skenario 3 ini dapat dilihat pada Gambar 23.
35
Gambar 23. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 3
4.4.4
Matriks Konfusi Skenario 4 Matriks konfusi skenario 4 menunjukkan hasil identifikasi struktur protein
dengan model HSMM yang menggunakan panjang durasi state 50 % dari panjang total tiap struktur kelasnya. Apabila dibandingkan dengan hasil identifikasi pada Matriks konfusi sebelumnya ternyata penggunaan 50 % panjang durasi state tidak memberikan kenaikan akurasi yang siginifikan. Matriks konfusi hasil prediksi pengujian skenario 4 dapat dilihat pada Tabel 8. Tabel 8. Matriks konfusi pengujian skenario 4
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4391
254
1408
72,5
B
1003
966
865
34, 1
C
1525
360
3268
63, 4
Berdasar Tabel 8 terlihat bahwa nilai akurasi prediksi struktur alpa-helix (H) dan betha-sheet (B) masing-masing adalah 72,5% dan 34,1%. Sementara pada prediksi coil (C) menghasilkan akurasi pada angka 63,4%. Akurasi prediksi struktur sekunder protein tiap segmen pada skenario 4 dapat dilihat pada grafik Gambar 24.
36
Gambar 24. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 4
4.4.5
Matrik Konfusi Skenario 5 Matriks konfusi skenario 5 menunjukkan hasil identifikasi struktur protein
dengan model HSMM yang menggunakan panjang durasi tertentu. Dalam hal ini panjang durasi state yang ditentukan adalah 21. Matriks konfusi pada skenario 5 dapat dilihat pada Tabel 9. Tabel 9. Matriks Konfusi Skenario 5
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4274
317
1462
70,6
B
950
1062
822
37,4
C
1421
429
3303
64,1
Penentuan panjang durasi state sebesar 21 memberikan hasil prediksi yang dapat dilihat pada Tabel 9. Sebanyak 4274 residu yang diprediksi sebagai alpha-helix (H), sedangkan sisanya diprediksi sebagai betha-sheet (B) sebanyak 317 residu dan coil (C) sebanyak 1462 residu. Adapun betha-sheet (B) diprediksi dengan benar sebanyak 1062 residu dan coil (C) diprediksi dengan benar sebanyak 3303 residu. Akurasi prediksi pengujian skenario 5 dapat dilihat pada Gambar 25.
37
Gambar 25. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 5 Penggunaan durasi state tertentu ini, memberikan akurasi prediksi yang berbeda bila dibandingkan dengan penggunaan presentasi panjang duras state. Dapat dilihat bahwa akurasi struktur alpha-helix (H) menurun dari sekitar 72% pada penggunaan presentase durasi state menjadi kurang lebih 70%. Sementara akurasi beta-sheet dan coil justru sedikit menaik masing-masing 37,4% dan 64,1%. Menurunnya akurasi alpha diduga disebabkan oleh hilangnya informasi durasi state dengan pemotongan panjang durasi yang hanya 21 ini. Padahal segmen alpha-helix memiliki distribusi dengan panjang maksimum terbesar.
4.4.6
Matriks Konfusi Skenario 6 Matriks konfusi skenario 6 menunjukkan hasil identifikasi struktur protein
dengan model HSMM yang menggunakan panjang durasi tertentu, yaitu 15. Hasil identifikasi dalam Matriks konfusi diperlihatkan pada Tabel 10. Tabel 10. Matriks Konfusi Skenario 6
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4007
359
1687
66,2
B
792
1177
865
41,5
C
1228
443
3482
67,6
Tabel 10 memperlihatkan hasil prediksi struktur sekunder protein
dengan
38
skenario 6. Dibandingkan dengan skenario durasi empiris lainnya, penggunaan panjang durasi state sebesar 15 ini berdampak pada turunnya akurasi untuk prediksi struktur alpha-helix (H). Ini terlihat dari jumlah residu yang hanya 4007 diprediksi dengan benar atau 66,2% saja. Adapun akurasi betha-sheet (B) dan coil (C) justru mengalami kenaikan mencapai 41,5% dan 67,6%.
Grafik akurasi
prediksi struktur sekunder protein dapat dilihat pada Gambar 26.
Gambar 26. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 6
4.4.7
Matriks Konfusi Skenario 7 Matriks konfusi skenario 7 memperlihatkan hasil identifikasi struktur
protein untuk model HSMM dengan peluang durasi state yang digunakan adalah distribusi dengan fungsi kepekatan peluang eksponensial negatif. Hasil Matriks konfusi dapat dilihat pada Tabel 11. Tabel 11. Matriks Konfusi Skenario 7
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4717
218
1118
77,9
B
1209
834
791
29,4
C
1800
357
2996
58,1
Hasil akurasi prediksi dengan distribusi teoritis (Tabel 11) menunjukkan bahwa akurasi prediksi struktur alpha-helix (H) mencapai 77,9%. Akan tetapi akurasi
39
betha-sheet (B) dan coil justru menurun masing-masing 29,4 % dan 58,1%. Secara visual akurasi prediksi skenario 7 dapat dilihat pada grafik Gambar 27.
Gambar 27. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 7
4.4.8
Matriks Konfusi Skenario 8 Matriks konfusi skenario 8 memperlihatkan hasil identifikasi struktur
protein untuk model HSMM dengan peluang durasi state yang digunakan adalah distribusi peluang normal. Akan tetapi rataan yang digunakan untuk menghitung fungsi kepekatan peluang adalah rataan geometrik. Ini dilakukan karena panjang segmen tiap struktur protein memiliki sebaran yang tidak normal. Hasil Matriks konfusi dapat dilihat pada Tabel 12. Tabel 12. Matriks Konfusi Skenario 8
kelas asal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
4362
183
1508
72,1
B
1032
878
924
31,0
C
1577
331
3245
63,0
Pembangkitan distribusi durasi state dengan fungsi kepekatan peluang fungsi normal memberikan akurasi seperti yang terlihat pada Tabel 12. Akurasi prediksi struktur alpha-helix (H) sebesar 72,1% sedangkan prediksi struktur betha-sheet
40
(B) dan coil (C) menghasilkan akurasi masing-masing sebesar 31% dan 63%. Gambar 28 memperlihatkan grafik akurasi untuk pengujian skenario 8.
Gambar 28. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HSMM skenario 8
4.5
Perbandingan Akurasi Prediksi HSMM Distribusi Empiris dan Teoritis Akurasi prediksi struktur sekunder protein dengan model HSMM pada
skenario 1 sampai dengan 6 menggunakan distribusi durasi state empiris sedangkan pada skenario 7 dan skenario 8 distribusi durasi state dibangkitkan dengan menggunakan pendekatan teoritis yaitu fungsi kepekatan peluang. Perbandingan akurasi prediksi struktur sekunder protein dengan distribusi empiris dan teoritis dapat dilihat pada grafik Gambar 29.
41
Gambar 29. Perbandingan akurasi prediksi struktur sekunder protein model HSMM dengan durasi empiris dan teoritis Gambar 29 memperlihatkan bahwa hasil akurasi prediksi alpha-helix (H) lebih tinggi pada penggunaan durasi teoritis, namun pada prediksi betha-sheet (B ) dan coil, penggunaan durasi empiris memberikan akurasi yang lebih tinggi. Secara umum perbandingan akurasi rata-rata prediksi alpha-helix(H), betha-sheet (B) dan coil (C) dengan durasi empiris dan teoritis dapat dilihat pada grafik Gambar 30.
Gambar 30. Perbandingan rata-rata akurasi prediksi struktur alpha-helix, bethasheet dan coil model HSMM dengan durasi empiris dan teoritis
42
4.6
Matriks Konfusi Hidden Markov Model (HMM) Standar Hasil pengujian juga dilakukan terhadap model dengan HMM standar
untuk mengetahui tingkat akurasi yang dihasilkan. Akurasi prediksi setiap struktur protein dapat dilihat pada Matriks konfusi Tabel 13. Tabel 13. Matriks Konfusi Prediksi dengan HMM Standar
kelas ssal
kelas hasil prediksi H
B
C
akurasi prediksi (%)
H
5957
11
85
98,4
B
2715
28
91
1
C
4815
21
334
6,4
Tabel 13 memperlihatkan bahwa proses identifikasi menunjukkan hasil yang tidak seimbang. Hal ini terlihat bahwa untuk struktur betha-sheet (B) dan coil (C) hampir sama sekali tidak dikenali sebagai kelasnya meskipun dalam mengidentifikasi alpha-helix(H) mencapai 98,4%. Dapat dilihat bahwa akurasi betha-sheet (B) hanya 1% dan coil (C) yang hanya 6,4% (Gambar 31).
Gambar 31. Akurasi prediksi struktur sekunder protein tiap segmen kelas alphahelix, betha-sheet dan coil model HMM standar
43
4.7
Perbandingan Akurasi Prediksi HSMM dan HMM Standar Perbandingan akurasi HSMM dan HMM dilakukan untuk menunjukkan
keunggulan HSMM dibandingkan HMM standar. Dapat dilihat (Gambar 32) bahwa meskipun pada prediksi alpha-helix (H) akurasi HMM jauh lebih tinggi, namun tidak diikuti oleh akurasi struktur lainnya. Dengan demikian, secara ratarata akurasi prediksi struktur sekunder protein dengan HSMM manghasilkan akurasi sebesar 56,9% sedangkan HMM standar menghasilkan akurasi sebesar 35,3%.
Gambar 32. Perbandingan Akurasi prediksi struktur sekunder protein model HSMM dan HMM sSandar
4.8
Pengaruh Distribusi Empiris Durasi State Terhadap Akurasi HSMM Pada
proses
pelatihan
model
HSMM
dilakukan
dengan
mempertimbangkan distribusi durasi state yang digunakan baik secara empiris maupun teoritis. Secara keseluruhan rata-rata akurasi struktur alpha-helix (H) dengan distribusi empiris paling tinggi dibandingkan dengan betha-sheet (B) dan coil (C). Rata-rata akurasi struktur (H) dari skenario satu sampai delapan adalah 71,2%, struktur (B) 37,1% dan struktur (C) 64,0%. Terlihat bahwa akurasi struktur betha-sheet (B) paling rendah. Rendahnya nilai akurasi ini diduga disebabkan oleh terjadinya perbedaan distribusi antara data latih dan data uji. Oleh karena itu distribusi empiris dari data latih dan data uji dikaji untuk dilihat sejauh mana perbedaannya. Gambar 33 memperihatkan distribusi empiris antara data latih dan data uji.
44
Gambar 33. Visualiasi distribusi empiris struktur alpha-helix (H) pada data latih dan data uji Pada Gambar 33 terlihat bahwa distribusi struktur alpha-helix (H) pada data latih dan data uji hampir memiliki pola yang sama. Hal ini terlihat dari gambar pola data latih dan data uji yang saling berhimpit dengan selisih durasi 0.006. Hal yang sama juga dilakukan terhadap distribusi struktur betha-sheet (B) dan coil (C). Perbandingan distribusi struktur betha-sheet (B) terlihat pada Gambar 34.
Gambar 34. Visualiasi distribusi empiris struktur betha-sheet (B) pada data latih dan data uji Pada visualisasi Gambar 34 terlihat bahwa antara data latih dan data uji memiliki distribusi yang tidak sesuai. Ini terlihat dari garis data uji dan data latih yang memiliki tidak berhimpit sehingga terdapat selisih distribusi antara data latih
45
dan data uji yang lebih besar dibandingkan dengan selisih distribusi alpha-helix (H). Selisih distribusi panjang state antara data latih dan data uji adalah 0.016. Visualisasi distribusi struktur coil (Gambar 35) memperlihatkan pola distribusi data latih dan data uji yang digunakan. Hasil visualisasi menunjukkan bahwa struktur coil (C) memliki distribusi yang hampir sama dengan selisih 0.006.
Gambar 35. Visualiasi distribusi empiris struktur coil (C)pada data latih dan data uji Berdasarkan ketiga gambar visualiasi di atas, diketahui bahwa selisih ditribusi empiris data latih dan data uji struktur alpha-helix (H) sebesar 0.006, selisih distribusi betha-sheet (B) sebesar 0.016 dan selisih distribusi coil (C) sebesar 0.006. Selisih paling tinggi terdapat pada distribusi betha-sheet (B) yaitu 0.016. Grafik perbandingan selisih distribusi dapat dilihat pada Gambar 36. Selisih distribusi dilakukan dengan persamaan .......................................................................................... (29) : error signal / error distributions : data pelatihan : data pengujian
46
Gambar 36. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM Perbedaan distribusi juga dilakukan dengan menghitung persentase root mean square deviation (RMSD). RMSD dapat dilihat pada persamaan (30). .................................................... (30)
N
: data pelatihan : data pengujian : panjang durasi
Gambar 37. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM dengan RMSD
47
Berdasar selisih distribusi pada data latih dan data uji yang digunakan (Gambar 36 dan Gambar 37), dapat ditunjukkan bahwa struktur betha-sheet (B) memiliki selisih distribusi durasi yang paling tinggi dibandingkan dengan hasil prediksi alpha-helix (H) dan coil (C). Besarnya selisih distribusi durasi pada struktur betha-sheet (B) diduga menyebabkan akurasi prediksi pada struktur betha-sheet (B) dengan HSMM menjadi yang paling rendah.
4.9
Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan Penggunaan distribusi secara teoritis dan empiris akan memperlihatkan
bagaimana sebaran data yang digunakan pada proses pelatihan. Penggunaan distribusi secara teoritis mengasumsikan data latih dengan distribusi tertentu, sedangkan distribusi empiris mampu merepresentasikan data latih yang sebenarnya. Secara visual, perbandingan distribusi struktur alpha-helix (H) dapat dilihat pada Gambar 38. Apabila dibandingkan selisih distribusi tersebut sebesar 0.01.
Gambar 38. Visualiasi perbandingan distribusi teoritis dan empiris struktur alphahelix (H) pada data latih Perbandingan distribusi teoritis dan empiris data latih
untuk struktur
betha-sheet (B) juga dilakukan. Selisih distribusi struktur betha-sheet yang didapatkan sebesar 0.0284. Grafik perbandingan distribusi struktur betha-sheet (B) dapat dilihat pada Gambar 39.
48
Gambar 39. Visualiasi perbandingan distribusi teoritis dan empiris struktur bethasheet (B) pada data latih Hal yang sama juga dilakukan pada struktur coil (C). Perbandingan distribusi teoritis pada data latih dan data uji secara visual dapat dilihat pada Gambar 40. Selisih distribusi struktur coil (C) yang dihasilkan sebesar 0.01.
Gambar 40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil (C) pada data latih Ketiga perbandingan selisih distribusi di atas menunjukkan bahwa selisih distribusi yang besar akan memberikan hasil akurasi struktur protein yang relatif rendah. Perbandingan selisih distribusi teoritis dan empiris data latih dapat dilihat pada Gambar 41.
49
Gambar 41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) Perbedaan distribusi antara data empiris dan hasil rekonstruksi secara teoritis dilakukan juga dengan RMSD pada persamaan (30). Hasil perhitungan RMSD dapat dilihat pada Gambar 42.
Gambar 42. Perbedaan distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) dengan RMSD
50
Proses prediksi struktur sekunder protein yang dilakukan pada penelitian ini hanya menggunakan informasi distribusi panjang durasi state, sehingga akurasi secara keseluruhan memang lebih kecil apabila dibandingkan dengan penelitian yang dilakukan oleh Schmidler et al. (2000) dan Aydin (2006). Namun untuk prediksi struktur alpha-helix (H) pada penelitian ini memiliki akurasi yang relatif lebih tinggi bila dibandingkan dengan penelitian keduanya dengan akurasi mencapai 72%. Penelitian ini memberikan kontribusi dalam hal bagaimana pengaruh perbedaan distribusi durasi state terhadap hasil akurasi prediksi sehingga akan dijadikan pertimbangan dalam penelitian dengan menggunakan metode Hidden Semi Markov Model (HSMM).
51
V SIMPULAN DAN SARAN 5.1 Simpulan Identifikasi struktur sekunder protein dengan menggunakan pendekatan Hidden Semi Markov Model (HSMM) secara umum memberikan nilai akurasi yang lebih tinggi bila dibandingkan menggunakan model Hidden Markov (HMM) Standar. Hal ini dikarenakan pada HSMM terdapat informasi panjang durasi state yang digunakan pada proses pelatihan. Pada HSMM, penggunaan distribusi durasi secara empiris memberikan hasil akurasi yang lebih tinggi dibandingkan dengan penggunaan distribusi teoritis. Penggunaan distribusi empiris lebih merepresentasikan kondisi data yang sesungguhnya dibandingkan dengan pembangkitan distribusi secara teoritis. Visualisasi distribusi secara empiris dan teoritis menunjukkan bahwa selisih yang besar antara data latih dan data uji pada distribusi empiris diduga akan menyebabkan hasil prediksi struktur protein yang rendah. Ini terjadi pada kasus prediksi struktur betha-sheet (B). Rendahnya akurasi ini juga disebabkan oleh jumlah residu yang diuji pada strkutur betha-sheet (B) yang kecil dibandingkan dengan jumlah residu alpha-helix (H) maupun coil (C).
5.2 Saran Baik Hidden Markov Model (HMM) maupun Hidden Semi Markov Model (HSMM) belum dapat mengakomodasi data yang tidak seimbang atau imbalance data. Oleh karena itu, pada penelitian berikutnya sebaiknya diusulkan suatu metode yang dapat menangani ketidakseimbangan data baik pada HMM maupun pada HSMM. Proses
prediksi
struktur
sekunder
protein
sebaiknya
juga
mempertimbangkan aspek kimiawi dari struktur protein itu sendiri di samping sekuens asam amino dan distribusi panjang durasi. Dengan demikian, akurasi yang diperoleh diharapkan akan lebih tinggi.
52
53
DAFTAR PUSTAKA Albert B et.al. 1998. Essential Cell Biologi. An Introduction to the Molecular Biology of the Cell. New York. Garland Publishing, Inc. Aydin Z, Altunbasak Y, Borodovsky M. 2006. Protein secondary structure prediction for a single-sequence using hidden semi-Markov models, BMC Bioinformatics 7:178. Available: http://www.biomedcentral.com/14712105/7/178. Baldi P dan Brunak S. 2001. Bioinformatics: The Machine Learning Approach. Second Edition.Massachusetts. MIT Press. Bryson et.al. 2005. Protein structure prediction servers atUniversity College London. Nucleic Acids Research. Web Server issue. Vol. 33. CATH Database. 2010. http://www.cathdb.info/wiki/doku.php?id=data:index. #version_v33 . [9 April 2010] Dugad R dan Desai U B, 1996. Tutorial on Hidden Markov Models. Technical Report No. SPANN-96.1 Eddy, S R. 1998. Profile Hidden Markov Model. Bioinformatics Review.14:755763. Jones
NC,
Pevzner
PA.
2004.
An
Introductions
to
Bioinformatics
Algorithms.USA. MIT Press. Lesk Arthur M. 2002. Introduction to Bioinformatics. New York. United States. Oxford University Press. Martin J, Gibrat JF, Rodolphe J. 2005. Hidden Markov Model for protein secondary structure. Martin J,Gibrat JF, Rodolphe J. 2006. Analysis of an optimal hidden Markov model for secondary structure prediction. BMC Bioinformatics. 6:25. Polanski A dan Kimmel M.2007. Bioinformatics. Springer Sciene. Germany.
54
Rabiner LR. 1989. A Tutorial on Hidden Markov Model and Selected Applications in Speech Recognitions. Proceedings of the IEEE, 77 (2), 257-286. Schmidler S C, Liu JS, Brutlag DL. 2000. Bayesian Segmentation of Protein Secondary Structure. J Comp Biol 2000, 7:233-248. Won KJ, Hamelryck T, Prügel-Bennett A, Krogh A. 2007. An evolutionary method for learning HMM structure: prediction of protein secondary structure. BMC Bioinformatics 2007. 8:357 Yu SZ, Kobayashi H, 2003. An efficient forward–backward algorithm for an explicit duration hidden Markov model, IEEE Signal Processing Letters 10 (1) (Jan. 2003) 11–14. Yu SZ, Kobayashi H, 2006. Practical Implementation of an Efficient Forward– Backward Algorithm for an Explicit-Duration Hidden Markov Model. IEEE Transactions on Signal Processing 54 (5) (January 2006) 1947– 1951.
55
LAMPIRAN
56
57
Lampiran 1. Data asli struktur protein sekunder dengan DSSP ==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=20-MAR-2009 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 . HEADER ALU DOMAIN 13-NOV-97 1914 . COMPND 2 MOLECULE: SIGNAL RECOGNITION PARTICLE 9/14 FUSION PROTEIN; . SOURCE 2 ORGANISM_SCIENTIFIC: MUS MUSCULUS; . AUTHOR D.BIRSE,U.KAPP,K.STRUB,S.CUSACK,A.ABERG . 171 4 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) . 10532.0 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) . 129 75.4 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES . 5 2.9 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 43 25.1 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-5), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-4), SAME NUMBER PER 100 RESIDUES . 2 1.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-3), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-2), SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-1), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+0), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+1), SAME NUMBER PER 100 RESIDUES . 14 8.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+2), SAME NUMBER PER 100 RESIDUES . 8 4.7 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+3), SAME NUMBER PER 100 RESIDUES . 54 31.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+4), SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+5), SAME NUMBER PER 100 RESIDUES . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 *** HISTOGRAMS OF *** . 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RESIDUES PER ALPHA HELIX . 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PARALLEL BRIDGES PER LADDER . 0 0 0 0 2 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ANTIPARALLEL BRIDGES PER LADDER . 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LADDERS PER SHEET . # RESIDUE AA STRUCTURE BP1 BP2 ACC N-H-->O O-->H-N N-H-->O O-->H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA 1 2001 A M 0 0 116 0, 0.0 2,-0.5 0, 0.0 55,-0.2 0.000 360.0 360.0 360.0 171.6 49.0 65.1 2 2002 A V 0 0 68 53,-0.4 55,-2.6 56,-0.0 2,-0.5 -0.968 360.0-143.0-146.2 117.8 46.7 67.1 3 2003 A L E -a 57 0A 122 -2,-0.5 2,-0.2 53,-0.2 55,-0.2 -0.712 36.4-179.2 -77.2 125.1 47.1 68.6 4 2004 A L E -a 58 0A 32 53,-1.8 55,-0.5 -2,-0.5 2,-0.1 -0.725 28.5 -98.5-124.4 174.8 43.7 68.3 5 2005 A E > 0 0 145 -2,-0.2 4,-2.5 53,-0.1 5,-0.3 -0.402 47.1 -96.7 -84.9 165.3 42.0 69.2 6 2006 A S H > S+ 0 0 18 1,-0.2 4,-1.8 2,-0.2 3,-0.1 0.946 125.2 33.7 -47.8 -59.4 41.4 66.6 7 2007 A E H > S+ 0 0 151 1,-0.2 4,-1.4 2,-0.2 -1,-0.2 0.768 115.4 56.5 -73.7 -28.7 37.9 65.8
Z-CA 29.1 31.0 34.4 36.1 39.3 42.0 40.9
58
2
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 2031 2032 2033 2034
A A A A A A A A A A A A A A A A A A A A A A A A A A A
2047 2048 2049 2050 2051 2052 2053 2054 2055 2056 2057 2058 2059 2060 2061
A A A A A A A A A A A A A A A
Q F L T E L T R L F Q K C R S S G S V F I T L K K Y D ! E G L E P A E N K C L L R A T
H H H H H H H H H H H H T S S S
> X X X X >X 3X 3X <X >< >< 3< << <
E E E E E E E E
S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ SS+ -B -BC -BC -BC +BC - C - C C
E E E E E E E
+ -CD -CD -CD +CD +CD +CD -CD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 124 123 122 121 120 0 0 0 0 0 0 0 0 0 0 0 0 0 33 32 31 30 29 28 27
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0A 50A 49A 48A 47A 46A 45A 44A 0 0 0 0 0 0 0 0 0 0 61A 60A 59A 58A 57A 56A 55A
105 0 18 58 26 0 34 145 0 5 117 125 6 92 104 69 19 15 3 83 2 31 0 66 39 108 177 0 252 56 166 158 94 65 137 44 56 0 41 0 103 1 25
1,-0.2 -4,-2.5 -4,-1.8 -4,-1.4 -4,-1.3 -4,-1.9 -4,-1.8 -4,-1.6 -3,-1.0 -4,-2.3 -4,-2.4 -4,-1.6 -4,-0.9 -3,-0.6 1,-0.3 -4,-0.2 -2,-0.3 26,-0.2 98,-2.1 23,-2.6 94,-2.4 19,-2.6 90,-2.3 15,-1.1 83,-0.7 11,-2.2 -2,-0.3 0, 0.0 0, 0.0 1,-0.1 1,-0.2 1,-0.1 0, 0.0 -2,-0.7 -2,-0.9 124,-0.3 -11,-0.9 15,-1.7 -15,-3.1 11,-3.1 -19,-2.8 7,-2.4 -23,-2.1
4,-1.3 4,-1.9 4,-1.8 4,-1.6 4,-0.5 4,-2.3 4,-2.4 4,-1.6 4,-0.9 3,-0.6 3,-0.6 3,-0.3 106,-0.6 -1,-0.2 2,-0.3 -1,-0.3 103,-0.4 2,-0.5 98,-2.2 23,-2.1 94,-1.9 19,-2.8 90,-2.4 15,-3.1 2,-0.3 11,-0.9 9,-0.1 0, 0.0 0, 0.0 0, 0.0 -1,-0.1 2,-0.7 2,-0.9 -2,-0.1 2,-0.2 19,-1.0 -11,-2.2 15,-1.9 -15,-1.1 11,-1.4 -19,-2.6 7,-2.8 -23,-2.6
2,-0.2 2,-0.2 -5,-0.3 2,-0.2 2,-0.2 2,-0.2 1,-0.3 1,-0.2 -4,-0.5 1,-0.2 1,-0.2 1,-0.2 -3,-0.6 105,-0.1 -3,-0.3 104,-0.0 -3,-0.1 100,-0.2 -2,-0.3 -2,-0.5 -2,-0.4 -2,-0.4 -2,-0.4 -2,-0.3 86,-0.5 133,-0.2 9,-0.1 0, 0.0 0, 0.0 2,-0.1 2,-0.0 2,-0.1 0, 0.0 1,-0.1 19,-0.0 -9,-0.1 -2,-0.2 -13,-0.3 -2,-0.3 -2,-0.5 -2,-0.5 -2,-0.3 -2,-0.3
-1,-0.2 -2,-0.2 -1,-0.2 -1,-0.2 -2,-0.2 3,-1.0 -2,-0.2 -1,-0.3 -2,-0.2 -2,-0.2 -1,-0.2 -1,-0.2 107,-0.4 3,-0.1 -2,-0.1 2,-0.1 2,-0.3 100,-0.2 2,-0.4 2,-0.4 2,-0.4 2,-0.3 2,-0.3 88,-0.1 13,-0.3 -1,-0.0 11,-0.0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 -1,-0.2 -1,-0.1 -3,-0.0 -1,-0.1 2,-0.3 2,-0.3 2,-0.5 2,-0.5 2,-0.3 2,-0.3 2,-0.3 5,-0.2
0.856 0.914 0.808 0.844 0.691 0.904 0.898 0.779 0.912 0.906 0.861 0.647 -0.254 0.772 0.687 -0.952 -0.298 -0.950 -0.950 -0.906 -0.995 -0.922 -0.932 -0.933 -0.344 -0.993 -0.876 0.000 0.000 0.770 0.887 -0.625 0.115 -0.417 0.647 -0.551 -0.889 -0.997 -0.809 -0.955 -0.848 -0.991 -0.979
109.1 49.2 -71.1 -30.9 107.4 53.0 -71.2 -47.9 111.4 46.3 -58.8 -31.9 113.9 48.1 -78.5 -32.1 111.1 51.4 -76.2 -31.0 106.9 53.1 -70.9 -49.6 107.7 52.2 -54.0 -43.6 106.7 53.2 -64.4 -30.8 109.6 47.5 -68.1 -48.3 112.2 51.6 -58.8 -40.6 107.1 50.9 -66.9 -35.6 106.0 58.1 -78.8 -14.0 75.4 96.1-112.9 47.3 88.4 40.1-101.9 -37.5 137.6 -18.2 -83.0 -21.3 96.9 46.8-177.0 159.9 63.4 -95.7 93.7-179.9 16.8-131.8-138.8 155.2 21.5-162.7-110.4 122.9 5.7-173.2-105.6 140.7 3.8-166.5-132.5 122.1 1.8-169.2-115.7 139.0 14.7 158.5-121.9 144.8 42.9-100.5-167.4 142.9 43.5-164.7 -60.7 148.2 360.0 360.0-143.3 142.9 360.0 360.0 -97.8 360.0 360.0 360.0 360.0 360.0 360.0 360.0 360.0-148.9 360.0 -92.2 119.4 -9.0 47.6-172.3 65.9 62.9 35.0-113.5 -87.9 138.9 55.5-114.6 -62.5 16.6 30.1 -90.5 100.0 -70.2 27.5-133.2 115.6 94.4 35.7 172.8 -82.5 138.8 29.4-146.9-145.4 173.5 22.0-130.8-143.7 137.8 19.0-161.4 -93.4 131.7 13.0 177.3-117.5 115.2 4.4 178.3-117.7 153.8 1.5 172.8-152.2 150.5 32.0-157.8-154.1 161.6
38.5 41.3 39.1 36.4 39.0 40.6 37.2 36.8 40.2 39.3 36.0 37.6 40.0 37.6 37.4 41.1 44.2 45.6 45.4 48.8 48.9 52.2 52.8 55.9 57.1 57.2 58.8 0.0 54.1 54.6 56.9 54.9 56.8 55.9 53.6 54.6 53.2 53.0 52.4 49.7 49.7 47.6 47.3
66.3 63.7 61.2 61.4 61.1 58.1 56.4 56.9 55.3 52.2 52.1 52.2 49.3 46.6 44.8 45.3 47.2 48.2 51.2 52.4 54.8 56.3 58.1 60.2 62.9 66.3 69.7 0.0 87.5 86.8 83.6 80.3 77.0 75.7 72.7 69.1 67.2 64.1 63.8 61.3 60.1 57.6 56.3
37.2 37.4 39.3 36.6 33.8 35.5 35.8 32.1 31.5 33.5 31.6 28.1 28.9 29.8 26.5 26.2 27.3 30.6 32.9 34.3 37.2 38.4 41.7 42.7 45.2 43.5 44.4 0.0 49.9 53.9 54.0 54.1 54.7 51.2 50.5 50.0 47.0 44.8 41.0 39.9 36.3 34.4 30.9
59
3
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93
2062 2063 2064 2065 2066 2067 2068 2069 2070 2071 2072 2073 2074 2075 2076 2077 2078 2079 2080 2081 2082 2083 2084 2085 2086 2087 2088 2089 2090 2091 2092 2093 2094 2095 2096 2097
A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A
3001 3002 3003 3004 3005 3006
A A A A A A
D G K R K I S T V V S S K E V N K F Q M A Y S N L L R A N M D G L K K R ! A Q G G E Q
S S S E E E E E E E T T S H H H H H H H H H H H H H H H S
S B
E E E E
> 3 3 <> > > > X X X X X X X X X < < < <
S0 S+ 0 S+ 0 0 + D 0 + D 0 -aD 3 -aD 4 - D 0 - D 0 - D 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 S+ 0 + 0 + 0 S0 -h 148 0 0 0 0 + 0 -E 145 -E 144 -E 143 +E 142
0 0 0 0 50A 49A 48A 47A 46A 45A 44A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0B 0 0 0 0 0 0A 0A 0A 0A
18 62 164 67 113 0 6 2 29 0 18 40 183 61 10 117 172 8 17 136 46 0 18 102 18 0 90 58 25 5 92 25 16 106 191 249 0 97 92 15 11 100 139
3,-0.9 2,-0.2 1,-0.4 -38,-0.0 -2,-0.5 -7,-2.8 -55,-2.6 -11,-1.4 -55,-0.5 -15,-1.9 -2,-0.4 -19,-1.0 1,-0.2 -3,-1.4 -4,-0.3 -4,-0.3 2,-0.2 -4,-2.2 -4,-3.6 -4,-1.2 -4,-1.2 -4,-3.3 -4,-3.1 -4,-1.3 -4,-2.4 -4,-1.5 -4,-2.0 -4,-2.2 -4,-2.1 -4,-2.1 -2,-1.1 -3,-0.2 -2,-0.5 63,-2.1 -2,-0.3 63,-0.0 0, 0.0 0, 0.0 57,-0.2 55,-1.3 7,-0.5 51,-1.7 -2,-0.3
-26,-0.2 3,-0.1 2,-0.5 -3,-0.9 -53,-0.4 -7,-2.4 -53,-1.8 -11,-3.1 2,-0.4 -15,-1.7 3,-1.4 4,-0.3 -1,-0.3 4,-2.2 4,-3.6 4,-1.2 4,-1.2 4,-3.3 4,-3.1 4,-1.3 4,-2.4 4,-1.5 4,-2.0 4,-2.2 4,-2.1 4,-2.1 -2,-0.2 3,-0.2 2,-1.1 -1,-0.2 2,-0.5 2,-0.2 2,-0.3 65,-1.3 -1,-0.1 -1,-0.1 0, 0.0 2,-0.3 57,-0.2 55,-1.8 7,-1.0 51,-1.4 49,-0.2
-2,-0.3 1,-0.1 0, 0.0 -53,-0.0 -5,-0.2 -2,-0.4 -2,-0.3 -2,-0.3 -2,-0.3 -2,-0.5 -17,-0.2 105,-0.3 2,-0.1 2,-0.1 2,-0.2 2,-0.2 1,-0.1 1,-0.2 1,-0.2 -5,-0.2 -3,-0.4 1,-0.2 -5,-0.2 -5,-0.3 2,-0.2 -3,-0.2 1,-0.2 -5,-0.2 1,-0.2 -5,-0.2 -3,-0.2 48,-0.1 -3,-0.1 45,-0.6 63,-0.1 62,-0.0 0, 0.0 0, 0.0 58,-0.1 -2,-0.3 8,-0.2 5,-0.2 49,-0.2
4,-0.1 -26,-0.1 -1,-0.1 2,-0.4 2,-0.3 2,-0.3 2,-0.3 2,-0.5 -13,-0.2 2,-0.2 4,-0.3 3,-0.1 4,-0.1 5,-0.2 5,-0.2 -1,-0.2 -1,-0.2 3,-0.4 5,-0.3 -1,-0.2 -2,-0.2 -2,-0.2 3,-0.2 -2,-0.2 -1,-0.2 -2,-0.2 -1,-0.2 -1,-0.2 3,-0.2 3,-0.1 -1,-0.2 -1,-0.1 65,-0.2 66,-0.3 -2,-0.1 -2,-0.1 0, 0.0 60,-0.1 2,-0.1 9,-0.1 2,-0.3 2,-0.7 2,-0.2
0.033 0.096 0.727 -0.884 -0.932 -0.911 -0.948 -0.963 -0.948 -0.770 -0.658 0.592 0.687 0.163 0.927 0.909 0.897 0.944 0.810 0.924 0.956 0.849 0.955 0.875 0.828 0.965 0.836 0.916 0.716 -0.526 0.228 -0.435 -0.761 -0.147 0.707 0.727 0.000 0.000 -0.708 -0.269 -0.339 -0.998 -0.804
72.7 -89.3-124.7 122.2 44.1 96.2 107.5 46.6-116.9 67.4-162.9-111.7 11.5 175.9 -89.4 3.2 178.6-133.1 6.7-172.7-152.8 21.6-128.9-159.6 23.6-167.0-118.6 5.8-169.4-100.4 40.7 -97.7-122.4 116.4 69.4 -67.3 116.1 19.3 -80.4 85.6 105.7-140.9 85.1 52.0 -69.4 116.9 37.8 -59.7 120.9 46.5 -73.6 110.1 52.9 -63.8 101.6 59.8 -56.5 115.9 34.2 -63.3 120.4 50.0 -73.1 109.7 50.5 -55.5 112.5 47.2 -62.9 109.8 53.3 -62.6 108.6 49.3 -65.3 113.8 44.6 -70.4 117.4 45.5 -62.5 118.8 39.1 -75.7 105.3 64.6 -80.1 70.7 119.6 -98.4 35.4 93.6-113.4 62.9 118.7-102.2 79.8 -52.8-121.9 57.6-140.4 -44.9 360.0 360.0 -22.9 360.0 360.0 67.3 360.0 360.0 360.0 360.0 360.0 360.0 360.0 92.8 -93.6 53.5-110.1 141.1 20.1-149.7 -90.0 9.5-154.5-148.0 33.6 171.2-112.0
16.1 -21.3 -58.1 112.3 120.4 158.4 166.2 156.9 111.7 141.0 176.0 -13.6 -16.8 21.8 -41.7 -44.4 -42.1 -52.2 -34.0 -41.2 -51.5 -43.1 -46.1 -40.8 -35.1 -48.5 -36.7 -43.9 -23.7 63.6 9.2 59.0 166.9 97.9 -82.1 360.0 360.0 -67.9 146.2 143.2 173.4 136.1 85.7
45.5 48.2 46.5 45.2 47.5 46.3 47.9 47.1 49.0 47.9 49.0 48.8 45.8 43.6 45.0 42.4 39.4 41.1 42.1 38.5 37.3 40.5 40.5 36.8 37.4 40.3 38.4 35.3 36.9 39.5 36.9 37.5 39.7 39.7 36.1 36.9 0.0 49.9 50.6 54.1 56.8 60.1 63.4
53.7 54.0 56.7 59.4 60.6 62.5 63.8 65.7 67.2 66.2 68.0 67.5 69.9 67.4 63.8 62.7 64.0 62.8 59.4 58.6 59.0 57.6 54.5 53.7 54.2 51.7 49.0 49.5 49.7 47.0 44.3 41.9 39.4 35.8 35.7 33.4 0.0 34.2 35.7 36.8 39.4 40.0 41.6
28.8 26.1 24.2 26.6 29.4 32.5 35.7 38.9 41.8 45.3 48.4 52.2 52.2 50.4 50.7 53.2 51.0 47.8 49.1 50.2 46.6 45.1 47.3 46.4 42.7 42.6 44.5 42.4 39.0 39.5 39.9 37.1 39.0 40.1 41.8 44.9 0.0 39.6 42.9 44.0 44.3 42.6 43.7
60
4
94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136
3007 A K 3008 A L ! 4004 A F 4005 A Q 4006 A T 4007 A W 4008 A E 4009 A E 4010 A F 4011 A S 4012 A R 4013 A A 4014 A A 4015 A E 4016 A K 4017 A L 4018 A Y 4019 A L 4020 A A 4021 A D 4022 A P 4023 A M 4024 A K 4025 A V 4026 A R 4027 A V 4028 A V 4029 A L 4030 A K 4031 A Y 4032 A R 4033 A H 4034 A V 4035 A D 4036 A G 4037 A N 4038 A L 4039 A C 4040 A I 4041 A K 4042 A V 4043 A T
E
E
+ > S> S+ > S+ > S+ X S+ X S+ X S+ X S+ X S+ X S+ X S+ X S+ < S+ < S+ < S>X T 34 S+ T 34 S+ T <4 S+ < E - F E -BF E -BF E -BF E -BF E -BF E >> - F T 45S+ T 45S+ T 45ST <5 + E < -F E -FG E -FG E -FG E -FG E +FG E -FG S H H H H H H H H H H H H H H
141 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 30 29 28 27 26 0 0 0 0 0 125 124 123 122 121 120 119
0A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 136A 135A 134A 133A 132A 131A 130A 0 0 0 0 0A 146A 145A 144A 143A 142A 141A
143 137 0 34 132 49 39 118 88 0 13 143 24 0 77 164 18 4 93 79 65 34 84 119 0 60 0 18 2 65 7 64 40 75 88 11 56 2 11 0 72 0 7
47,-2.1 45,-0.2 0, 0.0 0, 0.0 -7,-1.0 -2,-0.8 2,-0.2 1,-0.2 -5,-0.4 -4,-1.0 -4,-2.7 -4,-1.9 -4,-2.0 -4,-2.9 -4,-2.0 -4,-2.0 -4,-2.2 -4,-1.6 -4,-2.4 -4,-1.9 -4,-1.0 0, 0.0 1,-0.2 -3,-1.7 -4,-0.9 17,-3.3 -90,-2.4 13,-4.0 -94,-1.9 9,-2.2 -98,-2.2 5,-2.6 -106,-0.6 -103,-0.4 -3,-0.2 -4,-1.3 -5,-1.8 15,-2.1 -9,-2.1 11,-2.1 -13,-2.6 7,-2.5 -17,-2.1
47,-2.4 45,-0.1 0, 0.0 2,-0.8 -7,-0.5 4,-1.0 4,-2.7 4,-1.9 4,-2.0 4,-2.9 4,-2.0 4,-2.0 4,-2.2 4,-1.6 4,-2.4 4,-1.9 4,-1.0 3,-0.2 -2,-0.2 -1,-0.2 3,-1.7 -83,-0.7 -82,-0.1 2,-0.3 -86,-0.5 17,-2.1 -90,-2.3 13,-2.6 -94,-2.4 9,-2.1 -98,-2.1 5,-1.8 3,-0.4 -1,-0.2 -1,-0.2 -45,-0.6 -5,-2.6 15,-2.1 -9,-2.2 11,-0.8 -13,-4.0 7,-1.3 -17,-3.3
-2,-0.7 -2,-0.2 0, 0.0 0, 0.0 4,-0.1 -9,-0.1 1,-0.2 2,-0.2 2,-0.2 -6,-0.2 1,-0.2 -5,-0.2 1,-0.2 1,-0.2 -5,-0.3 2,-0.2 -5,-0.2 1,-0.2 1,-0.2 1,-0.2 -3,-0.2 0, 0.0 -85,-0.1 -6,-0.2 -7,-0.2 -2,-0.3 -2,-0.4 -2,-0.6 -2,-0.4 -2,-0.4 -2,-0.4 -2,-0.5 -2,-0.5 -107,-0.4 2,-0.1 -3,-0.4 -47,-0.1 -2,-0.3 -2,-0.4 -2,-0.4 -2,-0.5 -2,-0.4 -2,-0.5
45,-0.1 -1,-0.1 0, 0.0 5,-0.4 5,-0.1 -8,-0.2 5,-0.2 5,-0.2 -1,-0.2 5,-0.3 -2,-0.2 -1,-0.2 -2,-0.2 -1,-0.2 -1,-0.2 -2,-0.2 -2,-0.2 -2,-0.2 -1,-0.2 -2,-0.2 4,-0.9 3,-0.1 -5,-0.0 -1,-0.2 2,-0.4 2,-0.6 2,-0.4 2,-0.4 2,-0.4 2,-0.5 2,-0.5 4,-1.3 -1,-0.2 -106,-0.1 -2,-0.2 2,-0.3 2,-0.4 2,-0.4 2,-0.5 2,-0.4 2,-0.5 2,-0.3 5,-0.2
-0.485 -0.073 0.000 0.000 -0.176 -0.029 0.859 0.914 0.842 0.963 0.886 0.919 0.909 0.832 0.880 0.885 0.880 0.946 0.753 0.972 -0.640 0.747 0.693 0.581 -0.580 -0.960 -0.917 -0.908 -0.993 -0.973 -0.935 -0.845 0.909 0.843 0.642 0.894 -0.980 -0.947 -0.987 -0.958 -0.969 -0.995 -0.969
360.0 360.0 -97.1 360.0 360.0-144.5 360.0 360.0 360.0 360.0 360.0 360.0 360.0 73.1 44.9 76.2-138.9 -48.9 104.7 62.7 -68.3 103.8 45.0 -52.9 112.7 52.4 -67.6 108.6 49.2 -62.8 112.8 46.6 -51.4 114.6 47.3 -60.7 113.3 47.3 -60.2 110.3 54.6 -62.7 109.6 45.0 -69.4 111.1 54.8 -68.0 111.7 45.3 -61.1 112.5 47.9 -70.9 101.1 68.5 -59.9 128.1 -6.7 -58.0 65.0-176.6-145.3 83.3 57.9 -50.8 109.5 42.0 -76.2 92.4 99.1-101.6 51.6-161.1 -85.8 6.3-152.6-117.8 18.8-167.3-104.3 11.8-171.9-115.8 3.7-176.0-127.9 2.2-171.9-134.5 6.1-174.9-113.3 1.2-177.7-120.2 81.6 51.3 -50.9 116.0 41.9 -55.4 106.3-129.6 -83.4 63.1 123.9 70.9 44.4-160.0-138.3 11.8-167.5-118.5 6.2-168.6-138.8 7.2-174.3-117.4 10.4-173.0-125.2 27.3 154.5-120.2 45.7-161.0-143.8
165.3 360.0 360.0 13.4 -93.0 146.5 -41.6 -46.3 -37.0 -54.0 -50.2 -47.5 -48.6 -34.1 -43.7 -37.6 -37.2 -52.3 -27.2 -57.0 85.1 -32.1 -21.9 -12.6 138.4 131.1 120.5 140.7 132.0 117.4 124.0 93.0 -54.7 -38.8 -18.2 39.8 146.5 144.3 128.2 129.4 131.2 116.8 158.0
65.1 68.1 0.0 59.0 56.5 54.8 53.0 54.5 58.1 57.2 55.6 58.5 61.1 59.1 58.7 62.5 63.2 60.8 62.2 65.7 65.2 61.5 62.3 63.7 61.1 58.2 55.1 53.4 50.0 48.9 45.4 44.5 40.8 40.6 43.5 42.2 45.5 46.8 50.4 52.3 55.8 58.0 61.3
42.8 44.9 0.0 37.7 35.4 36.6 40.0 40.6 40.5 42.6 45.4 45.6 45.7 48.3 50.4 50.5 51.3 54.2 55.6 55.3 58.1 59.4 61.8 59.1 56.4 55.7 53.7 52.0 50.3 48.3 46.9 44.6 43.8 41.4 39.3 39.6 40.7 43.6 44.6 47.0 48.2 50.2 51.3
40.5 39.8 0.0 47.2 47.0 50.1 49.9 53.3 52.0 49.1 51.2 53.6 50.8 48.8 52.0 52.7 49.0 49.3 52.6 51.3 48.8 48.5 45.6 43.3 43.8 41.5 42.5 39.5 39.2 36.2 35.9 33.1 33.3 30.3 31.7 35.3 36.8 38.9 39.2 41.5 41.1 43.4 41.8
61
5 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174
4044 4045 4046 4047 4048 4049 4050 4051 4052 4053 4054 4055 4056 4057 4058 4059 4060 4061 4062 4063 4064 4065 4066 4067 4068 4069 4070 4071 4072 4073 4074 4075 4076 4077 4078 4079 4080 4081
A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A
D D L V C L V Y R T D Q A Q D V K K I E K F H S Q L M R L M V A K E S R N V
S S S E E E E E E B G G G H H H H H H H H H H H H H H H H
>> >4 34 <> <X > > X X X X X X X >X 3X 3X << < < <
S+ S+ S-EG +EG -EG -EG +EG - G + -h S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ -
0 0 0 0 94 93 92 91 90 0 0 84 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 136A 135A 134A 133A 132A 131A 0 0B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
48 108 109 43 22 7 11 5 117 2 25 40 45 123 2 7 120 65 1 6 105 14 0 2 82 1 0 93 69 0 3 55 112 166 129 222 122 201
3,-1.4 2,-0.4 1,-0.6 -45,-0.1 -47,-2.4 -7,-1.3 -51,-1.4 -11,-0.8 -55,-1.8 -15,-2.1 -2,-0.3 -65,-0.2 -65,-1.3 -66,-0.3 -3,-2.0 -4,-0.5 -4,-0.5 -4,-0.4 -4,-2.0 -4,-2.1 -4,-2.8 -4,-1.9 -4,-1.7 -4,-2.9 -4,-1.3 -4,-2.1 -4,-1.6 -4,-1.5 -4,-1.4 -4,-2.3 -4,-1.6 -4,-1.9 -107,-0.1 -2,-0.3 -2,-0.5 -2,-2.3 -2,-0.2 -2,-0.7
4,-0.1 3,-0.1 2,-0.3 -3,-1.4 -47,-2.1 -7,-2.5 -51,-1.7 -11,-2.1 -55,-1.3 -15,-2.1 -63,-2.1 3,-2.0 3,-0.5 4,-0.4 4,-2.0 4,-2.1 4,-2.8 4,-1.9 4,-1.7 4,-2.9 4,-1.3 4,-2.1 4,-1.6 4,-1.5 4,-1.4 4,-2.3 4,-1.6 4,-1.9 -2,-0.2 -2,-0.2 -105,-0.3 2,-0.3 2,-0.5 2,-2.3 2,-0.2 2,-0.7 -1,-0.1 -1,-0.2
-2,-0.3 1,-0.2 -45,-0.1 -30,-0.1 -2,-0.3 -2,-0.4 -2,-0.4 -2,-0.3 -2,-0.3 -2,-0.3 -17,-0.2 1,-0.1 -2,-0.5 1,-0.2 2,-0.1 -3,-0.5 1,-0.2 2,-0.2 2,-0.2 -5,-0.3 1,-0.2 2,-0.2 1,-0.2 1,-0.2 2,-0.2 1,-0.2 1,-0.3 2,-0.2 -3,-0.7 1,-0.2 -5,-0.2 -5,-0.1 -126,-0.1 2,-0.0 2,-0.1 1,-0.1 1,-0.2 0, 0.0
-19,-0.1 -20,-0.1 -1,-0.2 -1,-0.6 2,-0.4 2,-0.3 2,-0.3 2,-0.3 2,-0.3 -57,-0.2 2,-0.5 4,-0.5 4,-0.5 -1,-0.3 5,-0.3 5,-0.2 -1,-0.2 -1,-0.2 -1,-0.2 -2,-0.2 -2,-0.2 -1,-0.2 -2,-0.2 -1,-0.2 -1,-0.2 3,-0.7 -2,-0.2 -1,-0.3 -1,-0.2 -133,-0.2 -124,-0.3 -124,-0.1 -1,-0.1 -2,-0.0 -2,-0.0 -3,-0.0 -2,-0.1 0, 0.0
-0.020 0.493 0.530 -0.657 -0.935 -0.973 -0.779 -0.825 -0.796 -0.966 0.227 -0.697 0.723 0.588 0.642 0.947 0.864 0.835 0.817 0.951 0.830 0.921 0.892 0.815 0.860 0.940 0.888 0.762 0.925 0.850 0.734 -0.149 -0.729 -0.922 -0.398 -0.513 -0.309 0.950
67.2 -99.6-119.2 118.7 57.4 72.9 108.0 35.3-117.3 76.1-161.7 -85.0 11.6-175.2-122.2 11.6 175.8-135.2 15.3-164.0-116.6 10.0-167.2-152.3 13.3 164.5-104.0 35.3-172.9-152.7 60.6 111.4-137.5 60.3-149.6 -88.5 97.5 67.5 -63.4 94.1 56.2 -76.6 84.9 81.4 -93.2 89.7 52.8 -53.1 112.9 40.4 -52.1 113.8 53.5 -71.0 114.1 44.2 -69.4 112.1 50.4 -77.2 114.2 46.8 -56.1 111.1 47.8 -70.3 114.2 51.1 -52.2 105.9 53.3 -68.3 105.0 54.1 -69.4 105.2 55.8 -56.2 105.4 51.5 -60.1 107.7 51.2 -68.4 109.0 52.0 -71.2 118.0 37.6 -61.5 87.0 115.6 -87.6 59.7-134.9 -50.7 14.0-150.7 -94.9 20.1-122.4-118.2 34.7-167.1 -72.3 18.8-125.9 -70.8 360.0 360.0 -95.7 360.0 360.0 -70.6
18.1 1.6 -71.5 135.8 139.1 115.7 164.3 111.7 141.7 163.8 2.9 125.5 -20.3 -13.7 -16.0 -51.6 -52.2 -32.9 -32.8 -49.2 -35.5 -55.1 -42.2 -34.2 -39.7 -38.4 -40.0 -32.0 -39.3 -38.8 -28.8 136.0 141.9 128.9 86.0 142.3 54.6 360.0
64.1 65.2 68.0 66.4 62.9 60.2 57.0 54.0 51.6 48.2 45.0 43.2 40.3 41.3 44.7 43.1 42.4 45.9 47.6 45.5 45.9 49.6 50.0 47.8 49.9 53.0 51.1 50.5 54.3 55.1 52.6 53.1 54.5 57.3 57.9 61.4 63.0 64.4
53.9 52.9 50.8 48.3 47.0 45.4 44.0 42.1 40.4 39.0 37.7 37.4 39.8 39.5 41.3 44.5 46.0 45.7 46.7 49.8 50.6 50.3 52.4 54.9 54.9 55.7 58.7 59.9 59.7 61.7 64.4 64.4 67.7 67.7 70.3 71.3 73.5 76.8
41.9 38.4 39.8 42.2 41.1 43.2 41.5 42.8 40.5 41.3 39.9 43.3 43.9 47.6 46.9 45.4 48.8 50.3 47.1 47.1 50.7 50.4 47.2 49.0 52.2 50.1 48.7 52.3 53.1 50.0 51.0 54.8 56.2 58.7 61.3 60.4 63.1 62.1