PREDIKSI STRUKTUR SEKUNDER PROTEIN MENGGUNAKAN HIDDEN MARKOV MODEL PADA IMBALANCED DATA
DIAN PUSPITA SARI
DEPARTEMEN ILMU KOMPUTER MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
ii
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Prediksi Struktur Sekunder Protein menggunakan Hidden Markov Model pada Imbalanced Data adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang telah diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, September 2014 Dian Puspita Sari NIM G64100093
iv ABSTRAK DIAN PUSPITA SARI. Prediksi Struktur Sekunder Protein menggunakan Hidden Markov Model pada Imbalanced Data. Dibimbing oleh TOTO HARYANTO Penelitian ini bertujuan untuk memprediksi struktur sekunder protein menggunakan Hidden Markov Model. Data yang digunakan sebanyak 780, dengan 600 data sebagai data latih dan 180 data sebagai data uji. Dari keseluruhan data latih yang digunakan, didapatkan sebanyak 394052 struktur sekunder protein dengan jumlah alpha-helix (H) sebanyak 152782, betha-sheet (B) sebanyak 82355, dan coil (C) sebanyak 158915. Terlihat dari hasil persentase, data yang diperoleh masih imbalanced sehingga dilakukan oversampling untuk menambah jumlah kelas yang terkecil secara acak sampai diperoleh jumlah yang sama dengan kelas yang terbesar. Hasil dari penelitian ini menunjukkan bahwa Hidden Markov Model (HMM) dapat diterapkan untuk memprediksi struktur sekunder protein dengan algoritme Viterbi. Data yang telah di oversampling menghasilkan nilai Q3 score 45.49% untuk data latih dan 43.21% untuk data uji. Adapun untuk data yang tidak dilakukan oversampling menghasilkan nilai Q3 score 43.50% untuk data latih dan 43.19% untuk data uji. Kata kunci: Hidden Markov Model (HMM), imbalanced data, oversampling, Viterbi ABSTRACT DIAN PUSPITA SARI. Protein Secondary Structure Prediction using Hidden Markov Model on Imbalanced Data. Supervised by TOTO HARYANTO. This research aimed to predict protein secondary structure using Hidden Markov Model. A total of 780 data, will be conducted with 600 training data and 180 testing data. Training data obtained protein secondary structure 394052 with 152782 alpha-helix (H), 82355 betha-sheets (B) , and 158915 coil (C). Seen from a percentage of the result, the data retrieved is still imbalanced therefore used oversampling to increase the smallest class randomly until it equal to the largest class. The result of this research show that the Hidden Markov Model (HMM) can be applied to predict the secondary structure of proteins. The data has been oversampled produced Q3 score 45.49% for training data and 43.21% for testing data. For data that was not done oversampling produced Q3 score 43.50% for training data and 43.19% for testing data. Key words: Hidden Markov Model (HMM), imbalanced data, oversampling, Viterbi
v
PREDIKSI STRUKTUR SEKUNDER PROTEIN MENGGUNAKAN HIDDEN MARKOV MODEL PADA IMBALANCED DATA
DIAN PUSPITA SARI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
vi
Penguji: 1 Dr Ir Agus Buono, MSi MKom 2 Dr Eng Wisnu Ananta Kusuma, ST MT
Judul Skripsi : Prediksi Struktur Sekunder Protein menggunakan Hidden Markov Model pada Imbalanced Data Nama : Dian Puspita Sari NIM : G64100093
Disetujui oleh
Toto Haryanto, SKom MSi Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
viii PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul Prediksi Struktur Sekunder Protein menggunakan Hidden Markov Model pada Imbalanced Data. Terima kasih penulis ucapkan kepada kedua orangtua penulis, kakakkakak penulis yaitu Muryati, Masudi, dan Wiwit, serta seluruh anggota keluarga atas segala doa dan kasih sayangnya. Bapak Toto Haryanto, SKom MSi selaku pembimbing yang telah banyak memberikan saran, ide, nasehat dan dukungan. Disamping itu, penulis juga mengucapkan terima kasih kepada teman-teman Pixels atas semangat, bantuan dan suka duka dalam kebersamaan. Bogor, September 2014 Dian Puspita Sari
DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN PENDAHULUAN Latar Belakang Perumusan Masalah Tujuan Penelitian Manfaat Penelitian Ruang Lingkup Penelitian TINJAUAN PUSTAKA Imbalanced Data Strategi Sampling Hidden Markov Model (HMM) Algoritme Viterbi Precision, Recall, Akurasi, dan Q3 Score METODE Studi Pustaka Pengambilan Data Praproses Data Pembagian Data Strategi Sampling Pembuatan Hidden Markov Model Pengujian HASIL DAN PEMBAHASAN Praproses Data Pembuatan Hidden Markov Model Pengujian Simpulan Saran DAFTAR PUSTAKA LAMPIRAN
x x x 1 1 2 2 2 2 2 5 5 5 6 7 7 7 8 8 9 9 9 10 11 11 13 14 16 16 16 18
x
DAFTAR TABEL 1 Codon triplet pembentuk protein (Jones dan Pevzner 2004) 2 Asam amino, singkatan, simbol, dan karakteristik (Polanski dan Kimmel 2007) 3 Confusion matrix 4 Visualisasi dari matriks transisi 5 Visualisasi dari matriks emisi 6 Visualisasi distribusi sebaran peluang matrik emisi pada keseluruhan data 7 Visualisasi distribusi sebaran peluang matrik transisi pada keseluruhan 8 Precision dari data uji dan data latih 9 Recall dari data uji dan data latih 10 Akurasi dari data uji dan data latih 11 Hasil Q3 score dari data uji dan data latih
3 4 7 10 10 14 14 15 15 15 16
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10
Proses pembentukan protein Contoh urutan asam amino pembentuk protein Metode Penelitian Visualisasi format data Ilustrasi Pemodelan Prediksi Struktur Sekunder Protein dengan Hidden Semi Markov Model Visualisasi praproses data Persentase sebaran struktur sekunder protein pada data latih Persentase sebaran struktur sekunder protein pada data uji Ilustrasi dari duplikasi betha-sheet (B) Persentase sebaran data struktur sekunder protein setelah dilakukan oversampling
3 3 8 9 9 11 12 12 13 13
DAFTAR LAMPIRAN 1 Data asli struktur sekunder protein dengan format DSSP 2 Antar muka prediksi struktur sekunder protein
18 24
PENDAHULUAN
Latar Belakang Protein merupakan salah satu biomakromolekul yang mempunyai peran penting dalam makhluk hidup. Secara hierarki protein dibagi menjadi tiga tingkat yaitu, struktur primer, struktur sekunder, dan struktur tersier. Struktur primer adalah urutan asam amino yang membentuk rantai polipeptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi alpha-helix (H), betha-sheet (B), maupun coil (C) yang merupakan hasil dari sekuens asam amino yang berikatan dengan ikatan peptida (Atar et al. 2010). Struktur tersier adalah gabungan dari struktur sekunder setelah terjadi pelipatan (folding). Fungsi dari protein dapat diketahui jika sudah membentuk struktur tersier dalam bentuk 3D. Akan tetapi struktur tersier dapat ditentukan apabila struktur sebelumnya sudah diketahui. Menurut Atar et al. (2010) struktur protein dapat diketahui dengan kristalografi sinar-X dan Nuclear Magnetic Resonance (NMR) spectroscopy. Namun kedua teknik tersebut memakan waktu dan relatif mahal. Sehingga kebanyakan yang menggunakan metode sequencing protein karena relatif lebih mudah digunakan untuk memprediksi struktur sekunder protein. Prediksi struktur sekunder protein dilakukan untuk menemukan struktur 3D protein berdasarkan struktur primer protein. Ada dua metode prediksi struktur sekunder protein, yaitu metode pemodelan komparatif dan pemodelan de novo atau ab initio. Pemodelan protein komparatif memprediksi struktur protein berdasarkan struktur protein lain yang telah diketahui, sedangkan metode ab initio struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur protein lain (Martin et al. 2005). Berbagai metode digunakan untuk memprediksi struktur sekunder protein yang berbasis komputasi seperti menggunakan Hidden Markov Model (HMM), Hidden Semi Markov Model (HSMM), BP Neural Network dan Quasi-Newton algorithm, algoritme SOM dan SOGR, dan Neural Network. Menurut Eddy (1998), Hidden Markov Model (HMM) merupakan suatu kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret sekuens yang bersifat linear. Penelitian yang dilakukan oleh Martin et al. (2005) untuk memprediksi struktur sekunder protein menggunakan Hidden Markov Model dengan 2024 sekuens yang diambil secara acak dan mendapatkan tingkat akurasi 34.5% untuk data uji dan 58.3% untuk data latih. Akurasi yang didapat masih kecil karena data yang digunakan masih tidak seimbang (imbalanced). Penelitian lain dilakukan oleh He dan Edwardo (2009) yang mengusulkan metode sampling untuk menangani data yang imbalanced. Metode sampling untuk menangani imbalanced data antara lain adalah oversampling dan undersampling. Hidden Markov Model (HMM) merupakan model yang digunakan dalam penelitian ini dengan menggunakan algoritme Viterbi untuk melakukan prediksi struktur sekunder. Data yang digunakan dalam penelitian ini merupakan data yang imbalanced, sehingga dilakukan strategi sampling dengan oversampling untuk mengatasinya.
2 Perumusan Masalah Pentingnya memprediksi struktur sekunder protein untuk mengetahui fungsi dari protein. Banyak metode yang telah digunakan untuk memprediksi struktur sekunder protein untuk meningkatkan tingkat keakurasian. Metode Hidden Markov Model cocok digunakan karena karakteristik dari sekuens asam amino cocok dengan tipe data yang digunakan dalam pembuatan model. Hidden Markov Model telah banyak digunakan dalam memprediksi struktur sekunder protein. Akan tetapi, tingkat keakurasian masih rendah yang disebabkan kondisi data yang imbalanced.
Tujuan Penelitian Tujuan penelitian ini adalah menerapkan Hidden Markov Model untuk memprediksi struktur sekunder protein yang akan mengakomodasi imbalanced data.
Manfaat Penelitian Penelitian ini diharapkan dapat menjadi acuan dalam pengembangan prediksi struktur sekunder protein dan selanjutnya dapat dimanfaatkan oleh berbagai kalangan khususnya di bidang kajian Bioinformatika.
Ruang Lingkup Penelitian
1 2 3
Ruang lingkup penelitian ini adalah sebagai berikut: Pada proses pengujian struktur sekunder protein menggunakan sekuens tunggal. Menggunakan Define Secondary Structure of Protein (DSSP) dan Protein Data Bank (PDB) sebagai pembatas penentuan struktur sekunder protein. Data yang digunakan adalah sekuens asam amino pada enam enzim berdasarkan enzyme commission.
TINJAUAN PUSTAKA Struktur Protein Protein merupakan salah satu biomakromolekul yang mempunyai peran penting dalam mahluk hidup. Proses untuk mendapatkan protein dinamakan translasi. Protein dihasilkan dari proses translasi RNA dan DNA. Proses terbentuknya protein dapat dilihat pada Gambar 1.
3
transkipsi
DNA
RNA
translasi
PROTEIN
Gambar 1 Proses pembentukan protein Satu protein terdiri atas sejumlah sekuens asam amino. Protein dibentuk mulai dari urutan sekuens DNA sampai dengan proses translasi dan mendapatkan suatu protein. Transkripsi merupakan proses pengkopian molekul DNA menjadi RNA. Translasi merupakan proses penerjemahan codon pada RNA menjadi protein. Proses translasi akan dimulai ketika bertemu dengan codon AUG. Codon AUG berfungsi sebagai start codon dan mengkodekan asam amino metionin. Proses translasi akan berhenti apabila bertemu dengan stop codon yaitu UAA, UAG, dan UGA. Pada proses transkripsi kode A (adenin) dari DNA diganti menjadi kode U (urasil) pada RNA, kode G (guanin) dari DNA diganti menjadi kode C (sitosin) pada RNA, kode C (sitosin) dari DNA diganti menjadi kode G (guanin) pada RNA, dan kode T (timin) dari DNA diganti menjadi kode A (adenin) pada RNA (Elrod dan Stansfield 2002). Ilustrasi pembentukan satu protein berdasakan sekuensnya dapat dilihat pada Gambar 2. DNA RNA PROTEIN
: TAC CAT TGA CAG GAT ACG CCA ATC : AUG GUA ACU GUC CUA UGC GGU UAG : Met Val Thr Val Leu Cys Arg Stop
Gambar 2 Contoh urutan asam amino pembentuk protein Protein merupakan elemen dasar yang terbentuk dari asam amino dasar. Terdapat 20 asam amino dengan struktur kimia yang berbeda (Polanski dan Kimmel 2007). Asam amino terbentuk dari tiga huruf (triplet) dari kombinasi Asam Deoksiribosa (DNA) yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 1. Tabel 1 Codon triplet pembentuk protein (Jones dan Pevzner 2004)
U
C
U UUU Phe UUC Phe UUA Leu UUG Leu CUU Leu CUC Leu CUA Leu CUG Leu
C UCU Ser UCC Ser UCA Ser UCG Ser CCU Pro CCC Pro CCA Pro CCG Pro
A UAU Tyr UAC Tyr UAA Stop UAG Stop CAU His CAC His CAA Gln CAG Gln
G UGU Cys UGC Cys UGA Stop UGG Trp CGU Arg CGC Arg CGA Arg CGG Arg
4 Tabel 1 Codon triplet pembentuk protein (Jones dan Pevzner 2004)(lanjutan)
A
G
U AUU Ile AUC Ile AUA Ile AUG Met GUU Val GUC Val GUA Val GUG Val
C ACU Thr ACC Thr ACA Thr ACG Thr GCU Ala GCC Ala GCA Ala GCG Ala
A AAU Asn AAC Asn AAA Lys AAG Lys GAU Asp GAC Asp GAA Glu GAG Glu
G AGU Ser AGC Ser AGA Arg AGG Arg GGU Gly GGC Gly GGA Gly GGG Gly
Terdapat 64 codon yang berbeda, dengan 3 codon yang berfungsi sebagai stop codon. Dari 61 codon yang berbeda terdapat beberapa codon yang memiliki fungsi yang sama. Hal tersebut dapat memberikan keuntungan pada saat proses pembentukan protein, karena dapat menggantikan asam amino yang kemungkinan rusak (Elrod dan Stansfield 2002). Susunan asam amino pembentuk protein dapat dilihat pada Tabel 2. Tabel 2 Asam amino, singkatan, simbol, dan karakteristik (Polanski dan Kimmel 2007) Asam amino Singkatan Simbol Karakteristik Alanine Ala A Nonpolar, hydrophobic Arginine Arg R Polar, hydrophilic Asparagine Asn N Polar, hydrophilic Aspartic acid Asp D Polar, hydrophilic Cystein Cys C Polar, hydrophilic Glutamine Gln Q Polar, hydrophilic Glutamic acid Glu E Polar, hydrophilic Glycine Gly G Polar, hydrophilic Histidine His H Polar, hydrophilic Isoleucine Ile I Nonpolar, hydrophobic Leucine Leu L Nonpolar, hydrophobic Lysine Lys K Polar, hydrophilic Methionine Met M Nonpolar, hydrophobic Phenylalanine Phe F Nonpolar, hydrophobic Proline Pro P Nonpolar, hydrophobic Serine Ser S Polar, hydrophilic Threonine Thr T Polar, hydrophilic Tryptophan Trp W Nonpolar, hydrophobic Tyrosine Tyr Y Nonpolar, hydrophobic Valine Val V Nonpolar, hydrophobic
5 Imbalanced Data Menurut He dan Edwardo (2009) sebuah himpunan data dikatakan imbalanced jika terdapat salah satu kelas yang direpresentasikan dalam jumlah yang tidak sebanding dengan kelas yang lain. Imbalanced data dapat diatasi dengan beberapa cara, antara lain dengan pengambilan sampel pada setiap kelas dan strategi sampling seperti oversampling dan undersampling.
Strategi Sampling Salah satu teknik yang paling populer untuk mengatasi data yang imbalanced adalah dengan menggunakan strategi sampling. Beberapa teknik sampling antara lain adalah oversampling dan undersampling (He dan Edwardo 2009). Oversampling adalah proses menduplikasi data dari kelas minoritas, sehingga jumlah kelas minoritas mendekati kelas mayoritas. Sedangkan undersampling adalah proses membuang sebagian data dari kelas mayoritas, sehingga jumlah kelas mayoritas mendekati kelas minoritas.
Hidden Markov Model (HMM) Hidden Markov Model (HMM) merupakan model probabilistik yang dapat diaplikasikan untuk menganalisis model deret waktu atau sekuens linear (Eddy 1998). HMM adalah salah satu pendekatan yang digunakan untuk memodelkan kumpulan sekuens tersebut. HMM telah banyak dikembangkan pada banyak permasalahan seperti speech recognition (Rabiner 1989). Menurut Rabiner (1989), aplikasi pada HMM pada akhirnya akan direduksi untuk menyelesaikan tiga jenis permasalahan, yaitu : 1 Jika diberikan suatu model λ = (A,B,π) , bagaimana menghitung peluang dari sekuens observasi O = O1,O2,...OT yang dinotasikan dengan P(O | λ). 2 Jika diberikan suatu model λ = (A,B,π) , bagaimana memilih state sekuens I = I1,I2,...IT sehingga P(O,I | λ) sebagai peluang bersama dari sekuens observasi O = O1,O2,...OT dan state sekuens tersebut memiliki nilai maksimum. 3 Mendapatkan parameter model HMM yang optimal sehingga peluang suatu observasi memiliki nilai maksimum, dengan λ adalah model HMM A adalah Matriks peluang transisi, B adalah Matriks peluang emisi dan π adalah Matriks peluang awal / Matriks priority O = O1,O2,...OT adalah variabel observasi P(O | λ) adalah peluang variabel observasi jika diberikan model Hidden Markov Model (HMM) menggambarkan distribusi peluang dari sejumlah sekuens yang tidak terbatas (Eddy 1998). Nama "Hidden Markov Model" berawal dari fakta bahwasannya state dari sekuens merupakan orde pertama dari rantai Markov sebagai variabel yang tidak teramati. Adapun sekuens dari simbol (seperti A,C,G,T/U) merupakan variabel yang secara langsung dapat diobservasi.
6 Algoritme Viterbi Algoritme Viterbi digunakan untuk mendapatkan state yang optimal sehingga peluang suatu observasi adalah yang paling maksimal. Untuk menemukan state terbaik, q = (q1q2......q ), untuk rangkaian observasi O = (o1 ґ
o2.........o ), perlu didefinisikan kuantitas: ґ
δt(i) = Maxq1,q2,..qt-1 P[q1q2....qt-1, qt = i, o1 o2....ot | λ]
(1)
Dengan menginduksi, didapat: .
δt+1(j) = [max δt(i)ij] bj(o1+1 )
(2)
Untuk mendapatkan kembali rangkaian state, perlu adanya penyimpanan hasil yang memaksimalkan persamaan (2), untuk tiap i dan j, dengan menggunakan tabel Aґ(j), dilakukan tahap- tahap berikut. Inisialisasi δ1 (i) = ᴨibi(oi) ψn (1) = 0
1≤ i ≥N
Rekursif δt (i) ψn(j)
= max 1≤ i ≥N [δt-1 (i)aij]bj(ot) = arg max [δt-1 (i)aij]
2≤t≤T,1≤j≤N 1≤ i ≥N, 2 ≤ t ≤ T , 1 ≤ j ≤ N
Terminasi P* δT*
= max 1≤ i ≥N [δT(i)] = arg max 1≤ i ≥N [δT(i)]
dengan : δt(i) = rangkaian terbaik dengan kemungkinan terbesar t = waktu perhitungan pengamatan t pertama dan berakhir pada status i. q = state o = observasi ψ = path terbaik pada saat sampai state ke i P = peluang b = matriks emisi a = matriks transisi
7 Precision, Recall, Akurasi, dan Q3 Score Pengukuran kemampuan algoritme dilakukan dengan confusion matrix yang dapat dilihat pada Tabel 3. Confusion matrix digunakan sebagai dasar dari variasi ukuran penilaian seperti precision, recall, dan akurasi karena mengandung informasi tentang data kelas aktual dan hasil prediksi. Precision merupakan proporsi dari kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan hasil prediksi kelas data positif. Recall merupakan persentase kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan instance kelas positif. Akurasi merupakan jumlah dari proporsi dari kelas data positif yang berhasil diprediksi dengan benar dan proporsi dari kelas data negatif yang berhasil diprediksi dengan benar dari keseluruhan kelas data positif dan negatif. Q3 score merupakan jumlah dari proporsi dari kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan data. Tabel 3 Confusion matrix Kelas aktual Kelas hasil prediksi Kelas positif Kelas negatif Kelas positif TP FP Kelas negatif FN TN dengan : TP = jumlah instance kelas positif yang diprediksi benar sebagai kelas positif FP = jumlah instance kelas negatif yang diprediksi salah sebagai kelas positif FN = jumlah instance kelas positif yang diprediksi salah sebagai kelas negatif TN = jumlah instance kelas negatif yang diprediksi benar sebagai kelas negatif
METODE Metode penelitian yang digunakan dapat dilihat pada Gambar 3. Tahapan penelitian ini meliputi studi pustaka, pengambilan data, praproses data, strategi sampling dengan oversampling, model HMM dan pengujian.
Studi Pustaka Studi pustaka dilakukan untuk mencari riset-riset yang pernah dilakukan yang terkait dengan bidang penelitian yang akan dilakukan. Dari riset yang telah dilakukan, penggunaan Hidden Markov Model (HMM) telah banyak digunakan untuk memprediksi struktur sekunder protein. Akan tetapi, masih belum banyak yang dapat menangani data yang imbalanced.
8 Pengambilan Data Data yang diambil adalah data sekuens protein sekunder dari alamat website ftp://ftp.cmbi.ru.nl/pub/molbio/data/dssp/ yang merupakan database assignment struktur sekunder protein. Data protein yang diambil merupakan data semua protein yang ada di Protein Data Bank (PDB). Data yang diperoleh masih dalam format dengan ekstensi .dssp, oleh karena itu dilakukan proses parsing sebelum data tersebut digunakan sebagai data latih dan data uji. Hasil dari proses parsing adalah pasangan asam amino dan assigment struktur sekunder protein. Mulai Studi pustaka Pengambilan data Praproses data
Oversampling
Strategi sampling
Data uji
Data latih
Pelatihan
Model HMM
Pengujian
Selesai Gambar 3 Metode Penelitian
Praproses Data Data struktur sekunder protein yang diperoleh masih dalam format dengan ekstensi .dssp dan tersegmentasi menjadi 8 struktur sehingga dilakukan praproses. Setiap satu file yang berekstensi .dssp akan diambil pasangan sekuens asam amino
9 dan struktur sekunder protein. Struktur yang kosong akan diganti dengan coil (C), dan segmen direduksi menjadi tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Wang dan Ping Li 2006). Segmen hasil reduksi adalah {I,H,G} menjadi alpha-helix (H), {E,B}menjadi betha-sheet (B), segmen {S,T,C} menjadi coil (C). Format data .dssp dapat dilihat pada Gambar 4.
Gambar 4 Visualisasi format data
Pembagian Data Data dibagi menjadi dua, yaitu data latih dan data uji. Data yang digunakan sebagai data latih merupakan 77% dari data keseluruhan, dan 23% digunakan sebagai data uji.
Strategi Sampling Penelitian ini menggunakan strategi sampling, karena data pada ketiga kelas imbalanced. Strategi sampling yang digunaka adalah oversampling. Pada strategi oversampling jumlah instance pada data minoritas ditambah sehingga jumlahnya mendekati data mayoritas. Strategi ini dilakukan dengan cara menduplikasi sebanyak n kali secara acak data dari kelas minoritas. Pada strategi oversampling diperoleh 1 set data hasil dari duplikasi.
Pembuatan Hidden Markov Model Pada tahap ini dilakukan proses pembentukan model dari data latih dengan menggunakan Hidden Markov Model (HMM). Ilustrasi pemodelan prediksi struktur sekunder protein dapat dilihat pada Gambar 5.
Gambar 5 Ilustrasi Pemodelan Prediksi Struktur Sekunder Protein dengan Hidden Semi Markov Model (Martin et al. 2005) Baris H-C menunjukkan model hidden state yang merepresentasikan alpha-helix (H), betha-sheet (B), dan coil (C). Barisan di bawah tanda panah merupakan barisan sekuens asam amino, yang merupakan sekuens observasi.
10 Hasil proses dari pemodelan adalah matriks transisi dan matriks emisi yang memiliki nilai tertentu yang dijadikan model dalam proses prediksi. Visualisasi matriks transisi dan emisi dapat dilihat pada Tabel 4 dan Tabel 5. Tabel 4 Visualisasi dari matriks transisi H B C H B C Matriks transisi merupakan matriks yang merepresentasikan kombinasi dari alpha-helix (H), betha-sheet (B), dan coil (C). Matriks transisi akan digunakan pada tahap pertama model markov. Matriks emisi merupakan matriks yang merepresentasikan kombinasi dari pasangan asam amino dengan struktur sekunder protein. Tabel 5 Visualisasi dari matriks emisi A R N D C Q E G H
I
L K M F P
S T W Y V
H B C
Pengujian Pada tahap pengujian dilakukan perhitungan precision, recall, akurasi, dan Q3 score. Persamaan dari precision, recall, akurasi, dan Q3 score score dapat dilihat pada persamaan 3, persamaan 4, persamaan 5, dan persamaan 6. TP
1
TP FP TP TP FN
N
dengan : Q3 score Nh Nb Nc Ntot
N
(4)
1
TP TN
Q
(3)
N N
(5)
1 N
1
(6)
= Tingkat akurasi = Jumlah dari residu yang di prediksi benar pada alpha-helix (H = Jumlah dari residu yang di prediksi benar pada betha-sheet (B) = Jumlah dari residu yang di prediksi benar pada coil (C) = Jumlah total dari residu yang diujikan
11
HASIL DAN PEMBAHASAN Praproses Data Data struktur sekunder protein yang diperoleh dari database masih dalam ekstensi .dssp sehingga perlu dilakukan praproses data terlebih dahulu. Praproses data dilakukan agar memudahkan proses komputasi pada tahap berikutnya. Setiap file yang berekstensi .dssp dari semua kategori protein akan diambil asam amino dan struktur sekundernya. Kolom yang diambil sebagai pasangan data asam amino dan struktur sekunder adalah kolom ketiga dan kolom keempat yaitu {AA} yang merupakan asam amino dan {STRUCTURE} yang merupakan struktur sekunder. Visualisasi praproses data dapat dilihat pada Gambar 6. Hasil dari praproses data adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Setelah didapat struktur sekunder protein, dihitung distribusi peluang dari setiap residu asam amino, yang nantinya akan digunakan untuk perhitungan tahap selanjutnya. Format lengkap data struktur sekunder protein dapat dilihat pada Lampiran 1.
Gambar 6 Visualisasi praproses data Data yang digunakan dalam penelitian ini berjumlah 780. Dengan 6 kategori berdasarkan enzyme commission yaitu, hydrolases, transferases, oxidoredutases, lyases, isomerase, dan ligases. Setiap kategori diambil 130 data sebagai sampel. Sebanyak 600 data digunakan sebagai data latih dan 180 data sebagai data uji. Dari keseluruhan data latih yang digunakan, didapatkan sebanyak 394052 struktur sekunder protein. Dengan jumlah alpha-helix (H) sebanyak 152782, betha-sheet (B) sebanyak 82355, dan coil (C) sebanyak 158915. Persentase dari sebaran data latih dapat dilihat pada Gambar 7. Terlihat dari hasil persentase, data yang diperoleh masih imbalanced sehingga dilakukan oversampling untuk menambah jumlah kelas yang terkecil secara acak sampai diperoleh jumlah yang sama dengan kelas yang terbesar.
12
Gambar 7 Persentase sebaran struktur sekunder protein pada data latih Dari keseluruhan data uji yang digunakan, didapatkan sebanyak 115645 struktur sekunder protein dengan jumlah alpha-helix (H) sebanyak 44543, bethasheet (B) sebanyak 20716, dan coil (C) sebanyak 50386. Persentase dari sebaran data uji dapat dilihat pada Gambar 8.
Gambar 8 Persentase sebaran struktur sekunder protein pada data uji
Strategi Sampling Strategi sampling yang digunakan adalah metode oversampling dengan menduplikasi data dari kelas betha-sheet (B) sebanyak n kali. Duplikasi data ditentukan dari panjang segmen betha-sheet (B). Dari setiap file data latih disetiap data dipilih segmen betha-sheet (B) yang terpanjang. Kemudian diduplikasi sebanyak n kali dengan ketentuan terdapat minimal 100 residu betha-sheet (B) hasil duplikasi disetiap data, agar jumlah dari betha-sheet (B) dapat mendekati jumlah dari alpha helix (H) dan coil (C). Hasil dari duplikasi tersebut diletakkan di barisan paling bawah pasangan asam amino dengan strukturnya. Ilustrasi dari duplikasi betha-sheet (B) dapat dilihat pada Gambar 9.
13
Gambar 9 Ilustrasi dari duplikasi betha-sheet (B) Setelah dilakukan oversampling secara acak pada residu betha-sheet (B), jumlah dari betha-sheet (B) yang semula 82355 menjadi 151445 residu. Gambar 10 menunjukkan perbandingan dari alpha-helix (H), betha-sheet (B), dan coil (C) setelah dilakukan oversampling.
Gambar 10 Persentase sebaran data struktur sekunder protein setelah dilakukan Oversampling
Pembuatan Hidden Markov Model Pembuatan Hidden Markov Model dilakukan setelah didapat pasangan data asam amino dan strukturnya. Pada tahap ini setiap pasangan asam amino dan struktur protein akan direpresentasikan sebagai matrik emisi. Kombinasi dari struktur sekunder protein akan direpresentasikan sebagai matriks transisi. Pada tahapan ini dibuat matrik transisi dan matrik emisi untuk data asli dan data hasil oversampling. Visualisasi distribusi sebaran peluang dari matrik emisi dan transisi pada keseluruhan data dapat dilihat pada Tabel 6 dan Tabel 7.
14 Tabel 6 Visualisasi distribusi sebaran peluang matrik emisi pada keseluruhan data Asam Data asli Data hasil oversampling amino H B C H B C A 0.117 0.117 0.0649 0.0664 0.0634 0.0664 R 0.0607 0.0422 0.0468 0.0607 0.0453 0.0468 N 0.0301 0.0242 0.0589 0.0301 0.0242 0.0589 D 0.0506 0.0328 0.0788 0.0506 0.0324 0.0788 C 0.0107 0.017 0.013 0.0107 0.0199 0.013 Q 0.0453 0.0291 0.0318 0.0453 0.03 0.0318 E 0.091 0.0455 0.0559 0.091 0.0428 0.0559 G 0.0397 0.0525 0.1224 0.0397 0.0559 0.1224 H 0.0225 0.0284 0.0258 0.0225 0.0301 0.0258 I 0.0609 0.0948 0.0339 0.0609 0.0859 0.0339 L 0.1149 0.1048 0.0659 0.1149 0.1078 0.0659 K 0.0641 0.0385 0.0569 0.0641 0.0386 0.0569 M 0.0273 0.0235 0.0196 0.0273 0.0255 0.0196 F 0.041 0.0607 0.0344 0.041 0.0573 0.0344 P 0.0261 0.0223 0.0866 0.0261 0.0226 0.0866 S 0.0446 0.0455 0.0728 0.0446 0.0443 0.0728 T 0.0419 0.0582 0.0586 0.0419 0.0598 0.0586 W 0.0165 0.0162 0.0097 0.0165 0.0155 0.0097 Y 0.0331 0.0506 0.027 0.0331 0.0492 0.027 V 0.0621 0.1303 0.0469 0.0621 0.1284 0.0469 Pada Tabel 6 terlihat bahwa matrik emisi dari data hasil oversampling dengan data asli tidak jauh berbeda. Hasil yang diperoleh untuk matrik emisi tidak jauh berbeda karena pada tahap sampling dengan oversampling tidak memperhitungkan hubungan antar pasangan sekuens. Yang diperhitungkan hanya panjang dari struktur betha-sheet (B). Tabel 7 Visualisasi distribusi sebaran peluang matrik transisi pada keseluruhan data Struktur Data asli (%) Data hasil oversampling (%) sekunder protein H B C H B C 0.8958 H 0.008 0.0962 0.8958 0.008 0.0962 B 0.0095 0.7646 0.2259 0.0052 0.8665 0.1284 C 0.0949 0.1148 0.7903 0.0945 0.116 0.7895
Pengujian Setelah didapatkan Hidden Markov Model maka dilanjutkan dengan tahapan pengujian. Tahapan pengujian dilakukan untuk mendapatkan nilai
15 precision, recall, akurasi, dan Q3 score dari model yang diperoleh. Tahapan pengujian yang pertama dilakukan untuk data yang masih imbalanced. Untuk data latih yag diujikan didapat Q3 score sebesar 43.50 %, sedangkan untuk data uji didapat Q3 score sebesar 43.19%. Tahapan pengujian yang kedua dilakukan untuk data yang sudah disampling dan mendapatkan Q3 score sebesar 45.49% untuk data latih, 43.21% untuk data uji. Hasil dari pengujian tahapan pertama dan kedua dapat dilihat pada Tabel 11.
Data latih Data uji
Tabel 8 Precision dari data uji dan data latih Data asli (%) Data hasil oversampling (%) H B C H B C 41.36 62.08 63.70 39.05 77.77 57.89 40.79 26.69 44.74 41.34 30.41 44.82
Dari tabel 8 dapat dilihat bahwa nilai precision setelah dan sebelum dilakukan oversampling tidak berubah secara signifikan. Nilai presisi yang didapat relatif masih kecil, hal itu menunjukkan bahwa masih besarnya kesalahan prediksi.
Data latih Data uji
Tabel 9 Recall dari data uji dan data latih Data asli (%) Data hasil oversampling (%) H B C H B C 96.66 0.74 14.75 93.31 28.73 15.82 40.54 0.42 63.11 39.37 3.98 62.73
Berdasarkan tabel 9 hasil recall yang diperoleh untuk betha-sheet dan coil relatif kecil dibanding alpha-helix. Nilai tersebut menunjukkan bahwa data yang dikelaskan dengan benar relatif kecil.
Data latih Data uji
Tabel 10 Akurasi dari data uji dan data latih Data asli (%) Data hasil oversampling (%) H B C H B C 45.70 79.16 62.14 49.95 74.04 67.00 54.43 81.98 49.97 55.13 81.17 50.12
Dari tabel 10 terlihat bahwa akurasi dari alpha-helix (H), dan coil (C) meningkat sedangkan akurasi dari betha-sheet (B) turun. Walaupun akurasi dari betha-sheet (B) menurun setelah disampling, tidak berarti bahwa teknik oversampling memberikan hasil yang kurang baik, karena jika dilihat dari precision dan recall hasil betha-sheet (B) mengalami kenaikan setelah dioversampling. Selain itu prior juga berpengaruh terhadap hasil akurasi yang didapat, karena nilai dari prior memberikan peluang awal untuk menentukan hasil prediksi.
16 Tabel 11 Hasil Q3 score dari data uji dan data latih Data Asli (%) Data hasil oversampling (%) Data latih 43.50 45.49 Data uji 43.19 43.21 Dari hasil Q3 score yang diperoleh terlihat bahwa hasil data setelah dilakukan oversampling memiliki persentase yang lebih baik dibanding data asli. Terlihat secara keseluruhan untuk presisi, recall, dan akurasi pada alpha-helix, coil, terutama pada betha-sheet memberikan hasil yang lebih baik setelah data disampling.
SIMPULAN DAN SARAN Simpulan Hidden Markov Model (HMM) dapat diterapkan untuk untuk memprediksi struktur sekunder protein. Identifikasi struktur sekunder protein dengan menggunakan Hidden Markov Model (HMM) dengan data yang telah dilakukan sampling memberikan nilai Q3 score lebih baik dibandingkan dengan data yang tidak disampling. Hasil Q3 score pada data yang disampling masih rendah karena metode sampling yang digunakan adalah metode oversampling secara acak, sehingga tidak memperhitungkan hubungan kemunculan antar pasangan sekuens.
Saran Pada penelitian selanjutnya dapat dikembangkan lebih lanjut untuk mendapatkan hasil dari precision, recall, akurasi, dan Q3 score yang lebih baik. Hal-hal yang dapat dilakukan diantaranya adalah dengan menggunakan strategi sampling yang lain seperti SMOTE untuk mengatasi imbalanced data dengan memperhitungkan hubungan kemunculan antar pasangan sekuens atau menggunakan model lain seperti BP Neural Network dan Quasi-Newton algorithm.
DAFTAR PUSTAKA Atar E, Ersoy O, Ozyilmaz L. 2005. Prediction of protein secondary structure by SOM and SOGR algorithm. IEE. doi : 10.1109/CIMA.2005.1662358. Baldi P, Brunak S. 2001. Bioinformatics: The Machine Learning Approach. Second Edition.Massachusetts. England (GB): MIT Press. Eddy SR. 1998. Profile hidden markov model. Bioinformatics Review.14:755-763. Elrod S, Starnsfield W. 2002. S haum’s Outlin f Th y and P bl ms f Genetics. Fourth Edition. New York (US): McGraw-Hill.
17 He H, Edwardo AG. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering. 21(9):1263-1284. Jones NC, Pevzner PA. 2004. An Introductions to Bioinformatics Algorithms. England (GB): MIT Press. Martin J, Gibrat JF, Rodolphe J. 2005. Hidden markov model for protein secondary structure. Oxford University Press. 14(9): 755-763. Polanski A, Kimmel M.2007. Bioinformatics. Germany (DE): Springer Sciene. Rabiner LR. 1989. A Tutorial on hidden markov model and selected applications in speech recognitions. Proceedings of the IEEE. 77 (2), 257-286. Wang J, Ping Li J. 2008. Protein secondary structure prediction based on BP neural network and quasi-newton algorithm. IEE. doi : 10.1109/CACIA.20084769988
18
Lampiran 1 Data asli struktur sekunder protein dengan format DSSP ==== Secondary Structure Definition by the program DSSP, CMBI version by M.L. Hekkelman/2010-10-21 ==== DATE=2014-03-26 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 . HEADER OXIDOREDUCTASE 08-SEP-13 2MDA . COMPND MOL_ID: 1; MOLECULE: TYROSINE 3-MONOOXYGENASE; CHAIN: A, B; FRAGMENT: . SOURCE MOL_ID: 1; ORGANISM_SCIENTIFIC: RATTUS NORVEGICUS; ORGANISM_COMMON: BR . AUTHOR S.ZHANG,T.HUANG,A.HINCK,P.FITZPATRICK . 190 2 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) . 11786.2 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) . 108 56.8 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 40 21.1 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-5), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-4), SAME NUMBER PER 100 RESIDUES . 4 2.1 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-3), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-2), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-1), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+0), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+1), SAME NUMBER PER 100 RESIDUES . 14 7.4 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+2), SAME NUMBER PER 100 RESIDUES . 20 10.5 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+3), SAME NUMBER PER 100 RESIDUES . 30 15.8 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+4), SAME NUMBER PER 100 RESIDUES . 2 1.1 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+5), SAME NUMBER PER 100 RESIDUES . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 *** HISTOGRAMS OF *** . 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RESIDUES PER ALPHA HELIX . 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PARALLEL BRIDGES PER LADDER . 2 0 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ANTIPARALLEL BRIDGES PER LADDER . 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LADDERS PER SHEET . # RESIDUE AA STRUCTURE BP1 BP2 ACC N-H-->O O-->H-N N-H-->O O-->H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA 1 65 A P 0 0 174 0, 0.0 2,-0.4 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 167.3 -23.1 -15.6 -7.7 2 66 A G 0 0 71 4,-0.0 0, 0.0 0, 0.0 0, 0.0 -0.888 360.0-166.3-132.1 104.1 -24.4 -13.0 -5.3 3 67 A N > 0 0 104 -2,-0.4 3,-0.9 1,-0.2 0, 0.0 -0.790 3.3-172.4 -92.2 111.2 -24.3 -13.6 -1.6 4 68 A P T 3 S+ 0 0 115 0, 0.0 -1,-0.2 0, 0.0 0, 0.0 0.903 88.6 48.9 -66.0 -43.9 -26.5 -11.0 0.3 5 69 A L T 3 S+ 0 0 162 2,-0.0 -2,-0.1 0, 0.0 0, 0.0 0.224 90.3 129.2 -81.9 14.5 -25.3 -12.2 3.7 6 70 A E S < S0 0 85 -3,-0.9 87,-0.0 2,-0.1 -4,-0.0 -0.095 70.8-115.7 -65.5 169.2 -21.8 -11.9 2.5
19 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106
A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A
A V V F E E R D G N A V L N L L F S L R G T K P S S L S R A V K V F E T
S
E E E T T E E E E E B
S S S
T T H H H H H H H H H
S+ + -A -A > S-A 3 S3 S+ < S-AB -AB +AB - B - B -H + + SS+ S+ + > + > + >> + X> S+ <4 S+ X> S+ <X S+ 3X S+ X> S+ 3<>S+ ><5S+ <<5S+
0 0 0 0 18 17 16 0 0 13 12 11 0 0 94 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0A 0A 0A 0 0 74A 73A 72A 71A 70A 0B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
46 58 93 104 119 115 125 161 57 13 0 8 11 29 16 42 27 45 22 225 59 68 143 69 20 66 16 10 156 1 11 62 0 0 25 80
2,-0.1 2,-0.8 87,-0.0 84,-0.2 2,-0.2 85,-0.1 -2,-0.8 11,-0.3 11,-0.2 -2,-0.2 2,-0.3 9,-0.1 7,-0.9 7,-1.1 -2,-0.3 5,-0.3 2,-0.4 -2,-0.3 3,-2.5 3,-1.0 -2,-0.4 -2,-0.4 3,-0.1 1,-0.3 1,-0.5 60,-0.5 58,-0.1 -3,-1.0 -3,-2.5 58,-0.3 56,-2.8 56,-2.3 -5,-0.3 -7,-1.1 -7,-0.9 -2,-0.5 52,-2.4 52,-2.3 -2,-0.5 -11,-0.3 75,-0.5 -2,-0.3 48,-1.6 2,-0.3 73,-0.3 71,-2.6 71,-0.3 -2,-0.4 44,-0.5 2,-0.3 -2,-0.3 -2,-0.3 2,-0.3 42,-0.1 -2,-0.3 41,-0.1 41,-0.1 -2,-0.3 38,-0.0 39,-0.1 1,-0.1 -2,-0.1 2,-0.1 110,-0.0 112,-0.2 0, 0.0 1,-0.2 2,-2.2 110,-0.1 0, 0.0 -1,-0.2 0, 0.0 -2,-2.2 2,-2.2 -3,-0.1 1,-0.2 3,-0.6 2,-0.1 -2,-2.2 4,-1.1 1,-0.2 -3,-0.6 4,-1.1 1,-0.3 -3,-0.6 4,-0.5 1,-0.3 -3,-0.6 3,-1.2 -4,-0.5 -4,-1.1 4,-1.3 -3,-0.7 -4,-1.1 4,-1.0 2,-0.2 -3,-1.2 4,-1.2 -4,-0.5 -4,-1.0 5,-2.1 1,-0.3 -4,-1.3 3,-1.1 3,-0.2 -4,-1.0 -2,-0.2 -3,-1.0
-1,-0.1 0.749 84.7 101.9 -79.3 -27.5 -19.0 -10.0 4.3 -2,-0.1 -0.475 52.1 130.7 -67.1 105.2 -18.5 -7.4 1.6 2,-0.3 -0.775 32.7-163.5-141.5-175.7 -20.3 -4.3 2.9 9,-0.2 -0.972 7.8-141.8-164.6 172.3 -19.7 -0.6 3.5 2,-0.4 -0.896 18.1-121.9-139.1 168.3 -21.0 2.5 5.2 5,-0.3 -0.955 18.7-171.6-124.2 138.7 -21.4 6.2 4.4 62,-0.1 -0.989 70.4 -19.7-128.1 129.3 -20.0 9.2 6.2 -1,-0.1 0.697 134.3 -41.1 50.4 22.2 -20.8 12.9 5.5 -1,-0.3 0.706 128.4 76.1 99.7 22.8 -22.1 11.9 2.1 2,-0.5 -0.871 79.7-100.0-148.7 178.2 -19.5 9.4 1.1 2,-0.5 -0.942 23.2-167.1-120.2 127.4 -18.6 5.8 1.9 2,-0.3 -0.917 31.2 130.4-108.5 122.9 -16.0 4.7 4.3 2,-0.3 -0.897 43.3-117.4-156.1-177.2 -15.1 1.0 4.2 2,-0.4 -0.950 17.3-165.2-134.1 153.9 -12.2 -1.6 4.0 48,-0.3 -0.972 0.5-167.8-146.6 126.8 -11.2 -4.3 1.5 2,-0.3 -0.791 11.4 168.2-110.9 155.8 -8.9 -7.2 1.7 69,-0.1 -0.927 12.6-160.7-165.2 141.4 -7.5 -9.4 -1.1 67,-0.1 -0.911 1.9-165.9-128.9 154.3 -4.8 -12.0 -1.5 40,-0.1 -0.998 10.2-143.9-144.0 136.1 -3.0 -13.5 -4.5 0, 0.0 0.050 62.9 44.9 -80.9-165.4 -0.8 -16.6 -4.8 0, 0.0 -0.186 87.0 -98.1 64.7-159.0 2.3 -17.1 -7.0 -1,-0.1 0.479 113.2 47.2-133.1 -21.7 5.0 -14.4 -7.1 -2,-0.1 0.882 91.4 77.5 -90.6 -47.9 4.2 -12.5 -10.2 0, 0.0 -0.408 55.9 120.7 -67.7 79.4 0.4 -11.9 -9.8 3,-0.6 -0.221 19.1 148.4-133.9 39.1 0.7 -9.1 -7.3 4,-0.5 -0.132 22.4 129.6 -71.0 43.3 -1.1 -6.4 -9.2 3,-0.6 0.717 61.4 74.0 -69.0 -19.8 -2.3 -4.9 -5.9 3,-0.7 0.915 88.2 55.5 -56.9 -47.2 -0.9 -1.7 -7.4 -1,-0.3 0.773 100.6 63.3 -59.1 -23.4 -3.9 -1.5 -9.8 4,-1.0 0.898 99.8 49.2 -68.2 -41.8 -6.0 -1.6 -6.6 -1,-0.2 0.741 100.8 66.8 -68.9 -21.0 -4.6 1.7 -5.3 -1,-0.3 0.730 97.1 58.0 -68.8 -21.3 -5.4 3.1 -8.8 3,-1.0 0.992 107.3 39.1 -71.7 -67.3 -9.0 2.5 -7.8 -2,-0.2 0.774 121.4 49.4 -55.4 -26.9 -9.4 4.6 -4.7 -1,-0.3 0.713 97.9 67.3 -86.1 -23.2 -7.1 7.2 -6.4 -1,-0.2 0.888 107.6 37.8 -66.9 -39.6 -9.1 7.3 -9.7
20
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142
A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A
F E A K I H H L E T R P A Q R P L A G S P H L E Y F V R F E V P S G D L
T 3<5ST < 5 + < E -C E -C E SE -C E +CD E - D E + D S S+ S S+ S S+ S S+ S S+ S S+ + + E - C E +BC E -BC E +BC E -B E > -B T 4 S+ T > S+ H > S+ H X S+
0 0 0 0 0 0 72 0A 71 0A 0 0A 70 0A 69 148A 0 147A 0 146A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 50A 20 49A 19 47A 18 46A 17 0A 16 0A 0 0 0 0 0 0 0 0
80 104 10 84 6 60 41 6 23 9 93 29 5 104 117 77 121 72 78 114 45 122 47 81 4 60 0 109 0 15 0 50 54 51 61 2
-4,-1.2 -3,-1.1 -5,-2.1 26,-2.7 -2,-0.7 22,-1.7 21,-2.3 98,-2.1 17,-2.5 94,-2.3 13,-0.9 0, 0.0 1,-0.2 3,-1.4 -2,-2.6 0, 0.0 5,-0.0 -2,-0.3 -2,-0.4 1,-0.2 0, 0.0 -3,-0.1 -2,-0.3 -41,-0.1 -2,-0.3 -2,-0.2 -2,-0.4 -21,-0.8 -52,-2.3 -26,-1.7 -56,-2.3 0, 0.0 -60,-0.5 2,-0.1 -3,-0.3 -4,-2.6
-1,-0.3 -3,-0.2 2,-0.7 26,-1.7 24,-0.3 23,-0.2 21,-0.8 98,-2.3 2,-0.3 94,-2.1 91,-0.1 3,-0.2 2,-2.6 -1,-0.2 -1,-0.2 2,-0.3 -3,-1.4 4,-0.1 -1,-0.1 -2,-0.1 -2,-0.3 -8,-0.1 2,-0.3 -13,-0.9 -44,-0.5 -17,-2.5 -48,-1.6 -21,-2.3 -52,-2.4 -26,-2.7 -56,-2.8 4,-2.6 4,-0.5 4,-0.5 4,-2.4 4,-3.3
34,-0.1 80,-0.2 -6,-0.2 103,-0.0 24,-0.3 -2,-0.4 2,-0.0 19,-0.3 -2,-0.5 -2,-0.3 -2,-0.3 0, 0.0 2,-0.1 1,-0.2 -3,-0.2 0, 0.0 0, 0.0 -3,-0.2 2,-0.3 -3,-0.2 0, 0.0 -4,-0.1 -11,-0.2 -42,-0.1 -15,-0.2 -46,-0.2 -48,-0.3 -2,-0.3 -2,-0.4 -2,-0.3 -2,-0.4 0, 0.0 1,-0.3 1,-0.1 1,-0.2 -5,-0.2
-2,-0.1 0.118 115.4-112.7 -98.5 22.0 -12.1 8.9 -8.1 -2,-0.1 0.858 57.3 171.6 52.1 40.5 -10.0 11.1 -5.9 28,-0.2 -0.159 37.9-108.1 -71.7 173.6 -11.3 9.2 -2.8 2,-0.4 -0.890 30.6-149.6-110.9 104.5 -9.8 9.8 0.7 3,-0.1 -0.566 14.4-174.3 -78.3 128.6 -7.8 6.8 1.8 2,-0.2 0.915 74.6 -11.7 -84.3 -52.2 -7.7 6.1 5.5 2,-0.5 -0.657 61.4-176.2-159.5 96.3 -5.1 3.3 5.7 2,-0.3 -0.821 21.5 161.9 -94.2 126.8 -3.8 1.4 2.7 96,-0.2 -0.996 23.0-169.6-148.6 152.8 -1.5 -1.5 3.5 15,-0.2 -0.991 16.6 153.8-143.8 131.6 -0.0 -4.6 2.1 89,-0.0 -0.617 33.6-136.4-161.9 95.3 2.0 -7.4 3.8 11,-0.2 -0.152 24.9-125.2 -52.5 143.9 2.1 -11.0 2.5 5,-0.1 0.117 84.6 58.0 -74.2-163.3 1.7 -13.7 5.1 9,-0.0 -0.299 91.6 79.2 76.1 -55.2 4.1 -16.5 5.7 3,-0.2 0.925 105.1 28.4 -48.0 -58.9 6.9 -14.1 6.3 -1,-0.2 0.975 145.7 -3.3 -68.2 -54.1 5.8 -13.3 9.9 2,-0.4 -0.997 69.0-165.2-140.1 142.1 4.2 -16.7 10.5 -3,-0.0 -0.989 64.8 45.8-133.3 137.6 3.8 -19.6 8.1 3,-0.1 0.640 116.4 39.3 106.0 23.5 1.6 -22.7 8.3 2,-0.0 0.240 106.9 47.0-161.4 -51.7 -1.5 -21.0 9.4 2,-0.3 0.044 62.2-155.9 -89.0-160.2 -2.1 -17.6 7.6 -38,-0.0 -0.969 39.4 -45.0-172.0 165.1 -1.8 -16.6 3.9 -39,-0.1 0.044 63.9 170.0 -38.5 142.7 -1.3 -13.7 1.6 2,-0.2 -0.964 29.5-163.9-153.9 170.7 -3.2 -10.5 2.5 2,-0.4 -0.701 13.9-159.9-164.6 99.8 -3.7 -6.8 1.9 2,-0.3 -0.726 18.6 167.8 -89.7 133.2 -5.6 -4.6 4.3 2,-0.4 -0.999 19.4-169.6-146.7 146.7 -7.0 -1.2 3.1 -22,-1.7 -0.993 23.9 148.0-137.1 127.7 -9.3 1.5 4.4 2,-0.4 -0.973 33.0-133.3-154.3 164.6 -10.7 4.3 2.2 -54,-0.3 -0.981 22.3 170.2-128.9 139.9 -13.6 6.6 1.6 5,-0.2 -0.995 49.0 -78.3-147.3 138.6 -15.4 7.5 -1.7 -58,-0.3 -0.012 49.9-111.7 -35.0 132.4 -18.6 9.3 -2.5 -59,-0.1 0.695 120.1 42.3 -45.3 -20.3 -21.5 6.9 -1.9 -1,-0.3 0.834 113.7 45.4 -96.7 -40.6 -21.9 7.1 -5.6 5,-0.3 0.631 99.9 74.7 -78.7 -15.3 -18.3 7.0 -6.9 3,-0.3 0.992 97.4 43.6 -55.6 -64.1 -17.6 4.2 -4.5
21 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114
143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159
A A A A A A A A A A A A A A A A A
65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
B B B B B B B B B B B B B B B B B B
A A L L S S V R R V S D D V R S A !* P G N P L E A V V F E E R D G N A V
H H H H H H H H T T
> < >X 3X 3X <4 X < < 4 <
S S
B
> T 3 T 3 S < S
E E E > T 3 T 3 E < E E
S+ S+ S+ S+ S+ S+ S+ S+ S+ S+ + S+ S+ H
0 0 68 0 0 38 0 0 1 0 0 33 0 0 57 0 0 44 0 0 13 0 0 146 0 0 180 0 0 30 0 0 23 0 0 100 0 0 156 0 0 39 0 0 149 21 0B 3 0 0 66 0 0 0 0 0 176 0 0 70 0 0 105 S+ 0 0 115 S+ 0 0 162 S0 0 83 S+ 0 0 48 + 0 0 58 0 0 93 0 0 107 -E 114 0A 120 -E 113 0A 113 S-E 112 0A 123 S0 0 160 S+ 0 0 58 S-EF 109 170A 13 -EF 108 169A 0 +EF 107 168A 8
-4,-0.5 4,-1.1 1,-0.2 -4,-0.5 4,-0.4 2,-0.2 -4,-2.4 4,-1.6 -3,-0.3 -4,-3.3 4,-1.9 -5,-0.3 -4,-1.1 4,-0.6 -5,-0.3 -3,-0.7 4,-0.4 -4,-0.4 -4,-1.6 4,-2.1 1,-0.3 -4,-1.9 -1,-0.3 1,-0.2 -4,-0.6 -2,-0.2 -3,-0.3 -4,-0.4 2,-0.3 -3,-0.3 -4,-2.1 -1,-0.3 -5,-0.1 -2,-0.3 -1,-0.1 -3,-0.1 -67,-0.1 2,-0.2 2,-0.0 -69,-0.1 2,-0.2 -70,-0.0 -71,-0.3 -71,-2.6 -2,-0.2 -73,-0.3 -73,-0.3 -2,-0.2 -75,-0.5 -1,-0.2 -26,-0.3 0, 0.0 0, 0.0 0, 0.0 0, 0.0 2,-0.4 0, 0.0 4,-0.0 0, 0.0 0, 0.0 -2,-0.4 3,-0.9 1,-0.2 0, 0.0 -1,-0.2 0, 0.0 2,-0.0 -2,-0.1 0, 0.0 -3,-0.9 87,-0.0 2,-0.1 2,-0.1 2,-0.8 87,-0.0 84,-0.2 2,-0.2 85,-0.1 -2,-0.8 11,-0.3 11,-0.2 -2,-0.2 2,-0.3 9,-0.1 7,-0.9 7,-1.1 -2,-0.3 5,-0.3 2,-0.4 -2,-0.3 3,-2.5 3,-1.0 -2,-0.4 -2,-0.4 3,-0.1 1,-0.3 1,-0.5 60,-0.5 58,-0.1 -3,-1.0 -3,-2.5 58,-0.3 56,-2.8 56,-2.3 -5,-0.3 -7,-1.1 -7,-0.9 -2,-0.5
-1,-0.2 0.758 111.6 62.3 -50.7 -26.0 -19.5 1.7 -6.6 -2,-0.2 0.955 114.3 26.0 -68.7 -54.0 -17.6 3.4 -9.5 3,-0.7 0.775 113.7 67.4 -84.3 -25.1 -14.1 2.6 -8.5 5,-0.2 0.868 91.9 62.2 -60.2 -35.4 -15.1 -0.6 -6.6 -1,-0.3 0.861 103.9 49.3 -57.6 -34.7 -16.1 -2.1 -9.9 3,-0.3 0.877 107.2 52.8 -69.1 -41.8 -12.4 -1.7 -10.8 3,-0.3 0.763 107.1 52.5 -65.0 -25.5 -11.5 -3.3 -7.6 -2,-0.2 0.698 103.3 58.8 -79.2 -21.4 -13.8 -6.1 -8.7 -1,-0.2 0.557 114.1 36.8 -80.7 -11.8 -11.8 -6.1 -11.9 -2,-0.2 0.670 130.0 17.4-109.5 -30.7 -8.7 -6.8 -9.7 -64,-0.0 -0.963 47.4 155.1-142.5 157.6 -10.3 -9.2 -7.1 -4,-0.1 0.427 71.6 62.6-149.8 -37.9 -13.5 -11.3 -6.8 -67,-0.1 -0.074 94.9 76.1 -91.9 34.5 -12.9 -14.1 -4.4 -84,-0.2 -0.639 63.8-138.8-129.4-171.2 -12.2 -11.9 -1.4 2,-0.1 -0.793 27.5 -79.6-141.4-177.8 -14.1 -9.7 1.1 -1,-0.1 -0.343 360.0 360.0 -81.5 168.0 -14.1 -6.4 3.0 -75,-0.1 0.423 360.0 360.0 -95.0 360.0 -12.0 -5.8 6.1 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 0, 0.0 0.000 360.0 360.0 360.0 167.1 23.2 15.5 -7.8 0, 0.0 -0.888 360.0-166.4-132.0 104.1 24.5 12.9 -5.4 0, 0.0 -0.790 3.3-172.4 -92.2 111.2 24.4 13.5 -1.6 0, 0.0 0.903 88.6 48.9 -66.1 -43.9 26.6 11.0 0.2 0, 0.0 0.226 90.3 129.2 -82.0 14.5 25.4 12.1 3.7 -4,-0.0 -0.095 70.8-115.7 -65.6 169.1 21.8 11.9 2.4 -1,-0.1 0.749 84.7 101.8 -79.3 -27.5 19.1 10.0 4.3 -2,-0.1 -0.473 52.1 130.7 -66.9 105.1 18.5 7.4 1.6 2,-0.3 -0.775 32.7-163.6-141.4-175.7 20.3 4.3 2.9 9,-0.2 -0.972 7.7-141.9-164.7 172.3 19.8 0.6 3.4 2,-0.4 -0.896 18.1-121.9-139.2 168.3 21.0 -2.6 5.2 5,-0.3 -0.955 18.7-171.7-124.3 138.6 21.4 -6.3 4.4 62,-0.1 -0.989 70.4 -19.7-128.0 129.3 20.0 -9.3 6.1 -1,-0.1 0.699 134.3 -41.1 50.4 22.2 20.8 -12.9 5.5 -1,-0.3 0.709 128.4 76.2 99.7 22.8 22.1 -12.0 2.1 2,-0.5 -0.871 79.7-100.1-148.8 178.1 19.5 -9.4 1.1 2,-0.5 -0.943 23.2-167.0-120.2 127.4 18.6 -5.9 1.9 2,-0.3 -0.917 31.2 130.5-108.5 122.9 16.0 -4.7 4.3
22
115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150
83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118
B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B
L N L L F S L R G T K P S S L S R A V K V F E T F E A K I H
E E B
S S S
T T H H H H H H H H H T T
E E E B H B L E B E E B T E B R B P
- F 0 167A 10 - F 0 166A 29 -I 190 0C 17 + 0 0 41 0 0 29 0 0 44 0 0 23 + 0 0 223 S0 0 60 S+ 0 0 69 S+ 0 0 147 + 0 0 70 > + 0 0 20 > + 0 0 68 >> + 0 0 15 X> S+ 0 0 10 <4 S+ 0 0 153 X> S+ 0 0 1 <X S+ 0 0 9 3X S+ 0 0 64 X> S+ 0 0 0 3<>S+ 0 0 0 ><5S+ 0 0 24 <<5S+ 0 0 79 3<5S0 0 77 < 5 + 0 0 104 < 0 0 9 - G 0 168A 82 - G 0 167A 5 S0 0A 57 E - G 0 166A 43 +DG 52 165A 5 -D 51 0A 25 +D 50 0A 9 0 0 92 0 0 28
52,-2.4 52,-2.3 -2,-0.5 2,-0.3 -0.897 43.3-117.5-156.2-177.2 15.1 -1.0 4.2 -11,-0.3 75,-0.5 -2,-0.3 2,-0.3 -0.950 17.3-165.2-134.1 154.0 12.3 1.6 4.0 48,-1.6 2,-0.3 73,-0.3 48,-0.3 -0.972 0.5-167.8-146.7 126.9 11.3 4.3 1.5 71,-2.6 71,-0.3 -2,-0.3 2,-0.3 -0.791 11.4 168.1-111.0 155.9 8.9 7.2 1.7 44,-0.5 2,-0.3 -2,-0.3 69,-0.1 -0.927 12.6-160.7-165.3 141.3 7.6 9.4 -1.1 -2,-0.3 2,-0.3 42,-0.1 67,-0.1 -0.911 1.9-165.9-128.9 154.4 4.9 12.1 -1.5 -2,-0.3 41,-0.1 41,-0.1 40,-0.1 -0.998 10.2-143.8-144.0 136.0 3.0 13.6 -4.4 -2,-0.3 38,-0.0 39,-0.1 0, 0.0 0.049 62.9 44.9 -81.0-165.5 0.8 16.7 -4.8 1,-0.1 -2,-0.1 2,-0.1 0, 0.0 -0.186 87.0 -98.0 64.7-159.2 -2.3 17.1 -6.9 -82,-0.0 -80,-0.2 0, 0.0 -1,-0.1 0.479 113.2 47.2-132.9 -21.6 -5.0 14.5 -7.1 1,-0.2 2,-2.2 -81,-0.1 -2,-0.1 0.881 91.4 77.5 -90.6 -48.0 -4.2 12.6 -10.2 0, 0.0 -1,-0.2 0, 0.0 0, 0.0 -0.409 55.9 120.7 -67.8 79.5 -0.4 12.0 -9.8 -2,-2.2 2,-2.1 -3,-0.1 3,-0.6 -0.220 19.1 148.4-134.0 39.1 -0.7 9.2 -7.2 1,-0.3 3,-0.6 2,-0.1 4,-0.5 -0.124 22.5 129.5 -70.9 42.2 1.1 6.4 -9.2 -2,-2.1 4,-1.1 1,-0.2 3,-0.6 0.720 61.4 74.0 -67.8 -20.2 2.3 4.9 -5.9 -3,-0.6 4,-1.1 1,-0.3 3,-0.7 0.916 88.3 55.6 -56.8 -47.2 0.9 1.7 -7.4 -3,-0.6 4,-0.5 1,-0.3 -1,-0.3 0.773 100.5 63.4 -59.0 -23.4 3.9 1.5 -9.7 -3,-0.6 3,-1.2 -4,-0.5 4,-1.0 0.899 99.8 49.3 -68.3 -41.8 6.0 1.7 -6.6 -4,-1.1 4,-1.3 -3,-0.7 -1,-0.2 0.740 100.8 66.8 -68.9 -20.9 4.6 -1.6 -5.3 -4,-1.1 4,-1.0 2,-0.2 -1,-0.3 0.729 97.1 57.9 -68.9 -21.3 5.4 -3.0 -8.7 -3,-1.2 4,-1.2 -4,-0.5 3,-1.0 0.992 107.3 39.1 -71.7 -67.3 9.0 -2.5 -7.8 -4,-1.0 5,-2.1 1,-0.3 -2,-0.2 0.774 121.4 49.4 -55.4 -26.9 9.4 -4.6 -4.7 -4,-1.3 3,-1.1 3,-0.2 -1,-0.3 0.715 97.9 67.3 -86.2 -23.2 7.1 -7.2 -6.4 -4,-1.0 -2,-0.2 -3,-1.0 -1,-0.2 0.888 107.6 37.8 -66.8 -39.5 9.0 -7.3 -9.7 -4,-1.2 -1,-0.3 34,-0.1 -2,-0.1 0.119 115.4-112.6 -98.5 21.9 12.1 -8.9 -8.1 -3,-1.1 -3,-0.2 -112,-0.2 -2,-0.1 0.858 57.3 171.6 52.2 40.4 10.0 -11.1 -5.9 -5,-2.1 2,-0.7 -6,-0.2 28,-0.2 -0.160 37.9-108.1 -71.6 173.6 11.3 -9.2 -2.8 26,-2.7 26,-1.7 -89,-0.0 2,-0.4 -0.890 30.6-149.6-111.0 104.4 9.8 -9.8 0.7 -2,-0.7 24,-0.3 24,-0.3 3,-0.1 -0.567 14.4-174.3 -78.1 128.6 7.7 -6.8 1.8 22,-1.7 23,-0.2 -2,-0.4 2,-0.2 0.915 74.6 -11.7 -84.4 -52.3 7.7 -6.1 5.5 21,-2.3 21,-0.8 2,-0.0 2,-0.5 -0.658 61.4-176.2-159.6 96.3 5.1 -3.3 5.7 -94,-2.1 -94,-2.3 19,-0.3 2,-0.3 -0.821 21.5 161.8 -94.3 126.8 3.8 -1.4 2.7 17,-2.5 2,-0.3 -2,-0.5 -96,-0.2 -0.996 23.0-169.5-148.6 152.8 1.5 1.5 3.6 -98,-2.3 -98,-2.1 -2,-0.3 15,-0.2 -0.991 16.6 153.8-143.9 131.7 0.1 4.7 2.1 13,-0.9 -101,-0.1 -2,-0.3 -103,-0.0 -0.617 33.6-136.4-162.0 95.3 -1.9 7.4 3.8 0, 0.0 3,-0.2 0, 0.0 11,-0.2 -0.151 24.9-125.3 -52.6 143.9 -2.0 11.0 2.5
23 151 152 153 154 155 156 157 158 159 160 161
119 120 121 122 123 124 125 126 127 128 129
B B B B B B B B B B B
A Q R P L A G S P H L
S S S S
S S
S+ S+ S+ S+ S+ S+ +
0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0
3 104 121 76 120 72 76 117 48 122 45
1,-0.2 3,-1.4 -2,-2.6 0, 0.0 5,-0.0 -2,-0.3 -2,-0.4 1,-0.2 0, 0.0 -3,-0.1 -2,-0.3
2,-2.6 -1,-0.2 -1,-0.2 2,-0.3 -3,-1.4 4,-0.1 -1,-0.1 -2,-0.1 -2,-0.3 -8,-0.1 2,-0.3
2,-0.1 1,-0.2 -3,-0.2 0, 0.0 0, 0.0 -3,-0.2 2,-0.3 -3,-0.2 0, 0.0 -4,-0.1 -11,-0.2
5,-0.1 9,-0.0 3,-0.2 -1,-0.2 2,-0.4 -3,-0.0 3,-0.1 2,-0.0 2,-0.3 -38,-0.0 -39,-0.1
0.115 -0.301 0.924 0.975 -0.997 -0.989 0.641 0.241 0.042 -0.969 0.043
84.5 58.0 -74.1-163.2 91.7 79.2 76.0 -55.2 105.1 28.5 -48.0 -58.9 145.7 -3.3 -68.1 -54.2 69.0-165.2-140.1 142.1 64.8 45.9-133.3 137.7 116.4 39.2 106.1 23.5 106.9 47.0-161.4 -51.7 62.2-155.9 -89.0-160.1 39.4 -45.1-172.0 165.0 63.9 170.1 -38.5 142.8
-1.6 -4.0 -6.8 -5.7 -4.1 -3.7 -1.5 1.7 2.2 1.9 1.3
13.7 16.6 14.2 13.4 16.8 19.7 22.8 21.0 17.7 16.7 13.7
5.1 5.8 6.3 9.9 10.5 8.1 8.4 9.4 7.6 4.0 1.6
24 Lampiran 2 Antar muka prediksi struktur sekunder protein
24
25 RIWAYAT HIDUP Penulis lahir di Pati pada tanggal 5 Mei 1993. Penulis merupakan anak ke empat dari empat bersaudara dengan ayah bernama Pasiman dan ibu bernama Senok. Pada tahun 2010 penulis lulus dari SMA Negeri 3 Pati, dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur Ujian Saringan Masuk IPB (USMI) dengan Program Studi Ilmu Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam (MIPA). Selama menjadi mahasiswa Institut Petanian Bogor, pada tahun 2013 penulis menjalankan praktik lapang di Kantor Komunikasi dan Informatika Kota Bogor. Penulis aktif menjadi pengurus Himpunan Mahasiswa Ilmu Komputer pada tahun 2011-2012, anggota kepanitiaan Pesta Sains Nasional 2012, anggota kepanitiaan explo sains 2012, dan anggota kepanitiaan IT Today 2012.