KAJIAN KOEFISIEN KEMIRIPAN STRUKTUR KIMIA BAHAN AKTIF TANAMAN OBAT BERBASISKAN DATA BINER
RIZAL BAKRI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa tesis berjudul βKajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Binerβ adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Oktober 2015 Rizal Bakri NIM G151130291
RINGKASAN RIZAL BAKRI. Kajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Biner. Dibimbing oleh HARI WIJAYANTO dan FARIT MOCHAMAD AFENDI. Penelitian mengenai bioaktivitas atau analisis komponen senyawa aktif yang terdapat dalam tanaman obat yang digunakan di jamu telah banyak dilakukan bahkan telah terdokumentasi dengan baik dalam suatu pangkalan data bioinformatika namun penjelasan detail mengenai mekanisme kerja secara molekuler dan aktivitas farmakologi masih perlu dikembangkan (Sari 2014). Dalam penelitian in silico, salah satu pendekatan yang umum dilakukan untuk melihat mekanisme kerja suatu senyawa adalah mempertimbangkan aspek kemiripan struktur kimia antar senyawa. Pengukuran kemiripan struktur kimia suatu senyawa mengacu pada kesamaan unsur kimia, molekul atau substruktur senyawa. Pada prinsipnya diasumsikan bahwa senyawa yang struktur kimianya mirip memiliki sifat biologis yang mirip (Johnson & Maggiora 1990). Dari sudut pandang statistika, pengukuran kemiripan struktur kimia ini pada dasarnya adalah pengukuran kemiripan objek berbasis peubah biner seperti penelitian yang dilakukan oleh Godden et al. (2000) yaitu struktur kimia suatu senyawa direpresentasikan sebagai peubah biner untuk menghitung kemiripan antar senyawa menggunakan koefisien Tanimoto. Struktur kimia yang direpresentasikan sebagai data biner merupakan fitur sidik jari molekuler seperti ada tidaknya unsur kimia, ikatan tunggal, cincin, dan sebagainya. Sidik jari molekuler merupakan fitur yang terdiri atas kumpulan substruktur kimia suatu senyawa. Klekota dan Roth (2008) telah mengumpulkan 4860 fitur sidik jari molekuler unik yang merupakan substruktur berbagai senyawa melalui berbagai jenis teknik fragmentasi. Koefisien Tanimoto merupakan ukuran yang paling sering digunakan dalam pengukuran kemiripan struktur kimia antar senyawa. Namun koefisien Tanimoto memiliki kelemahan seperti dalam penelitian Willet et al. (1986) yang menunjukkan bahwa koefisien Tanimoto menghasilkan nilai bias untuk menghitung perbedaan pada pasangan senyawa kecil. Di sisi lain, terdapat banyak koefisien yang bisa digunakan selain koefisien tersebut. Choi et al. (2010) telah mengumpulkan 76 koefisien kemiripan data biner yang digunakan lebih dari satu abad yang lalu. Sementara, Consonni dan Todeschini (2012) mengajukan 3 koefisien kemiripan data biner baru dan membutuhkan penyelidikan untuk memahami potensialnya. Dengan demikian, jumlah koefisien kemiripan data biner yang digunakan dalam penelitian ini sebanyak 79 koefisien. Koefisien-koefisien kemiripan data biner tersebut digerombolkan untuk melihat kemiripan antar koefisien. Metode penggerombolan yang digunakan adalah metode Ward dengan matriks jarak awal berkaitan dengan matriks korelasi. Korelasi tinggi ditemukan pada beberapa koefisien kemiripan data biner yang mengikutsertakan π (negative matches). Menurut Sokal et al. (1963) ada tidaknya π dalam koefisien kemiripan data biner merupakan isu yang berkelanjutan, namun keberadaan π bukan berarti selalu ada kemiripan antara dua objek karena hampir tak hingga jumlah fitur yang memungkinkan tidak terdapat dalam dua objek tersebut. Penelitian ini menunjukkan bahwa rata-rata persentase π pada pasangan senyawa sebesar 98,15%. Nilai ini sangat besar dibanding dengan rata-rata
persentase π, π, dan π namun terlihat pada dendogram bahwa koefisien kemiripan data biner yang memuat π tidak bergerombol dalam suatu kelompok tertentu sehingga berdasarkan penelitian ini menyatakan bahwa koefisien kemiripan data biner yang memuat π memiliki performa yang berbeda untuk menghitung kemiripan pasangan suatu senyawa. Di sisi lain, dendogram menunjukkan terdapat 5 gerombol yang terbentuk berdasarkan nilai cut off yang dipilih yaitu 1. Jumlah gerombol yang terbentuk ini memberikan keragaman yang rendah pada koefisien kemiripan data biner dalam kelompok yang sama dan keragaman yang tinggi antar kelompok yang berbeda. Hal ini disebabkan karena beberapa koefisien kemiripan data biner dalam kelompok yang sama saling berkombinasi linear serta terdapat pula beberapa koefisien kemiripan data biner yang dibentuk dari koefisien lainnya setelah dimodifikasi secara aljabar sehingga tingkat korelasi antar koefisien dalam kelompok yang sama tinggi. Kurva ROC telah dibuat untuk masing-masing koefisien kemiripan data biner untuk membandingkan performanya namun terdapat beberapa koefisien ketidakmiripan data biner sehingga koefisien tersebut ditransformasi ke koefisien kemiripan data biner. AUC dari masing-masing koefisien kemiripan data biner dibuat dengan anggapan nilai aktual adalah kesesuaian kelompok pasangan senyawa dan nilai prediksi adalah nilai yang dihasilkan masing-masing koefisien kemiripan data biner. Analisis ROC menunjukkan bahwa terdapat beberapa koefisien kemiripan data biner menghasilkan nilai AUC yang mirip. Koefisien kemiripan data biner yang menghasilkan performa yang mirip ini merupakan koefisien kemiripan data biner yang terdapat pada gerombol yang sama. Hal ini disebabkan karena beberapa koefisien kemiripan data biner saling berkombinasi linear dan dapat dibentuk dari koefisien kemiripan data biner lainnya. Koefisien kemiripan data biner yang menghasilkan nilai AUC yang tinggi adalah koefisien kemiripan data biner Forbes-2 sebesar 0.87606 sedangkan koefisien Tanimoto menghasilkan nilai yaitu 0.79755 dan merupakan urutan ke-35. Di sisi lain, hasil penggerombolan menunjukkan bahwa koefisien-koefisien yang segerombol dengan koefisien Forbes-2 adalah koefisien Simpson, Var of Correlation, Yulew, Yuleq, DYuleq, dan Pearson&Heron-2, sehingga koefisien-koefisien kemiripan data biner tersebut dapat dijadikan sebagai alternatif lain sebagai ukuran kemiripan struktur kimia suatu senyawa. Kata kunci : AUC, gerombol, jamu, koefisien kemiripan, sidik jari molekuler.
SUMMARY RIZAL BAKRI. Similarity Coefficients Study of Chemical Structure of Active Ingredients in Medicinal Plants Based on Binary Data. Supervised by HARI WIJAYANTO and FARIT MOCHAMAD AFENDI. Research about bioactivity or component analysis of active compounds contained in the medicinal plants used in Jamu have been carried out and even welldocumented in a database of bioinformatics however detailed explanation of the action mechanism of molecular and pharmacological activity needs is developed (Sari 2014). In silico study, one of the most common approaches to see the action mechanism of a compound is considering the aspects of similarity among chemical structures of the compounds. Measurement of similarity in chemical structures of a compound refers to the similarity of chemical elements, molecules or substructures of compound. In principle, it is assumed that the compound similar chemical structures have the similar biological properties (Johnson & Maggiora 1990). From a statistical point of view, the measurement of chemical structure similarity is essentially a similarity measurement object such as a binary variable based on research conducted by Godden et al. (2000) is the chemical structure of a compound represented as binary variables to calculate the similarity among the chemical structure using Tanimoto coefficient. The chemical structure represented as binary data is a molecular fingerprint features such as either the presence or absence of chemical elements, a single bond, a ring, and etc. Molecular fingerprint is a feature that consists of a collection of chemical substructure of a compound. Klekota and Roth (2008) have collected 4860 features a unique molecular fingerprint which is the substructure of various compounds through various types of fragmentation techniques. Tanimoto coefficient is a measure that is most often used in measuring similarity among chemical structure of the compounds. But Tanimoto coefficient has a weakness such as Willet et al. (1986) in his research showed that Tanimoto coefficient produces an intrinsic bias toward smaller compounds. On the other hand, there are many other coefficients that can be used besides these coefficients. Choi et al. (2010) have collected 76 similarity coefficients of binary data used more than a century ago. While, Consonni and Todeschini (2012) proposed three new similarity coefficients of binary data and requires investigation to understand its potential. Thus, the number of similarity coefficients of binary data used in this study were 79 coefficients. The similarity coefficients of binary data clustered to see the similarity between the coefficients. Cluster method used is the method of Ward with initial distance matrix relating to the correlation matrix. The dendogram showed that high correlation found in some similarity coefficients of binary data that included d (negative matches). According to Sokal et al. (1963) the presence or absence of d in similarity coefficients of binary data is an ongoing issue, but the presence of d does not mean there is always a similarity between the two objects because almost
infinite number of features that allow not contained in the two objects. This study shows that the average percentage of π in the compound pair of 98.15%. This value is very large compared with the average percentage of a, b, and c, however dendogram shows that the similarity coefficients of binary data contains π are not clustered in a specific group that is based on this study stated that the existence of π in binary coefficients have different performance for calculating the similarity pair of compounds. On the other hand, the dendrogram showed there are 5 cluster formed by the selected cutoff value is 1. Number cluster formed gives of low diversity in similarity coefficients of binary data in the same group and the high diversity between different groups. This is caused by some of the similarity coefficients of binary data in the same group each combination of linear and there are also some similarity coefficients of binary data formed from other coefficient after algebraically modified so that the degree of correlation between the coefficient in the same group is high. ROC curve was created for each of the similarity coefficients of binary data for comparing the performance but there are some dissimilarities binary coefficients so that the coefficients are transformed into similarity coefficients of binary data. AUC of each similarity coefficients of binary data created assumed the actual value is the suitability of pair groups of compounds and predictive value is the value that is generated each binary coefficients. ROC analysis shows that the similarity coefficients of binary data that produced a high AUC value is a coefficient Forbes2 with value 0.87606 whereas the Tanimoto coefficient generating value is 0.79755 and it a order of 35th in Table 5. On the other hand, clusters results showed that the coefficients are groups with the Forbes-2 coefficient are the Var of Correlation coefficient, Yulew coefficient, and Simpson coefficient, Yuleq coefficient, and Pearson-Heron-2 coefficient so that the similarity coefficients of binary data can be used as an alternative as a measure of similarity the chemical structure of a compound. Keywords : AUC, cluster, jamu, similarity coefficient, moleculer fingerprint.
Β© Hak Cipta Milik IPB, Tahun 2015 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
KAJIAN KOEFISIEN KEMIRIPAN STRUKTUR KIMIA BAHAN AKTIF TANAMAN OBAT BERBASISKAN DATA BINER
RIZAL BAKRI
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
Penguji Luar Komisi pada Ujian Tesis : Dr Ir I Made Sumertajaya, MSi
Judul Tesis Nama NIM
: Kajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Biner : Rizal Bakri : G151130291
Disetujui oleh Komisi Pembimbing
Dr Ir Hari Wijayanto, MSi Ketua
Dr Farit Mochamad Afendi Anggota
Diketahui oleh
Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr Ir Kusman Sadik, MSi
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 09 Oktober 2015
Tanggal Lulus:
PRAKATA Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan tesis yang berjudul βKajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Binerβ. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MSi dan Bapak Dr Farit Mochamad Afendi selaku pembimbing atas kesediaan dan kesabaran dalam membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Terima kasih kepada Dr Ir I Made Sumertajaya, MSi selaku penguji luar komisi pembimbing atas masukan yang diberikan. Ucapan terima kasih juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini. Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada kedua orangtua Bapak Bakri dan Ibu Siti Ratna yang telah membesarkan, mendidik dan memberikan semangat penulis di setiap langkahnya dengan penuh kasih sayang demi keberhasilan penulis selama menjalani proses pendidikan serta seluruh keluargaku atas doa dan semangatnya. Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menuntut ilmu, serta teman-teman riset βJamuβ yang telah banyak membantu dan semua pihak yang tidak dapat penulis sebutkan satu per satu. Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, Oktober 2015 Rizal Bakri
DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN 1
PENDAHULUAN Latar Belakang Tujuan Penelitian
1 1 2
2
TINJAUAN PUSTAKA Sidik Jari Molekuler Data Biner Penggerombolan Korelasi Hirarki Ukuran Koefisien kemiripan data biner Pengukuran Performa Koefisien kemiripan data biner
3 3 3 4 5 5
3
METODE PENELITIAN Data Metode Analisis
8 8 8
4
HASIL DAN PEMBAHASAN Identifikasi Data dan Koefisien kemiripan data biner Penggerombolan Korelasi Hirarki Koefisien kemiripan data biner Pemilihan Koefisien kemiripan data biner dengan ROC
10 10 10 12
5
SIMPULAN DAN SARAN Simpulan Saran
16 16 16
DAFTAR PUSTAKA
17
LAMPIRAN
18
RIWAYAT HIDUP
29
DAFTAR TABEL 1 2 3 4
Kontingensi data biner Daftar 79 koefisien kemiripan data biner Format hubungan SMILES dengan sidik jari molekuler Pasangan senyawa, kesesuaian kelompok senyawa, koefisien kemiripan data biner 5 Nilai AUC koefisien kemiripan data biner
4 6 8 9 13
DAFTAR GAMBAR 1 Pengkodean struktur kimia sebagai sidik jari molekuler 2 Dendogram penggerombolan hirarki koefisien kemiripan data biner 3 Kurva ROC koefisien kemiripan biner Forbes-2 dan Tanimoto
3 11 15
DAFTAR LAMPIRAN 1 Daftar Senyawa, SMILES, dan Tanaman 2 Kurva ROC koefisien kemiripan data biner yang menghasilkan AUC tertinggi dan terendah 3 Koefisien kemiripan data biner yang sama 4 Koefisien kemiripan data biner yang menghasilkan nilai tidak valid 5 Koefisien kemiripan data biner yang saling berkombinasi linear 6 Koefisien kemiripan data biner yang dapat dibentuk dari koefisien kemiripan data biner lainnya 7 Kode pemrograman kemiripan struktur kimia
18 20 21 22 23 25 27