IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER
MUHAMMAD LUTHFI FAJAR
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Oktober 2013 Muhammad Luthfi Fajar NIM G64090012
ABSTRAK MUHAMMAD LUTHFI FAJAR. Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier. Dibimbing oleh TOTO HARYANTO dan HABIB RIJZAANI. Perbedaan genetik di antara organisme menyebabkan banyaknya penelitian dalam sistem identifikasi DNA. Sistem identifikasi DNA memiliki dua bagian penting, yaitu metode ekstraksi ciri dan metode klasifikasi. Penelitian ini bertujuan untuk melakukan identifikasi DNA dengan menggunakan metode ekstraksi ciri Rantai Markov orde satu dan orde dua dikombinasikan dengan metode klasifikasi Probabilistic Neural Network (PNN). Sequence DNA yang digunakan berasal dari genus Bacillus, Clostridium, Lactobacillus, Mycobacterium, dan Staphylococcus dengan panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp. Data ini diperoleh dari National Center For Biotechnology Information (NCBI). Penelitian ini menghasilkan nilai sensitivity terbaik 0,7136 dan specificity terbaik 0,9284. Hasil ini diperoleh ketika mengunakan panjang sequence 1000 bp dan metode ekstraksi ciri Rantai Markov Orde Dua. Semakin besar panjang sequence maka semakin besar pula nilai sensitivity dan specificity. Kata Kunci: identifikasi, Probabilistic Neural Network, Rantai Markov, sequence DNA
ABSTRACT MUHAMMAD LUTHFI FAJAR. Bacterial DNA Identification Using Feature Extraction Method Markov Chain with Probabilistic Neural Network as Classifier. Supervised by TOTO HARYANTO and HABIB RIJZAANI. Genetic differences among organisms motivate many research in DNA identification system. DNA identification system has two main parts: Feature Extraction Method and Classification Method. This study aims to identify the DNA with feature extraction using first order and second order Markov chain combined with Probabilistic Neural Network (PNN) classification method. DNA sequence is derived from the genus Bacillus, Clostridium, Lactobacillus, Mycobacterium, and Staphylococcus with sequence lengths of 100 bp, 200 bp, 400 bp, 800 bp, and 1000 bp. These data were obtained from the National Center for Biotechnology Information (NCBI). The results of this research show that the best sensitivity value is 0.7136 and the best specificity value is 0.9284. These results were obtained when the length of the sequence is 1000 bp and the feature extraction method used is second order Markov Chain. The greater the length of the sequence, the greater the sensitivity and specificity values. Keywords: identification, markov chain, Probabilistic Neural Network, sequence DNA
IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC NEURAL NETWORK SEBAGAI CLASSIFIER
MUHAMMAD LUTHFI FAJAR
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Penguji: Dr Wisnu Ananta Kusuma, ST MT
Judul Skripsi : Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier Nama : Muhammad Luthfi Fajar NIM : G64090012
Disetujui oleh
Toto Haryanto, SKom MSi Pembimbing I
Habib Rijzaani, MSi Pembimbing II
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier”. Penulisan karya ilmiah ini tak lepas dari bantuan banyak pihak. Oleh karena itu, penulis ingin menyampaikan rasa terima kasih kepada: Ayahanda Budi Utoyo dan Ibunda Eulis Mardiani, atas segalanya. Semoga Allah subhanahu wa ta’ala menguatkan penulis untuk senantiasa berbakti. Rabbighfirlii wa li walidayya. Nida Nurul Fitri, adikku satu-satunya yang bersedia meminjamkan netbooknya selama proses pengerjaan skripsi ini. Bapak Toto Haryanto SKom MSi dan Bapak Habib Rijzaani MSi selaku dosen pembimbing skripsi. Jazakumullaahu khairan katsiiran atas segala ilmu, bantuan, serta nasihat-nasihat yang diberikan kepada penulis. Bapak Dr Wisnu Ananta Kusuma selaku dosen penguji skripsi. Dofactora Rocky Mega Buana Iskandar, M. Noor Amrizal Rifai, Aryo Aliyudanto Sunaryo, Suci Ariyanti, Husnuk Khotimah, dan Yanitha Rahma atas persaudaraan tulus yang menguatkan. Seluruh rekan-rekan dari Departemen Ilmu Komputer, atas segala masukan dan saran selama proses pengerjaan skripsi ini. Semoga skripsi ini bermanfaat.
Bogor, Oktober 2013 Muhammad Luthfi Fajar
DAFTAR ISI DAFTAR TABEL
viii
DAFTAR GAMBAR
ix
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE PENELITIAN
3
Studi Pustaka
3
Pengumpulan Data
4
Praproses
4
Ekstraksi Ciri Rantai Markov
4
K-Fold Cross Validation
6
Probabilistic Neural network (PNN)
7
Analisis
8
HASIL DAN PEMBAHASAN
10
Praproses Data
10
Ekstraksi Ciri Rantai Markov
10
5-Fold Cross Validation
11
Klasifikasi Probabilistic Neural Network (PNN)
12
Perbandingan Antar Fold
12
Perbandingan Antar Genus
15
Perbandingan Antar Panjang Sequence
18
Pengujian dengan Menggunakan Data Luar
19
SIMPULAN DAN SARAN
21
Simpulan
21
Saran
21
DAFTAR PUSTAKA
21
RIWAYAT HIDUP
22
DAFTAR TABEL 1 2 3 4 5
6
7
8
9
10
11
12
13
14
15 16 17 18 19
Proses pada metode 5-fold cross validation Table of Confusion Data sequence DNA kelima genus yang digunakan pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp Jumlah data latih dan data uji dari kelima genus pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp Nilai sensitivity dan specificity setiap fold pada panjang sequence 100 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity setiap fold pada panjang sequence 100 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Nilai sensitivity dan specificity setiap fold pada panjang sequence 200 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity setiap fold pada panjang sequence 200 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Nilai sensitivity dan specificity setiap fold pada panjang sequence 400 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity setiap fold pada panjang sequence 400 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Nilai sensitivity dan specificity setiap fold pada panjang sequence 800 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity setiap fold pada panjang sequence 800 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Nilai sensitivity dan specificity setiap fold pada panjang sequence 1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity setiap fold pada panjang sequence 1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Nilai sensitivity dan specificity dari kelima genus yang menggunakan ekstraksi ciri Rantai Markov Orde Satu Nilai sensitivity dan specificity dari kelima genus yang menggunakan ekstraksi ciri Rantai Markov Orde Dua Nilai rata-rata sensitivity dan specificity dari kelima jenis genus yang menggunakan ekstraksi ciri Rantai Markov Orde Satu dan Dua Data luar untuk pengujian model klasifikasi yang terbentuk Confusion matrix hasil pengujian menggunakan data luar
7 9 10 11
12
12
13
13
13
14
14
14
15
15 16 16 18 19 20
20
Nilai sensitivity dan specificity kelima genus ketika menggunakan data luar
20
DAFTAR GAMBAR 1 2 3 4 5 6 7 8
Metode Penelitian Struktur Probabilistic Neural Network (PNN) Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Satu Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Satu Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Dua Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Dua Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Satu Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Dua
3 8 16 17 17 17 19 19
PENDAHULUAN Latar Belakang DNA (Deoxyribo Nucleid Acid) merupakan polimer, atau lebih tepatnya suatu himpunan dari dua polimer yang bersifat double helix. Setiap monomer yang membentuk polimer ini merupakan nukleotida yang terdiri atas gula, fosfat, dan basa nitrogen. Gula dan fosfat dari seluruh nukleotida sama, tetapi setiap nukleotida dapat dibedakan melalui peninjauan komponen basanya. Komponen basa nitrogen dibedakan menjadi empat tipe yang dimasukkan ke dalam dua kategori, kategori purine yang terdiri atas Adenine (A) dan Guanine (G) yang memiliki dua cincin aromatis dan kategori pirimidine terdiri atas Cytosine (C) dan Thymine (T) yang memiliki satu cincin aromatis (Peyrard 2004). DNA pada setiap organisme akan berbeda satu sama lain. Adanya perbedaan genetik di antara organisme inilah yang menyebabkan banyaknya penelitian dalam sistem identifikasi DNA. Bioinformatika merupakan disiplin ilmu yang pada awalnya muncul karena kebutuhan untuk memperkenalkan urutan dari sebuah data besar yang dihasilkan oleh teknologi baru biologi molekuler seperti sekuensing DNA dalam skala besar, pengukuran konsentrasi RNA dalam beberapa array ekspresi gen, dan teknik profiling baru di proteomik. Bioinformatika mengintegrasikan sejumlah ilmu tradisional kuantitatif seperti matematika, statistika, dan ilmu komputer dengan ilmu biologi seperti genetika, genomik, proteomik dan evolusi molekuler (Polanski dan Kimmel 2007). Dimulai dari bioinformatika inilah dikenal istilah metagenome. Metagenome adalah konten genetik dari suatu komunitas biologis. Istilah ini biasa diterapkan pada komunitas mikroba yang dianggap sebagai satu entitas sehingga diperlakukan dan dipelajari sebagai satu meta-organism dengan genom tunggal (Gargaud et al. 2011). Dalam mengenali sequence DNA dari suatu organisme tertentu, dibutuhkan metode ekstraksi ciri dan metode klasifikasi. Kedua metode ini merupakan bagian penting dari proses gene mapping. Dalam menentukan hubungan kekerabatan antara organisme yang satu dengan yang lainnya, penciri yang dapat digunakan adalah DNA, RNA dan urutan protein, struktur protein, profil ekspresi gen, jalur biokimia, dan jenis-jenis enzim (Wang et al. 2005). Salah satu metode ekstraksi ciri yang digunakan untuk melakukan klasifikasi sequence DNA adalah metode Rantai Markov. Penelitian menggunakan Rantai Markov telah dilakukan oleh Usotskaya dan Ryabko (2009) dan Simons et al. (2004). Usotskaya dan Ryabko dalam penelitiannya menjelaskan pemodelan sequence DNA menggunakan Rantai Markov dengan orde satu dan orde dua. Model tersebut kemudian digunakan untuk memprediksi memori atau konektivitas dari suatu teks genetik dan memecahkan masalah berbasis DNA yang berkaitan dengan sistem filogenetik dari berbagai kelompok organisme. Adapun Simons et al. (2004) melakukan pemodelan Rantai Markov untuk data nukleotida eukariot. Dalam penelitiannya Simons et al. (2004) memfokuskan kepada kesamaan karakteristik intra-species dan reversibilitas beserta komplementari dari dua untai kromosom.
2 Penelitian menggunakan metode klasifikasi Probabilistic Neural Penelitian menggunakan metode klasifikasi Probabilistic Neural Network (PNN) juga telah dilakukan oleh Wu et al. (2005). Wu et al melakukan penelitian menggunakan metode ekstraksi ciri hamming distance dan edit distance dan metode klasifikasi Probabilistic Neural Network (PNN). Dalam penelitian Wu et al. diperoleh nilai sensitivity terbaik pada panjang sequence 200 base pair (bp) sebesar 0.83 dan pada panjang sequence 300 bp sebesar 0.93. Keduanya dilakukan terhadap 12 target kelas. Berdasarkan latar belakang tersebut, pada penelitian ini penulis akan melakukan identifikasi terhadap sequence DNA bakteri dari genus Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus menggunakan ekstraksi ciri Rantai Markov (orde satu dan orde dua) dengan Probabilistic Neural Network sebagai classifier. Tujuan Penelitian Penelitian ini bertujuan membuat model klasifikasi berbasis Probabilistic Neural Network (PNN) yang diimplementasikan untuk melakukan identifikasi sequence DNA bakteri terhadap lima jenis genus, yaitu genus Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan menggunakan Rantai Markov sebagai metode ekstraksi Manfaat Penelitian Manfaat dari penelitian ini meliputi: 1 Dapat melakukan identifikasi sequence DNA bakteri genus Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan menggunakan metode ekstraksi ciri Rantai Markov dan metode klasifikasi Probabilistic Neural Network (PNN). 2 Menghasilkan suatu sistem yang dapat mengidentifikasi DNA bakteri terhadap lima jenis genus, yaitu Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus. Ruang Lingkup Penelitian Ruang lingkup penelitian ini meliputi: 1 Data sequence terdiri atas 5 genus, yaitu Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp. 2 Data sequence DNA dari 5 genus tersebut terdapat dalam fail dengan format .fna.
3
METODE PENELITIAN Penelitian ini dilakukan dalam beberapa tahap yang meliputi studi pustaka, pengambilan data, ekstraksi ciri Rantai Markov, k-fold cross validation, model klasifikasi PNN, pengujian model klasifikasi yang terbentuk terhadap organisme baru, dan analisis. Tahapan-tahapan tersebut dapat dilihat melalui Gambar 1. Mulai Studi Pustaka Pengambilan data Ekstraksi Ciri Rantai Markov
Membagi data menjadi k-fold
Data latih
Organisme Baru
Data Uji Klasifikasi PNN
Analisis
Model Klasifikasi
Analisis
Selesai
Gambar 1 Metode penelitian Studi Pustaka Pada tahap ini, dilakukan serangkaian studi pustaka terhadap literatur yang berkaitan dengan penelitian. Studi ini mencakup konsep mengenai metagenome, bioinformatika, sequence DNA, k-fold cross validation, Rantai Markov, PNN, dan pustaka lainnya yang dianggap menunjang penelitian ini.
4 Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data metagenome yang diunduh dari situs National Center for Biotechnology Information (NCBI) dengan alamat web http://www.ncbi.nlm.nih.gov/. NCBI adalah tempat penyimpanan berbagai materi genetik seperti kromosom, gen, DNA, asam amino, dan protein yang sudah berhasil diidentifikasi dan dipetakan. Data ini dapat diakses oleh umum melalui internet, sehingga sangat membantu dalam pembelajaran bioteknologi, genetika, evolusi, keanekaragaman hayati, fisiologi, dan taksonomi terutama dalam tingkat molekuler. Setelah mendapatkan data dari NCBI, data tersebut kita proses dalam perangkat lunak MetaSim (ver. 0.9.1). Keluaran dari perangkat lunak ini adalah fail berupa FASTA yang berisi sequence DNA. Sequence DNA terdiri atas A, C, G, dan T yang merupakan komponen basa nukleotida. Pada penelitian ini, data metagenome yang akan digunakan terdiri atas lima genus, yaitu Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp. Kelima genus tersebut digunakan karena dalam database yang diperoleh memiliki keragaman species yang besar, yaitu antara 14 sampai 18 species. Data yang dikumpulkan kemudian dibagi dua. Data yang satu dipakai untuk mencari model klasifikasi, sedangkan yang satunya merupakan data dari luar sebagai organisme baru untuk menguji model klasifikasi yang terbentuk. Praproses Pada tahap praproses dilakukan pemisahan antara data informasi dengan sequence DNA-nya. Sequence DNA yang telah dipisahkan kemudian akan digunakan sebagai penciri dari sebuah organisme. Contoh data yang terdapat dalam fail FASTA: >r1.1|SOURCES={GI=115350056,fw,24251462425246}|ERROR S={}|SOURCE_1="Burkholderia ambifaria AMMD chromosome chromosome 1"(cc1f7490881b379f77fffd84822b0921a35eb865)ACTTCCGC CTCCCGGATCACGAGCGGCGGCGACAGCAGCATCCGATCACCGGTCGCGCGC ATGATCAGGTTGCCGTTGAAACAGAAGTCGCGGCAGATCG
Sequence DNA yang digunakan: ACTTCCGCCTCCCGGATCACGAGCGGCGGCGACAGCAGCATCCGATCACCGG TCGCGCGCATGATCAGGTTGCCGTTGAAACAGAAGTCGCGGCAGATCG
Ekstraksi Ciri Rantai Markov Rantai Markov adalah suatu model stokastik yang diperkenalkan oleh matematikawan Rusia bernama A. A. Markov pada awal abad ke-20. Dengan menggunakan proses Markov maka dimungkinkan untuk memodelkan fenomena stokastik dalam dunia nyata yang berkembang menurut waktu. Masalah dasar dari metode stokastik dengan proses Markov adalah menentukan deskripsi state yang sesuai, sehingga proses stokastik yang berpaduan akan benar-benar
5 memiliki apa yang akan disebut sifat Markov (Markovian property), yaitu pengetahuan terhadap state ini adalah cukup untuk memprediksi perilaku stokastik yang akan datang (Mangku 2005). Suatu Rantai Markov dikatakan diskret (Discrete Time Markov Chain) jika ruang dari proses Markov tersebut adalah himpunan terbatas (finite) atau tercacah (countable), dengan himpunan indeks adalah . Jika nilai suatu state pada periode tertentu hanya bergantung pada satu periode sebelumnya, maka rantai tersebut disebut Rantai Markov Orde Satu (First Order Markov Chain) dan jika nilai suatu state pada periode tertentu bergantung pada periode sebelumnya, maka rantai tersebut disebut Rantai Markov Orde m (m Order Markov Chain). Rantai Markov Orde Satu secara matematika dirumuskan sebagai berikut: *
j
n
Adapun Rantai Markov Orde berikut: {
n
j
(n
n
+
secara matematika dirumuskan sebagai
)m
(n
)m
n
n}
Peluang bahwa berada pada state jika berada pada state disebut sebagai peluang transisi satu langkah (one step transition probability). Secara matematis dapat terlihat pada rumus di bawah ini: nn j
*
n
j
+
n
Jika peluang ini bebas dari indeksnya, maka peluang ini disebut proses Markov dengan peluang transisi stasioner. Sehingga peluang transisi tersebut dirumuskan sebagai berikut:
Peluang transisi ini disusun dalam bentuk matriks, yang disebut peluang +. matriks transisi P, yang setiap unsurnya adalah yaitu * Matriks tersebut terdapat di bawah ini:
[
p p
p p
p p
pn
pn
pnn
]
Dalam penelitian ini, matriks peluang transisi dibentuk dari peluangpeluang munculnya komponen basa tertentu setelah sebelumnya merupakan komponen basa tertentu. Matriks transisi Rantai Markov Orde Satu dibentuk dari peluang-peluang munculnya komponen basa tertentu setelah sebelumnya merupakan tepat satu komponen basa tertentu. Dengan demikian matriks transisi Rantai Markov Orde
6 Satu terdiri atas ( ), yaitu peluang munculnya komponen basa A setelah sebelumnya merupakan komponen basa A, ( ), ( ), ( ) , dan seterusnya, sehingga pada matriks transisi Rantai Markov Orde Satu terdapat 16 elemen matriks (Robin et al. 2005). Matriks transisi Rantai Markov Orde Satu dapat dilihat di bawah ini: ( ( ( (
) ) ) )
( ( ( (
) ) ) )
( ( ( (
) ) ) )
( ( ( (
) ) ) )
Matriks transisi Rantai Markov Orde Dua dibentuk dari peluang-peluang munculnya komponen basa tertentu setelah sebelumnya merupakan tepat dua komponen basa tertentu. Adapun matriks transisi Rantai Markov Orde Dua terdiri atas ( ) , yaitu peluang munculnya komponen basa A setelah ), sebelumnya merupakan kedua komponen basa AA, ( ), ( ( ), dan seterusnya, sehingga pada matriks transisi Rantai Markov Orde Dua terdapat 64 elemen matriks (Robin et al. 2005). Matriks tersebut ditunjukkan di bawah ini: ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )
( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )
( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )
( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )
Matriks transisi tersebut kemudian menjadi penciri dari setiap sequence DNA yang mewakili genus tertentu. Kompleksitas Rantai Markov adalah ( ). K-Fold Cross Validation Cross validation merupakan metode untuk memperkirakan generalisasi galat berdasarkan “resampling” K-fold cross validation membagi data menjadi k subset yang ukurannya hampir sama satu sama lain. Subset yang dihasilkan yaitu yang digunakan sebagai data pelatihan dan data pengujian.
7 Dalam metode ini dilakukan perulangan sebanyak kali. Setiap kali perulangan, salah satu subset akan dijadikan data uji dan subset lainnya dijadikan sebagai data latih. Pada perulangan ke-i, subset digunakan sebagai data pengujian dan subset lainnya digunakan sebagai data pelatihan, dan seterusnya. (Hastie et al. 2011). Pada penelitian ini, nilai yang digunakan adalah 5. Berdasarkan nilai tersebut, jumlah subset data yang dihasilkan adalah 5 subset data. Setelah 5 subset terbentuk, maka nantinya proses klasifikasi akan dilakukan sebanyak 5 kali perulangan. Data latih dan data uji memiliki subset yang berbeda pada setiap iterasi, sehingga setiap subset pernah menjadi subset data uji sebanyak tepat 1 kali. Subset-subset yang akan digunakan sebagai data latih dan data uji secara lengkap disajikan pada Tabel 1. Tabel 1 Proses pada metode 5-fold cross validation Perulangan ke-
Data Uji
Data Latih
1 2 3 4 5
Probabilistic Neural network (PNN) Probabilistic Neural Network (PNN) merupakan Jaringan Saraf Tiruan (JST) yang menggunakan teorema probabilitas klasik seperti pengklasifikasian Bayes dan penduga kepekatan Parzen. Proses yang dilakukan oleh PNN dapat berlangsung lebih cepat bila dibandingkan dengan JST Back Propagation. Hal ini disebabkan PNN hanya membutuhkan satu kali iterasi pelatihan bila dibandingkan dengan JST Back Propagation yang membutuhkan beberapa kali iterasi pelatihan (Specht 1990). Struktur PNN terdiri atas empat lapisan, seperti yang terlihat pada Gambar 2. yaitu input layer, pattern layer, summation layer, dan decision layer. Input layer merupakan objek yang terdiri atas nilai ciri yang akan diklasifikasikan pada n kelas. Nilai-nilai k kemudian akan membentuk sebuah vektor masukan, vektor x. Proses-proses yang terjadi setelah fase input layer adalah: 1 Pattern Layer Pattern layer menggunakan satu node untuk setiap data pelatihan yang digunakan. Setiap node pola merupakan selisih dari vektor masukan dengan vektor bobot , yaitu . kemudian dibagi dengan faktor b as σ sehingga menghasilkan . Dengan demikian, persamaan yang digunakan adalah : (
(
) (
)
)
8
P11 S1 P1j P21 S2
x
Y
P2j
Pi1 Sn Pij Input Layer
Pattern Layer
Summation Layer
Decision Layer
Gambar 2 Struktur Probabilistic Neural Network (PNN) 2
Summation Layer Summation layer menerima masukan dari setiap node pattern layer yang terkait dengan kelas yang ada. Hasil dari pattern layer setiap kelas diwakilkan oleh . Persamaan yang digunakan pada lapisan ini adalah:
(
)
∑
(
(
) (
)
)
Keterangan: x = vektor masukan (data uji) xij = vektor bobot (data latih) pada kelas i dan sequence j σ = faktor bias k = panjang dimensi vektor t = banyaknya sequence dalam kelas i 3
Decision Layer Decision layer Menentukan kelas dari input yang diberikan. Input akan masuk ke kelas jika nilai peluang masuk ke { ( )} paling besar dibandingkan peluang masuk ke kelas lainnya. Analisis
Dalam tahap analisis nilai sensitivity dan specificity setiap genus akan dihitung. Dalam pencarian nilai sensitivity dan specificity dibutuhkan suatu matriks yang disebut confusion matrix.
9 Confusion Matrix merupakan suatu tabel yang memvisualisasikan kinerja dari suatu algoritma. Setiap kolom dalam matriks merepresentasikan kelas yang diprediksikan, sedangkan setiap baris merepresentasikan kelas yang sebenarnya. Misalkan kita akan menganalisis sensitivity dan specificity dari suatu genus A. Table of Confusion untuk analisis genus A dapat dilihat pada Tabel 2. Tabel 2 Table of Confusion Terdeteksi sebagai sequence DNA genus A
Terdeteksi sebagai bukan sequence genus A
Sequence DNA uji genus A
tp
fn
Bukan sequence DNA uji genus A
fp
tn
Keterangan: tp : true positive (jumlah sequence DNA uji genus A yang teridentifikasi sebagai sequence DNA genus A) tn : true negative (jumlah bukan sequence DNA uji genus A tepat teridentifikasi sebagai bukan sequence DNA genus A) fp : false positive (jumlah bukan sequence DNA uji genus A teridentifikasi sebagai sequence DNA genus A) fn : false negative (jumlah sequence DNA uji genus A teridentifikasi sebagai bukan sequence DNA genus A)
tepat yang yang yang
Sensitivity mengukur proporsi positif yang diidentifikasi dengan benar, sedangkan specificity mengukur proporsi negatif yang diidentifikasi dengan benar. Persamaan dari nilai sensitivity adalah:
Adapun persamaan dari nilai specificity adalah:
Dalam penelitian ini digunakan lima genus sehingga akan diperoleh lima nilai sensitivity dan specificity. Kelima nilai sensitivity dan specificity tersebut kemudian dirata-ratakan sehingga diperoleh nilai sensitivity dan specificity yang merepresentasikan panjang sequence.
10
HASIL DAN PEMBAHASAN Praproses Data Data yang digunakan pada penilitian ini terdiri atas lima genus, yaitu Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan lima panjang sequence, yaitu 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp. Data sequence DNA untuk kelima genus dengan panjang sequence 100 bp, 200 bp, 400 bp 800 bp, dan 1000 bp dapat dilihat pada Tabel 3. Tabel 3 Data sequence DNA kelima genus yang digunakan pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp Genus
Jumlah Sequence DNA
Bacillus
2400 sequence
Clostridium
2400 sequence
Lactobacillus
2400 sequence
Mycobacterium
2400 sequence
Staphylococcus
2400 sequence
Ekstraksi Ciri Rantai Markov Pada penelitian ini, ekstraksi ciri yang digunakan adalah Rantai Markov dengan orde satu dan orde dua. Pada orde satu, untuk setiap genus dan panjang sequence yang digunakan, diperoleh matriks dengan dimensi 4 x 4. Matriks ini kemudian dibuat menjadi matriks berdimensi 1 x 16 untuk memudahkan penghitungan. Pada orde dua, untuk setiap genus dan panjang sequence yang digunakan, diperoleh matriks dengan dimensi 16 x 4. Matriks ini kemudian dibuat menjadi matriks berdimensi 1 x 64 untuk memudahkan penghitungan. Misalkan diberikan sebuah sequence: TAGGTTTAGGTAGAACTTTTCAAAATATCCGACTTTTTAAAAAT ATGACTGTTTTAGACAATGTACTAGTAGGACTCAGTAATCATCACTTA TCACATCC Matriks transisi Rantai Markov Orde Satu yang dihasilkan dari sequence tersebut adalah sebagai berikut:
11 Adapun Matiks transisi Rantai Markov Orde Dua yang dihasilkan dari sequence tersebut adalah seagai berikut:
5-Fold Cross Validation Pada penelitian ini digunakan k-fold cross validation untuk membagi data latih dan data uji. Metode tersebut digunakan agar semua data sequence DNA pernah tepat satu kali menjadi data uji, sehingga nilai akurasi yang dihasilkan dapat merepresentasikan nilai akurasi data secara keseluruhan. Pada penelitian ini nilai yang digunakan adalah 5 sehingga proporsi data untuk data uji adalah 20% dan proporsi data untuk data latih adalah 80%. Jumlah sequence DNA yang akan digunakan sebagai data latih dan data uji pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp dapat dilihat pada Tabel 4. Tabel 4 Jumlah data latih dan data uji dari kelima genus pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp Genus
Jumlah Data Latih
Jumlah Data Uji
Jumlah Data
Bacillus
1920 sequence
480 sequence
2400 sequence
Clostridium
1920 sequence
480 sequence
2400 sequence
Lactobacillus
1920 sequence
480 sequence
2400 sequence
Mycobacterium
1920 sequence
480 sequence
2400 sequence
Staphylococcus
1920 sequence
480 sequence
2400 sequence
12 Klasifikasi Probabilistic Neural Network (PNN) Percobaan diawali dengan mengklasifikasikan masing-masing ekstraksi ciri. Masing-masing ciri diklasifikasikan dengan uji coba pembagian data latih dan data uji 80%-20% (9600 data latih dan 2400 data uji). Kelas target dari klasifikasi berjumlah 5 kelas. Bias yang digunakan 2. Perbandingan antar Fold Setelah dilakukan pengujian dengan menggunakan klasifikasi Probabilistic Neural Network, proses selanjutnya adalah menghitung nilai sensitivity dan specificity. Nilai sensitivity dan specificity yang dihasilkan oleh setiap fold pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp dapat dilihat pada Tabel 5-14. Tabel 5 Nilai sensitivity dan specificity setiap fold pada panjang sequence 100 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.165
0.952
0.392
0.962
0.610
0.801
0.975
0.963
0.669
0.776
2
0.123
0.960
0.383
0.965
0.594
0.813
0.973
0.968
0.715
0.742
3
0.142
0.955
0.429
0.941
0.581
0.808
0.969
0.972
0.635
0.764
4
0.154
0.951
0.423
0.955
0.615
0.807
0.967
0.971
0.640
0.767
5 0.119 0.958 0.408 0.961 sens = sensitivity, spec = specificity
0.646
0.810
0.973
0.973
0.688
0.754
Tabel 6 Nilai sensitivity dan specificity setiap fold pada panjang sequence 100 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.369
0.888
0.415
0.969
0.771
0.680
0.952
0.979
0.275
0.930
2
0.360
0.872
0.421
0.974
0.738
0.708
0.952
0.984
0.331
0.913
3
0.390
0.875
0.429
0.958
0.765
0.720
0.948
0.981
0.313
0.927
4
0.329
0.877
0.438
0.959
0.752
0.694
0.940
0.978
0.267
0.923
5 0.348 0.887 0.471 0.959 sens = sensitivity, spec = specificity
0.773
0.684
0.931
0.979
0.283
0.942
13 Tabel 7 Nilai sensitivity dan specificity setiap fold pada panjang sequence 200 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.142
0.955
0.590
0.956
0.627
0.843
0.983
0.982
0.744
0.786
2
0.165
0.953
0.575
0.962
0.629
0.848
0.977
0.986
0.773
0.780
3
0.198
0.958
0.573
0.965
0.654
0.847
0.981
0.983
0.777
0.792
4
0.144
0.968
0.550
0.970
0.650
0.833
0.990
0.984
0.794
0.777
5 0.127 0.968 0.558 0.965 sens = sensitivity, spec = specificity
0.650
0.834
0.988
0.980
0.759
0.774
Tabel 8 Nilai sensitivity dan specificity setiap fold pada panjang sequence 200 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.429
0.836
0.221
0.995
0.817
0.713
0.944
0.993
0.340
0.900
2
0.490
0.839
0.221
0.995
0.817
0.745
0.938
0.996
0.431
0.899
3
0.510
0.844
0.225
0.993
0.877
0.749
0.944
0.996
0.367
0.898
4
0.423
0.843
0.229
0.997
0.815
0.710
0.950
0.996
0.388
0.904
5
0.444
0.872
0.229
0.995
0.817
0.713
0.956
0.993
0.402
0.889
sens = sensitivity, spec = specificity
Tabel 9 Nilai sensitivity dan specificity setiap fold pada panjang sequence 400 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.138
0.960
0.621
0.979
0.613
0.882
0.996
0.988
0.906
0.760
2
0.200
0.965
0.592
0.974
0.623
0.894
0.992
0.991
0.908
0.755
3
0.171
0.964
0.600
0.985
0.642
0.882
0.992
0.985
0.900
0.760
4
0.179
0.957
0.608
0.984
0.596
0.881
0.998
0.987
0.877
0.755
5 0.190 0.959 0.623 0.984 sens = sensitivity, spec = specificity
0.600
0.891
0.996
0.986
0.904
0.757
14 Tabel 10 Nilai sensitivity dan specificity setiap fold pada panjang sequence 400 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.527
0.888
0.106
0.999
0.763
0.891
0.983
0.997
0.792
0.768
2
0.604
0.880
0.110
0.999
0.750
0.897
0.979
0.998
0.792
0.783
3
0.550
0.893
0.121
1.000
0.781
0.86
0.983
0.996
0.773
0.777
4
0.521
0.892
0.121
1.000
0.733
0.880
0.981
0.997
0.794
0.769
5 0.565 0.896 0.144 1.000 sens = sensitivity, spec = specificity
0.760
0.894
0.979
0.998
0.810
0.776
Tabel 11 Nilai sensitivity dan specificity setiap fold pada panjang sequence 800 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.221
0.951
0.685
0.990
0.602
0.903
0.990
0.996
0.944
0.770
2
0.188
0.961
0.654
0.987
0.625
0.891
0.994
0.993
0.940
0.768
3
0.229
0.954
0.646
0.992
0.590
0.905
0.992
0.993
0.950
0.757
4
0.183
0.965
0.685
0.992
0.606
0.898
0.988
0.994
0.950
0.754
5 0.213 0.966 0.656 0.990 sens = sensitivity, spec = specificity
0.648
0.900
0.979
0.995
0.952
0.760
Tabel 12 Nilai sensitivity dan specificity setiap fold pada panjang sequence 800 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.568
0.937
0.285
1.000
0.698
0.947
0.983
0.999
0.965
0.742
2
0.554
0.938
0.281
0.999
0.694
0.940
0.990
0.995
0.944
0.744
3
0.581
0.946
0.294
0.998
0.694
0.946
0.981
0.998
0.963
0.740
4
0.546
0.951
0.267
0.999
0.679
0.943
0.988
0.998
0.960
0.719
5 0.581 0.945 0.300 0.999 sens = sensitivity, spec = specificity
0.717
0.942
0.975
0.997
0.965
0.751
15 Tabel 13 Nilai sensitivity dan specificity setiap fold pada panjang sequence 1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.194
0.964
0.688
0.994
0.590
0.901
0.996
0.996
0.967
0.754
2
0.213
0.962
0.681
0.988
0.610
0.911
0.992
0.996
0.950
0.755
3
0.208
0.952
0.683
0.990
0.594
0.908
0.992
0.992
0.948
0.766
4
0.223
0.947
0.679
0.990
0.571
0.903
0.992
0.996
0.950
0.768
5 0.181 0.967 0.663 0.993 sens = sensitivity, spec = specificity
0.585
0.894
0.996
0.994
0.946
0.745
Tabel 14 Nilai sensitivity dan specificity setiap fold pada panjang sequence 1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua Fold
Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
sens
spec
1
0.535
0.961
0.371
1.000
0.685
0.950
0.994
0.999
0.979
0.731
2
0.567
0.960
0.358
0.998
0.679
0.950
0.983
0.999
0.973
0.732
3
0.546
0.954
0.365
0.998
0.675
0.949
0.985
0.999
0.965
0.734
4
0.608
0.954
0.356
0.999
0.690
0.951
0.988
0.999
0.969
0.749
5 0.554 0.957 0.396 1.000 sens = sensitivity, spec = specificity
0.658
0.950
0.994
0.999
0.967
0.736
Perbandingan antar Genus Nilai sensitivity dan specificity yang dihasilkan oleh setiap genus dengan panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp dapat dilihat pada Tabel 15 dan Tabel 16. Tabel 15 merujuk kepada ekstraksi ciri Rantai Markov Orde Satu, sedangkan Tabel 16 merujuk kepada ekstraksi ciri Rantai Markov Orde Dua. Perbandingan dari keseluruhan nilai sensitivity dan specificity dalam penggunaan ekstraksi ciri Rantai Markov Orde Satu yang disajikan dalam bentuk grafik dapat dilihat berturut-turut pada Gambar 3 dan Gambar 4. Sedangkan perbandingan dari keseluruhan nilai sensitivity dan specificity dalam penggunaan ekstraksi ciri Rantai Markov Orde Dua yang disajikan dalam bentuk grafik berturut-turut dapat dilihat pada Gambar 5 dan Gambar 6.
16 Tabel 15 Nilai sensitivity dan specificity dari kelima genus yang menggunakan ekstraksi ciri Rantai Markov Orde Satu Bacillus Panjang sequence sens spec
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
100bp
0.140
0.955
0.407
0.957
0.609
0.808
0.971
0.969
0.669
0.760
200bp
0.155
0.961
0.569
0.964
0.642
0.841
0.984
0.983
0.769
0.782
400bp
0.175
0.961
0.609
0.981
0.615
0.886
0.995
0.987
0.899
0.758
800bp
0.207
0.959
0.665
0.990
0.614
0.899
0.988
0.994
0.947
0.762
1000bp
0.204
0.958
0.679
0.991
0.590
0.903
0.993
0.995
0.952
0.758
Tabel 16 Nilai sensitivity dan specificity dari kelima genus yang menggunakan ekstraksi ciri Rantai Markov Orde Dua Bacillus Panjang sequence sens spec
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
sens
spec
sens
spec
sens
spec
sens
spec
100bp
0.359
0.880
0.435
0.964
0.760
0.697
0.945
0.980
0.294
0.927
200bp
0.459
0.847
0.225
0.995
0.828
0.726
0.946
0.995
0.385
0.898
400bp
0.553
0.890
0.120
0.999
0.758
0.890
0.981
0.998
0.792
0.775
800bp
0.566
0.943
0.285
0.999
0.696
0.944
0.983
0.998
0.959
0.739
1000bp
0.562
0.957
0.369
0.999
0.678
0.950
0.989
0.999
0.970
0.736
1.2 1
Bacillus
0.8
Clostridium
0.6
Lactobacillus
0.4
Mycobacterium
0.2
Staphylococcus
0 100 bp 200 bp 400 bp 800 bp 1000 bp
Gambar 3 Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Satu Pada klasifikasi Probabilistic Neural Network dengan ekstraksi ciri Rantai Markov Orde Satu, berdasarkan grafik pada Gambar 3, dapat dilihat bahwa nilai sensitivity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, maupun 1000 bp, terletak pada genus Mycobacterium dan berdasarkan Gambar 4, nilai specificity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, maupun 1000 bp terletak pada genus Mycobacterium.
17 1.2 1
Bacillus
0.8
Clostridium
0.6
Lactobacillus
0.4
Mycobacterium
0.2
Staphylococcus
0 100 bp 200 bp 400 bp 800 bp 1000 bp
Gambar 4 Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Satu 1.2 1
Bacillus
0.8
Clostridium
0.6
Lactobacillus
0.4
Mycobacterium
0.2
Staphylococcus
0 100 bp 200 bp 400 bp 800 bp 1000 bp
Gambar 5 Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Dua 1.2 1
Bacillus
0.8
Clostridium
0.6
Lactobacillus
0.4
Mycobacterium
0.2
Staphylococcus
0 100 bp 200 bp 400 bp 800 bp 1000 bp
Gambar 6 Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri Rantai Markov Orde Dua Pada klasifikasi Probabilistic Neural Network dengan ekstraksi ciri Rantai Markov Orde Dua, berdasarkan grafik pada Gambar 5, dapat dilihat bahwa nilai sensitivity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, maupun 1000 bp, terletak pada genus Mycobacterium dan berdasarkan Gambar 4, nilai specificity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, maupun 1000 bp terletak pada genus Mycobacterium.
18 Bacillus, Lactobacillus, dan Staphylococcus berada dalam satu kelas yang sama, yaitu Bacilli. Ketiga genus tersebut berada dalam satu Phyllum yang sama dengan Clostridium, yaitu Firmicutes. Jika kita tinjau genus Mycobacterium, genus ini berada pada Phyllum yang berbeda dengan keempat genus lainnya, yaitu berada pada phyllum Actinobacteria. Secara filogeni atau kemiripan sekuen DNA, Mycobacterium lebih berbeda dengan yang lainnya. Actinobacteria cenderung memiliki kandungan persentase G dan C yang tinggi diabandingkan Firmicutes. Hal inilah yang menjadi penyebab nilai sensitivity dan specificity dari Mycobacterium sangat tinggi. Perbandingan antar Panjang Sequence Untuk melihat panjang sequence terbaik yang digunakan dalam metode ini, diperlukan nilai rata-rata dari sensitivity dan specificity. Nilai rata-rata sensitivity dan specificity dari kelima genus berdasarkan panjang sequence dapat dilihat pada Tabel 17. Perbandingan dari keseluruhan nilai sensitivity dan specificity rata-rata dalam penggunaan ekstraksi ciri Rantai Markov Orde Satu yang disajikan dalam bentuk grafik dapat dilihat pada Gambar 7. Sedangkan perbandingan dari keseluruhan nilai sensitivity dan specificity rata-rata dalam penggunaan ekstraksi ciri Rantai Markov Orde Dua yang disajikan dalam bentuk grafik dapat dilihat pada Gambar 8. Berdasarkan grafik pada Gambar 7, dapat dilihat bahwa untuk metode ekstraksi ciri Rantai Markov Orde Satu, nilai sensitivity dan specificity tertinggi terletak pada panjang sequence 800 bp. Berdasarkan grafik pada Gambar 8, dapat dilihat bahwa untuk metode ekstraksi ciri Rantai Markov Orde Dua, nilai sensitivity dan specificity tertinggi terletak pada panjang sequence 1000 bp. Setelah melalui serangkaian perbandingan, didapatkanlah model klasifikasi DNA bakteri terbaik. Model klasifikasi tersebut menggunakan ekstraksi ciri Rantai Markov Orde Dua, panjang sequence 1000 bp, dan fold 1, fold 2, fold 3, dan fold 5 sebagai data latihnya. Tabel 17 Nilai rata-rata sensitivity dan specificity dari kelima jenis genus yang menggunakan ekstraksi ciri Rantai Markov Orde Satu dan Dua Panjang Sequence
Orde satu Sensitivity
Specificity
Orde dua Sensitivity
Specificity
100 bp
0.5593
0.8898
0.5584
0.8896
200 bp
0.6238
0.9060
0.5688
0.8922
400 bp
0.6585
0.9146
0.6409
0.9102
800 bp
0.6843
0.9211
0.6981
0.9245
1000 bp
0.6835
0.9209
0.7136
0.9284
19
1 0.8
100 bp
0.6
200 bp
0.4
400 bp 800 bp
0.2
1000 bp
0 Sensitivity
Specificity
Gambar 7 Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Satu
1 0.8
100 bp
0.6
200 bp
0.4
400 bp 800 bp
0.2
1000 bp
0 Sensitivity
Specificity
Gambar 8 Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Dua Pengujian dengan Menggunakan Data Luar Setelah terbentuk model klasifikasi, dilakukanlah pengujian dengan menggunakan data luar. Data luar yang digunakan dapat dilihat pada Tabel 18. Tabel 18 Data luar untuk pengujian model klasifikasi yang terbentuk Genus
Jumlah Sequence DNA
Panjang sequence
Bacillus
20 sequence
1000 bp
Clostridium
20 sequence
1000 bp
Lactobacillus
20 sequence
1000 bp
Mycobacterium
20 sequence
1000 bp
Staphylococcus
20 sequence
1000 bp
20 Analisis dilakukan terhadap hasil pengujian menggunakan data luar ini. Confusion Matrix dari analisis dapat dilihat pada tabel 19. Nilai sensitivity dan specificity kelima genus dapat dilihat pada tabel 20. Tabel 19 Confusion matrix hasil pengujian menggunakan data luar Bacillus
Clostridium
Lactobacillus
Mycobacterium
Staphylococcus
Bacillus
11
0
4
0
5
Clostridium
4
7
1
0
8
Lactobacillus
2
0
12
1
5
Mycobacterium
0
0
0
20
0
Staphylococcus
0
0
0
0
20
Tabel 20 Nilai sensitivity dan specificity kelima genus ketika menggunakan data luar Sensitivity
Specificity
Bacillus
0.55
0.925
Clostridium
0.35
1.00
Lactobacillus
0.60
0.9375
Mycobacterium
1.00
0.9875
Staphylococcus
1.00
0.775
Pengujian menggunakan data luar ini menghasilkan akurasi sebesar 70%.
21
SIMPULAN DAN SARAN Simpulan Simpulan yang dapat ditarik dari penelitian adalah sebagai berikut: 1 Pada orde satu menghasilkan nilai sensitivity terbaik 0,6843 dan nilai specificity terbaik 0,9211 sedangkan pada orde dua menghasilkan nilai sensitivity terbaik 0,7136 dan nilai specificity terbaik 0,9284. 2 Semakin besar panjang sequence maka semakin besar pula nilai sensitivity dan specificity 3 Model klasifikasi terbaik yang diperoleh menggunakan ekstraksi ciri Rantai Markov Orde Dua, panjang sequence 1000 bp, dan fold 1, fold 2, fold 3, dan fold 5 sebagai data latihnya. Saran Saran untuk penelitian selanjutnya adalah: 1 Menambah jumlah data dengan jenis genus yang lebih beragam 2 Menambah jumlah sequence untuk masing-masing genus 3 Melakukan klasifikasi dalam beberapa tingkat taksonomi.
DAFTAR PUSTAKA Gargaud M et al. 2011. Encyclopedia of Astrobiology, Volume 1. Berlin (DE): Springer.. Hastie T, Tibshirani R, Friedman J. 2011. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York (US): Springer. Mangku IW. 2005. Dasar-dasar Pemodelan Stokastik. Departemen Matematika Fakultas MIPA, IPB, Bogor. Peyrard M. 2004. Nonlinear dynamics and statistical physics of DNA. 1-34. Polanski A, Kimmel M. 2007. Bioinformatics. Berlin (DE): Springer. Robin S, Rodolphe F, Schbath S. 2005. DNA , Words, and Models. Cambridge (UK): Cambridge University Press. Simons G, Yao Y, Morton G. 2004. Global markov models for eukaryote nucleotide data. J STAT PLAN INFER. 130: 251-275. Spetch DF. 1990. Probabilistic neural network. NEURAL NETWORKS. 3: 109118. Usotskaya N, Ryabko B,. 2009. DNA-sequence analysis using Markov chain models. COMPUT STAT DATA AN. 53: 1861-1872. Wang J, Zaki M, Toivonen H, Shasha D. 2005. Data Mining in Bioinformatics. London (UK): Springer. Wu X, Lu F, Wang B, Cheng J. 2005. Analysis of DNA sequence pattern using probabilistic neural network model. J RES PRACT INF TECH. 37(4)353-363. .
22
RIWAYAT HIDUP Penulis lahir di Bogor pada tanggal 2 Oktober 1990. Penulis merupakan anak pertama dari dua bersaudara buah hati pasangan Bapak Budi Utoyo dan Eulis Mardiani. Penulis lulus dari SMA Negeri 1 Bogor pada tahun 2009 dan melanjutkan pendidikan ke Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI) pada Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA). Semasa kuliah, penulis aktif di beberapa organisasi, yaitu Forum komunikasi Alumni Muslim SMANSA (Forkom Alims), Dewan Perwakilan Mahasiswa FMIPA (DPM-G), dan Himpunan Mahasiswa Ilmu Komputer (Himalkom). Penulis pun aktif dalam berbagai kegiatan di kampus, yaitu Open House 47 (Anggota Divisi Acara), Grafity 47 (Ketua Divisi Acara), G-Force 47 (Sebagai Anggota Divisi Scientist Guardian), Panitia Pemilihan Raya FMIPA (Anggota Divisi Acara dan Humas), Olimpiade Mahasiswa IPB 2012 (Ketua Divisi Acara), Gebyar Nusantara 2012 (Ketua Pelaksana), Olimpiade Mahasiswa 2013 (Ketua Divisi Publikasi, Dekorasi, dan Dokumentasi). Penulis memiliki minat yang besar dalam travelling, mountaineering, graphic design, web development, dan programming.