PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN METODE K-MEANS DAN FITUR N-MERS FREQUENCY BERNITA SINURAT

PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN METODE K-MEANS DAN FITUR N-MERS FREQUENCY

BERNITA SINURAT

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, April 2014 Bernita Sinurat NIM G64104032

ABSTRAK BERNITA SINURAT. Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency. Dibimbing oleh WISNU ANANTA KUSUMA. Deoxyribo Nucleic Acid (DNA) merupakan asam nukleat yang berisi instruksi genetik yang tersimpan dalam tubuh makhluk hidup. Setiap spesies memiliki DNA yang unik. Namun demikian, terdapat bagian yang memiliki kemiripan. Informasi mengenai ukuran kemiripan ini salah satunya sangat bermanfaat untuk membentuk phylogenetic tree yang dihasilkan dari proses pengelompokan sekuens-sekuens DNA. Tujuan dilakukannya penelitian ini adalah mengimplementasikan metode pengelompokan K-Means pada data sekuens DNA untuk mengenali suatu spesies dan membedakan spesies yang satu dengan yang lainnya berdasarkan kesamaan cirinya. Data yang digunakan dalam penelitian ini adalah tujuh puluh data spesies. Data dikelompokkan menggunakan metode K-Means yang kemudian dievaluasi menggunakan Indeks Davies Bouldin. Hasil pengelompokan pada penelitian ini menunjukkan bahwa nilai clustering terbaik dicapai oleh pengelompokan dengan 3 cluster. Kata kunci: Indeks Davies Bouldin, K-Means, n-mers, Sekuen DNA

ABSTRACT BERNITA SINURAT. Grouping of DNA sequences using the method of K-Means and Frequency Features N-mers. Supervised by WISNU ANANTA KUSUMA. Deoxyribo Nucleic Acid (DNA) is a nucleic acid that contains genetic instructions stored in the bodies of living organisms. Each species has a unique DNA. However, there are still similarity section among DNA from different species. The similarity information is useful to generate phylogenetic tree which can be developed from the clustering of DNA sequences. The purpose of this study is to implement K-Means clustering on DNA sequence to identify and distinguish species from another based on its common characteristics. Data used in this study consist of 70 species. Data are grouped using the K-Means clustering, and evaluated using the Davies Bouldin Index. The result shows that the best clustering is obtained with 3 clusters. Keywords: Davies Bouldin Index, K-Means, n-mers, Sequence DNA

PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN METODE K-MEANS DAN FITUR N-MERS FREQUENCY

BERNITA SINURAT

Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

Penguji : 1 2

Toto Haryanto, SKom Msi Muhammad Ashyar Agmalaro, SSi MKom

Judul Skripsi : Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency Nama : Bernita Sinurat NIM : G64104032

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST MT Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen Ilmu Komputer

Tanggal Lulus:

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala berkat-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Tema yang dipilih dalam penelitian ini ialah pengelompokan sekuens DNA menggunakan metode K-Means dan fitur n-mers frequency. Penulis mengucapkan terimakasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu: 1 Kedua orang tua serta seluruh keluarga atas doa, semangat, kasih sayang dan dorongan kepada penulis agar dapat segera menyelesaikan penelitian ini. 2 Bapak Dr Wisnu Ananta Kusuma, ST MT selaku dosen pembimbing yang telah memberikan arahan, masukan, dan dukungan kepada penulis. 3 Bapak Toto Haryanto, SKom MSi dan Bapak Muhammad Ashyar Agmalaro, SSi MKom selaku dosen penguji yang telah banyak memberi saran. 4 Ibu Istriyati selaku atasan yang telah memberikan izin, mendukung dan memotivasi dalam menyelesaikan pendidikan di alih jenis Ilmu Komputer IPB. 5 Rekan satu bimbingan:Agung Widyo Utomo, Fariz Ashar Himawan, Alharis Tamsin, Fitria Ellyana, dan Galih yang saling berbagi ide dan saling memotivasi selama pengerjaan skripsi. 6 Para sahabat:Cory Diana, Mira Della, Yosi Nurhayati, Jefri Hernandes, Yusuf Setiadi, R. Ahmad Somadi, Puspita Kartikasari, serta seluruh rekan-rekan Ilkom Alih Jenis angkatan 5, atas kerjasamanya selama penelitian. 7 Rekan-rekan Pusat Penyuluhan Hukum BPHN Kementerian Hukum dan HAM khususnya Bidang Pengembangan Penyuluhan Hukum atas perhatian dan motivasinya. 8 Pihak-pihak lain yang tidak dapat penulis sebutkan satu persatu. Semoga karya ilmiah ini bermanfaat.

Bogor,

April 2014

Bernita Sinurat

DAFTAR ISI DAFTAR TABEL

vii

DAFTAR GAMBAR

vii

DAFTAR LAMPIRAN

vii

PENDAHULUAN

1

Tujuan Penelitian

1

Manfaat Penelitian

1

Ruang Lingkup Penelitian

1

METODE

2

Penyiapan Data

3

Ekstraksi Ciri

3

Normalisasi

4

Algoritme K-Means

4

Indeks Davies Bouldin (IDB)

5

Lingkungan Implementasi Sistem

5

HASIL DAN PEMBAHASAN

6

Tahap Pengumpulan Data

6

Tahap Praproses Data

6

Tahap Pengelompokan

6

SIMPULAN DAN SARAN

8

Simpulan

8

Saran

8

DAFTAR PUSTAKA

9

LAMPIRAN

15

RIWAYAT HIDUP

21

DAFTAR TABEL 1 2 3 4

Nilai IDB terbaik dari masing-masing cluster Hasil clustering dengan 3 cluster Hasil clustering dengan 5 cluster Hasil clustering dengan 7 cluster

7 7 8 8

DAFTAR GAMBAR 1 2 3

Metode Penelitian Contoh Data GenBank NCBI dalam format FASTA Contoh perhitungan dengan n-mers frequency

2 3 3

DAFTAR LAMPIRAN 1 Data yang digunakan dalam penelitian 2 Visualisasi hasil clustering K-Means 3 Hasil Ekstraksi ciri menggunakan n-mers frequency untuk 70 data sekuen DNA 4 Hasil Normalisasi Ekstraksi ciri

10 12 13 16

1

PENDAHULUAN Latar Belakang Deoxyribo Nucleic Acid (DNA) merupakan asam nukleat yang berisi instruksi genetik yang tersimpan dalam tubuh makhluk hidup. DNA merupakan rantai ganda dari molekul sederhana (nukleotida) yang diikat bersama-sama dalam struktur helix yang dikenal dengan double helix. Ada 4 basa utama yang terdapat pada setiap satu nukleotida DNA, yaitu adenine (A), cytosine (C), thymine (T), atau guanine (G). Variasi urutan dari keempat basa tersebut membentuk suatu kode genetik pada sel. Variasi urutan basa DNA pada spesies mahluk hidup memiliki kemiripan yang menyebabkan beberapa spesies saling terkait satu sama lain. Oleh karena itu, untuk mengenali suatu spesies dan membedakan spesies yang satu dengan yang lainnya diperlukan pengelompokan berdasarkan kesamaan ciri fiturnya. Clustering merupakan salah satu metode Data Mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering digunakan dalam proses pengelompokan data, yaitu hierarchical (hirarki) data clustering dan nonhierarchical (non hirarki) data clustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain (Agusta 2007). Dalam statistik dan mesin pembelajaran, K-Means merupakan metode analisis kelompok yang mengarah pada proses partisi N objek pengamatan ke dalam K kelompok (cluster), setiap objek pengamatan dimiliki oleh sebuah kelompok dengan mean (rata-rata) terdekat. Metode ini mencoba menemukan pusat dari kelompok dalam data sebanyak iterasi (Prasetyo 2012). Tujuan dari proses clustering DNA ialah menemukan pola pengelompokan DNA yang meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar-cluster. Tujuan Penelitian Tujuan dilakukannya penelitian ini adalah mengimplementasikan metode K-Means pada data sekuens DNA untuk mengelompokkan DNA ke dalam cluster. Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan pengelompokan DNA secara tepat dan konsisten untuk mengenali suatu struktur metagenom DNA. Ruang Lingkup Penelitian 1

Ruang lingkup penelitian ini meliputi: Data yang digunakan berasal dari data GenBank NCBI berformat FASTA.

2

2 3 4

DNA sekuen yang digunakan adalah DNA bakteri sebanyak 70 spesies dengan 64 ciri. Data yang digunakan adalah data mikroba. Pengelompokan DNA sekuens dikelompokkan menggunakan metode K-Means dengan ukuran cluster 3,5,7 dan ekstraksi ciri menggunakan n-mers frequency dengan nilai n sama dengan 3.

METODE Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1. Tahapan yang dilakukan, ialah penyiapan data, ektraksi ciri dengan n-mers frequency, perhitungan pengelompokan DNA menggunakan metode K-Means, serta analisis hasil pengelompokan.

Gambar 1 Metode Penelitian

3

Penyiapan Data Data yang digunakan pada penelitian ini berupa 70 data spesies dalam bentuk sekuens DNA (urutan nukleotida pada suatu DNA). Sekuens yang digunakan berasal dari data Genbank NCBI dalam format FASTA. Data tersebut terdiri atas A, C, T, dan G. Contoh format FASTA dapat dilihat pada Gambar 2.

Gambar 2 Contoh Data GenBank NCBI dalam format FASTA Ekstraksi Ciri Pada tahap ini dilakukan proses ekstraksi ciri. Metode ekstraksi ciri yang digunakan untuk mendapatkan ciri DNA adalah n-mers frequency. Ekstraksi ciri n-mers frequency dihitung menggunakan kombinasi 3 nukleotida dengan nilai n sama dengan 3 sehingga diperoleh pola ciri {AAA, AAC, AAT, AAG, ACA, ACC, ACT, ACG, ATA, ATC, ATT, ATG, AGA, AGC, AGT, AGG, CAA, CAC, CAT, CAG, CCA, CCC, CCT, CCG, CTA, CTC, CTT, CTG, CGA, CGC, CGT, CGG, TAA, TAC, TAT, TAG, TCA, TCC, TCT, TCG, TTA, TTC, TTT, TTG, TGA, TGC, TGT, TGG, GAA, GAC, GAT, GAG, GCA, GCC, GCT, GCG, GTA, GTC, GTT, GTG, GGA, GGC, GGT, GGG}. Dimensi yang digunakan sebesar 43 yaitu 64 bp (base pair). Frekuensi kemunculan tiap fragmen DNA dihitung dengan pola ciri tersebut. Proses ekstraksi ciri ini dilakukan untuk memudahkan perhitungan jarak antar titik. Fitur n-mers frequency dengan nilai n sama dengan 3 pada sekuens AAAAATGAGGGCCCCCCTGGACGTG, sehingga diperoleh fitur seperti pada Gambar 3.

Gambar 3 Contoh perhitungan dengan n-mers frequency

4

Normalisasi Nilai rentang dari data hasil ekstraksi ciri sangat bervariasi, sehingga nilai yang diperoleh harus diskalakan kedalam batas nilai tertentu agar tidak terdapat dimensi data yang terlalu besar ataupun terlalu kecil yang akan sangat mempengaruhi hasil pengelompokan. Setiap nilai dalam data dikurangkan dengan nilai paling kecil dan dibagi dengan nilai paling besar kurang nilai paling kecil, sehingga skala rentang nilai yang didapatkan berada pada [0,0] hingga [1,0]. Min-max melakukan transformasi linear pada data, menggunakan nilai minimum dan nilai maksimum. Normalisasi min-max mempertahankan hubungan antara nilai data asli (Han dan Kamber 2001). Proses normalisasi dilakukan dengan mengurangkan nilai data asli dengan nilai minimal, kemudian dibagi dengan nilai maksimal kurang nilai minimal. Dapat dihitung dengan rumus:

Algoritme K-Means K-Means merupakan salah satu metode pengelompokan data non-hirarki yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data yang berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan ke dalam kelompok yang lain. Ada pun tujuan pengelompokan data ini adalah untuk meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antar kelompok (Prasetyo 2012). Langkah awal proses algoritme K-Means ialah menentukan pusat dari tiap cluster yang hampir sejenis yang kemudian disebut centroid. Centroid biasanya ditentukan secara acak (random). Kemudian, jarak tiap cluster dihitung terhadap centroid yang ada. Setiap cluster yang memiliki jarak terdekat dari tiap obyek terhadap centroid dikelompokkan. Nilai centroid dihitung kembali secara berulang-ulang sampai posisi centroid tidak berpindah lagi. Agusta (2007) menyatakan ada beberapa tahapan dalam melakukan cluster menggunakan K-Means, yaitu: 1 Menentukan jumlah cluster. 2 Mengalokasikan data ke dalam cluster secara random. 3 Menghitung centroid/rata-rata dari data yang ada di masing-masing cluster. Pusat cluster adalah rata-rata (mean) dari semua data atau objek dalam cluster tertentu, 4 Mengalokasikan masing-masing data ke centroid/rata-rata terdekat. Ada beberapa rumus jarak dua titik x dan y, dalam tulisan ini memakai jarak euclidean distance (d), adapun rumusnya adalah sebagai berikut: 5

Ulangi langkah 3, jika masih terdapat data yang berpindah cluster atau apabila terdapat perubahan nilai centroid.

5

Ketika algoritma partisional seperti K-Means yang digunakan tidak menghasilkan perbedaan yang signifikan, indeks validasi cluster akan digunakan untuk evaluasi kualitas cluster (Sivogolovko 2012). Indeks Davies Bouldin (IDB) Hasil clustering yang diperoleh menggunakan algoritme K-Means divalidasi menggunakan Indeks Davies Bouldin (IDB). Pengukuran ini memaksimalkan jarak inter-cluster antara Cluster Ci dan Cj dan pada waktu yang sama mencoba untuk meminimalkan jarak antar titik dalam sebuah cluster. Jarak intra-cluster sc (Qk) dalam Cluster Qk ialah: -

dengan Nk adalah banyak titik yang termasuk dalam Cluster Qk dan Ck adalah centroid dari Cluster Qk. Jarak Inter-cluster didefinisikan:

dengan Ck dan Cl adalah centroid Cluster k dan Cluster l. Di lain pihak, Indeks Davies Bouldin dihitung dengan menggunakan rumus:

dengan nc adalah banyak cluster. Skema clustering yang optimal menurut Indeks Davies Bouldin ialah yang memiliki Indeks Davies Bouldin minimal (Salazar et al. 2002). Informasi penting yang diperoleh dari hasil cluster diharapkan bermanfaat sehingga dapat diperoleh penanganan terhadap clustering yang berhubungan dengan DNA. Lingkungan Implementasi Sistem Lingkungan implementasi sistem adalah sebagai berikut : Perangkat keras berupa notebook: Processor Intel Core i5-2450M CPU @2.50Hz 2.50 GHz RAM kapasitas 4 GB, harddisk kapasitas 600 GB, monitor dengan resolusi 1600 x900 piksel. Perangkat lunak: Sistem operasi Microsoft Windows 7 Home Premium. Perangkat Matlab R2010b Perangkat lunak Dev-C++ Microsoft Excel 2007

6

HASIL DAN PEMBAHASAN Data sekuens DNA yang telah dinormalisasi akan dikelompokkan menggunakan metode K-Means. Jumlah cluster yang digunakan dalam pengelompokan data menggunakan K-Means adalah 3, 5, dan 7. Metode K-Means melakukan pengelompokan dengan meletakkan titik data ke dalam cluster yang titik pusatnya berjarak terdekat. Salah satu karakteristik dari metode K-Means adalah sangat sensitif dalam penentuan titik pusat awal cluster karena K-Means membangkitkan titik pusat cluster awal secara random. Pada saat pembangkitan awal titik pusat tersebut mendekati solusi akhir pusat cluster, maka akan menemukan hasil pengelompokan yang tepat. Sebaliknya, jika awal titik pusat tersebut jauh dari solusi akhir pusat cluster, besar kemungkinan menyebabkan hasil pengelompokan yang tidak tepat. Tahap Pengumpulan Data Data sekuen DNA berupa data berformat FASTA yang diunduh dari GenBank NCBI sebanyak 70 spesies DNA mikroba dapat dilihat pada Lampiran 1. Setiap DNA memiliki panjang sekuen yang berbeda-beda. Tujuh puluh data spesies tersebut memiliki paling banyak 6,731,723 karakter dan paling sedikit 1,595. Data tersebut terdiri dari rangkaian huruf yang merepresentasikan nukleotida adenine (A), cytosine (C), thymine (T), dan guanine (G). Urutan dalam format FASTA dimulai dengan deskripsi sekuen DNA tersebut, dan diikuti oleh barisan data sekuen. Diawali oleh simbol ”>” dan deskripsi dari sekuen DNA, sisanya merupakan barisan nukleotida yang panjangnya tidak melebihi 80 karakter per baris dan tanpa mengandung spasi. Tahap Praproses Data Ekstraksi Ciri dengan n-mers frequency Tahap ini merupakan proses ekstraksi ciri dari sebuah sekuen DNA yang terdiri atas urutan huruf ditransformasi menjadi matriks. Ekstraksi ciri dengan n-mers frequency menggunakan nilai n sama dengan 3, sehingga dimensi yang digunakan sebesar 43 yaitu 64 bp (base pair). Setiap sekuen DNA dari 70 data spesies diubah menjadi matriks 70x64. Ekstraksi ciri dilakukan karena dari sebuah sekuen DNA tersebut harus didapatkan nilai-nilai yang bisa dijadikan sebagai identitasnya, sehingga bisa diproses pada tahap selanjutnya. Tahap Pengelompokan Penerapan Metode K-Means Data sekuen DNA yang digunakan dalam pengelompokan ini adalah data yang dinormalisasi. Masukan untuk pengelompokan menggunakan metode K-Means adalah data dari praproses dengan 64 ciri DNA. Selanjutnya, centroid ditentukan dan jarak setiap data terhadap setiap centroid dihitung sehingga setiap data membentuk cluster. Setelah cluster diperoleh, dilakukan penghitungan ulang centroid dengan mencari nilai tengah dari setiap komponen satu cluster. Setelah didapatkan centroid baru, jarak objek

7

dengan centroid kembali dihitung. Iterasi pada algoritme K-Means akan berhenti apabila centroid cluster tidak berubah atau anggota cluster tetap sama. Inisialisasi centroid sangat dibutuhkan pada metode K-Means karena pada K-Means nilai centroid dipilih secara acak sehingga mempengaruhi hasil cluster. Begitu juga dengan ukuran cluster, metode K-Means tidak dapat menentukan ukuran cluster yang baik sehingga diperlukan nilai IDB. Nilai Indeks Davies Bouldin (IDB) Hasil dari pengelompokan spesies menggunakan K-Means dianalisis menggunakan Nilai IDB. Penelitian ini menggunakan 3 cluster yang berbeda-beda. Percobaan pertama dengan menggunakan 3 cluster, percobaan kedua menggunakan 5 cluster, dan percobaan ketiga menggunakan 7 cluster. Pada pengelompokan dengan ukuran cluster 3, nilai IDB minimum sama dengan 2,122. Hal ini menunjukkan bahwa percobaan dengan 3 cluster tersebut memiliki perbandingan antara jarak antar-cluster dan intra-cluster-nya sebesar 2,122. Pada jumlah cluster 5 nilai IDB minimum sama dengan 2,912, dan pada jumlah cluster 7 nilai IDB sama dengan 7,073 (Tabel 1). Berdasarkan Tabel 1 dapat dilihat bahwa Indeks Davies Bouldin paling minimum adalah 2,122 dengan percobaan hasil pengelompokan sebanyak 3 cluster. Tabel 1 Nilai IDB terbaik dari masing-masing cluster Indeks Davies Bouldin (IDB) Banyaknya Cluster 2,122 3 5

2,912

7

7,073

Pengelompokan Menggunakan Metode K-Means Hasil clustering dari masing-masing cluster dijabarkan sebagai berikut. 1 Clustering dengan 3 cluster Hasil clustering dengan 3 cluster dapat dilihat pada Tabel 2. Tabel 2 Hasil clustering dengan 3 cluster 1 9 spesies

Cluster 2 9 spesies

3 52 spesies

Kolom 1 pada Tabel 2 artinya berada di satu kelas yang sama pada cluster 1 ada 9 spesies DNA, kolom 2 pada cluster ke-2 ada 9 spesies DNA dan kolom 3 pada cluster ke-3 ada 52 spesies DNA. Dari Tabel 2 dapat dilihat bahwa hasil clustering pada cluster 3 mempunyai jarak lebih dekat dengan cluster 3 dibandingkan dengan cluster 1 dan cluster 2. 2 Clustering dengan 5 cluster Hasil clustering dengan 5 cluster dapat dilihat pada Tabel 3.

8

Tabel 3 Hasil clustering dengan 5 cluster 1 7 spesies

2 7 spesies

Cluster 3 46 spesies

4 9 spesies

5 1 spesies

Sama seperti yang dibahas sebelumnya, dari Tabel 3 dapat dilihat bahwa hasil clustering pada cluster 5 mempunyai jarak lebih dekat dengan cluster 3 dibandingkan dengan cluster 1, cluster 2, cluster 4, dan cluster 5. 3 Clustering dengan 7 cluster Hasil clustering dengan 7 cluster dapat dilihat pada Tabel 4. Tabel 4 Hasil clustering dengan 7 cluster 1 2 spesies

2 45 spesies

3 2 spesies

Cluster 4 4 spesies

5 7 spesies

6 5 spesies

7 5 spesies

Seperti yang dibahas sebelumnya, kolom-kolom pada Tabel 4 artinya berada di satu kelas yang sama pada setiap kolom. Hasil clustering pada cluster 7 mempunyai jarak lebih dekat dengan cluster 2 dibandingkan dengan cluster lainnya.

SIMPULAN DAN SARAN Simpulan Pada penelitian ini, clustering sekuen DNA dilakukan dengan metode K-Means berdasarkan fitur cirinya. Percobaan dilakukan dengan 3 kali percobaan yaitu 3 cluster, 5 cluster dan 7 cluster. Dari ketiga percobaan tersebut, yang memiliki indeks minimum adalah 3 cluster.

Saran Untuk pengembangan dari penelitian ini disarankan untuk melakukan halhal berikut: 1 Menambah jumlah sekuen DNA yang digunakan. 2 Menggunakan perhitungan ekstraksi ciri lain seperti feature vectors dan spaced n-mers sehingga dapat dilakukan perbandingan. 3 Menggunakan algoritme pengelompokan lain seperti single link dan complete link sehingga dapat dilakukan perbandingan.

9

DAFTAR PUSTAKA Agusta Y. 2007. K-Means – penerapan, permasalahan dan metode terkait. Jurnal Sistem dan Informatika 3. (2): 47-60. Han J, Kamber M. 2001. Data Mining: Concepts and Techniques. San Fransisco(US): Morgan Kaufmann Publishers. Prasetyo E. 2012. Data Mining Konsep dan Aplikasi menggunakan Matlab. Jakarta: C.V. Andi Offset. Salazar GEJ, Veles AC, Parra MCM, Ortega LO. 2002. A cluster validity index for comparing non-hierarchical clustering methods. [terhubung berkala]. http://citeseer.ist.psu.edu/rd/salazar02cluster.pdf [16 April 2014]. Sivogolovko E. 2012. Validating cluster structures in Data Mining tasks. Russia: Saint-Petersbureg State University.

10

Lampiran 1 Data yang digunakan dalam penelitian No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Spesies Agrobacterium fabrum str. C58 chromosome circular, complete sequence Agrobacterium radiobacter K84 chromosome 2 Agrobacterium rhizogenes gene for 16S ribosomal RNA, complete sequence Agrobacterium rhizogenes strain IFO 13257 16S ribosomal RNA, complete sequence Agrobacterium rubi gene for 16S ribosomal RNA, complete sequence Agrobacterium tumefaciens gene for 16S ribosomal RNA, complete sequence Agrobacterium tumefaciens plasmid Ti, complete sequence Agrobacterium tumefaciens str. C58 chromosome linear, complete sequence Agrobacterium tumefaciens Ti plasmid pTiBo542, complete sequence Agrobacterium vitis S4 chromosome 1 Borrelia afzelii ACA-1 plasmid lp17, complete sequence Borrelia bissettii DN127 plasmid lp25, complete sequence Borrelia burgdorferi 297 plasmid 297_lp28-6, complete sequence Borrelia duttonii Ly plasmid pl23b, complete sequence Borrelia garinii PBi plasmid cp26, complete sequence Borrelia garinii PBi plasmid lp54, complete sequence Borrelia garinii PBi, complete genome Borrelia sp. SV1 plasmid SV1_lp28-2, complete sequence Borrelia spielmanii A14S plasmid A14S_lp28-8, complete sequence Borrelia valaisiana VS116 plasmid VS116_cp32-5, complete sequence Campylobacter coli plasmid pCC31, complete sequence Campylobacter concisus 13826 plasmid pCCON31, complete sequence Campylobacter hominis ATCC BAA-381 plasmid pCH4, complete sequence Campylobacter jejuni subsp. jejuni 81-176 plasmid pVir, complete sequence Campylobacter jejuni subsp. jejuni CG8486 Scon07, whole genome shotgun sequence Campylobacter jejuni subsp. jejuni CG8486 Scon10b, whole genome shotgun sequence Campylobacter coli plasmid pCC31, complete sequence Campylobacter jejuni subsp. jejuni CG8486 Scon15, whole genome shotgun sequence Campylobacter jejuni subsp. jejuni NCTC 11168 = ATCC 700819 chromosome, complete genome Campylobacter lari RM2100 megaplasmid pCL2100, complete sequence

11

Lanjutan lampiran 1 31 Campylobacter phage NCTC12673, complete genome 32 Corynebacterium aurimucosum ATCC 700975 plasmid pET44827, complete sequence 33 Corynebacterium diphtheriae NCTC 13129, complete genome 34 Corynebacterium efficiens YS-314 plasmid pCE2, complete sequence 35 Corynebacterium efficiens YS-314 plasmid pCE3, complete sequence 36 Corynebacterium glutamicum ATCC 13032, complete genome 37 Corynebacterium glutamicum R plasmid pCGR1, complete sequence 38 Corynebacterium jeikeium plasmid pB85766, complete sequence 39 Corynebacterium jeikeium plasmid pK64, complete sequence 40 Corynebacterium resistens DSM 45100 plasmid pJA144188, complete sequence 41 Corynebacterium sp. L2-79-05 plasmid pLEW279a, complete sequence 42 Mycobacterium bovis BCG Pasteur 1173P2, complete genome 43 Mycobacterium bovis BCG str. Mexico chromosome, complete genome 44 Mycobacterium bovis BCG str. Moreau RDJ complete genome 45 Mycobacterium bovis BCG str. Tokyo 172 DNA, complete genome 46 Mycobacterium leprae TN, complete genome 47 Mycobacterium marinum M chromosome, complete genome 48 Mycobacterium smegmatis JS623, complete genome 49 Mycobacterium tuberculosis H37Rv complete genome 50 Mycobacterium ulcerans Agy99 chromosome, complete genome 51 Mycobacterium vanbaalenii PYR-1 chromosome, complete genome 52 Staphylococcus aureus subsp. aureus COL chromosome, complete genome 53 Staphylococcus aureus subsp. aureus MSSA476 chromosome, complete genome 54 Staphylococcus aureus subsp. aureus strain MRSA252, complete genome 55 Staphylococcus epidermidis ATCC 12228, complete genome 56 Staphylococcus haemolyticus JCSC1435 DNA, complete genome 57 Staphylococcus lugdunensis HKU09-01, complete genome 58 Staphylococcus phage A5W, complete genome 59 Staphylococcus saprophyticus subsp. saprophyticus ATCC 15305, complete genome 60 Staphylococcus sp. 693-2 plasmid pLEW6932, complete sequence

12

Lanjutan lampiran 1 61 Streptococcus agalactiae plasmid pLS1, complete sequence 62 Streptococcus dysgalactiae subsp. equisimilis plasmid pSdyT132, complete sequence 63 Streptococcus infantarius subsp. infantarius strain CJ18 gal-lac operon, complete sequence 64 Streptococcus macedonicus ACA-DC 198 plasmid pSMA198, complete sequence 65 Streptococcus mutans strain NC101 plasmid pNC101, complete sequence 66 Streptococcus parasanguinis plasmid pFW213, complete sequence 67 Streptococcus pneumoniae D39 plasmid pDP1, complete sequence 68 Streptococcus pyogenes isolate 9116-03 plasmid pRW35, complete sequence 69 Streptococcus suis plasmid pSSU1 DNA, complete sequence 70 Streptococcus thermophilus 2783 plasmid pt38, complete sequence

Lampiran 2 Visualisasi hasil clustering K-Means

Lampiran 3 Hasil Ekstraksi ciri menggunakan n-mers frequency untuk 70 data sekuen DNA Jumlah Data

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

AAA

AAC

AAT

AAG

ACA

ACC

26727 18 3071 18 41226 17 3071 28614 3947 56890 21974 21792 21792 21935 31199 33473 27782 22284 28749 16648 1995 1747

26515 24 2470 24 33903 26 2470 23927 3180 42224 50808 50536 50445 50834 47358 77357 72375 51396 65903 65872 402 322

26390 18 2583 18 29732 18 2583 21841 3112 46981 23472 23301 23316 23522 31691 37472 34001 23800 31954 20320 1380 1174

37061 31 3051 31 41748 34 3051 28879 3988 53427 35816 35548 35380 35635 35296 54788 57329 36054 47064 46140 560 482

22852 19 2077 19 25118 21 2077 18652 2682 37103 41986 41718 41655 41980 43551 62301 64624 42346 53352 59032 373 286

34793 18 2434 18 43293 16 2434 30923 3159 58621 97562 96915 96490 97290 65509 148966 124392 98253 125714 144606 156 108

ACT

ACG

ATA

ATC

14526 42483 19746 57804 16 27 13 18 1658 3083 1886 3851 16 27 13 18 13668 45148 21441 56188 16 27 15 14 1658 3083 1886 3851 10334 32301 16102 41558 2101 4006 2238 4851 19646 48183 31737 76118 29843 81137 15178 69057 29627 80549 15086 68602 29537 80336 15091 68546 29736 81049 15230 68994 36308 55690 24300 55626 47315 114392 20949 109366 48407 137141 18721 108865 29990 81802 15325 69644 40572 98405 17810 95155 43085 138405 10739 102697 380 61 1195 429 296 51 1005 361

Fitur Ciri ATT

26505 17 2631 17 29059 22 2631 22031 3172 47158 24019 23830 23803 23947 31992 37538 34157 24220 31825 19894 1323 1168

ATG

45081 21 3058 21 49317 19 3058 36186 3863 65343 48826 48523 48432 48861 42981 75850 74843 49311 63763 63590 348 296

AGA

AGC

AGT

30556 48816 14854 22 32 25 2689 3633 1724 22 32 25 32219 49354 13063 22 31 27 2689 3633 1724 23264 35451 10211 3335 4399 2097 41564 67585 19795 30357 79355 30262 30175 78903 30004 30060 78699 30023 30329 79424 30222 31032 60677 36376 48878 115146 47299 51297 113705 49152 30680 79997 30505 42207 98978 40389 49754 108848 43084 455 214 305 409 182 296

....

GGG

.....

33202 46 2280 46 32642 51 2280 25632 2912 47358 80958 80693 80516 81084 46316 132607 103424 82017 108812 125797 75 70

..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... .....

13

14

Lanjutan lampiran 3 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

910 1231 2304 3830 59234 1557 1616 1809 3507 2132 276 3613 7284 12232 12691 13640 3467 5800 472 39246 404 722 53104 1027

306 233 444 800 13268 275 514 402 725 484 75 593 1225 2033 2849 2677 689 2403 417 37882 301 630 51510 997

733 1013 1504 2597 41108 1038 1085 1051 1928 1115 116 1716 3899 6397 6200 7061 2052 5730 365 32031 247 516 42584 593

438 676 637 1497 21549 476 385 674 1283 825 146 1295 3054 5137 4640 5631 1244 1910 484 38279 367 694 51150 865

299 231 433 802 11769 275 352 398 781 431 92 550 1021 1658 2495 2281 608 2320 343 33171 238 548 43053 851

166 62 160 236 5800 99 308 116 240 186 33 159 537 865 1542 1247 267 1431 433 41810 468 983 59801 1056

322 279 348 671 11115 273 402 397 566 445 40 408 1234 2102 2584 2614 606 2232 359 27475 261 479 37052 580

78 52 78 163 2138 50 55 93 169 170 35 160 308 503 635 705 97 157 415 39701 332 656 45065 783

471 906 1157 1644 30368 925 861 853 1381 1313 107 1325 2929 4849 4839 5590 1681 6060 314 21271 180 420 21773 293

359 258 395 671 14928 312 557 304 666 462 41 486 1605 2523 3465 3137 730 2938 420 43674 397 890 60690 775

850 993 1330 2679 41332 1086 1033 927 1773 879 114 1579 3946 6658 5827 7000 1987 6400 352 31827 310 484 42835 598

259 456 381 767 12807 308 216 409 920 561 40 676 2027 3458 2404 3437 773 2061 365 39035 377 726 51586 848

326 609 557 1301 18658 452 305 588 1248 788 151 1091 2151 3609 2771 3637 1017 1610 434 30366 347 716 41457 596

246 246 286 694 10159 214 431 281 594 554 97 455 1539 2707 2946 3062 556 975 489 45163 430 719 57849 882

388 442 327 829 10878 326 220 394 512 466 59 537 1592 2693 2054 2867 636 1922 425 28006 296 497 36306 500

..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... .....

102 200 87 216 4342 62 62 148 219 127 44 158 520 894 512 897 157 258 428 31723 445 1033 42449 866

Lanjutan lampiran 3 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70

244 249 416 368 120523 119837 123131 104764 105863 111951 108542 6399 80889 2326 237 192 301 717 339 381 213 210 323 198

215 251 398 406 51598 51373 53050 45976 44388 49307 47887 2577 31622 869 67 52 161 277 102 131 44 94 79 53

126 128 340 295 109922 109238 113216 93062 97349 105178 98631 4915 69570 2165 112 100 213 441 189 224 102 147 147 93

233 184 417 435 52613 52400 53608 51020 46480 53660 50716 3967 37441 1009 121 91 163 332 178 175 94 80 155 81

173 200 335 333 51382 50926 52432 43657 42253 45876 48435 2715 32630 796 52 32 146 230 89 83 33 75 62 42

263 214 459 572 27331 27283 28437 26311 24342 26592 25694 1371 16783 493 31 24 59 131 33 67 13 64 40 31

145 142 269 329 39758 39792 41245 36264 37788 40021 35713 2391 23001 731 57 53 152 162 75 111 41 72 69 40

231 239 416 566 23718 23502 24220 21741 19411 23491 23786 625 15401 348 36 32 52 120 40 75 22 41 41 29

117 105 318 251 85572 84938 88191 70153 79975 81378 81137 5166 56245 1839 94 80 123 315 171 193 95 129 129 101

196 175 510 621 51400 51153 53527 49465 46818 48626 48119 1791 31109 928 60 44 130 239 77 120 27 79 59 37

134 106 335 312 110962 110302 114549 92567 98880 105035 99185 4838 70583 2074 128 119 197 412 180 203 110 134 122 99

234 158 440 439 59645 59291 60890 50056 49454 54895 56494 2934 39750 868 75 54 181 209 120 108 52 58 95 41

191 171 345 407 42750 42392 43370 41586 39489 44764 39857 4270 31857 866 96 69 114 323 178 155 93 63 140 59

278 213 532 682 29107 28980 29792 28851 24630 27901 30950 1264 19466 536 70 57 66 165 79 78 38 69 78 28

183 92 233 323 39486 39549 40560 34249 36999 40973 36694 2594 26802 764 72 56 129 189 98 123 62 53 94 56

..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... .....

305 143 385 518 8744 8826 8969 8112 7980 9100 10194 559 7450 196 53 33 32 66 41 43 30 21 51 23

15

16

Lampiran 4 Hasil Normalisasi Ekstraksi ciri Jumlah Data

AAA

AAC

AAT

AAG

ACA

1

0.2170

0.3426

0.2330

0.6463

0.3534

0.2335

0.2998

0.3068

0.2238

0.5285

2

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

3

0.0248

0.0316

0.0227

0.0527

0.0319

0.0163

0.0339

0.0221

4

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

5

0.3347

0.4381

0.2625

0.7281

0.3885

0.2906

0.2821

6

0.0000

0.0000

0.0000

0.0001

0.0000

0.0000

7

0.0248

0.0316

0.0227

0.0527

0.0319

8

0.2323

0.3091

0.1928

0.5035

0.2884

9

0.0319

0.0408

0.0273

0.0691

10

0.4620

0.5457

0.4149

11

0.1783

0.6567

12

0.1769

0.6532

13

0.1769

14

Fitur Ciri ATT

AGT

....

GGG

0.4238

0.3019

.....

0.2503

0.0000

0.0000

0.0000

.....

0.0002

0.0401

0.0520

0.0313

0.0346

.....

0.0170

0.0000

0.0000

0.0000

0.0000

.....

0.0002

0.2536

0.6501

0.6279

0.4285

0.2654

.....

0.2460

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

.....

0.0002

0.0212

0.0351

0.0228

0.0401

0.0520

0.0313

0.0346

.....

0.0170

0.1825

0.3799

0.1922

0.4769

0.4533

0.3077

0.2073

.....

0.1932

0.0288

0.0252

0.0442

0.0275

0.0507

0.0646

0.0380

0.0422

.....

0.0218

0.4057

0.3480

0.3598

0.6960

0.4116

0.8614

0.8102

0.5869

0.4024

.....

0.3570

0.6549

0.6164

0.5862

0.1720

0.6314

0.2096

0.6436

0.5916

0.6891

0.6155

.....

0.6104

0.6506

0.6119

0.5819

0.1709

0.6272

0.2079

0.6396

0.5881

0.6852

0.6102

.....

0.6085

0.6445

0.6477

0.6101

0.5804

0.1710

0.6267

0.2077

0.6384

0.5858

0.6834

0.6106

.....

0.6071

0.6214

0.6495

0.6531

0.6142

0.5855

0.1726

0.6308

0.2089

0.6441

0.5911

0.6897

0.6147

.....

0.6114

0.2798

0.6155

0.6738

0.4397

0.7500

0.4023

0.2754

0.5086

0.2792

0.5665

0.6048

0.5268

0.7399

.....

0.3492

0.3309

0.9557

0.9640

1.0000

0.9774

0.8265

0.2374

1.0000

0.3276

1.0000

0.9528

1.0000

0.9623

.....

1.0000

0.9356

0.3002

1.0000

1.0000

0.8350

1.0000

0.9909

0.2122

0.9954

0.2981

0.9867

1.0000

0.9875

1.0000

.....

0.7799

0.1809

0.6643

0.2101

0.6287

0.6552

0.6595

0.6194

0.5910

0.1736

0.6368

0.2113

0.6500

0.5979

0.6947

0.6204

.....

0.6184

19

0.2334

0.8519

0.2821

0.8208

0.8255

0.8439

0.8381

0.7109

0.2018

0.8700

0.2777

0.8406

0.8227

0.8596

0.8216

.....

0.8205

20

0.1351

0.8515

0.1793

0.8047

0.9134

0.9707

0.8900

1.0000

0.1216

0.9390

0.1735

0.8383

0.9699

0.9453

0.8765

.....

0.9486

21

0.0161

0.0049

0.0120

0.0092

0.0055

0.0010

0.0075

0.0003

0.0134

0.0038

0.0114

0.0043

0.0084

0.0016

0.0057

.....

0.0004

22

0.0141

0.0039

0.0102

0.0079

0.0041

0.0006

0.0058

0.0002

0.0112

0.0032

0.0100

0.0037

0.0075

0.0013

0.0055

.....

0.0004

ACC

ACT

ACG

ATA

ATC

ATG

AGA

0.2313

0.5942

0.5955

0.0000

0.0000

0.0000

0.0212

0.0351

0.0228

0.0000

0.0000

0.0000

0.3261

0.2430

0.5137

0.0000

0.0000

0.0000

0.0163

0.0339

0.0221

0.2075

0.2132

0.2333

0.0412

0.0211

0.0431

0.9319

0.5740

0.3935

0.2072

0.6245

0.6496

0.2057

0.6199

0.6454

0.6520

0.2058

0.6169

0.1780

0.6570

0.2076

15

0.2533

0.6121

16

0.2717

1.0000

17

0.2255

18

AGC

Lanjutan lampiran 4 23

0.0073

0.0036

0.0063

0.0071

0.0043

0.0010

0.0063

0.0004

0.0052

0.0032

0.0073

0.0032

0.0059

0.0019

0.0074

.....

0.0006

24

0.0099

0.0027

0.0088

0.0113

0.0033

0.0003

0.0054

0.0002

0.0101

0.0022

0.0085

0.0058

0.0114

0.0019

0.0085

.....

0.0014

25

0.0186

0.0054

0.0131

0.0106

0.0064

0.0010

0.0069

0.0004

0.0130

0.0035

0.0115

0.0048

0.0104

0.0022

0.0061

.....

0.0005

26

0.0310

0.0100

0.0228

0.0256

0.0121

0.0015

0.0135

0.0010

0.0185

0.0060

0.0232

0.0099

0.0249

0.0058

0.0164

.....

0.0015

27

0.4810

0.1713

0.3630

0.3755

0.1819

0.0389

0.2294

0.0153

0.3442

0.1364

0.3607

0.1686

0.3635

0.0880

0.2209

.....

0.0326

28

0.0125

0.0032

0.0090

0.0078

0.0040

0.0006

0.0053

0.0002

0.0103

0.0027

0.0093

0.0038

0.0084

0.0016

0.0061

.....

0.0003

29

0.0130

0.0063

0.0094

0.0062

0.0052

0.0020

0.0080

0.0002

0.0096

0.0050

0.0089

0.0026

0.0055

0.0035

0.0040

.....

0.0003

30

0.0146

0.0049

0.0091

0.0112

0.0059

0.0007

0.0079

0.0005

0.0095

0.0027

0.0079

0.0051

0.0110

0.0022

0.0075

.....

0.0010

31

0.0283

0.0091

0.0169

0.0219

0.0118

0.0015

0.0114

0.0011

0.0155

0.0060

0.0153

0.0119

0.0239

0.0049

0.0099

.....

0.0015

32

0.0172

0.0059

0.0097

0.0139

0.0064

0.0012

0.0089

0.0011

0.0147

0.0041

0.0075

0.0071

0.0149

0.0046

0.0090

.....

0.0008

33

0.0021

0.0007

0.0009

0.0020

0.0011

0.0001

0.0005

0.0001

0.0011

0.0002

0.0008

0.0003

0.0025

0.0006

0.0007

.....

0.0002

34

0.0292

0.0074

0.0150

0.0221

0.0082

0.0010

0.0081

0.0010

0.0149

0.0043

0.0136

0.0087

0.0208

0.0037

0.0104

.....

0.0010

35

0.0590

0.0155

0.0343

0.0528

0.0155

0.0035

0.0252

0.0021

0.0331

0.0145

0.0343

0.0265

0.0415

0.0131

0.0319

.....

0.0038

36

0.0992

0.0260

0.0564

0.0891

0.0254

0.0057

0.0431

0.0035

0.0548

0.0229

0.0580

0.0454

0.0700

0.0233

0.0543

.....

0.0066

37

0.1029

0.0365

0.0546

0.0804

0.0383

0.0103

0.0531

0.0044

0.0547

0.0316

0.0507

0.0315

0.0536

0.0253

0.0413

.....

0.0037

38

0.1107

0.0343

0.0622

0.0977

0.0350

0.0083

0.0537

0.0049

0.0632

0.0286

0.0610

0.0451

0.0705

0.0264

0.0579

.....

0.0066

39

0.0280

0.0086

0.0180

0.0212

0.0091

0.0017

0.0122

0.0005

0.0189

0.0065

0.0172

0.0099

0.0194

0.0046

0.0124

.....

0.0010

40

0.0470

0.0308

0.0505

0.0328

0.0356

0.0095

0.0458

0.0010

0.0686

0.0267

0.0557

0.0269

0.0310

0.0082

0.0386

.....

0.0018

41

0.0037

0.0051

0.0031

0.0079

0.0050

0.0028

0.0071

0.0028

0.0034

0.0037

0.0029

0.0046

0.0080

0.0040

0.0081

.....

0.0031

42

0.3186

0.4895

0.2828

0.6675

0.5131

0.2806

0.5674

0.2867

0.2411

0.3993

0.2777

0.5145

0.5918

0.3921

0.5696

.....

0.2391

43

0.0031

0.0036

0.0020

0.0059

0.0034

0.0031

0.0051

0.0022

0.0019

0.0035

0.0026

0.0047

0.0063

0.0035

0.0055

.....

0.0032

44

0.0057

0.0078

0.0044

0.0116

0.0082

0.0065

0.0096

0.0046

0.0046

0.0080

0.0041

0.0093

0.0135

0.0060

0.0096

.....

0.0076

45

0.4312

0.6658

0.3760

0.8922

0.6661

0.4014

0.7653

0.3255

0.2468

0.5549

0.3739

0.6800

0.8081

0.5023

0.7385

.....

0.3200

46

0.0082

0.0126

0.0051

0.0146

0.0129

0.0070

0.0117

0.0055

0.0032

0.0070

0.0051

0.0109

0.0112

0.0074

0.0097

.....

0.0064

17

18

Lanjutan lampiran 4 47

0.0018

0.0025

0.0010

0.0035

0.0024

0.0017

0.0027

0.0015

0.0012

0.0017

0.0010

0.0028

0.0033

0.0022

0.0032

.....

0.0021

48

0.0019

0.0029

0.0010

0.0027

0.0028

0.0013

0.0026

0.0016

0.0010

0.0015

0.0008

0.0018

0.0029

0.0016

0.0014

.....

0.0009

49

0.0032

0.0048

0.0028

0.0067

0.0049

0.0030

0.0052

0.0028

0.0035

0.0045

0.0028

0.0056

0.0063

0.0044

0.0042

.....

0.0027

50

0.0029

0.0049

0.0024

0.0071

0.0049

0.0038

0.0065

0.0039

0.0027

0.0056

0.0026

0.0055

0.0075

0.0057

0.0061

.....

0.0037

51

0.9788

0.6669

0.9709

0.9177

0.7950

0.1834

0.8213

0.1712

0.9703

0.4699

0.9687

0.7863

0.8333

0.2526

0.8032

.....

0.0658

52

0.9732

0.6640

0.9649

0.9140

0.7880

0.1831

0.8220

0.1697

0.9631

0.4677

0.9629

0.7816

0.8263

0.2515

0.8045

.....

0.0664

53

1.0000

0.6857

1.0000

0.9351

0.8113

0.1908

0.8520

0.1749

1.0000

0.4894

1.0000

0.8027

0.8454

0.2586

0.8251

.....

0.0675

54

0.8508

0.5942

0.8220

0.8899

0.6755

0.1766

0.7491

0.1569

0.7954

0.4522

0.8081

0.6598

0.8106

0.2504

0.6966

.....

0.0610

55

0.8597

0.5737

0.8598

0.8107

0.6537

0.1633

0.7806

0.1401

0.9068

0.4280

0.8632

0.6519

0.7697

0.2137

0.7526

.....

0.0600

56

0.9092

0.6373

0.9290

0.9360

0.7098

0.1784

0.8267

0.1696

0.9227

0.4445

0.9169

0.7237

0.8726

0.2421

0.8335

.....

0.0685

57

0.8815

0.6189

0.8712

0.8846

0.7494

0.1724

0.7377

0.1717

0.9200

0.4399

0.8659

0.7447

0.7769

0.2686

0.7464

.....

0.0767

58

0.0518

0.0330

0.0433

0.0687

0.0417

0.0091

0.0491

0.0044

0.0584

0.0163

0.0421

0.0384

0.0828

0.0107

0.0523

.....

0.0041

59

0.6569

0.4086

0.6144

0.6529

0.5048

0.1126

0.4750

0.1111

0.6377

0.2844

0.6161

0.5239

0.6209

0.1689

0.5451

.....

0.0560

60

0.0188

0.0109

0.0190

0.0171

0.0120

0.0032

0.0148

0.0024

0.0207

0.0084

0.0180

0.0112

0.0165

0.0044

0.0150

.....

0.0013

61

0.0018

0.0006

0.0008

0.0016

0.0005

0.0001

0.0008

0.0001

0.0009

0.0004

0.0010

0.0007

0.0014

0.0004

0.0010

.....

0.0002

62

0.0014

0.0004

0.0007

0.0010

0.0002

0.0001

0.0008

0.0001

0.0008

0.0003

0.0009

0.0005

0.0009

0.0003

0.0006

.....

0.0001

63

0.0023

0.0018

0.0017

0.0023

0.0020

0.0003

0.0028

0.0002

0.0012

0.0011

0.0016

0.0021

0.0018

0.0003

0.0021

.....

0.0001

64

0.0057

0.0033

0.0037

0.0053

0.0033

0.0008

0.0030

0.0007

0.0034

0.0021

0.0034

0.0025

0.0059

0.0012

0.0033

.....

0.0003

65

0.0026

0.0010

0.0015

0.0026

0.0011

0.0001

0.0012

0.0001

0.0018

0.0006

0.0014

0.0013

0.0030

0.0004

0.0015

.....

0.0002

66

0.0030

0.0014

0.0018

0.0025

0.0010

0.0004

0.0020

0.0004

0.0020

0.0010

0.0016

0.0012

0.0026

0.0004

0.0020

.....

0.0002

67

0.0016

0.0003

0.0007

0.0011

0.0002

0.0000

0.0005

0.0000

0.0009

0.0001

0.0008

0.0004

0.0014

0.0001

0.0008

.....

0.0001

68

0.0016

0.0009

0.0011

0.0009

0.0009

0.0003

0.0012

0.0001

0.0013

0.0006

0.0010

0.0005

0.0008

0.0004

0.0006

.....

0.0000

69

0.0025

0.0007

0.0011

0.0022

0.0007

0.0002

0.0011

0.0001

0.0013

0.0004

0.0009

0.0010

0.0023

0.0004

0.0014

.....

0.0002

70

0.0015

0.0004

0.0007

0.0009

0.0004

0.0001

0.0005

0.0001

0.0010

0.0002

0.0007

0.0003

0.0007

0.0000

0.0006

.....

0.0000

19

RIWAYAT HIDUP Penulis dilahirkan pada tanggal 08 Oktober 1987 di Tebing Tinggi, Serdang Bedagai Sumatera Utara. Penulis merupakan anak ke-3 dari 3 bersaudara dari pasangan Janour Sinurat, SPd dan Mika br Simbolon. Pada tahun 2006 Penulis lulus dari SMA Swasta Katolik Budi Murni Tebing Tinggi, Medan. Pada tahun yang sama, Penulis lulus jalur Undangan Seleksi Masuk Institut Pertanian Bogor (USMI) Program Diploma. Pada tahun 2009, Penulis lulus dari Program Diploma Manajemen Informatika IPB. Penulis bekerja sebagai staf admin pada PT. Nerita Karya Lestari sejak Maret 2010 hingga September 2010. Pada tahun yang sama, Penulis melanjutkan program studi sarjana di Departemen Ilmu Komputer IPB pada Pogram Studi Ilmu Komputer dan Penulis diterima sebagai CPNS pada Badan Pembinaan Hukum Nasional (BPHN) Kementerian Hukum dan HAM Jakarta.

PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN METODE K-MEANS DAN FITUR N-MERS FREQUENCY BERNITA SINURAT

Recommend Documents