PENGELOMPOKAN FRAGMEN METAGENOM DENGAN METODE GROWING SELF ORGANIZING MAP
MARLINDA VASTY OVERBEEK
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa tesis berjudul Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Oktober 2013 Marlinda Vasty Overbeek NIM G651110601
RINGKASAN MARLINDA VASTY OVERBEEK. Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map. Dibimbing oleh WISNU ANANTA KUSUMA dan AGUS BUONO. Metagenom adalah penelitian tentang bagaimana menganalisis mikrob berskala besar dan memperbolehkan adanya pengkulturan secara langsung. Pengelompokan fragmen metagenom secara langsung bisa berakibat fatal karena bisa menyebabkan terjadinya interspesies chimeras atau kesalahan dalam perakitan fragmen metagenom. Pengelompokan fragmen metagenom pada lingkungan juga pada umumnya menggunakan supervised learning, sedangkan supervised learning merupakan pembelajaran yang menggunakan contoh dan bergantung pada ketersediaan data latih. Selain itu, pengelompokan juga menggunakan panjang fragmen yang panjang, yaitu ≥ 8 kbp dan berkomunitas kecil atau kurang dari 100 mikrob. Tujuan penelitian ini adalah untk menganalisis efektifitas dan efisiensi metode Growing Self Organizing Map dalam pengelompokan mikrob yang berskala besar dengan panjang fragmen yang pendek berdasarkan frekuensi oligonukleotida. Frekuensi oligonukleotida yang digunakan adalah trinukleotida, tetranukleotida, dan juga kombinasi frekuensi yang memperhatikan kondisi don’t care, yaitu spaced k-mer. Untuk ekstraksi fitur, digunakan k-mer frequency dan spaced k-mer frequency. Berdasarkan uji kombinasi parameter menggunakan frekuensi oligonukleotida, kombinasi terbaik antara Learning Rate dan Neighborhood Size untuk frekuensi trinukleotida adalah 0.1 untuk Learning Rate, 1 untuk Neighborhood Size dengan perhitungan quantization error adalah 0.531, 0.101 untuk topographic error, dan 16.84% untuk persentase error. Kombinasi terbaik tetranukleotida adalah 0.75 untuk Learning Rate dan 1 untuk Neighborhood Size, dengan memberikan nilai error 0.886 untuk quantization error, 0.09 untuk topographic error, dan 15.43% untuk persentase error. Untuk spaced k-mer, kombinasi terbaik adalah 0.5 untuk Learning Rate dan 1 untuk Neighborhood Size dengan quantization error adalah 0.665, 0.06 untuk topographic error dan 13.07% untuk persentase error. Perhitungan kombinasi untuk ketiga frekuensi oligonukleotida menggunakan map size dan dan training lenght yang sama, yaitu [10 10] dan 10 epochs. Dari hasil kombinasi parameter, frekuensi spaced k-mer menjadi frekuensi terbaik untuk pengelompokan fragmen metagenom dengan metode Growing Self Organizing Map. Dengan menggunakan map size yang berukuran antara [100 – 500], unit peta dari 100 – 5000 unit, dan training lenght 10 epochs, didapatkan hasil terbaik pelatihan adalah pada map size [100 150] dengan unit peta sebanyak 300 unit. Waktu latih yang diperlukan adalah 51 menit dengan persentase error 6.43%. Kata kunci: fragmen metagenom, Growing Self Organizing Map, Pengelompokan
SUMMARY MARLINDA VASTY OVERBEEK. Clustering Metagenome Fragments using Growing Self Organizing Map. Supervised by WISNU ANANTA KUSUMA and AGUS BUONO. Metagenome is a research about analyzing microbes in the large community and allowed the culture-independent. The microorganism samples taken directly from environment is not easy to assembly because contains mixture microorganism. If sample complexity is very high and come from high diversity environment, difficulties of assembling DNA sequence are increasing because the interspecies chimeras can be happen. Clustering commonly using supervised learning, but the supervised learning depends on avaibillity of data training. Because of that, in this research we used unsupervised learning to clustering the metagenome fragments. Beside that, clustering usually using the longer fragments, which is ≥ 8 kbp and have a small community (less than 100 microorganism). The purpose of this research is to analyze the effectiveness and efficiency of Growing Self Organizing Map to the clustered large community of metagenome fragments. We used trinucleotide, tetranucleotide, and combination of oligonucleotide frequency that consider the don’t care situation called spaced kmer frequency as a features. As a feature extraction, we using k-mer and spaced kmer. Based on parameter combination using oligonucleotide frequency, the best combine between Learning Rate and Neighborhood Size is a spaced k-mer frequency. We tested to get a better parameter combinatoin into [10 10] map size and 10 epochs training lenght. Error to mapped metagenome fragments using spaced k-mer frequency is 0.665 for quantization error, 0.06 for topographic error and 13.07% for error percentage. Using the map size between [100 – 500], map unit 300 – 5000 unit, and training lenght 10 epochs, gives the best training in the map size [100 150] with 300 map unit. The training time is 51 minutes and percentage error is 6.43%. Keywords: Clustering, Growing Self Organizing Map, metagenome fragments
© Hak Cipta Milik IPB, Tahun 2013 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
PENGELOMPOKAN FRAGMEN METAGENOM DENGAN METODE GROWING SELF ORGANIZING MAP
MARLINDA VASTY OVERBEEK
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Komputer pada Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013
Judul Tesis : Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map : Marlinda Vasty Overbeek Nama : G651110601 NIM
Disetujui oleh Komisi Pembimbing
Buono MSi MKom Anggota
Dr En
Diketahui oleh
Ketua Program Studi I1mu Komputer
Tanggal Ujian: 22 Juli 2013
Tanggal Lulus:
0 7 0LT 2013
Penguji pada Ujian Tertutup: Dr Ir Iman Rusmana, MSi
PRAKATA Puji dan syukur penulis panjatkan kepada Tuhan yang Maha Kuasa atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini sudah dikerjakan dari bulan September 2012 dengan judul Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map. Terima kasih penulis ucapkan kepada Bapak Dr Eng Wisnu Ananta Kusuma, ST, MT dan Bapak Dr Ir Agus Buono, MSi, MKom selaku pembimbing yang telah banyak memberi saran, kepada Bapak Dr Ir Iman Rusmana, MSi selaku penguji. Selain itu, penulis menyampaikan terima kasih kepada semua dosen dan staf Departemen Ilmu Komputer IPB yang telah membantu selama proses penelitian. Ungkapan terima kasih juga disampaikan kepada Papa John dan Mama Naniek, Mbak Yoanita, Kak Alex, Mas Andrew, Mbak Santhy, Kevin Joshua, Mama Yosina, dan Fajar Ndolu atas doa, perhatian dan kasih sayangnya. Teman-teman Dwi Regina (Frinsa, Mentari, Inna, Toyibah, Astrid, Lian, Erlisa), teman sepembimbingan Bapak Wisnu (Dian, Aa Bahrul, Kang Asril) dan temanteman seperjuangan angkatan 13 Ilmu Komputer IPB yang selalu bersama penulis dua tahun ini, terima kasih atas dukungannya. Penulis juga tidak lupa berterima kasih pada jajaran dosen dan staf STIKOM Uyelindo Kupang atas semua bantuan yang diberikan kepada penulis. Semoga karya ilmiah ini bermanfaat.
Bogor, Oktober 2013 Marlinda Vasty Overbeek
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
1 PENDAHULUAN Latar Belakang Perumusan Masalah Tujuan Penelitian Manfaat Penelitian Ruang Lingkup Penelitian
1 1 3 3 3 3
2 TINJAUAN PUSTAKA Metagenom Ekstraksi Ciri Growing Self Organizing Map
4 4 4 5
3 METODE PENELITIAN
8
4 HASIL DAN PEMBAHASAN
17
5 SIMPULAN
36
DAFTAR PUSTAKA
37
LAMPIRAN RIWAYAT HIDUP
40 59
DAFTAR TABEL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Dimensi hasil ekstraksi ciri Filum berdasarkan NCBI Taxonomy Browser Pembagian mikrob data latih dan data uji Pembangkitan data latih Pembangkitan data uji Perhitungan quantization error pada trinukleotida Perhitungan topographic error pada trinukleotida Perhitungan persentase error pada trinukleotida Perhitungan quantization error pada tetranukleotida Perhitungan topographic error pada tetranukleotida Perhitungan persentase error pada tetranukleotida Perhitungan quantization error pada spaced k-mer Perhitungan topographic error pada spaced k-mer Perhitungan persentase error pada spaced k-mer Parameter pengujian Hasil pelatihan frekuensi spaced k-mer Daftar organisme yang memiliki kesamaan dari hasil alignment Bacteroides fragilis 638R pada BLAST
10 11 19 19 20 24 24 24 26 26 27 29 29 29 32 32 34
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Binning sampel metagenomik (Kusuma 2012) Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012) Aturan inisialisasi node (Zhu dan Zhu 2010) Skema penelitian pengelompokan fragmen metagenom Prosedur analisis Contoh hasil simulasi MetaSim Praproses data dengan decimal scaling Blok diagram pengelompokan dengan GSOM Fase inisialisasi Inisialisasi starting node Best Matching Unit (Vesanto et al. 2000) Pengukuran quantization error Pengukuran topographic error Matriks komposisi salah satu frekuensi oligonukleotida Matriks decimal scaling salah satu frekuensi oligonukleotida Inisialisasi bobot pada frekuensi oligonukleotida Pemetaan frekuensi trinukleotida Pemetaan frekuensi tetranukleotida Pemetaan frekuensi spaced k-mer Perhitungan quantization error pada trinukleotida Perhitungan topographic error pada trinukleotida Perhitungan persentase error pada trinukleotida Perhitungan quantization error pada tetranukleotida Perhitungan topographic error pada tetranukleotida Perhitungan persentase error pada tetranukleotida
4 5 7 8 9 10 11 12 13 13 15 15 16 17 18 21 22 22 23 25 25 26 27 28 28
26 27 28 29 30 31
Perhitungan quantization error pada spaced k-mer Perhitungan topographic error pada spaced k-mer Perhitungan persentase error pada spaced k-mer Hasil pengelompokan Bacteroides fragilis 638R dengan 1024 reads Data yang digunakan dengan panjang sekuens query 1000 (1 kbp) Hit dari 17 organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R
30 30 31 33 33 34
DAFTAR LAMPIRAN 1 2 3 4 5 6
Daftar mikrob yang digunakan sebagai data latih Daftar mikrob yang digunakan sebagai data uji Hasil analisis pengelompokan frekuensi trinukleotida map size [10 10] dengan Learning Rate 0.1 dan Neighborhood Size 1 Hasil analisis pengelompokan frekuensi tetranukleotida map size [10 10] dengan Learning Rate 0.75 dan Neighborhood Size 1 Hasil analisis pengelompokan frekuensi spaced k-mer map size [10 10] dengan Learning Rate 0.5 dan Neighborhood Size 1 Pohon taksonomi BLAST dari organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R
40 45 48 51 54 57
1
1 PENDAHULUAN Latar Belakang Penelitian tentang metagenom terus berkembang dalam lingkup biologi molekuler. Analisis tentang metagenom disebut dengan metagenomik, yaitu analisis tentang mikrob yang berskala besar yang diambil langsung dari habitat asal mikrob tersebut (Chan et al. 2007; O’Malley 2012). Pengisolasian mikrob secara langsung seringkali memiliki kendala untuk mengetahui komunitas sesungguhnya dari suatu ekosistem karena hanya 1% mikrob yang dapat diisolasi langsung dari lingkungan (Harayama et al. 2004). Contoh dari kesulitan untuk isolasi lagsung dari lingkungan adalah proyek laut Sargasso (Venter et al. 2004). Istilah low-abundance digunakan untuk menggambarkan keadaan ini. Lowabundance adalah rendahnya representasi relatif keanekaragaman mikrob dalam sampel lingkungan sehingga masih banyak mikrob yang belum dikenali dan dimanfaatkan (Chan et al. 2007; Harayama et al. 2004). Low-abundance pada fragmen metagenom yang berukuran besar sering menimbulkan kendala dalam perakitan genom dan menyebabkan mikrob sulit dikelompokan secara filogenetik (Chan et al. 2007). Kesalahan dalam perakitan fragmen metagenom disebut interspecies chimeras (Meyerdierks dan Glockner 2012). Untuk menyelesaikan permasalahan tersebut, binning digunakan untuk mengelompokan mikrob berdasarkan tingkatan taksonomi. Ada dua pendekatan binning, yaitu berdasarkan homologi dan berdasarkan komposisi. Binning berdasarkan homologi melakukan pencarian penjajaran sekuens dengan membandingkan fragmen metagenom dengan basis data sekuens antara lain National Centre for Biotechnology Information (NCBI) dan hasilnya akan disimpulkan pada tiap level taksonomi. Hal tersebut menyebabkan pendekatan dengan homologi membutuhkan banyak waktu dalam proses pengelompokan. Contoh metode yang menggunakan pendekatan homologi adalah BLAST (Wu 2008; Zheng dan Wu 2009) dan MEGAN (Huson et al. 2007). Pendekatan kedua adalah pendekatan berdasarkan komposisi. Pendekatan ini menggunakan pasangan basa hasil ekstraksi fitur sebagai masukkan untuk pembelajaran dengan contoh (supervised) atau pembelajaran dengan observasi (unsupervised). Tidak seperti pendekatan secara homologi, pendekatan secara komposisi tidak perlu membandingkan dan menyimpulkan setiap hasil pencarian pada tiap level taksonomi sehingga waktu yang diperlukan untuk pengelompokan lebih cepat dibandingkan dengan pendekatan secara homologi. Contoh metode binning berdasarkan komposisi dengan unsupervised learning adalah TETRA (Teeling et al. 2004), Chisel System (Rodriguez et al. 2007), ESTmapper (Wu et al. 2006), GSOM atau Growing Self Organizing Map (Hsu dan Halgamuge 2002; Chan et al. 2007), Kohonen SOM atau Kohonen Self Organizing Map (Abe et al. 2003), Meta-Clust (Woyke et al. 2006), dan SOC atau Self Organizing Clustering (Amano et al. 2003; Amano et al. 2007). Adapun contoh metode binning berdasarkan komposisi dengan supervised learning adalah ClaMS (Pati et al. 2011), PhyloPythia (McHardy et al. 2007), Naïve Bayessian Classification (Rosen et al. 2008), dan Phymm (Brady dan Salzberg 2009).
2 Sebagian besar proses binning masih menggunakan pembelajaran dengan contoh (supervised learning). Pembelajaran dengan contoh bergantung pada ketersediaan data latih padahal data latih yang tersedia tidak cukup merepresentasikan keragaman mikrob (Prabhakara dan Acharya 2012). Pembelajaran dengan observasi (unsupervised learning) memberikan solusi terhadap keterbatasan data latih yang tersedia karena unsupervised learning akan menyusun data fragmen metagenom secara lebih terstruktur sebelum perbandingan sekuens dilakukan. Dengan demikian fragmen metagenom akan lebih cepat dan lebih kuat (robust) untuk dirakit (Nasser et al. 2008). Dari beberapa pendekatan binning berdasarkan komposisi dengan unsupervised learning, metode GSOM memberikan hasil terbaik dalam pemetaan fragmen metagenom. Oleh sebab itu, pada penelitian tentang pengelompokan fragmen metagenom ini akan menggunakan metode GSOM. Metode GSOM merupakan perbaikan dari keadaan statik metode Kohonen SOM (Chan et al. 2007). GSOM sukses memetakan data dalam bentuk microarray (Hsu et al. 2003) dan juga memetakan data prokariota dengan panjang ≥ 8 kbp (Chan et al. 2007). Hasil yang didapatkan adalah pada pengelompokan mikrob dengan empat frekuensi oligonukleotida (di-, tri-, tetra-, dan pentanukleotida) pada tiga dataset mikrob, pengelompokan menggunakan frekuensi dinukleotida tidak terlalu memberikan hasil yang baik sehingga disarankan utuk menggunakan frekuensi oligonukleotida yang lebih tinggi. Dalam perbandingan kecepatan, GSOM mengalami peningkatan kecepatan 37 % dibandingkan metode SOM pada dua dataset pertama dan untuk keseluruhan tiga dataset terjadi peningkatan kecepatan 7 % - 15 %. Penelitian fragmen metagenom menggunakan unsupervised learning umumnya hanya menggunakan komunitas yang kecil. Sedangkan untuk ekstraksi ciri, pengelompokan fragmen metagenom masih menggunakan k-mer dan belum memperhatikan kondisi don’t care. Ekstraksi ciri dengan memperhatikan kondisi don’t care disebut dengan spaced k-mer (Kusuma 2012). Spaced k-mer menyediakan vektor berdimensi lebih kecil yang berisi informasi yang lebih kaya dan berguna dibandingkan dengan vektor masukan hasil ekstraksi fitur menggunakan k-mer (Kusuma 2012). Pada penelitian ini digunakan komunitas spesies yang cukup besar, yaitu 300 spesies dan data spesies tersebut diambil dari basis data NCBI. Panjang fragmen yang digunakan adalah 1 kbp dengan frekuensi oligonukleotida trinukleotida dan tetranukleotida. Alasan digunakan fragmen yang pendek karena pada penelitan terdahulu, panjang fragmen yang digunakan adalah fragmen yang panjang (≥ 8 kbp). Pada penelitian ini hendak mengatasi kelemahan dari penggunaan fragmen pendek dalam pengelompokan fragmen metagenom. Selain itu, penelitian ini menggunakan kondisi don’t care untuk menghitung hasil matriks komposisi. Hasil dari pengelompokan fragmen metagenom tersebut akan diuji efektifitas dan efisiensinya.
3 Perumusan Masalah Adapun permasalahan yang akan menjadi bahan analisis adalah mengetahui berapa tingkat akurasi efektifitas dan efisiensi menggunakan metode GSOM menggunakan frekuensi trinukleotida, tetranukleotida, dan spaced k-mer pada panjang fragmen yang pendek.
Tujuan Penelitian Menganalisis efektifitas dan efisiensi metode GSOM dalam pengelompokan mikrob berskala besar pada tingkat taksonomi filum berdasarkan frekuensi trinukleotida, tetranukleotida dan spaced k-mer dengan fragmen yang pendek (1 kbp). Manfaat Penelitian Adapun manfaat dari penelitian yang dilakukan adalah untuk memberikan landasan bagi penelitian lanjutan di bidang metagenomik, khususnya yang memerlukan informasi kekerabatan antar organisme yang terdapat pada komunitas atau sampel yang diamati.
Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah : 1. Data latih terdiri atas 200 mikrob yang berasal dari 20 filum 2. Data uji yang terdiri atas 100 mikrob yang termasuk dalam taksonomi yang sama dengan data latih untuk mengetahui kualitas kebaikan pengelompokan fragmen metagenom dengan GSOM 3. Fragmen yang digunakan dihasilkan dari simulasi perangkat lunak. Panjang fragmen yang digunakan adalah tetap, yaitu 1 kbp
4
2 TINJAUAN PUSTAKA Metagenom Metagenomik adalah penelitian tentang mikrob yang sampelnya diambil secara langsung dari komunitas mikrob. Umumnya komunitas mikrob tersebut memiliki keanekaragaman yang tinggi dan berskala besar (Chan et al. 2007; O’Malley 2012). Pengambilan sampel langsung dari lingkungan atau isolasi secara langsung sering menyebabkan terjadinya masalah. Masalah yang sering muncul adalah ketika sampel yang diambil memiliki kompleksitas yang tinggi, yaitu setiap mikrob yang berada dalam sampel memiliki kekerabatan yang dekat dan hal tersebut sering menyebabkan kesalahan dalam perakitan fragmen metagenom yang disebut dengan interspecies chimeras (Meyerdierks dan Glockner 2010). Untuk menghindari terjadinya interspecies chimeras, maka fragmen metagenom perlu dikelompokan berdasarkan tingkat taksonomi atau disebut dengan binning (Meyerdierks dan Glockner 2010). Pada pengelompokan atau binning fragmen metagenom, sangat mungkin tiap kelompok atau bin memiliki mikrob yang sama berdasarkan tingkat taksonominya. Gambar 1 menunjukkan bagaimana binning fragmen metagenom dan proses perakitan DNA diperlukan di dalam proses analisis metagenom (Kusuma 2012).
Gambar 1 Binning sampel metagenomik (Kusuma 2012)
Ekstraksi Ciri K-mer adalah substring dengan panjang k (k adalah panjang fragmen metagenom). Analisis dari k-mer digunakan untuk menemukan frekuensi dari semua k-mer. Pola kemunculan k adalah pola yang menampilkan k pada suatu waktu dalam suatu sekuens (Choi dan Cho 2002). Pola kemunculan dalam dalam sekuens dihitung menggunakan empat basa utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang ingin digunakan (pola kemunculan : , dengan ). Selain menggunakan frekuensi k-mer, digunakan spaced k-mer yang memperhitungkan kondisi don’t care. Spaced k-mer dikemukakan oleh Kusuma (2012) yang menyimpulkan bahwa terbaik dari klasifikasi metagenom dicapai dengan menggunakan , dan , dengan merepresentasikan kondisi exact matching dan
5 adalah posisi dari kondisi don’t care (*). Dari hasil percobaan, didapatkan hasil akurasi terbaik adalah pada pola 111 1*11 1**11. Hasil dari perhitungan ekstraksi fitur menggunakan frekuensi k-mer dan spaced k-mer ini yang akan digunakan sebagai masukkan pada unsupervised learning dan supervised learning (Gambar 2).
(a)
(b) Gambar 2 Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012)
Growing Self Organizing Map GSOM adalah salah satu varian dari metode SOM. GSOM merupakan dinamik SOM yang digunakan untuk memperbaiki keadaan statik dari metode SOM (Chan et al. 2007). Pemetaan data dengan metode GSOM biasanya merupakan data yang berdimensi tinggi. Hasil pemetaan ditampilkan berdasarkan topologi data, jadi data yang mirip akan dipetakan berdasarkan kedekatan ciri atau karakteristiknya pada peta dua dimensi atau tiga dimensi. GSOM memiliki tiga fase utama, yaitu fase inisialisasi, fase growing, dan fase smoothing. Langkah algoritma GSOM adalah sebagai berikut (De Silva et al. 2007; Zhu dan Zhu 2010) : 1. Fase Inisialisasi Inisialisasi bobot vektor dan awal node (biasanya empat node) dengan angka random antara 0 dan 1. Hitung Growth Threshold (GT) dari dimensi dataset D berdasarkan nilai Spread Factor (SF) menggunakan formula : (1) 2.
Fase Growing a) Tentukan node masukkan pada jaringan b) Tentukan bobot vektor yang berdekatan dengan vektor masukkan yang dipetakan sebagai winner, gunakan jarak Euclidean untuk mengukur. Langkah ini dapat disimpulkan dengan menentukan dimana , dengan adalah masukkan dan bobot
6 vektor, adalah posisi vektor untuk node-node dan adalah himpunan dari angka natural. c) Sesuaikan bobot vektor yang diaplikasikan hanya kepada tetangga dari winner dan winner itu sendiri. Tetangga adalah neuron disekitar winner, tapi pada GSOM, tetangga awal diseleksi berdasarkan kesesuaian bobot yang kecil, berbeda dengan SOM yang berdasarkan penyesuaian bobot lokal. Besar dari penyesuaian (laju pembelajaran) direduksi secara eksponensial sejalan dengan iterasi yang terjadi. Meskipun tetangga, bobot yang berdekatan dengan winner lebih mudah disesuaikan dibandingkan yang jaraknya jauh. Penyesuaian bobot dideskripsikan sebagai berikut : (2) Dengan laju pembelajaran atau Learning Rate , adalah urutan dari parameter positif yang konvergen menuju nilai nol, dengan adalah bobot vektor dengan node sebelum . , dan sesudah penyesuaian dan adalah tetangga dari winner neuron pada iterasi ke . Penurunan nilai pada GSOM tergantung pada nilai pada node yang terdapat di peta saat waktu ke . Untuk nilai fungsi tetangga digunakan fungsi Gaussian. Formulasi pengukuran ukuran node tetangga adalah sebagai berikut : (3) Dengan adalah jarak antara dan dengan sebagai parameter ‘lebar efektif’ dari lingkungan. d) Naikkan nilai error pada winner (nilai error adalah perbedaan antara vektor masukkan dan bobot vektor). e) Ketika dengan adalah total error pada node dan adalah Growth Threshold. Node akan berubah jika adalah node batas. Distribusi bobot pada tetangga jika bukan merupakan node batas. f) Inisialisasi bobot node baru (Gambar 3) dengan mengikuti beberapa aturan sebagai berikut : (i) Memiliki dua node yang lama secara berturut-turut. Jika di definisikan maka :
(4) (ii) Memiliki satu saja tetangga dengan node yang lama. Node yang lama juga boleh memiliki tetangga yang tidak bertetangga secara bersebrangan dengan node yang baru. Aturan ini mirip dengna (i), tetapi memiliki perbedaan pada posisi tetangga. Ketika kedua kondisi dipenuhi, gunakan aturan (i)
7 (iii) Berada antara dua node yang lama. Jika di definisikan maka :
(5) (iv) Memiliki satu saja tetangga node yang lama. Jika di definisikan maka : ( 6)
Gambar 3 Aturan inisialisasi node (Zhu dan Zhu 2010) g) Inisialisasi laju pembelajaran pada bobot node yang baru h) Ulangi langkah b sampai g hingga semua masukkan di representasikan dan growth node atau node yang mengalami perubahan mencapai level maksimum 3.
Fase Smooting a) Untuk setiap node pada peta, akan terbentuk set yang terdiri dari semua item masukkan dimana item masukkan tersebut adalah item yang di referensikan pada node dan memiliki jarak terdekat b) Untuk setiap node pada peta, ambil satu item yang di referensikan dan yang merupakan rata-rata dari daftar gabungan topologi set tetangga (N : angka natural) node tersebut.pada tahap ini Learning Rate dan Neighborhood Size akan di redukasi. Rata-rata jika di definisikan adalah sebagai berikut : (7)
c) Ulangi langkah a dan b sampai memperoleh peta yang stabil Growth Threshold , berdasarkan dimensi dataset dan Spread Factor . adalah penentu awal nilai dengan rentang 0 sampai 1, 0 adalah nilai paling mungkin untuk menyebar dan 1 adalah penyebaran maksimum. Batasan penyebaran dengan nilai terkecil adalah nilai pemetaan awal yang ideal. Sekali pengelompokan yang signifikan teridentifikasi, maka bisa dijadikan sebagai pijakan analisis selanjutnya dengan nilai yang tinggi.
8
3 METODE PENELITIAN Penelitian ini menggunakan data fragmen metagenom dari 300 mikrob dan kemudian dikelompokan berdasarkan tingkat taksonomi filum. Teknik pengambilan data fragmen metagenom yang digunakan adalah cluster sampling. Teknik cluster sampling adalah teknik yang menggunakan sampel yang memiliki jumlah item yang banyak pada suatu kelompok atau koleksi dan merupakan teknik yang sederhana serta rendah biaya (Scheafffer et al. 1990). Sesuai dengan tujuan penelitian ini, metode GSOM digunakan untuk pengelompokan fragmen metagenom. Data awal akan disimulasi menggunakan MetaSim (Richter et al. 2008) dan menghasilkan sekuens DNA. Hasil simulasi ini yang akan digunakan pada pengekstraksian ciri sehingga didapat matriks komposisinya. Selanjutnya fragmen metagenom akan dikelompokan menjadi 20 kelompok yang berbeda berdasarkan kesamaan dari pemetaan yang dihasilkan. Ilustrasi pemetaan fragmen metagenom, ditunjukkan pada Gambar 4.
Gambar 4 Skema penelitian pengelompokan fragmen metagenom Pengelompokan fragmen metagenom terdiri atas beberapa tahap, yaitu data akan diekstraksi ciri untuk mendapatkan matriks komposisi, praproses data, dan dikelompokan dengan metode GSOM untuk mendapatkan model pembelajaran. Hasil pembelajaran dengan metode GSOM mampu memetakan data fragmen metagenom berdasarkan tingkat taksonomi filum. Tahap akhir adalah evaluasi terhadap hasil pengelompokan untuk mengetahui efektifitas dan efisiensi pemetaan dengan GSOM. Tahap yang dilakukan untuk pengelompokan fragmen metagenom digambarkan pada Gambar 5.
9
Gambar 5 Prosedur penelitian Data Penelitian Data yang digunakan adalah super kingdom bacteria dan merupakan hasil simulasi sampel metagenomik yang diambil dari basis data NCBI. Pengelompokan fragmen metegenom didasarkan pada tingkat taksonomi filum, yaitu sebanyak dua puluh filum dan untuk simulasi fragmen metagenom digunakan simulator MetaSim (Richter et al. 2008) dengan panjang fragmen seragam, yaitu 1 kbp. Data yang digunakan berformat FNA (FASTA Nucleic Acid). Total mikrob yang digunakan adalah 300 mikrob yang nantinya akan dikelompokan pada 20 kelompok yang berbeda. Organisme yang digunakan terlampir pada Lampiran 1 dan Lampiran 2. Contoh data hasil simulasi dengan MetaSim dapat dilihat pada Gambar 6.
10 >r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}| ERRORS={} |SOURCE_1="'Nostoc azollae' 0708 chromosome" Description Line (563e984038cb4d3b6d3079e9974e2c11d1f054b3) ATAGAACGGGGCTTTTTGCCATCTAGTAAAGCACTGACAGTGATATCTCCCATGACATTTATTGC CGTGCGACAACGATCTAAAAACCAGTCTACTGTCACCAATAAAGCTATATACTGTATCGGTAAAC CTACGGAAGTGAAAACCAAGGTCATCGTTACTAGTCCAGCATTGGGAATACCTGCTCCACCCACT GAGGCAAAAATAGATGTGAGAACGACAACTAATTGCTGTCCTAAACTCAGATGTTGCCCAATGAC TTGGGAAATATACAATGCAGATATGGCTTCATAAAGGGCTGTGCCATCATTATTGAAATTTGCGC CAACTAATGCGTCTAAAGAAGCAGAAGATTTTCTTAAAGCAATTTTTGTTTGTGAAACTTCAAAA GTGATGGGCATTGCTCTTCTTGAAGAAGAGGTGGGAAAGCCTGTTAAATAGGTATCAGCAGCACC Data AGCTAAGAATTTCACCGGGTTTACCCAAGAACCAAATTTCACTCTGGTGAGGTAATAACAAGCTT Line GTAAAAATAAGGTTACTAACACTGCTAAGATGAAGGCTGCTAAGGATTGAAATGCTACAAAGCCT CTTCCGGCAGTGATTTTGGCGACTATACTAATATAGGTACTAAGGCAATTACCCACTTGAGGATA CTGATAATTGCTTCAAATAATATGGCAATTACATCTTCAATTCGTTGGTATGCTGTCTTTCCAGC ATTGATTTGTTCTGATTTTAATGCTTGTAAAACTATACCAAAGCTGAGGGCGATAACGATGAGTT GGATGACATTATTATCAACCAGGGGTTTGAGGATGGCTTCTGGTAAGGCATCTTTAAATAATCCC CAAGGGTCGAAACTTTTAGGAGTGATTTCTGTGCTACCTGGGGCTACTAAAGTTCCCCAAGTACC TGGACGTAAAATGTTGGGTACTAAGAGTACCACAACAATAGCTAGTATGGTGTTAGTTAAAAGCA GCACTGCTAACCGTCTACCGGCTGT
Gambar 6 Contoh data hasil simulasi MetaSim. Ekstraksi Ciri Ekstraksi ciri adalah pembacaan frekuensi oligonukleotida (trinukleotida dan tetranukleotida) dengan k-mer dan juga ekstraksi menggunakan spaced k-mer yang memperhatikan kondisi don’t care pada perhitungan frekuensi oligonukleotida. Ekstraksi ciri akan menampilkan pola kemunculan k pada suatu waktu dalam suatu sekuens. Pada penelitian ini, dimensi hasil ekstraksi ciri adalah sebagai berikut seperti pada Tabel 1 : Tabel 1 Dimensi hasil ekstraksi ciri Frekuensi Oligonukleotida Trinukleotida Tetranukleotida Spaced k-mer
Dimensi 64 × total fragmen 256 × total fragmen 192 × total fragmen
Praproses Data Untuk mencegah adanya hasil implementasi yang bias, maka pengelompokan fragmen metagenom didahului dengan normalisasi data hasil ekstraksi fitur. Normalisasi data adalah salah satu bagian dari data transformasi, yaitu teknik mengubah data menjadi nilai yang lebih mudah untuk dipahami (Han et al. 2012). Tujuan lebih khusus dari normalisasi data adalah mendapatkan bobot yang sama dari semua atribut data dan tidak bervariasi atau hasil dari pembobotan tersebut tidak terdapat atribut yang lebih prior atau dianggap lebih utama dari pada yang lain. Untuk penelitian ini, normalisasi data yang digunakan adalah decimal scaling. Data fragmen metagenom akan diubah bobotnya menjadi data yang memiliki rentang [0, 1] menggunakan transformasi linear sederhana (Vesanto et al. 2000). Contoh hasil praproses data pada Gambar 7. (8) dengan adalah dataset.
11 AAA AAC . . . GGG 2 2 ... 7 Sebelum Praproses
AAA 0.094
Decimal Scaling
AAC . . . GGG 0.268 . . . 0.420 Sesudah Praproses
Gambar 7 Praproses data dengan decimal scaling Pembagian Data Latih dan Data Uji Jumlah data adalah 200 mikrob untuk data latih dengan total jumlah fragmen yang digunakan adalah 200 000 fragmen. Sedangkan untuk data uji digunakan 100 mikrob dengan total jumlah fragmen sebanyak 100 000 fragmen. Perkiraan fragmen per mikrob adalah sebanyak 1000 fragmen. Frekuensi oligonukleotida yang digunakan juga beragam untuk masing-masing dataset, yaitu trinukleotida, tetranukleotida, dan juga menggunakan spaced k-mer. Pengelompokan dengan Growing Self Organizing Map Pengelompokan dilakukan menggunakan matriks komposisi hasil ekstraksi fitur. Normalisasi dilakukan pada matriks komposisi agar perhitungan tidak menghasilkan data yang terlalu bervariasi dan bobot yang sama. Data kemudian akan dikelompokan berdasarkan tingkat filum sebanyak 20 kelompok sesuai dengan NCBI Taxonomy Browser (Federhen 2012). Filum yang digunakan berada pada Tabel 2. Tabel 2 Filum berdasarkan NCBI Taxonomy Browser No
Filum
1
Actinobacteria (high G+C gram positive bacteria)
2
Aquificae
3
Bacteroidetes
4
Chlorobi
5
Chlamydiae
6
Verrucomicrobia
7
Chloroflexi (green non sulfur bacteria)
8
Cyanobacteria (blue green algae)
9
Deinococcus-thermus
10
Acidobacteria
11
Firmicutes (gram positive bacteria)
12
Fusobacteria
13
Gemmatimonadetes
14
Nitrospirae
15
Planctomycetes
16
Proteobacteria (purple bacteria and relative)
17
Spirochaetes
18
Synergistetes
19
Tenericutes
20 Thermotogae Sumber : NCBI (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi)
12 Pengelompokan fragmen metagenom dilakukan dengan GSOM. Arsitektur metode GSOM terdiri dari beberapa fase, yaitu fase inisialisasi, fase growing, dan fase smoothing. Untuk melakukan pengelompokan data, awalnya dilakukan inisialisasi bobot vektor (biasanya di inisialisiasi empat node), nilai Growth Threshold (GT) yang digunakan sebagai batasan dari topologi peta berdasarkan nilai penyebaran atau Spread Factor (SF) dan dimensi dataset D (dimensi D adalah pembacaan fragmen metagenom frekuensi oligonukleotida). GT jika diformulasikan adalah sebagai berikut . Selain itu dilakukan pembobotan vektor dari tiap pembacaan fragmen metagenom dan pembacaan pada penelitian ini dilakukan sebanyak 100 000 fragmen untuk data uji dan 200 000 fragmen untuk data latih. Gambar 8 menampilkan blok diagram pengelompokan dengan metode GSOM.
Gambar 8 Blok diagram pengelompokan dengan GSOM
13 Fase Inisialisasi Fase pertama dari metode GSOM adalah fase inisialisasi. Empat neuron pertama akan diinisialisasi dengan angka random atau acak. Neuron tersebut diinisialisiasi dengan angka antara 0 sampai 1. Selanjutnya akan dihitung nilai Growth Threshold (GT). Fase inisialisasi digambarkan pada Gambar 9.
Gambar 9 Fase inisialisasi Perhitungan GT digunakan untuk menentukan dan mendapatkan hasil topologi peta yang ideal. Untuk mendapatkan hasil peta yang ideal, maka harus ditentukan penyebaran dari titik-titik neuron. Pengontrolan ini ditentukan oleh nilai Spread Factor (SF). Nilai SF pada penelitian ini digunakan berbeda pada tiap frekuensi, yaitu 0.6 untuk frekuensi trinukleotida dan spaced k-mer,dan 0.8 untuk frekuensi tetranukleotida
Gambar 10 Inisialisasi starting node Pada Gambar 10 digambarkan posisi dari node awal yang diinisialisasi. Titik merah adalah neuron yang diinisialisasi dan berada pada posisi 0 dan 1. Topografi yang digunakan adalah berbentuk persegi atau sheet. Dari inisialisasi
14 awal ini, semua vektor matriks komposisi akan dipetakan dan mengalami proses growing pada fase selanjutnya, yaitu fase growing. Fase Growing Fase growing merupakan fase terpenting dalam metode GSOM karena pada tahap ini peta akan mengalami ekspansi sehingga menjadi lebih dinamik dibandingkan metode SOM. Berikut adalah algoritme fase growing. While (node hasil inisialisasi bobot) For (tiap epoch) Tentukan Learning Rate dan Neighborhood Size If (pemenang yang ditentukan dari matriks komposisi) Then Bobot vektor diambil dan diaplikasikan pada tetangga dan pemenang itu sendiri Nilai error dari pemenang ditingkatkan End if If (total error node i < GT) Grow node jika memenuhi syarat Else Bobot dari vektor akan didistribusikan pada tetangga sekitar End if Inisialisasi Learning Rate dan Neighborhood Size baru Repeat until (semua vektor matriks komposisi digunakan dan grow node mencapai level minimum) End End
Pada fase growing ini juga diinisialisasi beberapa training paramater, yaitu epoch, Learning Rate, dan Neighborhood Size. Fase Smoothing Fase smoothing adalah ketika parameter Learning Rate akan di turunkan nilainya begitu juga dengan parameter Neighborhood Size. Learning Rate dan Neighborhood Size yang digunakan akan selalu berubah pada setiap iterasi. Ketika mencapai level yang minimum, maka kedua parameter tersebut juga akan mendekati nilai 0. Untuk penelitian ini, parameter Learning Rate akan di set untuk berhenti pada nilai 0.01 dan Neighborhood Size di set berhenti secara random. Pada tahap ini juga akan ditemukan pemenang. Pemenang akan diambil lagi dari vektor komposisi fragmen metagenom secara acak, lalu ditentukan Best Matching Unit (BMU). BMU didefinisikan sebagai sampel vektor yang diambil secara acak dan dihitung jarak terdekatnya. Jarak neuron yang terdekat dengan vektor yang disebut dengan BMU (Vesanto et al. 2000). Dari BMU bisa ditentukan pemenang dan selanjutnya bisa ditentukan bobot dari pemenang dan tetangga seperti pada fase growing. Gambar 11 akan menggambarkan ilustrasi dari BMU.
15
Gambar 11 Best Matching Unit (Vesanto et al. 2000) Titik hitam adalah neuron mula-mula sedangkan adalah vektor yang diambil secara acak. Setelah dilakukan perhitungan jarak maka terlihat perubahan letak neuron yang bergerakn menuju vektor . Pergerakan neuron diilustrasikan dengan titik abu-abu. Titik yang berwarna merah diasumsikan sebagai neuron yang memiliki jarak yang terdekat sehingga disebut dengan BMU. Evaluasi Pada evaluasi model untuk pemetaan menggunakan metode GSOM, digunakan dua pengukuran utama, yaitu quantization error dan topographic error. Parameter yang digunakan untuk mendapatkan pengukuran berdasarkan pada parameter learning, topologi peta, dan bentuk dari peta. Quantization error atau qe (Uriarte dan Martin 2005) adalah pengukuran yang umum digunakan pada penentuan kualitas pemetaan dengan Kohonen map. Pengukuran ini adalah untuk mengukur jarak rata-rata antara vektor data dan Best Matching Unit (BMU) yang berada di sekitar ruang input dan selanjutnya akan mengevaluasi kecocokan dari peta neural, karena itu rata-rata nilai quantization error yang terkecil menunjukkan bahwa jarak vektor data tersebut dekat dengan prototype yang dihasilkan. Perhitungan quantization error, jika diformulasikan adalah sebagai berikut : (9) Dengan
adalah banyak data vektor,
adalah Best Matching prototype
dari vektor data yang saling berhubungan. Gambar 12 adalah penggambaran pengukuran quantization error.
Gambar 12 Pengukuran quantization error
16 Topographic error atau te (Uriarte dan Martin 2005) digunakan untuk mengukur distorsi error pada topologi peta menggunakan input sampel untuk menentukan pemetaan lanjutan dari ruang input pada grid peta. Jadi BMU yang pertama dan BMU yang kedua bukan merupakan vektor yang saling berdekatan. Topographic error dapat diformulasikan sebagai berikut : (10) Jika fungsi adalah 1, maka vektor data mempunyai BMU yang saling berdekatan. Jika 0, maka bernilai sebaliknya. Diharapkan dengan pengukuran dengan topographic error mendekati nilai 0, yang berarti rata-rata BMU pertama dan BMU kedua tidak saling berdekatan. Gambar 13 menunjukkan pengukuran dengan topographic error.
Gambar 13 Pengukuran topographic error Selain menggunakan quantization error dan topographic error, digunakan juga persentase error untuk menghitung kesalahan pemetaan pada tiap kelompok. Jadi hanya didasarkan pada perhitungan data fragmen metagenom yang salah pada tiap kelompok filum. Sedangkan untuk uji efisiensi digunakan variabel akurasi kecepatan dalam pengelompokan fragmen metagenom. Peralatan Penelitian Alat yang digunakan dalam penelitian ini dibagi dalam perangkat keras dan perangkat lunak, sebagai berikut : a. Perangkat keras : Processor : Intel(R) Celeron(R) CPU B815 @ 1.60 GHz 1.60 GHz Memory : DDR 2 RAM 2 GB Harddisk : 500 GB b. Perangkat lunak : Sistem operasi Windows 7 Enterprise 64-bit operating system Dev CppPortable Notepad ++ Matlab 7.11.0 (R2010b) MetaSim version 0.9.1
17 4 HASIL DAN PEMBAHASAN Pengelompokan fragmen metagenom dikembangkan dengan bahasa pemrograman C++ dan Matlab 7.11.0 (R2010b). Fragmen metagenom akan dikelompokan dalam 20 kategori, yaitu 20 filum berdasarkan NCBI Taxonomy Browser. Basis Data Fragmen Metagenom Penelitian ini menggunakan data fragmen metagenom dengan format FASTA file (FNA) yang diunduh dari situs NCBI dengan memilih 300 mikrob yang nantinya terbagi 200 mikrob untuk data latih dan 100 mikrob untuk data uji. Data mikrob untuk data latih dan data uji yang digunakan pada penelitian ini dapat dilihat pada Lampiran 1 dan Lampiran 2. Data latih digunakan untuk mendapatkan model pengelompokan berdasarkan tingkat filum. Sedangkan data uji digunakan untuk mengevaluasi model pengelompokan. Selain itu data uji akan dilakukan pengujian pada parameter yang berbeda untuk mendapatkan ukuran peta yang terbaik berdasarkan hasil evaluasi error terkecil menggunakan tiga frekuensi oligonukleotda. Ekstraksi Ciri dengan K-Mer Frequency Fragmen metagenom hasil simulasi MetaSim akan diekstraksi dengan k-mer frequency. Ekstraksi dengan k-mer akan membentuk matriks komposisi sesuai dengan berapa banyak data yang dibangkitkan dan frekuensi oligonukleotida yang digunakan. Frekuensi fragmen metagenom yang diekstraksi dengan k-mer frequency adalah trinukleotida dan tetranukleotida. Banyak data yang dibangkitkan adalah 200 000 untuk data latih dan 100 000 untuk data uji. Fitur yang digunakan adalah sebanyak 64 untuk trinukleotida, dan 256 untuk tetranukleotida. Sehingga didapat perhitungan untuk tiap frekuensi oligonukleotida akan diperoleh matriks komposisi dengan ukuran , , , dan ,; masing-masing untuk data latih dan data uji. Contoh hasil ekstraksi ciri pada salah satu frekuensi oligonukleotida ditunjukkan pada Gambar 14. >r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}| ERRORS={}|SOURCE_1="'Nostoc azollae' 0708 chromosome" (563e984038cb4d3b6d3079e9974e2c11d1f054b3) >r2.1 |SOURCES={GI=298489614,bw,2999940-3000940}| ERRORS={}|SOURCE_1="'Nostoc azollae' 0708 chromosome" (563e984038cb4d3b6d3079e9974e2c11d1f054b3)
. . . >r200000.1 |SOURCES={GI=338706993,bw,907869908869}| ERRORS={}|SOURCE_1="Zymomonas mobilis subsp. pomaceae ATCC 29192 chromosome" (1d636f431b28c64507ddc507fa994a350f383789)
Data simulasi
9 4 8 1
3
3 9 4 8 3 0 3 0 . . 2 0
1 8 2 8 2 1 2 7 . . 1 3
2 .. 2 .. 3 .. 2 .. . . 2 ..
Matriks komposisi
Gambar 14 Matriks komposisi salah satu frekuensi oligonukleotida
. 5 . 3 . 5 . 4 . . . 8
1 2 1 1 . . 1
18 Ekstraksi Ciri dengan Spaced k-mer Selain menggunakan k-mer frequency untuk ekstraksi ciri, digunakan spaced k-mer. Ekstraksi dengan spaced k-mer lebih ekonomis dilihat dari sisi penerimaan informasi (information retrieval) karena ekstraksi ini menggunakan kondisi don’t care sehingga waktu yang dibutuhkan tidak terlalu lama tapi sudah mendapatkan informasi tentang komposisi dari fragmen metagenom dengan lebih terperinci. Data fragmen metagenom dihitung hampir sama dengan menggunakan k-mer frequency, tapi ekstraksi ini memperhatikan don’t care yang mempunyai pola , dengan adalah kondisi don’t care. Sehingga dari perhitungan didapat dimensi fitur adalah sebanyak 192. Ukuran matriks komposisi dengan ekstraksi spaced k-mer pada data latih adalah dan 1 untuk data uji.
Praproses Data Fragmen Metagenom Praproses bertujuan untuk mengurangi variasi data sehingga data mudah untuk dipahami. Fragmen metagenom yang awalnya berupa matriks komposisi diubah menjadi data matriks yang bernilai antara 0 dan 1 dengan metode decimal scaling. Contoh hasil decimal scaling yang diperoleh untuk salah satu frekuensi oligonukleotida ditunjukkan pada Gambar 15. 9 4 8 1
3
3 1 2 9 8 .. 4 2 2 8 8 .. 3 2 3 0 1 .. 3 2 2 0 7 .. . . . . . . 2 1 2 0 3 .. Data Simulasi
. 5 . 3 . 5 . 4 . . . 8
1
0.094
0.420
0.268
0.074
...
0.122
0.196
0.126
...
0.360
1
0.144
0.393
0.284
...
0.160
. . 1
0.072
0.143
0.053
...
0.380
2 1
. . 0.233
. . . . . . . . 0.250 0.221 ... 0.160 Hasil Decimal Scaling
Gambar 15 Matriks decimal scaling salah satu frekuensi oligonukleotida
Pembagian Data Latih dan Data Uji Hasil praproses matriks komposisi dibagi menjadi data latih dan data uji dengan jumlah mikrob masing-masing 200 untuk data latih dan 100 untuk data uji. Beberapa mikrob yang digunakan sebagai data latih dan data uji masingmasing ditunjukkan pada Tabel 3.
19 Tabel 3 Pembagian mikrob data latih dan data uji
4
Data latih Mikrob Acetobacterium woodi DSM 1030 chromosome Acidaminococcus fermentans DSM 20731 chromosome Acidithiobacillus ferrivorans SS3 chromosome Acidovorax sp.JS42 chromosome
5
Acinetobacter sp.ADP1 chromosome
5
200
... Zymomonas mobilis subsp.pomaceae ATCC 29192 chromosome
100
No 1 2 3
No 1 2 3 4
Data uji Mikrob Acaryochloris marina MBIC11017 chromosome Acetobacter pasterianus IFO 328301 Acholeplasma laidlawii PG-8A chromosome Acidimicrobium ferroxidans DSM 10331 chromosome Actinobacillus pleuropneumoniae serovar 3 str. JL03 chromosome ... Weissella korensis KACC 15510 chromosome
Data fragmen metagenom, masing-masing data latih dan data uji akan di bangkitkan sebanyak 200 000 fragmen untuk data latih dan 100 000 fragmen untuk data uji. Banyaknya pembangkitan data dari tiap kelompok filum dihitung secara otomatis ketika data disimulasi oleh MetaSim untuk setiap mikrob. Hasil perhitungan pembangkitan data latih dan data uji ditampilkan pada Tabel 4 dan Tabel 5. Tabel 4 Pembangkitan data latih No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Filum Actinobacteria Aquificae Bacteroidetes Chlorobi Chlamydiae Verrucomicrobia Chloroflexi Cyanobacteria Deinococcus-thermus Acidobacteria Firmicutes Fusobacteria Gemmatimonadetes Nitrospirae Planctomycetes Proteobacteria Spirochaetes Synergistetes Tenericutes Thermotogae
Reads 22 335 2208 28 450 5102 9330 4679 13 760 16 376 7606 10 781 17 559 3400 1484 2831 10 830 18 984 8702 1922 11 651 2010
20 Tabel 5 Pembangkitan data uji No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Filum Actinobacteria Aquificae Bacteroidetes Chlorobi Chlamydiae Verrucomicrobia Chloroflexi Cyanobacteria Deinococcus-thermus Acidobacteria Firmicutes Fusobacteria Gemmatimonadetes Nitrospirae Planctomycetes Proteobacteria Spirochaetes Synergistetes Tenericutes Thermotogae
Reads 5452 2144 5330 3950 3764 3716 8652 5685 3873 10 199 7648 3281 1398 2751 9168 12 518 5829 1846 999 1797
Pengelompokan Fragmen Metagenom dengan GSOM Frekuensi oligonukleotida adalah frekuensi kemunculan pasangan basa pada fragmen metagenom, dan pada penelitian ini muncul sebanyak trinukleotida, tetranukleotida, dan menggunakan frekuensi spaced k-mer yang memperhatikan kondisi don’t care. Dalam penelitian ini, kemunculan frekuensi trinukleotida pada fragmen metagenom adalah sebanyak 64 fitur, frekuensi tetranukleotida sebanyak 256 fitur, dan frekuensi spaced k-mer sebanyak 192 fitur. Fase Inisialisasi Fase inisialisasi merupakan fase awal untuk menentukan parameter global, yaitu Growth Threshold (GT). Parameter ini ditentukan oleh pengguna (user). GT digunakan untuk mengatur penyebaran neuron pada peta. Untuk frekuensi trinukleotida, parameter GT diset dengan nilai 0.6. Untuk tetranukleotida diset dengan nilai 0.8, dan 0.6 untuk frekuensi spaced k-mer. Insialisasi bobot menggunakan inisialisasi secara random atau acak. Setiap data vektor akan diberi nilai hasil distribusi antara nilai yang paling minimum dan yang paling maksimal dari dataset fragmen metagenom. Fase Growing Data fragmen metagenom akan di – growth dengan mengikuti aturan . Jika memenuhi aturan, maka proses growth akan berhenti. Dengan menggunakan parameter global, maka untuk ukuran peta yang akan berhenti pada ukuran sebagai berikut untuk trinukleotida, untuk tetranukleotida dan untuk frekuensi spaced k-mer. Gambar 16 adalah hasil inisialisasi bobot pengujian pada data fragmen metagenom.
21
0.0807 0.0871 0.0972
0.1889 0.1970 0.2152
0.1107 0.1226 0.1370
... ... ..
0.3443 0.3471 0.3199 . . . . . . . . . . 0.3159 0.2755 0.4856 . . . 0.0765 Matriks hasil inisialisasi bobot pada trinukleotida 0.0347 0.0370 0.0440
0.0551 0.0595 0.0678
0.0929 0.0994 0.1163
... ... ...
. . 0.2961
. . 0.4854
. . 0.2694
0.2122 0.1947 0.1596 . . . . 0.0222 .
.. Matriks hasil inisialisasi bobot pada tetranukleotida 0.0801 0.0849 0.0935
0.1864 0.1888 0.2014
0.1055 0.1136 0.1253
0.3639 0.3445 0.3049 . . . . . . . . . . 0.4967 0.2249 0.6242 . . . 0.0421 Matriks hasil inisialisasi bobot pada frekuensi spaced k-mer ... ... ...
Gambar 16 Insialisasi bobot pada frekuensi oligonukleotida Fase Smoothing Pada fase ini, semua hasil pelatihan dan pengujian akan berhenti mengalami proses growing. Hasil pengelompokan akan menghasilkan pemetaan yang stabil dan tiap data vektor akan dipetakan pada grid peta. Gambar 17, Gambar 18 dan Gambar 19 menampilkan hasil pemetaan frekuensi trinukleotida, tetranukleotida dan spaced k-mer berdasarkan algoritme GSOM.
Evaluasi Evaluasi dari penelitian dilakukan dengan beberapa pengukuran, yaitu quantization error (QE), topographic error (TE) dan persentase error (% error) dari tiap hasil pengelompokan. Sedangkan untuk efisiensi, digunakan paramater waktu ketika algoritme melakukan pelatihan. Untuk melihat kebaikan dari parameter yang digunakan, maka dilakukan variasi dari parameter yang digunakan pada setiap frekuensi oligonukleotida dengan map size yang sama, yaitu [10 10] dengan training lenght sebanyak 10 epochs.
22
Gambar 17 Pemetaan frekuensi trinukleotida
Gambar 18 Pemetaan frekuensi tetranukleotida
23
Gambar 19 Pemetaan frekuensi spaced k-mer Frekuensi Trinukleotida Hasil kombinasi atau variasi parameter pada frekuensi trinukleotida dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic error, dan persentase error. Tabel 6, Tabel 7 dan Tabel 8 menampilkan error yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan Neighborhood Size (NS). Kolom yang berwarna abu-abu menunjukkan nilai error terkecil pada frekuensi trinukleotida.
24 Tabel 6 Perhitungan quantization error pada trinukleotida NS
LR 0 0,1
0,759
0,25
1
2
3
4
0,709
0,76
0,758
0,744
0,531 0,752
0,741
0,742
0,747
0,5
0,639
0,736
0,639
0,742
0,741
0,75
0,871
0,757
0,667
0,752
0,684
0,9
0,842
0,834
0,781
0,773
0,794
Tabel 7 Perhitungan topographic error pada trinukleotida LR
0
0,1
0,125
0,25 0,5
NS 2
1
3
4
0,119
0,124
0,134
0,112
0,101 0,127
0,129
0,117
0,132
0,109
0,115
0,117
0,11
0,134
0,75
0,108
0,109
0,131
0,111
0,135
0,9
0,109
0,109
0,132
0,124
0,134
Tabel 8 Perhitungan persentase error pada trinukleotida LR
0
NS 2
1
3
4
0,1
18,73
18,83
19,03
17,69
16,84 18,63
19,21
0,25
17,09
18,23
18,76
0,5
18,2
18,08
16,97
18,37
18,41
0,75
18,02
18,88
17,79
18,74
18,34
0,9
18,44
18,34
19,02
19,23
18,24
Dari Tabel 6, Tabel 7 dan Tabel 8, kombinasi parameter yang memberikan hasil error yang paling kecil adalah pada Learning Rate 0.1 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.531 untuk quantization error dan 0.101 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 16.84%. Hasil kombinasi paramater pada frekuensi trinukleotida dapat dilihat pada Gambar 20 untuk perhitungan quantization error, dan Gambar 21 untuk perhitungan topographic error. Untuk kesalahan dalam pengelompokan, ditunjukkan pada Gambar 22.
25
Perhitungan Quantization Error pada trinukleotida 1 0,9 0,8 0,7 Error
0,6
LR 0.1
0,5
LR 0.25
Titik Minimum : 0.531 dengan LR 0.1 dan NS 1
0,4
LR 0.5
0,3
LR 0.75
0,2
LR 0.9
0,1 0 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 20 Perhitungan quantization error pada trinukleotida
Perhitungan Topographic Error pada trinukleotida 0,16 0,14 0,12 LR 0.1
Error
0,1
LR 0.25
Titik Minimum : 0.101 dengan LR 0.1 dan NS 1
0,08
LR 0.5
0,06
LR 0.75
0,04
LR 0.9
0,02 0 0
1
2
3
4
UkuranTetangga (NS)
Gambar 21 Perhitungan topographic error pada trinukleotida
26
Perhitungan Persentase Error pada trinukleotida 19,5 19 18,5
Error
18 LR 0.1
17,5
LR 0.25
17
LR 0.5 Titik Minimum : 16.84 dengan LR 0.1 dan NS 1
16,5
LR 0.75 LR 0.9
16 15,5 0
1
2 Ukuran Tetangga (NS)
3
4
Gambar 22 Perhitungan persentase error pada trinukleotida Frekuensi Tetranukleotida Hasil kombinasi atau variasi parameter pada frekuensi tetranukleotida dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic error, dan persentase error. Tabel 9, Tabel 10 dan Tabel 11 menampilkan error yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan Neighborhood Size (NS). Kolom yang berwarna abu-abu menunjukkan nilai error terkecil pada frekuensi tetranukleotida. Tabel 9 Perhitungan quantization error pada tetranukleotida NS
LR 0
1
2
3
4
0,1
0,957
1,116
0,967
0,942
1,121
0,25
1,124
0,995
1,126
0,937
1,256
0,5
0,944
0,986
1,103
0,958
1,145
0,75
1,147
1,107
0,944
1,156
0,9
1,153
0,886 0,979
1,115
0,939
1,119
Tabel 10 Perhitungan topographic error pada tetranukleotida LR
0
NS 2
1
3
4
0,1
0,112
0,114
0,123
0,109
0,109
0,25
0,12
0,119
0,117
0,112
0,118
0,5
0,101
0,109
0,102
0,101
0,1
0,75
0,102
0,103
0,105
0,126
0,09 0,117
0,107
0,9
0,125
0,116
0,102
27 Tabel 11 Perhitungan persentase error pada tetranukleotida LR
0
NS 2
1
3
4
0,1
16,73
16,67
17,23
17,09
16,88
0,25
17,02
17,05
16,11
15,9
15,87
0,5
15,93
16,03
15,96
16,12
16,03
0,75
16,76
16,89
17,05
0,9
15,87
15,43 15,72
17,01 15,92
15,79
16,07
Dari Tabel 9, Tabel 10 dan Tabel 11, kombinasi parameter yang memberikan hasil error yang paling kecil adalah pada Learning Rate 0.75 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.886 untuk quantization error dan 0.09 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 15.43%. Hasil kombinasi paramater pada frekuensi tetranukleotida dapat dilihat pada Gambar 23 untuk perhitungan quantization error, dan Gambar 24 untuk perhitungan topographic error. Untuk kesalahan dalam pengelompokan, ditunjukkan pada Gambar 25.
Perhitungan Quantization Error pada tetranukleotida 1,400 1,200 1,000 LR 0.1 Error
0,800
LR 0.25
Titik Minimum : 0.886 dengan LR 0.75 dan NS 1
0,600
LR 0.5 LR 0.75
0,400
LR 0.9
0,200 0,000 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 23 Perhitungan quantization error pada tetranukleotida
28
Perhitungan Topographic Error pada tetranukleotida 0,14 0,12
Error
0,1 LR 0.1
0,08
LR 0.25
Titik Minimum : 0.09 dengan LR 0.75 dan NS 1
0,06
LR 0.5 LR 0.75
0,04
LR 0.9 0,02 0 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 24 Perhitungan topographic error pada tetranukleotida
Perhitungan Persentase Error pada tetranukleotida 17,5 17
LR 0.1
Error
16,5
LR 0.25 LR 0.5
16
LR 0.75
15,5
LR 0.9
Titik Minimum : 15.43 dengan LR 0.75 dan NS 1
15 14,5 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 25 Perhitungan persentase error pada tetranukleotida
29 Frekuensi Spaced k-mer Hasil kombinasi atau variasi parameter pada frekuensi spaced k-mer dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic error, dan persentase error. Tabel 12, Tabel 13 dan Tabel 14 menampilkan error yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan Neighborhood Size (NS). ). Kolom yang berwarna abu-abu menunjukkan nilai error terkecil pada frekuensi spaced k-mer. Tabel 12 Perhitungan quantization error pada spaced k-mer NS
LR 0
1
2
3
4
0,1
0,813
0,807
0,822
0,819
0,789
0,25
0,842
0,816
0,827
0,827
0,806
0,5
0,823
0,746
0,803
0,798
0,75
0,870
0,665 0,767
0,806
0,801
0,813
0,9
0,818
0,776
0,811
0,801
0,786
Tabel 13 Perhitungan topographic error pada spaced k-mer NS
LR 0
1
2
3
4
0,1
0,09
0,107
0,102
0,109
0,102
0,25
0,101
0,09
0,1
0,08
0,09
0,5
0,08
0,09
0,103
0,101
0,75
0,1
0,06 0,103
0,09
0,101
0,102
0,9
0,08
0,101
0,104
0,1
0,09
Tabel 14 Perhitungan persentase error pada spaced k-mer NS
LR 0
1
2
3
4
0,1
14,79
14,81
15,03
15,01
14,97
0,25
14,62
14,72
14,67
15,05
15,07
0,5
14,36
14,41
14,29
14,31
0,75
14,45
13,07 14,22
14,27
14,3
14,33
0,9
15,01
14,17
14,27
14,36
14,31
Dari Tabel 12, Tabel 13 dan Tabel 14, kombinasi parameter yang memberikan hasil error yang paling kecil adalah pada Learning Rate 0.5 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.665 untuk quantization error dan 0.06 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 13.07%. Hasil kombinasi paramater pada frekuensi spaced k-mer dapat dilihat pada Gambar 26 untuk perhitungan quantization error, dan Gambar 27 untuk perhitungan topographic error. Untuk kesalahan dalam pengelompokan, ditunjukkan pada Gambar 28.
30
Perhitungan Quantization Error pada Spaced K-Mer 1,000 0,900 0,800 0,700 LR 0.1
Error
0,600 Titik Minimum : 0.665 dengan LR 0.5 dan NS 1
0,500 0,400
LR 0.25 LR 0.5
0,300
LR 0.75
0,200
LR 0.9
0,100 0,000 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 26 Perhitungan quantization error pada spaced k-mer
Perhitungan Topographic Error pada Spaced K-Mer 0,12 0,1
Error
0,08
LR 0.1 LR 0.25
0,06 Titik Minimum : 0.06 dengan LR 0.5 dan NS 1
0,04
LR 0.5 LR 0.75 LR 0.9
0,02 0 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 27 Perhitungan topographic error pada spaced k-mer
31
Perhitungan Persentase Error pada Spaced K-Mer 15,5 15
Error
14,5 LR 0.1
14
LR 0.25 13,5
LR 0.5
13
LR 0.75
Titik Minimum : 13.07 dengan LR 0.5 dan NS 1
12,5
LR 0.9
12 0
1
2
3
4
Ukuran Tetangga (NS)
Gambar 28 Perhitungan persentase error pada spaced k-mer Berdasarkan hasil pertimbangan error yang dihasilkan dari ketiga frekuensi oligonukleotida, maka frekuensi spaced k-mer memberikan hasil error yang paling kecil dari perhitungan kombinasi parameter. Untuk quantization error, frekuensi spaced k-mer memberikan hasil 0.665 dan hasil error tersebut masih lebih besar dibandingkan dengan frekuensi trinukleotida yang hanya memberikan hasil quantization error 0.531. Meskipun demikian, jika dilihat dari distorsi error pada topologi peta menggunakan pengukuran topographic error, frekuensi spaced k-mer memberikan error yang lebih kecil dibandingkan dengan trinukleotida dan tetranukleotida, yaitu 0.06 sehingga menjadikan frekuensi spaced k-mer lebih baik dalam pemetaan fragmen metagenom dibandingkan dengan frekuensi oligonukleotida yang lain. Selain dilihat dari hasil pengukuran quantization error dan topographic error, persentase error dalam mengelompokan fragmen metagenom menggunakan frekuensi spaced k-mer menunjukkan hasil error yang paling rendah, yaitu 13.07%. Hal ini menunjukkan bahwa kombinasi parameter Learning Rate 0.5 dengan Neighborhood Size 1 pada frekuensi spaced k-mer memberikan hasil terbaik dalam pengelompokan fragmen metagenom dengan metode GSOM. Dari kombinasi paramater terbaik pada frekuensi spaced k-mer, maka akan dilihat pengujian pada map size dari [100 – 500] dengan mengkombinasikan unit dari peta untuk mendapatkan kombinasi map size dan unit peta terbaik dalam pemetaan fragmen metagenom dengan metode GSOM. Tabel 15 akan menampilkan parameter yang digunakan dan Tabel 16 menunjukkan hasil pelatihan dari parameter yang digunakan.
32 Tabel 15 Parameter pengujian Parameter Map size Unit peta Training length
Nilai [100 100] [100 150] [100 200] [200 250] [300 250] [300 300] [300 450] [500 500] 300; 1000; 3000; 5000 10 epochs
Tabel 16 Hasil pelatihan frekuensi spaced k-mer Map size [100 100] [100 150] [100 200] [200 250] [300 250] [300 300] [300 450] [500 500]
Unit peta 300 300 1000 1000 3000 3000 5000 5000
Waktu latih 42 menit 51 menit 1 jam 6 menit 1 jam 23 menit 1 jam 48 menit 1 jam 57 menit 2 jam 20 menit 2 jam 41 menit
Persentase error 6.73% 6.43% 7.45% 7.26% 9.67% 9.63% 10.29% 10.14%
Tabel 16 menunjukkan hasil dari pelatihan fragmen mentagenom dengan metode GSOM pada frekuensi spaced k-mer. Pada data yang memiliki map size [100 100] dan [100 150] dengan unit peta sebanyak 300 unit memiliki persentase error yang kecil, yaitu 6.73% dan 6.43%. Sedangkan untuk data yang memiliki map size yang besar seperti [500 500] dengan unit peta sebanyak 5000 unit, memberikan hasil persentase error yang lebih banyak, yaitu 10.14%. Hasil pengujian tersebut menunjukkan bahwa map size dan unit dari peta berpengaruh pada waktu pelatihan dan juga persentase error yang dihasilkan. Semakin kecil map size dan unit peta, maka makin sedikit waktu yang dibutuhkan untuk pelatihan dan persentase error yang dihasilkan. Dari hasil tersebut maka dapat diketahui bahwa metode GSOM memiliki akurasi dalam pengelompokan yang baik dengan menggunakan frekuensi spaced k-mer dengan persentase error ≥ 89.71% dengan menggunakan map size [100 – 500] dan unit peta dari 300 – 5000 unit peta. Pengujian Data Menggunakan BLAST Pada penelitian ini dilakukan pengujian pada mikrob yang tidak termasuk pada data uji, yaitu mikrob Bacteroides fragilis 638R dengan menggunakan panjang fragmen 1 kbp. Banyak pembacaan adalah 1024 reads. Kelompok filum mikrob tersebut adalah Bacteroidetes. Hasil pengelompokan sebagian besar mengelompokan pada filum Bacteroidetes. Hasil pengelompokan dapat dilihat pada Gambar 29. Dari hasil pengelompokan, dilakukan pencocokan terhadap kesamaan dari mikrob Bacteroides fragilis 628R dengan menggunakan program Basic Local Alignment Search Tool (BLAST) dari NCBI. BLAST dapat diakses pada http://blast.ncbi.nlm.nih.gov. BLAST adalah program yang digunakan untuk mencari kesamaan antar sekuens data, baik sekuens nukleotida atau sekuens protein. Hasil BLAST dari Bacteroides fragilis 638R adalah daftar organisme yang memiliki kesamaan dengan mikrob tersebut. Dari hasil pengelompokan,
33 dapat dilihat bahwa kelompok filum Bacteroidetes memiliki kesamaan yang tinggi dengan Bacteroides fragilis 638R. 4,49% Chlamydiae
1,27% Proteobacteria
Bacteroidetes Chlamydiae Proteobacteria
94,24% Bacteroidetes
Gambar 29 Hasil pengelompokan Bacteroides fragilis 638R dengan 1024 reads Berikut adalah hasil dari alignment BLAST untuk mencari kesamaan mikrob Bacteroides fragilis 638R. Gambar 30 memperlihatkan data yang digunakan, Gambar 31 menunjukkan ‘hit’ dari pencarian BLAST. Tabel 17 menampilkan 17 mikrob yang memiliki kesamaan dengan Bacteroides fragilis 638R pada pencarian kesamaan menggunakan BLAST. Lampiran 6 menunjukkan pohon taksonomi BLAST dari organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R.
Gambar 30 Data yang digunakan dengan panjang sekuens query 1000 (1 kbp)
34
Gambar 31 Hit dari 17 organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R Tabel 17 Daftar organisme yang memiliki kesamaan Bacteroides fragilis 638R pada BLAST No
Deskripsi
1
Bacteroides fragilis 638R genome Bacteroidesfragilis NCTC 9343, complete genome Bacteroides fragilis YCH46 DNA, complete genome Uncultured organism clone 1041059767817genomic sequence Uncultured orgnism clone VC1AB77TF genomic sequence Bacteroides helcogenes P 36-108, complete genome Tannerella forsythia ATCC 43037, complete genome Paludibacter propionicigenes WB4, complete genome Melioribacter roseus P3M, complete genome Bacteroides salanitronis DSM 18170, complete genome Syntrophus aciditrophicus SB, complete genome Prevotella sp. Oral taxon 299 str. F0039 plasmid, complete sequence Uncultured organismclone VC1AG24TR genomic sequence
2 3 4
5
6 7 8
9 10
11 12
13
Max score 1804
dari hasil alignment
1804
Query cover 100%
E value 0.0
Max ident 100%
1804
1804
100%
0.0
100%
1790
1790
100%
0.0
99%
250
250
83%
2e-62
67%
199
199
47%
4e-47
70%
168
168
85%
6e-38
66%
120
120
33%
3e-23
69%
84.2
84.2
34%
2e-12
66%
69.8
69.8
9%
5e-08
76%
60.8
60.8
5%
2e-05
84%
60.8
60.8
5%
2e-05
84%
55.4
55.4
9%
0.001
73%
46.4
46.4
13%
0.52
69%
Total score
35 No
Deskripsi
14
Bacteroides vulgatus ATCC 8482, complete genome Prevotella denticola F0289, complete genome Prevotella melaninogenica ATCC 25845 chromosome I, complete sequence Bacteroides thetaiotaomicron VPI-5482, complete genome
15 16
17
Max score 46.4
46.4
Query cover 13%
42.8
42.8
9%
6.3
70%
42.8
42.8
9%
6.3
70%
42.8
42.8
6%
6.3
75%
Total score
E value 0.52
Max ident 69%
Dari hasil pengelompokan pada penelitian dan hasil dari BLAST, dapat dilihat bahwa filum Bacteroidetes memiliki tingkat kesamaan yang tinggi dengan mikrob Bacteroides fragilis 638R. Hal ini dapat dilihat dari persentase maksimum identifikasi (%max ident) yang menunjukkan kecocokan (match) dari sekuens. Pada pencarian kesamaan dengan mikrob Bacteroides fragilis 638R, organisme yang berada pada filum yang sama memberikan nilai >65%.
36
5 SIMPULAN DAN SARAN Simpulan 1.
2.
3.
4.
5.
Simpulan dari hasil penelitian ini adalah : Metode GSOM dapat digunakan untuk pemetaan fragmen metagenom yang memiliki komunitas yang besar dan memiliki panjang fragmen yang pendek, yaitu 1 kbp. Pengelompokan fragmen metagenom dengan metode GSOM menghasilkan akurasi ≥ 80%, sehingga dapat dikatakan bahwa metode GSOM dapat mengelompokan fragmen metagenom dengan benar dengan kombinasi parameter terbaik adalah menggunakan Learning Rate sebesar 0.5 dengan Neighborhood Size sebesar 1. Untuk frekuensi oligonukleotida, frekuensi spaced k-mer merupakan frekuensi yang terbaik untuk memetakan fragmen metagenom karena menghasilkan persentase error hanya sebesar 13.07% dengan distorsi error sebesar 0.06 untuk pemetaan dengan map size [10 10]. Pelatihan dengan menggunakan frekuensi spaced k-mer dengan kombinasi parameter terbaik menghasilkan pemetaan terbaik pada map size [100 150] dengan unit peta sebanyak 100 unit. Persentase error yang dihasilkan adalah 6.43% dengan waktu latih 51 menit. Banyaknya unit peta yang digunakan dan map size mempengaruhi waktu pelatihan dan persentase error yang dihasilkan. Semakin sedikit unit peta yang digunakan dan makin kecil map size, maka waktu pelatihan yang dibutuhkan makin cepat dan persentase error yang dihasilkan makin kecil. Saran
1. 2.
Adapun saran untuk penelitian selanjutnya adalah : Menggunakan data yang riil sehingga tidak lagi menggunakan data hasil simulasi Panjang fragmen yang digunakan divariasikan dari 100 bp sampai 2 kbp
37 DAFTAR PUSTAKA Abe T, Kanaya S, Kinouchi M, Ichiba Y, Kozuku T, Ikemura T. 2003. Informatics for unveiling hidden genome signatures. Genome Research. 179(4):693701. doi:10.1101/gr.634603 Amano K, Nakamura H, Ichikawa H. 2003. Self-organizing clustering : a novel non-hierarchical method for clustering large amountof sequece DNAs. Genome Informatics. 14: 575-576 Amano K, Nakamura H, Ichikawa H, Numa H, Kobayashi KF, Nagamura Y, Onodera N. 2007. Self-organizing clustering : non-hierarchical clustering for large-scale sequence DNA data. IPSJ Digital Courier. 2(2):523-527 Brady A, Salzberg SL. 2009.Phymm and phymmbl : metagenomic phylogenetic classification with interpolated markov models. Nature Methods. 6 (9) : 673 – 676. doi : 10.1038/nmeth.1358 Chan CK, Hsu AL, Tang SL, Halgamuge SK. 2007. Using growing selforganizing maps to prove the binning process in environmental wholegenome shotgun equencing. Journal of Biomedicine and Biotechnology. 2008. doi:10.1155/2008/513701 Choi JH, Cho HG. 2002. Analysis of common k-mers for whole genome sequence using SSB-tree. Genome Information. 13 : 30-41 De Silva D, Alahakoon D, Dharmage S. 2007. Cluster analysis using the GSOM : patterns in epidemiology. IEEE International Conference on ICIAF. 5(7):63 – 69. doi : 10.1109/ICIAFS.2007.4544781 Federhen S. 2012. The NCBI taxonomy database. Nucleic Acids Research. 40: 136- 143. doi : 10.1093/nar/gkr1178 Han J, Kamber M, Pei J. 2012. Data mining concepts and techniques. 3th ed. Waltham (US) : Morgan Kaufmann Publishers Harayama S, Kasai Y, Hara A. 2004. Microbial communities in oil-contaminated seawater. Current Opinion in Biotechnology. 15:205-214 Hsu AL, Halgamuge SK. 2002. Enhancement of topology preservation and hierarchical dynamic self-organizing maps for data visualisation. International Journal of Approximate Reasoning. 32(2003):259-279 Hsu Al, Tang SL, Halgamuge SK. 2003. An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data. Bioinformatics. 19(16) : 2131-2140. doi : 10.1093/bioinformatics.btg296 Huson DH, Auch AF. Qi J, Schuster SC. 2007. MEGAN analysis of metagenomic data. Genome Research. 17 : 1 – 11. doi : 10.1101/gr/5969107 Kusuma WA. 2012. Combined approaches for improving the performance of de novo dna sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP) : Tokyo Institute of Technology. Meyerdierks A, Glockner FO. 2010. Metagenome analysis. Advances in Marine Genomics. 1 : 33 – 71. doi : 10.1007/978-90-481-8639-6_2 McHardy AC, Martin HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate phylogenetic classification of variable-lenght dna fragments. Nature Methods. 4(1):63-72. doi: 10.1016/j.mib.2007.08.004
38 Nasser S, Brelan A, Harris FC, Nicolescu M. 2008. A fuzzy classifier to taxonomically group dna fragments within a metagenome. Annual Meeting of the NAFIPS 08. 8 : 1-6 O’Malley M. 2012. Metagenomics. Springer [Internet].[diunduh 2012 Nov 29]. Tersedia pada : http://www.maureenomalley.org/publications.html Pati A, Heath LS, Kyrpides NC, Ivanova N. 2011. ClaMS : A classifier for metagenomic sequences. Standards in Genomic Science. 5 : 248 – 253. doi :10.4056/sigs.2075298 Prabhakara S, Acharya R. 2012. Unsupervised two-way clustering of metagenomic sequence. Journal of Biomedicine and Biotechnology. doi : 101.1155/2012/153647 Richter DC, Ott F, Auch AF, Schmid R, Hudson DH. 2008. MetaSim-sequencing simulator for genomics and metagenomics. PLoS ONE. 3(10). doi:10.1371/journal.pone.0003373 Rodriguez AA, Bompada T, Syed M, Shah PK, Maltsev N. 2007. Evolutionary analysis of enzymes using chisel. Bioinformatics. 23( 22) Rosen G, Garbarine E, Caseiro D, Polikar R, Sokhansanj B. 2008. Metagenome fragment classification using n-mer frequency profiles. Advances in Boinformatics. doi : 10.1155/2008/205969 Sheaffer RL, Mendenhall W, Ott RL. 1990. Elementary survey sampling. 4th ed. Boston (US) : PWS – KENT Publishing Company Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO. 2004. TETRA : a web service and stand-alone program for the analysis and comparison of tetranucleotide usage pattern in sequence DNAs. BMC Informatics. 5(163). doi:10.1186/1471-2105-5-163 Uriarte EA, Martin FD. 2005. Topology preservation in SOM. International Journal of Applied Mathematics and Computer Sciences. 1(1) : 19 - 22 Venter JC, Remington K, Heidelberg JF, Halpern AL, Rusch D, Eisen JA, Wu D, Paulsen I, Nelson KE, Nelson W et al. 2004. Environmental genome shotgun sequencing of the sargasso sea. Science. 304 : 66 – 74. doi : 10.1126/science.1093857 Vesanto J, Himberg J, Alhoniemi E, Parhankangas J. 2000.SOM toolbox for matlab 5. Helsinski University of Technology. [Internet].[diunduh 2013 Jan 10]. Tersedia pada : http:///www.cis.hut.fi/projects/somtoolbox/ Woyke T, Teeling H, Ivanova NN, Hunteman M, Richter M, Gloeckner FO, Boffelli D, Anderson IJ, Barry KW, Shapiro HJ et al. 2006. Symbiosis insights through metagenomic analysis of a microbial consortium. Nature. 443(7114): 950-5. Wu H. 2008. PCA – based Linear Combinations of Oligonucleotide Frequencies for Metagenomic DNA Fragment Binning. IEEE Symposium on CIBCB. 8 (2008): 46-53 Wu X, Lee W, Tseng C. 2005. ESTmapper : efficiently aligning sequence DNAs to genomes. IEEE International Paralel and Distributed Processing Symposium. 204(2005) : 196 – 204. Doi : 10.1109/IPDPS.2005.204 Zheng H, Wu H. 2009. A novel LDA and PCA-based hierarchical scheme for metagenomic fragment binning. IEEE Symposium on Computer Intelligence in Bioinformatics and Computational Biology. 9(2009) : 53-59. doi : 10.1109/CIBCB.2009.4925707
39 Zhu G, Zhu X. 2010. The growing self-organizing map for clustering algorithm in programming codes. IEEE International Conference on Artificial Intelligence and Computational Intelligence. 3(2010):178-182. doi : 10.1109/AICI.2010.276
40 Lampiran 1 Daftar mikrob yang digunakan sebagai data latih Reads
Mikrob
1702 Reads
`'Nostoc azollae' 0708 chromosome'
1283 Reads
`Acetobacterium woodii DSM 1030 chromosome'
716 Reads
`Acidaminococcus fermentans DSM 20731 chromosome'
1053 Reads
`Acidithiobacillus ferrivorans SS3 chromosome'
1391 Reads
`Acidovorax sp. JS42 chromosome'
1097 Reads
`Acinetobacter sp. ADP1 chromosome'
1460 Reads
`Advenella kashmirensis WT001 chromosome'
1133 Reads
`Aequorivita sublithincola DSM 14238 chromosome'
865 Reads
`Akkermansia muciniphila ATCC BAA-835 chromosome'
1186 Reads
`Alistipes finegoldii DSM 17242 chromosome'
661 Reads
`Aminobacterium colombiense DSM 12261 chromosome'
658 Reads
`Anaerobaculum mobile DSM 13181 chromosome'
1118 Reads
`Anaerolinea thermophila UNI-1'
525 Reads
`Aquifex aeolicus VF5'
650 Reads
`Arcanobacterium haemolyticum DSM 20595 chromosome'
1318 Reads
`Belliella baltica DSM 15883 chromosome'
195 Reads
`Blattabacterium sp. (Blaberus giganteus) chromosome'
199 Reads
`Blattabacterium sp. (Blattella germanica) str. Bge'
199 Reads
`Blattabacterium sp. (Cryptocercus punctulatus) str. Cpu chromosome'
184 Reads
`Blattabacterium sp. (Mastotermes darwiniensis) str. MADAR chromosome'
218 Reads
`Blattabacterium sp. (Periplaneta americana) str. BPLAN'
146 Reads
`Buchnera aphidicola (Cinara tujafilina) chromosome'
188 Reads
`Buchnera aphidicola str. Bp (Baizongia pistaciae) chromosome'
154 Reads
`Buchnera aphidicola str. Cc (Cinara cedri)'
1176 Reads
`Burkholderia ambifaria AMMD chromosome 1'
1055 Reads
`Burkholderia cenocepacia HI2424 chromosome 1'
1268 Reads
`Burkholderia glumae BGR1 chromosome 1'
1641 Reads
`Caldilinea aerophila DSM 14535 = NBRC 104270'
370 Reads
`Candidatus Azobacteroides pseudotrichonymphae genomovar. CFP2 chromosome'
884 Reads
`Candidatus Chloracidobacterium thermophilum B chromosome chromosome 1'
1390 Reads
`Candidatus Nitrospira defluvii'
764 Reads
`Candidatus Protochlamydia amoebophila UWE25 chromosome'
3274 Reads
`Candidatus Solibacter usitatus Ellin6076 chromosome'
799 Reads
`Capnocytophaga canimorsus Cc5 chromosome'
853 Reads
`Capnocytophaga ochracea DSM 7271 chromosome'
3373 Reads
`Catenulispora acidiphila DSM 44928 chromosome'
1567 Reads
`Cellulophaga algicola DSM 14237 chromosome'
385 Reads
`Chlamydia muridarum Nigg'
351 Reads
`Chlamydia trachomatis 434/Bu chromosome'
329 Reads
`Chlamydia trachomatis A/HAR-13'
345 Reads
`Chlamydia trachomatis A2497'
41 Reads
Mikrob
342 Reads
`Chlamydia trachomatis B/Jali20/OT chromosome'
342 Reads
`Chlamydia trachomatis B/TZ1A828/OT chromosome'
341 Reads
`Chlamydia trachomatis D-EC chromosome'
329 Reads
`Chlamydia trachomatis D-LC chromosome'
311 Reads
`Chlamydia trachomatis D/UW-3/CX'
334 Reads
`Chlamydia trachomatis E/11023 chromosome'
313 Reads
`Chlamydia trachomatis E/SW3'
320 Reads
`Chlamydia trachomatis F/SW4'
340 Reads
`Chlamydia trachomatis L2b/UCH-1/proctitis chromosome'
351 Reads
`Chlamydophila abortus S26/3'
382 Reads
`Chlamydophila caviae GPIC chromosome'
374 Reads
`Chlamydophila felis Fe/C-56'
405 Reads
`Chlamydophila pecorum E58 chromosome'
364 Reads
`Chlamydophila pneumoniae CWL029 chromosome'
395 Reads
`Chlamydophila pneumoniae J138 chromosome'
392 Reads
`Chlamydophila psittaci 01DC11 chromosome'
374 Reads
`Chlamydophila psittaci C19/98 chromosome'
368 Reads
`Chlamydophila psittaci RD1'
846 Reads
`Chlorobium chlorochromatii CaD3 chromosome'
762 Reads
`Chlorobium luteolum DSM 273 chromosome'
857 Reads
`Chlorobium phaeobacteroides BS1 chromosome'
1017 Reads
`Chlorobium phaeobacteroides DSM 266 chromosome'
642 Reads
`Chlorobium phaeovibrioides DSM 265 chromosome'
1571 Reads
`Chloroflexus aggregans DSM 9485 chromosome'
1717 Reads
`Chloroflexus sp. Y-400-fl chromosome'
1179 Reads
`Coraliomargarita akajimensis DSM 45221 chromosome'
867 Reads
`Corynebacterium aurimucosum ATCC 700975'
816 Reads
`Corynebacterium diphtheriae 241 chromosome'
1010 Reads
`Corynebacterium efficiens YS-314 chromosome'
1095 Reads
`Corynebacterium glutamicum ATCC 13032'
827 Reads
`Corynebacterium jeikeium K411 chromosome'
809 Reads
`Corynebacterium kroppenstedtii DSM 44385 chromosome'
770 Reads
`Corynebacterium pseudotuberculosis 267 chromosome'
2019 Reads
`Cyclobacterium marinum DSM 745 chromosome'
460 Reads
`Dehalococcoides ethenogenes 195'
532 Reads
`Dehalogenimonas lykanthroporepellens BL-DC-9 chromosome'
809 Reads
`Deinococcus geothermalis DSM 11300'
2278 Reads
`Dyadobacter fermentans DSM 18053 chromosome'
601 Reads
`Fervidobacterium nodosum Rt17-B1 chromosome'
1139 Reads
`Flavobacterium branchiophilum FL-15'
1012 Reads
`Flavobacterium columnare ATCC 49512 chromosome'
946 Reads
`Flavobacterium indicum GPTSA100-9'
1941 Reads
`Flavobacterium johnsoniae UW101 chromosome'
42 Reads
Mikrob
1626 Reads
`Flexibacter litoralis DSM 6794 chromosome'
1479 Reads
`Fluviicola taffensis DSM 16823 chromosome'
2363 Reads
`Frankia alni ACN14a chromosome'
2921 Reads
`Frankia sp. EAN1pec chromosome'
2700 Reads
`Frankia sp. EuI1c chromosome'
668 Reads
`Fusobacterium nucleatum subsp. nucleatum ATCC 25586 chromosome'
1484 Reads
`Gemmatimonas aurantiaca T-27'
1666 Reads
`Gordonia bronchialis DSM 43247 chromosome'
1793 Reads
`Gordonia polyisoprenivorans VH2 chromosome'
1967 Reads
`Granulicella mallensis MP5ACTX8 chromosome'
1380 Reads
`Granulicella tundricola chromosome'
2042 Reads
`Herpetosiphon aurantiacus DSM 785 chromosome'
1695 Reads
`Isosphaera pallida ATCC 43644 chromosome'
469 Reads
`Lawsonia intracellularis PHE/MN1-00 chromosome'
1146 Reads
`Leptospira borgpetersenii serovar Hardjo-bovis JB197 chromosome chromosome 1'
1442 Reads
`Leptospira interrogans serovar Copenhageni str. Fiocruz L1-130 chromosome I'
111 Reads
`Leptospira interrogans serovar Copenhageni str. Fiocruz L1-130 chromosome II'
106 Reads
`Leptospira interrogans serovar Lai str. 56601 chromosome chromosome II'
798 Reads
`Leptospirillum ferrooxidans C2-3'
776 Reads
`Leptotrichia buccalis C-1013-b chromosome'
601 Reads
`Leuconostoc citreum KM20'
1058 Reads
`Listeria innocua Clip11262'
1007 Reads
`Listeria monocytogenes 08-5578 chromosome'
937 Reads
`Listeria monocytogenes L99'
861 Reads
`Listeria welshimeri serovar 6b str. SLCC5334 chromosome'
768 Reads
`Marinithermus hydrothermalis DSM 14884 chromosome'
995 Reads
`Meiothermus ruber DSM 1279 chromosome'
1035 Reads
`Meiothermus silvanus DSM 9946 chromosome'
715 Reads
`Methylacidiphilum infernorum V4'
675 Reads
`Mobiluncus curtisii ATCC 43063 chromosome'
1592 Reads
`Mycobacterium abscessus ATCC 19977 chromosome 1'
1354 Reads
`Mycobacterium africanum GM041182 chromosome'
1731 Reads
`Mycobacterium avium 104'
1504 Reads
`Mycobacterium canettii CIPT 140010059'
1785 Reads
`Mycobacterium chubuense NBB4 chromosome'
1857 Reads
`Mycobacterium gilvum PYR-GCK chromosome'
998 Reads
`Mycobacterium leprae Br4923 chromosome'
2635 Reads
`Nostoc punctiforme PCC 73102 chromosome'
2040 Reads
`Nostoc sp. PCC 7120 chromosome'
709 Reads
`Oceanithermus profundus DSM 14977 chromosome'
321 Reads
`Onion yellows phytoplasma OY-M'
1920 Reads
`Opitutus terrae PB90-1 chromosome'
1296 Reads
`Owenweeksia hongkongensis DSM 17368 chromosome'
43 Reads
Mikrob
978 Reads
`Pelodictyon phaeoclathratiforme BU-1 chromosome'
1044 Reads
`Pelotomaculum thermopropionicum SI chromosome'
727 Reads
`Petrotoga mobilis SJ95 chromosome'
1169 Reads
`Phycisphaera mikurensis NBRC 102666'
2018 Reads
`Pirellula staleyi DSM 6068 chromosome'
1898 Reads
`Planctomyces brasiliensis DSM 5305 chromosome'
1752 Reads
`Planctomyces limnophilus DSM 3776 chromosome'
926 Reads
`Prevotella denticola F0289 chromosome'
176 Reads
`Prevotella intermedia 17 chromosome chromosome I'
639 Reads
`Prevotella intermedia 17 chromosome chromosome II'
536 Reads
`Prochlorococcus marinus str. AS9601'
567 Reads
`Prochlorococcus marinus str. MIT 9301'
565 Reads
`Prochlorococcus marinus str. MIT 9312'
590 Reads
`Prochlorococcus marinus str. NATL1A'
594 Reads
`Prochlorococcus marinus str. NATL2A chromosome'
567 Reads 560 Reads 1628 Reads
`Prochlorococcus marinus subsp. marinus str. CCMP1375 chromosome' `Prochlorococcus marinus subsp. pastoris str. CCMP1986 chromosome' `Rahnella aquatilis CIP 78.65 = ATCC 33071 chromosome'
2298 Reads
`Rhodopirellula baltica SH 1 chromosome'
1876 Reads
`Roseiflexus castenholzii DSM 13941 chromosome'
1912 Reads
`Roseiflexus sp. RS-1 chromosome'
2151 Reads
`Runella slithyformis DSM 19594 chromosome'
1427 Reads
`Sebaldella termitidis ATCC 33386 chromosome'
997 Reads
`Selenomonas ruminantium subsp. lactilytica TAM6421'
779 Reads
`Simkania negevensis Z chromosome chromosome gsn.131'
1317 Reads
`Solibacillus silvestris StLB046'
891 Reads
`Sphaerobacter thermophilus DSM 20745 chromosome 1'
2601 Reads
`Spirosoma linguale DSM 74 chromosome'
856 Reads
`Staphylococcus epidermidis RP62A'
887 Reads
`Staphylococcus haemolyticus JCSC1435 chromosome'
811 Reads
`Staphylococcus lugdunensis HKU09-01 chromosome'
824 Reads
`Staphylococcus pseudintermedius HKU10-03 chromosome'
529 Reads
`Streptobacillus moniliformis DSM 12112 chromosome'
712 Reads
`Streptococcus agalactiae 2603V/R chromosome'
686 Reads
`Streptococcus dysgalactiae subsp. equisimilis ATCC 12394 chromosome'
734 Reads
`Streptococcus gallolyticus UCN34'
558 Reads
`Streptococcus thermophilus CNRZ1066 chromosome'
546 Reads
`Sulfurihydrogenibium azorense Az-Fu1 chromosome'
599 Reads
`Sulfurihydrogenibium sp. YO3AOP1 chromosome'
862 Reads
`Synechococcus elongatus PCC 6301 chromosome'
811 Reads
`Synechococcus sp. CC9311'
912 Reads
`Synechococcus sp. JA-3-3Ab chromosome'
934 Reads
`Synechococcus sp. PCC 7002 chromosome'
1633 Reads
`Terriglobus roseus DSM 18391 chromosome'
44 Reads
Mikrob
1643 Reads
`Terriglobus saanensis SP1PR4 chromosome'
872 Reads
`Tetragenococcus halophilus NBRC 12172'
798 Reads
`Thermoanaerobacter italicus Ab9 chromosome'
643 Reads
`Thermodesulfovibrio yellowstonii DSM 11347'
682 Reads
`Thermosipho melanesiensis BI429 chromosome'
538 Reads
`Thermovibrio ammonificans HB-1 chromosome'
603 Reads
`Thermovirga lienii DSM 17291 chromosome'
813 Reads
`Thermus scotoductus SA-01 chromosome'
731 Reads
`Thermus sp. CCB_US3_UF1 chromosome'
561 Reads
`Thermus thermophilus HB8 chromosome'
601 Reads
`Thermus thermophilus JL-18 chromosome'
584 Reads
`Thermus thermophilus SG0.5JP17-16 chromosome'
651 Reads
`Thioalkalimicrobium cyclicum ALM1 chromosome'
1018 Reads
`Treponema brennaborense DSM 12168 chromosome'
908 Reads
`Treponema denticola ATCC 35405 chromosome'
343 Reads
`Treponema paraluiscuniculi Cuniculi A chromosome'
1320 Reads
`Treponema primitia ZAS-2 chromosome'
944 Reads
`Treponema succinifaciens DSM 2489 chromosome'
2501 Reads
`Trichodesmium erythraeum IMS101 chromosome'
1364 Reads
`Turneriella parva DSM 21527 chromosome'
229 Reads
`Ureaplasma parvum serovar 3 str. ATCC 27815 chromosome'
280 Reads
`Ureaplasma urealyticum serovar 10 str. ATCC 33699 chromosome'
1448 Reads
`Xenorhabdus nematophila ATCC 19061 chromosome'
865 Reads
`Xylella fastidiosa 9a5c chromosome'
1552 Reads
`Yersinia enterocolitica subsp. enterocolitica 8081 chromosome'
1445 Reads
`Yersinia pestis Angola chromosome'
653 Reads
`Zymomonas mobilis subsp. mobilis ATCC 10988 chromosome'
664 Reads
`Zymomonas mobilis subsp. mobilis ZM4 chromosome'
621 Reads
`Zymomonas mobilis subsp. pomaceae ATCC 29192 chromosome'
45 Lampiran 2 Daftar mikrob yang digunakan sebagai data uji Reads
Mikrob
954 Reads
`Acetobacter pasteurianus IFO 3283-01'
498 Reads
`Acholeplasma laidlawii PG-8A chromosome'
654 Reads
`Acidimicrobium ferrooxidans DSM 10331 chromosome'
720 Reads
`Actinobacillus pleuropneumoniae serovar 3 str. JL03 chromosome'
709 Reads
`Actinobacillus pleuropneumoniae serovar 7 str. AP76'
758 Reads
`Akkermansia muciniphila ATCC BAA-835 chromosome'
633 Reads
`Aminobacterium colombiense DSM 12261 chromosome'
632 Reads
`Anaerobaculum mobile DSM 13181 chromosome'
1038 Reads 800 Reads
`Anaerolinea thermophila UNI-1' `Asticcacaulis excentricus CB 48 chromosome 1'
1601 Reads
`Bacillus cereus 03BB102'
1179 Reads
`Bacillus cytotoxicus NVH 391-98 chromosome'
1617 Reads
`Bacteroides fragilis 62 8R'
1947 Reads
`Bacteroides thetaiotaomicron VPI-5482 chromosome'
443 Reads
`Bartonella bacilliformis KC583'
277 Reads
`Borrelia crocidurae str. Achema chromosome'
919 Reads
`Brachyspira hyodysenteriae WA1 chromosome'
1007 Reads
`Brachyspira murdochii DSM 12563 chromosome'
1083 Reads
`Brevundimonas subvibrioides ATCC 15264 chromosome'
668 Reads 1544 Reads 53 Reads
`Brucella canis ATCC 23365 chromosome I' `Caldilinea aerophila DSM 14535 = NBRC 104270' `Candidatus Carsonella ruddii PV'
804 Reads
`Candidatus Chloracidobacterium thermophilum B chromosome chromosome 1'
697 Reads
`Candidatus Cloacamonas acidaminovorans'
1342 Reads 709 Reads
`Candidatus Nitrospira defluvii' `Candidatus Protochlamydia amoebophila UWE25 chromosome'
3074 Reads
`Candidatus Solibacter usitatus Ellin6076 chromosome'
1423 Reads
`Caulobacter segnis ATCC 21756 chromosome'
333 Reads
`Chlamydia trachomatis Sweden2'
395 Reads
`Chlamydophila pneumoniae AR39'
677 Reads
`Chlorobaculum parvum NCIB 8327 chromosome'
805 Reads
`Chlorobium limicola DSM 245 chromosome'
640 Reads
`Chlorobium tepidum TLS chromosome'
1459 Reads
`Chloroflexus aggregans DSM 9485 chromosome'
1641 Reads
`Chloroflexus sp. Y-400-fl chromosome'
1012 Reads
`Chloroherpeton thalassium ATCC 35110 chromosome'
1126 Reads
`Coraliomargarita akajimensis DSM 45221 chromosome'
439 Reads
`Cyanobacterium UCYN-A'
505 Reads
`Dehalococcoides ethenogenes 195'
517 Reads
`Dehalogenimonas lykanthroporepellens BL-DC-9 chromosome'
847 Reads
`Deinococcus deserti VCD115 chromosome'
46 Reads
Mikrob
508 Reads
`Desulfurobacterium thermolithotrophum DSM 11699 chromosome'
678 Reads
`Eubacterium eligens ATCC 27750 chromosome'
1051 Reads 597 Reads
`Eubacterium rectale ATCC 33656' `Fervidobacterium nodosum Rt17-B1 chromosome'
1725 Reads
`Frankia sp. CcI3 chromosome'
1644 Reads
`Frankia symbiont of Datisca glomerata chromosome'
685 Reads
`Fusobacterium nucleatum subsp. nucleatum ATCC 25586 chromosome'
1398 Reads
`Gemmatimonas aurantiaca T-27'
1878 Reads
`Granulicella mallensis MP5ACTX8 chromosome'
1305 Reads
`Granulicella tundricola chromosome'
1295 Reads
`Halobacillus halophilus DSM 2266'
1948 Reads
`Herpetosiphon aurantiacus DSM 785 chromosome'
552 Reads
`Hydrogenobacter thermophilus TK-6 chromosome'
1704 Reads
`Isosphaera pallida ATCC 43644 chromosome'
1112 Reads
`Leptospira biflexa serovar Patoc strain 'Patoc 1 (Ames)' chromosome I'
771 Reads
`Leptospirillum ferrooxidans C2-3'
723 Reads
`Leptotrichia buccalis C-1013-b chromosome'
633 Reads
`Macrococcus caseolyticus JCSC5402'
673 Reads
`Marinitoga piezophila KA3 chromosome'
239 Reads
`Mesoplasma florum L1 chromosome'
1671 Reads
`Methylobacterium extorquens AM1'
1761 Reads
`Microcystis aeruginosa NIES-843 chromosome'
262 Reads
`Mycoplasma bovis Hubei-1 chromosome'
665 Reads
`Oceanithermus profundus DSM 14977 chromosome'
1832 Reads
`Opitutus terrae PB90-1 chromosome'
942 Reads
`Parachlamydia acanthamoebae UV-7 chromosome'
624 Reads
`Persephonella marina EX-H1 chromosome'
1194 Reads
`Phenylobacterium zucineum HLK1 chromosome'
1781 Reads
`Pirellula staleyi DSM 6068 chromosome'
1792 Reads
`Planctomyces brasiliensis DSM 5305 chromosome'
1799 Reads
`Planctomyces limnophilus DSM 3776 chromosome'
550 Reads 1216 Reads 816 Reads
`Prevotella melaninogenica ATCC 25845 chromosome I' `Prevotella ruminicola 23 chromosome' `Prosthecochloris aestuarii DSM 271 chromosome'
1381 Reads
`Rhizobium etli CFN 42'
1468 Reads
`Rhizobium leguminosarum bv. trifolii WSM1325 chromosome'
1043 Reads
`Rhodobacter sphaeroides ATCC 17025 chromosome'
2092 Reads
`Rhodopirellula baltica SH 1 chromosome'
390 Reads
`Rickettsia akari str. Hartford chromosome'
1363 Reads
`Sebaldella termitidis ATCC 33386 chromosome'
988 Reads
`Spirochaeta africana DSM 8902 chromosome'
817 Reads
`Staphylococcus aureus RF122'
510 Reads
`Streptobacillus moniliformis DSM 12112 chromosome'
47 Reads 750 Reads
Mikrob `Synechococcus sp. WH 8102'
1614 Reads
`Terriglobus roseus DSM 18391 chromosome'
1524 Reads
`Terriglobus saanensis SP1PR4 chromosome'
460 Reads
`Thermocrinis albus DSM 14484 chromosome'
638 Reads
`Thermodesulfovibrio yellowstonii DSM 11347'
527 Reads
`Thermosipho melanesiensis BI429 chromosome'
581 Reads
`Thermovirga lienii DSM 17291 chromosome'
575 Reads
`Thermus thermophilus HB27'
1185 Reads 341 Reads 1027 Reads
`Treponema azotonutricium ZAS-9 chromosome' `Treponema pallidum subsp. pallidum SS14' `Truepera radiovictrix DSM 17093 chromosome'
635 Reads
`Waddlia chondrophila WSU 86-1044 chromosome'
394 Reads
`Weissella koreensis KACC 15510 chromosome'
48 Lampiran 3 Hasil analisis pengelompokan frekuensi trinukleotida map size [10 10] dengan Learning Rate 0.1 dan Neighborhood Size 1 % ANALISIS DATA MENGGUNAKAN PETA KOHONEN PADA FRAGMEN METAGENOM % ============================================================= % Pada analisis data ini, dataset fragmen metagenom akan dianalisis. % Dataset berupa hasil perhitungan menggunakan KMer dan Spaced KMer. % Hasil selanjutnya akan di normalisasi kan (menggunakan transformasi % decimal scaling). Ketika data dilabel, maka peta juga akan secara % terotomatis terlabel. % Baca data hasil ekstraksi fitur komposisi D = xlsread('data_3mer.xlsx'); echo off sD = som_normalize(sD,'range'); % Normalisasi data %sM = som_make(sD,'msize',[10 15],'lattice','rect'); sM = som_make(sD); % Training Peta Tentukan map size... map size [36, 14] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 0/ 0 s Fase Smoothing... Training: 0/ 1 s Training: 1/ 1 s Training: 1/ 1 s Final quantization error: 0.612 Final topographic error: 0.078 sM = som_autolabel(sM,sD,'vote'); % Masukkan label secara otomatis pada peta Lampiran 3 lanjutan pause % Tekan sembarang tombol untuk visualisasi peta... % INSPEKSI VISUALISASI DARI PETA % ================================== % Langkah pertama dari analisis petaadalah inspeksi visualisasi dari % peta. Digunakan Unified Matrix (U-Matrix), component planes dan label som_show(sM,'umat','all','comp',[1:64],'empty','Labels','norm','d'); som_show_add('label',sM.labels,'textsize',8,'textcolor','r','subplot',6); % umat = U-matrix; comp = component labels berdasarkan dataset (row) pause % Strike any key to continue... % Selanjutnya adala hasil proyeksi dari investigasi dari dataset. Proyeksi % dari principal component dipakai pada data, dan diaplikasikan pada data. % Peta berwarna selesai dengan menyebarkan warna yg sesuai pada hasil % proyeksi. Informasi yg didapatkan dari matriks jarak adalah merupakan % hasil ekstraksi dari U-Matrix, dan dimodifikasi dengan unit pengetahuan % zero-hits (hasil hits = nol). Terakhir merupakan 3 hasil visualisasi, % yaitu pertama adalah peta kode warna, informasi clustering dan banyak % hits pada setiap unit, dan terakhir adalah proyeksi dan label dari data. echo off
49 Lampiran 3 lanjutan pause % Tekan sembarang tombol untuk melanjutkan... % Akhirnya, informasi yg diberikan oleh Gambar adalah : scatter plot yg % sederhana dan histogram dari semua variabel. echo off % Visualisasi menampilkan banyak sekali informasi antara lain : % distribusi dari satu atau pasangan dari variabel dari kedua data dan % peta.
pause % Tekan sembarang tombol untuk cluster peta... % CLUSTERING PETA % ===================== % Inspeksi visual sudah memberikan hasil bahwa peta memiliki setidaknya 2 % cluster, dan properties dari masing2 cluster berbeda 1 dengan yg % lainnya. Untuk analisis lebih lanjut, maka peta perlu dipartisi. % Digunakan fungsi KMEANS_CLUSTERS untuk menentukan inisialisasi dari % partisi peta. Plot data menampilka Indeks Davies Boulding, dengan % hasil minimal sbg best cluster. subplot(1,3,1) [c,p,err,ind] = kmeans_clusters(sM, 20); % temukan setidaknya 20 cluster plot(1:length(ind),ind,'x-') [dummy,i] = min(ind) dummy = 0.7735 i = 20 cl = p{i}; % Indeks Davies-Boulding akan mengindikasikan bahwa ada 2 cluster pada % peta. Berikut adalah info tentang perhitungan cluster sebelumnya dan % hasil partisi. subplot(1,3,2) som_cplane(sM,Code,Dm) subplot(1,3,3) som_cplane(sM,cl) % Digunakan juga fungsi SOM_SELECT untuk modifikasi partisi secara % manual. % Setelah ini, analisis akan menghasilkan kesimpulan dari hasil dan % analisis tiap cluster. pause % Tekan sembarang tombol untuk melanjutkan...
50 Lampiran 3 lanjutan % MODELING % ======== % Untuk pembuatan model, hampir mirip dengan pembuatan nearestneighbor % model. % Probabilitas antar tetangga, akan digunakan estimasi densitas atau % kepekatan dari tetangga. Tiap prototype dari peta menggunakan kernel % dari Gaussian, yang merupakan parameter yang dapat diestimasi dari % data. GMM (Gaussian Mixture Model)digunakan untuk mengestimasi data dan % probabilitas juga dihitung dgn GMM (Estimasi = SOM_ESTIMATE_GMM; % Probabilitas = SOM_PROBABILITY_GMM) [K,P] = som_estimate_gmm(sM,sD); [pd,Pdm,pmd] = som_probability_gmm(sD,sM,K,P); % Berikut adalah probabilitas hasil value untuk sample data pertama % (x=sD.data(:,1)) in terms of each map unit (m): som_cplane(sM,Pdm(:,1)) colorbar title('p(x|m)') pause % Tekan sembarang tombol untuk lanjut... % Untuk pengelompokan, Growing SOM digunakan untuk pengelompokan data % fragmen metagenom. Dengan menggunakan ukuran peta yang bsa di grow % sendiri secara normal (modifikasi peta scr'normal'). % Fungsi SOM_SUPERVISED digunakan untuk menghasilkan classifier untuk % data fragmen metagenom. sM = som_supervised(sD,'normal'); Tentukan map size... map size [32, 16] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 1/ 1 s Fase Smoothing... Training: 0/ 1 Training: 1/ 2 Training: 2/ 2 Final quantization Final topographic
s s s error: 0.531 error: 0.101
som_show(sM,'umat','all'); som_show_add('label',sM.labels,'TextSize',8,'TextColor','r') sD2 = som_label(sD,'clear','all'); sD2 = som_autolabel(sD2,sM); % klasifikasi ok = strcmp(sD2.labels,sD.labels); % klasifikasi error 100*(1-sum(ok)/length(ok)) % persentase error (%) ans = 16.8400 echo off
51 Lampiran 4 Hasil analisis pengelompokan frekuensi tetranukleotida map size [10 10] dengan Learning Rate 0.75 dan Neighborhood Size 1 % ANALISIS DATA MENGGUNAKAN PETA KOHONEN PADA FRAGMEN METAGENOM % ============================================================= % Pada analisis data ini, dataset fragmen metagenom akan dianalisis. % Dataset berupa hasil perhitungan menggunakan KMer dan Spaced KMer. % Hasil selanjutnya akan di normalisasi kan (menggunakan transformasi % decimal scaling). Ketika data dilabel, maka peta juga akan secara % terotomatis terlabel. % Baca data hasil ekstraksi fitur komposisi D = xlsread('data_4mer.xlsx'); echo off sD = som_normalize(sD,'range'); % Normalisasi data %sM = som_make(sD,'msize',[10 15],'lattice','rect'); sM = som_make(sD); % Training Peta Tentukan map size... map size [36, 14] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 1/ 1 s Fase Smoothing... Training: 1/ 3 s Training: 2/ 3 s Training: 3/ 3 s Final quantization error: 1.489 Final topographic error: 0.072 sM = som_autolabel(sM,sD,'vote'); % Masukkan label secara otomatis pada peta Lampiran 4 lanjutan pause % Tekan sembarang tombol untuk visualisasi peta... % % % %
INSPEKSI VISUALISASI DARI PETA ================================== Langkah pertama dari analisis petaadalah inspeksi visualisasi dari peta. Digunakan Unified Matrix (U-Matrix), component planes dan label
som_show(sM,'umat','all','comp',[1:256],'empty','Labels','norm','d'); som_show_add('label',sM.labels,'textsize',8,'textcolor','r','subplot',6); % umat = U-matrix; comp = component labels berdasarkan dataset (row) pause % Strike any key to continue... % Selanjutnya adala hasil proyeksi dari investigasi dari dataset. Proyeksi % dari principal component dipakai pada data, dan diaplikasikan pada data. % Peta berwarna selesai dengan menyebarkan warna yg sesuai pada hasil % proyeksi. Informasi yg didapatkan dari matriks jarak adalah merupakan % hasil ekstraksi dari U-Matrix, dan dimodifikasi dengan unit pengetahuan % zero-hits (hasil hits = nol). Terakhir merupakan 3 hasil visualisasi, % yaitu pertama adalah peta kode warna, informasi clustering dan banyak % hits pada setiap unit, dan terakhir adalah proyeksi dan label dari data. echo off
52 Lampiran 4 lanjutan pause % Tekan sembarang tombol untuk melanjutkan... % Akhirnya, informasi yg diberikan oleh Gambar adalah : scatter plot yg % sederhana dan histogram dari semua variabel. echo off % % %
Visualisasi menampilkan banyak sekali informasi antara lain : distribusi dari satu atau pasangan dari variabel dari kedua data dan peta.
pause % Tekan sembarang tombol untuk cluster peta... close(f1), close(f2), figure(f0), clf % CLUSTERING PETA % ===================== % Inspeksi visual sudah memberikan hasil bahwa peta memiliki setidaknya 2 % cluster, dan properties dari masing2 cluster berbeda 1 dengan yg % lainnya. Untuk analisis lebih lanjut, maka peta perlu dipartisi. % Digunakan fungsi KMEANS_CLUSTERS untuk menentukan inisialisasi dari % partisi peta. Plot data menampilka Indeks Davies Boulding, dengan % hasil minimal sbg best cluster. subplot(1,3,1) [c,p,err,ind] = kmeans_clusters(sM, 20); % temukan setidaknya 20 cluster plot(1:length(ind),ind,'x-') [dummy,i] = min(ind) dummy = 0.9969 i = 20 cl = p{i}; % Indeks Davies-Boulding akan mengindikasikan bahwa ada 2 cluster pada % peta. Berikut adalah info tentang perhitungan cluster sebelumnya dan % hasil partisi. subplot(1,3,2) som_cplane(sM,Code,Dm) subplot(1,3,3) som_cplane(sM,cl) % Digunakan juga fungsi SOM_SELECT untuk modifikasi partisi secara % manual. % Setelah ini, analisis akan menghasilkan kesimpulan dari hasil dan % analisis tiap cluster. pause % Tekan sembarang tombol untuk melanjutkan...
53 Lampiran 4 lanjutan % MODELING % ======== % Untuk pembuatan model, hampir mirip dengan pembuatan nearest-neighbor % model. % Probabilitas antar tetangga, akan digunakan estimasi densitas atau % kepekatan dari tetangga. Tiap prototype dari peta menggunakan kernel % dari Gaussian, yang merupakan parameter yang dapat diestimasi dari % data. GMM (Gaussian Mixture Model)digunakan untuk mengestimasi data dan % probabilitas juga dihitung dgn GMM (Estimasi = SOM_ESTIMATE_GMM; % Probabilitas = SOM_PROBABILITY_GMM) [K,P] = som_estimate_gmm(sM,sD); [pd,Pdm,pmd] = som_probability_gmm(sD,sM,K,P); % Berikut adalah probabilitas hasil value untuk sample data pertama % (x=sD.data(:,1)) in terms of each map unit (m): som_cplane(sM,Pdm(:,1)) colorbar title('p(x|m)') pause % Tekan sembarang tombol untuk lanjut... % Untuk pengelompokan, Growing SOM digunakan untuk pengelompokan data % fragmen metagenom. Dengan menggunakan ukuran peta yang bsa di grow % sendiri secara normal (modifikasi peta scr'normal'). % Fungsi SOM_SUPERVISED digunakan untuk menghasilkan classifier untuk % data fragmen metagenom. sM = som_supervised(sD,'normal'); Tentukan map size... map size [34, 15] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 1/ 1 s Fase Smoothing... Training: 1/ 3 Training: 2/ 3 Training: 3/ 3 Final quantization Final topographic
s s s error: 0.886 error: 0.090
som_show(sM,'umat','all'); som_show_add('label',sM.labels,'TextSize',8,'TextColor','r') sD2 = som_label(sD,'clear','all'); sD2 = som_autolabel(sD2,sM); % klasifikasi ok = strcmp(sD2.labels,sD.labels); % klasifikasi error 100*(1-sum(ok)/length(ok)) % persentase error (%) ans = 15.4300 echo off
54 Lampiran 5 Hasil analisis pengelompokan frekuensi spaced k-mer map size [10 10] dengan Learning Rate 0.5 dan Neighborhood Size 1 % ANALISIS DATA MENGGUNAKAN PETA KOHONEN PADA FRAGMEN METAGENOM % ============================================================= % Pada analisis data ini, dataset fragmen metagenom akan dianalisis. % Dataset berupa hasil perhitungan menggunakan KMer dan Spaced KMer. % Hasil selanjutnya akan di normalisasi kan (menggunakan transformasi % decimal scaling). Ketika data dilabel, maka peta juga akan secara % terotomatis terlabel. % Baca data hasil ekstraksi fitur komposisi D = xlsread('data_spaced.xlsx'); echo off sD = som_normalize(sD,'range'); % Normalisasi data %sM = som_make(sD,'msize',[10 15],'lattice','rect'); sM = som_make(sD); % Training Peta Tentukan map size... map size [39, 13] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 1/ 1 s Fase Smoothing... Training: 1/ 3 s Training: 2/ 3 s Training: 3/ 3 s Final quantization error: 1.100 Final topographic error: 0.077 sM = Lampiran som_autolabel(sM,sD,'vote'); % Masukkan label secara otomatis pada 5 lanjutan peta pause % Tekan sembarang tombol untuk visualisasi peta... % % % %
INSPEKSI VISUALISASI DARI PETA ================================== Langkah pertama dari analisis petaadalah inspeksi visualisasi dari peta. Digunakan Unified Matrix (U-Matrix), component planes dan label
som_show(sM,'umat','all','comp',[1:192],'empty','Labels','norm','d'); som_show_add('label',sM.labels,'textsize',8,'textcolor','r','subplot',6); % umat = U-matrix; comp = component labels berdasarkan dataset (row) pause % Strike any key to continue... % Selanjutnya adala hasil proyeksi dari investigasi dari dataset. Proyeksi % dari principal component dipakai pada data, dan diaplikasikan pada data. % Peta berwarna selesai dengan menyebarkan warna yg sesuai pada hasil % proyeksi. Informasi yg didapatkan dari matriks jarak adalah merupakan % hasil ekstraksi dari U-Matrix, dan dimodifikasi dengan unit pengetahuan % zero-hits (hasil hits = nol). Terakhir merupakan 3 hasil visualisasi, % yaitu pertama adalah peta kode warna, informasi clustering dan banyak % hits pada setiap unit, dan terakhir adalah proyeksi dan label dari data. echo off
55 Lampiran 5 lanjutan pause % Tekan sembarang tombol untuk melanjutkan... % Akhirnya, informasi yg diberikan oleh Gambar adalah : scatter plot yg % sederhana dan histogram dari semua variabel. echo off % % %
Visualisasi menampilkan banyak sekali informasi antara lain : distribusi dari satu atau pasangan dari variabel dari kedua data dan peta.
pause % Tekan sembarang tombol untuk cluster peta... % CLUSTERING PETA % ===================== % Inspeksi visual sudah memberikan hasil bahwa peta memiliki setidaknya 2 % cluster, dan properties dari masing2 cluster berbeda 1 dengan yg % lainnya. Untuk analisis lebih lanjut, maka peta perlu dipartisi. % Digunakan fungsi KMEANS_CLUSTERS untuk menentukan inisialisasi dari % partisi peta. Plot data menampilka Indeks Davies Boulding, dengan % hasil minimal sbg best cluster. subplot(1,3,1) [c,p,err,ind] = kmeans_clusters(sM, 20); % temukan setidaknya 20 cluster plot(1:length(ind),ind,'x-') [dummy,i] = min(ind) dummy = 0.9047 i = 20 cl = p{i}; % Indeks Davies-Boulding akan mengindikasikan bahwa ada 2 cluster pada % peta. Berikut adalah info tentang perhitungan cluster sebelumnya dan % hasil partisi. subplot(1,3,2) som_cplane(sM,Code,Dm) subplot(1,3,3) som_cplane(sM,cl) % Digunakan juga fungsi SOM_SELECT untuk modifikasi partisi secara % manual. % Setelah ini, analisis akan menghasilkan kesimpulan dari hasil dan % analisis tiap cluster. pause % Tekan sembarang tombol untuk melanjutkan...
56 Lampiran 5 lanjutan % MODELING % ======== % Untuk pembuatan model, hampir mirip dengan pembuatan nearest-neighbor % model. % Probabilitas antar tetangga, akan digunakan estimasi densitas atau % kepekatan dari tetangga. Tiap prototype dari peta menggunakan kernel % dari Gaussian, yang merupakan parameter yang dapat diestimasi dari % data. GMM (Gaussian Mixture Model)digunakan untuk mengestimasi data dan % probabilitas juga dihitung dgn GMM (Estimasi = SOM_ESTIMATE_GMM; % Probabilitas = SOM_PROBABILITY_GMM) [K,P] = som_estimate_gmm(sM,sD); [pd,Pdm,pmd] = som_probability_gmm(sD,sM,K,P); % Berikut adalah probabilitas hasil value untuk sample data pertama % (x=sD.data(:,1)) in terms of each map unit (m): som_cplane(sM,Pdm(:,1)) colorbar title('p(x|m)') pause % Tekan sembarang tombol untuk lanjut... % Untuk pengelompokan, Growing SOM digunakan untuk pengelompokan data % fragmen metagenom. Dengan menggunakan ukuran peta yang bsa di grow % sendiri secara normal (modifikasi peta scr'normal'). % Fungsi SOM_SUPERVISED digunakan untuk menghasilkan classifier untuk % data fragmen metagenom. sM = som_supervised(sD,'normal'); Tentukan map size... map size [36, 14] Inisialisasi... Training menggunakan batch algorithm... Fase Growing... Training: 1/ 1 s Fase Smoothing... Training: 1/ 2 Training: 1/ 2 Training: 2/ 2 Final quantization Final topographic
s s s error: 0.665 error: 0.060
som_show(sM,'umat','all'); som_show_add('label',sM.labels,'TextSize',8,'TextColor','r') sD2 = som_label(sD,'clear','all'); sD2 = som_autolabel(sD2,sM); % klasifikasi ok = strcmp(sD2.labels,sD.labels); % klasifikasi error 100*(1-sum(ok)/length(ok)) % persentase error (%) ans = 13.0700 echo off
57 Lampiran 6 Pohon taksonomi BLAST dari organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R.
59
RIWAYAT HIDUP Marlinda Vasty Overbeek dilahirkan di Kupang, 18 Maret 1985. Penulis merupakan anak ketiga dari tiga bersaudara, dari pasangan John Michael Overbeek dan Naniek K Wardani Soewardoyo. Tahun 2010, penulis lulus sarjana pada program studi Teknik Informatika STIKOM Uyelindo Kupang. Penulis melanjutkan jenjang magister pada tahun 2011 di jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB). Penulis bekerja sebagai dosen di program studi Teknik Informatika STIKOM Uyelindo Kupang dari tahun 2010 sampai sekarang.