1
KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE DCS-LA DENGAN INVERSE DISTANCE WEIGHTING
RONI NOVETTIO CHAIRULLAH
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
3
ABSTRACT Roni Novettio Chairullah. Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting. Supervised by AHMAD RIDHA. Dynamic Classifier Selection with Local Accuracy (DCS-LA) is a document classification method that combines several classification methods and k-NN. In this study, we implemented the DCS-LA with Inverse Distance Weighting for documents writen in Bahasa Indonesia as well as comparing between the DCS-LA with Inverse Distance Weighting and DCS-LA without Inverse Distance Weighting. We used four classifiers: Rocchio, Naïve Bayes, Bernoulli, and Poisson Naïve Bayes as classifiers in the DCS-LA. For the data, we used agriculture documents consisting of 174 training documents and 75 test documents, and news documents consisting of 500 training documents and 250 test documents. This method can yield an accuracy of 66% and 96% for agriculture documents and news documents, respectively. Without Inverse Distance Weighting, DCS-LA only yields an accuracy of 56% and 86% for agriculture documents and news documents, respectively. Therefore, Inverse Distance Weighting can improve the accuracy of the DCS-LA in classifying text documents in Bahasa Indonesia. Keywords: Document classification, DCS-LA, Rocchio, Naïve Bayes, Bernoulli, Poisson Naïve Bayes, Inverse Distance Weighting.
2
KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE DCS-LA DENGAN INVERSE DISTANCE WEIGHTING
RONI NOVETTIO CHAIRULLAH
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
4
Judul Penelitian : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode DCS-LA dengan Inverse Distance Weighting Nama : Roni Novettio Chairullah NRP : G64062134
Menyetujui: Pembimbing,
Ahmad Ridha, S.Kom. M.S. NIP. 19800507 200501 1 001
Mengetahui: Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal Lulus:
5
KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Allah atas segala curahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2010 sampai Juni 2011 dengan bidang kajian Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode Dynamic Classifier Selection with Local Accuracies (DCS-LA) dengan Inverse Distance Weighting. Penulis mengucapkan terima kasih kepada Bapak Ahmad Ridha, S.Kom. M.S. selaku pembimbing yang telah memberi saran, masukan, dan ide-ide kepada penulis dalam menyusun skripsi ini. Penulis juga mengucapkan terima kasih kepada: 1 Papa, Mama serta Adik yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini. 2 Syamsul Bachri, M Farhad Idris, Rangga AP, Wildan Rachman, Haryadi, M Awet Samana, dan Kartina yang telah banyak membantu penulis dalam menyelesaikan tugas akhir ini serta temanteman satu bimbingan lainnya Rio Ramadhan, Andi Rusmia, Jafar, Rendy Rivaldi, dan Windu Purnomo yang selalu memberi semangat dan motivasi. 3 Wahyu Setyowidodo, Mikolehi Firdaus, Mukhlis Wahyudi, dan Nurwan Wahyudi yang memberikan motivasi kepada Penulis. 4 Teman-teman Ilkom angkatan 43 yang telah banyak membantu penulis. 5 Departemen Ilmu Komputer, tenaga kependidikan, serta dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan. 6 Teman-teman Himalkom dan LDK DKM Al Hurriyyah IPB yang memberikan dukungan dan motivasi. Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu per satu, penulis ucapkan terima kasih banyak. Semoga penelitian ini dapat memberikan manfaat.
Bogor, 3 Agustus 2011
Roni Novettio Chairullah
6
RIWAYAT HIDUP Penulis dilahirkan di Kotamobagu pada tanggal 2 November 1988 dari ayah Rofik dan ibu Sri Nunik Wagiati. Penulis merupakan putra pertama dari dua bersaudara, kakak dari Figia Putri Rahmadita. Tahun 2006 penulis lulus dari SMA Negeri 1 Cikampek dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Tahun 2007 penulis diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis juga aktif pada LDK DKM Al Huriyyah IPB serta Himpunan Mahasiswa Ilmu Komputer (Himalkom) IPB, dan pada tahun 2009 diangkat sebagai Ketua Himalkom. Penulis melakukan Praktik Kerja Lapangan di Direktorat Kerjasama dan Program Internasional IPB dengan bidang kajian Pembuatan Web Direktorat Kerjasama dan Program Internasional IPB. Penulis menjadi asisten praktikum mata kuliah Pendidikan Agama Islam di IPB pada tahun 2008 - 2009, serta menjadi staf pengajar pada Nurul Ilmi Center (NIC) pada tahun 2010 2011.
iv
DAFTAR ISI Halaman DAFTAR TABEL............................................................................................................................. v DAFTAR GAMBAR ........................................................................................................................ v DAFTAR LAMPIRAN ..................................................................................................................... v PENDAHULUAN ............................................................................................................................ 1 Latar Belakang ............................................................................................................................ 1 Tujuan ......................................................................................................................................... 1 Ruang Lingkup ............................................................................................................................ 1 Manfaat ....................................................................................................................................... 1 TINJAUAN PUSTAKA .................................................................................................................... 1 Klasifikasi ................................................................................................................................... 1 Metode Rocchio........................................................................................................................... 1 Metode Naïve Bayes .................................................................................................................... 2 Metode Bernoulli ......................................................................................................................... 2 Metode Poisson Naїve Bayes ....................................................................................................... 2 Metode k-Nearest Neighbor ......................................................................................................... 3 Metode Dynamic Classifier Selection with Local Accuracies ........................................................ 3 Inverse Distance Weighting (IDW) .............................................................................................. 3 Confusion Matrix ......................................................................................................................... 3 METODE PENELITIAN .................................................................................................................. 3 Pengumpulan Dokumen ............................................................................................................... 4 Implementasi Sistem.................................................................................................................... 4 Klasifikasi DCS-LA dengan Inverse Distance Weighting.............................................................. 4 Evaluasi Klasifikasi ..................................................................................................................... 4 Perbandingan Sistem ................................................................................................................... 4 Lingkungan Implementasi ............................................................................................................ 4 HASIL DAN PEMBAHASAN.......................................................................................................... 5 Praproses ..................................................................................................................................... 5 Pelatihan ..................................................................................................................................... 5 Akurasi Classifier Tunggal .......................................................................................................... 5 Klasifikasi DCS-LA..................................................................................................................... 7 Perbandingan Klasifikasi ............................................................................................................. 8 KESIMPULAN DAN SARAN.......................................................................................................... 9 DAFTAR PUSTAKA ....................................................................................................................... 9 LAMPIRAN ................................................................................................................................... 11
v
DAFTAR TABEL Halaman
1 Confusion matrix............................................................................................................................ 3 2 Confusion matrix metode Rocchio dengan dokumen pertanian ........................................................ 5 3 Confusion matrix metode Rocchio dengan dokumen berita .............................................................. 5 4 Confusion matrix metode Naїve Bayes dengan dokumen pertanian .................................................. 6 5 Confusion matrix metode Naїve Bayes dengan dokumen berita ....................................................... 6 6 Confusion matrix metode Bernoulli dengan dokumen pertanian ...................................................... 6 7 Confusion matrix metode Bernoulli dengan dokumen berita ............................................................ 6 8 Confusion matrix metode Poisson Naïve Bayes dengan dokumen pertanian ..................................... 7 9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita .......................................... 7
DAFTAR GAMBAR Halaman 1 Metode penelitian. ......................................................................................................................... 3 2 Format XML. ................................................................................................................................ 4 3 Grafik hasil klasifikasi DCS-LA .................................................................................................... 7 4 Diagram perbandingan classifier ................................................................................................... 8 5 Perbandingan akurasi DCS-LA. ..................................................................................................... 8
DAFTAR LAMPIRAN Halaman 1 Contoh dokumen pertanian dalam format XML ............................................................................ 12 2 Contoh dokumen berita dalam format XML.................................................................................. 13 3 Perbandingan akurasi setiap classifier dan DCS-LA untuk dokumen pertanian …...........................14
1
PENDAHULUAN Latar Belakang Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih baik dan usaha yang dilakukan sistem lebih efektif dan efisien. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti Naïve Bayes, k-Nearest Neighbor (k-NN), Support Vector Machine (SVM), Bernoulli, Rocchio, dan Minor Component Analysis (MCA). Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda dapat menambah akurasi klasifikasi (Xu et al. 1992). Simple voting, Dynamic Classifier Selection (DCS), dan Adaptive Classifier Combination (AAC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. DCS pertama kali diperkenalkan oleh Ho et al. (1994). Pada penelitian tersebut, DCS diterapkan pada sistem klasifikasi teks dan gambar, sehingga dapat dibuktikan bahwa dengan mengombinasikan beberapa metode klasifikasi yang berbeda dapat menambah akurasi sistem klasifikasi. DCS dikembangkan menjadi Dynamic Classifier Selection with Local Accuracies (DCS-LA), yaitu dengan menambahkan konsep k-NN dalam pemilihan akurasi lokal. Dalam pengujian metode klasifikasi DCS-LA menggunakan dokumen berbahasa Inggris, metode DCS-LA ini menghasilkan akurasi ratarata 80% (Woods et al. 1997). Kemudian DCS-LA dikembangkan lagi dengan menambahkan pembobotan dalam proses k-NN untuk pemilihan akurasi dari setiap classifier tunggal. Teknik tersebut dapat menambah akurasi dari DCS-LA hingga mencapai 90% (Morales et al. 2008). Pada pengujian menggunakan dokumen berbahasa Indonesia, metode DCS-LA menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita (Ramadhan 2010). Pada penelitian tersebut digunakan tiga classifier tunggal serta belum menambahkan pembobotan dalam proses DCSLA. Dalam penelitian ini, akan ditambahkan Inverse Distance Weighting (IDW) dalam teknik DCS-LA yang digunakan pada dokumen berbahasa Indonesia, serta menggunakan empat classifier tunggal pada proses klasifikasinya.
Tujuan Tujuan penelitian ini adalah: 1 Mengimplementasikan DCS-LA dengan IDW untuk klasifikasi dokumen berbahasa Indonesia. 2 Membandingkan akurasi klasifikasi DCS-LA yang menggunakan IDW dengan yang tidak menggunakan IDW. 3 Membandingkan DCS-LA dengan empat classifier dan DCS-LA dengan tiga classifier. Ruang Lingkup Ruang lingkup penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan DCS-LA pada dokumen pertanian dan berita berbahasa Indonesia serta menentukan metode yang memiliki akurasi tinggi. Manfaat Manfaat dari penelitian ini adalah menentukan metode yang memiliki akurasi tinggi dalam proses klasifikasi dokumen sehingga dapat meningkatkan akurasi klasifikasi dokumen berbahasa Indonesia.
TINJAUAN PUSTAKA Klasifikasi Klasifikasi adalah proses untuk menemukan sebuah model yang menggambarkan dan membedakan kelas-kelas data, dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya. Model dari setiap kelas dibuat berdasarkan data latih (training data) melalui berbagai cara, di antaranya adalah rules, decision tree, formula matematika, atau neural network (Han & Kamber 2006). Selanjutnya digunakan sekumpulan data uji yang sudah diketahui kelasnya untuk menghitung akurasi dari model yang sudah didapatkan. Jika akurasinya mencukupi, maka model tersebut dapat digunakan untuk prediksi kelas dari data yang belum diketahui kelasnya. Metode Rocchio Rocchio merupakan metode klasifikasi berdasarkan ruang vektor. Metode Rocchio membagi ruang vektor berdasarkan nilai centroid pada setiap kelas (Manning et al. 2008). Centroid sebuah kelas c dihitung dengan ratarata vektor dari semua dokumen pada kelas c:
2
𝜇 𝑐 =
1 𝐷𝑐
𝑣 (𝑑) 𝑑∈𝐷𝑐
Dc adalah jumlah dokumen di kelas c. Nilai 𝑣 (d) adalah vektor kata pada kelas c dan 𝜇(c) adalah centroid masing-masing kelas. Setelah 𝜇(c) diketahui, dihitung jarak centroid setiap kelas dengan dokumen uji. Perhitungan jarak menggunakan metode Euclidean Distance yang didapatkan dari persamaan berikut: Jarak = 𝑎𝑟𝑔𝑐 𝑚𝑖𝑛 𝜇𝑐 − 𝑣(𝑑) Metode Naïve Bayes Naïve Bayes merupakan metode klasifikasi berdasarkan perhitungan peluang. Misalkan C = (𝑐1 ,...,𝑐𝑚 ), nilai m adalah jumlah kelas yang digunakan. Untuk sebuah dokumen baru D yang belum diklasifikasikan, dokumen tersebut terdiri dari W =(𝑤1 ,….,𝑤𝑑 ) dengan W adalah daftar term yang menyusun dokumen D. Peluang dokumen D pada kelas c adalah: 𝑑′
𝑃 𝑐𝑗 𝐷 = 𝑃 𝑐𝑗
𝑃 𝑤𝑖 𝑐𝑗 ) 𝑖=1
mengandung kata w dan adanya indikator kata, jika kata d berada di kelas c maka diberikan nilai 1, selainnya 0 (Manning et al. 2008). Metode Poisson Naїve Bayes Metode ini merupakan pengembangan dari metode Naїve Bayes, dengan mengibaratkan setiap dokumen uji sebagai selang kejadian serta term yang sesuai dengan dokumen latih sebagai kejadian yang diinginkan (Kim 2001). Oleh karena itu, dapat digunakan sebaran Poisson untuk mendapatkan peluang kejadian tersebut. Persamaan yang digunakan untuk mendapatkan peluang Poisson Naїve Bayes adalah sebagai berikut: 𝑃(𝑐|𝑑𝑗 ) =
Nilai P(c) merupakan banyaknya dokumen pada kelas c pada dokumen latih, sedangkan P(𝑐 ) adalah banyaknya dokumen pada kelas bukan c pada dokumen latih. Nilai e merupakan bilangan natural, dan 𝑧𝑗𝑐 didapatkan dengan persamaan berikut: 𝑧𝑗𝑐 = (𝐵𝑐 + 𝑧𝑗𝑐 ) 𝑑
Nilai 𝑃(𝑐𝑗 ) adalah peluang prior dari dokumen 𝑐 𝑗 yang dihitung dengan cara:
|𝑉|
𝑁𝑐 𝑃(𝑐𝑗 ) = 𝑁 Nilai Nc adalah banyak dokumen yang berada dalam kelas c, N adalah total seluruh dokumen yang ada, (w1,w2,w3,...,wd’) adalah kata unik pada dokumen D, dan 𝑑′ adalah jumlah kata unik. P (wi |cj) adalah peluang kata wi yang berada dalam dokumen di kelas cj. P(wi |cj) diartikan sebagai ukuran seberapa banyak term wi menyumbang untuk menunjukkan cj merupakan kelas yang tepat untuk setiap dokumen uji (Li & Jain 1998). Nilai P(wi |cj) didapatkan dari: 𝑃(𝑤𝑖 |𝑐𝑗 ) =
𝑛𝑖𝑗 + 1 𝑛𝑗 + 𝑘𝑗
Nilai 𝑛𝑖𝑗 adalah jumlah kemunculan kata wj dalam dokumen latih di kelas c. Nilai nj adalah jumlah seluruh kata pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan kj adalah jumlah kata dalam vocabulary (kata unik) seluruh dokumen. Metode Bernoulli Bernoulli merupakan metode klasifikasi berdasarkan perhitungan peluang. Perhitungannya mirip dengan metode Naïve Bayes. Perbedaannya adalah 𝑃 (𝑐𝑗 │𝐷) merupakan rasio dokumen dari kelas c yang
𝑒 𝑧𝑗𝑐 . 𝑃(𝑐) 𝑒 𝑧𝑗𝑐 . 𝑃 𝑐 + 𝑃(𝑐 )
𝐵𝑐 =
𝑤𝑖𝑐 . log 𝑖=1
𝑙𝑗 ′
𝜆𝑖 ′ 𝜇𝑖 ′
|𝑉|
𝑧𝑗𝑐 =
1
𝑤𝑖𝑐 . 𝑥𝑖𝑗 log 𝑖=1
𝜆𝑖 ′ 𝜇𝑖 ′
𝑑𝑙𝑗′ = 𝑑𝑙𝑗 + 𝜃|𝑉| 𝜆𝑖 =
𝜇𝑖 =
𝑤𝑖𝑐 =
1 |𝐷𝑐 | 1 |𝐷𝑐 |
𝑓𝑖𝑗 𝑑 𝑗 ∈ 𝐷𝑐
𝑓𝑖𝑗 𝑑 𝑗 ∈ 𝐷𝑐
(𝑎𝑑 − 𝑏𝑐)2 𝑎 + 𝑏 𝑎 + 𝑐 𝑏 + 𝑑 (𝑐 + 𝑑)
Nilai |V| merupakan jumlah kata unik pada setiap dokumen uji, nilai 𝑑𝑙𝑗 merupakan panjang dokumen uji, 𝐷𝑐 merupakan jumlah dokumen latih pada kelas c, sedangkan 𝐷𝑐 merupakan jumlah dokumen latih pada kelas bukan c. Nilai 𝑥𝑖𝑗 merupakan normalisasi dari setiap term pada dokumen uji, dan 𝑓𝑖𝑗 adalah nilai normalisasi setiap term pada dokumen latih dengan persamaan sebagai berikut: 𝑓𝑖𝑗 =
𝑓𝑖𝑗 + 𝜃 𝑑𝑙𝑗 + 𝜃|𝑉|
3
Nilai θ merupakan Laplace smoothing, 𝑑𝑙𝑗 merupakan jumlah seluruh kata pada setiap dokumen, dan V merupakan jumlah kata unik pada dokumen latih. Nilai 𝑤𝑖𝑐 merupakan nilai pembobotan fitur. Nilai a pada persamaan 𝑤𝑖𝑐 adalah banyaknya term i pada kelas c, sedangkan variabel b adalah banyaknya term selain i pada kelas c. Variabel c merupakan banyaknya term i pada kelas selain c, sedangkan d merupakan banyaknya term selain i pada kelas selain c. Metode k-NN Metode k-NN merupakan teknik klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dengan k adalah sebuah parameter (Manning et al. 2008). Parameter k dalam k-NN seringkali dipilih berdasarkan pada pengalaman atau pengetahuan tentang masalah klasifikasi.
𝑤𝑗 =
1 𝑖𝑓 𝑑𝑗 ≠ 0 𝑑𝑗
dengan wj adalah Inverse Distance Weighting dari setiap k-top dokumen yang terpilih. Nilai dj adalah distance (jarak) yang dihitung dengan metode Euclidean Distance. Confusion Matrix Confusion matrix merupakan tabel yang digunakan untuk menentukan kinerja suatu model klasifikasi (Hamel 2008). Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah: Akurasi =
Tabel 1 Confusion matrix Kelas Prediksi
Metode Dynamic Classifier Selection with Local Accuracies Dynamic Classifier Selection with Local Accuracies (DCS-LA) merupakan metode klasifikasi yang menggabungkan beberapa classifier dan metode k-NN (Morales et al. 2008). Ilustrasi algoritme dari DCS-LA sebagai berikut: 1 Rancang classifier individu D1,...,DL, dan pilih parameter k. 2 Setelah dapatkan nilai x yang dilabelkan oleh D1,...,DL. Jika semua classifier sepakat pada label x, maka diberikan label x. 3 Jika classifier tidak sepakat maka dilakukan perhitungan akurasi lokal dari setiap Di, i=1...L. Pilih k dokumen terbaik dari setiap classifier. Lakukan pembobotan terhadap setiap dokumen, sehingga didapatkan bobot dari classifier. Pilih classifier dengan bobot paling besar. 4 Jika hasil perhitungan akurasinya sama maka pilih salah satu saja, karena dianggap menghasilkan hasil yang sama saja.
𝐹11 +𝐹00 𝐹11 +𝐹10 +𝐹01 +𝐹00
Kelas yang Sebenarnya
Class = 1
Class = 0
Class = 1
F11
F10
Class = 0
F01
F00
METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahap yaitu pengumpulan data, pengolahan data, implementasi sistem, klasifikasi DCS-LA dengan Inverse Distance Weighting (IDW), evaluasi klasifikasi dan melakukan perbandingan sistem. Tahap-tahap yang dilakukan dalam penelitian ini diilustrasikan pada Gambar 1.
Inverse Distance Weighting (IDW) Inverse Distance Weighting merupakan salah satu teknik pemilihan dalam k-NN. Teknik ini memberikan bobot terhadap masing-masing komponen k-top dokumen yang terpilih dengan inverse jarak (distance) terhadap dokumen latih (Morales et al. 2008). Persamaan Inverse Distance Weighting didapat dari: Gambar 1 Metode penelitian.
4
Pengumpulan Dokumen Dokumen yang digunakan dalam penelitian ini sama dengan dokumen yang digunakan dalam penelitian Ramadhan (2010). Dokumen ini merupakan dokumen data publikasi hasil penelitian hortikultura dari badan penelitian dan pengembangan pertanian (Litbang) dan dokumen berita digital yang bersumber dari Media Indonesia. Klasifikasi dokumen pertanian menggunakan klasifikasi manual oleh Litbang dan Media Indonesia. Dokumen pertanian diklasifikasikan menjadi tiga kelas yaitu: 1 Kelas Ekofisiologi dan Argonomi (EA). 2 Kelas Pemuliaan dan Teknologi Benih (PTB). 3 Kelas Proteksi (P). Dokumen berita diklasifikasikan menjadi lima kelas yaitu: 1 2 3 4 5
Kelas Bulutangkis. Kelas Ekonomi. Kelas Kriminal. Kelas Lingkungan. Kelas Pendidikan.
Pada dokumen pertanian setiap kelas memiliki 83 dokumen. Dokumen tersebut dibagi lagi menjadi data latih dan data uji dengan proposisi dokumen latih 70% dan dokumen uji 30% sehingga jumlah dokumen latih setiap kelas adalah 58 dan jumlah dokumen uji adalah 25. Pada dokumen berita setiap kelas berjumlah 150 dokumen. Jumlah dokumen latih setiap kelas 100 dan jumlah dokumen uji 50.
pada Gambar 2. Contoh dokumen pertanian dalam format XML dapat dilihat pada Lampiran 1 dan dokumen berita pada Lampiran 2. Implementasi Sistem Implementasi sistem menggunakan bahasa pemrograman PHP dan MySQL sebagai tempat penyimpanan data. Klasifikasi DCS-LA dengan Inverse Distance Weighting Dalam metode DCS-LA dilakukan proses pengolahan data yaitu pengindeksan dokumen, klasifikasi dengan classifier, dan klasifikasi DCS-LA. Pengolahan data dilakukan dengan sistem yang digunakan oleh Cidhy (2009), yaitu dengan menghilangkan stopword, serta proses indexing yaitu membagi setiap dokumen kedalam term-term kata berdasarkan dokumen dan kelas asal dokumen. Stopword yang digunakan dalam penelitian ini adalah stopword yang dibuat oleh Ridha (2002). Klasifikasi dilakukan dengan empat classifier yaitu Rocchio, Naїve Bayes, Bernoulli, dan Poisson Naїve Bayes. Hasil dari keempat classifier ini disimpan dalam MySQL untuk digunakan dalam proses klasifikasi dengan DCSLA. Dalam proses DCS-LA digunakan IDW dalam pembobotan k-NN untuk menentukan hasil klasifikasi. Evaluasi Klasifikasi Evaluasi dilakukan dengan cara membandingkan antara hasil DCS-LA dan hasil klasifikasi manual oleh Litbang dan Media Indonesia serta dihitung akurasinya dengan menggunakan confusion matrix. Perbandingan Sistem Perbandingan dilakukan antara sistem DCSLA dengan IDW dan DCS-LA tanpa IDW. Perbandingan ini digunakan dokumen yang sama dan jumlah yang sama. Perbandingan juga dilakukan terhadap DCS-LA dengan menggunakan tiga classifier dan DCS-LA dengan empat classifier. Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut:
Gambar 2 Format XML. Keseluruhan abstrak dari dokumen pertanian telah diubah dalam format XML oleh Ramadhan (2010), sedangkan untuk dokumen berita diubah dalam format XML oleh Juniawan (2009) seperti
Perangkat lunak: 1 Windows 7 Home Premium sebagai sistem operasi. 2 XAMPP sebagai server. 3 Notepad++ sebagai code editor.
5
4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk 450 GB. HASIL DAN PEMBAHASAN Praproses Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian yang berjumlah 174 dihasilkan 2868 kata unik atau term sedangkan pada dokumen latih berita yang berjumlah 500 dihasilkan 11285 kata unik. Pelatihan Pada tahap pelatihan ini keempat metode atau classifier memiliki cara yang berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database untuk digunakan dalam perhitungan klasifikasi berikutnya. Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam database seperti pada metode Naїve Bayes.
dalam kelas yang memiliki jarak terdekat dengan dokumen uji. Akurasi klasifikasi dari setiap metode yang ada dapat dihitung dengan bantuan tabel confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel confusion matrix yang dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3. Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. Akurasi pada dokumen pertanian lebih rendah dibandingkan dengan dokumen berita. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak yang sama. Akibat centorid jarak yang sama ini banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid setiap kelas. Tabel 2 Confusion matrix metode Rocchio dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
16
5
4
0.64
PTB
4
18
3
0.72
P
9
4
12
0.48
Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term disimpan dalam database.
Tabel 3 Confusion matrix metode Rocchio dengan dokumen berita
Akurasi Classifier Tunggal
Kelas yang sebenarnya
Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling. Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke-
Kelas Prediksi
Akurasi
B
E
K
L
P
B
48
1
0
0
1
0.96
E
0
50
0
1
0
1.00
K
0
1
48
1
0
0.96
L
0
1
0
48
1
0.96
P
0
0
0
1
49
0.98
6
Pada metode Naїve Bayes, peluang setiap term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5. Tabel 4 Confusion matrix metode Naїve Bayes dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
13
5
7
0.52
PTB
2
20
3
0.80
P
4
5
16
0.64
Tabel 5 Confusion matrix metode Naїve Bayes dengan dokumen berita Kelas Prediksi
B Kelas yang sebenarnya
Akurasi
B
E
K
L
P
46
1
1
0
2
0.92
E
0
48
0
1
1
0.96
K
0
0
49
1
0
0.98
L
0
1
0
48
1
0.96
P
2
0
0
0
48
0.96
Dari Tabel 4 dan Tabel 5 dapat dilihat pada dokumen pertanian terjadi banyak kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term yang berbeda, sehingga terjadi sedikit kesalahan pengklasifikasian. Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian. Pada metode Bernoulli peluang kata atau term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam
kelas yang ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas yang mengandung kata atau term. Akurasi pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7. Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Tabel 6 Confusion matrix metode Bernoulli dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
11
1
13
0.44
PTB
2
16
7
0.64
P
3
3
19
0.76
Tabel 7 Confusion matrix metode Bernoulli dengan dokumen berita Kelas Prediksi
Kelas yang sebenarnya
Akurasi
B
E
K
L
P
B 37 E 0
2
2
1
8
0.74
27
0
5
18
0.54
K
0
0
38
4
8
0.76
L
0
0
0
41
9
0.82
P
0
1
0
0
49
0.98
Pada metode Poisson Naїve Bayes dokumen uji dihitung bobot setiap term (𝑤𝑖𝑐 ), serta nilai rata-rata kemunculan kata setiap dokumen pada kelas c dan kelas bukan c (λ dan μ). Setelah itu, dihitung peluang dokumen uji terhadap kelas
7
yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve Bayes dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
14
9
2
0.56
PTB
4
19
2
0.76
P
8
6
11
0.44
yang sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masingmasing classifier berbeda maka dilakukan proses k-NN. Pada perhitungan k-NN, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi yang terpilih. Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k = 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. Akurasi terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3. 120%
Tabel 9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita
100%
Kelas Prediksi
B Kelas yang sebenarnya
Akurasi
B
E
K
L
P
50
0
0
0
0
1.00 60%
E
0
50
0
0
0
1.00
K
0
0
50
0
0
1.00
L
0
4
1
43
2
0.86
0
0
0
1
49
0.98
P
80%
Dari Tabel 8 dan Tabel 9 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Klasifikasi DCS-LA Hasil klasifikasi dari empat classifier dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas
40% Dokumen Pertanian 20%
Dokumen Berita
0%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Parameter- k
Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW. Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya. Pada dokumen pertanian parameter-k mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3. Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi yang dimiliki oleh DCS-LA dipengaruhi oleh ke-
8
empat classifier yaitu: Rocchio, Naїve Bayes, Bernoulli dan Poisson Naїve Bayes. Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 10% (Ramadhan 2010), keterkaitan yang kecil pada dokumen berita mempengaruhi akurasi klasifikasi Jika dihitung akurasi rata-rata dari classifier pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi yang lebih tinggi dari akurasi rata-rata classifier. Akurasi dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4.
LA dengan empat classifier memiliki akurasi yang lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita. 120% 100%
100%
84%
60%
56%
40% 20% 0%
76%
80% 61%
65%
66% 61%
60%
58%
40% 20% 0%
Dokumen pertanian
b
c
d
Dokumen berita
96%
96%
95%
66.67%
64%
61%
Dokumen pertanian 97%
96.40%
80%
a 120%
94%
91.60%
Dokumen berita
Gambar 4 Diagram perbandingan classifier dengan DCS-LA. Perbandingan Klasifikasi Perbandingan dilakukan dengan cara membandingkan DCS-LA yang menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5. Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari DCSLA. Pada Gambar 5 dapat dilihat bahwa DCS-
Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier. Pengaruh penambahan Poisson Naїve Bayes pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) yang menunjukkan bahwa tiga classifier Rocchio, Naїve Bayes dan Bernoulli menghasilkan kelas prediksi yang salah sedangkan Poisson Naїve Bayes menghasilkan kelas prediksi yang benar, sehingga menghasilkan kelas prediksi dari DCSLA yang benar. Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier yang akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.
9
Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) yang menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi yang benar sedangkan pada DCS-LA yang hanya menambahkan satu classifier menghasilkan kelas prediksi yang salah. Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi yang lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja. KESIMPULAN DAN SARAN Dari penelitian dalam menerapkan algoritme DCS-LA dengan IDW untuk klasifikasi dokumen pertanian dan dokumen berita dalam bahasa Indonesia, didapatkan kesimpulan sebagai berikut: 1 Penerapan klasifikasi DCS-LA dengan IDW untuk dokumen teks bahasa Indonesia berhasil dilakukan. 2 Akurasi dari metode DCS-LA ini sebesar 66.67% pada dokumen pertanian dan dokumen berita 96.4%. 3 Akurasi metode DCS-LA dengan IDW lebih tinggi dibandingkan dengan DCS-LA tanpa IDW. 4 Akurasi DCS-LA dengan empat classifier lebih tinggi dibandingkan dengan tiga classifier. 5 Metode DCS-LA menghasilkan akurasi lebih tinggi dari akurasi rata-rata classifier. 6 Kelas yang saling berhubungan atau terkait dapat memberikan hasil akurasi yang rendah. Saran yang diberikan untuk pengembangan lebih lanjut pada penelitian ini adalah sebagai berikut: 1 Mencoba menggunakan komponen classifier lainnya misalkan MCA atau SVM untuk dibandingkan. 2 Menambahkan atau mengganti komponen classifier pada sistem DCS-LA ini. 3 Membandingkan akurasi DCS-LA dengan AAC untuk dokumen berbahasa Indonesia.
DAFTAR PUSTAKA Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Hamel L. 2008. The Encyclopedia of Data Warehousing and Mining. Ed. ke-2. Rhode Island: Idea Group Publisher. Han J, Kamber M. 2006. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers. Ho TK, Hull JJ, Srihari SN. 1994. Desicion Combination in Multiple Classifier Systems. IEEE Transactions on Analisys and Machine Intelegence 16(1): 66 - 75. Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Kim SB. 2001. Poisson Naive Bayes for Text Classification with Feature Weighting. Di dalam: Adachi J, editor. Proceedings of the 6th International Workshop on Information Retrieval with Asian Languange; Sappro, 7 Juli 2003. Stroudsburg: Association for Computational Linguistics. hlm 33 - 40. Li YH, Jain AK. 1998. Classification of Text Document. The Computer Journal 41(8): 537 - 546. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Morales AI, Valdovinos RM, Sanchez JS. 2008. On the Weighted Dynamic Classifier Selection with Local Accuracies. Di dalam: Grigoriadis K, editor. Proceedings of the 11th IASTED International Conference; Orlando, 16-18 November 1998. Anaheim: ACTA Press. hlm 204 - 206. Ramadhan R. 2010. Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Dinamic Classifier Selection with Local Accuracies (DCS-LA) [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Ridha A. 2002. Pengindeksan Otomatis Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.
10
Woods K, Kegelmeyer WP, Bowyer K. 1997. Combination of Multiple Classifiers Using Local Accuracy Estimates. IEEE Transactions on Pattern Analysis and Machine Intelligence 19(4): 405 - 410. Xu L, Krzyzak A, Suen CY. 1992. Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition. IEEE Transactions on System, Man and Cybernetics 22(3): 418 - 435.
11
LAMPIRAN
12
Lampiran 1 Contoh dokumen pertanian dalam format XML
5 <TITLE>Studi Bedengan Kompos Permanen untuk Budidaya Kentang di Pekarangan Etty Sumiati dan Achmad Hidayat Kebutuhan pupuk buatan/kimia untuk meningkatkan pertumbuhan dan hasil umbi kentang, sebagian dapat disubstitusi melalui pemanfaatan bahan limbah organik. Penelitian ini bertujuan untuk mengetahui teknik pengomposan dan efektivitas bedengan kompos untuk budidaya tanaman kentang di lahan kering. Penelitian dilakukan di dataran tinggi Samarang, Garut, Jawa Barat. Percobaan menggunakan Rancangan Acak Kelompok dengan enam ulangan. Perlakuan pada bedengan permanen terdiri atas empat macam formula, yaitu berbagai campuran limbah organik, serta pupuk kandang sapi sebagai kontrol. Hasil penelitian menunjukkan bahwa bedengan permanen yang digarit dan diisi limbah organik pupuk kandang sapi 20 t/ha ditambah pupuk NPK (15-15-15),memberikan pertumbuhan serta hasil dan kualitas umbi kentang kultivar Granola yang tertinggi. Selain itu, proses dekomposisi limbah organik pupuk kandang sapi sangat cepat, hal ini tercermin dari nilai C/N yang terendah setelah satu bulan terjadi proses pengomposan.
13
Lampiran 2 Contoh dokumen berita dalam format XML
Bulu_tangkis_April_15 <TITLE>Target Satu Poin kian Terbuka Iwan Kurniawan Senin, 13 April 2009 KEBERHASILAN pebulu tangkis Markis Kido/Hendra Setiawan dalam menyabet juara di Kejuaraan Asia di Suwon, Korea Selatan, Minggu (12/4), semakin memperkuat satu poin kemenangan dari sektor ganda putra pada kejuaraan dunia beregu campuran Piala Sudirman di Guangzhou, China, 1017 Mei mendatang. Pelatih ganda putra Sigit Pamungkas, di Jakarta, Senin (13/4) mengatakan kemenangan di Suwon tersebut semakin memantapkan satu target juara di Piala Sudirman. "Melihat kekuatan yang ada, tentunya kami akan berusaha sekeras mungkin untuk menyumbangkan satu angka bagi tim," ujarnya. Satu angka kemenangan dikarenakan tim Piala Sudirman diperkuat peringkat satu dunia Markis/Hendra, peringkat delapan dunia Bona Septano/Mohammad Ahsan dan peringkat 11 dunia Rian Sukmawan/Yonatan Surtayama. "Kita memiliki tiga pasangan yang dapat mendukung tim. Saya kita peningkatan performa akan terus kami lakukan kepada atlet untuk mendapatkam hasil maksimal. Khususnya untuk Kido yang baru saja bertandingan, masih perlu istirahat untuk mengembalikan kondisi," tandasnya. Sementara itu, pelatih ganda putri Aryono Miranat terlihat sibuk melakukan latihan service kepada para pemain ganda putri seperti Shendy Puspa Irawati, Meliana Jauhari, Greysia Polii, dan Nitya Krishinda. Menurutnya, teknik permainan masih perlu diperbaiki di sisa waktu yang ada. "Teknik masih akan ditingkatkan karena lawan juga telah mengantisipasinya," jelas Aryono. Di tempat yang sama, Shendy yang kini berada di peringkat sembilan dunia bersama Meliana mengungkapakan teknik permainan masih perlu ditingkatkan. Apalagi bila bermain dalam lima set yang nota bene sangat menguras tenaga. "Saya masih terus fokus berlatih agar dapat bermain baik di lima set," jelasnya. Penambahan teknik permainan service, ucap Shendy, menjadi upaya yang baik untuk mengukur kekuatan selama proses latihan. "Pelatih sudah menyarankan beberapa hal penting sehingga kami akan menerapkannya," tukasnya. Sementara itu, guna mempersiapkan keberangkatan ke China, PB PBSI akan menyelenggarakan outbound pada 25-26 April. "Masih ada dua opsi untuk penentuan tempat yaitu di Sukabumi atau Bogor," ujar Ketua Bidang Pembinaan Prestasi Lius Pongoh. Sejak memenangi Piala Sudirman pada 1989, Indonesia belum pernah lagi menjadi juara turnamen tersebut. Walaupun tujuh kali menjadi finalis, termasuk dalam dua edisi terakhir. Pada final 2005 di Beijing dan 2007 di Glasgow Skotlandia, Indonesia kalah dari juara bertahan negara 'Tirai Bambu' masing-masing dengan skor 0-3. (IK/OL-03)
14
Lampiran 3 Perbandingan akurasi setiap classifier dan DCS-LA untuk dokumen pertanian
No.
Dokumen
Rocchio
Bayes
Bernoulli
Poisson NB
1 2 3 4 5
jurnalHorti1.txt jurnalHorti102.txt jurnalHorti117.txt jurnalHorti127.txt jurnalHorti133.txt
1 1 1 0 0
1 1 1 0 0
1 0 1 0 0
1 0 1 0 0
1 0 1 0 0
DCS-LA 3 classifier dengan IDW 1 0 1 0 0
6 7
jurnalHorti141.txt jurnalHorti155.txt
1 1
0 1
0 1
0 0
0 1
0 1
0 1
8 9
jurnalHorti159.txt jurnalHorti166.txt
0 1
0 0
0 0
1 1
0 0
0 0
0 0
10 11 12 13 14 15
jurnalHorti17.txt jurnalHorti178.txt jurnalHorti19.txt jurnalHorti209.txt jurnalHorti263.txt jurnalHorti34.txt
1 1 1 0 1 1
1 1 1 0 1 0
0 1 0 0 1 1
1 1 1 1 1 0
1 1 1 0 1 0
1 1 1 0 1 0
1 1 1 1 1 0
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
jurnalHorti4.txt jurnalHorti43.txt jurnalHorti49.txt jurnalHorti51.txt jurnalHorti60.txt jurnalHorti69.txt jurnalHorti75.txt jurnalHorti82.txt jurnalHorti87.txt jurnalHorti91.txt jurnalHorti100.txt jurnalHorti106.txt jurnalHorti108.txt jurnalHorti113.txt jurnalHorti121.txt jurnalHorti124.txt
1 0 0 0 1 0 1 1 1 0 1 0 1 1 0 1
1 0 0 0 1 0 1 1 1 0 1 1 1 1 0 1
1 0 0 0 1 0 1 1 1 0 1 0 1 1 0 0
1 0 0 0 1 0 1 1 0 1 1 1 1 1 0 1
1 0 0 0 1 0 1 1 1 1 1 1 1 1 0 1
1 0 0 0 1 0 1 1 1 0 1 1 1 1 0 1
1 0 0 0 1 0 1 1 1 1 1 0 1 1 0 1
32 33 34 35 36 37
jurnalHorti126.txt jurnalHorti130.txt jurnalHorti14.txt jurnalHorti22.txt jurnalHorti23.txt jurnalHorti25.txt
1 1 1 1 1 1
1 1 1 1 1 1
1 1 0 1 1 1
1 1 1 0 1 1
1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1 1
38 39 40
jurnalHorti31.txt jurnalHorti53.txt jurnalHorti55.txt
1 1 0
1 1 0
1 1 0
1 1 0
1 1 0
1 1 0
1 1 0
DCSLA
DCS-LA 4 classifier tanpa IDW 1 0 1 0 0
15
Lampiran 3 Lanjutan
41 42 43
jurnalHorti59.txt jurnalHorti62.txt jurnalHorti65.txt
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
DCS-LA 3 classifier dengan IDW 1 1 1
44 45 46 47 48 49
jurnalHorti70.txt jurnalHorti77.txt jurnalHorti78.txt jurnalHorti83.txt jurnalHorti85.txt jurnalHorti93.txt
1 0 1 0 1 0
1 0 1 1 1 0
1 0 1 0 1 0
1 0 1 1 1 0
1 0 1 1 1 0
1 0 1 0 1 0
1 0 1 0 1 0
50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
jurnalHorti97.txt jurnalHorti10.txt jurnalHorti105.txt jurnalHorti112.txt jurnalHorti12.txt jurnalHorti149.txt jurnalHorti15.txt jurnalHorti177.txt jurnalHorti21.txt jurnalHorti210.txt jurnalHorti28.txt jurnalHorti33.txt jurnalHorti38.txt jurnalHorti41.txt jurnalHorti46.txt jurnalHorti54.txt jurnalHorti56.txt jurnalHorti64.txt jurnalHorti66.txt jurnalHorti71.txt jurnalHorti73.txt jurnalHorti76.txt
0 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 0 0 0 0 1 0
0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 1 0
0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 1 0
0 1 0 0 1 1 0 1 0 0 1 1 0 1 1 0 0 1 0 1 0 1
0 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 0
0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 0
0 1 1 0 1 1 1 1 0 0 1 1 1 1 1 0 0 1 0 0 1 0
72 73 74 75
jurnalHorti79.txt jurnalHorti9.txt jurnalHorti90.txt jurnalHorti95.txt
0 1 0 0
0 1 0 0
0 1 0 1
0 0 0 0
0 1 0 0
0 1 0 0
0 1 0 0
Total
46
49
46
44
50
48
46
Presentasi
61.33%
65.33%
61.33%
58.67%
66.67%
64%
61.33%
No.
Dokumen
Rocchio
Bayes
Bernoulli
Poisson NB
Keterangan :
1 = Kelas prediksi benar
DCSLA
0 = Kelas prediksi salah
DCS-LA 4 classifier tanpa IDW 1 1 1