5
4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk 450 GB. HASIL DAN PEMBAHASAN Praproses Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian yang berjumlah 174 dihasilkan 2868 kata unik atau term sedangkan pada dokumen latih berita yang berjumlah 500 dihasilkan 11285 kata unik. Pelatihan Pada tahap pelatihan ini keempat metode atau classifier memiliki cara yang berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database untuk digunakan dalam perhitungan klasifikasi berikutnya. Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam database seperti pada metode Naїve Bayes.
dalam kelas yang memiliki jarak terdekat dengan dokumen uji. Akurasi klasifikasi dari setiap metode yang ada dapat dihitung dengan bantuan tabel confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel confusion matrix yang dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3. Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. Akurasi pada dokumen pertanian lebih rendah dibandingkan dengan dokumen berita. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak yang sama. Akibat centorid jarak yang sama ini banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid setiap kelas. Tabel 2 Confusion matrix metode Rocchio dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
16
5
4
0.64
PTB
4
18
3
0.72
P
9
4
12
0.48
Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term disimpan dalam database.
Tabel 3 Confusion matrix metode Rocchio dengan dokumen berita
Akurasi Classifier Tunggal
Kelas yang sebenarnya
Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling. Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke-
Kelas Prediksi
Akurasi
B
E
K
L
P
B
48
1
0
0
1
0.96
E
0
50
0
1
0
1.00
K
0
1
48
1
0
0.96
L
0
1
0
48
1
0.96
P
0
0
0
1
49
0.98
6
Pada metode Naїve Bayes, peluang setiap term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5. Tabel 4 Confusion matrix metode Naїve Bayes dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
13
5
7
0.52
PTB
2
20
3
0.80
P
4
5
16
0.64
Tabel 5 Confusion matrix metode Naїve Bayes dengan dokumen berita Kelas Prediksi
B Kelas yang sebenarnya
Akurasi
B
E
K
L
P
46
1
1
0
2
0.92
E
0
48
0
1
1
0.96
K
0
0
49
1
0
0.98
L
0
1
0
48
1
0.96
P
2
0
0
0
48
0.96
Dari Tabel 4 dan Tabel 5 dapat dilihat pada dokumen pertanian terjadi banyak kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term yang berbeda, sehingga terjadi sedikit kesalahan pengklasifikasian. Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian. Pada metode Bernoulli peluang kata atau term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam
kelas yang ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas yang mengandung kata atau term. Akurasi pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7. Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Tabel 6 Confusion matrix metode Bernoulli dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
11
1
13
0.44
PTB
2
16
7
0.64
P
3
3
19
0.76
Tabel 7 Confusion matrix metode Bernoulli dengan dokumen berita Kelas Prediksi
Kelas yang sebenarnya
Akurasi
B
E
K
L
P
B 37 E 0
2
2
1
8
0.74
27
0
5
18
0.54
K
0
0
38
4
8
0.76
L
0
0
0
41
9
0.82
P
0
1
0
0
49
0.98
Pada metode Poisson Naїve Bayes dokumen uji dihitung bobot setiap term (𝑤𝑖𝑐 ), serta nilai rata-rata kemunculan kata setiap dokumen pada kelas c dan kelas bukan c (λ dan μ). Setelah itu, dihitung peluang dokumen uji terhadap kelas
7
yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve Bayes dengan dokumen pertanian Kelas Prediksi
Kelas yang sebenarnya
Akurasi
EA
PTB
P
EA
14
9
2
0.56
PTB
4
19
2
0.76
P
8
6
11
0.44
yang sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masingmasing classifier berbeda maka dilakukan proses k-NN. Pada perhitungan k-NN, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi yang terpilih. Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k = 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. Akurasi terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3. 120%
Tabel 9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita
100%
Kelas Prediksi
B Kelas yang sebenarnya
Akurasi
B
E
K
L
P
50
0
0
0
0
1.00 60%
E
0
50
0
0
0
1.00
K
0
0
50
0
0
1.00
L
0
4
1
43
2
0.86
0
0
0
1
49
0.98
P
80%
Dari Tabel 8 dan Tabel 9 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian. Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Klasifikasi DCS-LA Hasil klasifikasi dari empat classifier dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas
40% Dokumen Pertanian 20%
Dokumen Berita
0%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Parameter- k
Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW. Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya. Pada dokumen pertanian parameter-k mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3. Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi yang dimiliki oleh DCS-LA dipengaruhi oleh ke-
8
empat classifier yaitu: Rocchio, Naїve Bayes, Bernoulli dan Poisson Naїve Bayes. Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 10% (Ramadhan 2010), keterkaitan yang kecil pada dokumen berita mempengaruhi akurasi klasifikasi Jika dihitung akurasi rata-rata dari classifier pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi yang lebih tinggi dari akurasi rata-rata classifier. Akurasi dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4.
LA dengan empat classifier memiliki akurasi yang lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita. 120% 100%
100%
84%
60%
56%
40% 20% 0%
76%
80% 61%
65%
66% 61%
60%
58%
40% 20% 0%
Dokumen pertanian
b
c
d
Dokumen berita
96%
96%
95%
66.67%
64%
61%
Dokumen pertanian 97%
96.40%
80%
a 120%
94%
91.60%
Dokumen berita
Gambar 4 Diagram perbandingan classifier dengan DCS-LA. Perbandingan Klasifikasi Perbandingan dilakukan dengan cara membandingkan DCS-LA yang menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5. Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari DCSLA. Pada Gambar 5 dapat dilihat bahwa DCS-
Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier. Pengaruh penambahan Poisson Naїve Bayes pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) yang menunjukkan bahwa tiga classifier Rocchio, Naїve Bayes dan Bernoulli menghasilkan kelas prediksi yang salah sedangkan Poisson Naїve Bayes menghasilkan kelas prediksi yang benar, sehingga menghasilkan kelas prediksi dari DCSLA yang benar. Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier yang akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.
9
Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) yang menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi yang benar sedangkan pada DCS-LA yang hanya menambahkan satu classifier menghasilkan kelas prediksi yang salah. Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi yang lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja. KESIMPULAN DAN SARAN Dari penelitian dalam menerapkan algoritme DCS-LA dengan IDW untuk klasifikasi dokumen pertanian dan dokumen berita dalam bahasa Indonesia, didapatkan kesimpulan sebagai berikut: 1 Penerapan klasifikasi DCS-LA dengan IDW untuk dokumen teks bahasa Indonesia berhasil dilakukan. 2 Akurasi dari metode DCS-LA ini sebesar 66.67% pada dokumen pertanian dan dokumen berita 96.4%. 3 Akurasi metode DCS-LA dengan IDW lebih tinggi dibandingkan dengan DCS-LA tanpa IDW. 4 Akurasi DCS-LA dengan empat classifier lebih tinggi dibandingkan dengan tiga classifier. 5 Metode DCS-LA menghasilkan akurasi lebih tinggi dari akurasi rata-rata classifier. 6 Kelas yang saling berhubungan atau terkait dapat memberikan hasil akurasi yang rendah. Saran yang diberikan untuk pengembangan lebih lanjut pada penelitian ini adalah sebagai berikut: 1 Mencoba menggunakan komponen classifier lainnya misalkan MCA atau SVM untuk dibandingkan. 2 Menambahkan atau mengganti komponen classifier pada sistem DCS-LA ini. 3 Membandingkan akurasi DCS-LA dengan AAC untuk dokumen berbahasa Indonesia.
DAFTAR PUSTAKA Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Hamel L. 2008. The Encyclopedia of Data Warehousing and Mining. Ed. ke-2. Rhode Island: Idea Group Publisher. Han J, Kamber M. 2006. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers. Ho TK, Hull JJ, Srihari SN. 1994. Desicion Combination in Multiple Classifier Systems. IEEE Transactions on Analisys and Machine Intelegence 16(1): 66 - 75. Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Kim SB. 2001. Poisson Naive Bayes for Text Classification with Feature Weighting. Di dalam: Adachi J, editor. Proceedings of the 6th International Workshop on Information Retrieval with Asian Languange; Sappro, 7 Juli 2003. Stroudsburg: Association for Computational Linguistics. hlm 33 - 40. Li YH, Jain AK. 1998. Classification of Text Document. The Computer Journal 41(8): 537 - 546. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Morales AI, Valdovinos RM, Sanchez JS. 2008. On the Weighted Dynamic Classifier Selection with Local Accuracies. Di dalam: Grigoriadis K, editor. Proceedings of the 11th IASTED International Conference; Orlando, 16-18 November 1998. Anaheim: ACTA Press. hlm 204 - 206. Ramadhan R. 2010. Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Dinamic Classifier Selection with Local Accuracies (DCS-LA) [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Ridha A. 2002. Pengindeksan Otomatis Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.