KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq – 2Agus Zainal Arifin – 3Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email :
[email protected],
[email protected],
[email protected]
adalah suatu metode pengelompokan dokumen, dimana kelas atau kategori untuk dokumen-dokumen tersebut sudah ditentukan terlebih dahulu; sedangkan unsupervised learning adalah pengelompokan dokumen secara otomatis tanpa terlebih dahulu mendefinisikan kategori atau kelas yang ada. Metode pembelajaran statistik untuk kategorisasi teks seperti ini sudah banyak diimplementasikan seperti Regressions Models, Nearest Neighbor Classifiers, Bayes Belief Networks, Decision Trees, Rule Learning Algorithms, Neural Networks, dan Inductive Learning Techniques. Penelitian tentang kategorisasi teks secara otomatis sering dilakukan pada beberapa bahasa diantaranya pada bahasa Inggris, bahasa Cina, dan bahasa Indonesia. Namun dalam kurun waktu dua tahun belakangan ini penelitian tentang teks bahasa Arab yang ter-publish di media online hanya sekitar 260 penelitian, 30 diantaranya adalah penelitian tentang temu kembali informasi dokumen teks berbahasa Arab sedangkan sisanya adalah tentang Arabic text recognition, dll. Bahasa Arab memiliki morfologi yang lebih kaya dan kompleks daripada bahasa Inggris ataupun bahasa Indonesia2. Dimana dalam teks bahasa Arab dapat dicari bentuk morfologi sebuah kata dari stem atau kata dasarnya. Stemming merupakan suatu proses menemukan kata dasar dari sebuah kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran (confixes) pada kata turunan. Hadi Wa’el Musa dkk pernah melakukan penelitian tentang kategorisasi dokumen teks berbahasa Arab menggunakan algoritma Naïve Bayes 3. Implementasi metode Naïve Bayes ini dengan perhitungan probabilitas tiap dokumen dalam ketegori, dimana dalam perhitungannya dilakukan pada sistem pembelajaran bagaimana mengklasifikasi dokumen melalui dokumen sampel. Dalam beberapa penelitian yang pernah dilakukan sebelumnya, penggunaan metode Naïve Bayes untuk proses klasifikasi dokumen memiliki beberapa keunggulan dibandingkan dengan penggunaan metode yang lain. Seperti penelitian yang pernah dilakukan oleh Al Hawari S. dkk tentang perbandingan hasil klasifikasi dokumen teks berbahasa arab dengan menggunakan algoritma Naïve bayes dan K-Nearest Neighbor 4 yang menunjukkan bahwa algoritma Naive Bayes menghasilkan nilai evaluasi (precision, recall dan
Perkembangan teknologi informasi mempengaruhi ketersediaan penyimpanan dan penyampaian informasi di media online. Banyaknya informasi digital yang tidak terstruktur sebagai salah satu dampak dari perkembangan teknologi informasi yang membutuhkan cara pengorganisasian untuk kemudahan pengolahannya.Tugas Akhir ini bertujuan untuk mengelompokkan informasi yang terkandung dalam dokumen bahasa Arab menggunakan metode Naïve Bayes. Metode ini mengkategorikan objek baru berdasarkan pada atribut dan sampel data training. Pada tahap preprocessing setiap kata dalam dokumen dicari bentuk dasarnya dan dilakukan penghapusan daftar kata yang tidak memiliki peran penting dalam membangun sebuah dokumen. Selanjutnya dilakukan klasifikasi dokumen menggunakan metode Naïve Bayes yang memanfaatkan nilai probabilitas semua dokumen dan tiap-tiap kategori. Berdasarkan uji coba yang dilakukan dengan menggunakan 155 dokumen teks bahasa Arab yang diambil dari kitab dalam software Maktabah Syamilah, menunjukkan bahwa metode Naïve Bayes mampu melakukan klasifikasi dokumen teks bahasa Arab dengan nilai lokal optimal F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97%. 1. PENDAHULUAN Berkembangnya teknologi informasi meningkatkan ketersediaan penyampaian dan penyimpanan informasi melalui internet, dimana internet menjadi media publikasi yang sangat populer. Banyaknya informasi digital yang tidak terstruktur sebagai dampak dari perkembangan teknologi informasi yang membutuhkan suatu cara pengorganisasian atau pengelompokan informasi untuk kemudahan pengolahannya 1. Oleh sebab itu kategorisasi teks secara otomatis merupakan salah satu solusi untuk masalah tersebut karena dengan signifikan dapat mereduksi biaya dan waktu kategorisasi manual. Pengklasifikasian dokumen didasarkan atas kesamaan fitur atau kesamaan isi dokumen. Klasifikasi dilakukan dengan cara memasukkan dokumen-dokumen ke dalam beberapa kategori yang sudah ditentukan sebelumnya. Metode klasifikasi seperti ini disebut dengan supervised learning. Secara garis besar metode klasifikasi dibagi menjadi dua, yaitu supervised learning dan unsupervised learning 1. Supervised learning
1
F-measure) yang lebih tinggi daripada penggunaan algoritma K-Nearest Neighbor yang berbasis pada koefisien Cosine. Oleh karene itu Tugas Akhir ini dibuat untuk mengatasi masalah pengorganisasian atau klasifikasi informasi menggunakan algoritma Naïve Bayes. Metode Naïve Bayes dipilih karena lebih sederhana, efektif, dan juga dapat diaplikasikan pada jumlah data yang sedikit.
Teknik hierarchical menghasilkan urutan partisi yang bersarang (nested) dengan satu cluster utama pada level atas, dan cluster-cluster kecil di bawah. Sebaliknya, teknik nonhierarchical menghasilkan partisi yang tidak bersarang (unnested) dengan membagi dokumen-dokumen dalam beberapa cluster awal yang ditentukan, kemudian mengubah posisi dokumen dalam cluster yang telah ada hingga solusi terakhir dicapai.
2. KLASIFIKASI DOKUMEN Klasifikasi dokumen adalah suatu proses pengelompokan dokumen sesuai dengan pembahasan di dalamnya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap waktu semakin bertambah. Sebuah dokumen dapat dikelompokan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari suatu dokumen. Dalam text mining, klasifikasi mengacu pada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui kelasnya ke dalam satu atau lebih kelas-kelas predefined tersebut 6. Klasifikasi termasuk pembelajaran supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, setiap data training mengandung pasangan data input dan output yang diharapkan, sedangkan pada unsupervised learning belum ditentukan target output yang harus diperoleh. Text document clustering adalah proses clustering dengan spesialisasi pada dokumen berbasis teks. Indexing atau preprocessing juga berlaku dalam text document clustering. Teknik yang paling banyak dipakai adalah dengan merepresentasikan tiap dokumen teks dalam vector space model. Dalam model ini, setiap dokumen D, direpresentasikan sebagai suatu vektor c = {t1,t2,...,tn}, dimana tn adalah frekuensi term ke-n pada dokumen bersangkutan Error! Reference source not found.. Terkadang representasi frekuensi ini diganti menjadi format biner atau boolean (0 atau 1) yang menandakan ada-tidaknya term tersebut pada dokumen bersangkutan. Salton menyarankan untuk merepresentasikannya dalam bentuk yang sudah mengalami pembobotan, seperti TF-IDF. Berdasarkan struktur hasil clustering-nya, maka teknik clustering dapat dibedakan menjadi dua tipe yakni Error! Reference source not found. :
Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu : 1. Fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks. Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stopword dan stemming. 2. Fase klasifikasi utama. Data numerik hasil dari proses pada fase pertama di atas akan diproses lagi untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah Naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor (k-NN), Neural Network (NN), dan Support Vector Machines (SVM). Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari 6. Manfaat dari klasifikasi dokumen adalah untuk pengorganisasian dokumen. Dengan jumlah dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan dokumen yang dimiliki terorganisir dan telah dikelompokan sesuai kategorinya masing-masing. Contoh aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah email spam filtering. Pada aplikasi spam filtering sebuah email diklasifikasikan apakah email tersebut termasuk spam atau tidak dengan memperhatikan kata-kata yang yang terdapat dalam email tersebut. Aplikasi ini telah digunakan oleh banyak provider jasa layanan email. 3. ALGORITMA NAÏVE BAYES Naïve Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan probabilitas. Metode ini memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes 8, yaitu memprediksi
1. Hierarchical 2. Non-hierarchical (partitional).
2
tertinggi dan ambil sejumlah N-n kata/term lain yang juga memiliki nilai frekuensi terbesar.
probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Atau dalam konsep IR metode seperti ini biasa ditandai dengan adanya satu set data yang dibagi dalam dua kelompok, data training dan data testing. Data testing adalah sekumpulan data yang akan diproses dan dicari kelasnya, sedangkan data training adalah data yang telah dihitung sebelumnya yang kemudian dibandingkan nilainya dengan sejumlah fitur yang ada dalam data testing. Naïve Bayes merupakan turunan dari konsep teorema Bayes, yaitu melakukan klasifikasi dengan menghitung nilai probabilitas kategori dan semua data yang ada. Perhitungan nilai probabilitas tersebut menggunakan persamaan : p(ci) = fd (ci),
Rangkaian tahapan ini dilakukan pada semua dokumen hingga didapat sejumlah N fitur/term dari semua dokumen. Dan nilai frekuensi dari N term inilah yang nanti akan digunakan dalam perhitungan Naïve Bayes untuk menentukan kategori suatu dokumen. 3.1 CONTOH PERHITUNGAN NAÏVE BAYES
Dari persamaan 3.1 dan persamaan 3.2 di atas, misalkan dari 9 dokumen bahasa Arab akan didapat model probabilistik dan selanjutnya dicari nilai terbesar dari hasil perkalian masing-masing data probabilistik yang telah diperoleh. Sebelumnya tentu terlebih dahulu semua dokumen training mengalami preprocessing dan ekstraksi fitur, hingga didapat data hasil prepocessing seperti pada Tabel 3.1.
(3.1)
|D| dimana fd (ci) adalah jumlah dokumen yang dimiliki kategori ci. |D| adalah jumlah keseluruhan training document.
Tabel 3.1 Dokumen setelah preprocessing Dokumen
dan p(tj | ci) = f (tj.ci)+1,
Kategori Kata/Term Hasil Ekstraksi (Kemunculan)
D1
Sholat
(sholla)( صلي3), (khomsa) ( خمس2), (‘asyaro)( عشر1)
D2
Sholat
(sholla) ( صلي3), (‘asyaro) ( عشر2), (khoroja) ( خرج1)
D3
Zakat
(khasaba) ( حسب2), (nafsa) ( نفس2), (nadhoro) ( نظر1)
D4
Zakat
(faro’a) ( فرع2), (showama) ( صوم2), (nadhoro) ( نظر1)
D5
Puasa
D6
Puasa
D7
Haji
(sholla)( صلي1), (showama) ( صوم2), (khomsa) ( خمس2)
D8
Haji
(khoroja) ( خرج2), (showama) ( صوم2), (khomsa) ( خمس1)
D9
?
(sholla)( صلي1), (‘asyaro) ( عشر1), (khomsa) ( خمس2)
(2.4)
f(ci)+|T| dimana f (tj.ci) adalah nilai kemunculan kata tj pada kategori ci. f(ci) adalah jumlah seluruh kata pada kategori ci. |T| adalah jumlah keseluruhan kata/fitur yang digunakan. Dengan dua persamaan di atas didapat nilai probabilitas masing-masing kategori ci dan nilai probabilitas term yang telah diekstrak dari dokumen training di. Pengekstrakan fitur/term ini dilakukan untuk mempercepat proses perhitungan Naïve bayes itu sendiri. Tahapan ekstraksi fitur/term ini adalah sebagai berikut : 1.
2.
3. 4.
5.
Ambil sejulah N kata/term dari semua dokumen training dalam masing-masing kategori ci yang memiliki nilai frekuensi terbesar. Hasil pengambilan term pada proses 1 di atas, di-select distinct untuk mendapatkan term yang berbeda. Mengecek keberadaan term yang dihasilkan dari proses 2 pada dokumen testing. Apabila ada, maka ambil sejumlah N kata/term yang sama, yang memiliki nilai frekuensi terbesar. Apabila tidak ada, maka ambil sejumlah n kata/term yang sama yang memiliki frekuensi
(sholla)( صلي3), (khomsa) ( خمس1), (showama) صوم (2) (nadhoro) ( نظر3), (khomsa) ( خمس1), (showama) صوم (2)
Dari data dokumen training setelah tahap preprocessing dan ekstraksi fitur seperti pada Tabel 3.1 di atas. Dengan menggunakan persamaan 3.1 dan persamaan 3.2, didapat sebuah model probabilistik seperti pada Tabel 3.2. Setelah didapat model probabilistik term hasil ekstraksi dari masing-masing kategori,
3
kategori Sholat. Maka dari itu dapat disimpulkan bahwa D9 masuk ke dalam kategori Sholat. Perhitungan seperti ini dilakukan pada semua dokumen testing sehingga semua dokumen terklasifikasi. .
Tabel 3.2 Probabilistik term dalam dokumen
صلي
نظر
/20
7
/20
1
/20
3
/20
2
/20
4
/20
1
/20
Zakat
¼
3
/18
3
/18
1
/18
3
/18
1
/18
1
/18
1
/18
3
/18
Puasa
¼
5
/20
1
/20
4
/20
4
/20
3
/20
1
/20
1
/20
1
/20
¼
5
/18
1
/18
2
/18
1
/18
4
/18
3
/18
1
/18
1
/18
فرع
نفس 1
عشر
صوم /20
خرج
p(ci)
1
خمس
Kategori Sholat
¼
Haji
p(wkj|ci)
4. METODE KLASIFIKASI
Terdapat dua metode umum untuk mengukur tingkat keberhasilan hasil klasifikasi yaitu internal dan external measure Error! Reference source not found.. Internal measure membandingkan cluster-cluster yang dihasilkan tanpa adanya informasi atau knowledge atas kelas-kelas awal sebelumnya. Sedangkan external measure mengevaluasi cluster-cluster yang dihasilkan dengan kelas-kelas yang sudah ditentukan sebelumnya. Pada unsupervised classification, terdapat dua tipe metode evaluasi klasifikasi yang terkenal, yakni Fmeasure dan entropy. Dalam Tugas Akhir ini, metode evaluasi klasifikasi yang digunakan adalah F-measure dan accuration. Sebagai salah satu metode external measure, metode F-measure menggunakan informasi kelas awal dari data uji yang digunakan dalam klasifikasi. F-measure pada awalnya digunakan pada bidang IR dengan mengkombinasikan konsep recall dan precision Error! Reference source not found.. Jika kita mengasumsikan A sebagai himpunan dokumen yang seharusnya diberikan oleh sistem IR (retrieved document), B adalah himpunan dokumen yang ternyata diberikan sebagai hasil retrieval sistem IR, dan A∩B adalah himpunan dokumen benar yang diberikan sistem IR, maka nilai recall dan precision sistem IR tersebut dapat dinyatakan sebagai berikut Error! Reference source not found. : Recall = A I B (4.1) ,
berikutnya dilakukan perhitungan dengan metode Naive Bayes pada dokumen testing dengan mengalikan nilai probabilitas semua kategori dengan probabilitas tiap term yang diambil dari masing-masing dokumen. p(“Sholat”|“D9”)
= p(“Sholat”) x p(““|”صليSholat”) x p(“”|”خمسSholat”) x p(“”|” عشرSholat”) = 1/4 x 7/20 x 3/20 x 4/20 =
p(“Zakat”|“D9”)
84
/640000 ≈ 13.125 x 10-5
= p(“Zakat”) x p(“ “|”صليZakat”) x p(“ ”|”خمسZakat”) x p(“”|” عشرZakat”) = 1/4 x 1/18 x 1/18 x 1/18 1
= /23328 ≈ 4.287 x 10 p(“Puasa”|“D9”)
Precision = A I B
= p(“Puasa”) x p(““|”صليPuasa”) x p(“ ”|”خمسPuasa”) x p(“ ”|” عشرPuasa”) = 1/4 x 4/20 x 4/20 x 1/20 =
p(“Haji”|“D9”)
A
-5
16
/640000 ≈ 2.5 x 10-5
= /23328 ≈ 3.249 x 10
.
(4.2)
Pada dasarnya, nilai recall dan precision berada pada rentang antara 0 s/d 1. Oleh karena itu, suatu sistem IR yang baik adalah yang dapat memberikan nilai recall dan precision mendekati 1. Akan tetapi, nilai recall dan precision saja dianggap belum cukup mewakili kinerja sistem. Oleh karena itu, dibuat metode evaluasi F-measure yang mengkombinasikan metode evaluasi recall dan precision. Formulasi F-measure dinyatakan seperti rumus berikut :
= p(“Haji”) x p(“ “|”صليHaji”) x p(“ ”|”خمسHaji”) x p(“ ”|” عشرHaji”) = 1/4 x 2/18 x 4/18 x 1/18 8
B
F=
-5
Berdasarkan hasil perhitungan Naive Bayes di atas, diketahui bahwa D9 menghasilkan nilai terbesar pada perhitungan dengan kategori 1, yaitu
dimana
4
( β 2 + 1)rp , β 2r + p
(4.3)
r adalah recall, p adalah precission, dan konstanta β yang digunakan biasanya bernilai 1.
pada perhitugan evaluasi lain precission, Fmeasure, dan accuration.
Evaluasi menggunakan perhitungan recall dan precission belum cukup untuk menilai kinerja suatu sistem, sehingga diperlukan perhitungan evaluasi F-measure sebagai kombinasi antara perhitungan recall dan precission. Sedangkan perhitungan evaluasi accuration adalah untuk mengetahui keberhasilan proses klasifikasi secara umum.
Tabel 5.1 Nilai recall pada klasifikasi dokumen bahasa Arab
0.41 0.35 0.23 0.29 0.35 0.41 0.30 0.30 0.30 0.30 0.24
0.84 0.77 0.76 0.85 0.85 0.77 0.85 0.85 0.85 0.77 0.85
0.60 0.70 0.90 0.85 0.90 0.75 0.85 0.90 0.90 0.90 0.90
0.70 0.50 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60
Wakaf
Nikah
0.84 0.82 0.76 0.79 0.84 0.84 0.79 0.76 0.74 0.79 0.82
Jual Beli
Haji
Uji coba pertama dilakukan untuk mengetahui keberhasilan proses klasifikasi dokumen bahasa Arab dengan menggunakan algoritma Naïve Bayes dan untuk mengetahui jumlah pengambilan fitur/ kata yang mampu menghasilkan klasifikasi paling optimal. Keberhasilan proses klasifikasi ini bisa dilihat pada hasil evaluasi dengan perhitungan recall, precission, F-measure dan perhitungan accruration. Error! Reference source not found. merupakan hasil proses klasifikasi 155 dokumen bahasa Arab dengan menggunakan algoritma Naive Bayes. Dari 155 dokumen testing yang dipakai pada aplikasi dalam Tugas Akhir ini, ada sebanyak 56 dokumen yang terklasifikasi salah, artinya tidak sesuai dengan kategori sebelumnya. Dari 155 data uji dokumen testing yang digunakan pada aplikasi dalam Tugas Akhir dengan menggunakan perhitungan evaluasi recall, precission, F-measure, dan accuration akan didapat pada jumlah pengambilan beberapa fitul/kata yang bisa menghasilkan klasifikasi terbaik. Hal ini bisa dilihat dari 4 metode perhitungan evaluasi di atas. Pelaksanaan uji coba ini dilakukan dengan memasukkan jumlah fitur/kata antara 5 s/d 15 fitur. Hal ini dimaksudkan untuk mencari jumlah fitur/kata yang mampu menghasilkan klasifikasi paling optimal. Penilaian ini dilihat berdasarkan perhitungan evaluasi recall, precission, Fmeasure, dan accuration yang masing-masing menghasilkan nilai tertinggi. Tabel 5.1 adalah hasil perhitungan recall setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. Kategori Haji selalu memiliki nilai recall terbesar pada 6 kali percobaan dengan memasukkan jumlah pengambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 9 fitur/kata, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai recall maksimal sebesar 0.9 dan nilai tersebut dimiliki oleh kategori Haji. Evaluasi recall ini dihitung pada semua kategori yang ada dalam aplikasi. Sehingga nilai yang didapat adalah nilai recall pada setiap kategori dengan percobaan pengambilan jumlah fitur/kata yang berbeda. Hal ini juga dilakukan
Puasa
5. UJI COBA
Zakat
5 6 7 8 9 10 11 12 13 14 15
Sholat
Jumlah Fitur
Kategori
0.55 0.55 0.57 0.45 0.45 0.55 0.65 0.56 0.68 0.62 0.60
0.29 0.11 0.12 0.12 0.18 0.12 0.24 0.18 0.24 0.24 0.30
Tabel 5.2 Nilai precission pada klasifikasi dokumen bahasa Arab
0.40 0.37 0.43 0.38 0.43 0.38 0.40 0.40 0.42 0.45 0.49
0.41 0.30 0.33 0.36 0.35 0.38 0.43 0.40 0.38 0.35 0.35
0.73 0.67 0.66 0.60 0.64 0.73 0.76 0.72 0.87 0.78 0.77
Tabel 5.2 adalah hasil perhitungan precission setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. Kategori Sholat selalu memiliki nilai preccision terbesar pada 6 kali percobaan dengan memasukkan jumlah pengambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 11, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai preccision maksimal sebesar 0.97 dan nilai tersebut dimiliki oleh kategori Sholat. Dengan menggunakan jumlah dokumen testing yang sama pada aplikasi, didapat hasil perhitungan F-measure masksimal sebesar 0.88. Nilai tersebut dimiliki oleh kategori Sholat pada pengambilan 9 fitur/kata. Ini menunjukkan bahwa kategori Sholat memiliki nilai preccision dan recall yang cukup tinggi, meskipun pada beberapa kali percobaan,
5
Wakaf
0.55 0.67 0.71 0.85 0.69 0.71 0.65 0.58 0.61 0.59 0.58
Jual Beli
Nikah
Zakat 0. 58 0. 55 0. 50 0. 45 0. 55 0. 53 0. 56 0. 63 0. 45 0. 42 0. 40
Haji
0.8 4 0.8 6 0.9 7 0.9 4 0.9 1 0.8 9 0.9 7 0.9 7 0.9 7 0.9 7 0.9 4
Puasa
5 6 7 8 9 10 11 12 13 14 15
Sholat
Jumlah Fitur
Kategori
0.63 0.40 0.33 0.40 0.50 0.33 0.58 0.50 0.57 0.67 0.72
nilai recall pada kategori Sholat lebih kecil daripada nilai recall pada kategori Haji.
dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi. Tabel 5.5 Perbandingan nilai recall proses ekstraksi fitur tanpa pencocokkan
Tabel 5.3 Nilai F-measure pada klasifikasi dokumen bahasa Arab
0.63 0.60 0.61 0.51 0.53 0.63 0.70 0.64 0.76 0.69 0.68
5 6 7 8 9 10 11 12 13 14 15
0.40 0.18 0.17 0.18 0.26 0.17 0.33 0.26 0.33 0.35 0.42
Puasa
Haji
Nikah
92.9 94.8 95.4 97.4 95.4 95.4 94.8 93.5 94.2 93.5 93.5
83.2 80.6 83.2 80.0 83.2 80.6 81.3 81.3 82.5 84.5 86.4
91.6 89.0 89.6 89.0 90.3 90.9 92.2 91.6 90.9 90.3 90.3
83.2 81.2 81.2 78.0 79.3 83.2 85.8 83.2 89.0 85.8 85.1
Wakaf
Zakat 90.3 89.6 89.0 88.3 89.6 89.6 89.6 90.3 88.3 87.7 87.7
Jual Beli
Sholat
Jumlah Fitur
Kategori
92.2 92.2 93.5 93.5 94.1 93.5 94.2 93.5 92.9 94.2 94.2
0. 62 0. 72 0. 69 0. 63 0. 73 0. 74 0. 75 0. 74 0. 71 0. 65 0. 71
0.42 0.39 0.34 0.30 0.33 0.33 0.33 0.32 0.33 0.33 0.37
0. 96 0 0 0 0 0 0 0 0 0 0
Wakaf
0.73 0.89 0.67 0.80 0.80 0.80 0.75 0.75 0.77 0.67 0.73
Jual Beli
0 0 0 0 0 0 0 0 0 0 0.7 5
0.65 0.61 0.67 0.68 0.70 0.67 0.62 0.68 0.63 0.65 0.67
Uji coba kedua dilakukan untuk mengetahui perbandingan hasil klasifikasi dokumen teks berbahasa Arab dengan implementasi ekstraksi fitur yang berbeda. Pada Tugas Akhir ini ekstraksi fitur yang digunakan adalah dengan mengambil sejumlah fitur/kata yang memiliki frekuensi tertinggi dari semua dokumen training, kemudian mencari/mencocokkan fitur tersebut pada dokumen testing. Apabila didapat, maka fitur tersebut diambil sejumlah pengambilan pada dokumen training. Namun apabila tidak ditemukan, maka dicari fitur lain yang memiliki frekuensi tertinggi dari dokumen testing. Proses esktraksi fitur ini berbeda dengan proses ekstraksi fitur yang diimplementasikan pada penelitian sebelumnya, yang mengambil sejumlah fitur dengan frekuensi tertinggi dari semua dokumen training, kemudian juga mengambil sejumlah fitur dengan frekuensi tertinggi pada dokumen testing tanpa proses pencocokkan terlebih dahulu. Perbandingan kinerja dua proses ekstraksi fitur yang berbeda ini dihitung berdasarkan nilai evaluasi recall, precission, F-measure, dan accuration hasil proses klaisifiasi dokumen bahasa Arab. Dari perhitungan evaluasi tersebut dapat diketahui keberhasilan masing-masing proses ekstraksfi fitur yang ada. Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasarkan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori Puasa pada pengambilan 8 fitur/kata. Hal ini menunjukkan bahwa pada kategori Puasa lah proses klasifikasi dokumen menghasilkan output paling optimal.
Tabel 5.4 Nilai accuration pada klasifikasi dokumen bahasa Arab
5 6 7 8 9 10 11 12 13 14 15
0.57 0.59 0.60 0.64 0.67 0.68 0.71 0.67 0.70 0.66 0.67
Nikah
0.52 0.37 0.43 0.41 0.44 0.46 0.50 0.48 0.46 0.44 0.44
Haji
0.48 0.48 0.58 0.52 0.58 0.50 0.54 0.55 0.57 0.60 0.63
Puasa
Nikah
0.67 0.72 0.74 0.85 0.76 0.74 0.73 0.67 0.71 0.67 0.69
Zakat
Haji
0.48 0.43 0.37 0.36 0.43 0.47 0.38 0.40 0.36 0.34 0.30
Wakaf
Puasa
0.84 0.84 0.85 0.86 0.88 0.86 0.87 0.85 0.84 0.87 0.87
Jual Beli
Zakat
5 6 7 8 9 10 11 12 13 14 15
Sholat
Jumlah Fitur
Kategori
Sholat
Jumlah Fitur
Kategori
90.3 88.3 87.7 88.3 89.0 87.7 89.6 89.0 89.6 90.3 90.9
Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasarkan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori Puasa pada pengambilan 8 fitur/kata. Hal ini menunjukkan bahwa pada kategori Puasa lah proses klasifikasi dokumen menghasilkan output paling optimal. Dari 4 perhitungan evaluasi recall, precission, Fmeasure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing
6
Tabel 5.6 Perbandingan nilai precission proses ekstraksi fitur tanpa pencocokkan
Haji
Nikah
0.12 0.12 0.12 0.12 0.18 0.18 0.12 0.12 0.12 0.12 0.18
0.62 0.62 0.62 0.62 0.62 0.62 0.69 0.69 0.77 0.62 0.62
0.50 0.65 0.55 0.60 0.70 0.70 0.75 0.70 0.75 0.65 0.75
0.80 0.70 0.70 0.70 0.80 0.80 0.70 0.70 0.70 0.70 0.70
0.65 0.70 0.62 0.60 0.60 0.60 0.60 0.56 0.58 0.58 0.60
Wakaf
Puasa
0.95 0.97 0.95 0.97 0.97 0.97 0.97 0.97 0.97 0.97 0.95
Jual Beli
Zakat
5 6 7 8 9 10 11 12 13 14 15
Sholat
Kategori Jumlah Fitur
0.65 0.65 0.70 s 0.76 0.82 0.82 0.88 0.88 0.82 0.76 0.70
Nilai ini lebih kecil daripada nilai F-measure terbesar menggunakan ekstraksi fitur dengan melakukan pencocokan seperti pada Tabel 5.3 yang mencapai 0.88. Pada kategori Zakat dan Jual Beli, 10 kali percobaan menghasilkan nilai F-measure nol. Hal ini dikarenakan pada kategori Zakat dan Jual Beli memiliki hasil recall yang juga bernilai nol. Sehinggal menyebabkan nilai F-measeure pada kedua kategori tersebut bernilai nol, karena recall menjadi salah satu penyebut dalam rumus perhitungan F-measure. Tabel 5.7 Perbandingan nilai F-measure proses ekstraksi fitur tanpa pencocokkan
7
Nikah
0 0 0 0 0 0 0 0 0 0 0.29
0.67 0.73 0.67 0.69 0.69 0.69 0.72 0.72 0.77 0.64 0.67
0.56 0.70 0.61 0.62 0.72 0.72 0.75 0.72 0.73 0.65 0.73
0.55 0.50 0.42 0.42 0.47 0.47 0.45 0.44 0.45 0.45 0.48
0.78 0 0 0 0 0 0 0 0 0 0
Wakaf
Haji
0.71 0.73 0.73 0.77 0.79 0.80 0.82 0.79 0.81 0.79 0.78
Jual Beli
Puasa
5 6 7 8 9 10 11 12 13 14 15
Zakat
Kategori Sholat
Tabel 5.55 merupakan nilai perhitungan evaluasi recall dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.4 terlihat nilai recall terbesar mencapai 0.96 dimiliki oleh kategori Jual Beli pada pengambilan 5 fitur/kata. Namun pada percobaan pengambilan fitur dengan jumlah lain, nilai recall pada kategori Puasa bernilai nol. Begitu juga pada kategori Zakat. Hal ini menunjukkan bahwa pada kategori tersebut, semua dokumen salah masuk kelas. Pada kategori-kategori yang lain, nilai recall yang didapat juga cukup rendah. Nilai ini juga menunjukkan bahwa semua dokumen yang ada pada masing-masing kategori banyak yang salah masuk kelas. Nilai recall terbesar 0.96 pada Tabel 5.5 memang lebih tinggi daripada nilai recall terbesar 0.90 pada Tabel 5.1 yang mengimplementasikan proses ekstraksi fitur dengan melakukan pencocokan kata yang diambil dari dokumen training dan dokumen testing. Namun dari perbandingan nilai recall pada dua tabel ini terlihat pada Tabel 5.1 semua kategori menghasilkan nilai recall lebih dari nol. Artinya tidak ada kategori yang sama sekali salah mengklasifikasi dokumen. Sedangkan pada Tabel 5.5 nilai recall kategori Zakat dan kategori Jual Beli bernilai nol pada 10 kali uji coba. Ini menunjukkan bahwa pada percobaan tersebut, kategori Zakat dan kategori Jual Beli banyak me-retrieve dokumen yang tidak relevan. Tabel 5.6 adalah nilai perhitungan evaluasi precission dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.6 terlihat nilai precission terbesar mencapai 0.97 dimiliki oleh kategori Sholat pada pengambilan 6, 9, 10, 11, 12, 13, dan 14 fitur/kata. Nilai ini sama dengan nilai perhitungan precission yang menggunakan ekstraksi fitur dengan melakukan pencocokan kata yang terdapat pada Tabel 5.2. Dari hasil perhitungan evaluasi recall dan precission belum cukup untuk menilai bahwa aplikasi pada Tugas Akhir ini efektif atau tidak. Sehingga masih harus dilakukan perhitungan evaluasi F-measure yang merupakan kombinasi
antara hasil perhitungan recall dan precission pada proses klasifikasi dokumen bahasa Arab. Tabel 5.7 adalah nilai perhitungan evaluasi Fmeasure dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.7 terlihat nilai Fmeasure terbesar mencapai 0.82 dimiliki oleh kategori Sholat pada pengambilan 11 fitur/kata.
Jumlah Fitur
Dari 4 perhitungan evaluasi recall, precission, Fmeasure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi.
0.65 0.63 0.69 0.72 0.76 0.74 0.73 0.77 0.72 0.70 0.69
Perbandingan ini berdasarkan nilai klasifikasi paling optimal pada 2 metode tersebut dengan nilai Kategori parameter masing-masing. Klasifikasi menggunakan metode k-NN ini memiliki nilai F-measure terbesar dengan nilai k=11. Sedangkan klasifikasi menggunakan metode Naïve Bayes ini menghasilkan nilai F-measure terbesar dengan jumlah 81.2 0 94.8 89.6 91.6 90.3 92.2pengambilan 9 fitur/kata, hal ini sesuai dengan 5 82.5 0 0 91.6hasil ujicoba sebelumnya. 6 96.1 92.9 90.9 83.2 0 94.8 90.9 87.7 0 92.9 Tabel 5.9 adalah data perbandingan hasil 7 85.8 0 95.4 90.3 87.7 0 93.5perhitungan F-measure pada klasifikasi dokumen 8 87.7 0 95.4 92.9 88.3 0 94.1bahasa Arab dengan menggunakan metode k-NN 9 88.3 0 95.4 92.9 88.3 0 93.5dan metode Naïve Bayes. Metode Naïve Bayes 10 89.6 0 95.4 93.5 89.0 0 92.9memiliki hasil F-measure terbesar mencapai 0.88, 11 87.7 0 95.4 92.9 88.3 0 94.1sedangkan metode k-NN memiliki hasil F-measure 12 89.0 0 96.1 92.9 89.0 0 92.9terbesar mencapai 0.84. Dari data pada Tabel 5.9 13 87.0 0 94.1 90.9 89.0 0 92.9terlihat bahwa berdasarkan perbandingan nilai F14 87.0 90.3 94.8 92.9 90.3 0 92.9measure, metode Naïve Bayes menghasilkan nilai 15 lebih besar daripada metode k-NN. Selain perbandingan nilai F-measure, pada uji Tabel 5.8 adalah nilai perhitungan evaluasi coba ini juga akan dibandingkan nilai accuration accuration dari proses klasifikasi dokumen bahasa pada proses klasifikasi dokumen bahasa Arab Arab dengan menggunakan ekstraksi fitur tanpa antara 2 metode tersebut. Perbandingan ini tetap pencocokkan. Pada Tabel 5.8 terlihat nilai menggunakan hasil perhitungan paling optimal accuration tertinggi mencapai 96.13% dimiliki pada masing-masing metode. oleh kategori Puasa pada pengambilan 6 fitur/kata. Nilai ini lebih kecil daripada nilai accuration tertinggi menggunakan ekstraksi fitur dengan melakukan pencocokan kata seperti terdapat pada Tabel 5.9 Perbandingan nilai F-measure k-NN dan Tabel 5.3 yang mencapai 97.42%. Naïve Bayes Pada Tabel 5.8 terlihat kategori Zakat dan Jual Beli memiliki nilai accuration nol. Hal ini Nilai F-measure Kategori k-NN Naive Bayes menunjukkan bahwa pada kategori tersebut sistem banyak meretrieve dokumen yang tidak relevan. Sholat 0.84 0.88 Nilai accuration nol pada dua kategori ini 0 0.43 Zakat disebabkan karena pada dua kategori tersebut hasil 0.43 0.76 Puasa perhitungan recall juga bernilai nol, dimana recall 0.25 0.58 Haji menjadi salah satu faktor penyebut/pembagi dalam 0.52 0.44 Nikah perhitungan accuration. 0.67 0.53 Jual Beli Uji coba yang ketiga dilakukan untuk mengetahui perbandingan hasil klasifikasi dokumen 0.63 0.26 Wakaf bahasa Arab dengan menggunakan 2 metode yang berbeda, yaitu metode k-NN dan metode Naïve Tabel 5.10 Perbandingan nilai accuration k-NN Bayes. Perbandingan ini dilakukan dengan hanya dan Naïve Bayes melakukan perhitungan hasil F-measure dan Nilai Accuration Kategori accuration. Dari hasil uji coba ini nanti akan k-NN Naive Bayes diketahui metode mana yang lebih sesuai untuk 93.55 Sholat 92.90 menangani masalah klasifikasi dokumen, k-NN 0 88.39 Zakat ataukah Naïve Bayes. 91.61 Puasa 97.42 Dengan menggunakan data uji yang sama, dilakukan percobaan proses klasifikasi dengan 88.39 80.00 Haji menggunakan metode k-NN dan menggunakan 90.32 89.03 Nikah metode Naïve Bayes. Seperti pada proses 76.77 78.06 Jual Beli klasifikasi menggunakan metode Naïve Bayes, 91.61 88.39 Wakaf pada penggunaan metode k-NN juga terdapat parameter yang bisa ditentukan oleh user untuk Berdasarkan perbandingan nilai accuration bisa menghasilkan klasifikasi paling optimal. antara metode k-NN dan metode Naïve Bayes Parameter ini berupa nilai k yang akan digunakan seperti pada Tabel 5.10 terlihat bahwa metode untuk menghitung kedekatan antar dokumen pada Naïve Bayes memiliki tingkat akurasi mencapai data uji. 97.42 % dengan jumlah pengambilan 8 fitur/kata. Wakaf
Jual Beli
Nikah
Haji
Puasa
Zakat
Sholat
Jumlah Fitur
Tabel 5.8 Perbandingan nilai accuration proses ekstraksi fitur tanpa pencocokkan
8
5. Chen, Aitou, Gey. Fredric, 2002, “Building an Arabic Stemmer for Information Retrieval”, University of California at Berkeley
Sedangkan metode k-NN memiliki tingkat akurasi mencapai 92.90% pada nilai k=11. Dari hasil perbandingan nilai accuration ini juga terlihat bahwa metode Naïve Bayes memiliki tingkat akurasi yang lebih tinggi daripada metode k-NN. Dari perbandingan dua nilai evaluasi ini, pada implementasi k-NN kategori zakat memiliki nilai F-measure dan accuration nol. Hal ini menunjukkan bahwa semua dokumen pada kategori zakat terklasifikasi salah atau salah masuk kelas.
6. Husni, 2006, “IR dan Klasifikasi”, diktat kuliah, Teknik Informatika Universitas Trunojoyo 7. Umam, Chatibul 2004. “Kaidah Tata Bahasa Arab”. Darul Ulum Press. 8. Basuki, Ahmad. 2006 “Metode Bayes”. Kuliah PENS ITS
6. SIMPULAN DAN SARAN
Berdasarkan aplikasi yang telah dibuat dan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan atas Tugas Akhir ini sebagai berikut : 1. Metode Naïve Bayes dapat diaplikasikan pada kategorisasi teks berbahasa Arab dengan nilai F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97.42% 2. Jumlah fitur yang diambil untuk hasil klasifikasi yang optimal sebanyak 8 dan 9 fitur/kata 3. Dibandingkan dengan metode HAC dan k-NN, Naïve Bayes memiliki tingkat akurasi yang lebih tinggi dan membutuhkan running time yang lebih sedikit. Beberapa saran atas pengerjaan Tugas Akhir ini guna pengembangan lebih lanjut diantaranya : 1. Pengambilan jumlah fitur otomatis untuk menghasilkan nilai evaluasi yang optimal 2. Penggunaan penanda pada kata/isi dokumen yang ditunjuk dan hasil preprocessing-nya, sehingga dengan mudah bisa diketahui hasil preprocessing tiap kata dalam dokumen. 7. DAFTAR PUSTAKA
1. Bakhri Syaiful, Agus Zainal Arifin, Diana Purwitasari. 2011. “Klasifikasi Dokumen Berbahasa Arab Berbasis KNN”. ITS Surabaya. 2. Al-Shalabi Riyad, Kanaan Ghassan, H. Gharaibeh, Manaf. “Arabic Text Categorization Using k-NN Algorithm”. Amman Al-Ahliya University, Jordan 3. Eljinini Mohammad Ali H., Hadi Wa’el Musa, Thabtah Fadi, Zamzeer Mannam, 2009. “Naïve Bayesian Based on Chi Square to Categorize Arabic Data”. Communication of the IBIMA Volume 10, 2009 ISSN : 1943-7765 4. Hadi W., Thabtah F., AL Hawari S., Ababneh J. 2008, "Naive Bayesian and KNearest Neighbour to Categorize Arabic Text Data", In proceedings of the European Simulation and Modeling Conference, Le Havre, France.
9