APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas Ilmu Komputer Universitas Gunadarma (
[email protected])
ABSTRAK Semakin meningkatnya kemajuan Universitas Gunadarma, maka banyak sekali pembuatan penulisan ilmiah oleh mahasiswa. Sebuah penulisan ilmiah dapat dengan mudah dikategorikan secara manual oleh manusia, tetapi jika dilakukan secara terkomputerisasi akan membawa permasalahan tersendiri. Begitu pula dengan mencari tingkat kemiripan atau similaritas suatu dokumen dengan dokumen lainnya, manusia dapat dengan mudah menentukan apakah suatu dokumen memilki tingkat kemiripan atau similaritas dengan dokumen lainnya atau tidak, untuk itu pada penelitian ini akan dibuat sebuah tools yang dapat mengkategorikan dokumen dan mencari tingkat nilai similaritas antar dokumen secara terkomputerisasi. Dalam penelitian ini teknik yang digunakan untuk memecahkan masalah diatas adalah dengan menggunakan teknik text mining untuk pengkategorian dokumen penulisan ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF (Term Frequency – Inversed Document Frequency) dan Algoritma Vector Space Model. Dengan penelitian ini diharapkan proses pengkategorian dokumen secara terkomputerisasi, hasilnya dapat sesuai dengan pengkategorian secara manual. Dan pengukuran tingkat similaritas dokumen dapat menunjukan seberapa besar nilai similaritas dokumen dengan dokumen lainnya. Kata Kunci : Pengkategorian Dokumen, Similaritas Dokumen, Text Mining, TF-IDF, Vector Space Model
PENDAHULUAN Pemilahan sebuah karya penulisan ilmiah dapat dilakukan dengan mudah oleh manusia, tetapi pemilahan dokumen dilakukan secara otomatis dengan komputer akan membawa permasalahan tersendiri. Begitu pula dengan mengukur tingkat kemiripan suatu dokumen dengan dokumennya lainnya, manusia dapat dengan
mudah mengukur apakah suatu dokumen memilki tingkat kemiripan/similaritas dengan dokumen lainnya. Text mining adalah salah satu cara dalam mengatasi permasalahan diatas. Text mining merupakan proses pengambilan data berupa teks dari sebuah sumber dalam hal ini sumbernya adalah dokumen. Dengan text mining dapat dicari kata-kata kunci yang dapat mewakili isi dari suatu dokumen lalu dianalisa dan dilakukan pencocokan antara dokumen dengan database kata kunci yang telah dibuat untuk menentukan atau memilah kategori suatu dokumen. Sedangkan proses pengukuran tingkat similaritas antar dokumen dilakukan dengan membandingkan suatu kata kunci dengan dokumen. Kata kunci yang digunakan didapat dari proses ekstraksi dokumen pada proses pemilahan kategori dokumen. Agar hasil pengukuran tingkat similaritas dokumen dengan kata kunci mendapatkan hasil yang optimal maka digunakan algoritma text mining dimana dalam prosesnya digunakan algoritma TF-IDF (Term Frequency – Inversed Document Frequency dan VSM (Vector-Space Model) dari IR (Information Retrieval) model untuk mencari nilai Cosine (menghitung nilai cosinus sudut antara dua vector) sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen.
TINJAUAN PUSTAKA Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Didalam proses text mining dilakukan beberapa tahapan umum diantaranya adalah tokenizing, filtering, stemming, tagging, dan analyzing. Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Setelah teks input dilakukan proses tokenizing, maka tahap selanjutnya dilakukan tahap filtering. yaitu tahap mengambil kata-kata penting dari hasil token. Tahap selanjutnya adalah tahap stemming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil kata dasarnya. Tahap berikutnya adalah Tahap tagging yang merupakan tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Tahap ini tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak memiliki bentuk lampau. Tahap yang terakhir dalam text mining adalah tahap analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada. Untuk melakukan analisa pada tahap analyzing dapat digunakan algoritma TF/IDF (Term Frequency – Inversed Document Frequency) dan Algoritma Vector Space Model.
Algoritma TF/IDF (Term Frequency – Inversed Document Frequency) Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masingmasing dokumen terhadap kata kunci dengan rumus yaitu Wdt = tf dt * IDFt
Dimana: d = dokumen ke-d t = kata ke-t dari kata kunci W = bobot dokumen ke-d terhadap kata ke-t tf = banyaknya kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency IDF = log2 (D/df) D = total dokumen df = banyak dokumen yang mengandung kata yang dicari Setelah bobot (W) masing- masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi sederhana dari TF-IDF adalah sebagai berikut: Kata kunci (kk) Dokumen 1 (D1) Dokumen 2 (D2) Dokumen 3 (D3)
= = = =
pengetahuan logistik manajemen transaksi logistik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan logistik Jadi jumlah dokumen (D) = 3 Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada dokumen 2 serta kata dalam d a n terdapat pada dokumen 3 dihapus. Berikut ini adalah tabel perhitungan TF/IDF Tabel 1 Contoh perhitungan TF / IDF tf Token manajemen transaksi logistik transfer
kk D1 D2 D3 0 0 1 0
1 1 1 0
0 0 0 0
1 0 1 1
df 2 1 2 1
IDF = D/df Log10 (D/df) 1.5 3 1.5 3
0.176 0.477 0.176 0.477
W kk
D1
0 0.176 0 0.477 0.176 0.176 0 0
D2
D3
0 0 0 0
0.176 0 0.176 0.477
pengetahuan individu
1 0
0 0
1 1
2 0
2 1
1.5 3
0.176 0.477
Total
0.176 0
0 0
0.176 0.352 0.477 0
0.352 0.829 0.653 1.181
bobot (W) untuk D1 = 0.176 + 0 = 0.176 bobot (W) untuk D2 = 0 + 0.176 = 0.176 bobot (W) untuk D3 = 0.176 + 0.352 = 0.528 Dari contoh studi kasus di atas, dapat diketahui bahwa nilai bobot (W) dari D1 dan D2 adalah sama.Apabila hasil pengurutan bobot dokumen tidak dapat mengurutkan secara tepat, karena nilai W keduanya sama, maka diperlukan proses perhitungan dengan algoritma vector-space model. Ide dari metode ini adalah dengan menghitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci. Algoritma Vector Space Model Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut. Pada algoritma vector space model gunakan rumus untuk mencari nilai cosinus sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot dari kata kunci (WK). Rumus yang digunakan adalah sebagai berikut t
Co sin e ® sim(d j , q ) =
dj ·q dj · q
å (W
ij
=
· Wiq )
i =1 t
t
åWij2 ·åWiq2 i =1
i =1
Apabila studi kasus pada algoritma TF/IDF di atas dicari nilai cosinus sudut antara vektor masing- masing dokumen dengan kata kunci, maka hasil yang didapatkan akan lebih presisi. Seperti yang ditunjukan tabel 2.
Token manajemen transaksi
kk 0 0
Tabel 2 Perhitungan vector space model D1 D2 D3 kk*D1 kk*D2 kk*D3 0.031 0 0.031 0 0 0 0.228 0 0 0 0 0
logistik transfer pengetahuan individu
0.031 0 0.031 0
0.031 0 0 0
Sqrt(kk)
0.249
0 0 0.031 0.228
0.031 0.228 0.124 0
0.031 0 0 0
Sqrt(Di)
0.539
0.509
0 0 0.031 0
0.031 0 0.062 0
Sqrt(kk . Di)
0.643
0.031
0.031
0.093
Selanjutnya menghitung nilai cosinus sudut antara vector kata kunci dengan tiap dokumen dengan menngunakan rumus: Co sin e( Di ) = sum(kk × Di ) /( sqrt (kk ) * sqrt ( Di ) · Untuk Dokumen 1 (D1 ) Cosine (D1 ) = sum (kk . D1 ) / (sqrt(kk) * sqrt(D1 )) = 0.031 / (0.249 * 0.539) = 0.231 · Untuk Dokumen 2 (D2 ) Cosine (D2 ) = sum (kk . D2 ) / (sqrt(kk) * sqrt(D2 )) = 0.031 / (0.249 * 0.509) = 0.245 · Untuk Dokumen 2 (D3 ) Cosine (D3 ) = sum (kk . D3 ) / (sqrt(kk) * sqrt(D3 )) = 0.093 / (0.249 * 0.643) = 0.581 Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat, seperti tabel 3 Tabel 3 Hasil vector space model D1 D2 D3 Cosine 0.231 0.245 0.581 Rank 3 Rank 2 Rank 1
Dari hasil akhir tersebut dapat diketahui bahwa dokumen 3 (D3 ) memiliki tingkat similaritas tertinggi terhadap kata kunci, kemudian disusul dengan D2 dan D1 . PERANCANGAN DAN PEMBANGUNAN PROGRAM Konsep Aplikasi Konsep aplikasi yang akan dibangun adalah pertama dokumen yang akan diujicoba dilakukan proses uploading files, untuk mendapatkan dokumen dengan format teks. Dokumen yang dapat diupload untuk dirubah ke dokumen teks adalah dokumen
dengan format PDF, Doc, dan TXT. Selanjutnya dokumen teks akan diproses dengan teknik text mining yang akan menghasilkan kata kunci yang mewakili isi dokumen untuk menentukan hasil pemilahan dokumen. Setelah mendapatkan kata kunci maka dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot dokumen, lalu kembali dilakukan perhitungan dengan algoritma vector space model. Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang memiliki tingkat kemiripan tertinngi. Algoritma Proses Kategorisasi Dokumen Proses kategorisasi dokumen adalah proses pencocokan antara kata-kata penting yang mewakili isi suatu dokumen dengan kata kunci yang telah ada didalam tabel kata_kunci untuk menentukan jenis kategori suatu dokumen. Gambar 1 adalah gambar yang menunjukan bagaimana proses pengkategorian dokumen.
Gambar 1 Proses pengkategorian dokumen Tahap-tahap kategorisasi dokumen adalah sebagai berikut: 1. Pengisian tabel kata kunci Pengisian tabel kata kunci adalah tahap pertama yang dilakukan untuk membuat program kategorisasi dokumen ini, pengisian tabel kata kunci sangat diperlukan agar ketika melakukan proses pengkategorian dokumen mendapatkan hasil yang
optimal dan akurat. Untuk melakukan proses pengisian kata kunci, diperlukan dokumen sumber yang jenis kategorinya telah diketahui dengan benar. Tahapannya seperti yang ditunjukan oleh gambar berikut.
Gambar 2 Proses pengisian tabel kata kunci Dokumen sumber yang dipakai untuk mengisi tabel kata kunci adalah dokumen abstraksi yang telah di ketahui kategorinya. Pertama-tama dokumen abstraksi dilakukan proses upload lalu isi teks pada dokumen ini dilakukan analisa dengan proses tokenizing yaitu proses pemilahan kata-kata pada keseluruhan isi teks. Hasil dari proses tokenizing adalah kata-kata yang terpisah, maka pada tahap selanjutnya akan dilakukan proses filtering dengan menggunakan teknik stop list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang terdiri dari kata hubung, kata sambung, kata depan, serta nama- nama hari dan bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses filtering bertujuan untuk menghemat penyimpanan di dalam database. Hasil yang didapat dari proses filtering akan dihitung jumlah nilai kemunculan setiap kata pada isi dokumen. Setelah proses filtering dan word counting selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan ke database didalam tabel kata_kunci. Dalam pengisian tabel kata kunci ini penulis menggunakan dokumen abstraksi yang didapat dari perpustakaan online Universitas Gunadarma dengan mengambil 5-10 dokumen abstraksi pada setiap masing- masing kategori. Isi dokumen abstraksi tersebut harus menggunakan kata-kata yang sesuai ejaan bahasa Indonesia yang baik dan benar, hal ini diharapkan untuk menghasilkan kata kunci yang sesuai. Kategori dokumen abstraksi yang dipakai adalah kategori pemrograman web, pemrograman dekstop, sistem informasi, dan jaringan komputer. Keseluruhan proses seperti yang dijelaskan diatas hanya dilakukan sekali saja.
2. Pengkategorian Dokumen Tahap pengkategorian dokumen merupakan proses penentuan kategori dokumen, tahap ini akan melakukan analisa terhadap isi dokumen yang diinput. Proses-proses yang dilakukan juga menggunakan tahap tokenizing, filtering d a n word counting, jadi penulis tidak menggambarkan kembali bagaimana proses tersebut dilakukan, karena pada tahap pengisian tabel kata kunci telah dijelaskan secara terperinci. Pada tahap ini, setelah dokumen dilakukan proses tokenizing, filtering dan word counting, t a h ap yang harus dilakukan adalah melakukan proses pencocokan kata kunci yang didapat dari proses sebelumnya dengan kata kunci yang telah ada didalam database. Seperti yang ditunjukan pada gambar 3, dokumen abstraksi yang diinput, menghasilkan tiga kata kunci yaitu bahasa, pemrograman, dan php dengan frekuensi jumlah kemunculan kata yang berbeda-beda.
Gambar 3 Ilustrasi pengkategorian dokumen Selanjutnya dilakukann pencocokan antara kata kunci yang didapat pada dokumen dengan kata kunci yang ada didalam database, jika ada kata yang sama dengan kata kunci yang ada didalam database maka nilai counter dari kategori akan bertambah sesuai jumlah frekuensi kemunculan setiap katanya. Seperti pada gambar 3 kata ”PHP” telah ada di database dengan kategori pemrograman web dan nilai frekuensi kemunculan kata tersebut adalah 6, maka kategori pemrograman web nilai counternya menjadi 6 dan nilai counter kategori ini menjadi yang tertinggi sehingga dokumen tersebut memiliki kategori pemrograman web.
Algoritma Proses Similaritas Dokumen Dalam proses analisa kemiripan dokumen, penulis menggunakan teknik yang sama pada program sebelumnya yaitu teknik text mining dengan algoritma Tf-IDF dan vector space model. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada isi dokumen dari hasil tokenizing, filtering, d a n word counting untuk dilakukan perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali dengan algoritma vector space model. Hasil akhir dari program ini akan didapat nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci. Berikut ini adalah gambaran umum dari program analisa kemiripan dokumen.
Gambar 4 Gambaran umum dari proses similaritas dokumen
Untuk menganalisa tingkat kemiripan antar suatu kata kunci pada dokumen dengan dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisa tingkat kemiripannya dengan dokumen lain. Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan, maka program akan melakukan proses perulangan sebanyak jumlah kata kunci tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci (WK2), dan bobot dokumen terhadap kata kunci (WDK2). Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan d e n g a n p e r h i t u n g a n vector space model, dengan rumus NilaiCo sin us = (WDK ) /( WK / WD ) . Setelah perhitungan nilai cosinus pada algoritma vector space mode dilakukan maka hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang memiliki tingkat kemiripan tertinggi dengan kata kunci.
PENERAPAN PROGRAM DENGAN DATA Analisa Output Program Kategorisasi Dokumen Pada pengkategorian terhadap 50 dokumen abstraksi, menghasilkan 47 dokumen yang berhasil dikategorikan dengan baik. Yaitu hasilnya sesuai dengan hasil pengkategorian dokumen secara manual, seperti rangkuman pada tabel 4. Tabel 4 Rangkuman hasil kategorisasi dokumen Kategori Jumlah file Pemrograman Web Jaringan Komputer Sistem Informasi Pemrograman Desktop JUMLAH
13 File 10 File 9 File 15 File 47 File
Pada tabel 4 terlihat hanya 47 file yang berhasil di kategorikan dan sesuai dengan hasil pengkategorian secara manual. Berikut ini adalah daftar tabel dari 3 dokumen yang tidak berhasil dikategorikan atau hasilnya tidak sesuai dengan pengkategorian secara manual.
No
Tabel 5 Dokumen yang tidak berhasil dikategorikan Nama File Kategori Kategori (manual oleh manusia) (program aplikasi)
1 10105792_ABSTRAKSI.pdf
Jaringan Komputer
Pemrograman Desktop
2 10104683_ABSTRAKSI.pdf
Sistem Informasi
Pemrograman Desktop
3 18103013_ABSTRAKSI.pdf
Sistem Informasi
Pemrograman Web
Pada tabel 5 terlihat ada 3 dokumen yang hasilnya tidak sesuai, antara hasil pengkategorian dengan program dan pengkategorian secara manual. Misalnya untuk file 18103013_ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan kategori sistem informasi seperti pada gambar 6 sedangkan secara manual menghasilkan kategori pemrograman web. Hal tersebut terjadi karena nilai counter untuk kategori pemrograman web nilainya lebih kecil dibandingkan dengan nilai counter kategori sistem informasi. Gambar 5 menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada dokumen 18103013_ABSTRAKSI.pdf.
Kata yang sama dengan kata kunci pada kategori sistem informasi Kata yang sama dengan kata kunci pada kategori pemrograman web
Gambar 5 Kumpulan kata yang mewakili file 18103013_ABSTRAKSI.pdf
Gambar 6 Hasil pengkategorian fille 18103013_ABSTRAKSI.pdf oleh program
Sesuai kata kunci yang dihasilkan seperti pada gambar 6 dokumen tersebut memiliki 5 kata kunci yaitu ”sistem”, ”informasi”, ”database”, ”asp”, dan ”net”. dengan nilai tf berturut turut 6, 2, 2, 1, 1. Kata ”sistem”, ”informasi”, dan ”database” adalah kata yang sama dengan kata kunci kategori sistem informasi maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 10, sedangkan kata ”asp” dan ”net” adalah kata yang sama dengan kata kunci kategori pemrograman web maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 2. Dengan hasil ini program akan menentukan bahwa dokumen tersebut termasuk kategori sistem informasi karena memiliki nilai counter terbesar dibandingkan dengan kategori lain seperti terlihat pada gambar 7
Gambar 7 Hasil perhitungan nilai counter pada setiap kategori Hal lain yang menyebabkan hasil yang didapat tidak sesuai dalam pengkategorian dokumen ini adalah karena ada 2 kategori yang memiliki nilai counter yang sama. Misalnya pengkategorian pada file 10105792_ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan kategori jaringan komputer seperti pada gambar 9 sedangkan secara manual menghasilkan kategori pemrograman desktop. Gambar 8 berikut menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada dokumen tersebut.
Kata yang sama dengan kata kunci pada kategori jaringan Komputer Kata yang sama dengan kata kunci pada kategori pemrograman dekstop
Gambar 8 Kumpulan kata yang mewakili file 10105792_ABSTRAKSI.pdf
Gambar 9 Pengkategorian fille 10105792_ABSTRAKSI.pdf oleh program Sesuai kata kunci yang dihasilkan, seperti pada gambar 9 dokumen tersebut memiliki 9 kata kunci yaitu ”jaringan”, ”j2se”, ”java”, ”aplikasi”, ”sistem”, ”conectionless”, ”udp”, ”protokol”, dan ”game” dengan nilai tf berturut turut 5, 2, 3, 3, 3, 1, 2, 1, 1. Kata ”jaringan”, ”conectionless”, ” udp”, dan ”protokol” adalah kata yang sama dengan kata kunci kategori jaringan komputer maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 9, sedangkan kata ”j2se”, ”java”, ”aplikasi” dan ”game” adalah kata yang sama dengan kata kunci pada kategori pemrograman desktop maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 9. dengan hasil counter yang diperoleh maka program akan men-sorting jumlah counter dari yang paling besar sampai terkecil, sehingga setelah diurutkan kategori jaringan komputer berada di posisi paling tinggi, dan kategori inilah yang menjadi jenis kategori untuk dokumen tersebut. seperti terlihat pada gambar 10
Gambar 10 Hasil perhitungan nilai counter pada setiap kategori
Analisa Output Program Similaritas Dokumen Pada tahap penerapan program similaritas dokumen dengan data yang digunakan, maka dilakukan dengan menerapkan tiap-tiap 1 dokumen dibandingkan dengan 50 dokumen yang telah ada di dalam database. Hasil penerapan program pada data yang dibandingkan, menghasilkan hasil yang beragam, diantaranya terdapat 38 dokumen yang menampilkan hasil yang valid, dan 12 dokumen yang tidak valid. Dikatakan hasil yang valid jika suatu dokumen yang akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi pembanding, maka dokumen tersebut akan memiliki nilai similaritas tertinggi dari pada dokumen lainnya, seperti yang ditunjukan pada tabel 6 Hasil perbandingan nilai similaritas yang tidak valid adalah jika suatu dokumen yang dibandingkan juga berada dalam kumpulan dokumen pembanding, tetapi dokumen
tersebut tidak memiliki nilai similaritas tertinggi dari dokumen lainnya, padahal isi dokumen tersebut sama, seperti yang ditunjukan oleh tabel 6.
No.
Tabel 6 Hasil nilai similaritas dokumen yang valid File yang dibandingkan Dokumen dengan tingkat kemiripan/simlilaritas tertinngi
1 10100071_ABSTRAKSI.pdf
2 10102185_ABSTRAKSI.pdf
3 10102730_ABSTRAKSI.pdf
4 10103070_ABSTRAKSI.pdf
5 10103289_ABSTRAKSI.pdf
No. 1
2
3
Dokumen 1 :10100071_abstraksi.pdf Nilai Kemiripan = 0,55185 Dokumen 2 : 12102446_abstraksi.pdf Nilai Kemiripan = 0,35252 Dokumen 1 : 10102185_abstraksi.pdf Nilai Kemiripan = 0,72679 Dokumen 2 : 10104404_abstraksi.pdf Nilai Kemiripan = 0,21884 Dokumen 1 : 10102730_abstraksi.pdf Nilai Kemiripan = 0,74270 Dokumen 2 : 11103062_abstraksi.pdf Nilai Kemiripan = 0,26635 Dokumen 1 : 10103070_abstraksi.pdf Nilai Kemiripan = 0,62194 Dokumen 2 : 12101363_abstraksi.pdf Nilai Kemiripan = 0,20325 Dokumen 1 : 10103289_abstraksi.pdf Nilai Kemiripan = 0,77839 Dokumen 2 : 11103062_abstraksi.pdf Nilai Kemiripan = 0,32451
Tabel 7 Hasil nilai similaritas dokumen yang tidak valid File yang dibandingkan Dokumen dengan tingkat kemiripan/simlilaritas tertinngi 10104313_ABSTRAKSI.pdf Dokumen 1 : 10104683_abstraksi.pdf Nilai Kemiripan = 0,50872 Dokumen 3 : 10104313_abstraksi.pdf Nilai Kemiripan = 0,35648 11104089_ABSTRAKSI.pdf Dokumen 1 : 11103062_abstraksi.pdf Nilai Kemiripan = 0,37856 Dokumen 10 :11104089_abstraksi.pdf Nilai Kemiripan = 0,1226 11105222_ABSTRAKSI.pdf Dokumen 1 : 10104404_abstraksi.pdf Nilai Kemiripan = 0,36828 Dokumen 4 : 11105222_abstraksi.pdf
Nilai Kemiripan = 0,28248 4 13100110_ABSTRAKSI.pdf
5 20101269_ABSTRAKSI.pdf
Dokumen 1 : 11103062_abstraksi.pdf Nilai Kemiripan = 0,56551 Dokumen 3 : 13100110_abstraksi.pdf Nilai Kemiripan = 0,39651 Dokumen 1 : 18102036_abstraksi.pdf Nilai Kemiripan = 0,5583 Dokumen 14 : 20101269_abstraksi.pdf Nilai Kemiripan = 0,09538
Hasil nilai similaritas dokumen yang tidak valid seperti pada tabel 7, dipengaruhi oleh bobot dokumen terhadap kata kunci dan bobot dokumen itu sendiri. Semakin besar bobot dokumen terhadap kata kunci dan semakin kecil bobot dokumen tersebut maka nilai similaritasnya akan semakin tinggi. Jadi walaupun isi dokumen tersebut sama belum berarti dokumen tersebut memiliki nilai similaritas yang tinggi. Berikut ini adalah contoh perhitungan hasil penentuan tingkat similaritas suatu dokumen yang tidak valid Dokumen Yang Ingin dibandingkan: - Dokumen : 10104313_abstraksi.pdf (id=527) - Kata kunci : aplikasi, borland, delphi, pemrograman,(4 kata kunci) Dokumen Yang Menjadi Pembanding: - Dokumen 1 : 10104683_abstraksi.pdf (id=529) - Dokumen 2 : 10104313_abstraksi.pdf (id=527) - Dokumen 3 : 11104053_abstraksi.pdf (id=536) Proses Perhitungan: · Kata Kunci : aplikasi - IDF = Log(D/df) = Log (50/23) = 0.337242168318 - WK = tf(kata kunci) * IDF =1 * 0.337242168318 = 0.337242168318 - WK2 = WK2 + WK(kuadrat) = 0 + 0.113732280092=0.113732280092 - Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 0.337242168318 *(1*0.337242168318)=0.113732280092 - Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 0.337242168318 *(3*0.337242168318)=0.341196840276 · Kata Kunci : borland - IDF = Log(D/df) = Log (50/4) = 1.09691001301 - WK = tf(kata kunci) * IDF =1 * 1.09691001301 = 1.09691001301 - WK2 = WK2 + WK(kuadrat) = 0.113732280092 + 1.20321157664= 1.31694385673 - Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =
·
·
1.09691001301 *(3*1.09691001301)=3.72336701 - Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1.09691001301 *(2*1.09691001301)=2.74761999355 - Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1.09691001301 *(1*1.09691001301)=1.20321157664 Kata Kunci : delphi - IDF = Log(D/df) = Log (50/5) = 1 - WK = tf(kata kunci) * IDF =1 * 1 = 1 - WK2 = WK2 + WK(kuadrat) = 1.31694385673 + 1=2.31694385673 - Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(3*1)=6.72336701 - Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(2*1)=4.74761999355 - Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(3*1)=4.20321157664 Kata Kunci : pemrograman - IDF = Log(D/df) = Log (50/16) = 0.49485002168 - WK = tf(kata kunci) * IDF =1 * 0.49485002168 = 0.49485002168 - WK2 = WK2 + WK(kuadrat) = 2.31694385673 + 0.244876543957=2.56182040069 - Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 0.49485002168 *(1*0.49485002168)=4.99249653751 - Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = 0.49485002168 *(1*0.49485002168)=4.44808812059
Perhitungan Nilai Cosinus Setiap dokumen · id dokumen 529 - Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 6.72336701 / (Akar(2.56182040069) * Akar(68.1825857645)) = 0.508716407716 · id dokumen 527 - Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 4.99249653751 / (Akar(2.56182040069) * Akar(76.5605027632)) = 0.356484822327 · id dokumen 536 - Nilai Cosinus =WDK/(akar(WK)*akar(WD))= 4.44808812059 / (Akar(2.56182040069) * Akar(30.1714507527)) = 0.505942247877 Dokumen yang memiliki tingkat kemiripan tertinggi adalah · Dokumen 1 : 10104683_abstraksi.pdf Nilai Kemiripan = 0.5087 · Dokumen 2 : 11104053_abstraksi.pdf Nilai Kemiripan = 0.5059
·
Dokumen 3 : 10104313_abstraksi.pdf Nilai Kemiripan = 0.3565
Dari hasil diatas menunjukan bahwa nilai similaritas dokumen dipengaruhi oleh bobot dokumen terhadap kata kunci dan bobot dokumen tersebut
KESIMPULAN DAN SARAN Kesimpulan Pengkategorian dokumen dengan teknik text mining yang dilakukan pada penelitian ini dapat berjalan dengan baik sesuai dengan pengkategorian secara manual. Dari 50 dokumen abstraksi yang dikategorikan, hanya 3 dokumen yang tidak sesuai dengan pengkategorian secara manual, berarti terdapat 6% hasil yang tidak sesuai dan 94% hasil yang sesuai, dari 50 dokumen yang dikategorikan. Munculnya 6% hasil yang tidak sesuai disebabkan karena frekuensi kemunculan kata kunci yang seharusnya mewakili kategori isi dokumen tersebut, nilainya lebih kecil dibandingkan frekuensi kemunculan kata untuk kategori lain, sehinga nilai counter untuk kategori yang seharusnya nilainya menjadi lebih kecil. Pengukuran similaritas dokumen pada penelitian ini dilakukan terhadap 50 dokumen abstraksi yang mengahasilkan 38 dokumen yang memiliki nilai similaritas yang sesuai dan 12 dokumen yang tidak memiliki nilai similaritas yang tidak sesuai. Kesesuaian tingkat similaritas dokumen ini dinilai dari apabila satu dokumen yang akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi pembanding, maka dokumen yang sama tersebut harus memiliki nilai similaritas tertinggi dari pada dokumen lainnya, jika tidak maka hasil tersebut dikatakan tidak sesuai. Hasil yang tidak sesuai ini disebabkan karena nilai bobot dokumen terhadap kata kunci yang dibandingkan nilainya lebih kecil dan nilai bobot dokumen tersebut besar. Jadi nilai similaritas dokumen tertinggi ditentukan oleh besarnya bobot suatu dokumen terhadap kata kunci dan kecilnya nilai bobot dokumen tersebut. Saran Untuk pengembangan program yang dibuat pada penelitian ini, disarankan untuk menambah fungsi stemming untuk mencari dasar kata dari tiap kata hasil filtering dan fungsi tagging mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Selain itu untuk mendukung hasil yang akurat maka disarankan untuk menggunakan banyak dokumen sumber untuk pengisian kata kunci di database.
DAFTAR PUSTAKA [1]. Arrummaisha Adrifina, Juwita Utami Putri, I Wayan Simri W, Pemilahan Artikel Berita Dengan Text Mining, Proceeding Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008), 20-21 Agustus 2008 [2]. David Sugianto, dkk, Membangun Websited dengan PHP , Datakom 2005 [3]. Iwan Arif, Text Mining, http://lecturer.eepis- its.edu/~iwanarif/kuliah/dm /6Text%20Mining.pdf, 24 Juni 2009 [4]. Lukmanul Hakim, Membongkar Trik Rahasia Para Master PHP, Lokomedia 2008 [5]. Kristhoper David Harjono, Perluasan Vector Pada Metode Search Vector Space, INTEGRAL Vol. 10 No. 2, Juli 2005 [6]. Risa, BAB 11 Text Mining, http://student.eepisits.edu/~risa/files/DataMining /chapter11.pdf, 24 Juni 2009 [7] Raymond J. Mooney. CS 391L: Machine Learning Text Categorization. University of Texas at Austin, 2006.