Implementasi Vector Space Model dalam PembangkitanFrequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan di UPT PUSKOM UNS Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi S1 Informatika
Disusun Oleh: Kartika Permatasari Suryajaya NIM. M0510029
HALAMAN JUDUL
PROGRAM STUDI S1 INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2015
ii
iii
MOTTO
“… boleh jadi kamu tidak menyenangi sesuatu, padahal itu baik bagimu, dan boleh jadi kamu menyukai sesuatu, padahal itu tidak baik bagimu. Allah mengetahui, sedangkan kamu tidak mengetahui” (Q.S. Al – Baqarah : 216) “Jadikanlah sabar dan sholat sebagai penolongmu…” (Q.S. Al – Baqarah :45)
Do what you love, Love what you do
iv
PERSEMBAHAN
Karya ini penulis persembahkan untuk: “Bapak Muhtadi Suryajaya dan Ibu Wiji Astuti, kedua orang tua yang senantiasa mendo’akan, memberikan dukungan, mencurahkan cinta, kasih sayang dan pengorbanan yang tiaratara” “Achmad Fathony dan Fariz Priehastudy adik-adik tersayang” “Mas Dhimas Bagus Sudiro Utomo, yang meski terkadang lelah, namun tetapada” “Faliharifa Nafis Talita, sahabat kecil yang senantiasa mampu menghadirkan kebahagiaan dalam kebersamaan” “Dian Anggraini, sahabat tercinta” “Sahabat d’brandiez: Aish, April, Eva, Dian, Ika, Maman, Pingky, Shofi yang sampai kapanpun semoga tetap dipertemukan dalam cinta dan bahagia” “Mba Putri, Mba Kiki, Mba Restu, Mba Tika, Mba Ita, Mba Rini, Mba Gita dan Mba Dessy yang selalu menguatkan dalam cinta dan kasih sayang” “Sahabat IMC, Kumizet 2, Muslimah Zone dan komunitas-komunitas lain yang tiada pernah lelah untuk bercengkerama dalam cerita, berbagi dan berbahagia” “Seluruh keluarga, sahabat, kerabat dan semua pihak yang senantiasa mengharapkan Saya lulus”
v
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala limpahan rahmat, taufik, hidayah dan inayah-Nya, sehingga penulis dapat menyelesaikan Tugas
Akhir
dengan
judul
“ImplementasiVector
Space
Model
dalam
Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan di UPT PUSKOM UNS”. Penulis memiliki keterbatasan sehingga banyak bantuan dan bimbingan yang diberikan oleh berbagai pihakdalam penyusunan Tugas Akhir ini. Oleh karena itu, penulis mengucapkan terima kasih kepada : 1.
bapak dan ibu yang senantiasa memberikan motivasi, doa dan dukungannya dalam proses penyusunan Tugas Akhir ini,
2.
bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I yang dengan penuh kesabaran telah memberikan bimbingan dan pengarahan,
3.
bapak Abdul Aziz, S.Kom., M.Cs., selaku Dosen Pembimbing II yang telah memberikan masukan, kritik dan saran yang membangun,
4.
seluruh Bapak Ibu dosen dan Karyawan Informatika FMIPA UNS,
5.
teman-teman Informatika khususnya angkatan 2010 atas doa dan semangatnya,
6.
mas Dhimas Bagus Sudiro Utomo atas bantuan, doa dan dukungannya,
7.
sahabat-sahabat yang selalu ada, mendoakan dan memberikan semangat : Aish, April, Eva, Dian Cahya, Ika, Maman, Pingky, Shofi, Dewi Ika, Dian Anggraini,
8.
mba Putri, mba Kiki, mba Tika, mba Ita, mba Gita, mba Restu, mba Rini dan mba Dessy atas semangat, doa dan persahabatan yang tak mengenal usia, ruang dan waktu,
9.
dansemua pihak yang tidak dapat disebutkan satu persatu. Semoga Tugas Akhir ini bermanfaat dan memberikan inspirasi bagi semua
pihak yang berkepentingan. Surakarta, 4 Agustus 2015
Penulis
vi
Implementation of Vector Space Model in Generating Automatic of Frequently Asked Questions and the Relevant Solutions for Customer’s Complaints in UPT PUSKOM UNS Kartika Permatasari Suryajaya Department of Informatics.Faculty of Mathematics and Natural Science. Sebelas Maret University ABSTRACT UPT PUSKOM UNS as an service unit needs customer’s complaint handling. Customer’s complaints will be given solutions based on the past complaints which has similarity with the new complaints. Therefore, a method to calculate similarity between new complaint dan the past complaints is needed. The result of the calculation can be used for generating automatic Frequently Asked Questions (FAQ) and relevant solutions. There are some methods can be used for calculating document similarity, such as VSM. VSM is a method that has efficient procedure, easily represented dan can be implemented in document-matching. Therefore, in this research VSM in generating automatic FAQ and relevant solutions for customer’s complaint in UPT PUSKOM UNS will be used. Weighting term usedTerm Frequency-Inverse Document Frequency (TF-IDF) technique. Compared combinations are TF-IDF it self, logarithmic modified TF and logarithmic modified IDF. Similarity measure used cosine similarity. The results of this research are VSM algorithm with TF-IDF weighting can be used to generate automatic FAQ and the relevant solutions. Based on the accuracy calculation of each experiment can be concluded on a threshold 0.5, the combination of TF-IDF notation which has an average rating of highest accuracy and precision is TF-IDF, that is respectively 62.09% and 55.15%. Whereas in the threshold 0.65 that has average rating of the highest accuracy and precision is the first modification, which is respectively 83.18% and 68.35%. Besides that, the experiment using 171 data TF-IDF and threshold 0.65 can generate 27 FAQ, that is percentage70.37% is relevant.
Keyword—Cosine Similarity, Nazief-Adriani, Term Frequency-Inverse Document Frequency, Text Mining, Vector Space Model
vii
Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan di UPT PUSKOM UNS Kartika Permatasari Suryajaya Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret ABSTRAK UPT PUSKOM UNS, sebagai salah satu unit pelayanan sangat memerlukan penanganan keluhan pelanggan. Keluhan-keluhan yang disampaikan customer akan diberikan solusi yangdidasarkan pada keluhan-keluhan sebelumnya yang mempunyai kemiripan dengan keluhan yang baru. Oleh karena itu diperlukan metode untuk menghitung kemiripan antara keluhan baru dengan keluhan-keluhan yang telah lampau. Hasil perhitungan kemiripan tersebut dapat digunakan dalam pembangkitan Frequently Asked Questions otomatis dan solusi yang relevan. Terdapat beberapa metode yang dapat digunakan untuk menghitung kemiripan dokumen, salah satunya adalah Vector Space Model. VSM merupakan metode yang memiliki cara kerja yang efisien, mudah dalam representasi dan dapat diimplementasikan dalam document-matching. Oleh karena itu dalam penelitian ini akan digunakan metode VSMdalam pembangkitan FAQ otomatis dan solusi yang relevan untuk keluhan pelanggan di UPT PUSKOM UNS.Pembobotan term dilakukan dengan teknik Term Frequency-Inverse Document Frequency (TF-IDF).Kombinasi notasi TF-IDF yang dibandingkan adalah TF-IDF itu sendiri, modifikasi logaritmik TF dan modifikasi logaritmik IDF.Similarity measure yang digunakan adalah cosine similarity. Hasil dari penelitian ini adalah algoritma VSM dengan pembobotan TFIDF dapat digunakan untuk membangkitkan FAQ otomatis dan solusi yang relevan. Berdasarkan hasil perhitungan accuracy pada masing-masing percobaan dapat disimpulkan bahwa pada threshold 0.5, kombinasi notasi TF-IDF yang memiliki nilai rata-rata accuracy dan precision tertinggi adalah modifikasi pertama, yaitu masing-masing sebesar 62.09% dan 55.15%. Sedangkan untuk threshold 0.65 yang memiliki nilai rata-rata accuracy dan precision tertinggi adalah TF-IDF, yaitu masing-masing sebesar 83.18% dan 68.35%. Selain itu percobaan dengan menggunakan 171 data, TF-IDF dan threshold 0.65 dapat membangkitkan 27 FAQ, yaitu dengan persentase 70.37% relevan.
Kata Kunci—Cosine Similarity,Nazief-Adriani, Term Document Frequency, Text Mining, Vector Space Model
viii
Frequency-Inverse
DAFTAR ISI HALAMAN JUDUL ............................................................................................... i HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined. HALAMAN PENGESAHAN ............................... Error! Bookmark not defined. MOTTO ................................................................................................................. iii PERSEMBAHAN ....................................................................................................v KATA PENGANTAR............................................................................................. vi ABSTRACT .......................................................................................................... vii ABSTRAK ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ........................................................................................... xiv DAFTAR LAMPIRAN ..........................................................................................xv BAB I IPENDAHULUAN .................................... Error! Bookmark not defined. 1.1.
Latar Belakang .................................. Error! Bookmark not defined.
1.2.
Rumusan Masalah ............................. Error! Bookmark not defined.
1.3.
Batasan Masalah ............................... Error! Bookmark not defined.
1.4.
Tujuan Penelitian .............................. Error! Bookmark not defined.
1.5.
Manfaat Penelitian ............................ Error! Bookmark not defined.
1.6.
Sistematika Penulisan ....................... Error! Bookmark not defined.
BAB IITINJAUAN PUSTAKA ............................. Error! Bookmark not defined. 2.1.
Landasan Teori .................................. Error! Bookmark not defined.
2.1.1.
Text Mining........................................ Error! Bookmark not defined.
2.1.2.
Algoritma Nazief & Adriani ............. Error! Bookmark not defined.
2.1.3.
Term Frequency-Inverse Document Frequency (TF-IDF) ........ Error!
Bookmark not defined. 2.1.4.
Vector Space Model (VSM) .............. Error! Bookmark not defined.
2.2.
Penelitian Terkait .............................. Error! Bookmark not defined.
2.3.
Kerangka Pemikiran .......................... Error! Bookmark not defined.
BAB IIIMETODOLOGI PENELITIAN ............... Error! Bookmark not defined.
ix
3.1.
Studi Literatur ................................... Error! Bookmark not defined.
3.2.
Pengumpulan Data ............................ Error! Bookmark not defined.
3.3.
Implementasi ..................................... Error! Bookmark not defined.
3.4.
Analisa Hasil ..................................... Error! Bookmark not defined.
BAB IVHASIL DAN PEMBAHASAN ................ Error! Bookmark not defined. 4.1.
Deskripsi Data ................................... Error! Bookmark not defined.
4.2.
Implementasi ..................................... Error! Bookmark not defined.
4.3.
Analisa Hasil ..................................... Error! Bookmark not defined.
4.3.1.
Menghitung Akurasi .......................... Error! Bookmark not defined.
4.3.2.
Membandingkan Kombinasi Notasi Pembobotan TF-IDF ....... Error!
Bookmark not defined. 4.3.3.
Pembangkitan FAQ ........................... Error! Bookmark not defined.
4.3.4.
Pembahasan ....................................... Error! Bookmark not defined.
BAB VPENUTUP.................................................. Error! Bookmark not defined. 5.1.
KESIMPULAN ................................. Error! Bookmark not defined.
5.2.
SARAN ............................................. Error! Bookmark not defined.
DAFTAR PUSTAKA ............................................. Error! Bookmark not defined.
x
DAFTAR TABEL Tabel 2.1 Kombinasi Awalan Akhiran yang tidak DiijinkanError! Bookmark not defined. Tabel 2.2 Cara Menentukan Tipe Awalan untuk Kata yang Diawali dengan “te-“ ........................................................... Error! Bookmark not defined. Tabel 2.3 Jenis Awalan Berdasarkan Tipe Awalan . Error! Bookmark not defined. Tabel 2.4 Notasi pada TF-IDF (Yogatama, 2008 dalam Karmayasa & Mahendra, 2012) ................................................. Error! Bookmark not defined. Tabel 2.5. Keterkaitan Penelitian dengan Penelitian Sebelumnya ................. Error! Bookmark not defined. Tabel 3.1 Pembagian Data Training dan Data TestingError!
Bookmark
not
defined. Tabel 3.2 Rincian Percobaan .................................. Error! Bookmark not defined. Tabel 3.3 Contingency Table (Fawcett, 2005) ....... Error! Bookmark not defined. Tabel 4.1 Contoh Keluhan yang Diolah Menggunakan TextPreprocessing... Error! Bookmark not defined. Tabel 4.2 Contoh Keluhan yang Diolah Menggunakan Text Transforming... Error! Bookmark not defined. Tabel 4.3 Frekuensi Term dari Setiap Dokumen atau Nilai TF pada Kombinasi N.T .................................................... Error! Bookmark not defined. Tabel 4.4 Nilai TF pada Kombinasi L.T dan L.N .. Error! Bookmark not defined. Tabel 4.5 Frekuensi Term dari Seluruh Dokumen . Error! Bookmark not defined. Tabel 4.6 Model Ruang Vektor pada Kombinasi N.TError!
Bookmark
not
defined. Tabel 4.7 Model Ruang Vektor pada Kombinasi L.T dan L.TError!
Bookmark
not defined. Tabel 4.8 Nilai IDF pada Kombinasi N.T .............. Error! Bookmark not defined. Tabel 4.9 Nilai Bobot dari Setiap Term (TF*IDF) pada Kombinasi N.T ...... Error! Bookmark not defined. Tabel 4.10 Nilai Bobot Setiap Term (TF*IDF) pada Kombinasi L.T ............ Error! Bookmark not defined.
xi
Tabel 4.11 Nilai Bobot Setiap Term (TF*IDF) pada Kombinasi L.N ............ Error! Bookmark not defined. Tabel 4.12 Nilai Kemiripan Antar Keluhan ........... Error! Bookmark not defined. Tabel 4.13 Hasil Perhitungan Accuracy, Precision dan Recall untuk Threshold 0.5 ........................................................... Error! Bookmark not defined. Tabel 4.14 Hasil Perhitungan Accuracy, Precision dan Recall untuk Threshold 0.65.................................................... Error! Bookmark not defined. Tabel 4.15 Nilai Rata-Rata Accuracy dan Precision Ketiga Kombinasi Notasi TFIDF .................................................... Error! Bookmark not defined. Tabel 4.16 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada Kombinasi N.T .................................. Error! Bookmark not defined. Tabel 4.17 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada Kombinasi L.T .................................. Error! Bookmark not defined. Tabel 4.18 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada Kombinasi L.N .................................. Error! Bookmark not defined. Tabel A.1 Data Keluhan Pelanggan di UPT PUSKOM UNSError!
Bookmark
not defined. Tabel B.1 Percobaan 1 pada Kombinasi N.T, Threshold 0.5 ................................ 68 Tabel B.2Percobaan 2 pada Kombinasi N.T, Threshold 0.5 ................................. 72 Tabel B.3Percobaan 3 pada Kombinasi N.T, Threshold 0.5 ................................. 76 Tabel B.4Percobaan 4 pada Kombinasi N.T, Threshold 0.5 ................................. 81 Tabel B.5Percobaan 1 pada Kombinasi L.T, Threshold 0.5 .................................. 86 Tabel B.6Percobaan 2 pada Kombinasi L.T, Threshold 0.5 .................................. 89 Tabel B.7Percobaan 3 pada Kombinasi L.T, Threshold 0.5 .................................. 93 Tabel B.8Percobaan 4 pada Kombinasi L.T, Threshold 0.5 .................................. 98 Tabel B.9Percobaan 1 pada Kombinasi L.N, Threshold 0.5 ............................... 102 Tabel B.10Percobaan 2 pada Kombinasi L.N, Threshold 0.5 ............................. 107 Tabel B.11Percobaan 3 pada Kombinasi L.N, Threshold 0.5 .............................. 111 Tabel B.12Percobaan 4 pada Kombinasi L.N, Threshold 0.5 .............................. 117 Tabel C.1 Percobaan 1 pada Kombinasi N.T, Threshold 0.65 ............................ 126 Tabel C.2 Percobaan 2 pada Kombinasi N.T, Threshold 0.65 ............................ 128 Tabel C.3 Percobaan 3 pada Kombinasi N.T, Threshold 0.65 ............................ 131
xii
Tabel C.4 Percobaan 4 pada Kombinasi N.T, Threshold 0.65 ............................ 134 Tabel C.5 Percobaan 1 pada Kombinasi L.T, Threshold 0.65 ............................. 136 Tabel C.6 Percobaan 2 pada Kombinasi L.T, Threshold 0.65 ............................. 139 Tabel C.7 Percobaan 3 pada Kombinasi L.T, Threshold 0.65 ............................. 141 Tabel C.8 Percobaan 4 pada Kombinasi L.T, Threshold 0.65 ............................. 145 Tabel C.9 Percobaan 1 pada Kombinasi L.N, Threshold 0.65 ............................ 147 Tabel C.10 Percobaan 2 pada Kombinasi L.N, Threshold 0.65 .......................... 150 Tabel C.11 Percobaan 3 pada Kombinasi L.N, Threshold 0.65 .......................... 153 Tabel C.12 Percobaan 4 pada Kombinasi L.N, Threshold 0.65 .......................... 157 Tabel D.1 FAQ yang Berhasil Dibangkitkan ...................................................... 160
xiii
DAFTAR GAMBAR Gambar 2.1 Ilustrasi Algoritma TF-IDF (Harlian, 2006 dalam Muhajir 2012) ........................................................... Error! Bookmark not defined. Gambar 2.2 Representasi Dokumentasi dan Query pada Ruang Vektor (Mandala, Setiawan, 2002)................................. Error! Bookmark not defined. Gambar 3.1 Metodologi Penelitian ........................ Error! Bookmark not defined. Gambar 4.1 Contoh Keluhan yang tidak Mempunyai Kemiripan dengan Keluhan Lain ................................................... Error! Bookmark not defined. Gambar 4.2 Accuracy untuk threshold 0.5............. Error! Bookmark not defined. Gambar 4.3 Precision untuk Threshold 0.5 ........... Error! Bookmark not defined. Gambar 4.4 Accuracy untuk Threshold 0.65 ......... Error! Bookmark not defined. Gambar 4.5 Precision untuk Threshold 0.65 ......... Error! Bookmark not defined. Gambar 4.6 Contoh Tampilan Skema 1 dalam Pembangkitan FAQ .............. Error! Bookmark not defined. Gambar 4.7 Contoh Tampilan Skema 2 dalam Pembangkitan FAQ .............. Error! Bookmark not defined. Gambar 4.8 Contoh Tampilan Penambahan FAQ .. Error! Bookmark not defined. Gambar 4.9 Contoh Tampilan Skema 3 dalam Pembangkitan FAQ .............. Error! Bookmark not defined.
xiv
DAFTAR LAMPIRAN
LAMPIRAN ADATA KELUHAN PELANGGAN DI UPT PUSKOM UNSError! Bookmark not defined. LAMPIRAN BHASIL PERHITUNGAN KEMIRIPAN PADA THRESHOLD 0.5 ....................................................................................................................68 LAMPIRAN CHASIL PERHITUNGAN KEMIRIPAN PADA THRESHOLD 0.65 ..................................................................................................................126 LAMPIRAN DFAQ YANG BERHASIL DIBANGKITKAN .............................160
xv