TESIS – KS142501
KOMBINASI TF-IDF DAN PEMILIHAN FITUR MARKOV RANDOM FIELD (MRF) DALAM PERBAIKAN KINERJA PENGELOMPOKAN TWITTER KELUHAN PAJAK
PRITA DELLIA 5214201005
DOSEN PEMBIMBING Dr. Ir. Aris Tjahyanto, M.Kom.
PROGRAM MAGISTER JURUSAN SISTEM INFORMASI FAKULTAS TEKNOLOGI INFORMASI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2017
THESIS – KS142501
COMBINATION OF TF-IDF AND MARKOV RANDOM FIELD (MRF) FEATURE SELECTION ON IMPROVEMENT THE CLUSTERING PERFORMANCE OF TWITTER TAX COMPLAINTS
PRITA DELLIA 5214201005
SUPERVISOR Dr. Ir. Aris Tjahyanto, M.Kom.
MAGISTER PROGRAM DEPARTMENT OF INFORMATION SYSTEMS FACULTY OF INFORMATION TECHNOLOGY INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2017
LEMBAR PENGESAHAN Tesis disusun untuk memenuhi salah satu syarat memperoleh gelar Magister Komputer (M.Kom) di Institut Teknologi Sepuluh Nopember oleh: Prita Dellia NRP. 5214201005
: 10 Januari 2017
Tanggal Ujian
Periode Wisuda : l\tlaret 2017
Disetujui oleh :
Dr. Ir. Aris Tjahyanto, M.Kom. NIP.196503101991021001
Erma Suryani, S.T., M~T., Ph.D. NIP. 197004272005012001
Dr. Apol Pribadi Subriadi, S.T., M.T. NIP. 197002252009121001
I
(Penguji)
Halaman ini sengaja dikosongkan
iv
KOMBINASI TF-IDF DAN PEMILIHAN FITUR MARKOV RANDOM FIELD (MRF) DALAM PERBAIKAN KINERJA PENGELOMPOKAN TWITTER KELUHAN PAJAK Nama Mahasiswa NRP Pembimbing
: Prita Dellia : 5214201005 : Dr. Ir. Aris Tjahyanto, M.Kom.
ABSTRAK Kesadaran penduduk Indonesia untuk membayar pajak masih rendah. Peningkatan kepatuhan wajib pajak dapat dilakukan dengan memberikan pelayanan yang baik kepada wajib pajak, sehingga aparat pajak harus melakukan perbaikan kualitas pelayanan. Pemanfaatan twitter mendorong munculnya informasi tekstual yang tidak terbatas dan masyarakat dengan mudah mengungkapkan keluhan. Melalui kombinasi metode pembobotan TF-IDF dengan pemilihan fitur Markov Random Field (MRF), data keluhan pajak yang diutarakan masyarakat melalui twitter dapat dianalisis dengan efektif dan efisien. Pemilihan fitur Markov Random Field (MRF) efektif untuk memilih fitur relevan pada data twitter yang mengandung banyak noise. Metode pembobotan Term Frequency Inverse Document Frequency (TF-IDF) membobot kata dengan mengelompokkan dokumen berdasarkan kata yang sering muncul dalam dokumen secara individu namun jarang muncul pada dokumen lain. Penggunaan metode TF-IDF mendukung kinerja pemilihan fitur MRF untuk menemukan fitur-fitur relevan. Tahapan yang dilakukan pada penelitian yaitu praproses teks dengan case folding, tokenizing, filtering. Setelah itu membobot kata menggunakan TF-IDF dan memilih fitur relevan menggunakan pemilihan fitur Markov Random Field (MRF). Proses pengelompokan dokumen menggunakan K-means clustering dan evaluasi kinerja dilihat melalui nilai Error Rate. Hasil eksperimen menunjukkan TF-IDF mampu mengungguli metode pembobotan term frequency dengan nilai error rate pada tiap parameter beta 0.06, 0.05, 0.04, 0.03, 0.02 masing-masing sebesar 51.76%, 51.56%, 52.86%, 41.81%, 43.02% dan juga pada rata-rata error rate sebesar 47.17%. Penelitian ini berhasil mengelompokkan twitter keluhan pajak menjadi 3 cluster yaitu pelayanan, website dan non-keluhan.
Kata kunci: clustering, keluhan pajak, markov random field, TF-IDF
v
Halaman ini sengaja dikosongkan
vi
COMBINATION OF TF-IDF AND MARKOV RANDOM FIELD (MRF) FEATURE SELECTION ON IMPROVEMENT THE CLUSTERING PERFORMANCE OF TWITTER TAX COMPLAINTS By Student Identity Number Supervisor
: Prita Dellia : 5214201005 : Dr. Ir. Aris Tjahyanto, M.Kom.
ABSTRACT Awareness of the Indonesian population to pay taxes is still low. Increased tax compliance can be done by providing good service to the taxpayer, so that the tax authorities should be to improve the quality of service. Twitter utilization encourage the emergence of limitless textual information and public can express complaints easily. Trough combination of TF-IDF weighting method and Markov Random Field (MRF) feature selection, the data of tax complaints raised by the community via twitter can be analyzed effectively and efficiently. Markov Random Field (MRF) feature selection is effective to select relevant features in the data twitter that contains a lot of noise. Term Frequency - Inverse Document Frequency (TF-IDF) weighting the word to classify documents based on words that often appear in the document individually but rarely appears in other documents. The use of TF-IDF method supports the performance of MRF feature selection to find relevant features. An initial stages of this research is text preprocessing using case folding, tokenizing and filtering. After that, weighting the word using TF-IDF and select relevant features using Markov Random Field (MRF) feature selection. The process of grouping documents using K-means clustering and performance evaluation be seen through the value of Error Rate. The experimental results show the TF-IDF outperformed the term frequency weighting method for each parameter of beta 0.06, 0.05, 0.04, 0.03, 0.02 respectively by 51.76%, 51.56%, 52.86%, 41.81%, 43.02% and also the average error rate of 47.17%. This study successfully classify twitter tax complaints into three clusters, namely services, websites and non-complaints.
Keywords: clustering, markov random field, tax complaints, TF-IDF
vii
Halaman ini sengaja dikosongkan
viii
KATA PENGANTAR Puji syukur kehadirat Allah SWT atas berkat rahmat dan ridho-Nya sehingga penulis dapat menyelesaikan tesis dengan judul “KOMBINASI TF-IDF DAN PEMILIHAN FITUR MARKOV RANDOM FIELD (MRF) DALAM PERBAIKAN KINERJA PENGELOMPOKAN TWITTER KELUHAN PAJAK”. Penyusunan tesis ini dibuat sebagai salah satu syarat kelulusan program magister jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Surabaya. Penulis menyadari selama menempuh pendidikan dan proses penyelesaian tesis ini penulis memperoleh bantuan dan dukungan dari berbagai pihak. Pada kesempatan kali ini, penulis mengucapkan terima kasih yang sebesar-besarnya kepada pihak-pihak yang membantu pengerjaan tesis ini, antara lain: 1. Kedua orang tua, kakak, adik dan keluarga yang telah memberikan doa, motivasi serta dukungan kepada penulis. 2. Bapak Dr. Ir. Aris Tjahyanto, M.Kom., yang telah sabar dan telaten membimbing serta membagikan ilmu dan waktunya kepada penulis dalam pengerjaan tesis ini. 3. Ibu Erma Suryani, S.T., M.T. Ph.D dan bapak Dr. Apol Pribadi Subriadi, ST., MT yang telah memberikan banyak kritik dan saran untuk perbaikan penelitian ini. 4. Seluruh Bapak dan Ibu dosen serta karyawan di program magister jurusan Sistem Informasi ITS yang telah membagikan ilmu dan inspirasi kepada penulis. 5. Rekan-rekan keluarga besar program magister Sistem Informasi ITS angkatan 2014 yang telah memberikan bantuan dan dukungan kepada penulis selama mengikuti perkuliahan dan proses penelitian ini berlangsung. 6. Teman-teman dan pihak lain yang tidak dapat penulis cantumkan namanya satu per satu yang telah mendoakan, memberikan bantuan, dukungan serta sumbangan pemikiran dalam proses penyelesaian tesis ini.
ix
Semoga Allah SWT senantiasa memberikan berkat dan anugerah-Nya serta membalas semua kebaikan yang telah dilakukan. Penulis menyadari banyak kekurangan yang terdapat pada penelitian ini, oleh karena itu kritik dan saran yang bersifat membangun akan selalu diterima oleh penulis. Semoga penelitian ini dapat memberikan manfaat dan wawasan yang berguna bagi pengembangan ilmu pengetahuan dan bagi pembaca.
Surabaya, Januari 2017
Penulis
x
DAFTAR ISI HALAMAN JUDUL........................................................................................
i
LEMBAR PENGESAHAN .............................................................................
iii
ABSTRAK .......................................................................................................
v
ABSTRACT .......................................................................................................
vii
KATA PENGANTAR .....................................................................................
ix
DAFTAR ISI ....................................................................................................
xi
DAFTAR GAMBAR .......................................................................................
xiii
DAFTAR TABEL ............................................................................................
xv
BAB I PENDAHULUAN .............................................................................
1
1.1. Latar Belakang ..................................................................................
1
1.2. Rumusan Masalah .............................................................................
6
1.3. Tujuan Penelitian ..............................................................................
6
1.4. Ruang Lingkup Penelitian.................................................................
6
1.5. Kontribusi Penelitian ........................................................................
7
1.6. Sistematika Penulisan Dokumen.......................................................
8
BAB 2 LANDASAN TEORI DAN KAJIAN PUSTAKA ............................
11
2.1. Pelayanan Publik ...............................................................................
11
2.2. Konsep Pajak ....................................................................................
15
2.3. Keluhan Pajak dan Permasalahannya ...............................................
18
2.4. Penelitian Terkait ..............................................................................
19
2.5. Penggalian Teks ................................................................................
21
2.5.1. Praproses Teks ......................................................................
22
2.5.2. Pemilihan Fitur......................................................................
24
2.6. Term Frequency - Inverse Document Frequency (TF-IDF) .............
25
2.7. Pemilihan Fitur Markov Random Field (MRF) ................................
26
2.8. K-means Clustering ..........................................................................
28
2.8.1. Penentuan Jumlah Cluster ......................................................
28
2.8.2. Seed ........................................................................................
29
2.8.3. Algoritma K-means Clustering ..............................................
29
xi
2.9. Evaluasi Kinerja ................................................................................
31
2.10. Twitter ..............................................................................................
31
2.11. Waikato Environment For Knowledge Analysis (WEKA) ...............
32
BAB 3 METODOLOGI PENELITIAN ...........................................................
35
3.1. Penyiapan Data ..................................................................................
35
3.2. Text Clustering ..................................................................................
36
3.2.1. Praproses Teks ........................................................................
37
3.2.2. Pembobotan ............................................................................
38
3.2.3. Pemilihan Fitur .......................................................................
38
3.2.4. K-means Clustering ................................................................
38
3.2.5. Evaluasi Kinerja .....................................................................
39
3.3. Skenario Uji Coba dan Analisis Hasil ...............................................
40
3.4. Penyusunan Kesimpulan dan Saran Pengembangan Penelitian ........
40
BAB 4 UJI COBA DAN HASIL .....................................................................
41
4.1. Penyiapan Data ..................................................................................
42
4.1.1. Pengumpulan Data .................................................................
42
4.1.2. Bentuk Standar Data ...............................................................
43
4.2. Praproses Teks ...................................................................................
44
4.3. Pelaksanaan dan Hasil Uji Coba.........................................................
46
4.3.1. Uji Coba Penentuan Jumlah Cluster .......................................
46
4.3.2. Uji Coba Perhitungan Pembobotan ........................................
49
4.3.3. Uji Coba Penentuan Jumlah Fitur ..........................................
55
4.3.4. Uji Coba Perbandingan Kinerja Clustering ............................
61
BAB 5 DISKUSI DAN REKOMENDASI .....................................................
65
5.1. Diskusi ...............................................................................................
65
5.2. Rekomendasi .....................................................................................
75
BAB 6 KESIMPULAN DAN SARAN ...........................................................
77
6.1. Kesimpulan........................................................................................
77
6.2. Saran ..................................................................................................
78
DAFTAR PUSTAKA .......................................................................................
79
LAMPIRAN .....................................................................................................
85
BIOGRAFI PENULIS ......................................................................................
91
xii
DAFTAR GAMBAR Gambar
Halaman
2.1 Diagram Keterkaitan Masalah.................................................................... 3.1 Metodologi Penelitian ................................................................................ 3.2 Proses Text Clustering ............................................................................... 4.1 Tahapan Alur Penelitian ............................................................................. 4.2 Bentuk Standar Data Berformat ARFF ...................................................... 4.3 Algoritma Praproses Teks .......................................................................... 4.4 Grafik Perbandingan Sum of Squared Error setiap Cluster ....................... 4.5 Distribusi Nilai Koefisien Markov menggunakan TF ................................ 4.6 Distribusi Nilai Koefisien Markov menggunakan TF-IDF ........................ 4.7 Grafik Perbandingan Kinerja Pembobotan TF dan TF-IDF ...................... 4.8 Grafik Perbandingan Rata-Rata Kinerja Pembobotan TF dan TF-IDF ..... 5.1 Hasil Cluster Twitter Keluhan Pajak .........................................................
xiii
18 36 39 41 44 45 48 57 57 62 63 66
Halaman ini sengaja dikosongkan
xiv
DAFTAR TABEL Tabel
Halaman
2.1 Contoh Praproses Teks ............................................................................. 4.1 Contoh Data Twitter Keluhan Pajak ........................................................ 4.2 Contoh Tahapan Praproses Teks .............................................................. 4.3 Hasil Sum of Squared Error setiap Cluster .............................................. 4.4 Selisih Sum of Squared Error setiap Cluster............................................ 4.5 Contoh Hasil Pembobotan Term Frequency (TF) .................................... 4.6 Contoh Hasil nilai df ................................................................................ 4.7 Contoh Hasil nilai idf ............................................................................... 4.8 Perbandingan Hasil Pembobotan TF dan TF-IDF ................................... 4.9 Perbandingan Nilai Koefisien Markov θj ................................................ 4.10 Contoh Hasil Nilai αj ∗ Pada Metode Pembobotan TF ............................. 4.11 Contoh Hasil Nilai αj ∗ Pada Metode Pembobotan TF-IDF ..................... 4.12 Jumlah Fitur Menggunakan Pemilihan Fitur MRF .................................. 4.13 Contoh Fitur Terpilih pada Beta 0.06 menggunakan TF ......................... 4.14 Contoh Fitur Terpilih pada Beta 0.06 menggunakan TF-IDF.................. 4.15 Perbandingan Kinerja Clustering ............................................................. 5.1 Permasalahan Utama Keluhan Pajak ......................................................
xv
24 43 46 47 47 50 51 52 53 56 58 59 59 60 61 61 67
Halaman ini sengaja dikosongkan
xvi
BAB 1 PENDAHULUAN Pada bab awal ini dijelaskan mengenai gambaran penelitian dari latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, kontribusi penelitian, hingga sistematika penulisan dokumen.
1.1.
Latar Belakang Sebagai salah satu unsur penerimaan negara, pajak memiliki peran yang
sangat besar dan semakin diandalkan untuk kepentingan pembangunan dan pengeluaran pemerintahan. Penerimaan pajak berkontribusi sebesar 74.63% dari seluruh penerimaan negara. Pemerintah memberlakukan reformasi perpajakan dengan menerapkan sistem self assessment sejak tahun 1983. Sistem ini memberikan kepercayaan penuh kepada wajib pajak untuk menghitung, memperhitungkan, menyetor, dan melaporkan seluruh pajak yang menjadi kewajibannya (Supadmi, 2009). Harahap (2004, dalam Supadmi, 2009) menyatakan bahwa dianutnya system self assessment membawa misi dan konsekuensi perubahan sikap/kesadaran warga masyarakat untuk membayar pajak secara sukarela (voluntary compliance). Kepatuhan memenuhi kewajiban perpajakan secara sukarela merupakan tulang punggung system self assessment (Devano, 2006 dalam Supadmi, 2009). Masalah kepatuhan pajak merupakan masalah klasik yang dihadapi di hampir semua negara yang menerapkan sistem perpajakan (Hutagaol, Winarno, & Pradipta, 2007). Masalah ini juga terjadi di Indonesia. Kesadaran penduduk Indonesia untuk membayar pajak masih rendah. Terdapat 44 juta penduduk Indonesia yang berada pada kelas menengah, hanya ada 27 juta penduduk yang memiliki Nomor Pokok Wajib Pajak (NPWP) dan 14 juta yang memiliki Surat Pemberitahuan Tahunan (SPT), yang menunjukkan bahwa warga yang patuh membayar pajak hanya berkisar 930 ribu jiwa (Putro, 2015). Salah satu upaya dalam meningkatkan kepatuhan wajib pajak adalah memberikan pelayanan yang baik kepada wajib pajak (Supadmi, 2009). Penelitian menunjukkan bahwa
1
kualitas pelayanan pajak berpengaruh signifikan terhadap motivasi wajib pajak dalam membayar pajak (Istanto, 2010). Oleh karena itu, aparat pajak harus senantiasa melakukan perbaikan kualitas pelayanan dengan tujuan agar dapat meningkatkan kepuasan dan kepatuhan wajib pajak. Pertumbuhan internet dan jejaring sosial saat ini telah memberikan kemudahan bagi masyarakat untuk mengutarakan pendapatnya. Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) mencatat pengguna internet di Indonesia tahun 2014 mencapai 88,1 juta pengguna, dan penggunaan internet sebagian besar untuk aplikasi jejaring sosial yaitu sebanyak 87,4% dari total pengguna internet. Selain itu hasil survei peerreach.com menunjukkan bahwa tahun 2013 Indonesia menempati urutan ke-tiga atau 6.5 persen dalam penggunaan twitter di seluruh dunia setelah Amerika (24.3%) dan Jepang (9.6%). Dari data tersebut dapat diketahui bahwa penggunaan internet khususnya twitter di
masyarakat
indonesia
tergolong
tinggi.
Masyarakat
dengan
mudah
mengungkapkan keluhannya melalui twitter. Hal ini mendorong Direktorat Jenderal Pajak turut serta memanfaatkan penggunaan twitter sebagai media alternatif dalam menyampaikan informasi kepada masyarakat sekaligus sarana penghubung antara masyarakat dengan Ditjen Pajak. Keluhan yang disampaikan oleh masyarakat melalui twitter dapat digali menjadi bahan pertimbangan dalam evaluasi kualitas pelayanan pajak. Pemerintah sebagai penyusun kebijakan sangat perlu untuk mengetahui dan memahami segala bentuk keluhan masyarakat yang diutarakan melalui twitter. Twitter adalah layanan jejaring sosial dan mikroblog yang memungkinkan pengguna untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter. Pemanfaatan twitter telah mendorong munculnya informasi tekstual yang tidak terbatas, sehingga muncul kebutuhan penyajian tanpa mengurangi nilai dari informasi tersebut. Hal ini dapat dilakukan dengan penggalian teks (text mining). Tujuan dari penggalian teks yaitu mengekstrak informasi yang berguna dari sekumpulan dokumen untuk suatu tujuan tertentu. Salah satu cabang dalam penggalian teks yaitu pengelompokan teks atau text clustering. Dengan
bantuan
text clustering, data keluhan pajak yang diutarakan masyarakat melalui twitter dapat dianalisis dengan efektif dan efisien, sehingga dapat diketahui peta atau pola 2
isu dan permasalahan yang terjadi di masyarakat secara real time. Pemahaman mengenai segala informasi yang berasal dari masyarakat dapat menjadi masukan bagi pemerintah dalam membuat kebijakan yang lebih efektif dan tepat guna. Text clustering pada jejaring sosial twitter telah dilakukan untuk mendeteksi kejadian (Becker, Naaman, & Gravano, 2011), menggali ketertarikan pengguna twitter (Rodriguez, Vilas, Redondo, & Arias, 2013), deteksi komunitas dan ekstraksi isu (Kim, Seo, Ha, Lim, & Yoon, 2013), deteksi spam (Miller, Dickinson, Deitrick, Hu, & Wang, 2014), deteksi topik (Nur'aini, Najahaty, Hidayati, Mufri, & Nurrohmah, 2015). Telah banyak metode yang dilakukan untuk text clustering. Hudli, Hudli, & Hudli (2012) menggunakan pendekatan Kmeans clustering untuk mengindentifikasi online opinion leader. Pendekatan tersebut tidak membutuhkan pengetahuan dari opini pengguna atau keanggotaan dalam forum lain karena data dikumpulkan dari aktivitas online pengguna. Guo, Shao, & Hua (2009) memperkenalkan CogHTC, sebuah algoritma hierarchical clustering, terinspirasi oleh model situasi cognitive. Metode tersebut mengekstrak fitur yang representative dengan pertimbangan efisiensi clustering. Deng, Hu, Chi, & Wu, (2010) melakukan penggalian teks dengan mengusulkan improved fuzzy clustering yang merupakan metode text clustering berdasarkan pada algoritma fuzzy C-means clustering dan algoritma edit distance. Penelitian tersebut menggunakan evaluasi fitur untuk mengurangi dimensi vector teks dimensi tinggi. Dalam penggalian teks, kata digunakan sebagai fitur (Dilrukshi & Zoysa, 2014). Jumlah data yang banyak yang terdapat pada twitter serta berbagai jenis bahasa dan cara penulisan yang ada pada twitter, membuat twitter dapat berisikan kata yang tidak bermakna, kata tidak baku, kata ambigu, kata berimbuhan serta kata yang tidak terstruktur. Hal ini dapat menyebabkan peningkatan pada dimensi ruang fitur. Dimensi ruang fitur yang tinggi menghasilkan kerenggangan yang hebat yang membawa dampak negatif pada estimasi parameter (Tutkan, Ganiz, & Akyokus, 2016). Dimensi ruang fitur yang tinggi dapat dikurangi dengan menghilangkan kata yang tidak berhubungan dari ruang fitur. Teknik pemilihan fitur digunakan untuk mengurangi dimensi ruang fitur dengan memilih fitur yang paling berhubungan dengan data. Cheng, Zhou, & Cheng (2011) mengusulkan 3
selector baru untuk pemilihan fitur yang disebut Fisher-Markov Selector. Pemilihan fitur MRF merupakan sebuah metode yang diterapkan untuk memilih fitur menggunakan teknik optimasi Markov Random Field (Claypo & Jaiyen, 2015). Pemilihan fitur MRF memanfaatkan Fisher-Markov Selector dalam memilih fitur-fitur tersebut. Cheng, Zhou, & Cheng (2011) membandingkan metode MRF dengan metode pemilihan fitur lain seperti Random Forest, mRMR, RFE, dan L0. Penelitian tersebut menggunakan enam real world data set. Hasil eksperimen menunjukkan bahwa MRF mencapai error rate terkecil pada enam real world data set yang digunakan, khususnya pada data berdimensi tinggi seperti Prostate Cancer dan Lung Cancer. Pada data set Prostate Cancer dengan maksimal fitur yang terpilih yaitu 60, MRF memiliki nilai error rate dengan menggunakan pengklasifikasi SVM, K-SVM, Naïve Bayes, C4.5 masing-masing sebesar 0%, 26.47%, 26.47%, 23.53%. Pada data set Lung Cancer, dengan menggunakan fitur maksimal terpilih dan pengklasifikasi yang sama dengan data set Prostate Cancer, MRF mencapai nilai error rate secara berurutan sebesar 0.67%, 6.04%, 2.01% 9.40%. Metode lain juga memiliki hasil yang bagus dengan nilai error rate yang kecil pada beberapa data set, namun mereka lebih banyak memakan waktu daripada MRF. MRF mengungguli metode pemilihan fitur lain dari sisi efisiensi komputasi untuk empat data set Leukimia S3, NC19, Prostate Cancer, Lung Cancer masing-masing sebesar 0.09 detik, 0.08 detik, 0.45 detik 0.09 detik. MRF mengungguli metode pemilihan fitur lain yaitu Random Forest, mRMR, RFE, dan L0 (Cheng, Zhou, & Cheng, 2011). Selain itu MRF juga efektif untuk memilih fitur yang paling berguna dibandingkan Laplacian Score dalam hal akurasi dan error rate (Liu, Tian, Bei, Hou, & Yang, 2011). Penelitian tersebut menggunakan data set UCI Wine, UCI Iris, UCI Sonar, Colon Cancer, Outex dataset & WPT. MRF memiliki error rate kecil pada data set Sonar yaitu 21.79%, data set Iris sebesar 1.5% dan Outex Dataset & WPT sebesar 15.22%. Dalam hal tingkat akurasi, MRF mengungguli metode pemilihan fitur Laplacian Score (LS) pada keseluruhan data set yang digunakan yaitu data set Wine, Sonar, Colon Cancer, Iris dan Outex Dataset & WPT masing-masing sebesar 97.78%, 63.46%, 93.75%, 100%, 92%. Namun pada data set Colon Cancer, LS memiliki akurasi yang sama 4
dengan MRF hanya dengan menggunakan 2 fitur sedangkan MRF menggunakan 50 fitur dimana fitur keseluruhan pada data set Colon Cancer yaitu 2000 fitur. Claypo & Jaiyen (2015) menggali opini ulasan restoran menggunakan Kmeans clustering dan mengurangi jumlah fitur sekaligus memilih fitur yang relevan dengan menggunakan teknik pemilihan fitur Markov Random Field (MRF). Pemilihan fitur MRF dapat secara efisien mengurangi jumlah fitur pada dataset dan waktu komputasi. Fitur yang digunakan antara 103 sampai 1768 fitur. Honda (2015) melakukan penelitian dengan mengelompokkan data twitter menggunakan 712 fitur. Penggunaan K-means clustering sesuai dengan pemilihan fitur MRF karena dapat mencapai kinerja terbaik dibanding metode clustering lain seperti hierarchical clustering, Fuzzy C-Means (FCM) dan Self-organizing map (SOM). Penelitian tersebut membobot kata menggunakan term frequency dimana tiap dokumen ditransformasi kedalam vektor masukan dengan menghitung frekuensi kata yang muncul. Disisi lain, keunikan suatu kata dapat diukur sebagai fungsi kebalikan dari jumlah dokumen dimana kata itu berada (Jones, 1972). Jones (1972) memperkenalkan Inverse-Document Frequency (IDF) yang mengukur kelangkaan suatu kata di semua dokumen. Dengan digabungkannya kedua metode tersebut menjadi Term Frequency - Inverse Document Frequency (TF-IDF), maka pengelompokkan didasarkan pada kata yang sering muncul dalam dokumen secara individu namun jarang muncul pada dokumen lain. TF-IDF terbukti kuat dan sulit dikalahkan, bahkan oleh model dan teori yang berhati-hati (Robertson, 2004 dalam Tutkan, 2016). Kadhim, Cheah, & Ahamed (2014) mengimplementasikan TF-IDF dan teknik reduksi dimensi Singular Value Decomposition (SVD) yang membantu Kmeans Clustering dalam mengelompokkan dokumen. Nur'aini, Najahaty, Hidayati, Mufri, & Nurrohmah (2015) mengkombinasikan SVD dan K-means clustering untuk mendeteksi topik pada twitter dan menggunakan pembobotan kata TF-IDF. Ifrim, Shi, & Brigadir (2014) mendeteksi kejadian di twitter menggunakan Aggressive filtering dan hierarchical clustering dengan TF-IDF sebagai pembobot kata. Berdasarkan penelitian-penelitian yang telah dilakukan, belum ada penelitian yang mengkombinasikan metode pembobotan TF-IDF
5
dengan pemilihan fitur Markov Random Field (MRF) untuk clustering keluhan pelayanan pajak melalui twitter. Penelitian ini mengusulkan kombinasi pembobotan kata Term Frequency Inverse Document Frequency (TF-IDF) dan pemilihan fitur Markov Random Field (MRF) dalam tahapan pemilihan fitur. Kombinasi tersebut dilakukan untuk peningkatan kinerja text clustering dalam persoalan yang menimbulkan keluhan publik di jejaring sosial twitter tentang pelayanan pajak. Sementara metode clustering yang digunakan pada penelitian ini menggunakan K-means clustering.
1.2.
Rumusan Masalah Berdasarkan latar belakang yang telah dijelaskan di atas, maka
permasalahan utama pada penelitian dapat dirumuskan sebagai berikut: a. Bagaimana melakukan kombinasi TF-IDF dan pemilihan fitur Markov Random Field (MRF) dari data teks yang diambil dari jejaring sosial twitter? b. Bagaimana kinerja antara kombinasi Term Frequency dan pemilihan fitur Markov Random Field (MRF) dengan kombinasi TF-IDF dan pemilihan fitur Markov Random Field (MRF)?
1.3.
Tujuan Penelitian Tujuan dari penelitian ini yaitu:
a. Menerapkan metode kombinasi TF-IDF dan pemilihan fitur Markov Random Field (MRF) untuk clustering dari data teks yang diambil dari jejaring sosial twitter. b. Membandingkan kinerja kombinasi Term Frequency dan pemilihan fitur Markov Random Field (MRF) pada text clustering dengan kombinasi TF-IDF dan pemilihan fitur Markov Random Field (MRF).
1.4.
Ruang Lingkup Penelitian Ruang lingkup pada penelitian ini antara lain sebagai berikut :
a. Penelitian ini menggunakan data teks yang diambil dari jejaring sosial twitter. b. Data teks yang diambil hanya teks berbahasa Indonesia
6
c. Data teks terbatas pada tweet yang menyatakan keluhan yang ditujukan ke akun twitter resmi Direktorat Jenderal Pajak yaitu @DitjenPajakRI dan @kring_pajak.
1.5.
Kontribusi Penelitian Hasil penelitian ini diharapkan dapat memberikan kontribusi baik secara
teori maupun secara praktis. Kontribusi teori diperoleh melalui kombinasi TF-IDF dengan pemilihan fitur Markov Random Field (MRF). Metode pembobotan TFIDF menilai kata yang menjadi kata kunci permasalahan keluhan dengan tepat. Selain itu penggunaan metode pemilihan fitur MRF akan mendapatkan fitur-fitur yang paling relevan dengan tingkat kesalahan yang sedikit dan dengan waktu komputasi yang cepat. Dengan kombinasi metode ini, maka analisis twitter keluhan pajak dapat dilakukan dengan efektif dan efisien. Kontribusi praktis berupa pengetahuan tentang pokok permasalahan keluhan yang dialami oleh wajib pajak dalam mengurus perpajakannya. Hasil tersebut dapat digunakan sebagai pertimbangan bagi pemerintah pada umumnya dan khususnya bagi Ditjen Pajak dalam menetapkan kebijakan untuk menyelesaikan keluhan pajak yang dialami oleh wajib pajak. Selain itu, sebagai acuan dalam peningkatan kualitas pelayanan pajak, serta menjadi sumber kajian untuk diterapkan dalam berbagai jenis industri. Pemerintah dapat menerapkan penelitian ini untuk melakukan analisis pengelompokan terhadap keluhan publik yang disampaikan melalui jejaring sosial twitter. Analisis pengelompokan ini dapat menjadi acuan bagi manajemen puncak dalam penetapan kebijakan dan pengambilan keputusannya.
7
1.6.
Sistematika Penulisan Dokumen Sistematika penulisan dokumen laporan penelitian tesis ini dibagi menjadi
enam bab, yaitu sebagai berikut:
BAB 1 PENDAHULUAN Pada bab ini dijelaskan mengenai latar belakang, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, kontribusi penelitian dan sistematika penulisan.
BAB 2 LANDASAN TEORI DAN KAJIAN PUSTAKA Pada bab ini dijelaskan mengenai kajian pustaka dari berbagai penelitian yang berkaitan dengan penelitian ini. Kajian pustaka ini bertujuan untuk memperkuat dasar dan alasan dilakukannya penelitian ini. Selain kajian pustaka, pada bab ini juga dijelaskan mengenai teori–teori terkait yang bersumber dari buku, jurnal, maupun artikel yang berfungsi sebagai dasar dalam melakukan penelitian agar dapat memahami konsep atau teori penyelesaian permasalahan yang ada. Teori yang dijelaskan antara lain mengenai pelayanan publik, konsep pajak, keluhan pajak dan permasalahannya, penggalian teks, K-means clustering, evaluasi kinerja clustering, twitter dan WEKA. Sedangkan penelitian–penelitian terkait yang dikaji yaitu penelitian mengenai text clustering.
BAB 3 METODOLOGI PENELITIAN Pada bab ini dijelaskan mengenai langkah–langkah penelitian beserta metode yang digunakan. Langkah–langkah penelitian dijelaskan dalam sebuah diagram alur yang sistematis dan akan dijelaskan tahap demi tahap.
BAB 4 UJI COBA DAN ANALISIS HASIL Pada bab ini akan dijelaskan uji coba terhadap tahap pemilihan fitur berdasarkan skenario uji coba yang telah dirancang sebelumnya. Selain itu pada bab ini juga dijelaskan mengenai analisis hasil uji coba.
8
BAB 5 DISKUSI DAN REKOMENDASI Pada bab ini berisi diskusi terkait hasil pengelompokkan keluhan yang telah diperoleh. Selain itu juga membahas rekomendasi yang dapat diusulkan untuk perbaikan dimasa depan.
BAB 6 KESIMPULAN DAN SARAN Pada bab ini berisi kesimpulan dari penelitian dan juga saran bagi penelitian berikutnya yang berasal dari kekurangan ataupun temuan dari penelitian ini.
9
Halaman ini sengaja dikosongkan
10
BAB 2 LANDASAN TEORI DAN KAJIAN PUSTAKA Pada bab ini dijelaskan mengenai teori-teori yang mendasari penelitian dan kajian pustaka mengenai penelitian–penelitian yang terkait. Teori yang dijelaskan antara lain mengenai pelayanan publik, konsep pajak, keluhan pajak dan permasalahannya, penggalian teks, K-means clustering, evaluasi kinerja clustering, twitter dan WEKA. Sedangkan penelitian–penelitian terkait yang dikaji yaitu penelitian mengenai text clustering.
2.1.
Pelayanan Publik Adopsi tatanan demokrasi dan keterbukaan menghadirkan suatu tatanan
kehidupan berbangsa dan bernegara dimana kedaulatan rakyat ditempatkan pada posisi tertinggi. Adopsi ini tidak hanya terjadi dalam kehidupan politik melainkan juga pada bidang kehidupan lain seperti pelayanan publik. Menurut Mirawati Sudjono, Deputi Bidang Pelayanan Publik Kementerian Pendayagunaan Aparatur Negara dan Reformasi Birokrasi, mengungkapkan bahwa pelayanan publik Indonesia saat ini tergolong jelek sehingga tidak cukup biasa saja dalam melakukan pelayanan publik. Bank Dunia juga menetapkan peringkat pelayanan publik Indonesia berada di urutan 109 dari 180 negara di dunia (Medistira, 2015). Negara berkewajiban melayani setiap warga negara dan penduduk untuk memenuhi hak dan kebutuhan dasarnya dalam rangka pelayanan publik yang merupakan amanat Undang-Undang Dasar Negara Republik Indonesia Tahun 1945. Pelayanan publik menurut Surat Keputusan Menteri Pendayagunaan Aparatur Negara No: 63/Kep/M.PAN/7/2003 adalah segala kegiatan pelayanan yang dilaksanakan oleh penyelenggara layanan publik sebagai upaya pemenuhan kebutuhan penerima layanan maupun pelaksanaan ketentuan peraturan perundangundangan. Sementara menurut Undang-Undang Republik Indonesia Nomor 25 Tahun 2009 tentang Pelayanan Publik disebutkan bahwa pelayanan publik adalah kegiatan atau rangkaian kegiatan dalam rangka pemenuhan kebutuhan pelayanan sesuai dengan peraturan perundang-undangan bagi setiap warga negara dan
11
penduduk atas barang, jasa, dan/atau pelayanan administratif yang disediakan oleh penyelenggara pelayanan publik. Undang-undang tentang pelayanan publik dimaksudkan untuk memberikan kepastian hukum dalam hubungan antara masyarakat dan penyelenggara dalam pelayanan publik. Bentuk pelayanan publik yang diberikan kepada masyarakat dapat dibedakan ke dalam beberapa jenis pelayanan, yaitu: a. Pelayanan Administratif yaitu pelayanan yang menghasilkan berbagai bentuk dokumen
resmi
yang
dibutuhkan
oleh
publik,
misalnya
status
kewarganegaraan, sertifikat kompetensi, kepemilikan atau penguasaan terhadap suatu barang dan sebagainya. Dokumen-dokumen ini antara lain kartu Tanda Penduduk (KTP), Akte Pernikahan, Akte kelahiran, Akte Kematian, Buku Pemilik Kendaraan Bermotor (BPKB), Surat Ijin Mengemudi (SIM), Surat Tanda Kendaraan Bermotor (STNK), Ijin Mendirikan Bangunan (IMB), Paspor, Sertifikat Kepemilikan / Penguasaan Tanah dan sebagainya. b. Pelayanan Barang yaitu pelayanan yang menghasilkan berbagai bentuk / jenis barang yang digunakan oleh publik, misalnya jaringan telepon, penyediaan tenaga listrik, air bersih, dan sebagainya. c. Pelayanan Jasa yaitu pelayanan yang menghasilkan berbagai bentuk jasa yang dibutuhkan oleh publik, misalnya pendidikan, pemeliharaan kesehatan, penyelenggaraan transportasi, pos, dan lain sebagainya. Pengawasan penyelenggaraan pelayanan publik dilakukan oleh pengawas internal dan pengawas eksternal. Pengawasan internal penyelenggaraan pelayanan publik dilakukan melalui: pengawasan oleh atasan langsung sesuai dengan peraturan perudang-undangan, dan oleh pengawas fungsional sesuai dengan peraturan perudang-undangan. Sedangkan pengawasan eksternal penyelenggaraan pelayanan publik dilakukan melalui: pengawasan oleh masyarakat berupa laporan atau pengaduan dalam penyelenggaraan pelayanan publik; pengawasan oleh ombudsman sesuai dengan peraturan perundang-undangan; dan pengawasan oleh Dewan Perwakilan Rakyat (DPR), Dewan Perwakilan Rakyat Daerah Provinsi (DPRD Provinsi), Dewan Perwakilan Rakyat Daerah Kabupaten/Kota (DPRD Kabupaten/Kota). (Pasal 35 UU No 25 Tahun 2009).
12
Prinsip
pelayanan
publik
menurut
Surat
Keputusan
Menteri
Pendayagunaan Aparatur Negara No: 63/Kep/M.PAN/7/2003 antara lain: 1. Kesederhanaan, prosedur pelayanan publik tidak berbelit-belit, mudah dipahami dan mudah dilaksanakan. 2. Kejelasan, a. Persyaratan teknis dan administratif pelayanan publik, b. Unit kerja/pejabat yang berwenang dan bertanggung jawab dalam memberikan pelayanan dan penyelesaian keluhan/persoalan/sengketa dalam pelaksanaan pelayanan publik, c. Rincian biaya pelayanan publik dan tata cara pembayaran. 3. Kepastian waktu, pelaksanaan pelayanan publik dapat diselesaikan dalam kurun waktu yang telah ditentukan. 4. Akurasi, produk pelayanan publik diterima dengan benar, tepat dan sah. 5. Keamanan, proses dan produk pelayanan publik memberikan rasa aman dan kepastian hukum. 6. Tanggung jawab, pimpinan penyelenggara pelayanan publik atau pejabat yang ditunjuk bertanggung jawab atas penyelenggaraan pelayanan dan penyelesaian keluhan/persoalan dalam pelaksanaan pelayanan publik. 7. Kelengkapan sarana dan prasarana, tersedianya sarana dan prasarana kerja, peralatan kerja dan pendukung lainnya yang memadai termasuk penyediaan sarana teknologi telekomunikasi dan informatika (telematika). 8. Kemudahan akses, tempat dan lokasi serta sarana pelayanan yang memadai, mudah dijangkau oleh masyarakat dan dapat memanfaatkan teknologi telekomunikasi dan informatika. 9. Kedisiplinan, kesopanan dan kerapian, pemberi pelayanan harus bersikap disiplin, sopan dan santun, ramah, serta memberikan pelayanan dengan ikhlas. 10. Kenyamanan, lingkungan pelayanan harus tertib, teratur, disediakan ruang tunggu yang nyaman, bersih, rapi, lingkungan yang indah dan sehat serta dilengkapi dengan fasilitas pendukung pelayanan, seperti parkir, toilet, tempat ibadah dan lain-lain.
13
Selain itu terdapat sepuluh dimensi tolok ukur kualitas pelayanan menurut Zethaml (1990, dalam Suryadi 2010) antara lain: 1. Tangibles, fasilitas fisik, peralatan, personil dan komunikasi. 2. Reliability, kemampuan unit pelayanan dalam menciptakan pelayanan yang dijanjikan dengan tepat. 3. Responsiveness,
kemauan
untuk
membantu
konsumen
untuk
bertanggungjawab terhadap mutu pelayanan yang diberikan. 4. Competence, tuntutan dimilikinya pengetahuan dan keterampilan yang baik oleh aparatur dalam memberi pelayanan. 5. Courtesy, sikap atau perilaku ramah, bersahabat, tanggap terhadap keinginan konsumen, serta mau melakukan kontak atau hubungan pribadi. 6. Credibility, sikap jujur dalam upaya untuk menarik kepercayaan masyarakat. 7. Security, jasa pelayanan yang diberikan harus dijamin bebas dari berbagai bahaya dan resiko. 8. Access, untuk mengadakan kontak dan pendekatan. 9. Communications, kemauan pemberi layanan untuk mendengarkan suara, keinginan atau aspirasi pelanggan, sekaligus kesediaan untuk selalu menyampaikan informasi baru kepada masyarakat. 10. Understanding the Customer, melakukan segala usaha untuk mengetahui kebutuhan pelanggan. Salah satu wujud praktik demokrasi dalam pelayanan publik adalah memberi kesempatan pada masyarakat untuk menyampaikan keluhan atau pengaduan mana kala pelayanan yang diterimanya tidak sesuai dengan harapan atau tidak sesuai dengan apa yang dijanjikan oleh pemberi layanan. Kekecewaan pelanggan yang diungkapkan dalam bentuk keluhan dan tuntutan terhadap organisasi hampir selalu berhubungan dengan kualitas yang diterima pelanggan yang
dinilai
tidak
sesuai
dengan
harapannya
sehingga
menimbulkan
ketidakpuasan atau kekecewaan. Keluhan publik merupakan ungkapan publik yang disulut oleh adanya ketidakpuasan publik atas suatu produk atau suatu pelayanan (Reiboldt, 2003). Hal ini bisa terjadi akibat kualitas pelayanan yang buruk. Keluhan publik terhadap 14
kualitas pelayanan yang mereka terima, sesungguhnya dapat dipandang sebagai kepedulian publik atas keberadaan birokrasi pelayanan publik, dan karenanya merupakan salah satu bentuk social capital yang sangat penting fungsinya bagi keberadaan birokrasi publik dan peningkatan kualitas pelayanan. Suatu perubahan ke arah yang lebih baik tanpa melibatkan masyarakat lebih tepat disebutkan sebagai mobilisasi, dan bukan pembangunan. Thomas & Palfrey (1996) berpendapat bahwa penduduk merupakan klien dan main beneficiaries dari kegiatan sektor publik, karena itu harus dilibatkan dalam setiap proses evaluasi kinerja. Partisipasi dari masyarakat diperlukan sebagai pengawas pada kinerja pelayanan publik, karena masyarakat yang langsung merasakan baik dan buruknya pelayanan publik yang ada. Penanganan terhadap keluhan dapat menjadi cara yang paling cepat dan mudah untuk menunjukkan produk, layanan, sistem atau orang-orang yang tidak berfungsi sebagaimana diharapkan. Juga sekaligus memberikan uji kemampuan organisasi untuk memperbaiki kesalahan-kesalahan (Ramsey, 2005 dalam Suryadi, 2010). Untuk itu merupakan hal yang sangat penting bagi semua organisasi untuk memandang keluhan sebagai suatu alat bagi peningkatan kualitas dan untuk itu organisasi harus berusaha memberikan kemudahan bahkan harus memfasilitasi pelanggan untuk mengartikualisasikan atau mengajukan keluhan kepada organisasi (Powers, 2002; Ramsey, 2005 dalam Suryadi, 2010). Munculnya kesadaran institusi pemerintah untuk mengelola keluhan dengan baik juga tidak terlepas dari pergeseran cara pandang dalam melihat keluhan itu sendiri. Keluhan yang selama ini dilihat sebagai sesuatu yang negatif saat ini justru dipandang sebagai sesuatu yang positif karena dianggap mampu memberikan kontribusi terhadap perbaikan terhadap kinerja birokrasi pelayanan publik.
2.2.
Konsep Pajak Pajak adalah kontribusi wajib kepada negara yang terutang oleh orang
pribadi atau badan yang bersifat memaksa berdasarkan Undang-Undang, dengan tidak mendapatkan imbalan secara langsung dan digunakan untuk keperluan Negara bagi sebesar-besar kemakmuran rakyat (www.pajak.go.id). Dua fungsi 15
pokok pajak seperti yang disebutkan Mardiasmo (2002, dalam Supadmi 2009) adalah sebagai berikut: a. Fungsi Penerimaan (Budgetair), berfungsi sebagai sumber dana yang diperuntukkan
bagi
pembiayaan
pengeluaran
pemerintah.
Contoh
dimasukkannya pajak dalam APBN sebagai penerimaan dalam negeri. b. Fungsi Mengatur (Regulator), berfungsi sebagai alat ukur untuk mengatur atau melaksanakan kebijakan di bidang sosial dan ekonomi. Contoh dikenakannya pajak yang tinggi terhadap minuman keras sehingga konsumsi minuman keras dapat ditekan. Wajib Pajak adalah orang pribadi atau badan, meliputi pembayar pajak, pemotong pajak, dan pemungut pajak, yang mempunyai hak dan kewajiban perpajakan sesuai dengan ketentuan peraturan perundang-undangan perpajakan (www.pajak.go.id). Ismawan (2001, dalam Supadmi 2009) mengemukakan prinsip administrasi pajak yang diterima secara luas menyatakan bahwa tujuan yang ingin dicapai adalah kepatuhan sukarela. Kepatuhan sukarela merupakan tulang punggung system self assessment dimana wajib pajak bertanggung jawab menetapkan sendiri kewajiban pajaknya dan kemudian secara akurat dan tepat waktu membayar dan melaporkan pajak tersebut. Kepatuhan sebagai pondasi self assessment dapat dicapai apabila elemen- elemen kunci telah diterapkan secara efektif. Elemen-elemen kunci tersebut menurut Ismawan (2001, dalam Supadmi 2009) adalah sebagai berikut: a) Program pelayanan yang baik kepada wajib pajak. b) Prosedur yang sederhana dan memudahkan wajib pajak. c) Program pemantauan kepatuhan dan verifikasi yang efektif. d) Pemantapan law enforcement secara tegas dan adil. Derajat kepatuhan wajib pajak dapat diukur. Sesuai dengan Keputusan Menteri Keuangan Nomor 235/KMK.03/2003 tanggal 3 Juni 2003, Wajib Pajak dapat ditetapkan sebagai WP Patuh yang dapat diberikan pengembalian pendahuluan kelebihan pembayaran pajak apabila memenuhi semua syarat (www.pajak.net) sebagai berikut: a. Tepat waktu dalam menyampaikan Surat Pemberitahuan Tahunan (SPT) dalam 2 (dua) tahun terakhir
16
b. Dalam tahun terakhir penyampaian SPT Masa yang terlambat tidak lebih dari 3 (tiga) masa pajak untuk setiap jenis pajak dan tidak berturut-turut c.
SPT Masa yang terlambat itu disampaikan tidak lewat dari batas waktu penyampaian SPT Masa masa pajak berikutnya
d. Tidak mempunyai tunggakan pajak untuk semua jenis pajak: 1) Kecuali telah memperoleh izin untuk mengangsur atau menunda pembayaran pajak 2) Tidak termasuk tunggakan pajak sehubungan dengan SPT yang diterbitkan untuk 2 (dua) masa pajak terakhir e. Tidak pernah dijatuhi hukuman karena melakukan tindak pidana perpajakan dalan jangka waktu 10 (sepuluh) tahun terakhir, dan f. Dalam hal laporan keuangan diaudit oleh akuntan publik atau Badan Pengawas Keuangan dan Pembangunan harus dengan pendapat wajar tanpa pengecualian atau dengan pendapat wajar dengan pengecualian sepanjang pengecualian tersebut tidak mempengaruhi laba rugi fiscal. Laporan audit harus: 1) Disusun dalam bentuk panjang (long form report) 2) Menyajikan rekonsiliasi laba rugi komersial dan fiskal
Masalah kepatuhan pajak yang terjadi di Indonesia perlu untuk dilakukan perbaikan kualitas pelayanan supaya meningkatnya kesadaran dan kepatuhan wajib pajak dalam membayar pajak. Keluhan-keluhan yang disampaikan masyarakat melalui twitter dapat digali menjadi bahan pertimbangan dalam evaluasi kualitas pelayanan pajak. Hal ini dapat dilakukan dengan bantuan text clustering sehingga keluhan pajak dapat dianalisis dengan efektif dan efisien untuk mengetahui pokok permasalahan yang terjadi di masyarakat. Pemahaman mengenai segala informasi yang berasal dari masyarakat dapat menjadi masukan bagi pemerintah dalam membuat kebijakan yang lebih efektif dan tepat guna. Ilustrasi diagram keterkaitan masalah pada penelitian ini dapat dilihat pada Gambar 2.1.
17
Peningkatan kesadaran membayar pajak
Perbaikan kualitas pelayanan pajak
Strategi dan kebijakan yang efektif dan tepat guna
Adanya pengetahuan tentang pokok permasalahan yang terjadi di masyarakat
Text Clustering
Dibutuhkan pengetahuan tentang pokok permasalahan yang terjadi di masyarakat
Dibutuhkan respon pemerintah dalam mengatasi masalah
Digunakan sebagai alat peningkatan kualitas pelayanan
Keluhan publik
Buruknya kualitas pelayanan pajak
Rendahnya kesadaran masyarakat membayar pajak Gambar 2.1 Diagram Keterkaitan Masalah
2.3.
Keluhan Pajak dan Permasalahannya
Jenis pengaduan terbagi menjadi empat (pengaduan.pajak.go.id), antara lain: a. Pengaduan Keterbatasan Sarana Kantor adalah pengaduan tentang sarana dan prasarana pada unit penyelenggara pelayanan yang tidak mendukung pemberian pelayanan kepada masyarakat.
18
Contoh: 1) Mesin antrian tidak berfungsi. 2) Hasil cetak mesin pencetak bukti penerimaan surat (BPS) tidak jelas. b. Pengaduan Pelayanan Tidak Memadai adalah informasi yang disampaikan pelapor mengenai dugaan pelayanan perpajakan yang tidak sesuai dengan ketentuan yang berlaku. Contoh: 1) Petugas kurang ramah dalam memberikan pelayanan kepada Wajib Pajak. 2) Petugas loket tempat pelayanan terpadu (TPT) tidak berada di tempat pada jam pelayanan. c. Pengaduan Kode Etik dan Disiplin adalah informasi yang disampaikan oleh pelapor sehubungan dengan adanya pelanggaran Kode Etik dan Disiplin. Pelanggaran Kode Etik dan Disiplin adalah pelanggaran yang terkait dengan kode etik pegawai Direktorat Jenderal Pajak dan/atau pelanggaran disiplin Pegawai Negeri Sipil. Contoh: 1) Pemerasan 2) Penyalahgunaan fasilitas kantor 3) Pemalsuan 4) Penyalahgunaan dan/atau perubahan data dan informasi yang tidak sah. d. Pengaduan Tindak Pidana Perpajakan
adalah pemberitahuan disertai
permintaan oleh pihak yang berkepentingan kepada pejabat yang berwenang untuk menindak menurut hukum seorang yang melakukan tindak pidana aduan di bidang perpajakan. Contoh: 1) Pengaduan WP yang NPWP dan/atau NPPKP-nya disalahgunakan oleh orang yang tidak berhak. 2) Pengaduan WP yang telah dipotong pajaknya tetapi tidak disetor.
2.4.
Penelitian Terkait Penelitian mengenai text clustering telah banyak dilakukan dengan
berbagai sumber data misalnya dokumen, berita, jejaring sosial dan situs. Text 19
clustering yang dilakukan pada jejaring sosial twitter tidak terbatas pada satu domain tertentu, namun sudah mencapai area yang lebih luas seperti berita (Kadhim, Cheah, & Ahamed, 2014), olahraga (Godfrey, Johns, Sadek, Meyer, & Race, 2014), olahraga dan musik (Baralis, Cerquitelli, Chiusano, Grimaudo, & Xiao, 2013), online fashion (Becker, Naaman, & Gravano, 2011), serta pendidikan (Priya & Priyadharshini, 2012; Latif & Wood, 2008). Text clustering juga telah dilakukan untuk beberapa tujuan antara lain untuk mendeteksi topic (Nur'aini, Najahaty, Hidayati, Mufri, & Nurrohmah, 2015), deteksi spam (Miller, Dickinson, Deitrick, Hu, & Wang, 2014), deteksi komunitas dan ekstraksi isu (Kim, Seo, Ha, Lim, & Yoon, 2013), menggali ketertarikan pengguna twitter (Rodriguez, Vilas, Redondo, & Arias, 2013), serta mendeteksi kejadian (Becker, Naaman, & Gravano, 2011). Telah banyak metode yang dilakukan untuk text clustering. Kadhim, Cheah, & Ahamed (2014) mengimplementasikan TF-IDF dan teknik reduksi dimensi Singular Value Decomposition (SVD) yang membantu K-means Clustering dalam mengelompokkan dokumen. (Nur'aini, Najahaty, Hidayati, Mufri, & Nurrohmah, 2015) mengkombinasikan SVD dan K-means clustering untuk mendeteksi topik pada twitter dan menggunakan pembobotan kata TF-IDF. (Ifrim, Shi, & Brigadir, 2014) mendeteksi kejadian di twitter menggunakan Aggressive filtering dan hierarchical clustering dengan TF-IDF sebagai pembobot kata. (Hudli, Hudli, & Hudli, 2012) menggunakan pendekatan K-means clustering untuk mengindentifikasi online opinion leader. Pendekatan tersebut tidak membutuhkan pengetahuan dari opini pengguna atau keanggotaan dalam forum lain karena data dikumpulkan dari aktivitas online pengguna. (Guo, Shao, & Hua, 2009) memperkenalkan CogHTC, sebuah algoritma hierarchical clustering, terinspirasi oleh model situasi cognitive. Metode tersebut mengekstrak fitur yang representative dengan pertimbangan efisiensi clustering. Deng, Hu, Chi, & Wu, (2010) melakukan penggalian teks dengan mengusulkan improved fuzzy clustering yang merupakan metode text clustering berdasarkan pada algoritma fuzzy Cmeans clustering dan algoritma edit distance. Penelitian tersebut menggunakan evaluasi fitur untuk mengurangi dimensi vector teks dimensi tinggi.
20
Data yang akan diolah untuk pengelompokkan harus berisi data yang dapat mewakili tiap kelompok sehingga dibutuhkan suatu teknik untuk dapat memilih fitur yang relevan. Pemilihan fitur merupakan metode yang dapat digunakan untuk mengurangi dimensi fitur pada data. Pada tahun 2011, Cheng, Zhou & Cheng mengusulkan sebuat selector baru untuk memilih fitur relevan yang disebut Fisher-Markov Selector. Selector ini terbukti efektif untuk memilih fitur-fitur yang relevan pada data berdimensi tinggi. Efektivitas Fisher-Markov Selector juga dibuktikan oleh (Liu, Tian, Bei, Hou, & Yang, 2011) dan (Claypo & Jaiyen, 2015).
2.5.
Penggalian Teks Beberapa tahun terakhir penggunaan dan penelitian mengenai penggalian
teks telah banyak mendapat perhatian dan aktif dilakukan seiring dengan semakin banyaknya data teks yang diperoleh dari berbagai jejaring sosial, web dan aplikasi lainnya. Penggalian teks atau text mining didefinisikan sebagai suatu proses menggali informasi dimana seorang pengguna berinteraksi dengan sekumpulan dokumen menggunakan seperangkat alat analisis (Feldman & Sanger, 2007). Tujuan dari penggalian teks yaitu mengekstrak informasi yang berguna dari sekumpulan dokumen untuk suatu tujuan tertentu. Menurut Miner et al (2012) tugas penggalian teks dikelompokkan menjadi 7 area, yaitu: a. Pencarian dan perolehan informasi (search and information retrieval), yaitu penyimpanan dan penggalian dokumen teks misalnya dalam mesin pencarian (search engine) dan pencarian kata kunci (keywords). b. Pengelompokan dokumen (document clustering), yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunakan metode klaster (clustering) data mining. c. Klasifikasi dokumen (document classification), yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunakan metode klasifikasi (classification) data mining berdasarkan model terlatih yang sudah memiliki label. d. Web mining, yaitu penggalian informasi dari internet dengan skala fokus yang spesifik. 21
e. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak terstruktur dan mengubahnya menjadi data yang terstruktur. f. Natural language processing (NLP), yaitu pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia. g. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam kelompok yang mirip secara semantik. Penggalian teks merupakan salah satu bidang khusus dari penggalian data atau data mining. Permasalahan yang dihadapi pada penggalian teks sama dengan permasalahan yang terdapat pada penggalian data, diantaranya jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, serta data noise. Perbedaan antara keduanya yaitu terletak pada data yang digunakan. Penggalian data menggunakan data yang terstruktur sedangkan penggalian teks umumnya menggunakan data yang tidak terstruktur atau minimal semi terstruktur, seperti dokumen Word, PDF, kutipan teks, dll. Salah satu cabang dalam penggalian teks yaitu pengelompokan teks atau text clustering. Text clustering (atau document clustering) merupakan salah satu fungsi penting dari penggalian teks. Text clustering adalah proses unsupervised learning yang mengelompokkan kumpulan dokumen berdasarkan hubungan kemiripannya dan memisahkan ke dalam beberapa kelompok (Manning, Raghavan, & Schutze, 2009). Dalam text clustering, data teks dapat tersedia dalam berbagai macam format seperti plain text, DOC, PDF, XML. Data tersebut harus dikonversi menjadi model representasi yang umum agar bisa diproses. Tahapan-tahapan dalam penggalian teks secara umum adalah praproses teks (text preprocessing) dan pemilihan fitur (feature selection) (Feldman & Sanger, 2007; Berry & Kogan, 2010)
2.5.1. Praproses Teks Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Dalam penggalian teks, teks dokumen yang digunakan harus dipersiapkan terlebih dahulu sebelum dapat digunakan untuk proses utama. Proses mempersiapkan teks dokumen atau dataset mentah disebut dengan proses 22
praproses teks (text preprocessing) (Feldman & Sanger, 2007). Praproses teks ini bertujuan untuk mengubah data teks yang tidak terstruktur menjadi data yang terstruktur. Praproses terdiri dari beberapa tahapan diantaranya case folding, tokenizing, filtering dan stemming.
2.5.1.1 Case Folding Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil (toLowerCase) dah hanya huruf „a‟ hingga „z‟ yang diterima. Karakter selain huruf dihilangkan dan dianggap sebagai delimiter (Feldman & Sanger, 2007). Karakter ini termasuk angka dan tanda baca (Weiss, 2010).
2.5.1.2 Tokenizing Tahap tokenizing atau disebut juga parsing adalah pemrosesan sebuah dokumen menjadi unit kecil yang disebut dengan token, bisa berupa suatu kata, angka, atau tanda baca (Yugianus, Dachlan, & Hasanah, 2013). Dengan kata lain, tokenizing merupakan proses pemotongan string masukan berdasarkan tiap kata yang menyusunnya.
2.5.1.3 Filtering Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata
yang
kurang
penting)
atau
wordlist
(menyimpan
kata
penting).
Stoplist/stopword adalah kata-kata tidak deskriptif yang bukan merupakan kata unik pada suatu dokumen, yang dapat dibuang dalam pendekatan bag-of-words (Feldman & Sanger, 2007). Kata-kata yang termasuk ke dalam stopword dihilangkan karena terlalu sering muncul dalam dokumen dan bukan merupakan pembeda yang baik dalam proses penggalian teks. Stopword dapat berupa kata depan atau kata sambung, seperti “yang”, “dan”, “di”, “dari”, dan sebagainya (Yugianus, Dachlan, & Hasanah, 2013).
23
2.5.1.4 Stemming Stemming adalah suatu proses pengembalian suatu kata berimbuhan ke dalam bentuk dasarnya. Proses ini akan menghilangkan awalan, akhiran, sisipan dan confixes (kombinasi dari awalan dan akhiran). Proses ini memiliki banyak variasi sesuai domain bahasa yang digunakan, karena imbuhan tiap bahasa berbeda-beda. Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan (Agusta, 2009). Secara umum proses yang dilakukan dalam tahapan praproses teks (contoh Tabel 2.1) adalah sebagai berikut:
Tabel 2.1 Contoh Praproses Teks Tahapan Kalimat Asli
Contoh Penggunaan Tepat waktu dalam menyampaikan Surat Pemberitahuan Tahunan (SPT) dalam 2 (dua) tahun terakhir.
Case Folding
tepat waktu dalam menyampaikan surat pemberitahuan tahunan spt dalam dua tahun terakhir
Tokenizing
tepat; waktu; dalam; menyampaikan; surat; pemberitahuan; tahunan; spt; dalam; dua; tahun; terakhir
Filtering
menyampaikan; surat; pemberitahuan; tahunan; spt; terakhir
Stemming
sampai; surat; tahu; tahun; spt; akhir
2.5.2. Pemilihan fitur Format pesan singkat twitter adalah teks. Oleh karena itu, dengan melakukan teknik penggalian teks yang sesuai akan dapat mengekstrak informasi yang tak terlihat pada twitter. Bagaimanapun, menganalisis teks berbeda dengan menganalisis nilai-nilai numerik. Dalam penggalian teks, kata digunakan sebagai fitur (Dilrukshi & Zoysa, 2014). Walaupun banyak fitur yang digunakan untuk mewakili dokumen, kata merupakan salah satu jenis fitur yang paling umum digunakan (Feldman & Sanger, 2007). Teks pada twitter dapat berisi stop word,
24
kata ambigu dan kata berimbuhan. Hal ini akan menyebabkan peningkatan dimensi set fitur. Selain itu, jumlah karakter twitter yang dibatasi 140 karakter membuat kata yang terkumpul sedikit. Hal ini dapat menyebabkan ketersebaran matriks sebagai vektor fitur. Dimensi set fitur dan ketersebaran fitur dapat dikurangi dengan menghilangkan kata yang tidak berhubungan dari ruang fitur. Teknik pemilihan fitur diperlukan untuk memilih fitur yang relevan. Beberapa penelitian tentang pemilihan fitur pada twitter telah dilakukan (Dilrukshi & Zoysa, 2014), (Ostrowski, 2014), (Yang, Zhang, Pan, & Xiang, 2015).
2.6
Term Frequency - Inverse Document Frequency (TF-IDF) Proses operasi algoritma belajar (learning algorithms) tidak bisa langsung
memproses dokumen teks dalam bentuk aslinya. Oleh karena itu, setelah tahap preprocessing, dokumen diubah menjadi representasi yang lebih mudah dikelola. Biasanya, dokumen akan diwakili oleh vektor (Feldman & Sanger, 2007). Model vektor dibangun dari dokumen dengan mengubah token-token dalam dokumen menjadi vektor numerik yang akan dioperasikan berdasarkan operasi aljabar linear (Aggarwal & Zhai, 2012). Dalam rangka membangun model vektor, perlu dilakukan proses pembobotan. Pembobotan Term Frequency - Inverse Document Frequency (TF-IDF) adalah suatu pengukuran statistik untuk mengukur seberapa penting sebuah kata dalam kumpulan dokumen. Tingkat kepentingan meningkat ketika sebuah kata muncul beberapa kali dalam sebuah dokumen tetapi diimbangi dengan frekuensi kemunculan kata tersebut dalam kumpulan dokumen. Term Frequency (TF) yaitu frekuensi kemunculan suatu term di tiap dokumen. Inverse Document Frequency (IDF) yaitu nilai bobot suatu term dihitung dari seringnya suatu term muncul di beberapa dokumen. Semakin sering suatu term muncul di banyak dokumen, maka nilai IDF akan kecil. Metode ini terkenal efisien, simple dan memiliki hasil yang akurat (Ramos, 2010). Metode pembobotan TF-IDF menghitung bobot setiap term t di dokumen d dengan rumus sebagai berikut: 𝑊 𝑡, 𝑑 = 𝑇𝐹 𝑡, 𝑑 ∗ 𝐼𝐷𝐹(𝑡)
(2.1)
25
Keterangan: W(t,d)
= bobot dokumen ke-d terhadap term ke-t
TF(t,d) = jumlah kemunculan term t pada dokumen d IDF(t) = nilai IDF term t Setelah bobot W masing-masing dokumen diketahui, maka dilakukan proses pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata yang dicari dan sebaliknya. Sebelumnya menghitung bobot W, dihitung terlebih dahulu Term Frequency (TF) dan Inverse Document Frequency (IDF). Nilai IDF(t) didapatkan dari: 𝑁
𝐼𝐷𝐹(𝑡) = log(𝑑𝑓
𝑡
)
(2.2)
Dimana N
= total jumlah dokumen di dalam koleksi
df(t) = jumlah dokumen yang mengandung term t.
2.7
Pemilihan Fitur Markov Random Field (MRF) Cheng, Zhou, & Cheng (2011) mengusulkan selector baru untuk
pemilihan
fitur
yang
disebut
Fisher-Markov
Selector
dimana
dapat
mengidentifikasi fitur yang paling optimal dalam menggambarkan perbedaan penting antara kelompok-kelompok yang mungkin. Kelas pemilih fitur baru dirumuskan
dalam
semangat
kriteria
pemisahan
kelas
Fisher
untuk
memaksimalkan keterpisahan antara kelas dan meminimalkan variasi dalam kelas. Fisher-Markov Selector dapat diterapkan untuk data umum dengan dimensi yang berubah-ubah dan beberapa kelas, dan fitur subset yang dipilih berguna untuk pengklasifikasi umum. Fisher-Markov Selector disimbolkan dengan αj ∗ dimana αj ∗ ϵ 0,1 p . Fisher-Markov Selector menggunakan nilai γ dan nilai β untuk menentukan jumlah fitur yang dipilih. Nilai-nilai ini adalah threshold global.
26
Algoritma MRF menggunakan Fisher-Markov Selector adalah sebagai berikut: 1) Masukkan sebuah matriks data dari contoh dataset [x1,…,xn] ϵ Rjxn untuk grup g. Untuk vektor dataset label grup y=[y1,…,yn] dimana yk ϵ {w1,…wg}, k=1…n. 2) Hitung koefisien Markov θj oleh 𝜃𝑗 =
1 𝑛
1 𝑔 𝑖=1 𝑛 𝑖
𝑛𝑖 𝑢,𝑣=1
(𝑖) (𝑖)
𝑥𝑢𝑗 𝑥𝑣𝑗 −
𝛾 𝑛
𝑛 2 𝑖=1 𝑥𝑖𝑗
+
𝛾−1 𝑛2
𝑛 𝑢,𝑣=1 𝑥𝑢𝑗
𝑥𝑣𝑗 (2.3)
Dimana 𝜃𝑗
= koefisien Markov untuk fitur ke-j
𝑛
= jumlah dokumen
g
= jumlah kelas
𝑛𝑖
= jumlah dokumen observasi ditiap kelas
(𝑖)
𝑥𝑢𝑗
(𝑖)
= fitur ke-j pada dokumen observasi ke-u di kelas ke-i
𝑥𝑣𝑗
= fitur ke-j pada dokumen observasi ke-v di kelas ke-i
𝑥𝑖𝑗
= fitur ke-j pada dokumen ke-i
3) Selesaikan masalah LFS oleh 𝜃𝑗 > β
αj ∗ = 1
(2.4)
4) Keluaran adalah perkiraan pemilih fitur dari α*. Metode pemilihan fitur MRF disini menggunakan nilai αj ∗ . Nilai αj ∗ merupakan pemilih fitur yang digunakan sebagai dasar suatu fitur dianggap relevan atau tidak. Nilai pemilih fitur αj ∗ adalah 1 atau 0. Nilai 1 bermakna bahwa fitur relevan, sedangkan nilai 0 bermakna bahwa fitur tidak relevan. Nilai αj ∗ bergantung dari nilai koefisien Markov θj. Ketika nilai θj lebih besar dari nilai β, maka θj atau fitur ke-j memiliki nilai αj ∗ = 1. Ketika nilai θj lebih kecil dari nilai β, maka θj atau fitur ke-j memiliki nilai αj ∗ = 0.
27
2.8
K-means Clustering
2.8.1 Penentuan Jumlah Cluster Algoritma k-means memiliki permasalahan dalam penentuan jumlah cluster terbaik. Identifikasi jumlah cluster k merupakan tahap yang penting pada proses clustering dengan menggunakan algoritma k-means. Hasil cluster menggunakan metode k-means akan bergantung pada jumlah cluster awal sehingga jika jumlah cluster yang ditentukan tidak baik, hasil cluster juga tidak mampu mewakili informasi yang dibutuhkan oleh pengguna. Metode umum yang digunakan untuk menentukan hal tersebut yaitu dengan metode Elbow. Metode Elbow menentukan jumlah cluster terbaik dengan cara melihat persentase hasil perbandingan antara jumlah cluster yang akan membentuk siku pada suatu titik (Madhulata, 2012). Untuk mendapatkan perbandingannya adalah dengan menghitung nilai SSE (Sum of Squared Error) dari beberapa jumlah cluster. Metode ini memberikan gagasan dengan cara memilih nilai cluster dan kemudian menambah nilai cluster tersebut untuk dijadikan model data dalam penentuan cluster terbaik (Bholowalia & Kumar, 2014). Metode elbow juga sangat mudah diimplementasikan dengan cara melihat grafik dari nilai k yang akan dimasukkan. Berdasarkan grafik, akan ada beberapa nilai k yang mengalami penurunan paling besar dan selanjutnya hasil dari K akan turun secara perlahan-lahan sampai hasil dari k stabil. Nilai cluster k yang mengalami penurunan drastis dan memberikan sudut dalam grafik merupakan nilai cluster k yang terbaik. Hasil jumlah cluster k terbaik akan dijadikan dasar untuk melakukan proses clustering dengan menggunakan metode K-means. Algoritma metode elbow dalam menentukan nilai k pada K-means dijelaskan sebagai berikut: 1) Mulai 2) Inisialisasi awal nilai k 3) Naikkan nilai k 4) Hitung nilai SSE (Sum of Squared Error) dari tiap nilai k 5) Melihat hasil SSE (Sum of Squared Error) dari k yang turun secara drastis 6) Tetapkan nilak k yang berbentuk siku 7) Selesai 28
2.8.2
Seed Algoritma K-means mengasumsikan pengetahuan apriori dari jumlah
cluster k dan membutuhkan seed (jumlah kelompok) dengan nilai awal dari pusat cluster untuk dapat diimplementasikan. Nilai-nilai seed awal telah terbukti menjadi faktor penting dari tugas akhir data ke dalam cluster (Khan, 2012). Dengan kata lain, metode K-means sensitif terhadap pemilihan nilai seed awal untuk nilai pusat cluster (Peña, Lozano, & Larrañaga, 1999). Pemilihan jumlah seeds (jumlah kelompok) awal sangat mempengaruhi kualitas pengelompokan penggunakan K-means clustering. Random seed merupakan bentuk paling sederhana dari penentuan seed. Jumlah k dari data poin dipilih secara acak dari data set dan nilai tersebut digunakan sebagai posisi inisial cluster. Hal ini mungkin tampak sebagai strategi yang buruk tetapi cara ini bekerja karena fakta bahwa sebagian besar data poin berada di dekat pusat cluster. Dengan menggunakan random seed, percobaan yang umum adalah untuk melakukan pengelompokan beberapa kali dengan random seed yang baru setiap kali untuk meminimalkan risiko hasil yang buruk. Harianja (2008) melakukan proses clustering menggunakan algoritma Kmeans untuk data penggunaan lahan dari data potensi desa. Clustering dilakukan dengan ukuran cluster 2 hingga 10 menggunakan random seed 5, 10, 15 dan 20. Hasil clustering terbaik diperoleh dengan ukuran cluster 4 dan random seed 20. Nurwidodo & Hariadi (2013)
membuat sistem pendukung keputusan untuk
menentukan calon peserta Pendidikan dan Pelatihan (Diklat) Pendidik dan Tenaga Kependidikan (PTK) yang sesuai dengan persyaratan dan ketentuan dalam pedoman.
Sistem
pendukung
keputusan
tersebut
dilakukan
dengan
mengelompokkan calon peserta Diklat PTK menggunakan teknik clustering. Percobaan dilakukan untuk ukuran cluster 2 sampai 10 menggunakan nilai seed 10, 20, 30 dan 40. Hasil penelitian menemukan clustering terbaik diperoleh dengan ukuran cluster 7 dan random seed 30.
2.8.3
Algoritma K-means Clustering K-means adalah jenis algoritma clustering yang merupakan salah satu
algoritma unsupervised learning di pembelajaran mesin. Algoritma k-means 29
merupakan algoritma clustering berulang sederhana yang membagi dataset ke dalam k-buah kelompok (cluster) yang diinginkan pengguna. Algoritma ini sederhana untuk diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi, dan umum dalam prakteknya (Wu & Kumar, 2009). Pada algoritma pembelajaran ini, komputer mengelompokkan sendiri data-data yang menjadi masukannya tanpa mengetahui terlebih dulu target kelasnya. Masukan yang diterima adalah data atau objek dan k-buah kelompok yang diinginkan. Algoritma ini akan mengelompokkan data atau objek ke dalam k buah kelompok tersebut. Pada setiap kelompok terdapat titik pusat (centroid) yang merepresentasikan kelompok tersebut. K-means merupakan algoritma partitional clustering yang paling luas digunakan dalam prakteknya. Algoritma ini sederhana, mudah dipahami, memiliki kemampuan yang layak, dan dapat dimodifikasi dengan mudah untuk berhadapan dengan skenario yang berbeda seperti semisupervised learning atau streaming data. Algoritma untuk melakukan k-means clustering adalah sebagai berikut: 1) Pilih K buah titik centroid secara acak. 2) Kelompokkan data sehingga terbentuk K buah cluster dengan titik centroid dari setiap cluster merupakan titik centroid yang telah dipilih sebelumnya. 3) Perbaharui nilai titik centroid. 4) Ulangi langkah 2 dan 3 sampai nilai dari titik centroid tidak lagi berubah. Pembaruan suatu titik centroid dari cluster ke-i (Tan, Steinbach, & Kumar, 2005) dihitung menggunakan rumus: c𝑖 =
1 𝑚𝑖
𝑥∈𝐶𝑖
x
(2.6)
Dimana c𝑖
= centroid dari cluster 𝐶𝑖
𝑚𝑖
= jumlah objek pada cluster ke-i
𝐶𝑖
= cluster ke-i
x
= objek
30
Pada K-means clustering, titik K ditempatkan pada ruang. Setelah itu setiap data ditetapkan ke dalam cluster berdasarkan centroid terdekat pada Euclidean distance. Euclidean distance didefinisikan sebagai berikut: 𝐷 𝑥𝑖 , 𝑦𝑖 =
𝑘 (𝑥𝑖𝑘
− 𝑦𝑖𝑘 )2
(2.7)
Dimana 𝑥𝑖 , 𝑦𝑖 = dua buah data yang akan dihitung jaraknya K
2.9
= jumlah cluster
Evaluasi Kinerja Metode yang digunakan untuk menilai ketepatan sebuah teknik clustering
dalam mengelompokkan data menjadi sebuah cluster salah satunya adalah menggunakan Error Rate. Error Rate adalah skala yang menyediakan informasi seberapa banyak jumlah objek yang dikelompokkan secara tidak tepat selama eksperimen (Rathore & Shukla, 2015). Rumus perhitungan nilai Error Rate dapat dijelaskan sebagai berikut: % 𝑒𝑟𝑟𝑜𝑟 =
2.10
𝑇𝑜𝑡𝑎𝑙 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑙𝑦 𝑐𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑑 𝑇𝑜𝑡𝑎𝑙 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑜𝑏𝑗𝑒𝑐𝑡
x 100
(2.8)
Twitter Twitter adalah layanan jejaring sosial yang dimiliki dan dioperasikan oleh
Twitter Inc. dan merupakan mikroblog yang memungkinkan pengguna untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter. Microblog adalah salah satu jenis alat komunikasi online dimana pengguna dapat memperbarui status tentang mereka yang sedang memikirkan dan melakukan sesuatu, pendapat mereka tentang suatu objek atau fenomena. Banyaknya pengguna twitter dikarenakan pengguna dapat mengeluarkan aspirasinya dengan mudah, dibantu dengan banyak media yang mendukung layanan twitter seperti perangkat mobile, PC desktop dan aplikasi web (O'Reilly & Milstein, 2011). Tingginya popularitas twitter menyebabkan layanan ini telah dimanfaatkan untuk
31
berbagai keperluan dalam berbagai aspek misalnya sebagai sarana protes, kampanye politik, sarana pembelajaran dan sebagai media komunikasi. Pemanfaatan jejaring sosial twitter telah mendorong munculnya informasi tekstual yang tidak terbatas, sehingga muncul kebutuhan penyajian tanpa mengurangi nilai dari informasi tersebut. Pesan yang ada pada twitter sebagian besar menggunakan bahasa informal. Analisis atau pengolahan teks semacam ini lebih menantang jika dibandingkan dengan teks-teks formal. Pengguna twitter dapat menulis pesan berdasarkan topik dengan menggunakan # (hashtag). Sedangkan untuk menyebut atau membalas pesan dari pengguna lain dapat menggunakan tanda @ (at). Pesan diatur hanya mempunyai batasan sampai 140 karakter disesuaikan dengan kompatibilitas pesan SMS, memperkenalkan singkatan notasi dan slang yang biasa digunakan dalam pesan SMS. Batas jumlah karakter tersebut meningkatkan penggunaan layanan pemendekan URL (uniform resource locator) seperti bit.ly, tr.im, goo.gl untuk mengakomodasi teks yang lebih panjang dari 140 karakter, serta layanan jasa hosting konten lain misalnya tweetphoto, twitpic, notepub dan memozu.com untuk mengakomodasi pesan yang berisi konten multimedia.
2.11 Waikato Environment For Knowledge Analysis (WEKA) WEKA dikembangkan di Universitas Waikato di Selandia Baru, dan merupakan nama singkatan dari Waikato Environment For Knowledge Analysis (Witten & Frank, 2005). WEKA adalah sebuah koleksi algoritma pembelajaran mesin untuk tugas-tugas penggalian data. Algoritma dapat diterapkan secara langsung ke dataset atau dipanggil dari kode Java sendiri. WEKA berisi alat-alat untuk praproses data, klasifikasi, regresi, clustering, aturan asosiasi dan visualisasi. WEKA juga sesuai untuk mengembangkan skema pembelajaran mesin baru (www.cs.waikato.ac.nz). WEKA menyediakan antarmuka yang seragam untuk banyak algoritma pembelajaran yang berbeda, bersama dengan metode untuk praproses dan postproses dan untuk mengevaluasi hasil skema pembelajaran pada setiap data set yang diberikan (Witten & Frank, 2005). WEKA telah digunakan untuk pengelompokan dokumen berbahasa Cina dengan K-means clustering (Han, Wang, & Zhao, 2011). Ghanem (2014) 32
mengevaluasi pengaruh tahapan praproses pada pengelompokan dokumen berbahasa Arab dengan K-means clustering menggunakan WEKA. Perera, Kay, Koprinska, Yacef, & Zaiane (2009) menggali data dari pekerjaan siswa dalam tim. Penelitian tersebut menggunakan WEKA untuk menemukan kelompok dari tim yang sama dan anggota individu yang sama. Selain itu, WEKA juga digunakan untuk membandingkan algoritma pengelompokkan. Jenitha & Vennila (2014) membandingkan algoritma partitional based clustering dan density based clustering menggunakan WEKA. Beberapa teknik pengelompokkan seperti Kmeans clustering, Farther first clustering, Density Based Clustering dan Filtered clusterer juga diimplementasikan dan dianalisis menggunakan WEKA yang kemudian kinerjanya akan dibandingkan (Godara & Verma, 2013). Hal yang sama juga dilakukan pada K-means clustering, Expectation Maximization (EM) algorithm dan Hierarchical clustering (Sharmila & Mishra, 2013).
33
Halaman ini sengaja dikosongkan
34
BAB 3 METODOLOGI PENELITIAN Bab ini menguraikan tahap – tahap yang akan dilakukan pada penelitian. Gambar 3.1 menjelaskan metodologi penelitian secara umum yang terdiri dari beberapa tahap, yaitu identifikasi masalah, studi literatur, perumusan masalah, penetapan tujuan, ruang lingkup dan kontribusi penelitian, penyiapan data, text clustering, skenario uji coba dan analisa hasil, serta penyusunan kesimpulan dan saran pengembangan penelitian. Tahapan identifikasi masalah, studi literatur, perumusan masalah, penetapan tujuan, ruang lingkup dan kontribusi penelitian telah dijelaskan pada bab pendahuluan. Sedangkan tahap studi literatur yang mencakup landasan teori dan kajian pustaka telah dijelaskan pada bab 2. Pada bab 3 ini dijelaskan mengenai tahapan penyiapan data, text clustering, skenario uji coba dan analisa hasil, serta penyusunan kesimpulan dan saran pengembangan penelitian.
3.1.
Penyiapan Data Penelitian ini menggunakan data keluhan pelanggan mengenai pelayanan
pajak. Pengumpulan data diambil dari jejaring sosial twitter dengan menggunakan Twitter API Stream. Kata kunci yang digunakan adalah „@DitjenPajakRI‟ dan „@kring_pajak‟. Tweet yang terambil adalah tweet yang mengandung kata kunci tersebut, termasuk yang mengandung hashtag (#) maupun mention (@) didalam kata kunci tersebut. Data tweet yang diunduh merupakan data real time dan bukan data yang bersifat historis. Data twitter diambil dari Twitter API (Application Programming Interface) dengan menggunakan package “twitteR” pada R. Data tersebut akan secara otomatis disimpan dalam bentuk file dengan format .csv. Data tersebut terdiri dari banyak atribut yang menyimpan berbagai informasi seperti ‘text’, ‘created’, ‘screenName’, ‘ longitude’, dan sebagainya. Penelitian ini berfokus pada pemilihan fitur yang digunakan untuk clustering keluhan, sehingga atribut yang akan digunakan adalah ‘text’ yang berisi pesan dari twitter atau yang dikenal
35
sebagai tweet. Atribut ‘text’ dipilih untuk selanjutnya disimpan pada basis data dan kemudian akan diolah pada penelitian ini.
Identifikasi masalah
Studi literatur
Perumusan masalah
Penetapan tujuan, ruang lingkup dan kontribusi penelitian
Penyiapan data
Text Clustering
Skenario uji coba dan analisis hasil
Penyusunan kesimpulan dan saran pengembangan penelitian
Gambar 3.1 Metodologi Penelitian
3.2.
Text Clustering Sebelum melakukan clustering, tahapan-tahapan dalam penggalian teks
secara umum adalah praproses teks (text preprocessing) dan pemilihan fitur (feature selection) (Feldman & Sanger, 2007; Berry & Kogan, 2010).
36
3.2.1
Praproses Teks Data teks dari twitter yang telah terkumpul untuk proses clustering perlu
melalui tahap praproses terlebih dahulu sebelum digunakan lebih lanjut. Hal ini perlu dilakukan untuk mengubah data tidak terstruktur yang dikarenakan berasal dari twitter agar menjadi data yang lebih terstruktur. Secara umum proses yang dilakukan dalam tahapan praproses adalah case folding, tokenizing dan filtering. Sebelum melakukan tahapan tersebut, dilakukan tahapan noise cleaning dimana akan menghilangkan tanda hashtag, mention, email, dan URL pada tweet. Hal ini karena tanda-tanda tersebut tidak memiliki makna sehingga akan lebih baik jika tanda tersebut dihapus. a) Case Folding Tweet yang telah dibersihkan pada tahap sebelumnya kemudian semua karakternya diubah menjadi huruf kecil. Selain itu karakter selain huruf „a‟ hingga „z‟ akan dihapus. Hal ini karena karakter selain huruf tersebut dianggap sebagai delimiter, termasuk angka dan tanda baca. b) Tokenizing Tweet yang telah diolah pada tahap sebelumnya harus dipecah menjadi token/kata. Sebuah tweet dipecah menjadi token dengan menggunakan karakter whitespace sebagai pemecahnya. Hasil token-token ini yang selanjutnya akan disimpan menjadi fitur pada masing-masing kelas. c) Filtering Tahap ini mengambil kata-kata penting dari hasil tokenizing. Hal ini dilakukan dengan menghapus stopword atau kata-kata tidak deskriptif yang bukan merupakan kata unik yang mencirikan suatu kategori tertentu. Proses ini dilakukan berdasarkan stoplist yang berisi stopword yang telah ditentukan sebelumnya. Kemudian kata yang terdapat pada tweet akan dibandingkan dengan daftar stopword, jika terdapat kata-kata yang berada dalam stopword maka kata tersebut akan dihapus dari tweet. Kata-kata yang termasuk ke dalam stopword dihilangkan karena terlalu sering muncul dalam dokumen dan bukan merupakan pembeda yang baik dalam proses penggalian teks.
37
3.2.2
Pembobotan Sebelum melakukan pemilihan fitur maka terlebih dahulu dilakukan
pembobotan, Dalam hal ini yaitu mengubah data teks menjadi data numerik. Penelitian ini melakukan pembobotan dengan metode TF-IDF yang mengukur seberapa penting sebuah kata dalam kumpulan dokumen. Tingkat kepentingan meningkat ketika sebuah kata muncul beberapa kali dalam sebuah dokumen tetapi diimbangi dengan frekuensi kemunculan kata tersebut dalam kumpulan dokumen. Rumus perhitungan skema pembobotan kata TF-IDF telah dibahas pada bagian 2.6. Perhitungan pembobotan menggunakan metode pembobotan TF dilakukan untuk memperoleh perbandingan penggunaan pembobotan pada penelitian ini.
3.2.3
Pemilihan Fitur Setelah melakukan pembobotan menggunakan metode TF-IDF maka
selanjutnya yaitu memilih kata apa saja yang dapat dijadikan wakil penting untuk kumpulan dokumen yang akan dianalisis. Proses ini disebut metode pemilihan fitur yang pada penelitian ini menggunakan metode pemilihan fitur Markov Random Field (MRF). Pemilihan fitur Markov Random Field (MRF) merupakan sebuah metode yang diterapkan untuk memilih fitur menggunakan teknik optimasi Markov Random Field (Claypo & Jaiyen, 2015). Penelitian ini menggunakan metode tersebut karena dapat secara efektif mengurangi jumlah fitur dan waktu komputasi. Selain itu metode pemilihan fitur Markov Random Field (MRF) juga kompatibel dengan K-means clustering karena dapat mencapai kinerja terbaik ketika dibandingkan dengan metode clustering lain. Rumus perhitungan pemilihan fitur Markov Random Field (MRF) telah dibahas pada bagian 2.7.
3.2.4
K-means Clustering Data yang telah melalui tahap praproses dan pemilihan fitur selanjutnya
dapat digunakan dalam proses clustering. Proses clustering pada penelitian ini menggunakan metode K-means clustering. Algoritma untuk melakukan K-Means clustering adalah sebagai berikut: 1) Pilih K buah titik centroid secara acak.
38
2) Kelompokkan data sehingga terbentuk K buah cluster dengan titik centroid dari setiap cluster merupakan titik centroid yang telah dipilih sebelumnya. 3) Perbaharui nilai titik centroid. 4) Ulangi langkah 2 dan 3 sampai nilai dari titik centroid tidak lagi berubah. Setelah titik K ditempatkan dalam ruang, kemudian setiap data ditetapkan ke dalam cluster berdasarkan centroid terdekat menggunakan Euclidean distance. Penerapan metode ini akan dibantu dengan menggunakan metode clustering dalam aplikasi perangkat lunak WEKA 3.7 yang merupakan aplikasi perangkat lunak yang digunakan untuk melakukan proses clustering baik clustering data yang berbentuk teks maupun angka.
Tweet
Evaluasi Kinerja Error Rate
Praproses Teks Case Folding Tokenizing Filtering
Pembobotan TF-IDF
Clustering K-means
Pemilihan Fitur Random Markov Field (RMF)
Gambar 3.2 Proses Text Clustering
3.2.5
Evaluasi kinerja Setelah semua proses dari tahapan praproses teks, pemilihan fitur hingga
clustering menggunakan K-means clustering dilakukan, selanjutnya mengevaluasi hasil kinerja clustering. Pada penelitian ini, evaluasi kinerja clustering dilihat berdasarkan nilai Error Rate. Secara umum proses text clustering dapat dilihat pada Gambar 3.2.
39
3.3.
Skenario Uji Coba dan Analisis Hasil Bagian ini menjelaskan mengenai skenario uji coba dan analisisnya.
Skenario uji coba ini merupakan rencana uji coba sehingga analisis dari uji coba yang dilakukan dapat menjawab rumusan masalah dan tujuan yang telah ditetapkan sebelumnya. Penelitian ini berfokus pada peran metode pemilihan fitur yang terdapat pada tahap praproses teks untuk clustering. Oleh karena itu pada penelitian ini akan dilakukan kombinasi antara TF-IDF dan pemilihan fitur Markov Random Field (MRF). Pada uji coba penelitian ini terdapat empat skenario uji coba. Skenario pertama yaitu skenario untuk menentukan jumlah cluster yang optimal. Skenario ini ditujukan untuk mengetahui jumlah cluster yang paling optimal yang kemudian akan digunakan pada tahapan selanjutnya. Setelah mendapatkan jumlah cluster, skenario kedua adalah perhitungan pembobotan dimana akan dihitung bobot fitur menggunakan dua metode pembobotan. Skenario ketiga adalah penentuan jumlah fitur dengan menggunakan pemilihan fitur Markov Random Field. Pada skenario ini akan didapatkan jumlah fitur yang berbeda sesuai dengan perhitungan jumlah bobot. Skenario keempat yaitu perbandingan kinerja clustering. Pada skenario ini akan dilakukan clustering menggunakan K-means clustering. Hasil percobaan yang telah dirancang sesuai skenario uji coba kemudian dianalisis untuk mengetahui kinerja dari clustering dan dampak dari kombinasi metode tersebut.
3.4.
Penyusunan Kesimpulan dan Saran Pengembangan Penelitian Tahapan ini dilakukan untuk pembuatan kesimpulan pada penelitian yang
telah dilakukan, kesimpulan pada penelitian ini akan merangkum jawaban dari permasalahan dan menjawab tujuan yang telah ditentukan pada awal penelitian mulai dirancang. Selain itu, saran pengembangan terhadap penelitian ini juga disusun pada tahap ini.
40
BAB 4 UJI COBA DAN HASIL Bab ini menjelaskan mengenai proses-proses penelitian yang telah dilakukan. Proses pada penelitian ini antara lain penyiapan data, praproses teks, pembobotan, pemilihan fitur dan clustering twitter keluhan pajak. Selain itu dilakukan proses uji coba dengan melakukan perbandingan terhadap kinerja berdasarkan data yang diperoleh menggunakan aplikasi yang telah dibangun atau alat teknik penggalian data. Proses yang telah dilakukan pada penelitian ini secara detail dapat ditunjukkan pada Gambar 4.1.
Penyiapan Data
Praproses Teks
Proses Uji Coba dan Hasil
Pengumpulan Data
Case Folding
Penentuan Jumlah Cluster
Diskusi dan Rekomendasi
Pembobotan Bentuk Standar Data
Tokenizing
Dataset
Filtering
TF TF-IDF
Penentuan Jumlah Fitur
Kesimpulan dan Saran
Perbandingan Kinerja Clustering
Gambar 4.1 Tahapan Alur Penelitian
Gambar 4.1 menunjukkan tahapan yang dilakukan dalam proses clustering twitter keluhan pajak. Hal pertama yang dilakukan yaitu penyiapan data. Tahap penyiapan data merupakan tahap dimana pengambilan data dilakukan. Data yang telah diperoleh kemudian akan dijadikan bentuk standar yang memenuhi format pada aplikasi yang telah dibangun dan juga alat teknik penggalian data. Setelah menjadi bentuk standar data yang diinginkan maka data akan menjadi dataset yang siap digunakan pada proses selanjutnya.
41
Dataset twitter keluhan pajak yang terbentuk pada tahap penyiapan data akan melalui praproses teks untuk menghilangkan noise. Data twit yang mengandung nama akun, url, hashtag dihilangkan terlebih dahulu sebelum melakukan tahap praproses teks. Proses yang dilakukan pada tahapan ini yaitu case folding, tokenizing dan filtering. Tahap praproses menghasilkan data twit yang telah menjadi kata per kata yang pada penelitian ini disebut sebagai fitur. Hasil praproses teks ini digunakan sebagai masukan untuk tahap pemilihan fitur. Proses uji coba dilakukan setelah data twit melalui tahapan praproses. Proses uji coba pada penelitian ini yaitu melakukan penentuan jumlah cluster terbaik, kemudian melakukan pembobotan dengan menggunakan dua metode pembobotan yang berbeda. Uji coba pembobotan ini menghasilkan nilai bobot yang berbeda untuk fitur yang sama. Setelah itu, menentukan jumlah fitur terpilih menggunakan metode pemilihan fitur. Proses clustering dilakukan dengan menggunakan fitur-fitur yang terpilih berdasarkan proses pemilihan fitur. Hasil clustering kemudian dievaluasi dan dibandingkan kinerjanya. Tahap akhir penelitian ini yaitu melakukan diskusi dan rekomendasi terkait analisis hasil yang diperoleh.
4.1
Penyiapan Data Tahap penyiapan data merupakan tahapan untuk mempersiapkan data yang
digunakan pada penelitian ini. Proses yang dilakukan pada tahapan ini meliputi proses pengumpulan data dan proses pembentukan data menjadi bentuk standar data yang bisa diolah menggunakan aplikasi yang telah dibangun atau alat teknik penggalian data.
4.1.1 Pengumpulan Data Penelitian ini menggunakan data keluhan pelanggan terkait pajak. Proses pengumpulan data dilakukan melalui jejaring sosial twitter dengan menggunakan Twitter API Stream. Data twitter keluhan pajak yang digunakan dalam penelitian ini merupakan data waktu nyata yang didapatkan dalam rentang waktu 23 Mei 2016 – 1 Juni 2016. Data tweet yang diambil yaitu data tweet yang tertuju ke akun twitter @kring_pajak dan atau @DitjenPajakRI. Data tweet yang terkumpul 42
sebanyak 995 tweet. Data tweet ini masih berisi tweet yang mengandung baik keluhan maupun non keluhan. Tabel 4.1 merupakan contoh data twitter keluhan pajak yang telah didapatkan.
Tabel 4.1 Contoh Data Twitter Keluhan Pajak No
Data Twitter @kring_pajak Daftar npwp Online ditolak 3 sampe kali, mana
1
penjelasannya singkat dan GAK JELAS. mau peduli sama negara aja kok dipersulit!
2
3
4 5
4.1.2
@kring_pajak Pak.., kami sudah hampir 1 bulan registrasi/bikin NPWP Online, tapi sampai sekarang belum ada kabar @kring_pajak tanya ke
nomer 0211500200 jawaban nya kurang
memuaskan..malah di suruh tanya ke kpp cileungsi lg. gimana yah ?? Ini udah jam 13.10, kok pegawai @PajakTebet nya ga ada yg nongol, antrian uda panjang lho. Cc @DitjenPajakRI @kring_pajak @kring_pajak udah 10 ribu kali konfirmasi. pelayanan payah. benar2 bobrok
Bentuk Standar Data Penelitian ini menggunakan bantuan tools perangkat lunak WEKA.
Bentuk standar data yang digunakan pada WEKA yaitu data dengan format CSV (Comma Separated Value) atau ARFF (Attribute-Relation File Format). Gambar 4.2 menunjukkan bentuk standar data dengan format ARFF. Pada Gambar 4.2 dapat dilihat bahwa data dalam format ARFF memiliki dua bagian yang berbeda. Bagian pertama adalah informasi header, yang diikuti oleh informasi data. Header dari data ARFF meliputi deklarasi relasi yang diawali dengan @relation, dan juga deklarasi atribut yang diawali dengan @attribute dimana terdiri dari daftar atribut (kolom dalam data) dan tipe atribut. Pelayanan, website dan non-keluhan merupakan cluster yang akan digunakan pada penelitian ini. Tipe data dalam WEKA antara lain numeric (real atau integer), nominal, string dan date. Atribut uraian berisi teks keluhan pajak sehingga tipe datanya berupa string. Bagian data berisi deklarasi data yang diawali dengan @data, dan barisan data sebenarnya.
43
@relation pajak @attribute cluster {pelayanan,website,non-keluhan} @attribute uraian string @data "pelayanan","@kring_pajak Daftar npwp Online ditolak 3 sampe kali, mana penjelasannya singkat dan GAK JELAS. mau peduli sama negara aja kok dipersulit!" "pelayanan","@kring_pajak Pak.., kami sudah hampir 1 bulan registrasi/bikin NPWP Online, tapi sampai sekarang belum ada kabar" "pelayanan","@kring_pajak tanya ke nomer 0211500200 jawaban nya kurang memuaskan..malah di suruh tanya ke kpp cileungsi lg. gimana yah ??" "pelayanan","@kring_pajak Ini udah jam 13.10, kok pegawai nya ga ada yg nongol, antrian uda panjang lho" "pelayanan","@kring_pajak udah 10 ribu kali konfirmasi. pelayanan payah. benar2 bobrok"
Gambar 4.2 Bentuk Standar Data Berformat ARFF
4.2
Praproses Teks Data teks dari twitter yang telah terkumpul untuk proses skenario uji coba
perlu melalui tahap praproses terlebih dahulu sebelum digunakan lebih lanjut. Tahap praproses ini bertujuan untuk mempersiapkan data mentah agar dapat diolah pada proses selanjutnya. Praproses teks pada penelitian ini dilakukan melalui program aplikasi yang telah dibangun. Source code program untuk melakukan praproses teks dapat dilihat pada Lampiran. Source code tersebut bekerja dengan mengikuti algoritma yang ditunjukkan pada Gambar 4.3. langkah pertama menginisialisasi variabel delimiter. Delimiter yaitu karakter selain huruf a hingga z seperti angka dan tanda baca, kecuali spasi. Dalam hal ini spasi tidak dihilangkan karena dijadikan sebagai pemisah antar kata. Setelah di inisialisasi maka delimiter akan diganti dengan tanda spasi untuk menghindari pembentukan kata baru akibat penggabungan kata. Kemudian melakukan penyeragaman kata menjadi huruf kecil. Kata yang terdapat pada tiap dokumen yang berbentuk kalimat dipecah menjadi kata per kata. Proses penggantian delimiter hingga pemecahan kalimat menjadi kata dilakukan berulang untuk setiap data dokumen.
44
Proses selanjutnya, program akan menghapus kata redundan, dilanjutkan dengan menghapus kata yang dianggap tidak memiliki makna dengan menggunakan kamus stopword. Tahap praproses yang dilakukan antara lain noise cleaning, case folding, tokenizing dan filtering. Contoh rincian hasil dari setiap tahapan praproses teks dapat dilihat pada Tabel 4.2.
1. MULAI 2. Inisialisasi variabel delimiter 3. FOR perulangan data dokumen 4. Ganti delimiter yang ada pada isi dokumen menjadi spasi 5. Simpan 6. Ubah ke dalam format lowercase 7. Pecah kalimat menjadi kata 8. Simpan 9. END FOR 10. Menghapus kata redundan 11. Menghapus kata berdasarkan kamus stopword 12. SELESAI Gambar 4.3 Algoritma Praproses Teks
Dapat dilihat pada Tabel 4.2 bahwa proses noise cleaning membersihkan nama akun twitter „@kring_pajak‟ yang semula berada pada kalimat asli. Pada proses case folding, karakter selain huruf yaitu angka dan tanda baca dihilangkan yang diikuti oleh penyeragaman huruf menjadi huruf kecil. Dapat dilihat bahwa angka '3', tanda baca '.' dan '!' hilang setelah melalui tahap case folding. Kalimat yang telah melalui proses case folding kemudian dipecah menjadi kata per kata melalui proses tokenizing. Kata hasil pemecahan kalimat pada proses tokenizing tersebut yang digunakan sebagai fitur pada penelitian ini. Fitur-fitur tersebut masih berisikan fitur yang memiliki makna dan tidak. Oleh karenanya, dilakukan proses filtering dimana akan menghilangkan fitur yang tidak memiliki makna. Proses filtering ini menggunakan kamus stopword yang berisikan daftar kata tidak bermakna. Seperti yang ditunjukkan pada Tabel 4.2 bahwa kata „mana, „dan‟, „gak‟, „mau‟, „aja, „kok‟ dihilangkan pada proses filtering karena tidak memiliki makna ketika proses clustering dilakukan. Data tweet yang telah melalui 45
keseluruhan tahap praproses menghasilkan 1917 kata/fitur yang unik. Data tweet yang telah melalui tahapan praproses teks dapat selanjutnya digunakan pada proses pelaksanaan uji coba.
Tabel 4.2 Contoh Tahapan Praproses Teks Tahapan Kalimat Asli
Contoh Hasil Praproses Teks @kring_pajak Daftar npwp Online ditolak 3 sampe kali, mana penjelasannya singkat dan GAK JELAS. mau peduli sama negara aja kok dipersulit!
Noise Cleaning
Daftar npwp Online ditolak 3 sampe kali, mana penjelasannya singkat dan GAK JELAS. mau peduli sama negara aja kok dipersulit!
Case Folding
daftar
npwp
online
ditolak
sampe
kali
mana
penjelasannya singkat dan gak jelas mau peduli sama negara aja kok dipersulit Tokenizing
daftar; npwp; online; ditolak; sampe; kali; mana; penjelasannya; singkat; dan; gak; jelas; mau; peduli; sama; negara; aja; kok; dipersulit
Filtering
daftar; npwp; online; ditolak; sampe; kali; penjelasannya; singkat; jelas; peduli; sama; negara; dipersulit
4.3
Pelaksanaan dan Hasil Uji Coba Bagian ini akan menjelaskan rincian pelaksanaan dan hasil uji coba sesuai
dengan skenario uji coba yang telah dijabarkan sebelumnya. 4.3.1 Uji Coba Penentuan Jumlah Cluster Tahap awal yang harus dilakukan sebelum melakukan clustering yaitu menentukan jumlah cluster yang optimal. Skenario ini bertujuan untuk mendapatkan jumlah cluster yang optimal yang dianggap paling mampu merepresentasikan informasi yang diperoleh. Penentuan jumlah cluster pada penelitian ini menggunakan metode Elbow, yakni dengan melihat nilai Sum of Squared Error (SSE) di setiap cluster yang diujikan. Jika nilai SSE diletakkan ke
46
dalam suatu grafik dan terjadi sebuah elbow atau lekukan tajam yang hampir membentuk siku, maka cluster dimana terjadi elbow merupakan cluster yang terbaik. Selain itu cluster terbaik didapatkan ketika selisih cluster sebelumnya bernilai besar dan selisih cluster setelahnya bernilai kecil. Pada penelitian ini, dilakukan beberapa pengujian menggunakan jumlah cluster yang berbeda untuk memperoleh perbandingan nilai Sum of Squared Error (SSE). Uji coba dilakukan menggunakan jumlah cluster 2, 3, 4 dan 5. Pemilihan jumlah seeds (jumlah kelompok) awal sangat mempengaruhi kualitas pengelompokan penggunakan Kmeans clustering. Oleh karena itu, setiap cluster akan diujicobakan menggunakan beberapa nilai seed untuk mendapatkan hasil cluster dan jumlah seed yang optimal. Seed yang digunakan yaitu 1, 5, 10 dan 15. Tabel 4.3 menunjukkan hasil perhitungan nilai SSE ditiap cluster yang telah diujikan pada beberapa nilai seed.
Tabel 4.3 Hasil Sum of Squared Error setiap Cluster Cluster 1 2 3 4 5
Seed 1 6898.466 6754.673 6711.43 6597.68 6545.126
5 6898.466 6819.301 6799.086 6789.393 6726.049
10 6898.466 6774.861 6696.36 6591.815 6551.519
15 6898.466 6774.861 6688.394 6678.599 6661.48
Tingkat perubahan nilai SSE didapatkan dengan mencari selisih antar cluster di masing-masing nilai seed. Cluster yang terbaik dapat ditemukan ketika selisih cluster sebelumnya bernilai besar dan cluster setelahnya bernilai kecil. Tabel 4.4 menunjukkan selisih nilai SSE setiap cluster.
Tabel 4.4 Selisih Sum of Squared Error setiap Cluster Cluster 2 3 4 5
Seed 1 143.793 43.243 113.75 52.554
5 79.165 20.215 9.693 63.344 47
10 123.605 78.501 104.545 40.296
15 123.605 86.467 9.795 17.119
Selain itu, hasil perbandingan nilai Sum of Squared Error (SSE) di setiap cluster dapat ditunjukkan menggunakan grafik yang dapat dilihat pada Gambar 4.4.
Grafik Elbow 6950 Elbow atau lekukan tajam
6900 6850 Nilai SSE
6800 6750
Seed 1
6700
Seed 5
6650
Seed 10
6600
Seed 15
6550 6500 1
2
3
4
5
Jumlah Cluster
Gambar 4.4. Grafik Perbandingan Sum of Squared Error setiap Cluster
Tabel 4.3 menunjukkan nilai SSE pada cluster 2, 3, 4 dan 5 yang tiap clusternya diujikan pada beberapa nilai seed yang berbeda dimana bertujuan untuk memperoleh grafik elbow yang optimal. Nilai SSE pada cluster 1 dimasukkan ke perhitungan karena digunakan untuk memperoleh selisih antara cluster 1 dan cluster 2. Nilai SSE yang diperoleh kemudian disajikan dalam bentuk grafik untuk memperoleh grafik elbow. Gambar 4.4 menunjukkan grafik elbow yang terbentuk dari nilai SSE di tiap cluster. Dapat dilihat pada Gambar 4.4 bahwa elbow (lekukan tajam) terbentuk ketika berada pada cluster 3. Selain itu grafik elbow terjadi ketika nilai seed yang digunakan adalah 15. Selisih perubahan nilai SSE di setiap cluster pada beberapa nilai seed dapat dilihat pada Tabel 4.4. Tabel 4.4 menunjukkan bahwa pada nilai seed 15, Cluster 2 mengalami penurunan yang besar sebanyak 123.605 dan pada cluster 4 penurunan berkurang signifikan menjadi 9.795. Nilai penurunan yang besar pada cluster 2 dan penurunan yang 48
berkurang secara signifikan pada cluster 4 itu terjadi ketika dilihat pada cluster 3. Dengan melihat penjelasan terkait Tabel 4.4 dan Gambar 4.4, maka dapat disimpulkan bahwa cluster 3 merupakan cluster yang terbaik dengan nilai seed yang digunakan yaitu 15.
4.3.2
Uji Coba Perhitungan Pembobotan Pada uji coba ini dilakukan pembobotan menggunakan dua metode
pembobotan yaitu Term Frequency (TF) dan Term Frequency - Inverse Document Frequency (TF-IDF). Uji coba ini dilakukan untuk mengetahui bobot atau tingkat kepentingan suatu kata pada dokumen. Hasil dari uji coba perhitungan menggunakan dua jenis metode pembobotan ini kemudian akan dijadikan sebagai dasar dalam menentukan fitur yang akan terpilih dalam tahap pemilihan fitur. Hasil pembobotan ini berbentuk matriks fitur berdimensi 1917 x 995 dimana 1917 menunjukkan jumlah fitur yang unik dan 995 menunjukkan jumlah dokumen.
a. Pembobotan Term Frequency (TF) Metode pembobotan ini menghitung frekuensi kemunculan suatu kata di setiap dokumen. Pada penelitian ini setiap tweet akan dianggap sebagai satu dokumen. Setiap kata yang terdapat pada tweet akan dianggap sebagai fitur. Langkah yang dilakukan dalam menghitung bobot fitur menggunakan Term Frequency (TF) yaitu: 1) Mendaftar fitur apa saja yang terdapat pada satu dokumen. 2) Setiap fitur dihitung berapa kali muncul dalam satu dokumen tersebut. 3) Frekuensi kemunculan fitur pada dokumen tersebut kemudian ditampilkan dalam bentuk matriks (fitur x dokumen). Berikut adalah contoh perhitungan bobot fitur menggunakan Term Frequency (TF) dengan menggunakan beberapa dokumen yang telah melalui keseluruhan tahapan praproses teks. Contoh kata pada tiga dokumen twitter keluhan pajak dalam penelitian ini yaitu sebagai berikut:
49
D1 : error, lapor, pajak D2 : error, id, billing, terbit D3 : down, kode, billing, bayar Fitur pertama pada dokumen D1 yaitu fitur „error. Fitur „error hanya muncul satu kali pada dokumen D1, sehingga dapat dikatakan bahwa nilai bobot fitur „error‟ pada dokumen D1 yaitu 1. Demikian juga dengan fitur kedua pada dokumen D1 yaitu fitur „lapor‟. Fitur „lapor‟ muncul di dokumen D1 sebanyak satu kali, sehingga dapat dikatakan bahwa nilai bobot fitur „lapor” pada dokumen D1 yaitu 1. Namun fitur „lapor‟ tidak muncul di dokumen D2 sehingga nilai bobot fitur „lapor‟ pada dokumen D2 yaitu 0. Hasil perhitungan pembobotan Term Frequency (TF) pada beberapa contoh dokumen twitter keluhan pajak diatas kemudian dipetakan ke dalam bentuk matriks yang dapat dilihat pada Tabel 4.5.
Tabel 4.5 Contoh Hasil Pembobotan Term Frequency (TF) Fitur error lapor pajak id billing terbit down kode bayar
D1 1 1 1 0 0 0 0 0 0
D2 1 0 0 1 1 1 0 0 0
D3 0 0 0 0 1 0 1 1 1
b. Pembobotan Term Frequency - Inverse Document Frequency (TF-IDF) Metode pembobotan ini menghitung nilai bobot fitur dengan mengukur tingkat kepentingan fitur yang muncul pada satu dokumen dan diimbangi dengan frekuensi kemunculan fitur tersebut dalam sekumpulan dokumen. Langkah yang dilakukan untuk menghitung nilai bobot fitur menggunakan Term Frequency Inverse Document Frequency (TF-IDF) yaitu:
50
1) Menghitung nilai term frequency (tf) Nilai tf didapatkan dengan menghitung bobot fitur menggunakan metode pembobotan Term Frequency (tf). Hasil bobot tf dapat dilihat pada Tabel 4.5. 2) Menghitung nilai document frequency (df) Document frequency (df) merupakan jumlah dokumen yang mengandung suatu fitur tertentu. Setelah melalui proses pembobotan Term Frequency (tf) maka dapat diketahui berapa jumlah dokumen yang mengandung suatu fitur. Tabel 4.6 menjelaskan nilai df atau jumlah dokumen yang mengandung fitur pada contoh dokumen twitter keluhan pajak sebelumnya yaitu D1, D2 dan D3. Tabel 4.6 menjelaskan bahwa fitur „error‟ muncul di tiap dokumen sebanyak 51 dokumen. Selanjutnya fitur „lapor‟ muncul di tiap dokumen sebanyak 18 dokumen. Hasil nilai df yang diperoleh tersebut merupakan nilai df yang telah dihitung terhadap keseluruhan data yang digunakan pada penelitian ini yaitu sebanyak 995 dokumen tweet. Tabel 4.6 Contoh Hasil Nilai df Fitur
df 51 18 218 21 58 5 4 27 33
error lapor pajak id billing terbit down kode bayar
3) Menghitung nilai inverse document frequency (idf) Inverse document frequency (idf) menghitung nilai bobot suatu fitur dilihat dari seringnya suatu fitur tersebut muncul di beberapa dokumen. Semakin sering suatu fitur muncul di banyak dokumen, maka nilai idf akan kecil. Nilai idf dihitung menggunakan rumus 2.2 dimana N adalah jumlah
51
keseluruhan dokumen yaitu 995 dokumen. Contoh perhitungan nilai idf pada fitur „error‟ atau 𝑖𝑑𝑓 𝑒𝑟𝑟𝑜𝑟 adalah sebagai berikut: 𝐼𝐷𝐹 𝑒𝑟𝑟𝑜𝑟 = log = log
𝑁 𝑑𝑓 𝑒𝑟𝑟𝑜𝑟
995 51
= log10 19.5098 = 1.29025 Berdasarkan perhitungan diatas maka didapatkan nilai idf fitur „error‟ adalah sebesar 1.29025. Ringkasan perhitungan nilai idf untuk fitur-fitur yang terdapat pada dokumen D1, D2 dan D3 dapat ditunjukkan pada Tabel 4.7 Tabel 4.7 Contoh Hasil Nilai idf Fitur error lapor pajak id billing terbit down kode bayar
df
D/df
IDF= 𝒍𝒐𝒈𝟏𝟎(D/df)
51 18 218 21 58 5 4 27 33
19.5098 55.27778 4.56422 47.38095 17.15517 199 248.75 36.85185 30.15152
1.29025 1.74255 0.65937 1.6756 1.2344 2.29885 2.39576 1.56646 1.47931
4) Menghitung nilai tf-idf Nilai bobot TF-IDF diperoleh dengan menggunakan rumus 2.1 yaitu dengan mengalikan nilai tf dengan nilai idf. Berikut ini dijelaskan contoh menghitung nilai TF-IDF untuk fitur „error‟ di dokumen D1 yaitu: 𝑊 𝑒𝑟𝑟𝑜𝑟, 𝐷1 = 𝑇𝐹 𝑒𝑟𝑟𝑜𝑟, 𝐷1 x 𝐼𝐷𝐹(𝑒𝑟𝑟𝑜𝑟) = 1 x 1.29025 = 1.29025
52
Sedangkan contoh perhitungan nilai TF-IDF untuk fitur ‟error‟ di dokumen D2 yaitu: 𝑊 𝑒𝑟𝑟𝑜𝑟, 𝐷2 = 𝑇𝐹 𝑒𝑟𝑟𝑜𝑟, 𝐷2 x 𝐼𝐷𝐹(𝑒𝑟𝑟𝑜𝑟) = 1 x 1.29025 = 1.29025 Contoh perhitungan nilai TF-IDF untuk fitur ‟error‟ pada dokumen D3: 𝑊 𝑒𝑟𝑟𝑜𝑟, 𝐷3 = 𝑇𝐹 𝑒𝑟𝑟𝑜𝑟, 𝐷3 x 𝐼𝐷𝐹(𝑒𝑟𝑟𝑜𝑟) = 0 x 1.29025 =0 Berdasarkan perhitungan diatas maka bobot fitur „error‟ pada dokumen D1 sebesar 1.29025 dan pada dokumen D2 sebesar 1.29025. Sedangkan bobot fitur „error‟ pada dokumen D3 yaitu 0, dikarenakan tf fitur tersebut bernilai 0. Perbandingan hasil perhitungan pembobotan fitur pada twitter keluhan pajak di dokumen D1, D2 dan D3 dengan menggunakan metode pembobotan TF dan TF-IDF dapat dilihat pada Tabel 4.8. Hasil pada Tabel 4.8 merupakan bobot yang telah dihitung terhadap keseluruhan jumlah dokumen yaitu 995 dokumen tweet dan jumlah fitur yaitu 1917 fitur.
Tabel 4.8 Perbandingan Hasil Pembobotan TF dan TF-IDF Fitur
TF
IDF
TF-IDF
D1
D2
D3
error
1
1
0
1.29025
1.29025 1.29025
0
lapor
1
0
0
1.74255
1.74255
0
0
pajak
1
0
0
0.65937
0.65937
0
0
id
0
1
0
1.6756
0
1.6756
0
billing
0
1
1
1.2344
0
1.2344
1.2344
terbit
0
1
0
2.29885
0
2.29885
0
down
0
0
1
2.39576
0
0
2.39576
kode
0
0
1
1.56646
0
0
1.56646
bayar
0
0
1
1.47931
0
0
1.47931
53
D1
D2
D3
Perhitungan pembobotan menggunakan dua metode pembobotan yaitu Term Frequency (TF) dan Term Frequency - Inverse Document Frequency (TFIDF). Seperti yang diperlihatkan pada Tabel 4.8, terdapat perbedaan pada nilai bobot TF dan TF-IDF. Fitur „error‟, „lapor‟ dan „pajak‟ memiliki nilai bobot 1 pada dokumen D1 karena ketiga fitur tersebut muncul di dokumen D1 sebanyak satu kali. Kemudian pada dokumen D2, fitur „error‟, „id‟, „billing‟ dan „terbit‟ memiliki bobot 1. Fitur-fitur yang ada pada dokumen D3 juga memiliki nilai bobot 1 yaitu fitur „billing‟, „down‟, „kode‟ dan „bayar‟. Bobot pada metode pembobotan TF-IDF memiliki nilai berbeda-beda. Pada hasil pembobotan TF-IDF di dokumen D1, fitur „error‟ memiliki bobot 1.29025 dimana lebih kecil dari bobot fitur „lapor‟ yaitu sebesar 1.74255. Namun bobot fitur „error‟ memiliki nilai lebih besar bila dibandingkan fitur „pajak‟ yang bernilai 0.65937. Pada dokumen D2, fitur yang memiliki bobot secara berurutan dari yang terkecil yaitu „billing‟, „error‟, „id‟ dan „terbit‟ dimana masing-masing bobotnya adalah 1.2344, 1.29025, 1.6756 dan 2.29885. Kemudian fitur „billing‟, „down‟, „kode‟, „bayar‟ pada dokumen D3 masing-masing memiliki bobot sebesar 1.2344, 2.39576, 1.56646, 1.47931. Terlihat perbedaan nilai bobot pada penggunaan kedua metode pembobotan TF dan TF-IDF. Nilai bobot fitur pada dokumen D1 bergantung dari jumlah kemunculan fitur pada dokumen D1, dan berlaku hal yang sama untuk dokumen D2 dan D3. Sedangkan pada metode TF-IDF, nilai bobot bervariasi dan bisa lebih kecil atau lebih besar dari bobot TF. Hal ini dikarenakan metode pembobotan TF-IDF tidak hanya melihat jumlah kehadiran fitur di satu dokumen, tapi juga melihat jumlah kehadiran fitur tersebut di beberapa dokumen. Jumlah kehadiran fitur pada beberapa dokumen yang berbeda dapat dilihat pada hasil nilai df di Tabel 4.6. Nilai df untuk fitur „error‟ yaitu 51 yang bermakna fitur „error‟ telah muncul pada 51 dokumen berbeda. Sedangkan fitur „lapor‟ hanya muncul pada 18 dokumen berbeda. Oleh karena itu bobot fitur „error‟ pada dokumen D1 bernilai lebih kecil dari fitur „lapor‟ karena fitur „error‟ lebih sering muncul di beberapa dokumen daripada fitur „lapor‟. Bila dibandingkan dengan fitur „pajak‟ maka bobot „error‟ bernilai lebih besar. Selain itu karena fitur „pajak‟ lebih sering muncul pada dokumen yang berbeda yaitu sebanyak 218 dokumen. 54
4.3.3
Uji Coba Penentuan Jumlah Fitur Penelitian ini menentukan jumlah fitur dengan menggunakan pemilihan
fitur Markov Random Field (MRF). Pemilihan fitur MRF memanfaatkan FisherMarkov Selector dalam memilih fitur-fitur yang optimal. Fisher-Markov Selector menggunakan nilai γ dan nilai β untuk menentukan jumlah fitur yang dipilih. Nilai β didefinisikan secara berbeda untuk menemukan kinerja yang optimal pada teknik ini. Nilai β ditentukan sebagai 0.06, 0.05, 0.04, 0.03, 0.02, dan 0.01. Sedangkan nilai γ ditentukan sebagai -0.5 untuk menentukan jumlah fitur yang terpilih. Metode pemilihan fitur ini membutuhkan dataset berlabel. Sehingga dataset yang diperoleh akan diberi label mengikuti hasil penentuan jumlah cluster pada Bagian 4.5.1 yaitu sebanyak 3 cluster. Proses pelabelan dokumen menghasilkan 249 dokumen dengan label keluhan pelayanan, 233 dokumen dengan label website dan 513 dokumen dengan label non keluhan. Prosedur perhitungan metode ini dengan mengambil contoh perhitungan untuk fitur j=„error‟ adalah sebagai berikut: 1) Masukan adalah sebuah dataset berbentuk matriks 𝑅𝑗𝑥𝑛 . Nilai j merupakan fitur yang pada penelitian ini berjumlah 1917 fitur, sedangkan n menyatakan jumlah dokumen yaitu 995 dokumen. Sehingga masukan pada penelitian ini yaitu matriks dataset berdimensi 1917 x 995. 2) Menghitung koefisien Markov θj menggunakan rumus 2.3. Proses perhitungan nilai 𝜃𝑗 menggunakan metode pembobotan Term Frequency (TF) yaitu : 𝜃𝑗 =
1 −0.5 −0.5 − 1 x 0.01026 x 2226 − x 54 + x 2704 995 995 9952
𝜃𝑗 = 0.022947 − −0.02714 + (−0.0041) 𝜃𝑗 = 0.0456
55
Perhitungan nilai 𝜃𝑗 menggunakan metode pembobotan Term Frequency – Inverse Document Frequency (TF-IDF) yaitu : 𝜃𝑗 =
1 −0.5 −0.5 − 1 x 0.01026 x 3705.739 − x 89.897 + x 4501.491 995 995 9952
𝜃𝑗 = 0.0382 − −0.0452 + (−0.0068) 𝜃𝑗 = 0.0766
Hasil perhitungan menunjukkan bahwa nilai θj untuk fitur „error‟ atau θerror dengan metode TF yaitu 0.0456 dan meningkat ketika menggunakan metode TF-IDF yaitu menjadi 0.0766. Perbandingan nilai koefisien Markov θj untuk beberapa fitur pada dokumen D1, D2 dan D3 dapat dilihat pada Tabel 4.9. Tabel 4.9 Perbandingan Nilai Koefisien Markov θj Fitur (j)
θj TF
TF-IDF
error
0.0456
0.0766
lapor
0.0113
0.0343
pajak
0.3093
0.1345
id
0.0203
0.057
billing
0.0607
0.0925
terbit
0.0041
0.0216
down
0.0022
0.0123
kode
0.0178
0.0435
bayar
0.0237
0.0520
Nilai Koefisien Markov yang diperoleh untuk keseluruhan fitur yang digunakan pada penelitian ini yaitu berjumlah 1917 fitur, dapat dilihat pada Gambar 4.5 dan Gambar 4.6. Distribusi nilai Koefisien Markov θj untuk seluruh fitur dengan menggunakan metode pembobotan TF dapat dilihat pada Gambar 4.5.
56
0.35
Nilai Koefisien Markov
0.3 0.25 0.2 0.15 0.1 0.05 0 0
200
400
600
800
1000
1200
1400
1600
1800
2000
Indeks Fitur
Gambar 4.5 Distribusi Nilai Koefisien Markov menggunakan TF
Selain itu, pada Gambar 4.6 menunjukkan distribusi nilai Koefisien Markov θj seluruh fitur dengan menggunakan metode pembobotan TF-IDF.
0.16
Nilai Koefisien Markov
0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0
200
400
600
800
1000
1200
1400
1600
1800
Indeks Fitur
Gambar 4.6 Distribusi Nilai Koefisien Markov menggunakan TF-IDF
57
2000
Gambar 4.5 menunjukkan bahwa dengan menggunakan TF, sebagian besar Koefisien Markov benilai dibawah 0.05. Berbeda dari hasil yang ditunjukkan pada Gambar 4.5, Gambar 4.6 menunjukkan nilai Koefisien Markov menggunakan TF-IDF. Koefisien Markov menggunakan TF-IDF memiliki nilai yang lebih bervariasi.
3) Memilih fitur dengan mengikuti prosedur 2.4 𝜃𝑗 > β
αj ∗ = 1
Metode pemilihan fitur MRF disini menggunakan nilai αj ∗ . Nilai αj ∗ merupakan pemilih fitur yang digunakan sebagai dasar suatu fitur dianggap relevan atau tidak. Nilai pemilih fitur αj ∗ adalah 1 atau 0. Nilai 1 bermakna bahwa fitur relevan, sedangkan nilai 0 bermakna bahwa fitur tidak relevan. Nilai αj ∗ bergantung dari nilai koefisien Markov θj. Ketika nilai θj lebih besar dari nilai β, maka θj atau fitur ke-j memiliki nilai αj ∗ = 1. Ketika nilai θj lebih kecil dari nilai β, maka θj atau fitur ke-j memiliki nilai αj ∗ = 0. Contoh hasil nilai αj ∗ untuk fitur yang terdapat pada dokumen D1, D2 dan D3 menggunakan metode pembobotan TF dapat dilihat pada Tabel 4.10 Tabel 4.10 Contoh Hasil Nilai 𝛂𝐣 ∗ Pada Metode Pembobotan TF 𝛂𝐣 ∗ Fitur error
β 0.06 0
β 0.05 0
β 0.04 1
β 0.03 1
β 0.02 1
β 0.01 1
lapor
0
0
0
0
0
1
pajak
1
1
1
1
1
1
id
0
0
0
0
1
1
billing
1
1
1
1
1
1
terbit
0
0
0
0
0
0
down
0
0
0
0
0
0
kode
0
0
0
0
0
1
bayar
0
0
0
0
1
1
58
Sedangkan contoh hasil nilai αj ∗ untuk fitur pada dokumen D1, D2 dan D3 menggunakan metode pembobotan TF-IDF dapat dilihat pada Tabel 4.11. Tabel 4.11 Contoh Hasil Nilai 𝛂𝐣 ∗ Pada Metode Pembobotan TF-IDF 𝛂𝐣 ∗ Fitur β β β β β β 0.06 0.05 0.04 0.03 0.02 0.01 1 1 1 1 1 1 error lapor
0
0
0
1
1
1
pajak
0
0
0
0
0
1
id
0
1
1
1
1
1
billing
1
1
1
1
1
1
terbit
0
0
0
0
1
1
down
0
0
0
0
0
1
kode
0
0
1
1
1
1
bayar
0
1
1
1
1
1
4) Keluaran adalah nilai pemilih fitur αj ∗ . Pada uji coba ini akan diketahui jumlah fitur-fitur yang akan terpilih menggunakan metode pemilihan fitur MRF. Selain itu juga akan ditampilkan jumlah fitur tanpa melalui proses pemilihan fitur. Jumlah fitur yang terpilih dapat dilihat pada Tabel 4.12. Tabel 4.12 Jumlah Fitur Menggunakan Pemilihan Fitur MRF Jumlah Fitur
β
TF
TF-IDF
0.06
7
24
0.05
10
36
0.04
14
61
0.03
20
96
0.02
39
211
0.01
81
487
Tanpa Pemilihan Fitur
1917
1917
59
Hasil uji coba ini diperoleh jumlah fitur yang berbeda dengan menggunakan metode pembobotan TF dan TF-IDF. Dapat dilihat pada Tabel 4.12 bahwa jumlah fitur tanpa pemilihan fitur yaitu 1917 dan berkurang setelah menggunakan metode pemilihan fitur MRF. Jumlah fitur yang terpilih berbeda antara menggunakan metode pembobotan TF dan TF-IDF. Jumlah fitur terpilih dengan menggunakan pembobotan TF lebih sedikit dibanding menggunakan TFIDF. Seperti yang ditunjukkan pada Tabel 4.12, ketika β ditentukan sebagai 0.01 maka jumlah fitur yang terpilih untuk TF yaitu 84 dan untuk TF-IDF yaitu 490. Hal ini bergantung pada parameter nilai β yang digunakan. Apabila parameter β telah ditentukan, maka akan lebih banyak yang bernilai 1 untuk αj ∗ dengan menggunakan pembobotan TF-IDF. Fitur-fitur yang terpilih dari hasil pemilihan fitur dapat ditunjukkan pada Tabel 4.13 dan Tabel 4.14. Tabel 4.13 menunjukkan hasil fitur terpilih dengan menggunakan metode pembobotan TF pada parameter beta 0.06 yaitu sebanyak 7 fitur. Tujuh fitur yang terpilih antara lain npwp, pajak, telepon, online, kpp billing, pagi. Sedangkan Tabel 4.14 menunjukkan hasil fitur terpilih dengan menggunakan metode pembobotan TF-IDF pada parameter beta 0.06 yaitu sebanyak 24 fitur. Fitur yang terpilih tersebut antara lain npwp, telepon, jam, dokumen, ebilling, mohon, konfirmasi, email, djp, sse, pajak, online, cetak, error, siang, nomor, kpp, billing, ktp, login, pelayanan, daftar, pagi, pph. Tabel 4.13 Contoh Fitur Terpilih pada Beta 0.06 menggunakan TF No
Fitur
1 2 3 4 5 6 7
npwp pajak telepon online kpp billing pagi
60
Tabel 4.14 Contoh Fitur Terpilih pada Beta 0.06 pada menggunakan TF-IDF No
Fitur
1 2 3 4 5 6 7 8
npwp telepon jam dokumen ebilling mohon konfirmasi email
4.3.4
No 9 10 11 12 13 14 15 16
Fitur djp sse pajak online cetak error siang nomor
No 17 18 19 20 21 22 23 24
Fitur kpp billing ktp login pelayanan daftar pagi pph
Uji Coba Perbandingan Kinerja Clustering Jumlah fitur yang telah didapatkan kemudian akan dilakukan proses
clustering. Proses clustering dilakukan dengan menggunakan jumlah fitur yang terpilih menggunakan pemilihan fitur MRF dan pembobotan Term Frequency (TF), serta jumlah fitur yang terpilih menggunakan pemilihan fitur MRF dan pembobotan Term Frequency - Inverse Document Frequency (TF-IDF). Tabel 4.15 menunjukkan perbandingan hasil kinerja clustering dari kedua pengujian dengan melihat nilai SSE. Proses clustering dilakukan menggunakan metode clustering yang sama yaitu menggunakan metode clustering k-means. Tabel 4.15 Perbandingan Kinerja Clustering TF Nilai Beta
TF-IDF
Jumlah
error rate
Jumlah
error rate
Fitur
(%)
Fitur
(%)
0.06
7
57.49
24
51.76
0.05
10
57.49
36
51.56
0.04
14
52.96
61
52.86
0.03
20
51.76
96
41.81
0.02
39
51.56
211
43.02
0.01
81
41.81
487
42.01
Tanpa Pemilihan Fitur Rata-rata error rate
1917
53.57
1917
53.57
52.18
61
47.17
Gambar 4.7 menunjukkan perbandingan kinerja clustering dengan menggunakan metode pembobotan yang berbeda yaitu TF dan TF-IDF. Grafik menunjukkan bahwa secara keseluruhan metode TF-IDF memiliki nilai error rate yang lebih kecil dibanding metode TF. Bahkan nilai error rate TF-IDF mampu mengungguli nilai error rate ketika keseluruhan fitur digunakan yaitu 1917 fitur.
60
Error rate (%)
55
50
45
40 Tanpa Pemilihan Fitur
0.01
0.02
0.03
0.04
0.05
0.06 TF
Nilai Beta
TF-IDF
Gambar 4.7 Grafik Perbandingan Kinerja Pembobotan TF dan TF-IDF Selain dengan melihat nilai error rate ditiap parameter beta, keunggulan metode TF-IDF juga dapat dilihat pada Gambar 4.8. Gambar 4.8 menunjukkan bahwa rata-rata error rate metode TF-IDF lebih kecil dibanding metode TF. Ratarata error rate TF-IDF sebesar 47.17% sedangkan untuk metode TF sebesar 52.18%.
62
100% 90% 80% 70% 60%
52.18%
47.17%
50% 40% 30% 20% 10% 0% TF
TF-IDF
Gambar 4.8 Grafik Perbandingan Rata-Rata Kinerja Pembobotan TF dan TF-IDF
Perbandingan kinerja clustering dengan menggunakan dua metode pembobotan yang berbeda dapat dilihat pada Tabel 4.15. Untuk beta 0.06, TF memiliki error rate sebesar 57.49% sedangkan TF-IDF memiliki error rate sebesar 51.76%. Pada beta 0.05, error rate untuk TF dan TF-IDF masing-masing sebesar 57.49% dan 51.56%. Error rate TF pada pada kedua parameter beta ini lebih besar dibanding TF-IDF, bahkan nilainya melebihi error rate pada kondisi tanpa menggunakan metode pemilihan fitur yaitu sebesar 53.57%. Pada nilai beta 0.04, error rate yang dimiliki TF dan TF-IDF tidak terpaut jauh yang hanya selisih 0.1% namun TF-IDF masih mengungguli TF dimana error rate TF-IDF yaitu 52.86% dan TF yaitu 52.96%. Pada beta 0.03, error rate kedua metode terpaut paling jauh yaitu sebesar 9.95%. Error rate TF-IDF masih mengungguli TF dimana masing-masing sebesar 41.81% dan 51.76%. Error rate untuk beta 0.02 pada metode TF yaitu 51.56% sedangkan TF-IDF yaitu 43.02%. Pada beta 0.01, error rate TF-IDF lebih besar dibanding TF walaupun tidak terpaut jauh yaitu 0.2%. TF memiliki error rate sebesar 41.81% dan TF-IDF yaitu 42.01%. Pada Gambar 4.8, secara keseluruhan menunjukkan bahwa nilai error rate metode pembobotan TF-IDF lebih rendah dibandingkan metode pembobotan TF. Metode TF mampu memperoleh error rate terendah pada beta 0.01, namun juga
63
memiliki nilai error rate yang melebihi error rate ketika tanpa menggunakan pemilihan fitur. Hal ini menandakan bahwa metode TF kurang efektif karena dapat memiliki tingkat kesalahan lebih besar dalam menilai kepentingan suatu fitur bahkan ketika telah menggunakan fitur-fitur terpilih. Sedangkan metode pembobotan TF-IDF mampu menggunguli nilai error rate TF karena memiliki tingkat kesalahan yang lebih kecil. Hal ini juga didukung oleh nilai rata-rata error rate TF-IDF sebesar 47.17% dimana nilai ini lebih kecil dibanding TF yaitu 52.18%. Selain itu, nilai error rate yang paling sedikit dicapai ketika menggunakan nilai beta 0.03. Nilai beta tersebut menandakan bahwa nilai 0.03 adalah nilai yang paling optimal digunakan sebagai parameter nilai beta. Sehingga dapat disimpulkan bahwa metode pembobotan TF-IDF efektif digunakan untuk menilai tingkat kepentingan suatu kata karena memiliki tingkat kesalahan yang lebih kecil.
64
BAB 5 DISKUSI DAN REKOMENDASI
Bab ini akan mendiskusikan penemuan yang didapatkan dari hasil clustering pada keluhan pajak yang diutarakan masyarakat melalui twitter. Penelitian ini menghasilkan 3 cluster dimana 2 cluster merupakan cluster keluhan dan satu cluster bukan keluhan. Dua cluster keluhan terdiri dari keluhan terkait pelayanan pajak dan keluhan terkait website pajak. Bab ini akan menjelaskan pokok permasalahan pada kedua cluster keluhan yang terbentuk sekaligus membahas rekomendasi yang dapat dilakukan sebagai bahan perbaikan di masa depan.
5.1
Diskusi Partisipasi masyarakat diperlukan sebagai pengawas pada kinerja
pelayanan yang diberikan oleh pemerintahan, karena masyarakat yang langsung merasakan baik dan buruknya pelayanan publik yang ada. Keluhan pajak yang diutarakan wajib pajak melalui twitter mengindikasikan adanya sejumlah kelemahan dari pemerintah. Namun munculnya keluhan ini dapat dijadikan sebagai sarana yang bermanfaat untuk bahan evaluasi kualitas pelayanan pajak. Berdasarkan Tabel 4.15 dari hasil uji coba yang telah dilakukan, menunjukkan bahwa metode pembobotan TF-IDF memiliki tingkat kesalahan yang lebih sedikit dalam menilai tingkat kepentingan suatu kata. Oleh karena itu, kata kunci yang diperoleh pada tiap-tiap cluster merupakan kata/fitur yang di bobot menggunakan metode pembobotan TF-IDF. Hasil cluster twitter keluhan pajak yang diperoleh pada penelitian ini ditunjukkan pada Gambar 5.1. Pengelompokan kata kunci yang terdapat pada tiap cluster di Gambar 5.1 hanya dibatasi oleh 20 kata kunci yang memiliki tingkat kepentingan paling tinggi berdasarkan nilai teta. Hal ini bertujuan agar lebih fokus dalam memperoleh pokok permasalahan yang akan digali.
65
Tabel 5.1 menunjukkan tiga cluster yang diperoleh berdasarkan hasil uji coba. Pada cluster pelayanan berisi keluhan terkait npwp, telepon, nomor, jam, daftar dan email. Cluster website memiliki permasalahan yang banyak dikeluhkan terkait billing, sse, error, online, mohon dan login. Sedangkan pada cluster nonkeluhan, hal yang sering diperbincangkan meliputi pajak, kpp, pagi, siang, konfirmasi, dokumen, djp dan cetak.
Pelayanan
npwp,telepon,nomor,jam, daftar,email
Website
billing,sse,error,online, mohon,login
Non-keluhan
pajak,kpp,pagi,siang,konfirmasi, dokumen,djp,cetak
Gambar 5.1 Hasil Cluster Twitter Keluhan Pajak Sedangkan Tabel 5.1 menunjukkan permasalahan utama yang ditemukan pada setiap kelompok keluhan pajak yang diutarakan melalui twitter. Tabel 5.1 hanya membahas dua kata kunci yang memiliki tingkat kepentingan paling tinggi untuk setiap cluster. Hal ini dilakukan karena dua kata kunci tersebut selalu berkaitan dengan kata kunci yang lain dalam cluster yang sama. Pada cluster pelayanan, kata kunci yang paling banyak dikeluhkan yaitu Nomor Pokok Wajib Pajak (NPWP) dan telepon. Cluster website memiliki dua kata kunci yang paling banyak dikeluhkan yaitu billing dan error. Sedangkan pada cluster non-keluhan, kata kunci yang paling banyak diperbincangkan yaitu terkait pajak dan Kantor Pajak Pratama (KPP).
66
Tabel 5.1 Permasalahan Utama Keluhan Pajak Cluster
Kata Kunci NPWP
Pelayanan Nomor Telepon
Billing Website Error Pajak Non-Keluhan
Kpp
Keluhan Prosedur Pembuatan NPWP Waktu Penyelesaian Keramahan Petugas Kesulitan akses Tanggapan kurang memuaskan Akses menu e-Billing Penerbitan e-Billing Cetak kode Billing Proses Login Fitur pada DJP Online Muncul response code Berita dan informasi terkait pajak Berita dan informasi terkait KPP yang melakukan tindakan perpajakan
Berikut merupakan rincian penjelasan terkait permasalahan utama keluhan pajak yang ada pada tiap cluster seperti ditunjukkan pada Tabel 5.1 : 1) Keluhan Pelayanan Ismawan (2001, dalam Supadmi 2009) mengemukakan kepatuhan sebagai pondasi self assessment dapat dicapai apabila elemen seperti program pelayanan yang baik kepada wajib pajak serta prosedur yang sederhana dan memudahkan wajib pajak telah diterapkan secara efektf. Penelitian ini menunjukkan hasil yang berbeda karena pelayanan merupakan permasalahan yang banyak dikeluhkan wajib pajak melalui twitter. Keluhan pelayanan yang terjadi berkaitan dengan NPWP dan telepon layanan pengaduan. a) NPWP Nomor Pokok Wajib Pajak (NPWP) adalah nomor yang diberikan kepada wajib pajak sebagai sarana dalam administrasi perpajakan yang dipergunakan sebagai tanda pengenal diri atau identitas wajib pajak dalam melaksanakan hak dan kewajiban perpajakan. Melihat definisi tersebut menunjukkan betapa pentingnya NPWP bagi wajib pajak untuk proses perpajakan. NPWP menjadi hal utama yang harus dimiliki oleh seorang wajib
67
pajak dalam mengurus pajak, karena berfungsi sebagai identitas diri. Namun pada kenyataannya masyarakat mengalami kesulitan untuk mendapatkan NPWP. Penelitian ini menunjukkan bahwa NPWP menjadi masalah utama yang dikeluhkan oleh wajib pajak terkait pelayanannya. Keluhan pelayanan pada NPWP terjadi disebabkan kesulitan masyarakat untuk mendapatkan NPWP tersebut. Kesulitan tersebut karena prosedur pembuatan NPWP yang menurut masyarakat tidak efektif dan efisien sehingga membutuhkan waktu yang lama dan melalui proses yang panjang. Keluhan tidak hanya terjadi ketika masyarakat akan membuat NPWP. Bahkan ketika proses pengajuan NPWP telah berhasil, wajib pajak belum merasa tenang karena NPWP fisik belum mereka terima. Wajib pajak mengalami keterlambatan penerimaan NPWP fisik atau kartu NPWP padahal mereka
telah
melakukan
pengajuan
beberapa
bulan
sebelumnya.
Keterlambatan tersebut membuat bingung para wajib pajak terkait tindakan yang harus mereka ambil sedangkan tidak ada konfirmasi kapan kartu NPWP akan mereka terima. Wajib pajak merasa bingung antara harus menunggu sampai kartu NPWP diterima atau harus mencetak sendiri pada Kantor Pajak Pratama (KPP) terdekat. Hasil penemuan tersebut memiliki kesamaan dengan Dwiyanto (2008, dalam Setiawan 2015) bahwa pelayanan publik yang ada di Indonesia penuh dengan ketidakpastian waktu, biaya, dan prosedur pelayanannya. Selain itu, penemuan ini belum sejalan dengan prinsip pelayanan publik menurut Surat Keputusan
Menteri
Pendayagunaan
Aparatur
Negara
No:
63/Kep/M.PAN/7/2003 terkait kesederhanaan yakni prosedur pelayanan publik tidak berbelit-belit, mudah dipahami dan mudah dilaksanakan, serta kepastian waktu yakni pelaksanaan pelayanan publik yang dapat diselesaikan dalam kurun waktu yang telah ditentukan. Namun ternyata penanganan biaya pada Ditjen Pajak tidak menjadi permasalahan utama bagi wajib pajak. Hal ini menunjukkan bahwa biaya yang ditentukan Ditjen Pajak dalam pengurusan perpajakan dianggap sudah wajar dan tidak berlebihan bagi wajib pajak. Dari tahun 2008 hingga 2016 didapatkan bahwa ketidakpastian waktu
68
dan prosedur pelayanan tetap menjadi permasalahan utama yang melanda Negara Indonesia. Menurut Powers (2002, dalam Suryadi 2010), makna kualitas selalu dihubungkan dengan elemen struktur, proses, dan produk. Namun dalam layanan yang berupa jasa, kualitas pelayanan lebih banyak dilihat dari elemen struktur dan proses. Elemen struktur suatu pelayanan menyangkut lingkungan dan fasilitas fisik dimana pelayanan tersebut terjadi, contohnya yaitu kelengkapan fasilitas, kebersihan, kenyamanan ruang, dekorasi, parkir, dan lain-lain. Elemen proses didasarkan pada interaksi antara pelanggan dengan pemberi layanan di dalam lingkungan pelayanan meliputi responsivitas, keramahan, kompetensi, komunikasi, dan lain-lain. Hal ini menunjukkan bahwa kualitas pelayanan bergantung pada elemen proses yang dalam hal ini dimiliki oleh petugas pajak. Petugas pajak berkewajiban melayani keperluan terkait perpajakan dengan baik termasuk ketika berhadapan dengan wajib pajak. Namun kenyataannya petugas pajak dinilai tidak bisa memberikan pelayanan yang sigap ketika wajib pajak ingin mengetahui informasi NPWP yang mereka miliki. Selain itu wajib pajak merasa dikecewakan karena petugas pajak yang dinilai kurang ramah. Dapat diketahui bahwa kualitas pelayanan NPWP masih bermasalah karena elemen proses yang dimiliki petugas pajak masih dikeluhkan oleh wajib pajak. Namun berbeda dengan elemen struktur yang dinilai memiliki kualitas yang sudah baik karena wajib pajak tidak memiliki keluhan terkait elemen struktur.
b) Nomor Telepon Tersedianya ruang untuk menyampaikan aspirasi (voice) dalam bentuk pengaduan
dan
protes
terhadap
jalannya
penyelenggaraan
urusan
pemerintahan dan pelayanan publik akan sangat penting peranannya bagi upaya perbaikan kinerja tata pemerintahan secara keseluruhan (Wibawa, 2009 dalam Setiawan 2010). Dalam KEPMENPAN Nomor 63 tahun 2003, untuk menampung pengaduan, unit pelayanan wajib menyediakan saluran pengaduan misalnya : kotak pengaduan, loket pengaduan, bisa juga melalui 69
call center, hotline, atau melalui media massa seperti radio, koran, dll. Saluran layanan informasi dan pengaduan yang disediakan oleh Ditjen Pajak telah terpenuhi, salah satunya yaitu tersedianya nomor telepon call center Kring Pajak. Telepon menjadi alat komunikasi dua arah yang sangat diandalkan bagi wajib pajak untuk berkomunikasi dengan petugas pajak. Wajib pajak dapat memperoleh informasi terkait pajak dengan cepat melalui telepon. Oleh karenanya Direktorat Jenderal Pajak menyediakan nomor telepon layanan informasi dan pengaduan untuk dapat diakses oleh wajib pajak. Nomor telepon dapat digunakan wajib pajak untuk memperoleh informasi ataupun mengajukan pengaduan terhadap keluhan yang dialami. Namun kenyataannya wajib pajak merasa kesulitan dalam mengakses nomor telepon keluhan pelayanan pajak. Kendala dalam mengakses nomor telepon keluhan pelayanan pajak terjadi karena beberapa sebab. Alasan pertama yaitu nomor telepon yang susah tersambung, sibuk atau di luar servis area ketika dihubungi oleh wajib pajak. Bahkan ketika telah tersambung, telepon tersebut tidak ada tanggapan karena tidak ada yang mengangkat. Keluhan juga terjadi meskipun telepon tersebut mendapat tanggapan oleh petugas pajak. Wajib pajak harus menunggu jawaban atas pertanyaan yang mereka ajukan dan telepon terputus begitu saja. Hal tersebut sangat disesalkan oleh wajib pajak mengingat susahnya tersambung ke petugas pajak namun tetap tidak mendapatkan tanggapan yang memberikan solusi. Saluran penanganan keluhan oleh Ditjen Pajak sudah baik karena telah mengikuti KEPMENPAN Nomor 63 tahun 2003, salah satunya dengan disediakan nomor telepon call center Kring Pajak. Namun hasil penelitian menunjukkan bahwa pengelolaan saluran pengaduan tersebut masih belum optimal. Hasil penelitian menunjukkan bahwa Ditjen Pajak belum sejalan dengan prinsip pelayanan publik berkenaan dengan kemudahan akses bagi masyarakat. Selain itu, temuan ini sedikit berbeda jika dikaitkan dengan konsepsi Zethaml (1990, dalam Suryadi 2010) tentang dimensi Courtesy yaitu sikap atau perilaku ramah, bersahabat, tanggap terhadap keinginan konsumen 70
serta Competence yakni tuntutan dimilikinya pengetahuan dan keterampilan yang baik oleh aparatur dalam memberi pelayanan. Dan juga dimensi Responsiveness
yakni
kemauan
untuk
membantu
konsumen
untuk
bertanggung jawab terhadap mutu pelayanan yang diberikan serta Communications yaitu kemauan pemberi layanan untuk mendengarkan suara, keinginan atau aspirasi pelanggan. Hal ini tercermin dengan berbagai keluhan yang diutarakan wajib pajak terkait telepon.
2) Keluhan Website Elemen struktur berkaitan dengan kualitas suatu pelayanan menyangkut lingkungan dan fasilitas fisik dimana pelayanan tersebut terjadi, contohnya yaitu kelengkapan fasilitas, kebersihan, kenyamanan ruang, dekorasi, parkir, dan lainlain (Powers 2002, dalam Suryadi 2010). Cara baru dalam membayar pajak melalui elektronik membuat website menjadi bagian dari elemen struktur, yang dapat dihubungkan dengan kualitas pelayanan. Hal ini dikarenakan lingkungan dan fasilitas perpajakan terjadi di website pajak. Penelitian ini menunjukkan bahwa elemen struktur yang disediakan Ditjen Pajak terkait website masih belum optimal, dengan ditemukannya keluhan menyangkut website yang terjadi di twitter. Keluhan website yang terjadi berkaitan dengan Billing dan error. a) Billing Direktorat Jenderal Pajak menyediakan cara baru dalam membayar pajak, yaitu melalui sistem e-Billing. E-Billing adalah metode pembayaran pajak menggunakan kode billing. Kode billing sendiri adalah kode identifikasi yang diterbitkan melalui sistem billing atau suatu jenis pembayaran atau setoran pajak yang akan dilakukan wajib pajak. Berdasarkan situs resmi pajak, manfaat penggunaan e-Billing yaitu lebih mudah, lebih cepat dan lebih akurat. Wajib pajak dapat dengan mudah dalam pemenuhan kewajiban perpajakan dengan memanfaatkan fasilitas elektronik ini. Keluhan pajak yang diutarakan melalui twitter menunjukkan bahwa penyediaan fasilitas e-Billing belum sejalan dengan manfaat yang diharapkan oleh Ditjen Pajak. Hasil penemuan ini sedikit berbeda jika dikaitkan dengan konsepsi Zethaml (1990, dalam Suryadi 2010) tentang dimensi Reliability 71
yakni kemampuan unit pelayanan dalam menciptakan pelayanan yang dijanjikan dengan tepat. Penelitian ini menemukan bahwa billing menjadi masalah utama yang dikeluhkan wajib pajak pada penggunaan website pajak. Hal ini dikarenakan wajib pajak mengalami kendala ketika menggunakan eBilling. Kendala terjadi pada saat proses memperoleh kode billing. Kendala tersebut terkait akses ke menu e-Billing, penerbitan e-Billing, cetak kode billing dan proses login. Wajib pajak mengalami kesulitan dalam akses ke menu e-Billing dan pada saat menerbitkan kode billing. Kesulitan pengaksesan menu e-Billing disebabkan oleh tampilan menu e-Billing yang tidak ada. Bahkan ketika ada, menu e-Billing tidak dapat diakses dan diproses dalam waktu yang lama. Kendala juga dialami ketika ingin menerbitkan kode billing. Dalam proses penerbitan atau pengaktifan kode billing sering muncul kode pesan kesalahan yang tidak dipahami oleh wajib. Hal ini membuat wajib pajak tidak tahu langkah apa selanjutnya yang harus dilakukan untuk mengatasi pesan kesalahan tersebut. Selain itu, wajib pajak mengalami tampilan perangkat browser yang hilang ketika menerbitkan kode billing, bahkan masih belum teratasi ketika telah mengganti perangkat browser selama beberapa kali. Keluhan lain terjadi karena proses pendaftaran baru tidak berhasil dilakukan tetapi wajib pajak tersebut merasa belum pernah melakukan pendaftaran. Selain kendala yang yang telah dijelaskan sebelumnya, ada juga kendala yang dikarenakan cetak kode billing dan proses login. Wajib pajak mengalami kegagalan dalam mencetak id billing atau kode billing. Sekalipun berhasil mencetak id billing, yang tercetak adalah id billing null atau kosong. Kendatipun
mendapatkan
kode
billing,
wajib
pajak
tidak
dapat
menggunakannya untuk membayar pajak. Yang terakhir adalah keluhan wajib pajak dikarenakan kegagalan dalam proses login. Wajib pajak telah mendaftar e-billing namun belum mendapatkan kode aktivasi, sehingga tidak bisa melakukan proses login ke dalam e-Billing.
72
b) Error Menurut Peraturan Direktur Jenderal Pajak Nomor PER-41/PJ/2015 tentang Pengamanan Transaksi Elektronik Layanan Pajak Online, DJP Online adalah Layanan Pajak Online yang disediakan oleh Direktorat Jenderal Pajak melalui laman (website) dan/atau aplikasi untuk perangkat bergerak (mobile device). DJP Online berisikan fitur e-Registration, e-Billing, e-Filing dan eFaktur. Fitur-fitur pada DJP Online sangat penting bagi wajib pajak untuk proses pembayaran pajak. Dengan adanya DJP Online, Direktorat Jenderal Pajak berharap wajib pajak dapat lebih mudah dalam pemenuhan kewajiban perpajakan dengan memanfaatkan fasilitas-fasilitas elektronik yang telah disediakan. Sistem pembayaran pajak secara elektronik yang dihasilkan oleh Ditjen Pajak mengharuskan wajib pajak membayar pajaknya melalui website. Hal ini dengan pertimbangan bahwa wajib pajak akan dimudahkan secara waktu dan jarak dalam membayar pajaknya. Pada kenyataannya, website yang disediakan oleh Direktorat Jenderal Pajak belum sejalan dengan harapan karena
belum
mampu
membantu
wajib
pajak
untuk
menjalankan
kewajibannya membayar pajaknya dengan mudah. Hasil penemuan ini sedikit berbeda jika dikaitkan dengan konsepsi Zethaml (1990, dalam Suryadi 2010) tentang dimensi Reliability yakni kemampuan unit pelayanan dalam menciptakan pelayanan yang dijanjikan dengan tepat. Penelitian ini menemukan bahwa kendala error yang terjadi pada website pajak membuat error menjadi masalah utama kedua yang dikeluhkan oleh wajib pajak. Error sering terjadi ketika wajib pajak memanfaatkan fitur-fitur yang ada pada DJP Online. Permasalahan error yang dikeluhkan wajib pajak hampir mengenai seluruh fitur pada DJP Online. Yang pertama yaitu ketika wajib pajak lupa password dan mengklik lupa password pada menu. Selanjutnya error terjadi ketika wajib pajak akan menerbitkan kode billing dan cetak e-Billing. Error juga terjadi terkait e-Faktur yaitu pada saat registrasi e-Faktur dan upload eFaktur. Selain itu aktivitas memasukkan e-Nofa, pembetulan Surat Pemberitahuan Tahunan (SPT), akses e-Filling dan aktivasi e-Fin juga sering 73
mengalami error. Error yang terjadi yaitu munculnya response code, dikatakan sudah idle selama beberapa menit padahal wajib pajak tidak pernah login, failed network, run time error, service error, file corrupt, database not available dan sql error.
3) Non Keluhan Salah satu fitur yang terdapat pada twitter yaitu “retweet”. Retweet adalah tindakan mengeposkan ulang tweet orang lain yang bermanfaat atau informatif dan memberikan mereka kredit (O'Reilly & Milstein, 2011). Ketika suatu tweet di retweet oleh orang lain, maka akun asal yang membuat pesan tweet tersebut masih tercantumkan. Hal ini yang membuat ketika seseorang melakukan retweet dimana terdapat akun @kring_pajak dan @DitjenPajakRI, baik itu berisi berita atau opini seseorang, maka terambil dalam penelitian ini. Pengguna twitter tidak hanya ingin mengutarakan apa yang dialami, tetapi juga meretweet berita dan informasi yang menurut mereka akan bermanfaat jika dibagikan kembali agar dapat dibaca oleh pengikut mereka. Oleh karena itu, pada kelompok non keluhan ini banyak terdapat berita dan informasi yang disampaikan oleh akun-akun pajak yang kemudian diretweet kembali oleh pengguna twitter. Hal ini ditunjukkan dengan berita dan informasi yang ada pada kelompok non keluhan ini terkait dengan pajak dan Kantor Pajak Pratama (KPP). Hal ini membuktikan bahwa twitter menjadi alat yang dapat digunakan sebagai media informasi sekaligus sarana penghubung antara masyarakat dengan Ditjen Pajak. Selain itu twitter juga mampu menjadi media pengaduan yang efektif ketika masyarakat tidak bisa secara langsung berkomunikasi dengan petugas pajak.
Keluhan-keluhan yang ditemukan pada penelitian ini sejalan dengan Reiboldt (2003) yang menyatakan bahwa keluhan yang diungkapkan dalam tuntutan terhadap organisasi hampir selalu berhubungan dengan kualitas yang diterima pelanggan yang dinilai tidak sesuai dengan harapannya, sehingga menimbulkan ketidakpuasan atau kekecewaan. Sebagaimana yang telah dijelaskan sebelumnya bahwa keluhan yang dirasakan oleh wajib pajak terkait dengan aspek 74
pelayanan pajak yaitu prosedur NPWP, jangka waktu penyelesaian, kesigapan dan keramahan petugas pajak dan nomor telepon sebagai sarana komunikasi. Sedangkan keluhan terkait website pajak berhubungan dengan kesiapan dan kehandalan aplikasi perpajakan berbasis web untuk menyediakan fitur-fitur perpajakan yang dapat diakses dengan mudah dan cepat oleh wajib pajak. Temuan ini menunjukkan bahwa pelayanan yang diberikan oleh Direktorat Jenderal Pajak belum sejalan dengan prinsip-prinsip pelayanan publik yang dijabarkan melalui Surat
Keputusan
Menteri
Pendayagunaan
Aparatur
Negara
No:
63/Kep/M.PAN/7/2003 terutama pada prinsip: kesederhanaan, kepastian waktu, kemudahan akses dan kedisiplinan. Selain itu, hasil penemuan ini sedikit berbeda jika dikaitkan dengan konsepsi Zethaml (1990, dalam Suryadi 2010) tentang dimensi Reliability, Courtesy, Responsiveness, Competence dan Communications.
5.2
Rekomendasi
1) Manajemen Pelayanan publik yang merupakan salah satu kebutuhan dalam rangka pemenuhan pelayanan sesuai peraturan perundang-undangan sepertinya masih menjadi impian, dan jauh dari harapan. Dari tahun 2008 hingga 2016 didapatkan bahwa ketidakpastian waktu dan prosedur pelayanan tetap menjadi permasalahan utama yang melanda Negara Indonesia. Ditjen Pajak perlu memotong, memperpendek atau memperbaiki birokrasi dalam prosedur pembuatan NPWP yang membuat wajib pajak harus bolak balik ke KPP sesuai alamat di KTP. Hal ini
perlu dilakukan guna memenuhi
prinsip
pelayanan
publik
yakni
kesederhanaan dan kepastian waktu. Perbaikan prosedur dalam proses perpajakan menjadi lebih efektif dan efisien akan memberikan dampak positif bagi waktu penyelesaian karena dengan lebih efektif dan efisien prosedur, menjadikan waktu penyelesaian menjadi semakin cepat Untuk dapat memberikan pelayanan yang terbaik, petugas pajak harus meningkatkan hard competency dan soft competency. Hard competency diartikan sebagai kompetensi teknis yang harus dimiliki seseorang. Sedangkan soft competency adalah pengetahuan dan ketrampilan psikologis yang harus dimiliki seseorang untuk menduduki posisi tertentu. Mengoptimalkan hard competency 75
dengan cara peningkatan kualitas dan kemampuan teknis pegawai dalam bidang perpajakan antara lain petugas memahami ketentuan yang ada dalam UndangUndang Perpajakan sedangkan untuk mengoptimalkan kemampuan
soft
competency nya petugas pelayanan dibekali dengan Diklat Teknis Substantif Spesialis Petugas Pelayanan (DTSS Petugas Pelayanan) yang antara lain berisi: 1. Prosedur Layanan Pelaporan SPT 2. Prosedur Layanan Permohonan Wajib Pajak 3. Ketentuan Petugas TPT 4. Ketentuan Sarana Dan Prasarana TPT 5. Ketentuan Dan Prosedur Penanganan Masalah Di TPT 6. Intrapersonal-Interpersonal Skills Petugas Pelayanan Dengan mengikuti diklat ini diharapkan petugas pelayanan mendapat bekal tentang cara berkomunikasi yang baik dengan wajib pajak dan sesama pegawai di lingkungannya serta dapat menerapkan SOP layanan kepada wajib pajak sesuai dengan ketentuan yang berlaku.
2) Pengembangan Aplikasi Sarana komunikasi dan sarana perpajakan online yang dapat diakses dengan mudah dan cepat menjadi sesuatu yang sangat penting dan diharapkan oleh wajib pajak. Sarana komunikasi seperti nomor telepon, dan juga sarana perpajakan online seperti website pajak perlu mendapat perhatian lebih dari petugas pajak. Perlu dilakukan perbaikan pada sarana tersebut, seperti menambah jumlah petugas call center pajak atau pembuatan aplikasi website perpajakan yang telah dipertimbangkan secara matang dari segala aspek.
76
BAB 6 KESIMPULAN DAN SARAN Pada bab ini berisi kesimpulan dari penelitian dan juga saran bagi penelitian berikutnya yang berasal dari kekurangan ataupun temuan dari penelitian ini.
6.1 Kesimpulan Berdasarkan hasil uji coba dan analisis hasil, maka dapat ditarik kesimpulan sebagai berikut: a. Penelitian ini melakukan kombinasi metode pembobotan TF-IDF dan pemilihan fitur Markov Random Field (MRF) untuk perbaikan kinerja pengelompokan twitter keluhan pajak. Tahap pertama yang dilakukan dalam kombinasi metode ini yaitu menentukan jumlah cluster yang akan digunakan sebagai dasar pengelompokan, dimana pada penelitian ini ditemukan 3 cluster. Kemudian membobot kata menggunakan TF-IDF dan menentukan
jumlah
fitur
yang
terpilih.
Selanjutnya
melakukan
perbandingan kinerja dari hasil clustering yang didapatkan memalui nilai error rate. Fitur yang terpilih sebanyak 96 fitur dengan error rate paling rendah yaitu 41.81%. b. Kinerja kombinasi metode pembobotan TF-IDF dengan pemilihan fitur MRF dalam penelitian ini dinilai lebih baik dibandingkan ketika menggunakan kombinasi dengan pembobotan TF. Hal ini dapat dilihat dari nilai error rate pada tiap parameter beta 0.06, 0.05, 0.04, 0.03, 0.02 masing-masing sebesar 51.76%, 51.56%, 52.86%, 41.81%, 43.02% dan juga pada rata-rata error rate sebesar 47.17%. metode pembobotan TFIDF efektif digunakan untuk menilai tingkat kepentingan suatu kata ketika dikombinasikan dengan pemilihan fitur MRF dikarenakan memiliki tingkat kesalahan yang lebih kecil untuk mengelompokan dokumen twitter keluhan pajak.
77
6.2 Saran Beberapa saran yang dapat dilakukan untuk penyempurnaan penelitian ini antara lain: a. Proses-proses yang dilakukan pada penelitian ini masih menggunakan potongan program yang berbeda dan dijalankan secara serial. Oleh karena itu, perlu dilakukan pengembangan aplikasi yang terintegrasi sehingga akan memudahkan dalam penggunaannya. b. Masih terdapat kata-kata tidak baku yang membuat data menjadi kurang baik untuk digunakan pada proses secara keseluruhan sehingga perlu solusi untuk mengatasi keberagaman kata yang ada pada twitter.
78
DAFTAR PUSTAKA
Aggarwal, C. C., & Zhai, C. X. (2012). A SURVEY OF TEXT CLUSTERING. IBM T. J. Watson Research Center , 78-128. Agusta, L. (2009). PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA. Konferensi Nasional Sistem dan Informatika 2009 , 196-201. Baralis, E., Cerquitelli, T., Chiusano, S., Grimaudo, L., & Xiao, X. (2013). Analysis of Twitter Data Using a Multiple-level Clustering Strategy. Third International Conference on Model and Data Engineering (MEDI) 2013 (hal. 13-24). Amantea (Italy): Springer Heidelberg NewYork Dordrecht London. Becker, H., Naaman, M., & Gravano, L. (2011). Beyond Trending Topics Real World Event Edentification on Twitter. Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media. Association for the Advancement of Artificial Intelligence. Berry, M. W., & Kogan, J. (2010). Text Mining Applications and Theory. United Kingdom: John Wiley & Sons. Bholowalia, P., & Kumar, A. (2014). EBK-Means: A Clustering Technique based on Elbow Method and K-Means in WSN. International Journal of Computer Application, Vol 105, No 9 , 17-24. Cheng, Q., Zhou, H., & Cheng, J. (2011). The Fisher-Markov Selector: Fast Selecting
Maximally
Separable
Feature
Subset
for
Multiclass
Classification with Application to High-Dimensional Data. IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume: 33, Issue: 6 , 1217-1233. Claypo, N., & Jaiyen, S. (2015). Opinion Mining for Thai Restaurant Reviews using K-Means Clustering and MRF Feature Selection. IEEE , 105-108.
79
Deng, J., Hu, J., Chi, H., & Wu, J. (2010). An Improved Fuzzy Clustering Method. 2010 Second International Conference on Networks Security, Wireless Communications and Trusted Computing , 65-69. Dilrukshi, I., & Zoysa, K. d. (2014). Feature Selection Method for Twitter News Classification. International Journal of Machine Learning and Computing. Vol 4. No 4 , 365-370. Feldman, R., & Sanger, J. (2007). The Text Mining HandBook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press. Ghanem, O. A. (2014). Evaluating the Effect of Preprocessing in Arabic Documents Clustering. Islamic University . Godara, S., & Verma, A. (2013). Analysis of Various CLustering Algorithms. International
Journal
of
Innovative
Technology
and
Exploring
Engineering (IJITEE) , 186-189. Godfrey, D., Johns, C., Sadek, C., Meyer, C., & Race, S. (2014). A Case Study in Text Mining Interpreting Twitter Data From World Cup Tweets. Guo, Y., Shao, Z., & Hua, N. (2009). A Hierarchical Text Clustering Algorithm With Cognitive Situtaion Dimension. International Workshop on Knowledge Discovery and Data Mining , 11-14. Han, P., Wang, D. B., & Zhao, Q. G. (2011). The research on Chinese document clustering based on WEKA. Machine Learning and Cybernetics (ICMLC), 2011 International Conference on (Volume:4 ) , 1953 - 1957. Harianja, H. (2008). Visualisasi K-Means Clustering Pada Data Potensi Pertanian Desa Di Bogor Menggunakan Mapserver. Bogor: Institut Pertanian Bogor. Hudli, S. A., Hudli, A. A., & Hudli, A. V. (2012). Identifying Online Opinion Leaders Using K-means Clustering. 12th International Conference on Intelligent Systems Design and Applications (ISDA) , 416-419. Hutagaol, J., Winarno, W. W., & Pradipta, A. (2007). Strategi Meningkatkan Kepatuhan Wajib Pajak. Akuntabilitas , 186-193.
80
Ifrim, G., Shi, B., & Brigadir, I. (2014). Event Detection in Twitter using Aggressive Filtering and Hierarchical Tweet Clustering. SNOW WWW Workshop 2014 Korea . Istanto, F. (2010). Analisis Pengaruh Pengetahuan Tentang Pajak, Kualitas Pelayanan Pajak, Ketegasan Sanksi Perpajakan Dan Tingkat Pendidikan Terhadap Motivasi Wajib Pajak Dalam Membayar Pajak. Universitas Islam Negeri Syarif Hidayatullah . Kadhim, A. I., Cheah, Y. N., & Ahamed, N. H. (2014). Text Document Preprocessing and Dimension Reduction Techniques for Text Document Clustering. 4th International Conference on Artificial Intelligence with Applications in Engineering and Technology , 69-73. Khan, F. (2012). An Initial Seed Selection Algorithm For K-means Clustering Of Georeferenced Data To Improve Replicability Of Cluster Assignments For Mapping Application. Applied Soft Computing, Volume 12, Issue 11 , 3698–3700. Kim, Y. H., Seo, S., Ha, Y. H., Lim, S., & Yoon, Y. (2013). Two Applications of Clustering Techniques to Twitter: Community Detection and Issue Extraction. Discrete Dynamics in Nature and Society , 8 pages. Latif, S., & Wood, M. M. (2008). Text Pre-processing for Document Clustering. The University of Manchester . Liu, M., Tian, H., Bei, Y., Hou, Y., & Yang, D. (2011). New Algorithm for Texture Classification based on Fisher-Markov Selector . International Journal of Digital Content Technology and its Applications(JDCTA), Volume 5, Number 12 , 70-76. Madhulata, T. S. (2012). An Overview on CLustering Method. International Organization of Scientific Research (IOSR) Journal of Engineering, Vol 2(4) , 719-715. Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook Second Edition. New York: Springer. Manning, C. D., Raghavan, P., & Schutze, H. (2009). An Introduction to Information Retrieval. Cambridge: Cambridge University Press.
81
Medistira,
Y.
(2015).
Dipetik
Maret
19,
2016,
dari
http://news.detik.com/berita/3097845/pelayanan-publik-di-indonesiamasih-jelek Miller, Z., Dickinson, B., Deitrick, W., Hu, W., & Wang, A. H. (2014). Twitter spammer detection using data stream clustering. Information Sciences , 6473. Nur'aini, K., Najahaty, I., Hidayati, L., Mufri, H., & Nurrohmah, S. (2015). Combination of singular value decomposition and K-means clustering methods for topic detection on Twitter. ICACSIS , 123-128. Nurwidodo, W., & Hariadi, M. (2013). SISTEM PENDUKUNG KEPUTUSAN MULTIDIMENSIMENGGUNAKAN
K-MEANS
CLUSTERING
BERBASIS MAHALANOBIS DISTANCE. Prosiding Seminar Nasional Manajemen Teknologi XVII (hal. 1-11). Surabaya: Institut Teknologi Sepuluh Nopember. O'Reilly, T., & Milstein, S. (2011). The Twitter Book Second Edition. California: O‟Reilly Media. Ostrowski, D. A. (2014). Feature Selection for Twitter Classification . 2014 IEEE International Conference on Semantic Computing (ICSC) , 267-272. Peña, J., Lozano, J., & Larrañaga, P. (1999). An Empirical Comparison Of Four Initialization Methods For The K-Means Algorithm. Pattern Recognition Letters 20 (10) , 1027–1040. pengaduan.pajak.go.id. (t.thn.). Layanan Pengaduan Direktorat Jenderal Pajak. Dipetik
April
17,
2016,
dari
http://pengaduan.pajak.go.id/index.php?r=site/definisi Priya,
J.
S.,
&
Priyadharshini,
S.
Clustering Technique in Data Mining for Text Ducument.
(2012). (IJCSIT)
International Journal of Computer Science and Information Technologies, Vol. 3 (1) , 2943-2947. Putro.
(2015).
Dipetik
Maret
20,
2016,
dari
http://bisnis.liputan6.com/read/2230303/kesadaran-bayar-pajak-orang-rimasih-rendah
82
Rathore, P., & Shukla, D. (2015). Analysis and Performance Improvement of Kmeans Clustering in Big Data Environment. International Conference on Communication Networks (ICCN) , 43-46. Reiboldt, W. (2003). Factors That Influence a Consumer Complainer‟s Rating of Service Recieved From a Third Party Complaint-Handling Agency. California State University , 166-177. Rodriguez, S. S., Vilas, A. F., Redondo, R. P., & Arias, J. J. (2013). Comparing Tag Clustering Algorithms for Mining Twitter Users' Interests. SocialCom/PASSAT/BigData/EconCom/BioMedCom 2013 . Sharmila, & Mishra, R. C. (2013). Performance Evaluation of Clustering Algorithms. International Journal of Engineering Trends and Technology (IJETT) - Volume4 Issue7 , 3113-3116. Supadmi, N. L. (2009). Meningkatkan Kepatuhan Wajib Pajak Melalui Kualitas Pelayanan. Jurnal Ilmiah Akuntansi dan Bisnis . Suryadi. (2010). Penanganan Keluhan Publik pada Birokrasi Dinas Perijinan . Masyarakat, Kebudayaan dan Politik, Vol. 23, No. 4 , 293-303. Tan, P. N., Steinbach, M., & Kumar, V. (2005). Introduction to Data Mining. Boston: Addison-Wesley. Thomas, P., & Palfrey, C. (1996). Evaluation: Stakeholder focused Criteria. Social Policy and Administration, Vol. 30 , 125-142. Tutkan, M., Ganiz, M. C., & Akyokus, S. (2016). Helmholtz Principle Based Supervised and Unsupervised Feature Selection Methods For Text Mining. Information Processing and Management , 885–910. Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques Second Edition. Morgan Kaufmann. Wu, X., & Kumar, V. (2009). The Top Ten Algorithms in Data Mining. Boca Raton: CRC Press, Taylor & Francis Group. www.cs.waikato.ac.nz. (t.thn.). Weka 3: Data Mining Software in Java. Dipetik April 17, 2016, dari http://www.cs.waikato.ac.nz/ml/weka/ Yang, A., Zhang, J., Pan, L., & Xiang, Y. (2015). Enhanced Twitter Sentiment Analysis by Using Feature Selection and Combination. 2015 International
83
Symposium on Security and Privacy in Social Networks and Big Data (SocialSec) , 52-57. Yugianus, P., Dachlan, H. S., & Hasanah, R. N. (2013). Pengembangan Sistem Penelusuran Katalog Perpustakaan Dengan Metode Rocchio Relevance Feedback. EECCIS Vol. 7, No. 1 , 47-52.
84
LAMPIRAN Lampiran ini berisi mengenai source code yang digunakan pada tahap praproses teks, perhitungan pembobotan menggunakan TF dan TF-IDF, serta pemilihan fitur.
1. Source code untuk melakukan Tahap Praproses Teks
deleteAll(); TempKata::model()->deleteAll(); $dokumen=Dokumen::model()->findAll(); $char_replacement=array('[',']','','_','^','.',',',';',':','(',')','{','}','&','=','»','*','~','%') ; foreach($dokumen as $d){ $temp_str=str_replace($char_replacement, " ", $d['isi_dokumen']); $temp_str3=preg_replace('/[^ a-zA-z]+/', ' ', $temp_str); $temp_str4 = preg_replace('!\s+!', ' ', $temp_str3); $model_dokumen=Dokumen::model()>findByPk($d['id_dokumen']); $model_dokumen>isi_setelah_pre=strtolower($temp_str4); $model_dokumen->save(); $temp_arr_str=explode(' ',strtolower($temp_str4)); foreach($temp_arr_str as $t){ $kata= trim($t); if(!empty($kata)){ $query_insert_kata="insert into temp_kata (temp_kata,id_dokumen) values ('{$kata}','{$d['id_dokumen']}')"; Yii::app()->db>createCommand($query_insert_kata)->query(); } } } $query_delete_kata_stop_word="delete from temp_kata where temp_kata in (select stop_word temp_kata from stop_word)"; $query_insert_kata_distinc="insert into kata (kata) (select distinct(temp_kata) kata from temp_kata)"; Yii::app()->db->createCommand($query_delete_kata_stop_word)>query(); Yii::app()->db->createCommand($query_insert_kata_distinc)>query();
85
} $query_view =" select d.*,cd.nm_cluster_dokumen from dokumen d join cluster_dokumen cd on cd.id_cluster_dokumen=d.id_cluster_dokumen order by cd.id_cluster_dokumen,d.id_dokumen "; $data = Yii::app()->db->createCommand($query_view)->queryAll(); ?>
2. Source code untuk melakukan Perhitungan Nilai Bobot Term Frequency (TF)
findByPk($d['id_kata']); if(empty($model_kata->df)&&empty($model_kata->idf)){ $no=1; $df=0; foreach($dokumen as $d2): // CARI KATA DALAM DOKUMEN $temp_array_kata=array_count_values(str_word_count($d2['isi_ setelah_pre'], 1)); if(array_key_exists($d['kata'],$temp_array_kata)){ // JIKA ADA TAMBAH DF $jumlah_kata_ditemukan=$temp_array_kata[trim($d['kata'])]; $df++; }else{ $jumlah_kata_ditemukan=0; } $kata_dokumen=KataDokumen::model()>findByAttributes(array('id_dokumen'=>$d2['id_dokumen'],'id_kata'= >$d['id_kata'])); if(empty($kata_dokumen)){ Yii::app()->db->createCommand("insert into kata_dokumen (id_kata,id_dokumen,jumlah_cari_tf) values('{$d['id_kata']}','{$d2['id_dokumen']}','{$jumlah_kata_dite mukan}')")->query(); }else{ $kata_dokumen_jumlah_cari_tf=$jumlah_kata_ditemukan;
86
$q_update_kata_dokumen ="update kata_dokumen set jumlah_cari_tf='{$kata_dokumen_jumlah_cari_tf}' where id_kata_dokumen='".$kata_dokumen->id_kata_dokumen."'"; Yii::app()->db>createCommand($q_update_kata_dokumen)->query(); } endforeach; $model_kata->df= $df; $model_kata->idf= log10($count_dokumen/$df); $model_kata->save(); } endforeach; ?>
3. Source code untuk melakukan Perhitungan Nilai IDF
findByPk($d['id_kata']); if(!empty($model_kata->df)&&!empty($model_kata->idf)){ foreach($dokumen as $d2): $idf=$model_kata->idf; $q_update_kata_dokumen ="update kata_dokumen set jumlah_cari_tf_idf=jumlah_cari_tf*{$idf} where id_dokumen='{$d2['id_dokumen']}' and id_kata='{$d['id_kata']}'"; Yii::app()->db>createCommand($q_update_kata_dokumen)->query(); endforeach; } endforeach; ?>
4. Source code untuk melakukan Perhitungan Nilai Teta menggunakan Pemilihan Fitur MRF
findAll();
87
$cluster_dokumen=ClusterDokumen::model()->findAll(); // PERHITUNGAN METODE MRF // INISIALISASI $nilai_n = array(); $n=0; $nilai_gamma = -0.5; $jumlah_dokumen=count(Dokumen::model()->findAll()); $sper_jumlah_dokumen = 1/$jumlah_dokumen; $sper_nilai_n_semua =0; $sper_gamma_jumlah_dokumen = $nilai_gamma/$jumlah_dokumen; $sper_gamma_min_satu_jumlah_dok_kuadrat = ($nilai_gamma1)/pow($jumlah_dokumen,2); foreach($cluster_dokumen as $cd){ $jumlah_n_dokumen_perkelas = Yii::app()->db>createCommand("select count(*) from dokumen where id_cluster_dokumen='{$cd['id_cluster_dokumen']}'")->queryScalar(); array_push($nilai_n,array('id_cluster'=>$cd['id_cluster_doku men'],'jumlah_n_dokumen_perkelas'=>$jumlah_n_dokumen_perkelas)); $sper_nilai_n_semua+=1/$jumlah_n_dokumen_perkelas; } // END INISIALISASI foreach($kata as $d){ // RUMUS 1 $nilai_teta=0; $nilai_rumus1=0; $nilai_kata_tiap_cluster = 0; foreach($nilai_n as $nn){ $q_cari_kata_di_cluster =" select * from kata_dokumen where id_kata='{$d['id_kata']}' and id_dokumen in (select id_dokumen from dokumen where id_cluster_dokumen='{$nn['id_cluster']}') "; $kata_tiap_cluster = Yii::app()->db>createCommand($q_cari_kata_di_cluster)->queryAll(); $q_sum_kata_di_cluster =" select sum($var_str_teta) from kata_dokumen where id_kata='{$d['id_kata']}' and id_dokumen in (select id_dokumen from dokumen where id_cluster_dokumen='{$nn['id_cluster']}') "; $sum_tiap_cluster = Yii::app()->db>createCommand($q_sum_kata_di_cluster)->queryScalar(); for($i=0;$i
88
$nilai_rumus2=0; $q_sum_kuadrat_kata =" select sum(pow($var_str_teta,2)) from kata_dokumen where id_kata='{$d['id_kata']}' "; $sum_kuadrat_kata = Yii::app()->db>createCommand($q_sum_kuadrat_kata)->queryScalar(); $nilai_rumus2= $sum_kuadrat_kata*$sper_gamma_jumlah_dokumen; //echo $nilai_rumus2.', '; // END RUMUS 2 // RUMUS 3 $q_cari_kata_di_dokumen =" select * from kata_dokumen where id_kata='{$d['id_kata']}' "; $kata_di_dokumen = Yii::app()->db>createCommand($q_cari_kata_di_dokumen)->queryAll(); $q_sum_kata_dokumen =" select sum($var_str_teta) from kata_dokumen where id_kata='{$d['id_kata']}' "; $sum_kata_dokumen = Yii::app()->db>createCommand($q_sum_kata_dokumen)->queryScalar(); $nilai_kata_rumus3=0; foreach($kata_di_dokumen as $kdd){ $nilai_kata_rumus3 += $kdd[$var_str_teta]*$sum_kata_dokumen; } $nilai_rumus3 = $sper_gamma_min_satu_jumlah_dok_kuadrat*$nilai_kata_rumus3; //echo $nilai_rumus3.'
'; $nilai_teta = $nilai_rumus1-$nilai_rumus2+$nilai_rumus3; $update_teta_kata = Kata::model()->findByPk($d['id_kata']); if($bobot=='tf'){ $update_teta_kata->teta_tf = $nilai_teta; }else if($bobot=='tfidf'){ $update_teta_kata->teta_tf_idf = $nilai_teta; } $update_teta_kata->save(); } ?>
89
Halaman ini sengaja dikosongkan
90
BIOGRAFI PENULIS
Prita Dellia. Lahir di Bojonegoro, 5 Maret 1990. Merupakan anak kedua dari tiga bersaudara. Penulis menempuh pendidikan formal mulai dari 1996-1998 di SD Negeri 1 Maliana, Timor Timur. Pada tahun 1998 penulis berpindah domisili
sehingga
1998-2002
penulis
meneruskan
pendidikan di SD Negeri Sedeng III Kanor, 2002-2005 di SMP Negeri 5 Bojonegoro, dan 2005-2008 di SMA Negeri 1 Bojonegoro. Tahun 2008 penulis melanjutkan jenjang pendidikan Strata 1 di jurusan Sistem Informasi, Fakultas Sains dan Teknologi, Universitas Airlangga Surabaya. Kemudian pada tahun 2014 penulis memutuskan untuk meneruskan pendidikan magister dan diterima sebagai mahasiswi di Institut Teknologi Sepuluh Nopember Surabaya pada jurusan Sistem Informasi yang berada dalam Fakultas Teknologi Informasi. E-mail:
[email protected]
91