9 BAB 1
PENDAHULUAN Latar Belakang Short Message Service (SMS) merupakan salah satu media komunikasi yang banyak digunakan saat ini karena praktis untuk digunakan dan biaya pengirimannya murah. Namun, seiring dengan semakin populernya penggunaan SMS, muncul tindakan menggunakan layanan SMS untuk tujuan yang tidak tepat. SMS dengan tujuan malfungsi ini biasanya disebut SMS spam. Contoh dari SMS spam adalah SMS yang digunakan sebagai media iklan, SMS yang berisi pesan porno, SMS dengan tujuan menipu dan sebagainya. SMS seperti ini cenderung mengganggu penerima SMS. Bahkan SMS dengan tujuan menipu dapat merugikan orang yang menerima SMS tersebut. Saat ini, tindak penipuan melalui SMS semakin marak terjadi. Dengan menggunakan SMS sebagai media tindak penipuan, keberadaan penipu akan sulit untuk dilacak. Ada beberapa macam tindak penipuan yang dilakukan melalui SMS. Salah satu tindak penipuan yang saat ini marak terjadi di masyarakat adalah SMS yang berisi permintaan pulsa telepon seluler ke nomor tertentu, dengan mengatasnamakan keluarga. Terkadang, kalimat yang digunakan untuk tindak penipuan tidak menimbulkan kecurigaan bagi penerima SMS. Akan tetapi, ketika SMS tersebut ditindak lanjuti, ternyata SMS itu mengarah ke tindak penipuan. Oleh karena itu, dibutuhkan penyaringan SMS yang memiliki indikasi tindak penipuan. SMS yang beredar di masyarakat dapat dimanfaatkan untuk memperoleh informasi mengenai pola SMS yang memiliki indikasi tindak penipuan. Tantangan dalam mencari informasi dari data SMS adalah keragaman kata yang digunakan dalam SMS, penyingkatan kata dalam penulisan SMS, atau terdapat kata yang salah ketik. Tetapi, jika pola SMS yang memiliki indikasi tindak penipuan dapat diketahui, akan dapat dibuat perangkat lunak yang diletakkan di perangkat seluler. Perangkat lunak ini yang akan membantu masyarakat untuk menentukan SMS yang diterimanya memiliki indikasi tindak penipuan atau tidak. Sehingga masyarakat dapat lebih berhati-hati dalam menindaklanjuti SMS yang diterimanya dan dapat mencegah terjadinya tindak penipuan melalui SMS. Akan tetapi dalam meletakkan perangkat lunak tersebut ke perangkat seluler mungkin saja akan
10 menimbulkan kesulitan jika dilihat dari sisi hardware. Dimana perangkat lunak yang dibuat tidak bisa menggunakan banyak memori di dalam perangkat seluler dan harus dapat bekerja dalam waktu yang relatif cepat. Klasifikasi adalah bentuk analisis data yang dapat digunakan untuk mengekstrak model yang mendeskripsikan data yang berisi kelas-kelas atau untuk memprediksi trend data di masa depan (Han & Kamber 2011). Pemodelan klasifikasi akan menghasilkan model klasifikasi yang akan digunakan untuk memprediksi label berbentuk kategori. Terdapat beberapa metode dalam melakukan penyaringan SMS, salah satunya adalah metode blacklist. Pada metode ini, operator telepon selular dapat melakukan autentikasi terhadap nomor pengirim SMS dan membuat daftar hitam nomor pengirim yang bertindak sebagai spammer. Dengan demikian, hanya nomor pengirim yang dipercaya yang dapat mengirim pesan SMS mereka setelah melewati proses autentikasi. Namun, pada kenyataannya, operasi semacam ini tidak efisien karena sebagian besar SMS spam dikirim dari nomor spammer yang baru, dimana nomor pengirim tersebut belum ditambahkan ke daftar hitam. Dengan demikian, cara kerja metode ini adalah dengan menjalankan sistem anti spam setelah SMS spam terjadi (Khemapatapan 2010). Metode lainnya adalah penyaringan berdasarkan konten. Pada metode ini, akan dicari fitur kata dari setiap SMS yang dikirim yang menjadi ciri dari SMS tersebut. Penentuan suatu SMS termasuk kelompok spam atau bukan dilakukan berdasarkan fitur kata tersebut. Penelitian pada penyaringan email spam telah dilakukan lebih dulu dan lebih mendalam jika dibandingkan dengan penelitian pada penyaringan SMS spam. Jika dibandingkan dengan struktur email, struktur SMS memiliki beberapa keterbatasan. Pesan SMS lebih pendek dari email, mereka kurang terstruktur, dan teks mereka penuh dengan singkatan dan idiom (Cormack 2007a). Dalam semua situasi ini, baik pada pesan singkat secara alami, atau bagian yang digunakan untuk penyaringan yang jauh lebih singkat daripada rata-rata pesan email. Untuk itu perlu dipertimbangkan teknik penyaringan berdasarkan konten yang telah tersedia saat ini yang mana dapat melakukan transfer dari pesan yang panjang atau pesan yang penuh menjadi pesan singkat, yang mungkin mengandung bahasa gaul
11 yang spesifik, fitur baru seperti nomor telepon singkat, dan di mana ruang fitur secara intuitif lebih besar (Cormack 2007b). Hidalgo et al. (2006) melakukan penelitian penggunaan Bayesian Filtering yang telah berhasil digunakan pada identifikasi email spam untuk digunakan pada identifikasi SMS. Dari penelitian yang dilakukannya, mereka memperoleh hasil bahwa teknik Bayesian Filtering dapat digunakan pada SMS spam secara efektif. Khemapatapan (2010) melakukan penelitian tentang penyaringan SMS spam dengan menggunakan algoritma Support Vector Machine (SVM) dan Naïve Bayes. Proses analisis semantik diterapkan pada penelitian ini untuk menangani masalah kata yang salah diketik. Salah satu hasil yang diperoleh adalah SVM memberikan akurasi yang lebih tinggi dari Naïve Bayes, akan tetapi waktu pemrosesan klasifikasi dengan menggunakan SVM jauh lebih lama dibandingkan dengan Naïve Bayes. Deng & Peng (2006) melakukan penelitian tentang pembangunan sistem penyaringan SMS terdistribusi menggunakan algoritma Naïve Bayes. Selain menggunakan kata sebagai atribut dari SMS, penelitian ini juga menggunakan panjang pesan dan beberapa aturan sebagai atribut dari SMS. Hasil penelitian yang diperoleh menunjukkan, penggunaan panjang pesan dan aturan sebagai atribut SMS dapat meningkatkan akurasi klasifikasi SMS. Penyaringan SMS dilakukan di perangkat seluler dapat dilakukan di perangkat seluler atau di SMS Center (SMSC). Hal ini dapat dilihat pada arsitektur SMS pada jaringan (Bodic 2005). Untuk melakukan penyaringan SMS di SMSC, diperlukan kerjasama dengan pihak operator perangkat seluler. Penyaringan SMS di SMSC dilakukan sebelum suatu SMS masuk ke perangkat seluler pengguna. Sehingga pengguna tidak akan menerima suatu SMS apabila SMS tersebut telah diklasifikasikan berindikasi tindak penipuan oleh aplikasi penyaringan SMS di SMSC. Jika ternyata aplikasi penyaringan tersebut salah mengklasifikasikan SMS tersebut, maka pengguna perangkat seluler dapat dirugikan. Sedangkan untuk melakukan penyaringan SMS di perangkat seluler dilakukan dengan memasang aplikasi penyaringan SMS di perangkat seluler. Penyaringan SMS akan dilakukan setelah SMS masuk ke perangkat seluler pengguna tetapi sebelum masuk ke inbox. Sehingga pengguna dapat tetap mengetahui SMS yang diklasifikasikan sebagai SMS berindikasi tindak penipuan
12 oleh aplikasi penyaringan SMS di perangkat seluler. Apabila ternyata aplikasi penyaringan SMS salah melakukan klasifikasi, pengguna masih tetap dapat membaca isi dari SMS tersebut. Data SMS yang beredar di masyarakat dapat dianalisis menggunakan teknik text mining. Salah satu teknik dalam text mining adalah klasifikasi (Feldman & Sanger 2007). Masalah penyaringan SMS spam dapat dipandang sebagai klasifikasi teks, yang biasanya dimodelkan sebagai tugas pembelajaran yang diawasi dimana pengklasifikasi biner dilakukan pada kelompok pesan pelatihan yang diberi label dan kemudian digunakan untuk memprediksi kelas dari masingmasing pesan pada kelompok pesan pengujian yang tidak berlabel (Sebastiani 2002). Teknik klasifikasi akan menghasilkan model klasifikasi yang dapat digunakan untuk menentukan apakah sebuah SMS yang baru masuk memiliki indikasi tindak penipuan atau tidak. Salah satu tantangan yang harus dihadapi adalah struktur dari SMS. Selain masalah keterbatasan pada struktur SMS yang telah dijelaskan di atas, terdapat beberapa hal yang penting pada proses penyaringan SMS spam yaitu : 1. Aplikasi penyaringan SMS membutuhkan pemrosesan real time pada lingkungan sumber daya terbatas, seperti ponsel, untuk mengklasifikasikan pesan karena itu pengguna tidak bisa menunggu. Umumnya kurang dari 5 detik yang dibutuhkan, sehingga memerlukan pendekatan penyaringan cepat untuk melakukan hal ini (Deng & Peng 2006). 2. Adanya interaksi dengan pengguna, dimana pengguna dapat memberikan feedback, yaitu apakah sms tersebut merupakan SMS spam atau SMS sah. 3. Tidak hanya menggunakan kata sebagai atribut. Tetapi juga menggunakan beberapa rangkaian angka atau angka dengan huruf yang memiliki makna tertentu. Misalnya rangkaian angka yang merupakan nomor telepon, seperti 085697851845. Kemudian rangkaian angka dan huruf yang merupakan jumlah uang, seperti Rp.50.000. Perumusan Masalah Berdasarkan latar belakang di atas, maka dapat dirumuskan masalah yang diteliti sebagai berikut:
13 1.
Bagaimana melakukan pengelompokkan data SMS yang memiliki indikasi tindak penipuan dan tudak memiliki indikasi tindak penipuan? Jumlah klaster dan nilai ambang berapa yang memberikan pengelompokkan data SMS yang terbaik?
2.
Bagaimana mengetahui pola SMS yang memiliki indikasi tindak penipuan?
3.
Bagaimana pengguna perangkat seluler dapat mengetahui sebuah SMS memiliki indikasi tindak penipuan atau tidak?
Tujuan Penelitian Penelitian ini bertujuan untuk : 1.
Membentuk klaster terhadap data SMS berbasis algoritma ROCK (Guha et al. 2000) dan memilih ukuran jumlah klaster dan nilai ambang yang memberikan klaster terbaik.
2.
Membentuk sebuah model klasifikasi berbasis algoritma Naive Bayes (Deng & Peng 2006) dengan menggunakan fitur kata yang ada dalam SMS tersebut.
3.
Mengimplementasikan model klasifikasi ke perangkat seluler berbasis Android (Google 2012).
Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah membentuk model klasifikasi untuk data SMS yang beredar di masyarakat pada tahun 2010 sampai dengan tahun 2011, baik yang memiliki indikasi tindak penipuan dan tidak memiliki indikasi tindak penipuan. Indikasi tindak penipuan yang akan dicari polanya adalah SMS yang berisi
permintaan
pulsa
telepon
seluler
ke
nomor
tertentu,
dengan
mengatasnamakan orangtua, yaitu mama atau papa. Kemudian SMS yang berisi penawaran menjadi agen pulsa dan SMS yang menunjukkan ketertarikan pada proses jual beli tanah, rumah, atau mobil. Platform yang digunakan pada implementasi model klasifikasi adalah Android.