DETEKSI KECURANGAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE DATA MINING
DWI AGUS SUSILO
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
ABSTRACT
DWI AGUS SUSILO. Telecommunication Fraud Detection with Data Mining Method. Under supervision of Marimin and Fahren Bukhari. Prevention and detection of fraudulent activity is an important goal for networks operators. Subscription fraud occurs when a subscriber uses false identification to obtain a service. Mobile coomunications industry loses many billions rupiah become of fraud, especially subscripti011fraud, bad debt. The purpose of fraud detection tool which was developed in this theses was to detect fraudulent behaviour of users from their usage data, before the cost of such activity becomes too much. Data mining technology discovery calls behaviour. User profile categorizes fraudulent and non-fraudulent behavior. Data mining is good method to detect fraud in telecommunication by detecting bad debt fraudulent. With backpropagation neural networks, supervised learning technique, classified test data with high detection probability every eigth hours. By using this method, detection of bad debt fraud accuracy is 98,S%. Key words : fraud detection, subscription fraud, bad debt, backpropagation neural networks, data mining
RINGKASAN
DWI AGUS SUSILO. Deteksi Kecurangan Pada Jaringan Telekomunikasi Menggunakan Metode Data Mining. Di bawah bimbingan Marimin sebagai ketua dan Fahren Bukhari sebagai anggota. Kecurangan atau fraud menurut Association of CertiJied Frcrud Examiners (ACFE).didefinisikan sebagai "the use of one S occupation for personal enrichment through the deliberate mistrse or application of 'the employing organization's resources or assets" (suatu tindakan untuk memperkaya diri sendiri melalui penyalahgunaan secara sengaja atau penggunaan sumberdaya organisasi atau asetasetnya). Dalam penelitian ini yang dimaksud fiaud adalah .penggunaan layanan oleh -orang yang beruiaya untuk menghindari biaya-layanan. Deteksi kecurangan pada jaringan telekomunikasi (fiuud detection) berkembang seiring dengan selnakin meningkatnya ancaman kecurangan pada jaringan telekomunikasi. Kerugian yang diakibatkan oleh perbuatan curang telah menyebabkan berkurangnya sumber daya dan mengurangi keuntungan hingga 3%5% dari nilai penjualan. Penelitian ini mengkhususkan pembahasan tentang kecurangan subscription fraud jenis bad debt yang saat ini menjadi jenis kecurangan telekomunikasi yang paling merugikan. Kecurangan jenis ini dilakukan oleh pelanggan yang menggunakan identitas palsu untuk memperoleh layanan dan bertujuan untuk tidak membayar biaya tagihan yang dilakukannya. Mengingat deteksi kecurangan sangat berkaitan Gengan masalah waktu maka kecepatan waktu deteksi kecurangan menjadi sensitif. Dimana keterlambatan dalam deteksi kecurangan dapat mengakibatkan kerugian finansial yang sangat besar. Untuk mempercepat waktu deteksi dalam penelitian ini dirancang prototipe deteksi kecurangan jenis bad debt kurang dari 10 jam setelah panggilan. Prototipe yang dibangun melakukan deteksi secara off line, artinya mesin yang dibangun tidak langsung berhubungan dengan komputer pecatat transaksi panggilan MSC (Mobile Switching Center) tetapi mengambilnya dari database transaksi panggilan. Dalam penelitian ini akan dilaksanakan dalam dua tahap, yaitu tahap pembuatan user profile (pola perilaku user) dan tahap kedua penentuan klasifikasi. Dalam tahap pertama, peneliti menyiapkan data yang berasal dari PT. X dan melakukan proses data mining untuk mendapatkan pola perilaku user. Di sini akan diperoleh informasi mengenai perbedaan karakterisitiklperilaku pengguna yang normal dan pengguna yang tidak normal fiatrdlc~~rang). Tahap kedua adalah penentuan klasifikasi dengan menggunakan teknik neural network (jaringan syaraf tiruan). Alat klasifikasi kecurangan dilatih dengan data pelatihan dan mengujinya dengan data pengujian. Untuk mengukur akurasi digunakan rumus dari Rosset (Rosset, et al, 1999).
Tujuan penelitian ini adalah untuk : (1) Mengkaji penerapan data mining dengan teknik netrral neht~ork untuk deteksi kecurangan pada jaringan telekomunikasi khususnya kecurangan jenis b a d debt; (2) emb ban gun sistem deteksi kecurangan pada jaringan telekomunikasi dengan metode data mining; dan (3) Mengukur tingkat akurasi pendeteksian kecurangan pada jaringan telek~munikasidengan teknik neural network. Metode yang digunakan dalam penelitian ini menggunakan metode data mining. Dengan metode data mining dapat dieksplorasi transaksi panggilan sehingga dapat diketahui profil pelanggan telepon yang masuk dalam katagori curang atau normal. Penelitian ini menggunakan kaidah proses Data mining and Knowledge Discovery dengan rhengacu pada standar proses CRISP-DM '(cross Industri Standard Process for Data mining), yaitu : (1) Fase- ema ah am an Penelitian; (2) Fase Pemahaman Data; (3) Fase Persiapan Data; (4) Fase Pemodelan; (5) Fase Evaluasi; dan (6) Fase Pembangunan. Deteksi kecurangan dilakukan lebih cepat yaitu setiap 8 jam sekali dengan menggunakan data perilaku panggilan pelanggan yang sudah dikelompokkan dalam katagori waktu (jam kerja, jam senggang , dan jam istirahat) dan katagori hari (hari kerja dan hari minggullib~r). Teknik backpropagation neural network (BPNN) digunakan untuk melakukan klasifikasi. Kesimpulan dari penelitian menyatakan metode data mining sangat baik untuk digunakan dalam deteksi kecurangan telekomunikasi khususnya jenis bad debt. Dari hasil penelitian didapatkan keakuratan klasifikasi dengan teknik BPNN niencapai 98,8%. Hasil ini lebih dari hasil penelitian yang dilakukan Rosset yang memiliki tingkat akurasi 94%. Kata kunci : Deteksi kecurangan: subscription fiaud, bad debt, backpropagation neural neh~orks,data iiiining
Judul Tesis
: Deteksi Kecurangan Pada Jaringan Telekomunikasi
Menggunakan Metode Data Mining Nama
:Dwi Agus Susilo
NRP
: G651024114
Program Studi
:Magister Ilmu Komputer
Menyetujui, 1. Komisi Pembimbing
Prof. Dr. Ir. Marimin, M.Sc Ketua
Ir. Fahren Bukhari, M.Sc Anggota
Mengetahui, 2. Ketna Program Stndi
Tanggal Ujian : 15 September 2006
Tanggal Lulus :
1 6 N 0 V 2006
SURAT PERNYATAAN
Saya menyatakan dengan sebenar-benamya bahwa segala pernyataan dalam tesis saya berjudul : DETEKSI KECURANGAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE DATA MINING
Merupakan gagasan atau hasil penelitian tesis saya sendiri, dengan arahan Komisi Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada program sejenis di perguruan tinggi lain. Semua data dan informasi yang digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.
Jakarta,
November 2006
Yang membuat pernyataan
DWl AGUS SUSILO
@ Hak cipta milik Institut Pel-tanian Bogor, tahun 2006
1Hak cipta dilindungi Dilarang mengutip dan memperbanyak tanpa izin tertulis dari lnstitut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apa pun, baik cetak, fotokopi, mikrofilm, dan sebagainya.
0
DETEKSI KECURANGAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE DATA MINING
DWI AGUS SUSILO
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
RIWAYAT HIDUP Penulis lahir di Semarang, Jawa Tengah pada tanggal 20 Agustus 1974, putera kedua dari pasangan Sunardi dan I-Ij. Siti Djiiwariyah. Pendidikan dasar hingga tinggi ditamatkan di kota kelahiran Semarang. Lulus Sekolaii Teknologi Menengall Negeri Pe~nbangunanSemarang tahun 1994. Pendidikan sarjana ditempuh di Jurusan Teknik 4
,
Inforniatika STMIK Dial1 Nuswantoro (sekarang Universitas Dian Nuswantoro) lulus tahun 2000. Sejak 2004 sebagai Tim Asistensi Menpora di Kantor Kernenterian Negara Pemuda dan Olahraga. Pada tahun 2002 penulis memulai pendidikan pascasarjana di Program Studi Illnu Komputer, Sekolah Pascasarjana Institut Pertanian Bogor.
?.
KATA PENGANTAR
Alhari;dulillah, segala pzrji bagi Allah Tuhan sernesta alum yang selalu nzernbevikan lirnpahan kasih dun sayang-Nya kepada kita tanpa henti. Penulisan tesis dengan judul "Deteksi Kecurangan Pada Jaringan Telekomunikasi Dengan Metode Data Mining" dimulai dengan ketertarikan penulis terhadap bidang data mining yang memang sedang populer. Data mining 5ebagai . , ' sebuah ~netode pengungkapan informasi memiIiki peranan yang sangat penting di era informasi saat ini. Dimana "banjir data" hampir terjadi di setiap unit bisnis dan hanya menjadi "gunungan" arsip yang kurang bermakna. Melalui data mininglah para pengambil keputusan dapat belajar dari data dan meraih informasi penting untuk pengambilan keputusan penting pada unit bisnisnya. Melalui kerja keras dan bimbingan yang tulus dari dari pembimbing, Prof. Dr. Ir. Marimin, M.Sc dan Ir. Fahren Bukhari, M.Sc., maka penulis dapat menyelesaikan penulisan tesis ini. Walaupun waktu yang diperlukan untuk pencarian data dan proses pengolahan data cukup lama. Untuk itu saya mengucapkan banyak terima kasih kepada para staf dan pimpinan bagian Fraud dan Performansi PT. Telekomunikasi Indonesia. Dan tidak lupa juga kami sampaikan rasa hormat dan terima kasih kepada seluruh pengajar dan staff di sekolah pascar sarjana khususnya pada program Studi Ilmu Komputer IPB yang telah banyak mentransformasikan ilmu, pengalaman, dan pelayanan. Serta terima kasih kepada kawan-kawan seperjuangan di program studi ilmu kornputer khususnya kelas B yang selalu berbagi dan saling mendukung. Tidak lupa juga untaian maaf untuk istri dan putriku yang sedikit terlupakan akibat kesibukan dalam pembuatan tesis. Khusus kepada kedua orang tuaku, tesis ini kupersembahkan sebagai tanda bakti ananda. Dan untuk saudara-saudaraku semoga ini menjadi pendorong untuk berbuat yang terbaik. Penulis berharap melalui tesis ini dapat menyumbang pemikiran pada ilmu peng$tahuan, khususnya pada bidang data mining dan lebih khusus pada studi deteksi kecurangan pada jaringan telekomunikasi. Semoga tesis ini dapat bermanfaat dan berharap ada kemauan dari peneliti yang lain nntuk mengembangkannya lebih lanjut.
Jakarta, November 2006 Dwi Agus Susilo
DAFTAR IS1
halaman HALAMAN JUDUL
i
HALAMAN PENGESAHAN
.11.
RIWAYAT HIDUP
iii
KATA PENGANTAR
iv
DAFTAR IS1
v vii
DAFTAR GAMBAR
...
DAFTAR TABEL
Vlll
ix
DAFTAR LAMPIRAN BAB I
PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Permzsalahan
2
1.3 Tujuan Penelitian
3
1.4 Manfaat Penelitian
4
1.5
BAB I1
4
Ruang Lingkup
5
TINJAUAN PUSTAKA 2.1
Deteksi Kecurangan Pada Jaringan Telekomunikasi
2.2
Penemuan
Pengetahuan
di
Discovely Database)
BAB 111
2.2
Data Mining
2.4
Profile Pengguna (User Profile)
2.5
Jaringan Syaraf Tiruan
METODOLOGI PENELITIAN 3.1
Kerangka Pemikiran
3.2
Tata Laksana
3.3
Pengembangan Sistem
Database
(Knowledge
5
7
BAB IV
PERANCANGAN SISTEMJ PROTOTYPE 4.1
Pengumpulan Data
4.2
Persiapan Data
4.3
Identifikasi Parameter Deteksi Kecurangen
4.4
Eksplorasi Data Mining
4.5
Pernodelan
4.6 Tahapan Pelatillan 4.7
Tahapan Pengujian
4.8
Pembangunan Sistem Prototipe
4.9 Tahapan Validasi dan Verifikasi BAB V
IMPLEMENTASI SISTEM 5.1
Sistem Easis Data
5.2 Aplikasi Perilaku Pelanggan 5.3 Analisis Gerombol 5.3 Aplikasi Klasifikasi 5.4 Kolnpleksitas Sisteln BAB VI
ANALISIS DAN PEMBAHASAN 6.1
Analisis Perilaku Panggilan
6.2 Analisis Gerolnbol 6.3 Analisis Uji Jaringan Syaraf Tiruan 6.3 BAB VII
Implikasi Manajemen
KESIMPULAN DAN SARAN 7.1
Kesimpulan
7.2
Saran
DAFTAR PUSTAKA LAMPIRAN
*,
DAFTAR GAMBAR
Halaman Gambar 2.1
Arsitektur Prototipe BRUTUS
6
Gambar 2.2
Proses KDD
8
Gambar 2.3
Proses Data Mining
10
Gambar 2.4
Perulangan pada CRISP-DM, proses adaptasi
11
Gambar 2.5
Skenario Untuk Deteksi Kecurangan Telekomunikasi
14
Gambar 2.6
Fungsi aktivasi pada jaringan syaraf sederhana dengan fungsi
15
aktivasi F Gambar 2.7
Arsitektur Jaringan Backpropagation
Gambar 3.1
Kerangka Pemikiran Penelitian
Gambar 4.1
Diagram Alir Perilaku Pelanggan
Gambar 4.2
Surnber data Parameter Deteksi Kecurangan
Gambar 4.3
Modifikasi Arsitektur BRUTUS
Gambar 4.4
Arsitektur Jaringan Syaraf Tiruan untuk Deteksi Kecurangan
Gambar 4.5
Flow chart Deteksi Fraud dengan Jaringan Syaraf Tiruan
Gambar 5.1
K-nzeans clzrstering dengan SPSS 10.0
Gambar 6.1
Laporan Perilaku Pelanggan
Gambar 6.2
Jumlah Pelanggan yang Melakukan Panggilan Lokal
Gambar 6.3
Jumlah Pelanggan yang Melakukan Panggilan Interlokal berdasarkan hari
Gambar 6.4
Rata-rata Jumlah panggilan Lokal berdasarkan hari
Gambar 6.5
Rata-rata Jumlah panggilan Interokal berdasarkah hari
Gambar 6.6
Bo::?!ot
Gambar 6.7
BoxPlot Profil Panggilan Tanggal 1 Januari 2005
Gambar 6.8
Akurasi Klasifikasi BPNN
Gambar 6.9
Tampilan Program Klasifikasi
Gambar 6.10
Uji Model Klasifikasi JST
Profil Panggilan Tanggal 14 Januari 2005
DAFTAR TABEL
Halaman Tarif untuk Hari Kerja
27
Tarif untuk Hari Minggu / Libur
27
Tabel Perilaku Pelanggan
30
Tabel Inputan BPNN (Backpropagation Netrral Nehl~ork)
34
Tabel Keluaran BPNN (Backpropagation NezrralNeh~~ork)
35
Nilai Kompleksitas Algoritrna
43
Jumlah Pelanggan yang Melakukan Panggilan
45
Jumlah Panggilan Min, Max, Mean Pelanggan
46
Hasil Gerombol Terakhir (Final Cluster) Tanggal 1 Januari
52
kategori jam kerja Tabel 6.4
Jarak Antar Gerombol Kategori Hari Libur
Tabel 6.5
Jumlah Pelanggan Curang Kategori Hari Libur
Tabel 6.6
ANOVA Tanggal 1 Januari kategori jam kerja
Tabel 6.7
Jumlah Pelanggan Curang hasil K-n~eans clzistering dan Perbedaaan Pengelompokan menurut PT.X (Hari Libur)
Tabel 6.8
Final Cluster Tanggal 12 Januari kategori jam kerja
Tabel 6.9
Jarak Antar Clzrsfer Kategori Hari Kerja
Tabel 6.10
Jumlah Pelanggan Curang Kategori Hari Kerja
Tabel 6.1 1
ANOVA Tanggal 12 Januari kategori jam kerja
Tabel 6.12
Jumlah Pelanggan Curang hasil K- weans clustering dan Perbedaaan Pengelompokan menurut PT.X (Hari Kerja) Hasil Akurasi Pelatihan Hasil Akurasi Pengujian Akurasi Klasifikasi BPNN dengan epoch 50.000 Akurasi Klasifikasi BPNN dengan epoch 100.000 Rincian Julnlah Pelaku Kecurangan
DAFTAR LAMPIRAN
Halaman Lampiran 1.
Cara Perolehan Dan Pengolahan Data
68
Lampiran 2.
Format CDR (Charging Data Record
69
Lampiran . . 3.
Nilai Kolom-CDR (Charging Data Record) yang perlu
70
diketahui Lampiran 4.
Flow Chart Sistem
71
Lampiran 5.
Flow Chart Pilih Pelanggan Post Paid
73
Lampiran 6.
Flow Chart Deteksi Kecurangan dengan Jaringan Syaraf
74
Tiruan Lampiran 7.
Tahap Perkembangan Penelitian Deteksi Kecurangan
Lampiran 8.
Data Pelatihan Jaringan Syaraf Tiruan
Lampirar, 9.
Data Pengujian Jaringan Syaraf Tiruan
Lampiran 10. Bobot JST yang digunakan oleh model Klasifikasi
BAB I. PENDAHULUAN
1.1 Latar Belakang
Kecurangan atau fraud menurut Association of Certffied Fraztd Examiners (ACFE) didefinisikan sebagai "the use of one's occzpationfor personal enrichn~ent through the deliberate rnisuse or application of the etnploying organization's resources or assets" (suatu tindakan untuk memperkaya diri sendiri melalui
penyalahgunaan secara sengaja atau penggunaan sumberdaya organisasi atau asetasetnya)' Dalam bahasa !ah, fraud didefinisikan sebagai tindakan penggunaan fasilitas telekomunikasi secara ilegal yang sengaja dilakukan dengan berbagai cara bentuk kecurangan, penipuan atau penggelapan oleh orang atau organisasi tertentu untuk maksud menghindari biaya layanan atau pelacakan rekaman tagihan yang dilakukan secara ilegal. Aktivitas kecurangan dapat terjadi kapan saja dan dilnana saja seperti di jaringan telekoniunikasi, telepon bergerak (mobile conzmunications), perbankan online, dan e-commerce. Kecurangan meningkat secara dramatis dengan meningkatnya
kemajuan teknologi dan komunikasi global yang mengakibatkan kerugian di dunia bisnis. Di Uni Eropa diperkirakan kerugian di industri telepon bergerak mencapai jutaan dolar per tahun. Di seluruh dunia menurut data CFCA (Communications Fraud Control Association) diperkirakan kerugian akibat kecurangan mencapai US $35-$40
juta, data dianlbil dari 26 negara. Nilai kecurangan yang menimpa mereka mencapai
3-6% dari nilai penjualan. Konsekuensinya adalah deteksi terhadap kecurangan menjadi isu penting. Kelnampuan untuk melakukan identifikasi kecurangan secara cepat menjadi suatu kebutuhan. Unruk itu perlu dibangun metode deteksi kecurangan secara berkelanjutan agar sisteni dapat bertahan dari tindakan kriminal dan beradaptasi terhadap strategi kecurangan yang dilakukan para pelaku kecurangan. Pembuatan metode baru untuk
' University Of Houston Sistem Administrative Memorandum. lnvesfigationFralrdulenf Acls, http:llwww.uhsa.uli.edu/samlAMIO1C04.htm, 2000.
deteksi kecurangan sangat sulit dilakukan karena keterbatasan dalam pertukaran ide dan pengetahuan dala~ndeteksi ltecurangan. Data yang tidak selalu tersedia dan hasil penelitian yang tidak selalu dipub!ikasiltan merupakan penyebabnya. Menurut Taylor (1999) ada beberapa skenario kecurangan pada jaringan telekomonikasi. Antara lain, subscription fratid; PABX fratid; freephone fraud;
premiuli? rate fraud; handset the$; dan laaitzingJi.aud. Pada dasarnya kecurangan , dapat
di deteksi dari kumpulan data yang besar seperti data log:dan data perilaku
e digunakan digunakan untuk mendeteksi kecurangan pengguna telepon ~ e t o d yang antara lain menggunakan metode dala mining, statistik, dali artiJicial intelege:?t. Metode deteksi kecurangan melakukan pengungkapan yang terjadi melalui analisa terhadap penyimpangan data dan pola perilaku pen,g= una. Jakko Hollmen dalain desertasi berjudul "user profiling and classij?cationfor
fraud detection in mobile comtnunication networks" telah mengernbangkan deteksi kecurangan pada jaringan telekom~nikasisecara lengkap mulai dari pe~nbuatanuser profile model, klasifikasi perilaku, deteksi kecurangan real time, hingga pembuatan laporan. Desertasi tersebut merupakan gabungan dari tujuh tulisan Holllnen dkk tentang teknik deteksi kecurangan. Fraud Detection in Con;n?tmications Nehi~orh
Using Nezrr-a1 and Probabilistic r~lethorls(Taniguchi, et ~1,1998)merupakan tulisan pertama Hollmen yang membahas teknik deteksi kecurangan menggunakan liga metode. Metode pertanla, feed-jomard netrral nehvork, model gabunga~iGaussian, dan Bayesian nework. Tulisan Hollmen yang keempat, A self-organizing rnap for clusfering
probabilistic
models (Hollm'en,
et al, 1999) merupakan hasil penelitian
menggunakan metode Self Organizi17g Map. Metode ini merupakan metode yang lnampu memperbaiki tingkat ko~nputasi menjadi lebih rendah. Pendekatan ini digunakan ~lntukpemodelan perilaku panggilan di jaringan telepon bergerak.
1.2 Permasalal~an Awalnya Fawcett dan Provost (1997) memperkenalkan teknik yang disebut Adaptive Fraud Detection yailg ~nenggunakanmetode data mining dan rule-based
sebagai pendekatan ~ ~ n t udeteksi k kecurangan. Kemudian ASPeCT (Advanced Securiiy for Personal Commu17ications Technologies) memperkenalkan teknologi k kecurangan umum yang disebut BRUTUS. BRUTUS baru ~ ~ n t u mendeteksi rnenggunakan modul manajemen atau Adaptive Critic yang nienyediakan user alat analisis yang komprehensif u n t ~ ~deteksi k real-time. Moreau, et a1 (1997) memperkenaikan metode neural network untuk prototipe deteksi kecurangan menggunakan data toll ticket. Tekfiik user profile dan klasifikasi sebagai dasar dari deteksi kecurangan dilakukan oleli Jakko Mollmen. Dari penelitian yang ada tnenunjukkan adanya variasi metode yang digunakan ~ ~ n t umembangnn k user profile dan melakukan klasifikasi tetapi ada beberapa permasalalian yang dihadapi, antara lain
1.
rnasih sedikit yang melakukannya untuk katagori subscriptionfrnud jenis bad debt,
2.
rnasih sebatas prototipe,
3.
prototige yang dibuat masih menggunakan data panggilan dalam sehari balikan ada yang sebulan,
4.
belum ada hasil penelitian yang menunjukkan tingkat akurasi dengan data riil,
5.
sulitnya mendapatkan data penelitan yang merepresentasikan semua skenario kecurangan. Mengingat deteksi kecurangan sangat berkaitan dengan masalah waktu maka
kecepatan waktu deteksi kecurangan menjadi sensitif. Dimana keterlambatan dalam deteksi kecurangan dapat mengakibatkan kerugian finansial yang sangat besar. Untuk mempercepat waktu deteksi dalam penelitian ini dirancang prototipe deteksi kecurangan jenis bad debt kurang dari 10 jam setelah panggilan. Prototipe yang dibangun melakukan deteksi secara oSf line, artinya mesin yang dibangun tidak langsung berhubungan dengan komputer pecatat transaksi panggilan MSC (Mobile Switching Ceriter) tetapi mengambilnya dari database transaksi panggilan. 1.3 Tujoan Penelitian
Tujuan penelitian ini adalah untuk :
1. Mengkaji penerapan data mining dengan teknik neural network untuk deteksi
kecurangan pada jaringan telekomunikasi khususnya kecurangan jenis bad debt, 2. Membangun sistem deteksi kecurangan pada jaringan telekomunikasi dengan
metode data mining, 3. Mengukur tingkat akurasi per~deteksiankecurangan pada jaringan telekomunikasi dengan teknik neural network. .
... 1.4 Manfaat Penelitian Manfaat penelitian ini adalah : 1. Sebagai langkah awal untuk membag~insistein deteksi kecurangan pada jaringan
telekomunikasi jenis bad debt, 2. Meningkatkan kinerja
hasil penelitian-penelitian
sejenis yang dilakukan
sebelumnya.
1.5 Ruang Linglcup Ruang lingkup penelitiail ini adalali
1. Menggunakan basis data transaksi percakapan telepon dari sebuah perusahaan provider telepon. 2. Sistem deteksi kecurangan yang dibangun dibatasi pada subscription fraud jenis
bad debt, 3. Menggunakan algoritma data mining klasifikasi dengan teknik neural nelwork 4. Deteksi kecurangan yang dibangun secara offline.
.
.<
BAB 11. TINJAUAN PUSTAKA
2.1 Deteksi Kecurangan pada Jaringan Telekomunikasi
Sistem operasi jaringan telepon bergerak sangat kolnplek tetapi tetap saja ada celah kelernahan yang membuat pelaku kecurangan telekomunikasi selalu ingin menemukannya dan lnengeksploitasi kelemahan sistem. Sejak tahun 1995 ketika skelna pembayaran pra bayar niulai diperkenalkan, jenis kecurangan baru pada jaringan telekomunikasi
banyak bermunculan. Tentunya kecurangan tersebut
mernbebani jaringan, artinya tindakan kecurangan akan membuang sumberdaya dan tentunya mengurmgi keuntungan. Banyak jenis kecurangan telekomunikasi tetapi dapat diklasifikasikan menjadi dua katagori, yaitu Szrbscripriot7 Fraud dan Superir7tposed Fraud. Kecurangan superirtzposed terjadi dari penggunaan layanan oleh seseorang yang tidak memiliki otoritas. Kecurangan ini terdeteksi lewat tagihan yang yang tidak diketahui siapa pemakainya. Kecurangan terbaru adalah clonirfg, ghosting (teknologi yang melakukan trik terhadap jaringan agar dapat melakukan panggi!an gratis), insider fiatid, tumbling, dan lain-lain (Yufeng Kou, er 01, 2002). Sztbcription fraud atau kecurangan yang dilakukan oleh pengguna yang sah sejauh ini tnerupakan kecurangan terbesar di jaringan GSM. Seseorang yang menggunakan identitas palsu untuk mendapatkan layanan. Subscription fraud dapat dibagi menjadi dua golongan. Pertama adalah untuk penggunaan kepentingan pribadi pelaku kecurangan. Kedua adalah digunakan untuk mendapatkan keuntungan, di sini pelaku kecurangan membuat bisnis kecil dengan menggunakan nomor teleponnya untuk digunakan sebagai panggilan langsung bayar (seperti wartel). Pelaku kecuranga:: jang bermaksud untuk tidak membayar tagihan menjual airtime dengan pernbayaran langsung ke orang-orang yang ingin mendapatkan harga murah dalam berkomunikasi.'
' John S-T., Keith H., Pater B., Detection o/F,.atrd
in Mobile Telecommonicalion, information Security Technical Report, Vo1.4, No.1, 1999, hal. 17
; .
.
Data Exrmctian P
Extract ~elTaviourProjilc and N e t y o r k Profile
"
1
I
Profiling
I Update Current Behaviour Profile, Behaviour Profile History, Ne!work Profile
1
I
NEURAL NETWORK & BAYES NETWORK DETECTION TECHNIQUES
I
I
Profile, Behaviour P~ojile History, Network Profile
-
Fraud Team Marketing i e p t . Engineering Gambar 2.1. Arsitektur Prototipe BRUTUS Kecurangan
subscription
diakibatkan
oleh
pengguna
terdaftar
yang
menggunakan layanan, biasanya memakai identitas palsu saat mendaftar, dan bermaksud untuk tidak membayar layanan yang digunakannya. Yang termasuk dalam katagori jenis kecurangan ini adalah bad debt. Yaitu kecurangan yang dilakukan akibat pelanggan tidak melakukan pembayaran tagihan transaksi telepon yang dilakukannya. Bisa jadi mereka yang melakukan bad debt pada awalnya tidak bermaksud melakukan kecurangan. Untuk itu perlu perhatian dan dikenali pola penggunaannnya (Rosset, et al, 1999). Beberapa skenario kecurangan lain yang termasuk dalam kecurangan subscription adalah subscription fraud, PABXfiaztd,
freephone fraud, premium rate frazid handset the), dun roanzingfratld (Taylor, et al, 1999).
Rosset ~nenggunakanteknik Rzrle Based ~ l n t ~melakukan ~k deteksi kecurangan jenis bad debt menggunakan algoritma C4.5. Akurasi terlinggi yang didapatkan dalam penelitian Rosset mencapai 94% (Rosset, et al, 1999). Penguk~lranakurasi deteksi dilaltukan dengan rutnus sebagai berikut :
Akzirasi
Jutnlah pelanggan yang dideteksi czlvang =
Jz~tnlahpelanggar~yatig diidentrjkasi curang
.....(2.1)
.
,
..
Pada penelitian ini akan digunakan arsitekt~lrprototipe BRUTUS yang dibuat oleh Burge (1997). Arsiteltlur prototipe BRUTUS dapat dilihat pada gambar 2.1. untuk deteksinya digunakan neural network.
2.2. Penemuan Pengetaliuan di Database (Krzo,vledge Discovery Database) Saat ini pertumbuhan data sangat cepat seiring dengan m~lnculnya media penyimpanan yang seniakin besar dan sistern basis data yang selnakin canggili. Ledakan data tentu saja hanya akan niemenulii storage (data history) dan cenderung tidak berguna. Agar data yang besar tersebut dapat bernilai maka diperlukan teknologi yang dapat ~nenganalisadata untuk menghasilkan infor~nasiyang berguna. Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehozrsing lnampu untuk mengumpulkan "banjir data" dan lnentransformasikannya ke dalam basis data yang berukuran sangat besar. V o l ~ ~ mdata e yang sangat besar tersebut tidak dapat ditangani ole11 metode analisis data tradisional seperti spreadsheet dan ad-hoc
quely. Diperlukan teknik baru yang secara pintar dan otomatis mentransformasikan data-data yang diproses untuk menghasilkan informasi dan pengetahuan yang berguna.
4
Dengan permasalahan tersebut muncul teknologi yang disebut Knowledge
Discovery in Databases. Ternlinologi Knowledge Discovery In Databases (KDD) menggambarkan proses
inituk mengidentifikasi ide baru dan pola yang secara
potensial berguna dari data yang tersimpan dalam basis data. Proses penemuan pengetahuan (knowledge discovering process) ini memiliki beberapa tahapan pang
-
interaktif dan iteratif. Secara grafis, proses KDD digambarkan oleh (Fayyad dalam Mitra, 2001) dapat dilihat dalam Gambar 2.2.
-
?Je pr~enhi Tmior. p i a c s i i ~+ na6on ht3
-
Irj3$.,
-
Data
Evalurtion' PfftttYfl~ htqx?~rdo~ p Xiniug f0,*,
'2'
..
.,,
,
.... . ,
.. ..
Gambar 2.2 Proses KDD Sebelumnya
harus dipahami
aplikasi yang
akan dibangun, termasuk
pengetahuan yang berhr~bungandengannya serta tujuan pembuatan aplikasi. Seleksi: Setelah menganalisis tujuan dari end user dan menerima semua informasi (knowledge) yang berguna, maka dilakukan seleksi untuk menentukan gugusan target data. Pra Proses: Target data mengalami p;a proses da11ditersihkan (cleaned) yang bertujuan untuk menghilangkan noise atau pencilan (outliers) Transformasi: Proses transformasi diperlukan untuk mencari variable-variabel yang berguna untuk merepresentasikan data. Data-data yang berasal dari berbagai sumber data disatukan sehingga memiliki format yang sama. Setelah itu dilakukan penggabungan data dan pengurangan data sesuai dengan tujuan aplikasi.
Data ~itirzing:Untuk menemukan pola dari sebuah database dilakukan dengan algoritma data mining. Algoritma-algoritma itu adalah untuk asosiasi (association), klasifikasi (classiJication), pengelompokan (clustering), dan lain-lain. Pemilihan algoritma data mining harus tepat sesuai dengan tujuan yang liendak dicapai. Interpretasi/Evaluasi:
Pola-pola yang dihasilkan
diinterpretasikan dan
dievaluasi untuk menghasilkan informasi atau pengetahuan. KDD merujuk pada semua proses yang mengubah data paling kasar iiingga menghasilkan pengetahuan. Sebuah langkah penting pada proses KDD untuk mengekstraksi pola-pola dari data, disebut data mining.
2.3 Dntc tninir~g
Algoritma data ~nining memiliki kemampuan untuk ~nelakukan desltripsi, estimasi, prediksi, klasifikasi, cir/ster, dan asosiasi (Larose, 209.5) Dala~nprakteknya ada dua tujuan ~ltalnadari daln mini~tgyaitu lnemprediksi clan deskripsi. Prediksi menyeltakan beberapa variabel atau .field pada basis data untuk memprediksikan sesuatu yang beluni diketahui atau nilai tertentu dari variabel yang diharapkan.
..
.
.
Sebaliknya., deskripsi ~. fokus pada pengenalan pola dan meiijel&kan: data yang dapat dipahatni oleh manusia. I<arena itu sangat mungkin
L I ~ ~ meniasukkan L I ~
aktivitas data
r~~ining pada satu atau kedua lkatagori: (I) Predictive rlata />lining,menghasilltan model sistern yang digambarkan oleh basis data yang diberikan atau (2) Descriptive
data ntining yang menghasilkan infomasi baru dan penting yang didasarkan pada data yang tersedia (Kantardzic, 2001). Tujuan dari predictive &fa minirtg adalah untuk m e ~ n b ~ suatu ~ a t model, yang diungkapkan melalui kode exect/table, yang dapat digunakan untuk melakukan klasifikasi, prediksi, estimasi, atau tugas-tugas sejenis. Tujuan klasifikasi adalah melakukan fitngsi peramalan untuk mengelompokkan data tel-tentu ke dalam kelaskelas yang telah didefinisikan. Um~imnya,algoritlna &to mining kombinasi dari tiga komponen berikut, yaitu (1) model : fungsi model (klasifikasi, clustering) dan direpesentasikan dari linier
discrinzinant, netrral rtefivork, dan lainnya. Sebuah model mengandung parameter yang ditentukan dari data; (2) kriteria pilihan : sebuah dasar untuk melakukan pilihan dari sebuah model atau kumpulan dari parameter, tergantung pada data yang diberikan; (3) algoritma pencarian : spesifik algoritma untuk mencari model khusus dan parameter-parameter yang diberikan data model dan kriteria pilihan. Algoritma data mining klasifikasi saat ini menggunakan teknik generasi baru yait~:soft compzrting salah satunya adalah teknik neural network. (Berson, Smith, and, Thearling, 2000). Aplikasi yang menggunaltan klasifikasi antara lain diagnosa penyakit, penilaian resiko kredit, deteksi kecurangan, dan penentuan target pasar.
Neural network (jaringan syaraf tiruan) memiliki karakteristik tahan terhadap error (kesalahan) yang ada pada data [raining (data pelatihan). Umumnya jaringan syaraf
tiruau ~iiembut~~liltan w a k t ~yang ~ lebih l a ~ n adibanding dengan algorit~na&ci,rio,? tree. Waktu pelatihan sangat tergantong dari banyaltnya data pelatihan yang digunakan.ju~nlahpembobotan, dan pengaturan parameter (Sousa, 1998) . Proses cfutu iiiining digambarkan melalui Gambar 2.3 ~nengadaptasiprosedur riset yang meliputi (1) penentuaii permasalahan dan perurnusan hipotesa; (2) pengumpulan data; (3) preproses data; (4) Penentuan model; dan (5) penerjemahan deli model dan penariljan ltesimp'ulan
(Kantardzic, 2001). Setiap tahapan
dimungkinkan untuk dilakukan perulangan, setiap tahapan selanjutnya dapat menjadai
inpa pan
balik pada tahapan sebelumnya. State the problem
1 ' I
Collect the data
Perform preprocessing
/
Interpret the model & d r a w the the conclusions
Gambar 2.3 Proses Data ~nininp Proses data mining seperti proses peneiitian yang membutuhkan kejelasan permasalahan yang akan dipecahkan dan mer~~rnuskan hipotesa. Setelah diketahui dengan jelas permasalahannya maka langkah penglrmpulan data pada sumber-sumber data dilakukan. Data yang berasal dari berbagai sumber dengan format data yang berbeda ditransformasikan dan diolah lebih lanjut. Data pencilan (otrtlier), data hilang (rtiissing vulzre)dan data tidak lengkap (uncoinpiete datu) diproses sedemikian rupa dengan teknik yang ada untuk memenuhi keientuan data yang dibutuhkan. Setelah data yang diperlukan telah memenuhi syarat maka langkah selanjutnya adalah menibuat model ~ ~ n t umengolahnya. k Model ini akan menerjemahkan data me~ijadi pola-pola yang dapat diterjemahkan sehingga pengguna dapat menarik kesimpulan yang bernilai.
bagian yang mungkin berisi pola yang dibutuhkan. Fase ketiga, fase persiapan data yang meliputi persiapan data mentah awal dari database terakhir yang akan digunakan untuk keseluruhan fase, fase ini banyak membutuhkan kerja manusia. Pilih kasus dan variabel yang ingin dianalisa dan tepat untuk kita analisz. Lakukan transformasi pada variabel tertentu, jika dibutuhkan. Bersihkan data mentah yang siap digunakan ulttuk alat pemodelan. Fase keempat, fase pemodelan meliputi pemilihan dan mengaplikasikan teknik pemodelan yang tepat. Uji dan atur pengukuran rtiodel agar menghasilkan hasil yang optimal. Beberapa teknik yang berbeda mungkin dapat digunakan untuk masalah data
mining yang sama. Jika dibutuhkan, lakukan pengulangan pada fase persiapan data untuk mendapatkan data yang cocok untuk kebutuhan khusus dari teknik data mining. Fase kelima, fase evaluasi berisi tentang evaluasi satu atau lebih model yang digunakan pada fase pemodelan untuk efektifitas dan kualitas sebelum digunakan. pada fase Tentukan apakah model telah dapat memenuhi tujuan yang dir~~muskan pertama. Pastikan apakah seluruh permasalahan penelitian tidak lupa untuk diselesaikan. Lakukan sebuah keputusan untuk hasil data mining. Fase keenam, fase pembangunan yaitu membuat model yang dapat menyelesaikan permasalahan. 2.4 Profle Pengguna (User ProjiIe)
Metode Userprofile membutuhkan analisa perilaku panggilan untuk mendeteksi penggunaan yang menyimpang yang diperkirakan sebagai sebualt kecurangan. Metode User profile merupakan sebuah metode kelas khusus akhir panggilan. Yang meliputi analisis perilaku panggilan untuk mendeteksi penggunaan anomali yang * . ../ dianggap sebagai kecurangan (Fawcett dan Provost, 1997).
User profile memonitor pola perilaku dari pengguna telepon bergerak dengan membandingkan aktivitas saat ini dengan penggunaan rnasa lalu. Sebuah kriteria digunakan sebagai pemicu yang diaktivasikan saat penggunaan telepon mengalami perubahan perilaku mendadalc dalam waktu singkat. Narnun yang harus disadari adalah perubahan pola perilaku dari pengguna telepon bergerak merupakan
karakteristik yang biasa terjadi, dirnana tidak ada pola perilaku yang stabiL2 Sehingga tidak mesti bila perilaku berubali dipastikan sebagai tindak kecurangan.
User profile harus dibuat sama persis dengan perilaku user untuk dapat melakukan deteksi kecurangan. Semua informasi yang dibutultkan oleh alat deteksi kecurangan untuk mengatasi kecurangan dapat diambil dari toll ticket. Kornponen toll
ticket yang relevan untuk dipakai dan secara kontinyu diambil untuk digunakan membentuk User profile adalah Charged-IMSI (identij(ies the. user), First-Cell-Id
(location characteristic for mobile originatirig calls), Chargeable-Duration (basefor all cost estiniations), B-Type -oS_Nun?ber flor distinguishing between national / international calls), Non-Charged-Party (the number dialled), Starting date of the call, Startirig time of the call, dan Duration of the Frazrd detection sepenuhnya menggunakan data-driven approach (pendekatan pada data) bukan user-driven approach. Seluruh informasi didapatkan melalui alat yang berasal dari toll ticket. Dimana sebuah metode harus digunakan untuk membuat
pro$le setiap user d a ~ imengambil informasi yang relevan dari toll ticket untuk digunakan meudeteksi kecurangan (Shawe-Taylor, 1998). Toll ticket atau charging
data record (CDR) berisi detail dari setiap panggilan telepon. Toll ticket ditransmisikan ke operator jaringan melalui saluran switching dimana telepon bergerak melakukan komunikasi. Selain niengandung informasi untuk tagihan, toll
ticket juga berisi informasi yang dapat digunakan untuk mendeteksi kecurangan (Shawe-Taylor, 1998). Kecurangan di jaringan telekomunikasi dapat dikarakterisasi melalui skenario kecurangan yang menggambarkan bagaimana pelaku kecurangan memperoleh keuntungan dari akses ilegal ke dalam jaringan. Metode deteksi mendesain skenarid khusus agar secara tepat mendeteksi jenis kecurangan telekomunikasi. Michiaki, et a1 (1938) memperkenalkan tiga teknik deteksi kecurangan. Metode pertama, feed-forward neural network yang berdasar pada supervised learning yang
2
Bharat B., Yuhui Z., Yuhua L.,. Op.cit. hal.3. /bid.
digunakan untuk pembelajaran fungsi diskriminan yang menggambarkan klasifikasi dengan ~ t a t i s t i k . ~
1 Hari Kerjal Libur
Total Durasi.'am
Gambar 2.5 Skenario Untuk Deteksi Kecurangan Telekomunikasi Dalam penentuan projle
pengguna dignnakan sebuah skenario untuk
memodelkan pengguna normal dan pengguna curang. Memang tidak ada aturan pasti yang bisa mengidentifikasi seorang pelanggan sebagai seorang pelaku kecurangan. Penulis merujuk skenario kecurangan oleh Maes (Maes, et al, 2000) untuk rnembuat formulasi perilaku kecurangan. Skenario kecurangan disusun dari peluang panggilan telepon pada hari kerja atau hari libur dengan meinperhatikan. katagori waktu panggi!an fivaktu keda, luang, dan istirahat) serta memperhatikan jenis panggilannya (lokal, interlokal, dan internasional) yang terlihat seperti Gambar 2.5. Perilaku penggunaan telepon dimodelkan menjadi dua yaitu model curang dan model normal. Dengan meyakini bahwa perilaku curang adalah perilaku anomali ~ i c h i a k iT, et al, Fraltrl deleledion in coni,n~ttlicotions 11ehvork using neltral atld probabilistic methods. In Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'98), Volume 11, 1998. pp. 1241-1244.
~ n a k aperilalcu ini hanyalah minoritas dari perilaku pelanggan telepon. Sehingga dalam pembuatan skenario lebih ditekankan kepada model perilaku curang. Dari skenario di atas dilakukan analisa lebih lanjut ~ne~igenai fi.ekuensi penggunaan dan durasi setiapl total panggilan.
,2.5. Jaririgar~Syaraf Tiruan Neural network atau jaringan syaraf tiruan (JST) merupakan representasi buatan dari otak mam~sia.Seperti halnya otak manusia, JST juga terdiri dari beberapa iiezrron sali~igsaling terhubung dan masing-masing hubungan metniliki bobot masingmasing.
Gambar 2.6 Fungsi aktivasi pada jaringan syaraf sederhana deugan Fungsi aktivasi F Pada gambar 2.6 terlihat n illput pada lapisan input (input luyer)yaitu X I ,x?, .... x,, yang masing-masing tnemililci bobot wl, w2, ....w, dan bobot bias b, dengan rulnus e.4
Fungsi aktivasi F akan mengaktivasi a menjadi output jaringan (Y). Fungsi aktivasi pada jaringan syaraf tir~lanada berbagai macam, diantaranya adaiah fungsi sigmoid. Fungsi aktivasi sigmoid ada dua jenis yaitu sigmoid biner dan sigrnoid bipolar digunakan untuk JST metode buckpropugation. Fungsi sigmoid biner rnerniliki ~iilaipada range 0 sampai 1. Karenanya fungsi ini sering digunakan untuk
klasifikasi yang keluarannya terletak pada interval 0 dan 1. Fungsi signloid biner dirumuskan sebagai berikut : y = f ( x )
1
= ---
I +e-"
.................................(2.3)
dengan
(2.4) f '(x) = of(x)[l-f(x)]. ......................................... Pada Matlab fungsi aktivasi ini dikenal dengan nama logsig, di~nana0 adalah gain
fungsi sigmoid (konstanta). Salah satu metode terpopuler untuk pelatillan pada jaringan lapis banyak adalah algoritma bachpropagution. Algoritma backpropagation ~nemiliki ketangguhan, berdaya guna, dan relatif niudah untuk dipahami. Metode training backpropagation sangat mudah walaupun m t u k ~iiodelyang kompleks yang me~nilikiratusan atall ribuan parameter. n pembelajaran yang terawasi dan Backpropagation ~ n e r ~ ~ p a k aalgoritma biasanya digunakan oleh perceptron dengan banyal: lapisan
L I ~ ~ mengubah L I ~
bobot-
bobot yang terliubung dengan neuron-neztron yang ada pada lapisan tersembunyinya. Algoritma bc~ckpropagaliol?menggunakan error* ozntpztl untilk mengubail nilai bobotbobotnya dalam arah ~nundur (backward). Untuk mendapatkan error ini, tahap harus dikerjakan terlebili daliulu. Pada saat perambatan niaju (jbr~~~ardpropngntion) perambatan maju, neuron-neuron diaktifkan dengan menggunakan fiingsi aktivasi yang dapat dideferensiasikan, seperti sigmoid5: Arsitektur jaringan yang sering digunakan oleh algorit~iia b a r ~ ~ r o l ~ c i g a t i o n adalah jaringan feedjtot~~~arcldengan
banyak
lapisan.
Arsitektur
jaringan
bachpropagution seperti terlihat pada Gambar 2.7 diniana jaringan terdiri dari 3 unit (neuron) pada lapisan input, yaitu X I , xz, dan x3; 1 lapisan tersembunyi dengan 2 neuron, yaitu zl dan z2; serta 1 unit pada lapisan output, y a i t ~y. ~ bobot yang menghubungkan X I , xz: dan x3 dengan neznron pertalna pada lapisan tersembunyi, '~dalalivll, vzl, dan v;l (vij : bobot yang menghubungkan neuron input Ice-i ke net~ron Ite-j pada lapisan tersembunyi). bl dan bz adalah bobot bias yang menuju ke ~ieznro~i pertama dan kedua pada lapisan tersembunyi dengan lapisan output. Fungsi aktivasi
' Sri Kusumadewi, Mrt11bungu17J'1ringa17 Sya~afTirzrrttl Mer1ggzrnukan Mullub da17ExcelLirrk, Yogyakarta, Penerbit Graha Ilmu, 2004, hal. 93
yang digunakan, antara lapisan input dan lapisan tersembunyi, dan antara lapisan tersembunyi dengan lapisan output adalah f ~ ~ n gaktivasi si logsig. Pelatihan pada jaringan feedfoiwud dilakukan dalam rangka ~nelakukan pengaturan bobot, sehingga pada akhir pelatihan akzn diperoleh bobot-bobot yang baik.
Selama-... proses
pelatihan,
.,,
. .,.
bobot-bobot
diatur
secara
itesatif untuk
me~niniinumkailfungsi kinerja jaringan. Fungsi kinerja yang sering digunakan untuk
backpropagution adalah fnean square ewer ( ~ ~ i s efungsi ), ini akan mengambil ratarata kuadrat kesalahan yang terjadi antara o ~ ~ t pjaringan ut dan target.
Gambas 2.7. Arsitektur Jaringan Bnckpropagalior? Sebagian besar algoritma pelatihan ~ l n t jaringan ~~k feerlfor~~~arn' menggunakan gradient dari fungsi ltinerja
L I ~ ~ menentukn!l L I ~
bagaimana mengatur bobot-bobot
dalaln rangka ineminimumkan kinerja. Gradient ini ditentukan dengan menggunakan suatu teknik yang disebut dengan nama backpropc~g~~tion. Pada dasarnya, aigoritma pelatihan propagasi balik aka11menggerakltan bobot dengan arah gradient negatif! Prinsip dasar dari algoriti~iapropagasi balik sederhans adalah memperbaiki bobot-bobot jaringall dengan arah yang menibuat fungsi kinerja menjadi turun dengan cepat.
Algoritlna ~ac!q~ro~a~aliorz' I. inisialisasi bobot (a~nbilbobot awal dengan nilai random yang cukup kecil) 2. tetapkan : ~naksimillnepoch (epolij, targer error, dan learning rate ( a ) 3. inisialisasi : epoh = 0, MSE = 1 4. kerjakan langkah-langkah berikut selarna (epoh < ~naksi~nuin epoh) dan (mse >
target error)
5. epoh = epoh + l 6. ulituk tiap-tiap pasangan elernen yang akan dilakukan pembelajaran,
kerjakan :
Feedfolfor~vard
7. tiap-tiap unit input (X,, i=1,2,3, ...,nj menerima sinyal x, dan meneruskan sinyal tersebut ke semua unit pada lapisan yang ada di atasnya (lapisan tersernbunyi)
8. tiap-tiap ~ l n i tpada suatu lapisan tersembunyi (z, j = 1 2 . , p ) menjumlahkan sinyal-sinyal input terbobot :
gutiakan fungsi aktivasi untuk incnghitung sinyal outputnya : zJ = f(z-in,)
(2.6)
dan kirimkan sinyal tersebut ke selnua unit di lapisan atasnya (unit-unit output)
langkalz ini dilakz~kansebnnyak jurnlui7 lr~pisaiztersentbzmnyi
9. tiap-tiap unit o~ltput (YL, k=1,2,3; ...,ln) menj~l~nlallkansinyal-sinyal illpill terbobot. 'I
y-ink
= b21,
+ C z,
iv,,
2.7)
I=!
gunakan fungsi aktivasi untuk mengliitnng sinyal outputnya : Yk = f(y-ink) dan kiriinkan sinyal tersebut ke selnua unit di lapisan atasnya (unit-unit output)
Backpropagation 10. tiap-tiap ~ l n i output t (Yi;, b=1,2,3, ...,m) lnenerilna target pola ),ang berhubungan dengan pola input pembelajaran, hilung informasi errornya :
6 21, = (tk - yk) P(y-ink)
(2.8)
p 2j
6kzj
(2.9)
p2k= 8 "
(2.1 0)
kernudian hitung koreksi bobot (yang nantinya aka; tnemperbaiki nilai wjk) : A wjk = a p 2,k
digunakan untult (2.1 I )
.
.
hitung j i ~ g akoreksi bias (yang nantinya akan digunakan untuk memperbaiki nilai b2k) : A b2k = a p 2 k
(2.12)
langknh no. I0 dilakukan sebanyak jzrrnlah lapisan terseinbz~nyi, zmfuk n7enghitt1ng infort17asi error dari szlntzl lapisan ferset17btmnyi lie lapisan tersen~bzmnyisebelznnnya. 11. tiap-tiap unit tersembunyi (zj, j=1,2,3, ...,tn) menjunilahkan delta inputnya (dari unit-unit yang berada pada lapisan di atasnya) :
6-inj
=
2
(2.13)
6 21; wj1;
k=l
kalikan nilai ini dengan turunan daari fi~ngsi aktivasinya untuk mengtlitung info1.riiasi error :
6 l j = 6 -inj P(z-in,)
(2.14)
p I ij= 6 l j xj
(2.15)
p lj= 6 l j
(2.16)
kernudian hitung koreksi bobot (yang nantinya akan digunakann untuk memperbaiki nilai vij) : A vi, = o p I,,
(2.17)
hitung j ~ ~ koreksi ga bias (yang nantinya alcan digunakan untuk memperbaiki nilai blj) : A b l j = a ,Blj 12. tiap-tiap
(2.1 8)
nit vatput (Yk, k=1,2,3, ...,m) niemperbaiki bias dan bobotnya
Q=0,1,2 ,...,p) : 1 -;
(baru) = wjk (lama) + A wjk
b21; (baru) = b21; (lama)
+ A b2k
(2.19) (2.20)
tiap-tiap nit tersembunyi (zj , j=1,2,3, ...,p) meniperbaiki bias dan bobotnya (i= 0,1,2 ,...,n): vi, (baru) = vij (lama) + A vi,
(2.21)
blj (barti) = b l j (lama) + A bl,
13. hitt~ngMSE
I3AB 111. METODOLOGI PENELITIAN
3.1. Keranglta Temikiran
Fenelitian tentang deteksi kecurangan telah muncul sejak pertengahan 1990 an. Pendekatan yang digunakan dalam mendeteksi kecurangan
menggabungltan
kelebihan data mining dengan expert sisterir, statistik, dan soft con~pzcting.So$ corrzputing dipilih karena memiliki kelebihan dari sisi k o m p ~ ~ t adan s i pernbelajaran. Dari survey tentang telcnik deteksi kecurangan yang dilakukan oleh KO, et crl (2002) dinyatakan bahwa kebanyakan teknik deteksi kecurangan mengambil data toll ticket (CDR) dan mendeteksi kecurangan dari pola panggilannya. Dari CDR (Cnl! Dntn Record) inilah dibuat proJle perilaku pelanggan yang nantinya aka11 dideteksi apakah tennasulc curazig atau normal. Salah satu pendekatan yang digunakan adalah ~ n e l a l ~teknik ~ i jaringan syaraf tiruan yang nietnang sudali banyak digunakan untuk n nielakukan kalkulasi pt.oj!e deteksi kecurangan. Jaringall syaraf t i r ~ ~ a dapat pengguna dan ~iienyesuaikandengan berbagai perilaku pengguna. Dengan jaringan k ltecurangan akan menurun (KO, et al, syaraf tiruan biaya operasional u n t ~ ~deteksi 2002). Peda penelitian ini akan digunakan arsitektur prototipe BRUTUS yang dibuat oleh Burge (1997). Utisur kebaruan dalaln prototipe deteksi kecurangan yang dibuat dalatn penelitian ini adalah jenis kecurangan yang dideteksi adalah jenis bcid debt dan deteksi kecurangan dilakukan dalam tiga periode waktu d a l a ~ nsehari: !,aitu katagori jam kerja, jam senggang dan jam istirahat. Jam kerja a d a l a i walctu m~llaidari jam 07.00 - 16.59, sedangkan jam senggang dimulai pada jam 17.00 - 23.59. dan jam istirahat dimulai pukul 00.00 - 16.59. Penelitian ini menggunakan ~ e r a n g k a pemikiran yang dapat dilihat pada Gambar 3.1. Kerangka pemikiran penelitian aka[> inenjadi panduan dala~nsetiap langkah penelitian yang dilakukan.
Ideniifikasi Masalah dan Metode
---------------
Metode Data 111i1iing
Gainbar 3.1. Kerangka Pe~nikiranPenelitian
/
3.2. T a t a Lalrsana Penelitian ini dilaksanakan dalam dua tahap, yaitu tahap pembuatan irser profile (pola perilalcu user) dan yang ked::a penentiiarl klasif~kasi.Dalam raliap pertama, peneliti menyiapkan data yang berasal dari PT. X dan m e l a k ~ ~ k aproses n knon~ledge discovery untuk mendapatkan pola perilaku user. Di sini akdri diperoleli inforriiasi mengenai perbedaan karakterisitiklperilaku pengguna yang nor~iial dan perigguria yang tidak normal ifi.audlcurang). 'I'ahap kedua adalali penentuan klasifikasi dengan iiienggunakari teknik neural network.
.A.lat
klasifikasi
kecnrarigan
dilatih
dengan
data
pelatihan
dan
rnernverifikasinya dengan data pengi~jian. Untuk mengukur akurasi dari digunakan rumus dari Rosset (Rosset, et al, 1999). Tahap klasifikasi memerlukan proses pengujian terlebih dali~11~1. Peng~~jian dilakultan ilntuk mendapatkan model yang paling akurat untuk rnendetekasi kecurangan pelanggan. Pemoclelan ini menggunakan tool yang sudah ada, penulis memakai program Bac!cPRC 2N yang dibuat oleh (Rudiyanto dan Setiawan, 2005). Program ini menggunakan algoritrna backpropugc~tion yang merupakan algoritma pernbelajaran terawasi (szperoisecl). Backpl.opagatior? nez~ralr?ehvork menggunakan firngsi aktivasi sigmoid antara lapisan input dan lapisan tersernbunyi dan atara lapisan tersembunyi dan lapisan oz~tpi~t. Insialisasi bobot awal dilakukan secara random, biasanya bobot awal dipilil~ nilai antara -0,5 liingga 0,5 atau -1 liingga 1, atau interval lainnya. BacltPRO 2N rnerientukan inisialisasi bobot awal dengan nilai -1 hingga 1. Dari arsitektur yang dipilih dan dan bobot yang diperoleli dari BacltPRO 2N: pembuatan model klasifiltasi dapat dilakukan. Penelitian ini menggunakan kaidali proses Data nlinilzg and Knowledge Discovery dengan rnengacu pada standar proses CRISP-DM (Cross I17dzcsfriSlr~nclc~rd Processf o r Dulu niining), yaitu :
1. Fase Pemahaman Penelitian fase pemahaman penelitian yang tnenyatakan tentang tujuan dan ltebutuhan penelitian.
2. Fase Pemaliaman Data
fase peinahaman data meliputi pengump~ilandata; memahami data meiigg~inakan analisa eksplorasi data; msneliti kualitas daia; dan memilill bagian yang mungkin berisi pola yang dibutulikan 3. Fase Persiapan Data memiilih variabel yang ingin dianalisa dan tepat dianalisa. Melakukan transformasi pada variabel tertentu, jika dibutuhkan. Membersihkan data mental1 pang siap digunakan untuk alat pemodelan
4. Fase Pernodelan fase pemodelan meliputi peniilihan dan mengapliltasikan teluiik pemodelan yang tepat. Pengujian dan pengaturan pengukuran model agar menghasilltan hasil yang optimal
5 . Fase Evaluasi fase eval~~asi berisi tentang evaluasi sat11 atau lebih model yang digunakan pada fase pemcdelan untuk efektifitas dan kclalitas sebelum digunakan 6. Fase Pembangunan membuat model yang dapat menyelesaikan permasalahan penelitian. 3.3. Pengembangan Sistem
Pengembangan sistem menggunakan teknik sofht~ure ei7gineerii?g dengan pendekatan nietode data rrzinir7g. Dalam garis besarnya akan membahas perancangan sistem/prototipe dali ilnplementasi sistem yang dijelaskan pada bab selanjutnya. Sistem dibuat sedemikian rupa sehingga dapat memenuhi tujuan sistem dan mempermudah pengguna
L I I ~ ~ Lmelakukan I ~
pendeteksian kecurangan pada jaringan
teleko~iiuniltasi.Perancangan antar l n ~ ~ keraphic a z ~ e rii7teflace) dibuat dengan prinsip ti.rerfiienn'ly dala~nmode windows.
BAB XV. PERANCANGAN SXSTEM
4.1 Pengumpulan Data
Pengumpulan data merupakan proses yaiig cukup niemakan \\,aktu. Data yang k katagori data raliasia dibutuhkan dalam peneilitan tesis ini mernang m a s ~ ~dalam yang tidak boleh diketahui sembarang orang. PT. X bersedia memberikan data yang dibutuhkan menimbang data ini digunakan untuk kepentingan penelitian tesis. Data yang dibutuhkan adalah data CDR (Charging Data Record) pelanggan paska bayar yang melakukan transaksi pada bulan Januari taliun 2005. Data CDR berasal dari MSC (h'obile Switching Center) yang inemiliki format belben~uk kode biner, hexadecimal. dan ASCII. k data herforniat ie.~. Forinat test Proses konversi dilakukan u n t ~ ~menghasilkan inilah yang dikirimkan ke datebase. DBMS yang digunakan adalah Microsoft SQL Server 2000. Transfor~nasidata ke dalain drt~rrlabase menggunakan inengg~~nakan fungsi bulk insert yang disediakan oleh SQL Server. penyimpanan transaksi panggilan ke dalaln satu file Sisteni di MSC melak~~ltan setiap selang 5 (lima) menit. Penamaan file ini dilakultan secara otolnatis dengan kctentuan berisi tentang lokasi MSC dan waktu panggilan. Sebagai contoli penainaan seperti MSC-KBB -20050103-1615.txt. dapat dia~tikan: MSC-I
MSC
berada
(unit
layanan), 20050i03
adalah
tanggal
panggilan
dilangsungkan dengan format yyyy/mm/dd, sedangkan 1615 menuiijukkan waktu ~ 16 menit ke-15 dengan format IihImm. panggilan y a i t ~jam Deteksi kecurangan yang dilakukan didesain untuk dapat melakukan deteksi sebanyak tiga kali sehari. Untuk itu perlu dilakukan analisa terhadap karakteristik petr~aku penggunaan telepon oleh pelanggan dalam kurun w a k t ~ yang ~ telall ditentukan. Setelah semua file text ditransformasikan ke tabel SQL Server maka tahapan selanjutnya adalah mengelompokkan tabel-tabel tersebut berdasarkan katagori wakt~i yang telah ditentukan. Katagori waktu ditentukan ~intuk mengetahui perilaku
penggunaan telepon pada waktu hari kerja, waktu senggang, dan waktu istirahat. Adapun pembagian waktunya adalah sebagai berikut : pukul 00.00-06.59 masuk katagori waktu istirahat diberi kode C, pukul 07.00-16.59 masuk katagori waktu kerja diberi kode A, dan pukul 17.01-23.59 rnasuk katagori waktu Iuang diberi kode B.
4.2 l'ersiapan Data CDR yang berisi seluruh panggilan pelanggan dipisahkan berdasarkan jenis pelanggan. Dimana data panggilan yang kita gunakan dalam penelitian ini adalah data panggilan jenis pelanggan terdaftar paska bayar (post paid). Dalam ha1 ini yang nienjadi patokan adalah Jield Service Option (WmTSVC), kode 00 unt~rkpelanggan post paid dan kode 90 untuk pelanggan pra bayar @repaid) Seperti sering ditemui pada banyak basis data, maka CDR yang bisa digolongkan sebagai data log juga tidak luput dari error. Error terjadi akibat ketidaklengkapan data (incotilplete data atau n~issingvalzre) dan kesalahan inputan, selain itu juga terdapat jenis-jenis data yang nleniang kita tidak butuhkan. Untuk itu dilakukan pembersihan data (data cleaning). Dalam kasus ini ditemui nama file yang tidak semestinya, file-file yang niengandung inisial "info" merupakan record yang dipastikan memiliki error. Penghapusan baris-baris data (record/ro~vs/sar~~plel insiance/cuse) dilakukan sebel~lmpengliap~~sanJieZdJiZe~~a~i~e diatas. Informasi tambahan yang diperoleh adalah selnua pelanggan frntrd adalah
.. .
pelanggan yang baru (kurang dari 45 hari) masa pendaftarannya. Hal ini juga rnenjadi ,.. -
.-
perfimbangan untuk memasukkan katagori masa pendaftaran pelanggan. ~elan$&in dengan masa pendaftaran kurang dari satu bulan disebut pelanggan baru sedangkan pelanggan yang lebih dari satu bulan (45 hari) adalah pelanggan lama. Pelanggan lama dapat dipastikan telah melakukan pembayaran tagihan bulanan. Tanggal transaksi panggilan yang dikodekan ke dalam naliia file dig~rnakan untuk menandai hari panggilan. Sehingga akan diketahui katagori hari transaksi panggilan termasuk katagori hari kerja atau llari minggullibur. Dalam bulan Januri 2005 terdapat 5 (lima) hari mingg~rdan 2 (aua) hari libur yaitu tanggal 1, 2, 9, 16, 21, 23, dan tanggal 30 Januari 2005. Pemilahan ini dilakukan untuk mengetaliui
perbedaan perilaku pelanggan dalam melakukan transaksi panggilan pada hari kerja dan pada hari minggullibur. Karena PT. X memiliki atbran pentarifan yang berbeda berdasarkan jenis panggilan, waktu panggilan, dan katagori hari maka penulis mengacu pada pentarifan yang sudah baku. Tetapi karena keterbatasan data altibat sifat yang rahasia maka untuk jarak antara penianggil dan yang dipanggil tidak dapat diketahui. Untuk itu penulis nienggunakan standar harga rnenengah. Adapun tarif panggilan yang digunakan dalam penelitian ini seperti Tabel 4.1 dan Tabel 4.2. Tabel 4.1 Tarif untuk Heri Kerja
Tabel 4.2 Tarif untuk Mari Minggu I Libur
JENIS
KODE
00 01 02 03 04 05
1
I I
PANGGILAN
Tidak diketahui Lokal lnterlokal<200km Lokal PSTN lnterlokal > 200 km lnternasional
TARlF per Pulsa (Rp I menit) Katagori Jam B 1 Katagori Jam C Katagori Jam A 0 0 /0 250 11,5menit 250 11,5 msnit / 250 113 menit 645 / 325 645 / 250 11,5menit 250 11,5 menit 25011,5 menit 915 915 1 460 5.400 1 4.600 7.200
4.3 Ider~tifilcasiParameter Detelsi ICecorangan Langkah awal yang dilakukan dalam penelitian ini irlalah identifikasi parameter yang dibutuhltan dalam proses membuat user projle pang akan digunakan untul: menentukan klasifikasi penggunaa11)nltd dan penggunaan normal. Untuk melakukan deteltsi kecurangan maka z/serprojle harus dibuat sama persis dengan perilaku user.
'
TotDur asi= 0 TotTagihan=O .
.
1 Baca File x-Jan2005-Ox
t
DB PanggilanTelepon
4
'--.
I
1 A-Num .Panggilan = A-Num. Status
Baca Nomor pelanggan A - N L I ~ dari Tabel Status Pelanggan
Hapus isi tabel temporary dan Simpan hasil select di tabel
Pelanggan
Pisallkan Panggilan jenis Lokal, interlokal, & internasional (berdasarkan CnllReleaseTvue)
I
Sinlpan ke table Perilaku Pelanggan A, B, C
I
(SELESAI) Galnbar 4.1 Diagram Alir ldentifikasi Perilalcu Pelanggan
Diagram alir untuk melakulcan identifikasi perilaku pelanggan dapat dilillat pada G a ~ n b a r4.1. Pada diagram alir tersebut nampak semua data yang dibutuhltan sudah terkunipul d a l a ~ ndatabase. Walaupun sebelumnya data-data tersebut tersebar di berbagai sumber data.
...,
Sumber data yang digunakan berasal dari Data Pelanggan (Bagian Malteting), Data Tarif (Bagian PenagihanIBilling), dan Data CDR (Bagian Fra~ld dan Performansi). Gambar 4.2 menjelaskan secara visual sumber data yang digunakan untukprojile pelanggan. Data yang diambil CDR (Charging Data Record) adalah a t r i b ~ yang ~ t berguna untuk mendeteksi kecurangan. Dilnana setiap record panggilan memiliki atributatribut panggilan. CDR yang berisi semua data panggilan memiliki 35 (tiga puluh lima) Jield yang memberikan ga~nbaranteknis niengenai proses panggilan. Dari sinilah akan ditentukan Jield-Jeld mana saja yang relevan digunakan untuk membentuk z~serprofile.Data yang akan diambil meliputi jumlah panggilan dan total durasi panggilan sebagai gambaran penggunaan liarian. Panggilan lokal, nasional, dan internasional dijadikan katagori pembeda. Panggilan pada jam kerja, sore hari, dan malam hari j ~ l g adigunakan untuk memisahkan ke dalani sub katagori. Selain it^^ akan dilihat pula pola perilaku penggunacn pada wakti~libur akhir pekan dan hari biasa. Pemilihan parameter-parameter ini dilakukan setelah melakukan studi pustaka dan pendapat pakar dari PT. X. Secara lengkap parameter yang digunakan tlntirk deteltsi kecurangan dari masing-masing sumber data adalah sebagai berikut : 1. Parameter yang dia~nbildari CDR adalah :
Nomor penggund pernanggil, Nomor yang dipanggil, Jenis panggilan (local, interlokal, internasional), Waktu panggilan (hari, jam-menit-detik), Durasi panggilan,
2. Parameter yang diambil dari Data Pelanggan adalah : Waktu aktivasi, dibuat kelas 1 untuk pelanggan lama ( lebih dari 1 bulan) dan 0 untuk pelanggan bar11(kurang dari 1 bulan) 3. Parameter yang diambil dari Kebijakan tarif Perusahaan adalah : Biayd Tarif panggilan
Pelanggan
Panggilan
Penggabungan dan Kalkuiasi
Pelanggan Gambar 4.2 Sulnber data Parameter Deteksi Kecurangan Deteksi kecurangan yang aka11dilakukan dibatasi pada kecurangan subscripti017 jenis bad debt. Pilihan ini diatnbil detigan alasan bahwa kecurangan jenis sz~bscr@tior7tnerupakan kecurangan terbesar saat ini (Bhargava, 2003). Selain
batasan di atas, batasan lain yang dilakultan dalam penelitian ini adalah jenis transaksi yang digunakan adalah transaksi jenis voice (suara) sedangkan ~tntuklayanan pesan pendek (smsl .c.hort ii~essageservice) dan akses internet tidak digunakan. 4.4 Elsplorasi Data nlinil~g
Eksploratory Data mining ( E D M ) menjadi p e r ~ n ~ ~ l a proses an dari str~lktur
-
\:
penemuan pola. Dalam melakukan eksplorzsi data d i g ~ ~ n a k pendekatan in data clriveii approach atau disebut norzparan7etric appro~ch.Pendekatan ini d i g ~ ~ n a k untuk a ~ l data
yang benar-benar belum diketahui/ dikenal atau data baru yang sulit lnenetnukan pijakan dalam membuat dugaan. Karena ingin lnendapatkan informasi mengenai pola panggilan yang dilakukan oleh pelanggan dala~nbeberapa katagori waktu, hari, dan jenis panggilan. Maka tugas utarna yang dilakukan adalah tugas deskripsi (c/escriptive data ~nining).Teknik yang digunakan untuk mengekplorasi data perilaku deskriptif.
panggilan digctnakan statistik
Diharapkan dari analisa statistik akan ditetn~rltanpola panggilar~telepon untuk pengguna normal dan pengguna tidak normal @aud/c~curang). Selanjut~~ya dilakukan pengelompokan
dengan
teknik gerombol
menggunaltan
algorit~na K-nleans
c s t e i . Teknik gero~nbol dipilih untuk mengerahui pengelompokan perilaku penggunaan telepon. Algoritma I;-means clzrstering dipilih karena efektif dalam meneniukan gerombol pada data. Data yang diperoleh dari MSC rnerupakan data yang rnasih mentah (r.a~vclataj, seperti terlihat pada Gambar 4.2, yang niemerlukan proses transformasi. U n t ~ ~ k mengetahui perilaku user maka dilakukan penirosesan awal untuk n:engolall database agar dapat diketahui nilai dari masing-masing parameter. Tabel ya:ig akan dihasilkan adalah tabel yang menggambar perilaku pelanggan dengan field7f;eld y a i t ~A~-Num, Jenis-Jam, Jenis-Mari, Jurnlah-Panggilan, Total-Durasi, dan Total-Tagihan. Tabel ini memisahkan antara jenis panggilan loltal, interloltal, dan internasional. Tabel 4.3 inilah yang akan menjadi pedoman dalan~eksplorasi data dan untitk menganalisa .ilaku pelanggan. Tabel 4.3 Tabel Perilaku Pelanggan
10 Total-Duration Pang11 Total-Tagihan Lokal 12 Total-Tagihan lnterlokal 13 Total-Tagihan lnternasional
Int Money Money Money
Data extraction merupakan proses ekstrasi data
4 4 4 4
L I ~ ~ memperoleli L I ~
N
' N N N data yang
Iebih secierhana strukturnya. Dari data yang telah pilih inilah kernudian dilakukan proses transformasi i~ntukmendapatltan profile dari setiap pelanggan. Proses tersebut
dinamakan profiling yang dlakukan rnenggunakan rnetode dala mining. Dari proses inilah dikenali karakteristilc pola perilaku pelanggan pelanggan yang normal dan perilaku pelanggan yang curang. Data Mentali
Ekstraksi Dala
,--
Database
TEKNIK DETEKSI MENGGUNAKAN IARINGAN SYARAF TIRUAN
Menyi~npanProfile Perilaku Pelanggan seal ini
Monitor
Tin1 FTCIIICI Depaltemen Teknik Marketing
Gambar 4.3 Modifikasi Arsitektur BRUTUS Setelah diketaliui karalcter perilaku pelanggan maka langkali selanjutnya adalah melakukan eltsplorasi lanjut menggunakan algoritma clcrra rnining klasifikasi. Teknik r k terbukti yang digunakan adalah feed fonvord backpropr~gutioncez~r.aln e h ~ ~ o yang baik da!am ldasifikasi. Dataprojle digunakari sebagai inputan jaringan syaraf tiruan Melalui model block box-nya, BPNN digunakan untuk tnelakukan klasifikasi perilaku pelanggan. Seliingga akan diketaliui mana pelanggan yang rnelakukan kecurangan
Dari hasil BPNN ini biasanya digunakan oleh frazrd team, departemen marketing, departemen teknik, operasi, dan performansi untuk pengambilan keputusan. Dengan merujuk pada arsitektur sistem yang dibuat oleh Burge (1897) ynng disebu: arsitektur BRUTUS Inaka langkah dari eksplorasi data seperti ditulijukkan pada Gambar 4.3. Modifikasi Arsitektur BRUTUS lnemberikan gambaran yang jelas bagian-bagian dan langkah-langltah dalaln nienibentuk sistem pendeteksi kec~lrangali telekomunikasi. Kelebihan systernlprototzpe ini adalah deteksi dilakukan dalani kurun waktu setiap k ~ ~ r a llebili i g delapan jam (tiga ltali sehari).
4.5 Pernodelan
Model yang dipilih untuk ~iielakukan pekerjaan klasifikasi adaleh jarinsan syaraf tiruan feed fonvard backpropugation. Pilihan ini dilakukan karena BPNN dikerial sebagai ~netodeyang ampuh dala~nlnelakukan klasifikasi. Peneiitian tesis studi Glenn A. Growe di Univel-siias Grand Valley State tahun 1999 yang ~nelaki~kan komparasi terhadap berbagai algoritma klasifikasi men~njukkan bah,.\a metode backpropugr~tior~~ner~lpakan yang paling ltonsisten. Kliosus u n t ~ ~desain k sistelii deteltsi kecurangan telekomunikasi pe~iulis~nemilihfungsi aktivasi siglnoid biner. Arsitektur jaringan syaraf tiruan feed f01.1var.dbackpr3pagation yang didesain menjadi model deteksi kecurangan pada jaringan telekomunikasi ~neinilikiiujuh unit (neuron) pada lapisan input yaitu x l , x2, x3, x4, x5, x6, dan x7; saru lapisan tersembunyi dengan lilna neuron yaitu z l , z,2, 23, 24, dan z5; dan sat11 unit lapisan output yaitu y. Garnbar arsitektur seperti terlihat pada Gambar 4.4. Variabel input yang digunakan pada setiap neuron pada lapisan input adalah data dari CDR yang telah ditransformasi. Untuk neuron x l , x2,x3, x4, x5: s6, dan x7 berisi data sebagai berikut : x l berisi data Status Pelanggan, x2 berisi data Jellis-Jam, x3 berisi data Jenis Hari, x4 berisi data Jumlah Panggilan Lokal, x5 Total Durasi Lokal, x6 berisi data Jumlah Panggilan Interlokal, dan x7 Total Durasi Inti-rlokal. Tabel 4.4 memperlihatkan struktur yang dig~~nakan sebagai inputan jaringan syaraf tiruan feedfo~?vurd backpropagation.
G a l n b a r 4.4 A r s i t e k t ~ Jaringan ~r S y a r a f T i r u a n ~ i n t D~e~t ekk s i K e c u r a n g a n
T a b e l 4.4 T a b e l l n p u t a n BPNN (Bachpropngation N e ~ i r aNl e t w o r k ) Nama Field
No
1 2 3
4 5 6 7 8 9
i
No Kelas Status-Pelanggan Jenis-Jam Jenis-Hari Jml-Call-01 Tot-Dur-01 Jml-Call-02 Tot-Dur-02 A N I I ~
p p
in
input
XI
X2 "
Xq
&
xs xs x7
1
::iLPnglhJAllow
varchar varchar varchar Varchar , Varchar int int int int
7 varrhar
15
N
1
N N N
1 1 1
4 4 4 4 I5
N N N N N
N
Keterangan Nomor urut Kelas pelanggan Barullama Kerjalsenggangfistirahat Keriaiminoaullibur Jumlah pacggilan lckal Total durasi lokal Jumlah panggilan intelokal Total durasi intelokal Nomor oemanaall
--
Alur proses klasifikasi menggunakan jaringan syaraf tiruan dapat dilihat melalui Gambar 4.5. Diagram alir menjelaskan urutan proses inputan BPNN diolah oleh BPNN yang akan nenghasi!La~~ tabel klasifikasi perilaku pelanggan.
Baca File lnpllf BPNN Per rows
I
f Dercksi dengan Neural Network
C Simpan hasil Deteksi
I
Gambar 4.5 Flow chart Deteksi F ~ u u ddengan NN Keluaran dari BPNN adalah hasil klasifikasi yang terdiri dua kelas. Kelas pertama adalah 0 dimana digunakan untuk kelas perilaku pelanggan normal, kelas kedua adalah I yang diperuntukkan bagi kelas peri!aku pelanggan curang. Tabel 4.5 Tatel Keluaran EPNN (Buc@i~opugutiotzNeztrc11N e i ~ v o ~ k ) Output Y 0 1
Keterangan Normal Curang
4.6 Tallapan Pelatiha:~ Data transaksi panggilan yang dimiliki berasal dari 25.865 nomor pelanggan selama bulan Januari 2005. Jumlali ;lamor tersebut bukan berarti selalu ada dalam setiap data panggilan per liari per jenis jam tetapi bergantun:: penggunaannya. nomor-nomor ke dalarn'profile perilaku pelanggan Sistem tidak akan mernas~~kkan apabila nomor tersebut tidak ~nelakukanpanggilan sama sekali. Dari 25.419 notnor terdapat 596 nomor pelangga~i yang dikelompokkan curang oleh PT.X. Seperti nomor pelanggan yang lain, nolnor yang dikelaskan curang tidak selalu muncul setiap liari per jenis jam. Pelatihan dilakukan dengan menggunakan program aplikasi BackPR02N. Data pelatihan disiapkan dala~nformat text dan diiandai dengan header pada baris pertama yang berisi 3 koloni masing-masing me~iunjukkanjumlah masukan (inpzrt
node) jaringan syaraf tiruan, jumlah keluaran (oupzrt node), dan jumlah baris. Urutali kolom data set yang d i g ~ ~ n a l auntuk n pelatihan adalali nolnor baris, kelas pe!angggan,
status-pelanggan,
total-durasi-lokal,
jenisjam,
jml-panggilan-interlokal,
jenis-hari,
jmlganggilan-lokal,
total-durasi-interlokal,
dan nomor-
telepon. File ini dipanggil nielalui menu Open Training Data dan selanjutnya ditentukan nilai momentum, gain, dan learning rate pada inpzrt box yang tersedia. Sebelum dijalankan ju~nlah target iterasi (epoch) pelatihan ditentukan terlebih dahulu. Dengan menekan menu RZIIITraining maka proses pembelajaran dengan jaringan syaraf tiruan backpropagation dimulai. Setelah proses pelatihan selesai dilakukan yang ditandai dengan tercapai~iya target iterasi maka bobot yang diperoleh harus disimpan. Bobot disimpan dengan cara menekan menu Save Weights dan kemudian disimpan dengan nama bobottelepon.wgt. U n t ~ ~pe~nbelajaran k dilakukaii pelatihan terhadap model menggunakan dua ~ data (71,4%) dan 60000 data (69,8%). Data yang data penelitian y a i t ~2500 digunakan adalah data riil yang disusun sedemikian rupa sehingga memenuhi
karakter profil perilaku panggilan. Setiap kategori baik kategori hari maupun kategori waktu dipilih secara cermat. Jumlah data yang dijildiknn data pelatihan sebanyak 2500 baris. Sebanyak 157 adalah data yang masuk dalam kelas curang sedangkan 2343 data lainnya masuk katagori normal. Untuk mengukur akurasi hasil pelatihan lakukan penyimpanan data hasil pelatihan dengan rnenekan sub menu Save Result Training dari menu File. Dari data ini dilakukan pengukuran secara manual menggunakan aplikasi Microsoft Excel untuk mengetahui jumlah kesalahan klasifikasi.
4.7 Taliapan Pengujian Pengukuran akurasi dari tahap pelatihan dilakukan untuk melakukan pengiijian dari model yang dipilih. Pengujian dilakukan mengggunakan data transaksi panggi!an telepon pada bulan Janurari 2005. Data pelanggan sebanyak 26.000 nomor pelanggan yang melniliki status pelanggan baru dan lama. Data yang digunakan untuk pengujian terhadap akurasi model yang dirancang sebanyalt, y a i t ~sebanyak ~ 1000 baris data (28,6%) dan 26000 baris data (30,6%). 88 adalah data yang masulc dalam kelas curang sedangkan 912 data lainnya masuk katagori normal. Pengujian dilakukan menggunakan BackPR02N dengan membuka file pengujian melalui menu Open Testing Data dan ~nenggunakanbobot yang digunakan saat pelatihan. Dengan menekan menu Rzln Test maka proses pengujian dengan jaringan syaraf tiruan backpropagation dilakukan. Dari hasil pengujian ini bila diperoleh hasil yang baik maka bobot yang dihasilkan dipakai untuk kepentingan program klasifikasi. Bobot disimpan dengan nalna bobottelepon.wgt. Unti~k iiiengukur akuras~hasil pengujian dilakultan dengan cara yang salna seperli saat menguji akurasi pelatihan.
..
4.8 Pembangunan Sistem Prototipe Apabila dari hasil evaluasi diketahui model yang dipilih me~nilikiakurasi yang cukup memadai maka dapat diputuskan untuk menggunakannya. Pembangunan sistem ini merupakan tahapan akhir yang akan menjadi solusi terhadap persoalan pendeteksian kecurangan pada jaringan tclekomunikasi khususnya jenis kecurangan
bad debt pada PT. X. Sistem prototipe yang dibangun memanfaatkan bobot yang telah diperoleh saat pelatihan. Bobot inilah yang menjadi alat analisis klasifikasi deteksi kecurangan. Sistem prototipe dibuat dengan prinsip user friendly yang hanya membutuhkan operasi buka file data yang akan diuji klasifikasi dan proses klasifikasi. Sebagai tambahan dibuat menu laporan untuk melihat dan mencetak hasil klasifikasi. 4.9 Tahapan Validasi dan Verifrkasi Validasi terhadap model yang diuji dilakukan untuk mengetahui iingkat kebenarar. dari sistem yang kita bangun Validasi dan verifikasi dilakukan mengggunakan data transaksi panggilan telepon pada bulan Janurari 2005. Data pelanggan sebanyak 10.040 nornor pelanggan yang memiliki status pelanggan baru dan !ama.
..
Data yang digunakan untuE validasi. . dan verifikasi terhadap alturasi model yang dirancang sebanyak, yaitu-sebanyak 10.040 baris data dengan perincian 13.931 (99,3%) data adalah pelanggan normal dan data yang masuk dalam kelas curang sebanyak 69 (0,7%).
,.BAB V. IMPLEMENTAS1 PROTOTIPE SISTEM
Bab ini membahas teniang irnplementasi sistem mulai dari tahapan pembuatan kode program hingga instalasi program. Sistem deteksi kecurangan pada jaringan telekomunikasi dibagi menjadi dua program aplikasi iltama yaitu aplikasi profiling dan aplikasi klasifikasi. Aplikasi profiling menggunakan metode knowledge discovery in database yang berfungsi untuk menghasilkan ekstraksi profile pengguna. Aplikasi Klasifikasi rnenggunakan nietode backpropagation neural netwo~k.
5.1 Sistem Basis Data Sistem profiling berbasiskan pada n'arabase transaksi panggilan pelanggan yang ditempatkan di SQL Server. Database ini berisi tabel-tabel yang telah dikelompokkan berdasarkan katagori waktu panggilan. Sebagai contoh, tabel A-Jan2005-01 merupakan tabel kumpulan transaksi panggilan pada tanggal 1 Januari 2005 katagori waktu jam kerja (jam 07.00 - 16.59), Tabel B-Jan2005-01
merupakan tabel
kumpulan transaksi panggilan untuk katagori waktu senggang (jam 17.00 - 23.59), dan Tabel A-Jan2005-01
merupakan tabel kumpulan transaksi panggilan untuk
katagori waktu jam kerja (jam 00.00 - 06.59). Tabel lain yang dibutuhkan adalah Tabel Status-Pelanggan yang berisi tentang identitas pelanggan, Tabel BigDate yang berisi tanggal-tanggal yang merupakan hari besar dan hari libur, Tabel Perilaku-Pelanggan-A Perilaku
Pelanggan
lnenampung
Panggilan
Perilaku
Perilaltn-Pelanggan_C
Lokal,
Pelanggan untuk
Tabel Panggilan
untuk menampung Panggilan Perilaku-Pelanggan-B Interlokal,
dan
mena~npung Perilak~~ Pelanggan
unt~~k Tabel
Panggilan
Ititernasional. Dengan index proses ekstrzitsi akan jauh lebih cepat dibanding tanpa perlakuan index. Apalagi data yang akan dikomputasi berukuraa sangat besar. Index adalah objek database yang mempercepat proses pencarian data dalam sebuah tabel. SQL Server rnempunyai dua tipe index, yaitu clzisterrd index dan nonclzistered index.
Kedua index tersebut menggunakan algoritma B-Tree. Untuk keperluan indexing, SQL server menyediakan index page sebagai satuan terkecil penyimpan data besarnya 8 KB per indexpage. Dengan algoritma B-Tree, pointer-pointer indeks diorganisasikan dala~nbentuk struktur cabang-cabang pohon yang diawali dengan tingkat tertinggi yang dinamakan root page atau disebut juga starting page. Setiap pointer pada mot level akan diasosiasikan dengan beberapa page level berikutnya yang dinamakan intermediate page atau disebut juga decision node. Hubungan antar page level ini sampai pada level paling bawah yang disebut leaf level dan page disebut leafpage. Leafpage atau data page dalam clustered index adalah memori fisik dimana nilai-nilai kolom telah terurut secara fisik. Pointer indeks membantu dalam penelusuran data, sebagai penunjuk, proses pencarian dengan indeks akan menjadi lebih cepat. 5.2 Aplikssi Perilaku Pelangpan
Sistern profiling melakukan koneksi ke database menggunakan ODBC (Open Database Connectivity), yang dikeluarkan oleh Microsoft. Koneksi ke SQL Server memrlukan pengaturan. Elemen yang perlu diatur adalah nama server SQL Server
2000, user ID, dan password. Penulis membuat file konfigurasi zistzm bernama ANALIS.IN1 untuk memudahkan proses instalasif pend~lplikasiansistem. Beberapa prosedur dibutuhkan untuk membantu proses pembuatan profile. Prosedur
tersebuat
sp-report-a.sql,
adalah
sp-report-b.sql,
sp-Get-Count, sp-report-c.sql,
sp-masterqelanggan,
prosedur
dan sp-report-all.sql.
Prosedur-
prosedur ini berguna untuk melakukan manipulasi data yang penggunaannya akan dikontrol tnelalui program aplikasi. Ekstraksi profile perilaku dijalanltan setelah dijatuhkati pilihan terhadap data yang akan dickstrak. HasiI ektraksi diumpulkan dala~ntabel Perilaku-Pelanggan, Perilak~~ -Pelanggan -E, dan Perilaku-Pelanggan -C secara akumulatif. Artinya tabel terseb~ttakan menatnpung hasil proses ektraksi semua transaksi panggilan yang dijalankan oleh pengguna.
5.3 Analisis Gerolnbol Analisis pola perilaku penggunaan telepon dilalcukan menggunakan analisa gerombol . Program apiikasi stztistik SPSS versi 10.0 for Windows digunakan untuk rnelakukan analisis gerombol. Analisis gerombol tidak dilakukan secara otomatis dengan alasan keterbatasan watu sehingga proses analisa tetap harus menggunakan SPSS dengan pengaturan secara langsung oleh pengguna. Analisis gerombol dipilih karena dapat mengelompokkan (gerombol) objekobjek berdasarkan kesamaan karakteristik tertentu diantara objek-objek yang diarnati. Analisis gerombol menggunakan teknik K-means clustering sehingga akan dapat dieksplorasi hubungan dan susunan data. Pada K-means clustering digunakan metode flat,
yaitu jumlah
gerombol
dapat ditentukan
terlebih
dahulu dengan
mempertimbangkan pendapat pakar atau teori yang ada. Untuk kasus tesis ini maka dapat ditentukan dua gerombol yaitu gerombol/kelompok pengguna normal dan kelompok pengguna curang.
Ga~ubar5.1 K-mec~nsclztsteringdengan SPSS 10.0 Cara kerja K-tileans clzcsferii7g yait~r rnelakukan penghitungan tiap-tiap gerornbol
dan menempatkan objek-objek pada gerombol
berdasarkan tingkat
kesamaan objek dengan rerata dari gerombol . Rerata dari gerombol dihitung pada akhir langkah terakhir. Proses ini berlanjut hingga tidak ada objek yang berganti gerombol .
"
Dari analisis gerombol
inilah maka diketahui karakteristik pola perilaku
panggilan pelanggan yang akan digunakan sebagai basis penentuan kelas pelanggan. Karena klasifikasi harus menentukan kelas terlebih dahulu maka setiap pelanggan akan diidentifikasikan kelasnya masing-masing. Pengkelasan ini menjadi dasar bagi pen~belajaransistem klasifikasi. Penulis akan melakukan verifikasi hasil analisis gerombol dengan informasi yang diberikan oleh pakarl pejabat PT. X agar penentuan perilaku pengguna tidak keliru. 5.4 Aplikasi Klasifikasi
Sistem klasifikasi merupakan program aplikasi yang dibuat berdasarkan lnetode backpropagation neural nehvork. Jumlah input sebanyak 7 node dengan satu hidden layer yang terdiri dari lima node. Keluaran yang dihasilkan oleh sistem adalah satu output dengan kemungkinan keluaran 0 atau I . Angka 0 merupakan kode kelas bagi p e r i l e ! ~pelanggan ~~ yang normal sedangkan I merupakan kode kelas bagi perilaku pelanggan yang curang. 5.5 Komplelcsitas Sistem
Dalam pembangunan sebuah sistem selalu dilihat efisiensinya melalui pengliitungan kompleksitas algoritmanya. Algoritma yang bagus adalah algoritma yang efisien. Keefisienan algoritma diukur dari berapa jumlah waktu dan ruang (space) memori yang dibutuhkan untuk menjalankan. Algoritma yang efisien ialah algoritma yang lneminimkan kebutuhan waktu dan ruang. Model abstrak pengukvran waktulruang yang independen dari pertimbangan mcsin dan cornpilcr disebut kompleksilas algoritma. Ada dua macam kolnplcksitas algoritma, yaiti~kompleksitas waktu dan k3mpleksitas ruang. Koinpleksitas waktu diukur dari jumlal: tahapan koinputasi yang dibutuhkan untuk menjalankan algoritma sebagai fungsi dari ukuran masukan n. I
algoritma dapat ditentukan laju peningkatan waktu (ruang) yang diperlukan algoritma . . . ., dengan meningkatnya ukuran maiukan n. Kompleksitas waktu untuk kalkulasi adalah T(n) = n.m dimana n adalah jumlah nomor pelanggan dan m adalah jumlah baris transakasi panggilan. Operasi ini tedapat pada kalang Do While. Tabel 5.1 menampilkan nilai kompleksitas dari masing-masing prosedur yang digunakan pada program profiling. Untuk program klasifikasi tidak dapat dihitung nilai kompleksitasnya karena digunakan metode jaringan syaraf tiruan, dimana operasinya adalah black box yang tidak didesain oleh user. Tabel 5.1 Nilai Kompleksitas Algoritma No
Prosedur
Kompleksitas
1
Extrac
T(n) = O(n.m)
2
Insert
T(n) = O(n)
3
Report
T(n) = O(n)
Keterangan n = jun~lahnomor pelanggan terdafiar; m =jumlah transaksi panggilan n =jumlah nomor pelanggan terdafiar melakukan panggilan n =jumlah nomor pelanggan yang melakukan panggilan
BAB VI. HASIL DAN PEMBAHASAN
Bab ini menguraikan secara rinci hasil penelitian. Hasil dan pembahasannya akan diurutkan berdasarkan proses kerja sistem deteksi kecurangan telekomunikasi. Yaitu pertama, hasil dari profiling yang akan dijelakan dengan analisis deskriptif, kedua hasil analisis gerombol, dan ketiga klasifikasi dengan metode jaringan syaraf tiruan. 6.1 Analisis Perilaku Panggilan Program Profiling menghasilkan profile perilaku masing-masing pengguna telepon. Dari perilaku pelanggan ini dapat diketahui frekuensi panggilan yang dilalcukan pada katagori waktu tertentu dan jenis hari tertentu untuk status pelanggan yang berbeda. Begitu pun durasi panggilan untuk kondisi yang sama seperti di atas untuk jenis panggilan lokal, interlokal, maupun internasional. Dari proses profili~zgdiketallui bahwa panggilan internasional tidak pernah dilakukan (100%) oleh pelanggan yang dijadikan sa~npel yaitu sebanyak 25.405 pelanggan. Panggilan intenasional tidak pernah dilakukan pada katagori jarn kerja atau jam senggang atau jam istirahat pada hari kerja maupun hari libur. Sehingga panggilan internasional tidak d'ijadikan variabel dalam deteksi kecurangan. Jumlah tabel yang memuat transaksi panggilan bulan Januari sebanyak 93 tabel yang terbagi ke dalam tanggal transaksi dan jenis jam panggilan. Tabel-tabel tersebut tersimpan di dalam database management system Microsoft SQL Server 2000. Melalui Program Profiling dibuat profil perilak~~ pelanggan berdasarkan tabel-tabel transaltsi tersebut dan disiinpan pada Tabel Perilaku Pelanggan. G z ~ b a 6.1 r menunj~~kkan liasil Program Profiling yang berisi tentang perilaku pelanggan dalam melakukan panggilail berdasarkan jenis hari dan jam tertentu.
aporan Perilaku Pelanggan 3snlr 3.m
:
0
Gatnbar 6.1 Laporan Perilaku Pelanggan Melalui analisa dengan metode statistik deskriptif diketahui jumlah pelanggan yang melakukan panggilan dan rata-rata jumlah panggilan yang dilakukan seperti ditunjukkan dalam Tabel 6.1 dan Tabel 6.2. Tabel 6.1 Jumlah Pelanggang Yang Melakukan Panggilan Lokal
Tabel 6.1 dan 6.2 bila digambarkan akan terlihat seperti Gambar 6.2 dan Gambar 6.3, yang menunjukkan adanya perubahan yang dinamis perilaku pelanggan dalam melakukan panggilan telepon.
-I-Jam Seoggang
21. Jum'aO1. Sabtu
09. 17. Senirf8. Seiasd2. Rabul3. Kami94. Jum'aflS. Sablu 23. Minggu Minggu
Tanggal. Hari
Gambar 6.2 Jumlah Pelanggan Yang Melaltukan Panggilan Lokal berdasarkan hari
Jam Senggan
Jam Istiranat
7
21. Jum'at
01. Sabtu
09. Minggu
17. Senin
IS. Selasa
12. Rabu
14.
13. Kamir
Jum'al
15. Sobtu
23. Minggu
Tanggal. Hari
Gambar 6.3 Jumlah Pelanggan Yang Melakukan Panggilan Interlokal berdasarkan hari Jumlah panggilan yang dilakukan oleh pelanggan sangat beragam mulai dari 1 kali hingga puluhan bahkan ratusan kali tetapi rata-rata jumlah panggilan tidak lebih dari 6 kali panggilan per katagori waktu. Gambar 6.4 dan Gambar 6.5 menunjukkan rata-rata jumlah panggilan lokal dan interlokal yang disusun berdasarkan tanggal dan hari.
21. Jum'at
09. Minggu
01. Sablu
I @ Selasa .
17. Senin
12, ~
13. Karnis ~
15. Sablu
14. t Jurn'at , ~
23. Minggu
Tgl, Hari
Gambar 6.4 Rata-rata Jumlah Panggilan Lokal berdasarkan hari
i
'
,
la,.
-t-Jam Keja
1
--.c- Jam Senggang
Jam Istirattat
I
j
/
/ /
i
I
!
21. Jum'at
09. Minggu 18. Seiasa 13. Kamis 15. Sabtu 01. Sabtu 17. Senin 12. Rabu 14. Jum'at 23. Minggu
Tgl, Hari
Gambar 6.5 Rata-rata Jurnlah Panggilan Interlokal berdasarkan hari Berikut ini akan dijelaskan secara terperinci berdasarkan pembagian katagori hari liburl minggu dan hari kerja untuk lnemudahkan pemahaman akan data panggilan.
6.1.1 Perilaku Hari Icerja Pada hari kerja banyak pelanggan yang melakukan panggilan telepon. Terlihat dari data pada katagori waktu jam kerja menunjukkan paling sedikit adalah 12.495 pelanggan melakukan panggilan lokal dengan rata-rata jumlah panggilan sebanyak 1,61 kali. Jumlah panggilan pada percentile 90 mencapai 5 kali. Panggilan di atas 7 kali mer~!pakan pencilan. Durasi hingga percentil 90 adalah 2494 unit pada hari Senin tanggal 17 Januari 2005. Durasi di atas 5014,2 unit merupakan pencilan. Ragam1 varian jumlah panggilan yang tertinggi mencapai 189 pada hari Rabu tanggal 12 Januari 2005. Untuk panggilan interlokal rutz-rata pelatlggan melakukan panggilan sebanyak 4,27 kali. Panggilan terbanyak adalah 426 kali dengan percentile 90 adalah 10 kali. Sehingga panggilan yang di atas 10 kali merupakan pencilan. Durasi rata-rata adalah 3478 unit dengan percentile 90 adalah 7828 unit. Jumlah
I I
I
I
panggilan interlokal di atas 11 merupakan pencilan dan durasi panggilan interlokal di atas 7828,7 unit adalah pencilan. Pada katagori waktu jam senggang rata-rata jumlah panggilan lokal sebanyak 2,75 kali dengan rata-rata durasi sebanyak 2148,54 unit. Ragam (varian) panggilan lokal adalah 8,13. 2umlah panggilan lokal di atas 12 merupakan pencilan dan durasi panggilan lokal di atas 6850,4 unit adalah pencilan. Untuk panggilan interlokal semua pelanggan tidak melakukannya. Pada katagori waktu jam istirahat pelanggan hanya melakukan panggilan lokal szja. Bahkan pada hari Selasa tanggal 18 Januari 2005 tidak ada satupun pelanggan yang inelakukan panggilan telepon. Rata-rata ju~nlahpanggilan adalali 1,78 kali dengan durasi rata-rata 1365,54 unit. Pe~cenfile90 pada jumlah panggilan adalah 3 sedangkan percentile 90 pada durasi adalah 2396,S unit. Ju~nlahpanggilan lokal di atas 3 rnerupakan pencilan dan durasi panggilan lokal di atas 2707 unit adalah pencilan. Gambar 6.6 meinperlihatkan pola perilaku pelanggan baik jumlah panggilan dan total durasi panggilan lokal, interlokal, dan internasional dala~nkatagori jam kerja, jam senggang, dan jam istirahat.
I
Jam kerja
Senggang
I Istirahat
Gambar 6.6 BoxPlof Profil Panggilan Tanggal 14 Januri 2005
6.1.2 Perilaku Hari Libur
Pola perilaku pelanggan dalam melakukan panggilan pada hari libur beibeda dengan pola perilaku panggilan pelanggan pada hari kerja dimana kebanyakan pelanggan tidak melakukan panggilan telepon. Terlihat dari data pada katagori waktu jam !<erja menunjukkan paling banyak adalah 11.413 pelanggan dimana rata-rata panggilan lokal dilakukan sebanyak 1,54 kali. Adapun panggilan lokal tertinggi sebanyak 118 kali. Durasi hingga percentil 50 maksinial 299 unit pada tanggal 1 Januari 2005 karena pada saat itu banyak orang yang saling memberikan ucapan selamat. Pada hari libur atau minggu lainnya kondisinya berbeda karena paling tinggi hanya 16 unit. Dan pada percentile 90 dari semua tanggal rnemiliki durasi di atas 1000 unit panggilan. Jumlah panggilan lokal di atas 6 merupakan pencilan dan durasi panggilan lokal di atas 4521unit adalah pencilan. Untuk panggilan interlokal rata-rata melakukan panggilan sebanyak 3,17 kali. Panggilan terbanyak adalah 427 kali dengan percentile 90 adalah 8 kali. Durasi rata-rata adalah 3643,3 unit denganpercentile 90 adalah 6092 unit. Jutnlah panggilan interlokal di atas 8 merupakan pencilan dan durasi panggilan interlokal di atas 6612 unit adalah pencilan. Pada katagori waktu jam senggang rata-rata jumlah panggilan lokal sebanyak 2,7 kali dengan rata-rata durasi sebanyak 62,16 unit. Ragam (varian) ?.
panggilan lokal adalah 8,56. Jumlah panggilan lokal di atas 6 merupakan pencilan dan durasi panggilan lokal di atas 5802,2 unit adalah pencilan. Untuk panggilan interlokal rata-rata pelanggan tidak melakukannya kecuali pada tanggal 1 Januari. Katagori waktu jam istiraliat pelanggan yang melakukan panggilan hanya melakukan panggilan lokal saja. Pada tanggal 9 Januari 2005 sebanyak 6798 pelanggan melakukan panggilan berbeda sekali dengan tanggal 1 Januari 2005 yang hanya 644 pelanggati. Rata-rata jumlah panggilan adalah 2,7 kali dengan durasi rata-rata 2097 unit. Jumlah panggilan lokal di atas 6 merupakan pencilan dan durasi panggilan lokal di atas 5494,l unit adalah pencilan.
CALUIIWPLIE*LLO~UROZ~LO1DURO1
Jam Kerja
Jam Senggang
Jam lstirihat
Gambar 6.7 BoxPlot Profil Panggilan Tanggal 1 Januri 2005 Gambar 6.7 memperlihatkan pola perilaku pelanggan baik jumlah panggilan dan total durasi panggilan lokal, interlokal, dan internasional dalam katagori jam kerja, jam senggang, dan jam istirahat. 6.2 Analisis Gerombol
Jumlah data yang digunakail untuk analisis gerombol sebanyak 93 tabel dengan perincian 3 1 tabel jenis panggilan lokal, 31 tabel jenis panggilan interlokal, 31 tabel jenis panggilan internasional. Pada laporan ini hanya akan dilakukan analisa . . gerombol pada 30 tabel saja. Analisis gerombol dirnaksud sebagai pembanding dari kinerja model jaringan syaraf tiruan. Dimana penulis hanya memperoleh data pelanggan yang curang (yang dianggap curang oleh staff fraud dan performansi pada bulan itu). Sehingga tidak diketahui perilaku curang per harinya. Padahal penulis ingin mendeteksi kecurangan lebih cepat yaitu rnanlpu mendeteksi setiap 8 jam sekali (per katagori jam). Sehingga per111 dilala~kananalisis gerolnbol ~intuk~nengetahuipelanggan yang curang per katagsri jam. Pada analisis gerombol ini digunakan metode K-means clustering dengan membagi gerombol menjadi 2 kelompok. Gerombol pertama ada gerombol
pelanggan yang me~nilikiperilaku panggilan normal dan gerombol kedua adalah kelompok pelanggan dengan perilaku panggilan curang. 6.2.1 Katagori Hari Libur Untuk katagori waktu jam kerja, hasil analisis K-tizeans clzdstering menunjukkan gerombol pertama adalah pelanggan yang memiliki karakteristik yaitu pelanggan yang lebih banyak melakukan panggilan lokal dengan durasi panggilan lokal yang lebih tinggi dibanding dengan melakukan panggilan interlokal. Tabel 6.3 menunjukkan karakteristik dari data panggilan. Nilai jarak yang positif ~nenunjukkanbahwa karakteristik tersebut masuk dalsm gerombol tersebut sedangkan jika nilainya negatif cenderung tidak berada dalani gero~nboltersebut. Berdasarkan hasil gerombol terakhir dapat diketahui bahwa pola panggilan pelanggan normal pada hari libur adalah pelanggan yang memiliki karakteristik status pelanggan lama, sering melakukan panggilan lokal ketimbang panggilan internasional. sedangkan pelanggan curang cenderung adalah pelanggan dengan status pelanggan baru, lebih sering ~neiakukanpanggilan interlokal dengan durasi yang tinggi. Tabel 6.3 Hasil Gero~nbolTerakhir Tanggal I Januari katagori jam kerja
I
Variabel
Cluster
*
Jarak antara gerombol pertama dan kedua dapat dilihat pada Tabel 6.4. Tabel 6.4 Jarak Antar Gerombol Katagori Hari Libur Tanggal 1 Januari2005 9 Januari 2005 21 Januari 2005 23 Januari 2005
Jam lterja 41,814 33,172 30,159 32,197
Jarak antar gerombol Jam istirahat Jam senggang 38,372 25,492 50477,645 20,026 34,269 62804,540 39,952 :,2E+OS
Hasil analisis K-means clzrstering menunjukkan jumlah pelanggan yang dikategorikan curang pada katagori hari libur dan katagori waktu jam kerja paling
.
banyak adalah 23 pelanggan dan paling sedikit 11 pelanggan. Sedangkan pada katagori jam senggang terbanyak adalah 17 pelanggan dan waktu istirahat terbanyak adalah 74 pelanggan. Selengkapnya dapat dilihat pada Tabel 6.5. Tabel 6.5 Jumlah Pelanggan Curang Katagori Hari Libur
Hasil analisis clzistering dari semua tanggal pada hari libur hampir seragam dan terlihat dari uji ANOVA bahwa perbedaan yang signifikan antara dua kelompok yang terbentuk adalah perbedaan dalam variabel Status-P (status pelanggan) (0,000<0,05), Ca1102 (panggilan interlokal) (0,000<0,05), dan Dur02 (durasi panggilan interlokal) (0,000<0,05). Sedangkan untuk variabel variabel CallOl (panggilan lokal) dan DurOl (durasi panggilan lokal) tidak terdapat perbedaan yang signifikan (Sig.>O,O5). Data ini dapat dilihat pada Tabei 6.6. Tabel 6.6 ANOVA tanggal 1 Januari katagori jam kerja
Dari hasil analisis K-means clzr.~ter.ingdiketahui bahwa pelanggan yang dimasukkan dalam gerombol pelanggan curang hampir sebagian besar diidentikkan dalaln katagori curang oleh staf fraud dan performansi. Keadaaan ini menunjukkan bahwa data hasilanalisis K-nteans clzrstering dapat dijadikan patokanl pembanding bagi uji jaringan syaraf tiruan, seperti terlihat pada Tabel 6.7.
Tabel 6.7 Identifikasi Jumlah Pelanggan Curang hasil K-n~eansclustering dan nilai Kesalahannya Dibandingkan Data Aktual
Catatan : error adalah nilai kesalahan analisis K-means clustering diukur berdasarkan data nornor curang yang diidentifikasi oleh staf PT.X.
6.2.2 Katagori Hari Kerja Untuk katagori waktu jam kerja, hasil analisis K-tneans clustering menunjukkan gerombol pertama adalah pelanggan yang memiliki karakteristik yaitu pelanggan yang lebih banyak melakukan panggilan lokal dengan durasi panggilan lokal yang lebih tinggi dibanding dengan melakukan panggilan interlokal. Sedangkan kelompok kedua adalah pelanggan yang lebih sering melakukan panggilan interlokal seperti yang terlihat pada Tabel 6.8. Tabel 6.8 Hasil Gerombol Terakhir Tanggal 12 Januari Katagori Jam Kerja Variabel
Cluster I
,.
Jarak antara gerombol pertama dan kedua dapat dilihat pada Tabel 6.9. Tabel 6.9 Jarak Antar Gerombol Katagori Hari Kerja
Hasil analisis K-means clustering menunjukkan jumlah pelanggan yang dikategorikan curang pada katagori hari libur dan katagori waktu jam kerja paling banyelc adalah 37 pelanggan dan paling sedikit 1 pelanggan. Sedangkan pada katagori jam senggang terbanyak adalah 12 pelanggan dan \vaktu istirahat terbanyak ada1ah.S peldnggan. Selengkapnya dapat dilihat pada Tabel 6.10.
c
Tabel 6.10 Jumlah Pelanggan Curang Katagori Hari Kerja
Hasil analisis clustering dari semua tanggal pada hari libur hampir seragam dan terlihar dari uji ANOVA bahwa perbedaan yang signifikan antara dua kelompok yang terbentuk adalah perbedaan dalam variabel Status-P (status pelanggan) (0,000<0,05), Ca1102 (panggilan interlokal) (0,000<0,05),dan Dur02 (durasi panggilan interlokal) (0,000<0,05). Sedengkan untuk variabel variabel Call01 (panggilan lokal) dan Du;Ol (durasi panggilan lokal) tidak terdapat perbedaan yang signifikan (Sig.>O,OS). Hasil analisis ini dapat dilihat pada Tabel Tabel 6.1 1 ANOVA tanggal 12 Januari katagori jam kerja Variabel
Gerornbol Meansouare 1
df
1
Error Mean Sauare 1
df
F
Sig
Dari hasil analisis K-means clustering diketahui bahwa pelanggan yang dimasukkan dalam gerombol pelanggan curang memang sebagian besar diidentikkan dalam katagori curang oleh staf fraud dan performansi. Tabel 6.12
menunjukkan perbedaan analisis oleh K-means clustering dengan data aktual yang didapatkan dari PT.X. Tabel 6.12 Jumlah Pelanggan C ~ r a i ~hasil g K-means clzrsrering dan Perbedaaan Pengelolnpokan menurut PT.X
6.3 Analisis Uji Jaringan Syaraf Tiruan Sebuah Classger Model pada klasifikasi data dibentuk berdasarkan data yang sudah ada, dan kemudian model tersebut digunakan untuk klasifikasi dan prediksi data baru yang belum pernah ada. Data umilmnya dibagi menjadi training set dan testing set. Training set (data pelatihan) digunakan oleh algoritma klasifikasi untuk membentuk sebuah model
classiJier. Model ini merupakan representasi pengetahuan yang akan digunakan untuk prediksi kelas data baru yang belum pernah ada. Testing set (data pengujian) yang disebut juga data verifikasi digunakan untuk mengukur sejauh mana classifier berhasil melakukan klasifikasi dengan benar. Karena itu, data yang ada pada testing
set seharusnya tidak boleh ada pada training set sehingga dapat diketahui apakah model classSfier sudah "pintar" dalam melakukan klasifikasi;' Untuk menguji model klasifikasi memiliki performa yang paling baik maka diperlukan validation set. Umumnya beberapa algoritma klasifikasi memerlukan beberapa parameter. Misalnya: jumlah hidden layer dan learning rate pada jaringan syaraf tiruan. Biasanya sebagian dari training set diambil untuk validation set. Validation set ini digunakan untuk lnencari parameter yang paling baik untuk sebuah algoritma klasifikasi. Untuk melakukan pemodelan penulis menggunakan 3500 baris data dan 86000 baris data. Data 3500 baris yang dibagi menjadi dua yaitu 2500 data untuk
pelatihan(71,4%) dan 1000 untuk data pengujian (28,6%). Sedangkan data 86000 dibagi menjadi 60000 data untuk pelatihan(69,8%) dan 26000 untuk data pengujian (30,6%). Data yang digrunakan adalah data riel yang disusun sedemikian rupa sehingga niemenuhi karakter profit perilaku panggilan. Setiap katagori balk katagori hari maupun katagori waktu dipilih secara cermat. Data pelatihan dan pengujian mengandung 60% panggilan yang dilakukan pada katagori jam kerja, 25% panggilan yang dilakukan pada katagori jam senggang, dan 15% panggilan yang dilakukan pada katagori jam istirahat. 6.3.1 Pe!atihan
Julnlah data yang dijadikan data pelatihan sebanyak 2500 baris dan 60000 baris. Untuk data pelatihan 2500 baris, sebanyak 157 adalah data yang masuk dalam kelas curang sedangkan 2343 data lainnya masuk katagori normal. Sedangkan data pelatihan kedua sebanyak 60000 baris memiliki 920 data curang. Data pelatihan didesain untuk dapat menghasilkan model deteksi kecurangan telekomunikasi dengan error paling rendah dan akurasi paling tinggi. Dari dua jenis data dilakukan empat kali pembelajaran dengan learning rate dan jumlah iterasi (epoch) yang berbeda. Hasil dari pembelajaran dapat dilihat pada Tebel6.i3. Tabel 6.13 Hasil Akurasi Training
6.3.2 Pengujian Jurnlah data yang dijadikan data pengujian sebanyak 1000 baris dan 26000. Untuk data 1000 baris memiliki 88 data yang masuk dalam kelas curang sedangkan 912 data lainnya masuk katagori normal. Sedangkan data pengujian sebanyak
26000 data memiliki data curang sebanyak 321 baris dan data normal sebanyak 26679. 9ari pmgujian didapat hasil seperti ditunjukkan pada Tabel 6.14. Tabel 6.i4 Hasil Akurasi Pengrrjian
Tabel 6.14 mernperlihatkan bahwa model klasifikasi yang dibangun dapat me1akuka.n klasifikasi dengan baik. Pengujian tersebut menunjukkan akurasi terbaik mencapai 99,95%. Perbandingan hasil akurasi klasifikasi BPNN dari jumlah data pelatihan dan pengujian dengan iterasi yang berbeda dapat dilihat pada Tabel 6.15 dan Tabel 6.16. Tabel 6.1j Akurasi Klasifikasi BPNN dengan epoch 50.000
Tabel 6.16 ,\kurasi Klasifikasi B P W dengan epoch 100.000
Dari Gambar 6.8 terliliar bah\~atahapsn pembelajaran dan pengujian !.znz rin,ogi sdalah lirsiteh~urjaringan s)'araf tit'uan yang rnemilik . memiliki akurasi J)imanajLlln\nllllo,iz lli,f,ir,~ lg.
86
1
1 250011000 (epoch Sorb)
60000126000 (epoch 50rb)
250011000 (epoch IOOrb)
60000126000 (epoch 100rb)
?enis Data
Gambar 6.8 Akurasi Klasifikasi BPNN
6.3.3 Implementasi Pada dasarnya pemodelan pada jaringan syaraf tiruan adalah mencari bobot yang paling baik yaitu bobot yang menghasilkan error paling kecil seperti yang diharapkan dalam target error pada saat inisialiasasi. Lampiran 10 merupakan boboi yang paling baik yang dihasilkan saat pemodelan merujuk pada hasil akurasi di atas. Bobot yang dihasilkan pada rahapan pemodelan akan digunakan sebagai bobot sistem deteksi kecurangan. Proses deteksi membutuhkan waktu jauh lebih cepat dibanding saat pemodelan. Sehingga dengan jumlah data yang mencapai puluhan ribu dalam hitungan detik dapat terselesaikan. Sistem prototipe yang dibangun dengan prinsip user friendly yang hanya membutuhkan operasi buka file data yang akan diuji klasifikasi dan proses klasifikasi. Sebagai tambahan dibuat menu laporan untuk melihat dan mencetak hasil k1asifikasi.Tampilan Prograa Klasifikasi dapat dilihat pada Gambar 6.9
Gambar 6.9 Tampilan Program Klasifikasi Penjelasan lengkap mengenai sistem deteksi kecurangan telekomunikasi dibuat secara terpisah dalam sebuah dokumentasi sistem. Dokumentasi Sistem Deteksi Kecurangan Telekomunikasi merupakan manual dari sistem yang dibangun berisi tentang sistem dan lingkungannya. Selain itu cara instalasi juga dibahas dengan seksama untuk memudahkan pengguna melakukan instalasi sistem. Sebagai pelengkap dicantumkan listing progrartz bagi yang berminat dalam pembuatan program.
6.3.4 Vatidasi dan Verifikasi Verifikasi terhadap model yang dibuat dilakukan dengan menjalankan Program Klasifikasi untuk melakukan deteksi kecurangan. Program Klasifikasi dapat melakukan klasifikasi perilaku pelanggan dengan baik. Data perilaku
panggilan pelanggan yang dihasilkan oleh Program Profiling digunakan oleh Program Klasifikasi untuk melakukan deteksi kecurangan teiekomunikasi jenis bad debt. Hasil klasifikasi tersimpan dalam database selnentara yang dapat disimpan 0
atau dicetak sesuai keinginan pengguna.
Validasi dilakukan untuk melihat apakah model yang dibangun dapat mefakukan klasifikasi dengan akurasi yang baik. Dengan menggunakan parameter yang ada seperti jumlah hidden layer sebanyak 5 node, learning rate sebesar 0.8, rnomenttrm sebesar 0.8, dan gain 0.8. Data yang digunakan untuk validasi terhadap akurasi model yang dirancang sebanyak, yaitu sebanyak 10.040 baris data dengan perincian 13.931 (99,3%) data adalah pelanggan normal dan data yang masuk dalam kelas curang sebanyak 69 (0,7%). Dari proses validasi menggunakan Program Klasifikasi diperoleh akurasi sebesar 95,2%. Gambar 6.10 menunjukkan akurasi dari masing-masing tahapan pemodelan dimana akurasi semakin menurun dari training, testing, dan validasi.
I training
testing
Jenls Data
validasi
Gambar 6.10 Uji Model Klasifikasi IST Tabel 6.17 merupakan tabel hasil klasifikasi Program Klasifikasi yang dideteksi sebagai nomor pelanggan curang.
62
Tabel 6.17 Rincian Jumlah Pelaku Kecurangan
6.4
Implikasi Manajemen Hasil penelitian ini apabila diimplementasikan untuk mendeteksi kecurngan
jenis bad debt pada perusahaan PT. X tentunya akan ir~embawakonsekuensi. Implikasi pertalna adalah dari sisi keuangan perusahaan, kedua implikasi pada bidang teknik dan operasional dan yang ketiga adalah dari sisi pengambilan keputusan. Di bawah ini akan disampaikan penjelasan dari masing-masing implikasi tersebut : a. Implikasi Keuangan Perusahaan Dari sisi keuangan tentunya implementasi sistem ini metnbutuh!can ongkos yang tidak sedikit. Terutama dari sisi hardware untuk menampung data panggilan dan pembuatan user profile dan deteksinya. Mesin pengolah dan penyimpan data dirancang untuk kebutuhan on line dengan MSC dan bagian pemasaran (data pelanggan) dan bagian billing (tagihan). Biaya yang dikeluarkan untuk implementasi bila dibandingkan dengan keuntungan yang didapatkan sangat sebanding. Bahkan dengan akurasi mencapai 98,8% maka langkah pencegahan terhadap tindakan kecurangan yang berimplikasi pada kerugian perusahaan dapat dikurangi. Dalam jangka panjang tentunya akan dapat meningkatkan keuntungan perusahaan. b. Implikasi di Bidang Teknik dan Operasional Dengan adanya implementasi sistem deteksi kecurangan maka langkah manual untuk mengamati perilaku pelanggan sudah tidak diperlukan. Selain menghabiskan waktu seringkali lambat dan berpotensi terjadi kesalahan akibat faktor kelalaien manusia. Sistem aplikasi deteksi kecurangan jenis bad debt akan membuat deteksi dilakukan lebih cepat, hernat, dan akurat. Yang diperlukan sebagai tambahan adalah petugas untuk mengelola sistem. Selain itu pejabat yang berwenang untuk mengambil tindakan terhadap hasil yang dikeluarkan oleh Sistem Deteksi Kecurangan. c. Implikasi Pengambilan Keputusan. Implementasi sistem ini membawa implikasi terhadap proses pengambilan keputusan. Agar hasil deteksi kecurangan dapat digunakan sebagai dasar
pertimbangan dalam rnelakukan tindakan terhadap pelanggan maka pihak-pihak yang berkepentingan harus duduk bersama. Kewenangan untuk menghentikan pelayanan kepada pelanggan sebaiknya diberikan kepada bagian fraud dar, perforrnansi. Dengan demikian langkah pencegahan akan lebih cepar dilakukan.
%A%VII. KESIMPULAN DAN SARAN
7.1 Kesimpulan Berdasarkan hasi! pengolahan dan analisa yang telah dilakukan, penelitian ini dapat disimpulkan sebagai berikut : 1. User proJiling sangat penting untuk mengetahui karakteristik perilaku pelanggan telepon. Karakterisitik perilaku pelanggan telepon adalah : a. tidak melakukan panggilan internasional, b. tidak melakukan panggilan interlokal pada ketagori waktu jam senggang dan jam istirahat. c. Lebih banyak pelanggan yang melakukan panggilan lokal pada ketagori waktu jam senggang dibanding pada waktu kategori waktu jam kerja.
d. Rata-rata jumlah panggilan lokal pada kategori waktu jam kerja berkisar antara 0,87- 2,78 kali, pada kategori waktu jam senggang berkisar antara 1,29-5,41 kali, dan pada kategori waktu jam istirahat berkisar antara O2,07 kali, e. Rata-rata jumlah panggilan interlokal pada kategori waktu jam kerja adalah 1,67- 4,28 kali,
f. Pada kategori hari libur, rata-rata durasi panggilan lokal pada kategori waktu jam kecja berkisar antara 497
-
1729 unit, pada kategori waktu
jam senggang berkisar antara 867 - 2285 unit, dan pada kategori waktu jam istirahat berkisar antara 759 - 1874 unit, g. Pada kategori hari kerja, rata-rata durasi panggilan lokal pada kategori waktu jam kerja berkisar antara 469 - 3787 unit, pada kategori waktu jam senggang berkisar antara 1846 - 41 ISunit, dan pada kategori waktu jam istirahat berkisar antara 1353 - 1737 unit,
h. Pada kategori hari libur, rata-rata durasi panggilan interlokal pada kategori waktu jam kerja berkisar antara 1676 - 4649,
i. Pada kategori hari kerja, rata-rata durasi panggilan interlokal pada kategori waktu jam kerja berkisar antara 3013 - 4184 unit.
2. Dari uji ANOVA pada analisis gerombol terdapat perbedaan yang signifikan antara dua kelompok yang terbentuk yaitu perbedaan dalam variabel Status-P (status pelanggan) (0,000<0,05), Call02 (panggilan interlokal) (0,000<0,05), dan Dur02 (durasi panggilan interlokal) (0,00U<0,05). Sedangkan untuk variabel variabel Call01 (panggilan lokal) dan DurOl (durasi panggilan lokal) tidak terdapat perbedaan yang signifikan (Sig.>O,OS). 3. Metode data mining (proses profiling dan klasifikasi) sangat baik digunakan
untuk melakukan deteksi kecurangan telekomunikasi kl~ususnyajenis bad
debt. 4. Jumlah node hidden layer, jumlah epoch, dan learning rate tidak mempengaruhi secara signifikan akurasi klasifikasi apabiia jumlah data trainingnya mencukupi. Berlaku keba!ikan apabilz data training terlalu sedikit.
5. Klasifikasi dengan teknik BPNN memiliki tingkat akurasi yang sangat tinggi yaitu mencapai 98,8%.
6. Klasifikasi merupakan langkah penting terutama untuk mengenali perilaku pengguna dan untuk mengambil keputusan terhadap perilaku pengguna.
7. Teknik backpropagation naeural nefwork dapat diandalkan untuk menjadi model deteksi kecurangan telekomunikasi khususnya jenis kecurangan bad
debt. 7.2 Saran Beberapa saran yang dapat dirumuskan adalah sebagai berikut : 1. Hasil penelitian ini dapat juga dimanfaatkan sebagai deteksi dini terhadap kecurangan phone theft dan cloning.
2. Agar dilanjutkan penelitian ini agar sistem yang dibangun menjadi lebih komprehensif untuk mendeteksi kecurangan telekomunikasi,
3. Penelitian selanjutnya bisa memperpendek waktu deteksi sehingga akan diketahui tindakan pelaku kecurangan sedini mungkin,
4. Penelitian selanjutnya dapat membandingkan keakuratan BPNN dengan metode yang lain,
5. Penelitian ini dapat dikembangkan untuk penaeteksian secara on line.
DAFTAR PUSTAKA
Barson, P., S. Field, N. Dave?, G. McAskie, and R. Frank. 1996. The'Detection of Fraud in Mobile Phone Networks. Nez(ralNetwork World, 6(4):477-484. Berson, A., S. Smith and K.Thearling. 2000. Building Data Mining Application for CRM. New York : Mc Graw-Hill. Bhargava, B., Y. Zhong, Y. Lu. 2003. Fraud Formalization and Detection. w.cs.purdue.edu/homes/zhong/papers/fraud.pdf. Burge, P., J. Shawe-Taylor, Y. Moreau, H. Verrelst, C. Stoermann, P.Gosset. 1997. BRUTUS - A Hybrid Detection Tool. Fawcet, T., dan F.J. Provost. 1997. Adaptive Fraud Detection. Journal of Data Mining and Knowledge Discovety 1 (3):291-316. Kou, Y., C. Lu, S. Sirwongwattana, Y. Huang. 2002. Survey of fraud Detection Techniques. htto://eurova.nvc.cs.vt.edu/-ctlu/PublicatiodICNSC-O4-KLSH.pdf. Kusumadewi, S. 2004. Membangun Jaringan Syaraf Tiruan Menggunakan Matlab dun ExcelLink. Yogyakarta: Graha Ilmu. Maes, S., K. Tuyls, B. Vanschoewinkel, B. Manderick. 2000. Credit Card Fraud Detection Using Bayesian and Neural Network. Mitra, Sushmita, Pal S.K,, Mitra P. 2001. Data Mining in Soft Computing Framework: A Survey. Moreau, Y., H. Verrelst, J. Vandewalle. 1997. Detection of mobile phone fraud using supervised neural networks: A first prototipe. International Conference on ArtiJicial Neural Networks Proceedings(ICANN'97), 1065-1070. Rosset S., Murad U., Neumann E., Idan Y, Pinkas G., 1999. Discovery of Fraud Rules for Telecommunications Challenges and Solutions. ACM,l-58 113-143. Rudiyanto and B.I. Setiawan. 2005. Estimation of Soil Hydraulic Properties From Particle Size Distribution Using Artificial Neural Network. Jwrnal Keteknikan Pertanian, 19(2): 127-138. Taniguchi, M., M. Haft, J. Hollm&n, V. Tresp. 1998. Fraud detection in Communications Networks Using Neural and Probabilistic Methods. Proceedings of the 1998 IEEE international Conference on Acoustics, Speech and Signal Processing (ICASSP '98), 2:1241-1244. Shawe-Taylor, J., K. Howker, P. Burge. 1999. Detection of Fraud in Mobile Telecomn~unications.Infortnation Security Technical Report 4(1): 16-28.
Lainpiran I. Cara Perolehan Dan Pengolahan Data
No Langkah Mencari data ke X Mengolah 'leaning selection
Cara Pengolahan
Teknik Analisa
Sumber Data
Tipe
Pmsedur Pelaksanaan Kerja
Waktu Felaksanaan
Meminta data histori panggilan kurun waktu 6 bukan untuk 10 orang pelanggan
KDD
Data panggilan
Data primer
Melakukan pemilahan data
Pengumpulan data minggu ke-I
Proses terhadap database panggilan untuk mendapatkan data-data yang diinginkan (data cleansing dan data selecting)
Minggu ke I1
Menguji sistern
Minggu ke Ill-IV
Dilakukan secara sengaja, data . jumlah data yang diambil dan berdasaar kelengkapan data
KDD
Data panggilan
--
3
Training
Melakukan pelatihan sistem deteksi kecurangan
4
Testing
Mangukur akurasi
Melakukan pengujinn sistcm dcteksi kectll.angan Menghitung kesalahan output dibanding dengan julnlah input
Data Mining dengan teknik NN dan BN Data Mining dengan teknik NN dan BN ROC
primer Data Data primer
Data panggilan
Data primcr
Data panggilan
Data hasil
Hasil
Menggunakan data testing
Minggu ke V
Menukur dengan teknik ROC
Minggu ke VI
0
Lampiran 2. Format CDR (Charging Data record)
c
70
Lampiran 3. Nilai Kolom CDR (Charging Data record) yang perlu diketahui
5 6
Called Party Answer Date & Time Called Duration
Apabila berisi nilai 99 = pelanggan pre paid Waktu panggilan dilakukan dengan format YYYYlMMlDD hhlmmlss1100ms Durasi panggilan yang dihitung tiap kelipatan 100ms (1 unit
Lampiran 4. Diagram AIir Sistem
(7 MULAl
.Load File Panggilan MSC-???yyyymmdd-hhn1m.hhmm ssms Hapus Kolom
C
i.
Convert Kolom Answerdate varchar ke datetime Add kolom tagihan type data money Isi kolom tagihan Tagihan = durasi * biaya panggilan (zona panggilan)
Pilih Rows yang sama A-Nun, Kumpulkan dalam table temporary
Tabel Status Pelanggan
Pisashkan berdsarkan panggilan local, interlokal, dan intemasional
Total Tagihan, Total Durasi
I
Simpan ke table Perilaku Pelanggan A, B, c
I
Tambahkan kolom status
c Eksport table ke
I
Deteksi dengan NN
I Panmilan
n hasil
0 SELESAI
Larnpiran 5. Flow Chart Pilih Pelanggan Post Paid
Row = 1
L F
C
4
7
Baca File MSC-???yyyymmdd-hhrnmm
N
A-Num .Panggilan= A-Num. Status
DB
4
Panggilan '--- /'
Baca Nomor pelanggirn A-Nurn dari Tabel Status Pelanggan
Hapus isi tabel temporary dan Simpan hasil select di tabel Temporary
Tabel Status Pelanggan Post Paid
Pisahkan Panggilan jenis Lokal, interlokal, & internasional (berdasarkan CallReleaseType)
Simpan ke table Perilaku Pelanggan A, B, C Rows = Rows + l
t CY
(SELESAI]
Lampiran 6. Flow chart Geteksi Fraud dengan Jaringan Syaraf Tiruan
Baca File Pelanggan A, B, C Per rows
I
4
I I
Deteksi dengan Neural Network
+ Simpan hasil Deteksi
L (3 Tampilkan Hasil
SELESAI
Lampiran 7. Tahap Perkembangan Penelitian Deteksi Kecurangan
and Probabilistic methode
5
1999
Hollm'en. J. and V. Tresp
6
1999
Hollm'en, J., V. Tresp, and 0. Simda
7
2000
Hollm'en, J. and V. Tresp
8
2000
Hollm'en, J., V. Tresp, and 0. Simula
Cali-based fraud detection in mobile communication nehvorks using a hierarchical regimeswitching model A self-organizing map SOM NN for clustering probabilistic models Hiden Markov A hidden markov model for metric and event-based data LVQ NN A learning vector quantization algorithm for probabilistic models.
system deteksi kecurangan, kombinasi dari ketiga metode dapat menguntungkan. Penggabungan dengan rule based system mungkin akan meningkaUtan system
Lampiran 8. Data Pelatihan Jaringan Syaraf Tiruan (BPM\I)
Lampiran 9. Data Pengujian Jaringan Syaraf Tiruan (BPNN)
Lampiran 10. Bobot JST yang digunakan oleh model Klasifikasi