PEMETAAN KECELAKAAN LALU LINTAS BERBASIS KLASIFIKASI NAIVE BAYES DENGAN PARAMETER INFRASTRUKTUR JALAN Wawan Yunanto1,2) Mochamad Hariadi 1) Mauridhi Hery Purnomo 1) 1) Jurusan Teknik Elektro ITS, Surabaya 60111, email:
[email protected],
[email protected] 2) Jurusan Komputer, Politeknik Caltex Riau, email: wa w a n @ p c r . a c . i d
Abstrak – Keadaan infrastruktur jalan sangat mempengaruhi tingkat kecelakaan lalu lintas, namun sulit untuk dicari seberapa besar pengaruh tersebut secara manual karena ribuan data kecelakaan muncul setiap tahunnya. Metode komputasi memberikan kemudahan dalam mengestrak informasi dari sekumpulan data yang besar sehingga informasi-informasi tersembunyi yang terkandung di dalamnya bisa didapatkan. Metode Naive Bayes digunakan untuk klasifikasi data-data kecelakaan lalu lintas secara cerdas dan hasilnya digunakan untuk melakukan prediksi tingkat kecelakaan pada berbagai macam infrastruktur jalan. Akurasi dari prediksi yang dilakukan paling rendah adalah 28.37%, yaitu pada infrastruktur jalan berupa simpang dan yang paling tinggi adalah 78.04% pada infrastruktur jalan berupa arus lalu lintas. Hasil prediksi ini kemudian dibandingkan dengan metode klasifikasi lain yang umum digunakan, yaitu Decision Tree dan SVM. Kata Kunci: kecelakaan lalu lintas, klasifikasi, naive bayes, infrastruktur jalan 1. PENDAHULUAN Badan Pusat Statistik [1] mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih cukup tinggi seiring dengan pertumbuhan jumlah kendaraan bermotor yang sangat pesat. Kecelakaan melibatkan berbagai jenis kendaraan bermotor, terjadi di berbagai jenis jalan, dan melibatkan pelaku/korban dari berbagai usia. Angka kecelakaan yang terus meningkat membuat semua pihak merasa perlu untuk dilakukan langkah-langkah pencegahan. Supaya kebijakan yang dihasilkan relevan dengan permasalahan yang dihadapi dalam upaya menurunkan angka kecelakaan, maka kebijakan tersebut harus didukung dengan informasi-informasi yang berasal dari data-data kecelakaan yang selama ini sudah terjadi. Kepolisian Republik Indonesia memiliki data-data kecelakaan lalu lintas hasil dari pencatatan setiap peristiwa kecelakaan yang terjadi. Data-data tersebut perlu dikelola dalam suatu basis data untuk memudahkan proses penggalian informasi-informasi yang ada didalamnya. Agar lebih mudah dipahami maka informasi yang didapatkan dikelola
menggunakan suatu metode komputasi data mining yang membuat data-data kecelakaan menjadi sumber untuk suatu model yang bisa digunakan untuk memprediksi suatu kejadian. Proses penggalian informasi bisa dilakukan dengan berbagai cara, salah satunya adalah dengan melakukan klasifikasi data-data kecelakaan berdasarkan parameter tertentu. Dengan mengklasifikasikan data maka proses pencarian data menjadi lebih mudah dan cepat karena data sudah terkelompokan ke dalam kelas-kelas tertentu. Klasifikasi bisa dilakukan secara manual dengan menentukan parameter-parameter beserta nilainya masing-masing atau dilakukan secara otomatis dengan menggunakan metode-metode data mining. Berdasarkan kebutuhan akan pencarian informasi tentang kecelakaan yang melibatkan beberapa kriteria yang tidak bisa ditentukan sebelumnya, maka penggunakan metode data mining merupakan solusi yang layak untuk diajukan. Penelitian ini mengusulkan penggunaan Naive Bayes untuk klasifikasi data-data kecelakaan lalu lintas di Indonesia yang sepanjang penelusuran penulis belum pernah dilakukan sebelumnya. Klasifikasi dilakukan berdasarkan keadaan infrastruktur jalan dan hasilnya diharapkan bisa digunakan untuk memprediksi tingkat kecelakaan lalu lintas. 2. METODE NAIVE BAYES Bayesian merupakan sebuah metode dalam bidang probabilitas dan statistik, yang dinamai sesuai dengan penemunya, yaitu Thomas Bayes. Metode ini berawal dari teori probabilitas dan ditambah dengan kemampuan untuk menangani suatu ketidakpastian yang memang sering terjadi di kehidupan [2]. Teorema Bayes dinotasikan seperti pada Persamaan (1).
P( A | B)
P ( B | A) P ( A) P( B)
(1)
Teorema Bayes merupakan suatu metode untuk memperbaharui tingkat kepercayaan kita terhadap kemungkinan terjadinya peristiwa A yang dipengaruhi oleh peritiwa yang lain, misal B. Dalam hal ini, P(A) biasanya disebut dengan prior
probability dari A, P(A|B) disebut posterior probability dari A yang dipengaruhi B, sementara P(B|A) disebut likelihood dari A yang dipengaruhi B. Menurut [3], probabilitas bersyarat memberikan gambaran bahwa suatu kejadian itu bisa dipengaruhi oleh kejadian yang lain, dan kejadian yang mempengaruhi tersebut bisa juga dipengaruhi oleh kejadian yang lain lagi. Jika hal itu berlaku terus menerus, maka akan didapatkan rangkaian peristiwa yang saling terkait dan memiliki hubungan sebabakibat. Peristiwa A menyebabkan terjadinya peristiwa B, peristiwa B menyebakan terjadinya peristiwa C, begitu seterusnya. Hal ini menggambarkan kenyataan yang terjadi di dunia nyata, banyak sekali peristiwa yang merupakan kejadian sebab-akibat (causality). Masalah seperti di atas menggambarkan suatu kumpulan peristiwa beserta statusnya masing-masing dimana peristiwa satu menyebabkan terjadinya peristiwa yang lain, begitu terus-menerus secara berantai membentuk suatu rangkaian peristiwa, dan disebut sebagai jaring sebab-akibat (causal network). Dalam suatu graf, jika A parent dari B maka bobot link antara A dan B diambil dari nilai P(B|A). Sekarang jika ada C yang ternyata juga parent dari B maka P(B|C) juga menjadi bobot dari link antara C dan B. Jadi ada 2 kejadian (A dan C) yang mempengaruhi B, tetapi kita tidak mengetahui bagaimana pengaruh A ke B berinteraksi dengan pengaruh C ke B. Bisa saja 2 pengaruh tersebut saling menguatkan, tetapi bisa juga saling berlawanan. Oleh karena itu diperlukan penghitungan P(A|A,C), tetapi hal ini hanya bisa dilakukan apabila dalam graf-nya tidak terdapat siklus. Sebuah jaring sebab-akibat yang dihadirkan dalam bentuk graf berarah tanpa siklus disebut dengan Bayesian Network (BN), yang memodelkan probabilitas hubungan antar variabel, bisa dipadukan dengan teknik-teknik statistik dan sangat berguna untuk analisa data [4]. Naive Bayes merupakan model yang sangat sederhana sehingga memberikan keuntungan yang sangat signifikan dibandingkan dengan model sebabakibat atau BN. Kesederhanaan tersebut bisa dinotasikan dengan Persamaan (2).
spam berbasis metaheuristic. Referensi [6] melakukan perbaikan klasifikasi teks menggunakan Naive Bayes. Masalah transportasi yang pernah diteliti menggunakan metode Bayesian antara lain tentang pemodelan informasi lalu lintas [7].
P( A1,..., An | C ) P( Ai | C )
Gambar 1: Desain Sistem Prediksi Kecelakaan Lalu Lintas
(2)
i
Hal ini menunjukan bahwa parameter yang dibutuhkan jauh lebih sedikit daripada BN, yang berarti data yang dievaluasi menjadi lebih sedikit sehingga Naive Bayes bisa mempelajari data dengan lebih cepat dibandingkan model lain. Naive Bayes banyak digunakan dalam penelitian yang behubungan dengan proses klasifikasi, prediksi, dan deteksi. Referensi [5] menggunakan Naive Bayes untuk ¬anti-spam filtering dan hal ini merupakan awal dari perkembangan teknologi anti-
3. DESAIN SISTEM Desain sistem bisa dilihat pada Gambar 1, terdiri dari 3 bagian yaitu bagian penyimpanan data, bagian klasifikasi data dan bagian prediksi kecelakaan lalu lintas. Data kecelakaan lalu lintas disimpan dalam aplikasi basis data Oracle Database. Proses klasifikasi data dilakukan menggunakan Oracle Data Miner yang dihubungkan dengan Oracle Database. Klasifikasi dilakukan untuk mengelompokan datadata kecelakaan sesuai dengan kelasnya masingmasing berdasarkan parameter tertentu, yaitu infrastruktur jalan.
Oracle Database
Naive Bayes Classifier
Data Exploration Data Transformation Data Classification
Prediksi Kecelakaan Lalu Lintas Berdasarkan Infrastruktur Jalan
Detail dari proses-proses yang dilakukan mulai dari ekstraksi sumber data sampai bisa diperoleh hasil prediksi kecelakaan lalu lintas dihadirkan dalam bentuk diagram alir pada Gambar 2. 3.1. Eksplorasi dan Transformasi Data Sumber Sumber data kecelakaan lalu lintas yang digunakan berbentuk dump file sehingga harus diekstrak terlebih dahulu sebelum diolah. Ekstraksi dilakukan dengan fasilitas import yang dimiliki Oracle Database. Oracle Database mengharuskan setiap data berada dalam skema salah satu usernya
sehingga dump file yang sudah diekstrak akan menjadi milik salah satu user di Oracle. Setelah proses ekstraksi, data siap untuk diolah, baik secara manual menggunakan bahasa pemrograman SQL [8] atau menggunakan aplikasi-aplikasi client tools yang dihubungkan dengan Oracle Database. Dalam penelitian ini digunakan client tool Oracle Developer 3.0 untuk melakukan eksplorasi dan transformasi data sumber yang sudah diekstrak sebelumnya.
START
Ekstraksi Data Sumber
Query Join untuk membuat tabel baru sebagai penampung hasil ekstraksi
Transformasi data sumber
Tabel baru dengan data bebas noise
Klasifikasi data dengan metode Naïve Bayes
Data hasil klasifikasi untuk prediksi
STOP
Gambar 2: Diagram Alir Sistem Prediksi Kecelakaan
Data hasil ekstraksi berupa kumpulan tabel berjumlah 284 yang mencakup data-data kecelakaan lengkap dengan informasi yang berhubungan dengan infrastruktur jalan, pengemudi, keadaan cuaca, dan lain-lain. Dalam penelitian ini, prediksi dilakukan dengan melihat korelasi antara kecelakaan yang terjadi dengan kondisi infrastruktur jalan dimana kecelakaan itu terjadi. Informasi kecelakaan tercatat dalam tabel T_LP yang berisi laporan dari masyarakat, polisi, ataupun pihak lain. Tabel ini tidak menampung semua informasi kecelakaan tetapi membagi informasi tersebut ke dalam beberapa tabel lain sesuai dengan kaidah normalisasi untuk keperluan pembuatan aplikasi. Sedangkan untuk keperluan prediksi kecelakaan menggunakan Naive Bayes diperlukan sebuah sumber data yang menyatu dalam format tertentu, misalnya tabel, untuk kemudian diklasifikasi berdasarkan target tertentu. Transformasi data diperlukan untuk menyatukan
sumber-sumber data dari banyak tabel menjadi 1 tabel saja. Transformasi dilakukan menggunakan query join dan hasilnya langsung di-insert ke dalam tabel baru yang diberi nama LAKA seperti yang terlihat pada Gambar 3. Tidak semua informasi dilibatkan, hanya data-data yang berhubungan dengan infrastruktur jalan saja. create table LAKA as select lp.id, lp.bln, lp.thnlp, lp.waktu_kejadian, lp.waktu_dilaporkan, lp.waktu_diterima, t_polres.nama polres, t_polda.nama polda, jl1 jalan, kel, kec, berita, jasmani, t_jenislaka.nama jenis, t_gollaka.nama gol, t_statusjalan.nama statusjalan, t_kelasjalan.nama kelasjalan, t_tabraklari.nama tabraklari, t_keadaan.nama keadaan, t_waktu.nama waktu, t_penyebab.nama penyebab, t_kendaraan.nama kendaraan, t_jalan.nama jenisjalan, . . . t_lingkungan.nama lingkungan from t_lp lp, t_polda, t_polres, t_jenislaka, t_gollaka, t_statusjalan, t_kelasjalan, t_tabraklari, t_keadaan, t_waktu, t_penyebab, t_kendaraan, t_jalan, t_alam, t_it, t_alinyemen, t_jumlahlajur, t_pagarpengaman, t_penerangan, t_konstruksi, t_kualitas, t_permukaan, t_situasi, t_perbaikan, t_simpang, t_pengaturan, t_aruslantas, t_bataskec, t_cuaca, t_lokasi, t_lingkungan where lp.id_polda = t_polda.id and lp.id_polres = t_polres.id and lp.jenislaka = t_jenislaka.id and lp.gollaka = t_gollaka.id and lp.statusjalan = t_statusjalan.id and lp.kelasjalan = t_kelasjalan.id . . . and lp.lokasi = t_lokasi.id and lp.lingkungan = t_lingkungan.id;
Gambar 3: Query Join
Tabel-tabel dieksplorasi untuk mencari informasi yang selektif, sesuai dengan kebutuhan. Banyak dari tabel tersebut yang merupakan hasil rekapitulasi dari tabel lain sehingga bisa dikesampingkan. Informasiinformasi lain yang tidak berhubungan dengan infrastruktur jalan dan tidak berkaitan langsung dengan kecelakaan lalu lintas (misal: user, polres, polsek) juga dikesampingkan. Dari proses eksplorasi juga diketahui bahwa beberapa tabel ternyata belum terisi data sama sekali, kemungkinan karena belum ada kecelakaan yang berkaitan dengan data ini atau operator aplikasi
memang belum menginputkannya. Tabel yang seperti ini juga dikesampingkan. Setelah diseleksi, terdapat 31 tabel yang harus dijoinkan sehingga menjadi 1 tabel untuk proses klasifikasi. Sebelum dilakukan proses klasifikasi, tabel LAKA harus dibersihkan terlebih dahulu dulu dari data-data yang redundant, data-data yang kemungkinan memiliki nilai sama tetapi dituliskan dalam bentuk yang berbeda. Beberapa data masih belum ada standarisasi format, misal: laporan kecelakaan yang berasal dari masyarakata kadang ditulis “laporan masyarakat” atau “laporan masy” atau “lap masyarakat”, ketiga data tersebut memiliki nilai sama sehingga harus ditransformasikan ke bentuk yang konsisten, misal dengan mengganti semuanya menjadi “laporan masyarakat”. Data-data redundant bisa diamati dengan melihat histogram dari data-data seperti pada Gambar 4. Langkah yang sama dilakukan untuk kolom-kolom di tabel LAKA sampai semua data dalam keadaan bersih dari redundancy.
Gambar 4: Histogram Data Jenis Jalan
3.2. Klasifikasi Data Klasifikasi dilakukan pada data yang sudah bersih dari redundancy sehingga menghasilkan prediksi yang akurat. Aplikasi Oracle Data Miner yang integrasikan ke dalam Oracle SQL Developer digunakan untuk mengklasifikasikan data kecelakaan berdasarkan infrastruktur jalan. Workflow digunakan untuk menggambarkan aliran data mulai dari data sumber sampai dengan hasil prediksi, seperti pada Gambar 5. Setiap node dalam proses flow mempunyai fungsi masing-masing. Node LAKA digunakan menunjuk sumber data dari proses yang akan dilakukan, yaitu tabel LAKA yang sudah bersih. Untuk memastikan kebersihan sumber data, bisa dilakukan evaluasi kembali menggunakan node Explore Data. Metode klasifikasi Naive Bayes dilakukan pada node Class Build, dengan menggunakan sumber data dari node LAKA, setelah itu data hasil klasifikasi ditampung untuk keperluan pembuatan aplikasi dalam node LAKA_APPLY. Data diambil dari laporan kecelakaan lalu lintas di bulan Juli 2009 sampai bulan Desember 2010, dengan jumlah 18.374 baris data. Klasifikasi Naive Bayes dilakukan dengan membagi data menjadi 60% untuk data latih dan 40% sisanya sebagai data uji. Target yang menjadi acuan dalam melalukan klasifikasi adalah hal-hal yang berhubungan dengan infrastruktur jalan berdasarkan sumber data, meliputi: status jalan,
kelas jalan, keadaan jalan, jenis jalan, profil jalan, jumlah lajur, pagar pengaman, penerangan, konstruksi, kualitas, permukaan, situasi, perbaikan, simpang, pengaturan, arus lantas, batas kecepatan, lokasi, dan lingkungan di sekitar jalan.
Gambar 5: Proses Flow
Klasifikasi dilakukan satu persatu sampai semua target yang berhubungan dengan infrastruktur jalan selesai diproses. Pemilihan target dilakukan di node Class Build, sekaligus pembagian porsi data untuk data latih dan data uji. Hasil dari setiap target dicatat prosentase akurasinya. 3.3. Prediksi kecelakaan Lalu Lintas Data hasil klasifikasi membentuk suatu pengelompokan data berdasarkan target masingmasing. Setelah model terbentuk, selanjutnya adalah melakukan pengujian terhadap model tersebut menggunakan 40% data uji yang sudah disiapkan. Hasilnya dicatat untuk setiap target berupa infrastruktur jalan, kemudian hasilnya dianalisa untuk melihat tingkat akurasi prediksi kecelakaan berdasarkan infrastruktur jalan. Tabel 1 menunjukkan hasil prediksi berdasarkan profil jalan, meliputi jumlah kasus untuk setiap nilai profil jalan beserta prediksi benarnya. Hal ini dilakukan untuk setiap target klasifikasi yang termasuk dalam kategori infrastruktur jalan. Hasil prediksi juga dihadirkan dalam bentuk grafik, untuk profil jalan bisa dilihat pada Gambar 6. Tabel 1. Hasil prediksi kecelakaan berdasarkan profil jalan Profil Jalan Lurus Datar
Total Case Count
Correct Prediction (%)
6,192
60.11
Lurus Naik/Turun
339
37.46
Tikungan Datar
528
22.34
Tikungan Naik/Turun
228
57.02
Seluruh hasil prediksi benar dirata-rata berdasarkan target masing-masing dan dihadirkan dalam bentuk grafik. Hal ini untuk memudahkan dalam membandingkan antara target satu dengan lainnya, tetapi untuk mengevaluasi setiap nilai dari target tertentu akan lebih baik jika menggunakan hasil detail seperti sebelumnya. Rata-rata hasil prediksi benar bisa
dilihat pada Tabel 2, sedangkan grafiknya bisa dilihat pada gambar 7.
digunakan untuk kasus-kasus semacam ini. Metodemetode tersebut diimplementasikan dengan tools yang sama dan data yang sama dengan sebelumnya sehingga menjaga tingkat kepercayaan akan hasil yang diperoleh. Metode-metode yang digunakan sebagai pembanding Naive Bayes pada penelitian ini merupakan 2 metode supervised learning, yaitu: Support Vector Machine (SVM) dan Decision Tree (DT) [9]. Sama seperti Naive Bayes, SVM dan DT diukur tingkat akurasinya kemudian hasil dari ketiga metode tersebut dihadirkan dalam Tabel 3. Tabel 3 . Tingkat akurasi NB, SVM, dan DT No . 1
Gambar 6: Prediksi berdasarkan profil jalan Tabel 2 . Hasil prediksi rata-rata berdasarkan infrastruktur jalan No.
Classification Target
Average Correct Prediction (%)
1
Status Jalan
49.64
2
Kelas Jalan
58.67
3
Keadaan Jalan
50.00
4
Jenis Jalan
46.75
5
Profil Jalan
44.23
6
Jumlah Lajur
46.51
7
Pagar Pengaman
73.38
8
Penerangan
53.60
9
Konstruksi Jalan
56.73
10
Kualitas Jalan
54.92
11
Permukaan Jalan
35.89
12
Situasi Jalan
13
Classification Target Status Jalan
NB (%) 49.64
SVM (%) 36.52
DT (%) 53.82
2
Kelas Jalan
58.67
50.66
63.13
3
Keadaan Jalan
50.00
67.18
61.96
4
Jenis Jalan
46.75
31.73
42.01
5
Profil Jalan
44.23
34.27
41.59
6
Jumlah Lajur
46.51
40.23
51.10
7
Pagar Pengaman
73.38
75.45
73.59
8
Penerangan
53.60
48.41
54.62
9
Konstruksi Jalan
56.73
46.92
49.23
10
Kualitas Jalan
54.92
51.20
53.27
11
Permukaan Jalan
35.89
30.19
24.84
12
Situasi Jalan
43.85
37.66
29.92
13
Perbaikan Jalan
60.39
60.62
61.92
14
Simpang
29.37
23.00
27.98
15
Pengaturan Jalan
41.47
31.60
36.31
16
Arus Lantas
78.04
79.47
78.66
17
Batas Kecepatan
38.98
21.56
37.42
43.85
18
Lokasi
75.82
81.03
78.70
Perbaikan Jalan
60.39
19
Lingkungan
31.45
19.50
31.76
14
Simpang
29.37
15
Pengaturan Jalan
41.47
16
Arus Lantas
78.04
17
Batas Kecepatan
38.98
18
Lokasi
75.82
19
Lingkungan
31.45
4. HASIL DAN PEMBAHASAN Prediksi yang dilakukan dengan menggunakan metode Naive Bayes ini mempunyai tingkat akurasi yang diambilkan dari tingkat prediksi benar untuk setiap nilai dari target. Hasil ini akan dibandingkan dengan metode-metode klasifikasi lain yang juga sering
Hasil pengujian menunjukan bahwa Naive Bayes tidak selalu memberikan hasil terbaik, begitu juga dengan SVM maupun Decision Tree. Masing-masing metode mempunyai keunggulan dan kekurangan dalam melakukan prediksi. Untuk melihat pola dari targettarget mana saja yang memberikan keuntungan pada suatu metode tertentu, dilakukan perbandingan pada ketiga metode tersebut. Gambar 7 menunjukan hasil perbandingan ketiga metode, dengan Naive Bayes unggul di 9 target infrastruktur jalan, yaitu: jenis jalan, profil jalan, konstruksi jalan, kualitas jalan, permukaan jalan, situasi jalan, simpang, pengaturan jalan, dan batas kecepatan.
Gambar 7: Perbandingan tingkat akurasi NB, SVM, dan DT
SVM unggul di 4 target, yaitu: keadaan jalan, pagar pengaman, arus lalu lintas, dan lokasi. Sementara itu, DT unggul di 6 target, yaitu: status jalan, kelas jalan, jumlah lajur, penerangan, perbaikan jalan, dan lingkungan. Hasil perbandingan menunjukan bahwa Naive Bayes mempunyai performa yang relatif baik untuk melakukan prediksi kecelakaan lalu lintas berdasarkan infrastruktur jalan, walaupun ada beberapa target dimana Naive Bayes tidak menunjukan hasil yang maksimal. 5. KESIMPULAN Hasil prediksi dengan Naive Bayes menunjukan bahwa tingkat akurasi rata-rata berkisar antara 29.3653% sampai dengan 78.0415%, ini menunjukan bahwa tidak semua infrastruktur jalan bisa digunakan sebagai parameter sebuah kecelakaan terjadi karena masih ada hasil prediksi yang berada di bawah 50%. Namun ini bukan merupakan hasil final yang langsung diimplementasikan. Prediksi kecelakaan lalu lintas ini masih merupakan penelitian yang sedang berjalan dan belum sepenuhnya selesai. Selain infrastruktur jalan, masih ada hal lain yang menjadi target, antara lain dari sisi kendaraan yang mengalami kecelakaan, manusia yang mengemudikan kendaraan tersebut, dan cuaca dimana kecelakaan itu terjadi. Penelitian lebih lanjut sangat diperlukan untuk melihat seberapa besar korelasi antara target-target tersebut dengan kecelakaan lalu lintas. DAFTAR REFERENSI [1] Badan Pusat Statistik, Jumlah Kecelakaan, Koban Mati, Luka Berat, Luka Ringan, dan Kerugian Materi yang Diderita Tahun 19922009, Diakses pada 14 Desember 2011 dari
http://www.bps.go.id, 2010 [2] D. Heckerman, “A Toturial on Learning with Bayesian Networks”, Book Chapter Innovations in Bayesian Networks, Springer Berlin, 2008, p.33-82 [3] K.B. Korb, A.E. Nicholson, Bayesian Artificial Intelligence, CRC Press, 2011 [4] F.D. Jensen, T.D. Nielsen, Bayesian Networks and Decision Graphs, Springer, 2007 [5] I. Androutsopoulos, J. Kautsias, K.V. Chandrinos, G. Paliouras, C. Spyropoulos, “An Evaluation of Naïve Bayes Anti-Spam Filtering”, 11th European Conference on Machine Learning, 2000 [6] G. Qiang, “An Effective Algorithm for Improving the Performance of Naïve Bayes for Text Classification”, Second International Conference on Computer Research and Development, IEEE Computer Society, 2010 [7] P. Haak, Modelling Traffic Information using Bayesian Networks, Delft University og Technology, 2010 [8] C. Ordones, S.K. Pitchaimalai, “Bayesian Classifier Programmed in SQL”, IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 1, 2010 [9] D. Widiastuti, Analisa Perbandingan Algoritma SVM, Naive Bayes, dan Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem Pendeteksi Intrusi, Universitas Gunadarma, 2008