BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi yang digunakan, skenario eksperimen, pelaksanaan eksperimen serta hasil dan analisisnya.
4.1
Tujuan
Terdapat beberapa hal yang menjadi tujuan pelaksanaan eksperimen yaitu : 1. Mereplikasi
hasil
penelitian
[MUK02,
LAS04,
LAS05]
kemudian
membandingkan hasil pencarian parameter dan metode preprocessing data sesuai hasil analisis Tugas Akhir dengan yang digunakan pada paper pacuan. 2. Memilih model terbaik dari alternatif implementasi pendeteksian intrusi dengan SVM. 3. Menguji skalabilitas model terbaik. Eksperimen ini dilakukan untuk mengetahui pengaruh jumlah data pelatihan terhadap efektifitas dan efisiensi model terbaik. Eksperimen dilakukan untuk mengetahui jumlah data pelatihan yang mampu diproses oleh SVM serta waktu yang dibutuhkan. Model terbaik dianggap scalable jika mampu menangani pelatihan pada data yang jumlahnya cukup besar dalam waktu yang dapat ditoleransi oleh pengguna nantinya. 4. Mengetahui efek beberapa perubahan dalam rangka upaya peningkatan performansi model terbaik. Adapun perubahan yang ingin diketahui efeknya adalah: a. Penggunaan nilai C berbeda untuk mengatasi masalah imbalanced dataset yang mengakibatkan rendahnya nilai true positive rate b. Penghilangan atribut yang kurang penting (feature selection) c. Pelatihan dengan data dalam jumlah besar dan update model hasil pelatihan dengan incremental training.
IV-1
IV-2
4.2
Parameter Evaluasi
Parameter evaluasi hasil eksperimen yang akan digunakan adalah detection rate, false positive rate, akurasi data secara keseluruhan, akurasi pada setiap kelas data, fmeasure, waktu pelatihan (Ttrain), waktu pengujian (Ttest), dan ROC Curve serta t-Test (statistical significant test). Penjelasan mengenai parameter evaluasi ini dapat dilihat pada lampiran G. Untuk pemilihan model terbaik yang dijadikan prioritas utama adalah f-measure. Jika nilai f-measure sama maka model terbaik dipilih berdasarkan waktu pelatihan dan waktu pengujian.
4.3
Skenario
Sesuai dengan tujuan eksperimen terdapat empat skenario utama yang akan dilakukan. Penjelasan detail mengenai skenario eksperimen dapat dilihat pada lampiran H. 4.3.1 Replikasi Hasil Eksperimen Paper Acuan
Pada skenario ini akan dilakukan eksperimen menggunakan skenario pada paper acuan. Akan tetapi, karena adanya beberapa hal yang tidak jelas maka digunakan beberapa asumsi yang dapat dilihat pada lampiran H. 4.3.2 Perbandingan Performansi Alternatif Implementasi SVM Tabel IV-1 Alternatif implementasi SVM untuk pendeteksian intrusi Id Model Deteksi MD1 MD2 MD3 MD4 MD5 MD6 MD7
Metode Deteksi Anomaly Anomaly Misuse Detection Misuse Detection Misuse Detection Misuse Detection Misuse Detection
Teknik One Class SVM (supervised training) One Class SVM (unsupervised training) SVM Biner Multi Class SVM (One-against-one) Multi Class SVM ( One-against-all) SVM BinerÆ Multi Class SVM One-Against-One SVM BinerÆ Multi Class SVM One-Against-All
Pada tabel IV-1 dapat dilihat daftar alternatif
implementasi model SVM untuk
pendeteksian intrusi. Pada eksperimen ini akan dilakukan perbandingan: 1. Perbandingan implementasi metode anomaly detection
Dalam skenario ini model yang dibandingkan adalah MD1 dan MD2. 2. Perbandingan implementasi metode misuse detection
Dalam skenario ini model yang dibandingkan adalah MD4,MD5, MD6 dan MD7 yang semuanya dapat memprediksi kategori intrusi, tidak seperti MD3 yang hanya
IV-3
menggunakan dua kelas (normal dan intrusi).
Oleh karena itu, dalam hal
ketepatan menentukan kategori intrusi MD3 hanya dijadikan sebagai referensi. Jadi, model terbaik untuk metode misuse detection dipilih dari MD4,MD5,MD6 dan MD7. Setiap perbandingan model akan dilakukan pada dua skenario yaitu komposisi data intrusi pada data pelatihan seimbang dan sebaliknya. 4.3.3 Pengujian skalabilitas model terbaik
Dalam eksperimen ini akan dilakukan beberapa kali pelatihan dan dalam setiap pelatihan jumlah data akan ditambah. Pelatihan awal menggunakan 250.000 data dan pada pelatihan berikutnya data ditambah sebanyak 250.000, sedangkan untuk pengujian digunakan satu juta data. Karena terbatasnya jumlah data normal, maka data pelatihan dan pengujian yang akan digunakan memiliki distribusi yang sama dengan data KDDCUP 99. 4.3.4 Upaya Peningkatan Kinerja Model Terbaik
a.
Penggunaan nilai C berbeda untuk setiap kelas Dalam eksperimen ini akan dilakukan pencarian nilai C terbaik yang dapat meningkatkan akurasi SVM dalam mendeteksi jenis intrusi yang sebelumnya hanya dapat dideteksi dengan akurasi yang rendah terutama untuk jenis intrusi R2L dan U2R. Dalam eksperimen ini akan digunakan rasio data intrusi 0,1%, 0,5%, 1%, 2%, 5% dengan distribusi kelas data yang sama dengan dengan distribusi data pada data KDDCUP 99. Dengan demikian dapat diketahui pada tingkat keseimbangan yang bagaimana perubahan nilai C ini dapat membantu.
b.
Penghilangan atribut yang kurang penting Dalam eksperimen ini akan dilakukan pencarian atribut penting dengan menggunakan
f-score.
Selanjutnya
eksperimen
4.3.3
diulang
dengan
menggunakan berbagai jumlah atribut. Untukj perhitungan nilai f-score digunakan 5 partisi data (data intrusi seimbang) dari skenario perbandingan alternatif implementasi SVM.
IV-4
c.
Incremental training Pada eksperimen ini scenario pada bagian 4.3.3 akan diulang dengan incremental training. Nilai terbaik parameter β untuk incremental training akan dicari menggunakan sebagian kecil data.
4.4
Pelaksanaan
4.4.1 Lingkungan Eksperimen
Eksperimen dilakukan pada system operasi Windows Xp Sp 2 pada PC dengan spesifikasi prosesor AMD Athlon XP 2500 (1,83 Ghz), RAM 1 GB dan harddisk 80 GB. 4.4.2 Tahapan Data Preprocessing
Data KDDCUP 99 sudah dalam bentuk daftar nilai atribut data yang dipisahkan dengan tanda koma. Sebelum eksperimen dilakukan ada beberapa tahapan yang dilakukan yaitu: 1. Data KDDCUP 99 diubah ke dalam format LibSVM/ SVMLight. Dalam proses ini data kategori diubah seperti yang sudah dijelaskan pada BAB III. 2. Scaling/normalisasi data. 3. Pemisahan data berdasarkan kategori, jenis intrusi dan jenis servis. 4. Selanjutnya pembuatan dataset sesuai skenario eksperimen. Pengambilan data untuk membuat dataset tersebut dilakukan secara acak dengan tetap menjaga distribusi data untuk setiap kelas sesuai dengan spesifikasi eksperimen (stratified). 4.4.3 Tahapan Pembelajaran
Sebelum pelatihan dilakukan terlebih dahulu dilakukan pencarian estimasi parameter terbaik dengan grid search. Kemudian, pelatihan dilakukan dengan menggunakan parameter ini. Model hasil pelatihan selanjutnya digunakan untuk proses pengujian sesuai dengan skenario eksperimen. Untuk pelatihan pada skenario perbandingan alternative implementas SVM digunakan Cache sebesar 512 MB dan 800 MB pada pengujian skalabilitas SVM dan peningkatan kinerja moder terbaik.
IV-5
4.5
Hasil Eksperimen
4.5.1 Replikasi Hasil Eksperimen Paper Acuan 4.5.1.1 Eksperimen [MUK02A] Tabel IV-2 Hasil pencarian parameter pada dataset eksperimen [MUK02A] Data
k
Tanpa Normalisasi Dinormalisasi ke rentang nilai 0-1
5 5 5 5
Awal 23 218 2-5 20
C Akhir 220 220 215 22
Step 22 20,5 22 20,5
Awal 2-3 2-18 2-5 20
g Akhir 2-20 2-20 215 2-2
Step 22 -0,5 2 22 -0,5 2
Parameter Terbaik C g Akurasi (%) 219 2-19 99,7675 218 2-19,5 99,7812 21 2-1 99,9179 21,5 2-2 99,9316
Tabel IV-3 Hasil eksperimen dengan dataset [MUK02A] Metode Replikasi [MUK02A] (Tanpa Normalisasi) Tanpa Normalisasi + Parameter grid search Normalisasi ke rentang nilai [0,1]+ Parameter grid search
Efektifitas (%) DR
FP
93,71
Efisiensi (detik)
F-measure
Akurasi
Ttrain
Ttest
17,43
94,79
91,52
94,2
22,9
3,45
36,75
2,4
4,64
3,21
0,57
99,87*
2,13
99,67
99,47
5,4
1,1
0,04
0,79
0,09
0,14
2,22
0,32
99,77
0,53
99,82*
99,71*
0,80*
1,00*
0,28 0,27 0,13 0,21 0,42 0,00 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan yang terbaik
Gambar IV-1 Nilai F-measure hasil eksperimen pada dataset [MUK02A]
Pada tabel IV-2 dapat dilihat hasil pencarian parameter dengan menggunakan grid search. Hasil eksperimen dapat dilihat pada tabel IV-3 (perinciannya lihat pada lampiran I). Berdasarkan hasil statistical significant test (lihat lampiran I) pada Fmeasure, maka penggunaan parameter hasil grid search dengan normalisasi memiliki performansi yang terbaik. Hal ini disebabkan oleh performansi SVM sangat
IV-6
dipengaruhi oleh parameternya. Jadi, wajar jika penggunaan parameter hasil grid search lebih baik karena dapat mengestimasi parameter terbaik. Normalisasi data pada SVM dapat menghilangkan dominasi atribut yang rentang nilainya jauh lebih besar. Normalisasi data pada eksperimen ini mengubah rentang nilai atribut ke rentang nilai [0,1], yang mengakibatkan jumlah perhitungan bilangan bernilai besar lebih sedikit. Selain itu, jumlah perhitungan bilangan bernilai besar juga dipengaruhi oleh nilai parameter C. Dengan demikian, metode yang menggunakan normalisasi dan nilai parameter C yang lebih kecil membutuhkan waktu pelatihan dan pengujian yang jauh lebih singkat. 4.5.1.2 Eksperimen [MUK02B] Tabel IV-4 Hasil pencarian parameter pada dataset eksperimen [MUK02B] Data
k
Tanpa Normalisasi Dinormalisasi ke rentang nilai 0-1
5 5 5 5
Awal 25 214 2-5 26
C Akhir 220 216 215 28
Step 22 20,5 22 20,5
Awal 2-2 2-15 2-5 2-1
g Akhir 2-17 2-17 215 2-4
Step 22 -0,5 2 22 -0.5 2
Parameter Terbaik C g Akurasi (%) 215 2-16 98,4485 215.5 2-17 98,6646 210 2-3 99,1752 210 2-2,5 99,2537
Pada tabel IV-4 dapat dilihat hasil pencarian parameter dengan menggunakan grid search. Hasil eksperimen dapat dilihat pada tabel IV-5 (perinciannya lihat pada lampiran C). Berdasarkan hasil statistical significant test pada F-measure, maka penggunaan parameter hasil grid search dengan normalisasi lebih baik secara significant dibandingkan dengan dua metode lainnya. Tabel IV-5 Hasil eksperimen dengan dataset [MUK02B] Metode Replikasi [MUK02B] (Tanpa Normalisasi) Tanpa Normalisasi + Parameter grid search Normalisasi ke rentang nilai [0,1]+ Parameter grid search
Efektifitas (%)
Efisiensi (detik)
DR 77,85
FP 0*
F-measure 87,54
Akurasi 82,38
Ttrain 78,4
Ttest 21
0,87
0
0,55
0,68
0,84
0,67
99,34
10,94
97,45
97,62
50,7
2,6
0,21
27,8
6,19
4,21
29,47
0,52
99,65*
2,59
99,49*
98,9*
4,1*
1,4*
0,16
0,74
0,12
0,21
0,32
0,52
Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan yang terbaik
Rentang nilai atribut yang lebih besar dapat mempengaruhi posisi sebuah data di feature space sehingga bidang pemisah terbaik menjadi lebih sulit untuk ditemukan
IV-7
apalagi jika atribut tersebut adalah termasuk atribut yang kurang penting maka dominasi dari nilai atribut ini malah dapat mengeser bidang pemisah terbaik dari posisi yang ideal. Hal ini mengakibatkan diperlukan nilai penalti error yang lebih besar (C) dan waktu pelatihan yang lebih lama (jumlah iterasi yang lebih banyak untuk proses optimasi bidang pemisah terbaik).
Gambar IV-2 Nilai F-measure hasil eksperimen pada dataset [MUK02B]
Jika kita melihat replikasi hasil [MUK02B] akurasi terhadap data normal adalah 100%, tetapi akurasi untuk kelas data R2L adalah 0% . Nilai C yang digunakan adalah 1000. Hasil ini menjadi jauh lebih baik ketika digunakan parameter hasil grid search yang menggunakan nilai C jauh lebih besar (46340.95). Pada eksperimen selanjutnya akan digunakan parameter hasil grid search dan normalisasi data karena dapat menghasilkan performansi yang lebih baik pada SVM. 4.5.1.3 Eksperimen [LAS04]
Pada tabel IV-6 dapat dilihat hasil pencarian parameter yang dilakukan pada data yang memiliki rasio data intrusi sama dengan nila parameter nu. Dengan metode normalisasi data yang berbeda terdapat beberapa parameter terbaik yang berbeda karena memang data pelatihannya memiliki nilai yang berbeda. i.
Parameter nu bernilai sama dengan rasio intrusi Hasil eksperimen pada tabel IV-7 menunjukkan secara umum performansi yang dihasilkan pada metode normalisasi yang berbeda tidak jauh berbeda. Hal ini dapat juga dilihat pada kurva ROC dan perincian hasil eksperimen pada lampiran I. Akan tetapi, berdasarkan hasil statistical significant test,
urutan metode
normalisasi data yang terbaik adalah hasil analisis Tugas Akhir, metode normalisasi data [LAS05], dan metode normalisasi data [LAS04].
IV-8 Tabel IV-6 Hasil pencarian parameter dengan grid search dengan nilai nu=rasio data intrusi Metode Normalisasi Data
[LAS04]
[LAS05]
Hasil Analisis TA
Parameter Nu C g 0,01 23 2-7 0,02 23 2-10 0,03 23 2-11 0,04 23 2-9 0,05 23 2-9 0,1 23 2-6 0,2 23 2-7 0,01 23 2-14 0,02 23 2-10 0,03 23 2-9 0,04 23 2-9 0,05 23 2-9 0,1 23 2-11 0,2 23 2-11 0,01 23 2-7 0,02 23 2-10 0,03 23 2-11 0,04 23 2-9 0,05 23 2-9 0,1 23 2-4 0,2 23 2-7
Tabel IV-7 Hasil eksperimen pada data dengan rasio intrusi =nu Normalisasi Data
Efektifitas (%) DR
FP
F-measure
Akurasi
52,11 3,04 52,05 94,70 9,34 2,66 8,86 4,00 55,43 2,58* 56,31 [LAS05] 95,41* 10,77 2,16 9,53 3,18 2,81 95,08 Hasil Analisis TA 57,14* 57,86* 6,61 2,72 5,74 4,08 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi * menunjukkan yang [LAS04]
terbaik
Pada gambar IV-1 dapat dilihat nilai parameter efek nilai parameter g berbeda pada One Class SVM. Nilai parameter g ini sebanding dengan lebar area yang mencakup data normal (pada One Class SVM). Pada metode normalisasi data dengan metode [LAS04] dan [LAS05] umumnya diperlukan nilai parameter gamma (g) yang lebih kecil. Hal ini menunjukkan bahwa metode normalisasi data dengan metode [LAS04] dan [LAS05] mengakibatkan data normal menjadi lebih berdekatan dengan data anomali di feature space. Selain itu, dari hasil pencarian parameter dengan grid search, pencarian parameter terbaik pada data dengan normalisasi hasil Tugas Akhir membutuhkan waktu yang lebih singkat dari pada metode normalisasi data yang lain.
IV-9
Dengan kata lain data dengan metode normalisasi hasil Tugas Akhir lebih mudah untuk dipisahkan sehingga memiliki performansi yang lebih baik.
Gambar IV-3 Nilai F-measure pada data dengan rasio intrusi =nu
Gambar IV-4 One Class SVM dengan nilai parameter g 0,1 , 1,0 dan 10
Metode normalisasi data [LAS05] maupun [LAS04] masih memungkinkan setiap atribut memiliki rentang nilai yang berbeda walaupun perbedaan rentang nilai ini relatif kecil. Hal ini tidak begitu berpengaruh karena tanpa normalisasi pun SVM sudah memiliki performansi yang cukup baik (lihat hasil eksperimen sebelumnya). Adapun perbedaan metode normalisasi [LAS05] dan [LAS04] adalah pada representasi data kategori. Pada metode normalisasi data [LAS04], data kategori tidak dinormalisasi seperti atribut bertipe numerik. Dengan demikian, metode normalisasi [LAS05] menghasilkan performansi yang lebih baik karena pada metode normalisasi ini atribut kategori memiliki kontribusi yang sama dengan atribut numerik. ii.
Parameter nu bernilai tetap dengan rasio data intrusi bervariasi
IV-10
Tabel IV-8 menunjukkan hasil eksperimen dengan menggunakan rasio data intrusi bervariasi dengan parameter nu = 0.05. Pada skenario ini berdasarkan statistical significant test urutan metode normalisasi terbaik adalah [LAS05], hasil Tugas Akhir, metode normalisasi [LAS04]. Metode normalisasi data [LAS05] adalah yang terbaik, karena nilai parameter nu yang digunakan cukup besar. Pada skenario sebelumnya juga dapat dilihat (pada lampiran I), dengan nilai parameter nu yang besar dan rasio data intrusi yang lebih besar metode normalisasi [LAS04] maupun [LAS05] memiliki performansi yang lebih baik. Metode normalisasi data [LAS05] pada data dengan rasio data intrusi yang lebih besar mengakibatkan SVM memiliki data anomali yang cukup sehingga dapat memisahkan data anomali dengan lebih baik. Tabel IV-8 Hasil eksperimen pada data dengan rasio intrusi bervariasi, nu =0.05 Efektifitas (%) Normalisasi Data
DR
FP
F-measure
Akurasi
70,40 14,25 42,60 86,50 18,98 17,50 11,78 14,45 [LAS05] 75,84* 14,16* 46,18* 86,70* 15,97 17,73 11,69 14,79 73,63 14,32 44,94 86,40 Hasil Analisis TA 15,37 17,90 11,71 15,08 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai [LAS04]
terbaik
Gambar IV-5 Nilai F-measure pada data dengan rasio intrusi bervariasi, nu =0.05
iii.
Parameter nu nilainya bervariasi dengan rasio data intrusi tetap Pada tabel IV-9 dapat dilihat hasil eksperimen pada skenario menggunakan data dengan rasio data intrusi = 0.05 dan
parameter nu bervariasi. Berdasarkan
statistical significant test pada nilai f-measure maka metode normalisasi data
IV-11
Tugas Akhir adalah yang terbaik. Untuk eksperimen selanjutnya menggunakan akan digunakan metode normalisasi data hasil analisis Tugas Akhir karena merupakan yang terbaik berdasarkan statistical significant test pada seluruh skenario yang telah dilakukan (perincian hasilnya dapat dilihat pada lampiran I). Tabel IV-9 Hasil eksperimen pada data dengan nilai parameter nu bervariasi, rasio data intrusi=0.05 Efektifitas (%) Normalisasi Data
DR
FP
F-measure
Akurasi
49,02 4,17 43,55 93,42 24,25 5,35 10,10 4,03 48,75 4,02 44,21 93,55 [LAS05] 23,47 5,48 11,38 4,28 Hasil Analisis TA 51.90* 3,91* 47,89* 93,81* 22,19 5,51 10,47 4,31 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai [LAS04]
terbaik
Gambar IV-6 Nilai F-measure pada data nilai parameter nu bervariasi, rasio data intrusi=0.05
4.5.1.4 Eksperimen [LAS05] Tabel IV-10 Hasil pencarian parameter untuk dataset [LAS05] Normalisasi Data [LAS05] [LAS04] Hasil Analisis TA
Awal 25 26 21 28 25 210
C Akhir 215 28 215 210 215 212
Step 22 20,5 22 20,5 22 20,5
Awal 23 2-8 21 2-10 23 2-6
g Akhir 2-15 2-10 2-15 2-12 2-15 2-8
Step 2-2 2-0,5 2-2 20,5 2-2 2-0,5
C 27 27,5 29 29 211 210
Parameter Terbaik g Akurasi (%) 2-9 98,652 2-9 98,7019 2-11 97,6535 2-11 97,6535 2-7 98,7519 2-7 98,8517
IV-12
Pada tabel IV-10 dapat dilihat parameter hasil grid search. Sama seperti eksperimen sebelumnya untuk metode normalisasi data [LAS04] dan [LAS05] diperlukan nilai parameter g yang lebih besar. i.
Dataset tidak mengandung intrusi jenis baru Tabel IV-11 Hasil eksperimen pada data yang tidak mengandung data intrusi jenis baru Akurasi pada setiap kategori (%)
Metode Normalisasi Data
Efisiensi (detik)
Efektifitas (%) Fmeasure
Akurasi
Ttrain
Ttest
0,50
77,54
97,99
1,00
3,03
2,38
0,15
1,42
0,00
0,00
0,32
53,04
81,51*
0,50*
85,92*
98,61*
1,00
3,03
5,12
8,88
2,87
1,00
6,13
0,01
0,00
0,32
65,80
53,16*
73,53
0,63
79,74
98,08
1,00
2,57*
3,57 1,03 3,76 8,82 5,76 3,43 1,03 5,61 0,01 0,00 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai
0,50
Dos
[LAS04] [LAS05] Hasil Analisis TA
Normal
Probe
U2R
R2L
DR
88,00
99,50
80,81
53,68
46,00
69,41
4,11
0,15
3,70
2,89
6,80
96,88*
99,50*
83,81
78,20*
2,15
1,00
4,53
81,10
99,37
87,03*
FP
terbaik
Gambar IV-7 Nilai F-measure pada data yang tidak mengandung data intrusi jenis baru
Tabel IV-11 menunjukkan hasil eksperimen pada data pengujian yang tidak mengandung data intrusi jenis baru. Hasil eksperimen dalam bentuk kurva ROC dapat dilihat pada lampiran I. Berdasarkan hasil statistical significant test pada fmeasure maka urutan metode normalisasi data terbaik adalah [LAS05], hasil analisis Tugas Akhir dan [LAS04]. Dapat dilihat dari tabel IV-11 bahwa metode normalisasi data dengan [LAS05] memiliki akurasi lebih baik pada kelas data Normal, DOS dan R2L sedangkan metode normalisasi hasil Analisis Tugas Akhir memiliki akurasi lebih baik pada jenis intrusi Probe dan R2L. Walaupun nilai parameter g menunjukkan bahwa metode normalisasi data [LAS05] relatif lebih
IV-13
sulit dipisahkan pada feature space, metode ini tetap dapat memiliki performansi yang baik karena adanya informasi label data. ii.
Dataset mengandung intrusi jenis baru Tidak jauh berbeda dengan hasil eksperimen sebelumnya pada tabel IV-12 akurasi pada setiap kelas data relatif sama. Untuk data intrusi jenis baru metode normalisasi data hasil analisis Tugas Akhir menunjukkan hasil yang paling baik. Meskipun demikian, berdasarkan statistical significant test metode normalisasi data [LAS05] adalah yang terbaik. Hal ini disebabkan oleh data pelatihan dan pengujian yang didominasi oleh data DOS. Selain itu, 80% dari data KDDCUP 99 merupakan data dari kelas ini. Oleh karena itu, metode normalisasi ini akan digunakan pada metode misuse detection pada eksperimen selanjutnya.
Tabel IV-12 eksperimen pada data yang mengandung data intrusi jenis baru Metode Normalisasi Data [LAS04] [LAS05] Hasil Analisis TA
Akurasi pada setiap kategori (%) Dos
Efisiensi (detik)
Efektifitas (%) Fmeasure
Akurasi
Ttrain
0,50
60,90
96,79
1
3,00
1,96
0,15
1,38
0,00
0
0,00
23,97
57,08*
0,50*
69,19*
97,29*
1
3,03
8,51
4,86
3,05
1,00
4,97
0,01
0
0,18
54,63*
27,48*
53,75
0,63
65,49
96,98
1
2,53*
0
0,51
Normal
Probe
U2R
R2L
New
DR
88,57
99,50
79,19
54,11
47,00
19,73
47,80
4,73
0,15
4,23
2,85
6,81
2,39
99,19*
99,50*
83,06
77,78*
52,33
1,83
1,00
5,29
4,69
81,24
99,37
86,19*
66,29
FP
4,59 1,03 4,37 8,13 4,57 4,40 3,05 1,03 4,65 0,01 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai terbaik
Gambar IV-8 Nilai F-measure pada data yang mengandung data intrusi jenis baru
Ttest
IV-14
4.5.2 Perbandingan Performansi Alternatif Implementasi SVM a.
Perbandingan implementasi metode anomaly detection
Dari hasil pencarian parameter yang dilakukan, parameter terbaik untuk nilai g berbeda jika jumlah data pelatihan berbeda, dan nilainya umumnya adalah 1/(jumlah data pelatihan). Oleh karena itu, pada eksperimen ini digunakan parameter C = 5, dan g=1/(jumlah data pelatihan). 1.
Data intrusi seimbang
i.
Dataset pengujian tidak mengandung data intrusi baru Dari tabel IV-13 dapat dilihat MD1 memiliki detection rate yang jauh lebih baik. Akan tetapi jika dilihat dari f-measure, jumlah false positive dan akurasi MD2 lebih baik. Hal ini memang wajar karena pada MD2 data intrusi yang terdapat pada data pelatihan sebagian akan dianggap sebagai data normal sehingga false positive MD2 menjadi lebih kecil. Dilihat dari sisi efisiensi, performansi MD1 dan MD2 tidak jauh berbeda. Waktu pelatihan MD2 pada seluruh pengulangan eksperimen lebih singkat karena pada data pelatihannya terdapat data anomaly. Dengan adanya data intrusi pada data pelatihan maka pencarian solusi fungsi bidang pemisah pada pelatihan MD2 akan lebih cepat mencapai konvergen. Berdasarkan statistical significant test pada f-measure MD2 lebih baik dari MD1.
Tabel IV-13 Hasil anomaly detection pada data pengujian yang tidak mengandung data intrusi jenis baru Model Deteksi
Akurasi pada setiap kategori (%)
Efektifitas (%)
Efisiensi (detik)
FAkurasi Ttrain Ttest measure 95,02 96,16* 14,69* 67,59* 80,65* 4,98 58,50 94,31 42,22 65,22* 83,58* MD1 3,08 0,18 0,50 2,60 22,15 1,00 0,18 1,96 0,17 6,08 5,04 66,54 73,16 8,08 58,33 62,22 2,11* 68,78 97,89* 61,19* 96,14* 39,78* MD2 5,66 0,17 4,30 2,10 15,65 1,01 0,17 1,37 0,04 3,58 1,73 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai Dos
terbaik
Normal
Probe
U2R
R2L
DR
FP
IV-15
Gambar IV-9 Hasil anomaly detection pada data pengujian yang tidak mengandung data intrusi jenis baru
ii.
Dataset mengandung data intrusi baru Seperti yang dapat diliaht pada tabel IV-14, performansi MD1 dan MD2 berubah cukup signifikan. Adanya data intrusi jenis baru seharusnya tidak berpengaruh banyak pada performansi MD1 dan MD2.
Namun, pada skenario ini
penambahan jumlah data intrusi jenis baru mengakibatkan rasio data intrusi pada data pengujian melebihi nilai nu (rasio data intrusi maksimum yang akan diprediksi oleh One Class SVM). Dengan demikian performansi One Class SVM menurun. Berdasarkan statistical significant test pada f-measure skenario ini MD1 lebih baik dari MD2 (perinciannya dapat dilihat pada lampiran I). Tabel IV-14 Hasil anomaly detection pada data pengujian yang mengandung data intrusi jenis baru
Model Deteksi MD1 MD2
Akurasi pada setiap kategori (%) Dos
Efisiensi (detik)
Efektifitas (%) Fmeasure
Akurasi
43,72
36,00*
17,91
45,02
64,12
41,28*
Normal
Probe
U2R
R2L
New
DR
FP
Ttrain
Ttest
87,37*
56,28
97,71*
48,32*
80,56*
53,28*
77,64*
57,74
42,22
69,56*
6,16
45,02
2,12
39,92
22,97
41,59
20,76
40,76
6,08
1,51
79,16
58,72*
83,35
32,42
72,22
36,35
35,12
59,10*
39.78*
71,11
15,04 45,57 13,14 28,48 22,09 31,28 20,03 45,57 21,22 41,13 3.58 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai
1,60
terbaik
IV-16
Gambar IV-10 Hasil anomaly detection pada data pengujian yang mengandung data intrusi jenis baru
2.
Data intrusi tidak seimbang
i.
Dataset pengujian tidak mengandung data intrusi baru Tabel IV-15 Hasil anomaly detection pada data intrusi tidak seimbang, data pengujian tidak mengandung intrusi jenis baru
Model Deteksi
Akurasi pada setiap kategori (%)
Efektifitas (%)
Efisiensi (detik)
FAkurasi Ttrain Ttest measure 12,91 8,10 39,90 94,11* 29,02* 98,40* 61,43* 87,08* 91,92* 70,98* 32,07* MD1 5,05 28,11 1,73 38,02 11,86 7,72 28,11 3,88 26,42 0,32 1,23 67,47 19,65 94,70 53,81 86,25 78,91 80,35 9,03 22,52 7,80* 36,80* MD2 34,21 18,68 4,58 36,09 13,76 19,78 18,68 0,66 16,87 0,79 1,23 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai Dos
Normal
Probe
U2R
R2L
DR
FP
terbaik
Gambar IV-11 Hasil anomaly detection pada data intrusi tidak seimbang, data pengujian tidak mengandung intrusi jenis baru
IV-17
ii.
Dataset pengujian tidak mengandung data intrusi jenis baru
Tabel IV-16 Hasil anomaly detection pada data intrusi tidak seimbang, data pengujian mengandung intrusi jenis baru Model Deteksi MD1 MD2
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
Dos
Normal
Probe
U2R
R2L
New
DR
FP
96,74*
12,43*
99,26*
82,98*
91,25*
83,09*
92,50*
87,57*
Fmeasure 13,43*
3,91
21,37
1,57
30,99
13,24
34,41
14,18
21,37
87,44
9,21
97,24
74,72
90,00
79,63
87,45
90,79
Akurasi
Ttrain
Ttest
17,80*
8,10
39,40
1,59
18,99
0,30
1,50
11,91
14,46
7,80*
39,80*
24,05 15,58 3,96 29,90 15,37 35,50 20,72 15,58 1,20 13,15 0,75 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai
1,60
terbaik
Gambar IV-12 Hasil anomaly detection pada data intrusi tidak seimbang, data pengujian mengandung intrusi jenis baru
Pada data pelatihan menanggunakan data intrusi tidak seimbang seperti yang dapat dilihat pada tabel IV-15 dan IV-16 dapat dilihat bahwa performansi MD1 dan MD2 jauh menurun dibandingkan dengan eksperimen sebelumnya karena memang distribusi data pelatihan berbeda dengan data pengujian. Selain itu, pada data pelatihan tidak semua jenis servis terdapat data pelatihan, sehingga One Class SVM menganggap sebagian besar data normal sebagai data intrusi. Dari hasil statistical significant test pada f-measure menggunakan gabungan hasil eksperimen dari keseluruhan skenario di atas maka MD1 dipilih sebagai metode anomaly detection terbaik.
IV-18
b. Perbandingan implementasi metode misuse detection
Pada eksperimen ini digunakan parameter yang sama dengan hasil pencarian parameter pada skenario
[MUK02] untuk multi class SVM dan hasil pencarian
parameter pada skenario [LAS05] untuk SVM Biner yang terdiri dari kelas normal dan kelas intrusi. 1.
Data intrusi seimbang
i.
Dataset pengujian tidak mengandung data intrusi baru Berdasarkan hasil statistical significant test pada nilai f-measure MD6 dan MD7 memiliki performansi yang comparable akan tetapi lebih baik dari MD4 dan MD5 (perinciannya dapat dilihat pada lampiran I). Dari tabel IV-17 juga dapat dilihat bahwa MD6 dan MD7 memiliki performansi yang hampir sama. Jika dilihat dari sisi efisiensi, MD6 dan MD7 jauh lebih baik daripada MD4 dan MD5. Hal ini disebabkan oleh jumlah SVM biner yang digunakan lebih sedikit (lihat lampiran F). Selain itu pada setiap SVM biner tersebut umumnya MD6 dan MD7 menggunakan lebih sedikit data pelatihan karena data kelas normal (95% dari dataset) hanya diproses oleh satu SVM biner.
Tabel IV-17 Hasil misuse detection pada data pengujian yang tidak mengandung data intrusi baru Model Deteksi MD3 MD4 MD5 MD6 MD7
Akurasi pada setiap kategori (%)
Efektifitas (%)
Efisiensi (detik)
FAkurasi Ttrain Ttest measure 98,98 99,94 98,27 96,40 54,86 98,22 0,06 99,85 103,50 58,09 0,61 0,02 0,92 0,97 24,77 0,70 0,02 0,02 9,54 2,06 95,11 99,90 96,58 92,93 27,50 95,64 0,10 96,78 99,68 125,40 94,89 11,31 0,01 0,40 1,41 17,80 4,18 0,01 2,35 0,21 4,83 5,45 98,35 99,90 97,12 94,05 26,94 97,15 0,10 97,63 99,76 304,70 66,97 0,58 0,01 0,36 1,45 18,64 0,35 0,01 0,18 0,02 19,66 2,56 98,90 31,81 98,22* 0,06 59,00 99,94* 98,19* 96,24* 98,48* 99,85* 104,30* 0,65 0,02 0,90 0,97 20,96 0,70 0,02 0,21 0,02 9,72 2,62 98,18 96,21 32,22* 98,22* 0,06 105,60 58,52* 98,91* 99,94* 98,48* 99,85* 0,64 0,02 0,91 0,92 21,12 0,70 0,02 0,21 0,02 9,45 2,17 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai Dos
Normal
Probe
U2R
R2L
DR
FP
terbaik
Dataset pada eksperimen ini terdiri dari data intrusi dan data normal dari setiap servis dalam jumlah yang relatif seimbang. Karena tidak ada data yang jumlahnya lebih dominan maka pemisahan data intrusi dari data normal menjadi lebih sulit. Hal ini mengakibatkan MD4 dan MD5 memiliki akurasi yang lebih rendah karena untuk mengklasifikasikan data data normal dan data intrusi digunakan pada beberapa SVM biner. Proses klasifikasi MD5 pada eksperimen ini dan eksperimen selanjutnya diubah sehingga penentuan kelas data hanya ditentukan
IV-19
dari nilai maksimum output fungsi keputusan seluruh SVM biner. Dengan demikian tidak dimungkinkan dihasilkan data unknown. Hal ini dilakukan karena hampir 20% dari data diperiksi sebagai data unknown. Data-data ini bukan merupakan intrusi jenis baru, akan tetapi data dari keseluruhan kelas yang dekat dengan bidang pembatas antar kelas.
Gambar IV-13 Hasil misuse detection pada data pengujian yang tidak mengandung data intrusi baru
ii.
Dataset mengandung data intrusi baru Hasil eksperimen pada tabel IV-18 tidak jauh berbeda dari tabel IV-17, akan tetapi pada eksperimen ini MD6 adalah yang terbaik berdasarkan statistical significant test.
Gambar IV-14 Hasil misuse detection pada data pengujian yang mengandung data intrusi baru
IV-20
Tabel IV-18 Hasil misuse detection pada data pengujian yang mengandung data intrusi baru Model Deteksi MD3 MD4 MD5 MD6 MD7
Akurasi pada setiap kategori (%) Dos
Efektifitas (%) FFP Akurasi measure 0,06 98,21
Normal
Probe
U2R
R2L
New
DR
98,98
99,94
98,27
96,40
54,86
14,36
74,31
0,61
0,02
0,92
0,97
24,77
1,97
1,37
0,02
-
95,11
99,90
96,58
92,93
27,50
10,12
71,25
0,10
11,31
0,01
0,40
1,41
17,80
2,40
3,54
98,35
99,90
97,12
94,05
26,94
10,54
0,58
0,01
0,36
1,45
18,64
98,90
99,94*
98,18*
96,22*
0,64
0,02
0,90
98,91*
99,94*
98,18*
Efisiensi (detik) Ttrain
Ttest
103,50
60,82
0,05
9,54
2,14
82,48
97,97
125,40
99,69
0,01
2,55
0,24
4,83
5,74
72,45
0,10
83,36
98,06
304,70
70,20
1,85
1,16
0,01
0,80
0,04
19,66
2,67
31,67
14,33
74,56
0,06*
84,95*
98,23*
104,30*
61,28*
0,98
20,97
1,97
2,83
0,02
1,66
0,18
9,72
2,97
96,21
32,22*
14,36*
74,31
0,06*
84,80
98,21
105,60
61,34
0,64 0,02 0,91 0,92 21,12 1,97 1,37 0,02 0,84 0,05 9,45 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai
2,34
terbaik
2.
Data intrusi tidak seimbang
i.
Dataset pengujian tidak mengandung data intrusi baru
Tabel IV-19 Hasil misuse detection pada data pelatihan dengan data intrusi tidak seimbang Model Deteksi
Akurasi pada setiap kategori (%)
Efektifitas (%)
Efisiensi (detik)
FAkurasi Ttrain measure 99,87 99,12 98,29 89,03 86,11 97,61 0,88 99,05 27,20 MD3 0,10 0,04 0,30 3,82 11,31 0,54 0,04 0,04 1,26 99,76 99,70 95,49 26,13 12,22 88,27 0,30 90,85 99,11 20,00* MD4 0,09 0,02 0,57 2,99 13,11 0,92 0,02 0,59 0,03 1,27 99,77 95,38 26,55 15,97 88,16 0,26* 53,50 99,74* 91,18* 99,15* MD5 0,09 0,04 0,62 2,37 15,57 0,86 0,04 0,62 0,04 3,55 99,12 97,04* 35,90* 20,97 97,61* 0,88 90,20 98,66 32,50 99,81* MD6 0,11 0,04 0,40 4,60 18,25 0,54 0,04 0,61 0,05 1,76 99,80 99,12 97,30 35,72 22,08* 97,61* 0,88 90,21 98,67 38,50 MD7 0,11 0,04 0,35 4,58 18,36 0,54 0,04 0,61 0,05 2,67 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai Dos
Normal
Probe
U2R
R2L
DR
FP
terbaik
Pada data pelatihan menggunakan data intrusi tidak seimbang, data normal hanya sekitar 20% dari dataset. Dengan demikian pemisahan data normal dari data intrusi relatif lebih mudah untuk dilakukan. Oleh karena itu, penggunaan data normal pada beberapa SVM biner malah meningkatkan akurasi terhadap data normal. Hal ini
Ttest 37,84 1,36 38,60 1,63 31,69* 1,26 38,54 1,94 38,71 1,48
IV-21
mengakibatkan nilai F-measure MD4 dan MD5 (seperti pada tabel IV-19) lebih baik dari pada MD6 dan MD7. Akan tetapi dari sisi detection rate MD6 dan MD7 jauh lebih baik. Berdasarkan hasil statistical significant test pada skenario ini MD 5 adalah yang terbaik diikuti oleh MD4, MD7 dan MD6 walaupun dengan perbedaan nilai yang kecil.
Gambar IV-15 Hasil misuse detection pada data pelatihan dengan data intrusi tidak
seimbang
ii.
Dataset pengujian tidak mengandung data intrusi baru
Tabel IV-20 Hasil misuse detection pada data pengujian yang mengandung data intrusi baru Model Deteksi MD3 MD4 MD5 MD6 MD7
Akurasi pada setiap kategori (%) Normal
Probe
U2R
R2L
New
DR
99,87 0,10
99,12 0,04
98,29 0,30
89,03 3,82
86,11 11,31
19,24 1,40
75,26 1,07
0,88 0,04
Fmeasure -
99,76
99,70
95,49
26,13
12,22
10,90
66,22
0,30
0,09
0,02
0,57
2,99
13,11
2,59
1,61
99,77
99,74*
95,38
26,55
15,97
13,02
0,09
0,04
0,62
2,37
15,57
99,81*
99,12
97,04
35,90*
0,11
0,04
0,40
99,80
99,12
97,30*
Dos
Efisiensi (detik)
Efektifitas (%)
Ttrain
Ttest
97,52 0,05
27,20 1,26
39,52 1,49
77,57
97,42
20,00*
40,91
0,02
1,18
0,06
1,27
2,14
66,74
0,26*
78,23
97,50*
53,50
33,17*
1,40
1,40
0,04
1,04
0,05
3,55
1,70
20,97
19,23
75,50*
0,88
79,14*
97,16
32,50
43,04
4,60
18,25
1,39
2,62
0,04
1,52
0,17
1,76
5,34
35,72
22,08*
19,24*
75,26
0,88
79,04
97,15
38,50
41,60
0,11 0,04 0,35 4,58 18,36 1,40 1,07 0,04 0,97 0,06 2,67 Keterangan: baris yang memiliki shading menunjukkan nilai standar deviasi dan * menunjukkan nilai
8,61
terbaik
FP
Akurasi
IV-22
Performansi keseluruhan model pada data pelatihan menggunakan data tidak seimbang menurun dibandngkan dengan penggunaan data intrusi seimbang karena pada data pengujian terdapat data intrusi yang belum pernah muncul pada data pelatihan walaupun data ini termasuk dalam kategori intrusi yang sama. Dari tabel IV-20 dapat dilihat bahwa akurasi pada data intrusi jenis baru jauh lebih baik dibandingkan dengan eksperimen sebelumnya karena data pelatihan didominasi oleh data intrusi. Akan tetapi, sebagai konsekuensinya jumlah false positive yang dihasilkan juga lebih tinggi. Berdasarkan statistical significant test pada skenario ini MD6 adalah model terbaik diikuti oleh MD7, MD5 dan MD4.
Gambar IV-16 Hasil misuse detection pada data pengujian yang mengandung data intrusi baru
MD6 dipilih sebagai model misuse detection terbaik berdasarkan hasil statistical significant test pada f-measure pada keseluruhan skenario. Selain itu, jika dilihat dari efisiensi MD6 juga merupakan yang terbaik. 4.5.3 Pengujian skalabilitas model terbaik Tabel IV-21 Performansi MD6 dengan jumlah data pelatihan bervariasi Jumlah Data Pelatihan 250000 500000 750000
Akurasi pada setiap kategori (%) Dos 99,99 100 100
Efisiensi (detik)
Efektifitas (%)
Normal
Probe
U2R
R2L
DR
FP
99,88 99,92 99,92
98,49 99,21 99,20
87,39 93,04 92,17
30,00 30,00 0.00
99,99 99,99 99,99
0,12 0,08 0,08
Fmeasure 99,98 99,98 99,98
Akurasi
Ttrain
Ttest
Jumlah Support Vector
99,95 99,97 99,97
307 1974 3393
606 803 1039
863 963 1170
IV-23
Gambar IV-17 Waktu pelatihan MD1 dan MD6 dengan jumlah data pelatihan bervariasi
Peningkatan waktu pelatihan secara eksponensial (seperti yang dapat dilihat pada tabel IV-21), memang wajar karena algoritma SVM mencari solusi persoalan quadratic problem yang kompleksitasnya bertambah dengan bertambahnya jumlah data pelatihan. Akan tetapi, waktu pengujian yang dihasilkan tidak jauh berbeda, karena waktu pengujian sebanding dengan jumlah support vector. Jika dilihat dari sisi efektifitas secara umum terjadi sedikit peningkatan dengan bertambahnya jumlah data pelatihan. Akan tetapi, untuk data kategori R2L malah terjadi penurunan. Selain karena tingkat imbalance yang besar ada kemungkinkan hal ini disebabkan oleh data pelatihan R2L pada pengujian ketiga berbeda karena diambil secara acak. Tabel IV-22 Performansi MD1dengan jumlah data pelatihan bervariasi Jumlah Data Pelatihan 50000 100000
Akurasi pada setiap kategori (%) Dos 99,93 99,93
Efisiensi (detik)
Efektifitas (%)
Normal
Probe
U2R
R2L
DR
FP
24,61 27,32
100 100
96,54 96,54
100 100
99,93 99,93
75,39 72,68
Fmeasure 91,42 91,70
Akurasi
Ttrain
Ttest
84,97 85,51
1105 6565
2124 4186
Untuk MD1, jumlah data pelatihan yang digunakan jauh lebih sedikit dari pada data pelatihan MD6. Seperti yang dapat dilihat pada tabel IV-22, waktu pengujian MD1 jauh lebih besar daripada waktu pelatihan MD6. Hal ini memang wajar karena, pada proses pelatihan MD1 digunakan nilai parameter nu=0.05 yang menyatakan jumlah support vector minimum yang akan dihasilkan.
Selain itu, tidak adanya informasi
label data membuat jumlah iterasi yang dibutuhkan cukup banyak untuk pencarian bidang pemisah terbaik. Berdasarkan hasil eksperimen pada skenario ini maka MD6 cukup scalable untuk data sampai dengan 750000 data dalam waktu kurang dari 1 jam. Akan tetapi, MD1 tidak scalable karena untuk pelatihan pada 100000 data
Jumlah Support Vector 2503 5010
IV-24
membutuhkan waktu lebih dari 1 jam. Dengan demikian MD1 sebaiknya hanya digunakan pada pelatihan menggunakan data lebih kecil dari 10000.
4.5.4 Upaya Peningkatan Kinerja Model Terbaik a.
Penggunaan nilai c berbeda untuk setiap kelas
Pada pelatihan dengan menggunakan nilai C berbeda untuk setiap kelas pada berbagai rasio data intrusi tidak terjadi perubahan performansi walaupun perbandingan nilai C sudah di set sampai nilai yang sangat ekstrim. Dengan kata lain, bidang pemisah terbaik yang dihasilkan tidak berubah. Hal ini menunjukkan bahwa bidang pemisah terbaik dapat ditemukan dengan mudah dan selama pelatihan tidak terjadi banyak error dalam klasifikasi. Meskipun demikian, dari hasil eksperimen sebelumnya dapat dilihat bahwa akurasi pada kelas data R2L dan U2R lebih kecil dibandingkan akurasi pada kelas lainnya. Berdasarkan hasil penelitian [KAY05], hampir tidak ada atribut yang relevan dengan jenis intrusi U2R dan R2L karena nilai information grain-nya sangat kecil. Selain itu, data R2L dan U2R ini memang mirip dengan data kelas normal. Oleh karena itu, masalah ketidakseimbangan data bukan penyebab utama dari rendahnya akurasi terhadap data dari kelas ini. b. Penghilangan atribut yang kurang penting (feature selection)
Perhitungan nilai f-score pada 500000 data hanya menghabiskan waktu 19,8 detik. Daftar nilai f-score untuk setiap atribut dapat dilihat pada lampiran I. Hal ini menunjukkan bahwa penggunaan feature selection dengan f-score ini sangat efisien. Pada tabel IV-23 dapat dilihat performansi MD6 pada data dengan jumlah datribut bervariasi dengan menghilangkan atribut yang nilai f-score-nya paling kecil. Dari hasil eksperimen ini dapat dilihat bahwa tidak terjadi perubahan performansi secara signifikan. Akan tetapi efisiensi yang dihasilkan lebih baik pada data dengan atribut yang lebih sedikit. Tabel IV-23 dan IV-24 juga menunjukkan bahwa ada ketika terjadi penurunan performansi berarti sudah ada atribut penting yang hilang.
IV-25
Tabel IV-23 Performansi MD6 dengan jumlah atribut bervariasi Jumlah Atribut 106
113
122
129
Jumlah Data Pelatihan 250000 500000 750000 250000 500000 750000 250000 500000 750000 250000 500000 750000
Akurasi pada setiap kategori (%) Dos 99,82 99,83 99,82 99,99 100 100 99,99 100 100 99,99 100 100
Efisiensi (detik)
Efektifitas (%)
Normal
Probe
U2R
R2L
DR
FP
99,85 99,90 99,91 99,88 99,92 99,92 99,88 99,92 99,92 99,88 99,92 99,92
98,49 99,25* 99,24* 98,49 99,25* 99,24* 98,49 99,21 99,20 98,49 99,21 99,20
87,39 93,04 92,17 87,39 93,04 92,17 87,39 93,04 92,17 87,39 93,04 92,17
20,00 30,00 0,00 30,00 30,00 0,00 30,00 30,00 0,00 30,00 30,00 0,00
99,81 99,82 99,81 99,98 99,99 99,99 99,99 99,99 99,99 99,99 99,99 99,99
0,15 0,10 0,09 0,12 0,08 0,08 0,12 0,08 0,08 0,12 0,08 0,08
Fmeasure 99,89 99,90 99,90 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98
Akurasi
Ttrain
Ttest
99,81 99,83 99,83 99,95 99,97 99,97 99,95 99,97 99,97 99,95 99,97 99,97
298 1932 3512 299 1864 3412 303 1887 3402 307 1974 3493
574 720 898 610 780 967 598 790 1001 606 80 1039
Gambar IV-18 Waktu pelatihan MD6 dengan jumlah data pelatihan dan jumlah atribut bervariasi
SV 863 963 1170 863 963 1170 863 963 1170 863 963 1170
IV-26
Tabel IV-24 Performansi MD1 dengan jumlah atribut data bervariasi Jumlah Atribut
106 113 122 129
Jumlah Data Pelatihan 50000 100000 50000 100000 50000 100000 50000 100000
Akurasi pada setiap kategori (%) Dos
Normal
Probe
0,00 0,00 0,00 0,00 24,61 27,32 24,61 27,32
100 100 100 100 100 100 100 100
100 100 100 100 99,93 99,93 99,93 99,93
Efisiensi (detik)
Efektifitas (%)
U2R
R2L
100 100 100 100 96,54 96,54 96,54 96,54
100 100 100 100 100 100 100 100
DR
FP
100 100 100 100 99,93 99,93 99,93 99,93
100 100 100 100 75,39 72,68 75,39 72,68
Fmeasure 88,97 88,97 88,97 88,97 91,42 91,70 91,42 91,70
Akurasi
Ttrain
Ttest
80,14 80,14 80,14 80,14 84,97 85,51 84,97 85,51
934 6484 1049 6483 1100 6395 1105 6565
1998 4187 2000 4087 2012 4200 2124 4186
Gambar IV-19 Waktu pelatihan MD1 dengan jumlah data pelatihan dan jumlah atribut bervariasi
c.
Pelatihan dengan data dalam jumlah besar dan update model dengan
incremental training Tabel IV-25 Parameter incremental training Teknik
β
Jumlah partisi
SVM Biner Multi Class SVM One-Against-One One Class SVM
0.6 0.001 -0.99
10 5 20
Tabel IV-26 Perubahan jumlah data pelatihan MD6 dengan incremental training Jumlah Awal 250000 500000 750000
Jumlah Akhir SVM Biner 5509 9984 26945
One-Against-One 719 4479 6843
SV 732 1047 1336
SV 2503 5010 2503 5010 2503 5010 2503 5010
IV-27 Tabel IV-27 Performansi MD6 dengan incremental training dan feature selection Jumlah Atribut
Jumlah Data pelatihan
113
122
129
250000 500000 750000 250000 500000 750000 250000 500000 750000
Efektifitas (%)
Efisiensi (detik)
DR
FP
F-measure
Akurasi
99,79 99,99 99,98 99,79 99,99 99,98 99,79 99,99 99,98
0,29 0,09 0,08 0,29 0,09 0,08 0,29 0,09 0,08
99,86 99,98 99,98 99,86 99,98 99,98 99,86 99,98 99,98
99,44 99,97 99,97 99,44 99,97 99,97 99,44 99,97 99,97
Ttrain 143 421 953 143 421 953 143 421 954
Ttest 525 762 913 537 751 940 547 791 1003
Gambar IV-20 Waktu pelatihan MD6 dengan incremental training pada jumlah data pelatihan dan jumlah atribut bervariasi
Pada tabel IV-25 dapat dilihat parameter untuk incremental training yang diperoleh dengan mencoba berbagai parameter pada sebagian kecil data. Pada tabel IV-26 dapat dilihat jumlah akhir data pelatihan yang jauh bertambah kecil. Dengan incremental training performansi MD6 tidak banyak berubah, tetapi efisiensinya jauh meningkat. Tabel IV-28 Perubahan jumlah data pelatihan MD1 dengan incremental training Jumlah Awal 250000 500000
Jumlah Akhir 520 760
SV 27 39
Pada tabel IV-28 dapat dilihat perubahan jumlah support vector pada MD1 menjadi jauh lebih kecil pada incremental training sesuai dengan jumlah data. Dalam eksperimen ini, efisiensi dan efektifitas SVM meningkat jauh. Efektifitas meningkat
IV-28
karena data yang menjadi support vector adalah data yang sangat mirip dengan data anomali (parameter beta bernilai negatif), sehingga akurasi menjadi jauh lebih tinggi. Tabel IV-29 Performansi MD1 dengan incremental training dan feature selection Jumlah Atribut
Jumlah Data pelatihan
113 122 129
50000 100000 50000 100000 50000 100000
Efektifitas (%) DR
FP
99,79 99,79 99,79 99,79 99,79 99,79
28,87 28,24 28,87 28,24 28,87 28,24
Efisiensi (detik)
F-measure
Akurasi
96,44 96,51 96,44 96,51 96,44 96,51
94,10 94,22 94,10 94,22 94,10 94,22
Ttrain 6 22 6 22 6 22
Ttest 51 68 57 69 65 72
Gambar IV-21 Waktu pelatihan MD1 dengan incremental training pada jumlah data pelatihan dan jumlah atribut bervariasi
4.6
Kesimpulan Hasil Eksperimen
Berikut ini adalah rekapitulasi kesimpulan yang diambil pasa setiap skenario eksperimen: a.
Replikasi hasil eksperimen paper acuan i. Penggunaan parameter hasil grid search dapat meningkatkan efektifitas SVM secara signifikan. ii. Penggunaan normalisasi data dapat meningkatkan efisiensi dan efektifitas SVM karena jumlah perhitungan bilangan besar menjadi jauh lebih sedikit. iii. Pada One Class SVM metode normalisasi data ke nilai maksimum dan minimum atribut adalah yang terbaik karena data menjadi lebih mudah untuk dipisahkan (nilai parameter g yang dibutuhkan lebih besar).
IV-29
iv. Pada SVM Biner metode normalisasi data [LAS05] dan metode normalisasi hasil analisis Tugas Akhir masing-masing lebih baik pada data kategori tertentu. Karena metode normalisasi [LAS05] lebih baik pada data kategori DOS (80% dari dataset) maka metode normalisasi ini lebih sesuai untuk data KDDCUP 99. b.
Perbandingan performansi alternatif implementasi SVM i. Model pendeteksian intrusi SVM Biner Æ Multi Class SVM One-AgainstOne adalah model misuse detection yang terbaik pada hasil gabungan seluruh skenario baik menggunakan data intrusi seimbang atau sebaliknya. Selain itu, waktu pelatihannya juga paling kecil. ii. Model pendeteksian intrusi One Class SVM dengan data pelatihan normal adalah model pendeteksian anomaly detection terbaik. iii. Performansi SVM menurun dengan menggunakan data intrusi yang tidak seimbang.
c.
Pengujian skalabilitas model terbaik i. Waktu pelatihan SVM jauh meningkat dengan bertambahnya data pelatihan karena melakukan pencarian solusi pada quadratic problem yang jumlah variabelnya sebanyak data pelatihan. ii. MD6 cukup scalable karena mampu melakukan pelatihan pada 750.000 data dalam waktu kurang dari 1 jam iii. MD1 tidak scalable karena untuk data pelatihan 100000 dibutuhkan waktu lebih dari 1 jam iv. Waktu pengujian sebanding dengan jumlah support vector hasil pelatihan
d.
Upaya peningkatan kinerja model terbaik i. Penggunaan nilai C berbeda tidak mampu menangani masalah imbalance dataset karena tidak terjadi perubahan performansi bahkan dengan menggunakan perbandingan nilai C yang sangat ekstrim. ii. Feature selection dengan f-score sangat efisien iii. Penghilangan atribut yang kurang penting dapat meningkatkan efisiensi SVM walaupun efektifitasnya cenderung tidak berubah. Akan tetapi jika terdapat atribut penting yang hilang maka efektifitas SVM akan menurun. iv. Pelatihan SVM dengan incremental training mampu meningkatkan efisiensi SVM dengan sangat signifikan. Pada One Class SVM, efektifitas bahkan dapat jauh meningkat.