DAFTAR REFERENSI [AKB04] Akbani, Rehan et. Al. 2004. Applying Support Vector Machine to Imbalanced Datasets. 2004. Proceedings of ECML-04. [BUR98] Burges, Christopher. A Tutorial On Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, 2(2):955-974. 1998. [CHA01] Chang, Chih-Chung, Chih-Jen Lin. LIBSVM: A Library for Support Vector Machines. 2001. [CHE03] Chen, Yi-Wei dan Chih-jen Lin. Combining SVM with Various Features Selection Strategies. 2003. Department of Computer Science, National Taiwan University [CHR00] Christianini, Nello dan John S. Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000 [CHR01] Christianini, Nello. Support Vector and Kernel Machines. ICML tutorial, 2001. [FAN05] Fan, Rong-En. et. al. 2005. Working set Selection using Second Order Information for Training Support Vector Machines. Journal of Machine Learning Research 6 1889-1918, 2005. [HAN01] Han, Jiawei, dan Micheline Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann Publisher, 2001 [HAN06] Han, Jiawei, dan Micheline Kamber. Chapter 11- Data Mining and Intrusion Detection. Lecture Notes: http://www.cs.uiuc.edu/~hanj/bk2/aI3Intrusion.ppt Diakses tanggal 20 September 2006. [HSU02] Hsu, Chih-Wei, Chih-Jen Lin. A Comparison of Methods for Multi-class Support Vector Machines. IEEE Transactions on Neural Networks, 13(2):415-425.2002. [HSU04] Hsu, Chih-Wei et al. A Practical Guide to Support Vector Classification. Department of Computer Science and Information Engineering, National Taiwan University. 2004. [KEN99] Kendall, Kristopher. A Database of Computer Attacks for the Evaluation of intrusion Detection Systems. MIT.1999. [KAY05] Kayacik, H. G. et. Al. 2005. Selecting Features for Intrusion Detection: A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets. Dalhouise University 2005. [LAS04] Laskov, Pavel et. Al. Intrusion detection in unlabeled data with quartersphere Support Vector machines. Fraunhofer-FIRST.IDA. 2004. [LAS05] Laskov, Pavel et. Al. Learning intrusion detection: supervised or unsupervised?. Fraunhofer-FIRST.IDA. 2005. [LAZ03] Lazarevic, Alaksander et al. A Comparative Study of Anomaly Detection Schemes in network Intrusion Detection. Proceeding of SIAM Conference on Data Mining. 2003. Lazarevic, Alaksander et al. Data Mining for Intrusion Detection. Tutorial on the Pacific-Asia Conference on Knowledge Discovery in Database. 2003.
xiv
[KAT06] Katagiri, Shinya dan Shigeo Abe. Incremental Training of Support Vector Machines Using Hyperspheres. Graduate School of Science and technology, Kobe University. 2006. [LIN05] Lin, Chih-Jen. 2005. Optimization, Support Vector Machines, and Mahine Learning. http://www.csie.ntu.edu.tw/%7Ecjlin/papers/rome.pdf. Diakses tanggal 10 Januari 2007. [LIP99] Lippman, Richard. et al. Evaluating Intrusion Detection Systems: The 1998 DARPA Off-line Intrusion Detection Evaluation . IEEE. 1999. [LEE01] Lee, Wenke, et al. Real Time Data Mining–based Intrusion Detection.2001. [LEE98] Lee, Wenke, S. J Stolfo. Data Mining Approaces for Intrusion Detection. Proceeding of the 1998 USENIX Security Simposium. 1998. [LEO01] Leonid,Pordnoy et al. Intrusion Detection With Unlabeled Data using Clustering. Lab Data Mining, Departemen Computer Science, Universitas Columbia. [MCH00] McHugh John, et al. Defending Yourself: The Role of Intrusion Detection Systems. IEEE Software. 2000. [MUK02A] Mukkamala, S. et al. Intrusion Detection Using Neural Networks and Support Vector Machines. IEEE IJCN. 2002. [MUK02B] Mukkamala, S. et al. Feature Selection for Intrusion Detection using Neural Networks and Support Vector Machines. 2003. [NAL05] Nalluri, Anitha, dan Dullal C. Kar. 2005. A Web Based System For Intrusion Detection. 2005. ACM [NOR02] Northcutt, Stephen dan Judy Novak. 2002. Nework Intrusion Detection, Third Edition. News Riders Publishing, 2002. [OSU97] Osuna, Edgar E. et. al.1997. Support Vector machines: Training and Applications. MIT, 1997. [QUA02] Quang, Anh tran et al.Evolving Support Vector Machine Parameters. Slide presentasi ICML. Tsinghua University, 2002. [SAR02] Sarle, Warren et.al. 2002. Neural Network FAQ. ftp://ftp.sas.com/pub/neural/FAQ2.html Diakses tanggal 14 Desember 2006. [SCH01] Schölkopf, Bernhard. Estimating the Support of High-Dimensional Distribution. Neural Computation 13,1443-1471. MIT. 2001. [WON07] Wong Wai-Tak dan Wen-Cheng Huang. Toward the Best Feature Model for Network Intrusion Detection using Stepwise Regression and Support Vector Macine. Chung Hua University, 2007 [VIS05] Visa, Sofia dan Anca Ralescu. Issues in Mining Imbalanced Data Sets- A Review Paper. 2005. [WWW07] http://www.ececs.uc.edu/~aralescu/PAPERS/VRMaics2005.pdf. Diakses 25 januari 2007 [WWW06A] KDD CUP 99 Task Description. http://kdd.ics.uci.edu/databases/kddcup99/task.html. Diakses tanggal 22 Oktober 2006. [WWW06B] LIBSVM FAQ. http://www.csie.ntu.edu.tw/%7Ecjlin/libsvm/faq.htm. Diakses tanggal 16 November 2006.
LAMPIRAN A DESKRIPSI DATASET KDDCUP 99 A.1 Distribusi Data Tabel A-1 Distribusi kelas intrusi Kelas data
Jenis intrusi
Jumlah data
DOS
Smurf, neptune, back, teardrop, pod, land.
3883370 (79.27%)
Normal
Normal
972780 (19.86%)
Probe
Satan, ipsweep, portsweep, nmap
41102
(0.839%)
R2L
warezclient,
1126
(0.023%)
52
(0.001%)
guess_passwd,
warezmaster,
imap,
ftp_write, multihop, phf, spy U2R
buffer_overflow, rootkit, loadmodule, perl.
Tabel A-2 Distribusi data pada setiap jenis intrusi dan service Kategori
DOS
Jenis Intrusi
Auth
Neptune
1.072.017
Domain
Back Teardrop
Satan IpSweep PortSweep Nmap warezclient guess_passwd warezmaster imap phf ftp_write multihop spy buffer_overflow rootkit U2R
Jenis Servis
2.807.886
Land
R2L
Kategori
Smurf
Pod
Probe
Jumlah Data
loadmodule perl
Domain_u
2.203
Jumlah Data 2.328 38 57.773
979
Eco_i
3.768
264
Ecr_i
3.456
21
Finger
5.017
ftp
15.892 12.481
ftp_data http
10.413 2.316 1.020 53 20 12 4
Imap4
8
IRC ntp_u Other pop_3 private Shell
7
Ssh
2 30
smtp
Normal
telnet Time
10
Tim_i
9 3
A-1
3.821 38.094 19.045 3 520 3.833 56.520 922 73.853 5 7 95.371 2.227 510 7
Red_i
9
Tftp_u
3
A-2 Kategori
Jenis Intrusi
Jumlah Data
Kategori
Jenis Servis Urp_i
Jumlah Data
X11 Urh_i
5.375 5 148
A.3 Daftar Atribut Tabel A-3 Deskripsi atribut data KDDCUP 99 Fitur dasar pada sebuah koneksi TCP No
Nama Atribut
Deskripsi
Tipe Data
1
duration
Durasi koneksi dalam detik
continuous
2
protocol_type
Jenis protokol misalnya tcp, udp, dan lain sebagainya
discrete
3
service
Layanan jaringan pada tujuan koneksi seperti http, telnet discrete dan lain sebagainya
4
src_bytes
Jumlah byte data dari sumber ke tujuan koneksi
continuous
5
dst_bytes
Jumlah byte data dari tujuan ke asal koneksi
continuous
6
flag
Status normal atau error koneksi
discrete
7
land
Bernilai 1 jika koneksi berasal dari host/port yang sama, discrete bernilai 0 jika sebaliknya
8
wrong_fragment
Jumlah fragment data yang salah
9
urgent
Jumlah urgent packets
continuous continuous
Fitur konten yang disarankan oleh pakar dalam bidang pendeteksian intrusi No
Nama Atribut
Deskripsi
Tipe Data
10
hot
Jumlah “hot'' indicators
continuous
11
num_failed_logins
Jumlah usaha login yang gagal
continuous
12
logged_in
Bernilai 1 jika berhasil login, 0 jika sebaliknya
discrete
13
num_compromised
Jumlah “compromised'' conditions
continuous
14
root_shell
Bernilai 1 jika root shell berhasil diperoleh dan bernilai discrete 0 jika sebaliknya
15
su_attempted
Bernilai 1 jika perintah “su root'' dicoba, 0 jika tidak
discrete
16
num_root
Jumlah akses ''root''
continuous
17
num_file_creations
Jumlah file yang dibuat
continuous
18
num_shells
Jumlah shell prompt
continuous
19
num_access_files
Jumlah operasi pada access control files
continuous
20
num_outbound_cmds
Jumlah outbound commands dalam sebuah sesi ftp
continuous
A-3
Fitur konten yang disarankan oleh pakar dalam bidang pendeteksian intrusi No
Nama Atribut
Deskripsi
Tipe Data
21
is_hot_login
Bernilai 1 jika login terdaftar dalam “hot'' list dan bernilai 0 jika sebaliknya.
discrete
22
is_guest_login
Bernilai 1 jika jika menggunakan login guess, dan bernilai 0 jika sebaliknya
discrete
Fitur traffic yang dihitung dalam window waktu dua detik No 23
Nama fitur
Deskripsi
Tipe Data
Jumlah koneksi ke host yang sama oleh sebuah koneksi dalam dua detik terakhir
count
continuous
Catatan: Fitur berikut merujuk pada koneksi ke host yang sama ini 24 serror_rate
Persentase jumlah koneksi yang memiliki error “SYN”
continuous
25 rerror_rate
Persentase jumlah koneksi yang memiliki error “REJ”
continuous
26 same_srv_rate
Persentase jumlah koneksi ke service yang sama
continuous
27 diff_srv_rate
Persentase jumlah koneksi ke service yang berbeda
continuous
28
Jumlah koneksi ke servis yang sama dalam koneksi saat ini dalam continuous dua detik terakhir
srv_count
Catatan: Fitur berikut ini merujuk pada servis yang sama ini 29 srv_serror_rate
Persentase jumlah koneksi yang memiliki “SYN” error
continuous
30 srv_rerror_rate
Persentase jumlah yang mempunyai “REJ”
continuous
31 srv_diff_host_rate Persentase jumlah koneksi ke host yang berbeda
continuous
Fitur host-based traffic yang dihitung menggunakan sebuah window 100 koneksi ke host yang sama. No
Nama fitur
Deskripsi
Tipe Data
32
dst_host_count
Jumlah koneksi yang memiliki tujuan host yang sama
continuous
33
dst_host_serror_rate
Persentase jumlah koneksi ke host saat ini yang mempunyai sebuah S0 error
continuous
dst_host_rerror_rate
Persentase jumlah koneksi ke host saat ini yang mempunyai sebuah RST error
continuous
dst_host_same_srv_rate
Persentase jumlah koneksi yang memiliki tujuan host yang sama dengan menggunakan servis yang sama
continuous
dst_host_diff_srv_rate
Persentase jumlah koneksi ke servis yang sama tetapi berasal dari host yang berbeda
continuous
dst_host_same_src_port_rate
Persentase jumlah koneksi ke host yang sama dan mempunyai src port yang sama
continuous
dst_host_srv_count
Jumlah koneksi yang mempunyai tujuan host yang sama dan menggunakan servis yang sama
continuous
dst_host_srv_serror_rate
Persentase koneksi ke host saat ini dengan servis tertentu yang memiliki S0 error
continuous
34 35
36 37 38
39
A-4 40
dst_host_srv_rerror_rate
Persentase jumlah koneksi ke host saat ini yang mempunyai RST error
continuous
Fitur host-based traffic yang dihitung menggunakan sebuah window 100 koneksi ke host yang sama. No 41
Nama fitur dst_host_srv_diff_host_rate
Deskripsi Persentase jumlah koneksi ke servis yang sama dan berasal dari host yang berbeda
Tipe Data continuous
LAMPIRAN B STRUCTURAL RISK MINIMIZATION (SRM) SRM bertujuan untuk menjamin batas atas dari generalisasi pada data pengujian dengan cara mengontrol ”kapasitas” (fleksibilitas) dari hipotesis hasil pembelajaran. Untuk mengukur kapasitas ini digunakan dimensi Vapnik-Chervonenkis (VC) yang merupakan properti dari ruang hipotesis
{ f (α )} .
Nilai dari dimensi VC ini,
berdasarkan teori pembelajaran statistik akan menentukan besarnya nilai kesalahan hipotesis pada data pengujian. Lebih jelasnya, besar kesalahan pada data pengujian/ actual risk R(α ) dengan probabilitas sebesar 1 − η ,0 ≤ η ≤ 1 ,
pada dataset yang
terdiri dari n data dapat dilihat pada persamaan (B.1). Remp (α ) adalah kesalahan pada data pelatihan dan h adalah dimensi VC. ⎛ ⎛ ⎛ 2l ⎞ ⎞ η ⎞ ⎜ h⎜⎜ log⎜ ⎟ + 1⎟⎟ − log⎛⎜ ⎞⎟ ⎟ ⎜ ⎝ 4⎠⎟ ⎝h⎠ ⎠ R(α ) ≤ Remp (α ) + ⎜ ⎝ ⎟ l ⎜ ⎟ ⎜ ⎟ ⎝ ⎠
(B.1)
Nilai VC confidence (nilai elemen kedua pada ruas kanan (B.1) ), ditentukan oleh hipotesis/ fungsi hasil pembelajaran [BUR98]. Jadi, prinsip SRM adalah menemukan subset dari ruang hipotesis yang dipilih sehingga batas atas actual risk dengan menggunakan subset tersebut diminimumkan. SRM bertujuan untuk meminimumkan
actual risk dengan cara meminimumkan kesalahan pada data pelatihan dan juga VC confidence. Namun, implementasi SRM tidak dilakukan dengan meminimumkan persamaan (B.1) karena dimensi VC dari ruang hipotesis { f (α )} sulit untuk dihitung dan hanya terdapat sedikit model hipotesis yang diketahui bagaimana cara menghitung dimensi VC-nya [OSU97].
Selain itu, walaupun dimensi VC dapat
dihitung, tidak mudah meminimumumkan persamaan (B.1).
B-1
LAMPIRAN C MULTI CLASS SVM C.1
Metode ”One-Against-All”
Dengan menggunakan metode ini, dibangun k buah model SVM biner (k adalah jumlah kelas). Setiap model klasifikasi ke-i dilatih dengan menggunakan keseluruhan data, untuk mencari solusi permasalahan (C.1). Contohnya, terdapat permasalahan klasifikasi dengan 4 buah kelas. Untuk pelatihan digunakan 4 buah SVM biner seperti pada tabel C-1 dan penggunannya dalam mengklasifikasi data baru dapat dilihat pada gambar C-1.
min i i j
w ,b ,ξ
( )
1 i w 2
T
w i + C ∑ ξ ti t
( ) φ ( x ) + b ≥ 1 − ξ → y = i, (w ) φ (x ) + b ≥ −1 + ξ → y ≠ i, s.t w
i T
i
i t
t
i T
i
i t
t
(C.1)
t
t
ξ ≥0 i t
Tabel C-1 Contoh 4 SVM biner dengan metode One-against-all
yi = 1
yi = −1
Hipotesis
Kelas 1
Bukan kelas 1
f 1 ( x ) = ( w1 ) x + b 1
Kelas 2
Bukan kelas 2
f 2 ( x) = ( w 2 ) x + b 2
Kelas 3
Bukan kelas 3
f 3 ( x) = ( w 3 ) x + b 3
Kelas 4
Bukan kelas 4
f 4 ( x) = ( w 4 ) x + b 4
f 1 ( x)
f 2 ( x)
f 3 ( x)
f 4 ( x)
Gambar C-1 Contoh klasifikasi dengan metode One-against-all
C-1
C-2
C.2
Metode ”One-Against-One”
Dengan menggunakan metode ini, dibangun
k (k − 1) buah model klasifikasi biner (k 2
adalah jumlah kelas). Setiap model klasifikasi dilatih pada data dari dua kelas. Untuk data pelatihan dari kelas ke-i dan kelas ke-j, dilakukan pencarian solusi untuk persoalan optimasi konstrain sebagai berikut:
min ij ij ij
w ,b ,ξ
( )
1 ij w 2
T
w ij + C ∑ ξ tij t
( ) φ ( x ) + b ≥ 1 − ξ → y = i, (w ) φ (x ) + b ≥ −1 + ξ → y = j, s.t w
ij T
ij
ij t
t
ij T
ij
t
ij t
(C.2)
t
t
ξ ≥0 ij t
Terdapat beberapa metode untuk melakukan pengujian setelah keseluruhan k (k − 1) / 2 model klasifikasi selesai dibangun. Salah satunya adalah metode voting [HSU02]. Tabel C-2 Contoh 6 SVM biner dengan metode One-against-one
yi = 1
y i = −1
Hipotesis
Kelas 1
Kelas 2
f 12 ( x ) = ( w12 ) x + b12
Kelas 1
Kelas 3
f 13 ( x) = ( w13 ) x + b13
Kelas 1
Kelas 4
f 14 ( x) = ( w14 ) x + b14
Kelas 2
Kelas 3
f
23
( x ) = ( w 23 ) x + b 23
Kelas 2
Kelas 4
f
24
( x) = ( w 24 ) x + b 24
Kelas 3
Kelas 4
f 34 ( x) = ( w34 ) x + b 34
Jika data x dimasukkan ke dalam fungsi hasil pelatihan ( f ( x) = (w ij ) φ ( x ) + b ) dan .T
hasilnya menyatakan menyatakan x adalah kelas i, maka suara untuk kelas i ditambah satu. Kelas dari data x akan ditentukan dari jumlah suara terbanyak. Jika terdapat dua buah kelas yang jumlah suaranya sama, maka kelas yang indeksnya lebih kecil dinyatakan sebagai kelas dari data. Jadi pada pendekatan ini terdapat k (k − 1) / 2 buah permasalahan quadratic programming yang masing-masing memiliki 2n / k variabel (n adalah jumlah data pelatihan). Contohnya, terdapat permasalahan klasifikasi
C-3
dengan 4 buah kelas. Oleh karena itu, digunakan 6 buah SVM biner seperti pada tabel C-2 dan contoh penggunaanya dalam memprediksi kelas data baru dapat dilihat pada gambar C-2. Xi
f 12 ( x )
f 13 ( x )
f 14 ( x )
f 23 ( x )
f 24 ( x)
f 34 ( x )
Kelas 1
Kelas1
Kelas 1
Kelas 2
Kelas 4
Kelas 3
Voting
Kelas 1 Gambar C-2 Contoh klasifikasi dengan metode One-against-one
C.3 Metode DAGSVM (Directed Acyclic Graph Support Vector Machine) Pelatihan dengan menggunakan metode ini sama dengan metode one-against-one, yaitu dengan membangun
k (k − 1) buah model klasifikasi SVM biner. Akan tetapi, 2
pada saat pengujian digunakan binary directed acyclic graph. Setiap node merupakan model SVM biner dari kelas ke-i dan kelas ke-j. Pada saat memprediksi kelas data pengujian, maka hipotesis dievaluasi mulai dari simpul akar, kemudian bergerak ke kiri atau ke kanan tergantung nilai output dari hipotesis. Tabel C-3 Contoh 6 SVM biner dengan metode DAGSVM
yi = 1
yi = −1
Hipotesis
Bukan Kelas 2
Bukan Kelas 1
f 12 ( x) = ( w12 ) x + b12
Bukan Kelas 3
Bukan Kelas 1
f 13 ( x ) = ( w13 ) x + b13
Bukan Kelas 4
Bukan Kelas 1
f 14 ( x) = ( w14 ) x + b14
Bukan Kelas 3
Bukan Kelas 2
f 23 ( x) = ( w 23 ) x + b 23
Bukan Kelas 4
Bukan Kelas 2
f 24 ( x) = ( w 24 ) x + b 24
Bukan Kelas 4
Bukan Kelas 3
f 34 ( x) = ( w34 ) x + b 34
C-4
xi
f 12 ( x ) Not 1
Not 2
f 23 ( x ) Not 2
Kelas 3
Not 3
Not 3
Not 3
Kelas 4
Not 4
Kelas 2
Not 1
f 14 ( x )
f 24 ( x)
f 34 ( x ) Not 4
f 13 ( x )
Not 2
Kelas 4
f 34 ( x )
Not 4
Not 1
Kelas 1
Kelas 4
Gambar C-3 Contoh klasifikasi dengan metode DAGSVM
Not 4
Not 3
Kelas 3
Kelas 4
LAMPIRAN D ALGORITMA D.1
Algoritma Decomposition
Decomposition bekerja berdasarkan prinsip ’working set’. Metode ini hanya mengubah beberapa multiplier α i dalam jumlah tertentu pada setiap iterasi, sementara nilai yang lain bernilai tetap. Working set merupakan kumpulan variabel yang sedang dioptimasi pada current iteration. Jadi, prinsip decomposition adalah mengoptimasi masalah global dengan hanya menggunakan sebagian kecil data pada satu saat. Teknik dekomposisi secara matematis dapat direpresentasikan dalam notasi matriks. Misalkan α = (α 1 ,...α l ) T , y = ( y1 ,... y l ) T , Qij = yi y j K ( xi , x j ) , dan e merupakan
vektor dengan jumlah elemen sebanyak l (jumlah data pelatihan) dan semuanya bernilai 1. Maka SVM dual problem dapat dituliskan sebagai berikut:
1 max e T α − α T Qα α 2 s.t.0 ≤ α i ≤ C , i = 1...l
(D.1)
yTα = 0 Misalnya vektor α dibagi menjadi α B yang menyatakan variabel yang dimasukkan ke dalam working set, dan α N merupakan variabel sisanya. Selanjutnya matrix Q dapat
⎡QBB QBN ⎤ dipartisi menjadi Q = ⎢ ⎥ , dimana setiap bagiannya ditentukan oleh Q Q NB NN ⎣⎢ ⎦⎥ himpunan indeks B dan N. SMO menggunakan working set berelemen dua sehingga pencarian solusi optimal dapat dilakukan secara analitis seperti contoh sederhana diatas. Hal ini tentunya akan mengakibatkan jumah iterasi semakin bertambah, akan tetapi karena waktu yang dibutuhkan dalam setiap iterasi sangat kecil maka waktu total pelatihan menjadi lebih singkat. Berikut ini adalah algoritma decomposition dengan menggunakan working set berelemen dua yang digunakan pada LibSVM:
D-1
D-2 1. Temukan variabel awal α 1 yang feasible, set k=1 ( α 1 adalah vektor berisi semua nilai α ). 2. Jika
α k merupakan titik stationer dari (D.1) , berhenti. Jika tidak, tentukan
working set B = {i, j} 3. Jika α ij ≡ K ij + K jj − 2 K ij > 0 selesaikan sub-problem α B :
min α i ,α j
[
1 T αB 2
(α )
k T N
] ⎡⎢⎢QQ ⎣
BB NB
[
]
⎡α B ⎤ ⎡α B ⎤ T T ⎢ k ⎥ − eB eN ⎢ k ⎥ ⎣α N ⎦ ⎣α N ⎦
Q BN ⎤ ⎥ Q NN ⎦⎥
1 = α BT Q BBα B + (−e B + Q BN α Nk ) T α B + kons tan 2 ⎡Qii Qij ⎤ ⎡α i ⎤ T ⎡α i ⎤ 1 = [α i α j ] ⎢ ⎥ ⎢ ⎥ + − e B + Q BN α Nk ⎢ ⎥ + kons tan (D.2) 2 ⎢⎣Qij Q jj ⎥⎦ ⎣α j ⎦ ⎣α j ⎦
(
)
s.t.0 ≤ α t ≤ C , t ∈ B y BT α BT = − y TN y Nk Jika tidak selesaikan: 1 min [α i α j ] α i ,α j 2 +
τ − a ij
((α
i
⎡Qii Qij ⎤ ⎡α i ⎤ ⎢ ⎥ ⎢ ⎥ + − e B + Q BN α Nk ⎢⎣Qij Q jj ⎥⎦ ⎣α j ⎦
− ik
(
) + (α 2
i
4 s.t konstrain dari ( D.1)
4. Set
− kj
)
T
⎡α i ⎤ ⎢α ⎥ ⎣ j⎦
)) 2
α Bk +1 sebagai solusi optimal dari subproblem pada langkah 3 dan
α Nk +1 ≡ α Nk .Set k ← k + 1 , lanjutkan ke langkah kedua. α k merupakan titik stationer dari (D.2), jika dan hanya jika m(α ) ≤ M (α ) yang
merupakan Karush-Kuhn-Tucker (KKT) condition [CHA01]. Dimana:
m(α ) ≡ max − yi ∇f (α ) i i∈I up (α )
M (α ) ≡ min − yi ∇f (α ) i i∈I low (α )
I up (α ) ≡ { t | α t < C , yt = 1 atau α t > 0, yt = −1}
I low (α ) ≡ { t | α t < C , yt = −1 atau α t > 0, yt = 1}
∇f (x ) ≡ Qα + e
(D.3)
D-3 Untuk
mentoleransi
kondisi
berhenti
terdapat
parameter
tambahan
ε
( m(α ) − M (α ) ≤ ε ), yang idealnya bernilai 0. Akan tetapi, dalam prakteknya dapat digunakan nilai yang lebih besar (misalnya pada LibSVM dan SVMLight digunakan nilai default ε = 10 −3 ), sehingga jumlah iterasi menjadi lebih kecil. Hal yang penting diperhatikan agar algoritma decomposition berjalan lebih cepat adalah pemilihan working set yang akan mengkibatkan solusi permasalahan global (2.19) lebih cepat dicapai. Nilai α yang dimasukkan ke dalam working set adalah varibel yang paling melanggar KKT condition. Pseudocode algoritma decomposition diatas beserta pemilihan working set dapat dilihat pada bagian D.2.
Strategi lainnya untuk mempercepat algoritma decomposition adalah shrinking dan caching yang pertama kali diperkenalkan oleh Joachim. Shrinking merupakan strategi heuristik yang memperkecil permasalahan pencarian solusi untuk persoalan optimasi diatas dengan mengabaikan beberapa bounded support vector ( α = C ). Hal ini dapat dilakukan karena umumnya nilai bounded support vector setelah beberapa iterasi dapat diidentifikasi dan bernilai tetap sampai akhir iterasi [LIN05]. Akan tetapi, apabila solusi permalsahan dengan menerapkan shrinking bukan solusi optimal untuk (2.23) maka optimasi dilanjutkan dengan menggunakan keseluruhan variabel. Seperti yang dilihat diatas algoritma decomposition melakukan iterasi sampai solusi persamaan (2.19) ditemukan. Dalam setiap iterasi nilai elemen matriks Qij digunakan. Agar tidak perlu dilakukan perhitungan ulang nilai Qij maka nilai Qij yang baru digunakan disimpan di memori sehingga waktu komputasi yang dibutuhkan menjadi jauh lebih singkat. Strategi ini disebut dengan caching.
D-4
D.2
Pseudocode Algoritma Decomposition [FAN05]
y : array of {+1,-1}: kelas dari instance ke-i Q : Q[i][j] = y[i]*y[j]*K[i][j]; K: matriks kernel len : jumlah instance //parameter eps = 1e-3, tau = 1e-12 //program utama Inisialisasi elemen array alpha A dgn nilai 0 & elemen gradien G dengan nilai -1 While true do (i,j)=selectB() // pilih working set if(j==-1) break a=Q[i][j]+Q[j][j]-2*y[i]y[j]*Q[i][j] if(a<=0) a=tau b=-y[i]*G[i]+y[j]*G[j] //update alpha oldAi=A[i],oldAj=A[j] A[i]+=y[i]*b/a A[j]+=y[j]*b/a if A[i]>C A[i]=C if A[i]<0 A[i]=0 A[j]=y[j]*(sum-y[i]*A[i]) if A[j]>C A[j]=C if A[j]<0 A[j]=0 A[i]=y[i]*(sum-y[j]*A[i]) //update gradien deltaAi=A[i]-oldAi, deltaAj=A[j]-oldAj for t=1 to len G[t]+=Q[t][i]*deltaAi+Q[t][j]*deltaAj end while procedure selectB i=-1 //select i G_max=-infinity, G_min = infinity for t=1 to len if (y[t]==+1 and A[t]
0) then if(-y[t]*G[t]>=G_max) then i=t G_max=-y[t]*G[t] End if End if j=-1 //select j obj_min=infinity for t=1 to len if (y[t]==+1 and A[t]>0) or (y[t]==-1 and A[t]0) then a=Q[i][i]+Q[t][t]-2*y[i]*y[t]*Q[i][t] if(a<=0) a=tau if(-(b*b)/a <= obj_min) then j=t , obj_min=-(b*b)/a end if end if end if if(G_max-G_min < eps) return (-1,-1) return (i,j) end procedure
D-5
D.3
Incremental Training dengan SVM
Jika terdapat data pelatihan baru dan model hasil pelatihan yang lama ingin diperbaharui, maka dari data pelatihan lama cukup diambil sebagian data yang menjadi kandidat support vector. Kandidat support vector adalah data yang memenuhi y ( x) f ( x) <= 1 . Selain itu, data yang memenuhi y ( x) f ( x) > 1 tetapi dekat dengan y ( x) f ( x) = 1 dapat menjadi support vector [KAT06]. Oleh karena itu kita dapat menentukan apakah sebuah data merupakan kandidat support vector dengan cara memeriksa data yang memenuhi : y ( x) f ( x) <= β + 1 y ( x) f ( x) ≥ 1
(D.4)
(D.5) dimana β adalah parameter yang ditentukan pengguna. Jika data tidak memenuhi persamaan (3.3) maka data tersebut dihapus. Akan tetapi jika semua data memenuhi (3.4) maka fungsi keputusan setelah pelatihan tidak berubah sehingga hanya data yang memenuhi (3.3) yang perlu ditambahkan pada pelatihan berikutnya. Misalkan kita mempunyai dataset awal Xa dan dataset tambahan Xb. Algoritma untuk incremental training [KAT06] adalah sebagai berikut: a. Lakukan pelatihan SVM dengan menggunakan Xa b. Tambahkan dataset Xb sehingga X a = X a ∪ X b c.
If for x ∈ X a , (D.4) tidak dipenuhi, buang data x X a = X a − {x}
d. If for x ∈ X a , (D.5) tidak dipenuhi, lakukan pelatihan ulang SVM e. Ulangi langkah b, c dan d.
D-6
D.4
Algoritma Untuk Menghasilkan Kurva ROC
Len : integer // jumlah data pengujian F(x) : //fungsi keputusan dec_values[Len,Len] : array of float // nilai hasil F(x), kelas dari //instance x arr_x[Len] : array of x // data pengujian arr_y : array of {+1,-1}: kelas dari instance ke-i nb_pos : integer // jumlah data positif nb_neg : integer // jumlah data negative tp : integer // true positive fp : integer //false positive roc_data : roc_data[Len][Len] // data kurva //program utama read_svm_problem (arr_x,arr_y) F(x) = train_svm(arr_x) for i=1 to len dec_value[i] = F(arr_x[i]) if arr_y[i] == then nb_pos++ else nb_neg++ end if end for sort_on_decision_value(dec_values,arr_y[i]) //calculate ROC For i=1 to len If(dec_value[i]>0 and arr_y[i] == 1) then tp++ else fp++ end if roc_data[i,i] = [fp/neg],[tp/p] End for //draw curve plot(roc_data)
LAMPIRAN E HASIL PENELITIAN PENDETEKSIAN INTRUSI DENGAN SVM E.1
Penelitian pada [MUK02A]
Pada penelitian ini digunakan dataset yang terdiri dari 14292 data, 7312
untuk
pelatihan dan 6980 untuk pengujian. Pada penelitian ini diterapkan SVM biner dengan kernel RBF. Untuk melakukan eksperimen, peneliti menggunakan SVM Light. Parameter yang digunakan adalah C=1000 dan g=1.
Penerapan SVM pada
eksperimen ini menghasilkan akurasi 99,5%.
E.2
Penelitian pada [MUK02B]
Pada penelitian ini digunakan Multi Class SVM One Against All (tediri dari 5 kelas DOS, Normal, Probe, R2L, U2R) dengan dataset dan hasil yang diperoleh seperti pada tabel E-1. Tabel E-1 Eksperimen [MUK02B] Kelas
Jumlah data Pelatihan
Pengujian
1000
1400
Probe
500
DOS
Akurasi (%)
Waktu (detik) Pelatihan
Pengujian
99,55
7,66
1,36
700
99,7
49,13
2,1
3002
4207
99,25
22,87
1,92
U2R
27
20
99,87
3,38
1,05
R2L
563
563
99,78
11,54
1,02
Total
5092
6980
94,58
7,46
Normal
E.3
Penelitian pada [LAS04]
Dalam penelitian ini digunakan One Class SVM untuk unsupervised anomaly detection. Eksperimen yang dilakukan pada penelitian ini membandingkan One Class SVM standar dengan hasil modifikasinya yang diberi nama Quarter Sphere Support Vector Machine. Preprocessing data dengan menggunakan metode data dependent normalization untuk atribut numerik dan card coordinates untuk atribut diskrit.
E-1
E-2 Eksperimen dilakukan dengan menggunakan tiga skenario. Skenario pertama menggunakan parameter nu sama dengan rasio data intrusi, skenario kedua menggunakan parameter nu tetap sedangkan rasio data intrusi bervariasi, sedangkan pada scenario ketiga
rasio data intrusi bervariasi dan parameter nu bervariasi.
Berdasarkan hasil eksperimen [LAS04] performansi One Class SVM standar bergantung pada parameter nu. Hasilnya dapat dilihat pada gambar E-1, E-2 dan E-3.
Gambar E-1 hasil [LAS04] pada penggunaan parameter nu = rasio intrusi
Gambar E-2 Hasil [LAS04] pada penggunaan parameter nu=0.05 dan rasio intrusi bervariasi
E-3
Gambar E-3 Hasil [LAS04] pada penggunaan rasio intrusi 0.05 dan nu bervariasi
E.4
Penelitian pada [LAS05]
Experimen yang dilakukan pada penelitian ini menggunakan dua skenario. Skenario pertama dengan distribusi data intrusi yang merata pada data pelatihan dan pengujian, sedangkan pada skenario kedua terdapat data-data intrusi yang belum pernah muncul pada data pengujian. Selain itu, pada penelitian ini digunakan SVM dan Quartersphere SVM yang merupakan modifikasi dari One Class SVM. Preprocessing data dengan menggunakan metode data dependent normalization untuk atribut numerik dan 1-of-c encoding untuk atribut diskrit. Sekitar 75% dari data ini mengandung data intrusi yang didominasi oleh denial of service dan probes. Oleh karena itu, pada penelitian ini dilakukan beberapa tahap preprocessing. Tahap preprocessing dimulai dengan pembagian data ke dalam partisi terpisah sehingga satu partisi yang mengandung satu jenis intrusi. Selanjutnya data normal juga dipisahkan ke dalam partisi sehingga hanya mengandung satu servis saja. Kemudian, partisi yang telah dihasikan digabungkan menjadi 3 buah partisi dengan ukuran yang sama, masing-masing untuk data pelatihan, data validasi dan data pengujian. Prosedur ini memastikan terdapatnya setiap jenis intrusi dan jenis servis pada ketiga partisi data. Pada tahapan preprocessing kedua, sebanyak 2000 sampel
E-4 data diambil secara acak dari pelatihan, pengujian dan validasi. Prosedur sampling disini, memastikan jumlah data intrusi sebanyak 5%, dan menjaga keseimbangan distribusi setiap jenis intrusi dan servis. Hasil penelitian ini adalah algoritma dengan pendekatan supervised learning secara umum, mampu mendeteksi intrusi yang jenisnya diketahui dengan akurasi yang sangat tinggi dibandingkan dengan pendekatan unsupervised learning. Hasil terbaik diperoleh oleh C4.5 dengan akurasi 95% dan false positive 1%, selanjutnya diikuti oleh SVM nonlinier dan MLP dengan perbedaan yang sangat kecil seperti pada gambar E-4. Namun, ketika algoritma ini diuji pada data yang mengandung jenis intrusi yang tidak diketahui, secara umum performansinya menurun secara drastis (lihat gambar E-5). Hasil terbaik diperoleh oleh SVM dengan perbedaan yang signifikan dibandingkan teknik lainnya.
Gambar E-4 Hasil [LAS05] pada data pengujian yang tidak mengandung data intrusi jenis baru
E-5
Gambar E-5 Hasil [LAS05] pada pengujian yang mengandung jenis intrusi baru
LAMPIRAN F ALTERNATIF IMPLEMENTASI SVM UNTUK PENDETEKSIAN INTRUSI PADA JARINGAN F.1 Anomaly Detection SVM dapat digunakan untuk menerapkan anomaly detection dengan menggunakan One Class SVM. Ada dua cara pembelajaran dengan One Class SVM yaitu : a. Supervised [LAZ03]: pembelajaran dengan menggunakan data normal (tidak ada data intrusi sama sekali) b. Unsupervised [LAS04]: pembelajaran tanpa mengetahui informasi apapun pada data pelatihan (data pelatihan mungkin mengandung data intrusi). Jelas dalam hal akurasi pendekatan supervised akan lebih baik (menurut [LAS04]), tetapi dalam hal jumlah false positive (masalah utama One Class SVM) belum jelas.
F.2 Misuse Detection Untuk mengimplementasikan SVM menggunakan metode misuse detection dapat digunakan SVM biner atau Multi Class SVM. Terdapat 3 metode umum yang dapat digunakan dalam menerapkan multi class SVM yaitu one-against-one, one-againstall, dan DAGSVM. Untuk pendeteksian intrusi maka metode one-against-one dan DAGSVM lebih baik daripada one-against-all karena
waktu pelatihannya lebih
singkat. Selain itu, pada penelitian [HSU02] telah dilakukan perbandingan ketiga metode ini. Hasilnya,”One-Against-One” dan DAG SVM umumnya memerlukan jumlah support vector yang lebih sedikit untuk dataset yang besar. Selain itu, OneAgainst-One umumnya memiliki akurasi sedikit lebih baik pada berbagai dataset yang dicoba. Meskipun demikian, terdapat salah satu kelebihan dari metode one-against-all yaitu dimungkinkanya terdapat data yang kelasnya tidak diketahui. Data yang kelasnya tidak diketahui dalam konteks pendeteksian intrusi data yang belum pernah dilihat sebelumnya (mungkin data normal atau data intrusi jenis baru). Meskipun demikian, dalam aplikasi lain banyak juga yang mengklasifikasikan data menggunakan One-
F-1
F-2 Against-All berdasarkan nilai maksimum f(x), sehingga tidak dimungkinkan terdapatnya kelas unknown. DAG SVM dan One-Against-One hanya berbeda pada metode pengujiannya dan berdasarkan penelitian [HSU02], keduanya memiliki performansi yang sama. Oleh karena itu, pada Tugas Akhir ini pendekatan OneAgainst-One dan One-Against-All akan diimplementasikan. Multi Class SVM yang diimplementasikan terdiri dari 5 kelas seperti pada [MUK02B] (Denial of Service, User to Root, Remote to User, Probes dan satu kelas data normal). Selain metode One-Against-One dan metode One-Against-All yang umum digunakan untuk multi class SVM, dieksplorasi juga strategi multi class SVM yang terdiri dari dua tahap. Pada tahap pertama digunakan SVM biner yang menentukan apakah sebuah data adalah data kelas normal atau intrusi. Selanjutnya jika data diprediksi sebagai intrusi maka untuk menentukan jenis intrusi digunakan multi class SVM (dengan menggunakan One-Against-One atau One-Against-All). Berikut ini adalah strategi implementasi misuse detection dengan SVM, yang akan dieksplorasi pada Tugas Akhir ini: a. SVM Biner SVM biner diimplementasikan dalam dua kelas yaitu kelas normal dan intrusi. b. Multi Class SVM One-Against All Dengan metode ini maka digunakan SVM biner sebanyak jumlah kelas. Daftar SVM biner yang digunakan dapat dilihat pada tabel F-1. Tabel F-1 5 SVM Biner untuk Multi Class SVM One-against-all
yi = 1
yi = −1
DOS
Bukan DOS
Normal
Bukan Normal
Hipotesis
Data Pelatihan
f 1 ( x ) = ( w1 ) x + b 1 f 2 ( x) = ( w 2 ) x + b 2
Probe
Bukan Probe
f 3 ( x) = ( w 3 ) x + b 3
U2R
Bukan U2R
f 4 ( x) = ( w 4 ) x + b 4
R2L
Bukan R2L
f 5 ( x) = ( w5 ) x + b 5
Semua
F-3
c. Multi Class SVM One-Against One Dengan metode ini maka digunakan SVM biner sebanyak n(n-1)/2, n adalah jumlah kelas. Daftar SVM biner yang digunakan dapat dilihat pada tabel F-2. Tabel F-2 10 SVM Biner untuk Multi Class SVM One-against-one
yi = 1
yi = −1
Hipotesis
Data Pelatihan
DOS
Normal
f 12 ( x ) = ( w12 ) x + b12
Dos dan Normal
DOS
Probe
f 13 ( x ) = ( w13 ) x + b13
Dos dan Probe
DOS
U2R
f 14 ( x) = ( w14 ) x + b 14
Dos dan U2R
DOS
R2L
f 15 ( x ) = ( w15 ) x + b15
Dos dan R2L
Normal
Probe
f
23
( x) = ( w 23 ) x + b 23
Normal dan Probe
Normal
U2R
f
24
( x) = ( w 24 ) x + b 24
Normal dan U2R
Normal
R2L
f
25
( x) = ( w 25 ) x + b 25
Normal dan R2L
Probe
U2R
f 34 ( x) = ( w 34 ) x + b 34
Probe dan U2R
Probe
R2L
f 35 ( x) = ( w 35 ) x + b 35
Probe dan R2L
U2R
R2L
f
45
( x) = ( w 45 ) x + b 45
U2R dan R2L
d. SVM Biner Æ Multi Class SVM One-Against One Dengan metode ini digunakan 7 SVM Biner (dapat dilihat pada tabel F-3). Pendeteksian intrusi dengan metode ini terdiri dari dua tahap seperti yang dapat dilihat pada gambar F-1. Pada tahap pertama sebuah SVM biner digunakan untuk memisahkan data normal dan data intrusi. Jika data diprediksi sebagai data intrusi maka pada tahap kedua kategori intrusi dari data akan ditentukan dengan menggunakan Multi Class SVM One Against One.
F-4
Tabel F-3 SVM Biner Æ Multi Class SVM One Against One
yi = 1
SVM
yi = −1
Hipotesis
Data Pelatihan
Normal
Bukan Normal
f 2 ( x) = ( w 2 ) x + b 2
Semua
DOS
Probe
f 13 ( x ) = ( w13 ) x + b13
DOS dan probe
DOS
U2R
f 14 ( x ) = ( w14 ) x + b 14
DOS dan U2R
Multi Class SVM
DOS
R2L
f 15 ( x) = ( w15 ) x + b15
DOS dan R2L
One-Against-One
Probe
U2R
f 34 ( x) = ( w 34 ) x + b 34
DOS dan U2R
Probe
R2L
f 35 ( x ) = ( w 35 ) x + b 35
Probe dan R2L
U2R
R2L
f
45
f
SVM Biner
f 13 ( x )
f 14 ( x )
f 15 ( x )
( x) = ( w 45 ) x + b 45
U2R dan R2L
f 2 ( x)
34
( x)
f
35
( x)
f
45
( x)
Gambar F-1 Klasifikasi dengan SVM Biner Æ Multi Class SVM One Against One
e. SVM Biner Æ Multi Class SVM One-Against All Dengan metode ini digunakan 5 SVM Biner (dapat dilihat pada tabel F-4). Pendeteksian intrusi dengan metode ini terdiri dari dua tahap seperti yang dapat dilihat pada gambar F-2. Pada tahap pertama sebuah SVM biner digunakan untuk memisahkan data normal dan data intrusi. Jika data diprediksi sebagai data intrusi maka pada tahap kedua kategori intrusi dari data akan ditentukan dengan menggunakan Multi Class SVM One Against All.
F-5 Tabel F-4 SVM Biner Æ Multi Class SVM One Against All
yi = 1
SVM
yi = −1
Data
Hipotesis
Pelatihan
Normal
Bukan Normal
f ( x) = ( w ) x + b
DOS
Bukan DOS
f 1 ( x ) = ( w1 ) x + b1
Multi Class SVM One
Probe
Bukan Probe
f 3 ( x) = ( w 3 ) x + b 3
Against All
U2R
Bukan U2R
f 4 ( x) = ( w 4 ) x + b 4
R2L
Bukan R2L
f 5 ( x) = ( w5 ) x + b 5
SVM Biner
f 3 ( x)
f 1 ( x)
2
2
2
Semua
Selain Normal
f 2 ( x)
f 4 ( x)
f 5 ( x)
Gambar F-24 Klasifikasi dengan SVM Biner Æ Multi Class SVM One Against All
LAMPIRAN G PARAMETER EVALUASI EKSPERIMEN Tabel G-1 menunjukkan metrik standar (confusion matrix) yang sering kali dijadikan dasar untuk menilai performansi algoritma untuk pendeteksian intrusi. Tabel G-4 Metrik standar untuk dasar evaluasi algoritma pendeteksian intrusi METRIK STANDAR
Kelas data hasil prediksi Normal
Intrusi
Kelas data
Normal
True Negative
False Positive
sebenarnya
Intrusi
False Negative
True Positive
Dengan memanfaatkan tabel tersebut parameter yang digunakan menjadi ukuran performansi adalah sebagai berikut: True Positive Rate/ Detection Rate (DR)
DR menunjukkan kemampuan algoritma dalam mendeteksi data intrusi. DR =
TP P
Keterangan: TP
=
Jumlah True Positive
P
=
Jumlah data intrusi (positif)
False Positive Rate (FP rate)
FPrate menunjukkan kemampuan algoritma dalam mendeteksi data normal. Nilai FPrate algoritma yang dapat diterima dalam IDS adalah 0 sampai 10 persen [LAS05] . Nilai yang lebih besar akan mengakibatkan pengguna mendapatkan terlalu banyak alaram bahwa IDS mendeteksi terjadi intrusi pada jaringan tetapi sebenarnya tidak terjadi intrusi. FPrate = Keterangan: TP
=
Jumlah False Positive
N
=
Jumlah data normal (negatif)
G-1
FP N
G-2 Akurasi
Akurasi menunjukkan kemampuan algoritma dalam memprediksi data sesuai dengan kelasnya. Akurasi =
TP + TN P+N
Dari parameter diatas parameter yang paling penting adalah detection rate dan false positive rate. Selain itu, akurasi agoritma dalam memprediksi kelas data (Normal, DOS, Probe, R2L,U2R) juga penting karena dapat menunjukkan apakah algoritma dapat mendeteksi semua jenis intrusi atau hanya sebagian saja. Akurasi ini diperoleh dengan menghitung confusion matrix yang mencakup semua kelas data. Untuk memudahkan membandingkan beberapa algoritma terutama pada imbalanced dataset biasanya digunakan ROC (Receiver Operating Characteristic) curve. Kurva ini dapat menunjukkan trade off antara true positive rate dengan false positive rate. Pada gambar G-1 dapat dilihat contoh kurva ROC. Secara informal sebuah titik pada kurva ROC lebih baik dari yang lain jika semakin condong ke bagian kiri- atas kurva (TP rate lebih tinggi, FP rate lebih rendah atau keduanya ) [FAU04].
Detection Rate
False positive Gambar G-5 Kurva ROC
G-3 Kurva ROC umumnya digunakan untuk dua kelas. Urutan nilai yang digambar ke kurva berdasarkan nilai output dari classifier. Akan tetapi, dapat juga dibuat untuk multi class dengan membuat kurva ROC untuk setiap kelas [FAW04], dengan menganggap bahwa data sebuah kelas adalah data positif sedangkan sisanya adalah data negatif. Hal ini dapat diimplementasikan untuk Multi Class SVM dengan metode One-Against-All karena SVM biner yang ada sebanyak jumlah kelas dan menggunakan prinsip yang sama. Akan tetapi, untuk metode One-Against-One sebuah SVM biner menggunakan data dari dua buah kelas. Oleh karena itu ROC curve untuk metode One-Against-One dan One-Against-All tidak dapat dibandingkan. Oleh karena itu, pada tugas akhir ini ROC curve hanya digunakan pada SVM untuk dua kelas saja. Pada [LAZ04] dinyatakan bahwa akurasi tidak cukup untuk evaluasi pada imbalanced dataset. Akurasi terhadap kesuluruhan data kurang penting karena jika algoritma memprediksi semua data adalah normal maka pada data dimana rasio data intrusi hanya 1%, sudah diperoleh akurasi 99%. Oleh karena itu, selain menggunakan ROC curve [LAZ04] menyarankan agar digunakan F-measure. Oleh karena itu, pada Tugas Akhir ini ROC curve akan digunakan untuk membandingkan hasil implementasi yang dilakukan dengan paper acuan (yang menggunakan ROC curve). Untuk membandingkan alternatif implementasi yang dieksplorasi akan digunakan nilai Fmeasure. Adapun rumus menghitung F-measure adalah sebagai berikut: F − measure =
2 * recall * precision recall + precision
recall ( R) =
TP TP + FN
precision ( P) =
TP TP + FP
Selain parameter-parameter di atas, evaluasi performansi algoritma juga diukur melalui waktu yang dibutuhkan untuk pelatihan dan pengujian. Waktu pelatihan dan pengujian diharapkan seminimum mungkin terutama waktu pengujian karena pada IDS data yang harus diperiksa jumlahnya sangat besar oleh karena itu untuk memungkinkan pendeteksian intrusi secara real time dan tidak ada data koneksi yang batal diperiksa (droped), waktu pengujian harus seminimum mungkin.
G-4
Pada eksperimen yang akan dilakukan waktu pelatihan adalah rentang waktu setelah data pelatihan selesai dibaca sampai model hasil pelatihan selesai disimpan ke file, sedangkan waktu pengujian adalah rentang waktu setelah file model selesai dibaca sampai hasil prediksi seluruh data pengujian disimpan. Untuk perbandingan alternatif implementasi SVM, waktu pelatihan dan waktu pengujian yang dihitung adalah ratarata pelatihan dengan pengujian penggunakan satu partisi data.
LAMPIRAN H SKENARIO EKSPERIMEN
H.1
Replikasi Hasil Eksperimen Paper Acuan
Berikut ini adalah asumsi tambahan yang digunakan untuk melakukan eksperimen sesuai dengan skenario pada paper acuan: a.
Skenario eksperimen [MUK02A]
Asumsi yang digunakan adalah bahwa distribusi data setiap kelas sama dengan distribusi kelas pada dataset karena hal ini sama sekali tidak dibahas pada [MUK02]. Agar hasil pengujian lebih valid maka eksperimen diulangi sebanyak 10 kali dengan menggunakan data yang berbeda dengan komposisi data seperti pada gambar H-1. Selain itu pada skenario ini diasumsikan tidak ada normalisasi karena hal ini tidak ada dalam tahapan eksperimen yang dijelaskan pada [MUK02A]. Hasil replikasi [MUK02] ini akan dibandingkan dengan penggunaan paramater hasil grid search dan penggunaan normalisasi data seperti hasil analisis Tugas Akhir.
Gambar H-6 Komposisi data pengujian (kiri) dan data pelatihan (kanan)
b.
Skenario eksperimen [MUK02B]
Pada skenario ini diasumsikan bahwa fungsi kernel yang digunakan adalah RBF dengan parameter yang sama dengan [MUK02A]. Agar hasil pengujian lebih valid maka eksperimen diulangi sebanyak 10 kali. Selain itu pada skenario ini diasumsikan tidak ada normalisasi karena hal ini tidak ada dalam tahapan eksperimen yang dijelaskan pada [MUK02B]. Hasil replikasi [MUK02] ini akan dibandingkan dengan penggunaan paramater hasil grid search dan penggunaan normalisasi data seperti hasil analisis Tugas Akhir.
H-1
H-2 c.
Skenario eksperimen [LAS04]
Tabel H-1 Asumsi distribusi dataset untuk replikasi hasil [LAS04] Kategori
DOS
Probe
R2L
U2R
Jenis
Total Data
Jumlah data berdasarkan rasio intrusi 0,01
0,02
0,03
0,04
0,05
0,1
0,2
Smurf
2807886
1
2
3
4
5
10
25
Neptune
1072017
1
2
3
4
5
10
25
2203
1
2
3
4
5
10
25
Teardrop
979
1
2
3
4
5
10
25
Pod
264
1
2
3
4
5
10
25
Land
21
1
2
3
4
5
10
21
Satan
15892
1
2
3
4
5
10
25
IpSweep
12481
1
2
3
4
5
10
25
PortSweep
10413
1
2
3
4
5
10
25
Nmap
2316
1
2
3
4
5
10
25
warezclient
1020
1
2
3
4
5
10
25
guess_passwd
53
1
2
3
4
5
10
25
warezmaster
20
1
2
3
4
5
10
20
Imap
12
1
2
3
4
5
10
12
multihop
4
1
2
3
4
4
4
4
ftp_write
8
1
2
3
4
5
8
8
Phf
7
1
2
3
4
5
7
7
Spy
2
1
2
2
2
2
2
2
buffer_overflow
30
1
2
2
4
5
10
25
Rootkit
10
1
2
2
4
5
10
10
9
1
2
3
4
5
9
9
3
1
2
3
3
3
3
3
22
44
63
85
104
193
396
1978
1956
1937
1915
1896
1807
1604
Back
loadmodule Perl Total Data Intrusi Total Data Normal
Pada [LAS04], terdapat 3 skenario eksperimen dengan variasi nilai rasio intrusi dan parameter nu. Pada [LAS04] tidak disebutkan distribusi data yang digunakan. Akan tetapi, dituliskan bahwa eksperimen dilakukan sehingga hasilnya comparable dengan [EAS02] yang menggunakan data dengan distribusi data intrusi seimbang. Namun, jumlah data intrusi pada data KDDCUP 99 untuk beberapa jenis intrusi sangat kecil dan hasil yang diperoleh merupakan rata-rata dari sepuluh kali eksperimen. Oleh karena itu, untuk memungkinkan diperoleh dataset yang memiliki data intrusi yang
H-3 jumlahnya ”seimbang” untuk setiap jenis intrusi maka untuk setiap eksperimen digunakan dataset yang terdiri dari sekitar 2000 instance. Jumlah ini juga dipilih karena pada [LAS05] dilakukan juga eksperimen dengan data intrusi seimbang dengan jumlah data 2000. Dalam setiap eksperimen digunakan data yang berbeda akan tetapi jika ada data intrusi yang tidak mencukupi maka terpaksa digunakan data intrusi yang telah digunakan. Adapun asumsi jumlah data untuk setiap jenis intrusi dapat dilihat pada tabel H-1. Hasil replikasi [LAS04] ini akan dibandingkan dengan penggunaan metode normalisasi data seperti hasil analisis Tugas Akhir dan metode normalisasi data seperti pada [LAS05].
d. Skenario eksperimen [LAS05]
Pada eksperimen ini jumlah data intrusi seimbang untuk setiap jenisnya. Demikian juga data normal jumlahnya seimbang untuk setiap service. Akan tetapi, seimbang diasumsikan tidak berarti jumlah data untuk setiap jenis/service sama
karena
terbatasnya jumlah data yang tersedia untuk beberapa data dengan jenis intrusi dan service tertentu. Hasil [LAS05] merupakan hasil pengulangan eksperimen sebanyak 30 kali. Karena keterbatasan jumlah data intrusi untuk jenis tertentu dan pada [LAS05] disebutkan bahwa setiap jenis intrusi dan tipe service harus terdapat dalam dataset, maka dalam 30 kali
pengulangan tersebut mungkin ada data yang berulang. Adapun asumsi
jumlah data untuk setiap servis dan jenis intrusi dapat dilihat pada tabel H-2 dan tabel H-3. Hasil replikasi [LAS04] ini akan dibandingkan dengan penggunaan metode normalisasi data seperti hasil analisis Tugas Akhir dan metode normalisasi data seperti pada [LAS04].
H-4
Tabel H-2 Asumsi distribusi dataset untuk replikasi hasil [LAS05] pada skenario data pengujian tidak mengandung data intrusi jenis baru Kategori
Jenis Intrusi
Jumlah Data
Smurf Neptune DOS
Back Teardrop Pod Land Satan
Probe
IpSweep PortSweep
106
5
Eco_i
105
5
Ecr_i
105
5
Finger
105
6 6
ftp
105 105
1 5
buffer_overflow rootkit
5
loadmodule
4
perl Total
5
Domain_u
3
spy
U2R
6
Domain
4
multihop
1 100
Jumlah Data
Auth
ftp_data http Imap4
5 6 5 5 5 2
warezclient guess_passwd warezmaster imap phf ftp_write
Jenis Servis
5
6
Nmap
R2L
Kategori
IRC ntp_u Other pop_3 private Shell Normal
Ssh smtp telnet Time Tim_i
105 19
105 1 105 105 105 105 106 2 3 106 105 105 3
Red_i
4
Tftp_u
1
Urp_i X11 Urh_i Total
108 2 74 1900
H-5
Tabel H-3 Asumsi distribusi dataset untuk replikasi hasil [LAS05] pada skenario dimana data pengujian mengandung data intrusi jenis baru Kategori
DOS
Probe
R2L
U2R
Jenis
Jumlah Data
Kategori
Jenis
Smurf
3
apache2
3
Neptune
httptunnel
Back
3 3
mailbomb
3 3
Teardrop
3
mscan
3
Pod
named
Land
3 3
processtabel
3 3
Satan
3
ps
3
IpSweep
3 3 3 3 1 2
saint
PortSweep Nmap warezclient guess_passwd warezmaster
sendmail snmpgetattack snmpguess sqlattack worm
3 3 3 3 1 1
imap
3
xlock
3
ftp_write
3
xsnoop
3
multihop
3
phf
3
xterm Total
3 44
spy
3
buffer_overflow
1
rootkit
3 3
loadmodule perl
Unknown
Total
3 61
H.2
Skenario Perbandingan Implementasi SVM
1.
Jumlah Data
Komposisi data intrusi diusahakan seimbang
Pengertian seimbang disini adalah semua jenis intrusi yang ada harus ada contoh datanya dalam data pelatihan dan data pengujian. Dengan demikian dapat diketahui apakah model dapat mendeteksi semua jenis intrusi dengan akurasi yang tinggi atau hanya intrusi tertentu saja. Selain itu, pengujian dilakukan juga pada dataset yang mengandung data intrusi jenis baru untuk mengetahui kemampuan model dalam mengeneralisasi data intrusi.
H-6 2.
Komposisi data intrusi tidak seimbang
Tidak mudah untuk mendapatkan label intrusi untuk data jaringan. Oleh karena itu, dalam penggunaan IDS dengan teknik data mining, data yang tersedia mungkin terbatas dan jumlahnya mungkin bervariasi untuk setiap jenis intrusi. Misalkan data intrusi jenis X jumlahnya 1000 kali intrusi jenis Y , maka ada kemungkinkan teknik klasifikasi cenderung mengklasifikasikan Y sebagai X. Secara umum, 10-fold cross validation direkomendasikan untuk mengestimasi akurasi teknik klasifikasi karena tingkat bias dan variasinya relatif rendah [HAN01]. Oleh karena itu jumlah fold yang sama akan digunakan untuk memilih model terbaik dari model –model yang dieksplorasi dengan menggunakan 100000 data untuk satu partisi (seluruh data normal yang ada di dataset digunakan). Dalam pengujian ini dalam setiap iterasi satu buah partisi data akan digunakan sebagai data pelatihan dan sisanya sebagai data pengujian. Hal ini dilakukan karena pada pendeteksian intrusi pada jaringan jumlah data pengujian jauh lebih besar dari pada data pelatihan yang digunakan. Metode ini hampir sama dengan metode untuk perbandingan algoritma yang dilakukan pada [LAS05] akan tetapi jumlah data setiap partisi jauh lebih besar dan jumlah pengulangannya lebih kecil. Data pengujian dan jumlah pengulangan yang sama dengan skenario pertama akan digunakan pada skenario kedua. Akan tetapi, jumlah data pelatihan yang digunakan adalah 49420 (1% dari data KDDCUP 99) untuk setiap partisi. Khusus untuk One Class SVM,
hanya 20% dari data pelatihan yang akan digunakan untuk proses
pelatihan karena waktu pelatihan dan pengujian One Class SVM menjadi sangat besar dengan semakin bertambahnya data.
H-7 Tabel H-4 Distribusi dataset untuk perbandingan altenatif implementasi SVM Jenis intrusi Back
Jumlah data 300
Total
3301
Jenis Servis Auth
2328
3
38
6000
57773
Eco_i
390
3768
Ecr_i
360
3456
Finger
510
5017
30
ftp
390
3821
3900
38093
57930
619045
1
3
54
520
5
52
Domain
ftp_write
1
11
Domain_u
400
4417
1
14
744
12787
imap IpSweep
Total
230
buffer_overflow guess_passwd
Jumlah Data
Land
1
loadmodule
1
11
ftp_data
multihop
1
25
http
Neptune
743
1130018
Nmap
200
2400
perl
1
5
ntp_u
390
3833
phf
1
5
Other
5600
56520
Pod
30
351
pop_3
90
922
10767
private
8500
73853
1
5
PortSweep rootkit
743 1
11
Imap4 IRC
Shell
Satan
743
17525
1
7
Smurf
743
2971977
smtp
9800
95371
1
2
telnet
230
2227
90
991
Time
50
509
warezclient
100
1020
Tim_i
1
7
warezmaster
150
1622
Red_i
1
9
Tftp_u
1
3
spy Teardrop
5000
Ssh
Urp_i
540
5375
X11
13
129
Urh_i
14
148
95000
H-8
Tabel H-5 Distribusi data pengujian baru untuk perbandngan altenatif implementasi SVM Jenis intrusi
Jumlah data
apache2
79
httptunnel
15
mailbomb
500
mscan
105
named
1
processtabel
75
ps
1
saint
73
sendmail
1
snmpgetattack
774
snmpguess
240
sqlattack
1
worm
1
xlock
1
xsnoop
1
xterm
1 1869
LAMPIRAN I HASIL EKSPERIMEN I.1 Eksperimen Pada Data [MUK02A] Tabel I-1 Hasil eksperimen tanpa normalisasi dengan parameter seperti pada [MUK02] Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
92,33
100
60,34
12,50
0,00
91,76
0,00
Fmeasure 95,70
2
92,73
100
60,34
2.00
0,00
92,19
0,00
95,93
93,72
92,73
23,00
3
91,43
100
50,00
0,00
0,00
90,72
0,00
95,14
92,55
91,43
23,00
4
100
12,36
100
100
100
100
87,64
90,29
82,74
100
24,00
5
100
13,31
100
100
100
100
86,69
90,39
82,92
100
22,00
6
91,23
100
68,97
0,00
0,00
90,72
0,00
95,14
92,55
91,23
23,00
7
92,93
100
50,00
6,25
0,00
92,22
0,00
95,95
93,75
92,93
23,00
8
93,18
100
51,72
18,75
0,00
92,53
0,00
96,12
94,00
93,18
22,00
9
93,62
100
58,62
0,00
0,00
92,97
0,00
96,36
94,36
93,62
23,00
10
94,54
100
68,97
6,25
0,00
94,01
0,00
96,91
95,19
94,54
23,00
Rata-rata
94,20
82,57
66,90
26,88
20,00
93,71
17,43
94,79
91,52
94,20
22,90
Standar Deviasi
3,21
36,75
18,73
39,42
42,16
3,45
36,75
2,40
4,64
3,21
0,57
Dos
Normal
Probe
U2R
R2L
DR
FP
Akurasi
Ttrain
Ttest
93,38
92,33
23,00
Tabel I-2 Hasil eksperimen tanpa normalisasi dan dengan parameter hasil grid search Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
99,98
97,24
98,28
81,25
0,00
99,89
2,76
Fmeasure 99,61
2
99,98
98,25
98,28
93,75
0,00
99,93
1,75
99,75
99,60
9,00
2,00
3
99,91
97,67
98,28
87,50
0,00
99,84
2,33
99,64
99,41
7,00
1,00
4
100
97,31
100
75,00
0,00
99,91
2,69
99,63
99,40
5,00
1,00
5
99,91
97,24
100
93,75
100
99,89
2,76
99,61
99,37
8,00
1,00
6
99,87
98,33
96,55
87,50
0,00
99,79
1,67
99,69
99,50
4,00
1,00
7
99,96
97,82
100
81,25
0,00
99,89
2,18
99,68
99,48
3,00
1,00
8
99,93
98,25
96,55
81,25
0,00
99,82
1,75
99,70
99,51
7,00
1,00
9
99,95
99,64
96,55
75,00
100
99,84
0,36
99,88
99,80
5,00
1,00
10
99,95
96,94
98,28
87,50
0,00
99,88
3,06
99,56
99,30
3,00
1,00
Rata-rata
99,94
97,87
98,28
84,38
20,00
99,87
2,13
99,67
99,47
5,40
1,10
Standar Deviasi
0,04
0,79
1,41
6,75
42,16
0,04
0,79
0,09
0,14
2,22
0,32
Dos
Normal
Probe
U2R
R2L
DR
FP
I-1
Akurasi
Ttrain
Ttest
99,37
3,00
1,00
I-2 Tabel I-3 Hasil eksperimen dengan normalisasi dan parameter hasil grid search Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
99,58
99,64
94,83
81,25
100
99,48
0,36
Fmeasure 99,70
2
100
99,05
100
100
0,00
99,98
0,95
99,88
99,80
1,00
1,00
3
99,49
99,78
96,55
75,00
0,00
99,38
0,22
99,66
99,46
1,00
1,00
4
100
99,13
100
100
0,00
99,98
0,87
99,88
99,81
1,00
1,00
5
100
99,20
96,55
100
100
99,96
0,80
99,88
99,81
1,00
1,00
6
99,29
99,42
100
87,50
100
99,27
0,58
99,56
99,30
1,00
1,00
7
99,96
99,42
96,55
93,75
0,00
99,89
0,58
99,88
99,80
1,00
1,00
8
99,98
99,71
87,93
100
100
99,86
0,29
99,89
99,83
0,00
1,00
9
100
99,71
100
81,25
100
99,95
0,29
99,94
99,90
1,00
1,00
10
99,98
99,64
96,55
93,75
0,00
99,91
0,36
99,91
99,86
0,00
1,00
Rata-rata
99,83
99,47
96,90
91,25
50,00
99,77
0,53
99,82
99,71
0,80
1,00
Standar Deviasi
0,27
0,27
3,71
9,41
52,70
0,28
0,27
0,13
0,21
0,42
0,00
Dos
Normal
Probe
U2R
R2L
DR
FP
Akurasi
Ttrain
Ttest
99,51
1,00
1,00
Tabel I-4 t-Test pada metode normalisasi+grid search dan tanpa normalisasi + grid search Normalisasi + grid search
Tanpa normalisasi + grid search
Mean
99,81777613
99,67335848
Variance
0,016593303
0,007938102
10
10
Data Statistik
Observations Pearson Correlation
0,226000212
Hypothesized Mean Difference
0
df
9
t Stat
3,283589908
P(T<=t) one-tail
0,004737401
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,009474802
t Critical two-tail
2,262157158
I-3 Tabel I-5 t-Test pada metode tanpa normalisasi+ grid search dan tanpa normalisasi + parameter [MUK02] Data Statistik
Mean
Tanpa normalisasi + grid search 99,67335848
Tanpa normalisasi + parameter [MUK02] 94,79306431
0,007938102
5,782029856
10
10
Variance Observations
0,332598111
Pearson Correlation Hypothesized Mean Difference
0
df
9
t Stat
6,494108422
P(T<=t) one-tail
5,61086E-05
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,000112217
t Critical two-tail
2,262157158
I.2 Eksperimen Pada Data [MUK02B] Tabel I-6 Hasil eksperimen tanpa normalisasi dengan parameter seperti pada [MUK02] Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
85,05
100
73,60
34,46
0,00
78,22
0,00
Fmeasure 87,78
2
83,34
100
71,14
34,81
0,00
76,45
0,00
86,65
81,22
79,00
21,00
3
86,09
100
71,71
35,35
0,00
78,71
0,00
88,09
83,00
77,00
21,00
4
84,60
100
72,40
36,59
0,00
77,94
0,00
87,60
82,55
78,00
20,00
5
84,93
100
74,57
35,35
0,00
78,16
0,00
87,74
82,58
79,00
22,00
6
85,29
100
71,29
35,52
0,00
78,03
0,00
87,66
82,48
79,00
21,00
7
83,96
100
68,20
35,70
0,00
77,00
0,00
87,00
81,76
77,00
20,00
8
83,53
100
72,14
37,83
0,00
77,02
0,00
87,02
81,68
78,00
22,00
9
86,33
100
72,43
38,90
0,00
79,36
0,00
88,49
83,51
79,00
21,00
10
84,91
100
66,40
36,41
0,00
77,62
0,00
87,40
82,29
79,00
21,00
Rata-rata
84,80
100
71,39
36,09
0,00
77,85
0,00
87,54
82,38
78,40
21,00
Standar Deviasi
0,99
0,00
2,42
1,38
0,00
0,87
0,00
0,55
0,68
0,84
0,67
Dos
Normal
Probe
U2R
R2L
DR
FP
Akurasi
Ttrain
Ttest
82,75
79,00
21,00
I-4 Tabel I-7 Hasil eksperimen tanpa normalisasi dan dengan parameter hasil grid search Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
99,86
99,14
98,00
97,34
48,00
99,24
0,86
Fmeasure 99,51
2
99,90
98,50
97,71
95,74
68,00
99,25
1,50
99,43
98,94
34,00
3,00
3
99,86
97,86
96,86
95,74
72,00
99,16
2,14
99,31
98,71
27,00
2,00
4
99,67
97,57
98,40
97,69
44,00
99,30
2,43
99,33
98,76
52,00
3,00
5
99,98
98,21
98,86
98,05
56,00
99,56
1,79
99,55
99,19
94,00
2,00
6
99,76
98,36
97,14
96,63
64,00
99,27
1,64
99,43
98,83
44,00
3,00
7
99,88
95,93
96,80
98,58
72,00
99,60
4,07
99,57
99,48
71,00
3,00
8
99,48
96,36
98,86
96,63
76,00
99,11
3,64
99,09
98,46
28,00
2,00
9
99,81
98,71
97,86
96,45
68,00
99,20
1,29
99,43
99,00
34,00
3,00
10
100
10,00
100
100
100
99,72
90,00
79,85
85,66
104,00
3,00
Rata-rata
99,82
89,06
98,05
97,28
66,80
99,34
10,94
97,45
97,62
50,70
2,60
Standar Deviasi
0,15
27,80
1,01
1,34
15,78
0,21
27,80
6,19
4,21
29,47
0,52
Dos
Normal
Probe
U2R
R2L
DR
FP
Akurasi
Ttrain
Ttest
99,16
19,00
2,00
Tabel I-8 Hasil eksperimen dengan normalisasi dan parameter hasil grid search Pengujian ke
Akurasi pada setiap kategori (%)
Efisiensi (detik)
Efektifitas (%)
1
99,50
97,79
99,80
98,76
68,00
99,53
2,21
Fmeasure 99,47
2
99,64
97,71
99,14
94,49
76,00
99,53
2,29
99,47
98,69
4,00
1,00
3
99,98
98,29
98,29
93,25
60,00
99,67
1,71
99,62
98,77
4,00
2,00
4
99,31
97,07
99,40
97,69
72,00
99,30
2,93
99,26
98,61
4,00
1,00
5
99,95
97,50
99,00
97,16
60,00
99,76
2,50
99,56
98,98
4,00
2,00
6
100
95,57
98,29
98,76
52,00
99,76
4,43
99,32
98,65
4,00
2,00
7
99,95
97,21
99,40
98,93
72,00
99,85
2,79
99,56
99,15
4,00
1,00
8
99,86
97,86
99,29
97,51
68,00
99,64
2,14
99,55
99,09
4,00
1,00
9
99,71
97,29
99,00
98,76
48,00
99,64
2,71
99,47
98,88
4,00
2,00
10
99,95
97,86
98,60
98,05
76,00
99,81
2,14
99,62
99,16
5,00
1,00
Rata-rata
99,79
97,41
99,02
97,34
65,20
99,65
2,59
99,49
98,90
4,10
1,40
Standar Deviasi
0,24
0,74
0,50
1,95
9,81
0,16
0,74
0,12
0,21
0,32
0,52
Dos
Normal
Probe
U2R
R2L
DR
FP
Akurasi
Ttrain
Ttest
98,98
4,00
1,00
I-5 Tabel I-9 t-Test pada metode normalisasi+grid search dan tanpa normalisasi + grid search Tanpa Normalisasi + grid search
Normalisasi + grid search
Mean
97,22082
99,49311753
Variance
42,47782
0,015950397
9
9
Data Statistik
Observations Pearson Correlation
-0,38506
Hypothesized Mean Difference
0
df
8
t Stat
-1,03803
P(T<=t) one-tail
0,164806
t Critical one-tail
1,859548
P(T<=t) two-tail
0,329612
t Critical two-tail
2,306004
Tabel I-10 t-Test pada metode normalisasi+ grid search dan tanpa normalisasi + parameter [MUK02] Data Statistik
Mean Variance Observations Pearson Correlation
normalisasi + grid search
Tanpa normalisasi + parameter [MUK02]
99,49312
87,51801992
0,01595
0,328818383
9
9
-0,05883
Hypothesized Mean Difference
0
df
8
t Stat
60,44141
P(T<=t) one-tail
3,12E-12
t Critical one-tail
1,859548
P(T<=t) two-tail
6,24E-12
t Critical two-tail
2,306004
I-6
I.3 Eksperimen Pada Data [LAS04] 1. Parameter nu sama dengan rasio data intrusi
Gambar I-1 Hasil skenario 1 dengan metode normalisasi data hasil analisis Tugas Akhir
Gambar I-2 Hasil skenario 1 dengan Metode Normalisasi Data seperti pada [LAS04]
I-7
Gambar I-3 Hasil skenario 1 dengan metode normalisasi data seperti pada [LAS05]
I-8 Tabel I-11 Hasil eksperimen pada skenario 1 Efektifitas (%) Normalisasi Data
Nu/ Attack Ratio
F-measure
Akurasi
43,79 0,74 41,60 7,23 0,14 7,06 42,84 1,11 44,56 0,02 3,26 0,09 3,22 45,16 1,63 46,04 0,03 3,57 0,00 3,42 50,77 1,95 52,10 0,04 2,94 0,14 3,02 53,01 2,47 53,40 0,05 2.20 0,12 2,20 63,76 4,44 61,82 0,1 1,54 0,17 1,20 65,43 8,90 64,83 0,2 0,84 0,25 0,87 42,94 0,53 45,17 [LAS05] 0,01 3,45 0,08 4,27 46,47 1,02 48,38 0,02 5,62 0,13 5,30 49,35 1,44 50,76 0,03 5,17 0,00 4,86 52,54 1,77 54,52 0,04 3,44 0,16 3,01 56,60 2,13 57,80 0,05 2,51 0,12 2,21 0,1 67,72* 4,00* 65,76* 1,50 0,20 1,56 0,2 72,40* 7,18* 71,76* 0,72 0,19 0.71 Hasil Analisis TA 0,01 49,31* 0,51* 50.59* 4,56 0,08 4,50 0,02 50,81* 0,88* 53,51* 5,71 0,17 6,21 0,03 56,77* 1,28* 57,72* 4,35 0,00 3.81 0,04 56,45* 1,68* 58,04* 2,59 0,16 2.89 0,05 57,48* 2,13* 58,45* 1,70 0,15 1,95 62,70 4,51 60,93 0,1 1,62 0,25 1,71 66,48 8,69 65,81 0,2 2,20 0,62 2,26 Catatan: Baris yang memiliki shading adalah nilai standar deviasi
98,65 0,19 97,66 0,15 96,72 0,20 96,05 0,26 95,23 0,23 92,55 0,23 86,06 0,36 98,85 0,12 97,82 0,22 97,03 0,29 96,30 0,23 95,74 0,21 93,32* 0,32 88,81* 0,28 98,94* 0,10 98,06* 0,28 97,42* 0,21 96,55* 0,25 95,79* 0,22 92,38 0,36 86,43 0,92
[LAS04]
0,01
DR
FP
I-9 Tabel I-12 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference
Normalisasi Hasil Analisis Tugas Akhir 57,86299429
Normalisasi [LAS05]
56,30712085
32,98967056
90,87786331
70
70
0,78298435 0 69
df t Stat
2,108258043
P(T<=t) one-tail
0,019321169
t Critical one-tail
1,667238549
P(T<=t) two-tail
0,038642339
t Critical two-tail
1,99494539
Tabel I-13 6 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS04] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference df
Normalisasi Hasil Analisis Tugas Akhir 57,86299429
Normalisasi [LAS05]
52,04962373
32,98967056
78,41124217
70
70
0,70971066 0 69
t Stat
7,767566888
P(T<=t) one-tail
2,65964E-11
t Critical one-tail
1,667238549
P(T<=t) two-tail
5,31927E-11
t Critical two-tail
1,99494539
I-10 2. Parameter nu tetap dengan rasio data intrusi bervariasi
Gambar I-4 Hasil skenario 1 dengan metode normalisasi data hasil analisis Tugas Akhir
Gambar I-5 Hasil skenario 2 dengan metode normalisasi data [LAS04]
I-11
Gambar I-6 Hasil skenario 2 dengan metode normalisasi data [LAS05]
I-12
Tabel I-14 Hasil eksperimen pada skenario 2 Efektifitas (%) Normalisasi Data
Attack Ratio
F-measure
Akurasi
62,10 4,37 22,29 6,78 0,06 2,36 63,34 3,73 38,43 0,02 4,38 0,09 2,50 58,71 3,30 44,83 0,03 3,42 0,00 2,61 57,04 2,78 51,85 0,04 2,43 0,11 2,14 53,01 2,47 53,40 0,05 2,20 0,12 2,20 99,52 45,00 31,61 0,1 0,30 0,26 0,16 99,08 38,10 55,82 0,2 0,45 0,22 0,29 4,24 27,15 [LAS05] 0,01 75,80* 5,25 0,11 1,95 0,02 72,91* 3,50* 44,34* 4,93 0,15 3,05 0,03 66,94* 3,06* 51,02* 4,18 0,00 3,24 0,04 61,66* 2.48* 56,60* 1,87 0,12 1,50 56,60 2,13 57,80 0,05 2,51 0,12 2,21 0,1 99,63* 44,89* 31,69* 0,26 0,10 0,11 0,2 97,32* 38.82* 54,65* 1,93 0,44 1,02 74,91 26,97 Hasil Analisis TA 0,01 4,22* 0,06 0,00 2,31 67,21 3,63 40,84 0,02 5,52 0,15 3,39 63,71 3,13 48,75 0,03 3,16 0,15 2,59 60,83 2,54 55,72 0,04 3,19 0,15 2,95 0,05 57,48* 2,13* 58,45* 1,70 0,15 1,95 97,20 45,10 30,94 0,1 1,90 0,27 0,62 94,11 39,51 52,91 0,2 2,43 0,96 1,45 Catatan: Baris yang memiliki shading adalah nilai standar deviasi
95,26 0,13 95,54 0,18 95,52 0,22 95,52 0,19 95,23 0,23 59,22 0,24 69,20 0,24 95,54 0,14 95,98* 0,25 96,01* 0,27 96,00* 0,15 95,74 0,21 59,32* 0,11 68,28* 0,69 95,55 0,00 95,72 0,26 95,84 0,23 95,91 0,27 95,79* 0,22 58,91 0,41 67,09 1,14
[LAS04]
0,01
DR
FP
I-13 Tabel I-15 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference
Normalisasi Hasil Analisis Tugas Akhir 44,93843129
Normalisasi [LAS05]
46,17705609
137,2312692
136,6459296
70
70
0,975313714 0 69
df t Stat
-3,98532168
P(T<=t) one-tail
8.24934E-05
t Critical one-tail
1,667238549
P(T<=t) two-tail
0,000164987
t Critical two-tail
1,99494539
Tabel I-16 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS04] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference df
Normalisasi Hasil Analisis Tugas Akhir 44,93843129
Normalisasi [LAS05]
42,60351681
137,2312692
138,8476734
70
70
0,945323607 0 69
t Stat
5,027349604
P(T<=t) one-tail
1,87989E-06
t Critical one-tail
1,667238549
P(T<=t) two-tail
3,75978E-06
t Critical two-tail
1,99494539
I-14 3. Parameter nu bervariasi dengan rasio data intrusi tetap
Gambar I-7 Hasil skenario 3 dengan menggunakan normalisasi data hasil analisis Tugas Akhir
Gambar I-8 Hasil skenario 3 dengan menggunakan normalisasi data [LAS04]
I-15
Gambar I-9 Hasil skenario 3 dengan menggunakan metode normalisasi data [LAS05]
I-16
Tabel I-17 Hasil eksperimen pada skenario 3 Normalisasi Data
Nu
Efektifitas (%) DR
FP
F-measure
Akurasi
15,73 0,71 24,39 94,99 2,78 0,11 4,01 0,22 28,93 0,50 41,91 95,87 0.02 1,67 0,11 2,41 0,18 35,05 0,89 46,05 95,81 0.03 5,52 0,00 4,88 0,20 46,60 1,69 52,42 95,64 0.04 3,30 0,17 3,51 0,31 53,01 2,47 53,40 95,23 0.05 2,20 0,12 2,20 0,23 74,76 6,70 50,15 92,34 0.1 3,63 0,48 1,59 0,39 0.2 89,03 16,23 36,50 84,04 1,72 0,15 0,71 0,20 15,24 0,14 25,83 95,50 [LAS05] 0.01 1,78 0,07 2,61 0,10 26,89 0,62 38,71 95,64 0.02 4,87 0,13 5,40 0,24 36,70 1,08 46,81 95,72 0.03 4,82 0,00 5,06 0,35 46,60 1,55 53,20 95,78 0.04 2,19 0,11 2,09 0,18 56,60 2,13 57,80 95,74 0.05 2,51 0,12 2,21 0,21 0.1 76,12* 6,04* 53,07* 93,04* 1,95 0,68 2,28 0,62 83,11 16,57 34,05 83,41 0.2 1,46 0,13 0,59 0,17 Hasil Analisis TA 0.01 19,13* 0,12* 31,47* 95,72* 2,71 0,04 3,79 0,14 0.02 32,43* 0,37* 46.54* 96,17* 3,21 0,09 3,94 0,24 0.03 40,39* 0,68* 52,71* 96,29* 4,98 0,21 4,44 0,24 0.04 52,43* 1,36* 59,12* 96,26* 2,05 0,16 2,17 0,21 0.05 57,48* 2,13* 58,45* 95,79* 1,70 0,15 1,95 0,22 75,05 6,31 51,54 92,73 0.1 2,59 0,27 0,98 0,19 86,41 16,41 35,38 83,74 0.2 1,94 0,13 0,79 0,21 Catatan: Baris yang memiliki shading adalah nilai standar deviasi [LAS04]
0.01
I-17
Tabel I-18 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference
Normalisasi Hasil Analisis Tugas Akhir 47,88650314
Normalisasi [LAS05]
44,210843
109,5308544
129,4380414
70
70
0,89986566 0 69
df t Stat
6,190747629
P(T<=t) one-tail
1,88008E-08
t Critical one-tail
1,667238549
P(T<=t) two-tail
3,76017E-08
t Critical two-tail
1,99494539
Tabel I-19 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS04] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference df
Normalisasi Hasil Analisis Tugas Akhir 47,88650314
Normalisasi [LAS05]
43,54627402
109,5308544
101,9639993
70
70
0,888216822 0 69
t Stat
7,449406358
P(T<=t) one-tail
1,01338E-10
t Critical one-tail
1,667238549
P(T<=t) two-tail
2,02676E-10
t Critical two-tail
1,99494539
I-18 Tabel I-20 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] dari ketiga skenario Normalisasi Hasil Analisis Tugas Akhir
Normalisasi [LAS05]
Mean
50,22930957
48,89833998
Variance
123,0896804
146,072392
210
210
Data Statistik
Observations Pearson Correlation Hypothesized Mean Difference df t Stat
0,902855254 0 209 3,709480583
P(T<=t) one-tail
0,00013309
t Critical one-tail
1,65217701
P(T<=t) two-tail
0,000266179
t Critical two-tail
1,971379414
I-19
I.4 Eksperimen Pada Data [LAS05] 1. Data pengujian tidak mengandung data intrusi jenis baru
Gambar I-10 Hasil pengujian pada data pengujian yang tidak mengandung data intrusi jenis baru
Tabel I-21 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference df t Stat
Normalisasi Hasil Analisis Tugas Akhir 79,74184954
Normalisasi [LAS05]
85,91518756
31,5115353
37,58819022
30
30
0,879167999 0 29 -11,54024632
P(T<=t) one-tail
1,16322E-12
t Critical one-tail
1,699126996
P(T<=t) two-tail
2,32644E-12
t Critical two-tail
2,045229611
I-20 Tabel I-22 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS04] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference
Normalisasi Hasil Analisis Tugas Akhir 79,74184954
Normalisasi [LAS05]
77,53937678
31,5115353
2,02567721
30
30
0,087745177 0 29
df t Stat
2,128046605
P(T<=t) one-tail
0,020978571
t Critical one-tail
1,699126996
P(T<=t) two-tail
0,041957142
t Critical two-tail
2,045229611
2. Data pengujian mengandung data intrusi jenis baru
Gambar I-11 Hasil pengujian pada data pengujian yang mengandung data intrusi jenis baru
I-21
Tabel I-23 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS05] Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference
Normalisasi Hasil Analisis Tugas Akhir 65,48870448
Normalisasi [LAS05]
69,1946443
21,64670762
24,74195049
30
30
0,822471755 0 29
df
-7,037021702
t Stat P(T<=t) one-tail
4,85042E-08
t Critical one-tail
1,699126996
P(T<=t) two-tail
9,70085E-08
t Critical two-tail
2,045229611
Tabel I-24 t-Test pada metode normalisasi hasil analisis Tugas Akhir dan metode normalisasi [LAS04] Normalisasi Hasil Analisis Tugas Akhir
Normalisasi [LAS05]
Mean
65,48870448
60,9006649
Variance
21,64670762
1,903730688
30
30
Data Statistik
Observations Pearson Correlation Hypothesized Mean Difference df
-0,015840144 0 29
t Stat
5,156097904
P(T<=t) one-tail
8,21827E-06
t Critical one-tail
1,699126996
P(T<=t) two-tail
1,64365E-05
t Critical two-tail
2,045229611
I-22
I.5
Perbandingan Alternatif Implementasi SVM
1. Perbandingan implementasi metode anomaly detection i. Data Intrusi Seimbang a. Data pengujian tidak mengandung intrusi jenis baru Tabel I-25 t-Test pada MD1 dan MD2 pada skenario i-a Data Statistik
MD1
MD2
Mean
57,90313762
60,91200169
Variance
3,826653349
1,878966825
10
10
Observations Pearson Correlation
0,652598755
Hypothesized Mean Difference
0
df
9
t Stat
-6,40647599
P(T<=t) one-tail
6,21616E-05
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,000124323
t Critical two-tail
2,262157158
b. Data pengujian mengandung intrusi jenis baru Tabel I-26 t-Test pada MD1 dan MD2 pada skenario i-b Data Statistik
MD1
MD2
Mean
37,31028835
36,69994335
Variance
430,8730577
450,2494002
10
10
Observations Pearson Correlation
0,999273094
Hypothesized Mean Difference
0
df
9
t Stat
2,089276508
P(T<=t) one-tail
0,033130521
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,066261043
t Critical two-tail
2,262157158
I-23 ii. Data Intrusi Seimbang a. Data pengujian tidak mengandung intrusi jenis baru Tabel I-27 t-Test pada MD1 dan MD2 pada skenario ii-a Data Statistik
MD1
MD2
Mean
12,90963191
8,919128056
Variance
15,03198781
0,515219811
10
10
Observations Pearson Correlation
0,054930498
Hypothesized Mean Difference
0
df
9
t Stat
3,23231962
P(T<=t) one-tail
0,005142183
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,010284366
t Critical two-tail
2,262157158
b.
Data pengujian mengandung intrusi jenis baru
Tabel I-28 t-Test pada MD1 dan MD2 pada skenario ii-b Data Statistik
MD1
MD2
Mean
13,43164852
11,90706508
Variance
2,516516233
1,43982014
10
10
Observations Pearson Correlation
-0,774263645
Hypothesized Mean Difference
0
df
9
t Stat
1,834855594
P(T<=t) one-tail
0,049861773
t Critical one-tail
1,833112923
P(T<=t) two-tail
0,099723546
t Critical two-tail
2,262157158
I-24 Tabel I-29 t-Test pada MD1 dan MD2 pada seluruh skenario Data Statistik
Mean Variance
MD1
MD2
30,3886766
29,60953454
462,8296083
559,0419894
40
40
Observations Pearson Correlation
0,992381678
Hypothesized Mean Difference
0
df
39
t Stat
1,405640757
P(T<=t) one-tail
0,083873878
t Critical one-tail
1,684875122
P(T<=t) two-tail
0,167747756
t Critical two-tail
2,022690901
2.
Perbandingan implementasi metode misuse detection
i.
Data Intrusi Seimbang
a.
Data pengujian tidak mengandung intrusi jenis baru
Tabel I-30 t-Test pada MD6 dan MD7 pada skenario i-a Data Statistik
MD6
MD7
Mean
98,47902352
98,47894674
Variance
0,043180696
0,0432258
90
90
Observations Pearson Correlation Hypothesized Mean Difference df
0,996501428 0 89
t Stat
0,041891104
P(T<=t) one-tail
0,483339672
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,966679345
t Critical two-tail
1,986978657
I-25 Tabel I-31 t-Test pada MD6 dan MD5 pada skenario i-a Data Statistik
MD6
MD5
Mean
98,47902352
97,62637822
Variance
0,043180696
0,033570799
90
90
Observations Pearson Correlation
0,402248636
Hypothesized Mean Difference
0
df
89
t Stat
37,66509284
P(T<=t) one-tail
8,93866E-57
t Critical one-tail
1,662155326
P(T<=t) two-tail
1,78773E-56
t Critical two-tail
1,986978657
Tabel I-32 t-Test pada MD7 dan MD5 pada skenario i-a Data Statistik
Mean Variance
MD7
MD5
98,47894674
97,62637822
0,0432258
0,033570799
90
90
Observations Pearson Correlation
0,399356143
Hypothesized Mean Difference
0
df
89
t Stat
37,56025169
P(T<=t) one-tail
1,12903E-56
t Critical one-tail
1,662155326
P(T<=t) two-tail
2,25805E-56
t Critical two-tail
1,986978657
Tabel I-33 t-Test pada MD4 dan MD5 pada skenario i-a Data Statistik
Mean Variance Observations Pearson Correlation Hypothesized Mean Difference df
MD4
MD5
96,78276288
97,62637822
5,52249051
0,033570799
90
90
-0,26082855 0 89
t Stat
-3,32871414
P(T<=t) one-tail
0,000635198
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,001270396
t Critical two-tail
1,986978657
I-26 b. Data pengujian mengandung intrusi jenis baru Tabel I-34 t-Test pada MD6 dan MD7 i-b Data Statistik
MD6
MD7
Mean
84,94581255
84,80115947
Variance
2,748666999
0,703527824
90
90
Observations Pearson Correlation
0,06884055
Hypothesized Mean Difference
0
df
89
t Stat
0,759960737
P(T<=t) one-tail
0,224643248
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,449286496
t Critical two-tail
1,986978657
Tabel I-35 t-Test pada MD4 dan MD5 i-b Data Statistik
Mean Variance
MD6
82,4762091
83,3614631
6,505045074
0,63365397
90
90
Observations Pearson Correlation
MD7
0,078228347 0
Hypothesized Mean Difference
89
df
-3,215610851
t Stat P(T<=t) one-tail
0,000907408
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,001814817
t Critical two-tail
1,986978657
Tabel I-36 t-Test pada MD6 dan MD5 i-b Data Statistik
MD6
MD7
Mean
84,94581255
83,3614631
Variance
2,748666999
0,63365397
90
90
Observations Pearson Correlation Hypothesized Mean Difference df
0,06212931 0 89
t Stat
8,378316948
P(T<=t) one-tail
3,62074E-13
t Critical one-tail
1,662155326
P(T<=t) two-tail
7,24149E-13
t Critical two-tail
1,986978657
I-27
ii.
Data Intrusi Tidak Seimbang
a.
Data pengujian tidak mengandung intrusi jenis baru
Tabel I-37 t-Test pada MD6 dan MD7 pada skenario ii-a Data Statistik
Mean Variance
MD6
90,2026318
90,21311991
0,373895068
0,371201293
90
90
Observations Pearson Correlation
MD7
0,992095077
Hypothesized Mean Difference
0
df
89
t Stat
-1,295941867
P(T<=t) one-tail
0,099173138
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,198346276
t Critical two-tail
1,986978657
Tabel I-38 t-Test pada MD5 dan MD4 pada skenario ii-a Data Statistik
MD4
MD5
Mean
90,85154424
91,17564785
Variance
0,353980652
0,38061912
90
90
Observations Pearson Correlation Hypothesized Mean Difference df t Stat
0,906818932 0 89 -11,71468001
P(T<=t) one-tail
5,01826E-20
t Critical one-tail
1,662155326
P(T<=t) two-tail
1,00365E-19
t Critical two-tail
1,986978657
I-28 Tabel I-39 t-Test pada MD7 dan MD5 pada skenario ii-a Data Statistik
MD7
MD5
Mean
90,21311991
91,17564785
Variance
0,371201293
0,38061912
90
90
Observations Pearson Correlation
0,793135047
Hypothesized Mean Difference
0
df
89
t Stat
-23,15094736
P(T<=t) one-tail
9,76788E-40
t Critical one-tail
1,662155326
P(T<=t) two-tail
1,95358E-39
t Critical two-tail
1,986978657
b. Data pengujian mengandung intrusi jenis baru Tabel I-40 t-Test pada MD6 dan MD7 pada skenario ii-b Data Statistik
MD6
MD7
Mean
79,14166401
79,04320606
Variance
2,311800382
0,946109103
90
90
Observations Pearson Correlation
0,666489506
Hypothesized Mean Difference
0
df
89
t Stat
0,82349543
P(T<=t) one-tail
0,206213777
t Critical one-tail
1,662155326
P(T<=t) two-tail
0,412427553
t Critical two-tail
1,986978657
Tabel I-41 t-Test pada MD4 dan MD5 pada skenario ii-b Data Statistik
MD4
MD5
Mean
77,56883401
78,23185443
Variance
1,392568431
1,082722189
90
90
Observations Pearson Correlation Hypothesized Mean Difference df t Stat
0,887026781 0 89 -11,54342932
P(T<=t) one-tail
1,11245E-19
t Critical one-tail
1,662155326
P(T<=t) two-tail
2,2249E-19
t Critical two-tail
1,986978657
I-29 Tabel I-42 t-Test pada MD6 dan MD5 pada skenario ii-a Data Statistik
MD6
MD5
Mean
79,14166401
78,23185443
Variance
2,311800382
1,082722189
90
90
Observations Pearson Correlation
0,669688479
Hypothesized Mean Difference
0
df
89
t Stat
7,642444549
P(T<=t) one-tail
1,16904E-11
t Critical one-tail
1,662155326
P(T<=t) two-tail
2,33808E-11
t Critical two-tail
1,986978657
Tabel I-43 t-Test pada MD6 dan MD7 pada seluruh skenario Data Statistik
MD6
MD7
Mean
88,19228297
88,13410804
Variance
52,07677993
51,92728071
360
360
Observations Pearson Correlation
0,98910564
Hypothesized Mean Difference df
0 359
t Stat
1,036909131
P(T<=t) one-tail
0,15023806
t Critical one-tail
1,649109151
P(T<=t) two-tail
0,300476119
t Critical two-tail
1,966593866
Tabel I-44 t-Test pada MD4 dan MD5 pada seluruh skenario Data Statistik
MD4
MD5
Mean
87,34438404
87,38793206
Variance
66,13028971
52,69404026
360
360
Observations Pearson Correlation Hypothesized Mean Difference df t Stat
0,970418754 0 359 -0,400584123
P(T<=t) one-tail
0,34448231
t Critical one-tail
1,649109151
P(T<=t) two-tail
0,688964621
t Critical two-tail
1,966593866
I-30 Tabel I-45 t-Test pada MD6 dan MD5 pada selutuh skenario Data Statistik
MD6
MD5
Mean
88,19228297
87,38793206
Variance
52,07677993
52,69404026
360
360
Observations Pearson Correlation
0,964537202
Hypothesized Mean Difference df
0 359
t Stat
7,915669552
P(T<=t) one-tail
1,54709E-14
t Critical one-tail
1,649109151
P(T<=t) two-tail
3,09419E-14
t Critical two-tail
1,966593866
I.6
Upaya Peningkatan Performansi Model Terbaik
Tabel I-46 f-score pada aribut KDDCUP 99 Atribut KDD CUP 99
F-score
Atribut KDD CUP 99
Atribut KDD CUP 99
F-score
3
0,642982
28
23
0,607547
27
0,112716
21
0,012811
0,111575
31
0,007027
6
0,36978
40
0,103331
1
0,002428
25
0,338335
11
0,085584
17
0,001534
26
0,321607
12
0,081185
19
0,000301
24
0,303903
36
0,077447
7
0,000269
39
0,272418
33
0,076697
4
0,000146
38
0,264728
14
0,069771
5
7,40E-05
29
0,204592
8
0,060735
13
5,20E-05
2
0,188109
34
0,026837
16
1,70E-05
35
0,172358
22
0,026779
15
6,00E-06
37
0,156193
18
0,017072
9
1,00E-06
30
0,136506
32
0,015302
20
41
0,120935
10
0,012927
F-score
0
I-31 Tabel I-47 f-score pada atribut hasil preprocessing Atribut SVM
F-score
Atribut SVM
47
0,642982
3
105
0,607547
77
0,36978
107
F-score
Atribut SVM
F-score
0,008591
18
0,000335
2
0,007621
28
0,00032
113
0,007027
55
0,00032
0,338335
54
0,005531
101
0,00301
108
0,321607
86
0,004194
69
0,000283
106
0,303903
104
0,0034
68
0,000282
16
0,278679
13
0,003272
42
0,000282
121
0,272418
1
0,002428
36
0,000276
120
0,264728
85
0,001737
124
0,000269
15
0,258051
99
0,001534
67
0,000266
82
0,245104
80
0,001158
33
0,00026
111
0,204592
23
0,001033
56
0,000244
4
0,188109
34
0,000844
40
0,0002
76
0,179904
74
0,000823
57
0,000191
117
0,172358
8
0,000823
89
0,00019
119
0,156193
52
0,000757
51
0,000188
112
0,136506
39
0,000757
20
0,000165
123
0,120935
38
0,000756
84
0,000151
110
0,112716
44
0,000733
87
0,000146
109
0,111575
37
0,000669
63
0,000117
122
0,103331
19
0,000658
26
0,00008
93
0,085584
71
0,000627
50
0,00008
125
0,081185
10
0,000611
5
0,000079
94
0,078574
30
0,000568
88
0,000074
118
0,077447
35
0,000567
95
0,000052
115
0,076697
49
0,000564
29
0,000028
126
0,069771
53
0,000549
98
0,000017
24
0,061823
45
0,000506
78
0,000013
90
0,060735
12
0,000488
62
0,000008
48
0,041823
11
0,000486
83
0,000008
81
0,040301
73
0,000486
75
0,000007
79
0,034749
58
0.000481
127
0,000006
96
0,03399
7
0,00047
97
0,000005
61
0,031345
31
0,000458
72
0,000004
46
0,028748
43
0,000444
91
0,000001
116
0,026837
14
0,000413
66
0,000001
129
0,026779
9
0,000376
64
0
22
0,026582
17
0,000376
6
0
100
0,017072
25
0,000351
27
0
114
0,015302
59
0,000351
32
0
92
0,012927
41
0,000345
65
0
128
0,012811
70
0,000345
102
0
21
0,009627
60
0,000345
103
0
I-32 Tabel I-48 Daftar atribut KDDCUP 99 dan atribut hasil preprocessing-nya Atribut KDD CUP 99
Atribut SVM
Atribut KDD CUP 99
Atribut SVM
Atribut KDD CUP 99
Atribut SVM
1
1
15
97,127
29
111
2
2-4
16
98
30
112
3
5-75
17
99
31
113
4
87
18
100
32
114
5
88
19
101
33
115
6
76-86
20
102
34
116
7
89,124
21
103,128
35
117
8
90
22
104,129
36
118
9
91
23
105
37
119
10
92
24
106
38
120
11
93
25
107
39
121
12
94,125
26
108
40
122
13
95
27
109
41
123
14
96,126
28
110
LAMPIRAN J SARAN UNTUK MENERAPKAN SVM PADA IDS Berikut ini adalah saran yang dapat diberikan untuk penggunaan model terbaik yang diajukan dari hasil Tugas Akhir ini pada IDS: 1.
Baik metode misuse detection maupun anomaly detection dengan SVM sebaiknya diimplementasikan dalam sebuah IDS.
2.
Jika tidak terdapat contoh data pelatihan, One Class SVM dapat digunakan untuk mencari data anomaly dari jaringan dengan menggunakan nilai parameter nu yang sangat kecil. Selanjutnya data yang terdeteksi sebagai intrusi dan telah diverifikasi dapat diberi label dan nantinya menjadi data pelatihan bagi metode misuse detection.
3.
Untuk melakukan pelatihan menggunakan One Class SVM sebaiknya digunakan nilai parameter nu yang sama dengan jumlah data intrusi pada data pelatihan. Akan tetapi, jika jumlah false positive terlalu besar buat model baru dengan pelatihan menggunakan data dengan rasio data intrusi yang lebih kecil.
4.
Pencarian parameter dengan grid search sebaiknya dioptimasi pada nilai fmeasure.
5.
Dalam penggunaan grid search untuk pencarian parameter, efektifitas model sebaiknya tidak perlu dioptimasi sampai grid yang sangat kecil karena dapat mengakibatkan terjadinya overfit terhadap data pelatihan.
6.
Data pelatihan sebaiknya lengkap, mencakup semua jenis intrusi yang ada dan semua jenis servis data normal.
7.
Pembuangan atribut kurang penting dengan perhitungan f-score sangat berguna untuk mengurangi resource yang dibutuhkan untuk mengumpulkan data dan mem-preprocess-nya. Akan tetapi, data yang digunakan untuk perhitungan nilai f-score sebaiknya lengkap sehingga mengurangi kemungkinan adanya atribut yang dihilangkan padahal atribut tersebut penting untuk intrusi jenis tertentu.
8.
Gunakan nilai Cache yang lebih besar untuk pelatihan data dalam jumlah besar karena dapat meningkatkan efisiensi secara signifikan. Penentuan nilai Cache sebaiknya lebih kecil dari jumlah free RAM yang tersedia. Misalnya, pada komputer dengan RAM 1024 MB, jumlah RAM yang telah terpakai oleh sistem
I-1
J-2 operasi dan program lain adalah 250 MB. Nilai Cache yang sebaiknya digunakan adalah sekitar 700 MB. Penggunaan nilai yang lebih besar, dapat mengakibatkan terjadinya out of memory. Pada sistem operasi Windows, hal ini dapat diatasi dengan meningkatkan jumlah virtual memori. Akan tetapi hal ini sebaiknya dilakukan sebelum IDS dijalankan karena apabila dilakukan secara otomatis oleh sistem operasi maka saat dilakukan peningkatan virtual memori IDS dapat berjalan sangat lambat. 9.
Penggunaan SVM dalam pendeteksian intrusi pada jaringan melibatkan data dalam jumlah yang sangat besar dan sering kali terdapat data pelatihan baru oleh karena itu agar pengelolaan data pelatihan dan detection model lebih mudah sebaiknya digunakan basis data.
10. Pada pelatihan menggunakan data yang sangat besar atau ketika terdapat data pelatihan baru lakukan incremental training.