TEKNIK DATA MINING UNTUK MENDAPATKAN INFORMASI DARI KELUARAN PERANGKAT JARINGAN Haryanto Binus University, Jakarta, DKI Jakarta, Indonesia
Abstrak Data mining adalah sebuah tool yang banyak digunakan dalam dunia bisnis, khususnya dalam transaksi bisnis. Data mining yang digunakan untuk dunia bisnis tersebut umumnya menggunakan sebuah file database yang tersimpan dari hasil transaksi yang ada. Kemudian file database yang terdapat banyak data transaksi bisnis dicari atau digali informasinya dengan tujuan agar dapat mengetahui pola atau karakteristik dari para konsumen yang ada. Dalam penelitian ini, tujuan pemakaian data mining ialah mencari informasi dari sejumlah besar data dalam database untuk dapat mengklasifikasi sambungannya, klasifikasi IP destination yang paling banyak dituju oleh user / client yang terhubung dengan jaringan komputer yang ada, klasifikasi protokol yang digunakan dalam melakukan koneksi antara IP source dan IP destination. Untuk menunjang pembuatan penelitian ini maka dibutuhkan data dari jaringan komputer yang aktual dan berbagai informasi teknik maupun non teknik yang dapat dijadikan sebagai bahan acuan dalam penelitian ini. Metodologi dalam mengumpulkan data dan mendapatkan informasi dari data ialah mengumpulkan data, menjalankan program data mining untuk melakukan data mining. Hasil yang dicapai adalah mendapatkan informasi dari keluaran perangkat jaringan menggunakan teknik data mining. Dari penelitian yang dilakukan, ada beberapa hal yang perlu diperhatikan agar didapatkan informasi yang akurat untuk menggunakan teknik data mining dari keluaran perangkat jaringan. Salah satu hal terpenting itu adalah atribut kelas yang digunakan dalam proses klasifikasi. Kata Kunci: Data mining, atribut kelas, klasifikasi, informasi
1
1. Pendahuluan Informasi merupakan sebuah komponen yang penting dalam sebuah jaringan komputer
dari
sebuah
perusahaan.
Integrity,
availability
(ketersediaan),
dan
confidentiality (kerahasiaan) informasi yang ada di dalam sebuah perusahaan sangat penting. Apabila dari ketiga sifat (Integrity, availability, dan confidentiality) ada yang terganggu maka keamanan jaringan (network security) dari perusahaan tersebut patut diperhatikan dengan seksama. Sistem keamanan jaringan yang ada harus diperbaiki. Apabila data dari perusahaan tersebut diubah atau dicuri oleh perusahaan lain yang berperan
sebagai
kompetitornya,
maka
perusahaan
tersebut
dapat
terganggu
kelangsungan bisnisnya. Trend connection yang dilakukan oleh user yang terhubung ke internet via jaringan komputer yang ada perlu juga diperhatikan. Apabila user terlalu banyak mengakses ke website yang tidak ada hubungan dengan bisnis dan produktivitas perusahaan yang menyebabkan bisnis dan produktivitas perusahaan tersebut menurun maka perlu dipertimbangkan beberapa tindak lanjut seperti akses untuk ke website tersebut bisa di block atau ditutup. Customer yang ingin mencari atau mendownload informasi akan mendapatkan kemudahan. Dari sejumlah besar data jaringan komputer yang telah terkumpul melalui sebuah program analisis jaringan, Wireshark, dapat diketahui kegiatan keseluruhan dari jaringan komputer yang ada tersebut. Sejumlah besar data tersebut mengandung data mengenai protocol yang digunakan, waktu pengambilan data, siapa saja yang berperan sebagai source dan sebagainya. Namun, dari data yang terkumpul tersebut perlu diperoleh informasi yang bermakna. 2
Data yang dikumpulkan ini sekedar data mentah (raw data) yang berasal dari jaringan. Data hanya menunjukkan kegiatan pemakai jaringan. Data akan lebih bermakna bilamana dapat ditarik informasi darinya.
2. Metodologi Penelitian ini meneliti informasi yang dapat ditarik bilamana data diproses dengan salah satu teknik data mining. Mengambil informasi dari data jaringan yang sudah terkumpul dari hasil capture Wireshark menggunakan metode classify dan algoritma tree J-48 dari software data mining (WEKA: Waikato Environment for Knowledge Analysis) yang meliputi: 1. Source 2. Destination 3. Protocol yang digunakan antara source dan destination Adapun pembahasan yang dilakukan meliputi sebagai berikut: 1 Studi kepustakaan •
Perangkat jaringan
•
Data mining
•
Data mining Tools
2 Pengumpulan data 3 Pemrosesan data menggunakan salah satu teknik data mining
3
2.1 . Studi keputakaan Switch Switch adalah perangkat yang menghubungkan segmen jaringan. Switch merupakan pengembangan lanjutan dari ‘bridge’.
50 port network switch
Switch bisa digunakan juga untuk menghubungkan switch satu dengan switch lainnya, untuk memperbanyak jumlah port, atau memperluas jangkauan dari jaringan (misalkan ada satu gedung dengan gedung yang lainnya). Pada vendor network equipment, berbagai switch dipecah ke level berbeda seperti core, aggregation dan access. Pemisahan berbagai level ini dikarenakan setiap level dimaksudkan untuk fungsi yang berbeda. Switch yang beredar di pasaran terdiri dari 2 (dua) jenis yaitu: Non Manageable Switch Adalah switch yang tidak dapat di manage, switch tersebut sudah siap pakai, hanya dipasang dan switch sudah bisa digunakan tanpa perlu diseting. Manageable Switch Adalah switch yang bisa diatur untuk kebutuhan jaringan tertentu, ada beberapa perbedaan mendasar yang membedakan antara manageable switch dengan non manageable switch. Perbedaan tersebut bisa dilihat dari kelebihan dan keunggulan yang dimiliki oleh switch manageable itu sendiri. Kelebihan switch manageable adalah: 4
1. Mendukung penyempitan broadcast jaringan dengan VLAN (Virtual Local Area Network). 2. Pengaturan akses pengguna dengan access list. 3. Membuat keamanan network lebih terjamin. 4. Bisa melakukan pengaturan trafik maintenance network karena dapat diakses tanpa harus berada di dekat switch. Data Mining Proses dalam menemukan pola atau informasi menarik dari sejumlah data yang besar, dimana data dapat disimpan dalam database, data warehouse atau dapat disimpan di tempat penyimpanan informasi lainnya dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika. (Han dan Kamber, 2006:39; Larose, 2005:2). Banyak orang menggunakan istilah data mining
dan
knowledge discovery in
databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam proses KDD adalah data mining (Han dan Kamber, 2006:5). Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia (citra). Data mining dapat juga didefinisikan sebagai “pemodelan dan
5
penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar” Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Data Mining Tool (WEKA) WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di Universitas Waikato di Selandia Baru. WEKA adalah perangkat lunak gratis yang tersedia di bawah GNU General Public License. WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik klasifikasi dan algoritma yang digunakan di WEKA disebut classifier.
2.2. Pengumpulan data Start and stop Capturing Untuk memulai mencapture lalu-lintas paket di jaringan komputer menggunakan Wireshark, maka langkah-langkah yang harus dilakukan adalah sebagai berikut: 1. Jalankan aplikasi Wireshark yang telah terinstall di PC/laptop yang akan digunakan untuk mencapture dengan mengklik start → all programs → Wireshark atau dapat juga melalui menu run yang ada di microsoft window ketikkan Wireshark 6
2. Ketika Wireshark terbuka seperti gambar di bawah ini
Tampilan awal Wireshark 3. Pilih capture → interface → tentukan interface mana yang akan di capture lalulintas paketnya → start
Tampilan kotak dialog “Capture interfaces” pada Microsoft Windows Untuk selesai menangkap paket, maka tinggal klik pada tombol yang ditunjukkan oleh panah berikut.
stop capturing
7
2.3. Pemrosesan data menggunakan salah satu teknik data mining Proses data mining menggunakan Software WEKA Setelah WEKA terinstall, maka aktivitas data mining menggunakan software WEKA tersebut dapat dimulai. Proses data mining tersebut dibagi menjadi 2 tahap yaitu Tahap Preprocess dan Tahap Classify (Classification) Tahap Preprocess Tahap Preprocess digunakan untuk memasukkan data laporan jaringan yang telah dihasilkan melalui proses packet capture dan export file sehingga didapatkan file dalam bentuk .csv agar dapat diolah menggunakan WEKA. Adapun caranya adalah sebagai berikut: 1) Jalankan aplikasi WEKA dengan cara start → All Programs → WEKA 3.7.5 → WEKA 3.7 sehingga muncul tampilan seperti di bawah ini:
Tampilan awal WEKA 2) Kemudian klik Explorer yang terdapat di bagian Applications 3) Sehingga muncul window seperti berikut ini
8
Tampilan preprocess pada WEKA 4) Kemudian pada Preprocess pilih open file → cari file .csv yang berisi laporan jaringan yang telah didapat sebelumnya dari Wireshark → ubah file typenya menjadi .csv data file → pilih file .csv yang ingin diolah menggunakan tools data mining (WEKA) → kemudian klik tombol open seperti yang ditunjukkan di bawah ini:
Berisikan file-file hasil capturing paket yang akan diolah menggunakan WEKA 5) Maka pada WEKA Explorer akan ditampilkan berupa grafik dari isi file tersebut. Pada tahap preprocess ini, dapat digunakan untuk memfilter data-data yang ada. Namun, pemfilteran ini tidak akan dibahas karena pada tahapan preprocess ini hanya digunakan untuk memasukkan data laporan jaringan ke tools data mining (WEKA) dengan tujuan agar data dapat diolah menggunakan software WEKA dan menghasilkan informasi.
9
Hasil preprocess dari laporan jaringan yang telah dimasukkan pada tahap sebelumnya Klasifikasi pada WEKA 1. Memilih sebuah Classifier Di bagian atas dari bagian classify terdapat kotak Classifier. Kotak ini memiliki kolom teks yang memberikan nama dari classifier yang sedang dipilih. Mengklik pada kotak teks dengan tombol kiri mouse memunculkan kotak dialog Generic Object Editor, sama seperti untuk filter, yang dapat digunakan untuk mengkonfigurasi opsi-opsi dari classifier saat ini. Dengan klik kanan (atau Alt + Shift + klik kiri) dapat digunakan untuk menyalin string setup ke clipboard atau menampilkan properti di kotak dialog Generic Object Editor. Tombol select memungkinkan untuk memilih salah satu dari pengklasifikasi yang tersedia di WEKA seperti yang ditunjukkan oleh gambar berikut ini:
10
Memilih metode Classify yang akan digunakan untuk teknik data mining
Memilih Algoritma yang digunakan sebagai Classifier 2 Test Options Hasil menerapkan classifier yang dipilih akan diuji sesuai dengan pilihan yang ditetapkan dengan mengklik pada kotak Test Option. Ada empat mode tes: 1. Use training set Pengetesan dilakukan dengan menggunakan data training itu sendiri. 2. Supplied test set Pengetesan
dilakukan
dengan
menggunakan
data
lain.
Dengan
menggunakan option inilah, bisa dilakukan prediksi terhadap data tes.
11
3. Cross-validation Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut : Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut akan dihitung rata-ratanya. 4. Percentage split Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user. Dalam penelitian ini, digunakan mode tes yang pertama, yaitu mode Use training set seperti yang ditunjukkan oleh gambar berikut ini:
Test Option yang digunakan pada penelitian (Use Training Set)
12
Pilihan pengujian lebih lanjut dapat diatur dengan mengklik tombol More options seperti yang ditunjukkan oleh gambar berikut ini:
More Option yang dapat diatur untuk pengujian lebih lanjut
Classifier evaluation options 1. Output model. Model klasifikasi pada training set lengkap output sehingga dapat dilihat, divisualisasikan, dan lain-lain. Opsi ini dipilih secara default. 13
2. Output per-class stats. Ketepatan dan statistik benar / salah untuk setiap kelas. Pilihan ini juga dipilih secara default. 3. Output entropy evaluation measures. Langkah-langkah evaluasi entropi termasuk dalam output. Pilihan ini tidak dipilih secara default. 4. Output confusion matrix. Matriks confusion pada prediksi classifier termasuk dalam output. Opsi ini dipilih secara default. 5. Store predictions for visualization. Prediksi classifier diingat atau disimpan sehingga dapat divisualisasikan. Opsi ini dipilih secara default. 6. Output predictions. Prediksi pada data evaluasi untuk ditampilkan sebagai output. Perhatikan bahwa dalam kasus validasi silang nomor contoh tidak sesuai dengan lokasi dalam data. 7. Output additional attributes. Jika atribut tambahan perlu menjadi output samping prediksi, misalnya, atribut ID untuk misclassifications pelacakan, maka indeks dari atribut ini dapat ditentukan di sini. 8. Cost-sensitive evaluation. Kesalahan dievaluasi sehubungan dengan matriks biaya. Tombol set memungkinkan untuk menentukan matriks biaya yang digunakan.
14
9. Random seed for xval / % Split. Ini menentukan benih acak yang digunakan ketika mengacak data sebelum dibagi untuk tujuan evaluasi. 10. Preserve order for % Split. Hal ini menekan pengacakan data sebelum membelah diri menjadi train set dan test set. 11. Output source code. Jika classifier output dibangun sebagai kode sumber Java, maka dapat ditentukan nama kelas di sini. Kode akan dicetak di daerah "Classifier output".
3 Atribut kelas Pengklasifikasi dalam WEKA dirancang untuk dilatih untuk memprediksi 'kelas' satu atribut, yang merupakan target untuk prediksi. Beberapa pengklasifikasi hanya bisa memahami kelas nominal; pengklasifikasi lain hanya dapat memahami kelas numerik (masalah regresi); yang lainnya dapat memahami kedua-duanya. Secara default, kelas diambil menjadi atribut terakhir dalam data. Jika ingin mencoba classifier untuk memprediksi atribut berbeda, klik pada kotak di bawah kotak Test Options untuk membawa sebuah daftar drop-down dari atribut untuk memilih nya seperti yang ditunjukkan oleh gambar berikut ini:
15
Atribut kelas yang digunakan dalam proses klasifikasi (default) 4. Training a Classifier Setelah classifier, tes dan kelas pilihan semuanya telah ditetapkan, proses belajar dimulai dengan mengklik tombol Start. Proses pelatihan dapat dihentikan setiap saat dengan mengklik tombol Stop. Ketika pelatihan selesai, beberapa hal akan dihasilkan. Classifier output area di kanan layar diisi dengan teks yang menjelaskan hasil pelatihan dan pengujian. Sebuah entri baru akan muncul dalam kotak Result List.
3. Kesimpulan Dari penelitian ini, dapat ditarik beberapa simpulan. Simpulan tersebut yaitu: 1. Parameter-parameter atau atribut kelas yang harus digunakan adalah source dan destination agar diperoleh hasil dengan tingkat reliabilitynya yang besar 2. Teknik data mining yang banyak digunakan dalam strategi bisnis dapat digunakan pula untuk mendapatkan informasi dari sejumlah besar data jaringan di mana data jaringan tersebut diperoleh dengan cara mencapture paket pada jaringan komputer menggunakan Wireshark. 3. Terdapat tahapan preprocess yang digunakan untuk memasukkan data agar dapat diolah menggunakan salah satu teknik data mining yaitu klasifikasi. 16
4. Setelah tahapan preprocess ini, dapat ditentukan teknik data mining (klasifikasi, clustering, regresi, Association rule mining) yang akan digunakan untuk mendapatkan informasi dari sejumlah besar data jaringan tersebut. 5. Setelah diperoleh output dari hasil klasifikasi, maka diperoleh informasi dari sejumlah besar data jaringan yang ada tersebut. 6. Informasi yang diperoleh dengan data mining tergantung pada teknik data mining, atribut, dan output yang dipilih. Peran kepakaran/kemahiran manusia yang menggunakan tools akan berpengaruh pada penafsiran informasi yang diperoleh.
Daftar Pustaka Bramer, Max. (2007). Principles of Data Mining. London: Springer Han, J. and Kamber, M. (2006). Data Mining Concepts and Techniques. ( San Francisco: Morgan Kauffman
edition).
Kusrini, dan Emha Taufik Luthfi. (2009). Algoritma Data Mining. Yogyakarta: Penerbit Andi. Orebaugh, A. , Ramirez, G. and Burke, J. (2007). Wireshark & Ethereal Network Protocol Analyzer Toolkit. United States: O’Reilly Media, Inc. Pramudiono, I. (2007). Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data. Retrieved (Februari 26 2011) from http://www.ilmukomputer.org/wp-content/uploads/2006/08/iko-datamining.zip. Ruoff, L. (2010, April 14). Wireshark. Retrieved April 28, 2010, from Wireshark Website: http://wiki.wireshark.org/CaptureSetup/Ethernet Witten, Ian. H. (2011). Data Mining Practical Machine Learning Tools and Technique. ( edition). New York: Morgan Kauffman. Witten, I. H and Frank, E. (2005). Data Mining Practical Machine Learning Tools and edition). San Francisco: Morgan Kauffman. Techniques. ( 17