BAB 2 LANDASAN TEORI
2.1 Sistem Deteksi Intrusi
Sistem Deteksi Intrusi ( IDS ) telah berkembang menjadi komponen kritis dalam arsitektur jaringan komputer. Meskipun demikian IDS masih merupakan konsep yang cukup dianggap aneh bagi sebagian praktisi keamanan dan sistem administrator. Sebuah IDS merupakan perangkat keras, perangkat lunak, ataupun gabungan yang memonitor sebuah sistem ataupun jaringan dalam memantau dari kegiatan yang dianggap membahayakan. Sistem Deteksi dapat dianalogikan seperti sebuah alarm maling. Dengan alarm ini, sensor ditempatkan biasanya di tempat umum seperti pintu keluar ataupun masuk. Secara logika, strategi ini memfokuskan pada yang dianggap sebagai titik terlemah dari struktur sistem dan juga terhadap hal yang bermanfaat oleh si penyerang. Ketika menjaga sesuatu yang bernilai, kita akan memperoleh proses pengamatan yang lebih intensif dengan menggunakan sensor yang sensitif yang dapat mendeteksi pergerakan maupun perubahan terhadap temperatur tekanan udara. Data dikumpulkan dari sensor secara bertahap dikirim kepada individu yang harus bertindak terhadap serangan dan melakukan aksi terhadap serangan tersebut.
IDS beroperasi dengan terutama di dunia jaringan komputer. Sensor ditempatkan dimana poin dari serangan itu dimungkinkan. Semakin berharga suatu informasi, semakin tinggi pula tingkat pengawasan dengan meningkatnya aktifitas dari sensor yang sensitif. Seperti alam maling, IDS bergantung kepada operator manusia yang bertindak sesuai data yang dikumpulkan.
Sebuah IDS merupakan komponen penting sebagai pertahanan dalam teknologi informasi. Konsep pertahanan kedalam merupakan metode melindungi sumber informasi dengan berbagai bentuk lapisan pertahanan. Perkiraannya adalah jika salah satu bagian pertahanan tembus, maka bagian pertahanan lain akan menjadi perlindungan terhadap serangan yang terjadi. Kombinasi antara host yang ketat, router
Universitas Sumatera Utara
yang aman, pemasangan firewall yang baik, dan penambahan peralatan tambahan diperlukan dalam proses konsep pertahanan ke dalam.
Sebuah IDS harus dikonfigurasikan secara baik dan ditempatkan dengan benar agar sebuah IDS menjadi efektif.
IDS juga mendeteksi dan merespon terhadap
serangan dalam waktu yang terbatas. IDS dimungkinkan dalam mengawasi jaringan komputer modern, yang dapat memberikan sebuah organisasi secara langsung dalam mengetahui serangan maupun ancaman terhadap sistem. Tanpa IDS , sebuah organisasi dapat diserang berkali-kali dan tanpa diketahui oleh seseorang.
IDS telah berkembang menjadi dua tipe IDS yakni NIDS (Network IDS )dan Host IDS (HIDS ). Host IDS terletak didalam suatu mesin dan memonitor mesin tertentu dalam urusan masalah intrusi. Sedangkan IDS yang lebih populer yakni NIDS ( Network IDS ) yang memonitor trafik jaringan yang dilalui oleh jaringan ataupun yang melewati suatu host tertentu. Suatu tipe dari IDS ini tidak dapat dianggap lebih baik dari tipe IDS lainnya. Hal ini karena masing-masing IDS ini cocok terhadap suatu kondisi tertentu.
2.1.1 Host Based IDS
Host-based IDS ( HIDS) memonitor serangan pada sistem operasi, aplikasi maupun tingkat level kernel. HIDS memiliki akses untuk mengaudit logs, pesan error, servis dan hak aplikasi dan sumber yang tersedia dari host yang diawasi . Sebagai tambahan sebuah HIDS dapat bekerja sebagai tingkat aplikasi . HIDS memiliki pengetahuan tentang bagaimana data aplikasi bekerja, dan bagaimana pula sebuah data aplikasi yang tidak normal. HIDS dapat mengawasi data aplikasi dalam proses pengkodean dan dimanipulasi oleh aplikasi bersangkutan. Manfaat dari HIDS yakni menikmati hak bebas dari akses terhadap host.
Universitas Sumatera Utara
HIDS lebih baik dalam menentukan dalam proses tingkat keberhasilan serangan. Trafik yang mencurigakan terlihat mirip dengan trafik normal, karena alasan ini NIDS dibuat karena adanya kesalahan peringatan. Disisi lain, HIDS lebih akurat mendeteksi intrusi yang asli karena HIDS tidak membuat volume yang sama dalam false positive sebagaimana NIDS.
HIDS yang memiliki pengaruh istimewa terhadap akses sistem dapat mengawasi spesifik komponen tertentu dari host yang tidak dapat dibaca aksesnya dari sistem lain. Komponen tertentu dari Sistem Operasi, seperti berkas kunci di Unix dan registry di Windows, dapat dilihat dari penggunaan yang mencurigakan. Hal ini tentu saja dapat menjadi resiko yang besar jika tipe komponen ini tersedia oleh NIDS untuk diawasi.
HIDS dapat diatur dengan host. HIDS memiliki pengetahuan yang lebih dimana hanya tersedia saja kepada IDS dimana komputer yang sedang diawasi itu saja. Selain itu, HIDS dapat memiliki informasi yang spesifik tentang host dan bagaimana tipe aktifitas yang normal untuk itu. Trafik yang dikirim kepada host dapat muncul sebagai kondisi yang sangat normal bagi NIDS, tetapi bagi HIDS mungkin saja dapat dianggap sebagai hal yang tidak normal dan berbahaya. Untuk alasan inilah, HIDS dapat menemukan serangan dimana bagi sebuah NIDS hal ini tidak memungkinkan.
Host based IDS juga memiliki beberapa hal yang merugikan. Karena HIDS berada di tempat dimana komputer yang akan diawasi, maka HIDS akan berdampak pada topologi jaringan secara keseluruhan. HIDS tidak dapat mendeteksi serangan yang dimana HIDS tidak terinstalasi pada komputer yang diserang tersebut. Seorang penyerang dapat melakukan aksi kepada mesin yang tidak memiliki HIDS dan kemudian menggunakan aksesnya kepada mesin yang diproteksi sehingga sebuah HIDS menjadi hal yang kurang bijaksana dalam penggunaanya. Sehingga untuk mengawasi serangan yang terjadi HIDS harus dipasang disetiap host yang dianggap kritis. Hal ini tentu saja membutuhkan biaya yang sangat besar tergantung kepada host yang kritis yang terdapat didalam suatu organisasi yang terus berkembang. Menjalankan IDS pada tingkat host juga memiliki arti bahwa kita harus menyiapkan
Universitas Sumatera Utara
HIDS yang tersedia untuk berbagai versi sistem operasi yang berbeda dari host yang harus kita jaga.
2.1.2 Network-Based IDS
Network IDS ( NIDS ) ditempatkan dimana area infrastruktur jaringan dan trafik di monitor diperhatikan. Jaringan berdasarkan NIDS telah berkembang secara populer dan melebihi dari HIDS. Sebuah NIDS lebih efektif dibandingkan dengan HIDS karena dapat memproteksi infrastruktur jaringan dengan menggunakan satu alat. Tanpa NIDS, analisis intrusi memiliki sudut pandang yang cukup lebar untuk memperhatikan apa yang terjadi didalam maupun disekitar jaringan tersebut. Mengawasi host tertentu atau si penyerang dapat ditingkatkan atau diturunkan dengan mudah. Sebuah NIDS dapat lebih aman ataupun lebih rentan dibandingkan sebuah HIDS. NIDS dapat dijalankan disebuah host yang dilengkapi dengan servis yang berkaitan dengan deteksi intrusi, dapat membuatnya sulit untuk dilumpuhkan. NIDS juga dapat memiliki kekurangan dalam mengawasi sebuah host, dan dapat secara subsential lebih rawan kepada bagian tertentu dalam jaringan.
Dengan tidak mengandalkan tingkat keamanan jaringan dari host itu sendiri, NIDS dapat mengumpulkan data
dan menyimpannya di mesin yang berbeda,
sehingga penyerang tidak dapat dengan mudah untuk memindahkan bukti serangan yang dilakukan kepada host.
NIDS juga memiliki kekurangan oleh karena bentuk dari cara kerjanya. NIDS harus bekerja lebih keras untuk mampu mengumpulkan trafik jaringan dalam jumlah yang besar agar tetap bekerja efektif. Dan hal ini terus bertambah secara ekponensial setiap waktu. Dimana NIDS harus mampu menangkap semua trafik dan menterjemahkannya pada waktu yang tepat. NIDS juga harus menempatkan dan melakukan pengaturan untuk menghindari adanya paket jaringan yang hilang. Hal ini membutuhkan beberapa penurunan downstream pada NIDS disebuah router utama atau switch. NDIS juga rentan terhadap teknik penghindaran untuk deteksi intrusi.
Universitas Sumatera Utara
Hacker telah menemukan beberapa metode untuk menyembunyikan trafik yang berbahaya sehingga NIDS tidak dapat mendeteksinya.
Salah satu metode yang diambil keuntungannya yakni proses dimana ketika sebuah jaringan telah melebihi jumlah paket jaringan yang boleh diterima. Ketika situasi ini terjadi , maka data terbagi menjadi beberapa bagian dan dikirim oleh beberapa paket. Hal ini dinamakan fragmentation. Ketika host menerima paket yang telah terfragmentasi ini, maka harus disusun ulang kembali dengan urutan yang berbeda. Beberapa di mulai dengan paket pertama dan dilanjutkan secara berturut, sedangkan yang lainnya mungkin dilakukan dengan cara sebaliknya. Proses menyusun kembali ini dapat menjadi hal yang tidak mencolok ketika fragmen tidak konsisten dan tidak saling melengkapi sebagaimana mestinya. Jika fragmen tidak saling melengkapi , maka hasilnya akan berbeda satu sama lain, tergantung dari proses penyusunan ulang. Proses penyusunan kembali untuk dapat mendeteksi fragmentasi serangan dapat menjadi masalah bagi NIDS.
Selain itu juga ada salah satu metode yang dapat menghindari metode deteksi intrusi jauh lebih mudah lagi. Karena NIDS menangkap trafik yang melewati sebuah jaringan, menentukan tingkat keamanan yang bertujuan mengawasi serangan eavesdropping dapat mencegah NIDS melakukan tugasnya. Trafik yang terenkripsi lebih sering digunakan dalam proses mengamankan komunikasi Web dan hal ini meningkat dan menjadi hal yang biasa ketika menghantarkan informasi rahasia. Penyerang dapat memanfaatkan hal ini dengan mengirimkan serangan pada sesi yang dienkripsi, secara efisien mengeksploitasi dari pengamatan NIDS. Beberapa NIDS juga mendukung fitur dimana proses decrypt trafik sebelum engine IDS menterjemahkannya, tetapi hal ini
malah membangun sebuah celah baru yang
mungkin beberapa organisasi tidak bersedia menerimanya.
Universitas Sumatera Utara
2.1.3 Hybrid Method
Kedua model deteksi intrusi dapat menjadi komponen yang efektif dalam proses menjaga jaringan jika diatur dan dijalankan dengan benar. Sebuah poin yang penting yang perlu diingat yakni kita tidak harus memilih sebuah IDS secara ekslusif . Sebuah NIDS memiliki keuntungan yang dapat digunakan ketika melindungi infrastruktur jaringan dengan porsi trafik yang besar dengan baik. Sebuah HIDS menawarkan proteksi pengaturan untuk host yang memiliki misi kritis.
Kebanyakan organisasi memulai memanfaatkan IDS menggunakan sebuah NIDS. Kemudian berkembang dengan membiasakan diri dengan menempatkan HIDS di host yang kritis terhadap operasi yang bekerja setiap saat. Metodologi memanfaatkan kedua IDS ini memberikan perlindungan secara penuh pada Deteksi Intrusi pada sebuah organisasi.
2.2 Metode Deteksi Intrusi
IDS memiliki beberapa metode dalam mendeteksi serangan dalam cara kerja mereka. Beberapa teknik lebih baik kepada tipe intrusi tertentu. IDS juga memungkinkan mengembangkan lebih dari satu variasi teknik pendeteksian.
2.2.1 Signature Detection
Signature detection melakukan identifikasi even keamanan yang
berusaha
menggunakan sebuah sistem dalam bentuk yang tidak standar. Representasi dari intrusi yang telah dikenali lalu disimpan di IDS dan kemudian dibandingkan dengan keadaan sistem. Ketika sebuah intrusi yang telah diketahui cocok dengan aspek dari suatu sistem yang sedang digunakan , maka pesan peringatan akan disampaikan kepada analisis IDS.
Universitas Sumatera Utara
Representasi pengetahuan dari intrusi yang telah diketahui dinamakan termed signature. Signature harus dibuat kecocokannya dengan karateristik dari sebuah intrusi tertentu dan tidak ada akitifitas lain yang mencegah timbulnya false positif. Dalam sebuah NIDS , signature tertentu dibuat berdasarkan elemen protokol atau trafik jaringan. Ketika sebuah NIDS mendeteksi trafik yang sesuai dengan signature, sebuah alarm akan muncul. Sebuah serangan besar dari ICMP Packet Remote Denial Of Service ( DoS ) pada Internet Security System’s BlackIce Defender merupakan sebuah bentuk sederhana yang gampang diketahui.
BlackIce Defender merupakan sebuah firewall pribadi yang digunakan dikalangan rumah dan skala bisnis kecil. Peneliti keamanan menemukan pengiriman yang tidak biasa dari data dalam jumlah besar dari paket ICMP diproteksi oleh BlackIce dapat mengakibatkan remote host tidak dapat beroperasi . Untuk mendeteksi serangan melawan BlackIce, sebuah signature dibuat untuk memancing ICMP paket yang melebihi 10.000 bytes. ICMP paket yang melebihi jumlah paket ini dianggap tidak wajar dan signature ini tidak membuat sebuah false positive yang berlebihan. Kondisi yang disebut false positif ini merupakan dimana suatu sistem mendeteksi suatu serangan sedangkan kondisi sebenarnya tidak terdapat serangan.
Deteksi Signature merupakan teknik yang paling akurat dalam mendeteksi serangan yang telah diketahui. Sebuah signature yang cocok dengan sebuah intrusi, akan selalu membangun sebuah alarm. Sebagai tambahan, hampir semua tipe trafik yang berbahaya dapat diketahui dari signature yang unik. Selain itu juga, hampir sebagian besar dapat diketahui oleh IDS menggunakan signature detection. Namun dalam beberapa kategori dari serangan yang tidak diketahui dengan pasti, tetapi jumlah mereka hanya dalam jumlah yang kecil dan dapat dideteksi dengan berbagai kondisi.
Deteksi Signature juga memiliki beberapa batasan. Deteksi signature tidak memiliki dasar pengetahuan tentang bagaimana sebuah aktivitas cocok dengan sebuah signature, oleh sebab itu tanda siaga dapat terjadi meskipun dalam kondisi sistem sedang normal. Trafik normal kadang sering dianggap sebagai trafik yang berbahaya,
Universitas Sumatera Utara
sehingga kadang NIDS menggunakan signature deteksi itu dapat membuat false positif.
Deteksi signature membutuhkan pengetahuan sebelumnya tentang sebuah serangan untuk membangun sebuah signature yang akurat. Fakta ini membuat IDS dapat hanya dapat memanfaatkan deteksi signature yang telah ada sehingga menjadi sulit mengetahui serangan yang belum diketahui atau aktifitas yang belum ditentukan signature pastinya. Dalam beberapa kasus, modifikasi sebuah bit saja sudah cukup membuat sebuah IDS salah dalam mendeteksi serangan. Serangan baru membutuhkan signature yang baru dan selalu bertambahnya celah keamanan akan membutuhkan base signature yang berkembang sepanjang waktu. Setiap paket harus dibandingkan dengan setiap signature yang dimiliki IDS untuk menentukan deteksi dari intrusi. Hal ini dapat menjadi sesuatu hal yang mahal secara komputasi sebagaimana terus bertambahnya bandwith jaringan.
Ketika jumlah bandwith sudah melebihi dari
kapasitas dari IDS, dapat menimbukan IDS salah dalam menerima paket . Dalam situasi ini, false negative sangat mungkin terjadi. False negative yaitu dimana kondisi sistem tidak adanya mendeteksi serangan sedangkan pada kondisi aslinya ada serangan. Meskipun begitu, dengan adanya masalah ini,suatu signature deteksi intrusi tetap menjadi suatu hal yang penting dan diandalkan di pasaran saat ini.
2.2.2 Deteksi Anomaly
Pendeteksian intrusi pada model ini didasarkan pada perubahan dalam pola pemakaian atau kelakuan sistem. Cara yang dilakukan adalah dengan membangun sebuah model statistik yang berisi satuan-satuan alat ukur (metrik) yang nilainya akan diambil dari aktifitas proses sistem.
Anomali adalah suatu keadaan tidak normal atau nominal. Pendeteksi anomali harus dapat membedakan antara keadaan normal atau anomali
Universitas Sumatera Utara
Apa yang mengindikasikan jika suatu hal dianggap anomali ? Biasanya, hal ini dapat ditunjukkan dari beberapa peristiwa yang memiliki frekuensi lebih besar atau kurang dari dua standar deviasi pada table statistik. Misalnya, jika dalam satu hari ada seorang user yang log on dan log off pada satu mesin sebanyak 20 kali (padahal normalnya hanya 1 atau 2 kali) maka ini tentunya akan menimbulkan kecurigaan.
Penggunaan anomali based IDS ( teknik deteksi intrusi yang merujuk pada anomali ) dapat mendeteksi tidak hanya penyusup yang telah atau belum tercatat tetapi juga menginformasikan tentang kemungkinan masalah-masalah di jaringan. Metode ini melibatkan pola lalu lintas yang mungkin merupakan sebuah serangan yang sedang dilakukan oleh penyerang.
Cara umum untuk menggambarkan bentuk ini adalah dengan dengan menggunakan teknik statistik untuk membandingkan lalu lintas yang sedang dipantau dengan lalu lintas normal yang biasa terjadi. Hal ini dapat ditempuh melalui penghitungan nilai rata-rata dan standart deviasi dari statistik terdistribusi. Jika hasil perhitungan berada diluar dari parameter standar deviasi, maka kemungkinan telah terjadi intrusi. . Pendeteksi ini membangun deksripsi yang merepresentasikan penggunaan atau pola perilaku normal. Selanjutnya, deskripsi atau pola ini dibandingkan dengan perilaku user dan sistem untuk memprediksi dan mendeteksi ketidakcocokan yang mungkin timbul. Sehingga pada akhirnya akan dikenali kemungkinan usaha serangan.
Untuk mencocokkan deskripsi, sistem melakukan inisialisasi deskripsi user dengan pola perilaku user yang sah. Sekumpulan deskripsi yang normal tidak semuanya cocok dengan deskripsi yang tersimpan. Jika ada masalah yang berhubungan
dengan
pendeskripsian,
sementara
sistem
terus
mempelajari
kemungkinan anomali, maka intruder / penyusup yang berpengalaman dapat balik mempelajari sistem tersebut.
Universitas Sumatera Utara
Gambar 2.1 Gambaran mengenai kegiatan anomali dan normal
Tidak peduli apakah terdapat anomali atau tidak, sistem tetap merujuk pada parameter yang diset selama proses inisialisasi perilaku sistem. Perilaku ini diasumsikan sebagai bentuk normal, diukur dan akhirnya digunakan untuk mengatur parameter sehingga dapat menjelaskan mana perilaku yang normal dan yang mengandung anomali.
Jika suatu perilaku dianggap tidak mengandung anomali, maka tidak terjadi intrusi. Namun, jika anomali terdapat pada suatu perilaku, maka sistem administrator dapat membunyikan false alarm sebagai tindak lanjut.
2.2.3 Verifikasi Integriti
Integrity verification merupakan sesuatu yang sederhana dan mudah namun tetap efektif dalam proses pengawasan dari penyerang. Cara ini bekerja dengan membuat sebuah checksum untuk setiap berkas yang berada pada sebuah sistem, dan kemudian secara periodik melakukan komparasi checksum kepada berkas asli untuk memastikan tidak ada perubahan yang telah terjadi. Jika sebuah berkas telah terjadi penggunaan yang tidak diotentifikasi maka akan segera muncul tanda bahaya.
Jumlah berkas yang banyak pada suatu sistem secara regular berubah sebagaimana dalam jalur operasi normal. Verifikasi integriti dari IDS harus secara hati-hati diatur untuk menghindari adanya false positif. Checksums harus direset ketika ada tindakan sah yang terjadi.
Verifikasi Intergriti juga dapat digunakan untuk mendeteksi deface halaman web. Penyerang biasanya memperoleh akses dari web server yang belum di patch celah keamanannya dan mengganti isi dari Web. Verifikasi integriti dari IDS dapat digunakan dalam membuat checksums dan mengawasi halaman web spesifik. Ketika
Universitas Sumatera Utara
penyerang mengganti halaman dan isi Web maka akan menimbulkan verifikasi checksum yang salah dan muncul notifikasi pemberitahuan. Berkas yang berada di luar Web site seharusnya tidak berganti terlalu sering agar membentuk false positive. Sebagai tambahan , IDS dapat dikonfigurasi secara otomatis untuk mengembalikan berkas ke posisi yang semula. Metode ini juga memiliki beberapa keterbatasan. Kekurangan utama dari teknologi verifikasi integriti adalah ia membutuhkan akses kepada berkas yang sensitif dari host yang diawasi. Hal ini meniru sebuah HIDS, yang berarti memiliki turunan semua hal yang tidak efisien dari sebuah HIDS. Sebuah tambahan , checksums dapat diubah untuk mencocokkannya dengan berkas aslinya , sehingga mengakibatkan proses verifikasi integriti IDS menjadi hal yang tidak berguna. Menyimpan checksum pada suatu dedicated server, dan meningkatkan pengamanannya dapat mengurangi resiko hal ini terjadi, tetapi tidak dapat menghilangkan resiko hal tersebut terjadi.
2.3 Data Mining
Seiring dengan perkembangan teknologi, semakin berkembang pula kemampuan kita dalam menggumpulkan dan mengolah data. Penggunaan sistem komputerisasi dalam berbagai bidang baik itu dalam transaksi-transaksi bisnis, maupun untuk kalangan pemerintah dan sosial, telah menghasilkan data yang berukuran sangat besar. Datadata yang terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai informasi yang berguna dalam berbagai bidang.
Aplikasi basis data telah banyak diterapkan dalam berbagai antara lain bidang manajemen, manajemen data untuk industri, ilmu pengetahuan, dan bidang-bidang lainnya. Akibatnya data yang dihasilkan oleh bidang-bidang tersebut sangatlah besar dan berkembang dengan cepat. Hal ini menyebabkan timbulnya kebutuhan terhadap teknik-teknik yang dapat melakukan pengolahan data sehingga dari data-data yang ada dapat diperoleh informasi penting yang dapat digunakan untuk perkembangan masingmasing bidang tersebut.
Universitas Sumatera Utara
Istilah data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi.
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. Banyak istilah lain dari data mining yang dikenal luas seperti knowledge mining from databases, knowledge extraction, data archeology, data dredging, data analysis dan lain sebagainya (Agrawal R, 1994).
Dengan diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antara item dalam transaksi, maupun informasi informasi-yang potensial, selanjutnya dapat diekstrak dan dianalisa dan diteliti lebih lanjut dari berbagai sudut pandang.
Informasi yang ditemukan ini selanjutnya dapat diaplikasikan untuk aplikasi manajemen, melakukan query processing, pengambilan keputusan dan lain sebagainya. Dengan semakin berkembangnya kebutuhan akan informasi-informasi, semakin banyak pula bidang-bidang yang rnenerapkan konsep data mining.
2.3.1 Teknik Data Mining
Dengan definisi Data Mining yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam Data Mining. Karena keterbatasan tempat, disini penulis akan memberikan sedikit gambaran tentang tiga teknik Data Mining yang paling populer.
Universitas Sumatera Utara
1.
Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tersebut. Dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Algoritma yang paling populer dikenal sebagai apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasarkan aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tersebut. disebut frequent item set, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum (Seiner R. 1999). Algoritma baru yang lebih efisien bernama FP-Tree (Moxon B, 1996).
2.
Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 2.2 adalah identifikasi pembeli komputer, dari decision tree tersebut. diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.
Universitas Sumatera Utara
Age? >40
31...40
<=30
Student?
yes yes
no
yes
no
Credit_rating fair
excellent
no
yes
Gambar 2.2. Contoh Decision Tree
Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest( Gehrke et al., 1998 ). Metodemetode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
Proses classification biasanya dibagi menjadi dua tahap : learning dan test. Pada tahap learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada tahap test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
3.
Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning.
Universitas Sumatera Utara
Teknik clustering dilakukan jika tidak ada class yang akan diprediksi tetapi lebih mengarah pada instance yang dibagi berdasarkan kelas alaminya. Cluster ini asumsikan mengarah pada beberapa mekanisme dalam pekerjaan dimana domain dari instance yang digambar, sebuah mekanisme yang berakibat beberapa instance lainnya menuju kearah kemiripan yang sama antara satu dengan yang lainnya dibandingkan dengan instance lainnya. Clustering biasanya membutuhkan teknik yang berbeda dari metode classification dan association sebelumnya ( Witten, I. 2005 ).
Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dilihat di Gambar 2.3 dimana lokasi dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+).
Gambar 2.3 Clustering
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data.
Universitas Sumatera Utara
Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah partisi yang diinginkan lalu setiap data di tes untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya ( Karypis,,et al 1997) .
Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tersebut dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN (Ester et. Al, 1996 ).
2.4 Algoritma Decision Tree
Sebagaimana yang dijelaskan diatas Sistem Deteksi Intrusi ( IDS ) merupakan proses memonitor dan menganalisa kejadian di dalam suatu sistem komputer atau jaringan. Penggunaan algoritma data mining dalam
IDS digunakan untuk
mendeteksi intrusi saat ini diperhatikan untuk membangun sebuah IDS yang efisien dan adaptif yang mampu mendeteksi aktifitas yang tidak diperkenankan dari suatu sistem komputer atau jaringan. Algoritma machine learning memberikan aturan klasifikasi dari contoh dataset dan kemudian meluaskan domain pengetahuan dan kemudian dipahami. Sebuah Decision Tree ( Gewehr et al, 2007 ) adalah sebuah tree yang terstruktur dari atribut yang akan di test dalam rangka memprediksikan keluaran, dimana yang akan menentukan atribut mana yang akan di test terlebih dahulu , kemudian menemukan yang memiliki information gain tertinggi.
Universitas Sumatera Utara
J48 merupakan implementasi dari algoritma C4.5 yang memproduksi Decision Tree. Ini merupakan standar algoritma yang digunakan dalam machine learning. Decision Tree merupakan salah satu algoritma klasifikasi dalam data mining. Algoritma klasifikasi (Witten et al,1999) merupakan algoritma yang secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari data set yang belum diklasifikasikan ( pre classified data set) . Setiap data dari item berdasarkan dari nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping dari sekelompok set dari atribut dari kelas tertentu. Decision Tree mengklasifikasikan data yang diberikan menggunakan nilai dari atribut.
Decision Tree pada awalnya mengkonstruksi dari sekelompok data yang belum dikelompokkan ( pre-classified data ). Tujuan utamanya adalah untuk memilih atribut , dimana atribut tersebut merupakan yang mampu untuk membagi data item kedalam kelas mereka. Berdasarkan kepada nilai dari atribut ini, item data sudah terpartisi. Proses ini secara rekursif diterapkan ke tiap partisi subset dari item data. Process ini akan berhenti jika semua item data yang berada pada subset saat itu telah berada pada kelas yang sama. Sebuah node dari Decision Tree menspesifikasikan sebuah atribut dimana data itu akan dipartisi. Setiap node memiliki beberapa jumlah edge, dimana dilabeli berdasarkan kepada sebuah nilai yang mungkin dari atribut dari node utama ( parent node ).
Sebuah sisi ( edge ) dapat berhubungan dengan dua node atau sebuah node dan sebuah leaf. Leaves dilabeli dengan nilai dari Decision untuk melakukan kategorisasi data. Induksi dari Decision Tree menggunakan data training, dimana yang menjelaskan bentuk dari atribut.
Masalah utama disini adalah bagaimana menentukan atribut, dimana yang akan mampu mempartisi data ke berbagai kelas. Algoritma ID3 menggunakan infomasi teoritis dalam proses menyelesaikan masalah ini. Teori informasi menggunakan konsep entropi, dimana untuk mengukur tingkat impuriti dari sebuah data. Nilai dari entropy ini kecil ketika distribusi kelas tidak sama, itu
Universitas Sumatera Utara
ketika item data termasuk kedalam satu kelas yang sama. Nilai entropi ini akan semakin besar jika distribusi kelas sama , hal ini akan menyebabkan item data memiliki beberapa kelas . Keuntungan informasi ( Information Gain ) adalah sebuah pengukuran dari utiliti dari setiap atribut dari mengklasifikasikan item data. Hal ini diukur menggunakan nilai entropi. Information Gain ( Ian et al ,2005 ) mengukur pengurangan beban dari rata-rata impuriti ( entropi) dari atribut dibandingkan dengan tingkat impuritas dari komplit set dari data item. Oleh karena itu , atribut dengan Information Gain paling besar dipertimbangkan sebagai hal paling berguna dalam pengklasifikasikan data.
Untuk mengklasifikasikan object data yang tidak diketahui, satu dimulai dari akar ( root ) Decision Tree dan diikuti dari branch yang mengindikasikan dari keluaran tiap test sampai sebuah node leaf berhasil ditemukan.
Nama dari kelas pada node leaf adalah hasil dari klasifikasi. Decision Tree Induction telah diimplementasikan di berbagai algoritma. Beberapa diantaranya adalah ID3 Adaptive Machine Learning Algorithm (AMLA) 293 dan kemudian dikembangkan menjadi C4.5 dan C5.0. Algoritma lainnya untuk Decision Tree adalah CART.
Yang digunakan pada penelitian ini yakni pada Algoritma Decision Tree C4.5. Algoritma C4.5 ini menghindari over fitting pada data dengan menentukan sebuah Decision Tree, hal ini akan mengurus atribut yang bersifat continuous , dimana akhirnya dapat untuk memilih atribut pengukuran seleksi, mengurus data training dengan atribut yang hilang dan meningkatkan efisiensi komputasi. Algoritma C4.5 membangun tree dari sebuah set item data menggunakan atribut terbaik untuk melakukan pengujian yang bertujuan untuk membagi item data ke dalam subset dan kemudian menggunakan prosedur yang sama secara rekursif. Sepuluh atribut yang terbaik akan digunakan untuk membagi subset pada setiap tingkat ( stage ) dipilih dengan menggunakan Information Gain dari tiap atribut.
Universitas Sumatera Utara
2.5 Weka Weka merupakan suatu perangkat lunak yang berisikan koleksi dari perangkat visualisasi dan algoritma untuk analisis data dan predictive modelling, termasuk dengan tampilan antar muka yang mudah diakses oleh pengguna. Produk asli Weka ini sebenarnya adalah TCL/TK yakni sebuah pemodelan algoritma yang diimplementasikan dalam bahasa pemrograman lain, termasuk utiliti pemprosesan data dalam bahasa C, dan Makefile sistem untuk dijalankan sebagai eksperimen machine learning. Versi perangkat lunak ini pada awalnya dibuat sebagai alat untuk menganalisis data agrikultura, tetapi setelah muncul versi Weka yang dikembangkan sejak dari tahun 1997, maka kini Weka banyak digunakan dalam berbagai area aplikasi yang lainnya, terutama dibidang edukasi dan penelitian. Beberapa kelebihan utama Weka antara lain: 1. Merupakan perangkat lunak gratis yang dapat disebarluaskan dan digunakan yang memiliki naungan lisensi dibawah GNU General Public License. 2. Bersifat sangat portable karena dapat diimplementasikan dalam pemrograman Java dan dapat berjalan diberbagai platform sistem komputer saat ini . 3. Berisikan koleksi yang meliputi berbagai teknik pre-processing dan teknik permodelan data. 4. Mudah digunakan oleh pemula karena terdapat antar muka grafis yang mudah dipahami bagi orang awam sekalipun.
Weka juga mendukung berbagai tugas standar untuk data mining , lebih spesifik dibidang seperti data pre-processing, clustering, classification, regression , visualisasi dan seleksi fitur. Semua teknik dari Weka diprediksikan berdasarkan asumsi bahwa data adalah sebuah data tunggal yang datar atau relasi, dimana setiap point data dideskripsikan dengan nomor dari atribut. Weka juga mendukung akses ke database SQL menggunakan Java Database Connectivity dan dapat memproses hasilnya dikembalikan kebentuk queri database. Meskipun hal ini bukanlah suatu multirelational data mining tapi ada perangkat lunak terpisah yang mampu mengkonversi
Universitas Sumatera Utara
koleksi dari tabel database yang terhubung kepada sebuah tabel yang cocok untuk diproses melalui Weka.
Universitas Sumatera Utara