1 IDENTIKASI WEBSITE PHISING DENGAN SELEKSI ATRIBUT BERBASIS KORELASI Bekti Maryuni Susanto Program Studi Teknik Komputer Politeknik Negeri Jember Jl...
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
IDENTIFIKASI WEBSITE PHISING DENGAN SELEKSI ATRIBUT BERBASIS KORELASI Bekti Maryuni Susanto Program Studi Teknik Komputer Politeknik Negeri Jember Jl. Mastrip Kotak Pos 164 Jember E-mail:[email protected]
ABSTRAKS Internet memberikan fasilitas untuk mencapai pelanggan di seluruh dunia tanpa batasan pasar menggunakan ecommerce yang efektif. Sebagai dampaknya jumlah pelanggan yang bergantung pada Internet dalam pembelian mengalami peningkatan secara dramatis. Pada bidang keamanan computer, phising adalah aktivitas criminal yang berusaha untuk mendapatkan informasi sensitive secara tidak sah. Informasi sensitive tersebut bisa berupa username, password, dan detil kartu kredit. Penelitian ini bertujuan untuk menyeleksi feature atau atribut sehingga diperoleh atribut yang paling berpengaruh dalam mendeteksi website phising. Pemilihan feature menggunakan metode Correlation-based feature selection. Beberapa atribut terpenting akan dipilih menggunakan metode CFS dan diterapkan ke dalam algoritma machine learning yang populer yaitu C4.5, naïve bayes dan kNN. Berdasarkan hasil penelitian menunjukkan bahwa CFS mampu menghilangkan atribut redundan. Subset atribut yang dihasilkan mempunyai tingkat akurasi yang tidak jauh berbeda dengan atribut lengkap. Algoritma kNN memiliki tingkat akurasi tertinggi baik sebelum maupun sesudah feature selection dibandingkan dengan kedua algoritma machine learning populer lainya, C4.5 dan naïve bayes. Penelitian selanjutnya menerapkan metode feature selection lainya dan dibandingkan hasilnya dengan penelitian ini. Kata Kunci: website phising, CFS, machine learning Thabtah, 2013) menunjukkan bahwa neural network merupakan teknik yang baik dalam mendeteksi website phising. Hasil terbaik dicapai saat hidden layer 2 dan learning rate 0,7 dengan MSE sebesar 0,022. Penelitian lain yang berjudul Intelligent Rule based Phishing Websites Classification (Mohammad, McCluskey, & Thabtah, Intelligent Rule based Phishing Websites Classification, 2014) menunjukkan bahwa tingkat akurasi algoritma C4.5 dalam mendeteksi website phising mengungguli algoritma RIPPER, PRISM dan CBA. Namun demikian setelah dilakukan pemilihan atribut CBA memiliki tingkat error yang paling rendah yaitu 4,75%. Penelitian lain yang berjudul Phishing Websites Detection based on Phishing Characteristics in the Webpage Source Code (Alkhozae & Batarfi, 2011) menunjukkan bahwa website phising dapat ditentikan tingkat keamananya dengan mengekstrak karakteristik phising melalui standard W3C. Hasilnya website phising memiliki tingkat kemanan yang rendah dibandingkan dengan website legitimate.
1. PENDAHULUAN 1.1 Latar Belakang Internet memberikan fasilitas untuk mencapai pelanggan di seluruh dunia tanpa batasan pasar menggunakan e-commerce yang efektif. Sebagai dampaknya jumlah pelanggan yang bergantung pada Internet dalam pembelian mengalami peningkatan secara dramatis. Ratusan juta dolar ditransfer melalui Internet setiap harinya. Peningkatan ini membuat penipu tergoda untuk melancarkan operasi penipuan melalui Internet. Menurut Aaron dan Manning dalam Mohammad, McCluskey, & Thabtah (2013) Phishing adalah bentuk ancaman web yang didefinisikan sebagai seni meniru website suatu perusahaan otentik bertujuan untuk memperoleh informasi pribadi. Pada bidang keamanan computer, phising adalah aktivitas criminal yang berusaha untuk mendapatkan informasi sensitive secara tidak sah. Informasi sensitive tersebut bisa berupa username, password, dan detil kartu kredit. Phising dilakukan dengan menyamar menjadi entitas yang bisa dipercaya dalam komunikasi electronic (Dhanalakshmi, Prabhu, & Chellapan, 2011). Website phising secara luas melancarkan serangan social engineering untuk menipu orang pada informasi pribadi termauk nomor kartu kredit, informasi akun bank, nomor pin dan identitas pribadi untuk digunakan untuk menyerang mereka. Berbagai penelitian telah dilakukan dalam mendeteksi website phising. Diantaranya Predicting Phishing Websites using Neural Network trained with Back-Propagation (Mohammad, McCluskey, &
1.2
Tujuan Penelitian ini bertujuan untuk menyeleksi feature atau atribut sehingga diperoleh atribut yang paling berpengaruh dalm mendeteksi website phising. Pemilihan feature menggunakan metode Correlation-based feature selection (Hall, 1999). Beberapa atribut terpenting akan dipilih menggunakan metode CFS dan diterapkan ke dalam algoritma machine learning yang populer yaitu C4.5, naïve bayes dan kNN.
693
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
Rule: IF 1.3
Manfaat Manfaat dari penelitian ini adalah untuk meminimalkan waktu komputasi yang dibutuhkan dalam mendeteksi website phising. Waktu komputasi yang semakin kecil akan mengurangi jumlah sumber daya computer yang digunakan. Sehingga konsumsi energy listrik akan terkurangi.
f.
Adding Prefix or Suffix to the domain Rule: IF
1.4 Tinjauan Pustaka 1.4.1 Website Phising Phising adalah sebuah tindakan kriminal untuk mencuri informasi pribadi orang lain menggunakan entitas electronic, salah satunya adalah website. Sebuah website dikategorikan menjadi website phising apabila memenuhi karakteristik phising. Karakteristik phising tersebut digolongkan menjadi empat golongan utama yaitu, Address Bar based Feature, Abnormal based Feature, HTML and JavaScript based Feature dan Domain based Feature (Mohammad, McCluskey, & Thabtah, An Assessment of Features Related to Phishing Websites using an Automated Technique, 2012). Pada Address Bar based Feature terdapat 12 feature, yang akan dijelaskan sebagai berikut: a. Using the IP Address Jika sebuah IP address digunakan sebagai alternative nama domaian di dalam URL, seperti “http://125.98.3.123/fake.html”, hal ini mengindikasikan seseorang berusaha untuk mencuri informasi pribadinya. Rule: IF
b. Long URL to Hide the Suspicious Part Rule: IF
c.
Using URL Shorthening Services “Tiny URL”
Separated by (-)
g.
Sub Domain dan Multi Sub Domain Rule: IF
h.
HTTPS Rule: IF
i.
Domain Registration Length Rule: IF
j.
Favicon Rule: IF
k.
Using Non-Standard Port Rule: IF
l.
The Existence of “HTTPS” Token in the Domain Part of the URL Rule: IF
Rule: IF
d.
URL’s having “@” Symbol
Rule: IF
e.
Redirecting Using “//”
694
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
b.Status Bar Cuztomization Rule: IF Pada Abnormal based Fetaure terdapat enam feature, yaitu: a. Request URL Rule: IF
c. Dissabling Right Click Rule: IF
d.Using Pop-up Window Rule: IF
b.URL of Anchor Rule: IF
e. IFrame Redirection Rule: IF c. Links in <Meta>, <Script> and tags Rule: IF{(% of Links in "<Meta>","<Script>" and "<"Link>\""<17% → Legitimate IF(% of Links in <Meta>","<Script>" and "<"Link>\"" ≥17% And≤81% → Suspicious )Otherwise→ Phishing)┤ d.Server Form Handler (SFH)
Pada Domain based Feature terdapat tujuh feature, yaitu; a. Age of Domain Rule: IF
Rule: IF
b.DNS Record Rule: IF
e. Submitting Information to Email Rule: IF{(Using ""mail()\" or \"mailto:\" Function to Submit User Information" → Phishing@Otherwise → Legitimate)┤ f. Abnormal URL Rule: IF
c. Website Traffic Rule: IF
d.Page Rank Rule: IF
Pada HTML and JavaScript based Feature terdapat lima feature, yaitu: a. Website Forwarding Rule: IF
e. Google Index Rule: IF
695
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
f. Number of Links Pointing to Page Rule: IF{(Of Link Pointing to The Webpage=0 → Phishing Of Link Pointing to The Webpage>0 and≤2→Suspicious Otherwise → Legitimate)┤ g.Statistical-Reports based Feature Rule: IF{(Host Belongs to Top Phishing IPs or Top Phishing Domains → Phishing Otherwise → Legitimate)
ISSN: 2089-9815
C4.5 secara greedy mempartisi node sampai nilai trivial Gain_ratio dicapai. Sebuah prosedur prune kemudian dijalankan untuk menghindari pohon yang kompleks yang overfit data (Yu, Chen, Koronios, Zu, & Guo, 2007).
1.4.2 Algoritma C4.5 Algoritma C4.5 disebut juga decision tree atau pohon keputusan karena algoritma ini menghasilkan pohon keputusan. Algoritma C4.5 merupakan algoritma berbasis rule yang diperoleh secara tidak langsung, karena rule diperoleh dari pohon keputusan yang dihasilkan oleh algoritma C4.5. algoritma C4.5 mempunyai dua tipe node, node internal dan node daun. Node internal berhubungan dengan tes untuk sampel pada atribut individu atau kelompok dan node daun menugaskan kelas label pada sampel berdasarkan distribusi kelas rekamanya. Algoritma C4.5 mengklasifikasi sampel dengan cara top-down, mulai dari node akar dan menjaga pergerakan sesuai dengan hasil tes pada node internal, sampai node daun dicapai dan label kelas ditugaskan (Yu, Chen, Koronios, Zu, & Guo, 2007). Konstruksi pohon keputusan pada C4.5 berdasarkan pemisahan node internal secara rekursif. Pemilihan atribut yang dipisah pada node internal sangat penting selama proses konstruksi dan menentukan jangkauan luas struktur akhir pohon keputusan. Banyak usaha telah dilakukan pada aspek ini dan serangkaian kriteria pemisahan, seperti gini index, information gain dan test chi square. Teori entropi diadopsi untuk memilih pemisahan atribut yang tepat oleh algoritma C4.5. Misal N adalah ukuran dataset D dan Nj adalah jumlah sampel pada kelas j. Asumsi ada K label kelas, teori entropi menyatakan bahwa rata-rata jumlah informasi yang dibutuhkan untuk mengklasifikasi sebuah sampel adalah sebagai berikut:
Gambar 1. Pseudocode algoritma C4.5 (Alpaydin, 2010) 1.4.3 Algoritma Naïve Bayes Algoritma Naïve Bayes adalah statistical classifier berdasarkan teorema bayes. Klasifikasi bayesian sangat simple dan menunjukkan akurasi dan kecepatan yang tingi ketika diterapkan pada database yang besar. Naïve bayes bekerja pada asumsi bahwa pengaruh dari satu nilai atribut pada kelas yang diberikan adalah nilai yang independent dari atribut lain. Asumsi ini disebut class conditional independent (Ramana, Babu, & Venkateswarlu, 2011). Klasifikasi Bayesian dapat memprediksi probabilitas keanggotaan kelas, seperti probabilitas yang diberikan tuple yang dimiliki kelas tertentu. Klasifikasi Naïve Bayes memprediksi bahwa tuple X menjadi kelas Ci menggunakan formula: ……Persamaan 1
Ketika dataset D dipisah ke dalam beberapa subset D1,D2,D3,….,Dn sesuai hasil dari atribut X, information gain didefinisikan sebagai:
Dimana adalah maximum posteriori hypothesis untuk kelas Ci. Jika probalitas kelas sebelumnya tidak diketahui, umumnya diasumsikan bahwa kelas memiliki kemungkinan yang sama, yaitu:
Dimana Ni adalah jumlah sampel pada subset Di. C4.5 mengaplikasikan Gain_ratio, dari pada Gain, sebagai kriteria:
Persamaan 2 Sebaliknya
696
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
P(Ci/X)=P(X/Ci)P(Ci)…Persamaan 3
ISSN: 2089-9815
berdasarkan memori. Misalkan diberikan sebuah query, akan didapatkan sejumlah K objek data training yang terdekat dengan query tersebut.
Probabilitas kelas sebelumnya diperkirakan oleh P(Ci)= |Ci, D|/|D|, dimana |Ci, D| adalah jumlah tuple training kelas Ci di dalam D. Diberikan dataset dengan banyak atribut, ini membutuhkan perhitungan komputasional yang ekstrem expensive untuk menghitung P(X/Ci). Untuk mengurangi komputasi dama mengevaluasi P(X/Ci), asumsi naïve class conditional independence dibuat. Dugaan nilai atribut ini berdiri sendiri secara kondisional satu sama lain, diberikan label kelas sebuah tuple misalnya, yang tidak ada hubungan ketergantungan diantara atribut, dirumuskan:
Klasifikasi dilakukan dengan menggunakan mayoritas suara (seperti dalam pemilu) di antara klasifikasi dari K objek. Algoritma KNN menggunakan klasifikasi ketetenggaan sebagai prediksi terhadap data baru. Algoritma ini bekerja berdasarkan jarak minimum dari data baru terhadap K tetangga terdekat yang telah ditetapkan. Setelah diperoleh K tetangga terdekat, prediksi kelas dari data baru akan ditentukan berdasarkan mayoritas K tetangga terdekat (Kustiyo, 2012). Algoritma KNN (Alkhatib, Najadat, Hmeidi, & Shatnawi, 2013), (Kustiyo, 2012): 1. Tentukan parameter K = jumlah tetangga terdekat. 2. hitung jarak antara data baru dengan semua data training. 3. urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K. 4. periksa kelas dari tetangga terdekat. 5. gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru.
= P(Xi/Ci)xP(X2/Ci)x…..P(Xn/Ci)….Persamaan 4 Probabilitas P(Xi/Ci), P(X2/Ci), … secara mudah diperkirakan dari tuple training. 1.4.4 Algoritma kNN Algoritma k nearest neigbour adalah salah satu algoritma pembelajaran mesin yang paling sederhana. Algoritma k nearest neigbour (k-NN) berdasarkan ide bahwa sebuah objek yang saling berdekatan juga akan memiliki karakteristik yang sama. Jika kita mengetahui karakteristik sebuah objek, maka kita bisa memprediksi tetangga yang paling dekat. K-NN merupakan peningkatan dari nearest neigbour, dimana beberapa instance dapat diklasifikasi ke dalam kelas yang sama sebanyak k neigbour. Dimana k adalah bilangan positif integer.
1.4.5 Correlation-based Feature Selection Banyak faktor yang menentukan kesuksesan machine learning pada suatu tugas tertentu. Faktor yang paling menentukan adalah kualitas dan representasi dari data example. Secara teori, memiliki lebih banyak atribut atau feature seharusnya menghasilkan kekuatan yang membedakan. Akan tetapi, pengalaman praktis dengan machine learning tidak semua kasus menunjukkan demikian. Banyak algoritma learning dapat dipandang sebagai penciptaan estimasi probabilitas label kelas yang diberikan seperangkat feature. Data ini kompleks dan mempunyai distribusi dimensi yang tinggi. Sayangnya, algoritma induksi hanya bisa diterapkan pada data yang terbatas. Hal ini membuat estimasi banyak parameter probabilitas menjadi sukit dilakukan(Hall, 1999). Feature selection atau seleksi atribut adalah proses mengidentifikasi dan menghapus informasi yang tidak relevan dan redundan sebanyak mungkin(Hall, 1999). Pengurangan dimensi data ini memungkinkan algoritma machine learning untuk bekerja lebih cepat dan lebih efektif. Pada beberapa kasus akurasi klasifikasi dapat ditingkatkan; lainya hasilnya lebih sederhana dan mudah dipelajari dan diintrepretasikan. Algoritma feature selection menampilkan pencarian melalui seperangkat subset feature dan sebagai konsekuensinya, harus mengarah pada empat kriteria dasar pencarian (Langley, 1994):
Untuk mengklasifikasi sebuah kelas baru k-NN mencari k tetangga yang paling dekat dan menggunakan kelas mayoritas. Untuk melakukanya, pertama, k tetangga yang paling dekat diidentifikasi terlebih dahulu. Untuk mengidentifikasi ini menggunakan Euclidean distance. Jarak Euclidean dari dua buah instance (x1,x2,x3,….,xn) dan (u1,u2,u3,….,u4) dirumuskan (Subha & Nambi, 2012):
…Persamaan 5 dimana x1,x2,…xn adalah prediktor untuk instance 1 dan u1,u2,…,un adalah prediktor untuk instance 2. Algoritma K-nearest neighbor (KNN) merupakan algoritma supervised learning di mana hasil kalsifikasi data baru berdasar kepada kategori mayoritas tetangga terdekat ke-K. Tujuan dari algoritma ini adalah mengklasifikasikan objek baru berdasarkan atribut dan data training. Klasifikasi dilakukan tanpa menggunakan model namun hanya
697
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
1. Starting Point atau titik awal. Pemilihan titik awal untuk pencarian seperangkat subset akan mempengaruhi arah pencarian. Salah satu pilihan dengan memulai nol feature dan secara berurutan menambahkan atribut. Pada kasus ini, pencarian dikatakan bergerak maju di dalam ruang pencarian. Sebaliknya, pencarian dimulai dengan semua feature kemudian secara berurutan mengurangi feature sampai nol, ini dikatakan pencarian bergerak mundur. Alternatif lain dengan mencari dari titik tengah kemudian bergerak keluar. 2. Search Organization. Pencarian subset yang mendalam menjadi penghalang pencarian semua atribut. Misal terdapat N atribut maka ada 2N kemungkinan subset. Strategi heuristik lebih mungkin dari pada pencarian yang mendalam dan dapat memberikan hasil yang bagus, walaupun tidak menjamin menemukan subset yang optimal. 3. Evaluation strategy. Bagaimana seperangkat feature dievaluasi adalah faktor yang paling membedakan diantara algoritma seleksi atribut untuk machine learning. Salah satu paradigma disebut filter, yang beroperasi secara independen dari algoritma machine learning apapun. Pada metode filter ini feature yang tidak diinginkan dikeluarkan dari data sebelum dilakukan pembelajaran. Pendekatan lain adalah sebuah algoritma induksi tertentu diterapkan untuk memilih atribut, metode ini disebut wrapper. 4. Stoping criterion. Sebuah pemilih atribut harus memutuskan kapan untuk menghentikan pencarian pada sepernagkat feature. Tergatung dari strategi evaluasi yang digunakan, pemilih atribut bisa menghentikan atau menambahkan atribut ketika tidak ada lagi atribut alternatif yang meningkatkan merit subset feature saat ini.
1.5
ISSN: 2089-9815
Metode Penelitian
Penelitian ini adalah penelitian eksperimen dimana penelitian dilakukan dengan menerapkan Correlation-based Feature selection pada dataset website phising. Data set diambil dari repository UCI Machine Learning. Selanjutnya dari hasil feature reduction, dataset diterapkan pada algoritma machine learning yang popular (C4.5, naïve bayes dan kNN) untuk diukur tingkat akurasinya. Software yang digunakan pada penlitian ini adalah WEKA.
Gambar 2. Alur Penelitian 2. PEMBAHASAN 2.1 Hasil Penelitian Tabel 1. Hasil machine learning sebelum feature reduction
sebelum atribut selection C4.5 NB kNN Correctly Classified Instances (%) Incorrectly Classified Instances (%) Kappa statistic Mean absolute error Root mean squared error Relative absolute error (%) Root relative squared error (%) Total Number of Instances
Correlation-based feature selection yang selanjutnya disebut seleksi atribut berbasis korelasi atau CFS adalah sebuah algoritma filter sederhana yang meranking subset berdasarkan fungsi evaluasi heuristik berbasis korelasi(Hall, 1999). Berdasarkan hipotesis bahwa subset atribut yang bagus berisi atribut yang mempunyai korelasi tinggi terhadap kelas dan tidak saling berkorlasi satu sama lain. Korelasi yang tinggi satu sama lain atribut menandakan atribut tersebut redundan. Atribut yang berkorelasi rendah terhadap kelas adalah atribut yag tidak relevan. Atribut yang tidak relavan dan redundan harus dihapus. Rumus untuk pencarian subset atribut berdasarkan korelasi adalah (Hall, 1999)
698
95.88
92.98
97.18
4.12
7.02
2.82
0.92
0.88
0.94
0.06
0.09
0.03
0.18
0.23
0.14
11.49
18.12
6.55
37.30
46.39
29.05
11055.0 0
11055.0 0
11055.0 0
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
Tabel 2. Hasil machine learning setelah feature reduction
Bayes kNN
setelah atribut selection C4.5 NB kNN Correctly Classified Instances (%) Incorrectly Classified Instances (%) Kappa statistic Mean absolute error Root mean squared error Relative absolute error (%) Root relative squared error (%) Total Number of Instances
Berdasarkan hasil penelitian, sebelum feature selection menunjukkan bahwa tingkat akurasi tertinggi diperoleh algoritma kNN diikuti oleh algoritma C4.5 dan Naïve Bayes. Pada tahapan ini jumlah atribut yang digunakan adalah 31 atribut. Setelah dilakukan feature selection menggunakan CFS diperoleh 9 atribut yang memiliki pengaruh signifikan dalam menentukan website phising seperti ditunjukkan pada table 5. Selanjutnya ke-9 atribut yang terpilih ini diterapkan pada algoritma machine learning yang popular yaitu C4.5, naïve bayes dank NN. Hasilnya kNN memiliki tingkat akurasi yang tertinggi. Namun, naïve bayes menunjukkan tingkat akurasi yang cenderung stabil. Selisih akurasi naïve bayes sebelum dan seudah feature selection adalah yang terendah sebesar 0,34%. Walaupun dengan jumlah atribut yang jauh berkurang, namun ketiga algoritma tidak mengalami penurunan akurasi yang signifikan. Hal ini berarti sebelum feature selection mengandung banyak atribut redundan dan setelah feature selection, atribut yang redundan ini bisa dihilangkan. Berdasarkan table confusion matrix menunjukkan bahwa setelah feature selection terjadi peningkatan FP dan FN pada algoritma C4.5. begitu juga pada algoritma kNN. Peningkatan inilah yang
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
menyebabkan turunya tingkat akurasi pada kedua algoritma tersebut setelah feature selection. Karena peningkatn FN dan FP ini tidak signifikan maka penurunan tingkat akurasinya pun juga kecil. Perbandingan tingkat akurasi ketiga algoritma sebelum dan sesudah feature selection dapa dilihat pada gambar 3. Jumlah atribut yang jauh berkurang dibandingkan dengan sebelum feature selection tidak mengurangi tingkat akurasi ketiga algoritma secara signifikan. Walaupun terjadi penurunan akurasi tetapi sangat kecil. Atribut hasil feature selection bisa dilihat pada table.
ISSN: 2089-9815
Langley, P. (1994). Selection of Relevant Feature in Machine Learning. AAAI Symposium on Relevance . Los Angeles: AAAI. Mohammad, R., McCluskey, T., & Thabtah, F. A. (2012). An Assessment of Features Related to Phishing Websites using an Automated Technique. International Conferece For Internet Technology And Secured Transactions. (ss. 492-497). London: ICITST 2012. Mohammad, R., McCluskey, T., & Thabtah, F. A. (2013). Predicting Phishing Websites using Neural Network trained with BackPropagation. Proceedings of the 2013 World Congress in Computer Science, Computer Engineering, and Applied Computing. WORLDCOMP 2013 (ss. 682686). Las Vegas: World Congress in Computer Science, Computer Engineering, and Applied Computing. Mohammad, R., McCluskey, T., & Thabtah, F. A. (2014). Intelligent Rule based Phishing Websites Classification. IET Information Security, 153-160. Ramana, B. V., Babu, M. S., & Venkateswarlu, N. B. (2011, May). A Critical Study Of Selected Classification Algorithms For Liver Disease Diagnosis. International Journal Of Database Management Systems, 3(2), 101-114. Subha, M., & Nambi, S. T. (2012). Classification of Stock Index Movement Using k-Nearest Neigbour (k-NN) Algorithm . Wseas Transactions on Information Science and Application, 261-270. Yu, L., Chen, G., Koronios, A., Zu, S., & Guo, X. (2007). Application and Comparison of Classification Techniques in Controlling Credit Risk. Recent Advances in Data Mining of Enterprise Data: Algorithms and Applications, 6, ss. 111-146.
3.
KESIMPULAN Berdasarkan uraian pada pada bagian-bagian sebelumnya dapat disimpulkan bahwa CFS mampu menghilangkan atribut redundan. Subset atribut yang dihasilkan mempunyai tingkat akurasi yang tidak jauh berbeda dengan atribut lengkap. Algoritma kNN memiliki tingkat akurasi tertinggi baik sebelum maupun sesudah feature selection dibandingkan dengan kedua algoritma machine learning popular lainya, C4.5 dan naïve bayes. Penelitian selanjutnya menerapkan metode feature selection lainya dan dibandingkan hasilnya dengan penelitian ini. PUSTAKA Alkhatib, K., Najadat, H., Hmeidi, I., & Shatnawi, M. K. (2013). Stock Predicition Using KNearest Neigbour (kNN) Algorithm. International Journal Of Bussiness, Humanities and Technology , 32-44. Alkhozae, M., & Batarfi, O. (2011). Phishing Websites Detection based on Phishing Characteristics in the Webpage Source Code . International Journal of Information and Communication Technology Research , 283-291. Alpaydin, E. (2010). Introduction To Machine Learning ( Second Edition. utg.). Massachusetts : Massachusetts Institutes of Technology. Dhanalakshmi, R., Prabhu, C., & Chellapan, C. (2011). Detection Of Phishing Websites And Secure Transactions. International Journal Communication & Network Security (IJCNS), 15-21. Hall, M. (1999). Correlation-based Feature Selection for Machine Learning. Hamilton: Thesis University of Waikato. Kustiyo, A. (2012, Agustus 12). ilkomers2010materi. Hentet April 5, 2014 fra UPT Balai Balai Penelitian dan Pengembangan Biomaterial LIPI: http://www.biomaterial.lipi.go.id/ilkomers2 010materi/SEMESTER%20III/METKUAN /Slide%20UTS/kuliah%20metkuanklasifika si.pptx