ANALISIS PERBANDINGAN LIMA METODE KLASIFIKASI PADA DATASET SENSUS PENDUDUK Alifi Adia Pranatha Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Kampus Keputih, Sukolilo,Surabaya,60111 Telp : (031) 5922949, Fax : (031) 5964965 E-mail :
[email protected] Abstract The aim of this paper is comparing various classification methods in open source data mining tools WEKA. This paper analyzed adult dataset that contains of 48842 instances of data, which categorize in 15 attributes (6 continuous and 9 nominal). Adult dataset is set of the civilian data which consist age, gender, ethnic, education level, etc. Adult dataset is classified by two types of income rate (above and below 50K). Various classification algorithms will be used to compare their performance (average precision, average recall and time taken to build model). This paper conclude that the best pure classification algorithm to classify Adult dataset is Decision Tree, because this algorithm has the highest precision and recall rate among the others classification algorithm. Abstrak Tujuan dari makalah ini adalah mengetahui perbandingan performa teknik klasifikasi menggunakan software Weka. Dalam pengujian digunakan dataset adult yang memiliki 48842 instance meliputi 15 atribut (6 continus dan 9 nominal). Datasets adult berisi data mengenai orang dewasa seperti umur, jenis kelamin, etnis, status, edukasi dll. Data-data pada dataset adult diklasikafikasikan berdasar gaji yang melebihi 50K atau gaji yang kurang atau sama dengan 50K. Peforma algoritme akan dibandingkan berdasarkan nilai time taken to build model (running time) sebagai representasi dari seberapa cepat classifier dalam memproses data, average precision dan average recall. Dengan menggunakan WEKA (Waikato Environment for Knowledge Analysis) versi 3.6.5, dapat disimpulkan algoritme yang memiliki kinerja yang lebih unggul dalam kecepatan waktu pemrosesan model data adalah K-Nearest Neighbour dan Rule Based, sedangkan algoritme yang memiliki nilai precision dan recall tertinggi adalah Decision tree. Kata Kunci : klasifikasi, data penduduk, WEKA 1.
PENDAHULUAN
Machine learning mencakup berbagai proses yang sulit didefinisikan dengan tepat. Kemampuan ekstraksi informasi penting dari tumpukan besar data dan pendefinisan korelasi merupakan keuntungan dari menggunakan machine learning. Penelitian untuk membandingkan peforma algoritme klasifikasi menggunakan data berskala besar pada WEKA telah dilakukan sebelumnya, namun hanya terbatas pada pengujian menggunakan parameter kappa statistic, Mean Absolute Error dan Root mean Squared Error (Othman, 2006) Perbandingan pengujian pada studi kasus ini menggunakan metode klasifikasi K-Nearest Neighbour, Naïve Bayes Classifier, Rule Based, Decision Tree dan Single Conjunctive Rule Learner. Perbedaan penelitian yang dilakukan dengan sebelumnya adalah penggunaan jenis algoritme data mining yang berbeda, serta penggunaan mode classifier secara default dan pengubahan parameter-parameter pada classifier (non-default) WEKA untuk pengujian
Masalah utama dalam menganalisa data sensus kependudukan adalah jumlah dan dimensi data yang sangat besar. Banyak pengujian umumnya melibatkan pengelompokan atau klasifikasi data dalam skala besar. Semua prosedur pengujian diperlukan dalam rangka untuk mencapai analisa akhir. Namun, di sisi lain, pengujian yang terlalu banyak dapat menyulitkan proses analisa utama dan mengarah pada kesulitan dalam mendapatkan hasil akhir, khususnya dalam kasus di mana banyak pengujian dilakukan. Kesulitan semacam ini dapat diselesaikan dengan bantuan machine learning yang dapat digunakan langsung untuk memperoleh hasil akhir dengan bantuan dari beberapa algoritme cerdas yang melakukan peran sebagai penglasifikasi.
127
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134 algoritme. Adapun manfaat yang diharapkan dari hasil studi kasus ini adalah sebagai bahan informasi yang akurat untuk menentukan algoritme machine learning yang memiliki tingkat kecepatan pemrosesan dan tingkat presisi yang tinggi 2.
Walaupun rancangan dari naïve Bayes classifier bersifat naïve dan asumsinya terlalu disederhanakan, naïve Bayes classifier biasanya bekerja lebih baik dari yang diharapkan pada situasi dunia nyata yang kompleks. Secara abstrak, model probabilitas untuk classifier adalah model kondisional sebagai berikut (1) P (C, F1, F2, ……..,Fn)
METODE
Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jikamaka”, berupa decision tree, formula matematis atau neural network. Proses klasifikasi dibagi menjadi dua tahap yaitu tahap pembelajaran dan pengujian. Pada tahap pembelajaran, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada tahap pengujian, model yang sudah terbentuk pada tahap pembelajaran akan diuji dengan sebagian data lainnya, hal ini bertujuan untuk mengetahui akurasi dari model tersebut. Bila akurasinya sudah cukup baik model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. Masukan data untuk klasifikasi adalah kumpulan record. Setiap record dikenal sebagai instance atau contoh yang ditandai oleh tuple (x,y) dimana x adalah atribut dan y adalah atribut khusus yang menunjukkan label kelas (disebut juga kategori atau atribut target).
pada variabel kelas dependen C dengan jumlah hasil atau kelas yang kecil, kondisional pada beberapa variabel fitur F1 sampai Fn. Masalah yang dihadapi adlah apabila jumlah dari fitur n besar atau ketika fitur tersebut dapat menangani nilai dengan jumlah yang sangat banyak, maka tidak mungkin mendasari model tersebut dengan tabel probabilitas (Distiawan, 2009) 2.2 K-Nearest Neighbor Algoritme K-Nearest Neighbor (KNN) adalah metode klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Data pembelajaran diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran. Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titk tersebut. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Euclidean. Pada fase pembelajaran, algoritme ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi dari data pembelajaran. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk data test (yang klasifikasinya tidak diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor data pembelajaran dihitung, dan sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik-titik tersebut.
Klasifikasi terdiri atas dua model, yaitu pemodelan deksriptif dan prediktif. Pemodelan deskriptif dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan klas yang berbeda dari satu set data. Sedangkan, pemodelan prediktif lebih sebagai prediktor label kelas yang belum diketahui recordnya.
Nilai k yang terbaik untuk algoritme ini tergantung pada data; secara umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k yang bagus dapat dipilih dengan optimalisasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus di mana klasifikasi diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata lain, k = 1) disebut algoritme nearest neighbor.
2.1 Naïve Bayes Naïve bayes classifier adalah suatu classifier probabilitas sederhana yang didasarkan pada pengaplikasian teorema Bayes dengan asumsi yang kuat (naïve) dan bebas (independence). Bergantung pada sifat dasar dari model probabilitas, naïve Bayes classifier dapat dilatih dengan efisien pada kondisi supervised learning. Pada banyak aplikasi praktikal, perkiraan parameter untuk model naïve Bayes menggunakan metode maximum likelihood (ketetanggaan maksimum), sehingga naïve Bayes dapat digunakan tanpa perlu kepercayaan pada probabilitas Bayesian atau tanpa menggunakan metode Bayesian sama sekali.
128
Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk 2.3 Rule Based
• Untuk tiap subgroup yang terbentuk yang tidak diberi label sebagai terminal, ulangi proses diatas.
Merupakan algoritme yang bekerja berdasarkan aturan (rule) yang telah ditetapkan sebelumnya.. Keunggulan dari algoritme ini adalah efisiensinya dalam memproses dataset yang besar dan noisy. Aturan klasifikasi dapat dinyatakan dengan cara berikut: Aturan : (kondisi) -> y (2)
2.5 Single Conjunctive Rule Learner Single Conjunctive Rule Learner adalah salah satu dari algoritme machine learning dan dikenal sebagai inductive learning. Tujuan dari rule induction secara umum adalah untuk menginduksi seperangkat aturan dari data yang menangkap semua pengetahuan yang digeneralisasi dalam data (Cohen, 1995). Klasifikasi dalam rule-induction classifiers secara khusus bergantung kepada penembakan aturan pada contoh uji, yang dipicu oleh nilainilai pencocokan fitur di sisi kiri dari aturan (Clark, dkk., 1989). Aturan dapat dari berbagai bentuk normal, dan biasanya dipesan; dengan perintah aturan, aturan pertama yang diuji dengan menentukan hasil klasifikasi dan kemudian menghentikan proses klasifikasi.
Dimana kondisi adalah konjungsi atribut-atribut, sedangkan y adalah label kelas. Sisi kiri dari aturan disebut prasyarat yg berisi gabungan dari tes atribut : Condition = (A1 op v1) (A2 op v2) . . . (Ak op vk), (3) dimana (Aj, vj) adalah pasangan atribut-nilai dan op adalah operator logis yang dipilih dari set {=,=,<,>, ≤, ≥}. Setiap tes atribut (Aj op v) dikenal sebagai diperbantukan. Sisi kanan dari aturan disebut rule consequent, yang berisi kelas yang diprediksi yi. (Tan, dkk., 2006
2.6 Precision dan Recall
2.4 Decision Tree
Precision menunjukkan perbandingan antara jumlah data yang relevan yang di dapat dari sistem dengan jumlah keseluruhan data yang dilakukan sistem. Recall menunjukkan perbandingan antara jumlah data yang relevan yang didapat dari sistem dengan jumlah keseluruhan data yang seharusnya relevan. Secara matematis precision dan recall dapat dihitung dengan rumusan sebagai berikut
Algoritme decision tree menggunakan pendekatan pembelajaran supervised untuk melakukan klasifikasi. Decision tree adalah struktur sederhana dimana non-terminal node mewakili hasil keputusan. J.R. Quinlan telah mempopulerkan pendekatan decision tree dengan penelitiannya selama 15 tahun. Model terakhir dari Quinlan's model adalah C4.5. Weka Classifier package mempunyai versi tersendiri dari C4.5. yang dikenal dengan sebutan J48. Pendekatan umum dari algoritme decision tree adalah sebagai berikut : • Pilih sebuah atribut yang paling baik untuk digunakan sebagai output. • Buat cabang pohon terpisah untuk tiap nilai dari atribut yang terpilih. • Bagi atribut tersebut ke dalam subgroup untuk mewakili nilai atribut dari titik yang dipilih. • Untuk tiap subgroup, hentikan proses pemilihan atribut jika: - Semua anggota dari subgroup mempunyai nilai yang sama dengan atribut output. Hentikan proses pemilihan atribut untuk current path dan beri label pada cabang dari current path dengan nilai tertentu. - Subgroup yang mengandung single node atau tidak lagi membedakan atribut bisa ditentukan. Seperti pada langkah sebelumnya, beri label cabang dengan nilai output yang terlihat pada mayoritas instance yang ada.
Gambar 1 Representasi Himpunan Precision dan Recall
Precision !" = Recall !" =
|!"∩!"|
|!"| |!"∩!"| |!"|
Kinerja dari suatu sistem harus memperhatikan kedua metode pengukuran di atas (Rila, M., 2006). Misalnya suatu sistem berhasil menemukan 10 data, di mana 9 dari 10 dokumen tersebut merupakan dokumen yang relevan. Menurut metode precision, sistem ini memiliki performansi yang baik. Namun bilamana total data relevan yang berada di dalam koleksi data jauh lebih besar daripada 9, sistem tidak dapat dikatakan memiliki kinerja yang baik. Oleh karena itu, pengukuran kinerja harus melihat dari dua buah metoda tersebut. Pada kondisi yang ideal, suatu sistem akan memperoleh nilai precision 1 pada nilai recall
129
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134 manapun. Namun kondisi ini hampir tidak mungkin terjadi. Kondisi yang terjadi pada umumnya adalah penurunan tingkat precision seiring dengan naiknya recall.
delapan jenis pekerjaan yang termasuk dalam dataset adult yaitu Private yaitu swasta, Selfemp-not-inc yaitu wiraswasta non perusahaan, Self-emp-inc yaitu wiraswasta perusahaan, Federal-gov yaitu pegawai negeri departemen nasional, Local-gov adalah pegawai pemkot.
2.7 WEKA Weka adalah sebuah paket tools machine learning praktis. Weka merupakan singkatan dari Waikato Environment for knowledge analysis, yang dibuat di Universitas waikato, New Zealand. Weka mampu menyelesaikan masalah-masalah data mining di dunia nyata. Perangkat lunak ini ditulis dalam hirarki class Java dengan metode berorientasi obyek dan dapat berjalan hampir disemua platform. Weka mudah digunakan dan diterapkan pada beberapa tingkatan yang berbeda. Weka mengandung tools untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi dan visualisasi. Tools yang digunakan untuk preprocessing dataset membuat pengguna dapat berfokus pada algoritme yang digunakan tanpa terlalu memperhatikan detail seperti pembacaan data dari file-file, implementasi algoritme filtering dan penyediaan kode untuk evaluasi hasil. Pada makalah ini digunakan weka versi 3.6.5.
Atribut State-gov adalah pegawai pemprof, Without-pay yaitu pekerjaan yang bersifat nonprofit oriented, Never-worked atau pengangguran. Atribut workclass bertipe Nominal dengan jumlah maksimal direpresentasikan oleh label private dengan jumlah 22696, sedangkan label Never Worked merupakan jumlah terendah dengan jumlah 7. Nilai missing untuk atribut workclass adalah 1836(6%). Atribut fnlwgt yaitu berat badan dari setiap penduduk Amerika yang bertipe numeric memiliki nilai minimum 12285, maximum 1484705, mean 189778.367 dan nilai standar deviasi 105549.978 serta tidak ada nilai missing. Atribut education yaitu atribut yang mencatat tingkat pendidikan tiap penduduk. Terdapat 16 jenis tingkat pendidikan yang dicatat, Bachelors atau Sarjana, Some-college yaitu penduduk yang pernah berkuliah namun belum memiliki gelar, 11th yaitu tamatan SMA dengan akselerasi 1 tahun, HS-grad yaitu tamatan SMA Internasional, Prof-school yaitu SMK, Assocacdm sekolah akademi tiga tahun, Assoc-voc yaitu sekolah vokasional, 9th tamatan SMP, 7th8th tamatan SMP dengan akselerasi 1 tahun, 12th tamatan SMA, Masters atau S2, 1st-4th atau sekolah pramuka, 10th yaitu program magang setelah SMP, Doctorate atau S3, 5th6th tamatan SD, Preschool atau prasekolah. Atribut education memiliki jumlah terbanyak pada label HS-grad, sedangkan Preschool mewakili jumlah terendah yaitu 51. Atribut education-num adalah representasi numerik dari atribut education memiliki nilai minimal 1, maximum 16, mean 10.081 dan standar deviasi 2.573. Nilai missing pada atribut ini adalah 0%.
Format data yang digunakan pada Weka berformat ARFF. File arff adalah sebuah gile teks ASCII yang berisi daftar instances dalam sekumpulan atribut. Data dalam format .arff tersebut harus memenuhi syarat sebagai berikut: • Data dipisahkan dengan koma, dengan kelas sebagai atribut terakhir. • Bagian header diawali dengan @relation. • Tiap atribut ditandai dengan @attribute. Tipe-tipe data dalam Weka adalah numeric (real atau integer), nominal, string dan date. • Bagian data diawali dengan @data 3.
METODE
Penelitian dilakukan pada data set adult yang diperoleh dari UCI Machine Learning Repository. Adult merupakan kumpulan data penduduk dewasa Amerika yang akan diklasifikasikan berdasarkan pendapatan lebih dari $50.000 atau kurang dari $50.000 per tahun. Data set ini juga dikenal sebagai Dataset "Census Income". Dataset adult memiliki jumlah instances 48842 terdiri dari 14 atribut. Persebaran data per atribut ditunjukkan pada gambar 1. Atribut age yaitu umur dari tiap penduduk bertipe numeric, dengan nilai minimum yaitu 17, maximum 90, mean 38.582 dan standar Deviasi adalah 13.64 dan tidak ada data yang hilang. Workclass yaitu atribut yang menjelaskan tentang pekerjaan penduduk Amerika. Terdapat
Atribut marital-status bertipe nominal. Terdapat tujuh jenis status pernikahan dari penduduk Amerika, yaitu Married-civ-spouse atau pasangan sah nikah, Divorced atau bercerai, Never-married atau tidak menikah, Separated yaitu pasangan yang hidup terpisah, Widowed atau janda ditinggal mati, Married-spouseabsent atau menikah tanpa pasangan, MarriedAF-spouse yaitu pasangan Army Force. Atribut ini memiliki jumlah terbanyak 14976 diwakilkan oleh label Married-civ-spouse, jumlah terendah sebanyak 23 diwakili oleh Married-Af-spouse. Atribut marital-status memiliki nilai missing 0%.
130
Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk
Gambar 1. Persebaran Data Adult
Atribut occupation terdapat empat belas ruang lingkup pekerjaan, yaitu Tech-support atau teknisi, Craft-repair atau pengusaha makanan, Other-service atau penyedia jasa lainnya, Sales atau bagian penjualan, Exec-managerial atau manajer eksekutif, Prof-specialty atau profesi spesialisasi, Handlers-cleaners atau penyedia jasa kebersihan, Machine-op-inspct atau inspektur operasional permesinan, Adm-clerical atau bagian administrasi, Farming-fishing atau perkebunan dan perikanan, Transport-moving atau bidang transportasi, Priv-house-serv, Protective-serv, Armed-Forces atau bidang ketentaraan. Atribut ini bertipe nominal dan memiliki nilai missing 1843 (6%). Label profspecialty memiliki jumlah terbanyak sejumlah 4140, sedangkan armed forces merupakan label dengan jumlah terendah dengan jumlah 9.
kulit putih, Asian-Pac-Islander atau ras asiaamerika, Amer-Indian-Eskimo atau ras indian dan eskimo, Other atau ras lainnya, Black atau ras kulit hitam/negro. Atribut sex yang bertipe nominal, memiliki nilai missing 0%, label female dengan jumlah 10771 dan male 21790. Atribut capital-gain adalah keuntungan yang didapatkan dari hasil investasi, nilai capital-gain memiliki nilai minimum 0, maximum 99949 dan standar deviasi 7385.292. Atribut capital-loss adalah keuntungan yang didapatkan dari hasil investasi, nilai capital-loss memiliki nilai minimum 0, maximum 4356, mean 87.304 dan standar deviasi 402.96. Atribut hours-per-week memiliki nilai minimum 1, maximum 99, mean 40.437 dan standar deviasi 12.347.
Atribut relationship memiliki nilai missing 0 %, dengan jumlah terbanyak adalah label husband 13193, sedangkan unmaried dengan jumlah 981 adalah jumlah terendah. Atribut ini merepresentasikan status dalam keluarga yaitu Wife atau istri, husband atau suami, Own-child atau anak kandung, Not-in-family atau bukan anggota keluarga, Other-relative atau hubungan keluarga lain seperti paman, bibi, keponakan, dst., dan Unmarried atau belum berkeluarga.
Atribut native-country merepresentasikan Negara asal penduduk Amerika yang kebanyakan merupakan pendatang. Atribut ini memiliki empat puluh jenis isian, yaitu UnitedStates, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVIetc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, ElSalvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands. Nilai missing dari atribut ini adalah 583 (2%) dengan jumlah 29170 dan jumlah terendah Holand-Netherlands 1.
Atribut race memiliki nilai missing 0 %. Label white merupakan jumlah terbanyak dengan jumlah 27816, sedangkan Other mewakili jumlah terendah yaitu 271. Jenis ras yang terdapat pada dataset ini adalah White atau ras 131
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134 Tabel 1. Tabel Hasil Percobaan dengan kondisi default
Nama Umum
Teknik Klasifikasi
Nilai Average Precision
Nilai Average Recall
Time Taken To Build Model
Naïve Bayes
Naïve Bayes
0.852
0.834
0.21 s
J48 Pruned Tree
J48
0.857
0.862
3.65 s
Single Conjunctive Rule Learner
Conjunctive Rule
0.576
0.759
3.08 s
KNN (K Nearest Neighbor)
lazy IBK
0.793
0.794
0.01 s
Rule Based
zeroR
0.576
0.759
0.01 s
Tabel 2. Tabel Hasil Percobaan dengan kondisi parameter diubah
Teknik Klasifikasi
Mode Classifier
Nilai Average Precision
Nilai Average Recall
Time Taken To Build Model
Naïve Bayes
default
0.825
0.834
0.27 s
Naïve Bayes
debug true : True ; displayModelInOldFormat : True ; useKernelEstimator : True ; useSupervisedDiscretization : False default
0.846
0.852
0.24 s
0.857
0.862
3.87 s
Binnary split : True ; ReduceErorPruning : True ; useLaplace :True default default
0.856
0.861
2.95 s
0.576
0.759
3.08 s
exclusive :True ; folds : 5 ; seed : 2 default
0.576
0.759
4.5 s
0.793
0.794
0.01 s
0.793
0.794
0.01 s
zeroR
distanceWeighting : weightby 1 distance ; KNN 1; crosValidate : True default
0.576
0.759
0.01 s
zeroR
debug : true
0.576
0.759
0.02 s
J48 J48
Conjunctive Rule Conjunctive Rule lazy IBK lazy IBK
Penelitian ini merupakan jenis penelitian Komparatif. Dikatakan Komparatif-Literatif (perbandingan) dikarenakan pada penelitian ini bertujuan untuk menilai tingkat presisi dan waktu pemrosesan berbagai algortima data mining yang terdapat pada WEKA. Setelah dilakukan studi Komparatif dan penilaian, maka selanjutnya dilakukan studi literatur sebagai bahan untuk analisa dan pembahasan terhadap faktor-faktor yang menyebabkan perbedaan hasil peforma dari berbagai teknik algoritme. Langkah-langkah yang dilakukan untuk menguji peforma dari berbagai metode klasifikasi pada WEKA ditunjukkan pada gambar 2:
Gambar 2 Metodologi Penelitian
132
Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk 3.1 Persiapan Data
0.846, precision 0.852, dan running time 0.24 seconds. Kecenderungan yang sama juga dapat ditemukan pada hasil pengujian classifier J48. Sedangkan hasil pengujian untuk ketiga algoritme lainnya, yaitu Conjunctive Rule, KNN dan Rule Based memiliki nilai average dan recall yang sama ketika diuji dalam mode default dan pada mode classifier yang parameternya telah diubah.
Sebelum dapat digunakan sebagai input dalam pengujian, dataset tersebut harus dikonversikan menjadi format yang sesuai dengan format file dari WEKA yaitu ARFF. Kemudian dilakukan penghapusan data yang hilang atau kosong yang terdapat pada dataset. 3.2 Penentuan Teknik Pembagian Data
4.
Pengujian dilakukan dengan menggunakan test option k-fold cross validation. Dalam penggujian ini nilai k yang digunakan adalah 10. K-Fold Cross Validation ini membagi data menjadi k bagian dan masing-masing bagian akan secara bergantian digunakan sebagai data training ataupun sebagai data testing. Nilai tiap fitur dari suatu data akan disimpan dalam sebuah matriks pasangan fitur-data. Pembuatan matriks pasangan ini dilakukan untuk setiap variasi data training dan data testing, kemudian matriks ini akan menjadi input untuk diolah oleh berbagai metode klasifikasi pada machine learning yang dipakai.
SIMPULAN dan SARAN
Perbandingan algoritme dengan menggunakan WEKA 3.6.5 dapat dilihat dari beberapa nilai yang dihasilkan antara lain average precision dan average recall sehingga dapat dihitung peforma masing-masing algortima untuk masing-masing kelas. Secara keseluruhan, kinerja algoritme decision tree lebih baik dibandingkan dengan algoritme naive bayes, Single Conjunctive Learner, Decision Tree KNearest Neighbor dan Rule Based. Beberapa faktor yang menjadikan algortima decision tree lebih baik dibandingkan yang lainnya, salah satu kemampuannya yang secara sederhana adalah mendefinisikan dan mengklasifikasikan masingmasing atribut ke setiap kelas. Hal ini dapat dilihat dari tingkat precision dan recall yang lebih tinggi dibanding dengan algortima yang lain. Sedangkan untuk kecepatan dalam membangun sebuah model algoritme, K-Nearest Neighbor dan Rule Based merupakan yang tercepat dibandingkan ketiga algortima yang lain.
3.3 Pengklasifikasian menggunakan WEKA Pengujian dijalankan menggunakan lima algoritme classifier yang berbeda yaitu naive bayes, Single Conjunctive Learner, Decision Tree, KNearest Neighbor dan Rule Based. Performa classifier juga akan dibandingkan berdasar perubahan mode classifier secara random. 3.4 Analisa Hasil Keluaran Klasifikasi
Pengujian yang digunakan untuk menganalisa peforma classifier berdasarkan mode classifier menunjukan kecendurungan peningkatan nilai average precision, nilai average recall dan kecepatan running time dibandingkan pengujian classifier dalam mode default. Classifier naïve bayes dan j48 menunjukan perbedaan yang signifikan. Pengembangan penelitian berikutnya dapat dilakukan dengan cara mengubah algoritme klasifier atau mengubah parameter klasifier pada setiap algoritme lebih banyak lagi, sehingga dapat ditemukan algoritme klasifier apa dengan mode tertentu, yang akan menghasilkan precission dan recall terbaik untuk klasifikasi dataset penduduk.
Dari hasil pengujian dengan kondisi parameter standart tanpa pengubahan, ternyata didapatkan average precision dan average terbesar adalah decision tree dengan nilai 0.857 dan 0.862, seperti yang ditunjukkan pada table 1. Sedangkan untuk waktu tercepat dalam membangun sebuah model di tunjukkan oleh classifier K-Nearest Neighbor dan Rule Based dengan waktu 0.01 detik. Pengujian berikutnya dilakukan untuk menganalisa perbandingan peforma classifier berdasarkan perubahan pada mode classifier. Perubahan ini bertujuan untuk melihat bagaimana dampaknya pada nilai average precision, average recall dan running time per algoritme klasifikasi.
5.
DAFTAR RUJUKAN
Distiawan, B., Jais, H. (2009) Klasifikasi dokumen menggunakan algoritme naïve bayes dengan penambahan parameter probabilitas parent category. pp. 1-2
Berdasarkan tabel 2 dapat dianalisa bahwa, pengubahan mode classifier memiliki kecenderungan nilai average precision dan average recall yang lebih tinggi dan running time yang lebih cepat dibandingkan classifier dalam mode default, seperti pada teknik klasifikasi naïve bayes dengan nilai average
Tan, P.-N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining. Boston: Pearson Education, Inc.
133
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134 Cohen, W. (1995) Fast effective rule induction. In Press of Proceedings 12th International Conference on Machine Learning, Morgan Kaufmann. Pp. 115–123
Mohd Fauzi Othman, Thomas Moh Shan Yau,(2006), “Comparison of Different Classification Techniques Using WEKA for Breast Cancer”, IFMBE Proceedings, Vol 15, Springer, 2006
Clark, P., Niblett, T. (1989). The CN2 rule induction algorithm. Machine Learning 3. pp. 261–284
Mandala, Rila. (2006) Evaluasi efektifitas Metode Machine-Learning pada SearchEngine, Seminar Nasional Aplikasi Teknologi Informasi, 2006.
Precision & Recall at http://yunita113070288.wordpress.com/
134