PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE PADA DATASET “Dresses_Attribute_Sales”
Mirza Triyuna Putra Mahasiswa Jurusan Informatika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Syiah Kuala KOPELMA Darussalam Banda Aceh 23111 Telp (+62)85213783445 Email :
[email protected] Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut
ABSTRAK Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Pada klasifikasi ini data yang digunakan yaitu dresses_atribut_sales yang terdiri dari 14 class diantaranya style, price, rating, size, dan lain-lain yang terkait dengan atribut model pakaian. Klasifikasi yang akan digunakan sebagai perbandingan hasil yaitu K-Nearest Neighbor (KNN) Classifier dan Naive Bayesian Classifier. Hasil summary dari kedua klasifikasi akan menentukan jenis klasifikasi mana yang lebih cocok diterapkan pada dataset tersebut. Selain itu, akan dilakukan juga perbandingan hasil clustering metode Simple K-Means yang menggunakan algortima distance function Manhattan Distance dan Euclidian Distance. Perbandingan clustering dilakukan untuk melihat perbedaan pembagian kelas pada kedua function tersebut. Software pendukung yang digunakan adalah Weka. Kata Kunci : knn classifier, naive bayesian klassifier, simple k-means, manhattan distance, euclidian distance, dresses_atribut_sales..
Klasifikasi adalah proses pembelajaran
1. PENDAHULUAN 1.1. Latar Belakang Perkembangan data mining (DM) yang
secara terbimbing (supervised learning) [1]. Klasifikasi Naive Bayesian Adalah metode
pesat tidak terlepas dari perkembangan
classifier yang berdasarkan probabilitas dan
teknologi informasi yang memungkinkan data
Teorema Bayesian dengan asumsi bahwa
dalam jumlah besar terakumulasi. Seiring
setiap
dengan semakin dibutuhkannya data mining,
(independence)
muncul beberapa algoritma untuk memproses
merupakan
Data dalam jumlah besar, diantaranya yaitu
jumlah
besar
juga
kedekatan-kedekatan
bebas
Klasifikasi
KNN
klasifikasi
yang
[2].
metode
neighbor dalam traing set [3].
dapat
Clustering
dikelompokkan ke dalam beberapa bagian berdasarkan
bersifat
baru berdasarkan class yang mayoritas dari k-
Naive Bayesian classifier. Selain klasifikasi, dalam
X
menentukan label (class) dari suatu objek
K-Nearest Neightbor (KNN) Classifier dan
data
variabel
pengelompokan
yang
adalah
suatu
berdasarkan
metode ukuran
kedekatan (kemiripan) [4]. Salah satu jenis
dimiliki. Agar data- data tersebut dapat
algoritma yang dapat digunakan pada metode
dikelompokkan dengan mudah, salah satu
ini yaitu Simple K-Means. Pada algortima
algortima yang dapat digunakan yaitu simple
simple k-means sendiri terdapat teknik
K-Means.
pengelompokan dengan
1
empat fungsi core, yaitu chebyshevDistance,
paling dekat dengan objek tersebut. Data
ManhattanDistance, dan EuclidianDistance.
pembelajaran
ManhattanDistance dan EuclidianDistance
berdimensi banyak, dimana masing-masing
merupakan fungsi core yang paling sering
dimensi merepresentasikan fitur dari data.
digunakan dan memberikan hasil lebih baik
Ruang ini dibagi menjadi bagian-bagian
dibandingkan dua fungsi core lainnya.
berdasarkan klasifikasi data pembelajaran.
Perbandingan
ke
ruang
klasifikasi
Nilai k yang terbaik untuk algoritma
dilakukan untuk menentukan jenis klasifikasi
ini tergantung pada data; secara umumnya,
yang paling cocok digunakan dengan data
nilai k yang tinggi akan mengurangi efek
yang memiliki class atribut dan kategori
noise pada klasifikasi, tetapi membuat
atribut seperti dataset dresses_atribut_sales.
batasan antarasetiap klasifikasi menjadi lebih
Sedangkan perbandingan metode clustering
kabur. Nilai k
dilakukan
perbedaan
dengan optimasi parameter, misalnya dengan
pengelompokan terhadap data yang sama
menggunakan cross-validation. Kasus khusus
dengan metode k-means dan hanya dibedekan
di mana klasifikasidiprediksikan berdasarkan
fungsi core yang digunakan.
data pembelajaran yang paling dekat (dengan
untuk
metode
diproyeksikan
melihat
yang bagus dapat dipilih
kata lain, k = 1) disebut algoritma nearest neighbor. [5]
1.2. Rumusan Permasalahan Perumusan masalah pada penulisan paper
ini
didasarkan
pada
bagaimana
2.2. Naive Bayesian Classifier
perbandingan dua metode klasifikasi dan dua
Naïve Bayes adalah metode Bayesian
fungsi core clustering terhadapa dataset
Learning yang paling cepat dan sederhana.
dresses_atribut_sales.
demikian,
Hal ini berasal dari teorema Bayes dan
perumusan masalah yang akan dibahas dalam
hipotesis kebebasan, menghasilkan klasifier
paper ini adalah sebagai berikut :
statistik berdasarkan peluang. Ini adalah
1. Bagaimana perbandingan hasil klasifikasi
teknik sederhana, dan harus digunakan
Dengan
KNN dan Naive Bayesian terhadap dataset
sebelum
dresses_atribut_sales?
kompleks.
2. Bagaimana perbandingan hasil clustering
mencoba
metode
yang
lebih
Naïve Bayes dapat dirumuskan sebagai
Simple K-Means dengan fungsi core
berikut : [6]
ManhattanDistance dan EuclidianDistance?
P(A|B) =
1.3. Batasan Permasalahan
𝐏(𝐁|𝐀)𝐏(𝐀) .........................(1) 𝑷(𝑩)
Batasan masalah dalam papaer ini
2.3. K-Means Clustering Clustering adalah proses membuat
adalah metode klasifikasi yang digunakan
pengelompokan, sehingga semua anggota
hanya dua saja, yaitu KNN classifier dan
dari tiap partisi mempunyai persamaan
Naive Bayesian classifier.
berdasarkan matrik tertentu. Sebuah klaster adalah sekumpulan objek yang digabung
2. LANDASAN TEORI 2.1. K-Nearest Neigtbor Classifier (k-NN atau KNN) adalah sebuah
bersama
metode untuk melakukanklasifikasi terhadap
karena
persamaan
kedekatannya.
Clustering
persamaannya
adalah
atau
berdasarkan teknik
yang
mentranslasi ukuran yang intuitif menjadi
objek berdasarkan data pembelajaran yang
ukuran yang kuantitatif [7].
jaraknya
2
3. PEMBAHASAN 3.1. Klasifikasi Metode Naive Bayesian Metode klasifikasi Naive Bayesian menggunakan dua data, yaitu training set untuk menghasilkan model dan testing set untuk menguji keakuratan hasil klasifikasi. Data training set diambil 80% dari total data secara keseluruhan, sedangkan data testing set diambil 20% sisa dari data secara keseluruhan. Berikut tampilan data training set beserta hasil setelah diklasifikasi dengan metode Naive Bayes :
Waiseline
56.6416 %
43.3584 %
Material
42.3559 %
57.6441 %
FabricType
54.8872 %
45.1128 %
Decoration
44.8622 %
55.1378 %
PatternType
47.8697 %
52.1303 %
Tabel 3.1. Summary Correctly dan Incorrectly Classified Instance Training set
Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 36-56%. Precission
Recall
Style
0.405
0.498
FMeasure 0.416
Price
0.493
0.55
0.507
Size
0.403
0.473
0.424
Season
0.318
0.364
0.323
Neckline
0.429
0.544
0.472
Nama Class
Gambar 3.1. Tampilan klasifikasi training set
Sleeve Length Waiseline
0.38
0.453
0.405
0.494
0.566
0.515
Material
0.347
0.424
0.378
FabricType
0.459
0.549
0.49
Decoration
0.333
0.449
0.371
PatternType
0.426
0.479
0.416
Tabel 3.2. Precission, Recall dan F-Measure Training set
Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 31-49%, nilai Recall berada pada rentang 36-56%, dan nilai FMeasure pada rentang 37-51%.
Gambar 3.2. Hasil klasifikasi Naive Bayesian terhadap class atribut style training set
Berikut tampilan data testing set beserta hasil setelah diklasifikasi dengan metode Naive Bayes :
Dataset Dresses_Atribut_sales memiliki 11 class fitur bertype nominal, berikut tabel summary dari kesebelas class bertype nominal yang terdapat pada dataset dresses :
Style
Correctly Classified Instances 49.75 %
Incorrectly Classified Instances 50.25 %
Price
55.0251 %
44.9749 %
Size
47.25 %
52.75 %
Season
36.4322 %
63.5678 %
Neckline
54.386 %
45.614 %
SleeveLength
45.25 %
54.75 %
Nama Class
Gambar 3.3. Tampilan klasifikasi testing set
Berikut tampilan summary kesebelas class pada testing set :
3
dari
Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 25%-61%, nilai Recall berada pada rentang 30-67%, dan nilai F-Measure pada rentang 27-62%. 3.2. Klasifikasi Metode KNN Sama halnya seperti klasifikasi naive bayesian, metode klasifikasi KNN juga menggunakan dua data, yaitu training set dan testing set. Data testing digunakan untuk menguji keakuratan hasil. Data training set diambil 80% dari total data secara keseluruhan, sedangkan data testing set diambil 20% sisa dari data secara keseluruhan. Berikut tampilan hasil klasifikasi KNN terhadap data training set.
Gambar 3.4. Hasil klasifikasi Naive Bayesian Terhadap class atribut style testing set
Style
Correctly Classified Instances 42 %
Incorrectly Classified Instances 58 %
Price
44 %
56 %
Size
35 %
65 %
Season
30 %
70 %
Neckline
44 %
56 %
SleeveLength
44 %
56 %
Waiseline
62 %
38 %
Material
39 %
61 %
FabricType
67 %
33 %
Decoration
45 %
55 %
PatternType
35 %
64 %
Nama Class
Gambar 3.5. Hasil klasifikasi KNN Terhadap class atribut style training set
Tabel 3.3. Summary Correctly dan Incorrectly Classified Instance Testing set
Berikut tabel Correctly Incorrectly classified instance dihasilkan dari tiap-tiap class :
Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 30-67%.
Style
Correctly Classified Instances 36 %
Incorrectly Classified Instances 63 %
0.39
Price
48 %
51 %
0.35
0.305
Size
40 %
60 %
0.256
0.3
0.273
Season
24 %
75 %
0.376
0.44
0.406
Neckline
40 %
60 %
Sleeve Length Waiseline
0.374
0.44
0.404
53 %
46 %
0.565
0.62
0.577
Sleeve Length Waiseline
28 %
71 %
Material
0.326
0.39
0.349
Material
45 %
54 %
FabricType
0.617
0.67
0.627
FabricType
34 %
65 %
Decoration
0.32
0.45
0.368
Decoration
34 %
65 %
PatternType
0.358
0.42
0.386
PatterbType
36 %
63 %
Precission
Recall
Style
0.325
0.42
FMeasure 0.359
Price
0.355
0.44
Size
0.283
Season Neckline
Nama Class
Nama
dan yang
Class
Tabel 3.4. Precission, Recall dan F-Measure Testing set
Tabel 3.5. Summary Correctly dan Incorrectly Classified Instance KNN Training set
4
Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 28-53%. Precission
Recall
Style
0.373
0.363
FMeasure 0.367
Price
0.488
0.482
0.484
Size
0.396
0.4
0.397
Season
0.249
0.249
0.248
Neckline
0.43
0.436
0.432
Sleeve Length Waiseline
0.402
0.398
0.399
0.523
0.531
0.524
Material
0.276
0.283
0.279
FabricType
0.453
0.456
0.451
Decoration
0.369
0.348
0.358
PatternType
0.355
0.341
0.347
Nama Class
Season
28 %
72 %
Neckline
38 %
62 %
Sleeve Length Waiseline
42 %
58 %
49 %
51 %
Material
44 %
56 %
FabricType
56 %
44 %
Decoration
29 %
71 %
PatternType
40 %
60 %
Tabel 3.7. Summary Correctly dan Incorrectly Classified Instance Testing set
Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 28-56%. Precission
Recall
Style
0.365
0.38
FMeasure 0.371
Price
0.338
0.35
0.344
Size
0.324
0.29
0.305
Season
0.284
0.28
0.278
Neckline
0.404
0.38
0.391
Sleeve Length Waiseline
0.421
0.42
0.42
0.448
0.49
0.467
Material
0.415
0.44
0.426
FabricType
0.535
0.56
0.542
Decoration
0.296
0.29
0.293
PatternType
0.402
0.4
0.398
Nama Class
Tabel 3.6. Precission, Recall dan F-Measure Klasifikasi KNN Training set
Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 24%-52%, nilai Recall berada pada rentang 24-53%, dan nilai F-Measure pada rentang 24-52%. Berikut tampilan data testing set beserta hasil setelah diklasifikasi dengan metode KNN :
Tabel 3.8. Precission, Recall dan F-Measure Klasifikasi KNN Testing set
Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 28%-53%, nilai Recall berada pada rentang 28-56%, dan nilai F-Measure pada rentang 27-54%. Gambar 3.5. Hasil klasifikasi KNN Terhadap class atribut style testing set
3.3. Clustering K-Means ManhattanDistance
Berikut tabel Correctly dan Incorrectly classified instance yang dihasilkan dari tiap-tiap class : Nama
Style
Correctly Classified Instances 38 %
Incorrectly Classified Instances 62 %
Price
35 %
65 %
SIze
29 %
71 %
Class
Pada proses clustering, data yang digunakan yaitu data secara keseluruhan / 100% dari dataset Dresses_atribut_sales. Nilai yang dibedakan untuk menguji hasil cluster yaitu numCluster dari tiap-tiap tes. Berikut akan ditampilkan hasil cluster berdasarkan numCluster.
5
grp 1 2 3 4 5 6
nc 2 39
nc 3 29
nc 4 16
nc 5 13
nc 6 13
61
46
41
28
29
-
25
17
19
19
-
-
26
24
18
-
-
-
15
12
-
-
-
-
8
Precission, Recall, dan F-Measure Testing set : 61%, 67%, 62% (Naive Bayesian) 53%, 56%, 54% (KNN) 2. Berdasarkan hasil di atas, sebenarnya tingkat keakuratan hasil dari kedua metode jauh dari baik. Hal ini karena hasil correct data jauh dari 100%. Akan tetapi, model yang dihasilkan dapat dikatakan baik, karena hasil pengujian dari training set dan testing set meghasilkan persentase yang relatif pada rentang yang sama. 3. Jika ditinjau dari nilai precission, Recall, dan F-Measure hasilnya juga tidak bisa dikatakan baik. Hal ini juga karena nilai yang dihasilkan jauh dari 100%. 4. Hasil Clustering : Jika ditinjau dari hasil clustering yang dilakukan, terlihat bahwasanya pembagian kelas-kelas oleh metode K-Means dengan algoritma ManhattanDistance dan EuclidianDistance memiliki kemiripan. Kemiripan yang dimaksud yaitu pada setiap numCluster memiliki urutan nilai terbesar ke terkecil pada kelas yang sama. Hanya saja, nilai yang dihasilkan menunjukkan sedikit perbedaan.
Tabel 3.9. Pembagian grup hasil cluster ManhattanDistance
Tabel di atas menampilkan hasil clustering dengan nilai numCluster yang dari 2 s.d. 6. Hasil yang ditampilkan dalam bentuk persentase secara keseluruhan.
Clustering K-Means EuclidianDistance Selain
menggunakan
algoritma
manhattanDistance percobaan juga dilakukan pada algortima EuclidianDistance untuk membandingkan hasil dari kedua algortima. Berikut akan ditampilkan hasil dari clustering EuclidianDistance. grp 1 2 3 4 5 6
nc 2 41
nc 3 31
nc 4 22
nc 5 11
nc 6 9
59
47
37
35
26
-
22
15
17
22
-
-
26
24
20
-
-
-
13
14
-
-
-
-
9
5. KESIMPULAN DAN SARAN 5.1. Kesimpulan
Tabel 3.10. Pembagian grup hasil cluster EuclidianDistance
Berdasarkan hasil pembahasan dan analisa pada bab sebelumnya, dapat ditarik beberapa kesimpulan sebagai berikut : 1. Pemilihan metode terbaik adalah yang mempunyai tingkat akurasi yang tinggi dan juga dipastikan simpangan bakunya yang cenderung lebih kecil. Dari data yang terangkum di atas, metode yang lebih baik untuk dataset Dresses_atribute_sales yaitu Naive Bayesian. Meskipun perbedaan yang dihasilkan tidak terlalu jauh berbeda, baik dari correctly dan incorrectly classified instance maupun nilai precission, recall, dan F-Measure. 2. Karena dataset dresses memiliki 3 class yang bernilai numerik, jika ingin
4. PEMBAHASAN DAN ANALISA Berdasarkan hasil pengujian pada bab sebelumnya, dapat dibahas dan dianalisa beberapa hal sebagai berikut. 1. Hasil klasifikasi Training set : 36-56 % (Naive Bayesian) 28-53 % (KNN) Hasil klasifikasi Testing set : 37-67 % (Naive Bayesian) 28-56 % (KNN) Precission, Recall, dan F-Measure Training set : 49%, 56%, 51% (Naive Bayesian) 52%, 53%, 52% (KNN)
6
Melihat hasil klasifikasi yang bernilai numerik, maka harus digunakan metode KNN. 3. Metode K-Means cluster yang diterapkan pada percobaan ini, menghasilkan pembagian kelas yang relatif sama antara algoritma manhattanDistance dan EuclidianDistance.
6.DAFTAR PUSTAKA [1] Abidin, Taufik Fuadi, “Naive Bayesian Classifier”, Jurusan Informatika Unsyiah, bahan kuliah Data Mining program study Informatika FMIPA-Unsyiah [2]
5.2. Saran Saran-saran yang bisa disampaikan dari hasil perobaan ini adalah sebagai berikut : 1. Untuk melihat dataset yang memiliki nilai class bertipe numerik, digunakan metode yang support terhadap data numerik. Dalam kasus ini yaitu KNN. 2. Jika ingin melihat data bertype nominal (nom), menurut hasil percobaan ini metode Naive Bayesian menghasilkan summary yang sedikit leih baik. 3. Metode clustering K-Means dengan algoritma ManhattanDistance dan EuclidianDistance menghasilkan kelas yang realtif sama, akan tetapi untuk hasil yang akurat perlu dilakukan penelitian yang lebih mendalam. 4. Perlu penelitian yang lebih mendalam untuk menarik kesimpulan secara akurat tehadap kedua masalah yang diangkat.
Abidin, Taufik Fuadi, “Accuracy Measure; Preciisiion, Recallll & FMeasure”, Jurusan Informatika Unsyiah bahan kuliah Data Mining program study Informatika FMIPA-Unsyiah
[3] DMIR, “K-Nearest Neighbor Classifier”, Data Mining adn Information Retrievl – Research Grup, Jurusan Matematika FMIPA-Unsyiah [4] Striyanto, Edi, “Clustering”, Electronic Engineering Polytechnic Institute of Surabaya (EEPIS) [5]
Peace, Alifah, “Metode KNN”, http://www.academia.edu/3660286/ Tgs_proposal
[6] A.W, Ebranda, Mardiani, Tinaliah, “Penerapan Metode Naive Bayes untuk Sistem Klasifikasi SMS pada Smartphone Android”, Teknik Informatika STMIK MDP [7] Yunita, “Analisis dan Implementasi Clustering Data Kategori Menggunakan Metode scaLable InforMation Bottleneck ( LIMBO )”, Tugas Akhir.
7