BAB II TINJAUAN PUSTAKA
2.1 2.1.1 A.
Landasan Teori Data Mining Pengertian Data Mining Menurut Gartner Group data mining adalah suatu proses menemukan
hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan
besar
data
yang
tersimspan
dalam
penyimpanan
dengan
menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose dalam Kusrini, 2009). Sedangkan Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar (Turban, dkk, 2005). Berdasarkan definisi di atas dapat disimpulkan bahwa data mining adalah suatu proses mengekstraksi dan mengidentifikasi informasi dari database yang besar menggunakan teknik statistik, kecerdasan buatan dan machine learning.
B.
Pengelompokan Data Mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat
dilakukan,
yaitu
(Larose
4
dalam
Kusrini,
2009)
:
5
1.
Deskripsi Terkadang peneliti dan analis secara sederhana ingin mencoba mancari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2.
Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih kearah numerik daripada kearah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilau variabel prediksi.
3.
Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi. Kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.
4.
Klasifikasi Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, sedang dan rendah.
5.
Pengklusteran Pengklusteran merupakan pengelompokkan record, pengamatan atau memperhatikan dan membentuk kelas objek-objek
yang memiliki
kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu
6
dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam kluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba melakukan klasifikasi, estimasi atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. 6.
Asosiasi Tugas asosiasi adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
C.
Konsep Klasifikasi Klasifikasi merupakan pekerjaan menilai objek data untuk memasukkannya
ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototipe untuk disimpan sebagai memori dan (2) penggunaan model tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya (Prasetyo, 2012).
7
Klasifikasi adalah metode data mining yang dapat digunakan untuk proses pencarian sekumpulan model (fungsi) yang dapat menjelaskan dan membedakan kelas-kelas data atau konsep, yang tujuannya supaya model tersebut dapat digunakan memprediksi objek kelas yang labelnya tidak diketahui atau dapat memprediksi kecenderungan data-data yang muncul di masa depan. Metode klasifikasi juga bertujuan untuk melakukan pemetaan data ke dalam kelas yang sudah didefinisikan sebelumnya berdasarkan pada nilai atribut data (Han dan Kamber, 2006). Proses klasifikasi tersebut seperti terlihat pada gambar 2.1. Masukkan Data Latih (x,y)
Algoritma Pelatihan
Pembangunan Model
Masukkan Data Uji (x,?)
Penerapan Model
Keluaran Data Uji (x,y)
Gambar 2.1. Proses Pekerjaan Klasifikasi
8
2.1.2
Metode Naive Bayes Naive Bayes merupakan teknik prediksi berbasis probabilistik sederhana
yang berdasar pada penerapan teorema Bayes (aturan Bayes) dengan asumsi independensi (ketidaktergantungan) yang kuat (naif). Dengan kata lain, dalam Naive Bayes model yang digunakan adalah βmodel fitur independenβ (Prasetyo, 2012). Naive Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning dan data mining. Performa Naive Bayes yang kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keindependenan atribut (tidak ada kaitan antar atribut). Asumsi keindependennan atribut ini pada data sebenarnya jarang terjadi, namun walaupun asumsi keindependennan atribut tersebut dilanggar performa pengklasifikasian Naive Bayes cukup tinggi, hal ini dibuktikan pada berbagai penelitian empiris (Shadiq, 2009). Dari definisi di atas dapat diambil kesimpulan bahwa Naive Bayes adalah sebuah teknik klasifikasi probabilistik yang berdasarkan teorema bayes yang menggunakan asumsi keindependenan atribut (tidak ada kaitan antar atribut) dalam proses pengklasifikasiannya. Dalam sebuah aturan yang mudah, sebuah klasifikasi Naive Bayes diasumsikan bahwa ada atau tidaknya ciri tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya. Untuk contohnya, buah akan dianggap sebagai sebuah apel jika berwarna merah, berbentuk bulat dan berdiameter sekitar 6 cm. Walaupun jika ciri-ciri tersebut bergantung satu sama
9
lainnya, dalam Bayes hal tersebut tidak dipandang sehingga masing-masing fitur seolah tidak memiliki hubungan apapun. Berdasarkan ciri alami dari sebuah model probabilitas, klasifikasi Naive Bayes bisa dibuat lebih efisien dalam bentuk pembelajaran. Dalam beberapa bentuk praktiknya, parameter untuk perhitungan model Naive Bayes menggunakan metode maximum likehood, atau kemiripan tertinggi. Prediksi Naive Bayes didasarkan pada teorema Bayes dengan formula untuk klasifikasi sebagai berikut (Prasetyo, 2012) : π π=1 π(ππ |π)
π(π|π) = π(π)
P (X)
. . . . . . . . . . . . . . . . . . . . . (1)
Sedangkan Naive Bayes dengan fitur kontinu memiliki formula :
P(X| Y) =
1 2π π
ππ₯π
β π₯ βπ 2 2π 2
. . . . . . . . . . . . . . . . . . . . . .(2)
Keterangan : P(Y | X)
= probabilitas data dengan vektor X pada kelas Y.
P(Y)
= Probabilitas awal kelas Y
π π=1 π(ππ |π)
= Probabilitas independen kelas Y dari semua fitur dalam vektor X
π
= Mean atau nilai rata-rata dari atribut dengan fitur kontinu
π
= Deviasi standar
Contoh perhitungan Naive Bayes : Misalnya ingin diketahui apakah suatu objek masuk dalam ketegori dipilih untuk perumahan atau tidak dengan algoritma Naive Bayes. Untuk menetapkan
10
suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan. Ada 4 atribut yang digunakan seperti terlihat pada tabel 2.1. 1.
Harga tanah per meter persegi (C1),
2.
Jarak daerah tersebut dari pusat kota (C2),
3.
Ada atau tidaknya angkutan umum di daerah tersebut (C3), dan
4.
Keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4),
Tabel 2.1. Atribut penetapan lokasi perumahan
a.
Aturan ke-
Harga tanah (C1)
1
100
Jarak dari pusat kota (C2) 2
Ada angkutan umum (C3) Tidak
Dipilih untuk perumahan (C4) Ya
2
200
1
Tidak
Ya
3
500
3
Tidak
Ya
4
600
20
Tidak
Tidak
5
550
8
Tidak
Tidak
6
250
25
Ada
Tidak
7
75
15
Ada
Tidak
8
80
10
Tidak
Ya
9
700
18
Ada
Tidak
10
180
8
Ada
Ya
Mean dan deaviasi standar untuk atribut harga tanah (C1)
π ya = π tidak =
100+200+500+80+180 5 600+550+250+75+700 5
= 212 = 435
11
(100β212)2 +(200β212)2 +(500β212)2 +(80β212)2 +(180β212)2
π2 ya =
5β1
= 28520,015
=
πya
28520,015 = 168,8787 (600β435)2 +(550β435)2 +(250β435)2 +(75β435)2 +(700β435)2
π2 tidak =
5β1
= 68624,98
=
πtidak
b.
68624,98 = 261,9637
Mean dan varian untuk atribut jarak dari pusat kota (C2)
π ya =
2+1+3+10+8
π tidak =
5
= 4,8
20+8+25+15+18 5
= 17,2
(2β4,8)2 +(1β4,8)2 +(3β4,8)2 +(10β4,8)2 +(8β4,8)2
π2 ya =
5β1
= 15,699821 πya
=
15,699821 = 3,9623
π2 tidak =
(20β17,2)2 +(8β17,2)2 +(25β17,2)2 +(15β17,2)2 +(18β17,2)2 5β1
= 39,700081 πtidak
=
39,700081 = 6,3008
Sedangkan untuk probababilitas atribut angkutan umum dan dipilih untuk perumahan terlihat pada tabel 2.2 dan tabel 2.3.
12
Tabel 2.2.Probabilitas kemunculan setiap nilai untuk atribut angkutan umum (C3) Angkutan Umum
Jumlah kejadian βDipilihβ Ya Tidak
Probabilitas Ya
Tidak
Ada
1
3
1/5
3/5
Tidak
4
2
4/5
2/5
Jumlah
5
5
1
1
Tabel 2.3. Probabilitas kemunculan setiap nilai untuk atribut dipilih untuk perumahan (C4) Dipilih
Jumlah kejadian
untuk
βDipilihβ
Probabilitas
perumahan
Ya
Tidak
Ya
Tidak
Jumlah
5
5
1/2
1/2
Dari data di atas apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka :
P C1 = 300 YA
=
P C1 = 300 TIDAK =
P C2 = 17 YA
=
P C2 = 17 TIDAK =
1 2π 168,8787 1 2π 261,9637 1 2π 3,9623 1 2π 6,3008
ππ₯π
β 300β212 2 2 x 28520,015
ππ₯π
β 300β435 2 2 x 68624,98
β 17β4,8
= 0,0013
2
ππ₯π 2 x 15,699821 ππ₯π
= 0,0021
β 17β17,2 2 2 x 39,700081
= 0,0009
= 0,0633
Sehingga : Nilai Ya
= (0,0021) x (0,0009) x 4/5 x 5/10 = 0,000000756
Nilai Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458
13
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap nilai YA dan TIDAK tersebut sehingga: 0,000000756 Probabilitas YA =
= 0,439 0,000000756 + 0,000016458 Klasifikasi : 0,000016458
Probabilitas TIDAK =
= 0,9561
TIDAK
0,000000756+ 0,000016458
2.2
Penelitian Terkait Ada beberapa penelitian yang telah dilakukan terkait dengan penenelitian
ini, antara lain Penelitian Yusnita (2012) yang berjudul Sistem Pendukung Keputusan Menentukan Lokasi Rumah Makan yang Strategis menggunakan Metode Naive Bayes, dimana metode yang digunakan dalam pengambilan keputusan untuk meenentukan lokasi rumah makan ini adalah metode Naive Bayes yang merupakan pendekatan statistik untuk melakukan inferensi induksi pada persoalan klasifikasi. Kesimpulan hasil penelitian tersebut adalah metode Naive Bayes dapat digunakan untuk menentukan lokasi strategis dengan menghitung nilai probabilitas. Lokasi strategis dapat ditentukan apabila nilai akhir dari probabilitas ya lebih besar dari nilai probabilitas tidak, sebaliknya lokasi kurang strategis jika nilai probabilitas ya tidak lebih tinggi dari probabilitas tidak. Penelitian lainnya juga dilakukan oleh Suryana (2007) tentang βAnalisis Faktor-faktor yang Mempengaruhi Produksi Jagung di Kabupaten Bloraβ. Dalam penelitiannya Surya menganalisis faktor-faktor apa saja yang paling berpengaruh dalam produksi jagung di kabupaten Blora seperti biaya tenaga kerja, biaya
14
pembelian pupuk, biaya produksi lainnya dan lain-lain dengan teknik pengambilan sampel menggunakan teknik proposional random sampling menggunakan alat bantu SPSS versi 11.5. Dari hasil penelitiannya, diketahui bahwa faktor-faktor tersebut ada dan tidaknya pengaruh pada produksi jagung. Memperhatikan hasil penelitian yang dikemukakan di atas maka penelitian dengan judul Penerapan Naive Bayes untuk Klasifikasi Jagung Produktif di Gorontalo terdapat perbedaan mendasar antara penelitian ini dengan penelitian sebelumnya yaitu fokus penelitian adalah klasifikasi jagung produktif di Gorontalo dengan menerapkan metode Naive Bayes. Meskipun fokus penelitian ini dengan penelitian Suryana sama namun Suryana hanya menganalisis faktorfaktor yang mempengaruhi produksi jagung. Sedangkan penelitian Yusnita dan Handini, metode yang digunakan sama namun fokus penelitiannya berbeda. Metode tersebut adalah Naive Bayes untuk mengklasifikasikan jagung produktif berdasarkan kriteria-kriteria yang telah ditentukan yang dibuat dalam suatu sistem yang nantinya dapat membantu pemerintah dan petani sehingga budidaya jagung dapat lebih dimaksimalkan.