PENDAHULUAN Latar Belakang Basis data saat ini telah berkembang sangat cepat. Di dalam tumpukan data tersebut mungkin terdapat informasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Penumpukan data tersebut dialami pula oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Oleh karena itu, diperlukan suatu cara agar kumpulan data tersebut tidak hanya dibiarkan menggunung namun dapat di’tambang’ untuk mencari informasi yang berguna bagi organisasi yang bersangkutan. Data tanaman pangan dan hortikultura yang dimiliki Departemen Pertanian telah dianalisis pada penelitian sebelumnya dengan menerapkan teknik klasifikasi menggunakan metode pohon keputusan dengan algoritme C5.0 (Purnamasari 2006). Tahap preprocessing adalah salah satu langkah yang perlu dilakukan agar data dapat sesuai untuk data mining. Strategi atau pendekatan yang sering digunakan adalah agregasi, sampling, reduksi dimensional, feature subset selection, pembuatan fitur, diskretisasi dan binerisasi, serta transformasi variabel. Pendekatanpendekatan ini dapat dikelompokkan ke dalam dua kategori, yaitu seleksi objekobjek data dan atribut-atribut untuk analisis atau pembuatan/perubahan atribut. Tujuan dari kedua kategori tersebut adalah untuk meningkatkan analisis data mining terhadap waktu, biaya dan kualitas (Tan et al. 2005). Pendiskretan atribut merupakan salah satu aspek yang penting dalam data mining salah satunya dalam metode klasifikasi. Ada beberapa metode untuk mendiskretkan data yaitu binning, analisis histogram, diskretisasi berbasis entropy, X2- merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif. (Han & Kamber 2006). Dalam penelitian ini tahapan praproses data
akan menggunakan teknik diskretisasi Partisi Intuitif dan clustering menggunakan algoritme K-means yang diaplikasikan pada Data Tanaman Padi, Tanaman Pangan dan Hortikultura, Departemen Pertanian. Tujuan Tujuan penelitian ini adalah : Menerapkan teknik Partisi Intuitif dan clustering dengan algoritme K-Means dalam diskretisasi atribut. • Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 yang diaplikasikan pada data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian. • Membandingkan akurasi pohon yang dihasilkan dengan Partisi Intuitif dan clustering sebagai metode diskretisasi atribut.
•
Ruang Lingkup Dalam penelitian ini pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA (Waikato Environment for Knowledge Analysis). Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian dari tahun 1970 – 2003 (data berasal dari Badan Pusat Statistik)
TINJAUAN PUSTAKA Data Mining Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining merupakan keseluruhan proses mengaplikasikan komputer dan bermacammacam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasikan menjadi dua yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi
perilaku dari kumpulan data yang baru.(Tan et al 2005). Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen resiko, telekomunikasi, asuransi dan keuangan. Praproses Data Hal yang sering ditemui pada basis data adalah data tidak lengkap (terdapat data yang bernilai null atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik praproses data dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2006). Tahapan praproses data adalah (Han & Kamber 2006): 1 Pembersihan data (cleaning) Pada proses ini data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi atau menghilangkan noise dan memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu: Nilai yang kosong (hilang) Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’unknown’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya. Nilai mengandung noise Data dengan nilai yang mengandung noise dapat diganti dengan nilai hasil perhitungan dengan metode binning (mengelompokkan nilai), metode regresi, atau dengan cara clustering. Data tidak konsisten Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2 Integrasi data Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas
yang sama terdapat nama yang berbeda. Redudansi juga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton. 3 Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten yaitu setelah dilakukan integrasi dengan sumber data yang lain, tampilan dan isi tetap sama. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda (Kantardzic 2003). Transformasi data mencakup hal berikut: Smoothing. Dilakukan untuk menghilangkan noise dari data. Tekniknya meliputi binning, regresi, dan clustering. Agregasi. Peringkasan dan agregasi diterapkan pada data, misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan. Generalisasi. Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misalkan kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara. Normalisasi yaitu proses dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan. Konstruksi atribut. Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya. 4 Reduksi data Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi: Agregasi kubus data. Operasi agregasi diterapkan pada data dalam konstruksi kubus data. Reduksi dimensi. Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.
Kompresi data, mereduksi ukuran data dengan mekanisme encoding. Numerosity reduction. Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi dan generasi konsep hirarki. Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk membangkitkan konsep hirarki secara otomatis. Dijelaskan oleh Han & Kamber (2006) bahwa tahapan praproses data tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya. Diskretisasi Teknik diskretisasi digunakan untuk mengurangi jumah nilai pada atribut yang diberikan, dengan membagi kisaran nilai atribut ke dalam sejumlah interval. Label interval tersebut kemudian dapat digunakan untuk menggantikan nilai data yang aktual. Metode diskretisasi diantaranya: binning, analisis histogram, diskretisasi berbasis entropy, X2-merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif (Han & Kamber 2006). - Binning Metode ini menghaluskan nilai yang telah terurut dengan nilai di sekitarnya, nilai tersebut didistribusikan ke dalam sejumlah bucket atau bins. Data yang telah terurut tadi dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 maka setiap bins akan berisi 3 nilai. -
Analisis Histogram Seperti binning, analisis histogram adalah metode diskretisasi yang tidak ’terawasi’ karena dia tidak menggunakan informasi kelas. Histogram mempartisi nilai dari atribut ke dalam bucket. Secara khas lebar masing masing bucket adalah seragam. Setiap bucket ditampilkan melalui histogram yang tingginya mewakili frekuensi dari nilai setiap bucket. - Diskretisasi berbasis entropy Entropy adalah salah satu metode diskretisasi yang sering digunakan. Diskretisasi berbasis entropy adalah teknik partisi top-down. Untuk mendiskretkan atribut numerik, metode ini memilih nilai dari atribut yang memiliki entropy minimum
sebagai split-point, dan secara rekursif mempartisi hasil interval yang dihasilkan.
-
X2-merging
Dasar metode diskretisasi ini adalah ChiMerge. Ide dasar untuk diskretisasi akurat adalah nilai yang mirip secara konsisten digabungkan ke dalam sebuah interval. Jika ada dua interval yang bersebelahan dan mempunyai distribusi nilai yang mirip, maka intervalnya bisa digabung. Selainnya interval yang lain tetap harus dipisahkan. - Analisis cluster Analisis cluster juga metode diskretisasi yang cukup populer. Metode ini mengelompokkan nilai nilai yang sama ke dalam sebuah group (cluster) -
Diskretisasi dengan Partisi Intuitif Metode ini digunakan karena banyak pengguna yang menginginkan setiap range dipartisi menjadi interval yang cukup seragam, dan setiap interval mudah dibaca karena terlihat intuitif atau natural. Aturan 3-4-5 dapat digunakan untuk membagi data numerik menjadi data yang cukup seragam. Secara umum, aturan partisi membagi kisaran data menjadi 3, 4 atau 5 interval yang lebarnya cukup sama, rekursif, dan setiap tingkatan berdasar pada kisaran nilai dengan angka yang paling signifikan. Penjelasan mengenai aturan ini adalah sebagai berikut : Jika interval mencakup 3, 6, 7, 9 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 3 interval. Untuk nilai 3, 6, dan 9, interval dibagi menjadi 3 dengan lebar yang sama sedangkan untuk nilai 7, interval akan dikelompokkan dengan perbandingan lebar 2-3-2. Jika interval mencakup 2, 4, atau 8 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 4 interval dengan lebar yang sama. Jika interval mencakup 1,5 atau 10 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 5 interval dengan lebar yang sama. Algoritme K-Means Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacammacam teknik, namun dua teknik yang
banyak digunakan adalah K-Means dan KMedoid (Tan et al. 2005). K-Means merupakan algoritme clustering yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukan dari penggunanya. Algoritme dasar dari KMeans adalah (Tan et al. 2005): Select K points as the initial centroids Repeat From K cluster by assigning all points to the closest centroids Recomputed the centroids of each cluster Until change
the
centroids
don’t
Algoritme ID3 Algoritme ID3 diperkenalkan dan dikembangkan pertama kali oleh Ross Quinlan. Algoritme ID3 membentuk pohon keputusan dengan metode divide-andconquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritme ID3 adalah (Quinlan, 2008): 1 Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data. 2 Sesudah node akar dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya. 3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masingmasing. 4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah pohon keputusan. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain. 5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:
a Semua data dari anak cabang telah termasuk dalam kelas yang sama. b Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun. c Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas. Pohon Keputusan Decision Tree adalah salah satu teknik klasifikasi sederhana yang banyak digunakan. Masalah klasifikasi diselesaikan dengan mengajukan serangkaian pertanyaan tentang atribut dari test record. Rangkaian pertanyaan tersebut dan jawabanjawabannya diorganisasikan ke dalam bentuk pohon keputusan, yang merupakan struktur hirarki yang terdiri dari node-node dan edge-edge berarah. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari root dan internal node lainnya, mengandung kondisi-kondisi uji atribut untuk memisahkan record yang memiliki karakteristik yang berbeda. Setelah pohon keputusan dikonstruksi, test record dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. Hal ini akan membawa kita ke internal node yang lain, dimana kondisi tes yang baru diaplikasikan, atau ke leaf node (Tan et al. 2005). Root Means Square Error (RMSE) (Meese dan Rogoff 1983, diacu dalam Wibowo dan Amir 2005) menyatakan beberapa metode dapat digunakan untuk menunjukkan kesalahan dari suatu teknik prakiraan. Metode yang digunakan adalah menggunakan analisis residual yaitu melihat kesalahan atau perbedaan antara nilai hasil prakiraan dengan nilai yang sebenarnya terjadi. Kesalahan prakiraan pada periode t dapat dirumuskan
e t = Yt − Yˆt di mana: et = kesalahan prakiraan pada periode t
Yt = nilai sebenarnya pada periode t Yˆt = nilai prakiraan pada periode t
Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE. n
∑ (Y − Yˆ ) t
MSE =
t
2
t =1
METODE PENELITIAN Proses Dasar Sistem Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database (KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:
n
RMSE = MSE
Cross Validation Cross validation adalah metode yang umum digunakan untuk mengevaluasi kinerja classifier. Dalam pendekatan crossvalidation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan twofold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk training dan satu kali untuk testing. Metode k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk testing, sedangkan sisanya digunakan untuk training. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).
Gambar Tahapan dalam KDD 1 Praproses Data Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006). Transformasi dilakukan untuk membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi. Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval. Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan disesuaikan dengan