aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama mencakup nilai minimum maka LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah. 2 Data Mining Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu : a Pembentukan Pohon Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu. b Pemangkasan Pohon Pemangkasan pohon dapat dilakukan dengan metode prepruning atau postpruning. Namun alternatif lain yang dapat dilakukan adalah mengkombinasikan prepruning dan postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit. c Pembentukan Aturan Keputusan, aturan yang dihasilkan dari pohon
keputusan dapat ditampilkan dalam bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar. 3 Evaluasi Data Keluaran Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation. Lingkungan Pengembangan Lingkungan pengembangan sistem dalam penelitian ini meliputi: Perangkat lunak: Windows XP Profesional sebagai sistem operasi. WEKA 3-5-7 untuk membentuk pohon keputusan. MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut: Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb. Harddisk 40 GB Monitor 15 inchi, mouse dan keyboard.
HASIL DAN PEMBAHASAN Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah dilakukan oleh peneliti sebelumnya (Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5. Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff
yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian. Metode Partisi Intuitif Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW dan HIGH terletak pada satuan juta maka ditetapkan MSD sebesar 1.000.000 setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’ sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000]. Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang
interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’. Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas. Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1 Tabel 1 Nilai pada atribut produksi Kelas P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13
Interval (dalam Ton) 900-750.675 750.675-1.500.450 1.500.450-2.250.225 2.250.225-3.000.000 3.000.000-4.000.000 4.000.000-5.000.000 5.000.000-6.000.000 6.000.000-7.000.000 7.000.000-8.000.000 8.000.000-9.000.000 9.000.000-14.250.000 14.250.000-19.500.000 19.500.000- 24.750.000
Atribut luas_panen mengalami perlakuan yang sama dengan atribut produksi. Atribut ini didiskretkan menggunakan aturan 3-4-5. Dari aturan tersebut untuk atribut luas_panen didapatkan 16 interval. Hasil yang didapatkan bisa dilihat pada Tabel 2.
Tabel 2 Nilai pada atribut luas_panen Kelas Interval (dalam Ha) L1 500-100.400 L2 100.400-200.300 L3 200.300-300.200 L4 300.200-400.100 L5 400.100-500.000 L6 500.000-625.000 L7 625.000-750.000 L8 750.000-875.000 L9 875.000-1.000.000 L10 1.000.000-1.100.000 L11 1.100.000-1.200.000 L12 1.200.000-1.300.000 L13 1.300.000-1.400.000 L14 1.400.000-1.500.000 L15 1.500.000-1.600.000 L16 1.600.000-1.700.000 L17 1.700.000-1.800.000 L18 1.800.000-1.900.000 L19 1.900.000-2.000.000 L20 2.000.000-8.000.000 L21 8.000.000-14.000.000 L22 14.000.000-20.000.000 Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2. Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3 Informasi dalam confusion matrix diperlukan untuk menentukan kinerja model klasifikasi dengan menggunakan performance metric seperti akurasi yang didefinisikan sebagai berikut:
Akurasi = Dengan
Banyaknya prediksi yang benar total banyaknya prediksi metode Partisi Intuitif untuk
diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah Akurasi =
557 + 127 + 65 + 10 + 36 + 8 + 6 + 9 + 28 + 13 = 0.8454 1016
Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.
banyaknya prediksi yang salah total banyaknya prediksi Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate metode ini yaitu sebesar 14,46 %. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif ini dihasilkan jumlah objek yang diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12. Error rate =
Algoritme K-Means dengan 4 cluster Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4 Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4
Cluster 1 2 3 4
Interval (dalam Ton) 903.191- 2.671.754 6.594.514 - 21.579.444 961- 884.273 2.689.834 - 6.111.937
Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4
Cluster
Interval (dalam Ha)
1
519-286.870
2
287.708-902.286
3
5.029.518–15.275.533
4
1.183.574-2.188.479
Data yang telah didiskretkan dengan menggunakan Algoritme K-Means kemudian disimpan ke dalam file bernama cluster (4) padi_asli2.csv. File csv ini diubah menjadi file bernama cluster(4) padi_asli2.arff, file ini yang dijadikan
Kelas Sebenarnya
Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster
C1 C2 C3 C4
C1 152 0 26 20
Hasil prediksi C2 C3 1 27 78 0 0 636 35 0
C4 18 0 0 22
Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2
Algoritme K-Means dengan 5 cluster Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme KMeans clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7 Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5
cluster 1 2 3 4 5
Interval (dalam Ton) 1.177.221 - 2.802.492 461.413 - 1.169.865 961- 458.756 6.878.791 - 21.579.444 2.839.821 - 6.594.514
Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5
cluster
Interval (dalam Ha)
1 2
519 - 210.425 495.958 - 902.286
3
214.180 - 494.145
4
5.029.518 - 15.275.533
5
1.183.574 - 2.188.479
Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada Lampiran 7 sedangkan aturan yang terbentuk dapat dilihat pada Lampiran 8. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means clustering dengan 5 cluster ini adalah 76,87% dengan jumlah aturan yang terbentuk sejumlah 59. Matriks confusion untuk algoritme K-Means dengan 5 cluster ini bisa dilihat pada Tabel 8. Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster prediksi kelas C1 Kelas Sebenarnya
masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan diproses untuk membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5. Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion untuk algoritme K-Means dengan 4 cluster ini dapat dilihat pada Tabel 5.
C4
C5
C1
85
54
C2
0
C3
0
15
C2
40
186
27
1
0
C3
5
38
413
0
0
C4
0
0
0
77
0
C5
18
0
0
36
20
Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24. Perbandingan Metode Partisi Intuitif dan Algoritme K-Means Secara keseluruhan, hasil perbandingan masing masing metode diskretisasi atribut
terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5 cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik Tabel 9 Perbandingan hasil pohon keputusan dengan metode Partisi Intuitif dan Algoritme K-Means
Jumlah klasifikasi benar Jumlah klasifikasi salah Root Means Square Error Jumlah Aturan yang terbentuk
Partisi Intuitif
Algoritme KMeans 4 5 Cluster Cluster
859
888
781
147
127
234
0.12
0.20
0.24
63
49
59
Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut: A Metode Partisi Intuitif If luas_panen =L1 then produksi =P1 If luas_panen = L2 and lokasi =Bengkulu then produksi =P1 If luas_panen =L2 and lokasi Jambi then produksi =P1
If luas_panen =L2 and lokasi Daerah_Istimewa_Yogyakarta then produksi =P1 If luas_panen =L2 and lokasi Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4
If lokasi = Bali then produksi = C3 If lokasi = Bangka_Belitung then produksi = C3 If lokasi = Banten then produksi = C4 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = C2 If lokasi = Jawa Barat and luas_panen = L2 then produksi = null If lokasi = Jawa_Timur then produksi = C2 C Algoritme K-Means clustering dengan jumlah cluster 5 If lokasi = Bali then produksi = C2 If lokasi = Bangka_Belitung then produksi = C3 If lokasi= Banten then produksi = C1 If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null If lokasi = Jawa_Timur then produksi = C4
KESIMPULAN Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.