PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE UNTUK DATA TANAMAN PANGAN DAN HORTIKULTURA
YULIA PURNAMA SARI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006
ABSTRAK Yulia Purnama Sari. Penerapan Teknik Klasifikasi dengan Algoritma Decision Tree pada Data Tanaman Pangan dan Hortikultura. Dibimbing oleh IMAS S. SITANGGANG dan RINDANG KARYADIN. Data sektor pertanian yang dimiliki oleh Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan kumpulan data berukuran besar. Data tersebut terdiri dari 18 subsektor dan 16 atribut, termasuk di dalamnya data subsektor tanaman pangan dan hortikultura. Data tanaman pangan dan hortikultura terdi ri dari 109.037 record. Dalam penelitian yang telah dilakukan, diaplikasikan salah satu teknik data mining, yaitu klasifikasi dengan menggunakan algoritma decision tree, untuk melihat pola yang ada dalam data tanaman pangan dan hortikultura . Decision tree merupakan algoritma dalam klasifikasi yang paling banyak digunakan. Algoritma ini terdiri dari 3 (tiga) tahapan, yaitu pembentukan pohon; pemangkasan pohon; dan pembentukan aturan (IF-AND-THEN). Data tanaman pangan dan hortikultura dibagi menjadi 8 data set berdasarkan kelompok tahun yang terbagi per lima tahun, yaitu bdspT1 sampai dengan bdspT8, yang masing-masing terdiri dari atribut komoditas; lokasi; produktivitas; dan luas panen. Setiap data set tersebut dibagi menjadi 75% training set dan 25% test set. Hasil percobaan menunjukan bahwa rasio aturan terhadap training set yang terbesar terdapat pada tabel bdspT2 (kelompok tahun 1971 -1975) sebesar 33.73% dan nilai terkecil terdapat pada tabel bdspT7 (kelompok tahun 1996-2000) sebesar 17.81%. Hasil evaluasi model menggunakan percobaan dengan masukan berupa data acak diperoleh nilai akurasi terkecil yang berasal dari data acak terdapat pada tabel bdspT1 (kelompok tahun 1966-1970) yaitu 10.10% dan nilai akurasi terbesar pada tabel bdspT7 (kelompok tahun 1996-2000) yaitu 67.17%.
Kata kunci : Data mining, klasifikasi, decision tree
PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE UNTUK DATA TANAMAN PANGAN DAN HORTIKULTURA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
YULIA PURNAMA SARI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006
Judul Skripsi :
Nama NRP
PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE PADA DATA TANAMAN PANGAN DAN HORTIKULTURA : Yulia Purnama Sari : G64101031
Menyetujui:
Pembimbing I,
Pembimbing II,
Imas S.Sitanggang, S.Si, M.Kom NIP 132206235
Rindang Karyadin, S.T, M.Kom NIP 132311915
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, M.S. NIP 131473999
Tanggal Lulus :
PRAKATA Puji syukur kepada Allah SWT karena atas limpahan rahmat dan karunia-Nya sehingga penulis dapat dengan baik menyelesaikan tugas akhir dengan judul Penerapan Teknik Klasifikasi dengan Algoritma Decision Tree pada Data Tanaman Pangan dan Holtikultura. Penulis mengucapkan terima kasih kepada semua pihak yang telah banyak membantu dalam penyelesaian tugas akhir ini dari awal hingga akhir penulisan laporan ini, terutama kepada: 1)
Mama, Papa, Mba Vera, Apria, dan Ryo atas kasih sayang, perhatian, dukungan, dan pengertiannya selama ini .
2)
Ibu Imas S Sitanggang, selaku Pembimbing I, atas bantuan dan sarannya selama tahap penyelesaian tugas akhir ini.
3)
Bapak Rindang Karyadin, selaku Pembimbing II, atas kritik dan masukan yang berkenaan dengan tulisan pada tugas akhir ini.
4)
Bapak Hari Agung A, selaku Penguji dalam tugas akhir ini
5)
Bapak Ibrahim dan Bapak Nugroho dari Pusat Data dan Informasi Pertanian Departemen Pertanian atas bantuannya untuk memperoleh data yang dibutuhkan untuk tugas akhir ini.
6)
Laura, Sifil, dan Euis atas dukungan, doa, perhatian serta persahabatan yang tulus selama penulis berada di Ilkom IPB.
7)
Khamam, Inu, Dyah, Aisyah, Liesca dan Sanda yang senantiasa membantu dalam penyelesaian tugas akhir ini.
8)
Teman–teman Ilkom angkatan 38 yang selama ini telah banyak membantu, memberikan kesenangan, pengalaman dan kebersamaan selama masa kuliah. Semoga kita tetap terus saling berhubungan. Semoga tulisan ini dapat bermanfaat.
Bogor, April 2006
Yulia Purnama Sari
RIWAYAT HIDUP Penulis dilahirkan pada tanggal 25 Agustus 1983 di Jakarta. Penulis adalah anak kedua dari tiga bersaudara pasangan Hartono dan Dyah suwarni. Pada tahun 2001 penulis menyelesaikan pendidikan SMU di SMU Negeri 71 Jakarta Timur. Pada tahun yang sama penulis diterima sebagai mahasiswa di Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada akhir masa kuliah, penulis diberi kesempatan untuk melakukan Praktik Kerja Lapangan di Pusat Data dan Informasi Pertanian Departemen Pertanian.
DAFTAR ISI Halaman DAFTAR ISI................................................................................................................................. iii DAFTAR TABEL......................................................................................................................... iv DAFTAR GAMBAR..................................................................................................................... v DAFTAR LAMPIRAN................................................................................................................. vi PENDAHULUAN 1.1 Latar Belakang............................................................................................................. 1 1.2 Tujuan.......................................................................................................................... 1 1.3 Ruang Lingkup............................................................................................................ 1 TINJAUAN PUSTAKA 2.1 Data Mining................................................................................................................. 1 2.2 Karakteristik pada Data Mining................................................................................... 2 2.3 Teknik p ada Data Mining............................................................................................ 2 2.4 Algoritme K-Means..................................................................................................... 3 2.5 Decision Tree................................................................................................................ 3 2.6 Algoritma C5.0............................................................................................................. 4 METODE PENELITIAN 3.1 Proses Dasar Sistem...................................................................................................... 6 3.2 Lingkungan Pengembangan.......................................................................................... 7 HASIL DAN PEMBAHASAN 4.1 Pembersihan Data (Data Selection)............................................................................... 7 4.2 Pemilihan Data ( Data Cleaning)................................................................................... 7 4.3 Pengurangan Data (Data Reduction)............................................................................ 7 4.4 Data Mining................................................................................................................. 8 4.5 Evaluasi Data Keluaran................................................................................................10 PENUTUP 5.1 Kesimpulan...................................................................................................................11 5.2 Saran............................................................................................................................. 11 DAFTAR PUSTAKA ................................................................................................................... 12 LAMPIRAN.................................................................................................................................. 13
DAFTAR TABEL Halaman 1
Jumlah cluster dan nilai SSE pada atribut produksi…..............................................................8
2
Nilai yang terdapat pada kelas produksi....................................................................................8
3
Tabel perhitungan information gain..........................................................................................8
4
Generalisasi atribut tahun..........................................................................................................8
5
Generalisasi atribut produktivitas..............................................................................................8
6
Generalisasi atribut luas panen…………………......................................................................9
7
Nama dan ukuran data set……………………………………………………………………. 9
8
Jumlah record training set dan test set.....................................................................................9
9
Rasio aturan pada training set.................................................................................................10
DAFTAR GAMBAR Halaman 1
Tahapan dalam KDD................................................................................................................6
2
Pohon yang terbentuk pada tabel bdspT7.................................................................................9
3
Grafik rasio pada delapan tabel bdsp......................................................................................10
4
Grafik perbandingan nilai akurasi...........................................................................................11
DAFTAR LAMPIRAN Halaman 1
Daftar tabel yang digunakan dalam data warehouse..............................................................14
2
Karakteristik data tanaman pangan dan hortikultura........................................................ ......14
3
Atribut pada tabel setelah pembersihan data..........................................................................15
4
Atribut-atribut dalam tabel yang telah dimodifikasi...............................................................15
5
Aturan yang terbentuk pada tabel bdspT7..............................................................................16
6
Nilai inputan untuk pengujian.................................................................................................27
7
Hasil Pengujian dengan 100 data masukan dengan data acak...............................................32
8
Hasil Pengujian dengan 150 data masukan dengan data acak...............................................32
9
Hasil Pengujian dengan 200 data masukan dengan data acak...............................................32
10 Grafik akurasi dengan 100 data pengujian dengan data acak................................................33 11 Grafik akurasi dengan 150 data pengujian dengan data acak................................................33 12 Grafik akurasi dengan 200 data pengujian dengan data acak................................................33 13 Tampilan modul pengguna.....................................................................................................34
PENDAHULUAN 1.1 Latar Belakang Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Fenomena ini terjadi dalam banyak bidang kehidupan, seperti bisnis, perbankan, pemasaran, produksi dan sains Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang ekonomis bagi data berukuran besar, teknologi untuk membantu menganalisis, memahami, atau bahkan memvisualisasikan data belum banyak tersedia. Hal inilah yang melatarbelakangi dikembangkannya konsep data m ining. Data mining merupakan proses ekstraksi informasi atau pola yang penting atau menarik dari data berukuran besar. Penumpukan data telah dialami oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Data yang berjumlah ratusan ribu record tersebut akan terus bertambah jumlahnya setiap saat . Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul belum dieksplorasi secara optimal. Oleh karena itu, diperlukan suatu cara agar data yang ada dan kaya informasi tersebut dapat di‘tambang’ untuk mencari ‘emas’ dan ‘berlian’, yaitu informasi yang berguna bagi pihak-pihak yang membutuhkan. Data mining merupakan salah satu tahapan dalam proses Knowledge Discovery in Database (KDD). Teknik-teknik yang dapat digunakan dalam data mining di antaranya klasifikasi dan prediksi, association rule, dan clustering (Han & Kamber 2001). Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Metode klasifikasi yang terkenal
dan banyak digunakan adalah decision tree. Metode lainnya adalah Bayesian, neural network, genetic algorithm, fuzzy, casebased reasoning, dan K-nearest neighbor (Aziz et al. 2004). Teknik klasifikasi dapat digunakan untuk menganalisis suatu kasus yang tidak terlihat, seperti mengetahui atau memprediksi apa yang dibutuhkan atau paling diinginkan oleh pengguna.
1.2 Tujuan Tujuan dari penelitian ini adalah: 1.
Menerapkan proses Knowledge Discovery in Database (KDD) untuk mengolah data pada Departemen Pertanian, yaitu data tanaman pangan dan hortikultura.
2.
Menerapkan teknik klasifikasi dengan menggunakan metode decision tree yaitu algoritme C5.0 pad a data tanaman pangan dan hortikultura.
3.
Membentuk suatu aturan yang berasal dari pohon keputusan.
4.
Membuat suatu model bantu untuk mempermudah pengguna dalam menentu-kan nilai produksi dari suatu komoditas di wilayah tertentu berdasarkan nilai produktivitas dan luas panennya.
1.3 Ruang Lingkup Penelitian ini dibatasi pada penggunaan teknik klasifikasi sebagai suatu teknik dalam data mining dengan menggunakan metode decision tree yaitu algoritme C5.0. Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman pangan dan hortikultura dengan status angka berupa angka tetap (data berasal dari Badan Pusat Statistik).
TINJAUAN PUSTAKA 2.1 Data Mining Data mining berarti mencari informasi yang tersembunyi dari suatu data, pola yang tidak diketahui dan aturan baru dalam basis data berukuran besar (Thomas 2004). Konsep ini muncul karena adanya explosion atau penumpukan data yang sangat besar
yang sering dialami oleh suatu organisasi. Secara garis besar data mining dapat dikelompokkan menjadi 2 (dua) kategori utama, yaitu (Tan et al. 2005): 1.
2.
Descriptive Mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining. Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk membuat prediksi variabel lain di masa depan. Teknik yang termasuk dalam predictive mining antara lain klasifikasi, regresi, dan deviasi
4.
Data konsisten. Tampilan dan isi harus tetap sama setelah dilakukan integrasi dengan sumber data yang lain.
5.
Data tidak redundant. Data yang redundant harus diperkecil jumlahnya dan r ecord duplikat harus dibuang.
6.
Data memiliki waktu yang jelas. Komponen waktu pada data harus dapat dikenali dengan jelas.
7.
Data mudah dipahami. Penamaan yang standar bukan saja perlu, tetapi akan membuat data menjadi lebih mudah dipahami.
8.
Data lengkap. Data yang hilang akan mempengaruhi keadaan tabel, sehingga harus dikurangi jumlahnya. Data yang hilang akan mempengaruhi model secara keseluruhan.
Tujuan dari adanya data mining adalah (Thomas 2004): 1.
Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi.
2.
Confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah ada.
3.
Exploratory, yaitu untuk menganalisis data baru atau suatu relasi yang janggal.
2.3
Teknik-teknik yang dapat digunakan dalam data mining adalah (H an & Kamber 2001): 1.
2.2 Karakteristik Data pada Data Mining Pada data mining, kualitas data akan mempengaruhi kinerja dari sistem dan mempengaruhi hubungan implisit dari model yang telah dibentuk. Beberapa indikator data yang berkualit as adalah (Kantardzic 2003) : 1.
Data akurat. Analisis harus memastikan bahwa nama ditulis dengan baik, setiap kode yang digunakan memiliki batasan atau jarak yang jelas, nilai yang ada lengkap, dan lain sebagainya.
2.
Data disimpan sesuai tipe datanya. Penganalisis dapat memastikan bahwa nilai numerik tidak diletakkan pada data karakter dan sebagainya.
3.
Data memiliki integritas. Data yang telah ada tidak berubah saat pengguna lain menggunakan data tersebut, menyiapkan prosedur recovery dan data back up.
Teknik dalam Data Mining
2.
Klasifikasi dan prediksi. Teknik ini dapat digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan. Klasifikasi adalah suatu proses untuk menemukan model atau fungsi untuk menggambarkan kelas atau konsep dari suatu data. Dilain pihak, prediksi biasanya digunakan untuk data numerik. Teknik yang termasuk dalam klasifikasi dan prediksi antara lain: a.
Statistika; metode yang banyak digunakan di antaranya Bayesian , Hidden Marcov Model, serta regresi linier dan nonlinier.
b.
Kecerdasaran buatan ; Metode dalam kecerdasan buatan yang banyak digunakan dalam data mining di antaranya neural network, decision tree, roughs set, algoritme genetika, K-nearest neighbour, case base reasoning dan logika fuzzy.
c.
Machine learning; salah satu teknik yang digunakan dalam machine learning adalah SOMs (Self Organizing feature maps).
Association Rule. Teknik ini dapat digunakan untuk menemukan suatu
hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme yang banyak digunakan dalam teknik ini adalah apriori. 3.
Clustering. Teknik ini berbeda dengan klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method merupakan teknik yang membagi data menjadi beberapa bagian. 2. Hierarchical method membentuk suatu komposisi hirarki dari data objek yang diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian yang membentuk struktur grid. 5. Model based clustering method yang berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model yang diberikan.
2.4 Algoritme K-Means Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacammacam teknik, namun dua teknik yang banyak digunakan adalah K-Means dan KMedoid (Tan et al. 2005). K-Means merupakan algoritme cluster yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukkan dari penggunanya. Algoritme dasar dari K-Means adalah (Tan et al. 2005): Select K points as the initial centroids Repeat From K cluster by assigning all points to the closest centroids Recomputed the centroids of each cluster Until the centroids don’t change
Teknik K-Means pada algoritme clustering cukup sederhana. Langkah pertama yang
dilakukan dalam algoritme sederhana di atas adalah menentukan K initial centroid, dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan. Kemudian setiap nilai dimasukkan ke dalam centroid yang terdekat. Centroid dalam cluster akan berubah sesuai dengan nilai yang ada dalam kelompok tersebut. Langkah peletakan nilai ke dalam centroid terdekat diulang hingga tidak ada nilai yang berpindah cluster, atau tetap pada tempatnya. Pada clustering, terdapat beberapa cara untuk mengevaluasi validitas jumlah cluster . Salah satu ukuran validitas yang dapat digunakan adalah Sum of Squared Error (SSE). Formula matematis untuk SSE adalah (Tan et al. 2005): k 2 SSE = ∑ ∑ x∈C dist ( x , m j ) j j=1
dengan x adalah nilai data yang terdapat di dalam cluster Cj dan mj adalah centroid dari cluster Cj. Dalam hal ini, dist(x, mj ) adalah jarak antara nilai x dengan centroid mj. Jarak atau dist(x, mj) dapat dihitung dengan menggunakan formula jarak Euclidean, yaitu (Liu 2005 ): dist ( x i , m j ) =|| x i − m j || =
2 2 2 ( x i1 − m j1 ) + ( xi 2 − m j2 ) + ... + ( x ir − m jr )
dengan mj =
1 ∑ xi | C j | x i∈C j
2.5 Decision Tree Decision tree m erupakan salah satu teknik klasifikasi yang paling populer dan paling banyak digunakan dalam data mining dan machine learning . Decision tree terdiri dari node internal yang menggambarkan data yang diuji, cabang menggambarkan nilai keluaran dari data yang diuji, sedangkan leaf node menggambarkan distribusi kelas dari data yang digunakan. Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang tidak dikenal.
Pembentukan decision tree terdiri dari beberapa tahap, yaitu (Han & Kamber 2001): 1.
2.
3.
Konstruksi pohon, yaitu membuatan pohon yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut yang cocok untuk dijadikan leaf node.
1.
Tidak memerlukan biaya yang mahal saat membangun algoritme ini.
2.
Mudah untuk diinterpretasikan.
3.
Mudah mengintegrasikan dengan sistem basis data.
4.
Memiliki nilai ketelitian yang baik.
- prepruning: pemangkasan dilakukan sejak awal pembentukan pohon.
5.
Dapat menemukan hubungan terduga dari suatu data.
- postpruning: pemangkasan dilakukan saat pohon telah terbentuk secara utuh
6.
Dapat menggunakan data pasti/mutlak atau data kontinu.
Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk.
7.
Mengakomodasi data yang hilang.
Pemangkasan pohon (tree pruning), yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam decis ison tree, yaitu:
Algoritme dasar dari adalah (Dyer 2001) : -
-
mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main memory. Algoritme decision tree banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu (Hoffer 2004):
decision
tree
Construct set of candidate partitions S Select best S* in S Describe each cell Ci in S* Test termination condition on each C i true: form a leaf node false: recurse with Ci as new training set
Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi kandidat , S. S* dipilih dari S, S* terbaik akan dijadikan node. Pemilihan S* terbaik juga bergantung terhadap nilai Ci. Untuk nilai S* lainnya yang tidak terpilih sebagai node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa Ci sebagai training set yang baru. Decision tree memiliki beberapa cara dalam menentukan ukuran data dalam membentuk tree, yaitu menggunakan information gain (untuk algoritme ID3/C4.5/C5.0), gini index (untuk algoritme IBMIntelligentMiner) dan algoritme SLIQ (Clifton 2004). Dari semua algoritme pada decision tree, yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang
tak
Selain memiliki keuntungan, decision tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja palsu.
2.6
Algoritme C5.0
C5.0 merupakan penyempurnaan dari algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritme C5.0, pemilihan atribut yang akan diproses menggunakan ukuran information gain. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Ukuran ini digunakan untuk memilih atau membentuk node pada pohon. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah ( Kantardzic, 2003): k Info( S) = − ∑ (( freq(Ci , S ) / | S |) • log2 (( freq(Ci ,S ) / | S |)) i=1 Info x (T ) = n k (( freq( C , T ) / | T |) • i ) ∑ ((| Ti | / | T | •( − ∑ i=1 i =1log2 (( freq (C i , T ) / | T |)))
maka nilai Information Gain (X) dapat dihitung dengan InformatinGain( X ) = Info (S ) − Info x (T )
Dari formula di atas, T adalah training sample yang terbagi menjadi T1, T2 ,..., Tn.. Jika S adalah kumpulan dari sampel yang ada, maka freq(Ci , S) adalah jumlah dari sampel S yang dimiliki oleh kelas Ci dan |S| adalah jumlah dari sampel S. |T| merupakan jumlah dari sampel T.
return (tree)
Algoritme pemangkasan pohon pada C5.0 adalah sebagai berikut (Dyer 2001):
Let bestTree = the tree p roduced by C5.0 on the TRAINING set
Secara umum terdapat mekanisme untuk melakukan perhitungan information gain, yaitu (Kantardzic 2003):
Let bestAccuracy = the accuracy of bestTree on the TUNING set
1.
while (progressMade)
2.
Standar test yang dilakukan pada data atribut dengan tipe diskrit, dengan satu nilai keluaran dan satu cabang untuk setiap nilai atribut yang mungkin. Jika atribut Y adalah atribut dengan tipe numerik, perhitungan akan dilakukan dengan Y <= Z dan Y > Z, dimana Z merupakan nilai perbandingan. Untuk mencari nilai perbandingan dapat digunakan nilai tengah dari tiap interval dari data yang digunakan
( vi + vi+1 ) . 2
Dari
formula tersebut, vi adalah nilai ke -i dari data yang digunakan. 3.
Pengujian yang lebih kompleks juga terjadi pada atribut diskrit, dimana nilai yang mungkin dialokasikan untuk setiap kelompok variabel dengan satu keluaran dan cabang untuk setiap grup.
Seperti algoritme sebelumnya, C5.0 menggunakan algoritme greedy sebagai dasar dari pembentukan algoritmenya. Berikut adalah algoritme dari C5.0 (Dyer 2001) : If empty (examples) then
Let progressMade = true
SET { Set progressMade = false Let currentTree = bestTree For each interiorNode N (including the root) in currentTree { Let prunedTree be a copy of currentTree, except replace N by a leaf node whose label equals the majority class among TRAINING set examples that reached node N (break ties in favor of '') Let newAccuracy = accuracy of prunedTree on the TUNING set If(newAccuracy >= bestAccuracy) { bestAccuracy = newAccuracy
return (default)
bestTree =
If same-classification (example) then
prunedTree progressMade = true
return (class (example)) Best = (attributes,example)
}
choose-attribute }
Tree = new node with attribute best
}
For each value v of attribute best do v-example = subset of example with attribute best = v subtree = decision-tree-learning (v-example, attribute best, majorityclassification (example) add a branch from subtree with arc labeled v
tree
to
return bestTree
C5.0 memiliki beberapa fitur penting yang membuat algoritme ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya dan mengurangi kelemahan yang ada pada algoritme decision tree
sebelumnya. Fitur tersebut adalah (Quinlan, 2004): 1.
C5.0 telah dirancang untuk dapat menganalisis basis data substansial yang berisi puluhan sampai ratusan record dan satuan hingga ratusan field numerik dan nominal.
2.
Untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan pohon keputusan dan sekumpulan aturan IF-T HEN yang lebih mudah untuk dimengerti dibandingkan neural network.
3.
C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi tentang statistik atau machine learning.
METODE PENELITIAN 3.1 Proses Dasar Sistem Proses dasar sistem (Gambar 1) mengacu pada proses dalam Knowledge Discovery in Database (KDD) (Han J dan Kamber, 2001). Pattern Evaluation Data Mining
Data Warehouse Data Cleaning
Task-relevant Data Selection
Data Integration
Database s
Gambar 1 Tahapan dalam KDD 1.
Pembersihan Data (Data Cleaning) Pada tahap ini data yang tidak konsisten, data yang mengandung nilai yang hilang dan data yang mengandung noise (kesalahan pada penulisan) akan dihilangkan. Keluaran dari tahap ini adalah data yang telah bersih dan siap untuk digunakan pada proses selanjutnya.
2.
Pemilihan Data (Data selection) Pada tahap ini dilakukan pemilihan terhadap data yang dibutuhkan untuk analisis.
3.
Reduksi Data (Data Reduction) Dalam tahap reduksi data, dilakukan pengurangan variabel hingga mendapatkan variabel yang efektif dengan melihat keterkaitan antarsatu variabel dengan variabel lainnya. Analisis relevansi atribut dilakukan dengan menggunakan ukuran information gain. Hasil dari perhitungan akan dibandingkan dengan threshold yang telah ditentukan. Apabila nilai gain lebih kecil dari nilai threshold maka variabel tersebut akan dibuang, sehingga hanya variabel yang layak saja yang akan diikutkan dalam proses selanjutnya.
4.
Data Mining Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu : 1.
Pembentukan Pohon
Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan generalisasi terlebih dahulu. 2.
Pemangkasan Pohon
Pemangkasan pohon dapat dilakukan dengan metode prepruning atau postpruning. Namun alternatif lain yang dapat dilakukan adalah mengkombinasikan prepruning dan postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.
3.
Pembentukan Aturan Keputusan.
Aturan yang dihasilkan dari decision tree dapat ditampilkan dalam bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar. 5.
Evaluasi Data Keluaran Pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data. Informasi tersebut dapat digunakan oleh pengguna sesuai kebutuhan dengan menggunakan modul pengguna untuk menampilkan informasi yang sesuai dengan kebutuhan pengguna. Berdasar tahap evaluasi data dan keluaran mungkin dilakukan perubahan-perubahan pada tahap-tahap selanjutnya, atau pengulangan seluruh proses.
3.2 Lingkungan Pengembangan Lingkungan pengembangan dalam penelitian ini meliputi:
sistem
- Perangkat lunak: Windows XP Profesional, Visual Basic 6.0 (SP6), SQL Server 2000 Personal Edition, dan SPSS 13. - Perangkat keras: processor Intel Pentium IV 2.00 GHz, Memori 256 Mb, Harddisk 40 GB, Monitor 15 inchi, mouse dan keyboard.
HASIL DAN PEMBAHASAN 4.1 Pembersihan Data Data komoditas pertanian yang dimiliki oleh Departemen Pertanian, berupa basis data relasional yang disimpan dalam format data MDF. Data disimpan dalam sebuah tabel fakta (fact table) yang berisi kode dari beberapa subsektor pertanian, yaitu 1. tanaman pangan dan hortikultura 2. perkebunan 3. peternakan 4. penduduk dan rumah tangga 5. PDB/PDRB 6. nilai tukar petani 7. struktur ongkos 8. alat mesin pertanian 9. lahan 10.
iklim 11. struktur ongkos padi 12. struktur ongkos padi sawah 13. struktur ongkos padi ladang 14. struktur ongkos jagung 15. struktur ongkos ubi kayu 16. struktur ongkos ubi jalar 17. struktur ongkos kacang tanah 18. struktur ongkos kedelai. Tabel fakta yang berisi kode-kode ini akan dihubungkan dengan data pada tabel dimensi yang berisi deskripsi dari kode tersebut. Tabel-tabel yang digunakan dalam data warehouse dapat dilihat pada Lampiran 1, sedangkan karakteristik data tanaman pangan dan hortikultura dapat dilihat pada Lampiran 2. Pembersihan data dilakukan terhadap data yang memiliki nilai null, data rangkap atau tidak lengkap dalam data tanaman pangan dan hortikultura. Jumlah awal dari data basis data sektor pertanian yang dimiliki DEPTAN sebesar 468.140 record. Kemudian dilakukan pembersihan terhadap basis data sektor pertanian yang dimiliki oleh DEPTAN.
4.2 Pemilihan Data Data yang digunakan dalam analisis adalah subsektor yang memiliki nilai yang mewakili seluruh atribut dan jumlah record yang lebih banyak dibandingkan subsektor yang lain. Subsektor tanaman pangan dan hortikultura yang memenuhi kriteria tersebut. Data subsektor tanaman pangan dan hortikultura yang digunakan adalah data subsektor tanaman pangan dan hortikultura dengan status angka berupa angka tetap dan nilai pada atribut lokasi tidak sama dengan Nasional. Dari pembersihan data tersebut, diperoleh data bersih sebanyak 109.037 record. Dari data yang telah bersih dilakukan pemilihan terhadap atribut yang ada. Pemilihan atribut dilakukan berdasarkan jumlah data dan kebergantungan antara satu atribut dengan atribut yang lain. Dari tahap ini didapatkan beberapa atribut (ramal01, ramal02, ramal03, diperbaiki, perkiraan, sasaran, sgt_sementara) yang tidak digunakan dengan optimal atau dibiarkan kosong sehingga atribut tersebut dapat dihilangkan. Data yang digunakan memiliki status angka berupa angka tetap yang bersumber dari Badan Pusat Statistik (BPS), sehingga atribut sumber yang memiliki nilai satu nilai yaitu BPS dapat dihilangkan. Atribut-atribut yang ada pada data tanaman
pangan dan hortikultura setelah pembersihan data dapat dilihat pada L ampiran 3. Setelah dilakukan pembersihan data dan pemilihan data, kemudian dilakukan modifikasi tabel untuk mempermudah dalam proses selanjutnya, yaitu penerapan algoritme decision tree. Modifikasi dilakukan pada atribut indikator dan nilai. Atribut indikator yang terdiri dari produktivitas, luas panen, dan produksi dipecah menjadi atribut yang berbeda, sedangkan atribut nilai yang merupakan nilai dari indikator dimasukkan ke dalam atribut indikator yang telah dipecah sesuai dengan nilainya masing-masing. Jumlah record test setelah tabel dimodifikasi (tabel bdsp2) sebanyak 30.976. Perubahan atribut yang dilakukan dapat dilihat pada Lampiran 4.
4.3 Pengurangan Data Setelah dilakukan pemilihan atribut, maka dilakukan analisis terhadap atribut yang relevan. Analisis ini dilakukan dengan menggunakan perhitungan ukuran information gain. Kelas dalam perhitungan ini adalah atribut produksi. Jumlah kelas diperoleh dengan cara membagi data menjadi beberapa cluster dengan menggunakan algoritme K-Means. Untuk memperoleh jumlah cluster yang optimal, dilakukan evaluasi terhadap pembagian jumlah cluster dengan menggunakan SSE (Sum Square of Error). Jumlah cluster dan nilai SSE dapat dilihat pada Tabel 1. Tabel 1 Jumlah cluster dan nilai SSE pada atribut produksi Jumlah cluster 2 3 5 6 7 8 9 10 11
Nilai SSE 3.159.660.675.117.890 1.213.498.604.131.730 480.408.753.540.408 402.599.216.947.265 226.652.393.575.530 175.377.297.148.805 1.087.855 .866.516.561 116.496.067.329.026 120.006.404.477.267
Penentuan kelas data dilakukan berdasar jumlah cluster dengan nilai SSE terkecil. Pada atribut produksi, nilai SSE terkecil terdapat pada jumlah cluster 10. Kisaran nilai pada tiap cluster dapat dilihat pada Tabel 2.
Tabel 2 produksi
Nilai yang terdapat pada kelas
cluster 1 2 3 4 5 6 7 8 9 10
Nilai Produksi (ton) 0 – 110.975 6.740.333 – 8.803.878 1.505.706 – 2.369.841 400.581 – 884.273 111.110 – 398.824 336.756 – 4.531.510 886.756 – 1.497.379 4.680.567 – 6.594.514 8.943.392 – 10.863 .393 2.382.775 – 3.348.818
Nilai entropi yang didapatkan dari 10 kelas ini adalah 0.698, sedangkan hasil perhitungan gain yang didapatkan untuk atribut lainnya dapat dilihat pada Tabel 3. Tabel 3 Tabel p erhitungan information gain Atribut
komoditas lokasi produktivitas luas_panen
Nilai information gain 0.265 0.097 0.080 0.123
Treshold yang digunakan dalam tahap ini adalah 0.01, maka berdasarkan perhitungan gain tidak ada atribut yang dihilangkan.
4.4 Data Mining Tahap ini diawali dengan melakukan generalisasi pada tiga atribut, yaitu atribut tahun (Tabel 4), atribut produktivitas (Tabel 5) dan atribut luas_panen (Tabel 6). Pada atribut tahun, data tahun dibagi menjadi delapan kelompok yang masing-masing terdiri dari lima tahun. Di sisi lain, pada atribut produktivitas dan luas_panen, atribut dibagi menjadi 10 kelompok untuk produktivitas dan 11 kelompok untuk luas panen berdasarkan hasil clustering data tersebut dengan menggunakan algoritme KMean. Tabel 4 Generalisasi atribut tahun Nilai Awal 1966-1970 1971-1975 1976-1980
Nilai Generalisasi 1 2 3
1981-1985 1986-1990 1991-1995 1996-2000 2001-2005
4 5 6 7 8
Sebagai contoh, bdspfixT7 menunjukan data set sektor pertanian (bdsp) pada kelompok tahun ke tujuh (1996-2000).
Tabel 5 Generalisasi atribut produktivitas Nilai Awal
Nilai Generalisasi 1 2 3 4 5 6 7 8 9 10
0 – 49 50 - 130 2.165 – 2.623 131 – 261 14.449 – 14.449 470 – 768 4.675 – 4.675 262 – 468 781 – 1.306 1.443 – 1.931
Tabel 6 Generalisasi atribut luas panen Nilai Awal 0 – 27.951 1.043.285 – 1.415.449 177.346 – 275.581 521.575 – 696.441 276.890 – 384.007 1.425.609 – 1.772.046 91.259 – 176.767 706.058 – 1.012.051 27.993 – 90.800 1.792.320 – 2.188.479 384.756 – 519.380
Nilai Generalisasi 1 2 3 4 5 6 7 8 9 10 11
Data yang telah digeneralisasi kemudian dipecah berdasarkan kelompok tahun dasar menjadi 8 data set. Jumlah record pada setiap data set ditunjukkan dalam Tabel 7. Tabel 7 Nama dan ukuran data set Nama data set bdspfixT1 bdspfixT2 bdspfixT3 bdspfixT4 bdspfixT5 bdspfixT6 bdspfixT7 bdspfixT8
Jumlah record 734 3705 3875 4308 4824 5131 5854 2545
Nama data set menunjukkan kelompok tahun yang terdapat pada data set tersebut.
M asing-masing tabel data set tersebut dibagi kembali secara acak menjadi 2 bagian, yaitu training set sebesar 75% dan test set sebesar 25%. Jumlah record masingmasing tabel dapat dilihat pada Tabel 8. Tabel 8 Jumlah record training set dan test set Nama Data Data set Training Test set set set bdspfixT1 734 551 183 bdspfixT2 3.705 2.779 926 bdspfixT3 3.875 2.907 968 bdspfixT4 4.308 3.231 1.077 bdspfixT5 3.824 2.618 1.206 bdspfixT6 5.131 3.849 1.282 bdspfixT7 5.854 4.391 1.463 bdspfixT8 2.545 1.909 636 Dari masing-masing training s et akan dibentuk suatu model pohon yang akan diujikan terhadap test set untuk diukur kevalidan dari model tersebut. Dalam pembentukan model pohon, langkah utama yang dilakukan adalah melakukan perhitungan nilai information gain untuk training set. Perhitungan ini digunakan untuk melihat tingkatan dari masing-masing atribut untuk menentukan akar dari pohon yang akan dibentuk. Setelah akar diperoleh dari atribut dengan nilai information gain tertinggi, perhitungan akan dilanjutkan untuk mencari node selanjutnya menggunakan training set yang sama namun telah dikurangi oleh atribut yang telah menjadi akar. Perhitungan akan dilakukan berulang-ulang hingga seluruh atribut telah menjadi node. Pada Gambar 2 dapat dilihat contoh bagian pohon yang akan terbentuk pada data tanaman pangan dan hortikultura tabel bdspT7, yaitu tabel dengan kelompok tahun 1996-2000.
Tabel 9 Rasio aturan pada training set Training set bdspT1 bdspT2 bdspT3 bdspT4 bdspT5 bdspT6 bdspT7 bdspT8
Ukuran Training set 551 2779 2907 3231 3618 3849 4391 1909
Jumlah aturan yang terbentuk 161 340 305 390 579 756 782 644
Rasio (%) 29.22 12.23 10.49 12.07 16.00 19.64 17.81 33.73
Gambar 2 Pohon yang terbentuk pada tabel bdspT7 Setelah pohon terbentuk, dihasilkan sejumlah aturan dari path dalam pohon tersebut. Contoh aturan yang dapat terbentuk dari pohon pada Gambar 2 adalah sebagai berikut: “JIKA komoditas = Jagung DAN lokasi = Bali DAN luas panen > 6 DAN produktivitas <= 6 MAKA produksi = 1” ”JIKA komoditas = Jagung DAN lokasi = Bengkulu MAKA produksi = 1” ”JIKA komoditas = Melon DAN lokasi = Jawa Tengah DAN luas panen <= 6 AND produktivitas <= 6 MAKA produksi = 1” ”JIKA komoditas = Melon DAN lokasi = Timortimur MAKA produksi = 1” ”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas <= 6 MAKA produksi = 5” ”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas > 6 MAKA produksi = 1” ”JIKA komoditas = Nenas DAN lokasi = Jawa Timur MAKA produksi = 1”
Aturan selengkapnya yang diperoleh dari tabel bdspT7 dapat dilihat pada Lampiran 5. Rasio aturan yang terbentuk terhadap ukuran kedelapan training set dapat dilihat pada Tabel 9 dan grafik dari rasio tiap tabel dapat dilihat pada Gambar 3.
Gambar 3 Grafik rasio pada delapan tabel bdsp Dari kedelapan tabel bdsp yang ada, nilai rasio terbesar pada training set bdspT8 sebesar 33.73%, sedangkan rasio terkecil pada tabel bdspT3 sebesar 10.49%.
4.5 Evaluasi Data Keluaran Tahap evaluasi dilakukan dengan melakukan pengujian terhadap aturan yang telah terbentuk pada tahap data mining. Dengan menggunakan nilai masukkan yang diambil secara random dan terdapat pada tabel training set dan test set, aturan yang terbentuk dari tahap data mining dan data test set akan dibandingkan. Pengujian dilakukan setelah pohon dari training set terbentuk. Pertama tentukan test set yang ingin digunakan, kemudian masukkan nilai yang ingin diujikan. Misalkan nilai Alpukat di Bangka Belitung dengan nilai luas panen (Ha) berada pada kelompok <= 6 dan produktivitas (Ton/Ha) <= 6. Sistem akan mencari nilai pengujian yang telah dimasukkan ke dalam test set dan pohon yang telah terbentuk. Akurasi dihitung berdasarkan jumlah nilai yang sama
antara nilai dalam test set dengan nilai yang dihasilkan oleh pohon dengan menggunakan keseluruhan aturan yang terbentuk, perhitungan akurasi adalah sebagai berikut (Tan et al. 2005): Akurasi =
banyak prediksi yang benar total banyaknya prediksi
atau akurasi =
f11 + f 00 f11 + f10 + f 01 + f 00
Setiap entri fij menyatakan banyaknya record dari kelas i yang diprediksi menjadi kelas j. Dari delapan tabel yang ada, terhadap masing-masing tabel training set diberikan 3 kali pengujian dengan jumlah masukkan yang berbeda yaitu 100, 150 dan 200 data. Pengujian untuk setiap nilai masukkan diulang sebanyak 3 kali. Nilai masukkan data acak dapat dilihat pada Lampiran 6 dan hasil akurasi masing-masing masukkan data acak pada Lampiran 7 sampai 9. Hasil ratarata akurasi dari evaluasi data menggunakan data acak dapat dilihat pada Tabel 10. Tabel 10 Presentasi akurasi (pengambilan data input secara acak) Training set
bdspT1 bdspT2 bdspT3 bdspT4 bdspT5 bdspT6 bdspT7 bdspT8
Jumlah Jumlah % aturan test set Akurasi 1 (100 dat)
161 340 305 390 579 756 782 644
183 926 968 1077 1206 1282 1463 636
10.10 45.03 41.01 51.00 60.11 55.00 67.17 33.33
% Akurasi 2 (150 dat)
11.33 46.83 42.29 53.04 60.00 53.33 66.00 34.08
data % Akurasi 3 (200 dat)
10.67 49.61 45.50 52.33 57.50 55.57 65.50 33.50
Pada Gambar 4 dapat dilihat grafik perbandingan dari ketiga nilai akurasi dengan menggunakan data acak. Untuk grafik masing-masing nilai akurasi dapat dilihat pada Lampiran 10 sampai 12
Gambar 4 Grafik perbandingan nilai akurasi dengan data input secara acak Dari grafik tersebut dapat dilihat bahwa nilai akurasi terbesar terdapat pada tabel bdspT7 dengan 100 data pengujian. Pada percobaan di atas, nilai akurasi tertinggi 67.17% pada tabel bdspT7, sedangkan nilai akurasi terendah 10.10% pada tabel bdspT1. Dari informasi yang diperoleh, pengguna tidak perlu mengingat jumlah aturan yang terbentuk pada tahap data mining. Pengguna dapat menggunakan modul pengguna untuk menampilkan informasi sesuai kebutuhan pengguna. Tampilan modul pengguna dapat dilihat pada Lampiran 13.
KESIMPULAN DAN SARAN 5.1 Kesimpulan Dari percobaan yang dilakukan pada delapan tabel data tanaman pangan dan hortikultura, dapat disimpulkan bahwa dengan menggunakan algoritme C5.0, nilai rasio aturan yang terbentuk terhadap ukuran training set dan akurasi yang terbentuk tidak dipengaruhi oleh jumlah record data Dari data tanaman pangan dan hortikultura dihasilkan suatu model pohon dengan rasio aturan terbesar pada tabel bdspT8 yaitu 33.33 % dan rasio terkecil pada tabel bdspT3 yaitu 10.49%. Berdasarkan pengujian dengan pengambilan data secara acak, nilai akurasi terbesar terdapat pada tabel bdspT7 yaitu sebesar 67.17%, dan akurasi terkecil pada tabel bdspT1, yaitu sebesar 10.10%.
5.2 Saran Untuk pengembangan lebih dapat dilakukan hal-hal berikut :
lanjut,
1.
Pembersihan data secara otomatis oleh sistem.
2.
Memodifikasi dan melakukan pengembangan sistem agar dapat digunakan untuk data dengan karakteristik yang berbeda-beda, karena pada percobaan ini sistem hanya dapat digunakan pada data dengan karakteristik yang sama.
3.
Melakukan perbandingan akurasi dan waktu eksekusi dengan menggunakan algoritme yang lainnya.
4.
Melakukan clustering pada atribut produksi untuk masing-masing komoditas secara terpisah.
Daftar Pustaka Aziz M .A, Abdullah H.S, Bakar A.A, Hamdan A.R, Yusof M.M, Omar K, Murah Z, Nawawi L, Noranisah. 2004. A Preliminari study on data mining task and technique. http://research.microsoft.com/research/data mine [15 Oktober 2004] Clifton C. 2004. Introduction to data mining. http://www.cs.purdue.edu [30 Januari 2006] Dyer C.R. 2001 -2003. Machine learning (Chapter 18.1 - 18.3) . http://www.cs.wisc.edu/~dyer/cs540/notes/le arning.html [01 Agustus 2005] Han J dan Kamber. 2001. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher Hoffer J.A. 2004. Modern Database Management edisi ke-6. Kantardzic M. 2003. Data Mining : Concept, Models, Metods, and Algorithms.USA: Wiley Interscience Liu B. 2005. Unsupervised Learning. http://www.cs.uic.edu/cs583 [08 Maret 2006] Quinlan. 2004. New functionality. http://www. Rulequest.com/comparison.htm Tan S, Kumar P, Steinbach M. 2005. Introduction To Data mining. AddisonWesley Thomas E. 2004. Data Mining: Definition and Decision Tree Examples. http://www.airpro.binghamton.edu/conferen ce/jan2004/thomas_data_mining.pdf [09 Desember 2004] Williams G. 1998. A Data Mining Tutorial. http://www.2.cs.cmu.edu/~aww/tutorials.ht ml [30 Oktober 2004]
LAMPIRAN
Lampiran 1 Daftar tabel yang digunakan dalam data warehouse Nama Tabel
Deskripsi Tabel
BDSPTAHUN (tabel fakta)
Tabel yang berisi kode-kode atau ID dari setiap nilai atribut
tab_prop
Berisi deskripsi dari kode propinsi yang ada pada tabel BDSPTAHUN
v_sek_kom
Berisi deskripsi dari sektor komoditas yang ada pada tabel BDSPTAHUN
tab_sumb
Berisi deskripsi dari sumber data diperoleh yang ada pada tabel BDSPTAHUN
tab_sts_a
Berisi deskripsi dari status angka yang yang ada pada tabel BDSPTAHUN
s_tanam_pangan
Tabel hasil menghubungkan tabel fakta dengan tabel dimensi
Lampiran 2 Karakteristik Data Tanaman Pangan dan Hortikultura Nama Kolom
Tipe Data
Panjang Data
Nilai Null
Deskripsi field
Banyak nilai beda
indikator
nvarchar
50
Ya
Berisi indikator dari subsektor yang ada
23
komoditas
nvarchar
50
Ya
Kolom komoditas terdiri dari komoditas yang dimiliki oleh setiap subsektor
226
lokasi
nvarchar
50
Ya
Berisi lokasi-lokasi untuk masingmasing komoditas
32
Sts_angka
nvarchar
50
Ya
Status angka terdiri dari 2 jenis angka tetap yang berasal dari BPS dan angka sementara yang berasal dari DEPTAN sendiri
9
Sumber
nvarchar
50
Ya
Sumber data diperoleh
2
Thn_dasar
Numerik
9
Ya
Tahun dari data tersebut
70
Ramal1
Decimal
9
Ya
Angka ramalan 1 merupakan angka ramalan DEP TAN terhadap suatu komoditas untuk setiap subsektor
0-99999999
Ramal2
Decimal
9
Ya
Angka ramalan 2 merupakan angka ramalan DEPTAN terhadap suatu komoditas untuk setiap subsektor
0-99999999
Ramal3
Decimal
9
Ya
Angka ramalan 3 merupakan angka ramalan DEPTA N terhadap suatu komoditas untuk setiap subsektor
0-99999999
Sementara
Decimal
9
Ya
Angka sementara
0-99999999
Diperbaiki
Decimal
9
Ya
Angka yang masih ada kesalahan
0-99999999
Tetap
Decimal
9
Ya
Angka yang sudah pasti
0-99999999
Perkiraan
Decimal
9
Ya
Angka perkiraan
0-99999999
Sasaran
Decimal
9
Ya
Angka sasaran yang akan dicapai
0-99999999
Sgt_sementara
Decimal
9
Ya
Angka sangat sementara
0-99999999
Lampiran 3 Atribut pada tabel s_tanam_pangan setelah tahapan pembersihan data Nama Atribut
Nilai Atribut
subsektor
Tanaman pangan dan hortikultura
wilayah
Bali, Bangka Belitung, Banten, Bengkulu, DIY, DKI Jakarta, Gorontalo, Jambi, Jawa Barat, Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Lampung, Maluku, Maluku Utara, NAD, NTB, NTT, Papua, Riau, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sumatera Barat, Sumatera Selatan, Sumatera Utara, Timor, Timur
Indikator
Luas panen, produktivitas, produksi
Tahun
1 (1966-1970), 2 (1971-1975), 3 (1976-1980), 4 (1981-1985), 5 (19861990), 6 (1991-1995), 7 (1996-2000), 8 (2001-2005)
Komoditas
Alpukat, bawang daun, bawang merah, Bawang Putih, Bayam, Belimbing, buncis, cabe, duku/langsat, durian, Jagung, jambu, Jeruk, Kacang Hijau, kacang merah, Kacang Panjang, Kacang Tanah, Kangkung, Kedele, kentang, Ketimun, kol/kubis, Labu Siam, Lobak, Mangga, Manggis , Melon , nangka/cempedak, nanas, Padi, Padi Ladang,Padi Sawah, Pepaya, petsai/sawi, Pisang, Rambutan, Salak, Sawo, Sirsak, Terung, Tomat, Ubi Jalar, ubi kayu/ketela pohon, Wortel, Semangka, Sukun
Nilai untuk masing-masing indikator
Nilai numerik
Lampiran 4 Atribut-atribut dalam tabel bdsp2 yang telah dimodifikasi Nama Atribut
Nilai Atribut
subsektor
Tanaman pangan dan hortikultura
wilayah
Bali, Bangka Belitung, Banten, Bengkulu, DIY, DKI Jakarta, Gorontalo, Jambi, Jawa Barat , Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Lampung, Maluku, Maluku Utara, NAD, NTB, NTT, Papua, Riau, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sumatera Barat, Sumatera Selatan, Sumatera Utara, Timor, Timur
Tahun
1 (1966-1970), 2 (1971 -1975), 3 (1976-1980), 4 (1981-1985), 5 (19861990), 6 (1991-1995), 7 (1996-2000), 8 (2001-2005)
Komoditas
Alpukat, bawang daun, bawang merah, Bawang Putih, Bayam, Belimbing, buncis, cabe, duku/langsat, durian, Jagung, jambu, Jeruk, Kacang Hijau, kacang merah, Kacang Panjang, Kacang Tanah, Kangkung, Kedele, kentang, Ketimun, kol/kubis, Labu Siam, Lobak , Mangga, Manggis, Melon, nangka/cempedak, nanas, Padi, Padi Ladang,Padi Sawah, Pepaya, petsai/sawi, Pisang, Rambutan, Salak, Sawo, Sirsak, Terung, Tomat, Ubi Jalar, ubi kayu/ketela pohon, Wortel, Semangka, Sukun
produktivitas
Berisi nilai dari indikator produktivitas.
luas panen
Berisi nilai dari indikator luas panen.
produksi
Berisi nilai dari indikator produksi dan berfungsi juga sebagai kelas dalam tree yang dibentuk.
Lampiran 5 Aturan yang terbentuk pada tabel bdspT7
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 5 Lanjutan
Lampiran 6 Nilai input untuk pengujian
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Komoditas Alpukat Alpukat Bawang Daun Bawang Daun Bawang Daun Bawang Daun Bawang Daun Bawang Merah Bawang Merah Bawang Merah Bawang Merah Bawang Merah Bawang Putih Bawang Putih Bawang Putih Jagung Padi Sawah Padi Sawah Bayam Bayam Bayam Bayam Belimbing Belimbing Belimbing Belimbing Belimbing Buncis Buncis Buncis Buncis Buncis Cabe Cabe Cabe Cabe Cabe Duku/Langsat Duku/Langsat Duku/Langsat Durian Durian Durian Durian Durian Padi Padi Padi Sirsak
lokasi Bangka Belitung Jawa Barat DIY Maluku Maluku Utara Papua Sulawesi Selatan Sulawesi Selatan Papua Bali Lampung Sumatera Selatan Bengkulu Papua Jambi DKI NTT Sumatera Selatan Kalimantan Timur Sulawesi Selatan Jawa Barat Sulawesi Tengah Maluku Sumatera Utara NAD Lampung Riau Riau Sumatera Utara Maluku Utara Maluku Sumatera Selatan DIY DKI Kalimantan Barat Kalimantan Selatan Sumatera Barat Sumatera Utara Jambi Papua Bali Sumatera Utara Sumatera Barat Riau Kalimantan Barat NTB Jawa Barat Kalimantan Timur Jawa Barat
Produk tivitas <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
luas panen <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 >6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
produksi dari aturan 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 5 7 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 7 9 1
produksi dari test set 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 7 1
Lampiran 6 Lanjutan
No 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
Komoditas Sukun Mangga Jeruk Bawang Putih Bawang Putih Bawang Putih Bayam Belimbing Belimbing Buncis Buncis Buncis Duku/Langsat Duku/Langsat Mangga Mangga Mangga Mangga Kacang Panjang Kacang Panjang Kacang Panjang Kacang Panjang Sukun Sukun Sukun Sukun Jagung Jagung Jagung Jagung Melon Melon Melon Melon Terung Terung Terung Terung Terung Jeruk Jeruk Jeruk Jeruk Jeruk Buncis Kacang Hijau Kacang Hijau Kacang Hijau
lokasi Sumatera Selatan Jawa Tengah NAD Riau NTT NTB Maluku Sumatera Barat Sulawesi Utara Jawa Timur Jambi Kalimantan Timur Kalimantan Timur Maluku Jawa Barat Jawa Tengah Jawa Timur Papua Jawa Barat Jawa Tengah Kalimantan Timur Kalimantan Barat DIY Jambi DKI Jawa Barat Bali Lampung DKI Maluku Lampung Maluku Papua Riau Kalimantan Barat Kalimantan Tengah Kalimantan Timur Sulawesi Selatan Sulawesi Tengah Bengkulu Lampung Papua Jambi Bali Jawa Timur Riau Maluku Bali
Produk tivitas <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
luas panen <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
produksi dari aturan 1 5 1 1 1 1 1 1 1 1 1 1 1 1 5 5 1 5 1 1 1 1 1 1 1 7 1 7 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
produksi dari test set 5 1 1 1 1 1 1 1 1 5 5 1 5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Lampiran 6 Lanjutan
No 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145
Komoditas Kacang Hijau Kacang Hijau Kacang Hijau Jeruk Jeruk Kacang Hijau Kacang Hijau Kacang Tanah Kacang Tanah Kedele Kangkung kentang Ketimun Ketimun Labu Siam Labu Siam Kol / Kubis Kol / Kubis Kol / Kubis Mangga Mangga Mangga Lobak Lobak Melon Nangka / Cempedak Nenas Nenas Padi Ladang Padi Ladang Pepaya Pepaya Pisang Pisang Rambutan Rambutan Salak Salak Semangka Sirsak Sukun Sawo Tomat Tomat Terung Wortel Ubi Jalar Ubikayu/Ketela Pohon
lokasi Sulawesi Selatan Papua Jambi Jawa Timur Maluku Maluku Papua DIY Kalimantan Timur Sulawesi Selatan Maluku Jawa Barat NAD Sumatera Selatan Lampung Jawa Barat Jawa Tengah DIY Jawa Barat Lampung Jawa Tengah Sumatera Selatan Bangka Belitung NAD Kalimantan Timur Sulawesi Utara Riau Papua Papua Sumatera Selatan NTB Maluku Maluku Utara Jawa Timur Bengkulu Sumatera Selatan DIY Bali Bali Jawa Timur Sumatera Utara Maluku Maluku NAD NTT Bengkulu Riau
Produk tivitas <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
luas panen <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
produksi dari aturan 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 1 4 1 5 1 1 1 1 1 1 1 1 5 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1
produksi dari test set 1 1 1 1 1 1 1 1 1 1 1 5 1 5 1 5 1 1 1 1 1 5 1 4 1 1 1 1 1 1 1 1 1
NTT
<= 6
<= 6
-
-
Lampiran 6 Lanjutan
No 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192
Komoditas Ubikayu/Ketela Pohon Ubikayu/Ketela Pohon Semangka Padi Sawah Padi Sawah Manggis Manggis Manggis Manggis Bawang Merah Bawang Merah Sawo Sawo Sawo Pepaya Pepaya Pepaya Pepaya Sirsak Sirsak Sirsak Sirsak Sirsak Ubi Jalar Ubi Jalar Ubi Jalar Ubi Jalar Ubi Jalar Lobak Lobak Lobak Lobak Lobak Tomat Tomat Tomat Tomat Tomat Tomat Kedele Kedele Kedele Kedele Kedele Wortel Wortel Wortel
lokasi
Produk tivitas
luas panen
produksi dari aturan
produksi dari test set
Papua
<= 6
<= 6
1
1
Jawa Tengah Kalimantan Tengah Sumatera Utara Timur Timor Bali Bengkulu Jawa Tengah Jawa Barat Bali Lampung Kalimantan Timur Kalimantan Tengah Kalimantan Selatan Bengkulu Jambi Sulawesi Tengah Papua NTT NTB Riau Sumatera Selatan Sumatera Barat Papua Jambi Bengkulu NTT Sulawesi Tengah Sumatera Barat NAD Sumatera Utara Jambi NTT Bali DKI DIY Jambi Bengkulu Maluku NAD Maluku Papua Bali Jawa Barat NTT NTB Sumatera Selatan
<= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <=
<= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <= <=
10 1 10 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
10 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 1 1 1 1 1 1 1 1 1 1 1 1 1 1
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
Lampiran 6 Lanjutan
No 193 194 195 196 197 198 199 200
Komoditas Rambutan Rambutan Rambutan Rambutan Rambutan Rambutan Rambutan Sawo
lokasi Bali Bengkulu Riau NAD DKI Kalimantan Selatan Kalimantan Barat Kalimantan Barat
Produk tivitas <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
luas panen <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6
produksi dari aturan 1 1 1 1 1 1 1 1
produksi dari test set 1 1 1 1 1 1 1
Lampiran 7 Hasil Pengujian dengan 100 data masukan berupa data acak
Hasil Pengujian ke-2 (%) 10.30
Hasil Pengujian ke-3 (%) 10.00
Nilai Rata-rata
bdspT1
Hasil Pengujian ke-1 (%) 10.00
bdspT2
45.00
45.00
45.10
45.03
bdspT3 bdspT4 bdspT5
41.00 51.00 60.00
41.02 51.00 60.33
41.00 51.00 60.00
41.01 51.00 60.11
bdspT6 bdspT7
55.00 67.00
55.00 67.50
55.00 67.00
55.00 67.17
bdspT8
33.50
33.00
33.50
33.33
Nama Tabel
10.10
Lampiran 8 Hasil Pengujian dengan 150 data masukan berupa data acak Hasil Pengujian ke-2 (%) 11.33
Hasil Pengujian ke-3 (%) 11.33
Nilai Rata-rata
bdspT1
Hasil Pengujian ke-1 (%) 11.33
bdspT2
46.98
47.00
46.50
46.83
bdspT3 bdspT4 bdspT5
42.28 53.02 60.00
42.33 53.00 60.00
42.25 53.10 60.00
42.29 53.04 60.00
bdspT6 bdspT7
53.33 66.00
53.50 66.00
53.15 66.00
53.33 66.00
bdspT8
34.00
34.05
34.20
34.08
Nama Tabel
11.33
Lampiran 9 Hasil Pengujian dengan 200 data masukan berupa data acak Hasil Pengujian ke-2 (%) 10.50
Hasil Pengujian ke-3 (%) 11.00
Nilai Rata-rata
bdspT1
Hasil Pengujian ke-1 (%) 10.50
bdspT2
49.50
49.83
49.50
49.61
bdspT3 bdspT4 bdspT5
45.50 52.50 57.50
45.50 52.00 57.50
45.50 52.50 57.50
45.50 52.33 57.50
bdspT6 bdspT7
55.50 65.50
55.50 65.50
55.70 65.50
55.57 65.50
bdspT8
32.50
35.50
32.50
33.50
Nama Tabel
10.67
Lampiran 10 Grafik akurasi dengan 100 data pengujian dengan data acak
Lampiran 11 Grafik akurasi dengan 150 data pengujian dengan data acak
Lampiran 12 Grafik akurasi dengan 200 data pengujian dengan data acak
Lampiran 13 Tampilan modul pengguna