UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MENENTUKAN KELAYAKAN PENERIMA BANTUAN REHABILITAS SOSIAL RUMAH TIDAK LAYAK HUNI ( STUDI KASUS DI PEMERINTAHAN KABUPATEN SOLOK SELATAN ) Khairul Zaman Universitas Putra Indonesia “YPTK” Padang e-mail:
[email protected]
Abstrak Abstrak - Penelitian ini dilakukan untuk mempelajari data mining metode klasifikasi dengan algoritma c.45 yang diimplementasikan dalam Sistem Pengambil Keputusan untuk menetukan kelayakan penerima bantuan RSRTLH pada Dinas Sosial Ketenagakerjaan dan Transmigrasi Kabupaten Solok Selatan. data dikumpulkan melalui observasi dan interview yang dilakukan kepada instansi yang bersangkutan. Selanjutnya data dianalisa untuk menentukan data yang dibutuhkan dalam proses penentuan keputusan. Dari hasil penelitian yang dilakukan dengan menggunakan teknik klasifikasi dengan Algoritma C.45 serta menggunakan Software Weka dan RapidMiner dapat memberikan hasil pohon keputusan yang akurat dalam mengambil keputusan. Kata kunci : data mining, metode klasifikasi, algoritma c.45, rsrtlh, solok selatan, Software Weka dan Rapid Miner
1. Pendahuluan Kemiskinan menjdi salah satu masalah sosial yang menjadi ukuran terpenting untuk mengetahui tingkat kesejahteraan suatu rumahtangga. Sebagai suatu ukuran agregat, tingkat kemiskinan di suatu wilayah lazim digunakan untuk mengukur tingkat kesejahteraan di wilayah tersebut. Dengan demikian, kemiskinan menjadi salah satu tema utama pembangunan. Menurut kajian yang penulis peroleh dari tim pelaksana di lapangan bahwa terdapat fenomena ketidak tepat sasaran penerima bantuan Rehabiltas Sosial Rumah tidak layak huni di lapangan, hal ini terjadi karena kesalahan dalam pegelolahan data calon penerima bantuan yang cukup besar secara manual oleh panita pelaksana sehingga terjadi kesalahan dalam pengambilan keputusan. Penggalian informasi dari kumpulan data yang berskala besar dapat dilakukan dengan menggunakan teknologi Data Mining. Pendapat ini diungkapkan oleh Kharya (2012), Data Mining adalahprosespenggalianataupertambanganpengetahuandaridata yang besar daribasis dataatauRepositoriDatabaselainnya. Pada penelitian ini penulis menggunakan C4.5 untuk mengetahui decision tree penerima bantuan bedah rumah yang layak maupun tidak layak menerima bantuan tersebut pada lingkungan pemerintahan Solok Selatan. Sehingga, decision tree yang didapatkan akan digunakan untuk memperbaiki kebijakan penerima bantuan bedah rumah layak huni pada masa yang akan mendatang. Algoritma C4.5 ini sudah digunakan di beberapa penelitian sebelumnya, namun penulis belum menemukan algoritma ini digunakan untuk menentukan rule pada kelayakan penerima bantuan rehabilitas sosial rumah tidak layak huni. Namun penelitian sebelumnya mengangkat topik menggunakan teknik data mining untuk diagnosis dan prognosis kanker penyakit (Kharya,2012), memprediksi kemampuan mahasiswa menggunakan algoritma klasifikasi ID3 dan C4.5 (Adhatrao, et al, 2013 ), penerapan algoritma C4.5 untuk penentuan kelayakan pemberian kredit koperasi ( Firmansyah, 2011), algoritma klasifikasi C4.5 berbasis particle swarm optimization untuk evaluasi penentuan kelayakan pemberian kredit koperasi syariah (Siti, 2011). Berdasarkan permasalahan di atas, penulis mencoba menemukan aturan decesion tree menggunakan algoritma C4.5 terhadap data calon penerima bantuan Sosial Rehabilitas Rumah Tidak Layak Huni di lingkungan pemerintahan Solok Selatandalam sebuah penelitian dengan judul 12
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
“Penerapan Data Mining Menggunakan Algoritma C4.5 Untuk Menentukan Kelayakan Penerima Bantuan Rehabilitas Sosial Rumah Tidak Layak Huni ( Studi Kasus di Pemerintahan Kabupaten Solok Selatan”.Pengetahuan yang dihasilkan diharapkan dapat membantu pihak yang berwenang dalam membuat kebijakan, sehingga kedepannya penerima bedah rumah ini tepat dengan sasarannya.
2. Landasan Teori 2.1 Knowledge Discovery in Database (KDD)
KDD (Knowledge Discovery in Database )merupakan proses terorganisir untuk mengidentifikasi pola dalam data yang besar dan kompleks di mana pola data tersebut ditemukan yang bersifat sah, baru, dan dapat bermanfaat serta dapat dimengerti (Maimon dan Rokach, 2010). Menurut pendapat Ramamahon, dkk (2013)Data Mining, jugadikenal sebagaiKnowledge Discovery in Database yang mengacupenggalianatau penambangan pengetahuandaridata dalam jumlah besar.adi dari kedua pendapat di atas dapat disimpulkan bahwa KDD adalah proses pencarian informasi atau pengetahuan dari kumpulan data yang besar (database). 2.2 Data Mining 2.2.1 Pengertian Data Mining
MenurutFeelders, Daniels, dan Holsheimer dalam Gunadi (2008)DataMiningadalah proses ekstraksi informasi dari kumpulan data melalui penggunaan algoritma dan teknik yang melibatkan bidang teknik statistik, matematika, mesin pembelajaran, dan sistem manajemen database. Data Mining dapat digunakan untuk mengekstrak informasi dan pengetahuan penting yang tersembunyi dari dataset yang besar. Dengan adanya Data Mining, maka akan dimungkinkan untuk mendapatkan harta berharga berupa pengetahuan didalam kumpulan data. 2.2.2 Tahapan Data Mining Karena Data Mining merupakan rangkaian proses, maka Data Mining dapat dibagi menjadi beberapatahap.Tahap-tahaptersebut bersifat interaktif dimana pemakai terlibat langsung atau dengan perantaraan knowledgebase. Tahap-tahap ini diilustrasikan pada Gambar 1.
Gambar 1 : Tahap-Tahap Data Mining
Tahap-tahap tersebut yaitu : 1. Pembersihan data (untuk membuang data yang tidakkonsisten dannoise) 2. Integrasi data (penggabungan data daribeberapasumber) 3. Transformasi data (data diubah menjadibentukyang sesuai untuk di-mining) 4. Aplikasi teknik Data Mining 5. Evaluasi pola yang ditemukan (untukmenemukanyang menarik/bernilai)
13
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
6. Presentasi pengetahuan (denganteknik visualisasi) 2.2.3
Pengelompokan Data Mining
Pengelompokan Data Miningdibagi menjadi beberapa kelompok, menurut Kusrini dan Luthfi (2009) dalam Jumanto (2014), yaitu: 1. Deskripsi Deskripsi merupakan cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data yang dimiliki. 2. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variable target estimasi lebih ke arah numerik daripada ke arah kategori. Model yang dibangun menggunakan record lengkap yang menyediakan nilai variable target sebagai nilai prediksi. 3. Prediksi Prediksi menerka sebuah nilai yang belum diketahui dan juga memperkirakan nilai untuk masa mendatang. 4. Klasifikasi Dalam klasifikasi terdapat target variable kategori, misal penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu tinggi, sedang, dan rendah. 5. Pengklasteran Merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. 6. Asosiasi Asosiasi bertugas menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. 2.3
Klasifikasi
Gambar 2 berikut merupakan pengelompokan dari teknik Klasifikasi :
Gambar 2: Pengelompokan Teknik Klasifikasi
2.4 Pohon Keputusan ( Decision Tree) Metode ini merupakan salah satu metode yang ada pada teknik klasifikasi dalam Data Mining. Metodepohon keputusan mengubah fakta yang sangat besarmenjadi pohon keputusan yang mempresentasikanaturan. Aturan dapat dengan mudahdi pahami dengan bahasa alami. Dan mereka juga dapatdiekpresikan dalam bentuk bahasa basis data sepertiStrutuctured Query Language untuk mencari recordpada kategori tertentu (Utari, 2015). Pohon keputusan menggunakan representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut dan daun merepresentasikan kelas. Node yang paling atas dari pohon keputusan disebut sebagai root. Pohon keputusan merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami (Sijabat, 2015). Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang disebut sebagai kriteria dalam pembentukan pohon. Manfaat utama dari
14
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
penggunaan pohon keputusan adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan (Hanik, 2011). Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan suhu. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut atribut hasil. Pada pohon keputusan terdapat 3 jenis node, yaitu: a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua. c. Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output (Andriani, 2013). Contoh dari pohon keputusan dapat dilihat di Gambar 3 yang merupakan identifikasi pembeli komputer, dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar (Fatayat, 2013).
Gambar 3 : Pohon Keputusan Identifikasi Pembeli Komputer Dengan pohon keputusan, dapat dengan mudah mengidentifikasi dan melihat hubungan antara faktor-faktor yang mempengaruhi suatu masalah dan dapat mencari penyelesaian terbaik dengan memperhitungkan faktor-faktor tersebut. Pohon keputusan ini juga dapat menganalisa nilai resiko dan nilai suatu informasi yang terdapat dalam suatu alternatif pemecahan masalah. Peranan pohon keputusan sebagai alat bantu dalam mengambil keputusan (decision supporttool) telah dikembangkan oleh manusia sejak perkembangan teori pohon yang dilandaskan pada teori graf. Kegunaan pohon keputusan yang sangat banyak ini membuatnya telah dimanfaatkan oleh manusia dalam berbagai macam sistem pengambilan keputusan. Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, C4.5, CART. 2.5 Algoritma C 4.5 2.5.1 Pembentukan Pohon Keputusan Algoritma C. 45 Berikut ini langkah-langkah konstruksi pohon keputusan menggunakanAlgoritma C4.5 berdasarkan Ruggieri (2002) dalam Swarasmaradhana (2014): 1. Misalkan T adalah himpunan kasus-kasus yang akan dibuat simpul di manakasus-kasus tersebut memiliki kelas dan atribut-atribut. Frekuensi terbobotifreq(Cj,T) diperoleh dari perhitungan T dan kelas yang dihasilkan adalah C,untuk setiap j є {1,2,3,...,n} 2. Jika semua kasus berada dalam kelas Cyang sama maka simpul yangdihasilkan adalah simpul daun yang diberi label dengan kelas Cjsebagai kelasterbanyak. Kesalahan klasifikasi pada simpul daun merupakan kasus-kasusdalam T yang berbeda kelas dengan kelas Cj. 3. Jika T berisi kasus yang memiliki dua atau lebih kelas maka dapat dihitungjinformation gain dari setiap atribut tersebut. Untuk atribut diskret,information gain disesuaikan dengan pembagi dalam T dengan nilai atributyang sudah diketahui sebelumnya. Untuk atribut kontinu, information gaindisesuaikan dengan pembagi T ke dalam dua irisan (biner) yang
15
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
4. 5. 6.
7.
8.
ISSN :2356-0010
dilabelikasus dengan nilai atribut kurang dari atau sama dengan nilai ambang batas(Av) dan nilai atribut dengan nilai atribut lebih besar dari nilai ambangbatas (A>v). Atribut dengan nilai information gain tertinggi terpilih sebagai pemilahdalam simpul tersebut. Simpul keputusan memiliki cabang sebanyak s yaitu T1,…., Tsdi mana s = 2untuk atribut kontinu dan s = h untuk atribut diskret dengan nilai h yangsudah diketahui. Untuk setiap i = {1,2,...,s}, jika Titidak memiliki cabang lagi maka simpultersebut secara langsung menjadi simpul daun yang diberi label kelasterbanyak di bawah simpul induknya dan kesalahan klasifikasi bernilai 0. Apabila Timemiliki cabang lagi maka pemilahan diproses kembalimenggunakan kasus-kasus dalam Ti. Catatan khusus untuk kasus-kasusdengan nilai yang hilang pada atribut terpilih tersebut dilakukan prosespemilihan pemilah pada setiap simpul anaknya dengan pembobotan banyakkasus yang diketahui dibagi dengan banyak kasus pada simpul tersebut. Terakhir, kesalahan klasifikasi simpul dihitung dari penjumlahan darikesalahan-kesalahan simpul anak yang dibandingkan dengan simpulinduknya.
3. Metodologi Penelitian Metodologi penelitian ini dilakukan secara sistematik yang dapat digunakan sebagai pedoman untuk peneliti dalam melaksanakan penelitian agar hasil yang dicapai tidak menyimpang dan tujuan yang diinginkan dapat terlaksana dengan baik dan sesuai dengan tujuan yang telah ditetapkan sebelumnya.
Gambar 4 : Kerangka Kerja Penelitian
16
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
4. Pengujian dan Implementasi 4.1 Pemilihan Variabel Tabel 1 : Format Data Calon Penerima Bantuan RSRTLH No
Nama
Status
Pekerjaan
Pendapatan /bulan
Jumlah tanggungan
Lantai Rumah
Bentuk Fisik Rumah
1
AMBOY BUSTANUDIN
Menikah
Tani
1400000
3
Semen
2
M. JAMIL
Menikah
Tani
800000
4
Tanah
3
NEFRA WILITA
Janda
Tani
600000
5
Tanah
4
ASRIZAL
Janda
Swasta
500000
6
Semen
5
NURHASNI
Janda
Buruh Tani
600000
4
Tanah
6
NOVIANTO
Menikah
Swasta
1300000
4
Tanah
Semi Permanen Tidak Permanen Tidak Permanen Semi Permanen Tidak Permanen Semi Permanen
……..
……….
…………
………
n…
………..
……..
…….
Sarana Air Bersih Dan MCk
Ada Tidak ada Tidak ada Ada Tidak ada Tidak ada …………………
Adapun format data dari keputusan calon penerima bantuan rumah tidak layak huni adalah sebagai berikut : a. Status b. Pekerjaan c. Pendapatan per Bulan d. Jumlah Tanggungan e. Lantai Rumah f. Bentuk Fisik Rumah g. Sarana Air Bersih dan MCK Variabel yang akan menjadi keputusan adalah LAYAK MENERIMA dan TIDAK LAYAK. 4.2 Melakukan Pra-proses Jumlah data yang digunakan adalah 30 dengan atribut 7, sehingga data tersebut akan dikelompokkan berdasarkan atribut sebagai berikut. 1. Mengelompokkan status calon penerima bantuan rumah tidak layak huni, pengelompokan status tersebut dapat dikelompokkan seperti table 2. Tabel 2 : Klasifikasi Status
Status Menikah Janda Duda
Klasifikasi MN JD DD
2. Mengelompokkan Pekerjaan calon penerima bantuan rumah tidak layak huni, pengelompokan Pekerjaan tersebut dapat dikelompokkan seperti terlihat pada tabel 3. Tabel 3 : Klasifikasi Pekerjaan
Pekerjaan Swasta Tani Buruh Tani Buruh Bangunan
Klasifikasi SW SD BT BB
17
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
3. Mengelompokkan pendapatan perbulan calon penerima bantuan rumah tidak layak huni, pengelompokan pendapatan perbulan tersebut dapat dikelompokkan dengan rumus seperti di bawah ini : K = 1 + 3.3 log n Dimana : n = jumlah data K = 1 + 3.3 log(30) K = 1 + 3.3 * 1.4771 K = 1 + 4.8744 K = 5.8744 5 Karena Nilai penghasilan per Bulang paling tinggi adalah Rp. 2000.000 pada sampel data pada table 4 sehingga kita menghitung nilai range-nya: 2000.000/ 5 = Rp. 400.0000 sehingga pengelompokan kelas menjadi seperti tabel 4. Tabel 4 : Klasifikasi Pendapatan per Bulan
Pendapatan / Bulan Klasifikasi 1.600.001 -2000.000 ST 1.200.001 -1.600.000 TG 800.001 – 1.200.000 SD 400.001 -800.000 RD SR 0- 400.000 4. Mengelompokkan lantai rumah calon penerima bantuan rumah tidak layak huni seperti terlihat pada tabel 5. Tabel 5 : Klasifikasi Lantai Rumah
Lantai Rumah Semen Tanah
Klasifikasi SMN TNH
5. Mengelompokkan bentuk fisik rumah calon penerima bantuan rumah tidak layak huni seperti terlihat pada tabel 6 : Tabel 6 : Klasifikasi Bentuk Fisik Rumah
Bentuk Fisik Rumah Semi Permanen Tidak Permanen
Klasifikasi SP TP
6. Mengelompokkan sarana air bersih pada rumah calon penerima bantuan rumah tidak layak huni seperti terlihat pada tabel 7 : Tabel 7 : Klasifikasi Sarana Air Bersih dan MCK
Sarana Air Bersih Ada Tidak Ada
Klasifikasi A T
Format data akhir setelah dilakukan pra-proses tampak seperti tabel 8 berikut ini :
18
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
Tabel 8 : Format Data Akhir No
Nama
Status
Peker jaan
Pendapata n /bulan
Jml tanggung an
Lantai Rumah
Bentuk Fisik Rumah
Sarana Air Bersih Dan MCk
Keputusan
1
AMBOY BUSTANUDIN
MN
TN
TG
3
SMN
SP
A
Tidak Layak
2
M. JAMIL
MN
TN
SD
4
TNH
TP
T
Layak
3
NEFRA WILITA
JD
TN
RD
5
TNH
TP
T
Layak
4
ASRIZAL
JD
SW
RD
6
SMN
SP
A
Tidak Layak
5
NURHASNI
JD
BT
RD
4
TNH
TP
A
Layak
6
NOVIANTO
MN
SW
TG
4
TNH
SP
T
Layak
n..
……..
……
…….
…..
……
…..
….
….
…
Format data akhir pada tabel 7 didapat berdasarkan dari attribute yang sudah dikelompokkan atau diklasifikasi, misalkan data pada tabel 1 Status adalah “Menikah” setelah diklasifikasi menjadi “MN”, Pekerjaan adalah “Swasta” setelah diklasifikasikan menjadi “SW”, Pendapatan per Bulan adalah “2000.000” setelah diklasifikasi menjadi “ST”, Bentuk Fisik Rumah adalah “Semi Permanen” menjadi “SP”, Sarana Air Bersih dan MCK adalah “Ada” berubah menjadi “A” . 4.3 Pohon Keputusan Dari table 6 format data akhir calon penerima bantuan rumah tidak layak huni, maka akan dilakukan klasifikasi data algoritma C4.5 dengan membuat pohon keputusan. Kasus yang tertera dalam tabel 6 akan dibuat pohon keputusan untuk memprediksi calon penerima bantuan apakah akan layak atau tidak layak berdasarkan dengan melihat status, pekerjaan, pendapan per bulan, jumlah tanggungan, lantai rumah, bentuk fisik rumah dan sarana air bersih dan MCK. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Dalam pembuatan pohon keputusan pada Algoritma c.45, yang harus dilakukan adalah menghitung jumlah kasus yang dijadikan data sample, jumlah kasus untuk keputusan “Layak”, jumlah kasus untuk keputusan “Tidak Layak” dan kasus yang dibagi berdasarkan atribut Status, Pekerjaan, Pendapatan per Bulan, Jumlah Tanggungan, Lantai Rumah, Bentuk Fisik Rumah dan Sarana Air Bersih dan MCK Setelah itu, lakukan perhitungan gain untuk setiap atribut. Menghitung Nilai Gain tiap-tiap atribut : a. Gain (Total, Status) 𝑛 |𝑆𝑡𝑎𝑡𝑢𝑠 | 𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑡𝑎𝑡𝑢𝑠𝑖 1=1
21 7 2 = 0.91830 − (( ∗ 0.98523) + ( ∗ 0.59167) + ( ∗ 0)) = 0.09058 30 30 30 b. Gain (Total, Pekerjaan) 𝑛
= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑
|𝑃𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛𝑖 | ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑃𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛𝑖 ) |𝑇𝑜𝑡𝑎𝑙|
1=1
9 9 12 = 0.91830 − (( ∗ 0.50326) + ( ∗ 0.76420) + ( ∗ 0)) = 0.53806 30 30 30 c. Gain(Total, Jumlah Tanggungan) 𝑛 |𝑃𝑝𝑒𝑟𝐵 | 𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑃𝑝𝑒𝑟𝐵𝑖 1=1
19
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
= 0.91830 4 6 3 3 − (( ∗ 0) + ( ∗ 0.91830) + ( ∗ 0.91830) + ( ∗ 0.33729) 30 30 30 30 1 + ( ∗ 0)) = 𝟎. 𝟒𝟖𝟓𝟏𝟒𝟏 30
d. Gain(Total, Jumlah Tanggungan) 𝑛 |𝐽𝑚𝑙𝑇𝑎𝑛𝑔𝑔𝑢𝑛𝑔𝑎𝑛 | 𝑖 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐽𝑚𝑙𝑇𝑎𝑛𝑔𝑔𝑢𝑛𝑔𝑛𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| 1=1
= 0.91830 2 6 13 8 1 − (( ∗ 0) + ( ∗ 0.65002) + ( ∗ 0.77935) + ( ∗ 0) + ( ∗ 0)) 30 30 30 30 30 = 𝟎. 𝟒𝟓𝟎𝟓𝟕𝟑
e. Gain ( Total, Lantai Rumah ) 𝑛 |𝐿𝑎𝑛𝑡𝑎𝑖𝑅𝑢𝑚𝑎ℎ | 𝑖 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐿𝑎𝑛𝑡𝑎𝑖𝑅𝑢𝑚𝑎ℎ𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| 1=1
12 18 = 0.91830 − (( ∗ 0.65002) + ( ∗ 0)) = 0.658287 30 30 f.
Gain ( Total, Bentuk Fisik Rumah ) 𝑛 |𝐵𝐹𝑅 | 𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐵𝐹𝑅𝑖 1=1
14 16 = 0.91830 − (( ∗ 0.86312) + ( ∗ 0)) = 0.515506 30 30 g. Gain ( Total, Air Bersih dan MCK 𝑛 |𝐴𝑖𝑟𝐵𝑒𝑟𝑠𝑖ℎ𝑑𝑎𝑛𝑀𝐶𝐾 | 𝑖 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐴𝑖𝑟𝐵𝑒𝑟𝑠𝑖ℎ𝑑𝑎𝑛𝑀𝐶𝐾𝑖 ) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑇𝑜𝑡𝑎𝑙| 1=1
13 17 = 0.91830 − (( ∗ 0.77935) + ( ∗ 0)) = 0.5805776 30 30 Setelah nilai entropy dan gain dihitung, kemudian hasil dari perhitungan tersebut dimasukkan ke dalam tabel 9 berikut ini :
20
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
Tabel 9 : Perhitungan Node 1
Jumlah Ya(S1) Tidak(S2) Entropy Kasus(S) 30 20 10 0.91830
Node 1
Total *Status
Gain
MN JD DD
21 7
12 6
9 1
0.24669 0
2
2
0
0
*Pekerjaan
SW TN BT
9 9 12
1 7 12
8 2 0
0 0.81128 0
0.53806
*Pendapatan / Bulan
ST TG SD RD SR
4 6
0 2
4 4
0.84550 0
0.48514
3 16
2 15
1 1
0.12378
1
1
0
*Jumlah Tanggungan
1 2 3 4 5 6
2 0 6 13 8 1
0 0 1 10 8 0
2 0 5 3 0 1
0. 45057 0 0 0.65002 0.77935 0 0
*Lantai Rumah
SMN TNH
12 18
2 18
10 0
0.65002 0
0.65829
*Bentuk Fisik Rumah
SP TP
14 16
4 16
10 0
0.86312 0
0.51551
*Air Bersih dan MCK
A T
13 17
3 17
10 0
0.77935 0
0.58058
0.09058
Dari hasil perhitungan nilai Entropy dan Gain seperti terlihat pada tabel 4.7 dapat diketahui bahwa atribut yang memiliki Gain tertinggi adalah atribut lan yaitutai rumah sebesar 0.65829. Dengan demikian, atribut lantai rumah adalah atribut yang menjadi node akar. Ada 2 nilai yang terdapat pada atribut lantai rumah yaitu SMN dan TNH. Dari kedua atribut, nilai atribut TNH adalah 18, yaitu potensi calon adalah layak, sehingga tidak perlu perhitungan lanjut, tetapi untuk nilai atribut SMN masih perlu dilakukan perhitungan lagi. Dari hasil tersebut dapat digambarkan pohon keputusan sementara seperti gambar 4.1.
21
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
Lantai Rumah
TNH
SMN
LAYAK 1.2 ?
Gambar 5 : Pohon Keputusan Hasil Perhitungan Node 1
Selanjutnya adalah menyelesaikan untuk menghitung Node 1.2 sebagai akar, sama dengan cara yang diatas dengan menghitung nilai entropy dari atribut yang tersisa yaitu Status, Pekerjaan, Pendapatan per Bulan, Jumlah Tanggungan, Bentuk Fisik Rumah Sarana Air Bersih dan MCK, setelah dihitung entropy, kemudian menghitung gain untuk tiap-tiap atribut. Setelah nilai entropy dan gain dihitung, kemudian hasil dari perhitungan tersebut dimasukkan ke dalam tabel 4.10 berikut ini : Tabel 10 Perhitungan Node 1.2 Node 1.2 *Lantai Rumah (SMN)
Jumlah Kasus(S) 12
Ya(S1) Tidak(S2) 2 10
Entropy 0.65002
Gain
*Status
MN JD DD
10 2 0
1 1 0
9 1 0
0.46900 0.09253
* Pekerjaan
SW TN BT
8 3 1
0 1 1
8 2 0
0 0.42045 0.91830 0
*Pendapatan per Bulan
ST TG SD RD SR
4 4 1 3 0
0 0 0 2 0
4 4 1 1 0
0 0.42045 0 0 0 0.91830
*Jumlah Tanggungan
1 2 3 4 5 6
2 0 4 4 1 1
0 0 0 1 1 0
2 0 4 3 0 1
0 0 0 0.81128 0 0
0.37960
*Bentuk Fisik Rumah
SP
12
2
10
0.65002
0
Dari perhitungan pada tabel 9 dapat diketahui bahwa atribut dengan gain tertinggi adalah Air Bersih dan MCK yakni 0.65002. Air Bersih dan MCK dapat menjadi node akar, dimana nilai atribut A dikatakan Tidak Layak dengan jumlah tidak layaknya adalah 10, sedangkan T adalah atribut yang layak dengan nilai kelakannya adalah 2. Sehingga Pohon keputusan yang terbentuk seperti pada gambar 2.
22
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
Lantai Rumah
TNH
SMN
LAYAK Sarana Air Bersih dan MCK
A
Tidak Layak
T
LAYAK
Gambar 6 : Pohon Keputusan Hasil Perhitungan Node 1.2
Adapun aturan atau rule yang terbentuk berdasarkan pohon keputusan terakhir seperti pada gambar 4.4 di atas adalah sebagai berikut : 1. Jika Lantai Rumah = TNH maka Penerima Bantuan = Layak 2. Jika Lantai Rumah = SMN dan Sarana Air Bersih dan MCK = T maka Penerima Bantuan = Layak 3. Jika Lantai Rumah = SMN dan Sarana Air Bersih dan MCK = A maka Penerima Bantuan = Tidak Layaki Berdasarkan rule atau knowledge yang dihasilkan terdapat rules yang cukup sesuai dengan kejadian yang terjadi dalam memprediksi calon penerima bantuan yang layak maupun yang tidak layak. Calon Penerima Bantuan yang Lantai Rumahnya Tanah (TN) besar peluangnya untuk menerima bantuan Rumah Tidak Layak Huni ( Layak ) sedangkan Calon penerima bantuan yang Lantai Rumahnya Semen (SMN) lebih sedikit peluangnya untuk menerima Bantuan Rehabilitas Rumah Tidak Layak Huni di Lingkungan Pemerintahan Kabupaten Solok Selatan. 4.4 Pengujian Hasil pada aplikasi data Mining WEKA Pohon keputusan yang terbentuk dari WEKA seperti yang terlihat pada berikut :
Gambar 7 : Tree Visualize oleh WEKA
Dari Tree Visualize yang dihasilkan oleh aplikasi WEKA didapatkan rule atau aturan yang terbentuk yakni: 1. Jika Lantai Rumah = TNH, maka calon penerima bantuan RSRTLH = LAYAK. 2. Jika Lantai Rumah = SMN dan Sarana Air Bersih dan MCK = T, maka maka calon penerima bantuan RSRTLH = LAYAK. 3. Jika Lantai Rumah = SMN dan Sarana Air Bersih dan MCK = A, maka maka calon penerima bantuan RSRTLH = TIDAK LAYAK.
23
UPI YPTK Jurnal KomTekInfo Vol. 3, No. 2, Desember 2016, Hal. 12-24 Copyright©2016 by LPPM UPI YPTK Padang
ISSN :2356-0010
4.5 Pengujian Implementasi Hasil menggunakan Aplikasi Rapid Miner Pada Software aplikasi rapid miner penulis juga menggunakan data dengan jumlah record sebanyak 120 record data.Pohon keputusan yang dihasilkan dapat dilihat pada gambar 8.
Gambar 8 : Hasil pohon keputusan pada aplikasi RapidMiner
5. Kesimpulan Kesimpulan yang dapat diambil dari pengujian sistem adalah sebagai berikut: 1. Data mining dengan metode klasifikasi menggunakan algoritma c.45 sangat membantu dalam menentukan kelayakan penerima bantuan RSRTLH. 2. Algoritma C4.5 dapat menemukan pola kelayakan penerima bantuan rehabilitas sosial rumah tidak layak huni. 3. Pohon keputusan yang dihasilkan oleh algoritma c.45 mempercepat pengambilan keputusan oleh pihak yang berwenang. Sehingga tingkat kesalahan dalam pengambilan keputusan bisa diperkecil. 4. Pengimplementasian Algoritma C.45 dengan Aplikasi WEKA dan RapidMiner menghasilkan pohon keputusan yang sama dengan perhitungan manual 5. Menerapkan algoritma C. 45 kedalam data yang lebih besar untuk menguji akurasi dari data. 6. Pada riset berikutnya mengembangkan algorima c.45 untuk menentukan kelayakan penerima bantuan rehabilatas sosial rumah tidak layak huni pada penelitian ini dalam bentuk aplikasi data mining berbasiskan web.
Daftar Pustaka [1] Benni R Siburian. 2014. Aplikasi Data Mining Untuk Menampilkan Tingkat Kelulusan Mahasiswa Dengan Algoritma Apriori.Medan : STMIK Budi Darma Medan [2] Kalpesh Adhatrao, etc al. 2013. Predicting Students’ Performance Using ID3 and C4.5 Classification Algorithms. Maharashtra India : Department of Computer Engineering, Fr.C.R.I.T. [3] Khumesh Patil, etc al. 2014. Classifying Climate Data (uncertain) using Decision Tree. Nashik, India : Department of Computer Engineering K.K.Wagh Institute of Engg&Research, Nashik University of Pune. [4] K.Sudhakar, etc al. 2014. Study of Heart Disease Prediction using Data Mining. Tamil Nadu, India :Shrimati Indira Gandhi CollegeBharathidasan University. [5] Priyanka Saini, etc al. 2014. Data Mining Application in Advertisement Management of Higher Educational Institutes. Rajasthan, India : Banasthali University. [6] Sarah Faradillah. 2009. Impelementasi Data Mining Untuk Pengenalan Karakteristik Transaksi Transaksi Dengan Menggunakan Algoritma C.45. Limun Mendan : STMIK Budi Darma Medan. [7] Shweta Kharya. 2012. Using Data Mining Tecniques for Diagnosis and Prognosis of Cancer Disease. Chhatisgarh, India : Bhilai Institute of Technology. [8] Wei Dai and Wei Ji. 2014. A MapReduce Implementation of C4.5 Decision Tree Algorithm. Hubei, P.R China : Schools of Economics and Management.
24