BAB I PENDAHULUAN
1.1 Latar Belakang Seiring berjalannya waktu, manusia mulai menyadari betapa pentingnya data. Data dapat dikumpulkan melalui sensus, survei, ataupun data administrasi. Data dapat dimanfaatkan untuk kepentingan jangka panjang ke depan dan dapat pula digunakan untuk melihat historis dari kegiatan di masa yang lalu. Namun, apabila tidak dapat mengolahnya, maka data tersebut hanya tinggal data yang tidak dapat memberikan informasi apapun untuk kita. Ini merupakan suatu fenomena dimana banyak data yang terkumpul namun tidak berguna. Salah satu bentuk data yang sangat bermanfaat adalah data pendapatan seseorang. Menurut sebuah situs informasi kependudukan dunia yang berdasarkan hasil laporan dari Divisi Kependudukan Perserikatan Bangsa-Bangsa, jumlah penduduk dunia pada tanggal 1 Juli 2015 diperkirakan sebesar 7.324.782.225 jiwa. Dari sekian milyar jiwa, pastilah kebutuhan dan keinginan masyarakatnya sangat kompleks, apalagi pada masa sekarang ini teknologi sudah berkembang sangat pesat. Oleh karena itu, masyarakat berupaya seoptimal mungkin untuk memenuhi kebutuhan dan keinginannya. Dalam mencapai kebutuhan dan keinginan tersebut, seseorang akan rela melakukan berbagai usaha. Usaha dalam hal ini adalah bekerja. Seseorang akan bekerja demi memperoleh hasil yang disebut sebagai pendapatan. Tersedia banyak dataset tentang pendapatan penduduk di suatu daerah bahkan di suatu negara, oleh karena itu dibutuhkan suatu alat analisis yang mampu menganalisis dengan baik data yang sangat besar tersebut. Berangkat dari fakta-fakta yang terjadi, dibentuklah suatu teknologi yang disebut sebagai teknologi data mining. Teknologi tersebut berfungsi untuk memilah data dalam berbagai sudut pandang dan kemudian membuat kesimpulan dari data yang diteliti (Efendi, 2015). Terdapat beberapa langkah dalam pra pengolahan data sebelum melakukan data mining, yakni membersihkan data dari noise dan data yang tidak
konsisten, mengkombinasikan kembali data-data yang telah bersih, maka kita akan memiliki database yang baru, selanjutnya data dilihat kembali apakah membutuhkan suatu transformasi ataukah tidak, barulah setelah itu data dapat diolah (Han dan Kamber, 2006). Dalam mengerjakan data mining, kita juga membutuhkan klasifikasi terhadap data. Klasifikasi ini merupakan proses untuk menemukan model yang dapat menggambarkan dan membedakan kelas-kelas dari data yang kita miliki. Sedangkan menurut Hamandoko, Towa dan Tairas (1999) yang dikutip dari Milana dan Abadyo (2013), klasifikasi adalah pengelompokkan yang sistematias pada sejumlah objek, gagasan, buku atau benda-benda lain ke dalam kelas atau golongan tertentu berdasarkan ciri-ciri yang sama. Ada beberapa metode yang digunakan untuk mengklasifikasi data, seperti metode C5.0 dan metode CHAID. Kedua metode tersebut dibandingkan akurasinya untuk kemudian digunakan sebagai model dalam mengklasifikasi data pendapatan penduduk tersebut. Metode C5.0 dan metode CHAID sangat mendukung dalam pembagian pohon keputusan dengan 2 atau lebih subgrup. Namun, keduanya memiliki persamaan dalam membangun pohon keputusan dengan pembagian data secara berulang
kedalam
subgrup-subgrup
yang
ditetapkan
dengan
prediktor
yang
menghubungkan hasil-hasilnya. Sehingga, kita dapat melakukan perbandingan diantara keduanya untuk selanjutnya dipilih yang terbaik guna melakukan prediksi. Oleh sebab itu, pada skripsi ini akan dibahas penggunaan metode C5.0 dan metode CHAID, serta pemilihan model terbaiknya untuk melakukan klasifikasi terhadap pendapatan penduduk, beserta prediksi pendapatan penduduk tersebut berdasarkan variabel-variabel lain yang dianggap mempengaruhi besar kecilnya pendapatan seseorang.
1.2 Perumusan Masalah Berdasarkan latar belakang masalah di atas, dapat dirumuskan hal-hal sebagai berikut:
1. Bagaimana cara kerja algoritma C5.0 dan CHAID dalam melakukan klasifikasi pendapatan seseorang per tahun, dengan menggunakan software SPSS-Clementine 12.0? 2.
Bagaimana model pohon keputusan yang terbentuk dari masing-masing model?
3.
Bagaimana keakurasian masing-masing model dalam mengklasifikasikan data pendapatan seseorang per tahun?
4.
Metode manakah yang paling cocok untuk klasifikasi data pendapatan penduduk berdasarkan tingkat akurasinya?
1.3 Batasan Masalah Adapun batasan-batasan masalah pada penelitian tugas akhir ini, adalah: 1. Software yang digunakan pada penelitian tugas akhir ini adalah menggunakan software SPSS-Clementine 12.0. 2. Data yang digunakan merupakan data yang diambil dari machine learning UCI repository. 3. Analisis ini hanya akan melakukan klasifikasi dan prediksi terhadap data pendapatan seseorang per tahun.
1.4 Tujuan Penelitian Tujuan utama yang ingin dicapai melalui penelitian ini adalah penulis ingin menunjukkan bahwa terdapat berbagai alat yang digunakan untuk mengklasifikasi data. Disini penulis memanfaatkan algoritma C5.0 dan algoritma CHAID untuk melakukan klasifikasi terhadap data pendapatan penduduk. Dengan menunjukkan perhitungan tingkat akurasi untuk masing-masing model, penulis ingin menunjukkan algoritma apa yang cocok untuk melakukan klasifikasi terhadap data pendapatan penduduk.
1.5 Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah:
1.
Menunjukkan bahwa algoritma C5.0 dan CHAID dapat digunakan dalam melakukan klasifikasi terhadap pendapatan seseorang per tahun.
2.
Menjelaskan kepada pembaca bahwa selain digunakan untuk mengklasifikasikan data, algoritma C5.0 dan CHAID juga dapat digunakan untuk memprediksi pendapatan seseorang per tahun.
1.6 Tinjauan Pustaka Saat ini, banyak orang yang menginginkan pendapatan per tahun yang tinggi guna mencukupi kebutuhan mereka. Namun, kita membutuhkan solusi yang tepat untuk melakukan klasifikasi yang akurat serta dapat memprediksi tingkat pendapatan kita kedepannya. Salah satu cara yang dapat dilakukan untuk melakukan klasifikasi adalah dengan menggunakan algoritma C5.0 dan algoritma CHAID. Saptarini (2012) membahas algoritma C4.5 yang digabungkan dengan logika fuzzy untuk menjadi alat klasifikasi talenta karyawan. Data yang digunakan adalah data studi kasus Politeknik Negeri Bali di provinsi Bali. Kesimpulan yang diambil dari penelitian tersebut bahwa algoritma C4.5 merupakan alat klasifikasi berbentuk pohon yang sangat mudah dipahami oleh manusia dengan akurasi yang cukup tinggi. Paratu (2012) membahas mengenai customer churn dengan menggunakan algoritma C4.5. Metode algoritma tersebut dapat digunakan dalam costumer churn classification pada masalah perpindahan pelanggan pada perusahaan penyedia jasa telepon selular dan menghasilkan keakuratan pengklasifikasian yang tinggi. Hssina, Merbouha, dan Ezzikouri dalam IJACSA/International Journal of Advanced Computer Science and Applications membahas mengenai perbandingan antara pohon keputusan ID3 dan C4.5. Pada jurnal ini juga disebutkan bahwa C4.5 telah digantikan dengan See5/C5.0 pada tahun 1997. C5.0 memiliki kelebihan yakni dapat digunakan pada multiple CPUs. Edi (2011) membahas mengenai analisis faktor-faktor yang mempengaruhi keputusan pasien rawat jalan dalam memilih rumah sakit dengan menggunakan algortima CHAID. Pohon klasifikasi dapat digunakan pada beberapa bidang, salah satunya kesehatan. Dengan menggunakan pohon klasifikasi CHAID, kita dapat mengetahui faktor-faktor yang paling signifikan terhadap kedatangan pasien baik dari kelas menengah
kebawah, kelas menengah keatas, maupun secara keseluruhan sehingga dapat ditarik analisa dari pohon keputusan yang terbentuk dan dapat diolah sebuah strategi pemasaran yang tepat bagi rumah sakit. Yogi Yusuf W (2007) membahas mengenai pembangunan model credit scoring. Dengan menggunakan algoritma C5.0, CART, dan CHAID, dihasilkan model yang berbeda untuk data set yang sama, yakni data credit scoring. Dari analisis yang dilakukan, diperoleh bahwa tidak ada perbedaan performansi diantara ketiga algoritma.
1.7 Metode Penulisan Metode yang digunakan dalam penulisan tugas akhir ini lebih kepada studi literatur (literatur buku-buku, jurnal-jurnal, atau media lainnya) yang dapat dijadikan sebagai referensi dalam penulisan tugas akhir ini. Penelitian ini diselesaikan dengan menggunakan software SPSS-Clementine 12.0 dan Microsoft Excel 2013. Data yang digunakan penulis dalam penelitian ini adalah data pendapatan seseorang per tahun, yang diperoleh dari machine learning yang ada pada UCI repository dengan nama file income.
1.8 Sistematika Penulisan Sistematika penulisan yang digunakan dalam penyusunan tugas akhir ini adalah sebagai berikut: BAB I Pendahuluan Bab I ini menjelaskan mengenai alasan melakukan penelitian ini (latar belakang), perumusan masalah, batasan-batasan masalah, tujuan penelitian, manfaat penelitian, dan tinjauan pustaka yang digunakan sebagai referensi penulisan tugas akhir, metode penelitian yang digunakan, serta sistematika penulisan tugas akhir. BAB II Landasan Teori Bab II ini membahas mengenai teori-teori yang menjadi landasan pada topik yang dibahas pada tugas akhir ini, yakni mengenai pendapatan seseorang per tahun, yang akan digunakan lebih lanjut di bab-bab selanjutnya. BAB III Pembahasan
Bab III ini, akan membahas mengenai penggunaan algoritma C5.0 dan CHAID dalam melakukan klasifikasi pada data pendapatan seseorang per tahun. BAB IV Studi Kasus Bab ini membahas tentang data yang digunakan dalam penelitian. Pada bab ini juga akan dibahas mengenai bagaimana algoritma C5.0 dan CHAID akan melakukan klasifikasi yang akurat terhadap data tersebut. BAB V Penutup Bab ini berisi tentang kesimpulan yang telah diperoleh, pemecahan masalah, serta saran yang dapat diberikan karena adanya kelebihan ataupun kekurangan pada hasil penelitian ini. Daftar Pustaka Lampiran