7
LANDASAN TEORI
2.1. Data Mining Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistic dan matematika (Larose, 2006). Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2006). Data mining merupakan proses semi otomatik yang menggunakan teknik statistic, matematika, keceradan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan yang potensial dan bermanfaat yang tersimpan di dalam database (Turban et al, 2005). Defenisi lain dari data mining adalah data mining merupakan bagian dari proses KDD (Knowledge Discovery in Database) yang terdiri dari beberapa tahapan seperti pemilihan data, pra-pengolahan, transformasi, data mining dan interpretasi hasil (Sitompul, 2008). Menurut Han et.al pada tahun 2006, data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval dan komputasi tingkat tinggi. Selain itu data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database dan signal processing.
2.1.1 Tahap-tahap data mining
Universitas Sumatera Utara
8
Gambar 2.1 Tahap-tahap penambangan data (Han, et al.2006)
1. Data Cleaning Data Cleaning (pembersihan data) merupakan proses yang bertujuan untuk menghilangkan atau membersihkan data dari hal-hal yang tidak perlu seperti, noise, record-record yang keliru atau atribut yang tidak memiliki keterkaitan satu sama lain. Proses ini berguna untuk memudahkan dalam proses data mining dimana data yang tidak perlu akan dibuang dan menghasilkan data yang hanya diperlukan saja sehingga efektif dalam proses data mining. 2. Data Integrasi Data yang digunakan dalam proses penggalian data tidak hanya berasal dari satu sumber data saja, melainkan dari beberapa sumber data atau database. Proses ini bertujuan untuk melakukan penggabungan sejumlah sumber data yang disatukan dalam sebuah data warehouse. 3. Data Transformation
Universitas Sumatera Utara
9
Proses ini bertujuan untuk mengubah data menjadi informasi dengan standard yang sesuai dengan kebutuhan data. 4. Data Mining Merupakan proses penambangan/penggalian data dengan teknik dan metode yang dibutuhkan. Dalam kasus ini digunakan algoritma C5.0 dengan metode decision tree (pohon keputusan). 5. Knowledge Learn Proses ini adalah proses akhir dimana hasil yang diperoleh dari penggalian data diidentifikasi dan dievaluasi pola-pola yang ada untuk menilai apakah target yang dicapai telah tercapai. Jika hasil yang diperoleh tidak sesuai, maka dapat diambil aksi yang lain seperti decision support (pendukung keputusan) untuk memperbaiki proses mining atau mencoba metode lain dari data mining yang lebih sesuai. Proses ini akan memformulasikan penggunaannya pada data lain yang lebih sesuai. Atau jika tidak sesuai dapat digunakan sebagai hasil yang salah yang bermanfaat sebagai bahan pembelajaran dimasa depan. 2.1.2 Pengelompokan Data Mining Berdasarkan tugas yang dapat dilakukan, data mining dibagi menjadi beberapa kelompok, yaitu (Larose, 2006) 1. Deskripsi Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan keterangan atau fakta bahwa siapa yang tidak cukup professional akan sedikit didukung dalam pemilihan presiden. Deksripsi dari pola dan kecenderungan sering
memberikan
kemungkinan
penjelasan
untuk
suatu
pola
atau
kecenderungan.
2. Estimasi
Universitas Sumatera Utara
10
Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi, kemudian etimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Perbedaan estimasi dengan klasifikasi adalah variabel target estimasi lebih ke arah numeric dari pada kategori 3. Klasifikasi Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Dalam klasifikasi terdapat target variabel kategori. Sebagai contoh penerapan klasifikasi dalam menentukan layak tidaknya kredit sepeda motor, klasifikasi data konsumen telemarketing untuk deposito pada bank. 4. Prediksi Prediksi adalah proses memperkirakan sesuatu berdasarkan data atau informasi di masa lalu dan masa sekarang yang mungkin terjadi dimasa yang akan datang dengan menggunakan pemodelan klasifikasi agar kesalahannya dapat diperkecil. Prediksi tidak harus benar, melainkan berusaha mencari jawaban sedekat mungkin yang akan terjadi. Sehingga dapat disimpulkan nilai dari hasil prediksi akan ada di masa yang akan datang. 5. Asosiasi Asosiasi berugas untuk menemukan atribut yang muncul dalam suatu waktu. Sebagai contoh untuk menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli bersamaan. 6. Pengklusteran Kluster adalah kumpulan record yang memiliki kemiripan satu sama lain dan memiliki ketidakmiripan dengan record dalam kluster lain. Pengklusteran tidak memiliki variabel target, melainkan melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen) yang bernilai minimal. Dalam penelitian ini penulis menggunakan pengelompokan data mining prediksi dengan algoritma C5.0 decision tree.
Universitas Sumatera Utara
11
2.2 Decision Tree (Pohon Keputusan) Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, dimana setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas distribusi kelas. Alur pada decision tree ditelusuri dari simpul akar ke simpul daun yang memegang prediksi kelas (Kusnawi, 2007). Pohon keputusan terdiri dari node yang membentuk pohon yang berakar, semua node memiliki satu masukan. Node yang keluar disebut node tes. Node yang lain disebut node keputusan atau sering disebut node daun. Setiap simpul internal membagi dua atau lebih sub-ruang sesuai dengan kategori atribut dan akan dipartisi sesuai dengan nilai kategori kasus. Kasus-kasus tersebut membentuk pohon keputusan, yang menghasilkan problem solving (Kusrini, 2007). Decision tree adalah teknik model prediksi yang digunakan pada klasifikasi, clustering dan prediksi tugas. Decision tree menggunakan teknik „membagi dan menaklukkan‟ untuk membagi ruang pencarian masalah menjadi himpunan masalah (Dunham, 2003). Decision Tree (Pohon Keputusan) merupakan salah satu metode klasifikasi yang tujuannya untuk menciptakan sebuah model yang memprediksi nilai variabel target dengan aturan-aturan keputusan yang disimpulkan dari sejumlah data. Dalam menerapkan metode ini dilakukan dua tahapan yaitu, membangun pohon keputusan dan membangun aturan-aturan keputusan (rule). 2.2.1 Konsep Decision Tree Konsep data dalam decision tree adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan (rule). Data dinyatakan dalam bentuk tabel yaitu dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Atribut memiliki nilai yang menjadi target atribut yang disebut instance. Konsep decision tree dapat dilihat pada Gambar 2.2 Data
Decision Tree
Rule
Gambar 2.2 Konsep Decision Tree
Universitas Sumatera Utara
12
2.2.2 Manfaat Decision Tree Decision Tree (Pohon Keputusan) merupakan metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia, yang kemudian membentuk model prediksi menggunakan struktur pohon keputusan. Manfaat utama dari penggunaan decision tree adalah mampu mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga akan lebih mudah menginterpretasikan solusi dari permasalahan. Manfaat lainnya adalah untuk mengeksplorasi data dan pemodelan, sehingga sangat baik digunakan untuk langkah awal dalam proses pemodelan. 2.2.3 Kelebihan Decision Tree Kelebihan decision tree (Simarmata, 2005) : a. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simple dan spesifik. b. Eliminasi
perhitungan-perhitungan
yang
tidak
diperlukan,
karena
ketika
menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu. c. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional. d. Dalam analisis multivariate, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.
Universitas Sumatera Utara
13
2.2.4 Kekurangan Decision Tree a. Terjadi overlap terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnyasangant banyak. Hal tersebut juga dapat menyebankan meningkatnya waktu pengambilan keputusan dan jumlah memory yang diperlukan. b. Pengakumulasian jumlah error dari setiap level dalam sebuah pohon keputusan yang besar. c. Kesulitan dalam mendesain decision tree yang optimal. Hasil kualitas keputusan yang didapatkan dari metode decision tree sangat tergantung pada bagaimana pohon tersebut didesain.
2.3 Algoritma C5.0 Algoritma C5.0 merupakan algoritma berbasis decision tree yang merupakan penyempurnaan dari algoritma ID3 dan C4.5 yang dibentuk oleh Ross Quinlan pada tahun 1987. Algortima C5.0 dapat menangani atribut kontinyu dan diskrit. Pemilihan atribut dalam algoritma ini akan diproses menggunakan information gain. Atribut dengan nilai Gain tertinggi akan dipilih sebagai akar bagi node selanjutnya. Proses decision tree adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule dan menyederhanakan rule (Basuki et al., 2003). Dalam membentuk pohon keputusan dengan algoritma C5.0 digunakan entropy dan information gain untuk menentukan akar node. Gain dengan nilai tertinggi akan menjadi node akar dari entropy terkecil tiap atribut. Berikut persamaan untuk menghitung gain atribut : Gain(S, A) = Entropy(S) - ∑
*Entropy (Si)…….. (1)
Dengan: S A n |Si| |S|
: Himpunan kasus : Atribut : Jumlah partisi atribut A : Jumlah kasus pada partisi ke i : Jumlah kasus dalam S
Universitas Sumatera Utara
14
Sementara itu untuk menghitung nilai entropy dapat dilihat pada persamaan berikut : Entropy(S) = ∑
………………………………............ (2)
Dengan : S n pi
: Himpunan kasus : Jumlah partisi S : Proporsi dari Si terhadap S
2.4 Bank Bank adalah badan usaha yang menghimpun dana dari masyarakat dalam bentuk simpanan dan menyalurkannya kepada masyarakat dalam bentuk kredit dan/atau bentuk-bentuk lainnya dalam rangka meningkatkan taraf hidup rakyat banyak (UU No.7 tahun 1992). Bank memberikan pelayanan terbaik kepada nasabah melalui beberapa fasilitas seperti, unit usaha konvensional, unit usaha syariah dan sentra usaha mikro kecil (UMK). Unit usaha konvensional memiliki beberapa pelayanan seperti tabungan, giro, deposito, kredit, kredit pemilikan rumah (KPR), anjungan tunai mandiri (ATM), SMS banking dan real-time gross settlement (RTGS). Pada penelitian ini
penulis
mengangkat
judul
yang
berkaitan
dengan
KPR.
Bank memiliki peranan penting bagi masyarakat khususnya masyarakat kalangan menengah ke atas. Tidak lagi hanya sebatas menabung, bank juga memiliki manfaat yang besar bagi masyarakat/nasabah. Berbagai kepentingan hidup di masa sekarang membutuhkan bank sebagai alat untuk memenuhi kebutuhan. Untuk membayar tagihan listrik, belanja hingga membangun rumah, semuanya dapat dilakukan melalui bank. Kemudahan inilah yang membuat bank memiliki perananan penting bagi masyarakat di masa sekarang. 2.4.1 Kredit Menurut OP. Simorangkir dan H. Budi Untung, kredit adalah pemberian prestasi (misalnya uang dan barang) dengan balas prestasi (kontraprestasi) yang akan terjadi pada waktu yang akan datang. Kehidupan ekonomi modern adalah prestasi uang, yang
Universitas Sumatera Utara
15
dengan demikian transaksi kredit menyangkut uang sebagai alat kredit. Kredit berfungsi kooperatif antara si pemberi kredit dan si penerima kredit atau antara kredit dengan debitur. Mereka menarik keuntungan dan saling menanggung risiko. Singkatnya, kredit dalam arti luas didasarkan atas komponen kepercayaan, risiko dan pertukaran ekonomi di masa-masa mendatang. Kredit merupakan salah satu system yang diberlakukan pihak bank dalam memberikan kemudahan kepada nasabah. Namun pengertian kredit bank yang berprinsip konvensional tidak hanya membayar secara tradisional, tetapi juga meliputi perjanjian kredit, jaminan, pengambilan tagihan dan bunga. Sedangkan untuk bank yang beroperasi dengan prinsip syariah, bentuk penyediaan atau penerimaan dana kepada nasabahnya dengan prinsip bagi hasil yang sesuai dengan prinsip syariah. Menurut Munir Fuadi, kredit berarti kepecayaan. Kata kredit berasal dari bahasa Latin yaitu “creditus” yang berarti to trust. Dengan kata lain kredit mengandung unsur “kepercayaan”, walaupun tidak hanya sekedar kepercayaan. Kolektibilitas adalah keadaan pembayaran pokok atau angsuran pokok dan bunga kredit oleh nasabah serta tingkat kemungkinan diterimanya kembali dana yang ditanamkan dalm surat-surat berharga atau penanaman lainnya. Pada dasarnya dalam menentukan status kredit nasabah, Bank Indonesia memiliki kolektibilitas (penggolongan) kredit yang dikelompokkan terhadap 5 kelompok yaitu, kredit lancar, kredit perhatian khusus (special mention), kredit kurang lancar, kredit diragukan dan kredit macet. Penjelasan kolektibilitas dapat dilihat pada tabel 2.1
Universitas Sumatera Utara
16
Tabel 2.1 Kolektibilitas Kredit (Ketentuan Bank Indonesia) Kolektibilitas Kredit
Keterangan Kolektibilitas
Konsekuensi Keterangan
Kredit
Kredit Pembayaran tepat waktu, pembayaran rekening baik dan
1
Lancar
Kolektibilitas
tidak ada tunggakan serta sesuai dengan persyaratan kredit.
1) Kartu dalam status aktif 2) Kartu tidak terblokir, kartu masih dapat digunakan 1)Dikenakan biaya keterlambatan (jika ada) 2) Kartu akan terblokir sementara untuk
2
Dalam Perhatian Khusus
Apabila terdapat
keterlambatan
tunggakan
pembayaran
pembayaran pokok
sampai dengan 59
dan atau bunga
hari. Di atas 60
sampai dengan 90
hari, kartu akan
(Sembilan puluh)
terblokir
hari.
permanen, kartu tidak dapat digunakan. 3)Kegiatan penagihan melalui telepon dan kunjungandimulai.
Universitas Sumatera Utara
17
Tabel 2.1 Kolektibilitas Kredit (Ketentuan Bank Indonesia) (lanjutan) Kolektibilitas Kredit
Keterangan
Konsekuensi
Kolektibilitas
Keterangan
Kolektibilitas
Kredit
Kredit Apabila
terdapat
tunggakan pembayaran pokok dan 3
Kurang Lancar
atau
yang
bunga telah
melampaui (Sembilan
90 puluh)
hari sampai dengan 120 (seratus dua puluh) hari. Apabila tunggakan
1)Kegiatan penagihan melalui telepon
dan
kunjungan dilanjutkan 2) Kartu terblokir secara permanen, kartu tidak dapat digunakan.
terdapat 1)Kegiatan
pembayaran pokok penagihan melalui dan
atau
yang 4
Diragukan
melampaui
bunga telepon
dan
telah kunjungan 120 dilanjutkan
(seratus dua puluh) 2) Kartu terblokir hari sampai dengan secara permanen, 180 delapan
(seratus kartu tidak dapat puluh) digunakan.
hari.
Universitas Sumatera Utara
18
Tabel 2.1 Kolektibilitas Kredit (Ketentuan Bank Indonesia) (lanjutan) Kolektibilitas Kredit
Keterangan
Konsekuensi
Kolektibilitas
Keterangan
Kredit
Kolektibilitas Kredit 1)Kegiatan penagihan melalui
Apabila
terdapat
tunggakan pembayaran pokok 5
Macet
dan
atau
yang melampaui (seratus puluh) hari.
bunga telah 180 delapan
telepon
dan
kunjungan dilanjutkan 2) Kartu terblokir secara permanen, kartu tidak dapat digunakan. 3) Pengalihdayaan kegiatan penagihan
ke
pihak ketiga
2.4.2 Analisa Kredit Analisa kredit adalah penilaian terhadap calon kreditur dan usahanya, dan sebagai alternatif dalam pertimbangan keputusan kredit. Tujuan dilakukannya analisis adalah untuk melihat kondisi dan potensi calon kreditur apakah layak/ tidaknya diberikan kredit atau dibantu pembiayaan kredit. Menurut Siswanto (2004) analisis kredit pada dasarnya menggunakan prinsip 5C, yaitu : 1. Character, menilai tingkah laku debitur, apakah mempunyai sifat yang baik dan dapat dipercaya, sehingga pihak bank yakin debitur akan mampu mengembalikan
Universitas Sumatera Utara
19
kredit tepat waktu dan tidak termasuk dalam daftar black list atau daftar kredit macet. 2. Capacity, mempelajari dan memastikan bahwa debitur mampu membayar kreditnya dilihat dari pengalaman pengalaman usahanya, pendidikannya, selama berhubungan dengan bank. 3. Capital, untuk memastikan bahwa debitur mempunyai modal yang cukup guna menutupi apabila terjadi kerugian. 4. Collateral, memastikan apakah agunan/jaminan yang diserahkan cukup dan suratsuratnya lengkap sesuai dengan ketentuan, untuk menutup resiko kredit apabila tidak dapat dapat dilunaskan. 5. Condition of Economy, mempelajari dan memastikan apakah keadaan pereonomian bersifat menunjang atau menghambat usaha debitur, yang dapat berpengaruh atas kelancaran kredit yang diberikan dan hendaknya juga dinilai kondisi ekonomi sekarang dan untuk masa yang akan datang sesuai sektor masiing-masing. Dalam penelitian ini penulis mengklasifikasikan nasabah yang telah memiliki track record dalam kredit KPR. 2.4.3 Kredit Pemilikan Rumah (KPR) KPR merupakan bagian dari unit usaha konvensional yang banyak dipilih nasabah dalam memenuhi kepentingan tempat tinggal. KPR memudahkan nasabah dalam membangun atau membeli rumah. KPR adalah kredit yang diberikan pihak bank kepada nasabah untuk mendirikan rumah/ruko/bangunan diatas sebuah lahan dengan jaminan sertifikat kepemilikan atas rumah dan lahan itu sendiri. 2.5 Penelitian Terdahulu Adapun beberapa penelitian terdahulu yang berkaitan dengan prediksi kolektibilitas KPR antara lain : 1. Model prediksi status kredit nasabah koperasi simpan pinjam mitra usaha syariah (Septiana et al, 2013)
Universitas Sumatera Utara
20
2. System pendukung keputusan kredit sepeda motor dengan metode decision tree. System ini bertujuan sebagai pendukung keputusan dalam menentukan layak atau tidak layaknya pemberian kredit sepeda motor kepada calon pembeli (Agustina Manurung, 2011). 3. Analisis dan implementasi decision tree untuk klasifikasi data konsumen telemarketing untuk deposito pada bank menggunakan algoritma C4.5. System ini menampilkan konsumen yang akan mendepositokan uang dengan mengolah data untuk dicari pola agar bisa bermanfaat (Gelar Nurcahya, 2013). 4. Metode C5.0 untuk mengklasifikasi prestasi akademik mahasiswa program studi matematika fakultas matematika dan ilmu pengetahuan alam dengan bahasa pemrograman Delphi 7.0 sehingga memperoleh hasil klasifikasi yang lebih akurat dan maksimal (Muhammad Musyafa, 2012) 5. Penerapan algoritma C5.0 dalam pengklasifikasian data mahasiswa Universitas Negeri Gorontalo. Penelitian ini bertujuan untuk mengklasifikasikan data historis mahasiswa dengan menggunakan algoritma C5.0. Hasil pengujian dengan menggunakan teknik k-fold cross validation diperoleh akurasi tertinggi dari prediksi IPK sebesar 79,3% dan 86,7% untuk lama studi. (Irene et al, 2014) 6. Aplikasi data mining menggunakan metode decision tree untuk evaluasi kinerja motor servo dengan algoritma C4.5. Penelitian ini difokuskan untuk mengevaluasi kinerja motor servo dengan melakukan percobaan pada beban dan tegangan input yang berbeda dalam dua keadaan loop serta diklasifikasikan dalam kategori perputaran motor yang termasuk cepat, cukup cepat dan lambat. Hasil penelitian yang diperoleh adalah sama dengan hasil kategori data sebenarnya. (Aryansyah, 2014)
Universitas Sumatera Utara