BAB 2 Landasan Teori
2.1
Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa “Data Mining merupakan pemilihan atau “menggali” pengetahuan dari jumlah data yang banyak.” Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan “Data Mining disebut penemuan pengetahuan atau menemukan pola yang tersembunyi dalam data. Data mining adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa disimpulkan Data mining adalah Proses menganalisis data yang banyak dan membuat suatu pola untuk menjadi informasi yang berguna.
2.2
Cross industry Standard Process for Data Mining (CRISP– DM) Dalam jurnal “Identifying Bank Frauds Using CRISP-DM and Decision trees” oleh Da Rocha & Timóteo (2010) mengatakan “metodologi Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data mining untuk memecahkan suatu masalah”. Metodologi ini terdiri dari enam tahap proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data mining yang berukuran kecil pun dapat memperoleh
5
6 keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut sebagai siklus: 1. Business understanding Business understanding meliputi penentuan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan data mining, dan mengembangkan rencana proyek. 2. Data understanding Setelah tujuan bisnis dan rencana proyek ditetapkan, Data understanding mempertimbangkan persyaratan data. Langkah ini dapat mencakup pengumpulan data awal, deskripsi data, eksplorasi data, dan verifikasi data yang berkualitas. 3. Data preparation Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang diinginkan, dan diformat. Pembersihan data dan transformasi data dalam penyusunan pemodelan data perlu terjadi di tahap ini.
Gambar 2.1 Greedy (heuristic) methods for attribute subset selection. Sumber: (Han & Kamber, 2011, p104)
7 Terdapat beberapa teknik dalam mengolah data seperti Data Transformation, Data Reduction dan Data Cleaning, diantaranya : •
Generalization Mengubah data atribut low level menjadi atribut high level, contoh : atribut numerical menjadi ordinal.
•
Attribute construction Penambahan atribut baru untuk kepentingan proses mining.
•
Attribute subset selection Attribute subset selection dilakukan untuk pemilihan atribut yang menjadi atribut predictor. Ada 4 metode yang dapat digunakan dalam melakukan attribute subset selection, yaitu : a. Stepwise forward selection Proses metode ini adalah untuk mencari atribut terbaik dari seluruh data set dan di masukkan ke dalam data set baru berdasarkan atribut terbaik yang telah dipilih. b. Stepwise backward elimination Proses metode ini adalah untuk mencari atribut yang tidak berkaitan dengan data mining yang dicari, lalu langsung menghapusnya dari data set. c. Combination
of
forward
selection
and
backward
elimination Proses metode ini adalah penggabungan dari metode stepwise forward selection dan stepwise backward elimination.
8 d. Decision tree induction Proses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik. •
Missing Value Nilai null yang terdapat dalam data set dapat mengganggu pembuatan mining yang dilakukan. Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu : a. Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null. b. Fill in the missing value manually: mengisi sendiri nilai null yang terdapat dalam data. c. Use global constant to fill in the missing value: mengganti nilai null dengan label constant, seperti “Unknown”. d. Use the attribute mean to fill in the missing value: mengganti nilai null dengan rata-rata yang dimiliki atribut. e. Use the attribute mean for all samples belonging to the same class the given tuple: mengganti nilai null dengan nilai rata-rata yang dimilik atribut berdasarkan target kelas yang dicari. f. Use the most probable value to fill in the missing value: mengganti nilai null dengan nilai yang paling mungkin muncul berdasarkan atribut target kelas yang dicari.
9
4. Modeling Tujuan dari pemodelan data mining adalah untuk mencari hasil dari berbagai situasi yang ada. Alat perangkat lunak untuk data mining seperti visualisasi (mensplit data dan membangun hubungan) dan analisis kluster (untuk mengidentifikasikan variable berjalan dengan baik secara bersamaan) dapat berguna untuk analisis awal model yang akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian juga diperlukan untuk pemodelan. 5. Evaluation Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama (pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan perhitungan statistik pengujian berdasarkan pemodelan yang dibuat. Pada akhir dari tahap ini, keputusan penggunaan hasil data mining telah ditentukan. 6. Deployment Pembuatan dari model bukanlah akhir dari projek data mining. Meskipun tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data, pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat pada satu bentuk yang dapat digunakan oleh pengguna.
10
Gambar 2.2 CRISP-DM process Sumber: (Olson & Delen, 2008, p10)
2.3
Fungsi Data Mining Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi (Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining secara umum : 1. Classification Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih.
Gambar 2.3 Classification - Decision Tree Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
11 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.
Gambar 2.4 Clustering Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada.
Gambar 2.5 Product Association Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
4. Regression Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada.
12 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.
Gambar 2.6 Time Series Sumber: (Maclennan, Tang, & Crivat, 2009, p8)
6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian.
Gambar 2.7 Web Navigation Sequence Sumber: (Maclennan, Tang, & Crivat, 2009, p9)
7. Deviation Analysis Fungsi dari devation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).
13 2.4
Credit Scoring Credit scoring atau penilaian kredit adalah sistem cara yang digunakan oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman. Menurut Anderson (2007:6) Credit Scoring yaitu “it is the use of statistical models to transform relevant data into numerical measures that guide credit decisions” yang artinya penggunaan model statistik untuk mengubah data yang relevan ke dalam ukuran numerik yang menuntun keputusan kredit. Beda halnya dengan pendapat Mylonakis & Diacogiannis (2010:9) “Credit Scoring adalah metode mengevaluasi risiko kredit dari pemohon dan memprediksi perilaku konsumen di masa mendatang, apakah mereka akan default atau menunggak”. Terdapat bermacam-macam jenis credit scoring berdasarkan dari kategori resiko dan tugasnya. Menurut Anderson (2007:310) menjelaskan bahwa terdapat 4 macam jenis credit scoring, yaitu : 1. Application scoring Application Scoring dilakukan untuk penilain dasar pengambilan keputusan dalam penetuan pemohon kredit, apakah pemohon tersebut layak atau tidak diberikan kredit. 2. Behavioural scoring Behavioral scoring dilakukan untuk penilaian yang memfokuskan terhadap hasil dari perilaku pelaku kredit yang telah diterima permohonan kreditnya. 3. Customer scoring Customer Scoring dilakukan untuk penilain terhadap pencarian potensi yang dimiliki oleh pelaku kredit.
14 4. Collections scoring Collections scoring dilakukan untuk penilain terhadap pelaku kredit pada saat terjadinya penagihan kredit oleh lembaga keuangan. 2.5
Naive Bayes Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. The Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yang lebih baik dibanding model classifier lainnya”. Table 2.1 Result of measure
Classifier
Accuracy
Precision
Recall
F-Measure
NB Classifier
95.20%
99.37%
95.23%
97.26%
DT Classifier
94.85%
98.31%
95.90%
97.09%
15
Dalam jurnal “Credit Scoring Model Based on Simple Naive Bayesian Classifier and a Rough Set” oleh Jiang juga mengatakan “Untuk membangun model credit scoring menggunakkan pendekatan baru dengan sintesis sederhana Naive Bayesian classifier (SNBC) dan teori himpunan”. Dalam jurnal “A Proposed Classification of Data Mining Techniques in Credit Scoring” oleh Keramati mengatakan “ingin memperkenalkan metode data mining dalam masalah credit scoring menggunakan classification”. Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian classifier, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X = (x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2, ..., An. 2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika : (2.1) Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema Bayes :
(2.2)
16 Keterangan : P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior probability) P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar (likelihood) P(Ci) = Prior probability dari X (Prior probability) P(X) = Jumlah probability tuple yg muncul 3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P (C2) = · · · = P (Cm), maka dari itu akan memaksimalkan P (X | Ci). Jika tidak, maka akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |, dimana | Ci, D | adalah jumlah tuple pelatihan kelas Ci di D. 4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam
mengkomputasi
untuk
menghitung
P(X|Ci).
Agar
dapat
mengurangi perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve independensi kelas bersyarat dibuat.
Dianggap bahwa nilai-nilai dari
atribut adalah kondisional independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara atribut ) dengan demikian :
(2.3) Maka dapat dengan mudah memperkirakan probabilitas P (x1 | Ci), P (x2 | Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu
17 pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut kategorikal atau continuous-valued . Misalnya, untuk menghitung P (X | Ci) mempertimbangkan hal-hal berikut: a) Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah jumlah tuple kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci, D |, jumlah tuple kelas Ci di D. b) Jika Ak continuous-valued , maka perlu melakukan sedikit lebih banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut
continuous-valued
biasanya
diasumsikan
memiliki
distribusi Gaussian dengan rata-rata µ dan standar deviasi σ, didefinisikan oleh
(2.4) sehingga : (2.5) Setelah itu hitung µCi dan σCi, yang merupakan deviasi mean (rata-rata) dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci. Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan xk, untuk memperkirakan P (xk | Ci). 5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci, jika (2.6) Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P (Ci) adalah maksimal.
18 Pengklasifikasi
Bayesian
memiliki
tingkat
kesalahan
minimal
dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk penggunaannya, seperti kondisi kelas independen, dan kurangnya data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran teoritis
untuk
pengklasifikasi
lain
yang
tidak
secara
eksplisit
menggunakan teorema Bayes. 2.6
Holdout Method Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test set. Training set digunakan untuk memperoleh model. Test set digunakan untuk menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370). Dalam jurnal ilmiah Computers in Biology and Medicine yang berjudul
“Diagnosis of breast cancer using Bayesian networks”, penelitian tersebut menggunakan holdout method untuk membuat pemodelan naïve bayes, dimana data training berjumlah 67% dan data testing sebesar 33%.
Gambar 2.8 Estimating accuracy with the holdout method Sumber: (Han & Kamber, 2011, p370)
2.7
Evaluasi kinerja Classifier
19 Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas yang berbeda. TP dan TN memberikan informasi ketika classifier benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar Confusion matrix ditunjukan pada gambar 2.8.
Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple Sumber: (Han & Kamber, 2011, p366)
Langkah
sensitivity
dan
specificity
dapat
digunakan
untuk
pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives (recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar). Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang diidentifikasi secara benar).
(2.7)
(2.8) Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan spesifisitas:
(2.9) Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error Rate:
20
atau Error rate = 1 – Accuracy 2.8
(2.10)
Kerangka Pikiran Data Mining dan Application Scoring Pada penelitian ini, menggunakan metode studi lapangan dan studi pustaka untuk mendapatkan data dan informasi yang terkait dengan topik skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set tersebut diproses menggunakan tehnik Data Preprocessing. Data yang telah selesai diproses akan dibuat pemodelan dengan menggunakan model naïve bayes. Dan hasilnya akan di tentukan apakah pemohon tersebut masuk ke kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk menentukan kelayakan model yang dibuat. Indicator, Proposed, Objectives, dan Measurement mengacu dengan metode CRISP-DM yang ditunjukkan pada gambar 2.10.
CRISP-DM Indicator Studi lapangan: Survei, wawancara, dan observasi Studi pustaka: buku literature, tesis dan jurnal
Data Preprocessing “BRI-SCORING”
Proposed
Objectives
Measurement
“BRISCORING” Data Set
Naïve Bayes
Model Result (App-Status : Approve/Reject)
Gambar 2.10 Kerangka Pikiran Data Mining dan Application Scoring
Sensitivity Specificity Accuracy Error Rate