BAB II LANDASAN TEORI
2.1 Data Mining Data mining mengacu pada proses ekstraksi atau “menggali” pengetahuan dari sekumpulan data yang besar. Data mining mempunyai nama lain yang dikenal secara popular dengan sebutan Knowledge Discovery from Data (KDD). Proses Knowledge Discovery adalah sebagai berikut (Han,2006,pp 5-7) : 1. Data Cleaning Berguna untuk menghilangkan noise dan data yang tidak konsisten 2. Data Integration Dimana data yang berasal dari sumber data yang lebih dari satu dapat dikombinasikan. 3. Data Selection Dimana data relevan terhadap tugas analisa yang didapat dari database. 4. Data Transformation Dimana data diubah atau dikonsolidasi menjadi bentuk yang tepat untuk dilakukan mining dengan kesimpulan dan operasi aggregasi.
6
7
5. Data Mining Proses dimana metode intelligent di terapkan untuk melakukan ekstraksi terhadap pola data. 6. Pattern Evaluation Melakukan identifikasi terhadap pola data yang merepresentasikan knowledge base didalam suatu ukuran. 7. Knowledge Presentation Dimana visualisasi dan teknik representasi dari sebuah knowledge digunakan untuk knowledge dari user dimasa sekarang.
2.2 Proses Data Mining 2.2.1 CRISP- DM Model Cross- Industry Standard Process for Data Mining (CRISP-DM) banyak digunakan di berbagai industry (Olson,2008,pp 9-18). Model ini terdiri dari 6 tahap proses :
Gambar 2.1 Proses CRISP DM (Olson,2008,pp 10)
8
1. Business Understanding Pada tahap ini pemahaman bisnis meliputi penentuan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan dari data mining, dan mengembangkan rencana proyek. 2. Data understanding Setelah tujuan bisnis dan rencana proyek dibuat, tahap ini akan mempertimbangkan tentangkebutuhan data. Langkah ini dapat mencakup pengumpulan awal data, deskripsi data, eksplorasi data, dan verifikasi dari kualitas data.Data eksplorasi seperti melihat ringkasan statistik dapat terjadi pada akhir fase ini. Model analisis cluster dapat diterapkan selama tahap ini, dengan maksud mengidentifikasi pola-pola dalam data. 3. Data preparation Setelah sumber data yang tersedia diidentifikasi, data harus dipilih, dibersihkan, dibangun ke dalam bentuk yang diinginkan, dan di beri format.Pembersihan data (Data Cleaning) dan transformasi data dalam persiapan data pemodelan terjadi pada fase ini.Data eksplorasi pada kedalaman yang lebih besar dapat diterapkan selama fase ini, dan model tambahan digunakan, untuk menyediakan kesempatan untuk melihat pola yang didasarkan pada pemahaman bisnis. 4. Modeling Tools untuk data miningseperti visualisasi (plotting data dan membangun hubungan) dan analisis cluster (untuk melakukan identifikasi variabel-
9
variabelyang berjalan dengan baik bersama-sama) yang berguna untuk analisisawal. Tools seperti induksi aturan umum dapat mengembangkan aturan asosiasi awal.Setelah pengertian tentang data didapatkan (seringkali melalui pattern recognition yang dapat dilihat berdasarkan output dari model), model lebih rinci sesuai dengan tipe data dapat diterapkan. Pembagian data menjadi training set dan test set juga dibutuhkan untuk pemodelan.
5. Evaluation Hasil dari model harus dievaluasi dalam konteks sasaran bisnisyang telah didirikan pada tahap pertama (Business Understanding). Hal ini akan mengarah pada identifikasi kebutuhan lainnya (terkadang melalui pattern recognition), atau kepada fase sebelumnya CRISP-DM. Mendapatkan pemahaman akan bisnis merupakan prosedur iterasi dalam data mining, di mana hasil dari berbagai visualisasi, statistik, dan alat kecerdasan buatan menunjukkan hubungan pengguna baru yang memberikan pemahaman yang lebih dalam operasi suatu organisasi. 6. Deployment Data mining dapat digunakan untuk melakukan verifikasi yang dihasilkan dari hipotesis, atau untuk knowledge discovery (identifikasi tak terduga dan hubungan yang bermanfaat). Melalui knowledge discovery difase awal dari proses CRISP-DM, model dapat diperoleh yang kemudian dapat diterapkan pada operasi bisnis untuk berbagai tujuan, termasuk prediksi atau identifikasi situasi kunci. Model ini perlu dipantau untuk perubahan kondisi dari sebuah
10
operasi, karena apa mungkin benar hari ini mungkin tidak benar ditahun berikutnya. Bila perubahan signifikan memang terjadi, model harus diulang.
2.3 Strategi Data Mining 2.3.1 Supervised Learning Supervised Learning membangun sebuah model dengan menggunakan sebuah variabel, Langkah pertama sebuah algoritma akan menyediakan sebuah training set data dimana mencakup nilai-nilai sebelum diklasifikasikan dari variabel target selain prediktor. Langkah kedua yaitu untuk menguji bagaimana model data mining sementara pada tes data set. Dalam melakukan tes set, ketidaksepakatan data set, nilai-nilai sementara variabel target yang tersembunyi dari model sementara, kemudian melakukan klasifikasi menurut pola dan struktur itu kemudian dipelajari dari pelatihan yang ditetapkan.Manfaat dari klasifikasi kemudian dievaluasi dengan membandingkan terhadap nilai-nilai sebenarnya dari variabel target sementara model data mining kemudian disesuaikan untuk meminimalkan tingkat kesalahan pada tes ditetapkan.(Larose, 2005, pp 91-92). Beberapa metode supervised yaitu decision trees, neural network, danknearestneighbors.
11
2.3.2 Unsupervised Learning Dalam metode unsupervised learning, tidak ada variabel target yang di identifikasi dengan demikian. Sebaliknya, algoritma pencarian data mining untuk pola dan struktur di antara semua variabel. Metode unsupervisedadalah clustering.
2.4 Klasifikasi dan Prediksi Klasifikasi adalah sebuah proses untuk mencari model atau fungsi yang menjelaskan dan membedakan kelas atau konsep dari data, dengan tujuan untuk menggunakan model dan melakukan prediksi dari kelas suatu objek dimana tidak diketahui label dari kelas tersebut. Model yang ada berasal dari analisis dari kumpulan training data (objek data dimana kelas dari label diketahui) (Han,2006,pp 24-26) Derived model dapat direpresentasikan di berbagai macam bentuk, seperti aturan klasifikasi (IF-THEN) ,decision trees, mathematical formula, atau neural network. Decision tree adalah seperti flow chart tree structure, dimana setiap node test dari nilai atribut, setiap cabang merepresentasikan output dari test dan daun pohon merepresentasikan kelas atau distribusi dari kelas.Neural network, ketika digunakan untuk klasifikasi adalah sebuah koleksi dari neuron like processing unit dengan weighted connections diantara unit. Banyak metode untuk melakukan konstruksi terhadap model klasifikasi, seperti naïve Bayesian classification, support vector machine, dan k-nearest neighbor classification.
12
2.4.1 Feature Selection Pengertian feature selection menurut (Martin Seweel,2007) adalah sebuah proses yang bisaa digunakan pada machine learning dimana sekumpulan dari features yang dimiliki data digunakan untuk pembelajaran algoritma. Subset yang baik memiliki sedikitnya dimensi angka yang paling banyak berkontribusi untuk akurasi dan nantinya akan dibuangnya sisa dari dimensi yang tidak berkepentingan. Ini merupakan langkah penting dalam tahap preprocessing dan salah satu cara untuk menghindari curse of dimentionality. Forward selection dimulai tanpa variabel dan menambahkan mereka satu persatu, pada setiap langkah ditambahkan variabel yang menurunkan error paling banyak, sampai semua error dihilangkan. Backward selection dimulai dengan semua variabel dan membuangnya satu persatu, pada setiap langkah membuang variabel yang membuang error paling banyak sampai semua error dihilangkan. Untuk menghilangkan overfitting, kesalahan yang disebutkan diatas adalah kesalahan pada validasi yang berbeda dari training set.
2.4.1.1Variance of Variable Subset Selection Menurut (Isabelle Guyon dan Andree elisseff,2003) banyak metode dari variable subset selection sensitif terhadap gangguan kecil saat dilakukan percobaan. Jika terdapat variable yang bersifat redundan, himpunan bagian yang berbeda dari variable dengan prediksi yang identic dapat diperoleh sesuai dengan kondisi awal dari algoritma atau tambahan dari beberapa variable atau contoh
13
training. Untuk sebagian aplikasi, seseorang bertujuan menghasilkan subset yang dpat disajikan pada tahap proses berikutnya tetapi terkadang masih terdapat varian yang tidak diinginkan karena varian memiliki model yang buruk yang tidak tergeneralisasi dengan baik, hasil tidak dapat diproduksi kembali, dan subset tersebut gagal untuk mengambarkan keseluruhan gambaran. Salah satu metode untuk melakukan stabilisasi dengan menggunakan beberapa “bootstraps“. Proses variable selection dilakukan berulang dengan sub sample dari training data. Gabungan subset yang terdiri dari beberapa variable di bootstrap yang berbagai macan diambil sebagai subset yang stabil
2.4.1.2Supervised Feature Selection Ulasan tentang 3 pendekatan untuk memilih features dimana features harus dibedakan dari variabel karena keduanya muncul bersamaan disistem yang sama (Isabelle Guyon dan Andree elisseff,2003) : 1. Nested subset methods. Sejumlah extract features dari learning machines sebagai bagian dari proses pembelajaran. Hal ini termasuk neural network dimana internal nodes nya merupakan feature extractors. 2. Filters Torkkola (2003) mengajukan metode filter untuk menbangun features
menggunakan
memaksimalkan
mutual
information
untuk feature vectors
criterion.
Penulis
pada dimensi m dan target
14
vektor y. Melakukan modeling pada fungsi kepadatan fitur dengan Parzen windows memperbolehkan komputasi derivatif bersifat
transform
independent..
transform-dependent derivatives
Kemudian
yang dimana digabungkan
dengan
, dibuat algoritma gradient
keturunan untuk melakukan optimasi parameter w dari transform
3. Direct objective optimization Metode kernel memiliki fitur ruang implisit yang diungkapkan oleh :
adalah feature vector yang
terbatas dimensi. Memilih fitur yang implisit dapat meningkatkan generalisasi, tetapi tidak mengubah waktu yang berjalan.Didalam kasus ini. Weston et al (2003) mengusulkan metode untuk memilih kernel feature secara implisit dengan polynomial kernal, menggunakan kerangka dari minimisasi L0-norm.
2.4.2Support Vector Machine Menurut (Habib,2008) Support Vector Machines adalah sebuah metode baru yang menjanjikan untuk klasifikasi baik data linier dan nonlinier. Dalam Singkatnya, Support Vector Machine (atau SVM) adalah algoritma yang bekerja sebagai berikut. Menggunakan pemetaan nonlinier untuk mengubah training data ke dimensi yang lebih tinggi. Dalam dimensi baru ini akan dicari sebuah optimal
15 1
l linear yang g
memisahhkan hyperrplane (yaiitu, sebuahh
"batas
k keputusan"
m memisahkan n tuple dari satu kelas dari yang lain). l Dengaan pemetaann nonlinier y yang sesuai ke dimensi cukup tingggi, data dari dua kelas sselalu dapat dipisahkan d dengan seb buah hyperrplane.Suppoort Vectorr Machine menemukaan bahwa h hyperplane tersebut meenggunakan dukungan vektor v ("pennting" pelatiihan tupel) d margin (didefinisika dan ( an oleh vektoor dukungann).
2 2.4.2.1 Su upport Ve ector Mac chineForr Pattern Recognittion Menuurut (Madzzarov,et.al,20009,pp 2333-241) Suppport Vectorr Machine m merupakan metode m klassifikasi binerr yang dikem mbangkan oleh Vapnik dan rekanr rekan di laboratorium Bell B (Vladim mir,1998) (Bu urges,1998).. Untuk massalah biner, k kami memilliki pelatihann titik data: {xi, yi}, i=1,..., l,yi={-1, 1}, xi,Rdd. Misalkan k memilik kita ki beberapa hyperplane yang memiisahkan posiitif dari conntoh contoh n negatif (a "m memisahkann hyperplanee"). Titik-tittik x yang terdapat t di hyperplane h m menunjukan n wx+b=0, dimana w adaalah keadaann normal unttuk hyperplaane itu, |b|/| | |adalah jarak |w| j tegak lurus dari hyperplane ke asal, daan| |w| |adallah bentuk E Euclidean dari d w. Dianndaikan d+((d-) menjadii jarak terpeendek dari hyperplane h y yang memissahkan ke contoh c posittif (negatif) terdekat. m misalnya. Diddefinisikan " "margin" daari hyperplaane yang teerpisah mennjadi d++d--. Untuk kaasus linear t terpisah, alg goritma duk kungan vekktor hanya terlihat meemisahkan hyperplane h d dengan marrgin terbesar. Hal ini ddapat dirum muskan sebaagai berikut: dianggap b bahwa semu ua data pelatiihan memennuhi batasan sebagai beriikut:
16
H ini dapaatdigabungkaan menjadi ssatusetdari peertidaksamaan: Hal
P Perhatikan tiitik-titik kessetaraan dalaam Persamaaan. ( holds (m (1) membutuhkan n adanya poiin a) adalah setara dengaan memilih skala s untuk w dan b. Tiitik-titik yanng terdapat di hyperplanne H1: xi w • + b = 1 dengan w n normal dan jarak tegak lurus dari tiitik asal | 1--b | / | | w | |. Demikian pula, poin y yang setara dalam d Persaamaan. (2)hoolds terdapatt di H2 hyperrplane: b w xi + • = -1, d denganw normal dan jarrak tegak lurrus dari asal |-1-b | / | | w | |. Oleh karrena itu d + = d-= 1 / | | w | | dan marrgin adalah hhanya 2 / | | w | |.
Gam mbar 2.2 Linnear separatting hyperplaane untuk kasus yaang terpisah.(Madzarov,,et.al,2009,ppp 234)
S Support Vecctor dilingkaari. Perhatikaan bahwa H1 dan H2 sejjajar (merek ka memiliki k keadaan yanng sama norrmal) dan bahwa tidak ada titik peelatihan jatuh h di antara m mereka. Dengan demikkian kita daapat menem mukan sepasaang hyperpllanes yang m memberikan n margin makksimal denggan meminim malkan | |w| |22.
17
2.4.2.2 Teknik Multiclass Support Vector Machine 2.4.2.2.1One-against-all (OvA) Menurut (Habib,2008) Untuk masalah N-kelas (N>2), N two-class SVM Classifiers dibangun (Vladimir,1999). SVM dilatih ketika proses labeling sampel didalam contoh kelas positif dan sisanya contoh kelas negatif .Dalam fase pengakuan, contoh uji disajikan kepada semua NSVMs dan diberi label menurut output maksimum antara pengklasifikasiN. Kerugian dari metode ini adalah kompleksitas pelatihan, jumlah pelatihan sample tergolong besar. Setiap pengklasifikasi N dilatih menggunakan semua sampel yang tersedia.
2.4.2.2.2One-against-one (OvO) Algoritma ini membangun N (N-1) / 2 two-class classifiers, menggunakan semua pasangan- kombinasi binary pair-wise dari kelas N. Setiap classifier dilatih dengan menggunakan sampelkelas pertama sebagai contoh positif dan sampelkelas dua sebagai contoh negatif. Untuk menggabungkan penggolong, algoritma Max Wins digunakan. Ditemukan kelas yang dihasilkan dengan memilih kelas dipilih oleh mayoritas pengklasifikasi (Friedman,1997). Jumlah sample digunakan untuk pelatihan masing-masing dari pengklasifikasi 0v0 adalah lebih kecil, karena sampel hanya dari dua dari semua kelas N diambil dengan pertimbangan. Jumlah sampel yang lebih rendah menyebabkan non linieritas yang kecil, sehingga waktu pelatihan lebih singkat.Kerugian dari metode ini adalah bahwa setiap tes sampel harus disampaikan kepada sejumlah besar penggolong N
18
(N-1) / 2.Hal ini mengakibatkan pengujian lebih lambat, terutama ketika jumlah kelas dalam masalah besar (Xu,2003,pp 1116-1119).
2.5Confusion Matrix Menurut (Neila et al, 2012) metode klasifikasi akan dilakukan evaluasi terutama pada bagian akurasi dari hasil klasifikasi. Akurasi sebuah klasifikasi berpengaruh terhadap performa dari suatu klasifikasi.Untuk melakukan analisa dapat digunakan confusion matrix yaitu sebuah matrik dari prediksi yang akan dibandingkan dengan kelas yang asli dari data inputan. Sebagai contoh, sebuah test (i,j) dari sebuah confusion matrix adalah persentase dari waktu dari sebuah classifier yang melakukan identifikasi input I sebagai pattern dari kelas j. Setiap kolom dari matriks berkorespondensi kepada classifier output dan setiap baris pada input. Akurasi sebuah klasifikasi dimana i=j menerangkan akurasi dari klasifikasi pada setiap kelas.
2.6Telemarketing Menurut (Mehrotra, A., & Agarwal, R.,2009) telemarketing merupakan proses interaktif antara perusahaan dan pelanggannya menggunakan media sistem yang komprehensif
untuk mendapatkan respon dari pelanggan. Hal tersebut
merupakan seni dan ilmu dari mendapatkan penawaran yang tepat, pelanggan yang tepat diwaktu yang tepat untuk memenuhi kebutuhan pelanggan akan produk dan servis.Telemerketing banyak digunakan di banyak industri termasuk perusahaan telekomunikasi, perbankan, asuransi, dan lainnya. Telemarketing merupakan metode yang lebih dominan dari direct marketing yang digunakan oleh banyak perusahaan untuk mendapatkan pelanggan dengan cara melakukan
19
hubungan antar pelanggan dan sales person yang terbentuk melalui percakapan telepon. Terdapat 2 macam tipe dari telemarketing yaitu inbound dan outbound . Inbound marketing adalah ketika pelanggan dihubungi oleh perusahaan melalui telepon dengan tujuan mengadukan komplain, mendapatkan informasi dan lainnya.
Sedangkan
outbound
telemarketing
adalah
ketika
perusahaan
menghubungi pelanggan untuk menjual produk, melihat riset pasar dan lain lain.Telepon merupakan medium paling ideal untuk bangunan dan menjaga hubungan
yang
dekat
dengan
pelanggan.Telemarketing
yang
efektif
membutuhkan kualitas data pelanggan yang bagus, kemampuan pengelompokan, dan hasil yang bisa dijelaskan untuk strategi dan melakukan percobaan. Teknologi seperti data mining banyak digunakan oleh perusahaan untuk lebih mengerti pelanggannya lebih baik dan melayani lebih baik.