Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi
Avinanta Tarigan
22 Nov 2008 1
Avinanta Tarigan
Data Mining
Outline
2
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Pengertian Dasar
Outline
3
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Pengertian Dasar
Latar Belakang Banyak data yang telah direkam dan disimpan: Transaksi penjualan supermarket Transaksi perbankan dan kartu kredit Log kunjungan Web (access_log) Akuisisi data dalam penelitian-penelitian seperti astronomi, kesehatan, dll
Sistem komputer lebih murah dan cepat (Moore’s Law)
4
Avinanta Tarigan
Kebutuhan untuk berkompetisi dengan strategi yang tepat menjadi lebih tinggi Data Mining
Pengertian Dasar
Mengapa Harus Data Mining ? Data yang sedemikian besar kadang memiliki informasi yang tersembunyi Kemampuan manusia terbatas untuk “mempelototi” data-data tersebut dalam analisis
5
Avinanta Tarigan
Data Mining
Pengertian Dasar
Definisi2 Data Mining
Data Rekaman atau catatan terhadap fakta / transaksi / obyek Definisi Ekstraksi informasi yang implisit, tidak diketahui sebelumnya, dan berpotensi berguna Eksplorasi dan analisis, secara otomatis atau tidak, data yang sangat besar untuk menemukan pola-pola yang berguna dan mempunyai arti
6
Avinanta Tarigan
Data Mining
Pengertian Dasar
Pengertian Yang Salah
Bukan Data Mining
Data Mining
Mencari nomor telepon “Bambang Gunawan” di buku telepon Indonesia
Menemukan bahwa banyak orang bernama Bambang di daerah Jawa Timur
Mencari informasi mengenai “Bunga” di google.com
Mengelompokkan dokumen web mengenai “Bunga” sesuai dengan konteks Bunga Bank atau Kredit (Keuangan) Bunga - Tanaman / Pertanian BCL (Artis)
7
Avinanta Tarigan
Data Mining
Pengertian Dasar
Sistem Ekstraksi Pengetahuan KDD (Knowledge Discovery in Databases)
8
Avinanta Tarigan
Data Mining
Pengertian Dasar
Ilmu Data Mining
Gabungan dari beberapa bidang ilmu dalam Matematik dan Ilmu Komputer Diperlukan karena: Data yang s(u)angat b(u)esar Dimensi data yang besar Data Heterogen
9
Avinanta Tarigan
Data Mining
Pengertian Dasar
Data
Kumpulan obyek data dan atributnya Obyek : record, point, case, sampel, entitas, instan Atribut / variabel / field : karakteristik dari obyek (status pernikahan, umur, dll)
10
Avinanta Tarigan
Data Mining
Classification Mining
Outline
11
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Classification Mining
Classification Mining
Ekstraksi pola pengelompokan atau pengklasifikasian sebuah himpunan obyek / data (training-set) ke dalam kelas (class) tertentu berdasarkan atribut-atributnya Pola pengelompokan yang ditemukan akan menjadi model pengelompokan Model digunakan untuk memprediksi kelompok data / obyek baru (test-set)
12
Avinanta Tarigan
Data Mining
Classification Mining
Ilustrasi Classification Mining
13
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi I
Pemakaian Kartu Kredit secara Ilegal Tujuan : mendeteksi adanya penggunaan kartu kredit secara ilegal Pendekatan : Data transaksi sebelumnya (lokasi & waktu transaksi, jenis barang yang dibeli, besar transaksi) Label data-data tersebut dengan Curang atau Aman DM mencari model klasifikasi Curang atau Aman berdasarkan atribut transaksi Menerapkan model tersebut jika ada transaksi baru untuk mempercepat / tepat tindakan preventif
14
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi II Deteksi SPAM Tujuan : mendeteksi email yang tidak diharapkan secara dini
Direct Marketing Tujuan : mencari pengelompokan profil pelanggan agar target marketing sesuai
Sky Survey Cataloging Tujuan : mengelompokkan obyek langit hasil pemotretan teleskop ke dalam class-nya
15
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi III
16
Avinanta Tarigan
Data Mining
Classification Mining
Teknik / Metode
Decision Tree (Pohon Keputusan) Rule-based Methods Memory based reasoning Neural Networks (Jaringan Syaraf Tiruan) Naive Bayes dan Bayesian Belief Networks Support Vector Machines
17
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Model: Pohon Keputusan I
18
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Model: Pohon Keputusan II
Bagaimanakah Algoritma Pembentuk Pohon Keputusan Tersebut ? 19
Avinanta Tarigan
Data Mining
Association Mining
Outline
20
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Association Mining
Association Mining
Menemukan pola asosiasi dalam data Adanya kemunculan obyek tertentu berdasarkan kemunculan obyek yang lain
21
Avinanta Tarigan
Data Mining
Association Mining
Contoh Aplikasi I
Marketing & Sales Promotion Misalnya pola yang ditemukan : {Susu Anak, ...} → {Kwaci} Kwaci sebagai konsekuen : bagaimana caranya menaikkan penjualan kwaci Susu Anak sebagai anteseden : jika tidak lagi menjual susu anak, memprediksi produk lain yang ikut jatuh penjualannya Dua-duanya : membuat paket promo Susu Anak, Kwaci, dll
22
Avinanta Tarigan
Data Mining
Association Mining
Contoh Aplikasi II
Pengelolaan Rak di Supermarket Tujuan: memudahkan pelanggan berbelanja barang-barang yang sering dibeli bersama Misalnya: ada rak kecil berisi kwaci diletakkan pada bagian susu anak
Sistem Rekomendasi Pintar Tujuan: memberikan rekomendasi kepada pelanggan toko buku on-line tentang buku-buku lain yang sering dibeli juga oleh pelanggan lainnya jika membeli buku tertentu
23
Avinanta Tarigan
Data Mining
Association Mining
Metode Rule asosiasi : X → Y 1
Membangkitkan semua item-set yang kemunculannya tinggi pada data 1
2
2
Mencari pola asosiasi yang mempunyai “confidence” yang tinggi 1
2
3
24
Bentuk Lattice (struktur yang akan memunculkan semua subset yang diurutkan berdasarkan subset - superset) Menyeleksi item-set dg Support yang tinggi. Support = Jumlah Transaksi Yg Berisi X dan Y Jumlah Keseluruhan Transaksi
Confidence = Mengukur seberapa sering item di Y juga muncul pada transaksi yang berisi X Gunakan pencarian Bread-First-Search atau Depth-First-Search pada Lattice tsb
Seleksi akhir dengan “Interestingness Measure”. Asosiasi{Kopi} → {Gula} tentunya tidak menarik Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi I Pembentukan Lattice
25
Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi II Seleksi “Support”
26
Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi III Seleksi High “Confidence”
27
Avinanta Tarigan
Data Mining
Clustering
Outline
28
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Clustering
Clustering (Penggugusan) Definition Proses mencari gugus-gugus dari sekumpulan obyek sehingga obyek-obyek di dalam sebuah gugus mirip satu dengan lainnya, dan berbeda dengan obyek di luar gugusnya.
29
Avinanta Tarigan
Data Mining
Clustering
Contoh Aplikasi I
Web-Document Clustering: Tujuan: mencari gugus dokumen-dokumen Web yang mirip berdasarkan kemunculan istilah penting Pendekatan: mengidentifikasi istilah yang sering muncul pada setiap dokumen, mengukur kemiripan berdasarkan frekwensi kemunculan istilah pada dokumen lainnya Hasil: Web search engine memunculkan dokumen-dokumen yang mirip (dalam 1 gugus) berdasarkan istilah yang dicari
30
Avinanta Tarigan
Data Mining
Clustering
Contoh Aplikasi II Segmentasi Pasar: Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing Pendekatan: mempersiapkan data beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya mencari gugus pelanggan yang mirip berdasarkan atribut2 tsb melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan
Hasil: strategi marketing yang tepat sasaran
31
Avinanta Tarigan
Data Mining
Clustering
Mengukur Kemiripan Atribut Data I Kemiripan (Similarity): ukuran dalam numerik [0,1] yang merepresentasikan kemiripan antara 2 obyek 0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali)
Ketidakmiripan (Disimilarity) vs Kemiripan p dan q adalah nilai atribut dari 2 obyek Tipe Atribut Ketidakmiripan Kemiripan ( ( 0 if p = q 0 if p 6= q Nominal d= s= 1 if p 6= q 1 if p = q Ordinal Interval / Ratio
32
d = |p−q| n d = |p − q|
Avinanta Tarigan
Data Mining
s = 1 − |p−q| n s = −d atau s =
1 1+d
Clustering
Mengukur Kemiripan Atribut Data II
Pengukuran kemiripan variabel kontinyu: Euclidean q Distance: dist = ∑ni=1 (pi − qi )2 Minkowski Distance: 1 dist = ∑ni=1 |pi − qi |r r
33
Avinanta Tarigan
Data Mining
Clustering
Mengukur Kemiripan Atribut Data III Contoh Euclidean Distance
34
Avinanta Tarigan
Data Mining
Clustering
Contoh Algoritma Pencari Gugus
K -Means Clustering, Konsep: Centroid → titik tengah gugus Algoritma (asumsi: sudah dilakukan pengukuran kemiripan) 1 2 3
4 5
35
Tentukan K points sebagai awal centroids Repeat Buat K buah gugus dengan memasukkan point-point yang dekat dengan centroid Cari centroid baru dari gugus-gugus tersebut Until Centroid tidak berubah
Avinanta Tarigan
Data Mining
Clustering
Ilustrasi K-Means
36
Avinanta Tarigan
Data Mining
Penutup
Outline
37
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Penutup
OnLine Analytical Processing I
Diusulkan oleh E.F. Codd (Bapak Relational Database) Data tidak diolah dari database, melainkan dibentuk dalam array multidimensi Data dapat direpresentasikan sebagai titik / point dalam ruang multi-dimensi jika atribut2 nya adalah numerik Matriks m × n dapat merepresentasikan model data tsb, dimana terdapat m obyek dan n atribut (Data Cube) Keuntungan: explorasi, operasi, dan transformasi data dapat lebih mudah dilakukan dan (hampir) real-time
38
Avinanta Tarigan
Data Mining
Penutup
OnLine Analytical Processing II
Banyak analisis terhadap transaksi bisnis dengan volume besar dapat dilakukan dengan menggunakan OLAP OLAP menjadi Jargon banyak Vendor 39
Avinanta Tarigan
Data Mining
Penutup
Informasi Mengenai Data Mining
Tan, Steinbach, Kumar, “Introduction to Data Mining”
http://en.wikipedia.org/wiki/Data_mining
40
Avinanta Tarigan
Data Mining
Penutup
Selesai
TERIMAKASIH
presentasi ini sendiri dapat didownload dari
http://avinanta.staff.gunadarma.ac.id
41
Avinanta Tarigan
Data Mining