Konsep dan Teknik Data Mining
Edward Purba
Pengantar DM
1/52
Pengantar Data Mining (DM) Motivasi Mengapa? Apa? Aplikasi Proses KDD Tinjauan DM Isu Utama Edward Purba
Pengantar DM
2/52
Motivasi: “Kebutuhan Merupakan p Sumber Penemuan” • Problem ledakan data – Tool koleksi data otomatis dan perkembangan teknologi database menyebabkan banyak sekali data yang bisa dikumpulkan di dalam database, data warehouse, dan alat peyimpanan informasi a ya, untuk u tu dianalisa d a a sa lainnya,
• Kita berkubang data tetapi kelaparan pengetahuan! t h ! Edward Purba
Pengantar DM
3/52
Motivasi: “Kebutuhan Merupakan p Sumber Penemuan” • Solusi: Penggudangan data dan penambangan data (Data warehousing and data mining) – Data warehousing dan on-line analytical processing (OLAP) – Penyaringan pengetahuan yang menarik (k id h keberaturan, (kaidah, k b t pola, l kendala) k d l ) dari d i data d t dalam database yang besar Edward Purba
Pengantar DM
4/52
Komputer Tahun 19401940-an (ENIAC)
Edward Purba
Pengantar DM
5/52
Personal Home Network Tahun 2000--an 2000 File E dit
L ocate
View
Storage
H elp
500 E D C B A
400 300
200 100
0
1
2
3
4
5
6
Network Traffic
7
Mount 431 7437 1950 79% / 02 631963 47358 Help 93% /us
Storage
Storage Storage Storage
Storage
Storage
Internet Storage
Edward Purba
Pengantar DM
6/52
Evolusi atau Perkembangan Teknologi Database • 1960an: Koleksi data, pembuatan data, IMS dan network t k DBMS • 1970an: Model data relasional dan implementasi DBMS relasional l i l • 1980an: RDBMS, model data lanjut (extendedrelational OO, relational, OO deduktif, deduktif dsb dsb.)) DBMS berorientasi aplikasi(spasial, saintifik, teknik, dsb.) • 1990an –2000an: Data mining dan data warehousing, database multimedia, teknologi Web Edward Purba
Pengantar DM
7/52
Apa Itu Data Mining? • Pada dasarnya: Perolehan pengetahuan dari data – “Ekstraksi informasi atau pola yang menarik ((tidak sepele, p implisit, p tak-diketahui sebelumnya, mungkin bermanfaat) dari data didalam database yang besar" • Seringkali S i k li hanya: h – “Memberitahu sesuatu yang menarik dari data ini" ini , “Menguraikan Menguraikan data ini ini" Ö Penyelidikan: analisa data semisemi-otomatis atas sekumpulan data yang besar Edward Purba
Pengantar DM
8/52
Apa Itu Data Mining? • Istilah yang rada baku: –D Data mining i i • Biasanya DM adalah salah satu proses KDD – Knowledge discovery in databases (KDD) • Istilah umum yang meliputi, preprocessing data, DM, dan postprocessing • Istilah yang tidak terlalu sering digunakan: – Ekstraksi pengetahuan, arkeologi data, pengerukan p g data,, ppenuaian informasi,, analisa data/pola • Publisitas terbaru: – Kecerdasan bisnis, manajemen pengetahuan Edward Purba
Pengantar DM
9/52
Mengapa Data Mining? • Ketersediaan data dalam jumlah yang sangatt b besar: – Tool koleksi data otomatis dan perkembangan teknologi database menyebabkan banyak sekali data yang bisa dikumpulkan di dalam database, data warehouse, dan alat ppeyimpanan y p informasi lainnya y – Pemeriksaan data manual adalah membosankan dan terkadang tidak masuk akal Edward Purba
Pengantar DM
10/52
Apa Manfaat Dari DM? Meningkatkan pengetahuan agar bisa membuat keputusan berdasarkan:
Marketing Misal, pengaruh pada marketing P Peran dan d pengaruh h DM yang bertumbuh pesat dan masih bertumbuh! Tetapi DM tidaklah sekedar marketing marketing... Edward Purba
Pengantar DM
Database D t b Marketing
Data Warehousing
KDD & Data Mining
11/52
Potensi Aplikasi? • Analisis database dan dukungan keputusan: – Analisis dan manajemen pasar • Target pasar, pasar manajemen relasi customer (CRM), analisis keranjang pasar, penjualan silang, segmentasi pasar – Analisis dan manajemen resiko • Peramalan, Peramalan tindakan mempertahankan customer, peningkatan asuransi, kontrol kualitas, analisis kompetitif – Deteksi dan manajemen kecurangan Edward Purba
Pengantar DM
12/52
Potensi Aplikasi? • Aplikasi lain: – Text mining (news group, email, dokumen) dan Web mining – Stream data mining – Analisis A li i DNA ddan bi bio data d t
Edward Purba
Pengantar DM
13/52
Analisis dan Manajemen Pasar • Dari mana data berasal? – T Transaksi k i kartu k t kredit, k dit loyalty l lt cards, d kupon k discount, di t keluhan k l h customer, kajian lifestyle publik
• Target Pasar – Mendapatkan kelompok model customer yang berbagi karakteristik yang sama: minat, tingkat pendapatan, kebiasaan b l j dsb. belanja, db – Menentukan pola pembelian customer berdasarkan waktu
• Analisis lintas pasar – Asosiasi/korelasi antara penjualan produk & taksiran berdasarkan asosiasi demikian Edward Purba
Pengantar DM
14/52
Analisis dan Manajemen Pasar • Profil customer – Ti Tipe customer t apa membeli b li produk d k apa (pengelompokan atau klasifikasi)
• Analisa A li kebutuhan k b t h customer t – Mengenali produk terbaik untuk customer berbeda – Meramalkan M lk ffaktor kt apa yang akan k memikat ik t customer t baru
• Penyediaan P di rangkuman k informasi i f i – Rangkuman laporan multidimensi – Rangkuman R k informasi i f i statistik t ti tik (kecenderungan (k d data d t terpusat dan variasi) Edward Purba
Pengantar DM
15/52
Analisis dan Manajemen Resiko Perusahaan • Perencanaan keuangan dan evaluasi aset – Analisis dan peramalan cash flow – Analisis gganti rugi g yang y g mungkin g untuk mengevaluasi aset – Analisis cross-sectional dan time series (financial( ratio, analisa trend, dsb.) • Perencanaan sumberdaya – Merangkum dan membandingkan sumberdaya dan pengeluaran Edward Purba
Pengantar DM
16/52
Analisis dan Manajemen Resiko Perusahaan • Kompetisi – Memantau pesaing dan arah pasar – Mengelompokkan customer kedalam kelas dan prosedur harga berbasis kelas – Menetapkan strategi harga dalam suatu pasar dengan kompetitif tinggi
Edward Purba
Pengantar DM
17/52
Aplikasi Lain • Olah raga – IBM Advanced Scout menganalisa statistik (shots blocked, blocked assists, dan fouls) pertandingan NBA untuk mendapatkan keuntungan kompetitif bagi New York Knicks dan Miami Heats eats • Astronomi – Observatoryy JPL dan Palomar menemukan 22 quasars q dengan bantuan data mining • Internet Web SurfSurf-Aid – IBM Surf-Aid menerapkan algoritma data mining untuk akses logs halaman Web yang terkait dengan pasar dalam upaya mendapatkan kesukaan dan perilaku customer, mengenalisa efektifitas pemasaran Web, Web perbaikan situs Web organisasi, dsb. Edward Purba
Pengantar DM
18/52
Contoh (1) • Anda seorang manajer marketing untuk perusahaan h ttelepon l cellular: ll l – Pelanggan menerima sebuah telepon gratis (nilai 1 5 juta) dengan kontrak satu tahun; anda 1.5 memberikan suatu komisi penjualan sebesar 2.5 juta per kontrak – Problem: Turnover (setelah kontrak berakhir) adalah 25% – Memberikan suatu telepon baru ke setiap orang yang kontraknya habis sangatlah mahal
Edward Purba
– Membawa kembali customer setelah keluar adalah juga sukar dan mahal Pengantar DM
19/52
Contoh (1)
Yippee! I won't leave!
Edward Purba
• Tiga bulan sebelum suatu k t kb kontrak berakhir, khi carii ttahu h customer mana yang akan keluar: e ua : – Jika anda ingin mempertahankan p customer yang diduga akan keluar, tawarkan customer t tersebut b t suatu t telepon t l baru b
Pengantar DM
20/52
Contoh (2)
Oh, yes! I love my Ferrari!
Edward Purba
• Anda seorang petugas asuransi dan anda harus mendefinisikan suatu pembayaran bulanan yang pantas t untuk t k seorang pemuda d berusia 18 tahun yang membeli sebuah Ferrari … apa yang anda akan lakukan?
Pengantar DM
21/52
Contoh (2) • Kaji seluruh data customer dan data k kompensasi i pembayaran b sebelumnya b l • Kaji peluang penyebab kecelakaan paling banyak berdasarkan dugaan… dugaan – Kelamin pengendara (pria/wanita) dan usia – Model dan usia mobil, tempat tinggal – dsb. db • Jika peluang kecelakaan lebih besar dari rata--rata, rata rata aturlah pembayaran bulanan yang sesuai! Edward Purba
Pengantar DM
22/52
Contoh (3) • Anda berada diluar negeri dan seseorang mencuri atau menggandakan kartu kredit atau telepon mobile anda … • Perusahaan kartu kredit … – Menggunakan data histori untuk membangun model prilaku penipuan dan gunakan data mining untuk membantu didalam mengenali kejadian yang mirip • Perusahaan P h telepon t l … – Menganalisis pola yang menyimpang dari suatu kebiasaan yang diharapkan (tujuan, (tujuan durasi, dsb.) Edward Purba
Pengantar DM
23/52
Contoh (4) • Log pengaksesan Web bisa dianalisis untuk … Excellent surfing experience!
– Mendapatkan p apa p kesukaan customer – Memperbaiki situs Web organisasi
• Demikian pula … – Seluruh jenis analisis log informasi – Adaptasi antarmuka/layanan user
Edward Purba
Pengantar DM
24/52
Data Mining: Suatu Proses KDD – Data mining—inti dari proses penemuan pengetahuan
Evaluasi Pola
Data Mining
Task-relevant Data Data Warehouse
Pemilihan
Pembersihan Data Integrasi Data Databases Edward Purba
Pengantar DM
25/52
Langkah--Langkah dari Proses Langkah KDD (1) Pemahaman domain Pembuatan suatu data set target Pembersihan/preprocessing data Reduksi/proyeksi p y data Pemilihan tugas DM Edward Purba
Pengantar DM
26/52
Langkah--Langkah dari Proses Langkah KDD (2) Pemilihan Algoritma DM Data mining: Pencarian Evaluasi pola Penyajian y j p pengetahuan g Penggunaan pengetahuan yang diperoleh Edward Purba
Pengantar DM
27/52
Ciri Khas Proses KDD Seleksi Berdasarkan waktu
Raw data Database Operasional Eval. of interes interestingness
Input data
1
Preprocessing
Data mining
Bersih Benar Fokus
2
Utilisasi
Edward Purba
Pengantar DM
Postprocessing
Hasil--Hasil Hasil
3 Pola berguna yg terpilih 28/52
Utilisasi Peningkatan P i k potensii untuk mendukung keputusan bisnis
Pembuatan keputusan Penyajian Data Teknik Visualisasi Data D t Mi Mining i Penemuan informasi
Eksplorasi data Analisa statistik statistik, query, query dan pelaporan Data Warehouses / Data Marts OLAP, MDA Sumber data Kertas, Files, Penyedia informasi, Sistem database, OLTP
Edward Purba
Pengantar DM
End User
Business Analyst Data Analyst
DBA
29/52
Arsitektur: Sistem Data Mining Antarmuka user g grafis (GUI) ( )
Evaluasi Pola Mesin data mining Database atau data warehouse server Penyaringan
Pembersihan & integrasi data
Databases
Edward Purba
Basis pengetahuan
Data Warehouse
Pengantar DM
30/52
Rantai Nilai Keputusan Promosikan p produk A di Z. • Kirim iklan ke keluarga dengan profil P • Jual silang layanan B ke klien C •
Pengetahuan • Sebanyak Y produk A digunakan di Z • Customer dari kelas Y menggunakan x% dari C selama periode D
Informasi •X
Data
tinggal di Z • S berumur Y tahun • X dan S pindah • W punya uang di Z
• Data
customer • Simpanan data • Data grafis • Data geografis
Edward Purba
Pengantar DM
31/52
Fungsionalitas Data Mining • Konsep deskripsi: karakterisasi & diskriminasi – Generalisasi, Generalisasi rangkuman, rangkuman dan karakteristik data kontras • Daerah D h kkering i vs. Daerah D h bbasah h • Asosiasi (korelasi dan hubungan sebab akibat)
Edward Purba
Pengantar DM
32/52
Fungsionalitas Data Mining • Klasifikasi dan prediksi – Membangun model (fungsi) yang menguraikan dan membedakan kelas atau konsepp untuk peramalan p kedepan p • Misal, mengklasifikasikan negara berdasarkan iklim, atau mengklasifikasikan kl ifik ik mobil bil berdasarkan b d k gas mileage – Presentasi: pohon-keputusan, pohon keputusan kaidah klasifikasi, neural network – Menaksir beberapa nilai numerik yang tidak diketahui atau hilang Edward Purba
Pengantar DM
33/52
Fungsionalitas Data Mining • Analisis cluster (analisis pengelompokan) – Label kelas tidak diketahui: kelompokkan data untuk membentuk kelas baru, misal mengelompokkan rumah untuk mendapatkan pola l distribusi di t ib i – Memaksimalkan kemiripan antar kelas dan meminimumkan kemiripan p didalam kelas • Analisis outlier – Outlier: suatu objek data yang tidak mengikuti perilaku umum dari data – Gangguan atau pengecualian? Tidak! Berg na dalam deteksi kecurangan, Berguna kec rangan analisis peristiwa yang jarang terjadi Edward Purba
Pengantar DM
34/52
Fungsionalitas Data Mining • Analisis trend dan evolusi – Trend dan deviasi: analisis regresi – Penggalian pola sekuensial, analisis periodisitas • Analisis arah pola lain atau s s statistik
Edward Purba
Pengantar DM
35/52
Adakah Seluruh Pola Yang Ditemukan Menarik? • Penambangan data bisa membuat ribuan pola: tidak semua pola tersebut menarik – Pendekatan yang disarankan: berpusatkan kepada manusia, berbasis query, penggalian terfokus • Ukuran ketertarikan – Suatu pola adalah menarik jika pola tersebut mudah dipahami p oleh manusia,, valid (berlaku) ( ) pada p data baru atau uji dengan suatu derajat kepastian, potensial berguna, baru atau membenarkan suatu hipotesa yang dicari user untuk konfirmasi Edward Purba
Pengantar DM
36/52
Adakah Seluruh Pola Yang Ditemukan Menarik? • Ukuran ketertarikan objektif vs. subjektif – Objektif: berdasarkan statistik dan struktur pola misal, pola, misal dukungan, dukungan kepercayaan, kepercayaan dsb. dsb – Subjektif: berdasarkan keyakinan user terhadap data, misal, ketakterdugaan, pengalaman baru, tindakan yang bisa diperkarakan, dsb.
Edward Purba
Pengantar DM
37/52
Bisakah Memperoleh Seluruh Atau Hanya y Pola Yang g Menarik? • Dapatkan seluruh pola yang menarik: Kelengkapan – Bisakah suatu sistem data mining mendapatkan seluruh pola yang menarik? – Pencarian heuristik vs. exhaustive (melelahkan) – Asosiasi vs. klasifikasi vs. clustering
Edward Purba
Pengantar DM
38/52
Bisakah Memperoleh Seluruh Atau Hanya y Pola Yang g Menarik? • Cari hanya pola yang menarik: suatu problem optimasi – Bisakah suatu sistem data mining mendapatkan hanya pola yang menarik? – Pendekatan • Pertama dapatkan p seluruh ppola lalu saring g atau keluarkan yang tidak diminati y pola p yang y g diminati—optimisasi p • Buatlah hanya query penggalian Edward Purba
Pengantar DM
39/52
Data Mining: Tempat Pertemuan Banyak y Disiplin p Sistem Database
Mesin Pembelajaran
Statistik
Data Mining
Disiplin Lainnya
Algoritma
Edward Purba
Visualisasi
Pengantar DM
40/52
Tinjauan Data Mining: Skema Klasifikasi • Fungsionalitas umum: – Uraian data mining: • Uraikan hal menarik apa yang bisa ditemukan dalam data ini! • Terangkan data ini ke saya! – Peramalan data mining: • Berdasarkan data ini dan sebelumnya, y , beritahu saya apa yang akan terjadi kemudian! • Tunjukkan ke saya trend kedepan! Edward Purba
Pengantar DM
41/52
Tinjauan Data Mining: Skema Klasifikasi • Tinjauan multimulti-dimensi … – Databases yang akan digali – Pengetahuan g yyang g akan dicari – Teknik-teknik yang digunakan – Aplikasi yang disesuaikan • Mari kita lihat lebih dekat pada tinjauan ini ...
Edward Purba
Pengantar DM
42/52
Tinjauan Data Mining Databases yang akan digali Databases
Edward Purba
• • • • •
Relasional Data warehouse Transaksional Object-oriented Objectrelational • Aktif • Spasial • Time-series Pengantar DM
• • • • • • •
Teks, XML Teks Multi-media Heterogen g Warisan Induktif WWW dsb.
43/52
Tinjauan j Data Miningg Aplikasi yang disesuaikan Applic.
Edward Purba
• Retail (supermarkets etc.)) • Telecom • Bankingg • Fraud analysis • DNA mining Pengantar DM
• Analisa stock market • Web mining • Analisa data log • dsb.
44/52
OLAP Mining: Integrasi Dari Data Mining dan Data Warehouse • Sistem data mining, g, DBMS,, Data warehouse systems coupling – No coupling, loose-coupling, semi-tight-coupling, tight-coupling
• Data on-line analytical mining (OLAM) – Integrasi I i dari d i penggalian li ddan teknologi k l i OLAP
Edward Purba
Pengantar DM
45/52
OLAP Mining: Integrasi Dari Data Mining dan Data Warehouse • Penggalian gg p pengetahuan g multi-level secara interaktif – Kebutuhan penggalian pengetahuan dan pola pada suatu level berbeda dari abstraksi dengan drilling/rolling, pivoting, slicing/dicing, dsb.
• Integrasi dari banyak fungsi penggalian – Klasifikasi berkarakter, pertama clustering dan kemudian asosiasi Edward Purba
Pengantar DM
46/52
Isu Utama dalam Data Mining • Metodologi dan interaksi penambangan – Penambangan P b bberbagai b i jjenis i pengetahuan h – Penambangan pengetahuan secara interaktif – Penggabungan latar belakang pengetahuan – Bahasa query DM dan DM khusus – Visualisasi hasil DM – Penanganan gangguan dan data tak lengkap – Ketertarikan problem • Kinerja dan skalabilitas: g DM – Efisiensi dan skalabilitas dari algoritma – Metoda penambangan paralel, tersebar dan bertumbuh Edward Purba
Pengantar DM
47/52
Isu Utama dalam Data Miningg • Aneka ragam tipe data: – Penanganan tipe data kompleks – Penambangan informasi dari database heterogen (Web misalnya) • Aplikasi A lik i dan d integrasi i t i pengetahuan t h yang didapat: did t – Tool DM khusus domain – Jawaban query cerdas dan pembuatan keputusan – Integrasi dari pengetahuan yang didapat dengan pengetahuan yang ada • Proteksi P t k i data d t … – Keamanan – Integritas g – Kerahasiaan Edward Purba
Pengantar DM
48/52
Historis Aktivitas Data Miningg • • • • • •
1989 IJCAI Workshop 1991--1994 KDD Workshops 1991 1995--1998 KDD Conferences 1995 1998 ACM SIGKDD 1999-- SIGKDD Conferences 1999 dan banyak lagi konferensi kecil / baru dari DM … – PAKDD, PKDD – SIAM-Data Mining, g, (IEEE) ( ) ICDM – dsb.
Edward Purba
Pengantar DM
49/52
Rujukan Yang Berguna untuk Data Mining “Standards” • DM:
Conferences: C f Journals:
KDD, PKDD, KDD PKDD PAKDD, PAKDD ... Data Mining and Knowledge Discovery, CACM
• DM/DB:
Conferences:
ACM-SIGMOD/PODS, VLDB, ...
Journals:
ACM-TODS, J. ACM, IEEE-TKDE IEEE TKDE, JIIS JIIS, ...
Conferences: Journals:
Machine Learning, AAAI, IJCAI, ... Machine Learning, Artific. Intell., ...
• AI/ML:
Edward Purba
Pengantar DM
50/52
Kesimpulan • Data mining: penemuan pola menarik dari data set yang besar secara semi semi--otomatis • Knowledge discovery adalah suatu proses: – Preprocessing – Data mining – Postprocessing • Untuk digali, digunakan atau dimanfaatkan … – Databases (relasional, object-oriented, spasial, WWW, …)) – Pengetahuan (karakterisasi, pengumpulan, asosiasi, …) – Teknik (mesin pembelajaran, pembelajaran statistik, statistik visualisasi, visualisasi …)) – Aplikasi (retail, telecom, Web mining, analisa log, …) Edward Purba
Pengantar DM
51/52
Pengantar g Data Mining g
Edward Purba
Pengantar DM
52/52