Introduksi Data Mining S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha
1
Agenda •
Pendahuluan
•
Definisi Data Mining
•
Langkah – langkah Data Mining
•
Tugas – tugas Data Mining
•
Data untuk Data Mining
•
Data Mining Dalam Bisnis
2
1
Pendahuluan •
Ukuran DB yang sangat besar : •
•
Koleksi data & ketersediaan data : •
•
Terabytes -> Petabytes Database system, web, e-commerce, remote sensing, news, bioinformatics, etc.
Komputer semakin powerful => Data Mining
3
Mining Data Set yang Besar - Motivasi •
Sering terdapat informasi “tersembunyi” di dalam data yang tidak langsung terlihat
•
Analis manusia mungkin membutuhkan berminggu – minggu untuk menemukan informasi yang berguna
•
Banyak dari data yang tidak pernah dianalisa sama sekali 4,000,000 3,500,000
The Data Gap
3,000,000 2,500,000 2,000,000 1,500,000
Total new disk (TB) since 1995
1,000,000
Number of analysts
500,000 0 1995
1996
1997
1998
1999
DM-MA/S1IF/FTI/UKM/2010 4 From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
2
Definisi Data Mining (1/3) •
•
“Data mining adalah bidang ilmu antar disiplin yang menggabungkan teknik – teknik dari pembelajaran mesin, pengenalan pola, statistika, basis data, dan visualisasi untuk menangani isu dari ekstrasi informasi dari basis data yang besar” Evangelos Simoudis in Cabena et al. “Data mining adalah ekstrasi dari informasi dari data yang implisit, tidak diketahui sebelumnya, dan secara potensial berguna” Witten & Frank
5
Definisi Data Mining (2/3) •
•
“Data mining .... adalah eksplorasi dan analisis, dengan cara otomatis dan semi otomatis, dari data yang berjumlah besar untuk menemukan pola – pola atau aturan – aturan yang berguna” Berry & Linoff “Data mining adalah terminologi yang biasanya diterapkan untuk teknik – teknik yang dapat dipergunakan untuk menemukan struktur dan hubungan- hubungan yang tersembunyi dari data yang besar” Kennedy et al.
6
3
Definisi Data Mining (3/3) •
“Secara sederhana, data mining dipergunakan untuk menemukan pola – pola dan hubungan – hubungan dari data anda untuk membantu dalam membuat keputusan bisnis yang lebih baik” Herb Edelstein, Two Crows
7
8
4
Langkah – langkah Analitis Data Mining •
Menjelaskan data • •
Atribut statistik (mean & standar deviasi) hubungan antar variabel
•
Membangun model prediktif
•
Menguji model
•
Memverifikasi model
9
Data mining & data warehouse •
Biasanya, data yang akan ‘ditambang’ diambil dari data warehouse, kemudian masuk ke data mining database atau data mart
10
5
Tugas – Tugas Data Mining •
Metode – metode prediksi •
•
Menggunakan beberapa variabel untuk memprediksi nilai – nilai yang tidak diketahui atau masa yang akan datang dari variabel yang lainnya.
Metode – metode deskripsi •
Menemukan pola – pola yang dapat diinterpretasikan oleh manusia dari data
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 11
Tugas – Tugas Data Mining •
Klasifikasi [prediktif]
•
Segmentasi/Klastering [deskriptif]
•
Asosiasi [deskriptif]
•
Peramalan [prediktif]
•
Text Mining
12
6
Klasifikasi •
Jenis keanggotaan apa yang perlu saya tawarkan?
•
Konsumen mana yang akan merespon surat saya?
•
Apakah transaksi ini palsu?
•
Apakah saya kehilangan konsumen ini?
•
Apakah produknya defektif?
•
Kesehatan pasien yang mana yang menurun?
13
Klasifikasi •
Diberikan sebuah koleksi dari rekaman (training set) •
Setiap rekaman terdiri dari sebuah set atribut, salah satu dari atribut adalah class.
•
Menemukan sebuah model dari atribut class sebagai sebuah fungsi nilai – nilai dari atribut – atribut yang lainnya.
•
Tujuan: rekaman – rekaman yang sebelumnya tidak diketahui akan diberikan sebuah class seakurat mungkin •
Sebuah set tes dipergunakan untuk menentukan akurasi dari model. Biasanya data set yang diberikan akan dibagi menjadi set traning dan set tes, dengan set training dipergunakan untuk membangun model dan set tes dipergunakan untuk memvalidasinya. 14
7
Contoh Klasifikasi Refund Marital Status
Taxable Income Cheat
No
No
Single
75K
?
No
Yes
Married
50K
?
70K
No
No
Married
150K
?
120K
No
Yes
Divorced 90K
?
Divorced 95K
Yes
No
Single
40K
?
No
Married
No
No
Married
80K
?
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
Tid Refund Marital Status
Taxable Income Cheat
1
Yes
Single
125K
2
No
Married
100K
3
No
Single
4
Yes
Married
5
No
6
60K
10
10
Training Set
Learn Classifier
Test Set
Model
15
Klasifikasi: Aplikasi •
Pemasaran Langsung: •
•
Tujuan: mengurangi biaya surat dengan mentargetkan ke kelompok konsumen yang kemungkinan besar akan membeli produk handphone yang baru. Pendekatan: Menggunakan data dari produk serupa yang diperkenalkan sebelumnya. • Kita mengetahui konsumen mana yang membeli dan yang tidak. Keputusan [buy, don’t buy] ini membentuk atribut class. • Mengumpulkan berbagai macam informasi demografi, gaya hidup, dan iteraksi perusahaan tentang konsumen tersebut. •
•
•
Tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll
Memakai informasi ini sebagai atribut masukan untuk dipelajari oleh model pengklasifikasi.
From [Berry & Linoff] Data Mining Techniques, 1997 16
8
Segmentasi/Klastering •
Mendeskripsikan konsumen saya
•
Bagaimana cara saya bisa membedakan konsumen?
•
Bagaimana saya dapat mengorganisasi data saya yang dapat dimengerti?
•
Apakah rekaman ini outlier?
17
Definisi Klastering •
Diberikan sebuat set dari poin data, masing – masing memiliki sebuah set dari atribut, dan sebuah ukuran kesamaan diantara mereka, temukan klaster – klaster yang • •
•
Poin – poin data dari satu klaster lebih sama satu dengan yang lain. Poin – poin data dari klaster yang terpisah kurang sama satu dengan yang lain.
Pengukuran kesamaan • •
Euclidian Distance bila atribut – atributnya berkelanjutan (continuous) Pengkuran lain yang spesifik permasalahannya
18
9
Illustrating Klastering ⌧Euclidean Distance Based Clustering in 3-D space.
Jarak intra klaster diminimalkan
Jarak inter klaster dimaksimalkan
19
Klastering: Aplikasi •
Klastering Dokumen: •
•
•
Tujuan: untuk menemukan kelompok – kelompok dokumen yang sama satu dengan yang lain berdasarkan terminologi penting yang muncul di dalamnya. Pendekatan: mengidentifkasi frekuensi kemunculan terminologi dari setiap dokumen. Menemukan pengukuran kesamaan berdasarkan frekuensi dari terminlogi yang berbeda. Pergunakan untuk pengklasteran. Manfaat: Information Retrieval dapat menggunakan klastering untuk menghubungkan dokumen baru atau terminologi pencarian dari dokumen – dokumen yang telah diklaster.
20
10
Ilustrasi Klastering Dokumen •
Poin klastering: 3204 artikel dari Los Angeles Times.
•
Pengukuran kesamaan: berapa kata – kata yang serupa di dokumen – dokumen ini (setelah melalui penyaringan kata) Category
Total Articles
Correctly Placed
Financial
555
364
Foreign
341
260
National
273
36
Metro
943
746
Sports
738
573
Entertainment
354
278
21
Penemuan Aturan Asosiasi •
Diberikan sebuah set rekaman yang masing – masing terdiri dari beberapa item dalam sebuah koleksi. •
Berikan aturan dependensi yang akan memprediksi kemunculan dari sebuah item berdasarkan kemunculan dari item yang lainnya.
TID
Items
1
Bread, Coke, Milk
2 3 4 5
Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk
Aturan yang ditemukan: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}
22
11
Penemuan Aturan Asosiasi: Aplikasi •
Promosi marketing dan sales: •
Jika aturan yang ditemukan adalah:
•
{Bagels, … } --> {Potato Chips} Potato Chips sebagai consequent => dapat digunakan untuk
menentukan apa yang harus dilakukan untuk meningkatkan penjualan. • Bagels dalam antecedent => dapat digunakan untuk melihat produk mana saja yang akan terpengaruh jika toko berhenti menjual bagels. •
Bagels dalam antecedent dan Potato chips dalam consequent => dapat digunakan untuk melihat produk mana yang harus dijual bersama dengan bagel untuk mempromosikan penjualan potato chips!
23
Peramalan •
Berapakah revenue yang diproyeksikan untuk semua produk?
•
Berapakah tingkat inventory untuk bulan berikutnya?
24
12
Regresi •
Memprediksi sebuah nilai dari variabel bernilai continuous berdasarkan nilai – nilai dari variabel yang lain, diasumsikan dalam model dependensi yang linier atau non-linier.
•
Dipelajari secara intensif di statistika, jaringan syaraf tiruan.
•
Contoh: Memprediksi nilai penjualan dari produk baru berdasarkan pengeluaran iklan. Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembaban, tekanan angin, dll Predisi berdasarkan waktu dari indeks – indeks pasar saham.
• • •
25
Text Mining •
Analisis dari data yang tidak terstruktur • • •
Menemukan terminologi – terminologi kunci dalam teks Konversi menjadi data terstruktur Dimasukkan dalam algoritma • • •
Klasifikasi Segmentasi Asosiasi
•
Bagaimana cara menangani data call center?
•
Bagaimana cara mengklasifikasi surat?
•
Apa yang bisa saya perbuat dengan feedback dari web?
26
13
Eksplorasi Data Tingkat Lanjut •
Analisis deskriptif
•
Mempelajari data lebih lanjut dengan visualisasi
•
Pertanyaan bisnis yang umum: • • •
Mengapa orang kembali datang? Apakah hubungan antara produk – produk? Apakah perbedaan antara konsumen yang profit tinggi dan profit rendah?
27
Data untuk Data Mining •
Pada prinsipnya, di segala macam information repository, bisa dilakukan data mining.
•
Relational DB
•
Data warehouse
•
Transactional DB
•
Advanced DB system
•
Flat files
•
WWW
28
14
Data Mining dalam Bisnis •
Market segmentation •
•
Customer churn •
•
Mengidentifikasi karakteristik umum customer yang membeli barang yang sama Memprediksi customer mana yang kira-kira dapat pindah ke perusahaan kompetitor
Fraud detection •
Mengidentifikasi transaksi mana yang kira-kira berpotensi menjadi fraud 29
Data Mining dalam Bisnis •
Direct marketing •
•
Interactive marketing •
•
Mengidentifikasi prospect yang harus dimasukkan dalam mailing list agar tercapai response rate yang lebih tinggi. Memprediksi hal yang paling disukai ketika seseorang mengunjungi sebuah web site
Market basket analysis •
Memahami produk mana yang diakses bersamaan (dlm 1 keranjang); mis. Popok dan bir
30
15
Data Mining dalam Bisnis •
Prediksi otomatis dari tren dan kebiasaan: •
Data mining mengotomasi proses penemuan predictive information pada large database. Target marketing • Memprediksikan kebangkrutan • Mengidentifikasi segment yang mungkin merespon ke event tertentu •
31
Data Mining dalam Bisnis •
Penemuan otomatis dari pola – pola yang sebelumnya tidak diketahui • •
Data mining tools mencari di database dan mengidentifikasi pola yang sebelumya tersembunyi. Mengidentifikasi produk yang tidak berelasi tapi yang seringkali dibeli bersamaan. •
•
Popok dan bir
Mendeteksi fraud dalam transaksi kartu kredit
32
16