Knowledge Discovery in Databases (IS704) dan Data Mining (CS704)
Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (Business Objective Determination) Persiapan Data (Data Preparation) – Data Selection – Data Preprocessing – Data Transformation
Kuliah #2
Data Mining Analysis of Results Assimilation of Knowledge
Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya
12 August 2004
Business Objective Determination (#1)
Contoh sasaran bisnis: Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan Nopember, Desember dan Januari yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.
(Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal -- tahapan ini cenderung diabaikan! dan jarang disebut) Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is the data, please mine it.". Tetapi jika mining dilakukan dan pengetahuan diperoleh, bagaimana dapat diketahui bahwa solusi tersebut benar-benar dibutuhkan? Gunawan, Teknik Informatika STTS
2
Business Objective Determination (#2)
Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining.
12 August 2004
Gunawan, Teknik Informatika STTS
3
12 August 2004
Business Objective Determination (#3)
Gunawan, Teknik Informatika STTS
4
Business Objective Determination (#4) Dampak pada keseluruhan proses KDD: – Data Selection: dipilih customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur.
Pertanyaan kuncinya: Rumah mana yang akan dikirimi surat supaya usaha ini berhasil?
12 August 2004
Gunawan, Teknik Informatika STTS
– Data Transformation: customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining. 5
12 August 2004
Gunawan, Teknik Informatika STTS
6
1
Data Preparation (#1)
Data Preparation (#2) Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD.
Mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya:
Menurut Cabena: Secara berurutan untuk 5 fase Cabena membutuhkan: 20% (fase 1) + 60% (fase 2)+ 10% (fase 3) + 10% (untuk kedua fase 4 dan 5).
– agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat. 12 August 2004
Gunawan, Teknik Informatika STTS
7
12 August 2004
Data Preparation (#3)
Gunawan, Teknik Informatika STTS
8
Data Preparation (#4) Data Selection – Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining.
12 August 2004
Gunawan, Teknik Informatika STTS
9
12 August 2004
Data Preparation (#5)
Gunawan, Teknik Informatika STTS
10
Data Preparation (#6) Data Transformation (#1)
Data Preprocessing
– Mengubah data ke dalam model analitis.
– Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya.
– Memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining.
– 2 issue yang paling sering dihadapkan pada tahap ini: • Noisy Data • Missing Values
12 August 2004
Gunawan, Teknik Informatika STTS
11
12 August 2004
Gunawan, Teknik Informatika STTS
12
2
Data Preparation (#7)
Data Preparation (#8)
Data Transformation (#2)
Data Transformation (#3)
– Perlu diperhatikan terlebih dahulu 2 tipe utama data yang digunakan:
– Quantitative: semua nilai yang mungkin dapat diukur perbedaannya
– Categorical: semua nilai yang mungkin ada, bersifat terbatas
• continuous (nilai-nilai bilangan real): gaji bulanan, rata-rata transaksi dalam satu periode waktu (bulan, kuartal atau tahun).
• nominal: tanpa urutan, seperti status perkawinan (single, kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, perempuan) • ordinal: dengan urutan, seperti rating loyalitas customer (sangat baik, baik, cukup, kurang atau vulnerable atau mudah dirusak loyalitasnya). 12 August 2004
Gunawan, Teknik Informatika STTS
• discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai, jumlah transaksi dalam satu periode waktu. 13
12 August 2004
Data Preparation (#9)
Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya.
– Contoh • Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan 1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya.
Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:
• Normalization: Jika proses data mining menggunakan ANN, karena sebagian besar ANN hanya menerima input dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka parameter continuous yang di luar range tersebut harus dinormalisasi.
Gunawan, Teknik Informatika STTS
– IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli dalam lebih dari 58% sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal. 15
12 August 2004
Data Mining (#2)
– IF seorang consumer cenderung lebih banyak membeli soft drink merk "X" THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. – IF lebih dari 11% sejarah pembelian soft drink seorang consumer dilakukan pada sebuah gudang rabat / pusat grosir THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. – IF dihitung secara rata-rata seorang consumer ternyata membeli lebih dari 345,67ml setiap kali belanja AND dengan harga ratarata soft drink per 100ml >= Rp. 550,-- THEN consumer tersebut diprediksi Loyal. Gunawan, Teknik Informatika STTS
Gunawan, Teknik Informatika STTS
16
Analysis of Results
Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:
12 August 2004
14
Data Mining (#1)
Data Transformation (#4)
12 August 2004
Gunawan, Teknik Informatika STTS
17
Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi.
12 August 2004
Gunawan, Teknik Informatika STTS
18
3
Tahapan Proses KDD (Daniel L. Silver)
Assimilation of Knowledge
Data Consolidation (and Cleansing).
Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan.
Data Selection and Preprocessing. Data Mining. Interpretation and Evaluation.
12 August 2004
Gunawan, Teknik Informatika STTS
19
12 August 2004
Gunawan, Teknik Informatika STTS
Data Consolidation (and Cleansing)
Data Selection and Preprocessing
Filosofi: “Garbage In Garbage Out” Menyita 50%-70% upaya dari keseluruhan proses KDD. Termasuk di dalamnya adalah "remove outlier". Data consolidation menunjuk pada proses data warehousing, termasuk pemilihan warehouse repository (OLTP database, ORDBMS, Multidimensional DBMS/Data Cube, Deductive Database, flat files yang compatible pada berbagai DM tools).
OLAP dan visualization tools memegang peranan penting. transformation data yang disebut penulis lain pada tahap ini, khususnya pada pengurangan dimensionality. Encoding data ke format yang dikenali DM tools.
12 August 2004
12 August 2004
Gunawan, Teknik Informatika STTS
21
Data Mining
– Automated Exploration / Discovery: Clustering misalnya, dapat dipakai untuk mendapatkan segmentasi pasar baru dari suatu produk. – Prediction / Classification: Belajar suatu model predictive. ANN, GA, Regression dapat dipakai untuk peramalan nilai penjualan. – Explaination / Description: Fungsi menjelaskan atau mendeskripsikan. Induksi Decision Tree dan Ekstraksi Rule dapat digunakan untuk menjelaskan perilaku customer berdasar demographic dan sejarah pembeliannya.
Gunawan, Teknik Informatika STTS
22
Interpretation and Evaluation
Metode DM yang dipakai dibagi menjadi 3 kategori:
12 August 2004
Gunawan, Teknik Informatika STTS
20
23
Evaluasi: dilakukan secara validasi statistik dan pengujian signifikan-nya; dilakukan review secara kualitatif hasil mining oleh pakar di bidangnya. Interpretasi: Decision tree dan rule dapat dibaca langsung; Clustering harus digambarkan dan ditabelkan. Pemakaian visualization tools: analisis sensitif; histogram untuk distribusi nilai; animasi dan plotting time-series. 12 August 2004
Gunawan, Teknik Informatika STTS
24
4
Tahapan Proses KDD (Jia Weihan) #1
Tahapan Proses KDD (Jia Weihan) #2 Data Cleaning: menghilangkan noise dan data yang inkonsisten.
Data cleaning Data integration
Data Integration: menggabungkan berbagai macam sumber data.
Data selection Data transformation
Data Selection: memilih data yang relevan (dari database) dengan "analysis task".
Data mining Pattern Evaluation
• "analysis task" = Business Objective Determination (Cabena).
Knowledge Presentation 12 August 2004
Gunawan, Teknik Informatika STTS
25
12 August 2004
Gunawan, Teknik Informatika STTS
Tahapan Proses KDD (Jia Weihan) #3
Tahapan Proses KDD (Jia Weihan) #4
Data Transformation: transformasi atau konsolidasi data ke dalam bentuk yang lebih baik untuk mining, dengan mewujudkan operasioperasi summary dan aggregation (misal: daily data ---> monthly ---> quarterly ---> annual).
Pattern Evaluation: mengidentifikasi sejumlah pola yang sungguh-sungguh menarik dan bakal menjadi pengetahuan berdasarkan sejumlah pengukuran ketertarikan (interestingness measures) seperti rule support dan rule confidence untuk rule extraction.
– khususnya pada beberapa kasus data warehousing, data transformation dilakukan sebelum data selection.
Knowledge Presentation: penggunaan teknikteknik visualisasi dan representasi untuk menyajikan pengetahuan yang telah diperoleh kepada user.
Data Mining: mengekstrak patterns dari data dengan menerapkan "intelligent methods". 12 August 2004
Gunawan, Teknik Informatika STTS
26
27
12 August 2004
Gunawan, Teknik Informatika STTS
28
5