9/16/2016
Data Mining Outline BAB I Pendahuluan
BAB II Data BAB III Algoritma Klasifikasi
BAB IV Algoritma Klastering
BAB V Algoritma Asosiasi
BAB VI Algoritma Estimasi
BAB VII Deteksi Anomali
BAB IX Text Mining
Ricky Maulana Fajri
Proses Data Mining
Recap 1. Jelaskan Apa yang dimaksud dengan data, informasi, pengetahuan. 2. Jelaskan perbedaan prediksi dan klasifikasi! 3 Jelaskan perbedaan klastering 3. J l k b d kl i dan d association! 4. Sebutkan tahapan utama proses data mining!
1. Himpunan Data
2. Metode Data Mining Data Mining
3. Pengetahuan
4. Evaluation
(Pemahaman dan Pengolahan Data)
(Pilih Metode Sesuai Karakter Data)
(Pola/Model/Rumus/ Tree/Rule/Cluster)
(Akurasi, AUC, RMSE, Lift Ratio,…)
DATA PRE‐PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation
Estimation Prediction Classification Clustering Association
4
1. Himpunan Data (Dataset) • Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi • Jenis dataset ada dua: Private dan Public • Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
Dataset (Himpunan Data) Attribute/Feature
Class/Label/Target Record/ Object/ Sample/ Tuple
– Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• P Public blic Dataset: data set dapat diambil dari repositori Dataset data set dapat diambil dari repositori pubik p bik yang disepakati oleh para peneliti data mining – UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html) – ACM KDD Cup (http://www.sigkdd.org/kddcup/) – PredictionIO (http://docs.prediction.io/datacollection/sample/)
Nominal
• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable 5
Numerik 6
1
9/16/2016
2. Metode Data Mining (DM)
1. Formula/Function (Rumus atau Fungsi Regresi)
1. Estimation (Estimasi): –
3 Tingkat Korelasi 3. Ti k t K l i
Naive Bayes, K‐Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc
4. Clustering (Klastering): –
4. Rule (Aturan) – IF ips3=2.8 THEN lulustepatwaktu
K‐Means, K‐Medoids, Self‐Organizing Map (SOM), Fuzzy C‐Means, etc
5. Association (Asosiasi): –
2. Decision Tree (Pohon Keputusan)
Linear Regression, Neural Network, Support Vector Machine, etc
3 Classification (Klasifikasi): 3. –
– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan): –
3. Pengetahuan (Pola/Model)
FP‐Growth, A Priori, Coefficient of Correlation, Chi Square, etc
5. Cluster (Klaster)
7
8
4. Evaluasi (Akurasi, Error, etc) 1. Estimation: –
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan): –
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification: – –
Confusion C f i Matrix: Accuracy M ti A ROC Curve: Area Under Curve (AUC)
4. Clustering: – –
Guide for Classifying the AUC 1. 2. 3. 4 4. 5.
0.90 ‐ 1.00 = excellent classification 0.80 ‐ 0.90 = good classification 0.70 ‐ 0.80 = fair classification 0 60 0.70 = poor 0.60 ‐ 0 70 classification l ifi ti 0.50 ‐ 0.60 = failure
Internal Evaluation: Davies–Bouldin index, Dunn index, External Evaluation: Rand measure, F‐measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
(Gorunescu, 2011)
5. Association: – –
Lift Charts: Lift Ratio Precision and Recall (F‐measure) 9
10
Kriteria Evaluasi dan Validasi Model
Kualitas Data
1. Akurasi – Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan – Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan
2. Kehandalan – Ukuran di mana model data mining diterapkan pada dataset
yang berbeda yang berbeda – Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data testing yang disediakan
3. Kegunaan – Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna
• Kesalahan yang terjadi sehingga menyebabkan kualitas data menjadi tidak baik. Sering kali didapatkan kualitas data yang kurang baik dikarenakan kesalahan pengukuran ((Measurement Error) dan ) kesalahan pengumpulan • Contoh Kesalahan Pengukuran – – – –
Noise Bias Precision Accurasi
11
2
9/16/2016
Kesalahan Pengukuran
Kesalahan Pengumpulan
• Noise berkaitan dengan modifikasi dari nilai asli • Bias : suatu variasi pengukuran dari kuantitas yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui • Precision : Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan lainnya. Diukur ddengan standard deviasi • Accuracy Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur
• Kesalahan pada saat data dikumpulkan seperti hilangnya objek data atau nilai atribut, dan lingkup objek data yang tidak tepat. • Yang termasuk g dalam kesalahan p pengumpulan g p adalah – Outliers – Missing Values – Duplicate Data
Outliers • Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan data dalam data‐set.
Missing Values • Merupakan nilaid ari suatu atribut yang tidak ditemukan alasan terjadinya missing values adalah – Informasi tidak diperoleh (misal orang menolak untuk memberikan informasi umur dan berat badan) – Atribut yang mungkin tidak bisa diterapkan ke semua kasus (pendapatan tahunan tidak bisa diterapkan pada anak‐anak)
Duplicate Data • Data set mungkin terdiri dari objek data yang ganda. Atau sering terjadi dupliksai antara satu dengan lainnya. Persoalan utama ketika menggabungkan data dari data dari sumber sumber‐sumber sumber yang bervariasi – Orang yang sama dengan alamat email yang lebih dari satu.
3
9/16/2016
Data Preprocessing
Data Preprocessing
• Sebelum diterapkan algoritma data mining terhadap sebuah data‐set makan diperlukan prosess pengolahan awal. Proses ini bertujuan untuk mendapatkan data set yang dapat data set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat.
Aggregation
• Proses data prepocessing antara lain. – Aggregation – Sampling – Dimensionality Reduction Dimensionality Reduction – Feature Subset Selection – Feature Creation – Discretization dan binarization – Attribute Transformation
Penarikan Contoh
• Proses pengumpulan adalah proses mengkombinasikan dua atau lebih atribut‐ atribut atau objek‐objek ke dalam satu atribut tunggal atau objek. objek No Transaksi
Nama barang
Lokasi Toko
Tanggal
Harga
…….
…………
……….
………
…….
1001122
Supermie
Bukit
12‐8‐2016
1500
1001122
Gula 1 Kg
Bukit
12‐8‐2016
9000
1001123
Buku
Demang
23‐8‐2016
15000
………..
………….
………….
…………
……….
Dimensionality Reduction • Jika Dimensi meningkat, data akan meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik yang merupakan kondisi kritis untuk clustering dan outlier detection • Manfaat DR – Mencegah efek dimensionalitas – Mengurangi jumlah waktu dan memori untuk algoritma data mining – Membuat data lebih mudah divisualisasikan – Membantu menguragi fitur yang tidak relevan
• Penarikan Contoh merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan analisis data akhir. data akhir • Penarikan contoh digunakan dalam data minging karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu
Feautre Subset Selection • Salah satu cara untuk mengurangi dimensi dalah dengan memilih fitur yang tepat atau hanya menggunakan atribut‐atribut yang diperlukan • Teknik – Brute‐force Approach – Embedded Approach – Filter Approach – Wrapper Approach
4
9/16/2016
Feature Creation • Merupakan Proses membuat atribut baru yang dapat menangkap informasi penting dalam sebuah himpunan data yang lebih efision daripada atribut yang ada. • Teknik – Ekstraksi Fitur – Pemetaan Data ke ruang menggunakan transformasi fourier – Konstruksi Fitur
Summary
Discreatization and Binarization • Algoritma data mining khususnya algoritma klasifikasi mebutuhkan data dalam bentuk atribut katagorikal, sedangkan algoritma asosiasi memerlukan atdata ke dalam bentuk biner. Transformasi atribut kontinyu ke dalam bentuk katagorikal disebut discreatization. Tranformasi atribut kontinyo ke dalam bentuk biner disebut binarization
Question
• Proses Data Mining • Kualitas Data
5