4/1/13
Data Preprocessing - Budi Susanto - FTI UKDW
DATA PREPROCESSING Budi Susanto (versi 1.2)
Kenali Data Anda ¨
Atribut Data ¤ Memahami ¤ Membantu
¨
tipe atribut membetulkan data saat integrasi data
Deskripsi Statistik Data ¤ Memudahkan
untuk mengisi nilai yang kosong, noise data, ¤ mengetahui outlier selama pemrosesan data ¤ memperhalus ¨
Mengukur Kesamaan dan ketidaksamaan ¤ Dapat
berguna juga untuk mendeteksi outlier melakukan klasifikasi ¤ Pada umumnya untuk mengukur “kedekatan”. ¤ Untuk
Data Preprocessing - Budi Susanto - FTI UKDW
1
4/1/13
Data ¨
Data yang ada pada umumnya: ¤ Banyak
noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam sumber ¨
Memahami data sangat penting untuk tahap preprosesing.
Data Preprocessing - Budi Susanto - FTI UKDW
Atribut Data Mencerminkan karakteristik objek data. ¨ Tipe atribut menentukan himpunan nilai yang diperbolehkan. ¨
¤ Nominal ¤ Binary
(Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale
¤ Diskret
atau Continue Data Preprocessing - Budi Susanto - FTI UKDW
2
4/1/13
Deskripsi Statistik ¨
Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange
Data Preprocessing - Budi Susanto - FTI UKDW Data Mining: Concepts and Techniques, 3th ed., p. 47
Deskripsi Statistik ¨
Mengukur penyebaran data ¤ Rentang
dan Kuartil ¤ Variasi dan Standard Deviasi
Data Preprocessing - Budi Susanto - FTI UKDW Data Mining: Concepts and Techniques, 3th ed., p. 48
3
4/1/13
BoxPlot ¨
Interquartil Range (IQR) ¤ Q3
¨
– Q1
Outlier data ¤ 1.5
x IQR
Data Preprocessing - Budi Susanto - FTI UKDW
Mengukur Kesamaan ¨
Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski n Euclidean
distance dan Manhattan
¤ Cosine
Data Preprocessing - Budi Susanto - FTI UKDW
4
4/1/13
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
Mengapa Perlu Data Preprocessing? ¨
Data mentah yang ada sebagian besar kotor ¤ Tidak
komplet
n Berisi
data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate ¤ Banyak
“noise”
n Berisi
data yang Outlier n Berisi error ¤ Tidak
konsisten
n Berisi
nilai yang berbeda dalam suatu kode atau nama Data Preprocessing - Budi Susanto - FTI UKDW
5
4/1/13
Mengapa Data Preprocessing Penting? Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula. ¨ Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%). ¨
Data Preprocessing - Budi Susanto - FTI UKDW
Ukuran Kualitas Data Accuracy ¨ Completeness ¨ Consistency ¨ Timeliness ¨ Believability ¨ Value added ¨ Interpretability ¨ Accessibility ¨
Data Preprocessing - Budi Susanto - FTI UKDW
6
4/1/13
Teknik Data Preprocessing Data Cleaning ¨ Data integration ¨ Data Reduction ¨ Data Transformation ¨
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning ¨
Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil
noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier
Data Preprocessing - Budi Susanto - FTI UKDW
7
4/1/13
Data Cleaning: Missing Values ¨
Mengabaikan record ¤ Biasanya
¨ ¨
untuk label klasifikasi yang kosong
Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value ¤ Mean
dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal (condong) ¨ ¨
Menggunakan nilai global Menggunakan nilai termungkin ¤ Menerapkan
regresi
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning: Missing Values Angkatan IPK
Pekerjaan
Kelamin
2004
3.45
Programmer
L
2005
?
Ibu RT
P
2003
2.81
?
P
Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. ¨ Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul. ¨
Data Preprocessing - Budi Susanto - FTI UKDW
8
4/1/13
Data Cleaning: Noisy Data Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. ¨ Teknik-teknik ¨
¤ Binning n Smoothing
by bin means n Smoothing by bin medians n Smoothing by bin boundaries ¤ Regression ¤ Outlier
Analysis Data Preprocessing - Budi Susanto - FTI UKDW
Metode Binning ¨
¨
¨
Metode ini akan melakukan pengelompokan terhadap kumpulan data. Metode binning merupakan salah satu pendekatan dicretization. Urutan proses: ¤ Urutkan
data secara ascending ¤ Lakukan partisi ke dalam bins n Dapat
dengan equal-width (jarak) atau equal-depth (frekuensi)
¤ Kemudian
dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb. Data Preprocessing - Budi Susanto - FTI UKDW
9
4/1/13
Partisi dalam Metode Binning ¨
Partisi Equal-Width ¤ Algoritma
membagi data ke dalam k interval ukuran yang sama. Lebar interval adalah n w
= (max-min)/k
¤ Batasan n min+w,
¨
interval adalah min+2w, …, min+(k-1)w
Partisi Equal-depth ¤ Membagi
data ke dalam k kelompok dimana tiap kelompok berisi jumlah yang sama Data Preprocessing - Budi Susanto - FTI UKDW
Contoh Partisi Binning Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨ Equal Width ¨
¤ BIN1
= 0, 4 ¤ BIN2 = 12, 16, 16, 18 ¤ BIN3 = 24, 26, 28 ¨
[-, 10] [10, 20] [20, +]
Equal Depth ¤ BIN1
= 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28 Data Preprocessing - Budi Susanto - FTI UKDW
10
4/1/13
Smoothing pada Partisi Binning ¨
Smoothing berdasar rata-rata ¤ Semua
nilai di tiap bin diganti dengan rata-rata nilai tiap bin
¨
Smoothing berdasar batasan ¤ Setiap
nilai bin diganti dengan nilai yang paling dekat dari batasan nilai ¤ Batasan nilai terbentuk dari [min, max] tiap bin
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning: Outliers salary
cluster
outlier
Data Preprocessing - Budi Susanto - FTI UKDW
age
11
4/1/13
Data Cleaning: Regresi y (salary)
y=x+1
Y1
X1
x (age)
Data Preprocessing - Budi Susanto - FTI UKDW
Percobaan Data Cleaning ¨
Dataset ¤ Labor-Negotiations
Data Preprocessing - Budi Susanto - FTI UKDW
12
4/1/13
Workflow #1
Data Preprocessing - Budi Susanto - FTI UKDW
reglin
Data Integration Data dapat bersumber dari beberapa sumber ¨ Teknik ¨
¤ Analisis
korelasi ¤ Atribut redudan ¤ duplikasi
Data Preprocessing - Budi Susanto - FTI UKDW
13
4/1/13
Covariance Correlation
Data Preprocessing - Budi Susanto - FTI UKDW
integration
Data Transformation Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. ¨ Strategi: ¨
¤ Smoothing ¤ Attribute
(feature) construction ¤ Aggregation ¤ Normalization ¤ Discretization Data Preprocessing - Budi Susanto - FTI UKDW
14
4/1/13
Data Transformation: Aggregation dan Smoothing
Data Preprocessing - Budi Susanto - FTI UKDW
coba1
Data Transformation: Normalization ¨ ¨
Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar ¤ Atribut
lain
¨
Sehingga ¤ Data
¨ ¨
akan memiliki “bobot” yang lebih besar dari atribut
perlu dinormalisasi atau dibakukan.
Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering. Data Preprocessing - Budi Susanto - FTI UKDW
15
4/1/13
Data Transformation: Metode Normalization Min-max ¨ Z-score ¨ Decimal scaling ¨
Data Preprocessing - Budi Susanto - FTI UKDW
normalization
Data Preprocessing - Budi Susanto - FTI UKDW
16
4/1/13
Data Transformation: Discretization ¨
Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)
Data Preprocessing - Budi Susanto - FTI UKDW
discretization
Data Preprocessing - Budi Susanto - FTI UKDW
discret
17
4/1/13
Data Transformation: Data Reduction ¨
Teknik ¤ Dimensionality
reduction
n Wavelet
transform n Principal Component Analysis n Attribute Subset Selection ¤ Numerosity
reduction
n sampling
¤ Data
compression
Data Preprocessing - Budi Susanto - FTI UKDW
Data Preprocessing - Budi Susanto - FTI UKDW
TERIMA KASIH! Budi Susanto
18