Data Preprocessing dengan RapidMiner Budi Susanto
RapidMiner - Budi Susanto
Kenali Data Anda • Atribut Data o Memahami tipe atribut o Membantu membetulkan data saat integrasi data
• Deskripsi Statistik Data o Memudahkan untuk mengisi nilai yang kosong, o memperhalus noise data, o mengetahui outlier selama pemrosesan data
• Mengukur Kesamaan dan ketidaksamaan o Dapat berguna juga untuk mendeteksi outlier o Untuk melakukan klasifikasi o Pada umumnya untuk mengukur “kedekatan”.
RapidMiner - Budi Susanto
Data • Data yang ada pada umumnya: o Banyak noise o Ukuran yang besar o Dapat merupakan campuran dari berbagai macam sumber
• Memahami data sangat penting untuk tahap preprosesing.
RapidMiner - Budi Susanto
Atribut Data • Mencerminkan karakteristik objek data. • Tipe atribut menentukan himpunan nilai yang diperbolehkan. Nominal Binary (Binomial) Ordinal Numerik • Interval-scale • Ratio-scale o Diskret atau Continue o o o o
RapidMiner - Budi Susanto
Deskripsi Statistik • Mengukur lokasi pusat/tengah dari distribusi data o o o o
Mean Median Mode Midrange
Data Mining: RapidMiner - BudiConcepts Susanto and Techniques, 3th ed., p. 47
Deskripsi Statistik • Mengukur penyebaran data o Rentang dan Kuartil o Variasi dan Standard Deviasi
Data Mining: RapidMiner - BudiConcepts Susanto and Techniques, 3th ed., p. 48
BoxPlot • Interquartil Range (IQR) o Q3 – Q1
• Outlier data o 1.5 x IQR
RapidMiner - Budi Susanto
Mengukur Kesamaan • Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. o Minkwoski distance • Euclidean dan Manhattan o Cosine
RapidMiner - Budi Susanto
Mengukur Kesamaan
RapidMiner - Budi Susanto
Data Preprocessing • Teknik-teknik: o o o o
Data Cleaning Data integration Data Reduction Data Transformation
• Mengapa penting? o Untuk memenuhi data quality • Accuracy • Completeness • Consistency o Disamping terdapat faktor data quality lain: • Timeliness • Believability • interpretability RapidMiner - Budi Susanto
Data Cleaning • Proses untuk membersihkan data dengan beberapa teknik o o o o
Memperkecil noise membetulkan data yang tidak konsisten. Mengisi missing value Mengidentifikasi atau membuang outlier
RapidMiner - Budi Susanto
Data Cleaning: Missing Values • Mengabaikan record o Biasanya untuk label klasifikasi yang kosong
• Mengisikan secara manual • Menggunakan mean/median dari atribut yang mengandung missing value o Mean dapat dipakai jika distribusi data normal o Median digunakan jika distribusi data tidak normal (condong)
• Menggunakan nilai global • Menggunakan nilai termungkin o Menerapkan regresi
RapidMiner - Budi Susanto
Data Cleaning: Noisy Data • Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. • Teknik-teknik o Binning • Smoothing by bin means • Smoothing by bin medians • Smoothing by bin boundaries o Regression o Outlier Analysis
RapidMiner - Budi Susanto
Percobaan Data Cleaning • Dataset o Labor-Negotiations
RapidMiner - Budi Susanto
Workflow #1
RapidMiner - Budi Susanto
Data Integration • Data dapat bersumber dari beberapa sumber • Teknik o Analisis korelasi o Atribut redundan o duplikasi
RapidMiner - Budi Susanto
Covariance Correlation
RapidMiner - Budi Susanto
Data Transformation • Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. • Strategi: o o o o o
Smoothing Attribute (feature) construction Aggregation Normalization Discretization
RapidMiner - Budi Susanto
Data Transformation: Aggregation dan Smoothing
RapidMiner - Budi Susanto
Data Transformation: Normalization • Unit ukuran dapat mempengaruhi analisis data. • Unit yang lebih kecil akan menghasilkan rentang nilai yang besar o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain
• Sehingga o Data perlu dinormalisasi atau dibakukan.
• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] • Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.
RapidMiner - Budi Susanto
Data Transformation: Metode Normalization • Min-max • Z-score • Decimal scaling
RapidMiner - Budi Susanto
normalization
RapidMiner - Budi Susanto
Data Transformation: Discretization • Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)
RapidMiner - Budi Susanto
discretization
RapidMiner - Budi Susanto
Data Transformation: Data Reduction • Teknik o Dimensionality reduction • Wavelet transform • Principal Component Analysis • Attribute Subset Selection o Numerosity reduction • sampling o Data compression
RapidMiner - Budi Susanto