Konsep Data Mining
DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES Bertalya Universitas Gunadarma 2009
Data Mining (DM) • DM merupakan suatu proses penjelajahan otomatis untuk mendapatkan informasi berguna dalam suatu repositori data yang sangat besar. • DM merupakan bagian yg terintegrasi dari Knowledge Discovery in Databases (KDD). • KDD terbagi atas 3 tahap secara global yakni – Data preprocessing – Data mining – Postprocessing
DM dan KDD
2
Tahap-tahap pada KDD • Data preprocessing, bertujuan mentransformasikan data mentah ke format yg sesuai utk analisis. • Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data • Postprocessing, bertujuan untuk menjamin bahwa hasil proses data mining yg diintegrasikan pada sistem penunjang keputusan, benar2 hasil yg valid. • Terdiri atas proses penapisan pola, visualisasi dan interpretasi pola
DM dan KDD
3
(KDD) – Proses transformasi data mentah menjadi informasi berguna
DM dan KDD
4
Tahap-tahap Detail pada KDD • Seleksi – proses penyeleksian atau segmentasi data menurut beberapa kriteria, – mis. Orang-orang yang mempunyai mobil • Preprocessing – proses pembersihan data, dimana informasi yg tidak dibutuhkan dibuang, – Mis. Jenis kelamin pasien utk analisis kehamilan Data dikonfigurasi ulang untuk memastikan format yg konsisten krn berasal dari berbagai sumber. – Mis. Jenis kelamin disimpan dgn bentuk f atau m dan 1 atau 0 DM dan KDD
5
Tahap2 pada KDD (lanj.) • Transformasi – proses transformasi sehingga data menjadi berguna dan dapat ditelusuri. • Data Mining – proses yg berfokus pada ekstraksi pola2 data. Pola dapat didefinisikan sebagai sekumpulan fakta2 (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C. Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dgn kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs. DM dan KDD
6
Tahap2 pada KDD (lanj.) • Interpretasi & Evaluasi – pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapat digunakan utk mendukung pengambilan keputusan manusia, contoh – tugas prediksi & klasifikasi, – meringkas konten suatu database – menjelaskan fenomena yg diamati
DM dan KDD
7
Isu / Masalah DM Sistem data mining bertumpu pada database2 yg memasok data mentah sebagai masukan. Masalah yg timbul a.l : – Informasi yg terbatas Database dirancang utk tujuan berbeda dgn DM. Atribut2nya sederhana. Data yg tidak lengkap menimbulkan masalah karena apabila tidak terdapat atribut2 penting utk pengetahuan domain aplikasi tertentu, hal ini akan mengakibatkan kesulitan utk mendapatkan pengetahuan yg tepat utk domain tertentu. Contoh, tidak dapat mendiagnosa penyakit malaria dari database pasien apabila database tersebut tidak terdapat hasil pengukuran sel darah merah pasien DM dan KDD
8
Isu / Masalah DM (lanj.) – Nilai data yg hilang atau noise Biasanya database terkontaminasi oleh kesalahan sehingga tidak dapat sepenuhnya dinyatakan bahwa database mempunyai data yg benar.
– Ketidakpastian Ketidakpastian merujuk pada tingkat kesalahan dan noise pada data
– Bidang yg tidak relevan & termodifikasi serta ukurannya Database cenderung sangat besar & dinamis, dimana kontennya selalu berubah2 (ditambah, dimodifikasi & dihapus).
DM dan KDD
9
Isu / Masalah DM (lanj.) Masalahnya bagaimana menyakinkan bahwa aturan yg ada tetap up-to-date & konsisten dgn informasi yg ada. Selain itu, bidang database terkadang tidak relevan dgn fokus pencarian data. Contoh, kode pos merupakan hal dasar utk menyatakan hubungan mengenai sesuatu secara geografis, seperti penjualan produk.
DM dan KDD
10
Arsitektur DM
Graphical user interface Pattern evaluation Data mining engine Knowledge-base
Database or data warehouse server Data cleaning & data integration
Filtering Data Warehouse
Databases Databases DM dan KDD
11
Data pada DM • • • •
Database relasional Data warehouse Database transaksi Database lanjut & repositori informasi – Database berorientasi objek & database relasional – Database Spasial – DataTime-series & data temporal – Database teks & database multimedia – Database heterogen & database legal – WWW
DM dan KDD
12