Konsep Data Mining
Pendahuluan Bertalya Universitas Gunadarma 2009
Latar Belakang • Data yg dikumpulkan semakin bertambah banyak – Data web, e-commerce – Data pembelian di toko2 / supermarket – Transaksi Bank/Kartu Kredit – Detail panggilan telepon – Statistik pemerintahan – Rekam medis – Database molekul – Citra astronomis
Pendahuluan
2
Latar Belakang (lanj.) • Komputer sekarang murah dan powefull • Tekanan kompetisi semakin kuat – Menyediakan layanan yg lbh baik & customized (mis dalam Customer Relationship Management) • Teknik penyimpanan data semakin tinggi dengan kecepatan tinggi (GB/jam) • Proses ekstraksi informasi di dalam kumpulan data yg besar menjadi tantangan • Pendekatan analisis data tradisional tidak dapat digunakan utk mengekstrak data dlm jumlah besar • Data mining merupakan teknik yg menggabungkan teknik analisis data tradisional dengan algoritma yg sophisticated utk pemrosesan data dlm jumlah besar Pendahuluan
3
Latar Belakang (lanj.) • Informasi yg dibutuhkan misalnya : – Kebutuhan dari pelanggan (data layanan telepon) – target responden untuk promosi produk – Jenis produk yg paling banyak terjual – Historis transaksi dari seorang pelanggan – Pelanggan yang paling loyal – Mengetahui perilaku gen2 dalam berbagai situasi – Mengetahui awal dan akhir musim pada suatu area
Informasi yang dibutuhkan seperti di atas dapat diekstrak dengan data mining
Pendahuluan
4
Definisi Data Mining • Mengekstrak atau “mining” pengetahuan dari kumpulan data yg sangat besar • Ekstraksi informasi yg berguna dari data, dimana sebelumnya tidak diharapkan, tidak dikenal & implisit • Eksplorasi & analisis, secara otomatis atau semiotomatis dari sekumpulan data yg sangat besar untuk memperoleh pola2 data yg berarti • Proses analisis database yg besar secara semi-otomatis utk menemukan pola yang valid, baru, berguna dan dapat dipahami manusia
Pendahuluan
5
Asal Data Mining • Berasal dari machine learning/AI, pattern recognition, statistics, & database systems • Teknik tradisional tidak sesuai disebabkan karena – Data yg sangat2 besar Statistics/ Machine Learning/ AI Pattern – Data dengan dimensi Recognition yg besar Data Mining – Data yg tersebar & heterogen Database systems
Pendahuluan
6
Ilmu yang Berkaitan Dengan Data Mining • Statistik Merupakan dasar teori tetapi hasilnya sulit diinterpretasi serta butuh bantuan dari pemakai utk melakukan analisis data.
• Machine Learning Merupakan proses pembelajaran secara otomatis & pembelajaran ini setara dgn konstruksi aturan2 berbasis pada keadaan & transisi dari lingkungan sekitar.
• Sistem Database Data dikumpulkan dan disimpan dalam database.
Pendahuluan
7
Tantangan Data Mining • Skalabilitas, dikrnkan penyimpanan data menggunakan ukuran besar (gigabyte, terabyte dst) maka pada proses data mining, kumpulan data harus diskala • Dimensionalitas yg tinggi, dimana data yg disimpan memiliki atribut dlm jumlah besar, Seperti data pengukuran suhu di beberapa lokasi yg memiliki komponen waktu & spasial • Data yg heterogen & kompleks, dimana data mempunyai atribut yg heterogen, cth kumpulan hal web yg terdiri atas teks yg semi terstruktur & banyak terdapat link. Teknik data mining harus mempunyai teknik otokorelasi spasial & waktu, graph connectivity & keterhubungan parent-child antara elemen teks semi terstruktur & dokumen XML Pendahuluan
8
Tantangan Data Mining (lanj.) • Pendistribusian & kepemilikan data, dimana data tersimpan di lebih dari satu lokasi & dimiliki lebih dari satu organisasi. Untuk itu teknik data mining harus dapat al : (1)berkonsolidasi terhadap hasil data mining yg berasal dari sumber berbeda, (2) mengurangi jumlah komunikasi utk komputasi yg tersebar • Analisis yg non-tradisional, membutuhkan teknik evaluasi & penurunan ribuan hipotesis
Pendahuluan
9
Data mining merupakan bagian dari proses Knowledge Discovery in Databases (KDD) – Proses transformasi data mentah menjadi informasi berguna.
Pendahuluan
10
Tahap2 pada KDD • Selection, penyeleksian atau segmentasi data berdasarkan kriteria ttt. • Preprocessing, tahap pembersihan dimana info. tidak berguna dibuang. Selain itu data dikonfigurasi ulang utk menjamin format tetap konsisten. • Transformation, proses transformasi sehingga data dapat digunakan dan ditelusuri. Pemetaan data kompleks • Data mining, proses ekstraksi pola dari data yg ada. • Interpretation & evaluation, proses interpretasi pola menjadi pengetahuan yg dapat digunakan utk mendukung pengambilan keputusan (cth prediksi & klasifikasi, ringkasan konten database serta penjelasan fenomena yg diamati. Pendahuluan
11
Tugas Data Mining • Metode Prediksi Menggunakan beberapa atribut utk memprediksi nilai dari atribut yg akan datang. Atribut yg akan diprediksi disbt target atau dependent variable. Atribut yg digunakan disbt explanatory atau independent variable. 2 tipe : - classification, digunakan untuk variabel target diskrit - regression, digunakan untuk variabel target kontinu
• Metode Deskripsi Menemukan pola2 (yg menggambarkan data) yg dapat diinterpretasikan manusia • Clustering • Association Rule Discovery • Sequential Pattern Discovery Pendahuluan
12
Aplikasi Data Mining • Pemasaran / Penyewaan – Identifikasi pola pembayaran pelanggan – Menemukan asosiasi diantara karakteristik demografik pelanggan – Analisis keranjang pemasaran
• Perbankan – Mendeteksi pola penyalahgunaan kartu kredit – Identifikasi pelanggan yg loyal – Mendeteksi kartu kredit yg dihabiskan oleh kelompok pelanggan
• Asuransi & Pelayanan Kesehatan – Analisis dari klaim – Memprediksi pelanggan yg akan membeli polis baru – Identifikasi pola perilaku pelanggan yg berbahaya
• Transformasi – Menentukan jadual distribusi ke outlet2 Pendahuluan
13
Aplikasi Data Mining (lanj.) • Pengobatan – Identifikasi terapi pengobatan yg berhasil utk penyakit berbeda – Mengkarakterisasikan perilaku pasien utk memprediksi kunjungan – Menganalisis sejarah penyakit pasien, serta menemukan hubungan antara penyakit2 yg ada
• Dunia ilmuwan – Mendeteksi galaksi baru
Pendahuluan
14