Data Warehouse & Mining Pengantar
[email protected] / @yudiwbs Ver dok: 0.8/ Sept 2014
Kutipan The most valuable commodity I know of is information. Gordon Gekko Data is the new oil! Clive Humby If we have data, let’s look at data. If all we have are opinions, let’s go with mine. - Jim Barksdale,
Seputar Perkuliahan • • • •
Dosen: Yudi Wibisono Email:
[email protected] ym/twitter: yudiwbs Fb: http://www.facebook.com/yudi.wibisono • Komunikasi: via email, ym, fb, e-learning, twitter. Tidak telepon/SMS kecuali ketua kelas
Seputar Perkuliahan (lanj) • Keterlambatan tugas 1% / jam, max 2 hari. • Bobot penilaian: 20 % tugas, 40% UTS, 40% UAS • Batas nilai (dpt berubah): A:79, B:64, C:49, D:30 • Kecurangan: E (termasuk yg memberikan) • Ujian: Praktikum • Buku: Data Mining: Concepts and Techiques, Jiawei Han (bab 1 sd 8)
Seputar Perkuliahan (2) • Dilarang berbicara saat pihak lain berbicara. • Dipersilahkan tidur, membaca, dan aktivitas lain selama TIDAK menggangu orang lain. • HP: silent, dilarang menerima telp dalam kelas. Next: Cakupan.
Cakupan • Fokus: – Rekayasa (engineering) untuk memecahkan masalah – Analisis – Perancangan
• Pendukung – Praktikum+tugas: tools
Materi Kuliah: Data warehouse • Pemodelan Datawarehouse • OLAP (online analytical processing) • ETL (Extraction Transformation Loading) Tools praktikum: Pentaho
Materi Kuliah: Data mining • Data Preprocessing – Cleaning, Integration, Reduction.
• Mining frequent pattern, asosiasi • Klasifikasi • Clustering • Text Mining Tools praktikum: Weka
Mengapa belajar DWM? Untuk apa belajar DWM? Apa manfaat belajar DWM bagi saya ?
Mengapa DWM? • Digitalisasi, kemajuan sistem informasi data, data, data (Tera Peta) • Web 2.0 berita, blog, twitter, forum, flickr, fb, youtube, flickr • Streaming data sensor, internet of thing (IoT) Data yang sangat besar!
Mengapa DWM: Banjir Data • Indomaret: 4500an gerai, asumsi 3 transaksi per menit = 12 juta transaksi per hari se Indonesia. • Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik 850 juta transaksi per hari. • Twitter: 8000an tweet per detik 600 juta tweet per hari. • Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 900 juta user menghabiskan 700 milyar menit per bulan di situs FB. Bagaimana mengelolanya? Apa yang bisa dilakukan perusahaan dengan data sebanyak itu? Informasi apa yang bisa didapat?
Banjir Data (lanj) Large Hadron Collider: 15 petabytes data per tahun 1 Peta = 1 Juta Giga 1 Tera = 1000 Giga 1 Peta = 1000 Tera
http://nextnature.net/wp-content/uploads/2009/09/lhc-530.jpg?iact=hc&vpx=1076&vpy=276&dur=1031&hovh=260&hovw=194&tx =158&ty=231&sig=112386718339487151050&ei=io1GUO-NCMjorQeJ2oCgBw&page=2&tbnh=149&tbnw=113&start=18&ndsp=24&ved=1t:42 9,r:35,s:18,i:40
Penyimpanan Petabytes
• 1562 kali hardisk 640GB • Harga: Rp.5 Milyar
Evolusi DB • 60-an: koleksi data (file system primitif) • 70-80: MIS (Sistem Informasi Management) • 80-sekarang: OO, Deductive, Spatial, Multimedia • 90-sekarang: Web based (XML, web mining), Datawarehouse, OLAP, Text Database, Text + Data mining • 05-sekarang: Stream data management and mining, Cloud, Web
Tenggelam dalam data, tapi lapar dalam pengetahuan !
Jiawei Han
Definisi • • • • •
Data: simbol Informasi: data yang berguna Pengetahuan: aplikasi dari data+informasi Pemahaman: menjawab “mengapa”. Kebijaksanaan: moral, etika, filosofis
Buzzword • Business Intelligence • Big Data • Data scientist
Masalah Utama • Data berjumlah besar • Aliran besar (volume per satuan waktu) • Dimensi besar jumlah field – Bayangkan indomaret: • Data: Produk per toko, jenis produk, transaksi • Laporan: transaksi per waktu (hari/bulan/tahun), transaksi per wilayah (kabu-kota/propinsi), transaksi per produk per wilayah dst.
• Bagaimana mengelola data? • Bagaimana mendapatkan pengetahuan & pemahaman?
Solusi ●
Datawarehouse
●
Datamining
Apa Data warehouse? • Database pendukung keputusan yang terpisah dengan database operasional – Apa database operasional?
• Platform untuk penggabungan data historis untuk analisis • Subject oriented (multi dimensi), terintegrasi, historis, non volatile
TV PC VCR sum
1Qtr
2Qtr
Waktu 3Qtr
4Qtr
Tot penjualan tahunan TV Di U.S.A. sum U.S.A Canada Mexico sum
Neagara
Pr od uk
Contoh Visualisasi
Apa Datamining?
Mengekstrak secara otomatis pola atau pengetahuan yang menarik (tidak sederhana, tersembunyi, tidak diketahui sebelumnya, berpotensi berguna) dari data bervolume sangat besar.
Contoh datamining ●
Memprediksi umur dan gender berdasarkan data tweet.
●
Mendeteksi adanya penerobosan sistem (crack).
●
Memprediksi hasil pemilu berdasarkan tweet.
●
●
Memprediksi saat orang membeli X di supermarket berapa besar kemungkinan orang tsb akan membeli barang Y. Memprediksi apakah seseorang hamil berdasarkan data pembelian.