Dr. Yadi Suprijadi, DEA Zulhanif, M.Sc
Giudici, P., & Figini, S. (2009). Applied data mining for business and industry. Chichester: Prentice Hall. Larose, D. T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey: John Wiley & Sons. Louis, O. D., & Yong, S. (2007). Introduction to Business Data Mining. Singapore: Mc Graw Hill. R and Data Mining -- Examples and Case Studies(2012)Zhao Y,Elsevier
DM adalah eksplorasi dan analisis pada sejumalah data berukuran besar untuk menemukan suatu pola dan aturan yang berarti.
Ledakan eksponensial dalam data baik dari segi kuantitas maupun penggunaanya telah terjadi dalam kurun waktu 20-30 tahun terakhir dalam berbagai bidang. Ledakan pertumbuhan data ini diimbangi oleh kemajuan teknologi komputer dan perkembangan teknologi internet. Andil dari internet tidak hanya dalam akumulasi data saja tetapi memungkinkan bagi kita dengan mudah mendapatkan data secara cepat dan akurat.
Twitter = 200 Jt tweets per hari atau approximately 46MB/sec (August 2011) Facebook = 640 Jt users, dengan 50% logging setiap hari (March 2011) Goggle =50 milyar halaman (December 2011)
Computer receives telephone call Measures Pitch of voice Decides gender of caller
Male Huma n Voice
Female
Probability
mean1 var1
mean2 var 2
Voice Pitch
No. of mistakes
Voice Pitch
Machine Learning
Data
Estimated Decision Predictions Statistics world state Theory Actions
Pendefinisian Masalah Pada fase awal datamining dimulai dengan pemahaman dari suatu problem bisnis, para ahli datamining, pakar bisnis dan para pakar yang berkaitan langsung pada masalah yang akan dipecahkan, bekerja sama untuk mendefinisikan tujuan proyek dan persyaratan dari aspek perspektif bisnis. Tujuan proyek ini kemudian diterjemahkan ke dalam definisi masalah data mining.
Persiapan Data Pada tahapan ini merupakan tahapan membersihkan data dari berbagai hal yang tidak sesuai yang dapat menggangu proses analisis selanjutnya seperti adanya data hilang, langkah selanjutnya pada tahapan ini adalah membuat format data yang sesuai dengan jenis analisis yang akan dipergunakan. Proses transformai data dan pengkategorisasian dilakukan juga pada tahapan ini.
Extract Transform Load
R version 3.1.3 library(shiny) runApp("LDAelife")
Eksplorasi Data Pada tahapan ini seorang ahli datamining mulai melakukan pengumpulan, menggambarkan, dan mengeksplorasi data serta mengidentifikasi masalah kualitas data. Pertukaran akan pengetahuan data antara ahli data mining dengan pakar bisnis sering terjadi pada tahapan ini dengan tujuan untuk menyamakan persepsi dari data yang akan dianalisis untuk menjawab problem yang sudah didefinsikan sebelumnya.
http://code.google.com/p/google-motioncharts-with-r/
R 3.12 library(rpivotTable) data(mtcars) ## One line to create pivot table rpivotTable(mtcars, rows="gear", col="cyl", aggregatorName="Average", vals="mpg", rendererName="Treemap")
Modeling Pada tahapan ini model yang akan dipergunakan dalam datamining ditetapkan berdasarkan formulasi permasalahan yang diajukan sebelumnya, beberapa model dipilih sebagai kandidat model untuk menjawab permasalahan yang selanjutnya kan dievaluasi pada tahapan selanjutnya
Evaluasi Pada tahapan ini model yang dibentuk pada tahapan modelling dievaluasi berdasarakan kriteria tertentu, pada tahapan ini dilakukan penetapan berbagai parameter yang ada pada model yang akan dipergunakan dengan tujuan menghasikan model yang baik dan visible untuk diimplementasikan.
Tahapan deployment yang merupakan tahapan terakhir dari seluruh proses dataming, pada tahapan ini semua hasil baik berupa model, tabel, diagram atau spreadsheet diexport ke dalam bentuk suatu report yang komprehensif sehingga dapat dengan mudah untuk dibaca dan dipergunakan dalam suatu proses pengambilan keputusan.
http://www.gapminder.org/
Kemajuan dramatis dalam teknologi database, memberikan kekuatan pemrosesan, transmisi data, dan kemampuan penyimpanan, hal ini memungkinkan suatu organisasi/individu untuk melakukan pemprosesan transaksi data dalam bahasa SQL (Structure Query Language), serta menyimpan data dengan jumlah record yang sangat besar, keuntungan lainnya yang didapat jika menggunakan database adalah database memberikan aspek kemudahan dalam mengintegrasikan berbagai sumber database atau yang dikenal sebagai (data warehouses). Data warehouses sendiri dapat didefinisikan sebagai suatu proses manajemen data terpusat(sentralisasi data). Sentralisasi data sendiri sangat dibutuhkan untuk memaksimalkan akses pengguna dan penggalian informasi data (datamining). Kemajuan teknologi perangkat lunak seperti software datamining, juga ikut mendorong implementasi dari datamining pada banyak perusahaan saat ini, hal ini dimungkinkan karena pengguna dapat dengan mudah untuk mengakses dan menganalisis data secara terintegrasi dan komprehensif.
R+Rapidminer Statistica Clementine