9/9/2016
Who Am I ? • SDN 146 Palembang (1997) • SMPN 33 Palembang (2000) • SMA 11 Palembang (2003) • S.Kom, M.Sc and in Software Engineering from Universitas Bina Darma Palembang(2003‐2007) University of Technology Sydney (2011) • Research Interests: Software Engineering, Intelligent Systems,
Ricky Maulana Fajri
Data Mining Outline
Rules
BAB I Pendahuluan
• • • • •
BAB II Data
BAB III Algoritma Klasifikasi
BAB IV Algoritma Klastering
BAB V Algoritma Asosiasi
BAB VI Algoritma Estimasi
BAB VII Deteksi Anomali
BAB IX Text Mining
Rules 80 % attendance Dress code ??? Task, Quis, Mid Term and Final is a must Goals Goals – Attendance 10 % – Quis 10 % – Task 10 % – Mid Term 30 % – Final 40 %
Manusia Memproduksi Data
Pendahuluan • Jelaskan perbedaan antara data, informasi dan pengetahuan ? • Pengetahuan atau pola apa yang bisa kita dapatkan dari data di data di bawah? NIM
Gender
Nilai UN
Asal Sekolah
IPS1
IPS2
IPS3
IPS 4
10001
L
28
SMAN 2
3.3
3.6
2.89
2.9
...
Lulus Tepat Waktu Ya
10002
P
27
SMAN 7
4.0
3.2
3.8
3.7
Tidak
10003
P
24
SMAN 1
2.7
3.4
4.0
3.5
Tidak
10004
L
26.4
SMAN 3
3.2
2.7
3.6
3.4
Ya
L
23.4
SMAN 5
3.3
2.8
3.1
3.2
Ya
... 11000
Manusia memproduksi beragam data yang jumlah dan ukurannya sangat besar – – – – – – – –
Astronomi Bisnis Kedokteran Ekonomi Olahraga Cuaca Financial … 6
1
9/9/2016
Perubahan Kultur dan Perilaku
Mengapa Data Mining?
We are drowning in data, but starving for knowledge! starving for knowledge!
(Insight, Big Data Trends for Media, 2015) 8
7
Apa itu Data Mining?
Apa itu Data Mining? • Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar • Ekstraksi dari data ke pengetahuan: 1. Data: fakta yang terekam dan tidak membawa arti 2. Pengetahuan: pola, rumus, aturan atau model yang g p , , y g muncul dari data
• Nama lain data mining: – – – – – 9
Knowledge Discovery in Database (KDD) Knowledge extraction Pattern analysis Information harvesting Business intelligence 10
Apa Itu Data Mining?
Definisi Data Mining • Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011)
Himpunan Data
Metode Data Mining
11
• Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)
Pengetahuan
• Extraction of interesting (non‐trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data (Han et al., 2011)
12
2
9/9/2016
Data ‐ Informasi – Pengetahuan
Data ‐ Informasi – Pengetahuan
NIP
TGL
DATANG
PULANG
NIP
Masuk
1103
02/12/2004
07:20
15:40
1103
22
1142
18
2
1156
10
1
1173
12
5
1180
10
1142
02/12/2004
07:45
15:33
1156
02/12/2004
07:51
16:00
1173
02/12/2004
08:00
15:15
1180
02/12/2004
07:01
16:31
1183
02/12/2004
07:49
17:00
Data Kehadiran Pegawai
Alpa
Cuti
11 5 12
Informasi Akumulasi Bulanan Kehadiran Pegawai 14
Data ‐ Informasi – Pengetahuan Selasa
Rabu
Telat
2
13
Senin
Sakit
Kamis
Jumat
Terlambat
7
0
1
0
5
Pulang Cepat Izin
0
1
1
1
8
3
0
0
1
4
Alpa
1
0
2
0
2
Data ‐ Informasi – Pengetahuan ‐ Kebijakan • Kebijakan penataan jam kerja karyawan khusus untuk hari senin dan jumat • Peraturan jam kerja: – Hari Senin dimulai jam 10:00 – Hari Jumat diakhiri jam 14:00 – Sisa jam kerja dikompensasi ke hari lain
Pola Kebiasaan Kehadiran Mingguan Pegawai 15
16
Data Mining pada Business Intelligence Increasing potential to support business decisions
Hubungan dengan Berbagai Bidang Statistics
End User
Decision Making
Business Analyst
Data Presentation Visuali ation Techniques Visualization Techniques Data Mining Information Discovery
Pattern Recognition
Database Technology
Data Analyst
Data Exploration Statistical Summary, Querying, and Reporting
Machine Learning
Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems 17
Computing Algorithms
Data Mining
High Performance Computing
DBA
18
3
9/9/2016
Masalah‐Masalah di Data Mining • Tremendous amount of data – Algorithms must be highly scalable to handle such as tera‐bytes of data • High‐dimensionality of data – Micro‐array may have tens of thousands of dimensions • High complexity High complexity of data of data – Data streams and sensor data – Time‐series data, temporal data, sequence data – Structure data, graphs, social networks and multi‐linked data – Heterogeneous databases and legacy databases – Spatial, spatiotemporal, multimedia, text and Web data – Software programs, scientific simulations • New and sophisticated applications
Teknik Data Mining • • • • • •
1. Klasifikasi (Predictive) 2. Klastering (Descriptive) 3. Association Rule Discovery (Descriptive) 4. Sequential Pattern Discover (Descriptive) 5. Regression (Predictive) 6. DeviationDetection (Predictive)
19
Klasifikasi
Klasifikasi ‐ Cont
• Menentukan sebuah record data baru ke salah satu dari beberapa kategori (atau klas) yang telah didefenisikan sebelumnya. • Contoh
• Gunakan data penjualan untuk suatu produk telepon selular • Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang memutuskan untuk tidak membeli • Himpun bermacam demografi, gaya hidup dan company‐interaction sehubungan dengan informasi mengenai pelanggan tertentu. • Gunakan inforamsi tersebut sebagai atribut input untuk mempelajari suatu model klasifikasi
– Penjualan langsung • Mengurangi cost surat menyurat dengan menentukan target sau set konsumen yang mempunyai kesamaan dalam membeli telepon selular baru.
Klastering • Mempartisi data‐set menjadi beberapa sub‐ set atau kelompok sedemikian rupa sehingga elemen‐elemen dari suatu kelompok teretentuk memiliki set properti set properti yang dishare yang dishare bersama dengan tingkat similartisa yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah.
Klastering • Contoh – Market Segmentation – Membagi pasar kedalam sub‐set pelanggan yang berbeda dimana satu sub berbeda, dimana sub‐set set mungkin mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda
4
9/9/2016
Klastering
Association Rules
• Kumpulkan atribut dari pelanggan yang berbeda berdasarkan pada informasi tempat tinggal dan gaya hidup • Tentukan klaster dari pelanggan‐pelanggan pelanggan pelanggan yang sama. • Hitung kualitas klaster dengan mengobservasi pola gaya beli pelanggan pada klaster yang sama versus klaster yang berbeda
• Mendeteksi kumpulan atribut‐atribut yang muncul bersamaan (Co‐Occur) dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan‐kumpulan tersebut. Contoh • 90% orang yang berbelanja di suatu supermarket yang membeli roti juga membeli selai, dan 60 % dari semua orang yang berbelanja membeli keduanya.
Summary
Question
• Definisi Data, Informasi, Pengetahuan • Definisi Data Mining • Teknik dalam Data Mining
5