Klasifikasi & Prediksi Elsen Ronando, S.Si.,M.Si.,M.Sc.
[email protected]
Teknik Informatika Fakultas Teknik Universitas 17 Agustus 1945 Surabaya
2017
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
1 / 24
Rencana Presentasi
1
Pendahuluan Apa Proses Klasifikasi & Prediksi ? Langkah-Langkah Proses Klasifikasi Tantangan Klasifikasi & Prediksi
2
Metode Klasifikasi Pohon Keputusan
3
Catatan
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
2 / 24
Pendahuluan Apa Proses Klasifikasi ? Teknik untuk memprediksi kategori kelas label dari sekumpulan data. Proses pengelompokan data (membangun model) berdasarkan pelatihan data dan kelas labelnya dalam klasifikasi atribut dan menggunakan pemodelan untuk mengklasfikasian data baru. Termasuk pembelajaran terawasi → Supervised Learning (terdapat target kelas label untuk masing-masing atribut data).
Apa Proses Prediksi ? Fungsi model kontinu untuk meramalkan nilai yang belum diketahui atau missing. Aplikasi :
Aplikasi kredit. Aplikasi pemasaran. Aplikasi diagnosa medis. dan lain-lain Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
3 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Membangun Model : menjelaskan kumpulan kelas yang telah ditetapkan. Setiap sampel data diasumsikan kedalam kelas yang telah ditetapkan sesuai dengan atribut label kelasnya. Sampel data digunakan untuk membangun model → proses pelatihan. Model yang dibangun dapat direpresentasikan dalam aturan klasifikasi, pohon keputusan, maupun rumus matematika.
Menggunakan model: mengklasifikasikan data selanjutnya atau yang belum diketahui. Mengestimasi akurasi dari model tersebut. Perbandingan hasil klafikasi model dengan data awal/uji. Tingkat akurasi dalam prosentase berdasarkan kesesuaian kebenaran. Data uji terpisah dari data pelatihan → untuk mengetahui over-fitting.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
4 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Membangun Model :
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
5 / 24
Pendahuluan Langkah-Langkah Proses Klasifikasi Menggunakan Model : Prediksi
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
6 / 24
Pendahuluan Tantangan Klasifikasi & Prediksi Persiapan Data Pembersihan data → mereduksi noise dan mengontrol nilai missing. Analisa Relevan (Seleksi Fitur) → menghapus atribut tidak relevan atau redudansi. Transformasi data → normalisasi data.
Evaluasi Metode Klasifikasi Akurasi. Kecepatan dan skalabilitas → waktu untuk membangun dan menggunakan model. Kekuatan → mengontrol noise dan nilai missing. Skalabilitas → efisiensi dalam basis data. Pemahaman → wawasan yang disediakan oleh model. Aturan → ukuran pohon keputusan & keterkaitan aturan klasifikasi.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
7 / 24
Metode Klasifikasi Pohon Keputusan (Decision Tree) Konsep Dasar : Proses yang memerlukan satu atau kumpulan keputusan dalam penyelesaiannya. Berkaitan erat dengan konsep hirarki maupun pohon. Proses pengambilan keputusan melalui pendekatan statistik dalam kondisi uncertainty.
Contoh Pohon Keputusan
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
8 / 24
Metode Klasifikasi Permasalahan Investor memiliki sejumlah dana untuk diinvestasikan pada dua alternati proyek, yaitu proyek A dan B. Peluang proyek A akan memberikan keuntungan adalah 20% dengan nilai keuntungan 50 juta. Peluang proyek B akan memberikan keuntungan adalah 45% dengan nilai keuntungan 10 juta. Tentukan pohon keputusan untuk membantu investor dalam berinvestasi ! Penyelesaian :
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
9 / 24
Metode Klasifikasi
Permasalahan Pengambilan Keputusan : Nilai Ekspektasi Ekonomi P Nilai Ekspektasi Ekonomi Proyek A = (probabilitas × nilai payoff) = (0.20 × 50juta)+(0.8 × 0)= 10 juta. P Nilai Ekspektasi Ekonomi Proyek B = (probabilitas × nilai payoff) = (0.45 × 10juta)+(0.55 × 0)= 4.5 juta. Jadi, investor tersebut harus memilih proyek A.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
10 / 24
Metode Klasifikasi Permasalahan Tabel 1. Set Data Pengambil Keputusan cuaca
temperatur
kelembapan
angin
Bermain
mendung mendung mendung mendung hujan hujan hujan hujan hujan terang terang terang terang terang
dingin panas panas sedang dingin sedang dingin sedang sedang panas panas sedang dingin sedang
normal tinggi normal tinggi normal tinggi normal tinggi normal tinggi tinggi tinggi normal normal
ya tidak tidak ya ya ya tidak tidak tidak tidak ya tidak tidak ya
ya ya ya ya tidak tidak ya ya ya tidak tidak tidak ya ya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
11 / 24
Metode Klasifikasi Permasalahan Bagaimana hasil keputusan dalam memprediksi data baru ? cuaca
temperatur
kelembapan
angin
Bermain
hujan
dingin
tinggi
tidak
?
Apa yang perlu dilakukan untuk menyelesaikan permasalahan prediksi diatas ?
Solusi Bangun sebuah model → Pohon Keputusan. Salah satu teknik pohon keputusan ID3 dapat diterapkan → nilai entropi dan informasi gain. Uji data baru (data prediksi) kedalam model → keputusan baru diperoleh. Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
12 / 24
Metode Klasifikasi Pohon Keputusan ID3 Perhitungan Nilai Entropi
Pohon keputusan → akar pohon dan anak pohon. Algoritma ID3 → menghitung kehomogenan sampel. Jika sampel adalah homogen, maka entropinya adalah nol. Jika sampel adalah seimbang, maka entropinya adalah satu. Entropi = −p log2 p − q log2 q Entropi menggunakan tabel frekuensi dari satu atribut: E (S) =
c X
−pi log2 pi
i=1
Entropi menggunakan tabel frekuensi dari dua atribut: X P(c)E (c) E (T , X ) = c∈X Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
13 / 24
Metode Klasifikasi Pohon Keputusan ID3 Perhitungan Informasi Gain berkaitan dengan penurunan entropi setelah set data dibagi pada sebuah atribut. Gain (T , X ) = Entropi(T ) − Entropi(T , X ) Cari nilai gain terbesar untuk mencari atribut dalam pohon keputusan.
Step 1 Hitunng nilai entropi target : Entropi(target) = Entropi(ya, tidak) = Entropi(9, 5) 9 9 5 5 = −( log2 + log2 ) 14 14 14 14 = 0.94 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
14 / 24
Metode Klasifikasi Step 2 Setdata dibagi pada atribut yang berbeda. Entropi setiap pohon dihitung. Secara proporsional, dapatkan total entropi untuk pembagi. Hasil entropi disubstrak dari entropi sebelum dibagi. Hitung informasi gain. Analisa Atribut Cuaca: Mendung → Entropi(4,0) Entropi(4, 0) = −(
4 4 0 0 log2 + log2 ) = 0 4 4 4 4
Hujan → Entropi(3,2) Entropi(3, 2) = −(
3 3 2 2 log2 + log2 ) = 0.97 5 5 5 5
Terang → Entropi(2,3) Entropi(2, 3) = −( Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
2 2 3 3 log2 + log2 ) = 0.97 5 5 5 5
Klasifikasi & Prediksi
2017
15 / 24
Metode Klasifikasi Step 2 Analisa Atribut Cuaca (Lanjutan): Nilai entropi Cuaca Entropi(Cuaca) =
5 5 4 (0) + (0.97) + (0.97) = 0.69 14 14 14
Nilai Informasi Gain Cuaca Gain(Cuaca) = Entropi(target) − Entropi(cuaca) = 0.94 − 0.69 = 0.25 Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya: Nilai Informasi Gain Temperatur Gain(Temperatur)
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
=
Entropi(target) − Entropi(temperatur)
=
0.94 − 0.91 = 0.03
Klasifikasi & Prediksi
2017
16 / 24
Metode Klasifikasi Step 2 Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya (Lanjutan): Nilai Informasi Gain Kelembapan Gain(Kelembapan)
=
Entropi(target) − Entropi(kelembapan)
=
0.94 − 0.79 = 0.15
Nilai Informasi Gain Angin Gain(Angin)
=
Entropi(target) − Entropi(angin)
=
0.94 − 0.892 = 0.048
Nilai Informasi Gain Terbesar adalah atribut Cuaca → menjadi akar pohon
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
17 / 24
Metode Klasifikasi Pohon Keputusan Awal
Step 3 Lakukan algoritma ID3 secara berulang hingga tidak ada anak pohon yang dibentuk atau seluruh klasifikasi set data telah dicek seluruhnya. Analisa Atribut Temperatur, Kelembapan, dan Angin, ketika cuaca terang : cuaca
temperatur
kelembapan
angin
Bermain
terang terang terang terang terang
panas panas sedang dingin sedang
tinggi tinggi tinggi normal normal
tidak ya tidak tidak ya
tidak tidak tidak ya ya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
18 / 24
Metode Klasifikasi Analisa Atribut Temperatur: Panas → Entropi(0,2) 0 0 2 2 Entropi(0, 2) = −( log2 + log2 ) = 0 2 2 2 2 Dingin → Entropi(1,0) 1 0 1 0 Entropi(1, 0) = −( log2 + log2 ) = 0 1 1 1 1 Sedang → Entropi(1,1) 1 1 1 1 Entropi(1, 1) = −( log2 + log2 ) = 1 2 2 2 2 Nilai entropi Temperatur Entropi(Temperatur) =
2 1 2 (0) + (0) + (1) = 0.4 5 5 5
Nilai Informasi Gain Temperatur Gain(Temperatur) = Entropi(terang) − Entropi(temperatur) = 0.97 − 0.4 = 0.57 Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
19 / 24
Metode Klasifikasi Analisa Atribut Kelembapan: Tinggi → Entropi(0,3) 0 3 0 3 Entropi(0, 3) = −( log2 + log2 ) = 0 3 3 3 3 Normal → Entropi(2,0) 2 2 0 0 Entropi(2, 0) = −( log2 + log2 ) = 0 2 2 2 2 Nilai entropi Kelembapan Entropi(Kelembapan) =
3 2 (0) + (0) = 0 5 5
Nilai Informasi Gain Kelembapan Gain(Kelembapan) = Entropi(terang) − Entropi(Kelembapan) = 0.97 − 0 = 0.97
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
20 / 24
Metode Klasifikasi Analisa Atribut Angin: Ya → Entropi(1,1) 1 1 1 1 Entropi(1, 1) = −( log2 + log2 ) = 1 2 2 2 2 Tidak → Entropi(2,0) 1 2 1 2 Entropi(1, 2) = −( log2 + log2 ) = 0.9182 3 3 3 3 Nilai entropi Angin Entropi(Angin) =
2 2 (1) + (0.9182) = 0.76 5 5
Nilai Informasi Gain Angin Gain(Angin) = Entropi(terang) − Entropi(Angin) = 0.97 − 0.76 = 0.21 Kelembapan menjadi anak pohon dari cuaca terang
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
21 / 24
Metode Klasifikasi Skema Pohon Keputusan
Lakukan analisa atribut seperti sebelumnya, ketika cuaca hujan !
Hasil Prediksi cuaca
temperatur
kelembapan
angin
Bermain
hujan
dingin
tinggi
tidak
Ya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
22 / 24
Catatan
Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut : https://sites.google.com/site/elsenronandosite/teaching
Klik
.
Apabila ada pertanyaan mengenai data mining dapat mengirim ke alamat email berikut :
[email protected].
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
23 / 24
Terimakasih Atas Perhatiannya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG)
Klasifikasi & Prediksi
2017
24 / 24