LEARNING ARTIFICIAL INTELLIGENT
Outline
Decision tree learning Jaringan Syaraf Tiruan K-Nearest Neighborhood Naïve Bayes
Data Latih 1 Decision Tree ??? Pelamar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Kurang Kurang Kurang
Psikologi Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah Tinggi Sedang Rendah
Wawancara Baik Baik Buruk Buruk Baik Baik Buruk Buruk Baik Buruk Baik
Diterima Ya Ya Ya Tidak Ya Ya Ya Tidak Ya Tidak Ya
Wawancara Baik
Buruk
Psikologi
Ya Tinggi Tidak
Bagus Ya
Sedang
IPK
Cukup Ya
Rendah Tidak
Kurang Tidak
Atruan (Rule)
“JIKA wawancara = baik MAKA diterima” “JIKA wawancara = buruk AND psikologi = sedang AND ipk = bagus MAKA diterima” “JIKA wawancara = buruk AND psikologi = sedang AND ipk = cukup MAKA diterima” “JIKA wawancara = buruk AND psikologi = sedang AND ipk = kurang MAKA ditolak” “JIKA wawancara = buruk AND psikologi = rendah MAKA ditolak” “JIKA wawancara = buruk AND psikologi = tinggi MAKA ditolak”
Aturan (Rule)
(Wawancara ' Baik ' ) ((Wawancara ' Buruk ' ) ( Psikologi ' Sedang ' ) ( IPK ' Bagus ' )) ( (Wawancara ' Buruk ' ) ( Psikologi ' Sedang ' ) ( IPK ' Cukup' )) Diterima ' Ya '
Diskusi
Jika terdapat dua atribut dengan IG yang sama? Jika ada data yang sama tetapi kelasnya berbeda? Berapa jumlah learning data minimum? Imbalance Class?
Dua atribut dengan IG sama ?
Gain(S,IPK) = 0,0049 Gain(S,Psikologi) = 0,4040 Gain(S,Wawancara) = 0,4040
Data sama, kelasnya beda? Pelamar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Kurang Kurang Kurang
Psikologi Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Sedang Tinggi Sedang Rendah
Wawancara Baik Baik Buruk Buruk Baik Baik Buruk Buruk Baik Buruk Baik
Diterima Ya Ya Ya Tidak Ya Ya Ya Tidak Ya Tidak Ya
Jumlah learning data ?
Masalah Sentiment Analysis atau Email Spam Filtering 200.000 kata Masing-masing kata muncul 0 – 100 kali Training data: 10.000 postingan atau email
Imbalance Class?
Data latih untuk tiap kelas tidak seimbang Terutama untuk kasus data kesehatan (rekam medis) Misalnya: klasifikasi penyakit
Data 2 Decision Tree ??? Pelamar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang
Psikologi Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah
Wawancara Baik Baik Buruk Buruk Baik Baik Buruk Buruk Baik Baik Buruk Buruk
Diterima Ya Ya Tidak Tidak Ya Ya Tidak Tidak Ya Ya Tidak Tidak
Wawancara Baik
Ya
Buruk
Tidak
(Wawancara ' Baik' ) Diterima ' Ya'
Data Uji 1 Pelamar P13 P14 P15 P16 P17 P18
IPK Bagus Bagus Cukup Cukup Kurang Kurang
Psikologi Tinggi Rendah Tinggi Rendah Tinggi Rendah
Wawancara Baik Buruk Baik Buruk Baik Buruk
Akurasi = 6/6 = 100%
Diterima Ya Tidak Ya Tidak Ya Tidak
Data Uji 2 Pelamar P13 P14 P15 P16 P17 P18
IPK Bagus Bagus Cukup Cukup Kurang Kurang
Psikologi Tinggi Rendah Tinggi Rendah Tinggi Rendah
Wawancara Baik Buruk Baik Buruk Baik Buruk
Akurasi = 3/6 = 50%
Diterima Ya Ya Ya Ya Tidak Tidak
Data Latih 3 Decision Tree ??? Pelamar G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Rendah Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah
Wawancara Sangat Baik Sangat Buruk Buruk Buruk Sangat Baik Buruk Sangat Buruk Baik Buruk Sangat Baik Sangat Buruk Sangat Baik Baik Sangat Buruk
Diterima Ya Ya Ya Tidak Ya Ya Ya Ya Tidak Ya Tidak Tidak Tidak Tidak
Kombinasi = 3 x 3 x 4 = 36 Terdapat 22 data yang lain
Decision Tree (ID3) IPK
Bagus
Psikologi
Kurang
Psikologi
Psikologi
Untuk Data Latih, Akurasi = 14/14 = 100% Tinggi Sedang Rendah
Tinggi Sedang Rendah
Ya
Cukup
Ya
Tidak
Ya
Ya
Tinggi
Wawancara
Wawancara
Ya
Tidak
Tidak
Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Sedang Rendah
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Pelamar G15 G16 G17 G18 G19 G20 G21 G22 G23 G24 G25 G26 G27 G28 G29 G30 G31 G32 G33 G34 G35 G36
IPK Bagus Bagus Bagus Bagus Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Sedang Sedang Rendah Rendah Rendah Tinggi Tinggi Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah Rendah Rendah
Wawancara Baik Buruk Sangat Baik Baik Sangat Buruk Sangat Baik Baik Sangat Buruk Baik Buruk Sangat Buruk Sangat Baik Baik Sangat Baik Sangat Buruk Baik Buruk Buruk Sangat Buruk Sangat Baik Baik Buruk
Diterima Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak
Untuk Data Uji, Akurasi = 15/22 = 68% Overfit
Overfit
Terlalu pas (ngepres) Sangat akurat untuk data latih Kurang akurat untuk data uji (unseen data)
Overfit
Data Latih: 10.000 Data Uji: 1.000.000 Ukuran pohon
Akurasi (Latih)
Akurasi (Uji)
Akurasi Total
60
100%
70%
710.000/1.010.000 = 70,29
20
95%
90%
909.500/1.010.000 = 90,04
1,00 0,95 0,90 0,85 Akurasi
0,80 0,75 0,70 0,65 Data latih Data uji
0,60 0
5
10
15
20
25
30
35
40
45
Ukuran pohon keputusan (Jumlah simpul)
50
55
60
Mengatasi Overfit
Reduced Error Pruning (REP) Rule Post-Pruning (RPP) Data dibagi menjadi 3 bagian: Latih membangun DT Data Validasi validasi DT Data Uji Data
Porsi untuk ketiga data? Misal: 30%, 20%, 50%
Train 97% Validation 97% Test 95 % Tree size: 40
Reduced Error Pruning (REP)
1,00 0,95 0,90 0,85 Akurasi
0,80 0,75 0,70 0,65
Training set Validation set
0,60
Test set (dengan pemotongan) Test set (tanpa pemotongan) 0
5
10
15
20
25
30
35
40
45
Ukuran pohon keputusan (Jumlah simpul)
50
55
60
Rule Post-Pruning (RPP)
Dengan menggunakan sampel-sampel data pada training set, bangun pohon keputusan. Biarkan overfitting terjadi. Ubah pohon keputusan yang dihasilkan menjadi sekumpulan aturan. Pangkas setiap aturan dengan cara menghilangkan setiap prekondisi yang membuat akurasi perkiraan dari aturan tersebut menjadi lebih baik. Urutkan aturan-aturan hasil pemangkasan berdasarkan akurasi perkiraannya. Pilih aturan-aturan hasil pemangkasan berdasarkan urutan tersebut.
Data Latih 3 Decision Tree ??? Pelamar G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Rendah Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah
Wawancara Sangat Baik Sangat Buruk Buruk Buruk Sangat Baik Buruk Sangat Buruk Baik Buruk Sangat Baik Sangat Buruk Sangat Baik Baik Sangat Buruk
Diterima Ya Ya Ya Tidak Ya Ya Ya Ya Tidak Ya Tidak Tidak Tidak Tidak
Decision Tree (ID3) IPK
Bagus
Ya
Cukup
Psikologi
Psikologi
Tinggi Sedang Rendah
Tinggi Sedang Rendah
Ya
Tidak
Ya
Kurang
Psikologi
Ya
Tinggi
Wawancara
Wawancara
Ya
Tidak
Tidak
Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Sedang Rendah
Ya
Ya
Tidak
Tidak
Tidak
Tidak
1. (IPK=‘Bagus’) (Psikologi=‘Tinggi’) Diterima=‘Ya’ 2. (IPK=‘Bagus’) (Psikologi=‘Sedang’) Diterima=‘Ya’ 3. (IPK=‘Bagus’) (Psikologi=‘Rendah’) Diterima=‘Tidak’ 4. (IPK=‘Cukup’) (Psikologi=‘Tinggi’) Diterima=‘Ya’ 5. (IPK=‘Cukup’) (Psikologi=‘Sedang’) Diterima=‘Ya’ 6. (IPK=‘Cukup’) (Psikologi=‘Rendah’) (Wawancara=‘SangatBaik’) Diterima=‘Ya’ 7. (IPK=‘Cukup’) (Psikologi=‘Rendah’) (Wawancara=‘Baik’) Diterima=‘Ya’ 8. (IPK=‘Cukup’) (Psikologi=‘Rendah’) (Wawancara=‘Buruk’) Diterima=‘Tidak’ 9. (IPK=‘Cukup’) (Psikologi=‘Rendah’) (Wawancara=‘SangatBuruk’)Diterima=‘Ya’ 10.(IPK=‘Kurang’) (Psikologi=‘Tinggi’) (Wawancara=‘SangatBaik’) Diterima=‘Ya’ 11.(IPK=‘Kurang’) (Psikologi=‘Tinggi’) (Wawancara=‘Baik’) Diterima=‘Tidak’ 12.(IPK=‘Kurang’) (Psikologi=‘Tinggi’) (Wawancara=‘Buruk’) Diterima=‘Tidak’ 13.(IPK=‘Kurang’) (Psikologi=‘Tinggi’) (Wawancara=‘SangatBuruk’) Diterima=‘Tidak’ 14.(IPK=‘Kurang’) (Psikologi=‘Sedang’) Diterima=‘Tidak’ 15.(IPK=‘Kurang’) (Psikologi=‘Rendah’) Diterima=‘Tidak’
Decision Tree (ID3) IPK
Bagus
Ya
Cukup
Psikologi
Psikologi
Tinggi Sedang Rendah
Tinggi Sedang Rendah
Ya
Tidak
Ya
Kurang
Psikologi
Ya
Tinggi
Wawancara
Wawancara
Sedang Rendah
Tidak
Akurasi Latih = 14/14 = 100% Akurasi Validasi = 15/22 = 68% Akurasi Total = 29/36 = 81% Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Ya
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Decision Tree (ID3) IPK
Bagus
Cukup
Kurang
Psikologi
Ya
Psikologi
Tinggi Sedang Rendah
Ya
Ya
Tinggi
Wawancara
Wawancara
Sedang Rendah
Tidak
Akurasi Latih = 13/14 = 93% Akurasi Validasi = 18/22 = 82% Akurasi Total = 31/36 = 86% Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Ya
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Decision Tree (ID3) IPK
Bagus
Cukup
Kurang
Psikologi
Ya
Psikologi
Tinggi Sedang Rendah
Ya
Ya
Tinggi
Wawancara
Tidak
Sedang Rendah
Tidak
Akurasi Latih = 12/14 = 86% Akurasi Validasi = 20/22 = 92% Akurasi Total = 32/36 = 89% Sangat Sangat Baik Buruk Baik Buruk
Ya
Tidak
Tidak
Tidak
Tidak
Decision Tree (ID3) IPK
Bagus
Cukup
Kurang
Psikologi
Ya
Psikologi
Tinggi Sedang Rendah
Ya
Ya
Tinggi
Tidak
Ya
Sedang Rendah
Tidak
Akurasi Latih = 11/14 = 78% Akurasi Validasi = 22/22 = 100% Akurasi Total = 33/36 = 92%
Tidak
Data Latih 3 Decision Tree ??? Pelamar G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Rendah Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah
Wawancara Sangat Baik Sangat Buruk Buruk Buruk Sangat Baik Buruk Sangat Buruk Baik Buruk Sangat Baik Sangat Buruk Sangat Baik Baik Sangat Buruk
Diterima Ya Ya Ya Tidak Ya Ya Ya Ya Tidak Ya Tidak Tidak Tidak Tidak
Kombinasi = 3 x 3 x 4 = 36 Terdapat 22 data yang lain
Decision Tree (ID3) IPK
Bagus
Psikologi
Kurang
Psikologi
Psikologi
Untuk Data Latih, Akurasi = 14/14 = 100% Tinggi Sedang Rendah
Tinggi Sedang Rendah
Ya
Cukup
Ya
Tidak
Ya
Ya
Tinggi
Wawancara
Wawancara
Ya
Tidak
Tidak
Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Sedang Rendah
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Pelamar G15 G16 G17 G18 G19 G20 G21 G22 G23 G24 G25 G26 G27 G28 G29 G30 G31 G32 G33 G34 G35 G36
IPK Bagus Bagus Bagus Bagus Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Sedang Sedang Rendah Rendah Rendah Tinggi Tinggi Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah Rendah Rendah
Wawancara Baik Buruk Sangat Baik Baik Sangat Buruk Sangat Baik Baik Sangat Buruk Baik Buruk Sangat Buruk Sangat Baik Baik Sangat Baik Sangat Buruk Baik Buruk Buruk Sangat Buruk Sangat Baik Baik Buruk
Diterima Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak
Untuk Data Uji, Akurasi = 15/22 = 68% Overfit
Data Latih 2 Decision Tree ??? Pelamar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang
Psikologi Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah
Wawancara Baik Baik Buruk Buruk Baik Baik Buruk Buruk Baik Baik Buruk Buruk
Diterima Ya Ya Tidak Tidak Ya Ya Tidak Tidak Ya Ya Tidak Tidak
Wawancara Baik
Ya
Buruk
Tidak
(Wawancara ' Baik' ) Diterima ' Ya'
Data Uji 2 Pelamar P13 P14 P15 P16 P17 P18
IPK Bagus Bagus Cukup Cukup Kurang Kurang
Psikologi Tinggi Rendah Tinggi Rendah Tinggi Rendah
Wawancara Baik Buruk Baik Buruk Baik Buruk
Akurasi = 3/6 = 50% Overfit
Diterima Ya Ya Ya Ya Tidak Tidak
Data Latih 3 Decision Tree ??? Pelamar G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14
IPK Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Rendah Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah
Wawancara Sangat Baik Sangat Buruk Buruk Buruk Sangat Baik Buruk Sangat Buruk Baik Buruk Sangat Baik Sangat Buruk Sangat Baik Baik Sangat Buruk
Diterima Ya Ya Ya Tidak Ya Ya Ya Ya Tidak Ya Tidak Tidak Tidak Tidak
Decision Tree (ID3) IPK
Bagus
Psikologi
Kurang
Psikologi
Psikologi
Untuk Data Latih, Akurasi = 14/14 = 100% Tinggi Sedang Rendah
Tinggi Sedang Rendah
Ya
Cukup
Ya
Tidak
Ya
Ya
Tinggi
Wawancara
Wawancara
Ya
Tidak
Tidak
Sangat Sangat Baik Buruk Baik Buruk
Sangat Sangat Baik Buruk Baik Buruk
Ya
Sedang Rendah
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Pelamar G15 G16 G17 G18 G19 G20 G21 G22 G23 G24 G25 G26 G27 G28 G29 G30 G31 G32 G33 G34 G35 G36
IPK Bagus Bagus Bagus Bagus Bagus Bagus Bagus Bagus Cukup Cukup Cukup Cukup Cukup Cukup Cukup Kurang Kurang Kurang Kurang Kurang Kurang Kurang
Psikologi Tinggi Tinggi Sedang Sedang Sedang Rendah Rendah Rendah Tinggi Tinggi Tinggi Sedang Sedang Rendah Rendah Tinggi Tinggi Sedang Sedang Rendah Rendah Rendah
Wawancara Baik Buruk Sangat Baik Baik Sangat Buruk Sangat Baik Baik Sangat Buruk Baik Buruk Sangat Buruk Sangat Baik Baik Sangat Baik Sangat Buruk Baik Buruk Buruk Sangat Buruk Sangat Baik Baik Buruk
Diterima Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak
Untuk Data Uji, Akurasi = 15/22 = 68% Overfit
Decision Tree (ID3) IPK
Bagus
Cukup
Kurang
Psikologi
Ya
Psikologi
Tinggi Sedang Rendah
Ya
Ya
Tinggi
Tidak
Akurasi Latih = 11/14 = 78% Akurasi Validasi = 22/22 = 100% Akurasi Total = 33/36 = 92% Flexible (Latih & Validasi)
Ya
Sedang Rendah
Tidak
Tidak
Data Kontinyu Pelamar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11
IPK 3,75 3,25 3,93 3,12 2,85 2,79 2,98 2,83 2,21 2,63 2,50
Psikologi Tinggi Sedang Sedang Rendah Tinggi Sedang Sedang Rendah Tinggi Sedang Rendah
Wawancara Baik Baik Buruk Buruk Baik Baik Buruk Buruk Baik Buruk Baik
Diterima Ya Ya Ya Tidak Ya Ya Ya Tidak Ya Tidak Ya
IPK
3,75
Ya
Ya
Ya
3,25 3,93 3,12 2,85 2,79 2,98 2,83 2,21 2,63 2,50
Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya
Referensi :
Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and Learning. Informatika, Bandung Indonesia. ISBN: 979-1153-05-1. Russel, Stuart and Norvig, Peter. 1995. Artificial Intelligence: A Modern Approach. Prentice Hall International, Inc.