Naïve Bayesian Classifier Dr. Taufik Fuadi Abidin, S.Si., M.Tech Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa
Bahan Kuliah Data Mining
Outline Pertemuan Dasar Teori Bayesian Naïve Bayesian Classifier Asumsi yang Diberikan Dataset (Categorical?) Contoh Klasifikasi Menggunakan Naïve Bayesian
Klasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran Setiap sampel dari training set memiliki atribut dan klas label
Dua Tahapan Klasifikasi Learning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran) Testing: Menguji model menggunakan data testing Sumber: Bing Liu, Web Data Mining
Teori Bayesian: Sebagai Dasar X adalah data sampel dengan klas (label) yang tidak diketahui H merupakan hipotesa bahwa X adalah data dengan klas (label) C. P(H) adalah peluang dari hipotesa H P(X) adalah peluang data sampel yang diamati P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid)
Teori Bayesian: Sebagai Dasar Untuk masalah klasifikasi, yang dihitung adalah P(H|X), yaitu peluang bahwa hipotesa benar (valid) untuk data sample X yang diamati:
P ( X | H ) P ( H ) P(H | X ) = P( X )
Naïve Bayesian Classifier Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain Warna Merah Kuning Kuning
Bentuk Bulat Bulat Panjang
Diameter 5 cm 4 cm 15 cm
Jenis Buah Apel Jeruk Pisang
Naïve Bayesian Classifier Karena asumsi atribut tidak saling terkait (conditionally independent), maka: n P( X | C i) = ∏ P( x k | C i) k =1 Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum
Dataset age <=30 <=30 30…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40
income student credit_rating high no fair high no excellent high no fair medium no fair low yes fair low yes excellent low yes excellent medium no fair low yes fair medium yes fair medium yes excellent medium no excellent high yes fair medium no excellent
buys_computer no no yes Class: yes C1: buys_computer = ‘yes’ yes C2:buys_computer= ‘no’ no yes no yes yes yes yes yes no
Bila data baru yang belum memiliki class adalah: X =(age<=30, Income=medium, Student=yes, Credit_rating= Fair)
Naïve Bayesian Classifier: Contoh Hitung P(xk|Ci) untuk setiap Class i: P(age=“<30” | buys_computer=“yes”) = 2/9=0.222 P(age=“<30” | buys_computer=“no”) = 3/5 =0.6 P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444 P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4 P(student=“yes” | buys_computer=“yes)= 6/9 =0.667 P(student=“yes” | buys_computer=“no”)= 1/5=0.2 P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667 P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4 X=(age<=30 ,income =medium, student=yes,credit_rating=fair)
Naïve Bayesian Classifier: Contoh n P( X | C i) = ∏ P( x k | C i) k =1
Hitung P(X|Ci) untuk setiap Class: P(X|buys_computer=“yes”) = 0.222 x 0.444 x 0.667 x 0.0.667 = 0.044 P(X|buys_computer=“no”) = 0.6 x 0.4 x 0.2 x 0.4 =0.019
Naïve Bayesian Classifier: Contoh P(X|Ci)*P(Ci ): P(X|buys_computer=“yes”) * P(buys_computer=“yes”) = 0.028 P(X|buys_computer=“no”) * P(buys_computer=“no”) = 0.007 X memiliki klas “buys_computer=yes” karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di atas
Naïve Bayesian: Summary Kekuatan: Mudah diimplementasi Memberikan hasil yang baik untuk banyak kasus Kelemahan: Harus mengasumsi bahwa antar fitur tidak terkait (independent) Dalam realita, keterkaitan itu ada Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve Bayesian Classifier
Latihan Class: C1: buys_computer = ‘yes’ C2:buys_computer= ‘no’
Tentukan klas label dari X: X =(Outlook<=Rain, Temperature=Cool, Humidity=High, Wind=Weak)
Praktikum: Naïve Bayesian Classifier Menggunakan Weka
Questions & Discussion