Teknik Pengklasifikasi : Bayesian, JST (ANN) Bertalya Universitas Gunadarma 2009
Masalah Pengklasifikasian • Klas suatu record yg diuji tidak selalu dapat diprediksi disebabkan oleh – faktor2 penentu tidak terdapat dalam analisis – Contoh : memprediksi resiko terkena penyakit jantung berdasarkan diet seseorang atau frekuensi pekerjaannya. Walaupun seseorang sehat dan berolahraga, bisa saja terkena penyakit tsb dari faktor keturunan, merokok dan minum alkohol. – Berarti ada ketidakpastian keterhubungan antara atribut2 dengan klas.
Teknik Pengklasifikasi ...
2
Masalah Pengklasifikasian (lanj.) • Pendekatan utk memodelkan keterhubungan probabilistik antara atribut dan klas adalah dengan prinsip statistik; Theorema Bayes. • Utk masalah pengklasifikasian ada 2 theorema Bayes yakni naïve Bayes & Bayesian belief network • Contoh : Permainan sepakbola Tim0 & Tim1. Misalkan Tim0 menang 65% & Tim1 memenangkan sisa permainan 35%. Kemenangan utk Tim0 hanya 30% di tempat Tim1. Sedangkan kemenangan 75% dari Tim1 diperoleh di tempat sendiri. Jika Tim1 merupakan host utk permainan berikutnya, maka tim yg mana yg mungkin menjadi pemenang ?
Teknik Pengklasifikasi ...
3
Theorema Bayes • P(Y|X)=P(X|Y)P(X) P(X) • • • • • • •
X : tim host {0,1} Y : pemenang {0,1}
Probabilitas Tim0 menang P(Y=0) = 0.65 Probabilitas Tim1 menang P(Y=1) = 1 – P(Y=0) = 0.35 Probabilitas Tim1 sbg host & menang P(X=1|Y=1) = 0.75 Probabilitas Tim1 sbg host & Tim0 menang P(X=1|Y=0) = 0.3 Maka P(Y=1|X=1) = 0.5738 (Tim1) Sedangkan P(Y=0|X=1) = 0.4262 (Tim0)
Teknik Pengklasifikasi ...
4
Theorema Bayes Untuk Pengklasifikasian • Misalkan X=atribut2, Y=klas • Jika var klas mempunyai keterhubungan yg tidak pasti (non-deterministic) dg atribut2 maka dpt dinyatakan P(Y|X) sbg probabilitas posterior sedangkan P(Y) sbg probabilitas prior • Record X’ dpt diklasifikasikan dgn menemukan klas Y’ yg memaksimalkan probabilitas posterior P(Y’|X’). • Probabilitas class-conditional P(X|Y) dpt diestimasi dgn pengklasifikasi naïve Bayes & Bayesian belief network.
Teknik Pengklasifikasi ...
5
Contoh Tid Atr-1
Atr-2
Atr-3 Class
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced 95K
Yes
6
No
Married
No
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
60K
Jika record yg diuji X=(A1=No,A2=Married,A3=120K) Maka hrs dihitung P(Yes|X) dan P(No|X) dari tabel Jika P(Yes|X) > P(No|X) maka klas X = Yes, selain itu X=No Probabilitas class-conditional P(X|Y) dpt diestimasi dgn pengklasifikasi naïve Bayes & Bayesian belief network.
10
Teknik Pengklasifikasi ...
6
Pengklasifikasi Naïve Bayes • Mengestimasi probabilitas class-conditional dgn berasumsi bahwa atribut2 adalah conditional independence, misal label klas y maka d
P(X|Y=y) =
Π P(Xi |Y = y);
X={X1,X2,…,Xd}
i=1
Teknik Pengklasifikasi ...
7
Pengklasifikasi Naïve Bayes (lanj.) • Contoh conditional independence misalkan keterhubungan antara panjang lengan seseorang dgn kemampuan membaca. Seseorang dgn lengan yg panjang memiliki tingkat kemampuan membaca yg tinggi. Hal ini dijelaskan dgn faktor lain yakni usia. Anak kecil dgn lengan yg pendek, tingkat kemam-puan membaca tidak sama dgn dewasa. Jika usia itu tetap maka tidak ada keterhubungan antara lengan dan membaca. Itu berarti panjang lengan & kemampuan membaca adalah conditionally independence pada saat variabel usia itu tetap. • Variabel X dikatakan conditionally independence pada Y, dengan Z : P(X|Y,Z) = P(X|Z) Teknik Pengklasifikasi ...
8
Lanj. P(X|Y,Z) = P(X|Z) P(X,Y|Z) = P(X,Y,Z) P(Z) = P(X,Y,Z) x P(Y,Z) P(Y,Z) P(Z) = P(X|Y,Z) x P(Y|Z) = P(X|Z) x P(Y|Z)
Teknik Pengklasifikasi ...
9
Jaringan Syaraf Tiruan/JST (Artificial Neural Network/ANN) • Mengikuti struktur dari otak manusia, diharapkan ANN pun dapat meniru kemampuan otak manusia seperti utk mengingat, menghitung, beradaptasi dll sehingga dapat menggantikan beberapa pekerjaan manusia. • Terdiri atas node2 dan link yang saling terhubung • Model jaringan syaraf tiruan a.l: – Perceptron, model yang sederhana – Multilayer ANN, model yang kompleks
Teknik Pengklasifikasi ...
10
Perceptron Tabel ini terdiri atas 3 variabel bolean (x1, x2, x3) & variabel output y yg bernilai -1 jika paling sedikit dua input = 0, dan +1 jika paling sedikit dua input lebih besar dari 0.
Teknik Pengklasifikasi ...
11
Perceptron (lanj.) • Perceptron terdiri atas 2 nodes : input node utk merepresentasikan atribut input, dan output node utk merepresentasikan output model. • Setiap input node dihubungkan ke output node dgn link bobot. Bobot ini digunakan utk menggbrkan kekuatan antara input node. • Digunakan utk menyelesaikan kasus klasifikasi utk dua klas saja. • Model utk menghitung output : 1, jika 0.3x1 + 0.3x2 + 0.3x3 – 0.4 > 0 y= -1, jika 0.3x1 + 0.3x2 + 0.3x3 – 0.4 < 0 Teknik Pengklasifikasi ...
12
Multilayer ANN • Model jaringan syaraf tiruan yg kompleks daripada perceptron disebut multilayer ANN, dikarenakan pada jaringan terdapat beberapa layer perantara antara layer input & output, seperti pada gambar di bawah ini.
Teknik Pengklasifikasi ...
13
Teknik Pengklasifikasi ...
14