Klasifikasi dan Pengenalan Pola
1
Features Vector Separability Measures Pada pertemuan yang lalu, kekuatan ciri untuk membedakan kelas diukur secara individual, yaitu menggunakan FDR. Kekuatan kombinasi beberapa ciri dalam membedakan kelas dapat diukur
menggunakan: Divergensi Jarak Bhattacharyya (Bhattacharyya distance)
Scatter Matrices
2
Divergensi Misalkan terdapat 2 kelas yang terdistribusi normal dalam ruang dimensi ℓ, maka divergensi antara keduanya didefinisikan sbb:
dengan Si adalah matriks kovarians; mi adalah rerata masing-masing kelas, I adalah matriks identitas ℓ x ℓ, dan i = 1,2.
Dan transformasi divergensi didefinisikan sebagai:
3
Semakin besar nilai transformasi divergensi maka semakin baik hasil akhir klasifikasi.
Aturan jangkauan nilai transformasi divergensi berikut dapat digunakan untuk menilai kekuatan kombinasi ciri dalam membedakan kelas:
0.0 to 1.0 (very poor separability) sangat buruk kemungkinan data sebenarnya termasuk pada kelas yang sama
1.0 to 1.9 (poor separability) buruk buat kombinasi ciri yang baru teliti kembali data apa benar-benar dari 2 kelas yang berbeda
1.9 to 2.0 (good separability) baik 4
Example Misalkan 2 kelas dan asumsikan bahwa ciri-cirinya saling independen dan terdistribusi normal. Kelas 1 dimodelkan sebagai distribusi Gaussian dengan rerata m1 = [3, 3]T dan matriks kovarians-nya S1 = 0,2I. Sedangkan kelas 2 dimodelkan sebagai distribusi Gaussian dengan rerata m2 = [2.3, 2.3]T dan matriks kovarians-nya S2 = 1,9I. Hitunglah divergensi antara kedua kelas tersebut, hitung pula transformasi divergensi-nya, dan ambillah kesimpulan dari hasil tersebut.
5
Penyelesaian: Buat dataset dengan script berikut.
Carilah divergensinya menggunakan fungsi divergensi.m dengan
mengimplementasikan rumus divergensi pada halaman 3 untuk menghitung divergensi. 6
Buat fungsi divergensi sbb:
7
Panggil fungsi untuk menghitung nilai divergensi dari data kelas1.txt dan kelas2.txt.
8
Hasil eksekusi: D= 5.7233
Dan transformasi divergensinya adalah: 2*(1-exp(-D/8)) = 1.0220
Kesimpulan: Nilai transformasi divergensi-nya berada pada range 1 s.d 1,9 yang berarti keterpisahan antara kedua kelas buruk.
9
Bhattacharyya distance Misalkan kedua kelas terdistribusi Gaussian, maka jarak Bhattacharyya bersesuaian dengan error classifier Bayesian. Jika:
dengan,
dimana |.| merupakan notasi determinan, maka jarak Bhattacharyya 10
didefinisikan sbb:
BD 21 exp( B1, 2 ) Aturan jangkauan nilai jarak Bhattacharyya berikut dapat digunakan untuk menilai kekuatan kombinasi ciri dalam membedakan kelas:
0.0 to 1.0 (very poor separability) sangat buruk kemungkinan data sebenarnya termasuk pada kelas yang sama
1.0 to 1.9 (poor separability) buruk buat kombinasi ciri yang baru teliti kembali data apa benar-benar dari 2 kelas yang berbeda
1.9 to 2.0 (good separability) baik
11
Example Misalkan 2 kelas dan asumsikan bahwa ciri-cirinya saling independen dan terdistribusi normal. Kelas 1 dimodelkan sebagai distribusi Gaussian dengan rerata m1 = [3, 3]T dan matriks kovarians-nya S1 = 0,2I. Sedangkan kelas 2 dimodelkan sebagai distribusi Gaussian dengan rerata m2 = [2.3, 2.3]T dan matriks kovarians-nya S2 = 1,9I. Hitunglah jarak Bhattacharyya antara kedua kelas tersebut, dan ambillah kesimpulan dari hasil tersebut.
12
Buat fungsi untuk menhitung jarak Bhatacharyya sbb:
13
Panggil fungsi untuk menghitung jarak Bhatacharyya:
Hasil eksekusi: B1,2 = D = 0.3516
Hitunglah DB-nya dengan : 2(1-exp(-0.3516)) = 0.5929 14
Scatter Matrices Scatter matrices memberi gambaran bagamana vektor ciri tersebar
dalam ruang ciri (feature space). Tiga ukuran keterpisahan kelas berdasar scatter matrices adalah sbb:
15
dengan Sm adalah mixture scatter matrix, Sw adalah within-class scatter matrix, dan Sb adalah between-class scatter matrix.
dengan Pi adalah priori probabiliti untuk kelas i = 1,2,…,c dan Si adalah
matriks kovarians untuk kelas i.
dengan m0 adalah rerata global (dari semua data dalam semua kelas yang ada)
16
Semakin besar nilai J1, J2, dan J3, maka hal tersebut berarti bahwa datadata mempunyai varians dalam-kelas yang kecil dan jarak antar-kelas yang besar. Dengan kata lain bahwa Semakin besar nilai J1, J2, dan J3, maka kelas yang satu dengan kelas yang lain mempunyai keterpisahan yang semakin baik.
17