BAB I PENDAHULUAN
1.1 Latar Belakang Kulit manusia adalah lapisan luar dari tubuh. Pada manusia, itu adalah organ terbesar dari sistem yang menutupi. Gangguan pada kulit sering terjadi karena berbagai faktor penyebab, antara lain yaitu iklim, lingkungan tempat tinggal, kebiasaan hidup yang kurang sehat, alergi, dan lain-lain. Untuk mengobati atau mencegah penyakit kulit semakin parah dibutuhkan keahlian dari seorang spesialis kulit untuk mendiagnosa penyakit dan memberikan penanganan yang tepat. Dengan berkembangnya teknologi masa kini, untuk mendiagnosa sebuah penyakit tidak hanya dapat dilakukan oleh seorang spesialis saja. Sebuah sistem pakar yang merupakan sistem yang mengadopsi keahlian dari seorang pakar juga dapat mendiagnosa suatu penyakit. Namun suatu sistem pakar juga harus diperhatikan keakuratan hasil diagnosanya. Semakin akurat hasil diagnosa maka sistem tersebut semakin baik. Penalaran berbasis kasus (Case-Based Reasoning) merupakan salah satu teknik penalaran yang sering digunakan dalam sistem pakar yang menggunakan pengalaman lama atau kasus-kasus lama untuk menyelesaikan masalah baru. Metode penalaran berbasis kasus berkembang setelah diketahui bahwa kasuskasus sukses di masa lalu ternyata dapat dipakai sebagai acuan dalam pengambilan keputusan jika terdapat kemiripan dalam beberapa kondisi (Watson, I). Dalam penalaran berbasis kasus diperlukan suatu algoritma pencarian similaritas untuk mencari kemiripan kasus lama dengan kasus baru. Ada beberapa penelitian yang telah menerapkan algoritma-algoritma pencarian similaritas. Pada penelitian sebelumnya digunakan algoritma Decision Tree C4.5 untuk mencari kemiripan kasus (Kusrini, 2007), namun algoritma decision tree menghasilkan hasil klasifikasi dengan akurasi yang kurang tinggi dibandingkan dengan algoritma K-Nearest Neighbor. Hal ini terbukti dari hasil penelitian Muhammad Fakhrurrifqi yang membadingkan algoritma K-Nearest Neighbor, C4.5, dan LVQ
1
2
untuk klasifikasi kemampuan mahasiswa (Muhammad Fakhrurrifqi, 2013). Penelitian lainnya menggunakan metode K-Nearest Neighbor dengan adapative distance measure (Jigang Wang, 2007). Pada penelitian tersebut menunjukkan bahwa tingkat eror yang dihasilkan oleh K-Nearest Neighbor lebih tinggi dibandingkan dengan K-Nearest Neighbor dengan Adaptive Distance Measure. Dengan memperhatikan keunggulan K-Nearest Neighbor dengan Adaptive Distance Measure, maka dalam penelitian ini akan dilakukan penerapan Adaptive Distance Measure untuk melakukan pencarian similaritas untuk klasifikasi penyakit kulit. Penulis ingin menerapkan algoritma K-Nearest Neighbor dengan Adaptive Distance Measure ini pada sistem pakar identifikasi penyakit kulit dan membandingkan dengan algoritma pencarian similaritas lainnya dengan harapan metode ini dapat menghasilkan hasil klasifikasi dengan performa yang baik. 1.2 Rumusan Masalah Dari
latar
belakang
masalah
tersebut
dapat
dirumuskan
suatu
permasalahan yaitu : a. Bagaimana penerapan metode Euclidean Distance, Manhattan Distance, dan Adaptive Distance Measure dalam K-Nearest Neighbor pada identifikasi penyakit kulit? b. Bagaimana perbandingan hasil klasifikasi K-Nearest Neighbor apabila menggunakan Euclidean Distance, Manhattan Distance, dan Adaptive Distance Measure dilihat dari sudut pandang jumlah tetangga? 1.3 Tujuan Penelitian Adapun tujuan penelitian yang penulis lakukan adalah : a. Menerapkan metode Euclidean Distance, Manhattan Distance, dan Adaptive Distance Measure dalam K-Nearest Neighbor pada identifikasi penyakit kulit. b. Untuk mengetahui bagaimana perbandingan hasil klasifikasi K-Nearest Neighbor apabila menggunakan Euclidean Distance, Manhattan Distance, dan Adaptive Distance Measure dilihat dari sudut pandang jumlah tetangga.
3
1.4 Batasan Masalah Adapun batasan masalah pada penelitian ini adalah : a. Sistem hanya mengklasifikasi penyakit kulit jenis erythemato-squamous. Yaitu timbulnya warna kemerahan dan bersisik pada kulit. b. Data yang akan digunakan pada penelitian ini adalah data dermatologi dari uci.edu. 1.5 Manfaat Penelitian Adapun manfaat dari penelitian ini adalah hasil penelitian nantinya dapat dijadikan salah satu referensi keilmuan dalam penelitian di bidang sistem pakar khususnya pada identifikasi penyakit kulit. 1.6 Metodelogi Penelitian Pada bagian ini menjelaskan tahap-tahap yang akan dilakukan oleh penulis untuk melakukan identifikasi penyakit kulit menggunakan algoritma K-Nearest Neighbor. Tahapan-tahapan tersebut antara lain adalah mengenai pengumpulan data, metode yang digunakan, evaluasi dan pengujian. 1.6.1 Data Penelitian Pada penelitian kali ini menggunakan data set dermatologi. Dari data ini nantinya akan dibentuk aturan-aturan yang akan digunakan dalam sistem pakar. data yang digunakan adalah gejala-gelaja penyakit kulit, kesimpulan penyakit, cara pengobatan, dan pencegahan penyebaran penyakit. Data penelitian ini terdiri dari 6 klasifikasi penyakit dan 34 atribut gejala dengan jumlah total kasus adalah 358 kasus. Berikut adalah kelas penyakit dari erythemato-squamous : 1. 2. 3. 4. 5. 6.
Psoriasis Seboreic dermatitis Lichen planus Pityriasis rosea Cronic dermatitis Pityriasis rubra pilaris
4
Tabel 1. 1 Atribut Klinis
No G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G34
Atribut Klinis Nama Gejala Keterangan Erythema Kemerahan pada kulit Scaling Kulit terkelupas Definite borders Membuat garis batas pada kulit Itching Gatal Koebner phenomenon Kulit bersisik Polygonal papules Jerawat padat berbentuk poligon Follicular papules Jerawat padat pada folikel Oral mucosal involvement Melibatkan lapisan enzim pada mulut Knee and elbow involvement Melibatkan lutut dan siku Scalp involvement Melibatkan kulit kepala Family history Sejarah keturunan Age Usia
5
Tabel 1. 2 Atribut Penampakan Sel
Atribut Penampakan Sel No Nama Gejala Keterangan G12 Melanin incontinence Ketidakmampuan mengontrol melanin G13 Eosinophils in the infiltrate Masuknya sel darah eosinopfil. Terdapat gambaran sel polimorfonuklear G14 PNL infiltrate (berinti banyak) Fibrosis of the papillary Pembentukan jaringan ikat fibrosa pada G15 dermis bagian papiler dermis. Proses dimana sel mengangkut produk G16 Exocytosis sekresi melalui sitoplasma ke membran plasma. G17 Acanthosis Penebalan kulit yang paling luar Penumpukan berlebihan dari sel-sel G18 Hyperkeratosis kulit yang bersamaan dengan sebum dan bakteri. Masuknya inti keratinosit ke dalam sel G19 Parakeratosis kulit. Pengumpulan persambungan antara epidermis dan dermis yang berfungsi G20 Clubbing of the rete ridges sebagai tempat penukaran nutrisi yang esensial. Pemanjangan persambungan antara epidermis dan dermis yang berfungsi G21 Elongation of the rete ridges sebagai tempat penukaran nutrisi yang esensial. Thinning of the G22 Mengecilnya lapisan suprapapillary suprapapillary epidermis Timbunan sel neutrofil (sel darah putih) G23 Spongiform pustules di dalam dan diantara sel-sel epidermis. G24 Munro microabcess Nanah kecil akibat infeksi. Betambah banyaknya sel-sel stratum G25 Focal hypergranulosis granulosum. Disappearance of the Menghilangnya lapisan granul (bintikG26 glanular layer bintik) Vacuolization and damage of Kerusakan pada lapisan dasar dalam G27 basal layer rongga sitoplasma. G28 Spongiosis Penumpukan cairan Munculnya struktur yang terdiri dari G29 Saw-tooth appearance of retes sebuah jaringan fibrosa atau mesh yang menyerupai gigi pemotong Penyumbat berbentuk tanduk pada distribusi dermatosis yang mengacu G30 Follicular horn plug pada perkembangan lesi individu dari folikel rambut Retensi inti dalam sel-sel lapisan G31 Perifollicular parakeratosis epidermis yang melakukan proses
6
G32
dimana sel mengangkut produk sekresi melalui sitoplasma ke membran plasma Masuknya sel darah putih yang meradang Segerombolan sel yang masuk kedalam lapisan sel kulit
Inflammatory monoluclear infiltrate
G33 Band-like infiltrate
1.6.2 Metode yang Digunakan Dalam penelitian ini akan dilakukan pencarian hasil dari identifikasi penyakit kulit dengan metode berbasis kasus yaitu Case-Based Reasoning (CBR) dengan menggunakan pendekatan tetangga terdekat yaitu K-Nearest Neighbor. K-Nearest Neighbor digunakan untuk membandingkan kasus yang baru didapat dari pasien dengan kasus terdahulu untuk melihat tingkat kecocokan dari kasus baru yang telah didapat dengan kasus yang sebelumnya pernah terjadi. Pada CBR terdapat tahapan untuk mengenali kemiripan dari kasus baru dengan kasus lama sekaligus merupakan tahapan yang pertama kali memproses inputan yang diberikan oleh user yaitu retrieve. Pada tahap retrieve inilah algoritma K-Nearest Neighbor digunakan untuk mengenali tingkat kemiripan kasus digunakan dengan pendekatan jarak Euclidean Distance, Manhattan Distance, dan Adaptive Distance Measure. Untuk melakukan proses penghitungan similarity digunakan rumus sebagai berikut : a. Euclidean Distance ( , )= ∑
−
........................................ (1)
b. Manhattan Distance ( , )=∑
−
..............................................(2)
c. Adaptive Distance Measure Pada
Adaptive
Distance
Measure
dilakukan
pengitungan
jarak
menggunakan rumus Euclidean Distance kemudian dibagi dengan radius (r ). Penghitungan radius dilakukan dengan mencari nilai minimal dari hasil similarity kasus lama ke-i ( ) dengan kasus lama ke-l ( ) dengan syarat kasus lama ke-l memiliki kelas yang berbeda dengan kasus lama kei. Berikut adalah rumusnya :
7
( , = min
)=
( ,
)
.........................................(3)
( , ) − .......................................(4)
Keterangan : : Kasus Baru : Kasus Lama : Indeks Kasus : Indeks Atribut Gejala : Dengan Jumlah Atribut = 34 : Indeks Radius : Indeks Kasus Lama : Epsilon = 0,001
Tabel 1. 3 Contoh Kasus
Nama Gejala Erythema Scaling Definite borders Itching Koebner phenomenon Polygonal papules Follicular papules Oral mucosal involvement Knee and elbow involvement Scalp involvement Family history Melanin incontinence Eosinophils in the infiltrate PNL infiltrate Fibrosis of the papillary dermis Exocytosis Acanthosis Hyperkeratosis Parakeratosis Clubbing of the rete ridges Elongation of the rete ridges Thinning of the suprapapillary epidermis
Bobot Pada Atribut Gejala 3 3 3 2 1 0 0 0 1 1 1 0 0 1 0 1 2 0 2 2 2 2
2 2 0 3 0 0 0 0 1 0 0 0 0 0 0 3 2 0 0 0 0 0
2 1 2 3 1 3 0 3 0 0 0 1 0 0 0 1 2 0 2 0 0 0
2 2 1 0 1 0 0 0 0 0 0 0 0 0 0 3 2 0 2 0 0 0
2 1 0 2 0 0 0 0 0 0 0 0 0 0 3 1 3 0 0 0 2 0
2 1 1 2 0 0 3 0 1 2 0 0 0 1 0 0 1 2 2 0 1 0
3 3 2 0 1 0 0 0 2 2 1 0 0 0 0 0 2 1 3 3 3 2
8
Spongiform pustules Munro microabcess Focal hypergranulosis Disappearance of the glanular layer Vacuolization and damage of basal layer Spongiosis Saw-tooth appearance of retes Follicular horn plug Perifollicular parakeratosis Inflammatory monoluclear infiltrate Band-like infiltrate Age Kelas penyakit
2 1 0 0 0 0 0 0 0 1 0 8 1
0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 2 0 0 3 3 2 0 0 2 0 0 0 0 0 0 0 0 0 0 1 2 2 2 0 3 0 0 55 26 30 18 2 3 4 5
1 0 0 0 0 0 0 1 2 1 0 8 6
1 0 0 1 0 0 0 0 0 2 0 30 7
Kelas penyakit 1 merupakan kelas penyakit Psoriasis, kelas 2 adalah Seboreic dermatitis, kelas 3 adalah Lichen planus, kelas 4 adalah Pityriasis rosea, kelas 5 adalah cronic dermatitis, kelas 6 adalah Pityriasis rubra pilaris, dan kelas 7 adalah kelas penyakit pada kasus baru yang belum diketahui. Pada kasus kelas 1 memiliki 20 atribut gejala yang sama dengan kasus kelas 7, kasus kelas 2 memiliki 16 atribut gejala yang sama dengan kasus kelas 7, kasus kelas 3 memiliki 12 atribut gejala yang sama dengan kasus kelas 7, kasus kelas 4 memiliki 15 atribut gejala yang sama dengan kasus kelas 7, kasus kelas 5 memiliki 16 atribut gejala yang sama dengan kasus kelas 7, dan kasus kelas 6 memiliki 15 atribut gejala yang sama dengan kasus kelas 7. Dari beberapa kesamaan gejala diatas, kasus pada kelas 1 memiliki jumlah kesamaan gejala yang lebih tinggi yaitu 20 atribut gejala sama. Untuk lebih memastikan kemiripan dari kelas-kelas di atas dilakukan penghitungan nilai similarity. Euclidean Distance : =
(|
− + ⋯ + (|
| ) + (| −
| )
− | )
= |3 − 3| + |3 − 3| + |2 − 3| + |0 − 2| + |1 − 1| + |0 − 0| + |0 − 0| ⃓ ⃓ ⃓ +|0 − 0| + |2 − 1| + |2 − 1| + |1 − 1| + |0 − 0| + |0 − 0| + |0 − 1| ⃓ ⃓ +|0 − 0| + |0 − 1| + |2 − 2| + |1 − 0| + |3 − 2| + |3 − 2| + |3 − 2| ⃓ ⃓ ⃓ ⃓+|2 − 2| + |1 − 2| + |0 − 1| + |0 − 0| + |1 − 0| + |0 − 0| + |0 − 0| ⎷ +|0 − 0| + |0 − 0| + |0 − 0| + |2 − 1| + |0 − 0| + |1.2 − 0.32|
9
=
0+0+1+4+0+0+0+0+1+1+0+0+0+1+0+1+0+1 +1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0.774
= √501 = 4.216 Nilai kedekatan antara kasus pada kelas 7 dengan kasus kelas 1 adalah 22,383 Manhattan Distance: =
(|
1 |)
− + ⋯ + (|
+ (| −
2 |)
−
|)
|3 − 3| + |3 − 3| + |2 − 3| + |0 − 2| + |1 − 1| + |0 − 0| + |0 − 0| +|0 − 0| + |2 − 1| + |2 − 1| + |1 − 1| + |0 − 0| + |0 − 0| + |0 − 1| = +|0 − 0| + |0 − 1| + |2 − 2| + |1 − 0| + |3 − 2| + |3 − 2| + |3 − 2| +|2 − 2| + |1 − 2| + |0 − 1| + |0 − 0| + |1 − 0| + |0 − 0| + |0 − 0| +|0 − 0| + |0 − 0| + |0 − 0| + |2 − 1| + |0 − 0| + |1.2 − 0.32| =0+0+1+2+0+0+0+0+1+1+0+0+0+1+0+1+0+1+ 1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0.88 = 15.88 Jarak kedekatan antara kasus pada kelas 7 dengan kasus kelas 1 adalah 15.88 Adaptive Distance Measure =
/
= min
(
−
)
Setelah proses Retrieve selesai dilakukan, lalu akan dilanjutkan dengan proses Reuse yaitu menggunakan informasi permasalahan sebelumnya yang memiliki kesamaan untuk menyelesaikan permasalahan yang baru kemudian dilanjutkan dengan proses retain yaitu menyimpan informasi yang baru didapat.
10
1.6.3 Evaluasi dan Pengujian Pada tahapan ini akan dilakukan pengujian sistem dengan melakukan beberapa kali percobaan untuk menguji sistem apakah hasil diagnosa sudah sesuai dengan dengan pakar. Untuk menguji keakuratan dari sistem dilakukan dengan perhitungan sebagai berikut : =
100% .............................(4)
Untuk melihat tingkat eror yang dihasilkan, hasil percobaan akan dimasukkan ke dalam grafik agar lebih mudah untuk membadingkan tingkat eror yang dihasilkan pada saat klasifikasi.
1.2 1 0.8 0.6 0.4 0.2 0
ED MD SADM K=1 K = 18 K = 35 K = 52 K = 69 K = 86 K = 103 K = 120 K = 137 K = 154 K = 171 K = 188 K = 205 K = 222 K = 239
Tingkat Eror
Grafik Tingkat Eror
Gambar 1. 1 Grafik Tingkat Eror