Wrapper Features Subset Selection Pada Ekstraksi Ciri Sinyal EKG Menggunakan Metode Dekomposisi Paket Wavelet Achmad Rizal Biomedical Signal Processing & Instrumentation RG (BioSPIN RG) Fakultas Elektro & Komunikasi, ITTelkom Jl. Telekomunikasi no 1, Ters. Buah Batu, Bojong Soang, Bandung 40287 Email :
[email protected] Abstract Electrocardiogram (ECG) is a physiological signal produced by electrical activity of heart. ECG signal provides information about the health of one’s heart condition. Some studies have been conducted to extract features from ECG signal for ECG recognition automatically. One of research that has been done is ECG signal feature extraction using wavelet packet decomposition level 5 which produce 32 features for each signal. In this research, we examined to determine significant features that are able to distinguish one class to other class. We used wrapper feature subset selection techniques with K-Nearest Neighbour (K-NN) as classifier. For searching algorithm, we use sequential forward selection (SFS) and sequential backward selection (SBS). From experiment result, SFS method produced 4 significant features with 97,7% accuracy, while SBS method produced 12 significant features with 100% accuracy. Keywords : ECG, wavelet, wrapper, feature subset selection
1. Pendahuluan Sinyal Elektrokardiogram (EKG) adalah sinyal listrik yang dihasilkan oleh aktifitas kelistrikan jantung. Kelainan dari fungsi jantung seseorang dapat dilihat dari rekaman sinyal EKG ini. Seorang ahli jantung menilai rekaman sinyal EKG dari bentuk gelombang, durasi, orientasi sinyal dan irama sinyal [Tom93]. Penilaian ini relatif subyektif, tergantung dari keahlian dokter dan kondisi pasien. Seiring dengan kemajuan teknologi elektronika dan berkembangnya teknik-teknik pengolahan sinyal digital, banyak cara dikembangkan untuk mengenali kelainan jantung secara otomatis melalui pengenalan sinyal EKG. Pengolahan sinyal EKG yang dilakukan bisa pada domain waktu, domain frekuensi atau domain wavelet. Pada penelitian sebelumnya telah dilakukan pengenalan sinyal EKG menggunakan wavelet [Riz08]. Dengan skenario yang dirancang, didapat 32 ciri yang mewakili subband-subband dari sinyal EKG dengan akurasi 94.4 % untuk data sebanyak 90 terdiri dari 3 kelas data. Usaha perbaikan dilakukan dengan menggunakan klassifier yang berbeda dengan hasil yang lebih baik [Kin10]. Pada [Dew11] digunakan ekstraksi ciri Empirical Mode Decomposition (EMD) [Ril08] yang menghasilkan akurasi 81.33%. Penggabungan metode EMD dan Wavelet dilakukan pada [Riz11] dengan akurasi 90.4%. Dari keseluruhan penelitian yang ada, seluruh fitur hasil ekstraksi ciri digunakan tanpa memperhatikan apakah fitur yang didapat berguna atau tidak. Hasil 105
Jurnal Informatika, Vol. 8, No.2, Desember 2012: 105 - 114
pengenalan yang cukup tinggi lebih disebabkan oleh teknik klasifikasi yang cukup baik dengan mengorbankan waktu komputasi. Dengan pemilihan fitur yang signifikan beberapa hal yang akan didapat antara lain : reduksi dimensi dari fitur, meningkatkan performansi dari classifier dan reduksi waktu komputasi [Nug12]. Pada penelitian ini dilakukan pemilihan fitur sinyal EKG yang dihasilkan melalui dekomposisi paket wavelet menggunakan Wrapper Features Subset Selection (WFSS). 2. Landasan Teori 2.1 Teori EKG Elektrokardiogram (EKG) adalah suatu gambaran dari potensial listrik yang dihasilkan oleh aktifitas listrik otot jantung. EKG ini merupakan rekaman informasi kondisi jantung diambil dengan elektrokardiograf yang ditampilkan melalui monitor atau dicetak pada kertas. Rekaman EKG ini digunakan oleh dokter ahli untuk menentukan kondisi jantung dari pasien. Sebuah sinyal yang didapat dari EKG normal adalah seperti pada Gambar 1. Gelombang EKG normal memiliki ciri-ciri sebagai berikut[Tom93]: 1. Gelombang P mempunyai amplituda kurang dari 0,3 mV dan perioda kurang dari 0,11 detik. 2. Gelombang Q mempunyai amplituda sebesar minus 25% dari amplituda gekombang R.
Gambar 1. Gelombang EKG Normal 3. Gelombang R mempunyai amplituda maksimum 3 mV. 4. Gelombang S merupakan defleksi negatif sesudah gelombang R. 5. Kompleks QRS terdiri dari gelombang Q, R dan S yang memiliki perioda 0,060,10 detik dengan perioda rata-rata 0,08 detik. 6. Gelombang T mempunyai amplituda minimum 0,1 mV. Pada dasarnya ada tiga teknik yang digunakan dalam elektrokardiografi, yaitu[Tom93]: 1. Standard clinical ECG. Teknik ini menggunakan 10 elektroda (12 lead) yang ditempatkan pada titiktitik tubuh tertentu. Teknik ini dipakai untuk menganalisa pasien. 3. Vectorcardiogram. Teknik ini menggunakan 3 elektroda yang ditempatkan pada titik-titik tubuh tertentu. Teknik ini menggunakan pemodelan potensial tubuh sebagai vektor tiga dimensi dengan menggunakan sandapan baku bipolar (Einthoven). Dari sini akan dihasilkan gambar grafis dari eksistensi jantung.
106
Wrapper Features Subset Selection Pada Ekstraksi Ciri Sinyal EKG Menggunakan Metode Dekomposisi Paket Wavelet (Achmad Rizal)
4. Monitoring ECG. Teknik ini menggunakan 1 atau 2 elektroda yang ditempatkan pada titik-titik tubuh tertentu. Teknik ini digunakan untuk memonitor pasien dalam jangka panjang Sinyal EKG yang dianalisis adalah sinyal yang diambil menggunakan 3 lead sesuai dengan segitiga Einthoven [Tom93]. Pada sistem ini sinyal EKG tiap lead merupakan beda potensial antar anggota tubuh antara lain : • Lead I : beda potensial antara LA (left arm) dengan RA (right arm) • Lead II : beda potensial antara LL (left leg) dengan RA (right arm) • Lead III : beda potensial antara LL (left leg) dengan LA (left arm)
Gambar 2. Segitiga Einthoven 2.2 Wavelet Metode paket wavelet merupakan generalisasi dari dekomposisi wavelet yang memberikan jangkauan yang lebih luas untuk analisis sinyal. Pada dekomposisi wavelet sinyal dibagi menjadi komponen aproksimasi dan detail. Komponen aproksimasi kemudian dibagi lagi menjadi komponen apkroksimasi dan detail, begitu seterusnya sampai level yang diinginkan.
Gambar 3. Dekomposisi wavelet
Secara matematis dekomposisi wavelet 3 tingkat dapat dituliskan :
107
Jurnal Informatika, Vol. 8, No.2, Desember 2012: 105 - 114
X = cA1 + cD1 = cA2 + cD2 + cD1 = cA3 + cD3 + cD2+cD1
(1)
Komponen cA1 dan cD1 didapat lewat operasi seperti pada Gambar 4.
X
Gambar 4. Proses dekomposisi wavelet Pada paket wavelet, dekomposisi dilakukan pada komponen aproksimasi dan detail sekaligus. Komponen detail juga dibagi menjadi komponen detail aproksimasi dan detail detail seperti pada Gambar 5.
Gambar 5. Dekomposisi paket wavelet
2.3 Wrapper Feature Subset Selection (WFSS) Feature Subset Selection (FSS)merupakan proses memilih subset terbaik dari atribut/feature data ditinjau dari kontribusinya terhadap class-separability. Tujuan dari FSS ini adalah untuk mereduksi dimensi data, memilih fitur yang benar-benar menjadi pembeda antar kelas serta meningkatkan performansi dari classifier. Teknik pemilihan fitur dalam FSS bisa dibedakan menjadi 2 yaitu : filter dan wrapper. Perbedaan keduanya adalah sebagai berikut [Nug12] : • Filter – Pengukuran kualitas tiap variable/fitur berdasarkan informasi intrinsik yang dimiliki oleh data (misalnya jarak antar fitur) – Tidak tergantung dari classifier – Kompleksitas lebih rendah, waktu komputasi lebih cepat – Sesuai dipakai untuk data dengan dimensi sangat tinggi • Wrapper – Memakai akurasi classifier untuk mengukur performansi – Tergantung dari classifier yang digunakan
108
Wrapper Features Subset Selection Pada Ekstraksi Ciri Sinyal EKG Menggunakan Metode Dekomposisi Paket Wavelet (Achmad Rizal)
–
Lebih lambat karena evaluasi tiap subset harus melalui proses training
Contoh dari teknik wrapper adalah Sequential Forward Selection (SFS) dan Sequential Backward Selection (SBS). Pada SFS, fitur yang paling signifikan dipilih secara bertahap. Mula-mula tiap fitur diuji seberapa besar kontribusinya terhadap hasil pengenalan. Fitur dengan akurasi terbaik dipilih kemudian ditambahkan fitur berikutnya sehingga yang diuji sekarang menjadi 2 fitur. Kombinasi 2 fitur dengan hasil tertinggi dipilih kemudian diuji dengan menambah 1 fitur lagi. Begitu seterusnya sampai didapatkan kombinasi beberapa fitur dengan akurasi tertinggi. Untuk algoritma SBS, mula-mula semua sejumlah N fitur dipakai untuk diuji akurasinya. Kemudian, 1 fitur dibuang untuk diuji akurasinya. Fitur yang apabila dibuang tidak memberikan pengaruh pada akurasi, maka fitur tersebut akan dibuang secara permanen. Selanjutnya dari N-1 fitur, dibuang 1 sehingga yang diuji adalah N-2 fitur. Apabila fitur yang dibuang tidak mempengaruhi akurasi maka fitur tersebut akan dibuang secara permanen. Demikian seterusnya sampai akurasi menurun jika ada fitur yang dibuang. Proses wrapper dapat dilihat pada Gambar 6. Pada teknik wrapper, pemilihan classifier sangat penting karena akan menentukan akurasi yang didapat. Hasil dari wrapper ini nantinya akan mereduksi jumlah fitur sehingga fitur yang dipilih hanya merupakan fitur yang signifikan saja.
Gambar 6. Proses wrapper 2.4 K-Nearest Neighbourhood K-Nearest Neighbor (K-NN) adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari sampel uji yang baru diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Tujuan dari algoritma ini adalah mengklasifikasi objek baru berdasarkan atribut dan sampel latih. Diberikan titik uji, akan ditemukan sejumlah K objek (titik training) yang paling dekat dengan titik uji. Klasifikasi menggunakan voting terbanyak di antara klasifikasi dari K objek. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Euclidean atau dengan pengukuran jarak yang lain.
109
Jurnal Informatika, Vol. 8, No.2, Desember 2012: 105 - 114
, = ∑ −
(2)
Algoritma metode KNN sangat sederhana, bekerja dengan berdasarkan pada jarak terpendek dari sampel uji ke sample latih untuk menentukan KNN nya. Setelah mengumpulkan KNN, kemudian diambil mayoritas dari KNN untuk dijadikan prediksi dari sampel uji. KNN memiliki beberapa kelebihan yaitu bahwa dia tangguh terhadap training data yang noisy dan efektif apabila data latih nya besar. Sedangkan kelemahan dari KNN adalah KNN perlu menentukan nilai dari parameter K (jumlah dari tetangga terdekat), pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan dan atribut mana yang harus digunakan untuk mendapatkan hasil yang terbaik, dan biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap sample uji pada keseluruhan sample latih. 3 Metode 3.1 Data Data diambil dari MIT-BIH data base [Mit08] terdiri dari 3 kelas data yaitu Normal Sinus Rhythm (NSR), Congestive Heart Failure (CHF), dan Atrial Fibrilation (AF). Data EKG ini diambil dari lead II, dengan frekuensi sampling 250 Hz. Panjang rekaman sekitar 2-3 detik, atau tiap data berisi sekitar 3 gelombang QRS. Data yang digunakan sama dengan data pada [Riz08]. 3.2 Metode Ekstraksi Ciri
Gambar 7. Proses ekstraksi ciri Proses normalisasi sinyal terdiri dari proses DC removal dan normalisasi amplitudo. Penghilangan komponen DC dapat dilakukan oleh persamaan (3). S (i) = S (i) −
1 N
N
∑
S (i)
(3)
i=1
Dengan S(i) adalah sinyal EKG pada waktu i. Sedangkan normalisasi amplitudo dilakukan dengan persamaan berikut : S (i) (4) S (i) = S max
Dekomposisi yang dilakukan pada sinyal EKG dilakukan sampai level 5 dengan menggunakan Daubechies2 (db2) sebagai mother wavelet-nya. Untuk frekuensi sampling 250 Hz, proses ini akan menghasilkan 32 subband sinyal dengan lebar sekitar 3.9 Hz.
110
Wrapper Features Subset Selection Pada Ekstraksi Ciri Sinyal EKG Menggunakan Metode Dekomposisi Paket Wavelet (Achmad Rizal)
Langkah selanjutnya adalah menghitung periodogram dari tiap subband hasil dekomposisi. Periodogram dari deretan data [x1,x2,...,xn] dapat dihitung dengan rumus berikut[Riz08]. 1 S ( e jω ) = n
2
n
∑xe
− jω l
l
(5)
l =1
Dari hasil perhtiungan tersebut dihitung energi yang kemudian akan menjadi fitur dari sinyal EKG yang diamati. Hasilnya berupa matrik dengan ukuran 32x1. 3.3 Metode Pemilihan Ciri Teknik FSS yang digunakan adalah teknik wrapper seperti ditunjukkan pada Gambar 7. Untuk classifier digunakan K-NN dengan K = 1 untuk kecepatan komputasi. Algoritma pencarian menggunakan sequential forward selection (SFS) dan sequential backward selection (SBS). Sebagai pembanding, mula-mula semua data dikenali dengan K-NN tanpa melakukan pemilihan ciri. Data dibagi menjadi 2 bagian, 50% sebagai data latih dan 50% sebagai data uji dengan pemilihan secara random. Dengan menggunakan SBF dan SBS dilakukan pengujian lagi untuk melihat peningkatan akurasi setelah dilakukan pemilihan ciri. 4 Pembahasan 4.1 Hasil Ekstraksi Ciri Contoh data sinyal EKG yang digunakan pada penelitian ini dapat dilihat pada Gambar 8, 9 dan 10. Masing-masing kelas berjumlah 30 data sehingga data total 90 data.
(a) (b) Gambar 8. (a) EKG kasus AF (b) Spektrum frekuensi AF
(a) (b) Gambar 9. (a) EKG kasus CHF (b) Spektrum frekuensi CHF
111
Jurnal Informatika, Vol. 8, No.2, Desember 2012: 105 - 114
(a) (b) Gambar 10. (a) EKG kasus NSR (b) Spektrum frekuensi NSR Hasil ekstraksi ciri yang dihasilkan dapat dilihat pada Gambar 11. 40 35 30
Atrial Fibrillation
25
Congestive Heart Failure
20
Normal Sinus Rhythm
15 10 5 0
Fitur ke-n
Gambar 11. Contoh hasil ekstraksi ciri tiap kelas 4.2 Hasil Pengenalan Tanpa Pemilihan Ciri Sebagai pembanding, mula-mula dilakukan klasifikasi terhadap sinyal EKG menggunakan keseluruhan ciri yang diperoleh (32 ciri) menggunakan K-NN dengan K=1. Dari 90 data yang ada dibagi menjadi 50% data latih dan 50% data uji dengan pemilihan secara random. Hasil pengenalannya dapat dilihat pada Tabel 1. Terlihat bahwa tingkat akurasinya adalah 36/45 x 100% = 80%. Hasil ini nantinya akan dibandingkan dengan hasil pengenalan dengan menggunakan ciri yang diseleksi menggunakan metode wrapping. Tabel 1. Hasil Pengenalan untuk keseluruhan ciri Dikenali sebagai AF CHF NSR AF 10 8 0 CHF 1 14 0 NSR 0 0 12
4.3 Hasil Pemilihan Ciri dan Hasil Pengenalannya Metode wrapping pertama yang digunakan mengunakan teknik sequential forward selection (SFS) dengan teknik pencarian best first. Hal ini berarti awalnya subset dari ciri adalah himpunan kosong, kemudian diambil satu ciri untuk diuji tingkat akurasinya kemudian ditambahkan sampai didapat hasil akurasi terbaik. Penambahan ini akan dihentikan jika pada penambahan berikutnya terjadi 112
Wrapper Features Subset Selection Pada Ekstraksi Ciri Sinyal EKG Menggunakan Metode Dekomposisi Paket Wavelet (Achmad Rizal)
penurunan akurasi. Dari proses yang dilakukan akan diperoleh empat ciri yang dianggap signifikan yaitu ciri ke- : 1, 5, 9 dan 13. Dengan frekuensi sampling 250 Hz dan dekomposisi sampai level 5 maka ciri-ciri di atas mewakili subband 0-3.9 Hz ; 15.6-19.5 Hz; 31.2-35.1Hz; dan 46.8-50.7 Hz. Ketika dilakukan pengenalan dengan skenario yang sama dengan ketika diambil semua ciri, maka hasil pengenalannya sama dengan Tabel 2.
Tabel 2. Hasil Pengenalan untuk 4 ciri hasil SFS Dikenali sebagai
AF
CHF
NSR
AF
17
1
0
CHF
0
15
0
NSR
0
0
12
Dari hasil yang didapat maka akaurasi = 44/45x100% = 97,78%. Hal ini menunjukkan bahwa dari 32 ciri yang ada, hanya 4 yang sangat signifikan dan bisa meningkatkan akurasi pengenalan. Metode wrapping kedua yang digunakan mengunakan teknik sequential backward selection (SBS) dengan teknik pencarian best first. Hal ini berarti mula-mula ciri yang dipakai adalah ciri keseluruhan (32 ciri) kemudian satu demi satu ciri yang tidak signifikan akan dihilangkan. Dari percobaan didapat ciri paling signifikan menggunakan metode SBS adalah ciri ke : 1, 2, 4, 13, 18, 21, 22, 28, 29, 30, 31, 32. Ciri-ciri yang disebutkan setara dengan energi pada subband (n-1)3,9 Hz sampai n.3,9 Hz. Dari hasil pengenalan seperti pada Tabel 3. Nilai akurasinya adalah 100%. Tabel 3. Hasil Pengenalan untuk 12 ciri hasil SBS Dikenali sebagai
AF
CHF
NSR
AF
18
0
0
CHF
0
15
0
NSR
0
0
12
Berdasarkan pemilihan ciri menggunakan teknik wrapping, ternyata dari 32 ciri yang dihasilkan dari metode dekomposisi paket wavelet pada sinyal EKG, hanya 12 ciri yang sangat signifikan sehingga bisa membedakan antara kelas yang satu dengan yang lain. Dibandingkan dengan metode SBS, metode SFS menghasilkan ciri yang lebih sedikit, tetapi akurasi yang dihasilkan tidak sebaik metode SBS. Kemungkinan proses seleksi pada SFS dihentikan karena ada penurunan akurasi, hal ini disebabkan oleh algoritma best first yang dipakai sehingga pencarian dihentikan jika terjadi penurunan akurasi. Ada kemungkinan hasil yang didapat oleh metode SFS dan SBS sama apabila dilakukan exhausted search, yaitu menguji 113
Jurnal Informatika, Vol. 8, No.2, Desember 2012: 105 - 114
semua kemungkinan kombinasi ciri yang ada. Kelemahan metode ini adalah lamanya waktu komputasi 5 Kesimpulan Dari penelitian yang telah dilakukan, didapat bahwa teknik wrapping dengan metode SBS telah menghasilkan 12 ciri yang paling signifikan dari 32 ciri yang didapat dari ektraksi ciri dekomposisi paket wavelet level 5. Akurasi yang dihasilkan oleh 12 ciri tersebut mencapai 100%, lebih baik dari penelitian sebelumnya. Dengan reduksi ciri menjadi tinggal 12 ciri maka waktu komputasi akan dapat dikurangi karena ciri-ciri yang tidak signifikan telah dihilangkan. Pada penelitian berikutnya sebaiknya dilakukan metode exhausted search untuk melihat akurasi semua kemungkinan kombinasi ciri yang ada. 6
Daftar Pustaka
[Dew11]
[Kin10]
[Mit08] [Nug12]
[Ril08]
[Riz08]
[Riz11]
[Tom93]
114
Dewi, R., Hidayat, B., Rizal, A. 2011. Sistem Deteksi Kelainan Jantung Menggunakan Sinyal Elektrokardiogram dengan Metode Empirical Mode Decomposition. Preceeding Seminar Teknik Informatika dan Sistem Informasi, Univ Kristen Maranatha, Bandung Kinanthi, G., Rizal, A., Magdalena, R., 2010. Pengenalan Elektrokardiogram (EKG) Menggunakan Dekomposisi Paket Wavelet dan Support Vector Machine (SVM). Proceeding Modern Electrical Engineering Technology and Its Application Seminar 2010, Univ. Kristen Maranatha, Bandung. Physionet, 2008. ECG data Bases. MIT-BIH Data Bases. Available: http://physionet.org/physiobank/database/ accessed 01/05/2008 Nugroho, A.S. 2012. Pemanfaatan Data Mining untuk Mengekstrak Pengetahuan Data Medis. Workshop on Data Mining, Seminar Nasional Teknologi Informasi (SNATI 2012), Universitas Islam Indonesia, Yogyakarta Rilling, G. 2008. On Empirical Mode Decomposition And Its Algorithms. Laboratoire de Physique (UMR CNRS 5672), ´Ecole Normale Sup´erieure de Lyon 46, all´ee d’Italie 69364 Lyon Cedex 07. France Rizal, A., Suryani, V. 2008. Pengenalan Sinyal EKG Mengunakan Dekomposisi Paket Wavelet dan K-Means Clustering. Preceeding Seminar Nasional Teknologi Informasi (SNATI 2008), Universitas Islam Indonesia, Yogyakarta Rizal, A., Jondri,. Hadiyoso, S. 2011. Pengenalan Sinyal EKG Menggunakan Empirical Mode Decomposition (EMD), Dekomposisi Paket Wavelet dan K-Mean Clustering. Proceeding Konferensi Nasional Sistem Informatika 2011, STMIK STIKOM Bali, Denpasar Tompkins, W.J. 1993. Biomedical Signal Processing, Prentice Hall, New Jersey.