PENGENALAN HAND-DRAWN GESTURE 3-DIMENSI MENGGUNAKAN METODE FUZZY ART Achmad Subhan KH, Moch. Hariadi, Surya Sumpeno Program Magister Bidang Keahlian Jaringan Cerdas Multimedia Jurusan Teknik Elektro Fakultas Teknik Industri Institut Teknologi Sepuluh Nopember Kampus ITS Keputih Sukolilo Surabaya 60111 Phone: (62 31) 599 4251-54, Ext. 1205, Phone: (62 31) 594 7302, Fax: (62 31) 593 1237
Abstrak Interaksi melalui gesture 3-dimensi memudahkan pemain untuk mengendalikan perannya dalam permainan. Seorang pemain bisa menggunakan bentuk gesture sesuai dengan kebiasaannya. Kebebasan bergerak saat bermain berakibat pada perubahan orientasi. Pada penelitian ini dibuat sebuah sistem pengenal non-trajectory gesture 3dimensi berbasis Fuzzy ART. Gesture dibangkitkan dari perangkat sensor MEMS tiga aksis. Bentuk sinyal masing-masing aksis dan norm digunakan sebagai masukan model Fuzzy ART dengan komplemen. Hasilnya, rata-rata recognition rate 85% pada vigilance 0.65. Enam jenis gesture digunakan pada recall test dengan jumlah data 540 eksemplar. Hasil yang didapatkan akurasi pengenalan 69%. Dua jenis gesture dengan komponen fitur arah dan kemiringan memiliki akurasi pengenalan 90%. Kesalahan pengenalan 50% disebabkan oleh kemiripan data training antara dua gesture. Kata kunci : Antarmuka Pengguna 3D, Accelerometer-based motion capture, ART1, Fuzzy ART. 1.
PENDAHULUAN Antarmuka pengguna tiga-dimensi (3D) dalam sebuah game, CAD, maupun animasi 3D hingga kini masih banyak dilakukan dengan mouse dua-dimensi (2D). Semua aksi yang diperlukan dalam aplikasi tersebut masih dipetakan dari satu masukan penunjuk. Sehingga dibutuhkan proses latihan pembelajaran yang cukup lama untuk dapat mengendalikan aplikasi 3D. Pengguna dituntut untuk bisa hafal dengan bentuk gerakan-gerakan yang akan ditranformasikan ke dalam aplikasi. Semakin komplek bentuk gerakan semakin sulit pengguna untuk dapat menguasainya. Teknologi lain yang berkembang adalah penggunaan antarmuka multitouch dimana pengguna dapat berinteraksi dengan menggunakan jari. Namun semuanya dilakukan pada bidang datar yang masih belum merepresentasikan ruang 3D yang digambarkan pada sebuah aplikasi. Teknik seperti masih memerlukan beberapa pemetaan gerakan-gerakan
tertentu untuk diterjemahkan ke dalam aksi dalam lingkungan 3D virtual. Saat ini penggunaan inertial motion sensing telah banyak diterapkan pada peralatan HCI. Sebagai contoh adalah magic wand [2]. Sistem ini awalnya dikembangkan dengan mengunakan metode Bayesian, kemudian penelitian berikutnya sistem ini dikembangkan lagi dengan metode FAM[2][12]. Penelitian lain mengenai sistem pengenalan gesture berbasis MEMS juga dilakukan untuk lebih mengoptimalkan pengenalan gesture yang dibangkitkan dari sensor MEMS. Salah satu kendala dalam penggunaan MEMS adalah orientasi dari gesture tersebut. Pada suatu saat dua buah gesture yang sama dapat dibentuk dengan orientasi yang berbeda. Perbedaan orientasi ini dikarenakan kebiasaan dari pengguna yang berbeda-beda. Untuk mengatasi ini sebuah penelitian dilakukan dalam rangka untuk mengatasi kebebasan orientasi[10]. Pada penelitian ini metode Fuzzy ART digunakan untuk mengenali dan mengklasifikasikan jenis gesture yang dibangkitkan oleh sensor MEMS. Nilai parameter FA optimum akan dicari sehingga nantinya bisa langsung digunakan pada implementasi pada perangkat keras. Desain sistem akan dijelaskan pada bagian dua. Bagian ketiga menjelaskan mengenai hasil pengujian. Pengujian dilakukan untuk semua jenis gesture. Selain itu juga pada bagian akhir pengujian dilakukan pengukuran recall test. 2.
DESAIN SISTEM Sistem ini terdiri dari tiga bagian. Pertama adalah sub sistem sensor MEMS, kedua bagian preprocessing, dan yang ketiga adalah bagian pengenal gesture yaitu FA. Secara keseluruhan desain sistem ditunjukan pada gambar 2.1. MEMS 3-axis adalah sebuah sensor inertial dengan sinyal keluaran 3-axis. Ketiga sinyal tersebut merupakan representasi besar vektor percepatan pada masing-masing sumbu kartesian x,y, dan z. masalah yang menjadi kendala dalam pemrosesan sinyal MEMS adalah adanya perbedaan nilai gravitasi antara satu tempat dengan tempat lainnya[10]. Selain itu juga 1
adanya getaran yang ditimbulkan oleh tangan yang bergerak[11]. Temperatur sekitar juga berpengaruh terhadap amplitudo data pembacaan. Untuk mendapatkan hasil yang optimal pada proses pengenalan, sistem ini melakukan preprocessing untuk memperbaiki sinyal yang dibangkitkan oleh MEMS. Noise MEMS ditimbulkan akibat getaran-getaran yang timbul pada saat dipegang.
vibrasi(getaran). Sensitifitas dari sensor ini menyebabkan setiap kali dilakukan pembacaan data didapatkan data-data yang bersifat insidentil yang ditimbulkan oleh selain pergerakan pemain. Sehingga untuk mengatasi masalah ini perlu dilakukan filter agar bisa mendapatkan data yang tepat. Algoritma yang digunakan sebagai low-pass filter pada bagian pembaca gerak ini adalam movingaverage. Secara matematis filter ini dapat dinyatakan seperti pada persamaan 2.1 berikut.
Pre-Processing X-akselererometer Y-akselererometer
Noise Filter
Gaussian Smoothing
Z-akselererometer
dimana y[n] adalah nilai akselerasi yang diambil. Sementara x[n] merupakan sampling data hasil perhitungan dari DC offset filter. Pada sistem ini n yang diambil sebanyak 5 sampling data. Sehingga pada proses yang dilakukan terdapat proses inisialisasi untuk pemenuhan data sampling sebanyak 5 data. Setelah itu filter ini akan bekerja secara kontinyu setiap kali pengambilan 1 sampling data.
Ekstraksi Fitur Ax
Ay
Az Norm
Pengenal Fuzzy ART
Gambar 2.1 Blok diagram rancangan sistem.
2.3 DC-Offset Filter Fungsi filter ini adalah untuk membuang nilai mengambang pada saat MEMS dipengaruhi oleh perbedaan nilai grafitasi maupun temperatur. Hasil implementasi filter ini menyebabkan dimanapun sensor digunakan akan selalu memiliki titik referensi yang sama. Filter ini juga dikenal dengan nama highpass filter. Model persamaan matematis dari filter ini dinyatakan dalam persamaan 2.2.
2.1 Sub-Sistem Sensor dan Pengolah MEMS Sensor MEMS yang digunakan pada penelitian ini adalah tipe H48C dari Hitachitm dengan keluaran sinyal 3-axis. Antarmuka dengan mikrokontroler untuk pembacaan data menggunakan sistem komunikasi serial synchronous.
Gambar 2.2 Sensor MEMS 3-axis H48C
Dari persamaan 2.2, y[n] merupakan nilai akselerasi yang telah dipotong terhadap DC offset. Sementara x[n] merupakan nilai asli yang didapat dari pembacaan sensor akselerometer. Nilai R bergantung pada frekuensi sampling dan dapat dipilih nilai 0 sampai dengan 1. Jika R dipilih 1 maka nilai y[n] berikutnya adalah akumulasi y[n] sebelumnya dan nilai y[n] saat ini. Pada sistem ini nilai R yang diambil adalah sebesar 0.1.
Setelah data dari masing-masing axis dibaca, berikutnya adalah melakukan pemrosesan untuk memperbaiki sinyal. Material partikel MEMS dipengaruhi oleh kondisi suhu ruangan. Hal ini menyebabkan nilai data akan selalu bergeser tidak pada posisi nol. Untuk mengantisipasi kejadian tersebut maka perlu diterapkan sebuah blok untuk pemrosesan seperti tampak pada gambar 2.3.
Gambar 2.3 Blok diagram pre-processing
2.4 Magnitude Shaping Filter Bagian ini berfungsi untuk membuang nilai sampel data yang sangat tinggi, untuk mendapatkan linearitas. Kondisi ini biasanya terjadi ketika sensor MEMS mendapatkan hentakan yang cukup keras. Dengan alasan ini maka magnitude shaping filter dipasang dalam sistem. Proses kerja bagian ini digambarkan dalam bentuk persamaan 2.3 berikut ini.
2.2 Low-Pass Filter Bagian low-pass filter berfungsi untuk menjaga kestabilan pergerakan data. Hal ini dikarenakan fungsi dasar dari sensor sebenarnya adalah sensor
Dimana x merupakan nilai keluaran dari low-pass filter. Persamaan ini tidak melakukan pemotongan
Accelerometer Ax,Ay,Az
DC Offset Filter
Low-Pass Filter
Magnitude Shaping Filter
Gaussian Filter FAM
Mikrokontroler
PC
2
data ketika melebih dari batas maksimal. Dengan menggunakan fungsi logaritmik nilai yang didapat akan diredam. Besar redaman akan bergantung pada nilai masukannya. Ketika nilai x kecil maka redaman yang dilakukan juga kecil, dan sebaliknya jika nilai masukan sangat besar maka fungsi ini akan meredam dengan megurangi nilai sesuai dengan persamaan yang digunakan.
Proses ini juga untuk membuang beberapa nilai amplitudo sinyal yang sama dalam satu waktu. Sehingga pada akhirnya hanya sinyal informasi saja yang masih tersisa. 2.7 Normalisasi FA menghindari masukan dengan nilai yang besar. Untuk mencegah terjadinya hal ini maka dilakukan proses normalisasi, sehingga nilai sinyal akan berkisar antara [0,1]. Untuk setiap nilai sampel dalam satu deret time-series, nilai dikurangi dengan nilai terkecil dari deret sampel. Hasil pengurangan ini akan dibagi dengan selisih nilai maksimum dan nilai minimum deretan sampel. Seperti tampak pada persamaan berikut.
2.5 Gaussian Filter Fungsi dari filter ini adalah untuk memperhalus bentuk sinyal dari akseleromter yang sebelumnya telah di proses oleh magnitude shaping filter. Filter Gaussian 1-Dimensi digunakan pada sistem ini. Filter ini diterapkan untuk masing-masing sinyal keluaran. Persamaan fungsi filter Gaussian yang digunakan adalah sebagai berikut.
2.8 Fuzzy ART Bagian ini merupakan sub-sistem yang berfungsi untuk mengenali bentuk gesture berdasarkan sinyal ektraksi fitur seperti yang telah dijelaskan pada bagian sebelumnya. FA terdiri dari tiga bagian dan mapfield. F 0 merupakan input vektor dari masing-masing fitur sinyal ditambah komplemennya.
Dimana adalah standar simpangan. Pada sistem ini standar simpangan yang digunakan adalah 2. sehingga dari proses ini kemudian dilakukan proses ekstraksi fitur. Pada penelitian ini data time-series sinyal akselerometer untuk ektraksi fitur dinotasikan dalam bentuk persamaan berikut.
Dimana n-sample adalah jumlah sampel hingga ke-n dari sinyal gesture yang dibangkitkan oleh akselerometer. Setelah melalui proses filter Gaussian persamaan data menjadi.
F1
F2
a1
i1
j1
a2
i2
j2
a3
i3
j3
Axf(tk)
Ayf(tk)
Azf(tk)
Kemudian dilakukan perhitungan dengan menggunakan persamaan.
F0
norm
|.|f(tk)
Dengan adanya perhitungan norm dari persamaan (2.7) maka fitur yang akan dikenali sebagai pola gesture menjadi empat unit vektor. Pengambilan nilai norm sebagai input untuk menghindari pengaruh referensi terhadap salah satu sumbu kartesian. Fiturfitur yang diekstraksi menjadi , .
a4
i4
a1c
i5
j5
a2c
i6
j6
a3c
i7
j7
a4c
i8
j8
r
j4
wj
reset
Gambar 2.4 Arsitektur Fuzzy ART.
Fitur dan komplemennya diteruskan menuju field F1. Ketika input F1 tersedia maka node F1 dikatakan dalam kondisi committed. Berikutnya dilanjutkan dengan pemilihan kategori ketika node pada F2 menjadi aktif. Pemilihan kategori mengikuti persamaan 2.8.
2.6 Resampling Proses resampling dilakukan menambahkan beberapa sample data diantara dua titik sample sebelumnya. Implementasi resampel dilakukan dengan menggunakan fungsi interpolasi. Dengan proses ini maka dimensi dari panjang sinyal menjadi konstan dan selalu sama dengan panjang data sample gesture yang lain maupun sinyal gesture hasil pembelajaran. Jika sinyal input lebih panjang dari sinyal hasil pembelajaran maka akan menjadi proses rescaling.
Dengan menggunakan persamaan (2.8) sistem FA mengurutkan nilai Tj dari yang terbesar hingga terkecil. Nilai Tj yang terbesar dengan indek ke-J akan dipilih. Node yang ke-J sama dengan 1 sementara indek ke-j = 0. Fungsi aktifasi dari node F1 diselesaikan dengan persamaan berikut. 3
Prosentase Recognition rate gesture White Attack 100.00 89.01 79.56 71.20 60.34
Pada saat fungsi aktifasi dihitung kemudian dilanjutkan dengan pengujian resonansi. Terjadinya resonansi apabila fungsi aktifasi memenuhi syarat persamaan 2.10.
42.61
50.00
21.15 21.48 0.00
Sedangkan dikatakan mismatch/reset apabila.
0.65
0.70
0.75
0.80
0.85
0.90
0.95
% Recognition rate
Gambar 3.2 Grafik recognition rate gesture white attack.
Untuk seluruh node indek ke-j. namun untuk node indek ke-J resonansi terjadi apabila.
Dari grafik menunjukkan bahwa nilai prosentase recognition rate tertinggi pada nilai vigilance 0,65 yaitu sebesar 89,01%. nilai prosentase mengalami penurunan dan pada vigilance 0,8 mengalami kenaikan, akan tetapi tidak lebih dari angka maksimum sebelumnya. Untuk keseluruhan pengukuran ditampilkan pada gambar 3.3.
Dimana fungsi mismatch/reset mengikut persamaan.
Setelah proses pengujian resonansi dan mismatch proses pembelajaran kemudian dilanjutkan untuk sekuen berikutnya. Sebelum proses berlanjut pada iterasi berikutnya nilai bobot diupdate dengan persamaan berikut.
100.00 95.00
Pada sistem ini FAM yang diimplementasikan adalah mode fast-learning dimana nilai .
90.00
3. HASIL PENGUJIAN Percobaan dilakukan dengan menggunakan 6 jenis gesture yang merupakan gesture yang digunakan pada beberapa game baik PC maupun konsol. Jenis gesture tersebut tampak pada gambar 3.1 berikut.
80.00
Grafik Recognition Rate 6 Gesture pada vigilance 0.65 94.25 91.14
89.01 89.78 85.70
83.55
85.00
75.00 WA
BA
WD
BD
BH
FH
Recognition rate (%)
Gambar 3.3 Grafik hasil pengukuran prosentase recognition rate 6 gesture.
White Attack
Black Attack
Backhand
Forehand
White Defence
Dari gambar tersebut diketahui, nilai prosentase terbesar adalah 94,25% untuk jenis gesture “backhand”. sementara nilai terendah 83,55% untuk gesture “white defence”. Nilai rentang prosentase untuk masing-masing gesture diperlihatkan pada tabel 3.1.
Black Defence
Tabel 3.1 Data rata-rata prosentase dan standar simpangan untuk 6 gesture.
Gambar 3.1 Jenis gesture pengujian.
Gesture
Jumlah masing-masing gesture sebanyak 30 eksemplar. Empat jenis gesture diambil dari permaian “Battle of The Wizards” dan dua buah gesture dari permainan “avatar manipulator”[10]. Pengujian dilakukan untuk masing-masing gesture dengan nilai vigilance bervariasi dari 0,65 sampai dengan 0,90. tampak hasil pada grafik berikut ini hasil pengujian untuk jenis gesture “white attack”.
WA
BA
WD
BD
BH
FH
Rec rate
89.01
89.78
83.55
85.70
94.25
91.14
Std Deviasi
4.86
4.04
7.09
4.24
2.59
4.07
Pada tabel 3.1, dari nilai prosentase recognition rate yang ada, data terbagi menjadi tiga kelompok. Kelompok pertama yaitu jenis gesture WA dan BA, WD dan BD, BH dan FH. Nilai prosentase masingmasing dalam satu kelompok tersebut berdekatan. Hal ini dikarenakan bentuk gesture yang juga mirip, perbedaannya terletak pada arah. 4
IEEE VR Workshop: New Directions in 3D User Interfaces, Bonn, March 2005 [2] Bang,W.C.,Chang,W.Kang, K.H., Choi, E.S., Potanin, A.and Kim,D.Y., “Self contained Spatial Input Device for Wearable Computers.” Proceeding of 7th IEEE International Symposium on Wearable Computers 2003, pp. 26-34 [3] Carpenter, G.A., Grossberg, S., Markuzon, N. , and Reynolds, J.H., “Fuzzy ARTMAP: A Neural Network Architecture for Incremental Supervised Learning of Analog Multidimensional Maps”, IEEE Trans. on Neural Networks,Vol.3, No. 5, 1992, pp. 698-713 [4] Carpenter, G.A., Grossberg, S., and Reynolds, J.H., “ARTMAP: A Self-organizing Neural Network Architecture for Fast Supervised Learning and Pattern Recognition”, International Joint Conference on Neural Networks, 1991, IJCNN-91-Seattle, Vol.i, 1991, pp.863-868. [5] Carpenter, G.A., Grossberg, S., & Rosen, D.B. (1991b), “Fuzzy ART: Fast stable learning and categorization of analog patterns by an adaptive resonance system”, Neural Networks Publication, vol 4, 1991, pp. 759-771 [6] Dough A. Bowman, Sabine Coquillart, Bernd fochlic, Michitaka Hirose Yoshifumi Kitamura, “3D User Interfaces: New Directions and Perspectives”, IEEE computer society 2008. [7] Fröhlich, B., Plate, J., Wind, J., Wesche, G., Göbel, M. “Cubic-Mouse-Based Interaction in Virtual Environments”, IEEE Computer Graphics & Applications, 20(4), pp. 12-15, July 2000. [8] Hongyu Xu, " Mahalanobis Distance-Based ART Networks," Master Theses Department of Computer Science, SDSU, October. 2003. [9] Nissanka B. Priyantha, Anit Chakraborty, Hari Balakrishnan, “The Cricket Location-Support system”, Proc. 6th ACM MOBICOM, Boston, MA, August 2000 [10] Paul Keir, Jocelyn Elgoyhen, Martin Naef, “Gesture Recognition With Non-reference Tracking”, proc IEEE Symposium on 3D User Interface, Virginia, 2006. [11] Sungabae lee, Gi-Joon Nam, Junseok Chae. “Design of Padless MOUSE system with MEMS Accelerometer and Analog Read-Out Circuitry”. Departement of EECS University of Michigan 2002. [12] Won-Chul BANG, Eun-Seok CHOI, Sung-Jung CHO, Joon-Kee CHO, Sang-Ryong KIM, “A 3D Hand-Drwan Gesture Input Device Using Fuzzy ARTMAP-based Recognizer”, SYSTEMIC, CYBERNETIC AND INFORMATIC, New York, Vol 4, 2006.
3.1 Recall Test Pengujian recall test dilakukan terhadap seluruh bentuk gesture, dengan menggunakan data hasil pembelajaran satu jenis gesture, kemudian dilakukan proses pengenalan untuk semua data gesture yang lainnya. Grafik Recall Test 100 80
WA
60
BA
40
WD
20
BD
0
BH WA
BA
WD
BD
BH
FH
FH
Gambar 3.4 Grafik hasil pengukuran recall test.
Tampak pada gambar 3.4 hasil pengukuran recall test yang dilakukan. Dari hasil tersebut didapatkan tidak ada jenis gesture selain gesture itu sendiri yang dikenali. Dengan kata lain proses klasifikasi berhasil semuanya. Pada recall test gesture ”backhand” nilai prosentase recognition rate gesture forehand cukup tinggi namun masih dibawah nilai minimal prosentase recognition rate gesture “backhand”. Hal tersebut juga terjadi pada recall test gesture “forehand”. 4.
KESIMPULAN Dari hasil penelitian yang dilakukan dapat ditarik beberapa kesimpulan yang merupakan hasil pengamatan. Rata-rata recognition rate sistem Fuzzy ART 85% dengan nilai vigilance 0.65. Pengenal dengan Fuzzy ART memiliki nilai akurasi 90% pada jenis gesture yang memiliki fitur arah dan kemiringan. Pengenalan dua jenis gesture memiliki nilai akurasi kurang dari 50%, yang disebabkan oleh kemiripan data pelatihan mencapai 70%. Kesalahan mengenali dua jenis gesture white attack dan black attack disebabkan akuisisi data sensor lambat sehingga yang dikirimkan adalah data sebelum gesture dibentuk. Kemiripan data pelatihan antara keduanya maksimal 30%. Secara keseluruhan sistem Fuzzy ART dengan nilai vigilance 0.65 untuk mengenali 6 gesture memiliki akurasi sebesar 69% dan sensitifitas 73%. 5.
DAFTAR PUSTAKA
[1] Bernstein, A., Lenhardt, R., Hochstrate, J., Fröhlich, B. “The Haptic SpaceMouse – an Input Device with Force-Feedback through Solenoids”,
5