Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
ISSN: 1979-911X
PENGENALAN SUARA VOCAL BERBASIS MICROCAMERA Sigit Yatmono(1), Fatchul Arifin(1, 2), Tri Arief Sardjono(2), Mauridhy Hery Purnomo(2) 1
Electronic Departement Universitas Negeri Yogyakarta, Email :
[email protected] ,
[email protected] 2 Electrical Engineering Department ITS Surabaya, Email :
[email protected] ,
[email protected],
ABSTRAK Suara merupakan salah satu alat komunikasi manusia yang utama. Tanpa suara, manusia tidak akan dapat lagi berkomunikasi, menyampaikan kemauannya kepada orang lain secara bebas. Berbagai usaha agar para penderita tuna laring (laringnya diambil, karena menderita kanker stadium tinggi) dapat kembali berbicara telah banyak dilakukan. Diantaranya melalui suara perut esophagus dan menggunakan alat electrolarynx. Berbicara dengan suara perut bukanlah hal yang mudah. Untuk dapat melakukanya para pasien harus belajar ekstra keras. Sedangkan berbicara menggunakan alat elektrolarynx, disamping harga alatnya yang sangat maha,l suara yang dihasilkannya pun sangat datar, tidak ada intonasi sama sekali. Suara yang dihasilkan nya “mirip robot”. Oleh karena itu perlu ada inovasi lain bagaimana mendesain alat bantú wicara bagi pasien tunalaring.Dalam paper ini akan disajikan bagaimana dapat mengenali suara vocal berbasis microcamera. Microcamera digunakan untuk merekam bentuk mulut ketika mengucapkan vocal tertentu. Selanjutnya citra hasil perekaman diolah untuk dikenali. Pengenalan dilakukan dengan menggunakan algoritma Jaringan syaraf tiruan. Hasil pengujian menunjukkan sistem yang dibangun mempunyai validitas 78,3 %. Hasil yang disajikan dalam paper ini diharapkan akan dapat menjadi dasar pengembangan alat bantú wicara bagi pasien tunalaring. Keywords: Tuna laring, Alat bantu bicara, Microcamera, Jaringan syaraf tiruan
PENDAHULUAN Keganasan kanker laring di Rumah Sakit dr Cipto Mangunkusumo menempati urutan ketiga setelah keganasan penyakit telinga, hidung, dan tenggorokan (THT). Jumlah rata-rata keganasan laring di RSCM 25 orang per tahun [1]. Di Amerika Serikat diprediksi 8900 orang per tahun menderita kanker laring baru [2]. Penyebab pasti kanker laring sampai saat ini belum diketahui, namun didapatkan beberapa hal yang berhubungan erat dengan terjadinya keganasan laring yaitu: rokok, alkohol, sinar radioaktif, polusi udara radiasi leher dan asbestosis. Ostomy adalah suatu jenis tindakan operasi yang diperlukan dengan membuat lubang (stoma) pada bagian tubuh tertentu. Salah satu macam ostomy adalah Laryngectomy, yakni operasi yang dilakukan terhadap pasien penderita kanker laring (tenggorokan). Operasi ini akan mengambil bagian tenggorokan yang terkena kanker sampai bersih. Dampak dari operasi ini akan menjadikan trachea (saluran yang menghubungkan antara rongga mulut-hidung dengan paru) terpisah dengan eshopagus dan pasien tidak dapat lagi bernapas dengan hidung, melainkan melalui stoma (sebuah lubang di leher pasien).
(a) (b) Gambar 1, (a). Gambar pasien sebelum operasi larynx, [3] (b). Gambar pasien setelah operasi larynx [3] B-146
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
ISSN: 1979-911X
Pengangkatan laring, otomatis akan mengangkat perangkat suara manusia, sehingga pasca operasi laring, pasien tidak dapat lagi berbicara (bersuara) sebagaimana sebelumnya. Hal inilah yang menjadikan pukulan berat bagi pasien. Suara merupakan salah satu alat komunikasi utama manusia. Tanpa suara manusia tidak dapat berbicara yang pada akhirnya, tidak akan dapat lagi menyampaikan kemauannya kepada orang lain secara bebas. Bahasa tubuh atau tulis yang dapat dilakukan manusia, tentu tetap akan membatasasi komunikasi. Karena kecepatan tulis atau bahasa tubuh tidak secepat dan sejelas bahasa suara. Dari uraian di atas, jelaslah diperlukan suatu terobosan agar para penyandang tuna laring bisa berbicara kembali secara mudah dan murah serta dengan hasil suara yang natural. Dalam paper ini akan disajikan bagaimana dapat mengenali suara vocal berbasis microcamera. Microcamera digunakan untuk merekam bentuk mulut ketika mengucapkan vocal tertentu. Hasil yang disajikan dalam paper ini diharapkan akan dapat menjadi dasar pengembangan alat bantú wicara bagi pasien tunalaring berbasis microcamera.
METODE Bahan dasar penelitian ini berasal dari citra mulut ketika berbicara. Ada 4 orang relawan, dan masing masing diminta melafalkan A, I, O, U, E. Setiap lafal diulang 3 kali. Sehingga total citra ada 60 buah. Sedangkan alat pendukung penelitian terdiri dari perangkat keras dan perangkat lunak. Perangkat keras yang dibutuhkan adalah PC, dan dua buah camera (camera external dan oral camera). Dari hasil survey dan kondisi yang ada, dalam penelitian ini digunakan perangkat keras: - Laptop DEL Inspiron mini 10, Processor N270 160GHZ - PC camera Dengan spesifikasi: Video format 1224 bit RGB, Resolution max 1280x1024. Gambar camera yang digunakan dapat dilihat pada gambar 2.
Gambar 2, PC Web Camera Sedangkan perangkat lunak yang digunakan dalam penelitian: - Sistem operasi Windows XP. - Software pemrograman MATLAB - Photo shop Gambaran sistem yang akan dikembangkan dapat dilihat pada Gambar 3. Pergerakan/perubahan bentuk mulut ketika mengucapkan suatu kata-kata tertentu direkam melalui microcamera. Hasil perekaman sekian banyak jenis vocal dari sejumlah relawan disimpan dalam data base. Kemudian signal image hasil perekaman di-ekstrak feature khas nya. Selanjutnya akan dibangun sistem image recognition untuk mengenali suatu gambar berkorelasi dengan suatu ucapan vocal tertentu. Microcamera
Signal Conditioning
Signal/image Extraction
Gambar 3, Rancangan sistem secara global B-147
Image recognition
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
Gambar 4, Model penempatan camera untuk pengambilan data
ISSN: 1979-911X
Gambar 5, Contoh data dari PC Camera
Setelah data direkam, selanjutnya akan dilakukan pengolahan citra. Langkah langkah yang dilakukan dalam pengolahan citra dapat digambarkan sebagai flow chart pada gambar 6. Microcamera ditempatkan di depan mulut, tepatnya di depan bibir, diifungsikan untuk mendeteksi bentuk perubahan bibir/mulut dari luar. Sebagaimana telah disinggung di atas ada empat orang relawan, yang melafalkan E, A, O, U, dan I. Masing masing diulang sebanyak 3 kali. Contoh gambar hasil pengambilan data pelafalan E, A, O dari PC Camera dapat dilihat pada Gambar 5. Tahap Pre Processing dan feature Extraction, tahap Pre-processing merupakan suatu tahapan pengolahan citra yang terdiri dari cropping, pengubahan citra warna RGB menjadi gray, penyesuaian ukuran matriks/citra, dan peningkatan kualialitas dari citra. Tahap selanjutnya citra akan di extract feature nya menggunakan metode deteksi tepi. Contoh citra hasil pengolahan preprocessing dan feature extraction nya, per tahap dapat dilihat pada Gambar 7dan Gambar 8. Tahapan dimulai dari citra asli yang didapatkan dari camera dipotong agar focus pada bentuk bibir/mulut. Setelah dipotong citra yang didapatkan diubah ke bentuk gray scale. Selanjutnya pada citra tersebut dilakukan perbaikan kualitas dengan peningkatan intensitasnya. Agar memudahkan dalam pengolahan MATLAB, pada tahap berikutnya ukuran citra / matriks diseragamkan.
Gambar 6, Flow chart sistem B-148
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
ISSN: 1979-911X
Gambar 7, Proses pengolahan citra ckamera eksternal
Gambar 7, Proses pengolahan citra ckamera internal PEMBAHASAN Setelah citra diambil feature khasnya, selanjutnya data data ini akan diolah dalam pattern recognition. Tahap ini akan mengenali pola citra yang bersesuaian dengan lafal vocal tertentu. Pada paper ini metode yang digunakan untuk pengenalan adalah Artificial Neural Network-ANN (Jaringan Syaraf tiruan-JST). Sebelum system digunakan untuk mengenali pola, pada JST harus dilakukan pembelajaran terlebih dulu. Setelah sistem memahami pola dari citra barulah system akan digunakan untuk pengenalan pola yang sesungguhnya. Oleh karena itu data citra yang telah direkam dikelompokkan menjadi dua kelompok, yakni satu kelompok sebagai media pembelajaran (training set), dan kelompok yang lain akan digunakan untuk test/uji unjuk kerja system. Dari 60 data gambar diambil
B-149
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
ISSN: 1979-911X
20 data untuk media pembelajaran (training set). Unjuk kerja pengenalan vokal A dapat dilihat pada Gambar 8.
Gambar 8. Unjuk kerja pengenalan vocal A Di dalam paper ini disajikan dua macam pengenalan, yakni pengenalan lafal A terhadap lafal lain dari ke empat relawan, dan pengenalan ke lima lafal A,I,E,O,U dari ke-empat relawan. Untuk pengenalan lafal A terhadap lafal lain dari keempat relawan dirancang JST empat layer yakni: input layer, dua buah hidden layer serta outpu layer. Jumlah neuron pada masing masing layer: Input layer = jumlah pixel dari citra (250 x 350) Hidden layer 1 = 8 neuron Hidden Layer 2 = 4 neuron Output layer = 1 neuron Sedangkan fungsi atktifasi yang digunakan Hidden layer 1 = tansig Hidden layer 2 = logsig Output layer = purelin Parameter yang digunakan untuk training set adalah: net.trainParam.goal = 0.0001; % Sum-squared error goal. net.trainParam.epochs = 2000; % Maximum number of epochs to train. net.trainParam.Ir = 0.01; % Momentum constant. Sementara itu perancangan JST untuk pengenalan lafal A,I,E,O,U sedikit berbeda dari pengenalan lafal A. Perbedaanya terletak pada jumlah neuron pada output. Neuron pada out layer berjumlah 5. Hal ini karena menyesuaikan jumlah keluaran yakni 5 (A,I,E,O,U). Sedangkan fungsi aktifasi yang digunakan sama dengan sebelumnya. Unjuk kerja pengenalan vocal A,I,E,O,U terlihat pada gambar 9.
Gambar 9. Unjuk kerja pengenalan vocal A,I,U,E,O B-150
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
ISSN: 1979-911X
Setelah menyelesaikan pembelajaran, selanjutnya JST digunakan untuk mengenali pola yang sesungguhnya. Dari hasil tabel 1 nampak ada 13 ketidakbenaran pengenalan dari total 60 citra. Dengan demikian validitas dari system = (47/60) x 100 % = 78,33 %. Sementara itu dengan cara yang sama, pengenalan terhadap lafal AIEOU dari ke empat relawan juga telah dilakukan. Akan tetapi hasil validitas pengenalanya menurun dibandingkan dengan pengenalan sebelumnya, yakni 46,6 %. Hal ini sangat mungkin diakibatakan dari kualitas gambar perekaman. Perbedaan pencahayaan, sudut pengambilan gambar, jarak obyek dari camera sangat besar pengaruhnya terhadap validitas hasil pengenalan. Tabel 1. Hasil Pengenalan vocal masing-masing relawan
KESIMPULAN Dari uraian di atas dapat disimpulkan bahwa sebelum dilakukan ekstraksi feature, citra yang didapat perlu diolah dalam tahap pre processing terlebih dahulu (cropping, pengubahan RGB ke Gray, peningkatan kwalitas, dan pengaturan ukuran matriks). Hal ini dimaksudkan untuk memudahkan pengambilan feature dari masing masing citra. Pengenalan telah dilakukan, dari hasil pengujian menunjukkan saat pengenalan lafal A dari seluruh relawan mempunyai validitas kebenaran 78,33%. Sementara itu pengenalan untuk kelima lafal AIEOU dari seluruh relawan mempunyai validitas 46,6 %. Hal ini kemungkinan diakibatkan oleh factor perekaman citra. Baik pencahayaan yang tidak sama antara data yang satu dengan data yang lain, jarak antara kamera dengan obyek, focus camera, maupun sudut ketika pengambilan gambar. DAFTAR PUSTAKA [1.] Nury Nusdwinuringtyas, 2009, Tanpi pita suara: bicara kembali, Blog spot, Februari, [2.] American Cancer Society. -2002 Cancer facts and figures [3.] Http://dribrook.blogspot.com/p/urgent-care-and-cpr-of-laryngectomees.html , Jan 2012 [4.] Tantra, Tri arief sardjono, 2009, Design of low cost electro larynx, Tugas Akhir Electro ITS B-151
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III Yogyakarta, 3 November 2012
[5.]
[6.] [7.] [8.]
[9.]
ISSN: 1979-911X
Fellbaum, K, 1999, Human-Human Communication and Human-Computer, Interaction by Voice. Lecture on the Seminar "Human Aspects of Telecommunications for Disabled and Older People". Donostia (Spain), 11 June http://id.shvoong.com/exact-sciences/physics/1803946-pengolahan-citra-image-processing/ (17 april 2010) Tri Arief Sardjono, 2009, Voice spectrum analyzes of laryngectomies patients Fatchul Arifin, Tri Arief, Hery Mauridhy, 2010, Electro Laring, Esophagus, and Normal Speech Classification, International Confernce on Green Computing-AUN/SEED-Net Andy Noortjahja, Tri Arief, Hery Mauridhy. 2010, Filtering of normal and laryngectomies patiens using ANFIS, International Confernce on Green Computing-AUN/SEED-Net
B-152