Identifikasi suara ucap berbasis fitur non-akustik dengan menggunakan jaringan syaraf tiruan Muhammad Ambarjati(1), Bambang L Widjiantoro(2), Andi Rahmadiasah(3) (1)(2)(3)
Jurusan Teknik Fisika – Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya
[email protected],
[email protected]
Abstrak— Telah dilakukan studi mengenai pengenalan suara
suara ucap semacam ini disebut sebagai sistem sistem produksi suara ucap akustik. Alternatif komunikasi yang bisa dilakukan untuk menjaga kerahaisan diantara dua orang dan tidak bergantung pada penggunaan sinyal suara adalah dengan menggunakan suara ucap yang dapat dilakukan dengan mengukur perubahan kapasitansi otot akibat pergerakan organ artikulatori . Metode pengenalan suara semacam ini memanfaatkan fitur non akustik. Berdasarkan latar Belakang yang telah dijelaskan diatas, maka pada tugas akhir ini difokuskan pada dua hal yaitu kerahasiaan dan metode alternatif komunikasi non akustik. Metode yang akan digunakan pada tugas akhir ini akan diujicoba terhadap aktivitas organ artikulatori khususnya rahang.
ucap berbasis fitur non-akustik dengan menggunakan jaringan syaraf tiruan back propagation. Data yang digunakan berupa sinyal yang dihasilkan oleh perbedaan kapasitansi organ artikulator dibawah rahang bawah ketika berbicara tanpa suara. Data yang didapat kemudian diolah dengan menggunakan transformasi wavelet diskrit (DWT) yang menghasilkan delapan sinyal dekomposisi. Sinyal hasil dekomposisi kemudian diekstrasi fitur untuk mendapatkan input jaringan syaraf tiruan. Hasil identifikasi dengan jaringan syaraf tiruan mampu mengenali 14 kata dari 19 kata maju yang diidentifikasi atau sebesar 73,68%, dan mampu mengenali 13 kata dari 20 kata mundur yang diidentifikasi atau sebesar 65 %.
STUDI LITERATUR
Keywords— JST, Suara ucap, artikulatori, wavelet.
PENDAHULUAN A. PROSES PRODUKS I S UAR A Komunikasi di antara manusia dengan manusia dan manusia dengan mesin dapat dilakukan dengan banyak cara. Pada faktanya informasi visual dan verbal lebih banyak digunakan. Usaha untuk melakukan automasi kamunikasi diantara manusia dengan manusia dilakukan dengan alat komunikasi berdasarkan suara. Bagaimanapun, strategi komunikasi dengan suara memiliki ketidak-leluasaan dalam berkomunikasi. Ketidak-leluasaan itu seperti sangat sensitif pada ambient noise, syarat yang layak untuk pembentukan dan pengucapan kata, dan kesamaan bahasa. Keterbatasan fisik dalam menghasilkan suara juga akan menjadi kendala, seperti dilingkungan yang tidak memungkinkan misalnya didalam air ataupun lingkungan yang padat dan bising. Disamping itu komunikasi dengan suara tidak memungkinkan untuk digunakan dalam komunikasi yang bersifat privat dan memiliki kebisingan latar yang sangat keras seperti dalam situasi operasi militer atau perang yang memang sangat membutuhkan kerahasiaan informasi[1] Sistem produksi suara ucap pada manusia berawal dari udara yang dikompresi oleh paru-paru yang kemudian melewati vocal cord. Untuk menghasilkan bunyi sesuai dengan bentuk vocal cord. Setelah melewati vocal cord udara melewati vocal track hingga bagian bibir. Bagian vocal track inilah yang menentukan perbedaan suara antara manusia. Sistem produksi
Suara adalah sebuah sinyal yang merambat melalui media perantara. Suara dapat dihantarkan dengan media air, udara, maupun benda padat. Dengan kata lain Suara adalah gelombang yang merambat dengan dengan frekuensi dan amplitudo tertentu. Suara yang dapat didengar oleh manusia berkisar antara 20 Hz sampai dengan 20 KHz, dimana Hz adalah satuan frekuensi yang artinya banyaknya getaran per detik. Perlengkapan produksi suara terdapat pada gambar 2.1 yang secara garis besar terdiri dari jalur suara (vocal track), dan jalur hidung (nasal track). Jalur suara dimulai dari pita suara (vocal cords), celah suara (glottis), dan berakhir pada bibir. Jalur hidung dimulai dari belakang langit – langit (velum) dan berakhir pada cuping hidung (nostrils). Proses menghasilkan suara dimulai dari udara masuk ke paru – paru melalui pernapasan, kemudian melalui trakea, udara masuk ke batang tenggorokan dimana didalam batang tenggorokan ini terdapat pita suara. Pita suara ini kemudian bergetar dengan frekuensi tertentu karena adanya aliran udara tersebut sehingga dihasilkan suara. Suara yang dihasilkan ini berbeda – beda bergantung pada posisi lidah, bibir, mulut, langit- langit pada saat itu.
1
(2) jቧ
-j
Parameter a dan b didefinisikan sebagai a = 2 ,b= 2 k. Persamaan invers dapat dituliskan sebagai, (3)
Jika framebound persamaan A=B=1, maka transformasi ini adalah ortogonal. Wavelet dapat dikontruksi dari analisis multiresolusi yang akan didiskusikan selanjutnya. WT dapat diasumsikan sebagai bagian dari FT klasik, akan tetapi analisa yang dilakukan tidak dalam satu dimensi saja (frekuensi atau waktu). Analisa dengan WT dilakukan dalam basis multi dimensi. Sehingga dapat dilakukan suatu dekomposisi pada suatu sinyal dalam beberapa tahap/level, yang mana tiap tahap merepresentasikan suatu informasi yang terkandung dalam suatu sinyal. Secara skematis tahapan untuk melakukan multiresolution decomposition dapat dilihat melalui Gambar 3
Gambar 1 Organ pembentuk suara manusia
B. DISCRETE WAVE LE TE TR ANSFORM (DWT) Kata wavelet berarti sebuah gelombang kecil. Kecil merujuk kepada kondisi jika fungsi jendela merupakan panjang terbatas (compactly supported). Gelombang merujuk pada kondisi bahwa fungsi ini oscillatory. Sedangkan kata mother merujuk pada fungsi dengan daerah berbeda yang digunakan pada proses transformasi yang diturunkan dari sebuah dungsi utama, atau mother wavelet. Dengan kata lain, mother wavelet ialah prototipe untuk membangkitkan fungsi jendela lainnya. Contoh mother wavelet dapat dilihat pada gambar berikut.
. Gambar 3. Penerapan dekomposisi pada DWT; g[n] merupakan HPF; h[n] merupakan LPF
Proses dekomposisi dapat berulang dengan koefisienkoefisien aproksimasi terbaru yang terus di-dekomposisi sehingga satu sinyal dapat didekomposisi hingga banyak komponen resolusi. Secara teori, pengulangan ini dapat diteruskan tanpa batas. Namun dalam kenyataannya, proses dekomposisi hanya dapat berlangsung hingga masing-masing detail mengandung sebuah sampel dari sinyal terdekomposisi saja. Pada prakteknya, penentuan level dekomposisi dapat didasarkan pada kebutuhan dan sifat-sifat alami sinyal.
Gambar 2. Beberapa keluarga wavelet
Proses perhitungan koefisien-koefisien wavelet pada setiap skala yang memungkinkan merupakan sebuah pekerjaan yang berat dan hal ini menghasilkan data yang terlalu banyak. Dari hal ini, dimunculkan sebuah metode untuk memilih skala dan posisi berdasarkan powers of two yang juga disebut skala dan posisi dyadic, maka analisis yang dihasilkan akan lebih efisien dan akurat. Diketahui sebuah fungsi f(n) dan definisi DWT dapat dipenuhi dengan, (1)
Dimana
Gambar 4. Filtering pada dekomposisi wavelet
ialah wavelet diskrit sebagaimana,
Seluruh hasil dari WT dapat didefinisikan sebagai keluaran dari low pass filter (LPF), h.
2
C. JARINGAN SYARAF TIRUAN Seperti halnya model Jaringan Saraf Tiruan yang lain, Backpropagation melatih jaringan untuk mendapatkan keseimbangan antara kemampuan jaringan untuk mengenali pola yang digunakan selama pelatihan serta kemampuan jaringan untuk memberikan respon yang benar terhadap pola masukkan yang serupa (tapi tidak sama) dengan pola yang dipakai selama pelatihan.(Laurene Fausett, 1994) Pelatihan backpropagation meliputi tiga fase. Fase pertama adalah fase maju. Pola masukkan dihitung maju mulai dari layer masukkan hingga layer keluaran menggunakan fungsi aktifasi yang ditentukan. Fase kedua adalah fase mundur. Selisih antara keluaran jaringan dengan target yang diinginkan merupakan kesalahan yang terjadi. Kesalahan tersebut dipropagasi mundur, dimulai dari garis yang berhubungan langsung dengan unit – unit dilayer keluaran. Fase ketiga adalah modifikasi bobot untuk menurunkan kesalahan yang terjadi. Fase 1 : Propagasi maju Selama propagasi maju, sinyal masukkan (xi)dipropagasikan ke layer tersembunyi menggunakan fungsi aktifasi yang ditentukan. Keluaran dari setiap unit layer tersembunyi (zj) tersebut selanjutnya dipropagasikan maju lagi ke layer tersembunyi diatasnya menggunakan fungsi aktifasi yang ditentukan. Demikian seterusnya hingga menghasilkan keluaran jaringan (yk). Berikutnya, keluaran jaringan (yk) dibandingkan dengan terget yang harus dicapai (tk). Selisih tk-yk adalah kesalahan yang terjadi. Jika kesalahan ini lebih kecil dari batas toleransi yang ditentukan, maka iterasi dihentikan. Akan tetapi apabila kesalahan masih lebih besar dari batas toleransinya, maka bobot setiap garis dalam jaringan akan dimodifikasi untuk mengurangi kesalahan yang terjadi. Fase 2 : Propagasi mundur Berdasarkan kesalahan tk-yk, dihitung faktor k (k = 1,2,...,m) yang dipakai untuk mendistribusikan kesalahan diunit yk kesemua unit tersembunyi yang terhubung langsung dengan yk . k juga dipakai untuk mengubah bobot garis yang berhubungan langsung dengan unit keluaran. Dengan cara yang sama, dihitung faktor j disetiap unit
contoh, perubahan bobot garis yang menuju ke layer keluaran didasarkan atas k yang ada di unit keluaran. Ketiga fase tersebut diulang – ulang terus hingga kondisi penghentian dipenuhi. Umumnya kondisi penghentian yang sering dipakai adalah jumlah iterasi atau kesalahan. Iterasi akan dihentikan jika jumlah iterasi yang dilakukan sudah melebihi jumlah maksimum iterasi yang ditetapkan, atau jika kesalahan yang terjadi sudah lebih kecil dari batas toleransi yang diijinkan. (J.J. Siang, 2005) METODOLOGI PENE LITIAN Tahapan-tahapan yang dilakukan dalam penelitian ini adalah sebagai berikut :
Gambar 5. Skema metodologi perancangan
dilayer tersembunyi sebagai dasar perubahan bobot semua garis yang berasal dari unit tersembunyi dilayer bawahnya. Demikian seterusnya hingga semua faktor diunit tersembunyi yang berhubungan langsung dengan unit masukan dihitung. Fase 3 : Perubahan bobot Setelah semua faktor dihitung, bobot semua garis dimodifikasi bersamaan. Perubahan bobot suatu garis didasarkan atas faktor neuron dilayer atasnya. Sebagai
A. PEMBANGKITAN DATA INPUT
Tahapan-tahapan dalam pembangkitan data input adalah sebagai berikut a. Pengambilan dan perekaman data Data rekaman EEG yang digunakan dalam penelitian tugas akhir ini diperoleh dari perekaman yang dilakukan di Klinik Parahita. Data dalam tugas akhir ini dilakukan di Klinik Parahita dengan menggunakan alat EEG. Dimana spesifikasi EEG yang digunakan untuk pengukuran adalah sebagai berikut :
3
Data hasil rekaman kemudian dengan menggunakan software itu data dipotong berdasarkan suku kata yang diucapkan dalam perekaman yaitu kata maju dan mundur. Pemotongan dilakukan berdasarkan panjangnya waktu perekaman untuk perkata.Dalam waktu pemotongan sinyal digunakan data video yang direkam secara bersamaan dengan pengambilan data EEG untuk mendapatkan sinkronisasi event pengucapan naracoba dengan data EEG. Data dengan format ”.xls” inilah yang kemudian dipanggil dengan meggunakan matlab dengan dan disimpan sesuai dengan nama kata yang direkam oleh data tersebut, dengan format ”.mat”.
Merk : Compu Medic Frekuensi sampling 512 Hz 32 Channel Dalam eksperimen ini dilakukan perekaman sinyal yang dihasilkan karena perbedaan kapasitansi aktifitas organ artikulatori dibawah rahang bawah dari satu orang naracoba dengan jenis kelamin laki-laki dan umur 19 tahun. Aturan dalam melakukan perekaman adalah sebagai berikut : Dilakukan di tempat yang sepi dan tenang. Sensor pada elektrode EEG diletakkan didaerah bawah rahang depan dan sebuah channel referensi diletakkan pada daun telinga bagian bawah. Sebelum melakukan pengambilan data, naracoba diminta untuk menelan ludah sebanyak lima kali. Kemudian diminta untuk tenang selama 10 detik. Naracoba diminta untuk mengucapkan kata maju tanpa mengeluarkan suara sebanyak sepuluh kali, dimana untuk pengucapan antara kata maju yang satu dengan kata maju setelahnya ada jeda 0,5 detik. Naracoba diminta untuk mengucapkan kata mundur tanpa mengeluarkan suara sebanyak sepuluh kali, dimana untuk pengucapan antara kata mundur yang satu dengan kata mundur setelahnya ada jeda 0,5 detik. Naracoba diminta mengucapkan kata maju dan mundur secara bergantian masing – masing sebanyak sepuluh kali. Dengan menggunakan data video yang direkam secara bersamaan dengan pengambilan data EEG, didapatkan sinkronisasi event pengucapan naracoba dengan data EEG
.
Gambar 7. Sinyal EEG untuk pengucapan kata mundur
c. Normalisasi Data Sebuah cara normalisasi yang paling umum adalah dengan memposisikan data tepat berada ditengah rataan nolnya dan menskalanya berdasarkan standar deviasinya[9]. Persamaan normalisasi dapat dituliskan :
b
b. Konversi data perekaman EEG
(a mean (a )) std (a )
(10)
Dengan a adalah sinyal asli dan b adalah sinyal normalisasi.
Data perekaman yang diperoleh masih berbentuk data .raw yang belum bisa dibaca oleh matlab dan belum terpisahkan setiap datanya. Sehingga diperlukan sebuah tahapan untuk mengkonversi dan melakukan segmentasi data menjadi ”.mat”. Pada awalnya data hasil rekaman dibuka dengan menggunakan software Persys. Berikut ini tampilan dari sinyal kata maju dalam software persys seperti pada gambar 6 dibawah.
B. TAHAP PRA PROSES Tahapan-tahapan dalam pra proses ini ada dua yaitu : dekomposisi dengan menggunakan DWT dan ekstraksi fitur a. Dekomposisi Wavelet Dalam proses DWT ini sinyal hasil normalisasi kemudian didekomposisi dengan menggunakan dekomposisi tujuh level. Dengan dilakukan proses dekomposisi ini diharapkan akan didapat koefisiean aproksimasi dan koefisien detail. Kedelapan komponen tersebut yaitu koefisien detail 1 (cD1), koefisien detail 2 (cD2), koefisien detail 3 (cD3), koefisien detail 4 (cD4), koefisien detail 5 (cD5), koefisien detail 6 (cD6), koefisien detail 7 (cD7), dan koefisien aproksimasi 7 (cA7). b.
Ekstraksi Fitur Ekstraksi fitur ini diterapkan pada delapan koefisien hasil dekomposisi. Fitur yang akan diekstrak adalah mean, standar deviasi, nilai maksimum, dan nilai minimum. Sehingga
Gambar 6. Sinyal EEG untuk pengucapan kata maju
4
Tabel 1. Ekstraksi fitur koefisien dekomposisi kata maju1
dari hasil ekstraksi fitur ini didapatkan matrik yang berukuran sama yaitu [4x8]. Dari hasil ekstraksi fitur inilah yang kemudian akan dijadikan sebagai inputan untuk jaringan syaraf tiruan. Untuk menghitung ekstrasi fitur dapat dilakukan dengan menggunakan persamaan dibawah ini : C. TAHAP PROSES a. Membangun Arsitek Jaringan Syaraf Tiruan. Arsitektur jaringan syaraf tiruan yang digunakan dalam tugas akhir ini adalah dengan menggunakan algoritma pembelajaran back propagation. Arsitekturnya adalah dengan menggunakan 4 layer, yaitu 1 layer input yang terdiri dari 4 node, 2 hidden layer yang masing – masing terdiri dari 5 dan 6 node, dan 1 layer output yang terdiri dari 1 node.
Maksimum
Minimum
Mean
Standar Deviasi
cD1
0.21021624
-0.17252384
-4.854E-05
0.0594999
cD2
0.55350518
-0.56737123
0.00225952
0.202629354
cD3
0.71954324
-0.84290012
-0.01760071
0.372108694
cD4
2.05780331
-1.22830465
0.04548863
0.744264195
cD5
2.06562379
-1.04386836
0.12796956
0.687346429
cD6
3.01217373
-3.17631837
-0.00437565
1.599509928
cD7
2.04951467
-3.03092948
0.09068084
1.489353387
cA7
11.1375246
-23.5119797
-3.54558138
9.566686954
Tabel 2. Ekstraksi fitur koefisien dekomposisi kata mundur5
Gambar 7. Arsitektur Jaringan Syaraf Tiruan
Maksimum
Minimum
Mean
Standar Deviasi
cD1
0.15515738
-0.12869807
-0.00022119
0.049385398
cD2
0.63886218
-0.45552684
0.00088456
0.199680326
cD3
0.82268469
-0.75916742
-0.004138
0.316264682
cD4
1.15197198
-1.05039305
-0.09581535
0.456839895
cD5
2.27396885
-1.31225957
0.06663922
0.729753774
cD6
2.83180426
-2.84294767
0.08650715
1.464354014
cD7
6.27951506
-5.34700339
0.19125193
3.514597507
cA7
13.4047692
-14.8319774
2.12470432
7.21841113
B. TRAINING JST Karena bobot awal training adalah random maka saat dilakukan training lagi (tanpa adanya perubahan konstruksi JST) akan didapat bobot training yang berbeda, sehingga hasil yang didapat pun akan berbeda pula. Dalam training untuk kata maju ini ditentukan targetnya adalah matrik T=[1 1 1 1 1 1 1 0]. Dalam training untuk kata maju ini ditentukan targetnya adalah matrik T=[0 0 0 0 0 0 0 1].
b.
Melakukan training jaringan syaraf tiruan Setelah arsitektur jaringan syaraf tiruan terbentuk, langkah selanjutnya adalah melakukan training pada jaringan syaraf tiruan untuk masing-masing sinyal kata yang akan diuji yaitu kata maju dan mundur. Dari training ini kemudian mendapatkan bobot akhir yang akan dijadikan sebagai bobot untuk proses identifikasi. c. Melakukan Identifikasi Identifikasi kata maju dan mundur dilakukan dengan menggunakan jaringan syaraf tiruan yang sama dengan jaringan syaraf tiruan buat training dengan bobot yang digunakan adalah bobot akhir hasil dari training.
C. HASIL IDENTIFIKASI
Tabel 3 Hasil Identifikasi Kata Maju No 1 2 3 4 5 6 7
ANALIS A DAN PEMBAHAS AN A. EKSTRAKSI FITUR Hasil ekstraksi fitur memiliki dimensi matriks [8 x 4]. Berikut akan dipaparkan contoh proses ekstraksi fitur pada sinyal kata maju1 dan mundur5 yang masing-masing mewakili kata maju dan kata mundur.
5
Input Maju12 Maju13 Maju14 Maju15 Maju16 Maju17 Maju18
Error 0.0137 0.0373 0.0167 0.0242 0.0157 0.3116 0.3116
Keputusan Dikenali Dikenali Dikenali Dikenali Dikenali Tidak Dikenali Tidak Dikenali
No 8 9 10 11 12 13 14 15 16 17 18 19
Input Maju19 Maju21 Maju22 Maju23 Maju24 Maju25 Maju26 Maju27 Maju28 Maju29 Maju30 Maju31
Error 0.3505 0.0139 0.0108 0.0629 0.0546 0.0396 0.0470 0.1811 0.3372 0.3546 0.0137 0.0167
20
Keputusan Tidak Dikenali Dikenali Dikenali Dikenali Dikenali Dikenali Dikenali Dikenali Tidak Dikenali Tidak Dikenali Dikenali Dikenali
1. 2. 3. 4. 5.
6.
7.
8.
Tabel 4 Hasil Identifikasi Kata Mundur Input Mundur11 Mundur12 Mundur13 Mundur14 Mundur15 Mundur16 Mundur17 Mundur18 Mundur19 Mundur20 Mundur21 Mundur22 Mundur23 Mundur24 Mundur25 Mundur26 Mundur27 Mundur28 Mundur29
Error 0.0371 0.0394 0.3652 0.0202 0.0111 0.2403 0.0651 0.3513 0.3360 0.0190 0.7000 0.0400 0.0812 0.0165 0.0165 0.3340 0.0654 0.0111 0.340
0.0163
Dikenali
DAFTAR PUSTAKA
Dari hasil identifikasi terhadap kata maju didapatkan hasil bahwa sistem hanya mampu mengenali kata maju sebesar 14 kata dari 19 kata maju yang diidentifikasi. Presentase tingkat keberhasilan sistem dalam mengenali kata maju sebesar 73,68%. Sedangkan Dari hasil identifikasi terhadap kata mundur didapatkan hasil bahwa sistem hanya mampu mengenali kata mundur sebesar 13 kata dari 20 kata mundur yang diidentifikasi. Presentase tingkat keberhasilan sistem dalam mengenali kata mundur sebesar 65%. Adapun tabelnya adalah sebagai berikut.
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Mundur30
Keputusan Dikenali Dikenali Tidak Dikenali Dikenali Dikenali Tidak Dikenali Dikenali Tidak Dikenali Tidak Dikenali Dikenali Tidak Dikenali Dikenali Dikenali Dikenali Dikenali Tidak Dikenali Dikenali Dikenali Tidak Dikenali
9.
Jorgensen, Chuck; Binstek, Kim : Web Browser Control Using EMG Based Sub Vocal Speech Recognition Gordan, Cornelia : EEG Signal Processing Using Wavelet: Rumania : University of Oradea Arman, Akhmad, : Proses Pembentukan Dan KarakteristikSinyal Ucapan. Bandung : Teknik Elektro ITB Gunawan, Adi : Mekanisme dan Mekanika Pergerakan Otot. Qureshi, Shehrzad. 2005. Embedded Image Processing on the TMS320C6000tm DSP. California: Springer Science and Business Media Adiputra, Andrew. 2008. Identifikasi Kelainan Otak Jenis Epilepsi melalui Sinyal Electroencephalogram (EEG) dengan Metode Neuro Fuzzy. Surabaya: Jurusan Teknik Fisika ITS Roddlin Billah, Muhammaad. 2009. Identifikasi Perubahan Segmen ST Sinyal keluaran ECG Menggunakan Transformasi Wavelet . Surabaya: Jurusan Teknik Fisika ITS Novak, Daniel et.al. 2008. Denoising Electrocardiogram Signal Using Adaptive Wavelets (extended abstract). Czech: Czech Technical University Oppenheim G. et.al. 2001. Wavelet Toolbox User’s Guide. Massachusetts: The MathWorks, Inc. BIO DATA PENULIS: Nama : Mochamad Ambarjati NRP : 2403100019 TTL : Ponorogo, 10 Maret 1985 Alamat : Gebang Roda Sekolah No. 6 Riwayat Pendidikan : SDN Simo I SLTPN 1 Slahung SMAN 2 Ponorogo Teknik Físika ITS
6