1
Peningkatan Kualitas Sinyal Suara (Speech Intelligibility) Berbahasa Indonesia pada Cochlear Implant Nuryani, Dhany Arifianto Jurusan Teknik Fisika, Fakultas Teknologi Industri, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 E-mail:
[email protected]
Abstrak— Cochlear implant merupakan suatu alat bantu pendengaran yang ditanam di kulit belakang telinga yang biasa digunakan oleh orang-orang tuna rungu. Namun, tingkat kejelasan suara yang didengar oleh pengguna akan rendah jika cochlear implant digunakan di tempat-tempat ramai dimana banyak derau latar fluktuatif dalam hal ini adalah suara percakapan lain. Oleh karena itu perlu adanya peningkatan kualitas suara (speech intelligibility) pada cochlear implant dengan mengolah suara asli (target) dan derau latar (masker) ke saluran vocoder untuk mensimulasikan perangkat cochlear implant sesuai dengan jumlah elektroda yang diaktifkan. Untuk menguji hipotesa tersebut dilakukan 2 pengujian. Pengujian I ke responden dilakukan untuk mengetahui channel yang diaktifkan di cochlear implant sebelum selanjutnya diolah menggunakan algoritma signal enhancement. Dari pengujian I, diperoleh hasil pada kanal 12-2 diperoleh score tertinggi dengan diotically headphones. Pengujian II dilakukan untuk menentukan metode signal enhancement terbaik sehingga dapat meningkatkan speech intelligibility. Dalam pengujian II kanal 20-20 memperoleh score tertinggi. Pada penelitian ini digunakan 3 algoritma yaitu Minimal Mean Squared Error Spectral Estimation (MMSE), MMSE Short Time Spectral Amplitude (STSA) dan Spectral Subtraction (SS). Hasil penelitian menunjukkan bahwa metode SS merupakan metode signal enhancement terbaik dibanding MMSE, dan MMSESTSA dengan nilai PESQ 3,68, SNR 10,4, SegSNR 9,8 dan nilai MSE 3,8x10-3. Kata Kunci— Cochlear Implant, Signal Enhancement, Speech Intelligibility, Stimuli.
I. PENDAHULUAN alam kehidupan sosial masyarakat, kita tidak mungkin lepas dalam hal berkomunikasi dengan orang lain. Namun informasi dalam komunikasi itu tidak akan tersampaikan jika pendengaran kita terganggu apalagi sampai tuna rungu. Dengan kemajuan teknologi, diciptakanlah alat bantu dengar yang berusaha mengurangi bahkan menghilangkan noise yang ada [1]. Dengan alat bantu dengar, dapat menganalisa sinyal yang masuk dan membedakannya dengan suara noise. Bahkan, untuk para penderita tuna rungu dapat juga mendengarkan suara dengan bantuan cochlear implant yang merupakan alat bantu pendengaran yang ditanam pada telinga bagian dalam dan dirancang untuk menghasilkan sensasi pendengaran dengan menggunakan rangsangan listrik pada syaraf pendengaran (outer and inner hair cells). Namun alat ini mempunyai kelemahan jika digunakan pada ruangan atau lingkungan yang bising, oleh karena itu perlu adanya pengolahan sinyal suara yang baik agar dapat digunakan dalam kondisi tersebut.
D
Ketika suara dari orang lain yang akan di dengarkan oleh pengguna cochlear implant (target), suara tersebut akan tercampur oleh suara lain (masker), sehingga suara yang terdengar akan bertumpukan. Hal tersebut akan menyebabkan tingkat kejelasan (intelligibility) dari pengguna/target akan berkurang atau rendah. Rujukan [2] telah melakukan penelitian mengenai efek dari 3 algoritma yaitu spectral subtraction, minimal mean squared error spectral estimation, dan subspace analys dengan menggunakan 2 tipe noise yakni car dan babble dengan variasi nilai SNR. Dan hasilnya menunjukkan bahwa tidak ada penurunan maupun peningkatan intelligibility score yang besar pada perbedaan SNR, sehingga dapat dikatakan tidak ada interaksi antara penekanan noise dan SNR. Sedangkan penelitian rujukan [3] mencoba menghilangkan “musical noise” dengan menggunakan block tresholding estimation melalui evaluasi objective dan subjective [3]. Dan penelitian terbaru [4] menggunakan time frequency masking untuk meningkatkan performansi speech understanding pada pengguna cochlear implant. Dalam penelitian sebelumnya [5], responden kurang memahami stimuli target (pengguna cochlear implant) pada campuran stimuli hal ini dikarenakan stimuli target kurang dominan daripada stimuli masker (suara percakapan lainnya). Pada penelitian tersebut hanya dilakukan evaluasi subjective sehingga didapatkan mean opinion score (MOS) dan hanya untuk menilai kualitas audio, bukan untuk mengetahui tingkat kejelasan suaranya. Dalam penelitian yang lain [6], digunakan stimuli berbahasa Inggris, sehingga jumlah responden (populasi sample) kurang. Dalam penelitian ini, akan dilakukan pencampuran stimuli dengan stimuli target yang lebih dominan, dimana stimuli yang digunakan berbahasa Indonesia dan dilakukan juga penghitungan % correct word dan penentuan intelligibility hasil dari pengujian stimuli kepada responden. Selain itu akan dihitung juga nilai perbandingan input (suara asli) dengan hasil pengolahan menggunakan algoritma PESQ. Melalui penelitian ini diharapkan nantinya dapat meningkatkan kualitas suara pada cochlear implant.
II.
METODE PENELITIAN
2 A. Pembuatan Database Suara Database suara yang digunakan adalah hasil perekaman suara di ruang kedap suara dengan menggunakan kalimat ber-Bahasa Indonesia. Database ini terdiri atas suara lakilaki dan suara perempuan sebanyak 500 kalimat dengan frekuensi sampling 44,1 kHz. Pada saat perekaman digunakan microphone Shure SM58 yang terhubung dengan E-MU 0404. 2 orang yang direkam suaranya tersebut direkam pada saat yang berbeda dengan kalimat yang sama. Contoh beberapa kalimat yang harus mereka ucapkan antara lain sebagai berikut: /P-e-r-t-a-n-d-i-n-g-a-n-s-e-p-a-k-b-o-l-a-a-k-a-n-d-i-ge-l-a-r-d-i-l-a-p-a-n-g-a-n-k-e-c-a-m-a-t-a-n/ /P-e-r-a-w-a-t-s-e-d-a-n-g-m-e-m-b-a-n-t-u-d-o-k-t-e-rm-e-r-a-w-a-t-p-a-s-i-e-n-j-a-n-t-u-n-g-i-t-u/ /S-i-s-w-a-s-i-s-w-a-s-e-d-a-n-g-k-e-r-j-a-b-a-k-t-i-m-em-b-e-r-s-i-h-k-a-n-s-e-k-o-l-a-h-a-n/ B. Vocoder Stimuli yang diujikan kepada responden adalah suara hasil rekaman yang diolah menggunakan software yang di downsampling menjadi 16 kHz. Dalam pembuatan stimuli ini ditentukan salah satu suara yang digunakan sebagai suara percakapan lain (masker). Suara lainnya digunakan sebagai suara asli (target). Dalam penelitian ini, stimuli akan diujikan kepada responden dengan pendengaran yang baik, sehingga perlu adanya simulasi agar stimuli yang diujikan seperti suara yang keluar dari cochlear implant, karena itu, suara yang akan dijadikan stimuli harus di-vocoder terlebih dahulu. Baik target maupun masker selanjutnya diproses ke saluran vocoder untuk mensimulasikan perangkat cochlear implant sesuai dengan jumlah elektroda yang diaktifkan yaitu dalam 2, 4, 6, 8, 12, 20 channel dengan SNR yang sama yaitu 5dB. C. Pembuatan Stimuli Setelah di-vocoder, suara target dan masker akan dikombinasi dengan beberapa kombinasi rasio seperti pada tabel 1. Baik target maupun masker yang digunakan adalah suara laki-laki. Dalam pencampuran suara ini dikelompokkan berdasarkan kombinasi channel dan dikelompokkan per-sepuluh. Hal ini dilakukan agar saat pengujian bisa dengan mudah memberikan stimuli yang berbeda tiap rasionya. Selanjutnya stimuli akan diujikan kepada responden dengan menggunakan headphone Sennheiser HD650, dimana stimuli diperdengarkan melalui laptop yang terhubung dengan E-MU 0404. D. Pengujian I Hasil pencampuran sinyal target dan masker dengan perbandingan seperti tabel 1 selanjutnya diujikan kepada responden. Masing-masing responden akan mendengarkan semua rasio di atas dimana masing-masing rasio ada 10 kalimat yang beerbeda. Responden yang digunakan untuk menguji hasil pengolahan sinyal merupakan mahasiswa Teknik Fisika dengan pendengaran yang baik sejumlah 10 orang terdiri atas laki-laki maupun perempuan yang berbeda di tiap pengujian. Hal ini dilakukan agar data yang didapatkan lebih valid, karena jika digunakan responden yang sama dan kalimat yang sama, maka responden bisa menebak stimuli dengan mudah. Jumlah keseluruhan responden perempuan dan laki-laki masing-masing sebanyak 25 orang, dengan rata-rata usia 21 tahun dan memiliki pendengaran yang baik.
Pengujian ini dilakukan 2 kali yaitu dengan mendengarkan dengan 2 telinga (diotically headphones) dan hanya dengan sebelah saja (monoaurally). Pengujian dilakukan kepada 10 responden yang berbeda dimana responden diminta untuk menuliskan kembali apa yang didengar. Dari hasil pengujian ini selanjutnya akan dihitung % correct word-nya sehingga didapatkan perbadingan channel target dan masker yang tepat dan juga untuk menentukan penggunaan headphone yang tepat antara monoaurally dan diotically. Dan juga untuk mengetahui Tabel 1. Perbandingan channel target dan masker Channel Target
Channel Masker
2 4 4 6 6 6 8 8 8 8 12 12 12 12 12 20 20 20 20 20 20
2 2 4 2 4 6 2 4 6 8 2 4 6 8 12 2 4 6 8 12 20
jumlah elektroda yang tepat yang harus diaktifkan pada cochlear implant. E. Penentuan Metode Signal Enhancement Menentukan metode signal enhancement dengan melakukan pemrosesan pada semua stimuli dengan berbagai kombinasi channel dengan menggunakan algoritma Minimal Mean Squared Error Spectral Estimation (MMSE), MMSE Short Time Spectral Amplitude (STSA) dan Spectral Subtraction (SS). Kemudian hasilnya diujikan kepada responden untuk mengetahui metode yang tepat. Dalam pemrosesan dengan beberapa metode ini, hanya kombinasi channel yang mempunyai hasil % correct word pada pengujian I yang digunakan. Hal ini dilakukan karena kombinasi channel yang score-nya kecil sudah jelas akan mempunyai score yang kecil pula dalam pengujian II. F. Pengujian II Hasil pemrosesan dengan signal enhancement selanjutnya diujikan kepada 10 responden yang berbeda dengan responden pada pengujian I. Seperti pada pengujian I, hasil pengujian kepada responden akan dihitung % correct word-nya. Dari hasil pengujian ini dapat diketahui metode signal enhancement terbaik secara subjective, namun perlu dilakukan perhitungan error-nya pada tahapan selanjutnya. G. Perhitungan Langkah terakhir yang dilakukan adalah membandingkan sinyal asli dengan hasil olahan menggunakan algoritma PESQ, SNR, SegSNR dan MSE. Hasil perhitungan ini juga digunakan untuk menentukan
3 kualitas hasil pemrosesan stimuli selain dengan pengujian langsung kepada responden. Dari hasil perhitungan dan pengujian tersebut akan diketahui metode yang terbaik dalam meningkatkan kualitas sinyal suara pada cochlear implant. Pada ketiga perhitungan tersebut, yang digunakan adalah sinyal suara yang sudah di-vocoder dengan sinyal suara hasil enhancement. II. HASIL DAN DISKUSI A. Penentuan Channel pada Cochlear Implant Pengujian awal yang dilakukan dalam penelitian ini bertujuan untuk menentukan jumlah channel yang tepat untukcochlear implant dengan melihat dari score % correct words awal sebelum dilakukan proses enhancement, dan perbandingan antara monoaurally dan diotically headphones. Pada pengujian monoaurally, responden mendengarkan stimuli hanya dengan sebelah telinga, sedangkan untuk pengujian diotically responden mendengarkannya dengan kedua telinga. Pengujian ini dilakukan pada 10 responden dengan menggunakan kombinasi channel target dan channel masker seperti pada tabel 1. Stimuli yang digunakan merupakan suara laki-laki baik yang digunakan sebagai target maupun masker. Gambar 1 menunjukkan perbandingan antara score % correct word monoaurally dan diotically headphone, dimana grafik yang berwarna biru menunjukkan monoaurally sedangkan yang merah menunjukkan diotically. Pada sumbu axis menunjukkan kombinasi rasio channel mulai dari yang memperoleh hasil % correct word terendah sampai yang paling tinggi. Pada gambar 1 juga menunjukkan error bars dari masing-masing nilai % correct word. Error bars dihitung dengan mencari standart deviasi dari masingmasing kombinasi. Dari gambar dapat diketahui bahwa antara monoaurally dan diotically sama-sama mempunyai score yang rata-rata sama.
Gambar.1. Grafik Perbandingan Monoaurally dan Diotically
Pada diotically, score % correct word terendah terjadi pada kombinasi 2 channel target 2 channel, sedangkan score tertinggi diperoleh pada kombinasi 12-2. Sedangkan pada pengujian monoaurally, % correct word tertinggi terjadi pada kombinasi 12-6, dan yang terendah terjadi pada kombinasi channel 2-2. B. Penentuan Metode Signal Enhancement Stimuli yang diujikan pada pengujian I selanjutnya diproses menggunakan beberapa algoritma, yaitu Minimal Mean Squared Error Spectral Estimation (MMSE), MMSE Short Time Spectral Amplitude (STSA) dan Spectral Subtraction (SS). Selanjutnya, hasil pengolahan tersebut
diujikan kepada 10 responden yang berbeda dari pengujian I. Dalam pengujian ini kombinasi channel pada tabel 1 yang digunakan tidak semua diujikan. Channel 2-2, 4-2 dan 4-4 tidak digunakan karena pada pengujian I score % correct word-nya sangat rendah. Gambar 2 dapat menunjukkan perbandingan score % correct word dari ketiga algoritma tersebut di masingmasing kombinasinya yang diperoleh dari pengujian II. Pada grafik tersebut, warna biru menunjukkan algoritma MMSE, warna merah menunjukkan MMSESTSA, sedangkan hijau menunjukkan algoritma SS. Pada gambar 2 tersebut ditunjukkan pula error bars masing-masing kombinasi dari setiap algoritma.
Gambar.2. Grafik Perbandingan Metode Signal Enhancement
Score % correct word terendah pada MMSESTSA, SS sama, yaitu pada kombinasi channel 6-6. Score terendah dari MMSESTSA adalah sebesar 34,67, sedangkan pada SS sebesar 40,4. Pada MMSE, kombinasi 6-4 mendapatkan score yang paling rendah sebesar 30,14. Pada kombinasi channel 12-6 % correct word yang diperoleh dengan menggunakan metode SS dan MMSE tertinggi diantara yang lain, sedangkan pada metode MMSESTSA yang tertinggi pada kombinasi 12-4, dan kombinasi 12-6. Selisih score antara SS dengan kedua metode yang lainnya besar, salah satunya pada kombinasi 20-12, selisih antara SS dan MMSESTSA sebesar 7,4, sedangkan dengan MMSE sebesar 9,5. Namun antara metode MMSE dan MMSESTSA selisihnya sedikit, seperti pada kombinasi 2012, selisihnya sebesar 2,1, namun secara umum, score % correct word yang diperoleh dengan menggunakan metode MMSESTSA lebih tinggi dibandingkan MMSE. Dari hasil pengujian II selanjutnya dapat dibandingkan dengan hasil pengujian I untuk mengetahui speech intelligibility yang dapat ditingkatkan dengan proses enhancement. Hal ini dapat dilihat pada gambar 3 Pada pengujian I, score tertinggi yang diperoleh adalah 81,9% dan setelah diproses diperoleh score sebesar 88,4% pada kombinasi channel yang sama yaitu 12-2. C. Perhitungan Selain dengan melakukan pengujian secara langsung ke responden, juga dilakukan beberapa penghitungan untuk mengetahui kualitas hasil enhancement dari ketiga metode signal enhancement tersebut, meliputi perhitungan PESQ, SNR (Signal to Noise Ratio), SegSNR dan Mean Square Error (MSE). Dalam keempat perhitungan tersebut, sinyal yang digunakan sebagai perbandingan adalah sinyal yang digunakan dalam pengujian I, yaitu sinyal vocoder yang
4 telah dicampur dengan berbagai kombinasi channel dan sinyal hasil enhancement. Tabel 2. Hasil Perhitungan PESQ, SNR, SegSNR, dan MSE
Perhitungan
MMSE
MMSESTSA
SS
PESQ
3,45
3,23
3,68
SNR
8,83
7,8
10,4
SegSNR
8,48
MSE
4,9x10
6,46 -2
3,9x10
9,8 -3
3,8x10-3 Gambar.3. Grafik Perbandingan Speech Intelligibility
Dari tabel 2 dapat diketahui perbandingan nilai PESQ, SNR, SegSNR dan MSE dari metode MMSE, MMSESTSA dan SS. Dalam tabel 2 dapat dilihat bahwa nilai PESQ tertinggi diperoleh dari metode SS, dan yang terendah dihasilkan dari penggunaaan metode MMSESTSA. Demikian juga dengan nilai SNR dan SegSNR, metode SS memperoleh nilai tertinggi. Sedangkan nilai MSE, SS memperoleh nilai terendah mendekati 0, yang berarti hasilnya terbaik diantara 2 metode lainnya. D. Pembahasan Dari hasil pengujian I, score % correct word yang diperoleh cukup tinggi, hal ini dapat dilihat pada gambar 1 dengan banyaknya score diatas 50% dan rata-rata score diantara keduanya hampir sama. Hal ini menunjukkan bahwa baik pada penderita tuna rungu satu sisi telinga maupun kedua telinga dapat ditingkatkan speech intelligibility-nya dengan mengaktifkan elektroda dimana target lebih dominan dari masker. Dan dari pengujian menunjukkan bahwa kombinasi 12-2 dapat digunakan pada cochlear implant untuk meningkatkan speech intelligibilitynya. Setelah suara di-vocoder dengan berbagai kombinasi channel, selanjutnya stimuli tersebut diolah dengan 3 metode signal enhancement. Dari gambar 3 dapat diketahui bahwa hasil pengujian ke responden dengan metode signal enhancement SS menghasilkan score % correct word tertinggi dibandingkan metode MMSE dan MMSESTSA. Hal ini menunjukkan bahwa suara yang didengar setelah melalui enhancement dengan metode SS mempunyai tingkat kejelasan yang baik dibandingkan yang lain. Dari pengujian II ini dapat menunjukkan bahwa speech intelligibility dapat lebih ditingkatkan dari hasil pengujian I dengan melakukan proses enhancement menggunakan algoritma SS. Perbandingan antara sinyal suara sebelum dilakukan enhancement dengan setelah enhancement dapat dilihat pada gambar 3. Setelah dilakukan pengujian II, maka diambil data yang diperoleh dari algoritma terbaik yaitu SS dan dibandingkan dengan hasil pengujian I dengan 2 telinga. Hasil yang diperoleh menunjukkan bahwa speech intelligibility meningkat setelah dilakukan enhancement terhadap stimuli. Sehingga dari penelitian ini diketahui bahwa speech intelligibility pada cochlear implant dapat ditingkatkan dengan dengan mengaktifkan channel elektroda dengan channel target lebih dominan dari channel masker hasil (pengujian I) dan dapat lebih ditingkatkan dengan menerapkan signal enhancement (pengujian II).
Setelah dihitung nilai PESQ, SNR, SegSNR, dan MSEnya, didapatkan hasil bahwa SS memperoleh score yang tinggi. Score PESQ SS sebesar 3,68 dimana score tersebut menunjukkan kualitas diantara fair dan good. Bagi pengguna cochlear implant, kualitas tersebut sudah cukup baik, karena mereka yang semula tidak dapat mendengar menjadi bisa mendengar baik suara target maupun deraunya. Berdasarkan rujukan [4], range score menunjukkan kualitas sebagai berikut: 1 = bad, 2 = poor, 3 = fair, 4 =good, 5 = excellent Nilai SNR yang diperoleh SS juga lebih tinggi daripada 2 metode yang lainnya yaitu sebesar 10,4 dan SegSNR nya sebesar 9,8. Untuk nilai SNR dan SegSNR ini tidak ada batas maksimalnya, bahkan bisa sampai diatas 50%, ini karena SNR merupakan perbandingan besarnya nilai sinyal asli dengan derau. Nilai SNR 10,4 menunjukkan bahwa sinyal target jauh meninggalkan masker, jika melalui perhitungan manual, maka power-nya naik kelipatan 1010, juga menunjukkan perbandingan sinyal suara asli dengan sinyal yang sudah bercampur noise-nya sebesar 10,4%. Sedangkan SegSNR juga hampir sama dengan SNR, hanya saja jika SegSNR dibandingkan per-segmen sinyalnya, sedangkan SNR dibandingkan langsung secara keseluruhan. Pada penghitungan nilai MSE, SS juga mendapat nilai yang paling baik diantara metode MMSE, dan metode MMSESTSA. Secara teori, nilai MSE yang paling baik adalah 0, yang berarti suara hasil pengolahan sama dengan sinyal suara asli yang tanpa noise. Pengujian secara langsung ke responden dan penghitungan error-nya menunjukkan hasil yang sama bahwa algoritma signal enhancement SS merupakan metode terbaik dibandingkan dengan MMSE dan MMSESTSA.
III. KESIMPULAN Berdasarkan penelitian yang telah dilakukan, didapatkan kesimpulan bahwa speech intelligibility dapat ditingkatkan dengan mengaktifkan kanal elektroda cochlear implant dengan kanal target lebih dominan daripada kanal masker, hal ini dapat dibuktikan pada pengujian I yaitu dengan mengaktifkan kanal 12-2. Speech intelligibility juga dapat lebih ditingkatkan dengan pengolahan menggunakan signal enhancement dengan hasil yang terbaik pada pengujian II
5 yaitu metode spectral subtraction (SS) dengan nilai PESQ 3,68, SNR 10,4, SegSNR 9,8 dan nilai MSE 3,8x10-3. DAFTAR PUSTAKA [1]
[2]
[3]
[4]
[5]
[6]
G. Mueller. “Brief Guide to Modern Hearing Aid Technology”, in Your Guide to Better Hearing. Vanderbilt University, Nashville, Tennessee: S. Kochkin, (2010) 16-18. R.O. Qazi, B. Dijk, and M. Moonen, “Speech Understanding Performance Of Cochlear Implant Using Time Frequency Masking Based Noise Reduction”. IEEE, Vol.59, No.5. (2012, May). G. Yu, and S. Mallat, “Audio Denoising by Time-Frequency Block Thresholding”, IEEE Transactions On Signal Processing, Vol. 56, No. 5. (2008, May). J. Ma, Y. Hu, and P.C. Loizou. ”Objective measures for predicting speech intelligibility in noisy conditions based on new bandimportance functions”. IEEE. Vol. 125, No. 5. (2009, May). G. Hilkhuysen, “Effects of noise suppression on intelligibility: Dependency on signal to noise ratios”, IEEE, Vol. 131, No. 1. (2012, January). I. H. Kurniawan. “Pemanfaatan Fenomena Release Of Masking Untuk Meningkatkan Speech Intelligibility pada Cochlear Implant”, ITS, (2010, June).