SUBJECTIVE AND OBJECTIVE MEASURE ON SPEECH INTELLIGIBILITY BY RELEASE OF MASKING PHENOMENON Oleh: ANINTYO ADI NUGROHO NRP. 2406 100 039 Pembimbing: Dr. Dhany Arifianto S.T, M.Eng NIP : 197310071998021001
JURUSAN TEKNIK FISIKA FAKULTAS TEKNOLOGI INDUSTRI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2010
Read verse out loud for pleasure
Read verse out loud for pleasure
+ The juice of lemons makes fine punch + Read verse out loud for pleasure
The juice of lemons makes fine punch
12 CHANNEL
Read verse out loud for pleasure
20 CHANNEL
12 CHANNEL
Read verse out loud for pleasure
???
+ The juice of lemons makes fine punch + Read verse out loud for pleasure
The juice of lemons makes fine punch
2 CHANNEL
20 CHANNEL
+ The juice of lemons makes fine punch + Read verse out loud for pleasure
Read verse out loud for pleasure
TUJUAN • Mengetahui peningkatan speech intelligibility akibat pengaruh fenomena release of masking pada peristiwa cocktail party terhadap native speakers pendengar normal • Mengetahui pengaruh signal enhancement dalam meningkatkan kualitas suara target yang rusak akibat masker
BATASAN MASALAH • Menggunakan 17 orang responden native speakers yang memiliki pendengaran normal. • Masker yang dipilih sebagai bunyi percakapan latar adalah suara laki – laki tunggal. • Jumlah Channel yang diaktifkan adalah 20 channel.
hipotesa
Permasalahan
• Fenomena Release of Masking dapat meingkatkan speech intelleigibility, namun
• Seberapa besar kah pengaruh release of masking terhadap peningkatan speech intelligibility? • Bagaimana pengaruh terhadap peningkatan speech intelligibility setelah melalui proses signal enhancement?
Tes pendengaran
Menuliskan kembali kalimat hasil tes pendengaran
%correct words
• Merupakan cara untuk meningkatkan kualitas sinyal suara
yang rusak akibat adanya bising latar. • Yang dikenal sampai saat ini: 1. Spectral Substraction 2. Minimum Mean Square Error-Short Time Spectral Amplitude (MMSE-STSA) 3. Multi-Band Spectral Subtraction
Magnitude
Frekuensi
Magnitude
Frekuensi
Band ke-n
Adalah nilai SNR Yang dihitung tiap segmen data.
Penentuan Responden Penelitian ini melibatkan responden native speakers sebanyak 17 orang yang memiliki pendengaran normal dengan rata-rata usia 24,29 tahun
Pemilihan Stimuli Stimuli merupakan sinyal suara yang akan diujikan kepada responden berupa suara lakilaki dan diperoleh dari database IEEE dengan frekuensi sampling 25 kHz. Jenis masker yang digunakan adalah suaral aki-laki tunggal.
PemrosesanStimuli Sinyal suara diproses menggunakan bandpass filter kedalam 2, 8, 12, dan 20 channel menggunakan Matlab 7.8. Sinyal suara dikombinasikan menggunakan audacity 1.3 dengan SNR 0 dB dan frekuensi sampling 25 kHz.
Penentuan %correct words Sebanyak 14 responden diperdengarkan 60 kalimat stimuli dengan kombinasi target dan masker (stimuli) yang memiliki perbandingan channel 2 dan 20, 8 dan 20, 12 dan 20, 12 dan 2, 12 dan 8, 12 dan 12, 20 dan 2, 20 dan 12, 20 dan 20. pemutaran stimuli hanya dilakukan satu kali dan tidak dapat diulang. Setelah itu responden diharuskan untuk menuliskan ulang kalimat-kalimat stimuli, setelah itu akan dilakukan penghitungan nilai %correct words
100 90 80
%correct words (%)
70 60 50 40 30
20 10 0 2 dan 20
8 dan 20
12 dan 20
20 dan 2 stimuli
Grafik %correct words vs stimuli dari percobaan 1
20 dan 12
20 dan 20
100 90 80
%correct words (%)
70 60 50 40
30 20 10 0 12 dan 2
12 dan 8
12 dan 12
12 dan 20
20 dan 2
stimuli
Grafik %correct words vs stimuli dari percobaan 2
20 dan 12
20 dan 20
Enhancement Stimuli Campuran stimuli di enhancing dengan algoritma SSBoll79, SSBerouti79, SSSCalart96, SSMutlibandKamath02, SSPARAB98, MMSECohen2004, MMSESTSA84, MMSESTSA85 menggunakan software matlab 7.8®.
Penentuan %correct words setelah proses enhancement Sebanyak 3 responden diperdengarkan 630 kalimat stimuli dengan kombinasi target dan masker (stimuli) yang memiliki perbandingan channel 12 dan 2, 12 dan 8, 12 dan 12, 12 dan 20, 20 dan 2, 20 dan 12, 20 dan 20 pemutaran stimuli hanya dilakukan satu kali dan tidak dapat diulang. Setelah itu responden diharuskan untuk menuliskan ulang kalimat-kalimat stimuli, setelah itu akan dilakukan penghitungan nilai %correct words
100 90 80
%correct words (%)
70 60 50 40 30 20 10 0 12 dan 2
12 dan 8
12 dan 12
12 dan 20
20 dan 2
stimuli
Grafik %correct words vs stimuli dari percobaan 3
20 dan 12
20 dan 20
Hasil penelitian pertama yang di tunjukkan pada grafik pertama menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 2 dan 20, 8 dan 20, 12 dan 20 menunjukkan stimuli masker lebih dominan daripada stimuli target. Respoden lebih cenderung mudah memahami stimuli masker daripada stimuli target. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker
Hasil penelitian kedua yang di tunjukkan pada grafik kedua menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 12 dan 2, 12 dan 8, 12 dan 12 menunjukkan stimuli target lebih dominan daripada stimuli masker., namun dengan power yang sedang Respoden lebih cenderung mudah memahami stimuli target daripada stimuli masker. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, dengan power stimuli target lebih kuat sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker
Hasil penelitian ketiga yang di tunjukkan pada grafik ketiga menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 12 dan 2, 12 dan 8, 12 dan 12 menunjukkan stimuli target lebih dominan daripada stimuli masker, namun dengan power yang sedang Respoden lebih cenderung mudah memahami stimuli target daripada stimuli masker. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, dengan power stimuli target lebih kuat sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker
10 9
Nilai segSNR (dB)
8 7 6 5 4 3 2
1 0
signal enhancement
Grafik Hasil uji signal enhancement dari percobaan 1 dan 2
3
Nilai segSNR (dB)
2.5
2
1.5
1
0.5
0
signal enhancement
Grafik Hasil uji signal enhancement dari percobaan 3
Berdasarkan penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan yakni: Pengaruh release of masking telah menunjukkan peningkatan pada speech intelligibility, hal ini terlihat dari grafik pertama dan grafik kedua yang menujukkan, campuran stimuli target yang lebih dominan menujukkan nilai %correct words yang tinggi daripada campuran stimuli masker yang lebih dominan Dari delapan teknik signal enhancement yang digunakan, teknik Spectral Substraction by Boll (SSBoll79) masih menunjukkan hasil yang paling baik, hal ini terlihat pada grafik “Nilai SegSNR HASIL UJI SIGNAL ENHANCEMENT” bahwa teknik SSBoll79 menunjukkan nilai tertinggi yakni 8.75566 dB (pada grafik pertama), dan 2.57499 dB (pada grafik kedua)