SUBJECTIVE AND OBJECTIVE MEASURE ON SPEECH INTELLIGIBILITY BY RELEASE OF MASKING PHENOMENON

SUBJECTIVE AND OBJECTIVE MEASURE ON SPEECH INTELLIGIBILITY BY RELEASE OF MASKING PHENOMENON Oleh: ANINTYO ADI NUGROHO NRP. 2406 100 039 Pembimbing: Dr. Dhany Arifianto S.T, M.Eng NIP : 197310071998021001

JURUSAN TEKNIK FISIKA FAKULTAS TEKNOLOGI INDUSTRI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2010

Read verse out loud for pleasure


+ The juice of lemons makes fine punch + Read verse out loud for pleasure

The juice of lemons makes fine punch

12 CHANNEL


20 CHANNEL

12 CHANNEL


???


The juice of lemons makes fine punch

2 CHANNEL

20 CHANNEL



TUJUAN • Mengetahui peningkatan speech intelligibility akibat pengaruh fenomena release of masking pada peristiwa cocktail party terhadap native speakers pendengar normal • Mengetahui pengaruh signal enhancement dalam meningkatkan kualitas suara target yang rusak akibat masker

BATASAN MASALAH • Menggunakan 17 orang responden native speakers yang memiliki pendengaran normal. • Masker yang dipilih sebagai bunyi percakapan latar adalah suara laki – laki tunggal. • Jumlah Channel yang diaktifkan adalah 20 channel.

hipotesa

Permasalahan

• Fenomena Release of Masking dapat meingkatkan speech intelleigibility, namun

• Seberapa besar kah pengaruh release of masking terhadap peningkatan speech intelligibility? • Bagaimana pengaruh terhadap peningkatan speech intelligibility setelah melalui proses signal enhancement?

Tes pendengaran

Menuliskan kembali kalimat hasil tes pendengaran

%correct words

• Merupakan cara untuk meningkatkan kualitas sinyal suara

yang rusak akibat adanya bising latar. • Yang dikenal sampai saat ini: 1. Spectral Substraction 2. Minimum Mean Square Error-Short Time Spectral Amplitude (MMSE-STSA) 3. Multi-Band Spectral Subtraction

Magnitude

Frekuensi

Magnitude

Frekuensi

Band ke-n

Adalah nilai SNR Yang dihitung tiap segmen data.

Penentuan Responden Penelitian ini melibatkan responden native speakers sebanyak 17 orang yang memiliki pendengaran normal dengan rata-rata usia 24,29 tahun

Pemilihan Stimuli Stimuli merupakan sinyal suara yang akan diujikan kepada responden berupa suara lakilaki dan diperoleh dari database IEEE dengan frekuensi sampling 25 kHz. Jenis masker yang digunakan adalah suaral aki-laki tunggal.

PemrosesanStimuli Sinyal suara diproses menggunakan bandpass filter kedalam 2, 8, 12, dan 20 channel menggunakan Matlab 7.8. Sinyal suara dikombinasikan menggunakan audacity 1.3 dengan SNR 0 dB dan frekuensi sampling 25 kHz.

Penentuan %correct words Sebanyak 14 responden diperdengarkan 60 kalimat stimuli dengan kombinasi target dan masker (stimuli) yang memiliki perbandingan channel 2 dan 20, 8 dan 20, 12 dan 20, 12 dan 2, 12 dan 8, 12 dan 12, 20 dan 2, 20 dan 12, 20 dan 20. pemutaran stimuli hanya dilakukan satu kali dan tidak dapat diulang. Setelah itu responden diharuskan untuk menuliskan ulang kalimat-kalimat stimuli, setelah itu akan dilakukan penghitungan nilai %correct words

100 90 80

%correct words (%)

70 60 50 40 30

20 10 0 2 dan 20

8 dan 20

12 dan 20

20 dan 2 stimuli

Grafik %correct words vs stimuli dari percobaan 1

20 dan 12

20 dan 20

100 90 80

%correct words (%)

70 60 50 40

30 20 10 0 12 dan 2

12 dan 8

12 dan 12

12 dan 20

20 dan 2

stimuli


20 dan 12

20 dan 20

Enhancement Stimuli Campuran stimuli di enhancing dengan algoritma SSBoll79, SSBerouti79, SSSCalart96, SSMutlibandKamath02, SSPARAB98, MMSECohen2004, MMSESTSA84, MMSESTSA85 menggunakan software matlab 7.8®.

Penentuan %correct words setelah proses enhancement Sebanyak 3 responden diperdengarkan 630 kalimat stimuli dengan kombinasi target dan masker (stimuli) yang memiliki perbandingan channel 12 dan 2, 12 dan 8, 12 dan 12, 12 dan 20, 20 dan 2, 20 dan 12, 20 dan 20 pemutaran stimuli hanya dilakukan satu kali dan tidak dapat diulang. Setelah itu responden diharuskan untuk menuliskan ulang kalimat-kalimat stimuli, setelah itu akan dilakukan penghitungan nilai %correct words

100 90 80

%correct words (%)

70 60 50 40 30 20 10 0 12 dan 2

12 dan 8

12 dan 12

12 dan 20

20 dan 2

stimuli


20 dan 12

20 dan 20

Hasil penelitian pertama yang di tunjukkan pada grafik pertama menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 2 dan 20, 8 dan 20, 12 dan 20 menunjukkan stimuli masker lebih dominan daripada stimuli target. Respoden lebih cenderung mudah memahami stimuli masker daripada stimuli target. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker

Hasil penelitian kedua yang di tunjukkan pada grafik kedua menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 12 dan 2, 12 dan 8, 12 dan 12 menunjukkan stimuli target lebih dominan daripada stimuli masker., namun dengan power yang sedang Respoden lebih cenderung mudah memahami stimuli target daripada stimuli masker. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, dengan power stimuli target lebih kuat sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker

Hasil penelitian ketiga yang di tunjukkan pada grafik ketiga menunjukkan hasil nilai %correct words yang berbeda-beda untuk tiap campuran stimuli. Pada campuran 12 dan 2, 12 dan 8, 12 dan 12 menunjukkan stimuli target lebih dominan daripada stimuli masker, namun dengan power yang sedang Respoden lebih cenderung mudah memahami stimuli target daripada stimuli masker. Pada campuran 20 dan, 20 dan 12, 20 dan 20 menunjukkan stimuli target lebih dominan daripada stimuli masker, dengan power stimuli target lebih kuat sehingga responden cenderung lebih mudah memahami stimuli target daripada stimuli masker

10 9

Nilai segSNR (dB)

8 7 6 5 4 3 2

1 0

signal enhancement

Grafik Hasil uji signal enhancement dari percobaan 1 dan 2

3

Nilai segSNR (dB)

2.5

2

1.5

1

0.5

0

signal enhancement

Grafik Hasil uji signal enhancement dari percobaan 3

Berdasarkan penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan yakni: Pengaruh release of masking telah menunjukkan peningkatan pada speech intelligibility, hal ini terlihat dari grafik pertama dan grafik kedua yang menujukkan, campuran stimuli target yang lebih dominan menujukkan nilai %correct words yang tinggi daripada campuran stimuli masker yang lebih dominan Dari delapan teknik signal enhancement yang digunakan, teknik Spectral Substraction by Boll (SSBoll79) masih menunjukkan hasil yang paling baik, hal ini terlihat pada grafik “Nilai SegSNR HASIL UJI SIGNAL ENHANCEMENT” bahwa teknik SSBoll79 menunjukkan nilai tertinggi yakni 8.75566 dB (pada grafik pertama), dan 2.57499 dB (pada grafik kedua)

SUBJECTIVE AND OBJECTIVE MEASURE ON SPEECH INTELLIGIBILITY BY RELEASE OF MASKING PHENOMENON

Recommend Documents