Jurnal Teknik Elektro dan Komputer, Vol.I, No.2, Oktober 2013, 125-129
125
Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal Voice dan Unvoice
Luqman Hakim Program Studi Teknik Mekatronika, Politeknik Caltex Riau, Pekanbaru 28265 email: l u q ma n @pcr.ac.id
Abstrak Dalam makalah ini akan dikemukakan satu metode untuk melakukan pemisahan sinyal suara (voice) dengan sinyal bukan suara (unvoice). Langkah pemisahan tersebut penting untuk dilakukan sebelum sebuah sinyal suara diolah ataupun dianalisa lebih lanjut. Metoda yang dilakukan untuk pemisahan tersebut dilakukan dengan menerpkan moving standar deviasi. Untuk menentukan titik awal dan akhir sinyal voice dalam metode ini, secara umum terdiri atas dua tahap, yaitu analisa sinyal unvoice yang disebut sebagai noise latar belakang (background noise) untuk membuat nilai ambang batas (threshold), dan kemudian membuat deret logika. Dari pengujian yang dilakukan didapatkan tingkat keberhasilan 83% dari sinyal suara yang dijadikan sampel secara acak. Pendeteksian dengan cara ini masih mempunyai kelemahan yaitu dengan masih ada ketergantungan dengan pemilihan jumlah sampel dan threshold. Kata kunci: titik awal, titik akhir, sinyal voice, unvoice
Abstract In this paper will put forward a method to separate the voice signal with the unvoice signal. Separation steps are necessary to be done before a sound signal is processed or analyzed further. The method for the separation is done by applying a moving standard deviation. To determine the start and end voice signal in this method, generally consisting of two phases, namely analysis unvoice signals are referred to as background noise to make a threshold value, and then make a series of logic. Obtained from tests performed 83% success rate of the 59 signal is sampled at random. Detection by this method still has the drawback that there is still a dependency with the selection of sample size and threshold. Keywords: start point, end point, voice signal, unvoice
1
Pendahuluan
Dalam makalah ini akan dikemukakan satu metode untuk melakukan pemisahan sinyal suara (voice) dengan sinyal bukan suara (unvoice). Pada saat dilakukan perekaman suara, sering terjadi jeda antara titik mulai perekaman dengan titik awal pengucapan suara sampel. Di akhir perekaman juga terjadi sebuah kejadian di mana akhir pengucapan suara sampel tidak sama dengan titik akhir perekaman. Dari dua kejadian tersebut, maka sinyal yang terekam terdiri dari sinyal periode diam (silient periode) yang menghasilkan sinyal bukan suara (unvoice) dan sinyal suara (voice) sampel yang diinginkan. Langkah pemisahan tersebut penting untuk dilakukan sebelum sebuah sinyal suara diolah ataupun dianalisa lebih lanjut. Proses pemisahan tersebut dilakukan dengan terlebih dahulu mendeteksi titik awal dan titik akhir dari sebuah sinyal suara[1][2]. Penelitian mengenai pendeteksian sinyal voice dan unvoice telah dilakukan oleh para peneliti bidang pengolahan sinyal suara. Salah satunya adalah yang dikemukakan Saha G dkk.
126
Luqman Hakim
Metoda yang digunakan adalah dengan mengaplikasikan windowing Gaussian.[3] Metoda yang dikemukakan menggunakan statistic dan pembuatan threshold berdasarkan fungsi jarak mahalanobis (mahalanobis distance function). Pengujian dilakukan pada teks berjalan dan suara yang menyebutkan angka. Tingkat keberhasilan mencapai 83% pada deteksi suara angka dan 70% teks berjalan. Pada makalah ini disampaikan teknik pemisahan dengan menggunakan moving standar deviasi. Proses pendeteksian masih berdasarkan perhoitungan statistic, tetapi perlakuan dan pembuatan threshold yang berbeda dari yang telah dipublikasikan Saha G. dkk. Pengujian yang dilakukan pada metoda yang diterapkan dilakukan pada 59 sampel rekaman suara dari 18 orang yang terdiri atas 13 laki-laki dan perempuan. Apa yang disampaikan pada makalah ini diharapkan dapat menambah wacana dalam melakukan pemisahan sinyal voice dan unvoice pada pengolahan sinyal suara. 2
Metodologi
Metode penemuan titik awal dan titik akhir sinyal suara yang dikemukakan dalam makalah ini menggunakan prinsip standar deviasi yang digerakkan atau diterapkan per bagian sepenjang sinyal tererkam (moving standard deviation). Ilustrasi bagian voice dan unvoice sebuah sinyal rekaman ditunjukan pada Gambar 1. Moving standar deviasi untuk sebuah sinyal digital x[i], dapat digambarkan dengan persamaan sebagai berikut: (1) di mana μ w nilai rata – rata atau mean nilai x dalam frame yang dirumuskan: (2)
N w menunjukan lebar frame atau jumlah data yang diambil untuk dicari standar deviasinya. Dengan melakukan perhitungan standar deviasi dari setiap frame sinyal, maka untuk keseluruhan sinyal akan diperoleh sederetan nilai standar deviasi dari frame pertama dan terakhir. Untuk menentukan titik awal dan akhir sinyal voice dalam metode ini, secara umum terdiri atas dua tahap, yaitu analisa sinyal unvoice yang disebut sebagai noise latar belakang (background noise) untuk membuat nilai ambang batas (threshold), dan kemudian membuat deret logika.
Gambar 1
Ilustrasi sinyal voice dan unvoice
Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal...
2.1
127
Analisa Sampel Sinyal Unvoice
Langkah-langkah untuk menganalisa sinyal unvoice atau noise latar belakang adalah sebagai berikut: 1. Mengambil sampel pada durasi unvoice (Estimasi berdasarkan pengamatan terhadap sinyal) 2. Menghitung moving standar deviasi (setiap 10 ms). Sampel unvoice dibagi ke dalam frame yang lebih kecil (setiap 10 ms / 441 sampel pada frekuensi sampling 44100 Hz), kemudian dicari standar deviasi dari tiap frame. 3. Mencari standar deviasi terbesar dari setiap frame sampel unvoice 4. Membuat threshold dari standar deviasi terbesar, 5. … (3) 6. di mana C adalah faktor pengali.
2.2
Membuat Deret Logika (logical series)
Deret logika adalah sebuah bentuk deret baru yang terdiri atas nilai 0 dan 1 yang dibuat berdasarkan perhitungan standar deviasi. Langkah-langkah pembuatan deret logika yang dimaksud adalah sebagai berikut: 1. Melakukan framing 10 ms pada seluruh sinyal 2. Menghitung standar deviasi pada setiap frame, kemudian dibandingkan dengan threshold yang telah dibuat. 3. Dari sini dibuat deret logika. Deret logika bernilai 1 jika nilai standar deviasi pada titik tersebut lebih tinggi daripada thershold, sebaliknya berniali 0. 4. Menentukan titik awal dan akhir sinyal dari deret logika yang terbentuk dengan mencari di index ke berapa titik awal sinyal voice dan titik akhirnya berada. Dalam konteks di atas, nilai Nw adalah sejumlah data pada setiap frame 10 ms atau sebanyak 441 data. Dalam menyelesaikan masalah pemisahan noise latar belakang ini, penentuan jumlah sampel dan koefisien pengali threshold dilakukan secara manual berdasarkan pengamatan terhadap sinyal yang ada. Threshold berkisar 3 sampai dengan 4 kali standar deviasi maksimum noise sudah dapat memisahkan sinyal suara dari noise latar belakang dengan baik.
3
Hasil Dan Pembahasan
Pengujian terhadap metoda di atas telah diuji untuk memisahkan sinyal voice dan unvoice sampel rekaman suara dari 13 orang laki-laki dan 5 orang perempuan . Ilustrasi bentuk sinyal rekaman suara, deret logika, dan hasil pemisahan voice dan unvoice ditunjukan pada Gambar 2, Gambar 3 dan Gambar 4. Pada Gambar 2 ditampilkan salah satu sinyal suara yang baru direkam. Pada sumbu horizontal ditampilkan jumlah N data sinyal keseluruhan sampel bersangkutan. Pada Gambar 3 ditampilkan deret logika yang dibentuk berdasarkan analisa standar deviasi seperti yang telah disebutkan. Pada Gambar 2 terlihat bahwa hasil deret logika membentuk selubung sinyal voice dan unvoice secara tepat. Kemudian pada Gambar 3 ditampilkan sinyal hasil pemisahan. Hasil pemisahan ini baru dapat digunakan untuk analisa sinyal suara lebih lanjut. Dengan melakukan pemisahan sinyal voice ini secara langsung akan mengurangi jumlah data sehingga memperingan proses komputasi selanjutnya. Hal ini karena data digital dari latar
128
Luqman Hakim
belakang perekaman merupakan data-data yang tidak diperlukan. Dari Gambar 2 dan Gambar 4 dapat dilihat dari jumlah data yang sebelumnya 40ribuan berkurang hingga tinggal 20ribuan.
Gambar 2
Sampel sinyal rekaman suara
Gambar 3
Deret logika dan sinyal suara
Gambar 4
Hasil pemisahan voice dan unvoice
Hasil pengujian dengan sampel suara yang lain, selengkapnya ditampilkan dalam Tabel 1. Dari total 59 kali pengujian, didapatkan 49 kali berhasil dan 10 kali tidak berhasil. Berdasarkan data pengujian tersebut keberhasilan mencapai 83% dari 59 pengujian. Kegagalan banyak didapatkan pada keadaan noise yang cukup besar. Jika fluktuasi noise tidak terlalu besar, dengan mengambil sampel noise sekitar 1000 data sudah menghasilkan pendeteksian yang cukup baik.
Deteksi Titik Awal dan Titik Akhir Sinyal Untuk Pemisahan Sinyal...
Tabel 1
4
129
Hasil Pengujian
Sampel
Total Uji
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Total
3 4 3 3 3 3 3 3 3 3 5 3 3 4 4 3 3 3 59
Jumlah Hasil Uji Berhasil Gagal 2 1 3 1 1 2 2 1 2 1 1 2 3 0 2 1 3 0 3 0 5 0 3 0 3 0 4 0 4 0 2 1 3 0 3 0 49 10
Kesimpulan
Dari hasil pengujian terhadap sistem yang dibangun untuk melakukan pendeteksian sinyal voice dan unvoice dengan metode moving standar deviasi, dapat dilakukan dengan tingkat keberhasilan sekitar 83%. Pendeteksian dengan cara ini masih mempunyai kelemahan yaitu dengan masih ada ketergantungan dengan pemilihan jumlah sampel dan threshold.
5
Daftar Pustaka
[1]
Rabiner, L.R. and R.W. Scafer, Digital Processing For Speech Signals, Prentice Hall, 1978 Oppenheimer, Priscilla, ”Digitizing Human Vocal Communication”, http://www.prescilla.com/language.html, 30 Desember 2011 : 09:28 WIB G. Saha, Sandipan Chakroborty, Suman Senapati, A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications , India
[2] [3]