Sistem Pengenalan Wicara Otomatis Menggunakan Discrete Wavelet Neural Network (DWNN)

Sistem Pengenalan Wicara Otomatis Menggunakan Discrete Wavelet Neural Network (DWNN) Yunus Wicaksono S1, Djoko Purwanto2, Agus Sigit Pramono3 Program Studi Teknik Elektro Institut Teknologi Sepuluh Nopember Surabaya 3 Program Studi Teknik Mesin Institut Teknologi Sepuluh Nopember Surabaya

1,2

Email : [email protected]

Abstrak Pengenalan wicara merupakan teknologi terapan dari pemrosesan sinyal digital yang telah banyak digunakan dan diterapkan pada berbagai bidang. Teknik ini memungkinkan seseorang dapat mengaktifkan suatu peralatan elektronik hanya dengan memberikan sebuah perintah suara. Metode Discrete Wavelet Neural Network (DWNN) diterapkan pada sistem pengenalan wicara otomatis yang merupakan kombinasi dari Discrete Wavelet dan Multi-Layer Perceptron. Discrete Wavelet digunakan untuk ektraksi ciri (feature extraction) dalam domain frekwensi-waktu, yang terdiri atas Discrete Wavelet Transform (DWT) dan wavelet entropy. Sedangkan Multi-Layer Perceptron digunakan untuk klasifikasi dengan feed-forward neural network. Performa dari sistem dievaluasi dengan menggunakan perintah suara pada lingkungan ber-noise. Hasil test menunjukkan efektivitas dari sistim pengenalan wicara otomatis menggunakan DWNN. Keberhasilan tingkat pengenalan hingga mencapai 90% untuk beberapa sample perintah suara. Kata kunci : Discrete Wavelet Neural Network, feature extraction, Multi-Layer Perceptron, pengenalan wicara otomatis, wavelet entropy

1 PENDAHULUAN Sistem pengenalan wicara umumnya menggolongkan/mengklasifikasi sinyal wicara berdasarkan pada ciri dari sinyal wicara, yang umumnya diperoleh menggunakan Fast Fourier Transforms ( FFT), Short Time Fourier Transforms (STFT), atau teknik Linear Predictive Coding (LPC). Pada metode ini terdapat beberapa kekurangan. Metoda ini menerima sinyal stasioner dalam batasan waktu yang telah ditentukan, sehingga kurang mampu meneliti peristiwa yang dilokalisir dengan tepat. Lebih dari itu, metoda LPC hanya menerima model linier tertentu dari sinyal wicara. Untuk mengatasi hal ini digunakan transformasi wavelet. Transformasi wavelet adalah sebuah teknik penjendelaan variabel (variable windowing technique) yang mengijinkan interval waktu yang lebih teliti pada komponen frekuensi rendah dan interval waktu yang lebih lebar pada komponen frekuensi yang lebih tinggi. Sehingga transformasi wavelet mampu meneliti peristiwa yang dilokalisir dengan tepat. Artificial Neural Networks (ANN) terdiri atas unsur-unsur yang tidak linier, beroperasi secara paralel pada pola yang serupa dengan jaringan neural makhluk hidup. Keuntungan utama penggunaan ANN pada pengenalan wicara ini adalah untuk memecahkan permasalahan tentang kesalahan toleransi yang tidak linier. Pada penelitian ini metode Discrete Wavelet Neural Network

(DWNN) diterapkan pada sistem pengenalan wicara otomatis yang merupakan kombinasi dari Discrete Wavelet dan Multi-Layer Perceptron. Discrete Wavelet digunakan untuk ektraksi ciri (feature extraction) dalam domain frekwensi-waktu, yang terdiri atas Discrete Wavelet Transform (DWT) dan wavelet entropy. Sedangkan Multi-Layer Perceptron digunakan untuk klasifikasi dengan menggunakan teknik pelatihan Backpropagation. 2 PRINSIP KERJA SISTEM PENGENALAN WICARA Pengenalan wicara ini dilakukan secara otomatis untuk mengklasifikasi suara ucapan “alfa”, “beta”, dan “gama”. Sistem pengenalan wicara ini menggunakan metode Discrete Wavelet Neural Network (DWNN). Secara umum, prinsip kerja sistem pengenalan wicara ini terdiri atas 2 fase, yaitu fase training dan fase testing. Pada fase training melibatkan proses perekaman data suara. Data suara direkam secara langsung dari mikrofon untuk dijadikan data referensi. Kemudian, data referensi tersebut (alfa, beta, dan gama) dilatihkan menggunakan metode Discrete Wavelet Neural Network, sehingga didapatkan nilai bobot (weight) yang optimal. Setelah mendapatkan nilai bobot yang optimal, dilakukan proses testing. Pada fase testing, data suara yang diterima oleh mikrofon akan diklasifikasikan berdasarkan data referensi yang dimasukkan (alfa, beta, dan gama). Gambar 2.1 dan

Gambar 2.2 menunjukkan diagram blok fase training dan fase testing pengenalan wicara otomatis. Sample training (alfa, beta, gama)

PRE PROCESSING

FEATURE EXTRACTION

Backpropagation (Forward-backward)

Gambar 2.1 Diagram Blok Fase Training Pengenalan Wicara Sample testing

PRE PROCESSING

FEATURE EXTRACTION

Selection speech recognition Backpropagation (Forward)

data, yaitu mengakuisisi ucapan pembicara (dalam sinyal analog) dan mengubahnya menjadi sinyal digital. Kemudian sinyal tersebut dilewatkan pada proses pre-processing yang meliputi: front-end point detection, normalisasi dan denoising. Front-end point detection digunakan untuk memisahkan antara sinyal wicara (voice) dengan bukan sinyal wicara (unvoice). Sedangkan de-noising digunakan untuk menghasilkan sinyal wicara yang lebih bersih. Ekstraksi ciri (feature extraction), yaitu mengekstrak data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil tanpa merubah karakteristik sinyal wicara tersebut. Proses terakhir adalah Classification, yaitu tahapan pembelajaran untuk membentuk suatu model referensi sehingga dapat dilakukan proses pengenalan wicara. Model referensi yang terbentuk akan digunakan dalam pencocokan pola. Sample wicara

Alfa, Beta, Gama

Gambar 2.2 Diagram Blok Fase Testing Pengenalan Wicara 3 ALGORITMA SISTEM WICARA OTOMATIS

PRE PROCESSING

Discrete FEATURE Wavelete EXTRACTION Transform

(DWT)

Memenuhi kriteria

PENGENALAN

Pengenalan wicara adalah suatu penggolongan pola, dimana suatu pola masukan digolongkan berdasarkan urutan pola yang disimpan yang sudah dilatihkan sebelumnya. Umumnya proses ini dibagi menjadi dua langkah, yaitu: 1. Feature Extraction. 2. pattern classification. Feature extraction merupakan proses mengekstraksi data hasil akuisisi sinyal wicara sehingga dihasilkan data yang berdimensi lebih kecil, yang digunakan untuk merepresentasikan masingmasing wicara yang diucapkan. Pattern classification menyangkut prosedur aktual untuk mengklasifikasi wicara yang diucapkan dengan membandingkan fitur ekstraksi suara yang belum dikenali dengan himpunan wicara yang telah dikenal. Proses pattern classification sinyal wicara menyajikan dua sesi yang berbeda, yang pertama adalah sesi pendaftaran (enrollment sessions) atau fase training, sedangkan yang kedua adalah sesi operasi atau fase testing. Di dalam fase training, dimasukkan sample sinyal wicara sehingga sistem dapat mulai dilatih berdasarkan reference model sinyal wicara tersebut. Pada penelitian ini algoritma pengenalan wicara diilustrasikan seperti pada Gambar 3.1, terdiri atas 2 bagian besar yaitu: (a) akuisisi data dan pre processing, (b) ekstraksi ciri (feature extraction) dan classification. Proses pertama adalah Akuisisi

• Front-end detection • Normalisasi • Denoising

CLASSIFICA- Neural TION Network

Alfa Beta Gama

Seleksi pengenalan wicara 1. Durasi waktu 2. Energi tiap level 3. Energi Total

Tidak memenuhi kriteria Selain Alfa, Beta, Gama

Gambar 3.1 Algoritma Sistem Pengenalan Wicara. 4 PEREKAMAN SINYAL WICARA Perekaman sinyal wicara dilakukan untuk mendapatkan sample data training. Sample tersebut direkam dengan frekuensi sampling sebesar 10kHz dan diubah dalam bentuk format file ”.DAT”. Perekaman satu sample sinyal wicara membutuhkan waktu selama 1,5 detik, sehingga dengan frekuensi sampling sebesar 10kHz didapatkan 15000 data. Pada penelitian ini dilakukan perekaman terhadap 45 sample sinyal wicara (15 sample sinyal wicara “alfa”, 15 sample sinyal wicara “beta”, 15 sample sinyal wicara “gama”), dimana 15 sample dari masing-masing sinyal wicara tersebut (“alfa”,”beta”,”gama”) digunakan untuk sample training. Gambar 4.1 menunjukkan hasil perekaman sample sinyal alfa, beta, dan gama.

(a)

10kHz. Analisa filter bank dari dekomposisi wavelet diberikan pada persamaan (5.1) dan (5.2). Di mana Wj(n) adalah koefisien perkiraan dan Sj(n) adalah koefisien detil dari wavelet, j menunjukkan level dari dekomposisi dan m menunjukkan jumlah level dari dekomposisi. Koefisien perkiraan pada dekomposisi tingkat ketiga (0-625Hz) dipilih berdasarkan kebanyakan frekuensi dari suara manusia berada dibawah 1kHz. ∞

w j ( n) =

∑S

(k ) h(2n − k )

(5.1)

( k ) g ( 2n − k )

(5.2)

j −1

k = −∞

∞

s j (n) =

∑S

j −1

k = −∞

Pi ( j ) =

( wi ( j )+ K )

(b) N

(5.3) N ∑ ( wi ( j )+ K ) j =1

WE (i) = ∑ Pi ( j ) × log( Pi ( j ))

(5.4)

j =1

(c) Gambar 4.1 Hasil Perekaman Sample Sinyal (a) Alfa, (b) Beta, dan (c) Gama.

5 PRE PROCESSING SINYAL WICARA Setelah dilakukan proses perekaman sinyal wicara, selanjutnya dilakukan proses pre processing. Pada proses ini meliputi: 1. front end point detection 2. normalisasi 3. dan denoising Front end point detection digunakan untuk memisahkan antara sinyal wicara (voice) dengan bukan sinyal wicara (unvoice). Normalisasi dilakukan untuk mengatasi besar kecilnya sinyal wicara yang diucapkan. Sedangkan denoising digunakan untuk menghasilkan sinyal wicara yang lebih bersih dari noise.

5.1 Front End Point Detection Front–end point detection digunakan untuk memisahkan antara sinyal wicara (voice) dan bukan sinyal wicara (unvoice) dengan menentukan posisi awal dan akhir dari sinyal wicara. Proses ini menggunakan transformasi wavelet dengan tiga tingkat dekomposisi, pada frekuensi sampling

Koefisien perkiraan Wj(n) pada dekomposisi tingkat ketiga digunakan untuk menentukan energi wavelet. Fungsi probability density yang dimodifikasi diperoleh dari persamaan (5.3). Dimana i menunjukkan nomor frame dan j merupakan sample dalam setiap frame, dalam hal ini digunakan 220 samples/frame. Wi(j) menunjukkan energi wavelet dari j sample dalam i frame. K adalah konstanta positif yang ditambahkan dengan energi wavelet untuk tujuan memberi nilai penting pada fungsi probability density. Nilai K dipilih didasarkan pada SNR dari suara dan noise, untuk penelitian ini digunakan nilai K = 0.5. Negative wavelet entropy diperoleh dari persamaan (5.4). Koefisien perkiraan ditingkat ketiga dari dekomposisi wavelet dipilih untuk menghitung negative wavelet entropy, sebab dapat menyediakan lebih banyak immunisasi melawan terhadap noise. Hal ini mempertimbangkan fakta bahwa energi noise berada pada frekuensi tinggi. wavelet entropy dengan jelas menetapkan suara gaduh (noise) ke transisi suara (wicara) sebagai start point suara (wicara) dan transisi dari suara (wicara) ke suara gaduh (noise) sebagai bagian akhir (end point ) dari suara(wicara). Untuk lebih jelasnya dapat dilihat pada Gambar 5.1 Untuk menentukan titik-awal dan titik-akhir dari kurva ini adalah sebagai berikut: 1.

Menghitung nilai threshold: nilai threshold didapatkan dari Rata-Rata nilai-nilai wavelet entropy.

Membandingkan nilai-nilai wavelet entropy dengan threshold: untuk menentukan start point, Jika nilai entropy dari dua frame pertama adalah kurang dari nilai threshold dan nilai entropy dari frame yang

ketiga adalah lebih besar dari threshold, maka frame yang pertama dipilih sebagai start point. untuk menentukan end point, jika nilai entropy pertama dari suatu frame adalah lebih besar dari nilai threshold, kemudian secara berurutan nilai entropy dari frame kedua lebih besar dari nilai threshold maka, frame kedua dipilih sebagai end point.

mengikuti persamaan (5.8). Hasil dari proses rekontruksi sinyal wicara, sekaligus merupakan proses terakhir dari denoising.

 sign( x)( x −λ ) THRsoft =   0

if x >λ if x >λ

λ = σˆ 2 log( N )

(5.6)

σˆ = MAD 0.6745

(5.7)

x[n] = ∑ {y high [k ].g [2k − n] + ylow [k ].h[2k − n]}

(a)

(5.5)

(5.8)

5.3 Normalisasi

Gambar 5.1 (a) Sinyal Wicara dan Tanda Start Point dan End Point untuk Suara “Gama”, (b) Wavelet Entropy untuk Suara “Gama”.

Seringkali saat memasukkan suara pada mikrofon, jarak antara mikrofon dan pembicara berubah-ubah (bervariasi), sehingga mengakibatkan perbedaan amplitudo sinyal wicara, meskipun ucapan yang dimasukkan sama. Hal ini dikarenakan semakin jauh jarak antara pembicara dan mikrofon, maka amplitudo sinyal wicara yang ditangkap semakin kecil. Untuk mengatasi hal ini dilakukan normalisasi sinyal wicara yang diucapkan. Pada penelitian ini proses normalisasi dilakukan dengan membagi setiap sample sinyal wicara x(n) dengan nilai tertinggi dari sinyal wicara tersebut mx, seperti pada persamaan (5.9).

5.2 Denoising Sinyal Wicara

xˆ ( n) =

(b)

Step kedua dari proses pre processing adalah denoising. Denoising digunakan untuk mereduksi noise pada sinyal wicara. Proses denoising menggunakan trasformasi wavelet diskrit. Prosedur denoising terdiri dari 3 tahap: 1. Melakukan dekomposisi wavelet pada sinyal wicara hingga level 7 menggunakan db10. Dekomposisi ini menghasilkan 7 detail coefficient (cD1, cD2, cD3, cD4, cD5, cD6, cD7), seperti yang terlihat pada Gambar 3.10. Rumus matematis untuk dekomposisi dapat dilihat pada persamaan (5.1) dan persamaan (5.2) 2. Memberikan soft threshold pada setiap detail coefficient dari level1 hingga level 7, sesuai dengan persamaan (5.5), (5.6), dan (5.7). λ adalah besar threshold, sedangkan σ adalah perkiraan standard deviation noise. MAD merupakan Median Absolute Difference, N adalah jumlah sample detail coefficient, dan x merupakan detail coefficient sinyal wicara. 3. Melakukan rekontruksi pada pada setiap detail coefficient dari level1 hingga level 7 setelah melalui proses soft threshold,

x ( n) mx

(5.9)

6 FEATURE EXTRACTION DENGAN DWT

Pada penelitian ini digunakan feature extraction menggunakan DWT dengan struktur dekomposisi hingga level 7, sehingga diperoleh delapan koefisien, satu approximation coefficient(cA) dan tujuh detail coefficient (cD), seperti yang ditunjukkan pada Gambar 6.1. DWT diaplikasikan pada sinyal wicara menggunakan Daubechies10 (db10), Rumus matematis untuk dekomposisi dapat dilihat pada persamaan (6.1) dan persamaan (6.2). Dengan ylow [k ] adalah approximation coefficient dari transformasi wavelet pada dekomposisi level k, yhigh k adalah detail coefficient dari transformasi

[]

wavelet pada dekomposisi level k. x[n] adalah sinyal input, h[n] adalah koefisien lowpass filter dari wavelet yang digunakan dan g[n] adalah koefisien dari highpass filter dari wavelet yang digunakan.

y high [k ] = ∑ x[n].g [2k − n ]

(6.1)

n

y low [k ] = ∑ x[n].h[2k − n]

(6.2)

n

g [L − 1 − n] = (− 1) .h[n] n

(6.3)

Untuk mendapatkan koefisien lowpass filter h[n], digunakan bantuan dari matlab, Gambar 3.11 merupakan listing program untuk mendapatkan koefisien lowpass filter h[n], dimana secara berurutan nilai pada kolom 1 sampai dengan kolom 20 menunjukkan nilai dari h[0] sampai dengan h[19]. koefisien h[n] yang didapatkan digunakan untuk mendapatkan koefisien filter highpass dengan menggunakan persamaan (6.3).

7 CLASSIFICATION NETWORK

DENGAN

NEURAL

Pada proses klasifikasi, koefisien-koefisien wavelet entropy sinyal wicara digunakan sebagai inputan pada Multi Layer Perceptron (MLP) Neural Network. Arsitektur dari MLP ditunjukkan seperti pada Table 7.1. Sedangkan Gambar 7.1 menunjukkan struktur training dari Backpropagation. Jumlah node pada input layer berasal dari jumlah wavelet entropy (E(cD1), E(cD2), E(cD3), E(cD4), E(cD5), E(cD6), E(cD7), E(cA7)) sebanyak 8 node yang didapatkan dari persamaan (6.4). Sedangkan Jumlah lapisan tersembunyi (hidden layer) didapatkan melalui trial and error sehingga dihasilkan nilai error total yang kecil pada output. Weight matrix (W(2))

Weight matrix (W(1)) 1 2 1 3 2 4 3 5

1

Alfa

2

Beta

3

Gama

4 5 6

Gambar 6.1 Struktur Dekomposisi pada Level 7. Setelah didapatkan koefisien-koefien wavelet dari proses dekomposisi level 7 (cD1, cD2, cD3, cD4, cD5, cD6, cD7, cA7), selanjutnya dilakukan proses wavelet entropy. Wavelet entropy menguraikan penyajian informasi yang akurat dari sinyal wicara. Persamaan wavelet entropy diberikan pada persamaan (3.13), dimana E adalah wavelet entropy , dan s adalah koefisien-koefisien wavelet hasil dekomposisi. Sedangkan (Si) adalah data sinyal wicara dari setiap koefisien-koefisien wavelet dengan sample number i. Kemudian P adalah power, harus diisi dengan nilai 1≤ P <2 (kelipatan 0.1). Selanjutnya data entropy dinormalisir dengan N=50. Dari hasil perhitungan pada persamaan (3.13) didapatkan 8 wavelet entropy (E(cD1), E(cD2), E(cD3), E(cD4), E(cD5), E(cD6), E(cD7), E(cA7)). Kemudian 8 wavelet entropy ini digunakan sebagai inputan pada neural network.

∑ E ( s) =

i

Si

N

Output layer

7 8

Input layer

Gambar 7.1 Struktur Backpropagation

Tabel 7.1 Arsitektur Multi Layer Perceptron (MLP). Arsitektur MLP

Jumlah layer Jumlah neuron di setiap layer

Keterangan

3 Input = 8 Hidden = 15 Output = 3

Fungsi aktifasi

Log-sigmoid

Inisialisasi bobot dan bias

Nguyen–Widrow method

Training

Back-propagation

P

(6.4)

30

Hidden layer

8 PENGUJIAN OTOMATIS

PENGENALAN

WICARA

Pengujian pertama dilakukan terhadap 60 sample sinyal wicara hasil perekaman dari mikrofon dalam bentuk file .DAT tanpa melalui proses normalisasi (20 sample sinyal wicara “alfa”, 20 sample sinyal wicara “beta”, dan 20 sample sinyal wicara “gama”). 10 sample dari masing-masing sinyal wicara (“alfa”,”beta”,”gama”) digunakan sebagai sample training, dan 10 sample lainya dari masing-masing sinyal wicara (“alfa”,”beta”,”gama”) digunakan sebagai sample testing. Pengujian dilakukan menggunakan wavelet Daubechies10 (db10) pada dekomposisi level 7, proses training dilakukan dengan merubah variable jumlah hidden layer, dan banyaknya iterasi. Pengujian ini dibandingkan terhadap tingkat persentase keberhasilan pengenalan wicara, seperti yang ditunjukkan pada Tabel 8.1, 8.2, dan 8.3. ITERAS1 = 5000

Jumlah Hidden = 15 error=0.031853 Sample uji Pengenalan Keberhasilan benar salah α (alfa) 6 4 60% β (beta) 8 2 80% γ (gama) 8 2 80% Jumlah Hidden = 25 error=0.019388 Sample uji Pengenalan Keberhasilan benar salah α (alfa) 6 4 60% β (beta) 7 3 70% γ (gama) 8 2 80% Jumlah Hidden = 35 error=0.0137 Sample uji Pengenalan Keberhasilan benar salah α (alfa) 7 3 70% β (beta) 7 3 70% γ (gama) 7 3 70%

ITERAS1 = 5000


ITERAS1 = 5000


Pengujian kedua dilakukan secara on line, dimana user/pengguna melakukan pengenalan wicara secara langsung dari microphone. Sample training berasal dari file.DAT hasil perekaman, sedangkan sample testing berasal dari mikrofon. Pada pengujian ini digunakan 45 sample training (15 sample training “alfa”, 15 sample training”beta”, 15 sample training”gama”) dan 93 sample uji yang sudah mengalami normalisasi. Pada pengujian kedua ini wavelet yang digunakan adalah Daubechies10 (db10) pada dekomposisi level 7. Gambar 3.26 menunjukkan hasil pelatihan Backpropagation dengan jumlah node hidden layer sebanyak 25 dan iterasi sebanyak 10000, dan dihasilkan error total sebesar 0.000522.

ITERAS1 = 10000

Pengenalan

Jumlah Hidden = 25

Total Sample uji

error=0.000522

4.

Persentase pengenalan wicara tertinggi dari hasil pengujian pertama yaitu, pada jumlah hidden 25 dan jumlah iterasi sebesar 40000, dengan error total 0.001933 dan nilai persentase rata-rata sebesar 76%

Dari hasil pengujian kedua ini didapatkan kesimpulan: 1. Setelah sinyal wicara dinormalisasi, didapatkan jumlah error total yang lebih kecil dibandingkan dengan sinyal wicara yang belum dinormalisasi seperti pada pengujian pertama. 2. Semakin banyak sample training yang dilatihkan, semakin tinggi persentase keberhasilan dalam pengenalan wicara. 3. Persentase keberhasilan pengenalan wicara setelah dinormalisasi lebih tinggi dibandingkan dengan sebelum dinormalisasi.

Sample uji Keberhasilan benar

salah

10 DAFTAR PUSTAKA

α (alfa)

31

22

9

71%

β (beta)

31

22

9

71%

γ (gama)

31

31

0

100%

9 KESISMPULAN

Dari pengujian pertama didapatkan kesimpulan: 1. Peningkatan jumlah node hidden dari 12 ke 35, dengan jumlah iterasi yang sama, menghasilkan error total yang semakin kecil. 2. Peningkatan jumlah iterasi dari 5000 ke 40000, dengan jumlah hidden yang sama, menghasilkan error total yang semakin kecil pula. 3. Error total yang semakin kecil, tidak menghasilkan perubahan persentase pengenalan wicara yang signifikan.

Antanas L, Joana L.E, Laimutis T. (2002). “Development of Isolated Word Speech Recognition System”, Institute of Mathematics and Informatics, Vilnius, Vol. 13, No. 1, 37–46 37. Bartek P, Mark K. (2003). “Digitizing Speech Recordings for Archival Purposes”. Proceedings of The IEEE, Vol. 32, No 4, pp. 167 - 176. Nalini V, Anushruthi R, Arjun Jain. (2004). “A Connectionist Framework For Feature Based Speech Recognition System Using Artificial Neural Networks” Rabiner, Juang. (1993). “An Introduction to Speech Recognition”, Prentice Hall, USA..

Sistem Pengenalan Wicara Otomatis Menggunakan Discrete Wavelet Neural Network (DWNN)

Recommend Documents