• Sinyal yang masuk difilter ke dalam sinyal frekuensi rendah (low-pass filter) dan sinyal frekuensi tinggi (high-pass filter) • Lakukan downsampling pada kedua sinyal tersebut • Low-pass frekuensi hasil downsampling selanjutnya melalui proses seperti pada tahap pertama • Lakukan ulang sampai pada level yang diinginkan Jika diilustrasikan dalam gambar terlihat pada Gambar 9.
Gambar 9 Proses multiple dekomposisi Perata-rataan hasil MFCC dan Wavelet Hasil MFCC dan Wavelet memiliki hasil berupa matriks ciri n×k, n adalah koefisien dan k adalah jumlah frame. Agar ukuran matriks sama untuk setiap fonem yakni berbentuk n×1 untuk setiap fonem, maka dilakukan proses perata-rataan koefisien pada setiap baris. Pemodelan JST Pembentukan model referensi fonem dilakukan menggunakan JST Backpropagation dengan arsitektur Multi Layer Perceptron, dengan satu lapisan tersembunyi. Jumlah neuron pada lapisan masukan disesuaikan dengan dimensi hasil ekstraksi ciri, sedangkan jumlah neuron pada lapisan tersembunyi akan dicobakan beberapa nilai sebagai perbandingan dan jumlah neuron pada lapisan keluaran sama dengan jumlah banyaknya fonem). Struktur JST dapat dilihat dalam Tabel 1 dan skema JST yang digunakan terdapat pada Lampiran 1.
Laju pembelajaran yg dipakai dalam penelitian ini adalah 0,01. Namun dengan pembelajaran traingdx, nlai laju pembelajaran dapat berubah-ubah karena mengalami rasio penurunan atau peningkatan nilai yang disesuaikan dengan kebutuhan selama pembelajaran berlangsung. Jumlah epoch maksimal yang ditetapkan adalah 5000. Hal ini diperlukan sebagai kriteria henti jaringan di samping toleransi galat untuk membatasi waktu yang disediakan bagi jaringan dalam melakukan pembelajaran. Target menggunakan nilai satu pada neuron lapisan keluaran untuk fonem yang bersesuaian. Misalnya untuk target dengan nilai elemen pertama satu maka target tersebut menunjukkan kelas pertama. Pendefinisian target terdapat pada Lampiran 2. Pengujian model JST Pada proses identifikasi, pembuatan keputusan dilakukan dengan metode nilai maksimum. Jika neuron output ke-n merupakan neuron dengan nilai maksimum maka data yang masuk dikenali sebagai fonem ke-n. Sebagai contoh jika neuron pertama pada lapisan output bernilai satu maka input diidentifikasi sebagai fonem pertama yaitu a. Analisis akurasi Dari hasil pengujian, dapat diketahui berapa nilai akurasi yang didapat untuk penelitian pengenalan fonem ini. Nilai akurasi menunjukkan seberapa besar keberhasilan penerapan metode MFCC dan transformasi Wavelet untuk ekstrasi ciri pada pengenalan fonem ini. Satuan akurasi dinyatakan dalam persen (%). Berkut ini adalah persamaan untuk menghitung akurasi :
Tabel 1 Struktur JST Karakteristik Arsitektur Neuron lapis masukan Neuron lapis tersembunyi Neuron lapis keluaran Fungsi Aktivasi Toleransi galat Epoch maksimal Pembelajaran Laju pembelajaran
Spesifikasi 1 lapisan tersembunyi 13 (koefisien hasil ekstrasi ciri) 200, 210, 220, 230, 240, 250 26 (banyaknya fonem) Sigmoid biner 0,0003 5000 Traingdx 0,01
HASIL DAN PEMBAHASAN Pengujian yang telah dilakukan adalah tahap praproses meliputi proses akuisisi data suara digital, proses sinyal yang ditambahkan noise dan proses sinyal tanpa penambahan noise, proses frame blocking dan windowing, serta proses ekstraksi ciri dengan MFCC yang berbasis Transformasi Fourier dan Wavelet yang bebasis Transformasi Wavelet dengan tipe Daubechies berorde empat.
8
Pembentukan referensi pencocokan pola
fonem
dan
Pengujian yang dilakukan merupakan kombinasi dari sinyal yang ditambahkan noise atau tidak serta jumlah neuron tersembunyi. Total keseluruhan adalah 48 percobaan dimana 36 percobaan merupakan kombinasi dari sinyal yang ditambahkan noise. Percobaan ini menggunakan kombinasi enam neuron tersembunyi, data yang ditambah noise dan dua jenis tipe ekstraksi ciri. Hal-hal yang dilihat dalam pencocokan pola JST adalah jumlah epoch yang dilalui dalam proses, waktu yang dibutuhkan untuk mencapai jumlah epoch tersebut dan nilai generalisasi yang didapat dari pembelajaran yang telah dilakukan. Sinyal suara (sinyal asli)
tanpa
ditambahkan
Gambar 11 Grafik tingkat akurasi Wavelet. Gambar 12 menunjukkan tingkat akurasi masing-masing fonem pada pengujian dengan 220 neuron tersembunyi sebagai percobaan terbaik dalam transformasi Wavelet sebagai ekstraksi ciri.
noise
Wavelet Daubechies orde 4 (db4) Pengujian pertama dilakukan pada tipe Wavelet Daubechies db4 level satu, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut didapat hasil akurasi yang terbaik dilakukan pada saat proses pembelajaran dengan 220 neuron tersembunyi. Gambar 10 merupakan grafik proses pembelajaran yang dilakukan pengujian tersebut. Walaupun pengujian tersebut tidak mencapai kekonvergenan pada pembelajaran ini, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 32 detik.
Gambar 12 Grafik hasil pengenalan fonem dengan Wavelet. Akurasi pengenalan fonem terbaik pada pengujian transformasi Wavelet sebagai ekstraksi ciri terdapat pada fonem /h/ dan /n/ sebesar 100% seperti yang ditunjukan pada gambar 11. Fonem /e/ dan /u/ mencapai akurasi sebesar 75 %. Fonem /a/, /f/, /g/, /m/, /q/, dan /y/ mencapai akurasi sebesar 50%. Di lain pihak, sisa fonem yang lainnya hanya mencapai akurasi yang tidak lebih besar dari 25%. MFCC
Gambar10 Proses Pembelajaran Wavelet dengan 220 neuron tersembunyi. Gambar 11 menunjukkan hasil dari seluruh pengujian pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri. Tingkat akurasi terbaik didapat sebesar 36% untuk generalisasi 26 fonem yang diujikan.
Pengujian selanjutnya dilakukan dengan ekstraksi ciri berbasis transformasi Fourier yaitu MFCC, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut, berbeda dengan hasil pengujian sebelumnya dengan transformasi Wavelet sebagai ekstraksi ciri, MFCC mendapat hasil akurasi terbaik yang dilakukan pada saat pembelajaran dengan 240 neuron tersembunyi. Gambar 13 merupakan grafik proses pembelajaran yang terbaik yang didapat pada pengujian ini. Walaupun pengujian tidak mencapai kekonvergenan pada saat pembelajaran, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 50 detik.
9
Tabel 3 Perbandingan hasil pengenalan fonem
Gambar 13 Proses Pembelajaran MFCC dengan 240 neuron tersembunyi.
Gambar 14 Grafik tingkat akurasi MFCC. Gambar 14 menunjukkan hasil dari seluruh pengujian yang dilakukan pada pengenalan fonem dengan MFCC sebagai transformasi berbasis transformasi Fourier. Hasil yang terbaik yang didapat dari serangkaian pengujian sebesar 100% pada proses pembelajaran dengan 240 neuron tersembunyi. Tabel 2 Hasil pengujian pengenalan fonem berdasarkan tipe ekstraksi ciri.
Tabel 3 menunjukkan hasil akurasi setiap fonem pada pengujian terbaik di masing-masing metode ekstraksi ciri. Pengenalan fonem dengan MFCC sebagai ekstraksi ciri dapat mengenali seluruh fonem dengan sempurna, sedangkan pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri dapat mengenali fonem dengan sempurna hanya pada fonem /h/ dan /n/. Sinyal suara ditambahkan noise Pengujian selanjutnya yaitu dengan menambahkan noise berupa white gaussian noise pada data suara asli dengan nilai 10 dB, 20 dB, dan 30 dB. Data latih yang digunakan untuk membuat model JST tetap menggunakan data asli. Perbandingan data latih dan data uji menggunakan perbandingan 75:25 seperti pada pengujian dengan sinyal suara tanpa ditambahkan noise. Wavelet Daubechies orde 4 (db4)
Tabel 2 menunjukkan hasil seluruh pengujian pengenalan fonem berdasarkan ekstraksi ciri. Terlihat bahwa hasil yang didapat dari transformasi Wavelet sebagai ekstraksi ciri sangat jauh di bawah hasil MFCC sebagai ekstraksi ciri. MFCC memperoleh hasil terbaik sebesar 100%, sedangkan Wavelet hanya mencapai 36% dengan jumlah neuron tersembunyi yang berbeda pada saat proses pembelajaran.
Gambar 15 Grafik perbandingan akurasi Wavelet data asli dan data ber-noise.
10
Gambar 15 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pada gambar tersebut dapat terlihat bahwa tingkat akurasi tidak mengalami perubahan yang signifikan walaupun data uji ditambah dengan noise pada saat pengujian. Tabel 4 Hasil pengujian Wavelet data asli dan data yang ditambahkan noise. Gambar 16 Grafik perbandingan akurasi MFCC data asli dan data ber-noise. Data uji yang ditambah noise pada pengenalan fonem dengan MFCC sebagai ekstraksi ciri mengalami penurunan tingkat akurasi. Seperti terlihat pada Tabel 5 yang menunjukkan secara detail hasil akurasi pengujian ini, setiap pengujian dengan kombinasi neuron tersembunyi mengalami penurunan tingkat akurasi. Penurunan tingkat akurasi yang paling signifikan terjadi pada penambahan noise 10 dB sebesar 13% pada saat pembelajaran JST 220 neuron tersembunyi. Penambahan noise 20 dB mempengaruhi penurunan tingkat akurasi sampai dengan 32% pada saat pembelajaran JST 230 neuron tersembunyi. Penambahan noise 30 dB mempengaruhi tingkat akurasi hasil pengenalan fonem hingga 64% pada pembelajaran JST 230 neuron tersembunyi. Tabel 5 Hasil pengujian MFCC data asli dan data yang ditambahkan noise. Tabel 4 menunjukkan secara detail hasil akurasi perbandingan data asli tanpa penambahan noise dan data dengan penambahan noise. Untuk pengujian yang menggunakan pembelajaran JST dengan 200, 210, 220, dan 250 neuron tersembunyi sama sekali tidak mengalami perubahan tingkat akurasi. Pada pengujian dengan pembelajaran JST 230 dan 240 neuron tersembunyi mengalami penurunan tingkat akurasi, walaupun hanya 1% pada penambahan noise 10 dB untuk 230 neuron tersembunyi dan 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi. MFCC Gambar 16 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pengujian ini pun melakukan kombinasi pada neuron tersembunyi seperti pengujian sebelumnya. Pada gambar 16 ini dapat terlihat perbedaan hasil dengan pengujian sebelumnya.
11
Hasil pengujian secara keseluruhan dengan membandingkan tingkat akurasi antara pengenalan fonem dengan menggunakan ekstraksi ciri berbasis transformasi Fourier dan transformasi Wavelet yang ditambahkan noise didapat bahwa pengenalan fonem dengan ekstraksi ciri berbasis transformasi Fourier yang ditambah noise semakin merusak sinyal asli sehingga pola masing-masing fonem semakin tidak jelas. Hasil terbaik dengan menggunakan sinyal suara yang ditambahkan noise untuk transformasi Fourier adalah 73% dengan 30 dB pada pembelajaran JST dengan 240 neuron tersembunyi. Pengenalan fonem dengan ekstraksi ciri berbasis transformasi Wavelet yang ditambah noise, tingkat akurasinya menunjukkan bahwa penambahan noise tidak mempengaruhi penurunan tingkat akurasi. Hal ini terlihat dari perbandingan pada Gambar 15 dan Tabel 4 yang menunjukkan penurunan tingkat akurasi terburuk hanya sebesar 1% pada penambahan noise 10 dB untuk pembelajaran JST 230 neuron tersembunyi. Serta 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi pada saat pembelajaran model JST. KESIMPULAN DAN SARAN Kesimpulan Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa penggunaan metode Wavelet Daubechies sebagai ekstraksi ciri pada pengenalan pola tidak lebih baik dari metode MFCC. Untuk metode Wavelet Daubechies dengan pembelajaran JST 220 neuron tersembunyi mempunyai tingkat akurasi 36% sebagai hasil pengujian terbaik. Pada pengenalan fonem dengan metode MFCC mencapai tingkat akurasi 100% dengan pembelajaran JST 240 neuron tersembunyi. Dengan menggunakan data uji yang ditambahkan noise, didapat kesimpulan bahwa noise sangat mempengaruhi penurunan tingkat akurasi pengenalan fonem dengan MFCC sebagai ekstraksi ciri sampai 13%. Sedangkan untuk pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri, penambahan noise pada data uji tidak mempengaruhi tingkat akurasi secara signifikan. Saran 1. Pengembangan penelitian yang disarankan ke arah pengenalan kata berbasis fonem. 2. Penggunaan kamus data yang lebih besar.
3. Penerapan auto-correlation untuk segmentasi otomatis pada kata yang digunakan. 4. Pengembangan metode ekstraksi ciri lanjut dengan Wavelet. 5. Penambahan data suara yang lebih banyak dan lebih bervariasi untuk data latih. DAFTAR PUSTAKA Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai praproses pada sistem identifikasi pembicara. [tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Burrus, C.S. Gopinath R.A., Guo, H. 1998. Introduction to Wavelets and Wavelet Transforms A Primer, International Edition, Prentice-Hall International, Inc. [Depdikbud] Departemen Pendidikan dan Kebudayaan, Pusat Pembinaan dan Pengembangan Bahasa. 2003. Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta : Balai Pustaka. Do, Minh N. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Lausanne, Switzerland. Fu, L. 1994. Neural Network in Computer Intelligence. McGraw-Hill, Singapore. Gonzalez R.C., Wood, R.E. 2002, Digital Image Processing, Second Edition, Prentice Hall, Inc. Hermawan, Arief. 2006. Jaringan Syaraf Tiruan Teori dan Aplikasi. Yogyakarta: Penerbit ANDI. Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey:Prentice Hall. Mallat, Stephane. 1999. A Wavelet Tour Of Signal Processing, Second Edition, Academic Press 24-28 Oval Road, London NW1 7DX UK, http://www.hbuk.co.uk/ap/
12