SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
PENGENALAN VOKAL MENGGUNAKAN TRANSFORMASI WAVELET DISKRIT DAN LINEAR PREDICTIVE CODE Reza Nandika1, Risanuri Hidayat2, Sujoko Sumaryono3 1 Mahasiswa Pascasarjana Jurusan Teknik Elektro dan Teknologi Informasi UGM 2, 3 Dosen Jurusan Teknik Elektrodan Teknologi Informasi UGM Jalan Grafika No 2 Yogyakarta email:
[email protected],
[email protected],
[email protected] ABSTRAK Semua orang relatif menggunakan anatomi yang sama untuk menghasilkan suara yang terdengar. Proses produksi suara dari seseorang dihasilkan dari udara yang didorong oleh paru-paru melalui saluran vokal, keluar dari mulut dan menghasilkan suara. Sebuah ujaran adalah sinyal nonstasioner, Transformasi Fourier (FT) untuk analisa sinyal nonstationer karena hanya memberikan informasi sinyal tetapi tidak memberikan informasi kapan waktu terjadinya frekuensi tersebut untuk itu diperlukan sebuah Transformasi yang dapat memberikan resolusi frekuensi dan waktu yang disebut Analisis Multi Resolusi (AMR), Transformasi Wavelet adalah AMR. Dalam makalah ini berisikan skema pengenalan vokal (a, i, u, e, o). rekaman vokal diperoleh dari tiga orang responden, setiap responden mengucapkan vokal masing-masing sebanyak 15 kali. Hasil rekaman ini akan dijadikan pengujian untuk data pembelajaran. Rekaman vokal dalam format *.wav kemudian transformasikan kedalam kawasan waktufrekuensi menggunakan Transformasi Wavelet Diskrit (TWD) kemudian diekstraksi kembali menggunakan Linear Predictive Coding (LPC). Proses pengenalan menggunakan metode jarak mahalobis Dalamp penelitian ini hasil uji dari data pembelajaran vokal setiap responden sebanyak 225 sampel didapatkan hasil pengenalan sebasar 100% Kata kunci : Speech Recognition; Pengenalan vokal; DWT
PENDAHULUAN Pada dasarnya semua orang menggunakan anatomi yang sama untuk menghasilkan suara. Proses produksi suara pada manusia dapat simpulkan, udara yang didorong dari paru-paru melalui saluran vokal dan keluar melalui mulut untuk menghasilkan suara (Jeremi Bradbury, 2000). Saluran vokal manusia adalah organ biologis dengan sifat non linier, yang bekerja bukan hanya dibawah kendali kesadaran tetapi juga dipengaruhi oleh faktor dari gender dan keadaan emosi. Vokalisasi sangat bervariasi dalam hal aksen, pengucapan, artikulasi, kekerasan, nasalitas, pitch, volume dan kecepatan, pola bicara yang tidak teratur, suara latar belakang atau gema. Semua variabilitas tersebut memberikan masalah yang kompleks dalam pengenalan suara (www. learnartificialneuralnetworks.com). Penelitian tentang pengenalan suara (speech recognition) dengan mesin telah dilakukan selama hampir empat dekade ini (Laurance Rabirer, 1993). Pengenalan suara diaplikasikan pada sistem kontrol navigasi, aplikasi komersial industri, alat perekam digital. Bebeberapa paper telah membahas tentang speech recognition, diantaranya, ekstraksi ciri dengan metode Linear Predictive Code (LPC) dan dekomposisi wavelet paket untuk pengenalan yang dipakai dalam bahasa Malayam (Sonia Sunny, 2012). Paper selanjutnya tentang pengenalan suara Hindi untuk penyebutan angka 1 sampai 10 dengan ektraksi ciri menggunakan Transformasi Wavelet Diskrit (TWD) dan perhitungan koefisien dari LPC (Shivesh Ranjan, 2010). Paper lainnya
metode ekstraksi ciri dengan dua metode, Transformasi Wavelet Diskrit dan LPC serta Transformasi Wavelet Packet dan LPC untuk pengenalan kata terisolasi (N. S. Nehe, 2012). Dalam paper ini ditujukan untuk pengenalan vokal (a/i/u/e/o) khas orang indonesia dengan menggunakan Transformasi Wavelet Diskrit dan Linear Predictive Code untuk mendapatkan ekstraksi ciri dari setiap suara vokal, perhitungan koefisien LPC dilakukan untuk pembelajaran dan proses pengenalan menggunakan metode jarak Mahalobis. Jarak yang terendah merupakan hasil dari suara vokal sinyal uji dari proses pengenalan pola. METODOLOGI Perekaman awal suara diambil dari tiga orang responden laki-laki. Ciri suara diperoleh dari Ekstraksi suara vokal menggunakan ekstraksi TWD dengan mother wavelet db3 detil level 4 dan LPC. Hasil ekstraksi ciri TDW diseragamkan panjang datanya untuk kemudian diproses di LPC. Pengujian data pembelajaran sebanyak 225 data, proses pengenalan dengan menggunakan metode jarak Mahalobis. Gambar 1 memperlihatkan metode dari penelitian. Dalam praknteknya sebagian besar sinyal adalah dalam kawasan watu, dalam artian apapun sinyal yang diukur merupakan fungsi dari waktu (Robi Polikar, 2001). Untuk memperoleh informasi yang terkandung di dalam sinyal kita memerlukan sebuah metoda analisis dan salah satunya adalah yang dikenal dengan Transformasi Fourier (TF).
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 123
SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
Transformasi Fourier hanya memberikan informasi frekuensi dari sebuah isyarat tapi tidak memberikan informasi waktu. Dalam alisis isyarat yang memiliki frekuensi bervariasi dalam satuan waktu, diperlukan transformasi yang dapat memberikan resolusi frekuensi dan waktu secara bersamaan, analisis ini disebut juga dengan Analisis Multi Resolusi (AMR), Transformasi Wavelet adalah AMR yang dapat merepresentasikan isyarat dalam kawasan frekuensi dan waktu.
Gambar 2 memperlihatkan filter dari Transformasi wavelet Diskrit, dimana LowPass Filter meloloskan frekuensi rendah dan HighPass Filer meloloskan frekuensi tinggi, ini disebut juga dengan filter dasar dari Transformasi Wavelet Diskrit. Aproksimasi adalah skala tinggi dengan komponen frekuensi rendah dan Detil adalah skala rendah dengan kompone frekuensi tinggi (Michael Misiti, 1996)
Input Perekaman Suara Pre-Processing Membaca data suara Ekstraksi Ciri TWD db3 detil level 4, menyeragamkan keluaran wavelet menjadi 4001, membuat matrik data pembelajaran, ektraksi dengan LPC
Gambar 2. Filter Dasar TWD Pengenalan Pola Pengujian data pembelajaran (225 data). Proses Pengenalan Menggunakan Jarak mahalobis
Output Mendeteksi Suara vokal a/i/u/e/o
Gambar 1 Blok Diagram Penelitian 1. Transformasi Wavelet Diskrit Sebuah ujaran (speech) adalah sinyal nonstasioner. Transformasi Fourier (FT) tidak cocok untuk analisa sinyal nonstasioner karena hanya memberikan informasi frekuensi sinyal tetapi tidak memberikan informasi kapan waktu terjadinya frekuensi tersebut. Transformasi Wavelet mengurai sinyal melalui translasi dan dilatasi dari mother wavelet. Mother wavelet merupakan fungsi waktu dengan energi terbatas dan fast decay. Fersi yang berbeda dari wavelet tunggal adalah ortogonal satu sama lainnya. Transformasi Wavelet Kontinu di terjemah kan dalam persamaan 1 dimana (t) disebut juga mother wavelet (ibu wavelet) dan merupakan faktor skala dan parameter translasi (N. S. Nehe, 2012) *
(1)
Gambar 3, memperlihatkan dekomposisi dan rekontruksi beberapa tingkat. Dalam dekomposisi beberapa tingkat, hasil keluaran low-pass filter kemudian digunakan untuk melakukan proses dekomposisi ke tingkat berikutnya. Proses ini kemudian diulang sampai pada tingkat dekomposisi yang diinginkan. Dari gambar 3 dapat ditulis dengan S= CA3+CD3+CD2+CD1
Gambar 3. Tingkat Dekomposisi Multi Level Setelah mendapatkan tingkat dekomposisi yang diinginkan, kemudian dilakukan proses rekontruksi, hasil rekontruksi dari dekomposisi menjadi ciri dari suara vokal. Gambar 4 rekontruksi sinyal hasil dekomposisi
Transformasi Wavelet Kontinu melakukan analisis multi resolusi dengan kontraksi dan dilatasi fungsi wavelet. Transformasi Wavelet Diskrit menggunakan filter bank untuk membangun multi resolusi dalam frekuensi-waktu (J.R.E.Merry, 2005).
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 124
SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
Pada tahap awal, perekaman suara dilakukan dari tiga orang serponden laki-laki dengan rentang usia 24-27 tahun. Setiap responden mengucapkan masing-masing 15 kali pengucapan setiap vokal. Perekaman menggunakan headset dengan kedudukan microphone yang fix, diharapkan tidak terjadi variasi jarak. Gambar 5 dibawah ini memperlihatkan suara vokal hasil perekaman. Gambar 5a memperlihatkan hasil rekaman suara vokal a, 5b memperlihatkan hasil rekaman suara vokal i, 5c memperlihatkan hasil rekaman suara vokal u, 5d memperlihatkan hasil rekaman suara vokal e, 5e memperlihatkan hasil rekaman suara vokal o. Gambar 4 Rekontruksi TWD
Sinyal -- a1.wav
Sinyal -- i1.wav
0.8
0.15
0.6
0.1
0.4
0.05 0.2
2. Linear Predictive Coding (LPC) Linear Predictive Coding adalah sebuah alat yang digunakan dalam pemrosesan sinyal audio dan pengolahan ujaran (speech). Untuk mewakili amplop spektral dari sinyal digital sebuah ujaran dalam bentuk terkompresi menggunakan informasi dari model prediktif linier Aspek yang paling penting dari LPC adalah filter prediksi linier yang memungkinkan nilai dari sampel berikutnya akan ditentukan oleh kombinasi linier dari sampel sebelumnya (Jeremy Bradbury, 2000). Pada waktu tertentu, , sampel ujaran adalah representasi sebuah penjumlahan linier dari sampel sebelumnya. Hal ini dapat diwakili oleh persamaan 2
0 0
-0.05 -0.2
-0.1
-0.4
-0.15
-0.6 -0.8
0
0.2
0.4
0.6 0.8 Waktu (s)
1
1.2
1.4
-0.2
(a) Suara Vokal A
0
0.2
0.4
1
1.2
1.4
(b) Suara Vokal I
Sinyal -- u1.wav
Sinyal -- e1.wav
0.15
0.3
0.1
0.2
0.05
0.1
0
0
-0.05
-0.1
-0.1
-0.2
-0.15
-0.2
0.6 0.8 Waktu (s)
-0.3
0
0.2
0.4
0.6 0.8 Waktu (s)
1
1.2
-0.4
1.4
(c) Suara Vokal U
0
0.2
0.4
0.6
0.8 Waktu (s)
1
1.2
1.4
1.6
(d) Suara Vokal E Sinyal -- o1.wav
0.4
0.3
0.2
0.1
S(k)=ak -1 s(k-1) +ak-2 s(k-2) +.. ak-n s(k-n)
(2)
0
-0.1
-0.2
Dimana S(k) adalah nilai dari sinyal pada waktu (k), koefisien aki disebut juga Linier Prediktive Coding Coefficient. Koefisien dapat dianalisis untuk memberikan wawasan dengan sifat sinyal. Fitur lain yang penting dari LPC adalah meminimalkan jumlah dari perbedaan kuadrat antara ujaran asli dan sinyal ujaran perkiraan selama durasi terbatas. Hal ini menghasilkan sebuah seperangkat unik koefisien prediktor yang biasanya diperkirakan dengan panjang frame 20ms sampai 50ms. Koefisien prediktor diwakili oleh ak. Fungsi parameter penting lain adalah gain (G). fungsi transfer dari variasi waktu filter digital diberikan pada persamaan 3 (Sonia Sunny, 2012). (3)
-k
HASIL DAN PEMBAHASAN 1. Pre-processing
-0.3
0
0.1
0.2
0.3
0.4
0.5 0.6 Waktu (s)
0.7
0.8
0.9
1
(e) Suara Vokal O Gambar 4 Suara Vokal Hasil Perekaman
2. Ekstraksi Ciri Pada tahap ini ekstraksi ciri menggunakan Transformasi Wavelet Diskrit, dengan mother wavelet db3 (Daubechies3) dengan tingkat dekomposisi level 4. Dalam penelitian ini yang menjadi ciri adalah hasil dekomposisi dan rekontruksi dari db3 detil 4. Gambar 5 memperlihatka hasil rekontruksi dari suara vokal. Pada gambar 5a dapat dilihat detil 1 memiliki frekuensi yang tinggi sehingga suara yang dihasilkan melengking. Semakin tinggi level dekomposisi maka frekuensi yang dihasilkan akan semakin rendah (suara cenderung bass) dan hampir tidak teerdengar pengucapan suara vokal tersebut. Dari pengamatan ini peneliti mengambil kesimpulan tingkat dekomposisi detil level 4 yang
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 125
SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
Ekstraksi LPC untuk Data Pembelajaran
dijadikan pencirian dari suara vokal yang akan masuk ke proses selanjutnya Hasil dari ekstraksi ciri DWT, memiliki panjang data yang berbeda. Hal ini disebabkan perbedaan waktu respoden dalam pengucapan suara vokal. Dikeranekan panjang data yang berbeda dilakukan penyeragaman menjadi 4001 sampel dengan alasan, dalam kenyataannya rata-rata pengucapan huruf vokalsetiap responden adalah dalam rentang 0,3 detik sampai 0,4 detik. Sehingga penyeragaman suara diambil 4001 (0,5 detik). Hasil penyeragaman disimpan dalam format *.mat
1.5 1 0.5 0 -0.5 -1 Vokal A Vokal I Vokal U Vokal E Vokal O
-1.5 -2
Suara Asli 1 0 -1 0.2 0 -0.2 1 0 -1 0.5 0 -0.5 0.1 0 -0.1
-2.5 0
2000
4000
6000 8000 Detail Level 1
10000
12000
14000
0
2000
4000
6000 8000 Detail Level 2
10000
12000
14000
0
2000
4000
6000 8000 Detail Level 3
10000
12000
14000
0
2000
4000
6000 8000 Detail Level 4
10000
12000
14000
0
2000
4000
6000
10000
12000
14000
8000
Gambar 5.a) Rekontruksi Detail Suara Asli 1 0 -1 1 0 -1 1 0 -1 0.1 0 -0.1 0.05 0 -0.05
0
2000
4000
6000 8000 Approx Level 1
10000
12000
0
5
10
15
memperlihatkan grafik dari distribusi mixture model pada LPC untuk setiap sampel suara vokal Gambar 6. Grafik Distribusi Mixture LPC Setiap Suara vokal 3. Pengenalan Pola Pada blok pengenalan pola dilakukan pengujian sinyal hasil ekstraksi ciri dengan sinyal masukan (data pembelajaran). Hasil pengujian data pembelajaran dengan menggunakan metode pengukuran jarak mahalobis. Gambar 7 memperlihatkan grafik distribusi mixture ekstraksi LPC dan data pembelajaran. Sedangkan Gambar 8 memperlihatkan hasil dari pengujian data pembelajaran dengan menggunakan metode pengukuran jarak mahalobis. Jarak pengukuran terendah merupakan hasil dari suara vokal
14000
1.5 0
2000
4000
6000 8000 Approx Level 2
10000
12000
14000
0
2000
4000
6000 8000 Approx Level 3
10000
12000
14000
1 0.5 0
0
2000
4000
6000 8000 Approx Level 4
10000
12000
14000
0
2000
4000
6000
10000
12000
14000
-0.5 Vokal A Vokal I Vokal U Vokal E Vokal O Test LPC
-1 8000
-1.5
Gambar 5.b) Rekontruksi Aproksimasi Kemudian data yang telah diseragamkan diekstraksi ciri menggunakan algoritma LPC (Linear Predictive Coding). Gambar 6
-2 -2.5
0
5
10
15
20
25
30
35
Gambar 7 Grafik Distribusi Mixture Ektraksi LPC dan Data Pembelajran
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 126
SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
Suara Vokal A I U E O
4
2.5
x 10
2
Tingkat pengenalan (%) 100 100 100 100 100
1.5
KESIMPULAN 1
0.5
0
1
1.5
2
2.5 3 3.5 DATA HURUF VOKAL Nilai Terendah = 61.252
4
4.5
5
VOKALNYA =O
Gambar 8 Grafik Metode Pengukuran Jarak Mahalobis
Hasil analisa dan pembahasan dari sistem yang dibangun dengan dua metode ekstraksi ciri, Transformasi Wavelet Diskrit db3 detil level 4 dan LPC. LPC juga digunakan sebagai pengenalan, metode pengukuran jarak mahalobis digunakan sebagai pengujian. Metode yang telah dilakukan telah berhasil mencirikan suara vokal serta mengenali data pembelajaran dengan baik. Sesuai dengan hasil uji data pembelajaran yang dilakukan didapatkan hasil pengenalan 100%. Metode ini perlu dilakukan untuk menguji atau mengenali data diluar data pembelajaran UCAPAN TERIMA KASIH
Tampilan hasil dari pengujian pembelajaran diperlihatkan Gambar 9
suara
Terima kasih kepada Dr. Ir. Risanuri Hidayat, M.Sc, dan Ir. Sujoko Sumaryono, MT atas izin pemanfaatan fasilitas di Lab Sistem Informasi di FT. JTETI Universitas Gadjah Mada, Yogyakarta.
SUARA Dikenali LPC Sbg-O 0.4
DAFTAR PUSTAKA 0.3
0.2
0.1
0
-0.1
-0.2
-0.3
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Gambar 9 Tampilan Hasil Pengujian Suara Pembelajaran Tingkat pengenalan dari seluruh data masukan sinyal pembelajaran diperlihatkan pada tabel 1. Tabel 1 diperoleh dari hasil pengenalan pada pengujian dari data pembelajaran. Data pembelajaran sebanyak 225. Data pembelajaran diperoleh dari 3 orang responden, setiap responden mengucapkan masing-masing 15 kali pengucapan setiap huruf vokal. Tabel 1. Tingkat Pengenalan Data Pembelajaran Deteksi Suara Vokal
http://www.learnartificialneuralnetworks.com /speechrecognition.html Jeremy Bradbury. Linear Predictive Coding. 2000. Laurance Rabirer, Biing-Huang Juang. Fundamental Of Speech Recognition. Prentice-Hall, Eglewood Clift, New Jersey, 1993 Michel Misiti, Yves Misiti, Georges Oppenheim and Jean-Michael Poggi. Wavelet Toolbox For Use With MATLAB N. S. Nehe, R. S Holambe, DWT and LPC based Feature Extractioan Method for Isolated Word Recognition, EURASIP Journal on Audio, Speech, and Music Processing, 2012 R.J.E Merry Wavelet Theory and Applications A literature study, Eindhoven University of Technology Department of Mechanical Engineering Control Systems Technology Group, Eindhoven, June 7, 2005 Robi Polikar. The Engineer’s Ultimate Guide To Wavelet Analysis Shivesh Ranjan. A Discrete Wavelet Transform Based Approach to Hindi Speech Recognition. International Conference on
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 127
SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi
Signal Acquisition and Processing, IEEE, 2010 Sonia Sunny, David Peter S and K Poulose Jacob. Feature Extraction Methods based on Linear Predictive Coding and Wavelet Packet Decomposition for Recognizing Spoken Words in Malayam. International Conference on Advances in Computing and Communication, 2012
SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013
E 128