Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Perintah Suara Berbahasa Indonesia untuk Membuka dan Menutup Aplikasi dalam Sistem Operasi Windows Menggunakan Metode Mel Frequency Cepstrum Coefficient dan Metode Backpropagation Zakaria Ramadhan1, Sukmawati Nur Endah2 1
Departemen Ilmu Komputer/ Informatika, Fakultas Sains dan Matematika, Universitas Diponegoro Email:
[email protected],
[email protected]
Abstrak Speech recognition (pengenalan suara ucapan) merupakan upaya manusia untuk menciptakan teknologi yang mampu berinteraksi dengan manusia secara langsung melalui bahasa sehari-hari. Salah satu aplikasi speech recognition adalah perintah kepada komputer lewat suara ucapan. Aplikasi ini dikembangkan menggunakan metode Mel Frequency Cepstrum Coeffcient (MFCC) sebagai ekstraksi ciri dan Jaringan Syaraf Tiruan Backpropagation sebagai metode pengenalan pola. Data yang digunakan dalam aplikasi ini berjumlah 160 suara yang berasal dari lima orang. Masing-masing orang mengucapkan access, foxit, excel, kamus, matlab, notepad, tutup dan winword sebanyak empat kali. Input suara berupa file wav atau rekaman secara langsung dengan frekuensi 44100 Hz. Pengujian terbaik dari aplikasi tersebut diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055 dan learning rate 0.1 dengan akurasi pengenalan 50%. Kata kunci: Speech recognition, Mel Frequency Cepstrum Coeffcient, Jaringan Syaraf Tiruan, Backpropagation, Perintah Suara. Abstract Speech recognition is a human effort to create technology that is able to interact with humans directly through daily language. One of speech recognition applications is an instruction to the computer via voice of speech. This application was developed using the Mel Frequency Cepstrum Coefficient (MFCC) as feature extraction and Neural Network Backpropagation as a method of pattern recognition. The data that are used in this application were 160 voices from five people. Each people speaks access, foxit, excel, kamus, matlab, notepad, tutup and winword as much as four times. Input voice was from wav file or direct record with a frequency of 44100 Hz. The best test of the application obtained from MFCC coefficient 3, hidden neuron 153, MSE 0.0055 and the learning rate of 0.1 with recognition accuracy 50%. Keyword: Speech recognition, Mel Frequency Cepstral Coefficient, Artificial Neural Network, Backpropagation, Voice Command.
1. PENDAHULUAN Semakin berkembangnya teknologi saat ini, semakin pula usaha manusia untuk berupaya memaksimalkan fungsi teknologi. Manusia berupaya memaksimalkan fungsi tersebut untuk mempermudah segala urusannya di segala aspek kehidupan. Salah satunya adalah Speech recognition (pengenalan suara ucapan). Speech recognition merupakan upaya manusia untuk menciptakan teknologi yang mampu berinteraksi dengan manusia secara langsung melalui bahasa sehari-hari. Speech recognition adalah kemampuan mesin atau program untuk mengenali kata yang diungkapkan dalam bahasa ucapan dan mengubahnya ke dalam format yang dapat dibaca oleh mesin [1]. Oleh karena itu, Speech recognition dapat melakukan transfer informasi antara manusia dengan komputer dengan suara ucapan. Transfer informasi antara manusia dengan mesin atau komputer biasanya dilakukan lewat keyboard atau mouse. Tetapi tidak semua manusia dapat menggunakan alat tersebut untuk mentransfer informasi ke dalam mesin atau komputer secara langsung. Ada faktor-faktor yang dapat menghambat manusia dalam menggunakan alat tersebut, seperti cacat fisik tangan (tuna daksa) dan tuna netra. Manusia dapat mengeluarkan suara ucapan dengan cepat sebagai pengganti untuk melakukan perintah kepada komputer. Untuk itu dibutuhkan sebuah aplikasi yang dapat melakukan perintah kepada komputer lewat suara ucapan. Aplikasi perintah kepada komputer lewat suara ucapan sudah diterapkan dalam sistem operasi Windows Vista, Windows 7 dan Windows 8. Tetapi aplikasi tersebut belum menyediakan layanan dalam bahasa Indonesia. Hanya tersedia 6 bahasa yaitu bahasa Inggris, Francis, Spanyol, Jerman, Jepang dan China.
33
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Perintah kepada komputer lewat suara ucapan membutuhkan dua proses penting yaitu feature extraction (pemisahan ciri) dan pengenalan suara. Feature extraction merupakan proses memisahkan ciri dari suara untuk membedakan suatu pola dengan pola lainnya. Salah satu metode yang digunakan untuk feature extraction yaitu Mel Frequency Cepstrum Coefficient (MFCC). Setelah dilakukan proses ekstraksi ciri, proses selanjutnya adalah pengenalan suara. Salah satu metode yang digunakan untuk pengenalan suara yaitu jaringan syaraf tiruan. Jaringan syaraf tiruan merupakan metode yang cara kerjanya terinspirasi oleh sistem sel syaraf, sama seperti otak yang memproses suatu informasi. Metode tersebut diminati beberapa tahun terakhir dan sukses untuk memecahkan berbagai masalah disiplin ilmu, seperti bidang finansial, kedokteran, teknik, geologi dan fisika [2]. Salah satu metode jaringan syaraf tiruan yang populer digunakan untuk pengenalan suara yaitu metode Backpropagation. Oleh karena itu, pembuatan aplikasi perintah suara dalam penelitian ini fokus pada bahasa Indonesia untuk membuka dan menutup aplikasi dalam sistem operasi Windows. Metode yang diterapkan yaitu Mel Frequency Cepstrum Coefficient (MFCC) sebagai pemisahan ciri dan Backpropagation sebagai pengenalan suara. 2. METODE Aplikasi perintah suara berbahasa Indonesia untuk membuka dan menutup aplikasi dalam Windows mengunakan metode MFCC dan Backpropagation merupakan aplikasi berbasis dekstop yang dapat digunakan untuk membuka dan menutup aplikasi dalam Windows dengan perintah suara. Alur proses aplikasi perintah suara dijelaskan pada Gambar 1.
Gambar 1. Alur proses aplikasi perintah suara Berikut penjelasan dari masing-masing blok proses aplikasi perintah suara: 1) Input Data Proses ini adalah proses input sinyal suara melalui rekaman untuk data pelatihan, data uji, dan data suara langsung. Input sinyal suara tersebut terdiri dari access, foxit, excel, kamus, matlab, notepad, tutup, dan winword. Input data pelatihan dan data uji disimpan di tempat penyimpanan data suara. Sedangkan data suara langsung tidak disimpan di tempat penyimpanan data suara. Data suara langsung merupakan data yang digunakan untuk pengenalan suara secara rekaman langsung. 2) Preprocessing Preprocessing merupakan tahap untuk membuang informasi-informasi yang tidak diperlukan dari sinyal. Berikut penjelasan tahapan preprocessing: a. Normalisasi Amplitudo Normalisasi amplitudo dilakukan dengan cara membagi semua sampel sinyal ucapan dengan sampel sinyal ucapan maksimum, sehingga untuk semua sinyal ucapan memiliki nilai maksimum yang sama yaitu 1 [3].
34
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
b. DC Removal DC removal dilakukan dengan cara menghitung rata-rata dari sampel suara dan mengurangkan nilai sampel suara dengan nilai rata-rata tersebut [4]. ( )
( )
(1)
Keterangan: ( ) = sampel sinyal hasil proses DC removal ke-n ( ) = hasil normalisasi ke-n = nilai rata–rata sampel sinyal asli n = nomor urut sinyal (1,2,...,N); adalah panjang sinyal c. Pre-emphasis Filter ini mempertahankan frekuensi-frekuensi tinggi pada sebuah spektrum, yang umumnya tereliminasi pada saat proses produksi suara [4]. ( )
( )
(
)
(2)
Keterangan: ( ) = hasil perhitungan pre-emphasis ke-n = nomer urut sinyal ( ) = sampel sinyal hasil proses DC removal ke-n = konstanta filter pre-emphasis, biasanya bernilai 0,9 ≤
≤ 1,0.
a. Ekstraksi Ciri Mel Frequency Cepstrum Coefficient (MFCC) Tujuan dari Mel Frequency Cepstrum Coefficient yaitu memisahkan ciri dari suara untuk membedakan suatu pola dengan pola lainnya. Tahapan dari proses MFCC dapat dijelaskan sebagai berikut [5]: a. Frame Bloking, proses ini membagi sinyal suara ke dalam frame. Satu frame terdiri dari beberapa sampel tergantung tiap detik suara akan disampel dan berapa besar frekuensi suara. Sinyal suara dibagi menjadi beberapa frame dan saling overlapping. Panjang daerah overlapping yang umum digunakan adalah 30%-50% dari panjang frame. b. Windowing, dalam tahap ini sinyal suara yang telah dibagi menjadi ke dalam frame dilakukan proses windowing untuk meminimalkan diskontinuitas sinyal. Window yang dipakai dalam proses ini adalah Hamming window dengan persamaan: ( ) ( ) (3) Keterangan: ( ) = hasil perhitungan hamming window ke-n = nomer urut sinyal = panjang sinyal c. Fast Fourier Transform (FFT), mengubah setiap kerangka sampel n dari domain waktu ke domain frekuensi. Berikut pesamaannya: ( ) ∑ ( ) ( ) ∑ ( ) ( ) (4) Keterangan: ( ) = hasil perhitungan FFT ke-k ( ) = hasil perhitungan windowing ke-n = nomer urut sinyal = indeks dari frekuensi (1,2,...N); adalah panjang sinyal d. Mel-Frequency Wrapping, berdasarkan penelitian psikofisik bahwa persepsi manusia terhadap frekuensi suara tidak mengikuti skala linier. Proses wrapping terhadap sinyal dalam domain frekuensi menggunakan persamaan: ( ) ( ) ( ) (5) Keterangan: ( ) = hasil perhitungan mel-frequency wrapping ke-m ( ) = hasil perhitungan FFT ke-k = koefisien filterbank = nomor urut sinyal = 1,2, ..., M ; adalah jumlah filter bank e. Cepstrum, tahap ini mengkonversikan log mel spectrum ke dalam domain waktu. Hasil dari proses ini disebut mel frequency cepstrum coefficient.
35
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
∑
(
)
* (
) +
(6)
Keterangan: = hasil proses cepstrum = keluaran dari proses mel frequensi wrapping pada indeks k = jumlah koefisien yang diharapkan b. Normalisasi Hasil Ekstraksi Ciri Normalisasi adalah penskalaan terhadap nilai-nilai masuk ke dalam suatu range tertentu. Hal ini dilakukan agar nilai input dan target output sesuai dengan range dari fungsi aktivasi yang digunakan dalam jaringan. Bila fungsi aktivasi yang digunakan adalah sigmoid biner, maka persamaan normalisasi yang dapat digunakan yaitu [6]: ( ) (7) Keterangan: = hasil normalisasi = data asli = data maksimum = data minimum c. Pelatihan Jaringan Backpropagation Algoritma pelatihan jaringan backpropagation yaitu sebagai berikut [7]: Inisialisasi bobot-bobot. Tentukan angka pembelajaran (α). Tentukan nilai toleransi error dan maksimal epoch sebagai kondisi berhenti. 1. Kondisi berhenti tidak terpenuhi lakukan langkah ke-2 sampai langkah ke-9. 2. Untuk setiap pasangan pola pelatihan, lakukan langkah ke-3 sampai langkah ke-8. Tahap umpan maju. 3. Setiap unit input meneriman sinyal dan meneruskannya ke unit tersembunyi. 4. Hitung semua keluaran di unit tersembunyi dengan rumus: ∑ ( ) (8) Kemudian dikirim ke semua unit di lapisan atasnya. 5. Hitung semua keluaran di unit output: ∑ ( ) (9) Tahap pempropagasibalikan error 6. Setiap unit output menerima pola target lalu informasi kesalahan lapisan output ( ) dihitung. dikirim ke lapisan di bawahnya dan digunakan untuk menghitung besar koreksi bobot dan bias antara lapisan tersembunyi dengan lapisan output: ( ) ( ∑ ) (10) (11) (12) 7. Pada setiap unit di lapisan tersembunyi dilakukan perhitungan informasi kesalahan lapisan tersembunyi ( ). kemudian digunakan untuk menghitung besar koreksi bobot dan bias antara lapisan input dan lapisan tersembunyi. ∑ (∑ ) ( ) (13) (14) (15) Tahap peng-update-an boot dan bias 8. Pada setiap unit output dilakukan peng-update-an bias dan bobot: ( ) ( ) (16) Dari unit ke-1 sampai unit ke-p di lapisan tersembunyi dilakukan peng-update-an pada bias dan bobotnya: ( ) ( ) (17) 9. Tes kondisi berhenti Arsitektur jaringan Backpropagation yang dibentuk pada penelitian ini terlihat pada Gambar 2.
36
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 2. Arsitektur jaringan backpropagation Pada Gambar 2 menunjukkan jaringan ini memiliki satu lapisan input yang terdiri dari m neuron dan satu neuron bias. Nilai m merupakan jumlah neuron input dengan jumlah banyaknya sinyal hasil dari proses ekstraksi ciri MFCC. Jika nilai koefisien MFCC adalah 2, 3, 4, atau 5 maka nilai m untuk lapisan input jaringan yaitu 198, 297, 396, atau 495. Lapisan tersembunyi untuk jaringan ini berjumlah satu lapis. Jumlah neuron pada lapisan tersembunyi berjumlah n neuron dan satu neuron bias. Untuk penelitian ini nilai n yang digunakan adalah dan dari penambahan input dan output neuron. Jika nilai input jaringan adalah 198, 297, 396, atau 495 maka nilai n adalah 103 dan 137, 153 dan 203, 202 dan 269 atau 252 dan 335. Lapisan ini menggunakan aktivasi sigmoid biner yang merupakan fungsi aktivasi yang umum digunakan. Fungsi aktivasi sigmoid biner memiliki range keluaran antara 0 sampai 1. Lapisan output untuk jaringan ini berjumlah satu lapis yang memiliki delapan neuron output. Jumlah node neuron output tersebut dapat mewakili delapan kata yang akan dikenali oleh jaringan backrpopagation. Lapisan ini menggunakan aktivasi sigmoid biner. d. Pengenalan Suara Algoritma proses pengenalan suara yaitu sebagai berikut [7]: 1. Inisialisasi bobot. Bobot ini diambil dari bobot terakhir yang diperoleh dari algoritma pelatihan. 2. Untuk setiap vektor input, lakukan langkah ke-2 sampai ke-4. 3. Setiap unit input meneriman sinyal dan meneruskannya ke unit tersembunyi. 4. Hitung semua keluaran di unit tersembunyi dengan rumus: ∑ ( ) (18) Kemudian dikirim ke semua unit di lapisan atasnya. 5. Hitung semua keluaran di unit output: ∑ ( ) (19) e. Eksekusi Perintah Suara Proses ini akan membuka/menutup aplikasi dalam sistem operasi windows sesuai dengan hasil yang telah dikenali dalam proses pengenalan suara. 3. HASIL DAN PEMBAHASAN 3.1. Hasil 3.1.1. Rencana Pengujian Pengujian ini digunakan untuk mendapatkan tingkat akurasi terbaik dengan merubah parameter pelatihan dan koefisien MFCC. Data yang digunakan berjumlah 160 data suara yang berasal dari 5 orang yang berbeda. Masing-masing orang mengucapkan 8 kata sebanyak 4 kali. Frekuensi suara yang digunakan sebesar 44100 Hz. Proses perekaman dilakukan di ruangan yang tidak kedap suara. Data suara tersebut akan digunakan sebagai data pelatihan yang berjumlah 128 data suara dan data pengujian yang berjumlah 32 data suara. Pengujian ini dilakukan dengan menggunakan 5-fold cross validation, sehingga data suara dikelompokkan menjadi 5 kelompok. Setiap kelompok terdiri dari 32 data suara, dimana 32 data suara
37
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
tersebut terdiri dari 8 kelas yang masing-masing terdapat 4 data suara. Komposisi pembagian kelompok data pelatihan dan data uji dapat dilihat pada Tabel 1. Tabel 1. Kelompok data latih dan data uji Fold ke1 2 3 4 5
Kelompok Data Latih 2,3,4,5 1,3,4,5 1,2,4,5 1,2,3,5 1,2,3,4
Kelompok Data Uji 1 2 3 4 5
Dengan pembagian kelompok data latih dan data uji dengan cara seperti pada Tabel 1, semua data suara berkesempatan menjadi data latih dan data uji. Setiap fold kelompok data latih dan kelompk data uji akan menjalankan pelatihan dan pengujian dengan rencana pengujian yang ditunjukkan pada Tabel 2. Tabel 2. Rencana pengujian Parameter Koefisien MFCC Nilai Learning Rate Jumlah Hidden Neuron
Pengujian 2,3,4, dan 5 0.1, 0.2, 0.3, 0.4, dan 0.5 dan dari penambahan input dan output neuron
Nilai Epoch Maksimal MSE Minimal
30000 epoch 0.01 dan 0.0055
3.1.2. Hasil Pengujian Bentuk pengujian dilakukan berdasarkan Tabel 2 dengan menggunakan data latih dan data uji berdasarkan Tabel 1. Hasil dari pengujian ditunjukkan pada Tabel 3. Menurut hasil yang ditunjukkan pada Tabel 3, pengujian yang terbaik diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055 dan learning rate 0.1 dengan akurasi pengenalan 50%. Tabel 3. Hasil pengujian Koefisien MFCC
Hidden Neuron 103
2 137 153 3 203 202 4 269 252 5 335
MSE 0.01 0.0055 0.01 0.0055 0.01 0.0055 0.01 0.0055 0.01 0.0055 0.01 0.0055 0.01 0.0055 0.01 0.0055
0.1 42.500% 46.250% 41.250% 40.625% 45.000% 50.000% 45.000% 48.750% 47.500% 48.125% 44.375% 47.500% 46.875% 48.750% 44.375% 46.250%
0.2 40.000% 40.625% 36.875% 41.250% 40.625% 41.250% 39.375% 41.875% 40.000% 40.625% 45.000% 43.750% 40.000% 43.125% 40.625% 43.750%
Learning Rate 0.3 39.375% 40.000% 39.375% 46.875% 41.875% 41.875% 44.375% 47.500% 41.250% 41.875% 42.500% 45.000% 40.625% 41.250% 41.875% 44.375%
0.4 44.375% 40.000% 37.500% 42.500% 44.375% 47.500% 43.125% 49.375% 43.125% 45.625% 37.500% 43.125% 42.500% 45.625% 41.875% 42.500%
0.5 40.000% 43.125% 33.750% 38.125% 46.875% 48.750% 46.875% 46.875% 40.625% 45.000% 43.750% 45.000% 40.000% 44.375% 43.125% 44.375%
3.2. Pembahasan Berdasarkan hasil pengujian pada Tabel 3, berikut penjelasan analisis hasil berdasarkan tiap parameter pelatihan: 1) Koefisien MFCC Dari hasil pengujian dapat dilihat bahwa akurasi tertinggi didapatkan ketika menggunakan koefisien MFCC 3. Ketika proses pengujian mengganti nilai koefisien MFCC dari 2 menjadi 3, akurasi cenderung meningkat walaupun tidak terlalu signifikan. Sedangkan, ketika pengujian menggunakan jumlah koefisien 4 atau 5 justru hasil akurasi cenderung menurun, meskipun penurunan tidak terlalu signifikan. Penambahan jumlah koefisien menjadi 4 atau 5 akan membuat dimensi data lebih besar. Dimensi data yang besar membuat kemampuan pengenalan JST Backpropagation lebih rendah sehingga akurasinya pun menurun. Grafik perbandingan pengaruh koefisien MFCC terhadap akurasi ditunjukkan pada Gambar 3. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik.
38
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 3. Grafik perbandingan pengaruh koefisien MFCC terhadap akurasi 2) Hidden Neuron Dari hasil pengujian dapat dilihat bahwa hidden neuron dengan jumlah ½ dari penambahan input dan output neuron cenderung menghasilkan akurasi yang lebih baik dibandingkan dengan hidden neuron dengan jumlah 2/3 dari penambahan input dan output neuron. Grafik perbandingan pengaruh jumlah hidden neuron terhadap akurasi ditunjukkan pada Gambar 4. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik.
Gambar 4. Grafik perbandingan pengaruh jumlah hidden neuron terhadap akurasi 3) MSE Dari hasil pengujian dapat dilihat bahwa MSE dengan nilai 0.0055 cenderung menghasilkan akurasi lebih baik dibandingkan dengan MSE dengan nilai 0.01. JST Backpropagation dengan nilai MSE yang rendah membuat nilai output semakin mendekat dengan nilai target. Sehingga, JST Backpropagation lebih mudah mengenali suara tertentu sesuai dengan target yang telah ditentukan. Grafik perbandingan pengaruh MSE terhadap akurasi ditunjukkan pada Gambar 5. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik.
Gambar 5. Grafik perbandingan pengaruh MSE terhadap akurasi
39
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
4) Learning Rate Dari hasil pengujian dapat dilihat bahwa hasil akurasi tertinggi terjadi ketika menggunakan learning rate 0.1. Ketika pengujian menggunakan learning rate 0.2, 0.3, 0.4, atau 0.5, hasil akurasi cenderung lebih rendah dibanding ketika menggunakan learning rate 0.1. Grafik perbandingan pengaruh learning rate terhadap akurasi ditunjukkan pada Gambar 6. Perbandingan tersebut diambil dari hasil pengujian dengan parameter terbaik.
Gambar 6. Grafik perbandingan pengaruh learning rate terhadap akurasi Hasil akurasi pengujian parameter pelatihan secara umum memiliki nilai yang rendah. Nilai maksimal akurasi yang dapat dicapai hanya sampai 50%. Beberapa faktor yang menyebabkan rendahnya nilai akurasi yaitu: 1) Kata yang sama yang diucapakan oleh orang yang berbeda cenderung menghasilkan sinyal suara yang berbeda. Seperti yang tertera pada Gambar 7 yang merupakan sinyal suara dari kata „matlab‟ yang diucapkan oleh dua orang yang berbeda. Hal itu menyebabkan sulitnya JST Backpropagation dalam mengenali kata yang sama.
Gambar 7. Sinyal suara kata „matlab‟ dari 2 orang berbeda. 2) Sinyal suara yang akan diproses oleh ekstraksi ciri MFCC belum terlebih dahulu mengalami proses penghilangan sinyal suara noise. Seperti yang tertera pada Gambar 8 terdapat sinyal yang dilingkari merah yang merupakan sinyal suara noise. Sinyal tersebut tetap mengalami proses ekstrasi ciri MFCC. MFCC menggunakan power spectrum sebagai penentu ekstraksi ciri. Power spectrum bersifat sensitif terhadap sinyal suara dengan noise yang akan mempengaruhi hasil dari ekstaksi ciri. Sehingga JST backpropagation mengalami kesulitan dalam mengenali kata.
40
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 8. Sinyal suara dengan noise 3) Sinyal suara didapat dari perekaman yang dilakukan di ruangan yang tidak kedap suara. Hal ini menyebabkan suara yang dijadikan untuk data pelatihan masih terdapat noise. 4) Unvoiced (sampel suara dengan nilai amplitudo = 0) dalam sinyal suara tidak terlebih dahulu dihilangkan. Sebab antara sinyal suara memiliki sampel unvoiced yang berbeda. Sehingga bila unvoiced dihilangkan, maka neuron input dalam JST backpropagation akan memiliki jumlah yang berbeda antara satu sinyal dengan sinyal suara lainnya. 4. SIMPULAN Pengujian terbaik dari aplikasi tersebut diperoleh dari koefisien MFCC 3, hidden neuron 153, MSE 0.0055, dan learning rate 0.1 dengan akurasi pengenalan 50%. Faktor-faktor yang mempengaruhi akurasi pengenalan adalah jika nilai MSE minimal dan jumlah hidden neuron semakin kecil maka akurasi pengenalan semakin baik. Sedangkan perubahan nilai learning rate dan koefisien MFCC tidak berpengaruh secara signifikan terhadap akurasi pengenalan. 5. REFERENSI [1] Kaur, J., Nidhi., dan Kaur, R. 2012. Issues Involvel in Speech to Text Conversion. International Journal of Computational Engineering Research. Vol. 2(2):512-515. [2] Yani, E. 2005. Pengantar Jaringan Syaraf Tiruan. http://materikuliah.com, diakses 29 Januari 2014. [3] Irfandy, M. 2010. Aplikasi Pengenalan Ucapan dengan Jaringan Syaraf Tiruan Propagasi Balik untuk Pengendalian Robot Bergerak. http://eprints.undip.ac.id, diakses 25 Juli 2014. [4] Putra, D., Resmawan, A. 2011. Verifikasi Biometrika Suara Menggunakan Metode MFCC dan DTW. Lontar Komputer. Vol.2(1):8-21. [5] Do, M. 1994. Digital Signal Processing Mini Project: An Automatic Speaker Recognition System. http://minhdo.ece.illinois.edu, diakses 3 Juni 2014. [6] Siang, J. 2005. Jaringan Syaraf Tiruan dan Pemrogramannya Menggunakan Matlab. Andi Offset, Yogyakarta. [7] Puspitaningrum, D. 2006. Pengantar Jaringan Saraf Tiruan. Penerbit Andi, Yogyakarta.
41