Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
PERANGKAT LUNAK VERIFIKASI SUARA DENGAN METODE PENGOLAHAN SINYAL 1,2
Ninuk Wiliani1, Elvira Rosalina Novianti2
Program Studi Teknik Informatika, Institut Sains dan Teknologi Nasional Jl. Moh. Kahfi II, Bhumi Srengseng Indah, Jagakarsa, Jakarta Selatan 12640 1
[email protected] [email protected]
ABSTRACT The verification is very important role is a system, For the reason to prevent abuse and protect the data change an admin usually set restriction (role) for each user. The use of passwords to the text is usually used to overcome this undesirable things. An alternative to the use of passwords that have been considered less secure because the password input process can still be done by others. This software is used to identify a user based on the input in the form of sound. This software is known as Speech Recognation. The method used in this case is to use the sampling methode, the frame blocking, windowing, DFT, IDFT and capstrum liftering thus obtained extract signals that can be saved as a codebook. If the word is entered in accordance with the standards in the codebook, the system will be perform an action to perform user verification. The algorithm is used DTW (Dynamic Time Warping), by comparing the pattern of speech in determining the pattern similarity distance between different pattern. This algorithm measures the distance between two times series to obtain sequencing. The ability to use speech and pattern recognition problems time allignment and normalization. Precentage success of this system is devided into two. Online is about 77-85% while offline is 83-95% with some tendency errors matching said. Keywords : Verification, codebook, speech PENDAHULUAN Sebuah verifikasi memiliki peranan yang sangat penting di dalam perusahaan yang memiliki sebuah sistem. Seperti misalnya seorang pengelola SDM dan pengelola keuangan, mereka pasti mempunyai kepentingan yang berbeda dalam penggunaan aplikasi yang sama. Hak akses yang dan kepentingan yang berbeda itulah maka perlu adanya pengaturan dan pembatasan bagi tiap user dengan alasan penyalah gunaan dan perlindunga perubahan data yang mungkin saja terjadi karena ketidak sengajaan. Yang sering di gunakan adalah penggunaan password, namun password masih di rasa kurang dari segi keamanan, karena password masih bisa di input oleh orang lain yang tidak berkepentingan. Untuk itu dibuat salah satu alternatife pemecahan masalah untuk kasus ini, yaitu sebuah perangkat lunak untuk mengenali user berdasarkan input suara, yang di dalamnya terdapat pilihan parameter pemberian input, yaitu berdasarkan nama, alamat dan lain sebagainya, Perangkat lunak ini lebih di kenal dengan Speech Recognation.Teknologi ini berbasis fonem, memiliki kinerja yang tidak lebih baik dari pengenalan wicara berbasis kata, namun dengan memanfaatkan jumlah potongan fonem yang besar (secara statistik), maka hal ini diharapkan akan dapat diimplementasikan secara optimal dalam sistem ini. Penelitian ini mengkalisifikasikan bagian bagian atau komponen sinyal ucapan menjadi tiga keadaan yang berbeda, yaitu silence, voiced dan unvoiced. Kemudian membandingkan pola wicara dalam menentukan kesamaan jarak antara pola pola yang berbeda dan mentranformasikan sinyal dari domain waktu ke domain frekwnesi agar sinyal dapat diproses dalam spektral substraksi. Membuat suatu perangkat lunak untuk mengenali pengguna yang mengakses aplikasi yang di dalamnya terdapat proses sehingga suara yang diinputkan akan dikenali oleh sistem, dan dapat digunakan sebagai password dan pengaturan penggunaan hak akses user. Aplikasi ini juga dapat mengklasifikasikan sinyal ucapan menjadi tiga keadaan berbeda, silence, voiced dan unvoiced serta membandingkan pola wicara dalam menentukan kesamaan jarak antara pola pola yang berbeda. Diharapkan juga juga agar bisa mendapatkan fitur yang dapat membandingkan suara yang satu dengan yang lain. Aplikasi yang akan di buat ini diharapkan dengan harapan dapat membantu meningkatkan tingkat keamanan dengan mengganti input yang sebelumnya menggunakan text atau tulisan menjadi sebuah bentuk suara. A-283
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Speech Recognation (Pengenalan Wicara) adalah Sebuah proses yang dilakukan oleh komputer atau jenis mesin yang lain dalam mengenali kata yang diucapkan. Pada dasarnya, memiliki arti “berbicara dengan komputer, dan mengenali dengan benar apa yang kita katakan” - Utterance (Ucapan) Penyuaraan kata (berkata) atau kata yang melambangkan suatu arti ke komputer. Ucapan bisa menjadi 1 kata, beberapa kata, kalimat, ataupun kalimat majemuk - Speaker Dependance (Ketergantungan terhadap Pembicara) Sistem ini umumnya lebih teliti untuk speaker yang benar dan tepat dan bergantung pada atu user saja (pembuat sistem) namun ketepatannya jauh lebih kecil dibandingkan speaker yang lain (user yang lain) - Vocabularies (Perbendaharaan Kata) Daftar kata atau ucapan yang bisa di pakai oleh Speech Recognation sistem. Secara umum, vocab yang lebih kecil, lebih mudah bagi komputer untuk mengenali, sedangkan vocab yang lebih besar, tentu akan lebih sulit. - Accuract Kemampuan recognizer bisa di periksa dengan mengukur ketepatannya atau bagaimana sistem pengenalan tersebut dengan baik mengenali sebuah ucapan. Ketepatan sistem yang dapat diterima benar benar bergantung pada aplikasi yang ada. - Training (Pelatihan) Beberapa speaker recognize mempunyai kemampuan untuk menyesuaikan diri terhadap satu speaker yang lain. Kalau sistem mempunyai kemampuan ini, memungkinkan terjadinya pelatihan. Gressia Melissa mengatakan bahwa voice recognation dibagi menjadi 2 jenis, yaitu speech recognation dan speaker recognation. Parameter yang di bandingkan adalah tingkat penekanan suara yang kemudian dicocokkan dengan template database yang tersedia. Sistem Speech Recognition biasanya dapat dioperasikan pada dua mode yang berbeda, yaitu 1). Mode pembelajaran. Pada mode ini, sistem akan dilatih menggunakan sejumlah kata atau kalimat yang memenuhi suatu kriteria tertentu. Setiap contoh kata atau kalimat ajar tersebut akan menghasilkan pola tertentu yang akan dipelajari oleh sistem dan disimpan sebagai template atau referensi. 2).Mode produksi atau Pengenalan ucapan. Pada mode ini, setiap kalimat yang ingin dikenali akan dianalisis polanya. Berdasarkan hasil perbandingan dengan template atau referensi, modul klasifikasi pola serta pengambil keputusan akan mengidentifikasikan kata atau kalimat yang diucapkan tersebut. METODOLOGI PENELITIAN Penelitian ini dilakukan melalui beberapa tahapan, sebagai berikut : 1. Perekaman Suara sebagai sample Perekaman suara dari 30 orang dengan kombinasi jenis kelamin yang berbeda, yaitu 15 orang wanita dan 15 orang laki laki, kata kata yang direkam merupakan nama yang merupakan nama yang merupakan nama karangan dengan syarat terdiri dari 2 suku kata. 2. Pembuatan Database Pembuatan database dari sinyal sinyal suara yang telah diambil/direkam sebagai sinyal standar dari nama nama karangan dengan ketentuan terdiri dari 2 suku kata dan dibatasi selama 0,938 ms. 3. Proses Matching (Proses Pencocokan) Pematchingan dan pengambilan rata rata dari masing masing user pada database sehingga pada saat ada sinyal independent (sinyal baru) yang masuk, dapat dicari nilai errornya. Data dengan nilai error terkecil di asumsikan mempunyai tipikal suara yang sama dengan sinyal suara standar dan akan diijinkan untuk melakukan standard dan akan diijinkan untuk melakukan pencarian data pegawai. 4. Integrasi dan Pengujian Sistem Dilakukan integrasi antara program pembuatan database dengan program pembanding dan dilakukan pengujian sistem yang telah dibuat. Pengujina sistem dibagi menjadi 2, yaitu pengujian secara online dan pengujian secara offline. 5. Analisa Sistem A-284
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Sistem di analisa berdasarkan kaidah kaidah pengolahan sinyal wicara. 6. Software yang digunakan di gunakan di dalam penelitian ini adalah Ttcl/Tk dan Snack. Untuk dapat menginstal Snack, terlebih dahulu harus men-download paket instaler Snack 2.2.n dari internet tepatnya di situs www.speech.kth.se. Sebelum dapat menginstal Snack, dipastikan bahwa sudah terdapat Tcl/Tk yang terinstal di dalam sistem operasi yang digunakan. Untuk sistem operasi Linux biasanya Tcl/Tk sudah terinstal bersamaan dengan instalasi Linux. Tetapi untuk sistem operasi windows, harus menginstal terlebih dahulu Tcl/Tk. Tcl/Tk adalah suatu bahasa pemrograman script yang dapat bekerja dengan Snack. Sistem Pengolahan Sinyal Suara Diagram blok untuk pengolahan sinyal suara pada fase pembelajaran (training phase) adalah sebagai berikut :
Gambar 1 Diagram Blok Sistem Pengenalan Wicara pada enrollment phase Perancangan sistem dilakukan berdasarkan pada diagram pembelajaran (enrollment phase) dan diagram pengujian (testing phase) dimana untuk diagram enrollment phase sistem akan melakukan dan menganalisa sedemikian rupa sinyal suara/ wicara dari pengguna kemudian dimasukkan ke dalam database. Sedangkan untuk pengujian, bahwa sinyal suara yang dimasukkan ke dalam sistem akan dikenali melalui cara pembandingan dengan data pada database, setelah itu sistem akan mengambil keputusan berdasarkan hasil pembandingan data tersebut. PEMBAHASAN Dari pengujian dan analisa, maka akan diketahui tingkat keberhasilan dan tingkat kekurangan dari sistem atau software yang telah dibuat. Pengujian yang dilakukan meliputi : 1. Pengujian dan analisa sistem pengolahan sinyal suara (mode pembelajaran). 2. Pengujian dan analisa hasil SSE programming. 3. Pengujian dan analisa sistem aplikasi pengenalan suara untuk mengakses database user/ pegawaian (mode pengujian). Hasil Pengujian Sistem Pengujian sistem dilakukan dalam dua tahap, yaitu pengujian secara offline dan pengujian secara online. Pengujian secara offline berarti sistem diuji tingkat keberhasilannya dengan menggunakan sinyal suara yang telah direkam sebelumnya di ruang anti noise . Sinyal suara ini merupakan sinyal suara yang dipergunakan sebagai cepstrum codebook. Sedangkan pengujian secara online berarti sistem diuji tingkat keberhasilannnya dengan pewicara dari berbagai kalangan (usia dewasa) secara online. Proses dari berjalannya sistem adalah sebagai berikut: 1). Pengguna menginputkan sinyal suara melalui microphone. Penginputan data dilakukan dengan menggunakan headphone dan dilakukan di ruangan rumah biasa yang berisi banyak peralatan elektronik dan manusia, hal inilah yang menyebabkan sinyal input yang diucapkan masih banyak ditumpangi oleh noise. 2).Sistem A-285
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
mengolah/ mengekstrak sinyal suara yang masuk sehingga didapatkan parameter-parameter yang diperlukan. Sinyal suara dari pengguna akan diolah dan diproses sesuai dengan program yang telah dibuat, pertama-tama yaitu mendeteksi sinyal yang masuk dan mencari nilai dari sinyal tesebut sehingga pada saat digambarkan data yang diperoleh bisa mempunyai bentuk yang sama dengan sinyal aslinya. Setelah didapat data dari sinyal asli maka selanjutnya program akan mencari sinyal suara murni dan memotong tail-tail dari sinyal. Sinyal yang telah dipotong tail-tailnya itu kemudian dibagi menjadi beberapa frame kemudian di windowing untuk mengurangi efek diskontinuitasnya. Sinyal hasil windowing masih dalam domain waktu sehingga untuk mendapatkan sinyal dalam domain frekuensi harus di proses dengan DFT (Discrete Fourier Transform). Hasil DFT tersebut kemudian diproses kembali untuk didapatkan suatu nilai yang bisa mewakili 128 data, dalam proyek akhir ini digunakan 20 data untuk mewakili 1 frame sinyal. Sinyal hasil dibandingkankan dengan sinyal standart yang ada. Sinyal input yang telah diproses akan dibandingkan dengan data yang telah tersimpan pada codebook. Kemudian Sinyal dengan nilai terkecil (hasil pematchingan) akan diterimasebagai perintah untuk mencari data pegawai. Sinyal dengan nilai terkecil dan terendah diasumsikan sebagai sinyal yang sama dengan sinyal standart yang terdekat dengan nilainya. Semua program untuk memproses sinyal mulai dari pembacaan sinyal awal sampai proses DTW dikerjakan oleh visual C yang hasilnya dieksport ke tcl/tk sehingga yang berfungsi sebagai eksekutor adalah tcl. Pada tcl inilah diseting frekuensi sampling dan channel dari sinyal yang masuk. Eksekusi dari perintah atau sinyal yang telah diperintahkan oleh pengguna dikerjakan oleh eksekutor pada program tcl/tk. Perintah eksekusi aplikasi program pada tcl menggunakan perintah “Run file.tcl”. DTW (Dynamic Time Warping) Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum antara data input dan data standarnya. Pengujian dilakukan dalam 2 tahap, yaitu secara offline dan secara online Tabel 1 – Nilai Error & Action pada pengujian secara Offline System Tabel 2 – Nilai error & Action Pada Pengujian Secara Online System
Dari kira kira 30 percobaan serupa dengan 30 kata yang berbeda, didapatkan 5 kata yang tidak match pada saat proses matching dilakukan, jadi sekitar 5/30 = 17% bagian yang tidak match, kemudian digunakan 30 kata sebagai kata standard yang terdiri dari 15 kata untuk codebook laki laki dan 15 kata untuk codebook perempuan dan kata masukan untuk masing masing pengujian dengan kata standard sebanyak 1 kali. A-286
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Dari 15 percobaan serupa dengan 5 kata yang sama namun memiliki pola penyuaraan (volume) dan pengucapan yang berbeda, didapatkan 1 kata yang tidak match saat proses matching dilakukan, jadi sekitar 5/15 bagian yang tidak match, atau dapat dikatakan bahwa prosentase error sistem bila dilakukan pengetesan online yaitu sekitar 33%, sedangkan sisanya, yaitu 77 % data berhasil termatch dengan baik. Pembahasan Hasil Pengujian dan Analisa Sistem Pengolahan Sinyal Suara Tujuan diadakan pengujian dan analisa untuk pengolahan sinyal suara adalah untuk mendapatkan ciri atau parameter dari sinyal suara tersebut Tahap pengolahan sinyal suara ini adalah sebagai berikut : perekaman suara, sampling, frame blocking, windowing, DFT (Discrete Fourier Transform), dan terakhir proses SSE (Sum Square Error) sebagai penentu keputusan. Perekaman Suara Proses perekaman merupakan titik kritis, karena proses perekaman ini akan menjadi dasar dalam penentuan model akustik. Keterangan : • 12000 : Menunjukkan frekuensi sampling yang digunakan. • Channels : 1, menunjukkan bahwa suara direkam dengan menggunakan channel mono. • Sample Encoding : Lin16, menunjukkan bahwa suara direkam dengan menggunakan 16 bit PCM.
Gambar 2. Parameter Perekaman di Wavesurfer Berikut contoh hasil perekaman suara yang telah disimpan dan dibangkitkan dengan menggunakan software perekaman suara yang telah kami buat dari integrasi Tcl/Tk dan Snack :
Gambar 3. Aplikasi Mode Perekaman
Gambar 4 Sinyal Suara Bernoise
Menurut Arry Akhmad Arman selaku pengembang Diphone Database Bahasa Indonesia, untuk menghasilkan rekaman kata yang akurat dan bebas noise, diperlukan konfigurasi yang ideal atau konfigurasi tidak ideal yang masih bisa ditolerir yaitu : Konfigurasi ideal, meliputi : - Penggunaan microphone kualitas tinggi yang dirancang khusus untuk ucapan, yaitu microphone yang respon frekuensinya tidak terlalu lebar dan ada di daerah jangkauan frekuensi suara manusia. Microphone jenis ini akan menekan suara-suara lain yang ada di luar daerah jangkauan suara manusia. A-287
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
- Penggunaan alat perekam digital yang mempunyai : (1) saluran input microphone kualitas tinggi, (2) saluran digital yang memungkinkan transfer data secara digital ke PC. - Penggunaan sound card khusus pada PC yang dilengkapi dengan saluran optik digital. - Perekaman dilakukan tanpa PC atau laptop, sehingga akan mengurangi tingkat kebisingan akibat kipas pendingin komputer. Setelah perekaman selesai dilakukan, lakukan transfer data secara digital (optik) ke PC melalui soundcard khusus yang telah disiapkan. Konfigurasi Tidak Ideal yang Masih Dapat Diterima - Gunakan microphone kualitas tinggi. - Gunakan pre-amplifier eksternal yang low-noise dan dapat diatur level input dan outputnya. Hubungkan microphone ke saluran input pre-amplifier. - Gunakan laptop (notebook) yang berkualitas bagus, sehingga suara kipas yang dihasilkannya tidak terlalu bising. Biasanya notebook tipis Pentium III tidak menghasilkan suara kipas yang terlalu bising. - Hubungkan output pre-amplifier ke notebook melalui jalur audio menggunakan kabel audio yang kualitasnya baik. - Aturlah level input dan output pre-amplifier serta level input perekaman pada notebook, sehingga menghasilkan suara yang bersih, noise rendah, levelnya cukup besar, tapi tidak pernah mencapai level maksimum. Dari hasil perekaman seperti pada gambar 3 dapat dilihat bahwa sinyal suara bebas dari noise karena ruang perekaman dan perangkat perekaman sudah sesuai dengan konfigurasi standart. Dari proses perekaman yang dilakukan juga ditemukan adanya korelasi positif antara kuat lemahnya amplitudo dengan sinyal suara yang dihasilkan. Semakin tinggi amplitudo, maka semakin bagus sinyal suara yang dihasilkan karena mampu menekan noise yang ada di sekitar. Mempertinggi amplitudo bisa dilakukan dengan memperkeras suara pewicara yang sedang melakukan proses perekaman, namun ketika memperkeras suara juga perlu diperhatikan karena harga amplitudo yang terlalu tinggi hingga melebihi kapasitas jangkauan alat perekam juga dapat mengakibatkan sinyal tampak cacat, yang bisa jadi mempengaruhi untuk proses selanjutnya. Di dalam gambar 4, menjelaskan sinyal suara yang dihasilkan kurang bagus dan bernoise, dari kurang lebih 35 suara yang direkam hanya dipilih 30 suara yang akan diproses sebagai suara standart berdasarkan kriteria Minim noise dan Sinyal tidak cacat Sampling Dengan menggunakan program yang telah dibuat sesuai dengan parameter perekaman pada gambar 2, proses sampling sinyal standart menggunakan frekuensi sampling sebesar 12000 Hz. Data sinyal suara yang didapatkan dari kata ”Novi” adalah sebagai berikut : Sampling kata ”Novi”: Data amplitudo sinyal suara : a. Pewicara perempuan :
Gambar 5a. 5b. Sinyal suara “Novi” A-288
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Dengan frekuensi sampling sebesar 12000 Hz, maka didapatkan bentuk sinyal yang hampir mirip dengan sinyal analognya seperti pada gambar 4, karena sinyal suara manusia memiliki jarak frekuensi antara 300 sampai 3400 Hz, dimana syarat Nyquist minimal fsampling ≥ 2 x fsinyal telah terpenuhi. Pada gambar 5 dapat dilihat bahwa suara hasil perekaman dapat dibagi menjadi 3 bagian yaitu (1) silence (S), keadaan pada saat tidak ada ucapan yang diucapkan; (2) unvoiced (U), keadaan pada saat vocal cord tidak melakukan vibrasi, sehingga suara yang dihasilkan bersifat tidak periodik atau bersifat random; (3) voiced (V), keadaan pada saat terjadinya vibrasi pada vocal cord, sehingga menghasilkan suara yang bersifat kuasi periodik. Dengan membandingkan program sampling yang terdapat dalam software, maka didapat Gambar 6.
Gambar 6 Perbandingan Sinyal Hasil Sampling Dengan Matlab dan Hasil Pengolahan Sistem Dari gambar 6, dapat dilihat bahwa program pembacaan sinyal yang telah dibuat dalam bahasa C menghasilkan hasil yang sama persis dengan sampling menggunakan software Matlab, hal ini membuktikan bahwa algoritma sampling yang dibuat sudah benar. Front End Detection Sinyal yang didapatkan dari hasil perekaman merupakan sinyal yang masih mengandung noise. Pada proses front-end ini, sinyal-sinyal yang dideteksi sebagai noise dipotong dan diambil sinyal informasinya saja sehingga didapatkan hasil sebagai berikut :
Gambar 7 Hasil Front-End Detection Sinyal Informasi Dari Gambar 7 dapat dilihat bahwa dengan menggunakan program front end dapat dilakukan pemisahan antara sinyal informasi dengan noise. Hasil dari standart deviasi dan rata-rata pada proses sebelumnya akan digunakan sebagai parameter untuk menentukan awal dan akhir suara, voiced atau suara akan memiliki nilai power yang melebihi nilai dari standart deviasi dan rata-rata dari voiced. Penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan : Voiced ≥ (Standar Deviasi + Rata-rata) .................... Frame Blocking Pada proses ini dilakukan pemotongan sinyal dalam slot-slot tertentu agar memenuhi 2 syarat yaitu linear dan time invariant. Pada proyek akhir ini sinyal suara dipotong sepanjang 20 milidetik. Setiap potongan tersebut disebut frame. Jadi dalam satu frame terdapat 240 sampel dari 12000 sampel yang ada. Hasil nilai dari proses ini adalah sebagai berikut: A-289
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Gambar 8 Frame Ke-1 Sinyal Suara “Novi” Dari gambar hasil frame blocking, dapat dilihat bahwa sinyal informasi dibagi menjadi beberapa frame untuk mempermudah proses komputasi. Suara memiliki unsur terkecil yang diprediksi oleh para ahli speech adalah sepanjang 10 ms. Karena pada proses windowing harus dikalikan dua, maka ditentukanlah 20 ms untuk setiap potongan frame. Windowing Setelah proses frame blocking, sinyal melakukan proses window untuk mengurangi efek diskontinuitas ketika sinyal ditransformasikan ke domain frekuensi. Proses window dilakukan tiaptiap frame yang terdiri 240 data sample. Karena adanya pergeseran inilah kemungkinan puncakpuncak yang mestinya terambil menjadi terpotong dapat terjadi. Data sinyal sebelum dan sesudah Windowing untuk kata “diktat” ditunjukkan dalam gambar ini :
Gambar 9 Sinyal Informasi Frame 1 Sebelum dan Sesudah Proses Hamming Window Terlihat banwa window hamming menyebabkan sinyal yang di-framing lebih halus. Hal ini membuktikan bahwa fungsi dari windowing untuk mengurangi efek discontinuitas pada ujung frame. Discrete Fourier Transform (DFT) DFT dilakukan dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2, masing-masing (N/2) titik transformasi. Proses memecah menjadi 2 diteruskan dengan membagi (N/2) titik menjadi (N/4) dan seterusnya hingga diperoleh titik minimum. Pemakaian DFT karena untuk penghitungan komputasi yang lebih cepat dan mampu mereduksi jumlah perkalian dari N2 menjadi N log N perkalian. DFT yang digunakan memakai 256 titik dan arena hasil DFT simetris, maka keluaran DFT tersebut hanya diambil sebanyak 128 data. Hasil dari proses DFT akan diperoleh titik-titik sinyal yang simetris sehingga data yang diambil hanya setengah dari data keseluruhan. Dari gambar 9 hasil Discrete Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz, yang telah mencakup daerah daerah spektrum frekuensi dari suara manusia yaitu antara 300 sampai 3400 Hz. Agar dapat diketahui, apakah program DFT yang dibuat telah benar, maka program DFT dibandingkan dengan sintax fft yang sudah tersedia dalam software Wave Surfer. Berikut contoh dft sinyal suara kata “Novi” yang dibuat dalam 2 jenis software tersebut :
Gambar 10 Perbandingan Sinyal Informasi Proses DFT Sistem dan Program Wavesurfer A-290
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Dapat dilihat bahwa hasil DFT sinyal suara yang telah dibuat dalam bahasa C menghasilkan hasil yang sama persis dengan DFT menggunakan software Wavesurfer, hal ini membuktikan bahwa algoritma DFT yang dibuat dan digunakan dalam sistem ini sudah benar. Inverse Discrete Fourier Transform (IDFT) Pada proses ini akan mengambil 20 buah data yang dapat mewakili data tiap frame. 20 buah data nanti yang akan dipakai sebagai fitur yang dapat mempresentasikan masing-masing frame. Berikut ini merupakan hasil dari liftering dari kata ”Novi”.
Gambar 11 – Sinyal Informasi Proses DFT Sistem Pada 1,2,3 Kata Novi 256 Titik dan 128 Titik Liftering Pada proses ini mengambil 40 buah data yang dapat mewakili seluruh data dalam 1 frame, alasan mengapa diambil 40 buah data, meskipun sebenarnya yang dibutuhkan hanya 20 data saja adalah karena pada proses berikutnya (pencarian cepstrum DFT), data akan berupa pencerminan sehingga nantinya akan didapatkan 20 data saja. 40 buah data inilah yang nantinya akan dijadikan sebagai input dari proses pencarian cepstrum DFT yang kemudian akan dipakai sebagai fitur yang dapat mempresentasikan masing-masing frame. Liftering merupakan proses dari pemisahan elemen cepstrum dalam dua faktor yaitu fundamental period dan spectral envelope. Dimana untuk mendapatkan spectral envelope, elemen quefrency yang rendah harus melalui proses DFT. Sedangkan untuk mendapatkan fundamental period, elemen quefrency yang tinggi harus melalui proses ekstraksi puncak.
Gambar 12 – Sinyal Informasi Proses Liftering Sistem Pada Frame 1,2,3, Kata “Novi” Cepstrum DFT (Spectral Envelope) Cepstrum DFT merupakan bentuk selimut atau selubung dari DFT, jadi sinyal yang masuk proses liftering kemudian di DFT lagi serta dicari selubung dari DFT tersebut. A-291
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta, 15 November2014
ISSN: 1979-911X
Gambar 13 – Sinyal Informasi Proses Cepstrum Sistem Pada Frame 1,2,3, Kata “Novi” KESIMPULAN Dari proses perancangan, implementasi dan pengujian dapat diambil beberapa kesimpulan :
1. Proses verifikasi user dapat dilakukan dengan menggunakan perintah suara. 2. Suara dapat diklasifikasikan menjadi 3 keadaan yang berbeda, yaitu silence, voiced dan unvoiced dengan cara sampling Terdapat library yang dapat diintegrasikan dengan program C yang dapat membantu mentransformasikan sinyal dari domain waktu ke domain frekuensi agar dapat diproses lebih lanjut. 3. Fitur untuk membandingkan suara dapat diperoleh melalui DFT Cepstrum. Rata-rata cepstrum yang dipergunakan dalam setiap codebook belum sepenuhnya mencerminkan ciri dari suara dikarenakan besarnya varian antar data yang terjadi. 4. DTW (Dynamic Time Warping) merupakan cara untuk membandingkan pola wicara dalam menentukan kesamaan jarak antara pola-pola yang berbeda. Algoritma ini mengukur jarak antara dua time series sehingga didapatkan pengurutan, kemampuan penggunaan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi. 5. Tingkat keberhasilan sistem berkisar antara 83% - 95% untuk pengujian secara offline dan 77% 85% untuk pengujian secara online. Keberhasilan sistem dapat ditunjukkan dengan berhasilnya proses verifikasi user yang telah diujikan. DAFTAR PUSTAKA Akhmad Arman Arry, “Konversi Dari Teks ke Ucapan”, Departemen Teknik Elektro ITB. Akhmad Arman Arry, “Teknologi Pemrosesan Bahasa Alami Sebagai Teknologi Kunci untuk Meningkatkan Cara Interaksi antara Manusia dengan Mesin”, Departemen Teknik Elektro ITB, 2004. Buku Diktat Speech Processing”, Universitas PETRA Blachere, “Word Distance on the Discrete Heisenberg Group”, Colloquium Mathematicum, 2003 Campbell P. Joseph JR, “ Voice Recognition”, IEEE, September 1997 Gabriel COSTACHE, Inge GAVAT, Adrian RAILEANU, Gabriel COSTACHE, Inge GAVAT, Adrian RAILEANU, ”Voiced Command Huda Miftahul, Bima, “Pelatihan Tcl/Snack”, PENS – ITS, Surabaya, 2005Melissa Gressia, “Pencocokan Pola Suara (Speech Recognition) Dengan Algoritma FFT Dan Divide And Conquer”, Teknik Informatika – Sekolah Teknik Elektro dan Informatika – Institut Teknologi Bandung, 2008. Rabiner, Biing Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall International Inc, Yuan Li-Chan, “Understanding Speech Recognition”, 1998. Tutorial, ” The Snack Sound Toolkit”, http://www.speech.kth.se/ snack/
A-292