PERBANDINGAN WAVELET DAUBECHIES DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN DISTRIBUSI NORMAL
NI WAYAN SUDARMI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
PERBANDINGAN WAVELET DAUBECHIES DAN MFCC SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN DISTRIBUSI NORMAL
NI WAYAN SUDARMI G64086010
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
ABSTRACT NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme Recognition. Under the supervised of AGUS BUONO. Speech recognition is speech to text transcription. Speech to text transcription system is a system used to convert a voice signal from a microphone into a single or a set of words. Most research of speech to text transcription used technique which every word in corpus is modeled. It is not effective if we want to develop a large vocabulary speech recognition system which number of words in corpus are more than one thousand words. Therefore, this research developed phoneme recognition with early stage in speech recognition. This research used some stage proces, those are take data, feature extraction, and feature matching. Normal Distribution (Gaussian) is used for feature matching, Wavelet Daubechies and MFCC is used for feature extraction. Corpus on this research consist of 11 words in Indonesian which each word recorded 20 times, 15 times for data training and 5 times for data testing. This research used 13 cepstral coefficients. Phonemes are generated from the segmentation process, and then mhu and sigma be calculated to generate the model. This case produced 26 models. The best accuracy is 90% generated by feature extraction MFCC and 46.92% generated by the Wavelet Daubechies. Keyword: Mel-frequency Cesptral Coeffisient, Wavelet Daubechies, Distribusi Normal, speech to text transcription, phoneme.
Judul Skripsi Nama NRP
: Perbandingan Wavelet Daubechies dan MFCC sebagai Ekstraksi Ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal : Ni Wayan Sudarmi : G64086010
Menyetujui: Pembimbing,
Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001
Mengetahui: Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal Lulus:
PRAKATA Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah melimpahkan rahmat dan karunia yang tak terbatas sehingga penulis dapat menyelesaikan tugas akhir ini. Penulis menyadari bahwa keberhasilan penyelesaian tugas akhir ini tidak terlepas dari pihak-pihak yang telah banyak membantu. Oleh karena itu, penulis sampaikan terima kasih kepada Bapak Dr. Ir. Agus Buono, M. Si., M. Kom. sebagai pembimbing yang selalu sabar dalam memberikan arahan dan saran selama penyelesaian tugas akhir ini, serta Bapak Aziz Kustiyo, S.si, M.Kom. dan Bapak Mushthofa, S. Kom., M. Sc. yang telah bersedia menjadi moderator dan penguji dalam seminar dan sidang penulis. Penulis ucapkan terima kasih kepada seluruh keluarga khususnya orang tua penulis yang tiada henti-hentinya memberikan doa, dukungan, pendidikan dan kepercayaan penuh atas apa yang penulis kerjakan hingga saat ini, juga kepada adik-adikku yang selalu memberikan keceriaan, semangat, dan dukungan selama ini. Kepada teman-teman Ekstensi Ilkom angkatan 3 penulis ucapkan terima kasih karena telah memberikan keceriaan dan persahabatannya. Kepada Yuliana Suri, Rahim Rasyid dan Herman A. yang bersedia menjadi pembahas dalam seminar tugas akhir penulis ucapkan terima kasih. Kemudian penulis sampaikan terima kasih kepada seluruh staf dan karyawan Departemen Ilmu Komputer, teman-teman Ekstensi Ilkom serta seluruh pihak lainnya yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa dalam penelitian ini masih terdapat kekurangan, sehingga kritik dan saran yang membangun penulis harapkan dari semua pihak. Semoga penelitian ini dapat bermanfaat.
Bogor, Maret 2011
Ni Wayan Sudarmi
RIWAYAT HIDUP Penulis dilahirkan pada tanggal 17 Juli 1984 di Lampung. Penulis merupakan anak pertama dari dua bersaudara pasangan Nyoman Arta dan Nengah Kundri. Pada tahun 2003 penulis lulus dari SMA Negeri 1 Seputih Banyak dan diterima di Program Studi Diploma Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor lulus pada tahun 2006. Pada tahun 2006 sampai 2008 penulis bekerja pada suatu perusahaan suasta, kemudian penulis melanjutkan program alih jenis dan diterima di Program Studi Alih Jenis Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor pada tahun 2008.
DAFTAR ISI
Halaman DAFTAR TABEL ................................................................................................................................ vii DAFTAR GAMBAR ............................................................................................................................ vii DAFTAR PENDAHULUAN ................................................................................................................. 1 Latar Belakang .................................................................................................................................. 1 Tujuan Penelitian .............................................................................................................................. 1 Ruang Lingkup .................................................................................................................................. 1 TINJAUAN PUSTAKA ......................................................................................................................... 1 Fonem ............................................................................................................................................... 1 Akuisisi Data Sinyal Suara ............................................................................................................... 1 Ekstraksi Ciri .................................................................................................................................... 2 Frame Blocking dan Windowing ....................................................................................................... 2 Fast Fourier Transform (FFT) ......................................................................................................... 2 Mel Frequency Wrapping ................................................................................................................ 3 Cepstrum .......................................................................................................................................... 3 Wavelet ............................................................................................................................................. 3 Transformasi Wavelet Diskret ........................................................................................................... 4 Transformasi Wavelet Daubenchies .................................................................................................. 5 Distribusi Normal .............................................................................................................................. 5 METODE PENELITIAN ....................................................................................................................... 6 Pengambilan Data ............................................................................................................................. 7 Praproses ........................................................................................................................................... 7 Pembagian Data ................................................................................................................................ 7 Ekstraksi Ciri Sinyal ......................................................................................................................... 7 Pemodelan ......................................................................................................................................... 8 Pencocokan Model ........................................................................................................................... 8 Pengujian .......................................................................................................................................... 9 HASIL DAN PEMBAHASAN............................................................................................................... 9 Praproses .......................................................................................................................................... 9 Hasil Pengujian dengan MFCC ......................................................................................................... 9 Hasil Pengujian dengan Wavelet Daubechies ................................................................................... 9 Hasil Pengujian MFCC dan Wavelet Daubechies dengan Noise .................................................... 11 KESIMPULAN DAN SARAN............................................................................................................. 11 Kesimpulan ..................................................................................................................................... 11 Saran ............................................................................................................................................... 11 DAFTAR PUSTAKA ........................................................................................................................... 12
DAFTAR TABEL Halaman 1 Tabel koefisien db4 ........................................................................................................................... 5 2 Daftar Fonem dalam Penelitian .......................................................................................................... 6 3 Akurasi Nilai Perbandingan MFCC dan Wavelet .............................................................................. 10 4 Pengujian Data Uji dengan Noise ...................................................................................................... 11
DAFTAR GAMBAR Halaman 1 Grafik hubungan frekuensi dengan skala mel ................................................................................. 3 2 Dekomposisi Wavelet 3 Tingkat ......................................................................................................... 4 3 Bank Filter Daubechies ........................................................................................................................ 5 4 Proses Pengenalan Fonem ................................................................................................................... 6 5 Diagram Proses Ekstraksi Ciri MFCC dan Wavelet ............................................................................ 7 6 Diagram proses pemodelan ............................................................................................................... 8 7 Grafik Hasil Pengujian dengan Ekstraksi Ciri MFCC ........................................................................ 9 8 Grafik Hasil Pengujian dengan Ekstraksi Ciri Wavelet ...................................................................... 9 9 Grafik Hasil Pengujian dengan Ekstraksi Ciri MFCC dan Wavelet .................................................. 10 10 Grafik Hasil Pengujian Data Uji ..................................................................................................... 10 11 Grafik Hasil Pengujian Data Latih .................................................................................................. 10 12 Grafik Hasil Pengujian Data Uji dengan Noise ............................................................................... 11
PENDAHULUAN Latar Belakang Perkembangan teknologi informasi dapat mempermudah pekerjaan manusia dalam kehidupan sehari-hari. Pekerjaan manusia secara manual dapat digantikan dengan sistem otomatis. Salah satu sistem otomatis adalah sistem yang dapat membuat komputer mampu berkomunikasi dengan manusia. Dalam proses komunikasi ini diperlukan tahap konversi suara ke teks (speech to text transcription). Konversi suara ke teks, berawal dari pengenalan berbasiskan fonem Berbasis fonem diterapkan karena, jika berbasiskan kata, yang mana setiap kata yang terdapat dalam kamus kata dimodelkan dengan suatu teknik pemodelan. Hal ini mengakibatkan kurang efektifnya sistem apabila akan dikembangkan untuk sistem pengenalan kata yang bersifat large vocabulary yang mana kata yang terdapat dalam kamus kata berjumlah sangat besar. Oleh karena itu, di dalam penelitian ini akan dikembangkan suatu sistem pengenalan fonem yang merupakan tahap awal dari pengenalan kata. Tahap awal pengenalan fonem dilakukan dengan praproses pada sinyal suara. Praproses merupakan proses penghapusan silent, normalisasi dan segmentasi manual. Data fonem yang dihasilkan dari praproses, dilanjutkan dengan pembuatan template untuk membangun model pengenalan fonem. Dengan demikian, komputer diharapkan mampu menerjemahkan ucapan ke dalam bentuk teks yang diucapkan. Teks yang dihasilkan merupakan gabungan dari beberapa fonem. Dengan demikian, sebelum ke tahap konversi suara ke teks diperlukan tahap pengenalan fonem. Data yang digunakan adalah sinyal suara manusia yang direkam dari satu pembicara. Digunakan sinyal suara sebagai masukan karena merupakan salah satu karakteristik fisiologis manusia yang unik. Suara juga sebagai sistem biometrik dan lebih efisien dibandingkan dengan biometrik yang lain. Penelitian ini membandingkan konsep berbasiskan transformasi Fourier dan transformasi Wavelet. Transformasi Wavelet diskret yang digunakan berbasis orthogonal yaitu Daubechies. Menurut (Agustini 2006) Daubechies merupakan tipe Wavelet yang memberikan tingkat pengenalan paling tinggi dibandingkan dengan Symlets dan Coiflets. Distribusi Normal digunakan sebagai pencocokan pola.
Tujuan Penelitian ini bertujuan memberikan informasi nilai akurasi. Selain itu, juga membandingkan antara transformasi Fourier dan transformasi Wavelet sebagai ekstraksi ciri, pada pengenalan fonem dengan Distribusi Normal sebagai pencocokan pola. Ruang Lingkup Ruang lingkup penelitian ini adalah : 1. Penelitian difokuskan pada pemodelan pengenalan fonem, bukan pengenalan kata atau kalimat. 2. Fonem yang digunakan sebanyak 26 fonem dari /a/ sampai /z/. 3. Teks yang diucapkan berbahasa Indonesia. 4. Penelitian ini menerapkan transformasi Fourier dan transformasi Wavelet jenis orthogonal Daubechies sebagai ekstraksi ciri dengan orde 4 pada level 1. 5. Penelitian ini menerapkan Distribusi Normal sebagai pengenalan pola. 6. Data sinyal suara pada penelitian ini menggunakan satu pembicara. 7. Implementasi sistem pengenalan kata menggunakan software MATLAB 7.7.
TINJAUAN PUSTAKA Fonem Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (KBBI). Fonem dibagi menjadi dua, yaitu: 1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru yang tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o. 2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang ke luar dari paruparu mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z. Akuisisi data suara digital Sinyal merupakan suatu kuantitas fisik yang bervariasi dengan waktu, ruang, maupun sembarang satu atau lebih peubah bebas lainnya (Proakis dan Manolakis 1996). Akuisisi data suara digital merupakan proses untuk mengakuisisi ucapan pembicara dalam sinyal analog dan mengubah menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor (Agustini 2006).
1
Secara konsepsi, konversi analog to digital (A/D), melalui tiga tahapan proses yaitu: (Proakis dan Manolakis 1996) a) Proses sampling Sampling merupakan pengambilan nilainilai (sampling rate) dari sinyal kontinu pada setiap jangka waktu (T) yang ditentukan, sehingga sinyal yang awalnya kontinu berubah menjadi diskret. Menurut (Buono 2009) bahwa, karena sinyal analog dapat direpresentasikan sebagai penjumlahan dari gelombang sinus dengan amplitudo, frekuensi dan fase yang berbeda. Dengan demikian, nilai sampling rate yang dapat menangkap semua komponen sinyal haruslah minimal dua kali frekuensi maksimum yang ada dalam sinyal. Nilai sampling rate sebesar Fs = 2 Fmax disebut sebagai Nyquist rate. Aturan teori Nyquist menyatakan bahwa frekuensi sinyal paling sedikit dua kali frekuensi sinyal yang akan di-sampling (sinyal analog) dan merupakan batas minimum dari frekuensi sample (Fs). Lebih besar tentunya lebih baik, karena menggambarkan sinyal aslinya. Sampling rate yang digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16000 Hz (Jurafsky dan Martin 2000). Hubungan antara panjang vektor data yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasikan dinyatakan berdasarkan persamaan 1: S = Fs × T
(1)
Keterangan: S = panjang vektor Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik) b) Kuantisasi Kuantisasi merupakan konversi nilai amplitudo yang bersifat kontinu menjadi nilai diskret. Proses ini menyimpan nilai-nilai simpangan sinyal menjadi representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000). c) Pengkodean Pengkodean merupakan pemberian bilangan biner pada setiap level kuantisasi. Ekstraksi Ciri Tujuan ekstraksi ciri untuk mereduksi ukuran data tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri. Ekstraksi ciri didapat dari mengonversikan bentuk sinyal
suara ke dalam bentuk representasi secara parameter (Agustini 2006). Ekstraksi ciri MFCC menghitung koefisien cepstral dengan mempertimbangkan pendengaran manusia. MFCC didasarkan pada variasi frekuensi batas pendengaran manusia yaitu sekitar 20 Hz 20000 Hz. Tahapan MFCC adalah sebagai berikut (Do 1994): 1. 2. 3. 4.
Frame Blocking dan Windowing Fast Fourier Transform (FFT) Mel FrequencyWrapping Cepstrum
Frame Blocking dan Windowing Frame blocking merupakan segmentasi frame dengan lebar tertentu yang saling tumpang tindih atau suara digital yang telah diakuisisi dengan durasi tertentu. Tiap-tiap hasil frame direpresentasikan dalam sebuah vektor. Proses frame blocking mengakibatkan terjadi distorsi (ketidakberlanjutan sinyal) antar frame. Dengan demikian, untuk meminimalisasi distorsi tersebut dilakukan proses windowing. Proses windowing yaitu proses filtering tiap frame dengan cara mengalikan setiap frame tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame. Frame windowing bertujuan meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara. Tahap pembuatan window menggunakan fungsi window Hamming. Window Hamming dapat dituliskan dengan persamaan 2 (Do 1994). (2) d(u) = 0.54 + 0.46 cos Dalam hal ini, u = 0,1,…,N-1 dan N merupakan jumlah samples tiap frame. Menurut (Buono 2009), fungsi window Hamming memiliki nilai J(bias) dan V(varian) moderat. Selain itu, window Hamming juga memiliki nilai mean squared error (MSE) berada ditengah-tengah dibanding dengan filter yang lain serta memiliki kesederhaan rumus. Oleh sebab itu, maka fungsi window Hamming ini digunakan. Fast Fourier Transform (FFT) Fast fourier transformation (FFT) bertujuan mendekomposisi sinyal menjadi sinyal sinusoidal, dan terdiri atas dua unit, yaitu unit real dan unit imajiner. FFT digunakan untuk analisis frekuensi, sehingga mempermudah pemrosesan suara karena sesuai dengan pendengaran manusia. FFT adalah algoritme yang mengimplementasikan discrete fouries transform (DFT). DFT
2
merupakan transformasi setiap frame dengan N sample dari domain waktu ke domain frekuensi yang didefinisikan pada persamaan 3 berikut (Do 1994). %'&( "!$ # )*+ ,"-/. Keterangan: N = banyaknya segmen sekuen Xk = nilai data ke k n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1 j = 02143 Secara umum Xn adalah bilangan yang kompleks. Hasil dari tahap ini disebut dengan spektrum sinyal atau periodogram. Mel FrequencyWrapping Proses wrapping menghitung nilai melfrequency dengan sejumlah filter yang saling overlap. Filter yang digunakan berbentuk segitiga dengan tinggi satu pada ruang frekuensi mel. Skala mel digunakan untuk mengikuti persepsi pendengaran manusia yang dikenal dengan Mel Wrapping (Buono 2009). Berdasarkan studi psikologi, telinga manusia mempunyai persepsi terhadap frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Persamaan berikut dapat digunakan untuk perhitungan melfrequency pada frekuensi 5 dalam satuan hertz (Nilsson dan Ejnarsson 2002). 687:9/;< =>'?@8?4AB C/D'EFHGJI4K FHz FHz SUTVV'V 700 LMONQPR (4) FHz WYXQZ[ FHz \U]^^'^ Dari persamaan 4, FHz adalah frekuensi akustik, maka nilai frekuensi FHz sebagai fungsi dari skala mel adalah:
_`acbedffcgihj/kmpl8 qsrniq o tvuJw
(5)
Pada Gambar 1 terlihat bahwa untuk frekuensi rendah, filter yang digunakan menggunakan skala linear, sehingga lebarnya konstan. Dilain pihak, untuk frekuensi tinggi (>1000 Hz), filter dibentuk dengan skala logaritma. M filter selanjutnya digunakan untuk menghitung nilai mel-frequency atau wrapping pada persamaan 6 berikut: xzy{}| ~/'"
"i s " Dengan i=1,2,3… ,M (M adalah jumlah filter segitiga) dan Hi(k) adalah nilai filter segitiga ke i untuk frekuensi akustik sebesar k. Untuk N adalah banyaknya data, sedangkan X(k) merupakan nilai data ke k hasil dari proses FFT. Cepstrum Cepstrum merupakan hasil mel frequency yang diubah menjadi domain waktu menggunakan discrete cosine transform (DCT) dengan persamaan 7 (Do 1994): ¦ "Y¡ £¢¥¤ ½ ¾ ¿"ÀJÁ § ¨©«ª¬®°¯²± ³µ´Q¶¸·/¹º¼» dengan j=1,2,3,… ,K (K adalah jumlah koefisien yang diiginkan dan M = jumlah filter, sedangkan Xi adalah nilai data ke i hasil proses mel frequensy wrapping . Wavelet Wavelet dapat dibentuk dari satu fungsi (x) dikenal sebagai “mother Wavelet” dalam suatu interval berhingga. Wavelet merupakan gelombang singkat (small wave) yang energinya terkonsentrasi pada suatu selang waktu untuk memberikan kemampuan analisis transien, ketidakstasioneran, atau fenomena berubah terhadap waktu (time varying). Karakteristik dari Wavelet antara lain adalah berosilasi singkat, translasi (pergeseran), dan dilatasi (skala) (Burrus et al. 1998). Wavelet memiliki banyak famili, dibedakan berdasarkan pada bank filter yang digunakan. Famili Wavelet terdiri atas biorthogonal Wavelet, Meyer Wavelet, Morlet Wavelet, Shanon Wavelet, dan masih banyak lainnya. Wavelet Daubechies merupakan famili orthogonal Wavelet hasil pengembangan dari Wavelet Haar.
Gambar 1 Grafik hubungan frekuensi dengan skala mel (Buono 2009). 3
Transformasi Wavelet menunjukkan frekuensi waktu yang baik untuk lokalisasi properti dan alat yang tepat untuk analisis sinyal diskontinu (non stationary) (Krishnan 1994). Wavelet merupakan fungsi variabel real t, diberi notasi t dalam ruang fungsi L²(R). Fungsi ini dihasilkan oleh parameter penskala (dilatasi) dan penggeseran (translasi) dari sebuah fungsi tunggal (induk) yang dinyatakan dalam persamaan (Burrus et al. 1998) : a,b(t)
= a-1/2 ÂÄÃÆÅÈ Ç É ; a>0,b ÊÌË
(8)
fungsi pada persamaan (8) dikenalkan pertama kali oleh Grossman dan Morlet, dengan a,b ÍÏÎ dan a 0, a merupakan parameter penskala dan b adalah parameter translasi. j,k(t)
= aj/2 (2jt-k) ; j,k Ð Z
(9)
fungsi pada persamaan (9) dikenalkan pertama kali oleh Daubechies. keterangan: a = parameter penskala dan a 0 2j = parameter dilatasi k = parameter waktu atau lokasi ruang Wavelet berdasarkan pada pembangkitan sejumlah tapis (filter) dengan cara mengeser dan menskala mother Wavelet berupa tapis pelewat tengah (band-pass filter). Dengan demikian diperlukan pembangkit filter. Penambahan dan pengurangan skala akan mempengaruhi durasi waktu, lebar bidang (bandwith) dan nilai frekuensi (Burrus et al. 1998). Transformasi Wavelet dapat dibedakan menjadi dua, yaitu continous wavelet transform (CWT) dan discrete wavelet transform (DWT). Fungsi yang digunakan dalam transformasi CWT dan DWT diturunkan dari mother Wavelet melalui translasi/ pergeseran dan penskalaan/dilatasi. Transformasi Wavelet kontinu mempunyai dua kelemahan yaitu redudancy dan ketidakpastian (impracticality) (Mallat 1999). Masalah tersebut dapat diselesaikan dengan mendiskretkan parameter penskala dan penggeseran.
dasar dari DWT adalah bagaimana cara mendapatkan representasi waktu dan skala dari sebuah sinyal menggunakan teknik filter digital dan operasi sub-sampling. Transformasi Wavelet diskret bertujuan mengurangi redundansi yang terjadi pada transformasi Wavelet kontinu. Transformasi Wavelet diskret menganalisis suatu sinyal dengan skala yang berbeda. Sebuah sinyal dilewatkan dalam dua filter DWT yaitu highpass filter dan lowpass filter agar frekuensi dari sinyal tersebut dapat dianalisis. Pembagian sinyal menjadi frekuensi tinggi dan frekuensi rendah dalam proses highpass filter dan lowpass filter disebut sebagai dekomposisi. Proses dekomposisi ini dapat melalui satu atau lebih tingkatan. Dekomposisi satu tingkat ditulis dengan ekspresi matematika pada persamaan 10 dan 11.
ÑÒ"ÓiÔJÕÖ× Ø Ù'ÚzÛÝÜßÞà á8âiãåä²æçéèëêì í
îmïð/ñ
ò óÆô õöÄö/ôµ÷ ø'ùÌúÝûýü¥þ ÿ
Dalam hal ini y[k] tinggi dan y[k] rendah adalah hasil dari highpass filter dan lowpass filter, x[n] merupakan sinyal asal, h[n] adalah highpass filter, dan g[n] adalah lowpass filter. Contoh ilustrasi dekomposisi dipaparkan pada Gambar 2 dengan menggunakan dekomposisi tiga tingkat. Pada Gambar 2 y[k] tinggi dan y[k] rendah yang merupakan hasil dari highpass filter dan lowpass filter, y[k] tinggi disebut sebagai koefisien DWT. y[k] tinggi merupakan detail dari informasi sinyal, sedangkan y[k] rendah merupakan taksiran kasar dari fungsi penskalaan. Dengan menggunakan koefisien DWT ini maka dapat dilakukan proses inverse discrete wavelet transform (IDWT) untuk merekonstruksi menjadi sinyal asal.
Transformasi Wavelet Diskret Transformasi Wavelet merupakan teknik pemrosesan sinyal multiresolusi. Proses transformasi Wavelet dilakukan dengan mengkonvolusi sinyal dengan data tapis (filter) atau dengan proses perata-rataan dan pengurangan secara berulang, yang sering disebut dengan metode filter bank. Prinsip
Gambar 2 Dekomposisi Wavelet 3 tingkat. Proses rekonstruksi diawali dengan menggabungkan koefisien DWT dari yang
4
berada pada akhir dekomposisi dengan sebelumnya meng – upsample oleh 2 ( 2) melalui highpass filter dan lowpass filter. Proses rekonstruksi ini sepenuhnya merupakan kebalikan dari proses dekomposisi sesuai dengan tingkatan pada proses dekomposisi. Dengan demikian, persamaan rekonstruksi pada masing-masing tingkatan dapat ditulis sebagai berikut:
< "!$#&% ')()(*%,+ -/.012354687/9;: =8>?A@CBEDGF$H I/JLKNMOP5QSR T/ULV
bank filter Wavelet Daubechies dengan 4 koefisien dapat dilihat pada Gambar 3 untuk n<0 dan n>4 nilai h(n)=0.
h0 g0 0 0
Wavelet Daubechies secara historis berasal dari sistem Haar ditulis sebagai ‘dbN’ dengan N menunjukkan orde dengan 2 koefisien (db2) memiliki scaling function dengan koefisien lowpass sebagai berikut (Burrus et al. 1998).
\*]^_`ba;cNd$e fEg/h i
0 0 h2 g2
0 0 0 0 h3 0 g3 0
Gambar 3 Bank filter Daubechies. Tahapan ekstraksi ciri transformasi Wavelet yaitu:
menggunakan
a) Frame Blocking dan Windowing b) Discrete Wavelet Transform menggunakan Daubechies c) Mel FrequencyWrapping d) Cepstrum
(DWT)
Distribusi Normal
j*k&lnmoqpsrNt$u vEw/x y z*{|}~qsN$ E/
* Gb;N$ E/ Dengan h(n) merupakan koefisien low-pass. Nilai koefisien high-pass fungsi Wavelet dengan N=2 atau berorde 2 adalah
g0 = h3 , g1 = -h2, g2 = h1, g3 = -h0, dengan g= high-pass dan h = low-pass. Ingrid Daubechies telah mengklasifikasikan koefisien secara numerik untuk N=4 atau berorde 4 pada Tabel 1(Burrus et al. 1998). Tabel 1 Tabel koefisien db4. N=4
h2 h3 g2 g3 h0 h1 g0 g1
WX Y[Z
Transformasi Wavelet Daubechies
Low fass
h1 g1 0 0
Koefisien
Distribusi Normal sering disebut sebaran Gauss. Penulisan notasi dari peubah acak yang berdistribusi normal umum adalah N(x;µ , 2 ), artinya peubah acak X berdistribusi normal umum dengan mean µ 2 . Peubah acak X yang dan varians berdistribusi normal dengan mean µ dan varians 2 disingkat X~N(µ , 2 ). Peubah acak X dikatakan berdistribusi normal umum, jika dan hanya jika fungsi densitasnya berbentuk seperti pada persamaan 13 (Herrhyanto dan Gantini 2009).
"/ /
¤&¥§¦ ¨n©)ª « ¬® µ ¯)°¢± ¢¡[£
(13)
Dengan - <X< , - <µ < , - < 2< , dalam hal ini X merupakan data yang digunakan sebagai data uji, µ merupakan nilai rata-rata dari data latih.
h(0)
0.230377813309
h(1)
0.714846570553
h(2)
0.630880077679
N( , ) didefinisikan sebagai:
h(3)
-0.027983769417
² ³´ µ)¶¸·
h(4)
-0.187034811719
h(5)
0.030841381836
Untuk kasus satu dimensi, disederhanakan menjadi:
h(6)
0.032883011667
h(7)
-0.010597401785
ÝnÞ*ßLà/áãâ
Distribusi Normal (Gauss) multivariate
¹ º»¼½A¾¿ À Á àÄAÅnÆÈÇCÉNËÊ Ì ÍÏÎ µ "Ð Ñ
ä å,æ*çÈèêé
ëGì*í
ÒnÓÔ ÕÏÖ µ L× ØÙ&ÚÛGÜ
î$ïñð µ÷ ò ó,ôöõ ø ù ú¢û
ü¢ý8þÿ
Dalam hal ini, d = dimensi dari variabel, X merupakan koefisien data uji hasil ekstraksi
5
ciri, µ adalah nilai rata-rata dari data latih dan merupakan nilai matriks kovarian dari data latih. Matriks kovarian didapat dengan menghitung nilai rata-rata dari data latih. Nilai rata-rata yang didapat selanjutnya dikurangi dengan matriks awal, dikali dengan matriks transform hasil pengurangan dan dibagi dengan banyak data. Misalkan, matriks data latih dengan banyak data 3, berukuran mxn dengan m = 3 (banyaknya baris) dan n = 2 (banyaknya kolom), maka matriks kovarian yang dihasilkan berukuran 2x2. Berikut Langkah - langkah menghitung matriks kovarian dan rata-rata dari matriks A: 1. Menghitung nilai rata-rata dari matriks A untuk menghasilkan matriks B.
2. Mengurangi matriks A
,
"!$#&%
matriks
rata-rata
dengan
')(+*-, .07$8: /294 14;636<5 = >@?BA C0I$J: D2KG EGLF6MOH N PRQBS T0Z$[] UWV4 \4X^`_&Y a
3. Menghitung nilai kovarian
bcOdfe&gOhieOjlklm)n`oqp)rOs$tvu$w6xzy|{R}f~0 f&
ff
Dalam hal ini, A1t merupakan transform dari matriks A1, Bt merupakan transform dari matriks B, dan Ct merupakan transform dari matriks C.
Gambar 4 Proses pengenalan fonem. Pengambilan Data Data yang digunakan dalam penelitian ini adalah data dari sebelas kata (coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat). Pemilihan kata dilakukan untuk memenuhi jumlah keseluruhan fonem yaitu sebanyak 26 fonem. Letak fonem dalam suatu kata tidak berpengaruh terhadap error rate yang dihasilkan. Letak fonem pada awal kata tidak selalu memberikan nilai error rate yang kecil, begitupun pada fonem yang terletak pada tengah maupun akhir kata (Resmiwati 2009). Daftar fonem dari kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 2. Tabel 2 Daftar fonem dalam penelitian.
METODE PENELITIAN Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengambilan data, pemodelan (feature extraction), dan pengenalan (feature matching). Feature extraction merupakan proses mengekstraksi data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil. Feature matching merupakan prosedur aktual mencocokkan pola dan membandingkan fitur ekstraksi suara yang dimasukkan dengan salah satu dari himpunan pembicara (Agustini 2006). Proses pengenalan fonem dapat dilihat pada Gambar 4.
Kelompok fonem
Asal kata
/a/, /j/, /y/
Jaya
/b/, /c/, /o/
Coba
/d/, /e/, /w/
Weda
/f/
fana
/g/, /h/
Gajah
/i/, /v/, /s/
Visa
/k/, /z/
Zakat
/l/, /m/, /u/
Malu
/n/, /r/, /q/
Quran
6
Kelompok fonem
Asal kata
/p/
Pacu
/t/, /x/
Tip-x
Data berasal dari satu pembicara, masingmasing kata direkam sebanyak 20 kali pengulangan sehingga data yang dikumpulkan sebanyak 520 data suara. Pengambilan data dilakukan dengan menggunakan bit rate (banyaknya bit yang diproses per satuan waktu) sebesar 16 bit sampling rate sebesar 12000 Hz dan disimpan dalam file berekstensi WAV. Proses perekaman dilakukan di tempat hening untuk mengurangi noise dari lingkungan.
Praproses Pengenalan 26 fonem pada penelitian ini dilakukan beberapa tahapan yaitu:
1. Penghapusan silent dan normalisasi Penghapusan silent dilakukan agar suara yang disimpan hanya yang terdapat rekaman suara. Normalisasi dilakukan dengan membagi nilai setiap frekuensi sinyal dengan absolute maksimum dari sebuah frekuensi sinyal suara. Tujuan normalisasi untuk menghasilkan amplitudo maksimum dan minimum yang normal yaitu satu dan minus satu, sehingga dapat menormalkan tingkat kekerasan suara. 2. Segmentasi sinyal Data hasil penghapusan silent dan normalisasi dilakukan segmentasi secara manual sehingga dihasilkan 26 fonem dari sebelas kata yang direkam masing-masing sebanyak 20 kali pengulangan. Dengan demikian jumlah total data fonem yang dihasilkan sebanyak 520 data dari seluruh fonem.
nilai vektor yang digunakan sebagai penciri, dengan dimensi yang lebih kecil dalam setiap frame-nya sehingga diharapkan dapat mempercepat waktu pengenalan fonem. Dalam penggunaannya, fungsi MFCC dan Wavelet memerlukan beberapa parameter yaitu: 1. Input, merupakan sinyal tanpa noise suara yang akan dianalisis ekstraksi cirinya. 2. Sampling rate yaitu banyaknya data yang akan diambil dalam satu detik. 3. Time frame lamanya waktu yang diinginkan dalam satu frame dalam milisekon. 4. Overlap yaitu overlapping yang diinginkan antara satu frame dan frame selanjutnya. 5. Cepstral coeffisient yaitu banyaknya koefisien cepstrum yang diinginkan sebagai output. 6. Level yaitu banyaknya tahapan dekomposisi yang digunakan pada fungsi DWT. MFCC yang diimplementasikan dalam sistem ini merupakan fungsi yang dikembangkan oleh Stanley pada tahun 1998. Alur proses MFCC dan Wavelet dapat dilihat pada Gambar 5. Penjelasan tahapan dari ekstraksi ciri MFCC dan DWT yaitu:
a) Frame Blocking dan Windowing Penelitian ini menggunakan panjang frame pada lebar waktu 30 ms dan tiap frame menyimpan data sebanyak 360 data, overlap antar frame 50%. Windowing menggunakan Hamming window dengan panjang window sama dengan panjang frame yaitu 360 sample.
Pembagian Data Pembagian data dibagi menjadi dua bagian, yaitu data pelatihan dan pengujian dengan proporsi 75% untuk data latih dan 25% untuk data uji. Menurut Buono (2009) dengan menggunakan metode MFCC dan HMM pembagian data dengan proporsi 75%:25% lebih baik dibuat perbandingan dengan 50%:50% dan 25%:75%.
Ekstraksi Ciri Sinyal Data fonem hasil segmentasi selanjutnya dilakukan ekstraksi ciri dengan pemodelan transformasi Fourier dan transformasi Wavelet Daubechies (db4) pada level 1. Ekstraksi ciri dilakukan untuk menentukan
Gambar 5 Diagram proses ekstraksi ciri MFCC dan Wavelet. b) Transformasi Wavelet Daubechies Data yang terbagi dalam bentuk frame hasil dari frame blocking dan windowing pada setiap fonem dilakukan proses dekomposisi dengan menggunakan transformasi Wavelet.
7
Hasil dekomposisi menghasilkan koefisienkoefisien (koefisien detail dan perkiraan).
Algoritme 1 adalah untuk mencari koefisien detail dan perkiraan pada proses multiple dekomposisi (Agustini 2006). Algoritme 1: Proses multiple dekomposisi. Input: sinyal yang akan di-filter Tahap 1: Pilih filter yang akan digunakan sebagai low-pass filter dan highpass filter. Tahap 2: Sinyal input di-filter ke dalam low-pass filter dan high-pass filter. Tahap 3: Hasil Low-pass frekuensi dan high-pass frekuensi pada tahap 2, selanjutnya dilakukan proses downsampling. Tahap 4: Low-pass frekuensi hasil tahap 3 selanjutnya kembali ke tahap 2. Tahap 5: Dilakukan terus menerus dan berhenti pada level yang diharapkan. Output: Low-pass frekuensi pada level yang ditentukan.
Pemodelan Hasil ekstraksi ciri satu sinyal data memiliki hasil berupa matrikss ciri n×k, n adalah jumlah frame dan k adalah koefisien. Kemudian dilakukan perata-rataan koefisien pada setiap baris, sehingga setiap satu data sinyal dihasilkan matriks berukuran 1×k. Jumlah data latih untuk satu fonem ada 15 data, maka dihasilkan matriks berukuran 15×k, dengan k banyaknya koefisien. Matriks 15×k yang dihasilkan dari satu fonem kemudian dihitung nilai mean dan sigma untuk fonem tersebut. Kumpulan Nilai mean dan sigma dari fonem /a/ sampai /z/ inilah yang digunakan sebagai model untuk tahap pencocokan. Contoh a lur proses pemodelan untuk menghitung nilai mean dan sigma dari satu fonem dapat dilihat pada Gambar 6.
Analisis data transformasi Wavelet dilakukan dengan mendekomposisikan suatu sinyal ke dalam komponen-komponen frekuensi yang berbeda-beda . Selanjutnya masing-masing komponen frekuensi tersebut dapat dianalisis sesuai dengan skala resolusinya atau level dekomposisinya. Hal ini seperti proses filtering, sinyal dalam domain waktu dilewatkan ke dalam high pass filter dan low pass filter untuk memi sahkan komponen frekuensi tinggi dan frekuensi rendah. Proses dekomposisi berdasarkan aturan Nyquist. Aturan Nyquist salah satunya mengatakan bahwa frekuensi komponen sample harus kurang atau sama dengan setengah dari frekuensi sampling. Oleh sebab itu maka, diambil frekuensi sample /2 dari frekuensi sampling dalam subsample oleh 2 pada dekomposisi Wavelet. c) Mel -Frequency Wrapping Dengan menggunakan algoritme yang disarankan oleh Davis dan Mermelstein 1980 untuk membentuk M filter. Dari M filter yang sudah dibentuk, selanjutnya dilakukan wrapping terhadap sinyal. Nilai koefisien yang diharapkan didapat dari hasil transformasi kosinus.
Gambar 6 Diagram proses pemodelan. Variabel n pada Gambar 6 menunjukkan banyaknya frame yang dihasilkan pada masing-masing sinyal. Banyak jumlah n yang dihasilkan pada proses ekstraksi ciri bergantung pada panjang pendeknya sinyal hasil segmentasi. Variabel x dan y adalah koefisien nilai hasil penggabungan matriks yang diperoleh dari hasil rata- rata. Pencocokan Model Model yang dihasilkan pada tahap pemodelan selanjutnya dilakukan pencocokan. Pencocokan dilakukan dengan data uji yang telah disiapkan sebelumnya . Penerapan (Gauss) Distribusi Normal multivariate N( , ) digunakan sebagai pencocokan model.
8
Pengujian
Hasil Pengujian dengan MFCC
Pengujian dilakukan pada data uji yang telah dipersiapkan. Setiap data uji dilihat apakah data tersebut terindentifikasi pada fonem yang semestinya. Presentase tingkat akurasi dihitung dengan fungsi berikut:
Hasil pengujian fonem dengan ekstraksi ciri MFCC dan Distribusi Normal terhadap masingmasing fonem dapat dilihat pada Gambar 7. Pada grafik terlihat bahwa fonem yang dapat dikenali dengan baik oleh sistem ada 17 fonem. Fonem /a/,/b/, /d/, /e/, /g/, /h/, /i/, /j/, /l/, /m/, /n/, /o/, /s/, /t/, /w/, /x/, dan /z/ mencapai 100%. Akan tetapi, fonem /f/, /p/, /r/, /v/ kurang baik dikenali karena akurasinya hanya mencapai 60%. Namun demikian, untuk fonem /c/, /k/, /q/, /u/, dan /y/ lumayan baik dapat dikenali dengan akurasinya mencapai 80%.
q$¯ ° z± ² ³ ´ µ ¶ `· ¢¸ ¡¹ £`º ¤¦» ¥¼ §0½ ¨ª¾©¢¿ «À¬¦Á¿® ÃÅÄOÆfÆfÇ
(16)
HASIL DAN PEMBAHASAN Praproses
Pada proses ekstraksi ciri dengan MFCC terdapat beberapa parameter yaitu, input suara, sampling rate, time frame, overlap, cepstral coefficient. Parameter ekstraksi ciri Wavelet Daubechies sama dengan parameter pada MFCC hanya ditambah satu parameter lagi yaitu level. Data latih merupakan data hasil praproses dan ekstraksi ciri yang sudah dibuatkan model terlebih dulu. Pemodelan dilakukan dengan menghitung nilai mean dan sigma dari masing-masing fonem dengan 13 koefisien. Karena keterbatasan data latih yang digunakan penelitian ini menerapkan 13 koefisien. Jika koefisien yang digunakan lebih dari 13 maka nilai sigma ( ) yang dihasilkan mendekati singular. Hal ini terjadi karena memiliki nilai determinan yang sangat kecil hingga mencapai 1e-128, oleh sistem dianggap sama dengan nol. Dengan demikian, akan mengakibatkan Distribusi Normal yang diperoleh bernilai infinitif atau NaN (not a number). Jumlah data latih yang digunakan mempunyai bobot yang sama untuk setiap kelasnya. Hal ini dilakukan, karena jika salah satu ada yang dominan akan berpengaruh terhadap nilai akurasi. Karena kelas yang dominan akan selalu mendominasi.
100%
Nilai Akurasi
80% 60% 40% 20% 0% a b c d e f g h i j k l mn o p q r s t u vwx y z
Fonem
Gambar 7 Grafik hasil pengujian dengan ekstraksi ciri MFCC. Hasil Pengujian Daubechies
dengan
Wavelet
Hasil pengujian fonem dengan ekstraksi ciri Wavelet Daubechies terhadap masing-masing fonem dapat dilihat pada Gambar 8. Pada grafik terlihat bahwa fonem kurang dapat dikenali dengan baik oleh sistem. Fonem /a/, /b/, /c/, /g/, /h/, /j/, /k/, /n/, /o/, /p/, /q/, /y/ dapat dikenali di atas 50% dan untuk fonem lainnya hanya bisa dikenali kurang dari 50%. 100%
Nilai Akurasi
Penelitian ini, data yang digunakan sebanyak 390 data latih dan 130 data uji. Data tersebut selanjutnya dilakukan praproses yaitu penghapusan silent, normalisasi, dan segmentasi manual. Dengan demikian, tahap praproses menghasilkan 26 fonem dari fonem /a/ sampai /z/. Masing-masing fonem memiliki 15 data latih dan 5 data uji. Setelah dilakukan praproses, dilanjutkan dengan proses ekstraksi ciri pada semua data dengan menerapkan MFCC dan Wavelet Daubechies.
80% 60% 40% 20% 0% a b c d e f g h i j k l mn o p q r s t u vwx y z Fonem
Gambar 8 Grafik hasil pengujian dengan ekstraksi ciri Wavelet. Pada Gambar 9 terlihat bahwa pengujian fonem dengan ekstraksi ciri MFCC memiliki
9
kinerja yang cukup baik dibandingkan dengan ekstraksi ciri Wavelet. Hal ini, pada grafik terlihat bahwa dengan MFCC terdapat 25 fonem nilai akurasinya berada di atas grafik Wavelet. Akan tetapi, dari 26 fonem kecuali untuk fonem /p/ nilai akurasi MFCC berada di bawah Wavelet. Nilai akurasi untuk fonem /p/ dengan MFCC sebesar 60%, sedangkan pada Wavelet mencapai 80%. Jadi Wavelet di atas MFCC sebesar 20% hanya untuk fonem /p/.
Fonem
Wavelet
MFCC
C
80%
60%
D
100%
20%
E
100%
40%
F
60%
20%
G
100%
60%
H
100%
60%
100%
40%
J
100%
60%
80%
K
80%
60%
60%
L
100%
40%
40%
M
100%
40%
20%
N
100%
60%
0%
O
100%
80%
a b c d e f g h i j k l mn o p q r s t u vwx y z
P
60%
80%
Fonem
Q
80%
80%
R
60%
20%
S
100%
20%
T
100%
20%
U
80%
20%
V
60%
40%
W
100%
20%
X
100%
20%
Y
80%
80%
Z
100%
40%
MFCC
WAVELET
Gambar 9 Grafik hasil pengujian dengan ekstraksi ciri MFCC danWavelet.
Nilai Akurasi
100%
90.00%
80% 60%
46.92%
40% 20% 0% MFCC
WAVELET
Ekstraksi Ciri
Gambar 10 Grafik hasil pengujian data uji. Berdasarkan Tabel 3 dan Gambar 10 terlihat bahwa akurasi nilai perbandingan antara MFCC dan Wavelet menunjukkan perbedaan yang sangat signifikan. Rata-rata nilai akurasi MFCC memiliki keunggulan dibandingkan dengan Wavelet sebesar 43,08% dari seluruh fonem. Untuk MFCC akurasi rata-rata sebesar 90% sedangkan Wavelet jauh di bawah MFCC dengan rata-rata akurasinya hanya mencapai 46,92%. Tabel 3 Akurasi nilai perbandingan MFCC dan Wavelet. MFCC
Wavelet
A
100%
80%
B
100%
60%
Fonem
Berdasarkan Gambar 11 terlihat bahwa hasil pengujian sangat baik, ketika menggunakan data latih sebagai data uji. Hal ini terlihat pada grafik bahwa, rata-rata nilai akurasi MFCC dan Wavelet cukup tinggi dengan rata-rata akurasi 100% untuk MFCC dan 99,74% untuk Wavelet. Jadi, pengujian dengan data latih MFCC lebih baik dibanding dengan Wavelet dengan selisih sebesar 0,26%. 100%
Nilai Akurasi
Nilai Akurasi
I
100%
100.00%
99.74%
MFCC
WAVELET
80% 60% 40% 20% 0% Ekstraksi Ciri
Gambar 11 Grafik hasil pengujian data latih.
10
Penerapan ekstraksi ciri Wavelet baik, jika masih dalam ruang lingkup data latih yang diujikan untuk pengenalan fonem. Hasil akurasi pengenalan fonem kurang baik, ketika menggunakan data uji yang baru. Terlihat dari rata-rata pengujian dengan data uji pada Wavelet hanya mencapai 46,92% dan meningkat 99,74% dengan data latih. Hasil Pengujian MFCC dan Wavelet dengan Noise Penelitian ini dicoba dengan menambahkan noise pada data uji sebesar 10 dB, 20 dB, dan 30 dB. Pemilihan noise 10 dB, 20 dB, dan 30 dB karena berdasarkan fakta empiris, bahwa noise 20 dB mulai terasa pengaruhnya terhadap sinyal suara (Buono 2009). Oleh karena itu, digunakan noise di bawah dan di atas 20 dB untuk mengetahui kehandalan model yang sudah dibuat, jika sinyal uji diberi gangguan. Sinyal noise yang digunakan bersifat gaussian dengan menggunakan paket Matlab melalui instruksi AWGN(sinyal asli,level noise). Tabel 4 Pengujian data uji dengan noise. Sinyal
MFCC
Wavelet
Asli
90,0%
46,9%
noise 30
35,4%
26,9%
noise 20
13,8%
11,5%
noise 10
6,2%
5,4%
Berdasarkan Tabel 4 dapat disimpulkan, bahwa model yang dibangun dengan menerapkan MFCC sebagai ekstraksi ciri, jika data uji ditambah noise, maka tidak dapat mengenali dengan baik dan hasil akurasinya mengalami penurunan. Namun demikian, nilai akurasi MFCC mengalami penurunan, akan tetapi akurasi MFCC selalu berada di atas Wavelet. Lebih jelasnya hasil akurasi yang didapat dapat dilihat pada Gambar 12. Pada grafik terlihat bahwa baik MFCC maupun Wavelet dengan menambahkan noise hasil akurasi mengalami penurunan.
100% 80% 60% 40% 20% 0%
Nilai Akurasi
Hasil pengujiaan akan mengalami penurunan, jika menggunakan data uji dan Wavelet sebagai ekstrasi ciri. Hal ini dijelaskan dari perbedaan selisih nilai akurasi pengujian dengan data uji mengalami peningkatan yang cukup signifikan. Nilai awal selisih antara MFCC dan Wavelet 0,26% dengan data latih dan meningkat menjadi 43,08% dengan data uji. Maka berdasarkan selisih nilai akurasi, MFCC lebih baik dibanding dengan Wavelet dalam pengenalan fonem untuk sinyal tanpa gangguan.
Asli
noise 30 noise 20 noise 10 Jenis Sinyal MFCC
Wavelet
Gambar 12 Grafik hasil pengujian data uji dengan noise. Perbedaan hasil pengujian yang sangat signifikan antara MFCC dan Wavelet, mungkin disebabkan oleh MFCC dalam mengekstraksi sinyal suara bersifat low noise sehingga teknik MFCC relatif lebih baik untuk sinyal tanpa noise. Selain itu, MFCC juga didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan sinyal suara sebagaimana manusia merepresentasikan. KESIMPULAN DAN SARAN Kesimpulan Penelitian ini menghasilkan, bahwa ekstraksi ciri MFCC lebih baik 43,08% dibandingkan dengan Wavelet untuk sinyal tanpa noise. Rata-rata akurasi MFCC dengan data uji tanpa noise sebesar 90% untuk semua pengenalan fonem. Penerapan MFCC baik digunakan ketika data uji tidak ada gangguan dengan pemodelan Distribusi Normal. Nilai akurasi MFCC kurang baik, jika data uji ditambah dengan gangguan (noise). Ekstraksi ciri Wavelet masih baik dalam pengenalan fonem, jika menggunakan data latih sebagai data uji dengan akurasi sebesar 99,74%. Pada kasus ini, penerapan Wavelet Daubechies kurang baik, jika pengujian dilakukan pada data uji dengan akurasi rata-rata 46,92% dan kurang baik juga ketika ditambah noise. Saran Penelitian ini memungkinkan untuk dikembangkan lebih baik lagi, saran untuk pengembangan selanjutnya ialah: 1. Penelitian mengenai pengenalan fonem ini masih sangat memungkinkan untuk dikembangkan lebih lanjut ke tahap pengenalan kata, dengan melakukan
11
2.
3. 4.
5.
segmentasi secara otomatis menggunakan metode auto corelation. Menggunakan jumlah kata yang bervariasi sehingga dapat mewakili untuk tiap fonem yang berada di depan, tengah, dan belakang untuk menghasilkan sistem yang lebih akurat. Pengembangan dengan menggunakan jumlah pembicara yang lebih banyak yang bersifat speaker independent. Analisis lebih lanjut mengenai penyebab akurasi yang kurang bagus pada Wavelet baik sebelum maupun sesudah diberikan noise. Analisis penyebab MFCC yang turun drastis sesudah diberi noise dan memberikan solusi kesalahan pada proses pengenalan fonem.
DAFTAR PUSTAKA Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai Praproses pada Sistem Identifikasi Pembicara. [Tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [Disertasi]. Depok: Fakultas Ilmu Komputer, Universitas Indonesia.
Neural Networks, Center for Excellence in Computer Aided Systems Engineering and Telecommunications dan Information Sciences Laboratory 2291 Irving Hill Drive, Lawrence, KS 66045. Mallat, Stephane. 1999. A Wavelet Tour of Signal Processing. Second Edition, Academic Press 84 Theobald’s Road, London WClX 8RR, UK. Nilsson, M, dan Ejnarsson, M. 2002. Speech Recognition using Hidden Markov Model : Kinerjance Evaluation in Noisy Environment. Master Thesis, Departement Of Telecomunications and signal Processing, Blekinge Institute of technologi, Sweden. Proakis, L. R., dan Manolakis, D. G. 1996. Digital Signal Processing. Principles, Algorithm, and Aplication. Edisi ke tiga, Prentice Hall, New Jersey. Resmiwati, Narcayaning U. D. 2009. Pengenalan Kata Berbahasa Indonesia dengan Menggunakan Hidden Markov Models Berbasiskan Fonem. [Skripsi]. Bogor : Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tim Penyusun Kamus Pusat Pembinaan dan Pengembangan Bahasa. 2003. Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta : Balai Pustaka.
Burrus, C.S. Gopinath R.A., dan Guo, H. 1998. Introduction to Wavelets and Wavelet Transforms A Primer, International Edition. Prentice-Hall International, Inc. Do MN. 1994. Digital Signal Processing MiniProject: An Automatic recognition System. Audio Visual Communication Laboratory, Swiss Federal Institute of Technology, Switzerland. Herryhyanto, Nar, dan Gantini, Tuti. 2009. Pengantar Statistika Matematis. Yrama Widya, Bandung. Jurafsky D, Martin JH. 2000. Speech and Language Processing an Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Krishnan, M, Neophytou, CP, dan Prescott, G. 1994. Wavelet Transform Speech Recognition Using Vector Quantization, Dynamic Time Warping and Artificial
12