PENERAPAN MODEL CODEBOOK UNTUK TRANSKRIPSI SUARA KE TEKS DENGAN EKSTRAKSI CIRI MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC)
MEGGA DARA NINGGAR SUHARTO
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency Cepstrum Coefficients (MFCC) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, April 2014 Megga Dara Ninggar Suharto NIM G64114029
ABSTRAK MEGGA DARA NINGGAR SUHARTO. Penerapan Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency Cepstrum Coefficients (MFCC). Dibimbing oleh AGUS BUONO. Seiring dengan perkembangan teknologi informasi, maka tuntutan manusia untuk memanfaatkan komputer guna mempermudah kehidupan sehari-hari juga makin bervariasi. Salah satunya adalah untuk membuat komputer mampu berkomunikasi secara alami dengan manusia. Penelitian ini menggunakan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode pengenalan pola untuk transkripsi suara ke teks. Teknik cluster yang digunakan pada penelitian ini adalah k-means. Data hasil MFCC diklasterkan menggunakan k-means, kemudian dibuat modelnya dengan metode codebook. Parameter MFCC yang digunakan adalah sampling rate 11 000 Hz, time frame 23.27 ms, overlapping 39%. Sebanyak 300 data suara berdurasi 5 detik dan berekstensi WAV digunakan sebagai data latih dan data uji untuk menemukan jumlah koefisien cepstral dan jumlah cluster yang menghasilkan akurasi tertinggi. Percobaan ini dilakukan dengan mengenali setiap suku kata pada 60 data uji dengan menggunakan 240 data latih. Hasil simulasi menunjukkan bahwa akurasi maksimum yang diperoleh adalah 98.3% pada koefisien cepstral 26 dan jumlah cluster 12. Kata kunci : codebook, k-means, MFCC, transkripsi suara
ABSTRACT MEGGA DARA NINGGAR SUHARTO. Application of Codebook Model for Voice to Text Transcription with Mel-Frequency Cepstrum Coefficients (MFCC) Feature Extraction. Supervised by AGUS BUONO. The advancement of information technology has triggered various demands in utilizing computer. One of them is to make computers able to communicate naturally with humans. This study uses MFCC as a feature extraction method and codebook as a pattern recognition method for voice-to-text transcription. The clustering technique used in this study is k-means. Data obtained from MFCC are clustered using the k-means method, and the model for classification is constructed using the codebook method. The utilized MFCC parameters are sampling frequency 11 000 Hz, time frame 23.27 ms, overlapping 39%. 300 voice data in WAV files with 5 seconds of duration each, are used as the training data and test data to determine the number of cepstral coefficients and the number of cluster that can produce the highest accurancy. The experiment is conducted by recognizing each syllable in 60 the test data with 240 training data. Simulation result shows that the maximum accurancy obtained is 98.3% at 26 cepstral coefficients and 12 clusters. Keywords : codebook, k-means, MFCC, voice transcription
PENERAPAN MODEL CODEBOOK UNTUK TRANSKRIPSI SUARA KE TEKS DENGAN EKSTRAKSI CIRI MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC)
MEGGA DARA NINGGAR SUHARTO
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Penguji: 1 Karlisa Priandana, ST MEng 2 Toto Haryanto, SKom MSi
Judul Skripsi : Penerapan Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency Cepstrum Coefficients (MFCC) Nama : Megga Dara Ninggar Suharto NIM : G64114029
Disetujui oleh
Dr Ir Agus Buono, MSi MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini ialah pengenalan suara, dengan judul Penerapan Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri MelFrequency Cepstrum Coefficients (MFCC). Terima kasih penulis ucapkan kepada: 1 Ayah, Ibu, Adik dan seluruh keluarga atas segala doa dan dukungan dalam pengerjaan karya ilmiah ini. 2 Bapak Dr Ir Agus Buono, MSi MKom selaku dosen pembimbing yang telah banyak memberi saran saat bimbingan. 3 Bapak Toto Haryanto, SKom MSi dan Ibu Karlisa Priandana, ST. M.Eng selaku dosen penguji atas kesediaannya sebagai penguji. 4 Tino Akbar mahasiswa ilkom angkatan 6 yang telah membantu selama pengumpulan data. 5 Teman-teman Ilkom alih jenis angkatan 6 khususnya teman-teman satu bimbingan yang senantiasa memberikan dukungan dan bantuan selama pengerjaan karya ilmiah ini. Semoga karya ilmiah ini bermanfaat.
Bogor, April 2014 Megga Dara Ninggar Suharto
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
Manfaat Penelitian
1
Ruang Lingkup Penelitian
2
METODE
2
Lingkungan Pengembangan
3
Studi Literatur
3
Pengambilan Data Suara
3
Praproses
3
Pembagian Data Latih dan Data Uji
6
Pemodelan Codebook
7
Pengujian
8
Rancangan Percobaan
8
HASIL DAN PEMBAHASAN
9
Pengambilan Data Suara
9
Praproses
9
Pemodelan Codebook
10
Implementasi Sistem
10
Hasil dan Analisis Percobaan
11
SIMPULAN DAN SARAN
13
Simpulan
13
Saran
13
DAFTAR PUSTAKA
13
RIWAYAT HIDUP
14
DAFTAR TABEL 1 2 3 4
Data latih Hasil akurasi dengan parameter jumlah cluster Confusion matrix kesalahan dalam pengenalan suku kata pada koefisien Persentase keberhasilan pengujian kata pada koefisien
6 12 12 12
DAFTAR GAMBAR 5 6 7 8 9 10 11 12 13 14 15 16
Tahapan proses penelitian Alur praproses Sinyal suara yang mengandung jeda dan silent Diagram alur proses MFCC Ilustrasi sebaran codebook (Marta 2013) Ilustrasi perhitungan jarak data uji dengan sebuah codebook Sinyal suara kata hama dari satu pembicara Proses normalisasi sinyal suara (a) sebelum normalisasi, (b) sesudah normalisasi Proses segmentasi sinyal suara Tampilan antarmuka proses pengenalan suku kata Tampilan antarmuka proses akurasi penelitian Hasil akurasi penelitian
2 3 4 4 7 8 9 9 10 10 11 11
PENDAHULUAN Latar Belakang Seiring dengan perkembangan teknologi informasi, maka tuntutan manusia untuk memanfaatkannya guna mempermudah kehidupan sehari-hari juga makin bervariasi. Salah satunya adalah untuk membuat komputer mampu berkomunikasi secara alami dengan manusia. Secara umum, dalam berkomunikasi manusia menggunakan bahasa yang disampaikan dalam bentuk perkataan. Komunikasi digunakan oleh manusia untuk menciptakan dan menggunakan informasi tersebut agar dapat terhubung dengan lingkungannya dan orang lain (Brent dan Stewart 2006). Agar suatu informasi dapat dipahami, informasi tersebut harus disampaikan dengan baik agar tidak terjadi misinterpretasi dari informasi. Bagi manusia, mengenali suara bukanlah hal yang sulit untuk dilakukan lain halnya dengan komputer. Hal inilah yang mendorong dikembangkannya penelitian dalam bidang suara, salah satunya transkripsi suara ke teks. Dalam proses transkripsi suara ke teks hal yang perlu diperhatikan adalah pengenalan kata. Pada proses tersebut, pengenalan kata digunakan untuk membandingkan suara masukan dengan data latih suara dan menghasilkan data suara yang paling cocok dengan cluster data latih suara tersebut. Pada penelitian ini dibangun sebuah sistem yang dapat mendeteksi suara dan akan ditranskripsi ke teks. Secara sederhana kerja sistem ini dengan mencari ciri dari setiap suku kata dengan menggunakan mel frequency cepstrum coefficient (MFCC). MFCC digunakan pada sistem ini karena teknik MFCC telah banyak digunakan dalam berbagai bidang pemrosesan suara. Tujuan utama MFCC adalah meniru perilaku telinga manusia. Selain itu MFCC telah terbukti bisa merepresentasikan variasi dari gelombang suara (Do 1994). Setelah melakukan ekstraksi ciri, pada sistem ini akan digunakan codebook sebagai pengidentifikasi pola. Pemilihan kedua metode ini berdasarkan penelitian yang dilakukan oleh Haryono (2013) dan Wisnudisastra dan Buono (2011) yang menggunakan codebook sebagai metode pengenalan pola dan MFCC sebagai metode ekstraksi ciri. Penelitian Haryono (2013) menghasilkan akurasi di atas 98.89%, sedangkan penelitian Wisnudisastra dan Buono (2011) menghasilkan akurasi 96%. Pemilihan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode identifikasi diharapkan dapat membantu pengguna sistem dalam mentranskripsi suara ke teks. Tujuan Penelitian Tujuan dari penelitian ini ialah: 1 Menerapkan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode indentifikasi pola untuk transkripsi suara ke teks. 2 Mengetahui akurasi transkripsi suara ke teks dengan ekstraksi ciri MFCC dan codebook sebagai metode identifiasi pola. Manfaat Penelitian Penelitian ini diharapkan dapat memberikan informasi mengenai akurasi dan mengetahui kinerja pemodelan dengan metode codebook dengan ekstraksi ciri MFCC dalam transkripsi suara ke teks.
2
Ruang Lingkup Penelitian 1 2 3 4 5 6
Ruang lingkup dalam penelitian ini ialah: Kata yang digunakan ialah kata bahasa Indonesia. Difokuskan pada pengenalan suku kata, bukan pengenalan kalimat. Menggunakan satu pembicara untuk pengambilan data latih (suara laki-laki usia ± 23 tahun). Jumlah suku kata acuan ada empat berasal dari suku kata ME-, MA-, HA-, dan MI-. Jumlah suku kata yang digunakan untuk acuan penelitian adalah dua suku kata. Kata yang diujikan pada penelitian ini adalah hama, mama, maha, mimi, mami, dan memi.
METODE Penelitian ini dilakukan dengan beberapa tahapan proses, yaitu studi literatur, pengambilan data suara, praproses, pemodelan codebook, penentuan jumlah cluster (kmeans), dan pengujian. Tahapan proses penelitian ini dapat dilihat pada Gambar 1. Mulai Studi literatur
Pengambilan data suara Praproses
Data latih
Data uji
Penentuan jumlah cluster (k-means) Pemodelan codebook Pengujian Hasil codebook
Selesai
Gambar 1 Tahapan proses penelitian
3 Lingkungan Pengembangan Penelitian ini menggunakan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut: 1 Perangkat Keras Processor Intel Core 2 Duo CPU @ 2.10 GHz. Memori 2 GB. Harddisk 300 GB. Keyboard dan mouse. Monitor. 2 Perangkat Lunak Sistem operasi Windows 8 Pro 64 bit. Matlab 7.7.0 (R2008b). Studi Literatur Pada tahapan ini dilakukan pencarian dan pembelajaran tentang kebutuhan dalam penelitian ini. Hal-hal yang dibutuhkan antara lain tentang metode pengenalan pola codebook dan juga MFCC. Selain itu, hal-hal yang terkait dengan pengenalan suara akan dicari dan dipelajari untuk dijadikan referensi dalam penelitian ini. Pengambilan Data Suara Data yang digunakan dalam penelitian ini adalah data suara yang direkam oleh satu orang pembicara. Data suara yang direkam adalah suku kata berbahasa Indonesia dengan panjang suku kata yang direkam berjumlah dua suku kata. Banyaknya data suara yang direkam adalah sebanyak 300 data suara. Data suara direkam selama 5 detik, sampling rate 11 000 Hz, time frame 23.27 ms, overlap 39%, serta koefisien cepstral 13 dan 26 dengan ekstensi fail WAV. Praproses Tahapan ini mengolah setiap data suara yang telah direkam oleh pembicara. Alur dari tahapan ini dapat dilihat pada Gambar 2. Normalisasi dilakukan terhadap data suara agar nilai absolut maksimumnya menjadi |1|.
Data Suara
Normalisasi Segmentasi
Mel Cepstrum Gambar 2 Alur praproses
Ekstraksi ciri MFCC
4 Selanjutnya dilakukan segmentasi karena data yang telah direkam merupakan data kotor yang mengandung blank dan jeda yang terdapat pada awal dan akhir suara seperti pada Gambar 3. Proses ini disebut pembersihan data (cutting silent). Tahap praproses selanjutnya adalah ekstraksi ciri sinyal suara yang menggunakan metode MFCC. MFCC telah banyak digunakan dalam berbagai bidang pemrosesan suara karena dapat mempresentasikan ciri sebuah sinyal suara (Do 1994). Dengan dilakukan ekstraksi ciri sinyal suara ditransformasikan ke dalam vektor-vektor ciri, dengan setiap vektornya merepresentasikan informasi yang terdapat pada beberapa frame. Selain itu, MFCC telah terbukti dapat merepresentasikan variasi dari gelombang suara (Do 1944). Diagram alur proses MFCC dapat dilihat pada Gambar 4. Parameter yang digunakan dalam proses ini yaitu: 1 Input yang digunakan adalah data suara dengan ekstensi WAV. Sinyal suara yang digunakan telah melalui tahap pembersihan data. 2 Sampling rate yaitu banyaknya data yang akan diambil dalam satu detik. 3 Time frame adalah waktu yang dipakai untuk membagi data suara menjadi beberapa bagian frame. 4 Overlapping digunakan untuk mengurangi hilangnya informasi saat proses frame blocking. 5 Koefisien cepstral yaitu banyaknya koefisien cepstral yang diinginkan sebagai output.
Silent
Jeda
Silent
Gambar 3 Sinyal suara yang mengandung jeda dan silent Frame Blocking
Windowing
FFT
Cepstrum Coefficients
Mel Frequency Wrapping
Gambar 4 Diagram alur proses MFCC
5 Frame Blocking Pada proses ini, sinyal suara dibagi menjadi beberapa frame. Setiap frame memilki N sample yang direpresentasikan dalam bentuk vektor. Frame-frame yang bersebelahan akan saling tumpang tindih (overlap). Hal ini dilakukan agar tidak ada sedikitpun sinyal yang hilang (deletion). Windowing Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi frame dan pada setiap frame-nya dilakukan windowing dengan fungsi window tertentu. Proses windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan akhir setiap frame (Do 1994). Fungsi window yang dipakai adalah Hamming window yang dapat dilihat pada persamaan (1) (Do 1994): wn n , 0 n N-1 (1) Keterangan: N = jumlah sampel pada setiap frame n = frame ke-n w = fungsi Hamming window Fast Fourier Transform (FFT) Proses ini mengubah setiap frame dari domain waktu ke domain frekuensi. Hal ini dilakukan untuk mempermudah pemrosesan selanjutnya. Dengan algoritme FFT, kompleksitas menjadi rendah (Buono 2009). Dengan alasan inilah maka pada penelitian ini, transformasi Fourier yang digunakan adalah algoritme FFT. Algoritme FFT ditunjukkan oleh persamaan (2) (Do 1994): n
∑
-
n
-
,n
, , ,…,N-1
(2)
Keterangan: Xn = magnitude frekuensi xk = nilai-nilai sampel N = jumlah data sampel j = bilangan imajiner Mel-frequency Persepsi manusia dalam frekuensi sinyal suara tidak mengikuti skala linear. Untuk setiap bunyi dengan frekuensi aktual f (dalam satuan Hz) nilai subyektif dari pitch-nya diukur dengan menggunakan skala mel. Skala mel-frequency adalah selang frekuensi linear di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000 Hz. Satu relasi antara frekuensi bunyi (dalam Hz) dengan skala mel ditunjukkan pada persamaan (3) (Nilsson dan Ejnarsson 2002): . / (3) Mel-frequency wrapping umumnya dilakukan dengan menggunakan filterbank. Perhitungannya ditunjukkan pada persamaan (4) (Do 1994): .∑
-
|
|
Keterangan: Hi (k) = nilai filter segitiga ke-i X(k) = nilai data ke-k hasil proses FFT M = jumlah filter
/, i
, ,3,…,M
(4)
6 N
= banyaknya data
Transformasi Kosinus (Discrete Cosine Transform) Proses selanjutnya yaitu konversi log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral spectrum suara merupakan representasi property spectral local yang baik dari suatu sinyal untuk analisis frame. Mel spectrum coefficients dan logaritmanya berupa bilangan riil sehingga dapat dikonversikan ke domain waktu dengan menggunakan Discrete Cosine Transform (DCT). Proses DCT ditunjukkan pada persamaan (5) (Do 1994): ∑ (( - ) ) (5) Keterangan: Cj = nilai koefisien C ke- j j = jumlah koefisien cepstral i = jumlah wrapping Xi = hasil mel-frequency pada frekuensi ke- i Pembagian Data Latih dan Data Uji Pengambilan data suara diambil sebanyak 300 data suara. Sebanyak 240 data suara dijadikan data latih yang berasal dari 15 kata untuk masing-masing suku kata me,ma-, ha-, dan mi-. Setiap kata dilakukan pengulangan sebanyak 4 kali. Enam puluh data suara sisanya digunakan sebagai data uji yang berasal dari 6 kata yang berbeda dari data latih dan dilakukan pengulangan setiap kata sebanyak 10 kali. Data uji yang digunakan pada penelitian ini adalah kata hama, mama, maha, mimi, mami, dan memi. Setiap kata yang direkam terdiri dari 2 suku kata. Tabel 1 menyajikan data latih yang digunakan pada penelitian ini. Tabel 1 Data latih Suku Kata
Kata
Awalan Me-
Awalan Ma-
Awalan Ha-
Awalan Mi-
Megah Mekah Mekar Melar Melas Melit Menang Menit Merak Mesin Mesir Mecut Meluk Meram Metik
Mabuk Mahar Majas Makam Makan Malam Malang Malas Mama Manis Marah Mari Masak Masuk Mayat
Hadap Hadir Hadis Hafal Haji Hakim Halo Halus Hama Hapus Harap Hari Hasil Hati Hawa
Mika Mikir Milan Mili Milik Mimik Minat Minor Minum Minus Mirah Miring Mirip Misal Mitos
7 Pemodelan Codebook Pengenalan pola dengan codebook dilakukan untuk data latih setelah vektor ciri diperoleh dari proses MFCC. Codebook adalah kumpulan titik (vektor) yang mewakili distribusi suara dari suara tertentu dalam ruang suara. Setiap titik pada codebook dikenal sebagai codeword. Codebook merupakan cetakan yang dihasilkan suara setelah melakukan proses training. Setiap suara yang sudah direkam dibuat codebook yang terdiri atas beberapa codeword untuk merepresentasikan ciri suaranya. Codebook dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai training set dengan menggunakan algoritme clustering. Algoritme clustering yang akan dipakai adalah k-means. Ilustrasi prinsip dasar pembuatan codebook dapat dilihat pada Gambar 5.
Misal : Kelas A centroid A : Kelas B centroid B : Kelas C centroid C : Data uji : X K:2
Gambar 5 Ilustrasi sebaran codebook (Marta 2013) Langkah pertama yang dilakukan oleh algoritme ini adalah menentukan K-initial centroid, dengan k (jumlah cluster) adalah parameter spesifik yang ditentukan user, yang merupakan jumlah cluster yang diinginkan. Setiap titik atau objek kemudian ditempatkan pada centroid terdekat. Kumpulan titik atau objek pada tiap centroid disebut cluster. Kemudian, langkah penempatan objek dan perubahan centroid diulangi sampai tidak ada objek yang berpindah cluster. Setiap suara yang masuk, akan dihitung jaraknya dengan codebook setiap kelas. Setelah itu, jarak setiap sinyal suara ke codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap codeword yang ada pada codebook. Kemudian dipilih codeword dengan jarak minimum. Setelah itu, setiap sinyal suara yang masuk akan diidentifikasi berdasarkan jumlah dari jarak minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan jarak euclid yang didefinisikan pada persamaan (6) (Buono dan Kusumoputro 2007): deucl dean
√∑
-
(6)
dengan x dan y adalah vektor yang ada sepanjang vector dimension (D). Jika dalam sinyal suara input O terdapat T frame dan codewordk merupakan masing-masing codeword yang ada pada codebook, jarak sinyal input dengan codebook dapat dirumuskan pada persamaan (7):
12 Tabel 2 Hasil akurasi dengan parameter jumlah cluster Koefisien cepstral
Jumlah cluster 8
12
16
20
24
28
32
100
13
88.3%
95.0%
95.8%
97.5%
94.1%
95.8%
93.8%
97.5%
26
85.0%
98.3%
96.6%
95.0%
95.8%
97.5%
96.6%
97.5%
Pada penelitian ini, pengujian yang paling baik dengan menggunakan koefisien cepstral 26 dan jumlah cluster 12. Parameter tersebut digunakan karena semakin kecil jumlah cluster yang digunakan semakin cepat proses pengujian terjadi. Tabel 3 menyajikan confusion matrix dari pengujian dengan menggunakan parameter seperti yang disebutkan sebelumnya, yaitu koefisien cepstral 26 dan jumlah cluster 12. Tabel 3 Confusion matrix kesalahan dalam pengenalan suku kata pada koefisien cepstral 26 dengan jumlah cluster 12 Data suara (suku kata) MeMaHaMi-
Me-
Ma-
Ha-
Mi-
10 0 0 0
0 49 0 0
0 1 19 0
0 0 1 40
Pada Tabel 4 diketahui banyak suku kata yang diujikan pada data latih yaitu 120 suku kata yang terdiri atas: Suku kata me- sebanyak 10. Suku kata ma- sebanyak 50. Suku kata ha- sebanyak 20. Suku kata mi- sebanyak 40. Dapat dilihat bahwa dengan menggunakan koefisien cepstral 26 dan jumlah cluster 12 hanya terjadi 2 kesalahan dalam pengenalan suku kata yaitu pada 1 suku kata ma teridentifikasi menjadi ha dan 1 suku kata ha teridentifikasi menjadi suku kata mi. Tabel 4 menyajikan hasil persentase keberhasilan dari kata yang diujikan. Tabel 4 Persentase keberhasilan pengujian kata pada koefisien cepstral 26 dan jumlah cluster 12 Data uji
Persentase (%) keberhasilan
Hama Mama Maha Mimi Mami Memi
100 % 99 % 99 % 100 % 100 % 100 %
13
SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan, maka dapat disimpulkan bahwa: 1 Penelitian ini telah berhasil menerapkan metode pengenalan pola codebook dan ekstraksi ciri MFCC dalam transkripsi suara ke teks. 2 Akurasi tertinggi yang dihasilkan 98.3% yang diperoleh pada koefisien cepstral 26 dengan jumlah cluster 12. Saran Saran untuk pengembangan selanjutnya yaitu: 1 Jumlah kata yang lebih banyak agar diperoleh suku kata yang lebih variatif. 2 Banyaknya suku kata di setiap perekaman kata lebih banyak dari 2 suku kata. 3 Pembicara yang melakukan perekaman lebih dari satu pembicara.
DAFTAR PUSTAKA Buono A. 2009. Representasi nilai HOS dan model MFCC sebagai ekstraksi ciri pada aplikasi indentifikasi pembicara di lingkungan ber-noise menggunakan HMM. [disertasi]. Depok (ID): Program Studi Ilmu Komputer, Universitas Indonesia. Buono A, Kusumoputro B. 2007. Pengembangan model HMM berbasis maksimum lokal menggunakan jarak Euclid untuk sistem identifikasi pembicara. Di dalam: Prosiding Workshop NACSIIT; 2007 Jan 29-30; Depok (ID). hlm 52. Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Laussane (CH): Audio Visual Communications Laboratory, Swiss Federal Institute of Technology. Haryono T. 2013. Pengembangan model codebook untuk konversi suara gitar ke tangga nada [skripsi]. Bogor (ID): Institut Pertanian Bogor. Marta A. 2013. Pembangunan metode codebook untuk identifikasi chord gitar dengan teknik ekstraksi ciri MFCC [skripsi]. Bogor (ID): Institut Pertanian Bogor. Nilsson M, Ejnarsson M. 2002. Speech recognition using hidden markov model: performance evaluation in noisy environment [tesis]. Karlskrona: Department of Telecommunications and Speech Processing, Blekinge Institute of Technology. Brent DR, Stewart LP. 2006. Communication and Human Behavior. Waipahu (US): Allyn and Bacon Wisnudisastra E, Buono A. 2010. Pengenalan chord pada alat musik gitar menggunakan codebook dengan teknik ekstraksi ciri MFCC. Jurnal Ilmiah Ilmu Komputer, 14(1): 16 – 21.
14
RIWAYAT HIDUP Penulis dilahirkan di Sukabumi, Jawa Barat, Indonesia pada tanggal 16 September 1990. Penulis merupakan anak pertama dari dua bersaudara, dari pasangan Suharto, dan Tuti Ernawati, SE. Penulis memulai pendidikan formal dari TK Nugraha 3 Bogor dan lulus pada tahun 1996, kemudian melanjutkan pendidikan di SD Negeri Polisi 4 Bogor dan lulus pada tahun 2001. Pendidikan menegah diselesaikan di SMP Negeri 5 Bogor dan lulus tahun 2005. Lalu, penulis melanjutkan pendidikan tingkat atas di SMA Negeri 2 Bogor dan lulus pada tahun 2008. Pada tahun 2008, penulis melanjutkan pendidikan di Institut Pertanian Bogor Program Diploma, Program Keahlian Manajemen Informatika melalui jalur Undangan Seleksi Masuk (USMI) dan lulus pada tahun 2011. Pada tahun 2011, penulis melanjutkan pendidikan di Program Alih Jenis S1 Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.