PERBANDINGAN METODE PENGENALAN POLA SUARA MENGGUNAKAN CODEBOOK DAN PROBABILISTIC NEURAL NETWORK BERDASARKAN KISARAN USIA DAN JENIS KELAMIN
ARRY RINALDY PRATAMA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan Metode Pengenalan Pola Suara Menggunakan Codebook Dan Probabilistic Neural Network Berdasarkan Kisaran Usia Dan Jenis Kelamin adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Mei 2013 Arry Rinaldy Pratama NIM G64104064
ABSTRAK ARRY RINALDY PRATAMA. Perbandingan Metode Pengenalan Pola Suara Menggunakan Codebook dan Probabilistic Neural Network Berdasarkan Kisaran Usia dan Jenis Kelamin. Dibimbing oleh TOTO HARYANTO. Sinyal Suara dapat digunakan untuk mengidentifikasi seorang pembicara termasuk kisaran usia dan jenis kelamin berdasarkan perbedaan karakteristik frekuensi. Penelitian ini membandingkan dua metode pengenalan pola suara yaitu Codebook dan Probabilistic Neural Network (PNN). Dalam penelitian ini, kelompok usia dibagi menjadi tiga yaitu anak-anak untuk usia 8 sampai 11 tahun, remaja untuk usia 12 sampai 21 tahun dan dewasa untuk usia 22 sampai 50 tahun. Setiap kelompok usia dibedakan berdasarkan jenis kelamin, sehingga terdapat enam kelompok data. Penelitian ini menggunakan 600 data suara yang mewakili 6 kelompok data. MFCC digunakan sebagai metode ekstraksi ciri sedangkan Kmeans digunakan sebagai teknik pengklasteran. Beberapa parameter yang penting dalam proses MFCC adalah jumlah koefisien cepstral, overlap, dan time frame. Nilai overlap dan time frame yang digunakan adalah 0.5 dan 40 ms; sedangkan nilai koefisien cepstral yang diujicobakan untuk menghasilkan akurasi terbaik dalam penelitian ini adalah 13, 20, dan 26. Perbandingan pengenalan model suara dibangun dari tiga proporsi yang berbeda untuk data latih dan data uji (25%:75%, 50%:50%, 75%:25%). Hasil penelitian menunjukkan bahwa rata-rata akurasi yang diperoleh dengan metode Codebook adalah sebesar 97.20% sedangkan akurasi PNN adalah sebesar 95.17%. Kata kunci: codebook, K-means, Mel Frequency Cepstral Coefficients (MFCC), Probabilistic Neural Network
ABSTRACT ARRY RINALDY PRATAMA. Comparison Voice Identification Method Using Codebook and Probabilistic Neural Network Based on Age Range and Gender. Supervised by TOTO HARYANTO. Voice signal be used to identify a speaker, including the age range and gender based on the difference of its frequency characteristic. This research compares two method of voice identification namely codebook and probability neural network (PNN) in recognizing the age range and gender of the speaker. In this research, the age range is divided into three categories namely children (8-11 years old), teenagers (12-17 years old) and adults (30-50 years old). Each age category is divided based on gender, so that there are six categories in total. This research utilized 600 voice data representing the total six categories. MFCC is used as a method of feature extraction, whereas K-means is used as the clustering method. Several important parameters in the MFCC process are the number of cepstral coefficients, overlap, and time frame. The overlap and time frame values are 0.5 and 40 ms, respectively; whereas the chosen cepstral coefficients to produce the maximum accuracy are 13, 20, and 26. The comparison of voice identification is constructed from three different proportions of training data and testing data (25%:75%, 50%:50%, 75%:25%). It is shown that the accuracy of codebook method is 97.20% whereas that of PNN is 95.17%. Keywords: codebook, K-means, Mel Frequency Cepstral Coefficients (MFCC), Probabilistic Neural Network
PERBANDINGAN METODE PENGENALAN POLA SUARA MENGGUNAKAN CODEBOOK DAN PROBABILISTIC NEURAL NETWORK BERDASARKAN KISARAN USIA DAN JENIS KELAMIN
ARRY RINALDY PRATAMA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013
Judul Skripsi: Perbandingan Metode Pengenalan Pola Suara Menggunakan Codebook dan Probabilistic Neural Network Berdasarkan Kisaran Usia dan Jenis Kelamin Nama : Arry Rinaldy Pratama NIM : G64104064
Disetujui oleh
Toto Haryanto, SKom, MSi Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi, MKom Ketua Departemen Ilmu Komputer
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah ekstraksi ciri dan pengenalan pola, dengan judul Perbandingan Metode Pengenalan Pola Suara Menggunakan Codebook dan Probabilistic Neural Network Berdasarkan Kisaran Usia dan Jenis Kelamin. Terima kasih penulis ucapkan kepada Bapak Toto Haryanto SKom, MSi selaku pembimbing yang telah memberikan arahan dan saran selama penelitian ini berlangsung, serta kepada Bapak Dr Ir Agus Buono MSi, MKom dan Bapak Aziz Kustiyo SSi, MKom selaku penguji untuk penelitian ini. Ungkapan terima kasih juga disampaikan kepada orang tua, kakak, serta seluruh keluarga atas segala doa dan kasih sayangnya. Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Mei 2013 Arry Rinaldy Pratama
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
Manfaat Penelitian
1
Ruang Lingkup Penelitian
2
METODE PENELITIAN
2
Pengambilan data suara
3
Praproses
3
Data latih dan data uji
4
Ekstraksi Ciri dengan MFCC
5
Pengenalan Pola dengan Codebook
7
Pengenalan Pola dengan Probabilistic Neural Network
8
Pengujian
9
Lingkungan Pengembangan Sistem
9
HASIL DAN PEMBAHASAN
10
Pengumpulan Data
10
Ekstraksi Ciri dengan MFCC
10
Pemodelan Codebook
10
Pemodelan Probabilistic Neural Network
11
Hasil Pengujian
11
Analisa Percobaan
15
Akurasi model dengan suara diluar data pelatihan
18
SIMPULAN DAN SARAN
18
Simpulan
18
Saran
18
DAFTAR PUSTAKA
20
RIWAYAT HIDUP
21
DAFTAR TABEL 1 2 3 4 5
6 7 8
9 10 11 12
13
Perbandingan keakurasian pada kelompok anak laki-laki dengan codebook dan PNN 12 Perbandingan keakurasian pada kelompok anak perempuan dengan codebook dan PNN `12 Perbandingan keakurasian pada kelompok remaja laki-laki dengan codebook dan PNN 13 Perbandingan keakurasian pada kelompok remaja perempuan dengan codebook dan PNN 14 Perbandingan keakurasian pada kelompok dewasa laki-laki dengan codebook dan PNN 14 Perbandingan keakurasian pada kelompok dewasa perempuan dengan codebook dan PNN 15 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus 16 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus berdasarkan koefisien 16 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus berdasarkan proporsi data latih 17 Confusion matrix untuk metode codebook 17 Confusion matrix untuk metode PNN Akurasi model dengan suara diluar data pelatihan dengan metode codebook 18 Akurasi model dengan suara diluar data pelatihan dengan metode PNN 19
DAFTAR GAMBAR Tahapan transformasi sinyal suara menjadi informasi Diagram Alur Penelitian Proses Identifikasi Suara Proses penghapusan silence dan normalisasi suara Pemisahan data suara pada model pengenalan jenis kelamin dan kisaran usia 5 Diagram alur MFCC 6 Ilustrasi sebaran Codebook 7 Struktur PNN 8 Contoh hasil MFCC dengan cepstral coefficient bernilai 26 dan nilai k 30 9 Diagram alir metode PNN berdasarkan kisaran usia dan jenis kelamin
1 2 3 4
2 4 4 5 5 7 9 10 11
PENDAHULUAN Latar Belakang Komputer merupakan salah satu produk yang berperan penting dalam perkembangan teknologi digital. Komputer dapat dimanfaatkan untuk keperluan komunikasi, memperoleh informasi, penyimpanan data, keamanan, bahkan untuk hiburan. Pada saat manusia berbicara mengeluarkan energi yang sering disebut sinyal suara. Sinyal suara merupakan gelombang longitudinal (berupa sinyal analog) yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Sehingga sinyal analog harus diubah terlebih dahulu menjadi sinyal digital yang nantinya akan dimasukkan ke komputer melalui microphone agar dapat digunakan sebagai akses untuk berkomunikasi dengan komputer melalui bahasa sehari-hari. Pemrosesan sinyal suara merupakan teknik mentransformasi sinyal suara menjadi informasi yang berarti sesuai dengan yang diinginkan (Buono 2009). Banyak metode yang dapat diterapkan untuk proses pengenalan sinyal suara, di antaranya probabilistic neural network (PNN), codebook, hidden Markov model (HMM), dan lainnya. Pada penelitian ini dilakukan perbandingan akurasi dari pengenalan pola suara dengan metode codebook dan probabilistic neural network. Perbandingan metode ini dilakukan karena terdapat penelitian tentang pengembangan probabilistic neural network pada pengenalan kisaran usia dan jenis kelamin berbasis suara yang telah dilakukan oleh Fransiswa (2010) dengan akurasi rata-rata 91.26%. Pada penelitian ini untuk mengenali setiap jenis suara, diperlukan pengenalan ciri dari setiap suara tersebut. Setiap jenis suara diproses untuk diekstraksi ciri dari suara tersebut. Ekstraksi ciri yang digunakan adalah melfrequency cepstrum coefficient (MFCC), yang dapat merepresentasikan sinyal lebih baik dibandingkan dengan linear prediction ceptrum coefficient (LPCC) dan teknik lainnya (Buono 2009).
Tujuan Penelitian Penelitian ini bertujuan untuk membandingkan hasil yang didapat dari metode pengenalan suara menggunakan codebook dan PNN, dengan MFCC sebagai ekstraksi ciri, agar komputer dapat mengetahui kelompok umur dan jenis kelamin pembicara melalui mikrofon.
Manfaat Penelitian Dengan adanya penelitian ini diharapkan dapat memberikan kesimpulan tentang keunggulan dari metode codebook maupun PNN dalam proses pengenalan pola suara. Terdapatnya sistem identifikasi suara yang mampu mengenali kisaran
2 usia maupun jenis kelamin pembicara, dan untuk sebagai data acuan pada penelitian berikutnya.
Ruang Lingkup Penelitian
1 2
3
Ruang lingkup penelitian ini adalah: Perbandingan hasil akhir atau tingkat akurasi antara metode codebook dan PNN. Kata yang digunakan ialah “awas ada bom” sebagai input sinyal suara. Kata tersebut dipilih karena tidak mengandung diftong dengan susunan vokalkonsonan berturut-turut dan memiliki lebih dari satu suku kata sehingga memiliki variasi warna suara yang diucapkan dengan format WAV (Fransiswa 2010). Kelompok usia dibagi menjadi anak-anak memiliki kisaran usia antara 8 tahun sampai 11 tahun, remaja antara 12 tahun sampai 21 tahun, dan dewasa antara 22 tahun sampai 50 tahun (IDAI 2009).
METODE PENELITIAN Terdapat beberapa tahap agar komputer dapat memproses suara pembicara menjadi suatu informasi. Tahapan tersebut terdiri atas digitalisasi sinyal analog, pembacaan sinyal, ekstraksi ciri, dan pengenalan pola, seperti yang disajikan pada Gambar 1.
Gambar 1 Tahapan transformasi sinyal suara menjadi informasi (Buono 2009)
3 1
2 3 4
Perekaman suara yang berupa sinyal analog diubah menjadi sinyal digital melalui proses sampling dan kuantisasi. Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilainilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didigitalisasikan serta sampling rate yang digunakan pada proses digitalisasinya. Sampling rate adalah banyaknya nilai yang diambil setiap detik. Sampling rate yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky dan Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didigitalisasikan dapat dinyatakan secara sederhana sebagai berikut: S = Fs T S = panjang vektor Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik) Proses selanjutnya adalah kuantisasi, yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000). Tahap pembacaan sinyal, sinyal digital dipartisi menjadi beberapa frame yang saling tumpang tindih untuk menghindari kehilangan informasi. Ekstraksi ciri dilakukan untuk setiap frame sehingga didapatkan vektor ciri. Pengenalan pola dilakukan untuk setiap vektor ciri sehingga diperoleh informasi yang diinginkan.
Sistem pengenalan kata suara dapat diwujudkan melalui suatu program dengan menggunakan perangkat lunak MATLAB R2008b. Pembuatan program dibagi menjadi beberapa tahap sesuai diagram alur penelitian yang ditunjukkan pada Gambar 2.
Pengambilan Data Suara Data suara yang digunakan pada penelitian ini menggunakan 6 jenis suara yang berbeda, yaitu anak perempuan, anak laki-laki, wanita remaja, pria remaja, pria dewasa dan wanita dewasa. Masing-masing kelompok suara diambil contoh suara dari 5 orang, setiap kata dilakukan perekaman sebanyak 20 kali selama 2 detik dengan sampling rate 11000 Hz.
Praproses Tahapan praproses terdiri dari normalisasi suara dan penghapusan silence. Setiap data suara memiliki nilai rentang amplitudo yang berbeda sehingga data suara perlu dinormalisasi terlebih dahulu dengan cara membagi setiap nilai dengan nilai maksimum pada data masing-masing suara agar didapat rentang nilai amplitude suara yang sama. Selanjutnya adalah penghapusan silence yang berfungsi untuk menghapus bagian suara „diam‟ yang biasanya terdapat pada awal dan akhir perekaman suara. Proses ini dapat dilihat pada Gambar 3.
4
Mulai
Pengambilan suara sebanyak @ 20 kali tiap 5 orang per kategori
Data Latih
Data Uji
Praproses
Praproses
MFCC
MFCC
Codebook
Probabilistic Neural Network
Pemodelan Codebook
Pemodelan PNN
Pengujian
Hasil
Selesai
Gambar 2 Diagram alur penelitian proses identifikasi suara
Silence
Silence
Gambar 3 Proses penghapusan silence dan normalisasi suara Data Latih dan Data Uji Setiap pembicara, kata yang diucapkan ialah “awas ada bom” yang digunakan untuk pelatihan. Kalimat tersebut diucapkan oleh enam orang dari setiap kelompok sebanyak 20 kali. Data tersebut dibagi menjadi data latih dan data uji. Proporsi pembagian data latih berbanding data uji sebesar 25:75, 50:50,
5 dan 75:25. Pemisahan data berdasarkan jenis kelamin dan kisaran usia dapat dilihat pada Gambar 4.
Gambar 4 Pemisahan data suara pada model pengenalan jenis kelamin dan kisaran usia Ekstraksi Ciri dengan MFCC Ciri-ciri berkas suara (*.wav) yang diperoleh akan diekstraksi menggunakan metode ekstraksi ciri MFCC. Tahap-tahap dalam teknik MFCC lebih jelasnya disajikan pada Gambar 5 (Buono 2009). sinyal suara frame ke t O = O1 + Windowing O2 + …,Ot ,(Do … , O1994) T : yt (n)= xt (n)* w (n), 0 ≤ n ≤ N-1 w(n) = 0.54 – 0.46 cos (2πn/(N-1)) 𝑦𝑡 (𝑛) = hasil 𝑤𝑖𝑛𝑑𝑜𝑤𝑖𝑛𝑔 pada frame ke 𝑛 dalam domain waktu N = jumlah sampel pada setiap frame, n = frame ke-… W = formula hamming window, 𝑥𝑡 (𝑛) = nilai data ke n Fast Fourier Transform (FFT) (Do 1994): N-1
xk e-2πjki/N
Xn = k=0
Xk =nilai-nilai sampel yang akan diproses pada domain frekuensi Xn =magnitude frekuensi N = jumlah data pada domain frekuensi, j=bilangan imajiner, k = N/2 + 1, i = n x t Mel Frequency Wrapping (Nilsson dan Ejnarsson 2002): mel(f) = 2595 log (1 + f / 700) dari sini diperoleh M filter, dan dihitung spektrum Mel: N-1
Xi =log10
X(k) Hi (k) , i=1,2,3,…,M k=0
𝐻𝑖 (k) = nilai filter segitiga ke i, X(k)=nilai data ke k hasil proses FFT M = jumlah filter, N = banyaknya data
Cepstrum Coefficients : Discrete Cosine Transform (Do 1994) 𝑀
𝐶𝑗 =
𝑋𝑖 𝑐𝑜𝑠 𝑗(𝑖 − 1)2 𝑖=0
𝜋 𝑀
Cj =nilai koefisien C ke j, j = jumlah koefisien cepstral M = jumlah filter , Xi =hasil Mel Frequency Wrapping pada frekuensi ke i, i = jumlah wrapping
Gambar 5 Diagram alur MFCC
6 Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Teknik ini berbasis power spectrum dalam domain frekuensi sebagai penentu ciri sinyal suara. Berdasarkan Gambar 5, sinyal dibaca dari frame ke frame dengan nilai overlap tertentu lalu dilakukan windowing untuk setiap frame. Kemudian, transformasi Fourier dilakukan untuk mengubah dimensi suara dari domain waktu ke domain frekuensi. Dari hasil transformasi Fourier, spektrum mel dihitung menggunakan sejumlah filter yang dibentuk untuk mengikuti persepsi sistem pendengaran manusia yang bersifat linear. Proses ini dikenal dengan mel frequency wrapping. Koefisien MFCC merupakan hasil transformasi kosinus dari spectrum mel tersebut dan dipilih koefisien cepstral. Transformasi kosinus berfungsi untuk mengembalikan dari domain frekuensi ke domain waktu. Frame Blocking Pada tahap ini, sinyal suara dibagi dalam frame-frame. Tiap frame terdiri atas N sampel dengan lebar tertentu yang saling tumpang tindih. Panjang frame biasanya 5 sampai 100 milisecond dengan overlap antar frame yang berurutan sebanyak 0%, 25%, 50%, atau 75%. Proses ini dikenal dengan frame blocking. Pada penelitian ini, akan digunakan time frame 40 ms, overlap 50%, koefisien cepstral akan dicoba sebesar 13, 20 dan 26. Windowing Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi frame dan pada setiap frame-nya dilakukan windowing dengan fungsi window tertentu. Proses windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan akhir setiap frame (Do 1994). Dengan pertimbangan kesederhanaan formula dan nilai kinerja window, maka penggunaan window Hamming cukup beralasan (Buono 2009). Transformasi Fourier Analisis Fourier muncul dari paper yang ditulis oleh Jean Baptiste Joseph Fourier (1768-1830) yang di-review oleh Joseph Louise Louis Lagrange (17361813) dan Pierre Simon de Laplace (1749-1827). Analisis ini merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda, harus dilihat dari domain frekuensi karena kalau dilihat dari domain waktu perbedaanya sulit terlihat. Untuk itu, sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). Dengan algoritme FFT, kompleksitas menjadi rendah (Buono 2009). Dengan alasan inilah maka pada penelitian ini, transformasi Fourier yang digunakan adalah algoritme FFT. Mel Frequency Wrapping Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz), tinggi subyektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000 Hz (Do 1994).
7 Transformasi Kosinus (Discrete Cosine Transform) Langkah terakhir yaitu mengonversi log mel spectrum ke domain waktu. Hasilnya disebut MFCC. Representasi cepstral spectrum suara merupakan representasi properti spectral lokal yang baik dari suatu sinyal untuk analisis frame. Mel spectrum coefficients dan logaritmanya berupa bilangan riil sehingga dapat dikonversikan ke domain waktu dengan menggunakan discrete cosine transform (DCT).
Pengenalan Pola dengan Codebook Pengenalan pola dengan codebook dilakukan untuk data latih, setelah vektor ciri diperoleh dari proses MFCC. Codebook adalah kumpulan titik (vektor) yang mewakili distribusi suara dari suara tertentu dalam ruang suara. Setiap titik pada codebook dikenal sebagai codeword. Codebook merupakan cetakan yang dihasilkan suara setelah melakukan proses training. Setiap suara yang sudah direkam dibuat codebook yang terdiri dari beberapa codeword untuk merepresentasikan ciri suaranya. Codebook dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai training set dengan menggunakan algoritme clustering. Algoritme clustering yang akan dipakai adalah K-means. Langkah pertama yang dilakukan oleh algoritma ini adalah menentukan K-initial centroid, dengan K adalah parameter spesifik yang ditentukan pengguna, yang merupakan jumlah cluster yang diinginkan. Setiap titik atau objek kemudian ditempatkan pada centroid terdekat. Kumpulan titik atau objek pada tiap centroid disebut cluster. Kemudian langkah penempatan objek dan perubahan centroid diulangi sampai tidak ada objek yang berpindah cluster. Gambar 6 merupakan ilustrasi sebaran data suara di sekitar codebook.
Gambar 6 Ilustrasi sebaran codebook Setiap suara yang masuk, akan dihitung jaraknya dengan codebook setiap kelas. Kemudian jarak setiap sinyal suara ke codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap codeword yang ada pada codebook. Kemudian dipilih codeword dengan jarak minimum. Setelah itu, setiap sinyal suara yang masuk akan diidentifikasi berdasarkan jumlah dari jarak
8 minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan jarak Euclid yang didefinisikan sebagai berikut (Buono dan Kusumoputro, 2007): (xi - yi )2
deuclidean (x,y) = i=1
x dan y adalah vektor yang ada sepanjang vector dimention (D). Jika dalam sinyal suara input O terdapat T frame dan codewordk merupakan masing-masing codeword yang ada pada codebook, jarak sinyal input dengan codebook dapat dirumuskan: T
jarak(0,codebook) =
min d(Ob codewordk ) t=1
Pengenalan Pola dengan PNN Data uji digunakan sebagai input data. Input data tersebut diidentifikasikan dengan pattern layer yang dirumuskan pada Persamaan 1.
( )=∏=
( )(
)
(1)
Keterangan: d = banyaknya data pada satu pattern layer k(z) = e-0.5 × z² xj = input data uji ke-j xi j = pattern ke-i data ke-j hj = smoothing parameter (α × simpangan baku ke-j × n1/5) n = banyaknya pattern pada satu kelas Pada penelitian ini metode PNN akan diimplementasikan dengan empat layer sebagai berikut : 1 Input layer: merupakan layer dimana vektor pada penelitian ini akan dijadikan sebagai input. 2 Pattern layer: digunakan untuk menghitung jarak antara nilai input data suara atau vektor dengan nilai dari setiap anggota kelas dengan perhitungan berdasarkan Persamaan 1. Penelitian ini terdapat 6 buah kelas yang akan digunakan. 3 Summation layer: perhitungan peluang antara vektor dengan tiap kelas dengan menggunakan persamaan sebagai berikut : P(x)=
1 (2
d )2 h1 h2 …hd n
∑ni=1 (fi (x))
4 Decision layer: Hasil peluang P(x) pada setiap kelas akan dibandingkan pada layer ini. Selanjutnya, input data atau vektor dikelompokkan ke dalam kelas yang memiliki nilai peluang terbesar.
9
Gambar 7 Struktur PNN (Ganchev 2005) Pengujian Pengujian dilakukan pada MFCC data uji dengan data latih menggunakan metode codebook dan metode PNN. Setiap data yang diuji, akan dilihat dari suara yang teridentifikasi dari 6 kelas suara. Sistem otomatis ini akan mengklasifikasikan suara masuk ke kelas yang sesuai. Output yang akan dihasilkan berupa hasil suara yang dikelompokkan berdasarkan umur dan jenis kelamin.. Tingkat akurasi sistem akan dihitung untuk mengevaluasi hasil penelitian. Persentase tingkat akurasi dihitung dengan rumus sebagai berikut: Hasil akurasi =
jumlah suara yang benar × 100 jumlah suara yang diuji
Lingkungan Pengembangan Sistem Lingkungan pengembangan adalah kumpulan fasilitas yang diperlukan dalam melaksanakan penelitian, baik berupa perangkat keras maupun perangkat lunak. Pada penelitian ini lingkungan pengembangan yang digunakan adalah sebagai berikut: Perangkat lunak: Windows 7 Ultimate, MATLAB R2008b, Audacity 1.3 Perangkat keras: CPU Core i5 2.66 GHz dan 2 GB RAM
10
HASIL DAN PEMBAHASAN Pengumpulan Data Suara dari masing-masing jenis kelamin dan kategori umur direkam selama 2 detik dan disimpan ke dalam file WAV. Seluruh data suara berjumlah 600 data. Data tersebut diambil berdasarkan 6 kelompok dan setiap kelompok diwakili oleh 5 orang yang melakukan perekaman suara setiap pembicara sebanyak 20 kali.
Ekstraksi Ciri dengan MFCC Proses MFCC pada penelitian ini menggunakan fungsi pada auditory toolbox Matlab. Fungsi MFCC tersebut didapat dari Buono (2012). Dari semua data yang diperoleh akan dilakukan ekstraksi ciri MFCC. Parameter yang dibutuhkan pada proses MFCC ini yaitu sampling rate, time frame, overlap, dan cepstral coefficient. Sampling rate yang digunakan sebesar 11000 Hz selama dua detik, time frame sebesar 40ms, overlap sebesar 50%, dan pada penelitian ini digunakan cepstral coefficient yang telah diujikan sebelumnya yaitu 13 (Suhartono 2007), 20 (Do 1994), dan 26 (Buono 2009), sehingga ketiga koefisien tersebut dapat dibandingkan tingkat akurasinya. Gambar 8 menunjukkan contoh hasil MFCC yang dilakukan pada cepstrals coefficient bernilai 26 dengan nilai k 30.
Gambar 8
Contoh hasil MFCC dengan cepstrals coefficient bernilai 26 dan nilai k 30 Pemodelan Codebook
Tahap pemodelan codebook dengan menggabungkan setiap data latih pada masing- masing kategori suara. Data yang digunakan merupakan data latih yang sudah merupakan ciri dari setiap kategori suara yang diperoleh dari tahap MFCC. Setelah data digabungkan kemudian dilakukan proses clustering dengan menggunakan K-means. Data yang sudah diklasterkan merupakan gabungan koefisien dari setiap data latih. Jumlah k yang digunakan adalah 30.
11 Pemodelan Probabilistic Neural Network Parameter h pada Persamaan 1 digunakan nilai 2.24 (simpangan baku) n-1/5. Nilai a yang digunakan adalah 2.24, karena memberikan nilai optimal (Suhartono 2007). Nilai fi(x) ialah nilai hasil pattern layer, maka nilai tersebut dibagi dengan nilai smoothing parameter. Nilai smoothing hj didapat dari simpangan baku data setiap pattern ke j=1, 2 sampai jumlah koefisien yang digunakan. Gambar 9 menunjukan model PNN yang dibuat untuk pengenalan kisaran usia dan jenis kelamin. Data suara
Data uji
Data latih
PNN Kisaran Usia dan Jenis kelamin
Hasil
Gambar 9 Diagram alir metode PNN berdasarkan kisaran umur dan jenis kelamin Hasil Pengujian Tahap pengujian ini data akan diujikan dalam 6 studi kasus di antaranya adalah untuk anak laki-laki, anak perempuan, studi kasus remaja laki-laki, remaja perempuan, dewasa laki-laki, dan dewasa perempuan. Keenam studi kasus tersebut akan diambil rata-rata akurasi dari setiap metode untuk mengetahui hasil akhir yang didapat dari metode codebook dan PNN. Berikut parameter-parameter yang diujicobakan adalah : 1 Time frame sebesar 40 ms 2 Overlap 0.50 3 Jumlah koefisien cepstral 13, 20, dan 26 4 Jumlah klaster pada k-means 30 pada codebook 5 Komposisi data latih dan data uji 25:75, 50:50, dan 75:25 Studi kasus anak laki-laki Studi kasus anak laki-laki dengan metode codebook, tingkat akurasi terbaik sebesar 100% yang terjadi pada seluruh koefisien, hanya saja tidak terjadi pada semua data latih. Tingkat akurasi terkecil sebesar 96% yang terjadi pada koefisien 13 dengan data latih 25% dan pada koefisien 20 dan 26 pada data latih 75%. Metode PNN, tingkat akurasi terbaik sebesar 100% yang terjadi pada koefisien 20 dan 26 dengan data latih 50% dan 75%. Tingkat akurasi terkecil sebesar 92% yang terjadi pada koefisien 13 dengan data latih 25%. Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus anak laki-laki dapat dilihat pada Tabel 1.
12 Tabel 1
Perbandingan keakurasian pada kelompok anak laki-laki dengan codebook dan PNN
Koef
Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
96.00
100
100
98.67
92.00
98.00
96.00
95.33
20
100
98.00
96.00
98.00
98.66
100
100
99.55
26
97.33
100
96.00
97.77
97.33
100
100
99.11
Rataan
97.77
99.33
97.33
98.14
95.99
99.33
98.66
97.99
Hasil yang didapat dari akurasi codebook dan PNN studi kasus anak lakilaki adalah 98.14% untuk codebook dan 97.11% untuk PNN, hasil codebook lebih baik dibandingkan PNN pada studi anak laki-laki. Tabel 1 terlihat bahwa proporsi data 50% dapat menghasilkan akurasi yang stabil baik pada kedua metode, karena terjadi keseimbangan jumlah data pada data latih dan data uji. Studi kasus anak perempuan Studi kasus anak perempuan menggunakan metode codebook, tingkat akurasi yang paling baik sebesar 100% terjadi pada semua koefisien dengan data latih 75%. Nilai akurasi minimum terjadi pada koefisien 13 dan data latih 25% mencapai 92%. Metode PNN, tingkat akurasi yang paling baik sebesar 100% terjadi pada koefisien 13 dengan data latih 75%. Nilai akurasi minimum terjadi pada koefisien 20 dan data latih 25% mencapai 93.33%. Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus anak perempuan dapat dilihat pada Tabel 2. Tabel 2 Perbandingan keakurasian pada kelompok anak perempuan dengan codebook dan PNN
Koef
Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
100
92.00
100
97.33
98.66
98.00
100
98.88
20
93.33
94.00
100
95.77
93.33
96.00
96.00
95.11
26
98.67
96.00
100
98.22
97.33
96.00
96.00
96.44
Rataan
97.33
94.00
100
97.11
96.44
96.66
97.33
96.81
Hasil yang didapat dari akurasi codebook dan PNN pada studi kasus anak perempuan adalah sebesar 97.11% untuk codebook dan 96.81% untuk PNN. Hasil codebook lebih baik dibandingkan PNN pada studi anak perempuan. Pada Tabel 2 menunjukan bahwa metode codebook memiliki hasil akurasi yang stabil terjadi pada koefisien 26, dan pada metode PNN hasil akurasi yang stabil terjadi pada koefisien 13. Penggunaan proporsi data latih 75% pada codebook dan PNN mampu menghasilkan akurasi yang sangat baik. Oleh karena itu,
13 pengidentifikasian selanjutnya untuk kasus anak perempuan disarankan menggunakan data latih 75%. Hal ini terjadi karena proporsi data latih pada lebih besar dibandingkan dengan data uji, sehingga penciri suara dari studi anak kasus perempuan mampu mengindentifikasi secara baik. Studi kasus remaja laki-laki Studi kasus remaja laki-laki dengan metode codebook, tingkat akurasi yang terbaik terjadi pada setiap koefisien dengan data latih 50% sebesar 100%, dan akurasi terkecil sebesar 80% terjadi pada koefisien 20 dengan data latih 25%. Metode PNN, tingkat akurasi pada koefisien 20 dan 26 yang terbaik terjadi pada data latih 75% sebesar 100%, untuk akurasi terkecil sebesar 84% terjadi pada koefisien 13 dengan data latih 25%. Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus remaja laki-laki dapat dilihat pada Tabel 3. Tabel 3
Koef
Perbandingan keakurasian pada kelompok remaja laki-laki dengan codebook dan PNN Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
90.67
100
100
96.89
84.00
88.00
92.00
88.00
20
80.00
100
96.00
92.00
98.66
100
100
99.55
26
90.67
100
100
96.89
98.66
98.00
100
98.88
Rataan
87.11
100
98.67
95.26
93.77
95.33
97.33
95.47
Hasil yang didapat dari akurasi codebook dan PNN pada studi kasus remaja laki-laki menghasilkan rata-rata akurasi sebesar 95.26% untuk codebook dan 95.47% untuk PNN, hasil PNN lebih baik dibandingkan codebook pada studi remaja laki-laki. Pada Tabel 3 menunjukan bahwa, metode codebook memiliki hasil akurasi yang stabil terjadi pada koefisien 13 dan 26, dan pada metode PNN hasil akurasi yang stabil terjadi pada koefisien 20. Terlihat bahwa koefisien sangat mempengaruh dari setiap metode. Hanya saja untuk proporsi data latih 50% pada codebook mampu menghasilkan akurasi yang sangat baik dan PNN menghasilkan akurasi yang stabil pada data latih 75%. Studi kasus remaja perempuan Studi kasus remaja perempuan dengan menggunakan codebook, tingkat akurasi yang terbaik terjadi pada setiap koefisien dengan data latih 75% sebesar 100%, dan akurasi terkecil sebesar 81.33% terjadi pada koefisien 20 dengan data latih 25%. Metode PNN, tingkat akurasi pada koefisien 20 yang terbaik terjadi pada data latih 75% sebesar 100 %, untuk akurasi terkecil sebesar 88% terjadi pada koefisien 13 dengan data latih 25%. Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus remaja perempuan dapat dilihat pada Tabel 4.
14 Tabel 4 Perbandingan keakurasian pada kelompok remaja perempuan dengan codebook dan PNN Koef
Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
92.00
98.00
100
96.67
88.00
96.00
92.00
92.00
20
81.33
98.00
100
93.11
96.00
98.00
100
98.00
26
82.67
100
100
93.55
94.66
96.00
90.00
94.22
Rataan
85.33
98.67
100
94.67
92.88
97.33
94.00
94.74
Hasil yang didapat dari akurasi codebook dan PNN pada studi kasus remaja perempuan menghasilkan rata-rata akurasi sebesar 94.67% untuk codebook dan 94.74 % untuk PNN, hasil PNN lebih baik dibandingkan codebook pada studi remaja perempuan. Tabel 4 menunjukan bahwa metode codebook memiliki hasil akurasi yang stabil terjadi pada koefisien 13, dan pada metode PNN hasil akurasi yang stabil terjadi pada koefisien 26. Terlihat bahwa koefisien sangat mempengaruh dari setiap metode. Hanya saja untuk proporsi data latih 75% pada codebook mampu menghasilkan akurasi yang sangat baik dan PNN menghasilkan akurasi yang stabil pada data latih 50%. Studi kasus dewasa laki-laki Studi kasus dewasa laki-laki dengan menggunakan codebook, tingkat akurasi terbaik terjadi pada koefisien 13 dengan semua data latih sebesar 100%, dan akurasi terkecil sebesar 98% terjadi pada koefisien 20 dengan data latih 50%. Metode PNN, tingkat akurasi pada koefisien 13 yang terbaik terjadi pada data latih 50% sebesar 98.66%, untuk akurasi terkecil sebesar 81.33% terjadi pada koefisien 26 dengan data latih 25%. Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus remaja perempuan dapat dilihat pada Tabel 5. Tabel 5 Perbandingan keakurasian pada kelompok dewasa laki-laki dengan codebook dan PNN Koef
Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
100
100
100
100
98.66
98.00
92.00
96.22
20
98.67
100
100
99.56
89.33
90.00
96.00
91.77
26
98.67
98.00
100
98.89
81.33
82.00
80.00
81.11
Rataan
99.11
99.55
100
99.48
89.77
90.00
89.33
89.70
Hasil yang didapat dari akurasi codebook dan PNN pada studi kasus dewasa laki-laki menghasilkan rata-rata akurasi sebesar 99.48% untuk codebook dan 89.7% untuk PNN, hasil codebook lebih baik dibandingkan PNN pada studi dewasa laki-laki. Studi kasus ini terlihat bahwa codebook mampu dengan baik mengenali suara dewasa laki-laki dengan perbedaan akurasi yang cukup siginifikan dibanding PNN. Tabel 5 menunjukan bahwa metode codebook
15 memiliki hasil akurasi yang sangat baik terjadi pada koefisien 13, dan hal yang serupa terjadi pada metode PNN hasil akurasi yang stabil terjadi pada koefisien 13. Hanya saja pada metode PNN akurasi yang didapat kurang baik dibandingkan dengan codebook pada studi kasus ini. Penggunaan proporsi data latih 75% pada codebook maupun PNN mampu menghasilkan akurasi yang baik dan stabil . Studi kasus dewasa perempuan Studi kasus dewasa perempuan menggunakan codebook, tingkat akurasi sempurna terjadi pada koefisien 26 dengan semua data latih sebesar 100%, dan akurasi terkecil sebesar 96% terjadi pada koefisien 13 dengan data latih 25%. Metode PNN, tingkat akurasi maksimal terjadi pada koefisien 20 dan 26 sebesar 100% dengan data latih 75%, untuk akurasi terkecil sebesar 92% terjadi pada koefisien 13 dengan data latih 75%. . Detail perbandingan akurasi pada codebook dan PNN untuk studi kasus remaja perempuan dapat dilihat pada Tabel 6. Tabel 6 Perbandingan keakurasian pada kelompok dewasa perempuan dengan codebook dan PNN Koef
Codebook
PNN
Data Latih
Data Latih
25%
50%
75%
Rataan
25%
50%
75%
Rataan
13
96.00
98.00
100
98.00
94.66
94.00
92.00
93.55
20
100
98.00
100
99.33
96.00
98.00
100
98.00
26
100
100
100
100
96.00
96.00
100
97.33
Rataan
98.67
98.67
100
99.11
95.55
96.00
97.33
96.29
Hasil yang didapat dari akurasi codebook dan PNN pada studi kasus dewasa perempuan menghasilkan rata-rata akurasi sebesar 99.11% untuk codebook dan 96.29% untuk PNN, hasil codebook lebih baik dibandingkan PNN pada studi dewasa perempuan. Tabel 6 menunjukan bahwa metode codebook memiliki hasil akurasi yang sangat baik terjadi pada koefisien 26, dan hal yang berbeda dengan dengan studi kasus laki-laki dewasa, pada PNN teerjadi akurasi yang stabil terjadi pada koefisien 26. Penggunaan proporsi data latih 75% pada codebook maupun PNN mampu menghasilkan akurasi yang baik dan stabil. Akurasi yang didapatkan oleh metode codebook lebih baik dibandingkan dengan metode PNN. Analisis Percobaan Hasil yang didapat dari keenam studi kasus yang diujikan pada pengenalan kisaran usia dan jenis kelamin terdapat dua hasil akurasi yang berbeda antara codebook dan PNN dengan rata-rata akurasi dari setiap studi kasus yang didapat ditunjukan pada Tabel 7.
16 Tabel 7 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus Studi Kasus
Codebook
PNN
Anak Laki-Laki
98.14%
97.99%
Anak Perempuan Remaja Laki-Laki
97.11% 95.26%
96.81% 95.47%
Remaja Perempuan
94.67%
94.74%
Dewasa Laki-Laki Dewasa Perempuan
99.48% 99.11%
89.70% 96.29%
Rataan
97.20%
95.17%
Terlihat rata-rata akurasi yang terdapat pada Tabel 7, maka dapat disimpulkan metode codebook menghasilkan akurasi yang lebih baik dari metode PNN pada studi kasus anak perempuan, dewasa laki-laki, dan dewasa perempuan. Penggunaan metode PNN menghasilkan akurasi yang lebih baik dari codebook pada studi kasus anak laki-laki, remaja laki-laki, dan remaja perempuan. Data yang diberikan pada Tabel 7, maka diperoleh akurasi secara keseluruhan untuk setiap metode yang diujikan sebesar 97.20% untuk metode codebook dan 95.17% untuk metode PNN. Hasil rata-rata akurasi metode codebook yang didapat lebih tinggi dibandingkan dengan hasil yang didapat oleh PNN dengan selisih 2.03%. Hal ini disebabkan adanya perbedaan akurasi yang didapat dari setiap studi kasus. Studi kasus merupakan kelas-kelas yang terdapat pada penelitian ini. Selain itu akurasi juga dipengaruhi dari koefisien, proporsi data latih dan data uji yang digunakan. Rata-rata akurasi berdasarkan koefisien dalam metode codebook menghasilkan akurasi paling baik cenderung dengan koefisien 13, hal ini dapat disimpulkan bahwa metode codebook dengan penggunaan koefisien lebih besar atau semakin banyak fitur yang digunakan cenderung memperkecil hasil akurasi. Penggunaan metode PNN akurasi paling baik terdapat pada koefisien 20, terlihat bahwa metode PNN memerlukan fitur atau ciri yang lebih banyak dibandingkan dengan codebook untuk mendapatkan hasil akurasi yang baik. Rata-rata akurasi berdasarkan koefisien bisa dilihat pada Tabel 8. Tabel 8 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus berdasarkan koefisien Koefisien 13 20 26
Codebook 97.92% 96.30% 97.60%
PNN 93.99% 97.00% 94.51%
Rata-rata akurasi dari proporsi data latih dan data uji baik codebook maupun PNN didapat akurasi terbaik dengan proporsi data latih sebesar 75%. Hal ini terjadi karena pada proporsi data latih 75%, jumlah data latih lebih besar dibandingkan dengan data uji, sehingga akurasi yang dihasilkan lebih baik dibandingkan dengan 25% dan 50%. Rata-rata akurasi berdasarkan proporsi data latih bisa dilihat pada Tabel 9.
17 Tabel 9 Rata-rata akurasi kisaran usia dan jenis kelamin dari setiap studi kasus berdasarkan proporsi data latih Data Latih 25% 50% 75%
Codebook
PNN
94.22% 98.33% 99.33%
94.06% 94.75% 95.70%
Analisis Kesalahan Terlihat dari pembahasan di atas bahwa pengenalan suara berdasarkan kisaran usia dan jenis kelamin menggunakan metode codebook dan PNN, analisa kesalahan untuk metode codebook dengan koefisien 20 dengan data latih 25% mampu menghasilkan hasil rata- rata akurasi yang kurang baik. Berikut confusion matrix untuk metode codebook dengan koefisien 20 dan data latih 25% pada tabel 10. Tabel 10 Confusion matrix untuk metode codebook Kelas AL AP RL RP DL DP
AL
AP
75 5 0 0 0 0
0 70 5 9 0 0
RL
RP
0 0 0 0 60 0 0 61 1 0 0 0 Rataan
DL
DP
0 0 10 0 74 0
0 0 0 0 0 75
Akurasi(%) 100 93.33 80.00 81.33 98.67 100 92.21
Tabel di atas menjelaskan bahwa metode codebook mampu dengan baik mengidentifikasi suara pada kelompok anak laki-laki dan dewasa laki-laki, dan kurang baik pada kelompok remaja laki-laki dan remaja perempuan. Terdapat kesalahan pengidentifikasian suara paling banyak pada kelompok remaja baik laki-laki maupun perempuan. Analisis kesalahan untuk metode PNN dengan koefisien 13 dengan data latih 25% mampu menghasilkan rata-rata kurang baik dari koefisien yang lainnya. Berikut confusion matrix untuk metode PNN dengan koefisien 13 dan data latih 25% pada Tabel 11.
18 Tabel 11 Confusion matrix untuk metode PNN Kelas AL AP RL RP DL DP
AL
AP
69 1 0 0 0 0
6 74 0 5 0 0
RL
RP
0 0 0 0 63 0 0 66 1 0 0 4 Rataan
DL
DP
0 0 12 0 74 0
0 0 0 14 0 71
Akurasi (%) 92.00 98.66 84.00 88.00 98.66 94.66 98.67
Tabel di atas menjelaskan bahwa metode PNN mampu dengan baik mengidentifikasi suara pada kelompok anak laki-laki, remaja laki-laki, remaja perempuan, dan dewasa perempuan. Terlihat pada kelompok anak perempuan dan dewasa laki-laki, metode PNN terdapat kesalahan dalam pengidentifikasian. Terdapat satu suara pada anak perempuan yang teridentifikasi pada suara anak laki-laki, hal ini terjadi karena adanya tumpang tindih antara rentang frekuensi kelompok suara satu dengan kelompok suara lainnya. Akurasi model dengan suara diluar data pelatihan Pengujian data di luar data latih dengan menggunakan metode codebook untuk koefisien 13 dan data latih 75% diperoleh akurasi model umum model sebesar 61.67%. Data yang diujikan sebanyak 10 data untuk setiap kelompoknya. Data tersebut memiliki akurasi maksimum pada kelompok anak perempuan dan akurasi minimum pada kelompok anak laki-laki. Data akurasi model untuk suara di luar data latih dapat dilihat pada Tabel 12. Tabel 12 Akurasi model dengan suara diluar data pelatihan dengan metode codebook Kelas AL AP RL RP DL DP
AL
AP
3 0 0 0 0 0
5 10 0 0 0 0
RL
RP
0 0 7 0 5 0 Rataan
0 0 0 7 0 5
DL
DP
0 0 3 3 5 0
2 0 0 0 0 5
Akurasi (%) 30.00 100.00 70.00 70.00 50.00 50.00 61.67
Pengujian metode PNN untuk koefisien 20 dan data latih 75% dengan scenario yang sama dengan metode codebook diperoleh rata-rata akurasi yang sama dengan metode codebook sebesar 61.67%. Akurasi dari setiap kelompok suara untuk akurasi maksimum dan akurasi minimum mendapatkan hasil yang sama dengan metode codebook. Data akurasi model untuk suara di luar data latih dapat dilihat pada Tabel 13.
19
Tabel 13 Akurasi model dengan suara luar dengan metode PNN Kelas AL AP RL RP DL DP
AL
AP
4 0 0 0 0 0
6 10 0 0 0 0
RL
0 0 5 0 5 0 Rataan
RP
DL
DP
0 0 0 8 0 5
0 0 5 0 5 0
0 0 0 2 0 5
Akurasi (%) 40.00 100.00 50.00 80.00 50.00 50.00 61.67
Tahap pengujian model dengan data diluar data pelatihan, baik metode codebook maupun PNN menghasilkan hasil akurasi yang sama yaitu sebesar 61.67%. Suara yang tidak teridentifikasi dengan benar disebabkan adanya tumpang tindih antara frekuensi setiap kelompok pembicaranya dan terdapat noise yang cukup besar pada saat perekaman suara. Hal ini dapat mengubah karakteristik suara sehingga model tidak dapat mengidentifikasi dengan benar.
SIMPULAN DAN SARAN Simpulan Penelitian ini menunjukkan bahwa nilai-nilai parameter sangat mempengaruhi akurasi sistem. Metode codebook mempunyai hasil akurasi yang lebih baik dibandingkan dengan metode PNN. Hasil yang didapat untuk pengenalan kisaran usia dan jenis kelamin, metode codebook menghasilkan ratarata akurasi sebesar 97.20% dan 95.17% untuk PNN. Terlihat akurasi yang didapat oleh metode codebook lebih besar dari metode PNN sebesar 2.03% pada penelitian ini, hal ini disebabkan karena pengaruh perbedaan dari koefisien, dan proporsi data latih dan data uji. Setiap metode baik codebook maupun PNN mempunyai komposisi nilai parameter yang berbeda untuk mengenali sebuah suara secara baik. Saran Penelitian ini memungkinkan untuk dikembangkan lebih baik lagi, saran untuk pengembangan selanjutnya ialah: 1 Menambahkan data pembicara pada setiap kelompok, sehingga sesuai dengan standar jumlah data statistik, yang berjumlah 30 orang pada setiap kelompoknya (Mattjik 2006). Penambahan data pembicara diharapkan meningkatkan tingkat akurasi pengenalan terutama pada pengenalan kisaran usia remaja. 2 Menggunakan rata-rata dan membandingkan nilai magnitudo kurva FFT pada setiap kelompok suara tanpa melalui proses MFCC. 3 Menggunakan noise cleaning pada pembuatan dan pengujian model suara.
20
DAFTAR PUSTAKA Buono A. 2009. Representasi nilai HOS dan model MFCC sebagai ekstraksi ciri pada sistem identifikasi pembicara di lingkungan ber-noise menggunakan HMM [disertasi]. Depok (ID): Universitas Indonesia. Buono A, Kusumoputro B. 2007. Pengembangan model HMM berbasis maksimum lokal menggunakan jarak Euclid untuk sistem identifikasi pembicara. Di dalam: Prosiding pada Workshop NACSIIT; 2007 Jan 29-30; Depok (ID), hlm 52. Do MN. 1994. Digital signal processing mini-project: an automatic recognition system. Laussane (CH): Federal Institute of Technology. Fransiswa RR. 2010. Pengembangan model probabilistic neural network (PNN) pada pengenalan kisaran usia dan jenis kelamin berbasis suara [skripsi]. Bogor (ID): Institut Pertanian Bogor. Ganchev T. 2005. Speaker recognition [disertasi]. Patras (GR): University of Patras. [IDAI] Ikatan Dokter Anak Indonesia. 2009. Overview adolescent health problems and services[Internet]. [diakses 2013 Apr 12]. Dapat diunduh pada http: //www.idai.or.id/remaja/artike.asp?q=200994155149. Jurafsky D, Martin JH. 2000. Speech And Language Processing an Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey (US): Prentice Hall. Mattjik AA. 2006. Perancangan Percobaan dengan Aplikasi SAS dan Minitab. Bogor (ID): IPB Press. Nilsson M, Ejnarsson M. 2002. Speech recognition using hidden markov model: performance evaluation in noisy environment [tesis]. Karlskrona (SE): Blekinge Institute of Technology. Suhartono MN. 2007. Pengembangan model identifikasi pembicara dengan probabilistic neural network [skripsi]. Bogor (ID): Institut Pertanian Bogor.
21
RIWAYAT HIDUP Penulis dilahirkan di Bandung tanggal 12 Febuari 1990 dari Ibu Dini Rachmawati dan Bapak Aldi Tresnadi. Penulis merupakan anak tunggal. Pada tahun 2007, penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 6 Bogor, dan pada tahun yang sama diterima di Diploma Universitas Indonesia Program Keahlian Teknik Informatika. Pada tahun 2010 penulis lulus dari Diploma Universitas Indonesia dan melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.