Agustini, Biometrik Suara Dengan Transformasi Wavelet 49
BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES Ketut Agustini(1)
Abstract: Biometric as one of identification or recognition person techniques that based on uniquely part of human body. Voice one of uniquely human has. Voice signal that come out from different speakers give different voice pattern. Because of high variations used neural network (NNW)for matching the patterns. Before voice data is processed using NNW it’s processed using digital processed through feature extraction phase using discrit wavelet orthogonal base 4 orders with 10 and 15 decomposition rate. The result of NNW is processed by model decision maker that determine speaker identification. The result of experiment shows system biometric built can identify as high as 86% Keywords: Voice Biometric, Wavelet Transformation, Orthogonal Daubenchies, NNW, Decomposition Rate .
Biometrik merupakan studi tentang metode otomatis untuk mengenali atau mengidentifikasi
suatu alat identifikasi seperti pada teknik konvensional.
manusia berdasarkan satu atau lebih bagian tubuh
Proses biometrik (selanjutnya menggunakan
manusia atau kelakuan dari manusia itu sendiri.
kata “identifikasi”) dengan suara memiliki
Dalam dunia teknologi informasi, biometrik relevan
keunggulan secara ekonomis dibandingkan dengan
dengan teknologi yang digunakan untuk mengana-
karakteristik yang lain. Identifikasi dengan suara
lisa fisik dan kelakuan manusia untuk autentifi-
hanya membutuhkan alat tambahan berupa mikrofon
kasi. Contohnya dalam pengenalan fisik manusia
dan kartu suara, sedangkan karakteristik-karakteristik
yaitu dengan pengenalan sidik jari, retina, iris,
yang lain misalnya sidik jari atau wajah mem-
pola dari wajah (facial patterns), tanda tangan
butuhkan alat tambahan seperti scanner. Hal ini
dan cara mengetik (typing patterns) serta suara.
sedikit banyak dapat menekan biaya pengembangan
Beberapa hal yang mendorong penggunaan iden-
sistem.
tifikasi secara biometrik adalah biometrik bersifat
Identifikasi melalui suara termasuk dalam
universal (terdapat pada setiap orang), unik (tiap
masalah nonalgorithmic (Fu, 1994). Walaupun sirkuit
orang mempunyai ciri khas tersendiri), dan tidak
digital (komputer) mempunyai kecepatan yang jauh
mudah dipalsukan (Xafopoulos, 2001). Dengan
lebih tinggi daripada otak manusia tetapi dalam
teknik biometrik seseorang tidak harus membawa
memproses masalah-masalah nonalgorithmic otak
(1)
Ketut Agustini,Manajemen Informatika Fakultas PTK Undiksha Singaraja, Kampus Tengah Jl. Udayana Singaraja, Email:
[email protected]
50 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
manusia lebih unggul. Suatu teknik yang dibuat
memberikan informasi sinyal dalam domain waktu
dengan memodelkan otak manusia adalah Jaringan
dan frekuensi secara bersamaan dan mengana-
Syaraf Tiruan (JST) atau artificial neural network.
lisis sinyal yang tidak stationer, untuk itu ingin
Seperti pada otak manusia, JST terdiri atas neuron-
dikembangkan suatu konsep atau pendekatan lain
neuron yang saling berhubungan yang dapat bekerja
dalam pemrosesan sinyal tanpa berbasiskan trans-
sama satu dengan yang lainnya untuk membentuk
formasi fourier yaitu dengan transformasi wa- velet.
suatu sistem. Jaringan syaraf tiruan dapat belajar
Transformasi Wavelet merupakan sarana yang
untuk mengenali suatu pola melalui pembelajaran
mulai populer untuk pemrosesan sinyal, seperti citra
dan diharapkan dapat memecahkan masalah-masalah
dan suara, dan transformasi ini belum banyak
yang bersifat nonalgorithmic.
diaplikasikan untuk analisis suara, khususnya untuk
Penelitian mengenai identifikasi pembicara
identifikasi pembicara menggunakan teks berba-
telah banyak dilakukan dengan berbagai metode
hasa Indonesia. Dalam praktek, Transformasi
pem-rosesan sinyal, seperti Linier Prediction Coding
Wavelet digunakan untuk ekstraksi ciri dalam
(LPC), Mel Frequency Cepstrum Coefficients
sistem pengenalan suara karena mempunyai ka-
(MFCC), Neural Predictive Coding (NPC), dan
rakter khusus yang sesuai untuk analisis sinyal,
sebagainya, yang mana keseluruhan metode diatas
termasuk sinyal suara. Transformasi wavelet
berbasiskan Transformasi Fourier, dan tingkat
sinyal suara menghasilkan resolusi waktu yang
identifikasinya telah mencapai 100%, berikut ada-
baik pada frekuensi tinggi dalam menentukan
lah metode-metode yang telah diterapkan de-
lokasi awal suara dan parameterisasi ciri suara du-
ngan tingkat identifikasi yang telah dicapainya,
rasi pendek serta mampu menganalisis sinyal dis-
dituangkan dalam bentuk Tabel 1 (Chetouani,
kontinu (non stationary) secara akurat (Krisnan,
2004).
1994). Pengenalan pembicara dapat diklasifikasikan ke
Tabel 1 Metode-metode yang Digunakan Penelitian Sebelumnya
Metode pemrosesan sinyal suara LPC (Linier Predictive Coding) LPCC MFCC (Mel Frequency Cepstrum Coefficient) PLP NPC (random initialization) NPC (linier initialization)
Tingkat identifikasi (%) 90.61 96.73 97.55 86.12 61.63 100
Sumber: Universite Pierre&MarieCurie, LA Science A Paris, 2004
dalam tiga tahap yaitu identifikasi, deteksi dan verifikasi. Identifikasi pembicara merupakan proses untuk menentukan identitas pembicara melalui suara yang telah diucapkan, sedangkan deteksi pembicara merupakan proses penemuan suara pembicara dari sekumpulan suara, dan verifikasi pembicara merupakan proses untuk memverifikasi kesesuaian suara pembicara dengan identitas yang diklaim oleh pembicara. Pengenalan pembicara lebih menitikberatkan pada pengenalan suara pembicara dan tidak pada pengenalan ucapan pembicara (Ho,
Namun, masih banyak kelemahan yang dimiliki transformasi fourier diantaranya, kurang mampu
1998) .
Agustini, Biometrik Suara Dengan Transformasi Wavelet 51
Metode identifikasi pembicara yang merupakan
sesi pendaftaran (enrollment sessions) atau fase
bagian dari pengenalan pembicara (Gambar 1), dapat
training, sedangkan yang kedua menunjukkan sesi
dibagi ke dalam metode text-independent dan text-
operasi atau fase testing. Di dalam fase training, tiap
dependent. Pada sistem text-independent, model
pembicara yang telah terdaftar memasukkan contoh
pembicara meng-capture karakteristik ucapan
(sampel) suaranya sehingga sistem dapat mulai
seseorang melalui sinyal ucapan dengan menga-
dibangun atau dilatih berdasarkan reference model
baikan apa yang diucapkannya, dalam artian kata-
pembicara tadi.
kata yang diucapkan sembarang (bebas). Sebaliknya
Secara umum sistem identifikasi pembicara
pada sistem text-dependent, pengenalan identitas
mempunyai tahapan sebagai berikut dengan dia-
pembicaranya didasarkan pada ucapan seseorang
gram bloknya diilustrasikan pada Gambar 2
dengan kata-kata yang spesifik atau telah disepakati,
(Campbell,1997), (a) akuisisi data suara digital, yaitu
seperti password, card numbers, kode PIN dan
proses untuk mengakuisisi ucapan pembicara (dalam
sebagainya (Mudry,1997) .
sinyal analog) dan mengubahnya menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor yang merepresentasikan suara pembicara, (b)
Text to Speech
frame blocking dan windowing, yaitu frame blocking
Pengenalan Ucapan (Speech Recognition) Speech to Text Pengenalan Bahasa (Language Recognition) Sinyal ucapan Pengenalan Pembicara (Speaker Recognition)
Identifikasi Pembicara (Speaker Identification) Deteksi Pembicara (Speaker Detection)
Teks tertentu (Text-Dependent) Teks Bebas (Text-Independent )
Verifikasi Pembicara (Speaker Verification)
Gambar 1 Klasifikasi Sistem Pengolahan Sinyal Suara
merupakan proses segmentasi sinyal suara digital yang telah diakuisisi ke dalam durasi tertentu, sedangkan frame windowing adalah proses yang bertujuan untuk meminimalkan diskontinuitas (nonstationary) sinyal pada bagian awal dan akhir sinyal suara, (c) ekstraksi ciri (feature extraction), yaitu mengekstrak data hasil akuisisi sehingga dihasilkan
Semua sistem identifikasi pembicara melalui
data yang berdimensi lebih kecil tanpa merubah
dua proses penting yaitu feature extraction dan
karakteristik sinyal suara, (d) pembentukan model
feature matching. Feature extraction merupakan
referensi pembicara, merupakan tahapan pembe-
proses mengekstraksi data hasil akuisisi sehingga
lajaran dan akan membentuk suatu model referensi
dihasilkan data yang berdimensi lebih kecil, yang
agar sistem dapat mengenali pembicara. Tahap ini
nantinya digunakan untuk merepresentasikan tiap-
memerlukan data berupa vektor-vektor ciri hasil dari
tiap pembicara. Feature matching menyangkut
ekstraksi ciri yang mencakup seluruh pembicara,
prosedur aktual yang mengidentifikasi pembicara
model referensi yang terbentuk akan digunakan dalam
yang tidak dikenal dan membandingkan fitur
pencocokan pola, pembentukan model referensi
ekstraksi suara yang dimasukan dengan salah satu
pembicara merupakan tahapan khusus yang dila-
dari himpunan pembicara yang telah dikenal.
kukan pada waktu awal sebelum sistem siap
Sistem Identifikasi pembicara juga menyajikan
digunakan, tahap ini hanya dilakukan sekali dan
dua sesi yang berbeda, yang pertama menunjukkan
setelah dilakukan maka sistem siap untuk digunakan,
52 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
(e) pencocokan pola (pattern matching), yaitu proses
dibangun menggunakan transformasi wavelet
pencocokan pola dengan menerima data yang telah
berbasis orthogonal daubenchies, (2) diimple-
diolah oleh ekstrasi ciri sebagai data input, proses
mentasikannya model prototipe sistem biometrik
tersebut akan mencocokan pola data masukan (input)
suara yang dibangun menggunakan transformasi
dengan model referensi dan akan memberikan hasil
wavelet berbasis orthogonal daubenchies serta 3).
berupa besarnya skor kesesuaian data input dengan
Diperolehnya tingkat identifikasi (generlisasi)
pola-pola referensi yang ada, (f) Pembuatan kepu-
tertinggi yang dicapai dari sistem biometrik suara
tusan yaitu yang akan menerima skor hasil penco-
yang dibangun menggunakan transformasi wavelet
cokan pola. Pada sistem identifikasi, pembuatan
berbasis orthogonal daubenchies.
keputusan akan menentukan identitas pembicara. Seperti terlihat pada Gambar 2.
Penelitian ini diharapkan dapat digunakan untuk melakukan identifikasi seseorang melalui katakata yang diucapkan orang tersebut. Hasil yang diberikan pada identifikasi berupa identitas pengguna
Pembicara Blocking dan windowing
suara digital
Ekstraksi ciri
vektor feature
Pendaftaran (enrollment)
Pencocokan pola
Model referensi pembelajaran
skor
Pembuatan Keputusan
Identitas pembicara
pembelajaran
Gambar 2 Tahapan Identifikasi Pembicara
Berdasarkan latar belakang diatas, maka
sistem. Sistem ini antara lain bermanfaat untuk melakukan identifikasi semacam aplikasi absensi, kontrol akses untuk fasilitas tertentu, remote akses untuk jaringan komputer, forensik, dan lain-lain, serta untuk pengembangan ilmu pengetahuan khususnya dalam pengolahan sinyal suara.
rumusan pertanyaan pada penelitian ini adalah “Bagaimanakah rancangan model prototipe sistem
Metode Penelitian
biometrik suara yang dibangun menggunakan
Perancangan model sistem dibangun untuk
transformasi wavelet berbasis orthogonal
memudahkan pengguna di dalam pengolahan data
daubenchies?”, “bagaimanakah implementasi model
dan melihat hasil yang diperoleh dari model sistem
prototype sistem biometrik suara yang dibangun
tersebut. Sistem yang akan dikembangkan disajikan
menggunakan transformasi wavelet berbasis
pada Gambar 3. Sistem tersebut terbagi ke dalam
orthogonal daubenchies?”, dan “Berapakah tingkat
tiga modul yaitu modul perekaman, modul training
identifikasi (generalisasi) tertinggi yang dicapai dari
(pelatihan), dan modul testing (pengujian)
sistem biometrik suara yang dibangun menggunakan transformasi wavelet berbasis orthogonal
M odul Perekaman
Pengguna
daubenchies?”. Pada dasarnya tujuan dari penelitian ini adalah untuk mendapatkan jawaban dari pertanyaan penelitian yang telah dirumuskan diatas. Sehingga tujuan penelitian ini adalah (1) diperolehnya rancangan model prototipe sistem biometrik suara yang
Antar m uka
D ata hasil perekam an (100 data)
50 data
T raining
50 data
Gambar 3 Perancangan Model Sistem
T esting identifikasi
Agustini, Biometrik Suara Dengan Transformasi Wavelet 53
identifikasi. Modul training dan modul testing
perekaman yang dilakukan selama 3 detik meng-
identifikasi dalam satu interface atau satu submenu,
hasilkan 195 frame. Proses ektraksi ciri pada
sedangkan modul perekaman terdapat dalam
penelitian ini, adalah data yang telah terbagi ke dalam
submenu yang berbeda (Gambar 4). Pada modul
frame-frame dan telah dikalikan dengan Hamming
perekaman didalamnya terdapat suatu tahapan
window. Masing-masing dari proses ekstraksi ciri
praproses (preprocessing) dan data hasil perekaman
diatas akan menghasilkan koefisien-koefisien
yang dihasilkan seluruhnya adalah 100 data suara.
(koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 10 dan 15. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal.
Gambar 4 Interface dari Modul Perekaman Suara
Koefisien yang dihasilkan akan membentuk suatu vektor. Algoritma berikut adalah untuk mencari
Pengguna sistem akan mengucapkan kata yang
koefisien detail dan perkiraan pada proses multiple
telah ditentukan sebelumnya yaitu “Ilmu Komputer”.
dekom-posisi:
Data audio yang diperoleh akan diubah menjadi ben-
-
Sinyal yang masuk difilter ke dalam sinyal
tuk digital (vektor) menggunakan proses sampling
frekuensi rendah (low-pass filter) dan sinyal
dengan perangkat lunak MATLAB 7.0.1. Perekaman
frekuensi tinggi (high-pass filter)
dilakukan selama 3 detik (1 detik sama dengan 1000
-
ms) dengan frekuensi sampling 20kHz (dalam 1 detik diperoleh data sebanyak 22.050 data). Akuisisi data
Lakukan downsampling pada ke dua sinyal tersebut
-
Low-pass frekuensi hasil downsampling
dilakukan pada beberapa tahap. Pada tahap pertama
selanjutnya melalui proses seperti pada tahap
dilakukan akuisisi data untuk pembelajaran sistem.
pertama
Pada tahap kedua akuisisi data dilakukan untuk menguji sistem identifikasi.
-
Lakukan ulang sampai pada level yang diinginkan
Dalam penelitian ini menggunakan frame (n)
Pembentukan model referensi pembicara dan
dengan lebar waktu 30 ms di mana tiap frame
pencocokan pola dilakukan menggunakan JST
menyimpan data sebanyak 661 (hasil pembulatan
Propagasi Balik. Arsitektur yang digunakan untuk
dari 661,5) sampel dengan overlap (m) 50%,
JST Propagasi Balik adalah Multi Layer Perceptron,
sehingga diperoleh jumlah frame dengan waktu
dengan satu lapisan tersembunyi. JST terlebih dahulu
perekaman selama 1 detik sebesar 65 frame (dengan
dilatih untuk membentuk model referensi pembicara.
tiap frame mengandung data sebanyak 22050 data).
Setelah tahap pembelajaran selesai dilakukan, JST
Dengan diperolehnya dalam 1 detik 65 frame maka
dapat digunakan untuk melakukan pencocokan pola.
54 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
Pada proses identifikasi, pembuatan keputusan
menghasilkan pengidentifikasian yang lebih akurat,
dilakukan dengan metode nilai maksimum. Jika
mengingat sinyal suara sangat terpengaruh (sen-
neuron output ke-n merupakan neuron dengan nilai
sitive) terhadap waktu.
maksimum, maka data yang masuk dikenali sebagai
Proses Ekstraksi ciri dari Daubenchies orde 4
pembicara ke-n. Sebagai contoh jika neuron pertama
(daub4) pada level 10 memberikan hasil tiap satu
pada lapisan output bernilai 1 dan yang lainnya 0,
data file (satu file *.wav) pembicara (dari 10 data
maka input diidentifikasi sebagai pembicara pertama.
file setiap pembicara) menghasilkan koefisien
Fungsi yang digunakan untuk metode nilai
sebanyak 134 elemen dengan elapsed time pra-
maksimum didalam syntax matlab adalah
prosesnya rata-rata sebesar 1,061 detik, dan pada saat
Competitive Transfer Function (COMPET). Syntax
50 data suara yang digunakan untuk training
matlab dari penggunaan fungsi tersebut, di mana
diproses, membutuhkan waktu 96,479 detik. Dari 50
testing merupakan hasil simulasi dengan jaringan,
data suara tersebut akan membentuk suatu matriks
numkenal_test adalah jumlah pola yang dikenal, dan
dengan dimensi 134 x 50, yang digunakan sebagai
jum_pola adalah jumlah pola keseluruhan, adalah
input untuk proses pembentukan referensi pembicara
sebagai berikut,
dan pencocokan pola. Sedangkan pada level 15, satu
hasil_test=compet(ytesting);
numkenal_test=recognize(hasil_test); generalisasi_test=numkenal_test/ jum_pola*100
file pembicara (dari 10 file setiap pembicara) menghasilkan koefisien sebanyak 10 elemen dengan elapsed time praprosesnya sebesar 1,092 detik, sedangkan untuk 50 data yang digunakan untuk training menghabiskan waktu sebesar 71,933 detik.
HASIL DAN PEMBAHASAN
Pengujian selanjutnya adalah (2) tahap referensi
Pengujian yang telah dilakukan merupakan (1)
pembicara dan pencocokan pola dengan
tahap praproses meliputi proses akuisisi data suara
menggunakan laju pembelajaran 0.01 dan 0.3 serta
digital, proses frame blocking dan windowing, serta
toleransi galat sebesar 0.00001, mencapai
proses ekstraksi ciri dengan wavelet tipe orthogonal
kekonvergenan pada epoch ke-555 dengan waktu
yaitu Daubenchies dengan orde 4 pada level 10 dan
8.07 detik dan mean square error-nya sebesar
15. Pada proses akuisisi data suara digital dan proses
9.99238 X 10-6, (Gambar 5).
frame blocking serta windowing, kombinasi suara yang digunakan dengan lamanya durasi perekaman, memberikan hasil untuk tiap data suara berupa vektor, dengan dimensi 66.150 (22.050 x 3). Jumlah pembicara yang diambil sebagai data training adalah 50 (lima puluh) data suara yang dipilih dengan index ganjil dari 100 (seratus) data hasil perekaman, kemudian sisanya dengan index genap digunakan untuk data test identifikasi. Hal ini dilakukan agar
Gambar 5 Proses Pembelajaran Daubenchies Orde 4 Level 10
Agustini, Biometrik Suara Dengan Transformasi Wavelet 55
Generalisasi yang dihasilkan terhadap data
setelah disimulasikan. Hasil keseluruhan pengujian
testing sebesar 86% (43 pembicara dari 50 data
identifikasi ditunjukkan dalam Tabel 2. Dari
pembicara dikenali). Hal ini terlihat pada Gambar
keseluruhan hasil, terlihat bahwa laju pembelajaran
6, yang menunjukkan perbandingan antara target JST
0.3 memberikan tingkat generalisasi yang lebih baik
dengan output yang dihasilkan dari data testing
dibandingkan dengan laju pembelajaran 0.01. Dengan metode trial and error dalam menentukan besarnya neuron tersembunyi, maka diperoleh hasil terbaik pada banyaknya neuron tersembunyi 10 dan waktu proses tersingkat yaitu 6,98 detik dengan tingkat generalisasi tertinggi 86%. Pada percobaan yang dilakukan terhadap wavelet tipe Daub4 level 15, dengan laju pembelajaran 0.3 dan neuron tersembunyi 80 memberikan tingkat pengenalan yang paling baik, namun proses pembelajarannya berjalan sangat lambat dan
Gambar 6 Hasil Simulasi Data Pengujian Pada Epoch ke555
kinerja tujuannya (10-5) secara keseluruhan belum tercapai. Generalisasi terbaik yang dicapai yaitu
Tabel 2 Hasil Pengujian Identifikasi db4 Level 10 dengan err = 0.00001
Neuron tersembunyi 10 20 30 40 50 60 70 80 90 100 Sumber: Hasil Percobaan
Pembelajaran Lr
epoch
0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01 0.3 0.01
555 935 598 633 603 635 660 575 688 833 642 860 800 915 777 810 764 810 888 986
Mse x 10-6 9.992 9.922 9.989 9.818 9.879 9.938 9.980 9.860 9.915 9.654 9.882 9.893 9.954 9.953 9.731 9.977 9.878 9.813 9.900 9.714
Pengujian Di-indentifikasi dg Generalisasi benar (%) 43/50 86 41/50 82 42/50 84 42/50 84 41/50 82 40/50 80 41/50 82 40/50 80 42/50 84 41/50 82 41/50 82 42/50 84 41/50 82 42/50 84 41/50 82 41/50 82 41/50 82 42/50 84 42/50 84 42/50 84
Wkt proses (dt) 6.98 16.424 8.022 8.582 8.722 9.063 10.065 8.793 11.366 13.380 11.336 14.851 14.611 16.574 15.012 16.173 15.612 16.694 19.107 20.850
56 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
84%, menurun dibandingkan dengan Daub4 level 10 yang memiliki koefisien lebih banyak. Hal ini menunjukkan bahwa untuk proses ekstraksi ciri menggunakan metode Transformasi Wavelet, teori yang menyatakan “semakin besar jumlah input yang diterima maka semakin besar pula waktu pembelajaran yang dibutuhkan JST “, kurang berkenaan terhadap kasus ini, karena semakin tinggi tingkat (level) dekomposisi, yang berimplikasi terhadap jumlah koefisiennya (koefisien yang dihasilkan semakin tereduksi) maka proses pembelajaran JST berjalan sangat lambat dan menurunkan tingkat pengenalan jaringannya (dapat ditunjukkan pada hasil generalisasi). SIMPULAN
Transformasi Wavelet berbasis orthogonal daubenchies dapat digunakan dalam proses identifikasi pembicara pada bagian pemrosesan awal (praproses) sinyal untuk mendapatkan informasi (ciri) sinyal tersebut. Sistem identifikasi pada tahap praproses Daub4 level 10 menghasilkan tingkat generalisasi tertinggi sebesar 86%. Pada transformasi wavelet, tingkat (level) dekomposisi mempengaruhi tingkat pengenalan jaringan yaitu makin tinggi tingkat dekomposisi maka tingkat pengenalan jaringan semakin menurun. Jaringan syaraf tiruan propagasi balik baik digunakan untuk pembentukan referensi pembicara dan pencocokan pola.
RUJUKAN Burrus, CS, Gopinath, RA, and Guo, H. 1998. Introduction to Wavelets and Wavelet Transforms A Primer. International Edition. New Jersey: Prentice-Hall International, Inc. Campbell, JPJR. 1997. Speaker Recognition: A Tutorial. Proc. IEEE, vol.85, no 9, pp1437-1462. Fausett, L. 1994. Fundamentals of Neural Network. Englewood Cliffs. New Jersey: Prentice Hall. Fu, L. 1994. Neural Network in Computer Intelligence, Singapore: McGraw-Hill. Gonzalez RC, and Wood, RE. 2002. Digital Image Processing, Second Edition, New Jersey: Prentice Hall, Inc. Ho, CE. 1998. Speaker Recognition System, Project Report. California: California Institut of Technology. Jang, JSR, Sun, CT, and Mizutani, E. 1997. Neuro Fuzzy and Soft Computing, A Computational Approach to Learning and Machine Intelligence. International Edition. New Jersey: Prentice-Hall International Inc. Krishnan, M, Neophytou, CP, and Prescott, G. 1994. Wavelet Transform Speech Recognition Using Vector Quantization, Dynamic Time Warping and Artificial Neural Networks, Lawrence, KS 66045:Center of excellence in computer aided systems engineering and Telecominication & Information Sciences Laboratory 2291 Irving Hill Drive. Mallat, S. 1999. A Wavelet Tour Of Signal Processing, Second Edition, Academic Press 24-28 Oval Road, London NW1 7DX UK, http://www.hbuk.co.uk/ap/ Mudry, AH. 1997. Speaker Identification using Wavelet Transform, Tesis Master of Engineering, Ontario: Ottawa-Carleton Institut of Electrical Engineering. Proakis, JG, dan Manolakis, DG. 1997. Pemrosesan Sinyal Digital, edisi Bahasa Indonesia jilid 1, Jakarta: Prenhallindo. Rabiner, LR, Juang BH. 1993. Fundamentals of Speech Recognition. New Jersey: Prentice Hall. ISBN 013-015157-2. Xafopoulos, A. 2001. Speaker Verification (an overview), TUT-TICSP presentation, TICSP (Tampere International Center for Signal Processing), Tempere: TUT (Tampere Univ).