Agustini, Biometrik Suara Dengan Transformasi Wavelet 49
BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES
Ketut Agustini(1)
Abstract: Biometric as one of identification or recognition person techniques that based on uniquely part of human body. Voice one of uniquely human has. Voice signal that come out from different speakers give different voice pattern. Because of high variations used neural network (NNW)for matching the patterns. Before voice data is processed using NNW it’s processed using digital processed through feature extraction phase using discrit wavelet orthogonal base 4 orders with 10 and 15 decomposition rate. The result of NNW is processed by model decision maker that determine speaker identification. The result of experiment shows system biometric built can identify as high as 86% Keywords: Voice Biometric, Wavelet Transformation, Orthogonal Daubenchies, NNW, Decomposition Rate .
Biometrik merupakan studi tentang metode otomatis untuk mengenali atau mengidentifikasi
suatu alat identifikasi seperti pada teknik konvensional.
manusia berdasarkan satu atau lebih bagian tubuh
Proses biometrik (selanjutnya menggunakan
manusia atau kelakuan dari manusia itu sendiri.
kata “identifikasi”) dengan suara memiliki keunggulan
Dalam dunia teknologi informasi, biometrik relevan
secara ekonomis dibandingkan dengan karakteristik
dengan teknologi yang digunakan untuk mengana-
yang lain. Identifikasi dengan suara hanya mem-
lisa fisik dan kelakuan manusia untuk autentifi-
butuhkan alat tambahan berupa mikrofon dan kartu
kasi. Contohnya dalam pengenalan fisik manusia
suara, sedangkan karakteristik-karakteristik yang
yaitu dengan pengenalan sidik jari, retina, iris,
lain misalnya sidik jari atau wajah membutuhkan
pola dari wajah (facial patterns), tanda tangan
alat tambahan seperti scanner. Hal ini sedikit
dan cara mengetik (typing patterns) serta suara.
banyak dapat menekan biaya pengembangan sis-
Beberapa hal yang mendorong penggunaan iden-
tem.
tifikasi secara biometrik adalah biometrik bersifat
Identifikasi melalui suara termasuk dalam
universal (terdapat pada setiap orang), unik (tiap
masalah nonalgorithmic (Fu, 1994). Walaupun
orang mempunyai ciri khas tersendiri), dan tidak
sirkuit digital (komputer) mempunyai kecepatan yang
mudah dipalsukan (Xafopoulos, 2001). Dengan
jauh lebih tinggi daripada otak manusia tetapi dalam
teknik biometrik seseorang tidak harus membawa
memproses masalah-masalah nonalgorithmic otak
(1)
Ketut Agustini,Manajemen Informatika Fakultas PTK Undiksha Singaraja, Kampus Tengah Jl. Udayana Singaraja, Email:
[email protected]
50 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
manusia lebih unggul. Suatu teknik yang dibuat
memberikan informasi sinyal dalam domain waktu
dengan memodelkan otak manusia adalah Jaringan
dan frekuensi secara bersamaan dan mengana-
Syaraf Tiruan (JST) atau artificial neural network.
lisis sinyal yang tidak stationer, untuk itu ingin
Seperti pada otak manusia, JST terdiri atas neuron-
dikembangkan suatu konsep atau pendekatan lain
neuron yang saling berhubungan yang dapat bekerja
dalam pemrosesan sinyal tanpa berbasiskan trans-
sama satu dengan yang lainnya untuk membentuk
formasi fourier yaitu dengan transformasi wa-
suatu sistem. Jaringan syaraf tiruan dapat belajar
velet.
untuk mengenali suatu pola melalui pembelajaran dan
Transformasi Wavelet merupakan sarana yang
diharapkan dapat memecahkan masalah-masalah
mulai populer untuk pemrosesan sinyal, seperti citra
yang bersifat nonalgorithmic.
dan suara, dan transformasi ini belum banyak
Penelitian mengenai identifikasi pembicara telah
diaplikasikan untuk analisis suara, khususnya untuk
banyak dilakukan dengan berbagai metode pem-
identifikasi pembicara menggunakan teks berba-
rosesan sinyal, seperti Linier Prediction Coding
hasa Indonesia. Dalam praktek, Transformasi
(LPC), Mel Frequency Cepstrum Coefficients
Wavelet digunakan untuk ekstraksi ciri dalam
(MFCC), Neural Predictive Coding (NPC), dan
sistem pengenalan suara karena mempunyai ka-
sebagainya, yang mana keseluruhan metode diatas
rakter khusus yang sesuai untuk analisis sinyal,
berbasiskan Transformasi Fourier, dan tingkat
termasuk sinyal suara. Transformasi wavelet
identifikasinya telah mencapai 100%, berikut ada-
sinyal suara menghasilkan resolusi waktu yang
lah metode-metode yang telah diterapkan de-
baik pada frekuensi tinggi dalam menentukan
ngan tingkat identifikasi yang telah dicapainya,
lokasi awal suara dan parameterisasi ciri suara du-
dituangkan dalam bentuk Tabel 1 (Chetouani,
rasi pendek serta mampu menganalisis sinyal dis-
2004).
kontinu (non stationary) secara akurat (Krisnan, 1994).
Tabel 1 Metode-metode yang Digunakan Penelitian Sebelumnya
Pengenalan pembicara dapat diklasifikasikan ke dalam tiga tahap yaitu identifikasi, deteksi dan
Metode pemrosesan sinyal suara
LPC (Linier Predictive Coding) LPCC MFCC (Mel Frequency Cepstrum Coefficient) PLP NPC (random initialization) NPC (linier initialization)
Tingkat identifikasi (%) 90.61 96.73 97.55 86.12 61.63 100
verifikasi. Identifikasi pembicara merupakan proses untuk menentukan identitas pembicara melalui suara yang telah diucapkan, sedangkan deteksi pembicara merupakan proses penemuan suara pembicara dari sekumpulan suara, dan verifikasi pembicara merupakan proses untuk memverifikasi kesesuaian suara pembicara dengan identitas yang diklaim oleh
Sumber: Universite Pierre&MarieCurie, LA Science A Paris, 2004
pembicara. Pengenalan pembicara lebih menitikberatkan pada pengenalan suara pembicara dan
Namun, masih banyak kelemahan yang dimiliki transformasi fourier diantaranya, kurang mampu
tidak pada pengenalan ucapan pembicara (Ho, 1998) .
Agustini, Biometrik Suara Dengan Transformasi Wavelet 51
Metode identifikasi pembicara yang merupakan
sesi pendaftaran (enrollment sessions) atau fase
bagian dari pengenalan pembicara (Gambar 1), dapat
training, sedangkan yang kedua menunjukkan sesi
dibagi ke dalam metode text-independent dan text-
operasi atau fase testing. Di dalam fase training,
dependent. Pada sistem text-independent, model
tiap pembicara yang telah terdaftar memasukkan
pembicara meng-capture karakteristik ucapan
contoh (sampel) suaranya sehingga sistem dapat
seseorang melalui sinyal ucapan dengan menga-
mulai dibangun atau dilatih berdasarkan reference
baikan apa yang diucapkannya, dalam artian kata-
model pembicara tadi.
kata yang diucapkan sembarang (bebas). Sebaliknya
Secara umum sistem identifikasi pembicara
pada sistem text-dependent, pengenalan identitas
mempunyai tahapan sebagai berikut dengan dia-
pembicaranya didasarkan pada ucapan seseorang
gram bloknya diilustrasikan pada Gambar 2
dengan kata-kata yang spesifik atau telah disepakati,
(Campbell,1997), (a) akuisisi data suara digital, yaitu
seperti password, card numbers, kode PIN dan
proses untuk mengakuisisi ucapan pembicara (dalam
sebagainya (Mudry,1997) .
sinyal analog) dan mengubahnya menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor yang merepresentasikan suara pembicara, (b)
Text to Speech
frame blocking dan windowing, yaitu frame
Pengenalan Ucapan (Speech Recognition) Speech to Text Pengenalan Bahasa (Language Recognition) Sinyal ucapan
Teks tertentu (Text-Dependent) Identifikasi Pembicara (Speaker Identification) Teks Bebas (Text-Independent )
Pengenalan Pembicara (Speaker Recognition)
Deteksi Pembicara (Speaker Detection)
Verifikasi Pembicara (Speaker Verification)
blocking merupakan proses segmentasi sinyal suara digital yang telah diakuisisi ke dalam durasi tertentu, sedangkan frame windowing adalah proses yang bertujuan untuk meminimalkan diskontinuitas (nonstationary) sinyal pada bagian awal dan akhir sinyal
Gambar 1 Klasifikasi Sistem Pengolahan Sinyal Suara
suara, (c) ekstraksi ciri (feature extraction), yaitu mengekstrak data hasil akuisisi sehingga dihasilkan
Semua sistem identifikasi pembicara melalui
data yang berdimensi lebih kecil tanpa merubah
dua proses penting yaitu feature extraction dan
karakteristik sinyal suara, (d) pembentukan model
feature matching. Feature extraction merupakan
referensi pembicara, merupakan tahapan pembe-
proses mengekstraksi data hasil akuisisi sehingga
lajaran dan akan membentuk suatu model referensi
dihasilkan data yang berdimensi lebih kecil, yang
agar sistem dapat mengenali pembicara. Tahap ini
nantinya digunakan untuk merepresentasikan tiap-
memerlukan data berupa vektor-vektor ciri hasil dari
tiap pembicara. Feature matching menyangkut
ekstraksi ciri yang mencakup seluruh pembicara,
prosedur aktual yang mengidentifikasi pembicara
model referensi yang terbentuk akan digunakan dalam
yang tidak dikenal dan membandingkan fitur
pencocokan pola, pembentukan model referensi
ekstraksi suara yang dimasukan dengan salah satu
pembicara merupakan tahapan khusus yang dila-
dari himpunan pembicara yang telah dikenal.
kukan pada waktu awal sebelum sistem siap
Sistem Identifikasi pembicara juga menyajikan
digunakan, tahap ini hanya dilakukan sekali dan setelah
dua sesi yang berbeda, yang pertama menunjukkan
dilakukan maka sistem siap untuk digunakan, (e)
52 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
pencocokan pola (pattern matching), yaitu proses
dibangun menggunakan transformasi wavelet
pencocokan pola dengan menerima data yang telah
berbasis orthogonal daubenchies, (2) diimple-
diolah oleh ekstrasi ciri sebagai data input, proses
mentasikannya model prototipe sistem biometrik suara
tersebut akan mencocokan pola data masukan (input)
yang dibangun menggunakan transformasi wavelet
dengan model referensi dan akan memberikan hasil
berbasis orthogonal daubenchies serta 3).
berupa besarnya skor kesesuaian data input dengan
Diperolehnya tingkat identifikasi (generlisasi) tertinggi
pola-pola referensi yang ada, (f) Pembuatan kepu-
yang dicapai dari sistem biometrik suara yang
tusan yaitu yang akan menerima skor hasil penco-
dibangun menggunakan transformasi wavelet
cokan pola. Pada sistem identifikasi, pembuatan
berbasis orthogonal daubenchies.
keputusan akan menentukan identitas pembicara. Seperti terlihat pada Gambar 2.
Penelitian ini diharapkan dapat digunakan untuk melakukan identifikasi seseorang melalui kata-kata yang diucapkan orang tersebut. Hasil yang diberikan pada identifikasi berupa identitas pengguna sistem. Sistem ini antara lain bermanfaat untuk melakukan
Pembicara Blocking dan windowing
suara digital
Ekstraksi ciri
vektor feature
Pendaftaran (enrollment)
Pencocokan pola
skor
Pembuatan Keputusan
Identitas pembicara Model referensi pembelajaran
identifikasi semacam aplikasi absensi, kontrol akses untuk fasilitas tertentu, remote akses untuk jaringan
pembelajaran
Gambar 2 Tahapan Identifikasi Pembicara
komputer, forensik, dan lain-lain, serta untuk pengembangan ilmu pengetahuan khususnya dalam
Berdasarkan latar belakang diatas, maka
pengolahan sinyal suara.
rumusan pertanyaan pada penelitian ini adalah “Bagaimanakah rancangan model prototipe sistem
Metode Penelitian
biometrik suara yang dibangun menggunakan
Perancangan model sistem dibangun untuk
transformasi wavelet berbasis orthogonal
memudahkan pengguna di dalam pengolahan data dan
daubenchies?”, “bagaimanakah implementasi model
melihat hasil yang diperoleh dari model sistem
prototype sistem biometrik suara yang dibangun
tersebut. Sistem yang akan dikembangkan disajikan
menggunakan transformasi wavelet berbasis
pada Gambar 3. Sistem tersebut terbagi ke dalam
orthogonal daubenchies?”, dan “Berapakah tingkat
tiga modul yaitu modul perekaman, modul training
identifikasi (generalisasi) tertinggi yang dicapai dari
(pelatihan), dan modul testing (pengujian) identifikasi.
sistem biometrik suara yang dibangun menggunakan transformasi wavelet berbasis orthogonal
M odul Perekaman
Pengguna
daubenchies?”. Pada dasarnya tujuan dari penelitian ini adalah untuk mendapatkan jawaban dari pertanyaan penelitian yang telah dirumuskan diatas. Sehingga tujuan penelitian ini adalah (1) diperolehnya rancangan model prototipe sistem biometrik suara yang
Antar m uka
D ata hasil perekam an (100 data)
50 data
T raining
50 data
Gambar 3 Perancangan Model Sistem
T esting identifikasi
Agustini, Biometrik Suara Dengan Transformasi Wavelet 53
Modul training dan modul testing identifikasi dalam
perekaman yang dilakukan selama 3 detik meng-
satu interface atau satu submenu, sedangkan modul
hasilkan 195 frame. Proses ektraksi ciri pada
perekaman terdapat dalam submenu yang berbeda
penelitian ini, adalah data yang telah terbagi ke dalam
(Gambar 4). Pada modul perekaman didalamnya
frame-frame dan telah dikalikan dengan Hamming
terdapat suatu tahapan praproses (preprocessing)
window. Masing-masing dari proses ekstraksi ciri
dan data hasil perekaman yang dihasilkan seluruhnya
diatas akan menghasilkan koefisien-koefisien
adalah 100 data suara.
(koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 10 dan 15. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal. Koefisien
Gambar 4 Interface dari Modul Perekaman Suara
yang dihasilkan akan membentuk suatu vektor. Algoritma berikut adalah untuk mencari koefisien
Pengguna sistem akan mengucapkan kata yang
detail dan perkiraan pada proses multiple dekom-
telah ditentukan sebelumnya yaitu “Ilmu Komputer”.
posisi:
Data audio yang diperoleh akan diubah menjadi ben-
-
Sinyal yang masuk difilter ke dalam sinyal
tuk digital (vektor) menggunakan proses sampling
frekuensi rendah (low-pass filter) dan sinyal
dengan perangkat lunak MATLAB 7.0.1. Perekaman
frekuensi tinggi (high-pass filter)
dilakukan selama 3 detik (1 detik sama dengan 1000
-
ms) dengan frekuensi sampling 20kHz (dalam 1 detik diperoleh data sebanyak 22.050 data). Akuisisi data
Lakukan downsampling pada ke dua sinyal tersebut
-
Low-pass frekuensi hasil downsampling
dilakukan pada beberapa tahap. Pada tahap pertama
selanjutnya melalui proses seperti pada tahap
dilakukan akuisisi data untuk pembelajaran sistem.
pertama
Pada tahap kedua akuisisi data dilakukan untuk menguji sistem identifikasi.
-
Lakukan ulang sampai pada level yang diinginkan Pembentukan model referensi pembicara dan
Dalam penelitian ini menggunakan frame (n)
pencocokan pola dilakukan menggunakan JST
dengan lebar waktu 30 ms di mana tiap frame
Propagasi Balik. Arsitektur yang digunakan untuk
menyimpan data sebanyak 661 (hasil pembulatan dari
JST Propagasi Balik adalah Multi Layer Perceptron,
661,5) sampel dengan overlap (m) 50%, sehingga
dengan satu lapisan tersembunyi. JST terlebih dahulu
diperoleh jumlah frame dengan waktu perekaman
dilatih untuk membentuk model referensi pembicara.
selama 1 detik sebesar 65 frame (dengan tiap frame
Setelah tahap pembelajaran selesai dilakukan, JST
mengandung data sebanyak 22050 data). Dengan
dapat digunakan untuk melakukan pencocokan pola.
diperolehnya dalam 1 detik 65 frame maka
Pada proses identifikasi, pembuatan keputusan