BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Agustini, Biometrik Suara Dengan Transformasi Wavelet 49

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Ketut Agustini(1)

Abstract: Biometric as one of identification or recognition person techniques that based on uniquely part of human body. Voice one of uniquely human has. Voice signal that come out from different speakers give different voice pattern. Because of high variations used neural network (NNW)for matching the patterns. Before voice data is processed using NNW it’s processed using digital processed through feature extraction phase using discrit wavelet orthogonal base 4 orders with 10 and 15 decomposition rate. The result of NNW is processed by model decision maker that determine speaker identification. The result of experiment shows system biometric built can identify as high as 86% Keywords: Voice Biometric, Wavelet Transformation, Orthogonal Daubenchies, NNW, Decomposition Rate .

Biometrik merupakan studi tentang metode otomatis untuk mengenali atau mengidentifikasi

suatu alat identifikasi seperti pada teknik konvensional.

manusia berdasarkan satu atau lebih bagian tubuh

Proses biometrik (selanjutnya menggunakan

manusia atau kelakuan dari manusia itu sendiri.

kata “identifikasi”) dengan suara memiliki keunggulan

Dalam dunia teknologi informasi, biometrik relevan

secara ekonomis dibandingkan dengan karakteristik

dengan teknologi yang digunakan untuk mengana-

yang lain. Identifikasi dengan suara hanya mem-

lisa fisik dan kelakuan manusia untuk autentifi-

butuhkan alat tambahan berupa mikrofon dan kartu

kasi. Contohnya dalam pengenalan fisik manusia

suara, sedangkan karakteristik-karakteristik yang

yaitu dengan pengenalan sidik jari, retina, iris,

lain misalnya sidik jari atau wajah membutuhkan

pola dari wajah (facial patterns), tanda tangan

alat tambahan seperti scanner. Hal ini sedikit

dan cara mengetik (typing patterns) serta suara.

banyak dapat menekan biaya pengembangan sis-

Beberapa hal yang mendorong penggunaan iden-

tem.

tifikasi secara biometrik adalah biometrik bersifat

Identifikasi melalui suara termasuk dalam

universal (terdapat pada setiap orang), unik (tiap

masalah nonalgorithmic (Fu, 1994). Walaupun

orang mempunyai ciri khas tersendiri), dan tidak

sirkuit digital (komputer) mempunyai kecepatan yang

mudah dipalsukan (Xafopoulos, 2001). Dengan

jauh lebih tinggi daripada otak manusia tetapi dalam

teknik biometrik seseorang tidak harus membawa

memproses masalah-masalah nonalgorithmic otak

(1)

Ketut Agustini,Manajemen Informatika Fakultas PTK Undiksha Singaraja, Kampus Tengah Jl. Udayana Singaraja, Email: [email protected]

50 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007

manusia lebih unggul. Suatu teknik yang dibuat

memberikan informasi sinyal dalam domain waktu

dengan memodelkan otak manusia adalah Jaringan

dan frekuensi secara bersamaan dan mengana-

Syaraf Tiruan (JST) atau artificial neural network.

lisis sinyal yang tidak stationer, untuk itu ingin

Seperti pada otak manusia, JST terdiri atas neuron-

dikembangkan suatu konsep atau pendekatan lain

neuron yang saling berhubungan yang dapat bekerja

dalam pemrosesan sinyal tanpa berbasiskan trans-

sama satu dengan yang lainnya untuk membentuk

formasi fourier yaitu dengan transformasi wa-

suatu sistem. Jaringan syaraf tiruan dapat belajar

velet.

untuk mengenali suatu pola melalui pembelajaran dan

Transformasi Wavelet merupakan sarana yang

diharapkan dapat memecahkan masalah-masalah

mulai populer untuk pemrosesan sinyal, seperti citra

yang bersifat nonalgorithmic.

dan suara, dan transformasi ini belum banyak

Penelitian mengenai identifikasi pembicara telah

diaplikasikan untuk analisis suara, khususnya untuk

banyak dilakukan dengan berbagai metode pem-

identifikasi pembicara menggunakan teks berba-

rosesan sinyal, seperti Linier Prediction Coding

hasa Indonesia. Dalam praktek, Transformasi

(LPC), Mel Frequency Cepstrum Coefficients

Wavelet digunakan untuk ekstraksi ciri dalam

(MFCC), Neural Predictive Coding (NPC), dan

sistem pengenalan suara karena mempunyai ka-

sebagainya, yang mana keseluruhan metode diatas

rakter khusus yang sesuai untuk analisis sinyal,

berbasiskan Transformasi Fourier, dan tingkat

termasuk sinyal suara. Transformasi wavelet

identifikasinya telah mencapai 100%, berikut ada-

sinyal suara menghasilkan resolusi waktu yang

lah metode-metode yang telah diterapkan de-

baik pada frekuensi tinggi dalam menentukan

ngan tingkat identifikasi yang telah dicapainya,

lokasi awal suara dan parameterisasi ciri suara du-

dituangkan dalam bentuk Tabel 1 (Chetouani,

rasi pendek serta mampu menganalisis sinyal dis-

2004).

kontinu (non stationary) secara akurat (Krisnan, 1994).

Tabel 1 Metode-metode yang Digunakan Penelitian Sebelumnya

Pengenalan pembicara dapat diklasifikasikan ke dalam tiga tahap yaitu identifikasi, deteksi dan

Metode pemrosesan sinyal suara

LPC (Linier Predictive Coding) LPCC MFCC (Mel Frequency Cepstrum Coefficient) PLP NPC (random initialization) NPC (linier initialization)

Tingkat identifikasi (%) 90.61 96.73 97.55 86.12 61.63 100

verifikasi. Identifikasi pembicara merupakan proses untuk menentukan identitas pembicara melalui suara yang telah diucapkan, sedangkan deteksi pembicara merupakan proses penemuan suara pembicara dari sekumpulan suara, dan verifikasi pembicara merupakan proses untuk memverifikasi kesesuaian suara pembicara dengan identitas yang diklaim oleh

Sumber: Universite Pierre&MarieCurie, LA Science A Paris, 2004

pembicara. Pengenalan pembicara lebih menitikberatkan pada pengenalan suara pembicara dan

Namun, masih banyak kelemahan yang dimiliki transformasi fourier diantaranya, kurang mampu

tidak pada pengenalan ucapan pembicara (Ho, 1998) .


Metode identifikasi pembicara yang merupakan

sesi pendaftaran (enrollment sessions) atau fase

bagian dari pengenalan pembicara (Gambar 1), dapat

training, sedangkan yang kedua menunjukkan sesi

dibagi ke dalam metode text-independent dan text-

operasi atau fase testing. Di dalam fase training,

dependent. Pada sistem text-independent, model

tiap pembicara yang telah terdaftar memasukkan

pembicara meng-capture karakteristik ucapan

contoh (sampel) suaranya sehingga sistem dapat

seseorang melalui sinyal ucapan dengan menga-

mulai dibangun atau dilatih berdasarkan reference

baikan apa yang diucapkannya, dalam artian kata-

model pembicara tadi.

kata yang diucapkan sembarang (bebas). Sebaliknya

Secara umum sistem identifikasi pembicara

pada sistem text-dependent, pengenalan identitas

mempunyai tahapan sebagai berikut dengan dia-

pembicaranya didasarkan pada ucapan seseorang

gram bloknya diilustrasikan pada Gambar 2

dengan kata-kata yang spesifik atau telah disepakati,

(Campbell,1997), (a) akuisisi data suara digital, yaitu

seperti password, card numbers, kode PIN dan

proses untuk mengakuisisi ucapan pembicara (dalam

sebagainya (Mudry,1997) .

sinyal analog) dan mengubahnya menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor yang merepresentasikan suara pembicara, (b)

Text to Speech

frame blocking dan windowing, yaitu frame

Pengenalan Ucapan (Speech Recognition) Speech to Text Pengenalan Bahasa (Language Recognition) Sinyal ucapan

Teks tertentu (Text-Dependent) Identifikasi Pembicara (Speaker Identification) Teks Bebas (Text-Independent )

Pengenalan Pembicara (Speaker Recognition)

Deteksi Pembicara (Speaker Detection)

Verifikasi Pembicara (Speaker Verification)

blocking merupakan proses segmentasi sinyal suara digital yang telah diakuisisi ke dalam durasi tertentu, sedangkan frame windowing adalah proses yang bertujuan untuk meminimalkan diskontinuitas (nonstationary) sinyal pada bagian awal dan akhir sinyal

Gambar 1 Klasifikasi Sistem Pengolahan Sinyal Suara

suara, (c) ekstraksi ciri (feature extraction), yaitu mengekstrak data hasil akuisisi sehingga dihasilkan

Semua sistem identifikasi pembicara melalui

data yang berdimensi lebih kecil tanpa merubah

dua proses penting yaitu feature extraction dan

karakteristik sinyal suara, (d) pembentukan model

feature matching. Feature extraction merupakan

referensi pembicara, merupakan tahapan pembe-

proses mengekstraksi data hasil akuisisi sehingga

lajaran dan akan membentuk suatu model referensi

dihasilkan data yang berdimensi lebih kecil, yang

agar sistem dapat mengenali pembicara. Tahap ini

nantinya digunakan untuk merepresentasikan tiap-

memerlukan data berupa vektor-vektor ciri hasil dari

tiap pembicara. Feature matching menyangkut

ekstraksi ciri yang mencakup seluruh pembicara,

prosedur aktual yang mengidentifikasi pembicara

model referensi yang terbentuk akan digunakan dalam

yang tidak dikenal dan membandingkan fitur

pencocokan pola, pembentukan model referensi

ekstraksi suara yang dimasukan dengan salah satu

pembicara merupakan tahapan khusus yang dila-

dari himpunan pembicara yang telah dikenal.

kukan pada waktu awal sebelum sistem siap

Sistem Identifikasi pembicara juga menyajikan

digunakan, tahap ini hanya dilakukan sekali dan setelah

dua sesi yang berbeda, yang pertama menunjukkan

dilakukan maka sistem siap untuk digunakan, (e)

52 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007

pencocokan pola (pattern matching), yaitu proses

dibangun menggunakan transformasi wavelet

pencocokan pola dengan menerima data yang telah

berbasis orthogonal daubenchies, (2) diimple-

diolah oleh ekstrasi ciri sebagai data input, proses

mentasikannya model prototipe sistem biometrik suara

tersebut akan mencocokan pola data masukan (input)

yang dibangun menggunakan transformasi wavelet

dengan model referensi dan akan memberikan hasil

berbasis orthogonal daubenchies serta 3).

berupa besarnya skor kesesuaian data input dengan

Diperolehnya tingkat identifikasi (generlisasi) tertinggi

pola-pola referensi yang ada, (f) Pembuatan kepu-

yang dicapai dari sistem biometrik suara yang

tusan yaitu yang akan menerima skor hasil penco-

dibangun menggunakan transformasi wavelet

cokan pola. Pada sistem identifikasi, pembuatan

berbasis orthogonal daubenchies.

keputusan akan menentukan identitas pembicara. Seperti terlihat pada Gambar 2.

Penelitian ini diharapkan dapat digunakan untuk melakukan identifikasi seseorang melalui kata-kata yang diucapkan orang tersebut. Hasil yang diberikan pada identifikasi berupa identitas pengguna sistem. Sistem ini antara lain bermanfaat untuk melakukan

Pembicara Blocking dan windowing

suara digital

Ekstraksi ciri

vektor feature

Pendaftaran (enrollment)

Pencocokan pola

skor

Pembuatan Keputusan

Identitas pembicara Model referensi pembelajaran

identifikasi semacam aplikasi absensi, kontrol akses untuk fasilitas tertentu, remote akses untuk jaringan

pembelajaran

Gambar 2 Tahapan Identifikasi Pembicara

komputer, forensik, dan lain-lain, serta untuk pengembangan ilmu pengetahuan khususnya dalam

Berdasarkan latar belakang diatas, maka

pengolahan sinyal suara.

rumusan pertanyaan pada penelitian ini adalah “Bagaimanakah rancangan model prototipe sistem

Metode Penelitian

biometrik suara yang dibangun menggunakan

Perancangan model sistem dibangun untuk

transformasi wavelet berbasis orthogonal

memudahkan pengguna di dalam pengolahan data dan

daubenchies?”, “bagaimanakah implementasi model

melihat hasil yang diperoleh dari model sistem

prototype sistem biometrik suara yang dibangun

tersebut. Sistem yang akan dikembangkan disajikan

menggunakan transformasi wavelet berbasis

pada Gambar 3. Sistem tersebut terbagi ke dalam

orthogonal daubenchies?”, dan “Berapakah tingkat

tiga modul yaitu modul perekaman, modul training

identifikasi (generalisasi) tertinggi yang dicapai dari

(pelatihan), dan modul testing (pengujian) identifikasi.

sistem biometrik suara yang dibangun menggunakan transformasi wavelet berbasis orthogonal

M odul Perekaman

Pengguna

daubenchies?”. Pada dasarnya tujuan dari penelitian ini adalah untuk mendapatkan jawaban dari pertanyaan penelitian yang telah dirumuskan diatas. Sehingga tujuan penelitian ini adalah (1) diperolehnya rancangan model prototipe sistem biometrik suara yang

Antar m uka

D ata hasil perekam an (100 data)

50 data

T raining

50 data

Gambar 3 Perancangan Model Sistem

T esting identifikasi


Modul training dan modul testing identifikasi dalam

perekaman yang dilakukan selama 3 detik meng-

satu interface atau satu submenu, sedangkan modul

hasilkan 195 frame. Proses ektraksi ciri pada

perekaman terdapat dalam submenu yang berbeda

penelitian ini, adalah data yang telah terbagi ke dalam

(Gambar 4). Pada modul perekaman didalamnya

frame-frame dan telah dikalikan dengan Hamming

terdapat suatu tahapan praproses (preprocessing)

window. Masing-masing dari proses ekstraksi ciri

dan data hasil perekaman yang dihasilkan seluruhnya

diatas akan menghasilkan koefisien-koefisien

adalah 100 data suara.

(koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 10 dan 15. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal. Koefisien

Gambar 4 Interface dari Modul Perekaman Suara

yang dihasilkan akan membentuk suatu vektor. Algoritma berikut adalah untuk mencari koefisien

Pengguna sistem akan mengucapkan kata yang

detail dan perkiraan pada proses multiple dekom-

telah ditentukan sebelumnya yaitu “Ilmu Komputer”.

posisi:

Data audio yang diperoleh akan diubah menjadi ben-

-

Sinyal yang masuk difilter ke dalam sinyal

tuk digital (vektor) menggunakan proses sampling

frekuensi rendah (low-pass filter) dan sinyal

dengan perangkat lunak MATLAB 7.0.1. Perekaman

frekuensi tinggi (high-pass filter)

dilakukan selama 3 detik (1 detik sama dengan 1000

-

ms) dengan frekuensi sampling 20kHz (dalam 1 detik diperoleh data sebanyak 22.050 data). Akuisisi data

Lakukan downsampling pada ke dua sinyal tersebut

-

Low-pass frekuensi hasil downsampling

dilakukan pada beberapa tahap. Pada tahap pertama

selanjutnya melalui proses seperti pada tahap

dilakukan akuisisi data untuk pembelajaran sistem.

pertama

Pada tahap kedua akuisisi data dilakukan untuk menguji sistem identifikasi.

-

Lakukan ulang sampai pada level yang diinginkan Pembentukan model referensi pembicara dan

Dalam penelitian ini menggunakan frame (n)

pencocokan pola dilakukan menggunakan JST

dengan lebar waktu 30 ms di mana tiap frame

Propagasi Balik. Arsitektur yang digunakan untuk

menyimpan data sebanyak 661 (hasil pembulatan dari

JST Propagasi Balik adalah Multi Layer Perceptron,

661,5) sampel dengan overlap (m) 50%, sehingga

dengan satu lapisan tersembunyi. JST terlebih dahulu

diperoleh jumlah frame dengan waktu perekaman

dilatih untuk membentuk model referensi pembicara.

selama 1 detik sebesar 65 frame (dengan tiap frame

Setelah tahap pembelajaran selesai dilakukan, JST

mengandung data sebanyak 22050 data). Dengan

dapat digunakan untuk melakukan pencocokan pola.

diperolehnya dalam 1 detik 65 frame maka

Pada proses identifikasi, pembuatan keputusan

BIOMETRIK SUARA DENGAN TRANSFORMASI WAVELET BERBASIS ORTHOGONAL DAUBENCHIES

Recommend Documents