Tugas Mata Kuliah FI-4121: Pengolahan Data Digital VOICE RECOGNITION. disusun oleh: Amin Mutohar

Tugas Mata Kuliah FI-4121: Pengolahan Data Digital

VOICE RECOGNITION

disusun oleh: Amin Mutohar – 10204037

PROGRAM STUDI FISIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI BANDUNG 2007

VOICE RECOGNITION Joseph P. Campbell, JR., Senior Member IEEE Berdasrkan tulisan pada Proceedings of IEEE, Vol. 85, No. 9, September 1997

Voice recognition (speaker recognition) adalah suatu proses untuk mengenali seseorang dengan mengenali suara dari orang tersebut. Automatic speaker recognition adalah penggunaan sebuah mesin untuk mengenali seseorang dari sebuah frasa yang diucapkan. Sistem ini dapat berfungsi dalam dua buah mode yaitu mengenali seseorang yang khusus atau membuktikan identitas yang diklaim oleh seseorang. Dalam tulisan ini akan dibahas mengenai pengolahan tulisan (speech processing) dan komponen dasar dari sistem automatic speaker recognition. Kata Kunci: authentication, decision, feature extraction, pattern matching, pengenalan seseorang, speaker recognition, speech processing, dan verification.

I. PENDAHULUAN Speech processing mempunyai area luas dalam aplikasinya. Gambar 1 menunjukkan bagian dari area tersebut dan bagaimana speaker recognition menjadi bagian dari area tersebut.

Gambar 1. Area aplikasi dari speech processing. Speaker recognition terbagi menjadi verification dan identification. Automatic speaker verivication (ASV) adalah penggunaan dari sebuah mesin untuk membuktikan identitas yang diklaimoleh seseorang dari suaranya. Bebebrapa literatur menggunakan istilah yang berbeda untuk speaker verification termasuk voice verification, speaker authentication, voice authentication, talker authentication dan talker verification. Dalam automatic speaker identification (ASI), tidak ada pembuktian identitas yang diklaim dari sistem menentukan siapakah orang, anggota dari kelompok manakah orang tersebut, atau dalam kasus ini orang tersebut tidak diketahui. Speaker verification didefinisikan sebagai proses penentuan jika seorang speaker adalah orang yang mengklaim dirinya. Hal ini berbeda dengan masalah speaker identification,

yang berupa proses penentuan jika seseorang speaker adalah orang yang spesifik atau bagian dari sebuah yang terdiri dari beberapa orang. Dalam speaker verification, seseorang membuat sebuah klaim identitas (misalnya dengan memasukkan sebuah nomor karyawan atau smart card yang dimilikinya). Dalam text-dependent recognition, frasa diketahui oleh sistem dan dapat berupa frasa yang tetap atau dapat berubah. Orang yang mengklaim (claimant) mengucapkan suatu frasa ke dalam microphone. Sinyal ini dianalisis oleh sebuah sistem verifikasi yang membuat keputusan biner untuk menerima atau menolak klaim identitas user atau mungkin untuk melaporkan kepercayaan yang tidak cukup dan meminta input tambahan sebelum membuat keputusan. Sebuah konfigurasi ASV terlihat pada Gambar 2. Claimant, yang sebelumnya direkam oleh sistem, memasukkan smart card yang mengandung informasi identitasnya. Dia kemudian berusaha untuk dikenali dengan mengucapkan sebuah frasa ke dalam microphone. Hal ini secara umum mencocokkan antara akurasi dan waktu pelaksanaan tes (test-session duration) sebagai tambahan dari suaranya, ambient room noise dan suara yan gtertunda masuk ke microphone melalui permukaan reflektif akustik (reflective acoustic surface). Hal utama untuk sebuah sesi verifikasi, user harus merekam dalam sistem (di bawah kondisi yang diperhatikan). Selama proses perekaman, model suara dihasilkandan disimpan (mungkin dalam sebuah smart card) untuk digunakan dalam sesi verifikasi berikutnya. Dalam hal ini juga mencocokkan antara akurasi dan durasi serta jumlah dari sesi perekaman.

Gambar 2. Sebuah konfigurasi ASV. Beberapa faktor dapat menyebabkan kesalahan dalam proses verifikasi dan identifikasi antara lain: o Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa o Keadaan emosional yang ekstrim (misalnya stress) o Pergantian penempatan microphone (intrasession atau intersession) o Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya multipath dan noise) o channel mismatch (misalnya penggunaan microphone yang berbeda dalam perekaman dan verifikasi) o Sakit (misalnya flu yang dapat merubah vocal tract) o Aging (model vocal tract dapat berubah berdasarkan usia).

Faktor-faktor ini secara umum di luar area algoritma atau koreksi yang lebih baik dengan pengertian lain dari algoritma (misalnya microphone yang lebih baik). Faktor-faktor ini penting, bagaimanapun, karena tidak ada materi sebaik sebuah algoritma dari speaker recognition, human error (misalnya misspeaking atau misreading) pada akhirnya membatasi performanya. A. Motivasi ASV dan ASI mungkin metoda yang paling alami dan ekonmis untuk menyelesaikan problem dari penggunaan yang unauthorized dari komputer dan sistem komunikasi serta multilevel access control. Dengan jaringan telephone yang tersebar di mana-mana dan microphone terikat dengan komputer, biaya dari sebah sistem speaker recognition mungkin hanya untuk software. Sistem biometrik secara otomatis mengenali seseorang dengan menggunakan ciri pembawaan yang berbeda (distinguishing trait) (definisi sempit). Speaker recognition adalah biometrik yang ditunjukkan misalnya kamu menunjukkan sebuah perintah untuk dikenali suara kamu, seperti biometrik lainnya, tidak bisa terlupakan atau hilang, tidak seperti metode access control yang berupa knowledge-based (misalnya password) atau possession-based (misalnya kunci). Sistem speaker recognition dapat dibuat melawan noise dan channel variation, ordinary human change (misalnya time-of-day voice change dan flu), peniruan oleh manusia atau tape recorder. B. Perumusan masalah Suara adalah sebuah sinyal yang rumit sebagai sebuah hail dari beberapa transformasi yang terjadi pada beberapa level yang berbeda dari semantik, linguistik, artikulasi (pengucapan) dan akustik. Perbedaan dalam transformasi ini tampak sebagai perbedaan dalam sifat akustik dari sinyal suara. Perbedaan yang berhubungan dengan speaker adalah sebuah hasil dari kombinasi dari perbedaan anatomik yang melekat dalam vocal tract dan kebiasaan pengucapan yang dipelajari dari individu yang bebrbeda. Pada speaker recognition, semua perbedaan ini dapat digunaan untuk membedakan beberapa speaker. C. Speaker verification yang umum. Pendekatan umum untuk ASV terdiri dari 5 tahap: o Digital speech data acquisition o Feature extraction o Pattern matching o pembuatan keputusan: diterima atau ditolak o perekaman untuk mendapatkan model speaker referensi. Diagram blok dari prosedur ini terlihat pada Gambar 3. Feature extraction memetakan setiap interval suara menjadi sebuah ruang ciri multidimensional (multidimensional feature space), sebuah interval suara biasanya mempunyai span (full scale input) 10-30 ms dari bentuk gelombang suara dan dirujuk sebagai sebuah frame suara. Deret feature

vector xi kemudian dibandingkan dengan dengan speaker model oleh pattern matching. Hasilnya berupa berupa sebuah match score untuk setiap vektor atau deret vektor. Match score mengukru kesamaan dari input feature vector yang terkomputerisasi dengan model speaker yang mengklaim atau pola vector pattern dari speaker yang mengklaim. Terakhir, keputusan dibuat untuk menerima atau menolak claimant berdasarkan pada match score atau deret match score, yang adalah sebuah masalah pengujian hipotesis (hypothesistesting problem).

Gambar 3. Sistem speaker verification yang umum. Untuk speaker recognition, feature yang menunjukkan kekuatan perbedaan speaker yang tinggi, variasi interspeaker yang tinggi dan variasi interspeaker yang rendah dibutuhkan. Bebebrapa bentuk dari pattern matching dan penyesuaian adalah mungkin. Metode pattern matching meliputi dynamic time warping (DTW), the hidden markov model (HMM), artificial neural network dan vector quantization (VQ). Template model digunakan pada DTW, statistical model digunakan pada HMM dan codebook model digunakan pada VQ. II. SPEECH PROCESSING Speech processing mengekstrak informasi yang diinginkan dari sebuah sinyal suara. Untuk memproses sebuah sinyal dengan sebuah komputer digital, sinyal harus dihadirkan dalam bentuk digital sehingga sinyal tersebut dapat digunakan oleh sebuah komputer digital. Awalnya, gelombang suara akustik diubah ke sebuah sinyal digital sesuai untuk voice processing. Sebuah microphone atau telephone handset dapat digunakan untuk merubah gelombang akustik ke dalam sebuah sinyal analog. Sinyal analog ini dikondisikan dengan antialiasing filtering (dan mungkin filter tambahan untuk mengimbangi untuk setiap perusakan channel). Antialiasing filter membatasi bandwidth sinyal menjadi kira-kira Nyquist rate (setengah sampling rate) sebelum sampling. Sinyal analog terkondisikan kemudian diubah ke dalam bentuk sebuah sinyal digital oleh sebuah analog-to-digital (A/D) converter. Dalam aplikasi local speaker verification, channel analog secara sederhana berupa microphone, kabelnya, dan analog signal conditioning. Kemudian, hasil sinyal digital dapat mempunyai kualitas yang sangat tinggi, tidak cukupnya distorsi dihasilkan oleh transmisi sinyal analog melalui jaringan telephone jarak jauh.

III. FEATURE SELECTION AND MEASURES Untuk menggunakan mathematical tool tanpa kehilangan keumumannya, speech signal dapat dihasilkan oleh sebuah deret feature vector. Dalam sesi ini, pemilihan feature yang tepat dibahas, melalui metoda untuk menaksir (ekstrak atau mengukur) feature tersebut. Hal ini diketahui sebagai feature selection dan feature extraction. IV. PATTERN MATCHING Tugas dari pattern matching dari speaker verification meliputi perhitungan sebuah match score, yang menyatakan sebuah pengukuran dari kesamaan dari input feature vector terhadap beberapa model. Model speaker dibangun dari feature yang diekstrak dari sinyal suara. Untuk merekam user ke dalam sistem, sebuah model suara, tergantung pada feature yang diekstrak, dihasilkan dan disimpan (mungkin dalam sebuah smartcard yang berkode). Kemudian, untuk mengenali seorang user, matching algoritm membandingkan score sinyal suara yang baru masuk dengan model yang diklaim seseorang. Ada dua tipe model yaitu stochastic model dan template model. Pada stochastic model, pattern matching adalah probalistik dan hasil dalam sebuah pengukuran dari kemungkinan (likelihood), atau probalitas keadaan, dari observasi diberikan model.Untuk template model, pattern matching adalah deterministik. Observasi diasumsikan menjadi sebuah replika yang tidak sempurna dari template, dan alignment dari frame yang diobservasi terhadap frame template dipilih untuk meminimalkan sebuah pengukuran perbedaan (distance) d. Kemungkinan L dapat diaproksimasi dalam model templatebased oleh eksponensial match score yang diungkapkan L = exp (-ad) dimana a adalah sebuah konstanta positif (secara ekuivalen, score diasumsikan proporsional terhadap log kemungkinan). Perbandingan kemungkinan dapat digunakan menggunakan model speaker global atau kelompok (cohost) untuk normalisasi L. Template model dan korespondensi pengukuran perbedaannya mungkin adalah model yang paling intuitif. Metoda template dapat tergantung (dependent) atau tidak tergantung (independent) terhadap waktu. Sebuah contoh dari semuah time-independent template model adalah VQ modeling. Semua variasi temporal diacuhkan pada model ini, dan global average (misalnya centroid) dari semua itu digunakan. Sebuah model timedependent lebih rumit karena hal ini memperhatikan variasi pada human speaking rate. A. Template model Template model yang paling sederhana terdiri dari sebuah template tunggal x, sebuah model dari sebuah frame suara. Match score antara template x untuk speaker yang diklaim dan sebuah input feature vector xi dari user yang tidak diketahui diberikan oleh d(xi, x ). Model untuk speaker yang diklaim dapat berupa centroid (rata-rata) dari sebuah set N training vector.

x=µ=

1 N ∑ xi N i =1

Beberapa pengukuran perbedaan yang berbeda antara vektor xi dan x dapat digambarkan sebagai d ( xi , x) = ( xi − x) T W ( xi − x ) dimana W adalah weighting matrix. Jika W adalah sebuah matriks identitas, perbedaannya adalah Euclidean. Jika W adalah inverse covariance matrix terhadap x , kemudian hal ini adalah Mahalanobis distance seperti terlihat pada persamaan berikut d µ = ( x − µ ) T C −1 ( x − µ )

dengan C adalah n-by-n covariance matrix dan µ adalah sebuah vector rata-rata dengan komponen kolom dimensi n. Mahalanobis distance mengurangi weight dari komponen yang mempunyai variansi lebih dan ekivalen terhadap sebuah Euclidean distance pada komponen dasar, yang vektor eigen dari ruang asal ditentukan dari covariance matrix. 1. DTW Metoda yang paling populer dari kompensasi untuk tingkat variasi speaking-rate pada sistem template-based diketahui sebagai DTW. Sebuah model text-dependent template adalah sebuah deret template (x1,…, xN) dibandingkan dengan sebuah deret input (x1,…, xM). Pada umumnya, N tidak sama dengan M karena tidak konsistennya waktu dalam suara manusia. Match score x yang asimetris diberikan oleh M

χ = ∑ d ( xi , x j ( i ) ) i =1

dimana indeks template j(i) secara khusus diberikan oleh algoritma DTW. Referensi yang diberikan dan sinyal input, algoritma DTW melakukan sebuah batasan, piece-wise linear mapping dari sebuah (atau kedua) aksis untuk menata dua buah sinyal ketika meminimalkan x. Pada akhir lengkungan waktu (time warping), perbedaan yang diakumulasikan adalah basis dari match score. Metoda ini menghitung variasi melalui waktu (trajektori) dari korespondensi parameter ke konfigurasi dinamis dari artikulasi dan vocal tract. Gambar 4 memeprlihatkan bagaimana sebuah warp path seperti ketika energi dari 2 buah sinyal suara digunakan sebagai sebuah warp feature.

Gambar 4. DTW dari dua buah sinyal energi Jika warp signal identik, warp path menjadi garis diagonal dan kelengkungan menjadi tidak berpengaruh. Euclidean distance antara dua sinyal dalam domain energi diakumulasikan deviasi warp path diagonal yang patah-patah. Parallelogram melingkupi warp path yang merepresentasikan tekanan kemiringan Sakoe dari kelengkungan, yang bertindak sebagai syarat batas untuk mencegah berlebihannya kelengkungan melampaui daerah yang diberikan. 2. VQ source modeling Bentuk lain dari template model menggunakan template yang berkelipatan untuk merepresentasikan frame suara dan dirujuk ke VQ source modeling. sebuah VQ codebook didesain oleh prosedur standard yang dikelompokkan untuk setiap speaker yang direkam menggunakan data training-nya, biasanya berdasarkan pada pembacan sebuah teks yang spesifik. Pattern match score adalah perbedaan antara sebuah input dan kata kode yang perbedaannya minimum dalam VQ codebook C. Match score untuk L frame suara adalah L min z=∑ d ( x j , x) j =1 x ∈ C Prosedur yang dikelompokkan untuk membentuk nilai rata-rata codebook diluar informasi temporal dari kata kode. jadi, dalam hal ini tidak dibutuhkan pembentukkan sebuah time alignment. Kekurangan dala time warping secara garis besar menyederhanakan sistem.Bagaimanapun, hal ini mengabaikan informasi temporal yang tergantung pada speaker yang dapat dihadirkan dalam frasa yang benar.

3. Nearest neighbors (NN) Metoda baru yang menggabungkan kekuatan metoda DTW dan VQ disebut dengan NN. Tidak seperti VQ, NN tidak mengelompokkan data training yang direkam membentuk codebook yang kompak. Malahan, metoda ini menjaga semua data training dan oleh karena itu dapat menggunakan informasi temporal.

Seperti terlihat pada Gambar 5, interframe distance matrix dihitung dengan mengukur perbedaan antara frame sesi test (input) dan frame sesi perekaman dari claimant (yang disimpan). Perbedaan NN adalah perbedaan minimum antara frame sesi test dan perekaman. Perbedaan NN untuk semua frame sesi test kemudian dirata-ratakan untuk membentuk match score. Dengan cara yang sama, seperti terlihat pada bidang belakang, frame sesi test juga diukur melawan sebuah set speaker ”berkelompok” referensi yang disimpan untuk membentuk match score.Match score kemudian disusun membentuk sebuah aproksimasi perbandingan kemungkinan.

Gambar 5. Metoda nearest neighbors

Metoda NN adalah salah satu dari algoritma speaker verification yang paling intensif dalam memori dan perhitungan. Metoda juga merupakan metoda yang paling powerful. B. Stochastic model Model template didominasi kerja awal dalam text-dependent speaker recognition. Pendekatan deterministik adalah alasan yang intuitif, tetapi model stochastic baru-baru ini telah dikembangkan yang dapat menawarkan fleksibilitas yang lebih dan hasil dalam score kemungkinan probabilistik yang lebih berarti secara teori. Menggunakan sebuah model stochastic, problem pattern matching dapat diformulasikan sebagai kemungkinan dari sebuah observasi (sebuah feature vector dari sebuah koleksi dari vektor dari speaker yang tidak diketahui) diberikan model speaker. Observasi adalah sebuah random vector dengan pdf (probability density functions) kondisional yang tergantung pada speaker. Pdf kondisional untuk speaker yang diklai dapat diestimasikan dari sebuah set training vector, dan, diberikan kerapatan estimasi, probabilitas yang observasinya dihasilkan oleh speaker yang diklaim dapat ditentukan. Pdf yang diestimasi dapat berupa sebuah model parametrik atau non parametrik. Dari model ini, untuk setiap frame suara (atau nilai rata-rata dari sebuah deret frame), probabilitas yang dihasilkan oleh speaker yang dikalaim dapat diestimasikan. Probabilitas

adalah match score. Jika model parametrik, kemudian sebuah pdf yang spesifik diasumsikan dan parameter yang tepat dari kerapatan dapat diestimasi menggunakan estimasi kemungkinan yang paling besar. Model stochastic yang paling populer untuk deret pemodelan adalah HMM. Pada model Markov tradisional, setiap keadaan mencocokkan sebuah kejadiah deterministik observabel. Jadi, output dari beberapa keadaan pada setiap sumber yang diberikan tidak acak dan kekurangan fleksibilitas dibutuhkan di sini. Pada sebuah HMM, observasi adalah fungsi probabilistik dari keadaan seperti model adalah sebuah proses stochastik yang ditanam secara dobel dimana proses stochastic yang pokok secara tidak langsung observabel (berarti hidden). HMM hanya dapat dilihat melalui set lain dari proses stochastic yang menghasilkan deret observasi. HMM adalah sebuah mesin keadaan yang terbatas dimana sebuah pdf (atau model stochastic dari feature vector) p(x|si) diasosiasikan untuk setiap keadaan si (model dasar yang utama). Keadaan dihubungkan oleh sebuah jaringan transisi, dimana probabilitas keadaan transisi adalah aij = p (si|sj). Sebagai contoh, HMM 3 keadaan hipotesis digambarkan oleh Gambar 6.

Gambar 6. Sebuah contoh dari 3 keadaan HMM.

Probabilitas yang sebuah deret frame suara digeneralisasikan oleh model ini dibuat dengan menggunakan Baum-Welch decoding. Kemungkinan adalah score dari frame L dari input suara yang diberikan model. p = ( x(1; L) | mod el ) =

L

∑

∏ p( x

semuaderetkeadaan i =1

i

| s i ) p ( s i | s i −1 )

Hal ini score yang berarti berdasarkan teori. Metoda berdasarkan HMM telah ditunjukkan untuk dibandingkan performanya dengan metoda VQ konvensional pada textindependent testing dan baru-baru ini lebih outperform metoda konvensional pada textdependent testing. V. KLASIFIKASI DAN DECISION THEORY Setelah menghitung match score antara input speech-feature vector dan sebuah model suara dari speaker yang diklaim, keputusan verifikasi dibuat untuk menerima atau menolak speaker atau meminta ungkapan lain (atau, tanpa sebuah identitas yang diklaim, sebuah keputusan identifikasi dibuat). Proses keputusan menerima atau menolak dapat berupa sebuah masalah penerimaan, kelanjutan, time-out, atau penolakan terhadap suatu pengujian hipotesis. Dalam masalah ini, pembuatan keputusan, atau klasisfikasi, prosedurnya adalah masalah pengujian hipotesis.

A. Pengujian hipostesis Diberikan sebuah match score, masalah klasifikasi pilihan biner ASV termasuk pemilihan antara 2 buah hipotesis: yang user adalah speaker yang diklaim atau tidak diklaim (seorang penipu). Mari H0 menjadi hipotesis bagi seorang penipu dan H1 adalah yang user, yang sungguh-sungguh, speaker yang diklaim. Seperti terlihat pada Gambar 7, match score observasi dari dua pdf yang berbeda berdasarkan speaker yang diklaim atau penipu.

Gambar 7. Bentuk match score dari data yang valid (speaker yang diklaim) dan impostor (penipu).

Nama dari area probabilitas pada Gambar 7 diberikan pada Tabel 1. Untuk mencari sebuah area performa probabilitas yang diberikan, hipotesis menerangkan melalui pdf untuk menggabungkan, dan threshold menerangkan area keputusan membentuk batas integrasi. Performa Keputusan probabilitas D

Hipotesis H

Nama probabilitas Ukuran test ”signifikan”

Q0

1

0

Q1

0

1

Qd = 1 - Q1

1

1 – Q0

0

1

Hasil Keputusan Type I error Type II error

Power of test

0 Tabel 1. Definisi dan keadaan probabilitas.

False acceptance atau alarm False rejection True acceptance True rejection

Misalkan p(z|H0) menjasi fungsi kerapatan kondisi dari score observasi z digeneralisasikan oleh speaker lain dari pada speaker yang diklaim, demikian juga p(z|H1) untuk speaker yang diklaim. Jika kerapatan kondisi score yang benar untuk speaker yang diklaim dan speaker lain diketahui, maka Bayes test dengan kesamaan harga kesalah-klarifikasian untuk speaker A tergantung pada perbandingan kemungkinan untuk speaker A, λA(z) p (z | H 0 ) λ A (z) = A p A (z | H1 )

Gambar 8 menunjukkan sebuah contoh dari dua pdf score. Probabilitas kesalahan, yang diminimalkan oleh peraturan keputusan Bayes, digambarkan oleh jumlah yang saling melengkapi (overlap) pada dua pdf. Bagian yang saling melengkapi yanglebih kecil antara 2 buah pdf, kesalahan probabilitas yang lebih kecil. Bagian yang saling melengkapi antara dua pdf yang Gaussian dengan nilai rata-rata µ0 dan µ1 dan variansi yang sama σ dapat diukur oleh perbandingan F ( µ 0 − µ1 ) 2 F= 2

σ

Gambar 8. Salah satu contoh kerapatan score. Jika kerapatan score kondisi benar untuk speaker yang diklaim dan speaker lainnya tidak diketahui, dua buah pdf dapat diestimasi dari hasil sampel eksperimental. Pdf kodisional memberikan kebenaran speaker A, pA(z|H1) diestimasi dari score speaker itu sendiri menggunakan model ini. Pdf kondisional untuk penipu, , pA(z|H0), diestimasi dari score speaker yang lainnya dengan menggunakan model speaker A. Sekarang nilai perbandingan kemungkinan untuk speaker A, λA(z) dapat diterangkan, masalah klasifikasi dapat ditetapkan sebagai pilihan sebuah threshold T sehingga peraturan keputusan adalah ≥ T , pilihH 0 jikaλ A ( z )〈 < T , pilihH 1 Threshold T dapat dijelaskan oleh 1) setting T sama untuk sebuah estimasi p1/p0 untuk aproksimasi performa kesalahan minimum, di mana p0 dan p1 adalah probabilitas utama yang user adalah penipu dan yang user adalah speaker yang benar, dengan respek, 2) Pemilihan T untuk memuaskan kriteria sebuah FA (false acceptance) atau FR (false rejection) yang tetap (Neyman-Pearson) 3) Variasikan T untuk mencari perbedaan perbandingan FA/FR dan pemilihan T untuk memberi rasio FA/FR yang diinginkan. Dengan tekanan yang hati-hati, T dapat dibuat spesifik speaker, adaptif speaker, dan/atau adaptif resiko.

B. ROC (Receiver Operating Characteristic) Karena dua tipe kesalahan dapat dikurangi pada pengorbanan dari sebuah peningkatan pada kesalahan lainnya, sebuah pengukuran dari performa sistem secara keseluruhan harus menetapkan tingkat dari dua tipe kesalahan tersebut. Pertukaran antara FA dan FR adalah sebuah fungsi dari threshold keputusan. Hal ini dilukiskan pada kurva ROC, yang memplot probabilitas dari FA terhadap probabilitas dari FR (atau nilai FA terhadap nilai FR). Sebagai contoh, Gambar 9 menunjukkan keluarga hipotesis dari plot ROC pada skala log yang panjang. Garis dari probabilitas kesamaan kesalahan ditunjukkan oleh garis diagonal yang titik-titik. Keluarga garis pada -450 merepresentasikan sistem dengan hasil FA.FR yang berbeda, dengan sistem yang lebih baik menjadi lebih dekat dengan titik asal (0,0). Untuk beberapa sistem yang partikuler, ROC dilintasi oleh perubahan threshold dari penerimaan untuk perbandingan kemungkinan. Garis lurus ROC pada gambar tersebut mengindikasikan bahwa hasil probabilitas dari FA dan probabilitas dari FR adalah sebuah konstanta untuk sistem hipotesis ini (hal ini tidak benar secara umum) dan sama untuk kuadrat dari apa yang dirujuk sebagai equal error rate (EER). EER adalah suatu nilai pada saat nilai FA dan FR adalah sama.

Gambar 9. ROC hipotesis

Tugas Mata Kuliah FI-4121: Pengolahan Data Digital VOICE RECOGNITION. disusun oleh: Amin Mutohar

Recommend Documents