PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN) PADA IDENTIFIKASI PEMBICARA
JAYANTA
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa Tesis Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara, adalah karya sendiri dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal dari atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Mei 2007 Jayanta NIM G651030064
ABSTRAK JAYANTA. Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara. Dibimbing oleh AGUS BUONO dan AZIZ KUSTIYO. Sistem komputer dapat dimanfaatkan untuk mengidentifikasi pembicara dari suara yang diucapkan. Penelitian ini memperkenalkan pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara dengan pendekatan metoda text-dependent. Kami menggunakan kombinasi metoda analisis komponen utama (PCA) dengan metoda Mel-Frequency Cepstral Coefficient (MFCC) pada proses ekstraksi ciri dengan beberapa parameter yaitu koefisien Mel, lebar frame, lebar overlap dan rasio nilai eigen untuk meningkatkan kinerja PNN. Untuk mengukur rata-rata keluaran yang dihasilkan oleh PNN digunakan metoda Leave-one out. Hasil penelitian menunjukkan bahwa penggunaan koefisien mel 20, ukuran frame 40 ms, ukuran overlap 50% pada metoda MFCC menghasilkan data yang mampu memberi nilai ketelitian identifikasi pembicara sebesar 96%. Implementasi metoda PCA dengan rasio nilai eigen 95% ke data yang dihasilkan metoda MFCC juga memberikan nilai ketelitian hingga 96% dengan waktu komputasi 90% lebih baik. Kata kunci: Suara, Identifikasi pembicara, ekstraksi ciri, Mel-Frequency Cepstral Coefficients (MFCC), Analisis Komponen Utama (PCA), Jaringan syaraf tiruan probabilistik (PNN), Metode leave-one out.
ABSTRACT JAYANTA. Development of Model of Probabilistic Neural Networks on Speaker Identification. Under the direction of AGUS BUONO and AZIZ KUSTIYO. Computer system can be exploited to identify speaker from voices that was uttered. This research introduce development model PNN at speaker identification with approach of method text-dependent. We use combination of method of PCA with method of MFCC at process of feature extraction with a few the parameters, which is coefficient Mel, size of frame, size of overlap and ratio of eigen value, to increase performance of PNN. To measuring average of output yielded by PNN is used method of Leave one out. Result of the research show that use mel 20, size of frame 40 ms, size of overlap 50% at method of MFCC yield data capable to give value of accuration of speaker identification of equal to 96%. Implementation of method of PCA with ratio of eigen value equal to 95% to data that was yielded method of MFCC also assign value accuration of equal to 96% with time of computing 90% better. Keywords: Voices, Speaker identification, Feature extraction, Mel-Frequency Cepstral Coefficients (MFCC), Principal Component Analysis (PCA), and Probabilistic Neural Networks (PNN), method of Leave one out.
© Hak cipta milik Institut Pertanian Bogor, tahun 2007 Hak cipta dilindungi Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apa pun, baik cetak, fotokopi, microfilm, dan sebagainya
PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN) PADA IDENTIFIKASI PEMBICARA
JAYANTA
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Departemen Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007
Judul Tesis
: Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) Pada Identifikasi Pembicara
Nama NIM
: JAYANTA : G.651030064
Disetujui Komisi Pembimbing
( Ir. Agus Buono, M.Si, M.Kom ) Ketua
( Aziz Kustiyo, S.Si, M.Kom ) Anggota
Diketahui, Ketua Program Studi Ilmu Komputer
( Dr. Sugi Guritman, MSc.)
Tanggal ujian: 26 Mei 2007
Dekan Sekolah Pascasarjana IPB
( Prof. Dr. Ir. Khairil Anwar Notodiputro, MS )
Tanggal Lulus:
PRAKATA Syukur Alhamdulillah, penulis panjatkan kepada illahi robbi Allah SWT, atas rahmat dan hidayahnya sehingga akhirnya karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak Desember 2005 ini adalah sistem identifikasi pembicara, dengan judul Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara. Pada kesempatan ini, penulis menyampaikan ucapan terima kasih dan penghargaan yang setinggi – tingginya kepada bapak Ir. Agus Buono, M.Si, M.Kom, dan bapak Aziz Kustiyo, S.Si, M.Kom, atas kesediaanya meluangkan waktu untuk membimbing sejak awal pemilihan tema penelitian hingga selesainya karya ilmiah ini. Penghargaan yang tulus penulis sampaikan pula, kepada para dosen Program Studi Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor, yang telah memberi wawasan pengetahuan bagi penulis. Atas do’a, pengorbanan, kesabaran serta dukungan moril, penulis ucapkan terima kasih dan rasa hormat yang tulus pada ibu dan istri tercinta, serta seluruh keluarga. Semoga, hasil karya ilmiah yang jauh dari sempurna ini dapat bermanfaat.
Bogor,
Mei 2007 Jayanta.
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 30 September 1961 dari ayah Sirtoe Astrodiwiryo dan ibu Fatimah Haryana Prawira. Penulis adalah putra kedua dari tiga bersaudara. Pada tahun 1981 penulis lulus dari SMA Negeri 1 Jakarta. Pendidikan sarjana ditempuh pada tahun 1989 di Sekolah Tinggi Manajemen Informatika dan Komputer Gunadarma, jurusan Manajemen Informatika, lulus pada tahun 1993. Pada tahun 2003 penulis mendapat kesempatan untuk melanjut pendidikan ke program magister pada program Studi Ilmu Komputer, Sekolah Pascasarjana IPB. Penulis bekerja di Universitas Pembangunan Nasional ”Veteran” Jakarta, pada Fakultas Ilmu Komputer sejak tahun 1987 hingga sekarang. Pada tahun 1996 hingga tahun 1999 penulis dipercaya sebagai kepala laboratorium komputer Fakultas Ilmu Kompter UPN ”Veteran” Jakarta. Pada tahun 1999 hingga tahun 2000 penulis mendapat kesempatan menjadi staff pengajar yunior, di jurusan Teknologi Informatika, Fakultas Teknik pada Hoogeschool van Arnhem en Nijmegen, Belanda. Sejak tahun 2005 penulis dipercaya sebagai Ketua Jurusan Teknologi Informatika pada Fakultas Ilmu Komputer UPN ”Veteran” Jakarta.
DAFTAR ISI Halaman DAFTAR TABEL ...................................................................................... iii DAFTAR GAMBAR .................................................................................
iv
DAFTAR LAMIRAN ................................................................................
vi
PENDAHULUAN Latar Belakang .......................................................................................
1
Tujuan Penelitian ...................................................................................
2
Ruang Lingkup ......................................................................................
2
Manfaat Penelitian .................................................................................
3
TINJAUAN PUSTAKA Sinyal Suara ...........................................................................................
4
Prinsip Identifikasi Pembicara ...............................................................
4
Preemphasis ...........................................................................................
5
Frame ......................................................................................................
5
Window ..................................................................................................
6
Transformasi Fourier Diskret (DFT) ......................................................
7
Mel-Frequency Cepstral Coefficients (MFCC) ……………………….
8
Peubah Acak Kontinyu ………………………………………………..
10
Analisis Komponen Utama (PCA) .……………………………………
12
Normalisasi Data ………….…………………………………………...
14
Kaidah Bayes ………………………………………………………….
15
Jaringan Syaraf Tiruan Probabilistik (PNN) .........................................
16
Validasi Hasil Pengukuran .....................................................................
18
Penelitian Terkait ...................................................................................
19
DATA DAN METODE Keragka Pikir Penelitian ........................................................................
21
Struktur Data Penelitian ........................................................................
33
Bahan dan Alat ......................................................................................
34
Waktu Penelitian ...................................................................................
35
i
Halaman HASIL DAN PEMBAHASAN Hasil Pra-proses .....................................................................................
36
Hasil Ekstraksi Ciri ................................................................................
36
Hasil Pengujian PNN70 .........................................................................
38
Hasil Pengujian PNN90 .........................................................................
40
Waktu Komputasi ..................................................................................
42
Hasil Pengujian dengan Data Noise .......................................................
45
Pengaruh Parameter Pembentuk Data Ciri .............................................
47
SIMPULAN DAN SARAN Simpulan ................................................................................................
51
Saran .......................................................................................................
51
DAFTAR PUSTAKA .................................................................................
52
ii
DAFTAR TABEL Halaman 1
Komposisi dan jumlah vektor ciri untuk metode validasi holdout...
27
2
Komposisi dan jumlah vektor ciri untuk metode validasi leave-one out ...................................................................................................
27
3
Nilai parameter pembentuk data ciri ...............................................
33
4
Jumlah frame suara untuk frekuensi suara 16000 Hz .....................
36
5
Jumlah sampel data per satu frame ................................................
36
6
Nama kelompok data .....................................................................
37
7
Dimensi data penelitian hasil ekstraksi ciri suara untuk data asli ...
38
8
Dimensi data penelitian hasil ekstraksi ciri suara untuk data noise..
38
9
Hasil pengujian model PNN70 ........................................................
39
10
Hasil Pengujian model PNN90 ........................................................
41
11
Waktu komputasi model PNN70 .....................................................
43
12
Waktu komputasi model PNN90 ....................................................
44
13
Hasil pengujian model PNN90 untuk data noise 20 desibel ...........
45
14
Hasil pengujian model PNN90 untuk data noise 30 desibel ...........
46
15
Hasil pengujian model PNN90 untuk data noise 40 desibel ...........
46
iii
DAFTAR GAMBAR Halaman 1
Visualisasi satu frame suara ...........................................................
6
2
Bentuk kurva Hamming window ...................................................
7
3
Hasil penerapan hamming window terhadap frame suara ……….
8
4
Skema transformasi fourier ……………………………………...
8
5
Blok diagram metode MFCC …………………………………….
9
6
Mel filter-bank dengan triangular badpass ...................................
10
7
Arsitektur PNN …………………………………………………..
18
8
Blok kerangka pikir penelitian pengembangan model JST probabilistik (PPN) pada identifikasi pembicara ………………...
21
9
Blok diagram sistem identifikasi pembicara ..................................
22
10
Antar muka modul rekam suara .....................................................
23
11
Cuplikan program rekam suara ......................................................
23
12
Blok diagram alir proses pengumpulan suara ................................
24
13
Antar muka proses penambahan noise ..........................................
24
14
Cuplikan program tambah noise ....................................................
25
15
Diagram alir proses kegiatan pra-proses .......................................
25
16
Diagram alir proses ekstraksi ciri dengan metode MFCC ............
26
17
Diagram alir proses model identifikasi pertama ............................
28
18
Diagram alir proses model identifikasi kedua ...............................
29
19
Diagram pembentukan data pelatihan ...........................................
30
20
Diagram pembentukan data pengujian ..........................................
30
21
Rancang bangun pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara ......................................
32
22
Antar muka modul menu ...............................................................
33
23
Struktur pohon data penelitian ......................................................
34
iv
Halaman 24
Visualisasi grafis hasil pengujian model PNN70 ..........................
40
25
Visualisasi grafis hasil pengujian model PNN90 ..........................
42
26
Visualisasi waktu komputasi model PNN70 ................................
43
27
Visualisasi waktu komputasi model PNN90 ................................
44
28
Visualisasi hasil pengujian PNN90 untuk data noise ...................
47
29
Perbandingan nilai akurasi kelompok data 1, 2, dan 3 .................
48
30
Perbandingan nilai akurasi kelompok data 4, 5, dan 6 .................
49
31
Perbandingan nilai akurasi kelompok data 10, 11, dan 12 ...........
50
v
DAFTAR LAMPIRAN Halaman 1
Bentuk sinyal suara ........................................................................
54
2
Visualisasi grafis hasil pengujian data asli ....................................
64
3
Visualisasi grafis hasil pengujian data noise .................................
68
4
Perbandingan hasil pengujian data asli dan data noise ..................
74
vi
BAB I PENDAHULUAN 1.1
Latar Belakang Suara sebagai salah satu sumber data biometrik mempunyai keunggulan
sifat tidak dapat dihilangkan, dilupakan, atau dipindahkan dari satu orang ke orang lain. Suara dapat dijadikan data masukkan untuk mengidentifikasikan seseorang. Melalui dukungan teknologi informasi yang semakin baik dan murah, di masa depan teknologi berbasis data biometrik akan mirip fenomena komputer, yang kemudian menjadi bagian dari sebuah kebutuhan hidup sehari-hari. Suara adalah suatu gelombang yang merambat diudara, dan merupakan salah satu sumber data alamiah yang membawa informasi bagi sipendengar, terutama mengenai berita yang akan disampaikan melalui kata-kata. Beberapa informasi lain yang dapat diperoleh dari gelombang suara, adalah: bahasa yang di gunakan untuk berbicara; emosi; jenis kelamin; usia dan identitas pemilik suara (Reynolds 2002). Dengan menggunakan informasi spesifik yang terdapat dalam gelombang suara, sistem pengenalan pembicara secara otomatis akan mengenali identitas seseorang, teknik ini dapat diterapkan untuk mengidentifikasi dan memverifikasi identitas seseorang ketika mengakses suatu jasa layanan menggunakan suara melalui jaringan telepon (Furui 1997). Secara ekonomi, aplikasi teknologi informasi berbasis pengenalan suara dapat memberikan nilai jual produk teknologi yang sangat besar. Penjualan produk teknologi berbasis sistem pengenalan suara pada tahun 1997, memberikan nilai sebesar 500 juta dolar Amerika, dan meningkat menjadi 38 milyar dolar Amerika pada tahun 2003 (Rabah 2004). Penting untuk diperhatikan dalam mengembangkan sistem ceras berbasis suara, yaitu: sistem harus mampu mengurangi gangguan sinyal (noise), dan mampu mendapatkan informasi spesifik (feature) dari suara dalam berbagai kondisi pemilik suara, seperti: kesehatan, usia, tingkat emosi, jenis kelamin, dan logat bicara. Terjadinya noise, juga dapat dipengaruhi kondisi ruang pengambilan suara, alat penangkap suara (mikrofon), dan peniruan suara (Rabiner et al. 1993).
2
Selain suara harus minim noise, dimensi suara juga merupakan kendala tersendiri karena besarnya dimensi suara dapat mempengaruhi kinerja sistem. Salah satu cara mengatasi kendala dimensi suara adalah dengan menyederhanakan dimensi suara melalui proses ekstraksi ciri. Teknik yang dapat diterapkan pada proses ekstraksi ciri diantaranya adalah Mel-Frequency Cepstral Coefficients (MFCC), dan analisis komponen utama (PCA). Klasifikasi pola suara merupakan dasar kerja sistem pengenalan pembicara, dengan demikian, untuk mengetahui apakah kinerja sistem dalam melakukan proses klasifikasi itu baik atau tidak, perlu ditetapkan alat yang dapat melakukan proses klasifikasi. Salah satu alat yang dapat digunakan untuk melakukan proses klasifikasi adalah jaringan syaraf tiruan (JST). Melalui proses pembelajaran, JST akan membentuk suatu model referensi berdasarkan data pelatihan (data acuan) yang ditetapkan, kemudian JST yang telah melakukan pembelajaran, dapat digunakan sebagai alat untuk melakukan pencocokan pola (Kusumadewi 2004). Keunggulan dari penggunaan jaringan syaraf tiruan (JST) adalah kemampuannya untuk melakukan klasifikasi data yang belum diberikan pada saat pembelajaran sebelumnya (Li Min Fu 1994). Bolat dan Yildirim (Bolat et al. 2003) menerapkan kombinasi metode PCA untuk memperbaiki kinerja JST Probabilistik, sedangkan penelitian yang memanfaatkan MFCC dan JST Probabilistik dilakukan oleh Low dan Togneri (1998) dan Ganchev et al. (2002b). Berdasarkan hasil-hasil penelitian tersebut pada penelitian ini akan dikombinasikan MFCC dan PCA untuk mengatasi masalah dimensi data. 1.2
Tujuan Penelitian Tujuan penelitian ini adalah mengamati pengaruh kombinasi metode PCA
dengan MFCC pada pengembangan model jaringan syaraf tiruan probabilistik (PNN) pada identifikasi pembicara. 1.3
Ruang Lingkup Lingkup penelitian dibatasi, pada: 1 Sistem yang dikembangkan hanya dalam bentuk prototipe sistem, dengan menerapkan metode text-dependent;
3
2 Penggunaan jaringan syaraf tiruan probabilistik (Probabilistic Neural Networks) sebagai alat klasifikasi pola suara; 3 Penerapan kombinasi metode PCA dengan metode MFCC, sebagai alat ekstraksi ciri; 4 Sampel data yang digunakan, berupa teks “Sembilan” yang diucapkan dalam bahasa Indonesia, oleh 10 orang dewasa, terdiri atas: 5 pria dan 5 wanita. 5 Untuk mempermudah dan mempercepat proses ekstraksi ciri, data penelitian dibentuk menggunakan: a
Lebar waktu frame (16 ms, 30 ms, dan 40 ms);
b
Lebar overlap (40% dan 50%);
c
Koefisien mel atau filter bank (16 dan 20).
6 Penggunaan noise sebesar 20, 30 dan 40 desibel terhadap sinyal suara asli. 1.4
Manfaat Penelitian Hasil penelitian diharapkan dapat memberi manfaat bagi perkembangan
teknologi biometrik dan ilmu komputer dalam bidang pengamanan akses layanan sistem berbasis suara.
BAB II TINJAUAN PUSTAKA 2.1
Sinyal Suara Sinyal adalah kumpulan tanda atau bunyi untuk menyampaikan pesan atau
informasi. Suara adalah bentuk kompleks yang dapat disampaikan dengan cerdas melalui partikel udara dengan berbagai intensitas gelombang bunyi. Untuk setiap gelombang bunyi yang dikirimkan mengandung karakteristik, ciri dan bentuk informasi tertentu yang akan disampaikan (Shiavi 1991). Sinyal suara merupakan rangkaian bunyi yang merambat dan berubah secara lambat melalui partikel udara dalam kurun waktu tertentu. Analisis terhadap sinyal suara akan memberikan nilai karakteristik memadai dan stabil, apabila dilakukan pada inteval waktu cukup pendek (antara 5 ms hingga 100 ms). Bila interval waktu tersebut diperpanjang menjadi lebih dari, atau sama dengan 200 ms, akan memberikan perubahan nilai karakteristik (Rabiner et al. 1993). Sinyal suara merupakan sumber data alamiah yang dapat memberikan bermacam informasi, antara lain: informasi mengenai rangkaian huruf pembentuk kata atau kalimat; bahasa yang di gunakan untuk berbicara; emosi; jenis kelamin; serta usia dan identitas pemilik suara (Reynolds 2002). Visualisasi sinyal suara dapat dilihat pada Lampiran 1. 2.2
Prinsip Identifikasi Pembicara Identifikasi pembicara, merupakan proses mengklasifikasikan pembicara
dari sejumlah alternatif pembicara yang diberikan, sebagai suatu keputusan terbaik. Jumlah alternatif pembicara adalah sama dengan jumlah populasi pembicara terregistrasi. Meniru kemampuan manusia mengenal identitas seseorang melalui suara yang didengar, merupakan dasar kerja yang diadopsi oleh sistem identifikasi pembicara, sehingga sistem identifikasi pembicara dapat dimasukan kedalam kelompok sistem kecerdasan buatan (Kusumadewi 2003). Terdapat 2 tahap proses yang dilibatkan untuk mengetahui identitas seseorang dari suara yang diucapkan. Pertama, mendapatkan informasi spesifik atau nilai ciri dari suara yang diamati. Kedua, mengklasifikasikan suara, melalui
5
proses pencocokan nilai ciri suara yang diterima dengan nilai ciri suara acuan (basis data ciri suara) (Furui 1997). Dari sudut pandang linguistik, terdapat dua metode yang dapat diterapkan untuk mengembangkan sistem identifikasi pembicara. Metode pertama disebut text-dependent, dan metode kedua disebut text-independent. Sistem identifikasi pembicara yang mengadopsi metode text-dependent, harus mengetahui dan menentukan terlebih dahulu teks yang akan diucapkan pembicara. Contoh penerapan metode text-dependent adalah pada pengucapan PIN (nomor identitas diri) yang digunakan sebagai kata kunci. Sistem identifikasi pembicara yang mengadopsi metode text-independent, tidak perlu menentukan teks apa yang harus diucapkan pembicara, sehingga pembicara bebas menentukan pilihan teks yang akan diucapkannya (Furui 1997). 2.3
Preemphasis Preemphasis adalah teknik yang digunakan untuk menyaring sinyal suara,
umumnya dilakukan menggunakan Finite Impulse Response (FIR). Persamaan yang digunakan pada proses preemphasis mempunyai bentuk sebagai berikut: F(w) = 1 – a.Z -1
(0 < a <1)
(1)
dimana a adalah faktor preemphasis, nilai yang direkomendasikan untuk a adalah 0,95 (Rabiner et al. 1993). Jika Z adalah e
jw
, maka fungsi penyaringan
preemphasis dapat dinyatakan dengan F(w) = 1 – a.e -j.w
(2)
Preemphasis diterapkan pada sinyal dijital untuk menstabilkan spektrum sinyal dan memperkecil dampak keterbatasan ketelitian perhitungan. Persamaan (2) diatas, dapat dituliskan kembali sebagai berikut (Rabiner et al. 1993). F(w) = 1 – 0,95* e -j.w 2.4
(3)
Frame Untuk memudahkan dan mempercepat proses analisis suara, dilakukan
pemecahan sinyal suara menjadi beberapa partisi, disebut juga frame. Pembentukan frame dilakukan menggunakan parameter lebar waktu tertentu (umumnya 10 ms hingga 50 ms) dan lebar overlap. Penentuan jumlah data pada setiap frame dihitung menggunakan persamaan:
6
N =
fr * fs, 1000
(4)
dimana fr adalah lebar waktu frame, fs adalah frekuensi suara, dan N adalah jumlah data per frame. Metode Welch, adalah salah satu metode yang dapat digunakan untuk membentuk frame. Pembentukan frame, dilakukan dengan membagi sinyal suara dijital menjadi sejumlah K frame. Dengan N data per satu frame-nya, dan D titik awal terjadinya overlapping dalam frame, maka N dikurangi D atau (N - D), adalah jumlah data pada bagian overlap. Secara matematis persamaan untuk mendapatkan sejumlah frame dari satu sinyal suara, dapat dituliskan sebagai berikut: K = ((L – N)/(N – D)) + 1, dimana L merupakan panjang sinyal suara (Shiavi 1991). Overlap merupakan bagian dari frame, berfungsi menjaga keterkaitan antar frame yang berdampingan, dan memperkecil tingkat resiko kehilangan informasi dan nilai ciri yang terdapat pada setiap frame. Contoh visualisasi 1 frame disajikan pada Gambar 1.
Gambar 1 Visualisasi satu frame suara 2.5
Window Window, adalah fungsi yang dapat digunakan untuk mengarahkan nilai data
pada setiap frame sesuai dengan bentuk kurva window. Window yang umum digunakan pada proses analisis suara (ekstraksi ciri), adalah hamming window, dinyatakan dengan persamaan (Porat 1997),
⎛ 2π n ⎞ ⎟⎟, w ( n) = 0.54 − 0.46 cos ⎜⎜ ⎝ N − 1⎠
0≤n≤N–1
(5)
7
dimana N merupakan lebar window, umumnya memiliki nilai yang sama dengan lebar waktu frame. Visualisasi hamming window, disajikan pada Gambar 2. Jika window dinyatakan dengan simbol w(n), dan frame dinyatakan dengan xi(n), maka penerapan window terhadap setiap frame, akan menghasilkan sinyal baru ~ x ( n) (lihat Gambar 3), dan dapat dinyatakan dengan persamaan berikut: (Rabiner et al. 1993) ~ x (n) = xi (n).w(n) ,
0≤n≤N–1
(6)
Gambar 2 Bentuk kurva hamming window
Gambar 3 Hasil penerapan hamming window terhadap frame suara 2.6
Transformasi Fourier Diskret (DFT) Proses analisis suara, umumnya menggunakan sinyal suara dalam domain
frekuensi, namun sinyal suara terekam berada dalam domain waktu, sehingga perlu pengubahan domain sinyal. Salah satu metode yang dapat digunakan untuk mengubah domain sinyal, adalah metode transformasi Fourier.
8
Transformasi sinyal akan lebih stabil dan sinyal berbentuk periodik dengan periode N, bila dilakukan pada interval waktu yang cukup pendek atau dalam bentuk frame. Transformasi Fourier cepat (FFT), merupakan varian dari transformasi Fourier diskret (DFT), biasa digunakan pada proses analisis suara. FFT, merupakan metode transformasi hasil perbaikan dari DFT, dan memiliki pengulangan proses yang lebih sedikit dibanding DFT. Persamaan transformasi Fourier yang digunakan, adalah (Rabiner et al. 1993). Xk =
N −1
∑ x(n ).e
⎛ 2π ⎞ − j⎜ ⎟ nk ⎝ N ⎠
, dimana 0 ≤ k ≤ N – 1
(7)
n=0
Sedangkan skema transformasi Fourier disajikan pada Gambar 4.
Gambar 4 Skema transformasi Fourier (Karpov 2003) 2.7
Mel-Frequency Cepstral Coefficients Untuk setiap nada frekuensi f, yang dinyatakan dalam Hertz (Hz), adalah
suatu titi nada yang diukur menggunakan skala pengukuran, disebut skala “mel”. Sebagai titik acuan, suatu titi nada 1 kHz nada, 40 dB diatas batas kemampuan pendengaran manusia, dinyatakan sebagai 1000 mel. Hubungan lain dengan nilai titi nada, diperoleh dengan menyesuaikan frekuensi nada, menjadi setengah atau 2 kali frekuensi acuan, dan dinyatakan dengan 500 mel atau 2000 mel. Skala Mel (Melodi) di bawah 1000 Hz, merupakan frekuensi linier, dan mel dengan skala di atas 1000 Hz, merupakan frekuensi logaritmik. Skala mel ekivalen dengan nilai frekuensi f , dapat dinyatakan dengan persamaan mel(f) = 2595 . log10(1 + f / 700)
(8)
9
dimana f menunjukan frekuensi sebenarnya, dan mel(f) adalah frekuensi yang dihasilkan dalam skala mel. Mel-Frequency Cepstral Coefficients (MFCC), merupakan salah satu metode untuk mendapatkan informasi spesifik atau nilai ciri dari suara. Dengan menerapkankan koefisien mel pada penyaringan mel-triangular (lihat Gambar 6), setiap frame suara yang telah melalui proses transformasi fourier, disaring dengan mel-triangular filter bank, kemudian hasil penyaringan tersebut dikompresi menggunakan fungsi log, untuk selanjutnya ditransformasikan menjadi koefisien cesptral menggunakan Discrete Cosine Transformation (DCT). Tahapan proses MFCC dituangkan dalam suatu blok diagram proses, disajikan pada Gambar 5. Hasil proses metode MFCC, adalah vector yang berisi data ciri atau Cepstrum, tahapan proses metode MFCC dapat dinyatakan menggunakan pseudocode berikut (Karpov 2003): Ceps(frame) = DCT(log10(abs(FFT(frame))))
(9)
Gambar 5 Blok diagram proses MFCC Discrete Cosine Transformation (DCT), digunakan untuk mendapat nilai koefisien cepstral. DCT dinyatakan dengan persamaan: N
π (2n − 1)( k − 1)
n =1
2N
y (k ) = ω ( k ) ∑ x (n)cos
, k = 1, ......, N
(10)
Posisi pertama dari vektor yang dihasilkan metode MFCC dapat diabaikan, karena tidak terlalu mempengaruhi hasil proses selanjutnya (Rabiner et al. 1993).
10
Gambar 6 mel filter-bank dengan triangular bandpass 2.8
Peubah Acak Kontinyu. 1 Dalam kehidupan nyata, banyak dijumpai permasalahan dimana nilai-nilai
pengamatan tidak dapat dihitung. Sebagai contoh, waktu tunggu suatu job hingga diproses sampai selesai, waktu hidup komponen perangkat keras komputer (CPU, RAM, Harddisk, dsb). Peubah – peubah acak dengan nilai seperti di atas disebut sebagai peubah acak kontinyu. Nilai peubah acak kontinyu adalah dalam domain real. Pernyataan bahwa: fungsi distribusi kumulatif, untuk suatu peubah acak y adalah sama dengan peluang F ( y0 ) = P( y ≤ y0 ) , dari pernyataan tersebut, maka untuk peubah acak diskret dan kontinyu dapat di tuliskan menjadi: a Peubah acak diskret b Peubah acak kontinyu
: F ( y0 ) =
∑ P( y = y ) 0
∀y ≤ y 0
: F ( y0 ) = ∫
y0 −∞
f ( y ) dy
(11) (12)
Karena bentuk distribusi fungsi untuk peubah acak diskret dan kontinyu berbeda, untuk peubah acak diskret bentuknya seperti tangga, sedang untuk peubah acak kontinyu bentuknya berupa kurva mulus, dalam hal ini f ( y ) disebut sebagai fungsi kepekatan peluang (probability density function --PDF--). Beberapa pustaka menuliskan sebagai f y ( y ) , yang artinya fungsi kepekatan peluang peubah acak y. Perbedaan mendasar antara kedua jenis peubah tersebut adalah bahwa nilai peluang peubah acak diskret untuk suatu titik tertentu, dapat 1
Ir. Agus Buono, M.Si, M.Kom., Diktat matakuliah Matematika dan Statistik Komputasi
11
saja tidak nol, sedangkan untuk peubah acak kontinyu, peluang untuk munculnya suatu titik, pasti nol. Hal ini karena nilai peluang diartikan sebagai luas daerah di bawah kurva fungsi kepekatan peluang. Pernyataan bahwa: jika F ( y ) adalah fungsi distribusi kumulatif peubah acak y, maka fungsi kepekatan peluang dari peubah acak y tersebut adalah f y ( y ) yang dirumuskan sebagai: f y (y) =
dF ( y ) dy
(13)
Sifat dari fungsi kepekatan peluang adalah:
a. f y ( y ) ≥ 0 , b.
∫
∞ −∞
−∞ ≤ y ≤ ∞
(14)
f y ( y ) dy = F (∞ ) = 1
(15)
Pernyataan bahwa: jika y adalah peubah acak kontinyu dengan fungsi kepekatan peluang f y ( y ) , maka nilai harapan dan ragam dari y dinyatakan sebagai: Ey (y) =
∫
∞ −∞
y f y ( y ) dy
(16)
Var ( y ) = E ( y − E ( y )) = 2
∞
∫ ( y − E ( y )) −∞
2
f y ( y ) dy
(17)
Fungsi kepekatan untuk peubah acak Uniform menjelaskan nilai kejadian untuk cakupan terbatas, dinyatakan dengan
⎧ 1 ⎪ f x ( y )= ⎨ b − a ⎪⎩ 0
,a≤ y≤b
(18)
untuk nilai y lainnya
Fungsi kepekatan untuk peubah acak eksponensial, menjelaskan nilai kejadian untuk cakupan semi terbatas, dinyatakan dengan rumusan, ⎧ 1 −( y − a )/ b ⎪ ⋅e f x ( y )= ⎨ b ⎪⎩ 0
,a ≤ y ≤b
(19)
y≤a
Fungsi kepekatan peluang untuk peubah acak normal y, mempunyai persamaan sebagai berikut ⎛ ( y − μ )2 ⎞ 1 ⎟, f ( y )= . exp ⎜⎜ − 2 ⎟ 2 σ σ 2π ⎝ ⎠
− ∞≤ y≤∞
(20)
12
persamaan ini dapat digunakan untuk menjelaskan banyak bentuk, seperti noise atau gangguan sinyal. 2.9
Analisis Komponen Utama (PCA) 2 Metode statistik yang paling popler untuk mereduksi dimensi data adalah
metode Karhunen-Loeve, disebut juga Principal Component Analysis (PCA). PCA merupakan salah satu teknik analisis peubah ganda yang sering digunakan untuk mereduksi dimensi data tanpa harus kehilangan nilai informasi berarti. Peubah, hasil transformasi pca merupakan kombinasi linier dari peubah asli, tidak berkorelasi antar sesama, tersusun berdasarkan informasi yang dikandungnya. Andaikan peubah asli adalah suatu vektor X, berdimensi p: X = (x1, x2, …, xp)T, maka peubah hasil transformasi adalah vektor Y, berdimensi q: Y = (y1, y2, …, yq), dengan q << p. Dalam hal ini yi dirumuskan sebagai: y1
= a11.x1 + a12.x2 + …….. + a1p.xp
= a1Tx
y2
= a21.x1 + a22.x2 + …….. + a2p.xp
= a2Tx
…………………. yq
= aq1.x1 + aq2.x2 + …….. + aqp.xp
= aqTx
Jika matriks koragam (covariance matrix) dari vektor X adalah Σ, maka ragam (variance) yi dirumuskan sebagai: ragam(yi) = σ y2i = aiT.Σ.ai,
(21)
Dari penjabaran diatas diketahui bahwa permasalahan transformasi, adalah bagaimana memilih koefisien dari kombinasi linier tersebut, sehingga: Informasi y1 > informasi y2 > …….> informasi yq dengan kata lain ragam(y1) > ragam(y2) > ……….. > ragam(yq) Dari sudut pandang geometrik, unsur – unsur dalam vektor ai merupakan komponen penyusun sumbu koordinat. Oleh karenanya dapat dipilih vektor ai yang mempunyai panjang satu dan saling ortogonal. Dengan demikian ini menjadi
2
Ir. Agus Buono, M.Si, M.Kom., Diktat matakuliah Matematika dan Statistik Komputasi
13
masalah optimasi dengan fungsi tujuan memaksimumkan ragam(yi), dengan kendala aiTai = 1, dan cov(ai,aj) = 0, untuk i ≠ j. Penentuan a1 Masalah optimasi Maksimumkan :
ragam(y1) = a1T Σ a1
Kendala
a1Ta1 = 1
:
Melalui pengganda Lagrange, fungsi yang dimaksimumkan adalah: f(a1) = a1T Σ a1 – λ (a1Ta1 – 1)
(22)
Optimasi dilakukan dengan cara menurunkan fungsi f, terhadap peubah – peubah yang dicari, dan diperoleh ∂f = 2Σa1 − 2λ a1 = 0 ⇔ (Σa1 − λ a1 ) = 0 ∂a1
Ini berarti a1 merupakan vektor eigen dari matriks Σ dengan nilai eigen λ. Berdasarkan hasil di atas, maka
(Σa1 − λ a1 ) = 0 ⇔ Σa1 = λ a1 ⇔ a1Τ Σa1 = a1Τ λ a1 = a1Τ a1 λ = 1λ = λ Ini berarti ragam(y1), adalah λ yang merupakan nilai eigen matriks Σ. Karena di inginkan peubah hasil transformasi tersusun berdasarkan ‘pentingnya’, maka vektor a1 adalah vektor eigen yang bersesuaian dengan nilai eigen terbesar pertama. Penentuan a2 Masalah optimasi Maksimumkan :
ragam(y2) = a2T Σ a2
Kendala
a2T a2 = 1 dan a1T a2 = 0
:
Melalui pengganda larange, fungsi yang dimaksimumkan adalah f(a2) = a2T Σ a2 – λ2 (a2Ta2 – 1). δ(a1Ta2) Setelah dideferensialkan, diperoleh: ∂f = 2 Σa 2 − 2 λ 2 a 2 − δ a 1 = 0 ∂a 2
Dengan mengalikan a2T pada ruas kiri dan kanan diperoleh 2a 2Τ Σa 2 − 2λ 2 a 2Τ a 2 − δ a 2Τ a1 = 0 ⇔ a 2Τ Σa 2 = λ 2
(23)
14
Oleh karena itu Σ.a2 = λ2a2 yang berarti bahwa vektor a2 merupakan vektor eigen dari Σ yang bersesuaian dengan nilai eigen terbesar ke dua, λ2. Penentuan ai Memperhatikan cara diatas, maka vektor ai merupakan vektor eigen dari matriks Σ yang bersesuaian dengan nilai eigen terbesar ke i, yaitu λi, atau dengan kata lain berlaku: Λ = Α ΤΣΑ dengan matriks Λ = diag {λi } dan A = [a1, a2, ….., ap]T Berapa banyak nilai komponen utama diperlukan sebagai data penelitian, atau seberapa efektif dimensi data dapat dijadikan data penelitian. Pertanyaan tersebut dapat dijawab dengan menerapkan perhitungan proporsi nilai eigen, yaitu membagi jumlah r nilai eigen dengan jumlah seluruh nilai eigen, kita akan mendapatkan hasil pengukuran untuk kualitas dari representasi yang didasarkan pada r komponen utama. Hasil penghitungan di ekspresikan sebagai persentasi. Untuk jelasnya, kriteria nilai ciri yang representatif, didasarkan pada rasio dari jumlah r nilai eigen terbesar, untuk mencuplik nilai komponen utama dari dalam matriks. Jika nilai eigen diberi label λ1 ≥ λ2 ≥ …≥ λq, maka penghitungan rasio dapat dituliskan sebagai berikut (Kantardzic 2003): r
Rasio = ∑ λi i =1
q
∑λ i =1
i
.
(24)
Menurut Johnson dan Wichern, persentasi rasio 80%, dan 90% dari total nilai eigen, akan memberikan sebanyak r kompenen utama untuk menggantikan data asli tanpa banyak kehilangan informasi (Johnson et. al 1998). 2.10 Normalisasi Data Untuk meningkatkan hasil identifikasi dilakukan normalisasi terhadap data penelitian. Salah satu teknik yang dapat digunakan untuk menormalisasi data adalah metode standar deviasi. Normalisasi menggunakan standar deviasi dilakukan untuk mengukur jarak, dengan mentransformasi data asli kedalam bentuk lain. Untuk vektor ciri v, dimana nilai rata – rata vektor adalah mean(v) dan standar deviasi vektor adalah sd(v) di hitung untuk semua sampel data,
15
kemudian, untuk nilai ciri ke i ditransformasikan menggunakan persamaan (Kantardzic 2003). v’(i) = (v(i) – mean(v)) / sd(v)
(25)
Contoh: Jika nilai ciri v = {1, 2, 3}, maka mean(v) = 2, sd(v) = 1, maka nilai ciri hasil normalisasi adalah v* = {-1, 0, 1}. 2.11 Kaidah Bayes Kaidah Bayes dapat digunakan untuk melakukan klasifikasi terhadap sejumlah kategori. Pengambilan keputusan didasarkan pada hasil perhitungan jarak antar fungsi kepekatan peluang dari vektor ciri. Kaidah Bayes mengasumsikan bahwa kesalahan dalam pengambilan keputusan mempunyai nilai sama, nilai benar dalam pengambilan keputusan adalah 0 (nol), dan kaidah pengambilan keputusan Bayes dapat dinyatakan dengan d(x) = θi, anggaplah ada sejumlah i kelas θ1, θ2, θ3, .., θi, dimana vektor x dinyatakan masuk dalam kelas θi, jika P(θi). p(x | θi) ≥ P(θj). p(x | θj),
∀ i,j = 1, 2, 3, .. N
(26)
Dimana: P(θi)
adalah peluang, dimana vektor masukkan berada dalam kelas θi. Terjadinya peluang terdahulu dapat di nyatakan dengan hi, untuk kelas θi, dimana i = 1, 2, 3, …., N.
p(x|θi)
adalah fungsi kepekatan peluang kelas bersyarat dari x yang di berikan, di mana x masuk dalam kelas θi. Fungsi kepekatan peluang kelas bersyarat terdahulu dari x untuk setiap kelas θi, dapat juga di nyatakan dengan fi(x).
gi(x) = P(θi). p(x|θi), gi(x) adalah fungsi pengambilan keputusan Bayes. gi(x) > gk(x) untuk k ≠ i, adalah kaidah pengambilan keputusan Bayes. Dalam kaidah pengambilan keputusan Bayes, d(x) = θi, hasil pengujian vektor x, akan masuk dalam kelas θi jika hi.li.fi(x) > hk.lk.fk(x), untuk k ≠ i, dimana li adalah nilai peluang kesalahan dalam pengambilan keputusan pada kelas θi, dalam banyak kasus, nilai peluang kesalahan pengambilan keputusan (li) dapat di anggap sama, sehingga dapat di abaikan, dan hi adalah nilai peluang dari kejadian fungsi peluang terdahulu (fi-1) dari vektor – vektor pada kelas θi, dan sering di asumsikan sama, sehingga dapat di abaikan.
16
Pengambilan keputusan, dilakukan berdasarkan nilai tertinggi yang mendekati nilai fungsi kepekatan peluang fi(x) dari vektor x untuk dapat masuk dalam kelas tertentu (θi), (argmax{ hn.ln.fn(x)}, dimana n = 1, …,K,) (Specht 1992, Zaknich 1995). 2.12 Jaringan Syaraf Tiruan Probabilistik Jaringan syaraf tiruan probabilistik atau probabilistic neural networs (PNN), diperkenalkan oleh D.F Specht pada tahun 1988, sebagai jaringan syaraf tiruan dengan 3 lapisan tesembunyi setelah lapisan masukkan (input layer), yaitu: lapisan pola (pattern layer), lapisan penjumlahan (summation layer), lapisan keluaran (output layer), dan bersifat feed-forward, dieksekusi dengan satu kali proses (one pass) (Specht 1990). Kelebihan algoritma PNN, adalah kemudahan yang diberikan untuk modifikasi jaringan, ketika dilakukan penambahan atau pengurang data pelatihan yang digunakan. Kelemahan algoritma PNN, adalah terjadinya peningkatan penggunaan ruang memori komputer, dan waktu komputasi, ketika penggunaan data pelatihan bertambah besar, karena semua data pelatihan harus dimasukkan ke dalam algoritma PNN (Bolat et al. 2003, Zaknich 1995). Kerja PNN, didasarkan pada penghitungan nilai fungsi kepekatan peluang (fi(x)) untuk setiap data (vektor). Fungsi (fi(x)) merupakan fungsi pengambilan keputusan Bayes (gi(x)), untuk data (vektor) x dan xij yang telah dinormalisasi. Persamaan fungsi fi(x) atau gi(x), tuliskan sebagai berikut, (Specht 1992, Zaknich 1995).
((
) (
⎡ ⎛ x − x ij Τ ⋅ x − x ij ⎜ ⎢ f i ( x ) = gi ( x ) = ∑ ⎢exp⎜ − ρ 2.σ 2 j =1⎣ ρ ⎝ 2 ( 2π ) σ M i 1
Mi
dengan i = 1, 2, …., K. dimana: T Transpose i Jumlah kelas j Jumlah pola xij Vektor pelatihan ke j dari kelas i x Vektor pengujian Mi Jumlah vektor pelatihan dari kelas i ρ Dimensi vektor x σ Faktor penghalus, (standar deviasi)
))⎞⎟⎤⎥ ⎟⎥ ⎠⎦
(27)
17
Sampel data untuk data pelatihan tidak sama dengan sampel data untuk data pengujian PNN. Blok diagram arsitektur PNN, disajikan pada Gambar 7. Posisi node – node yang dialokasikan dalam PNN setelah lapisan input, adalah: 1
Node lapisan Pola (Pattern Layer), digunakan 1 node pola untuk setiap data
pelatihan yang digunakan. Setiap node pola, merupakan perkalian titik (dot product) dari vektor masukkan x yang akan diklasifikasikan, dengan vektor bobot xij, yaitu Zi = x . xij, kemudian di lakukan operasi non-linier terhadap Zi sebelum menjadi keluaran yang akan mengaktifkan lapisan penjumlahan, operasi nonlinier yang digunakan adalah exp[(Zi - 1)/ σ2], dan bila x dan xij, dinormalisasikan terhadap panjang vektor, maka persamaan yang digunakan pada lapisan pola, adalah: ⎡ ( x − xij )Τ ( x − xij exp ⎢− 2σ 2 ⎢⎣ 2
)⎤ ⎥ ⎥⎦
(28)
Node lapisan Penjumlahan (Summation Layer), menerima masukkan dari node
lapisan pola yang terkait dengan kelas yang ada, persamaan yang digunakan pada lapisan ini, adalah: ⎡ ( x − xij )Τ ( x − xij ) ⎤ exp ⎢− ⎥ ∑ 2σ 2 i =1 ⎥⎦ ⎣⎢ N
3
(29)
Node lapisan Keluaran (Output Layer), menghasilkan keluaran biner (0,1),
dan hanya mempunyai variabel bobot tunggal Ck. Ck dihitung menggunakan peramaan: Ck = −
h jk l jk m ik ⋅ ; hik l ik m jk
Dimana: mik mjk
= Jumlah pelatihan pola dari kelas θik; = Jumlah pelatihan pola dari kelas θjk
(30)
18
Gambar 7 Arsitektur PNN 2.13 Validasi Hasil Pengukuran Validasi terhadap hasil penelitian dilakukan untuk mengetahui tingkat akurasi yang dicapai. Terdapat beberapa metode validasi yang dapat digunakan, dua diantaranya adalah, metode holdout, dan metode leave-one out. Metode holdout, metode ini menggunakan separuh data, atau dua per tiga data, sebagai data pelatihan dan sisanya sebagai data pengujian. Data pelatihan dan data pengujian adalah bebas, dan pengukuran hasil penelitian bersifat pesimistik. Perbedaan pembagian data akan memberikan hasil pengukuran yang berbeda. Pengulangan proses dilakukan dengan data pelatihan dan data pengujian yang dipilih secara acak, kemudian mengintegrasikan hasil pengukuran kedalam suatu standar parameter akan meningkatkan hasil pengukuran model (Kantardzic 2003). Metode leave-one out, pada metode ini, data pelatihan dirancang menggunakan (n-1) data penelitian, dan dievaluasi menggunakan sisa data. Proses pengukuran dilakukan berulang sebanyak n kali dengan data acuan berbeda.
19
Kerugian menggunakan pendekatan ini adalah penggunaan waktu komputasi yang dibutuhkan besar, bila jumlah data yang digunakan besar (Kantardzic 2003). Akurasi pengukuran model adalah bagian dari pengujian data yang diklasifikasikan secara benar, dan dihitung menggunakan persamaan, A=
(S − E ) * 100% S
(31)
dimana S adalah jumlah data, dan E kesalahan klasifikasi, A adalah nilai akurasi umumnya dinyatakan dalam prosen. 2.14 Penelitian terkait. Beberapa peneliti, yang telah mengunakan PNN pada penelitian mereka, antara lain: 1
Raymond Low dan Robeto Togneri, menggunakan PNN untuk mengubah
suara menjadi rangkaian teks dalam bahasa Inggris. Penelitian tersebut menggunakan suara yang direkam pada frekuensi 8000 Hz dan kuantisasi amplitudo 8 bit. Nilai ciri suara didapat melalui proses ekstraksi ciri menggunakan metode MFCC dengan lebar waktu frame 20 ms, overlap 50% dan koefisien mel 12. Penelitian tersebut memberikan nilai akurasi 94,1% untuk pengubahan suara menjadi teks angka, dan 88,6% untuk pengubahan suara menjadi teks alfabet (Low et. al. 1998). 2
Ganchev dan Fakotakis, menggunakan PNN pada pengenalan pembicara
melalui jaringan telepon tetap dengan basis data Polycost, 110 pembicara teregistrasi, dan 24 pembicara semu (tidak teregistrasi). Penggunakan metode MFCC pada proses ekstraksi ciri dengan lebar waktu frame 30 ms, overlap 50%, dan nilai koefisien mel 20 memberikan nilai EER (Equal Error Rate) 2,57% atau nilai akurasi sebesar 97,43%, merupakan nilai akurasi tertinggi untuk pengujian PNN (Ganchev et. al 2002a). 3
Bulent Bolat dan Tulay Yildirim, menggunakan PNN sebagai alat untuk
mengklasifikasikan 214 sampel data ke dalam 6 kelas data yang ada. Proses ekstraksi ciri mengkombinasikan metode replikasi data dengan metode PCA. Dengan menerapkan PCA terhadap hasil replikasi data, dapat mereduksi panjang vektor ciri hingga 30%, yaitu dari 9 menjadi 6. Dari penelitian yang dilakukan Bolat dan Yildirim, memperlihatkan bahwa penerapan metode PCA, tidak
20
mempengaruhi kinerja pengujian, namun pada pelatihan PNN terjadi perubahan nilai akurasi dari 100% (tanpa penerapan PCA) menjadi 98,6% (setelah penerapan PCA) (Bolat et. al 2003).
BAB III DATA DAN METODE 3.1
Kerangka Pikir Penelitian Pengguna sistem identifikasi pembicara adalah orang yang memiliki hak
akses terhadap suatu layanan tertentu, dimana suara oleh sistem digunakan sebagai parameter untuk mengijinkan seseorang dapat mengakses suatu layanan tersebut atau tidak. Untuk mewujudkan sistem tersebut, dilakukan penelitian pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara. Tahap kegiatan penelitian dituangkan dalam suatu blok kerangka pikir penelitian, seperti disajikan pada Gambar 8.
Gambar 8 Blok kerangka pikir penelitian pengembangan model JST Probabilistik (PNN) pada identifikasi pembicara.
22
3.1.1 Studi Pustaka Studi pustaka, merupakan kegiatan untuk membuka wawasan dan mempelajari beberapa pustaka terkait dengan topik penelitian. Studi pustaka yang sedang dan telah dilakukan, meliputi: prinsip dasar sistem identifikasi pembicara (speaker recognition), pengelolaan sinyal dijital, jaringan syaraf tiruan probabilistik (PNN), ekstraksi ciri suara dengan Mel-Frequency Cepstral Coefficients (MFCC), penggunaan analisis komponen utama (PCA), fungsi kepekatan peluang (PDF), pemrograman dengan perangkat lunak Matlab V6.5, dan beberapa penelitian terdahulu dengan topik manipulasi suara. Setelah mempelajari beberapa pustaka yang terkait dengan sistem pengenalan pembicara, dapat disimpulkan bahwa kerja sistem identifikaasi pembicara secara umum dapat digambarkan dengan blok diagaram seperti disajikan pada Gambar 9.
Gambar 9 Blok diagram sistem identifikasi pembicara 3.1.2 Pengembangan Modul Rekam Suara Modul rekam suara dikembangkan untuk memudahkan pengumpulan suara dalam bentuk sinyal dijital, dan menyimpannya pada arsip audio (.wav). Untuk memudahkan pengguna dalam melakukan perekaman suara, pengembangan modul rekam suara, juga dilengkapi dengan antar muka (interface) rekam suara, seperti disajikan pada Gambar 10, sedangkan cuplikan program rekam suara disajikan pada Gambar 11.
23
Gambar 10 Antar muka modul rekam suara
Dur_Fs = Durasi * Frekuensi_sampel; DtSuara = wavrecord(Dur_Fs, Frekuensi_sampel, 'double'); Nama_arsip = [get(handles.Folder,'String'),... get(handles.NmPembicara,'String')... ,num2str(Ke_Sekian),'.wav']; wavwrite(DtSuara, Fs, Nama_arsip);
Gambar 11 Cuplikan program rekam suara 3.1.3 Pengumpulan Suara Suara dikumpulkan menggunakan alat bantu mikrofon standar PC dan komputer personal yang telah diprogram untuk dapat melakukan poses rekam suara. Suara direkam pada frekuensi 16000 Hz dan kuantisasi amplitudo 16 bit, sumber suara berasal dari 10 dewasa usia 21 tahun hingga 51 tahun, terdiri atas 5 orang wanita dan 5 orang laki-laki. Setiap orang diminta mengucapkan kata sandi “Sembilan” sebanyak 10 kali dengan durasi rekam suara 2 detik untuk setiap pengucapan kata sandi. Pengumpulan suara dijital dilakukan melalui proses rekam suara untuk disimpan pada berkas Sr_Asli, setelah seluruh suara terkumpul dalam berkas Sr_Asli, melalui proses penambahan noise kemudian dibentuk berkas Sr_Noise untuk menampung sinyal suara yang telah ditambahkan noise.
24
Hubungan antar proses yang dilibatkan dalam proses pengumpulan suara dituangkan dalam diagram alir proses seperti disajikan pada Gambar 12. Untuk memudahkan pengguna sistem dalam melakukan pengumpulan sura, maka proses pengumpulan suara dilengkapi tampilan antar muka rekam suara (Gambar 10) dan tampilan antar muka penambahan noise (Gambar 13), sedangkan cuplikan program penambahan noise, disajikan pada Gambar 14.
Gambar 12 Blok diagram alir proses pengumpulan suara
Gambar 13 Antar muka proses penambahan noise
25
NamaFile
= ['D:\GUI_TESIS_V01\Suara\',NamaRelawan, ... num2str(n), '.wav']; [DataWav, Fs, Bit] = wavread(NamaFile); DataNoise = awgn(DataWav,V_Desibel,'measured');
Gambar 14 Cuplikan program tambah noise 3.1.4 Pra-proses Pra-proses merupakan kegiatan yang terdiri atas proses pembentukan frame suara dan proses pembobotan window hamming. Kegiatan pra-proses diterapkan pada data suara asli (Sr_Asli) dan data suara noise (Sr_Noise). Hasil pra-proses berupa frame yang telah mendapatkan pembobotan window hamming, dan menjadi data masukkan bagi proses ekstraksi ciri. Langkah pertama dari kegiatan pra-proses, adalah memecah sinyal suara menjadi beberapa frame suara menggunakan parameter lebar waktu frame dan lebar overlap. Pada penelitian ini digunakan besaran nilai lebar waktu frame suara 16 ms, 30 ms, 40 ms, sedangkan untuk besaran nilai overlap digunakan 40% dan 50% dari nilai lebar waktu frame yang diunakan. Langkah kedua dari kegiatan pra-proses, adalah memboboti frame suara dengan window hamming. Diagram alir proses kegiatan pra-proses, disajikan pada Gambar 15.
Gambar 15 Diagram alir proses kegiatan pra-proses 3.1.5 Ekstraksi Ciri Setiap orang memiliki karakteristik suaranya sendiri, meskipun suara tersebut tidak begitu jelas. Karakteristik suara yang terbaik, dapat digunakan untuk mengidentifikasi pembicara, sehingga identitas pembicara tersebut dapat diketahui.
26
Hubungan spektral, tangga nada, intensitas suara, bentuk pengucapan, penggukuran sepstral, merupakan ciri yang digunakan pada pengolahan suara. Data ciri memberikan hasil baik pada satu situasi, tetapi dapat juga memberikan hasil buruk di situasi yang lain, sehingga, sekali ciri-ciri suara dipilih untuk digunakan dalam proses pengolahan suara, maka akan diekstraksi dari suara yang diucapkan, dan dapat digunakan untuk mengidentifikasi pembicara. Dimensi data yang terlalu besar dapat menyebabkan hasil perhitungan fungsi kepekatan peluang menjadi tidak stabil, sehingga hasil klasifikasi tidak handal. Untuk mengatasi masalah tersebut sering digunakan teknik mereduksi dimensi data, salah satu teknik yang dapat diterapkan untuk mereduksi data adalah Mel-Frequency Cepstral Coefficients (MFCC). MFCC diketahui memiliki kinerja yang baik dalam mendukung sistem identifikasi pembicara, dan juga dapat mereduksi data suara dengan baik. Tahapan proses ekstraksi ciri dengan metode MFCC, digambarkan dalam suatu blok diagram alir data seperti disajikan pada Gambar 16.
Gambar 16 Diagram alir proses ekstraksi ciri dengan metode MFCC 3.1.6 Penyebaran Data Ciri Data ciri (vektor ciri) hasil proses ekstraksi ciri dengan metode MFCC, disebar kedalam 2 kelompok data, yaitu: kelompok data pelatihan dan kelompok data pengujian.
27
Penyebaran data ciri kedalam kelompok-kelompok tersebut, adalah untuk mengetahui data ciri (vektor ciri) mana saja yang akan dijadikan data pelatihan saat proses rekonstruksi model JST Probabilistik dilakukan, dan data ciri mana saja yang akan dijadikan data pengujian. Bagaimana komposisi data ciri (vektor ciri) dan berapa jumlahnya yang akan dijadikan anggota kelompok data pelatihan dan kelompok data pengujian ditentukan berdasarkan aturan yang berlaku pada metode validasi yang dijadikan acuan pada penelitian ini. Komposisi dan jumlah data ciri pada kelompok data pelatihan dan kelompok data pengujian untuk model PNN yang akan divalidasi dengan metode holdout disajikan pada Tabel 1. Tabel 1 komposisi dan jumlah vektor ciri untuk metode validasi holdout Pengujian ke. 1
Vc2, Vc4, Vc6, Vc8, Vc10, Vc7, Vc9
Kelompok Data Pengujian Vc1, Vc3, Vc5
2
Vc1, Vc3, Vc5, Vc7, Vc9, Vc8, Vc10
Vc2, Vc4, Vc6
3
Vc2, Vc4, Vc6, Vc8, Vc10, Vc1, Vc3
Vc5, Vc7, Vc9
4
Vc1, Vc3, Vc5, Vc7, Vc9, Vc2, Vc4
Vc6, Vc8, Vc10
5
Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10
Vc1, Vc2, Vc3
6
Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7
Vc8, Vc9, Vc10
Kelompok Data Pelatihan
Sedangkan komposisi dan jumlah data ciri pada kelompok data pelatihan dan kelompok data pengujian untuk model PNN yang akan divalidasi dengan metode leave-one out disajikan pada Tabel 2. Tabel 2 komposisi dan jumlah vektor ciri untuk metode validasi leave-one out Pengujian ke. 1
Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9
Kelompok Data Pengujian Vc10
2
Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc10
Vc9
3
Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc9, Vc10
Vc8
4
Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc8, Vc9, Vc10
Vc7
5
Vc1, Vc2, Vc3, Vc4, Vc5, Vc7, Vc8, Vc9, Vc10
Vc6
6
Vc1, Vc2, Vc3, Vc4, Vc6, Vc7, Vc8, Vc9, Vc10
Vc5
7
Vc1, Vc2, Vc3, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10
Vc4
8
Vc1, Vc2, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10
Vc3
9
Vc1, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10
Vc2
10
Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10
Vc1
Kelompok Data Pelatihan
28
3.1.7 Identifikasi Suara Penelitian ini menerapkan 2 model identifikasi. Pertama, adalah model identifikasi suara yang menggunakan data ciri (vektor ciri) hasil proses ekstraksi ciri dengan metode MFCC. Kedua, adalah model identifikasi suara yang menggunakan data ciri (vektor ciri) yang dihasilkan melalui proses ekstraksi ciri yang menerapkan kombinasi metode MFCC dan Metode PCA. Kedua model identifikasi akan divalidasi dengan metode holdout dan metode leave-one out. Dalam melakukan proses validasi digunakan data pelatihan dan data pengujian sesuai hasil proses penyebaran data ciri (lihat Tabel 1 dan Tabel 2). Blok diagram model identifikasi yang pertama disajikan pada Gambar 17, pada model ini data ciri pelatihan langsung digunakan sebagai data pelatihan untuk merekonstruksi dan melatih model JST Probabilistik, sedangkan data ciri pengujian digunakan sebagai data untuk menguji model JST Probabilistik (PNN).
Gambar 17 Diagram alir proses model identifikasi pertama Sedangkan model yang kedua adalah model identifikasi pembicara yang memanfaatkan data ciri yang dihasilkan proses ekstraksi ciri yang menerapkan kombinasi metode MFCC dan PCA, diagram alir model kedua disajikan pada Gambar 18.
29
Gambar 18 Diagram alir proses model identifikasi kedua Data pelatihan untuk model kedua didapat dengan memasukan data ciri yang dihasilkan proses MFCC kedalam proses tranformasi PCA untuk mendapatkan nilai eigen dan nilai komponen utama (PC). Penerapan PCA terhadap data ciri pelatihan dengan ukuran (i x j) akan menghasilkan matriks komponen utama dengan ukuran (j x j) dan vektor eigen (λ). Dari proses PCA, dihitung rasio nilai eigen untuk mendapatkan posisi komponen utama yang akan digunakan menghitung data pelatihan dan data pengujian. Penghitungan data pelatihan dan data pengujian, merupakan kegiatan yang membedakan model identifikasi kedua dari model identifikasi pertama. Alir pembentukan data pelatihan untuk model kedua dituangkan dalam blok diagram yang disajikan pada Gambar 19, sedangkan alir proses pembentukan data pengujian dituangkan dalam blok diagram yang disajikan pada Gambar 20.
30
Gambar 19 Diagram pembentukan data pelatihan
Gambar 20 Diagram pembentukan data pengujian Kedua model identifikasi tersebut diatas juga diterapkan pada data yang telah ditambahkan noise sebesar 20, 30 dan 40 desibel. Proses rekonstruksi dan pelatihan model PNN dilakukan mengunakan data
31
pelatihan yang tidak diambahkan noise, sedangkan pengujian model PNN dilakukan dengan data pengujian yang telah ditambahkan noise. Dari hasil penerapan proses PCA, dilakukan penghitungan rasio nilai eigen menggunakan persamaan
r
∑ λi i =1
q
∑λ i =1
i
, dimana λ merupakan nilai
eigen dan r ≠ q. Berdasarkan hasil perhitungan rasio nilai eigen, didapat m kolom matriks komponen utama yang akan membentuk matriks pengali dengan ukuran (j x m). Pembentukan data pelatihan (Gambar 19) dilakukan dengan mengalikan matriks data ciri pelatihan berukuran (i x j) dengan matriks pengali (j x m), hingga didapat matriks data pelatihan berukuran (i x m), sedangkan pembentukan data pengujian (Gambar 20) dilakukan dengan mengalikan matriks data ciri pengujian berukuran (u x j) dengan matriks pengali (j x m), hingga didapat matriks data pengujian berukuran (u x m). Pada proses model identifikasi kedua data pelatihan yang dihasilkan melalui proses pembentukan data pelatihan digunakan untuk merekonstruksi dan melatih model PNN, sedangkan data pengujian digunakan untuk menguji model PNN. Hasil proses penghitungan data pelatihan dan data pengujian disebut Pca80 untuk persentasi rasio nilai eigen 80, Pca90 untuk persentasi rasio nilai eigen 90, dan Pca95 untuk persentasi rasio nilai eigen 95. Sedangkan untuk data pelatihan dan data pengujian yang dihasilkan metode MFCC disebut vekt_mfcc. Mengacu pada metode validasi yang digunakan, yaitu: metode holdout dan metode leave-one out, maka proses rekonstruksi akan menghasikan 2 model PNN, model pertama diberi nama PNN70, dan model kedua diberi nama PNN90. Untuk mengetahui tingkat akurasi sistem, maka rekonstruksi dan pengujian model PNN yang divalidasi dengan metode holdout (PNN70), dilakukan sebanyak 6 kali, sedangkan pengujian model PNN yang divalidasi menggunakan metode leave-one out (PNN90), dilakukan sebanyak n kali, dimana n adalah jumlah populasi data penelitian
32
3.1.8 Rancang Bangun Aplikasi Pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara merupakan aplikasi sistem identifikasi pembicara yang dikembangkan menggunakan beberapa modul yang saling terkait, dan tergabung dalam suatu modul pemanggil yang diberi nama ”modul_menu”, modul-modul tersebut antara lain, modul penyiapan suara, modul ekstraksi ciri, modul eksekusi PNN, dan modul generalisasi. Rancang bangun aplikasi sistem identifikasi pembicara disajikan pada Gambar 21, dimana setiap modul dalam rancang bangun aplikasi merupakan program–program pendukung penelitian yang dikembangkan menggunakan perangkat lunak Matlab v6.5.
Gambar 21 Rancang Bangun pengembangan model jaringan syaraf tiruan Probabilistik pada identifikasi pembicara. Pengembangan aplikasi sistem identifikasi pembicara, mengacu pada model siklus hidup pengembangan sistem air terjun (water fall). Prototipe aplikasi sistem identifikasi pembicara dikembangkan dengan mengintegrasikan modul-modul program pendukung kedalam satu modul
33
program pemanggil yang berfungsi sebagai modul utama aplikasi, visualisasi tampilan layar modul utama aplikasi, disajikan pada Gambar 22.
Gambar 22 Antar muka modul menu 3.1.9 Dokumentasi dan Penulisan Laporan Dokumentasi dan penulisan laporan, merupakan kegiatan terakhir dari penelitian. Seluruh hasil penelitian di laporkan dalam bentuk penulisan tesis, dan dokumentasi hasil penelitian merupakan bagian dari pelaporan (tesis). 3.2
Struktur Data Penelitian Sinyal suara hasil pengucapan teks ”sembilan”, dianalisis menggunakan
metode short-term. Beberapa parameter digunakan untuk mendapatkan informasi spesifik (ciri-ciri) suara, yaitu: sekala mel (mel), lebar waktu frame (fr), lebar overlap antar frame (over), besaran nilai ketiga parameter tersebut disajikan pada tabel 3. Berdasarkan nilai parameter pada tabel 3, dapat digambarkan pohon kelompok data ciri (data penelitian), seperti disajikan pada Gambar 23. Tabel 3 Nilai parameter pembentuk data ciri. No 1. 2. 3. 4.
Parameter Lebar waktu frame ( fr ) Lebar overlap (over) Konstanta mel ( mel ) Rasio nilai eigen (Re)
Nilai (16 ms, 30 ms, dan 40 ms) (40%, dan 50%) (16 dan 20) 80%, 90%, 95%
34
Selain parameter tersebut dalam tabel 3, digunakan juga parameter lebar window (wd), durasi perekaman suara (tr) sebesar 2 detik, frekuensi sampel suara (fs) sebesar 16 kHz, koefisien transformasi Fourier (Ft) sebesar 512. Nilai parameter diatas juga berlaku terhadap duplikat sinyal suara yang telah ditambahkan White Gaussian Noise (wgn) sebesar 30 desibel.
Gambar 23 Struktur pohon data penelitian 3.3
Bahan dan Alat Bahan baku penelitian adalah suara, berasal dari 10 orang pengucap dewasa,
yang terdiri atas: 5 orang pengucap pria dan 5 orang pengucap wanita, selanjutnya disebut sebagai Pengucap01 sampai Pengucap10. “Sembilan”, merupakan teks yang diucapkan sebanyak 10 kali oleh setiap pengucap, dengan durasi 2 detik untuk satu kali pengucapan teks. Suara ucapan direkam dalam format dijital kedalam berkas audio ber-ekstensi wav (*.wav) pada frekuensi (sampling rate) 16 kHz, dan kuantisasi amplitudo 16 bit. Alat pendukung penelitian, terdiri atas: perangkat keras dan perangkat lunak. Perangkat keras, adalah satu unit komputer personal dengan kecepatan prosesor 1,67 GHz, kapasitas memori utama 512 MB dan hardisk 40 GB, mikrofon dan kartu suara standar desktop. Perangkat lunak yang digunakan,
35
adalah, sistem operasi Microsoft Windows XP, bahasa pemrograman Matlab versi 6.5, Microsoft Office, microsoft Visio. 3.4
Waktu Penelitian Penelitian dilaksanakan mulai pertengahan Desember 2005 hingga Juni
2006, bertempat di Laboratorium Departemen Ilmu Komputer, FMIPA-IPB dan Laboratorium Fakultas Ilmu Komputer UPN “Veteran” Jakarta.
BAB IV HASIL DAN PEMBAHASAN 4.1
Hasil Pra-Proses Hasil akhir kegiatan pra-proses, adalah 6 jenis frame suara asli yang telah
diboboti window hamming, dan 6 jenis frame suara Noise yang telah diboboti window hamming. Penerapan kombinasi lebar waktu frame dengan lebar overlap dapat digunakan untuk membentuk blok frame suara. Jumlah frame suara dalam 1 blok, disajikan pada Tabel 4. Tabel 4 Jumlah frame suara untuk frekuensi suara 16000 Hz No 1. 2. 3. 4. 5. 6.
Parameter Lebar waktu frame Lebar Overlap (ms) (ms) 16 6,4 30 12 40 16 16 8 30 15 40 20
Jumlah frame dalam 1 blok 103 55 41 124 66 49
Untuk mengetahui jumlah sampel data pada setiap frame suara, dilakukan dengan mengeksekusi persamaan fr/1000 * fs, dimana fr adalah lebar waktu frame, dan fs adalah frekuensi suara. Penerapan beberapa nilai parameter lebar waktu frame (16 ms, 30 ms dan 40 ms) dan frekuensi suara 16000 Hz, terhadap persamaan diatas, akan didapat jumlah sampel data untuk setiap frame suara seperti disajikan pada Tabel 5. Tabel 5 Jumlah sampel data per satu frame No
Lebar waktu frame (ms)
Jumlah sampel data
1. 2. 3.
16 30 40
256 480 640
Frame suara yang terbentuk pada kegiatan pra-proses, merupakan frame suara yang telah diboboti dengan window hamming. 4.2
Hasil Ekstraksi Ciri Hasil akhir proses ekstraksi ciri adalah arsip yang berisi data ciri suara.
Penggunaan koefisien mel 16 dan 20 pada metode MFCC dalam mengekstraksi setiap frame suara menjadi vektor ciri dengan ukuran 16, dan 20 ciri suara sesuai dengan koefisien mel yang digunakan.
37
Hasil penerapan metode MFCC adalah vektor dengan sejumlah nilai ciri suara, disebut data ciri suara. Mengacu pada penggunaan parameter lebar waktu frame, lebar overlap, dan koefisien mel, maka penerapan metode MFCC akan menghasilkan 12 kelompok data. Setiap kelompok data memiliki 100 vektor ciri. Pemberian nama kelompok data menggunakan nilai parameter dengan susunan “mel.frame.overlap”, lihat Tabel 6. Tabel 6 Nama kelompok data Parameter pembentuk data ciri Mel Frame (ms) Overlap (%) 16 40 30 40 16 16 50 30
No 1 2 3 4 5 6 7 8 9 10 11 12
20
40 16 30 40 16 30 40
40
50
Nama kelompok data ciri 16.16.40 16.30.40 16.40.40 16.16.50 16.30.50 16.40.50 20.16.40 20.30.40 20.40.40 20.16.50 20.30.50 20.40.50
Penerapan metode MFCC pada proses ekstraksi ciri dapat mereduksi dimensi vektor suara hingga 84%, sedangkan penerapan kombinasi metode PCA dengan MFCC dapat mereduksi dimensi vektor suara hingga 99%. Rinci hasil proses ekstraksi ciri dapat dilihat pada Tabel 7 dan Tabel 8. Penerapan metode PCA terhadap data pelatihan, akan menghasilkan matriks berisi nilai komponen utama dan vektor yang berisi nilai eigen. Menurut Johnson, sebagian data hasil proses PCA dapat digunakan untuk menggantikan fungsi data hasil proses PCA sebagai data penelitian. Pemilihan sampel data pengganti dilakukan melalui penghitungan rasio nilai eigen (R), yaitu: membagi hasil penjumlahan sejumlah nilai eigen, dengan hasil penjumlahan seluruh nilai eigen, secara matematis penghitungan rasio nilai eigen dituliskan dengan persamaan R = m
n
∑λ ∑λ i =1
i
j =1
j
, dimana λ adalah nilai eigen. Persentasi rasio 80, 90 dan 95 dari
total nilai eigen, akan memberikan sebanyak m data yang dapat digunakan untuk membentuk data pelatihan dan data pengujian (Johnson et. al 1998).
38
Penerapan proses ekstraksi ciri suara juga berlaku untuk data noise. Dimensi setiap vektor hasil ekstraksi suara, disajikan pada tabel 7 (data asli) dan tabel 8 (data noise). Tabel 7 Dimensi data penelitian hasil ekstraksi ciri suara untuk data asli No
Kelompok data
Ukuran Vekt_mfcc
Ukuran Vekt_Pca
1 2 3 4 5 6 7 8 9 10 11 12
16.16.40 16.30.40 16.40.40 16.16.50 16.30.50 16.40.50 20.16.40 20.30.40 20.40.40 20.16.50 20.30.50 20.40.50
3120 1650 1230 3735 1980 1485 3952 2090 1558 4731 2508 1881
99 99 99 99 99 99 99 99 99 99 99 99
Ukuran vektor ciri hasil pencuplikan Pca80 Pca90 Pca95
8 8 8 10 9 9 9 8 8 11 10 10
19 18 17 22 20 19 21 19 18 24 22 21
36 32 31 40 36 34 39 35 33 43 39 36
Tabel 8 Dimensi data penelitian hasil ekstraksi ciri suara untuk data noise
4.3
No
Kelompok data
Ukuran Vekt_mfcc
Ukuran Vekt_Pca
1 2 3 4 5 6 7 8 9 10 11 12
16.16.40 16.30.40 16.40.40 16.16.50 16.30.50 16.40.50 20.16.40 20.30.40 20.40.40 20.16.50 20.30.50 20.40.50
3120 1650 1230 3735 1980 1485 3952 2090 1558 4731 2508 1881
99 99 99 99 99 99 99 99 99 99 99 99
Ukuran vektor ciri hasil pencuplikan Pca80 Pca90 Pca95
8 8 8 10 9 9 9 8 8 11 10 10
19 18 17 22 20 19 21 19 18 25 22 21
36 32 31 41 36 34 39 35 33 44 39 36
Hasil Pengujian PNN70 Hasil pengujian PNN70, adalah nilai rata – rata keberhasilan identifikasi
dari 6 kali pengujian varian PNN70 menggunakan data asli. Nilai akurasi tertinggi pengujian PNN70 diberikan kelompok data 12 (20.40.50). Kelompok data 12 (20.40.50), adalah kelompok data ciri yang dibentuk dengan koefisien mel 20, lebar waktu frame 40 ms dan lebar overlap 50%. Nilai akurasi tertinggi yang dicapai pengujian PNN70, sebagai berikut: 88,33% untuk penggunaan data Pca80, 93,89% untuk penggunaan data Pca90,
39
95,00% untuk penggunaan data Pca95, dan 95,56% untuk penggunaan data vekt_mfcc, lihat Tabel 9. Pengujian menggunakan data Pca90 (20.16.40 dan 20.30.40) dan Pca95 (16.30.50 dan 20.16.40) mampu memberikan nilai akurasi lebih baik 0,6% dibandingkan dengan penggunaan data vekt_mfcc (16.30.50, 20.16.40 dan 20.30.40). Nilai akurasi rata - rata dari pengujian PNN70 menggunakan data ciri vekt_mfcc memberikan nilai sebesar 91,81%, pengujian menggunakan data ciri Pca80 memberikan nilai sebesar 86,39%, pengujian menggunakan data ciri Pca90 memberikan nilai sebesar 91,16%, sedangkan pengujian menggunakan data ciri Pca95 memberikan nilai sebesar 91,62%. Dari hasil pengujian PNN70, diketahui bahwa penggunaan data ciri vekt_mfcc menghasilkan nilai akurasi lebih baik 5,9% dibandingkan penggunaan data ciri Pca80, 0,7% lebih baik dibandingkan penggunaan data ciri Pca90, dan 0,2% lebih baik dibandingkan penggunaan data ciri Pca95. Penggunaan data ciri Pca90 dan Pca95 pada pengujian PNN70 tidak menurunkan nilai akurasi secara nyata, dibandingkan nilai akurasi yang dihasilkan menggunakan data ciri vekt_mfcc. Keseluruhan hasil pengujian model PNN70 disajikan pada Tabel 9, dan visualisasi grafis hasil pengujian PNN70 disajikan pada Gambar 24. Tabel 9 Hasil pengujian model PNN70 No.
Kelompok Data
Akurasi pengujian PNN70 (%) untuk jenis data Pca80
Pca90
Pca95
MFCC
1.
16.16.40
82.22
88.89
88.89
89,44
2.
16.30.40
87.22
88.89
90.00
90,00
3.
16.40.40
86.11
88.89
90.00
90,00
4.
16.16.50
85.56
91.11
91.67
92,22
5.
16.30.50
86.11
90.56
92.78
92,22
6.
16.40.50
86.11
91.67
92.22
92,22
7.
20.16.40
86.11
90.56
90.56
90,00
8.
20.30.40
87.22
91.67
91.11
91,11
9.
20.40.40
86.67
92.22
91.11
92,22
10.
20.16.50
87.22
92.22
92.22
92,78
11.
20.30.50
87.78
93.33
93.89
93,89
12.
20.40.50
88.33
93.89
95.00
95,56
40
Gambar 24 Visualisasi grafis hasil pengujian model PNN70 4.4
Hasil Pengujian PNN90 Hasil pengujian PNN90, adalah nilai rata – rata keberhasilan identifikasi
dari 10 kali pengujian varian PNN90 menggunakan data asli. Nilai akurasi tertinggi pada pengujian PNN90 diberikan oleh kelompok data 12 (20.40.50). Nilai akurasi teringgi yang dicapai PNN90, sebagai berikut: 92% untuk pengujian menggunakan data Pca80, 94% untuk pengujian menggunakan data Pca90, dan 96% untuk pengujian menggunakan data Pca95 dan vekt_mfcc. Pengujian PNN90 menggunakan data Pca90 (20.16.40 dan 20.30.40) dan Pca95 (20.16.40) menghasilkan nilai akurasi 1% lebih baik dibandingkan hasil pengujian PNN90 menggunakan data ciri vekt_mfcc (20.16.40 dan 20.30.40), lihat Tabel 10. Nilai akurasi rata – rata dari pengujian PNN90 menggunakan data ciri vekt_mfcc memberikan nilai sebesar 93,5%, pengujian menggunakan data ciri Pca80 memberikan nilai sebesar 89,83%, pengujian menggunakan data ciri Pca90 memberikan nilai sebesar 92,33%, sedangkan pengujian yang dilakukan menggunakan data ciri Pca95 memberikan nilai sebesar 93,17%. Dari hasil pengujian
PNN90,
diketahui
bahwa
penggunaan
data
ciri
vekt_mfcc
41
menghasilkan nilai akurasi lebih baik 3,9% dibandingkan penggunaan data ciri Pca80, 1,25% lebih baik dibandingkan penggunaan data ciri Pca90, dan 0,35% lebih baik dibandingkan penggunaan data ciri Pca95. Penggunaan data ciri Pca90 dan Pca95 pada pengujian PNN90 tidak menurunkan nilai akurasi secara nyata, dibandingkan nilai akurasi yang dihasilkan menggunakan data ciri vekt_mfcc. Keseluruhan hasil pengujian model PNN90 disajikan pada Tabel 10, dan visualisasi grafis hasil pengujian PNN90 disajikan pada Gambar 25. Visualisasi grafis, rinci hasil pengujian PNN70 dan PNN90 dapat dilihat pada Lampiran 2. Tabel 10 Hasil pengujian model PNN90 No.
Akurasi pengujian PNN90 (%) untuk jenis data
Kelompok Data
Pca80
Pca90
Pca95
MFCC
1.
16.16.40
86
90
91
92
2.
16.30.40
89
91
92
92
3.
16.40.40
89
91
92
92
4.
16.16.50
88
92
92
94
5.
16.30.50
90
91
94
94
6.
16.40.50
91
91
94
94
7.
20.16.40
91
93
93
92
8.
20.30.40
90
94
93
93
9.
20.40.40
91
94
93
94
10.
20.16.50
90
94
93
94
11.
20.30.50
91
93
95
95
12.
20.40.50
92
94
96
96
Dari pengujian kedua model PNN (PNN70 dan PNN90), diketahui bahwa menambahkan jumlah data acuan kedalam algoritma JST probabilistik (PNN) dapat meningkatkan kinerja sistem. Nilai akurasi rata - rata yang diberikan model PNN90 lebih tinggi dibandingkan nilai akurasi rata – rata yang diberikan model PNN70, perbedaan nilai untuk pengujian yang dilakukan menggunakan data ciri Pca80 adalah sebesar 3,44%, perbedaan nilai untuk pengujian yang dilakukan menggunakan data ciri Pca90 adalah sebesar 1,17%, sedangkan perbedaan nilai pengujian PNN90 dengan PNN70 yang dilakukan menggunakan data ciri Pca95 adalah sebesar 1,55%, dan untuk pengujian menggunakan data vekt_mfcc terjadi perbedaan nilai sebesar 1,69%.
42
Gambar 25 Visualisasi grafis hasil pengujian model PNN90 4.5
Waktu Komputasi Dampak dari penerapan kombinasi metode PCA dengan MFCC (Pca80,
Pca90, dan Pca95) dapat mempercepat waktu komputasi. Rata – rata waktu yang dihabiskan untuk menguji model PNN (PNN70 dan PNN90) menggunakan data ciri vekt_mfcc adalah 1,08 detik, sedangkan pada penggunaan data ciri Pca80, Pca90, dan Pca95, rata – rata waktu yang dihabiskan untuk menguji PNN adalah 0,09 hingga 0,10 detik. Bila dibandingkan dengan penggunaan data ciri vekt_mfcc, maka penggunaan data ciri Pca80, Pca90, atau Pca95 dapat mempercepat kerja algoritma PNN dalam mengidentifikasi pola suara pembicara. keseluruhan waktu komputasi yang digunakan model PNN70 untuk mengidetifikasi pola suara pembicara disajikan pada Tabel 11, sedangkan untuk model PNN90 disajikan pada Tabel 12. Visualisasi grafis penggunaan waktu komputasi model PNN70 disajikan pada Gambar 26, sedangkan visualisasi waktu komputasi model PNN90 disajikan pada Gambar 27.
43
Tabel 11 Waktu komputasi model PNN70 No
Kelompk Data
Waktu yang digunakan PNN70 (detik) untuk menguji jenis data Mfcc
Pca_80
Pca_90
Pca_95
1
16.16.40
1.34
0.25
0.09
0.09
2
16.30.40
0.58
0.09
0.09
0.09
3
16.40.40
0.44
0.08
0.09
0.09
4
16.16.50
1.65
0.09
0.09
0.09
5
16.30.50
0.71
0.09
0.09
0.09
6
16.40.50
0.52
0.09
0.08
0.09
7
20.16.40
1.72
0.08
0.09
0.10
8
20.30.40
0.74
0.09
0.09
0.09
9
20.40.40
0.54
0.09
0.09
0.09
10
20.16.50
2.55
0.08
0.09
0.10
11
20.30.50
1.00
0.09
0.09
0.10
12
20.40.50
0.67
0.09
0.09
0.09
Gambar 26 Visualisasi waktu komputasi model PNN70
44
Tabel 12 Waktu komputasi model PNN90 (detik) No
Kelompok Data
Waktu yang digunakan PNN90 (detik) untuk menguji jenis data Mfcc
Pca_80
Pca_90
Pca_95
1
16.16.40
1.39
0.15
0.09
0.10
2
16.30.40
0.74
0.09
0.09
0.09
3
16.40.40
0.55
0.09
0.09
0.09
4
16.16.50
1.69
0.09
0.10
0.10
5
16.30.50
0.90
0.09
0.09
0.10
6
16.40.50
0.67
0.09
0.09
0.10
7
20.16.40
1.80
0.09
0.09
0.10
8
20.30.40
0.94
0.09
0.09
0.10
9
20.40.40
0.69
0.09
0.09
0.09
10
20.16.50
2.25
0.09
0.09
0.10
11
20.30.50
1.12
0.09
0.10
0.10
12
20.40.50
0.85
0.08
0.09
0.10
Gambar 27 Visualisasi waktu komputasi model PNN90 Dari pengukuran waktu komputasi, diketahui bahwa penerapan kombinasi metode PCA dengan MFCC dapat membantu menghemat pemakaian waktu komputasi hingga 90%, dengan demikian dapat dikatakan bahwa penerapan
45
metode PCA bersama dengan metode MFCC dapat mempercepat kinerja sistem dalam mengidentifikasi pola suara. 4.6
Hasil Pengujian dengan Data Noise Untuk mengetahui pengaruh noise terhadap kinerja sistem, maka sistem
diuji menggunakan data yang telah dipengaruhi white gaussian noise sebesar 20, 30, dan 40 desibel, dan disebut data noise. Pengujian sistem dilakukan hanya untuk sistem dengan model PNN90. Dalam pengujian, data asli (data tanpa dipengaruhi white gaussian noise) digunakan sebagai data pelatihan, dan data noise sebagai data pengujian. Pengujian PNN90 menggunakan data noise 20 desibel menghasilkan nilai akurasi rata – rata lebih rendah 57,55% dibandingkan pengujian menggunakan data asli, keseluruhan nilai akurasi untuk penujian menggunakan data noise 20 desibel disajikan pada Tabel 13. Tabel 13 Hasil pengujian model PNN90 untuk data noise 20 desibel No.
Akurasi pengujian PNN90 (%) untuk jenis data
Kelompok Data
Pca80
Pca90
Pca95
Mfcc
1.
16.16.40
34
41
45
44
2.
16.30.40
33
41
42
47
3.
16.40.40
31
41
43
48
4.
16.16.50
29
32
33
36
5.
16.30.50
25
30
32
35
6.
16.40.50
25
30
30
33
7.
20.16.40
40
45
50
49
8.
20.30.40
41
48
53
53
9.
20.40.40
40
49
52
52
10.
20.16.50
33
37
39
40
11.
20.30.50
34
35
38
42
12.
20.40.50
35
36
39
41
Pengujian PNN90 menggunakan data noise 30 desibel menghasilkan nilai akurasi rata – rata lebih rendah 27,55% dibandingkan pengujian menggunakan data asli, keseluruhan nilai akurasi pengujian untuk data noise 30 desibel disajikan pada Tabel 14.
46
Tabel 14 Hasil pengujian model PNN90 untuk data noise 30 desibel Akurasi pengujian PNN90 (%) untuk jenis data
No.
Kelompok Data
Pca80
Pca90
Pca95
Mfcc
1.
16.16.40
55
66
68
70
2.
16.30.40
57
66
68
70
3.
16.40.40
53
67
67
72
4.
16.16.50
51
64
69
72
5.
16.30.50
49
61
70
73
6.
16.40.50
52
60
69
71
7.
20.16.40
61
71
74
74
8.
20.30.40
59
74
74
76
9.
20.40.40
58
74
74
76
10.
20.16.50
54
69
72
73
11.
20.30.50
57
74
74
73
12.
20.40.50
56
74
75
75
Pengujian PNN90 menggunakan data noise 40 desibel menghasilkan nilai akurasi rata – rata lebih rendah 9,99% dibandingkan pengujian menggunakan data asli, keseluruhan nilai akurasi pengujian untuk data noise 40 desibel disajikan pada Tabel 15. Tabel 15 Hasil pengujian model PNN90 untuk data noise 40 desibel No.
Akurasi pengujian PNN90 (%) untuk jenis data
Kelompok Data
Pca80
Pca90
Pca95
Mfcc
1.
16.16.40
74
85
85
88
2.
16.30.40
76
87
87
87
3.
16.40.40
73
86
87
87
4.
16.16.50
66
82
84
85
5.
16.30.50
65
81
86
85
6.
16.40.50
69
81
86
85
7.
20.16.40
79
87
88
88
8.
20.30.40
79
89
89
89
9.
20.40.40
78
89
89
88
10.
20.16.50
70
85
86
87
11.
20.30.50
74
86
87
87
12.
20.40.50
75
87
88
86
Hasil pengujian memperlihat bahwa data yang terkontaminasi noise secara nyata mempengaruhi kinerja sistem identifikasi. Hasil pengujian model PNN90
47
menggunakan data Pca80, Pca90, dan Pca95 yang telah ditambahkan noise, tidak berhasil menyamai nilai akurasi yang dicapai data asli. Pada pengujian yang menggunakan data ciri vekt_mfcc dengan noise 40 db menghasilkan nilai akurasi 7,1% lebih rendah bila dibandingkan dengan pengujian menggunakan data asli. Visualisasi perbandingan nilai akurasi hasil pengujian menggunakan data ciri vekt_mfcc (asli) dengan data ciri vekt_mfcc yang telah dipengaruhi noise disajikan pada Gambar 28, untuk data Pca80, Pca90, dan Pca95 dapat dilihat Lampiran 3.
Gambar 28 Visualisasi hasil pengujian PNN90 untuk data noise 4.7
Pengaruh Parameter Pembentuk Data Ciri Untuk mel 16, overlap 40%, dan lebar waktu frame 16 ms pengujian sistem
memberikan nilai akurasi 86% untuk data Pca80, 90% untuk data Pca90, 91% untuk data Pca95, dan 92% untuk data ciri vekt_mfcc. Dari ketiga nilai akurasi yang dihasilkan data Pca80, Pca90,dan Pca95, diketahui bahwa rasio nilai eigen 0,95 dapat memberikan nilai akurasi yang lebih baik dan menyamai nilai akurasi yang diberikan data ciri vekt_mfcc. Meningkatkan nilai parameter lebar waktu frame dari 16 ms menjadi 30 ms, atau 40 ms, untuk dipasangkan dengan mel 16
48
dan overlap 40%, memberi peningkatan nilai akurasi sistem sebesar 3% untuk data Pca80, 1% untuk data Pca90 dan Pca95, sedangkan untuk data vekt_mfcc tidak mengalami perubahan nilai akurasi, lihat Gambar 29.
Gambar 29 Perbandingan nilai akurasi kelompok data 1, 2, dan 3 Untuk mel 16, overlap 50%, dan lebar waktu frame 16 ms pengujian sistem memberikan nilai akurasi 88% untuk data Pca80, 92% untuk data Pca90, 92% untuk data Pca95, dan 94% untuk data ciri vekt_mfcc. Meningkatkan nilai parameter lebar waktu frame dari 16 ms menjadi 40 ms, untuk dipasangkan dengan mel 16 dan overlap 50%, memberi peningkatan nilai akurasi sistem sebesar 3% untuk data Pca80, 2% untuk data Pca95. untuk data Pca90 terjadi penurunan sebesar 1%, sedangkan untuk data vekt_mfcc tidak terjadi perubahan nilai akurasi. Dari ketiga nilai akurasi yang dihasilkan Pca80, Pca90, dan Pca95 diketahui bahwa rasio nilai eigen 0,95, memberikan nilai akurasi yang lebih baik dibandingkan nilai akurasi yang diberikan data dengan rasio nilai eigen 0,80, dan 0,90. Nilai akurasi data Pca95 mampu menyamai nilai akurasi yang diberikan data vekt_mfcc, lihat Gambar 30.
49
Untuk mel 16, peningkatan nilai parameter overlap dari 40% menjadi 50%, mampu meningkatkan nilai akurasi sistem hingga 2,13%, yaitu dari 92% menjadi 94%, untuk data Pca95 pada lebar frame 40 ms.
Gambar 30 Perbandingan nilai akurasi kelompok data 4, 5, dan 6 Untuk mel 20, overlap 50%, dan lebar waktu frame 16 ms pengujian sistem memberikan nilai akurasi 90% untuk data Pca80, 94% untuk data Pca90, 93% untuk data Pca95, dan 94% untuk data ciri vekt_mfcc. Meningkatkan nilai parameter lebar waktu frame dari 16 ms menjadi 30 ms, untuk dipasangkan dengan mel 20 dan overlap 50%, memberi peningkatan nilai akurasi sistem sebesar 1% untuk data Pca80 dan vekt_mfcc, 2% untuk data Pca95, untuk data Pca90 terjadi penurunan sebesar 1%. Sedangkan meningkatkan nilai lebar frame dari 16 ms menjadi 40 ms, memberi peningkatan nilai akurasi sebesar 2% untuk data Pca80 dan data vekt_mfcc, 3% untuk data Pca95, dan tidak terjadi perubahan nilai akurasi untuk data Pca90, lihat Gambar 31. Dengan waktu komputasi yang lebih baik, data Pca95 mampu menyamai nilai akurasi yang diberikan data vekt_mfcc pada lebar frame 30 ms dan 40 ms Dari ketiga nilai akurasi yang dihasilkan Pca80, Pca90, dan Pca95, sekali lagi rasio nilai eigen 0,95, mampu memberikan nilai akurasi yang lebih baik dibandingkan nilai akurasi yang diberikan data dengan rasio nilai eigen 0,80, dan
50
0,90. Untuk overlap 50%, peningkatan nilai koefisien mel dari 16 menjadi 20 mampu meningkatkan nilai akurasi sistem hingga 2,13%, yaitu dari 94% menjadi 96%, untuk data Pca95 pada lebar frame 40 ms.
Gambar 31 Perbandingan nilai akurasi kelompok data 10, 11, dan 12. Keberhasilan data penelitian dalam mendukung kerja sitem tidak lepas dari peran pasangan nilai parameter. Dari 3 nilai parameter lebar waktu frame, 2 nilai parameter overlap, dan 2 nilai parameter koefisien mel, terbentuk 12 kelompok data penelitian. Dari ke 12 kelompok data penelitian, data vekt_mfcc dan Pca95 yang dibentuk menggunakan nilai koefisien mel 20, lebar frame 40 ms dan overlap 50% (kelompok data 12) memberikan nilai akurasi sebesar 96%, dan merupakan nilai akurasi tertinggi, ditinjau dari penggunaan waktu komputasi, penggunaan data ciri Pca95 lebih baik dibandingkan penggunaan data vekt_mfcc, lihat Gambar 27.
BAB V SIMPULAN DAN SARAN 5.1
Simpulan Dari hasil penelitian yang diperoleh, dapat disimpulkan bahwa: Pada proses ekstraksi ciri, penerapan kombinasi metode PCA dengan
metode MFCC dapat mereduksi dimensi vektor suara hingga 99%, sedangkan penerapan metode MFCC tanpa metode PCA hanya dapat mereduksi vektor suara hingga 92%. Data Pca95 (20.40.50), yaitu data ciri yang dihasilkan proses ekstraksi ciri dengan parameter koefisien mel 20, lebar waktu frame 40 ms, lebar overlap 50%, dan rasio nilai eigen 95%, dapat memberikan nilai akurasi sebesar 96% dengan waktu komputasi 90% lebih baik dibandingkan data ciri vekt_mfcc (20.40.50). Pengaruh white gaussian noise sebesar 40 desibel pada sinyal suara dapat menyebabkan penurunan nilai akurasi rata – rata hingga 7%, sedangkan pengaruh noise sebesar 30 desibel menyebabkan penurunan nilai akurasi rata – rata hingga 22%. 5.2
Saran Penelitian ini masih jauh dari sempurna, sehingga perlu dilakukan kajian
lebih lanjut dalam hal: 1
Pengembangan teknik yang lebih baik untuk mendapatkan sistem identifikasi pembicara yang lebih handal terhadap data penelitian yang terkontaminasi noise.
2
Penggunaan data penelitian yang lebih besar dan bervariasi, sehingga dapat dibuktikan apakah kinerja sistem yang dikembangkan benar memberi nilai postif (kepuasan) bagi pemakai.
DAFTAR PUSTAKA Bolat B, Yildirim T. 2003. Performance increasing methods for probabilistic Neural Networks. Pakistan Journal of Information and Technology 2(3):250-255. Campbell, J.P., 1997, Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9. Furui S. 1997. Recent advances in speaker recognition. Pattern Recognition Letters 18: 859 – 872. Ganchev T, Tsopanoglou A, Fakotakis N, Kokkinakis G. 2002a. Probabilistic Neural Networks Combined with GMMs for Speaker Recognition over Telephone Channels. 14th Int. Conf. On Digital Signal Processing, 2:10811084. Ganchev T, Fakotakis N, Kokkinakis G. 2002b. Speaker Verification System Based On Probabilistic Neural Neworks. NIST Speaker Recognition Evaluation Workshop, Virginia, USA. Ganchev T. 2005 Speaker Recognition. Department of Computer and Electrical Engineering, University of Patras, Greece. [disertasi] http://www.wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.PDF [7 Mei 2007] Johnson R. A, Wichern R.E. 1998. Applied Multivariate Statistical Analysis. New Jersey, USA: Printice Hall, Inc. Kantardzic, M. 2003. Data Mining: Concepts, Models, Methods, and Algorithms. New Jersey, USA: John Wiley & Sons, Inc. Karpov E. 2003. Real-Time Speaker Identification [tesis]. Joensuu: department of Computer Science, Unversity of Joensuu. Kusumadewi S. 2003. Artificial Intelligence (Teknik dan Aplikasinya). Yogyakarta: Graha Ilmu. Li Min Fu. 1994. Neural Networks in Computer Intelligence. New York: The McGraw-Hill, Inc. Low R, Togneri R. 1998. Speech Recognition Using the Probabilistic Neural Network. http://www.ee.uwa.edu/~roberto/research/speech/local/papers/tr98-01.pdf [19 September 2005] Porat B. 1997. A Course in Digital Signal Processing. New York: John Wiley & Sons, Inc. Pressman, R.S. 1997. Software Engineering : A Practitioner’s Approach. New York: The McGraw-Hill, Inc. Rabah Y. 2004, VoiceXML – Speech Recognition. www.earlham.edu/~rabahyo/survey.doc. [19 September 2005]
53
Rabiner L, Juang BH. 1993. Fundamental of Speech Recognition. New Jersey: PTR Prentice-Hall, Inc. Reynolds D.A. 2002. An Overview of Automatic Speaker Recognition Technology. ICASSP: 4072 – 4075. Russel SJ. Norvig P. 2003. Artificial Intelligence A Modern Approach. New Jersey: Prentice-Hall, Inc. Shiavi R. 1991. Introduction to Applied Statistical Signal Analysis. USA: R.D. Irwin, Inc. Specht D F. 1990. Probabilistic Neural Networks and Polynomial Adaline as Complementary Techniques for Classification. IEEE Transaction on Neural Networks 1(1):111-121. __________1992. Enhancements to Probabilistic Neural Networks. IEEE Transaction on Neural Networks 3(1):761-768 Specht D F, Shapiro P D. 1991. Generalization Accuracy of Probabilistic Neural Networks Compared with Back-Propagation Networks. IEEE Transaction on Neural Networks 1:887-892 The Mathworks, Inc., 2004, Signal Processing Blockset, User’s Guide, Versi 6, www.mathworks.com, [19 September 2005] Zaknich A. 1995. A Modified Probabilistic Neural Networks for Signal Processing and Pattern Recognition [disertasi]. Western Australia: Department of Electrical and Electronic Engineering, The University of Western Australia.
54
Lampiran 1 Bentuk sinyal suara
Anta (asli)
Anta (noise 20 desibel)
Anta (noise 30 desibel)
55
Lanjutan
Aziz (asli)
Aziz (noise 20 desibel)
Aziz (noise 30 desibel)
56
Lanjutan
Citra (asli)
Citra (noise 20 desibel)
Citra (noise 30 desibel)
57
Lanjutan
Didit (asli)
Didit (noise 20 desibel)
Didit (noise 30 desibel)
58
Lanjutan
Fitri (asli)
Fitri (noise 20 desibel)
Fitri (noise 30 desibel)
59
Lanjutan
Intan (asli)
Intan (noise 20 desibel)
Intan (noise 30 desibel)
60
Lanjutan
Mijo (asli)
Mijo (noise 20 desibel)
Mijo (noise 30 desibel)
61
Lanjutan
Sumrah (asli)
Sumrah (noise 20 desibel)
Sumrah (noise 30 desibel)
62
Lanjutan
Titin (asli)
Titin (noise 20 desibel)
Titin (noise 30 desibel)
63
Lanjutan
Wiwie (asli)
Wiwie (noise 20 desibel)
Wiwie (noise 30 desibel)
64
Lampiran 2 Visualisasi grafis hasil pengujian data asli
65
Lanjutan
66
Lanjutan
67
Lanjutan
68
Lampiran 3 Visualisasi grafis hasil pengujian data noise
69
Lanjutan
70
Lanjutan
71
Lanjutan
72
Lanjutan
73
Lanjutan
74
Lampiran 4 Perbandingan hasil pengujian data asli dan data noise
75
Lanjutan