PENDAHULUAN Latar Belakang Pengenalan fonem adalah implementasi dari speech to teks yang merupakan bagian dari speech recognition atau pengenalan ucapan. Pengenalan ucapan lebih dikonsentrasikan pada ekstraksi dari beberapa bagian informasi pesan yang di dalamnya berisikan teks yang diucapkan. Teks yang diucapkan ini mengandung unit-unit linguistik terkecil yang disebut sebagai fonem yang akan dikenali melalui sinyal suara. Sinyal suara manusia mempunyai tingkat variabilitas yang sangat tinggi. Suatu sinyal suara yang mengucapkan teks yang berbedabeda akan menghasilkan pola ucapan yang berbeda-beda pula. Salah satu cara yang paling handal dalam pengenalan pola adalah Jaringan Syaraf Tiruan (JST). JST mampu menyelesaikan persoalan rumit yang sulit atau bahkan tidak mungkin jika diselesaikan dengan menggunakan komputasi konvensional. Salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus adalah JST dengan arsitektur Multi-Layer Perceptron (MLP) dan pembelajaran Backpropagation (Fu,1994). Penelitian mengenai sinyal suara telah banyak dilakukan dengan berbagai metode pemrosesan sinyal, seperti Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan Neural Predictive Coding (NPC) yang mana keseluruhan metode di atas berbasiskan transformasi Fourier. Untuk itu, akan dilakukan perbandingan konsep atau pendekatan lain tanpa berbasiskan transformasi Fourier yaitu transformasi Wavelet. Transformasi Wavelet merupakan sarana yang mulai populer untuk pemrosesan sinyal, seperti citra dan suara. Penelitian sebelumnya yang menggunakan transformasi Wavelet pada analisis suara telah dilakukan oleh dan Ruhi Sarikaya (1998) dan Ketut Agustini (2006). Kedua penelitian tersebut menggunakan transformasi Wavelet sebagai ekstraksi ciri pada identifikasi pembicara. Maka dari itu, penelitian ini akan melakukan implementasi transformasi wavelet pada bidang analisis suara lainnya yaitu pengenalan fonem. Tujuan Penelitian Tujuan penelitian ini adalah untuk membandingkan dua metode ekstraksi ciri yang berbasis transformasi Fourier dan transformasi Wavelet pada pengenalan fonem serta penggunaan JST sebagai classifier.
Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah : 1. Akuisisi data dilakukan dengan mikrofon. 2. Menggunakan sebelas kata yang telah mencakup fonem a-z, yaitu: coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Serta tidak memperhatikan pemakaian kata homograf dan homofon. 3. Semua kata diucapkan oleh satu orang. 4. Menggunakan transformasi Wavelet Daubechies orde empat pada level satu. 5. Menggunakan JST dengan arsitektur multilayer perceptron dan pembelajaran backpropagation sebagai classifier. Manfaat Penelitian Penelitian ini diharapkan dapat memberikan informasi tingkat akurasi hasil perbandingan transformasi Wavelet dan MFCC sebagai ekstraksi ciri pada proses pengenalan fonem menggunakan teknik JST sebagai classifier. TINJAUAN PUSTAKA Suara dan sinyal Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain sampai ke gendang telinga manusia. Batas frekuensi bunyi yang dapat didengar oleh telinga manusia sekitar 20 Hz sampai 20 KHz atau sering disebut audiosonik. Secara matematika suatu sinyal dirumuskan sebagai fungsi dari satu atau lebih peubah bebas. Berdasarkan pada peubah bebas waktu (t) sinyal dibedakan menjadi dua jenis, yaitu: a. Sinyal Analog Sinyal analog adalah suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki semua nilai untuk setiap nilai waktu (dan atau setiap nilai ruang). Sinyal analog sering disebut sinyal kontinu untuk menggambarkan bahwa besaran itu memiliki nilai yang kontinu (tak terputus). Contoh grafik sinyal analog dapat dilihat pada Gambar 1.
Gambar 1 Sinyal analog.
1
b. Sinyal Diskret Sinyal Diskret merupakan suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki nilai pada suatu titik-titik waktu tertentu. Jarak setiap titik waktu bisa saja berbeda-beda namun untuk kemudahan penurunan sifat matematikanya biasanya jarak antar titik waktu adalah sama. Contoh grafik sinyal diskret dapat dilihat pada Gambar 2.
Gambar 2 Sinyal diskret. Digitalisasi gelombang suara Gelombang suara yang ditangkap berupa sinyal analog. Sinyal analog harus diubah menjadi sinyal digital yang disebut proses digitalisasi. Proses digitalisasi suara terdiri atas dua tahap, yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah pengambilan nilai-nilai dalam jangka waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara ialah 8000 Hz sampai dengan 16.000 Hz (Jurafsky & Martin 2000). Hubungan panjang vektor yang dihasilkan, sampling rate dan panjang data suara yang digitalisasikan dinyatakan dengan persamaan: S = Fs x T
memberikan informasi mengenai sinyal secara bersamaan dalam domain waktu dan frekuensi. MFCC Salah satu teknik ekstraksi ciri sinyal suara adalah teknik MFCC yang menghitung koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC dapat merepresentasikan sinyal lebih baik dibandingkan LPC, LPCC dan yang lainnya dalam pengenalan suara (Buono 2009). Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Gambar 6 merupakan diagram alur MFCC. Tahap-tahap dalam teknik MFCC lebih jelasnya yaitu sebagai berikut :
(1)
Keterangan: S = panjang vektor Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik) Setelah tahap sampling maka proses selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000). Ekstraksi Ciri Ekstraksi ciri merupakan proses menentukan suatu nilai atau vektor yang dapat dipergunakan sebegai penciri objek atau individu. Banyak metode yang ada untuk ekstraksi ciri di antaranya Linier Predictive Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan filter bank. Transform Wavelet Diskcet (TWD) adalah bagian dari filter bank selain Discret Fourier Transform (DFT), merupakan metode baru yang mempunyai karakteristik khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi ini dapat digunakan untuk
Gambar 3 Diagram alur MFCC. (Buono 2009) a. Frame blocking Untuk keperluan pemrosesan, sinyal analog yang sudah melalui proses sampling dan kuantisasi (digitasi suara) dibaca dari frame demi frame dengan lebar tertentu yang saling tumpang tindih (overlap). Proses ini dikenal dengan frame blocking. b. Windowing Setiap frame mengandung satu unit informasi, sehingga barisan frame akan menyimpan suatu informasi yang lengkap
2
dari sebuah sinyal suara. Untuk itu, distorsi antar frame harus diminimalisasi. Salah satu teknik untuk meminimalkan distorsi antar frame adalah dengan melakukan proses filtering pada setiap frame. Pada penelitian kali ini jenis filter yang digunakan yaitu Windowing karena pemrosesan sinyal yang akan dilakukan dalam domain frekuensi. Proses windowing dilakukan pada setiap frame. Dalam hal ini sinyal digital dikalikan dengan fungsi window tertentu yang berukuran sama dengan ukuran frame. Jika sinyal digital frame ke-i adalah xi dan fungsi window yang digunakan adalah wi, maka output windowing frame ke-i adalah perkalian skalar antara vektor xi dengan wi. Fungsi window yang digunakan pada penelitian ini adalah Hamming karena memiliki ekspersi matematika yang cukup sederhana.
Transformasi Wavelet Daubechies Transformasi adalah proses merepresentasikan suatu sinyal ke dalam domain atau kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan sifat atau karakteristik sinyal tersebut. Definisi Wavelet (secara harfiah berarti “gelombang kecil”) adalah himpunan fungsi dalam ruang vektor L2I, yang mempunyai sifatsifat sebagai berikut (Burrus et al,1998): -
berenergi terbatas merupakan fungsi band-pass pada domain frekuensi merupakan hasil penggeseran (translasi) dan penskala (dilatasi) dari sebuah fungsi tunggal (induk) yang ditujukan oleh persamaan berikut. (2)
c. Transformasi Fourier Analisis Fourier merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda maka harus dilihat dari domain frekuensi karena jika dilihat dari domain waktu sulit terlihat perbedaannya. Untuk itu dari sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). FFT merupakan suatu algoritme untuk mengimplementasikan Discrete Fourier Transform (DFT) (Do 1994). d. Mel frequency wrapping Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala melfrequency adalah selang frekuensi di bawah 1000Hz bersifat linear dan untuk selang frekuensi di atas 1000Hz bersifat logaritmik (Do 1994). e. Transformasi Kosinus Langkah terakhir yaitu mengkonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Cara untuk mengkonversikan log mel spectrum ke bentuk domain waktu yaitu dengan menggunakan Discrete Cosine Transform (DCT).
Dengan a,b ∈ R (bilangan nyata), dan a ≠ 0. dalam hal ini a adalah parameter penskala dan b adalah parameter penggeser posisi terhadap sumbu t. Pada dasarnya, transformasi Wavelet merupakan sebuah teknik pemrosesan sinyal multiresolusi. Dengan sifat penskalaannya, wavelet dapat memilah-milah suatu sinyal data berdasarkan komponen frekuensi yang berbedabeda. Dengan demikian tiap-tiap bagian dapat dipelajari berdasarkan skala resolusi yang sesuai, sehingga diperoleh gambaran data secara keseluruhan dan detail. Teori Wavelet didasari oleh pembangkitan sejumlah tapis (filter) dengan cara menggeser dan menskala suatu wavelet induk (mother wavelet) berupa tapis pelewat tengah (bandpass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis. Tapis lain mengikuti aturan penskalaan, baik pada kawasan waktu maupun kawasan frekuensi. Penambahan skala Wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi (Burrus et al, 1998) Secara garis besar, transformasi Wavelet dibedakan menjadi dua, yaitu Transformasi Wavelet Kontinu (Continuous Wavelet Transform atau Integrated Wavelet Transform) dan Wavelet Diskret (Discret Wavelet Transform). Transformasi Wavelet kontinu mempunyai dua kelemahan, yaitu redudancy
3
dan ketidakpraktisan (Mallat 1999). Transformasi Wavelet diskret bertujuan mengurangi redudansi yang terjadi dengan teknik yang efisien yaitu dengan teknik analisis resolusi jamak (multi resolution analysis) yang dikembangkan Mallat tahun 1998.
menyederhanakannya, matriks matriks DAUB (Agustini 2006).
Persamaan 3 merupakan hasil turunan dari persamaan transformasi Wavelet kontinu sehingga parameter skala kontinu adalah
Pada persamaan (8) dan (9) dimana H berkaitan dengan suatu filter low pass dan G berkaitan dengan filter high pass. H dan G disebut filter konjugasi kuadratur.
kebalikan (inversely) dari parameter skala binary dan hal inilah yang membuat muncul dalam persamaan di atas sebagai penyebut (denominator). Transformasi Wavelet Diskret yang digunakan adalah persamaan berikut (Gonzales 2000). (3) Sinyal masukan dilewatkan melalui 2 filter komplementer (low-pass H dan high-pass G), dan downsampling dengan membuang setiap data kedua, sehingga diperoleh koefisien pendekatan cA (komponen frekuensi rendah) dan koefisien detil cD (komponen frekuensi tinggi). Proses ini dapat diiterasi dengan cara melanjutkan dekomposisi terhadap koefisien cA. Dengan demikian suatu sinyal dapat dipecah (didekomposisi) menjadi komponenkomponen dengan resolusi yang lebih rendah.
ini
disebut
(8) (9)
(10) (11) Dari persamaan (10) dan (11), dapat dibentuk suatu matriks transformasi yang mempunyai elemen-elemen h(n) dan g(n). Yang dapat dihitung dengan persamaan g(n) = (-1)n h((2N-1)-n). Jika N = 2 maka akan diperoleh: g(0) = h(3); g(1) = -h(2); g(2) = h(1);
g(3) = -h(0);
Dengan mengganti variabel-variabel yang bersesuaian, akan diperoleh matriks DAUB4 dengan empat koefisien (Agustini 2006).
Wavelet Daubechies secara historis berasal dari sistem Haar. Wavelet Daubechies ini merupakan karya gemilang dari Ingrid Daubechies (Agustini 2006). (4)
Gambar 4 Matriks transformasi
(5)
Jaringan Syaraf Tiruan
(6)
Jaringan syaraf tiruan adalah sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi (Siang 2005). JST dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi bahwa :
(7) Persamaan (4, 5, 6, dan 7) merupakan empat persamaan dengan empat bilangan yang tidak diketahui yaitu h0, h1, h2, dan h3. Persamaan tersebut pertama kalinya diperkenalkan dan diselesaikan oleh Ingrid Daubechies, ditunjukkannya bahwa persamaan-persamaan ini mempunyai penyelesaian tunggal. ;
;
;
;
Matriks Transformasi ditemukan oleh Ingrid Daubechies yang memungkinkan melalui suatu sinyal dari resolusi 2j ke resolusi 2j+1. Untuk
• Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron) • Sinyal dikirimkan di antara neuron melalui penghubung-penghubung • Penghubung antar neuron memiliki bobot yang akan memperkuat atau memperlemah sinyal • Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi (biasanya bukan fungsi linear) yang dikenakan pada jumlah input yang diterima untuk menentukan keluarannya.
4
Jaringan syaraf tiruan juga dikenal sebagai black box technology atau tidak transparan karena tidak dapat menerangkan bagaimana suatu hasil didapatkan. Hal inilah yang membuat jaringan syaraf tiruan mampu digunakan untuk menyelesaikan persoalan yang tidak terstruktur dan sulit didefinisikan (Hermawan 2006). JST ditentukan oleh tiga hal:
keluaran JST. Saat keluaran JST tidak sama dengan keluaran yang diharapkan maka keluaran akan disebarkan mundur (backward) pada lapis tersembunyi diteruskan ke unit pada lapis masukan.
1. Pola hubungan neuron (arsitektur jaringan) 2. Metode untuk menentukan bobot penghubung (metode training atau learning) 3. Fungsi Aktivasi Fungsi aktivasi akan menghitung input yang diterima oleh suatu neuron, kemudian neuron tersebut meneruskan hasil dari fungsi aktivasi ke neuron berikutnya, sehingga fungsi aktivasi berfungsi sebagai penentu kuat lemahnya sinyal yang dikeluarkan oleh suatu neuron. Salah satu fungsi aktivasi yang digunakan dalam JST propagasi balik adalah fungsi sigmoid biner, yaitu fungsi biner yang memiliki rentang nol sampai dengan satu dengan persamaan sebagai berikut :
Gambar 6 Arsitektur Multilayer Perceptron. Dalam pelatihan JST backpropagation ini terdapat algoritme pelatihan yang terdiri dari dua tahapan, yaitu feedforward dan backpropagtion.
(12)
1. Feedforward Pada lapisan input setiap elemen vektor input akan diterima oleh sebuah neuron sehingga jumlah neuron pada lapisan ini akan sama dengan banyaknya elemen vektor input. Lapisan input memiliki fungsi pengaktifan berupa fungsi identitas sehinggga hanya berfungsi meneruskan input yang diterima ke lapisan berikutnya.
Gambar 5 Sigmoid biner pada selang [0,1].
Lapisan tersembunyi akan menerima output yang dikeluarkan oleh lapisan input. Setiap neuron pada lapisan tersembunyi menerima input dari seluruh neuron pada lapisan input dikalikan dengan bobotnya. Input yang masuk dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron pada lapisan tersembunyi. Banyaknya neuron pada lapisan tersembunyi dapat bervariasi dan dapat dianggap cukup jika JST dapat mengenali pola-pola yang ada dengan cukup baik.
Backpropagation merupakan salah satu model JST untuk pencocokan pola yang menggunakan arsitektur multi layer perceptron dan pembelajaran terbimbing. Walaupun JST Backpropagation membutuhkan waktu yang lama untuk pembelajaran tetapi bila pembelajaran telah selesai dilakukan, JST akan dapat mengenali suatu pola dengan cepat. Jaringan Multi Layer adalah karakteristik dari JST Backpropagation yang mempunyai lapisan input, lapisan tersembunyi dan lapisan output dan setiap neuron pada satu lapisan menerima input dari semua neuron pada lapisan sebelumnya. Gambar 6 menunjukkan arsitektur multilayer perceptron. Secara garis besar proses backpropagation adalah sebagai berikut: ketika JST diberikan pola masukan sebagai pola pelatihan maka pola tersebut menuju ke unit-unit pada lapis tersembunyi untuk diteruskan ke unit-unit lapis keluaran. Kemudian unit-unit lapis keluaran memberikan tanggapan yang disebut sebagai
Lapisan output akan menerima output yang dikeluarkan oleh lapisan tersembunyi. Setiap neuron pada lapisan output menerima input dari seluruh neuron pada lapisan tersembunyi dikalikan dengan bobotnya. Input yang masuk juga dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron. Untuk kemudahan dan hasil yang lebih baik jumlah neuron pada lapisan output dapat ditentukan sama dengan jumlah pola yang ada. Fase dari pertama kali
5
masuk dalam lapisan input sampai lapisan output memberikan hasil merupakan fase feedforward (Fu 1994). 2. Backpropagation Jika telah diperoleh hasil pada lapisan output maka hasil ini akan dibandingkan dengan target pasangan untuk data yang masuk. Dari perbedaan nilai antara target yang diinginkan dengan hasil saat ini dapat dihitung suatu nilai kesalahan. Untuk seluruh data yang ada dapat dihitung suatu nilai total kesalahan. Fase ini merupakan fase kalkulasi error. Nilai error yang diperoleh akan digunakan untuk memperbaiki nilai bobot-bobot pada JST sehingga JST akan semakin baik mengenali pola-pola yang ada. Fase ini disebut dengan fase penyesuaian bobot.
METODOLOGI Pada bab ini akan dijelaskan mengenai tahapan-tahapan yang akan dilakukan dalam penelitian. Tahapan akan dimulai dari proses pencarian dan pengumpulan data, kemudian mempelajari data yang ada untuk digunakan pada tahap pelatihan dan pengujian. Gambar 7 adalah ilustrasi tahapan metodologi penelitian yang digambarkan dengan diagram alur penelitian.
Setelah bobot-bobot diperbaiki data pembelajaran kembali di-input-kan dalam jaringan dan kembali diperoleh nilai error dan bobot akan kembali diperbaiki sehingga pembelajaran akan bersifat iteratif. Fase pembelajaran yang di-input-kan kembali dengan bobot yang telah diperbaiki ini disebut fase backpropagation (Fu 1994). Iterasi dapat dihentikan jika kriteria error tertentu dipenuhi atau jumlah epoch (satu cycle seluruh data pembelajaran melewati jaringan) tertentu dipenuhi. Kriteria henti dengan menggunakan suatu nilai error tertentu mengimplikasikan jika nilai error cukup kecil maka jaringan akan cukup baik untuk mengenali pola-pola yang ada. Namun nilai error yang terlalu kecil akan membuat jaringan terlalu spesifik mengenali pola-pola pembelajaran (overtrained) dan kemampuannya mengenali pola-pola baru yang serupa tetapi tdak identik dengan pola pembelajaran akan menurun (Fu 1994). Fonem Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (Depdikbud 2003). Fonem dibagi menjadi dua, yaitu: 1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o. 2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang keluar dari paruparu mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.
Gambar 7 Diagram alur penelitian. Data Suara Penelitian ini dilakukan dengan mengambil data suara dari satu orang (speaker dependent) dengan satu kata sebanyak 16 kali (“coba”, ”fana”, ”gajah”, ”jaya”, ”pacu”, ”malu”,
6