Prosiding SENTIA 2009 – Politeknik Negeri Malang
PENGENALAN POLA INTONASI PROSODI KALIMAT TANYA UNTUK SISTEM PENSINTESA SUARA BAHASA INDONESIA MENGGUNAKAN ARTIFICIAL NEURAL NETWORKS 1. Suhaeri, 2. Sri Chusri Hariyanti, 3. Elan Suherlan Fakultas Teknologi Informasi Universitas YARSI Jl. Letjen Suprapto, Cempaka Putih, Jakarta Pusat Email:
[email protected] ABSTRAK Semakin berkembangnya teknologi informasi dapat memicu perkembangan di berbagai bidang. Dimana salah satunya adalah pemanfaatan komputer untuk dapat memproses suara manusia, baik pengucapan maupun intonasinya, yang dikenal dengan istilah prosodi. Saat ini sudah terdapat sistem pensintesa suara dalam bahasa Indonesia yang diberi nama TTS INDO yang dibuat oleh Dr. Arry Akhmad Armand yang telah dipublikasikan sejak tahun 2000. Dalam teknik ini masih terdapat beberapa kelemahan, diantaranya adalah masih belum dapat menghasilkan intonasi suara khususnya kalimat tanya yang sesuai dengan kaidah intonasi bahasa indonesia. Penelitian ini bertujuan membentuk pola intonasi untuk kalimat tanya yang dibatasi 4 kata, dimana teknik yang akan digunakan adalah melalui pengenalan pola intonasi menggunakan model Artificial neural Network dengan metode Levenberg-Marquardt Algorithm. Dalam penelitian ini Artificial neural Network mampu mengenali pola intonasi prosodi dengan error mencapai 0,05. Hasil dari penelitian ini akan dijadikan penelitian lanjutan yang akan dipadukan dengan pengenalan kalimat tanya yang ada pada database TTS INDO sehingga intonasi kalimat yang keluar dari pembangkitan suara TTS INDO mengeluarkan suara dengan intonasi yang sesuai dengan yang diucapkan manusia (bahasa alami). Kata Kunci : Pola Intonasi Prosodi, Artificial Neural Network, Levenberg-Marquardt Algorithm.
(MBROLA) (Arry Akhmad Arman, 2003). Dalam teknik ini masih terdapat beberapa kelemahan, diantaranya adalah terdapat diskontinuitas atau terdapat bunyi fonem yang tidak terdengar (audible discontinues) dimana hal ini dapat terjadi karena terdapatnya ketidaksesuaian phase, spectral, dan pitch (Thierry Dutoit, Henri Leich, 93, 96). Selain itu teknik ini juga masih terdapat kelemahan, yaitu masih belum dapat menghasilkan intonasi suara khususnya kalimat tanya yang sesuai dengan kaidah intonasi bahasa Indonesia yang baik.. Penelitian ini mempunyai tujuan : Pertama, terbentuknya prototipe pola intonasi prosodi untuk kalimat pertanyaan pada sistem pensintesa suara dalam bahasa Indonesia menggunakan model artificial neural networks dengan metode Levenberg-Marquardt Algorith., kedua, terbangunnya pemetaan pitch setiap fonem bahasa Indonesia yang mengandung kalimat pertanyaan dan ketiga, tercapainya hasil pengujian yang memenuhi kriteria ”baik” terhadap algoritma yang dihasilkan oleh artificial neural networks untuk menyelaraskan prosodi yang sesuai dengan ucapan dari bentuk kalimat pertannyaan sesuai dengan kaidah pengucapan dalam bahasa Indonesia baku.
1.
PENDAHULUAN Sinyal suara manusia mengandung berbagai macam informasi terutama sinyal suara tersebut mengandung kata ataupun pesan dalam bentuk ucapan yang akan disampaikan. Dengan semakin berkembangnya teknologi komputer yang dapat memicu perkembangan di berbagai bidang, dimana salah satunya adalah pemanfaatan komputer untuk dapat memproses suara manusia baik pengucapannya maupun intonasinya yang dikenal dengan istilah prosodi. Pada dasarnya teknologi dalam bidang ini dikelompokkan dalam dua kelompok utama yaitu pengenalan ucapan (Speech Recognition/SR) dan pensintesa ucapan (Speech Synthesis/SS). Untuk teknologi SR kegiatan yang dilakukan adalah bagaimana komputer dapat memproses dan mengenali ucapan bahasa manusia menjadi suatu teks atau tulisan, sedangkan teknologi SS kebalikannya yaitu bagaimana komputer dapat membangkitkan ucapan manusia dari suatu teks. Dan dari kedua teknologi ini yang akan dibahas dalam penulisan ini adalah tentang pensintesa ucapan (Speech Synthesis/SS) khususnya untuk bahasa Indonesia. Saat ini sudah terdapat sistem pensintesa suara dalam bahasa Indonesia yang diberi nama TTS INDO yang dibuat oleh Dr. Arry Akhmad Armand yang telah dipublikasikan sejak tahun 2000, dimana teknik modifikasi prosodinya menggunakan teknik Multiband Resynthesis Overlap and add
2. TINJAUAN PUSTAKA 2.1 Sistem Pensintesa Ucapan Pesintesa ucapan (Speech Synthesis) merupakan suatu proses dimana suatu komputer F-162
Prosiding SENTIA 2009 – Politeknik Negeri Malang
ISSN: 9772085234007
mampu membangkitkan suatu bunyi dari suatu kata atau kalimat. Teknologi ini disebut juga dengan Text To Speech (TTS). Proses Synthesis membangkitkan suara sintetik hasil dari pengolahan komputer. Proses ini memerlukan bahan teks yang biasanya hasil pengembangan dari pengetahuan, dalam hal ini meaning, yang telah disiapkan sebelumnya oleh manusia. Pada prinsipnya sistem pensintesa ucapan terdiri dari dua sub sistem, yaitu bagian konverter teks ke fonem (Text to Phoneme) dan bagian konverter fonem ke ucapan (Phoneme to Speech), dimana kedua bagian ini dapat digambarkan sebagai berikut. Texts Tahap I Tahap II Ucapan Text to Phoneme
Proses-proses pada tahap I: Tahap normalisasi teks berfungsi untuk mengolah semua teks kalimat yang ingin diucapkan menjadi teks yang secara lengkap memperlihatkan cara pengucapannya. Misalnya 1 $ setara Rp. 1000; maka diucapkan satu dollar setara dengan seribu rupiah. Tahap selanjutnya Exception Dictionary Lookup dan Letter-to-Phoneme Conversion yaitu melakukan konversi dari teks yang sudah secara lengkap merepresentasikan kalimat yang ingin diucapkan menjadi kode-kode fonem dengan aturan tertentu misalnya, Left-context [letter-set] right-context = phoneme string Huruf tertentu yang ditunjuk dalam posisi [letterset] akan dikonversikan menjadi suatu fonem dalam ”phoneme string” jika left-context dan right-context terpenuhi misalnya /s/, /a/,….. dan seterusnya. Penamaan fonem-fonem ini dapat mengikuti kode-kode standar yang berlaku, misalnya saat ini ada beberapa standar cara penamaan fonem, diantaranya adalah IPA (International Phonetic Alphabet) 1, ARPABET, dan SAMPA. (Arry Akhmad Arman, 2003).
Phoneme to Speech
Gambar 1 Prinsip dari Pensintesa Ucapan (Arry Akhmad Arman, 2003) Bagian konverter teks ke fonem berfungsi untuk mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya. Bagian konverter fonem ke ucapan akan menerima masukan berupa kode-kode fonem, durasi serta pitch yang dihasilkan oleh bagian sebelumnya. Dari kode-kode tersebut, bagian konverter fonem ke ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan. Untuk implementasi bagian ini ada dua teknik yang digunakan yaitu formant synthesizer dan diphone concatenation. Urutan dari tahapan-tahapan proses untuk sistem pensintesa ucapan ini dapat digambarkan secara detail pada gambar 2.
Proses pada tahap II: Bagian prosodi generator akan melengkapi setiap unit fonem yang dihasilkan dengan data durasi pengucapannya serta pitchnya. Data durasi serta pitch diperoleh dari kombinasi antara tabel atau database dan model prosodi (misalnya /s/ [40ms] [90Hz]). Secara simbolik, hasil dari bagian ini menghasilkan informasi yang cukup untuk menghasilkan ucapan yang diinginkan. Tahap selanjutnya yang masih sering dilakukan adalah Phonetic Analysis. Tahap ini dapat dikatakan sebagai tahap penyempurnaan, yaitu melakukan perbaikan di tingkat bunyi. Sebagai contoh, dalam bahasa Indonesia, fonem /k/ dalam kata bapak tidak pernah diucapkan secara tegas, atau adanya sisipan fonem /y/ dalam pengucapan kata alamiah antara fonem /i/ dan /a/. Proses Speech Synthesis: Sistem ini untuk memodifikasi prosodi dari segmen suara pada database, dimana teknik yang dapat digunakan dalam proses ini, diantaranya adalah teknik formant synthesizer dan concatenative (diphone concatenation dan unit selection) serta sistem yang menggunakan pendekatan stokastik (model linear dinamik). 2.2 Teknik Concatenative Pensintesa suara dengan teknik concatenative merupakan sistem pensintesa yang melakukan penggabungan segmen-segmen ucapan yang direkam sebelumnya, teknik ini terdiri dari diphone concatenation dan unit-selection. Synthesizer yang menggunakan teknik diphone concatenation bekerja
Gambar 2 Urutan Proses Konversi dari Teks ke Ucapan (Arry Akhmad Arman, 2003) F-163
Prosiding SENTIA 2009 – Politeknik Negeri Malang
ISSN: 9772085234007
dengan cara menggabungkan segmen-segmen bunyi yang telah direkam sebelumnya. Setiap segmen berupa diphone (gabungan dua buah fonem). Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat kealamiahan (naturalness) yang tinggi. Teknik ini diperkenalkan sejak tahun 1977.
direntetkan (ui-1 dan ui). Tugas dari pensintesa ini adalah mencari jalan/lintasan melalui jaringan transisi keadaan sehingga diperoleh deretan unit-unit dalam database dengan total cost yang minimum, dimana total cost ini merupakan jumlah dari target cost dan concatenation cost. Pengaturan pitch yang dilakukan oleh Kula berdasarkan pada suku kata yang dapat dibedakan dalam 7 jenis kriteria seperti pada gambar 5 berikut
2.3 Penyeleksian Unit Bunyi Untuk menghasilkan sintesa gelombang suara dengan bunyi yang lebih alami adalah bagaimana menyeleksi dan menggabungkan unit-unit (fonemfonem) yang terdapat dalam database (UnitSelection). Dalam teknik unit selection, unit-unit dalam database dapat dipandang sebagai jaringan transisi keadaan, dan dalam proses penyeleksiannya digunakan viterbi search. Bentuk dari jaringan transisi diilustrasikan pada gambar 3 sebagai berikut.
110 Hz 100 Hz 90 Hz
6
80 Hz 70 Hz 60 Hz
5
50 Hz
0
1
2
3 4
Gambar 5 Pola Intonasi (Prosodi) Berdasarkan Suku Kata Dimana, 1) Suku kata kedua dari belakang sebelum tanda baca 2) Suku kata kedua tanda baca 3) Suku kata kedua sebelum tanda baca atau tanda tanya 4) Suku kata sebelum tanda baca atau tanda tanya 5) Suku kata kedua sebelum tanda tanya 6) Suku kata sebelum tanda tanya 7) Suku kata yang lainnya Pola prosodi untuk model di atas pada contoh kalimat di bawah dapat dimodelkan sebagai berikut: Wo ! da ! znacz ! nie !o! pa ! dła !i! mόgł ! prze !do! staċ ! się ! pie ! szo ! na ! ląd. 0 0 0 0 0 1 2 0 0 0 0 0 0 0 3 4
Gambar 3 Jaringan Fonem pada Database (A. Hunt and A. Black, 1996)
Perbandingan pola pitch sebagai hasil modifikasi prosodi yang diperoleh seperti terlihat pada gambar 6 berikut.
Penyeleksian fonem-fonem ini dilakukan berdasarkan dua fungsi cost, yang terdiri dari target cost dan concatenation cost. Yang dapat diilustrasikan pada gambar 4 sebagai berikut.
120 110
100 90
Pitch [Hz]
80 70 60
50 40
t a
t a d a
w
m i r o v e
r n a i m j e n i
n i
Gambar 6 Pitch asli (garis putus) dan pitch modifikasi (garis tebal). (Slawomir Kula, Przemyslaw Dymarski, Arthur Janiki, 2000)
Gambar 4 Target Cost dan Concatenation Cost (A. Hunt and A. Black, 1998)
2.4 Artificial Neural Networks Artificial Neural Networks atau Jaringan Syaraf Tiruan merupakan salah satu representasi buatan dari otak manusia yang selalu mencoba untuk mensimulasikan proses pembelajaran pada otak manusia tersebut. Istilah buatan digunakan karena
Dimana target cost adalah estimasi dari perbedaan unit dalam database ui dan target ti; Ct(ui,ti), yang diperkirakan akan ditampilkan. Sedangkan concatenation cost Cc(ui-1, ui) adalah estimasi dari kualitas gabungan antara unit-unit yang F-164
Prosiding SENTIA 2009 – Politeknik Negeri Malang
ISSN: 9772085234007
jaringan syaraf ini diimplementasikan dengan menggunakan komputer yang mampu menyelesaikan sejumlah proses perhitungan selama proses pembelajaran. Menurut Fauset (1994), JST adalah suatu sistem pemrosesan yang menyerupai karakteristik-karakteristik menyerupai jaringan syaraf biologi. Menurut Rao & Rao (1993), JST adalah suatu grup pemrosesan elemen-elemen (neuron) dimana setiap subgrup (layer) melakukan komputasi yang independent dan meneruskan hasilnya ke subgrup selanjutnya. Beberapa tipe jaringan syaraf hampir semuanya memiliki komponen-komponen yang sama. Seperti halnya otak manusia, jaringan syaraf juga terdiri dari neuron-neuron tiruan yang disebut elemen pemroses (prosessing elements). Setiap neuron dapat memiliki beberapa masukan (input) dan mempunyai satu keluaran (output). Gambar 7 di bawah ini menunjukkan konstruksi dasar jaringan syaraf tiruan. ω1 input
Output f X=
i
terjadi pembatasan antara daerah positif dan daerah negatif.
+ + - Gambar 8 Pembatasan Linear dengan Perceptron 2.4.2 Backpropagation (Algoritma Pembelajaran) Backpropagation merupakan algoritma pembelajaran yang dikategorikan sebagai supervised learning yaitu pembelajaran yang terawasi dan biasanya digunakan untuk mengubah nilai bobotbobot yang terhubung dengan neuron-neuron pada perceptron. Dalam kerjanya, proses yang terjadi pada jaringan syaraf buatan dapat dibagi atas dua bagian, yaitu proses belajar dan proses penilaian. Sebenarnya di dalam proses belajar juga terdapat proses penilaian, tetapi hasil dari proses penilaian tersebut langsung digunakan untuk mengkoreksi nilai bobot dan nilai bias dari neuron-neruon pada lapisan tersembunyi dan lapisan output. Pada algoritma backpropagation, untuk mendapatkan error, tahap perambatan pada arah maju dilakukan (forward), yaitu mulai dari neuron input, lalu neuron pada lapisan tersembunyi, diakhiri dengan perhitungan pada neuron pada lapisan output. Sedangkan error output yang diperoleh digunakan untuk perbaikan nilai bobot dan bias (mengubah nilai-nilainya) dilakukan secara mundur (backward), mulai dari neuron lapisan output kemudian mundur setahap demi setahap ke arah lapisan input.
Yccc=f(x)
xi
Gambar 7 Konstruksi Dasar Jaringan Syaraf Tiruan Sebelum diinputkan ke dalam unit output, suatu sinyal xi dikalikan dengan bobot i , sehingga menjadi
i
xi, kemudian diambil jumlah sinyal yang
telah dikalikan tersebut ( ), dan hasil penjumlahan dinyatakan dengan X. Kemudian oleh unit output, X dimasukkan dalam suatu fungsi f tertentu untuk menghasilkan output terakhir. Fungsi f adalah fungsi linear atau fungsi lain yang lebih kompleks. Pada jaringan syaraf, neuron-neuron akan dikumpulkan dalam lapisan-lapisan yang disebut lapisan neuron. Biasanya neuron-neuron pada suatu lapisan akan dihubungkan dengan lapisan-lapisan sebelum dan sesudahnya (kecuali lapisan input dan output). Informasi yang diberikan pada jaringan syaraf akan dirambatkan lapisan ke lapisan, mulai dari lapisan input hingga lapisan output melalui lapisan yang lainnya, yang sering dikenal sebagai lapisan tersembunyi. Tergantung pada algoritma pembelajarannya, bisa jadi informasi tersebut akan dirambatkan secara mundur pada jaringan.
2.4.3 Laju Belajar (Learn Rate) Laju belajar (learn rate), disimbolkan dengan μ atau η, adalah parameter yang menentukan besarnya perubahan bobot dan bias pada jaringan syaraf tiruan, dimana nilai perubahan bobot antara neuron ke-i dan ke-j dinyatakan sebagai „minus hasil kali antara laju belajar dengan gradien kurva E terhadap w‟. ΔW(ij)(x,y)=-μ . ∂E/∂W(ij) ...............................(4) 2.4.4 Momentum Momentum adalah suatu parameter yang berfungsi untuk mempercepat terjadinya kestabilan nilai bobot dalam proses belajar JST. Peranan momentum akan maksimal, jika nilai momentum yang dipilih sesuai. Jika nilai momentum yang dipilih tidak sesuai, maka fungsi yang diharapkan dari momentum tidak akan keluar, bahkan proses belajar dapat menjadi gagal. Posisi momentum dalam menjalankan fungsinya dirumuskan sebagai berikut:
2.4.1 Perceptron Perceptron termasuk salah satu bentuk jaringan syaraf sederhana. Biasanya digunakan untuk mengklasifikasikan suatu pola tertentu yang sering dikenal dengan pemisahan secara linear. Pada dasarnya perceptron ini akan mengatur parameterparameter bebasnya melalui proses pembelajaran. Fungsi aktivasi ini dibuat sedemikian rupa sehingga
F-165
Prosiding SENTIA 2009 – Politeknik Negeri Malang
W (t 1) (ij) W (t ) (ij)
W (t ) (ij)
ISSN: 9772085234007
2. Mencari buku-buku penunjang mengenai: Artificial Neural Networks, pengolahan suara, MATLAB. 3. Pencarian bahan di internet : Program aplikasi untuk pemrosesan signal suara seperti WASP, TTS-INDO. Contoh program-program dengan MATLAB. Artikel-artikel mengenai pensintesa suara.
. W (t 1) (ij) ....(5)
Variabel t menunjukkan jumlah langkah belajar yang telah dilakukan oleh JST. Dari persamaan di atas, disimpulkan bahwa momentum yang bernilai > 0 mempengaruhi perubahan nilai bobot dari langkah belajar sebelumnya. Sehingga besar atau kecilnya nilai bobot dapat dihasilkan dalam waktu yang lebih singkat.
3.3 Perekaman Suara Untuk dapat memperoleh data-data suara sebagai materi yang akan dijadikan data training, maka perlu dilakukan proses perekaman kalimat tanya dalam bahasa Indonesia yang dibatasi maksimal hanya 4 kata. Perekaman dilakukan dengan menggunakan mikrofon dan aplikasi winamp. Hasil dari perekaman yang telah dilakukan dapat ditampilkan dengan WASP sehingga dapat dilihat dalam bentuk grafik.
2.4.5 Algoritma Levenberg–Marquardt Dalam matematika dan komputasi, Algoritma Levenberg-Marquardt (ALM) memberikan solusi numeris kepada masalah minimasi sebuah fungsi, terutama nonlinear, melalui ukuran parameter dari sebuah fungsi. Masalah minimasi ini tercipta terutama dalam akar terkecil pemetaan kurva dan pemrograman nonlinear. ALM berinterpolasi antara Algoritma Gauss-Newton (AGN) dan metode penurunan gradien. ALM lebih „tahan banting‟ daripada AGN, yang berarti dapat memecahkan banyak kasus dimana pada awalnya jauh sekali dari minimum akhir. Namun, fungsi yang lebih „stabil‟ dan dengan parameter awal yang mencukupi, ALM cenderung lebih lamban dari AGN. Aplikasi utama dari algoritma ini adalah masalah pengepasan kurva, dengan memberikan data dalam bentuk variabel bebas maupun tetap. Algoritma akan mengoptimalkan parameter β dari model kurva f(x, β) dari rumus (6) berikut ini sehingga menghasilkan hasil yang minimal.
3.4 Training Artificial Neural Networks Training Artificial Neural Networks diiakukan untuk mengenal pola intonasi kalimat tanya sehingga Artificial Neural Networks dapat membentuk pola intonasi yang diharapkan. Training ini mencari pola yang terbaik dengan indikastor nilai error yang sekecil-kecilnya. 4.
HASIL DAN PEMBAHASAN Dalam penelitian ini data diperoleh dengan cara observasi (data observasi), bukan data yang diperoleh dengan cara survey maupun wawancara. Data dikumpulkan melalui langkah-langkah sebagai berikut: 1. Merekam suara kalimat tanya menggunakan software Winamp contoh hasil seperti terlihat pada Gambar 5.1 2. Dengan menggunakan software SFS/WASP file hasil rekaman dapat ditampilkan dalam bentuk gelombang suara maupun grafik antara waktu (t) sebagai sumbu-x dan frekuensi (f) sebagai sumbu-y.
….......……………….(6) 3.
METODE PENELITIAN Secara garis besar penelitian ini dibagi dalam beberapa tahap: 3.1 Analisis Permasalahan dan Kebutuhan Untuk dapat mewujudkan kegiatan dalam penelitian ini perlu dilakukan pengidentifikasian masalah dan kebutuhan yang diperlukan. Adapun hal-hal yang dilakukan dalam proses kegiatan ini adalah sebagai berikut: Melakukan analisis tentang permasalahan dan kebutuhan yang diperlukan dalam penelitian ini, diantaranya adalah: Perangkat keras/hardware Perangkat lunak/software Teknik perekaman suara agar dalam bentuk file digital agar dapat diolah dalam komputer Proses perubahan data analog menjadi data bilangan/angka. 3.2 Penelusuran Literatur Kegiatan-kegiatan yang dilakukan dalam proses penelusuran literatur ini adalah sebagai berikut: 1. Mencari jurnal-jurnal yang berkaitan dengan pensintesa suara khususnya tentang prosodi.
Gambar 9 Grafik hasil rekam suara 3. Dari tabel data waktu dan frekuensi dijadikan sebagai data input dan output untuk digunakan sebagai data training Artificial neural Networks.
F-166
Prosiding SENTIA 2009 – Politeknik Negeri Malang
ISSN: 9772085234007
Dari percobaan-percobaan yang telah dilakukan seperti di atas baik dengan menggunakan data mentah (belum dinormalisasi) maupun dengan data yang telah dinormalisasi, didapatkan hasil nilai error dari yang terbesar (terburuk) sampai nilai error terbaik yaitu nilai error yang telah mencapai nilai sesuai dengan yang diharapkan, antara lain: seperti dapat dilihat pada Tabel 2 di bawah ini: Tabel 2 Perbandingan Nilai Error No Nilai Error Gambar 1. 4981.83 5.8 2. 2922.62 5.9 3. 0.013058 5.10 4. 5.11 0.000907
Gambar 10 Hasil Simulasi Data Normalisasi dengan Nilai Error = 0.000907 Dari hasil yang didapat Artificial neural Networks diujikan terhadap kelompok-kelompok data hasilnya seperti pada Tabel 1 :
Artificial neural networks dengan nilai error 0,000907 ini diujikan pada kelompok-kelompok data yang ada dan dipat hasil error 0,0424. Hal ini menunjukkan bahwa Artificial neural networks dengan topologi seperti pada Gambar 5.8 merupakan hasil yang sudah optimal.
Tabel 5.13 Perbandingan Nilai Error No Tabel Lampiran 1 Nilai Error 1. Tabel 1 0.5 2. Tabel 2 0.0429 3. Tabel 3 0.0428 4. Tabel 4 0.0427 5 Tabel 5 0.0424
5.
KESIMPULAN Dari kegiatan-kegiatan yang telah dilakukan dari pelaksanaan penelitian ini baik untuk tahap analisa kebutuhan, penelusuran literatur, training dan pengujian dapat disimpulkan beberapa hal sebagai berikut 1. Artificial neural networks mampu mengenali pola intonasi kalimat tanya dengan nilai error (MSE = 0,0424) dengan parameter: a. Hidden layer = 2 b. Jumlah neuron = 10 pada hidden layer 1 dan 20 pada hidden layer 2 c. Momentum = 0,5 d.Learning rate = 1,2 e. Epoch = 4000 2. Data yang digunakan untuk training Artificial neural networks sangat dipengaruhi oleh hasil rekam suara dimana dengan kalimat tanya dan orang yang mengucapkan sama hasil rekam suara bisa berbeda, tetapi hal ini bagi Artificial neural networks tidak bermasalah karena error dari hasil pengujian yang diperoleh masih tetap kecil. 3. walaupun Artificial neural networks mampu mengenali pola intonasi kalimat tanya dengan nilai error yang sangat kecil, namun hasil analisa perekaman suara yang ditampilkan oleh software WASP ada interval grafik yang tidak mempunyai arti fisis, karena pada interval tersebut nilai frekuensinya = 0.
Dari hasil pengujian ini error terkecil yang diperoleh adalah 0,0424 Dari hasil training diperoleh topologi jaringan artificial neural networks seperti Gambar 11 berikut ini:
output Input
Gambar 11 Hasil Topologi Artificial Neural Networks
DAFTAR PUSTAKA A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database”, Proc. ICASSP, pp. 373–376, 1996.
Dari topologi Gambar 11 Artificial Neural Networks terdiri dari 2 hidden layer, hidden layer 1 terdiri dari 10 neuron dan hidden layer 2 terdiri dari 20 neuron. Masing-masing neuron pada hidden layer 1 dan hidden layer 2 terhubung oleh suatu garis fungsi bobot (weight) yang nilai akhir dapat dilihat pada lampiran 2. F-167
Prosiding SENTIA 2009 – Politeknik Negeri Malang
ISSN: 9772085234007
Arry Akhmad Arman, ”Proses pembentukan dan karakteristik signal ucapan”, Teknik Elektro ITB, Juni 2003. Arry Akhmad Arman, ”Perkembangan teknologi TTS Dari masa ke Masa”, Teknik Elektro ITB, 2003. Athanasios Papoulis, ”Probability, Random Variables, and Stochastic Process”, McGraw Hill Inc., 1984. Bc. Jan Kybic, ”Kalman Filtering and Speech Enhancement” Diploma work, Ecole polytechnique federale De Lausanne, 1998. Dutoit. Thierry, “An Introduction to Text-to-Speech Synthesis”, Kluwer Academic Publisher, Dordrecht, 1997 G.Smith, J de Frietes, T. Robinson, and M. Niranjan, ”Speech modeling using subspace and EM techniques, ”Advances in Neural Information Processing systems”, vol. 12, pp. 796-802, 1999. Jozep Edyanto, ”MATLAB Bahasa Komputasi Teknis” terjemahan, ANDI and Pearson Asia Pte.Ltd, 2000. John G. Proakis, Dimitris G. Manolakis, ”Digital Signal Processing”, Prentice Hall Inc., 1995. J. Vepa, S.king, and P. Taylor, ”Objective distance measures for spectral discontinuitas in concatenative speech synthesis”, in proc. ICLSP. Denver USA, September 2002. J. Vepa, S.king, and P. Taylor, „New Objective distance measures for spectral discontinuitas in concatenative speech synthesis”, in proc. IEEE workshop on Speech Synthesis. Santa Monica, USA, September 2002. Parsons. Thomas W. (1986). “Voice and Speech Processing”, McGraw-Hill, New York. Pelton. Gordon E. “Voice Processing”, McGrawHill, New York, 1993. Robert E. Donovan, “A new distance measure for costing spectral discontinuities in concatenative speech synthesisers, ”The 4th ISCA Tutorial and Research Workshop on Speech Synthesis, 2001. Thierry Dutoit, Henri Leich; 93, 96, MBR-PSOLA: Text-To Speech Synthesis Based On an MBE-Re-Synthesis of The segements DataBase. Faculté Polytechnique de Mons, TCTS-Multitel, WWW: http://tcts.fpms.ac.be Haykin, Simon. (1994). Neural networks: A comprehensive foundation. New York. Kusumadewi, Sri. (2004). Membangun jaringan syaraf tiruan menggunakan matlab dan excel link. Graha Ilmu, Yogyakarta. Siang, Jongjak. (2005). Jaringan syaraf tiruan dan pemrograman menggunakan Matlab. Penerbit Andi, Yogyakarta.
Suhaeri, MT.(2001) Permodelan Pengendali posisi Elektroda tungku listrik menggunakan Artificial neural network. Univesitas Indonesia, Jakarta. Suhaeri, MT.(2001) Permodelan Pengendali posisi Elektroda tungku listrik menggunakan Artificial neural network. Univesitas Indonesia, Jakarta.
F-168