1
PENENTUAN PARAMETER PEMBANGKIT UCAPAN MODEL ARTIKULATORI UNTUK FONEM-FONEM BAHASA INDONESIA Aditya Arie Nugraha (13204118)
Ringkasan—Dalam ringkasan ini, dibahas mengenai penelitian yang dilakukan untuk menentukan parameter-parameter dari model artikulatori agar dapat membangkitkan ucapan yang tersusun dari fonem-fonem yang dikenal dalam bahasa Indonesia. Dalam penelitian yang dilakukan, penentuan parameter melibatkan proses sintesis ucapan yang dilakukan dengan bantuan toolbox ARTM pada MATLAB. Proses sintesis ucapan sendiri dapat dibagi menjadi proses analisis, speech inverse filtering, penentuan eksitasi, dan sintesis. Selain keempat proses tersebut, dapat ditambahkan pula pemrosesan awal (pre-processing) dan pemrosesan akhir (post-processing). Dengan metodologi yang digunakan, parameter pembangkit ucapan model artikulatori untuk hampir seluruh fonem dalam bahasa Indonesia, kecuali kelompok fonem konsonan frikatif, berhasil diperoleh. Meskipun parameter-parameter tersebut belum mewakili model artikulatori ideal, parameter-parameter pembangkit ucapan model artikulatori untuk fonem-fonem bahasa Indonesia yang diperoleh dalam penelitian yang dilakukan telah dapat menghasilkan sinyal yang menyerupai sinyal ucapan manusia. Index Terms—text-to-speech, pembangkit ucapan, sintesis artikulatori, model artikulatori
Salah satu tekniknya adalah sintesis ucapan dengan model artikulatori. Penilaian kualitas dari sebuah sistem konversi teks ke ucapan (text-to-speech) diawali dengan menilai kualitas ucapan yang dihasilkan. Terdapat dua kriteria penilaian yang umum dipakai, yaitu tingkat kenaturalan dan inteligibilitas. Secara teoretis, sintesis artikulatori merupakan metode pembangkit ucapan pada sistem konversi teks ke ucapan yang sangat baik untuk menghasilkan ucapan yang natural, sehingga memiliki tingkat inteligibilitas yang baik. Sampai saat ini belum ada data yang lengkap mengenai parameter-parameter dari model artikulatori untuk menghasilkan fonem-fonem bahasa Indonesia. Padahal, data ini akan sangat diperlukan dalam pengembangan sistem konversi teks ke ucapan bahasa Indonesia yang menggunakan pendekatan sistem artikulatori. Oleh karena itu, perlu dilakukan penelitian untuk menemukan nilai parameterparameter ini. II. M ETODOLOGI
I. P ENDAHULUAN ADA dasarnya, sistem konversi teks ke ucapan (text-tospeech) terbagi dalam dua tahap, yaitu: 1) Tahap konversi teks ke fonem (text-to-phoneme) 2) Tahap konversi fonem ke ucapan (phoneme-to-speech)
P
Gambar 1.
Diagram Blok Sistem Konversi Teks ke Ucapan (text-to-speech)
Tahap konversi teks ke fonem berfungsi untuk mengubah masukan yang berbentuk teks dalam suatu bahasa tertentu menjadi rangkaian kode-kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi, dan pitch. Tahap konversi fonem ke ucapan berfungsi untuk menghasilkan sinyal ucapan berdasarkan masukan yang diterima. Masukan berupa kode fonem yang dihasilkan oleh tahap sebelumnya. Selain kode fonem, masukan berupa durasi dan pitch juga dapat ditambahkan. Ada beberapa alternatif teknik yang dapat digunakan untuk mengimplementasikan tahap ini. Sekolah Teknik Elekto dan Informatika, Institut Teknologi Bandung
Secara garis besar metodologi yang digunakan dalam penyusunan Tugas Akhir ini dapat dibagi menjadi studi literatur, seleksi ucapan, sintesis ucapan, serta pendataan, analisis hasil, dan penarikan kesimpulan. Seperti yang telah dikemukakan di atas, dalam penelitian ini penentuan parameter melibatkan proses sintesis ucapan yang dilakukan dengan bantuan toolbox ARTM pada MATLAB. Proses sintesis ucapan sendiri dapat dibagi menjadi proses analisis, speech inverse filtering, penentuan eksitasi, dan sintesis. Selain keempat proses tersebut, dapat ditambahkan pula pemrosesan awal (pre-processing) dan pemrosesan akhir (postprocessing). A. Pemrosesan Awal Masukan dari pemrosesan awal adalah rekaman ucapan suatu kata dalam format WAV, sedangkan keluarannya adalah kontur formant dari sinyal ucapan kata tersebut. Dengan menggunakan perangkat lunak Adobe Audition 1.5, rekaman ucapan dalam format WAV (.wav) mengalami pemrosesan awal. Pemrosesan awal meliputi reduksi derau, pengurangan silence, dan penyesuian amplitudo sinyal. Sinyal ucapan hasil pemrosesan awal kemudian disimpan dalam format ASCII (.dat). Reduksi derau dilakukan agar rekaman sinyal ucapan sedapat mungkin mendekati sinyal ucapan sebenarnya. Pengurangan silence dilakukan untuk memperpendek durasi rekaman,
2
sehingga proses komputasi yang dilakukan akan menjadi lebih sedikit dan lebih cepat selesai. Penyesuaian amplitudo sinyal dilakukan agar ucapan terdengar lebih jelas. Sinyal ucapan hasil pemrosesan di atas kemudian diolah lebih lanjut dengan menggunakan toolbox formant_track pada MATLAB untuk mengetahui frekuensi-frekuensi formant (frekuensi formant ke-1 sampai dengan ke-4) dari sinyal tersebut. Frekuensi-frekuensi formant tersebut direpresentasikan dalam kontur formant. B. Analisis Masukan dari proses analisis adalah kontur formant dari sinyal ucapan kata, sedangkan keluarannya adalah sejumlah frame dengan informasi empat frekuensi formant pertama (frekuensi formant ke-1 sampai dengan ke-4) dari bagian sinyal ucapan tertentu. Jadi, inti dari proses analisis adalah menentukan letak dan panjang frame pada sinyal ucapan sedemikian rupa sehingga didapatkan frame yang dapat merepresentasikan suatu fonem tertentu. C. Speech Inverse Filtering Masukan dari proses speech inverse filtering adalah frame dengan informasi empat frekuensi formant pertama, sedangkan keluarannya adalah parameter pembangkit ucapan model artikulatori dari frame yang bersangkutan. Proses speech inverse filtering dapat dilakukan dengan menentukan parameter-parameter model artikulatori secara manual. Meskipun demikian, sangat sulit untuk menentukan sembilan parameter sedemikian rupa sehingga sinyal yang nantinya dibangkitkan melalui model tersebut dapat menyamai atau setidaknya mendekati sinyal target. Oleh karena itu, dalam proses speech inverse filtering digunakanlah proses optimasi dengan algoritma simulated annealing. Selain itu, untuk mendukung proses speech inverse filtering ini dibuatlah proses otomasi terhadap algoritma simulated annealing agar proses optimasi dapat menghasilkan nilai-nilai parameter terbaik yang dapat diraih. Berkaitan dengan diterapkannya algoritma simulated annealing pada proses optimasi dari toolbox ARTM, terdapat panduan dalam menentukan parameter annealing yang tepat.[1] 1) Tentukan konfigurasi sifat nasal fonem (nasalization extent) dan jumlah parameter dari model artikulatori yang akan dioptimasi. Jalankan proses optimasi dengan nilai default untuk parameter artikulatori dan parameter annealing. Jika nilai kesalahan (error) yang didapatkan setelah proses berakhir kurang dari 1 %, lanjutkan ke langkah 5. Jika tidak, lanjutkan ke langkah 2. 2) Periksa apakah rongga vokal yang didapatkan bentuknya wajar. Jika tidak, lanjutkan ke langkah 3. Jika sebaliknya, catat nilai kesalahan sebagai εp dan temperatur akhir sebagai Tp . Kemudian atur parameter temperatur awal annealing T = floor[Tp ] dan jalankan proses optimasi lagi. Jika nilai kesalahan yang dihasilkan kurang dari εp , maka ulangi langkah ini sampai nilai kesalahan yang diinginkan tercapai. Jika nilai kesalahan yang dihasilkan tidak kurang dari εp , lanjutkan ke langkah 4.
3) Lakukan beberapa penyesuaian terhadap parameter annealing, seperti meningkatkan temperatur awal, meningkatkan faktor reduksi, meningkatkan jumlah evaluasi, dan mengubah parameter-parameter lain sesuai keinginan. Kemudian mulai proses optimasi dan lakukan langkah 2. 4) Lakukan perubahan terhadap jumlah parameter dari model artikulatori yang akan dioptimasi. Kemudian mulai proses optimasi dan lakukan langkah 2. 5) Periksa apakah bentuk rongga vokal mendekati bentuk rongga vokal yang tercantum dalam literatur. Jika bentuk keduanya mirip, maka proses optimasi selesai. Jika tidak, kembali ke langkah 1. Akan tetapi, lakukan pengaturan pada parameter artikulatori (tidak menggunakan nilai default) sebelum proses optimasi dilakukan. 6) Jika langkah-langkah di atas gagal untuk mengurangi nilai kesalahan sampai batas nilai yang diinginkan, kembali ke fase pemilihan frame, dan pilih ulang frame yang akan dijadikan target. Kemudian lakukan proses optimasi dari langkah 1. Mengacu pada panduan di atas, untuk memudahkan proses pengambilan data dibuatlah suatu mekanisme otomasi. Selain akan melakukan optimasi terhadap semua frame yang telah didefinisikan sebelumnya, mekanisme ini akan melakukan optimasi sampai nilai variabel temperatur dari algoritma simulated annealing bernilai mendekati nol. Sedikit berbeda dengan langkah 2 dimana temperatur awal proses optimasi selanjutnya T = floor[Tp ], dalam mekanisme ini temperatur awal proses optimasi selanjutnya T = round[Tp ]. Diagram alir dari mekanisme otomasi ini dapat dilihat pada Gambar 2 dan 3. Dari diagram alir mekanisme otomasi, dapat dilihat bahwa parameter awal artikulatori untuk proses optimasi frame suatu frame mengambil dari parameter artikulatori hasil proses optimasi frame sebelumnya. Hal ini dilakukan dengan asumsi bahwa kondisi rongga vokal tidak dapat berubah secara ekstrem, sehingga kondisi rongga vokal suatu waktu akan lebih mudah dan lebih cepat untuk dicapai dengan proses optimasi jika kondisi rongga vokal (parameter artikulatori) waktu sebelumnya digunakan sebagai acuan. Apabila usaha ini gagal untuk mencapai nilai kesalahan (error) yang diinginkan, proses optimasi terhadap suatu frame akan diulang dengan menggunakan parameter awal artikulatori default. Perlu dicatat bahwa dalam perhitungan nilai kesalahan (error) diberlakukan pembobotan sebagai berikut. 1,5 3 3 (F1m -F1t )+ 10 (F2m -F2t )+ 2,5 E= 10 10 (F3m -F3t )+ 10 (F4m -F4t )
Dimana Fxm merupakan frekuensi formant model dan Fxt merupakan frekuensi formant target, dengan x bernilai 1 untuk frekuensi formant pertama, 2 untuk frekuensi formant kedua, 3 untuk frekuensi formant ketiga, dan 4 untuk frekuensi formant keempat. Pada prinsipnya, parameter-parameter pembangkit ucapan model artikulatori, yang merupakan topik dari penelitian ini, telah didapatkan dengan selesainya proses speech inverse filtering. Oleh karena itu, proses-proses berikutnya dapat dianggap sebagai proses pendukung dalam penelitian ini.
3
Gambar 2.
Diagram Alir Mekanisme Otomasi (Bagian I)
D. Penentuan Eksitasi Dalam proses ini, parameter-parameter yang berkaitan dengan eksitasi ditentukan. Dalam penelitian ini, parameterparameter ini nilainya sama untuk semua kasus, kecuali parameter frekuensi fundamental (F0) serta waktu (letak) dan durasi eksitasi. Parameter frekuensi fundamental disesuaikan dengan frekuensi fundamental sinyal ucapan dalam rekaman. Frekuensi fundamental cenderung berbeda untuk setiap orang. Frekuensi fundamental pengucap pria relatif lebih rendah dibandingkan dengan frekuensi fundamental pengucap wanita. Frekuensi ini dapat diperkirakan dengan bantuan perangkat lunak Adobe Audition 1.5. Waktu dan durasi eksitasi disesuaikan dengan waktu dan durasi frame pertama dari sinyal ucapan yang dimodelkan. Oleh karena itu, proses penentuan eksitasi ini berkaitan erat dengan pembagian frame terhadap sinyal dalam proses analisis yang telah diuraikan sebelumnya. Parameter-parameter selain parameter frekuensi fundamental (F0) serta waktu (letak) dan durasi eksitasi menggunakan nilai default. E. Sintesis Masukan dari proses sintesis ini adalah parameter model artikulatori yang dihasilkan oleh proses speech inverse filtering dan parameter eksitasi yang ditentukan pada proses penentuan eksitasi. Sedangkan, keluarannya adalah sinyal ucapan buatan
Gambar 3.
Diagram Alir Mekanisme Otomasi (Bagian II)
(artificial) yang dibangkitkan berdasarkan kedua macam parameter masukan. Secara praktis, tidak ada parameter yang perlu diatur dalam proses ini. Proses sintesis dapat langsung dimulai jika kedua macam parameter masukan tersedia. Setelah proses sintesis selesai dilakukan, sinyal ucapan yang dihasilkan dapat disimpan dalam format ASCII (.dat). F. Pemroresan Akhir Masukan dari pemrosesan akhir adalah sinyal ucapan hasil proses sintesis. Sedangkan, keluarannya adalah frame yang merepresentasikan suatu fonem tertentu, beserta parameter model artikulatorinya. Dalam menentukan apakah suatu frame cukup baik untuk merepresentasikan suatu fonem tertentu, hal pertama yang dilakukan adalah melakukan uji dengar (aural) terhadap sinyal ucapan hasil proses sintesis secara keseluruhan. Jika tingkat inteligibilitasnya cukup baik, kemudian identifikasi frame dilakukan baik dengan mengamati frekuensi sinyal ucapan hasil sintesis maupun dengan uji dengar. Proses pengamatan frekuensi sinyal ucapan dilakukan dengan melakukan pengamatan terhadap spektrum sinyal. Tampi-
4
lan spektrum sinyal didapatkan dengan bantuan fitur spectral view pada perangkat lunak Adobe Audition 1.5. Yang perlu dilakukan adalah mendefinisikan suatu bagian tertentu dari sinyal yang cukup merepresentasikan suatu fonem tertentu. Kemudian, dengan pengamatan terhadap spektrum sinyal, seleksi tersebut dipersempit lagi dengan memilih bagian yang frekuensinya konsisten. Setelah proses seleksi selesai, sebuah frame yang merupakan representasi dari bagian yang dipilih dapat diperoleh. Dengan demikian, parameter model artikulatori untuk suatu fonem tertentu berhasil diperoleh.
•
III. H ASIL Model artikulatori yang digunakan dalam pengerjaan Tugas Akhir ini adalah model Marmelstein yang telah dimodifikasi. Model Marmelstein dapat mencapai kesamaan antara hasil scan x-ray dengan bentuk saluran vokal midsagittal. Meskipun demikian, model ini tidak memiliki informasi yang cukup untuk merepresentasikan bagian bawah faring serta area di antara ujung lidah dan rahang dengan baik. Model yang digunakan telah memodifikasi bagian bawah faring serta melakukan optimasi area di antara ujung lidah dan rahang jika dibutuhkan. Dalam model artikulatori, sekelompok variabel digunakan untuk mengatur bentuk dari saluran vokal. Parameterparameter yang dapat dilihat pada Gambar 4 tersebut adalah sebagai berikut. • Badan lidah: Badan lidah direpresentasikan oleh busur (DL-B) dari sebuah lingkaran dengan titik pusat yang dapat bergerak dan jari-jari tetap. Pusat dari badan lidah, yang disimbolkan dengan tongc, memiliki koordinat polar (sc, thetaj+thetab) yang berpusat pada titik F. Meskipun demikian, koordinat kartesian (tbodyx, tbodyy) digunakan dalam tampilan dan optimasi. • Ujung lidah: Ujung lidah direpresentasikan oleh koordinat kartesian (tipx, tipy) dari titik T. Busur B-T dan TPF memberi bentuk dari bagian depan lidah. Oleh karena letak titik B bervariasi tergantung pada pusat badan lidah (tongc) dan sudut rahang (JAW), pergerakan bagian depan lidah tergantung pada badan lidah dan posisi rahang. • Rahang: Titik JAW dengan koordinat polar (sj, thetaj) digunakan untuk merepresentasikan letak rahang. Jarak sj tetap untuk sebagian besar fonem. Parameter rahang digunakan untuk menyatakan sudut dari thetaj. Perhatikan bahwa lekukan rahang didekati dengan beberapa segmen garis yang berhubungan (PF-PS-JAW-L6). • Bibir: Bibir direpresentasikan oleh titik L5 (atas) dan L7 (bawah). Dengan mengacu pada titik JAW, koordinat dari bibir bawah direpresentasikan oleh (lipp, lipo), yang memberikan keterangan mengenai protrusi bibir dan bukaan bibir. Penggunaan lipp dan lipo sebagai variabel yang terpisah memungkinkan representasi dari bibir yang terkatup, bibir yang terbuka, dan bibir yang membulat. Bibir atas L5 memiliki koordinat yang sama dengan mengacu pada titik U. • Hyoid: Hyoid direpresentasikan oleh parameter hyoid, yaitu jarak dari titik PP ke garis H-DL. Titik PP terdapat pada titik tengah dari segmen garis H-DL, yang merupakan garis singgung dari busur badan lidah pada
•
titik DL. Segmen garis DL-PP dan busur PP-H, serta badan lidah, menentukan bagian depan dari faring. Titik H merepresentasikan perpotongan dari bagian depan epiglottis dan bagian atas tulang hyoid. Titik K merepresentasikan perkiraan dari batas bagian depan dari laring. Bagian atas dari saluran vokal direpresentasikan oleh letak gigi atas, U, busur langit-langit rongga mulut UN-M (hard palate), titik tertinggi pada maxilla M, busur langit-langit rongga mulut M-V (soft palate), letak bagian belakang langit-langit rongga mulut (velum) V, letak dinding belakang faring W, dan titik tertinggi dari periarytenoid G. Pada busur hard palate, titik N terletak pada segmen garis M-U sedemikian rupa sehingga jarak M-N adalah dua kali jarak N-U. Busur lingkaran M-V dan M-N memiliki pusat yang terletak pada garis vertikal melalui M. Secara umum, bentuk bagian atas dan bagian belakang dianggap tetap, kecuali untuk busur soft palate yang berada dekat dengan titik V. Untuk memberikan keterangan mengenai area bukaan velopharyngeal port, bagian belakang langit-langit rongga mulut (velum) menjadi sebuah parameter artikulatori. Bagian belakang langit-langit rongga mulut (velum): Kondisi bagian belakang langit-langit rongga mulut (velum) direpresentasikan oleh letak V dari ujung uvula yang bergerak pada segmen garis V-V’. Area bukaan velar diasumsikan proporsional terhadap jarak antara titik V dan titik tertinggi dari velum.
Gambar 4.
Model Artikulatori Marmelstein[1]
Dengan mengacu model artikulatori pada Gambar 4, beserta penjelasan dari model tersebut, Tabel I memaparkan nilai-nilai parameter yang telah dihasilkan dari penelitian. Data akan ditampilkan berdasarkan kelompok fonemnya, yaitu fonem vokal dan konsonan. Kelompok fonem konsonan kemudian dibagi lagi berdasarkan cara artikulasinya menjadi konsonan
5
Tabel I PARAMETER P EMBANGKIT U CAPAN M ODEL A RTIKULATORI U NTUK F ONEM -F ONEM BAHASA I NDONESIA Fonem Jaw Angle (rad)
Tongue Tip (cm)
/a/ /e/ /@/ /E/ /i/ /o/ /O/ /u/
-0.400 -0.394 -0.383 -0.282 -0.305 -0.400 -0.401 -0.356
(3.750, (3.703, (4.183, (4.267, (3.965, (3.707, (3.702, (5.064,
4.514) 4.801) 4.736) 4.740) 5.391) 4.897) 4.799) 4.861)
/p/ /b/ /t/ /d/ /k/ /g/
-0.401 -0.400 -0.360 -0.268 -0.313 -0.303
(4.148, (4.934, (4.742, (5.461, (4.823, (3.858,
4.502) 4.520) 5.197) 5.132) 4.836) 4.543)
/c/ /j/
-0.401 -0.357
(5.224, 5.046) (4.106, 5.628)
/h/
-0.401
(3.702, 4.500)
/m/ /n/ /ñ/ /N/
-0.267 -0.396 -0.401 -0.401
(4.093, (4.813, (5.221, (3.702,
/r/
-0.401
(3.898, 4.501)
/l/
-0.401
(4.986, 4.760)
/W/ /y/
-0.401 -0.328
(3.727, 4.861) (4.558, 4.845)
4.500) 5.389) 4.971) 5.230)
Parameter Tongue Body (cm) Lip Open (cm) Lip Protrusion (cm) Kelompok Fonem Vokal (3.426, 3.886) 0.601 0.347 (3.433, 4.288) 0.753 0.222 (3.557, 4.411) 0.488 0.181 (3.606, 4.228) 0.345 0.041 (3.457, 4.658) 0.568 0.144 (3.081, 3.550) 0.425 0.648 (3.061, 3.550) 0.376 0.649 (3.029, 4.112) 0.113 0.422 Kelompok Fonem Konsonan Konsonan Hambat (3.607, 4.528) 0.195 0.315 (3.340, 4.501) 0.060 0.229 (3.762, 4.192) 0.207 0.440 (3.335, 4.299) 0.185 0.562 (3.553, 4.606) 0.566 0.208 (3.463, 4.685) 0.455 0.005 Konsonan Afrikat (3.592, 4.802) 0.285 0.122 (3.743, 4.653) 0.563 0.083 Konsonan Frikatif (3.417, 3.844) 0.428 0.411 Konsonan Nasal (3.676, 4.042) 0.466 0.000 (3.318, 4.063) 0.298 0.193 (3.727, 4.228) 0.312 0.649 (3.203, 3.868) 0.372 0.649 Konsonan Getar (3.634, 4.476) 0.834 0.276 Konsonan Lateral (3.167, 3.936) 0.381 0.650 Konsonan Semivokal (3.016, 3.550) 0.394 0.045 (3.886, 4.463) 0.607 0.011
hambat, afrikat, frikatif, nasal, getar, lateral, dan semivokal.[2] Sebagai tambahan, fonem juga akan ditampilkan berdasarkan letak artikulasi sesuai dengan urutan pada Tabel IPA untuk konsonan dari kiri ke kanan. Perlu dicatat juga bahwa data yang dicantumkan merupakan data terbaik di antara data yang berhasil diperoleh, baik dengan mempertimbangkan kesesuaian posisi artikulator secara teoretis yang mengacu pada Tabel International Phonetic Alphabet, maupun dengan mempertimbangkan hasil uji dengar. Berkaitan dengan sintesis fonem konsonan frikatif, parameter model artikulatori tidak berhasil diperoleh dengan metodologi yang digunakan. Hal ini dikarenakan pada prakteknya, kelompok fonem ini dibangkitkan dengan melewatkan udara pada suatu celah tertentu sehingga terbentuk turbulensi udara yang menimbulkan bunyi desis. Bunyi desis ini mengaburkan frekuensi formant dari fonem sehingga menyebabkan proses formant tracking untuk mendapatkan frekuensi formant tidak menghasilkan apa-apa dan proses sintesis tidak dapat dilakukan. IV. K ESIMPULAN Selain parameter model artikulatori di atas, perlu juga disampaikan bahwa parameter-parameter yang telah dicantumkan di atas belum mewakili model artikulatori ideal. Sebuah model artikulatori ideal mungkin memerlukan parameter-parameter
Hyoid (cm)
Velum Position (cm)
-0.280 -0.299 -0.142 -0.055 -0.213 -0.270 -0.298 -0.089
(2.274, (2.291, (2.267, (2.283, (2.278, (2.088, (2.046, (2.128,
4.668) 4.637) 4.680) 4.652) 4.662) 5.010) 5.089) 4.937)
-0.300 0.290 -0.041 0.288 0.056 -0.300
(2.045, (2.194, (2.047, (2.268, (2.244, (2.265,
5.090) 4.815) 5.086) 4.680) 4.724) 4.685)
-0.114 -0.026
(2.214, 4.778) (2.195, 4.813)
-0.300
(2.246, 4.720)
-0.300 0.070 -0.298 -0.300
(2.287, (2.221, (2.182, (2.045,
-0.025
(2.046, 5.088)
-0.296
(2.292, 4.635)
-0.285 0.278
(2.045, 5.090) (2.265, 4.684)
4.644) 4.765) 4.837) 5.089)
lain yang lebih banyak. Sampai saat ini, model seperti ini untuk bahasa Inggris pun masih belum dapat menghasilkan ucapan yang alami. Meskipun demikian, parameter-parameter pembangkit ucapan model artikulatori untuk fonem-fonem bahasa Indonesia yang diperoleh dalam penelitian ini telah dapat menghasilkan sinyal yang menyerupai sinyal ucapan manusia.
6
P USTAKA [1] Donald G. Childers. Speech Processing and Synthesis Toolboxes. John Wiley & Sons, Inc., New York, 2000. [2] Hasan Alwi, Soenjono Dardjowidjojo, Hans Lapoliwa, dan Anton M. Moeliono. Tata Bahasa Baku Bahasa Indonesia, Edisi Ketiga. Balai Pustaka, Jakarta, 2003.