BAB I PENDAHULUAN 1.1
Latar Belakang Masalah
Sintesis suara percakapan adalah pembangkitan suara percakapan dari tulisan atau teks yang dilakukan dengan program komputer. Saat ini sedang diusahakan agar suara hasil sintesis ucapan sulit dibedakan dengan suara percakapan orang. Salah satu aspek yang berpengaruh besar terhadap kealamian suara hasil sintesis ucapan adalah ketepatan prosodi (Taylor, 2009). Prosodi adalah nilai pitch (tinggi rendah nada ucapan), intonasi, volum, durasi, dan tekanan selama pengucapan kalimat. Dengan kata lain prosodi adalah nilai-nilai pitch, intonasi, volum, durasi, dan tekanan sebagai fungsi waktu. Pitch merupakan frekuensi suara yang digunakan untuk membangkitkan ucapan. Ucapan suatu fonem merupakan sekumpulan frekuensi namun ada frekuensi utama yang dinamakan frekuensi fundamental atau frekuensi dasar dan simbolkan sebagai F0 (Burkhardt, 2005; Mustafa dkk., 2010). Prosodi bersifat sangat spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk membangkitkan data prosodi menjadi sangat spesifik juga untuk setiap bahasa. Dengan prosodi yang benar maka informasi yang disampaikan seseorang melalui ucapannya dapat diterima oleh pendengar dengan benar. Pendengar dapat membedakan batas frase, kata, ataupun kalimat berdasarkan prosodi ucapan pembicara. Beberapa model pendekatan umum prosodi pernah dikembangkan. Misalnya pendekatan secara corpus based (basis data suara), rule-based (berbasis aturan), template based, dan learning based. Namun saat digunakan pada suatu bahasa tertentu masih perlu banyak penyesuaian (Burkhardt, 2005). Ada 2 pendekatan dalam sistem sintesis ucapan yang berdasarkan pada basis data suara yaitu: berdasarkan basis data rekaman frase dan berdasarkan basis data rekaman potongan ucapan. Aplikasi telepon banyak menggunakan model pertama. Misalnya informasi tagihan atau jam dari TELKOM. Untuk menyuarakan suatu kalimat dilakukan dengan menyambung rekaman suara masing-masing kata dalam kalimat tersebut. Misalnya kalimat ’saat ini pukul tiga belas lebih sepuluh
1
2
menit’ maka diperlukan rekaman kata ’saat’, ’ini’, ’pukul’, ’tiga, ’belas’, ’lebih’, ’sepuluh’, dan ’menit’. Model ini mudah dibuat dan sederhana. Kelemahannya adalah, jika variasi informasi yang disampaikan banyak dan diambilkan dari frase yang ada, intonasi hasil penggabungan menjadi terdengar janggal. Kelemahan lainnya adalah tidak ada modifikasi intonasi (Taylor, 2009; Arslan, 2014). Model yang kedua menggunakan rekaman potongan ucapan atau fonem. Model ini sangat fleksibel dan dapat melayani berbagai variasi ucapan. Kelemahannya adalah pada penentuan prosodi setiap fonem (Shaw, 2005). Proses sintesis ucapan text-to-speech umumnya melibatkan (Huang dkk., 2001): 1. Analisis teks yang meliputi: (a) normalisasi teks: mengubah simbol dan bilangan menjadi teks; (b) analisis linguistik: analisis sintaktik dan semantik sesuai dengan konteks. 2. Analisis fonetik yang mengubah grafem (tulisan) menjadi fonem; 3. Analisis prosodik yang membubuhi informasi prosodi terutama pitch, dan durasi; 4. Sintesis ucapan yang membangkitkan sinyal suara. Intonasi Bahasa Indonesia mempunyai kaidah umum walaupun tidak begitu ketat mempengaruhi arti kalimat. Kaidah yang umum digunakan adalah bahwa di akhir kalimat intonasi akan turun. Intonasi akan naik pada suku kata penultima (suku kata sebelum suku kata terakhir (Halim, 1974). Intonasi suara percakapan dalam Bahasa Indonesia akan lebih jelas jika dapat ditentukan bagian-bagian dalam kalimat, yang meliputi penentuan bagian subjek, predikat, dan objek. Masing-masing bagian kalimat tersebut dapat diperinci menjadi subbagian-subbagian. Jadi ada subbagian subjek, subbagian predikat, dan juga subbagian objek. Untuk masing-masing bagian dapat ditentukan intonasi yang cocok dengan cara menentukan prosodi pada subbagian tersebut (Halim, 1984). Intonasi bahasa Indonesia juga dipengaruhi oleh daerah. Walaupun demikian intonasi suara penyiar pembaca berita radio (khususnya RRI) rata-
3
rata sama. Oleh karena itu suara penyiar pembaca berita radio dapat dijadikan sebagai pola bahasa Indonesia. Jika bisa dibuat sintesis ucapan bahasa Indonesia yang melibatkan kaidah umum intonasi bahasa Indonesia, struktur kalimat bahasa Indonesia, dan pola intonasi penyiar maka akan didapatkan sintesis bahasa Indonesia yang dapat diterima oleh sebagian besar penutur bahasa Indonesia. Sintesis ucapan yang sudah pernah dibuat biasanya belum melibatkan pola intonasi berdasarkan rekaman suara kalimat lengkap. Misalnya penelitian Schröder (2001) dan Cahn (1989) sama sekali tidak melibatkan rekaman suara karena menggunakan metode sintesis Formant. Sedangkan Vroomen dkk. (1993), Heuft dkk. (1996), dan Murray dkk. (2000) menggunakan rekaman suara difon, bukan rekaman suara kalimat lengkap. Oleh karena itu perlu dibuat sintesis suara dengan penekanan pada intonasi (bagian dari prosodi) dari setiap fonem yang dipengaruhi oleh kaidah umum intonasi, struktur kalimat, dan pola intonasi dari rekaman suara. Dengan harapan bahwa jika prosodi dapat ditentukan berdasarkan kaidah umum intonasi, struktur kalimat, dan pola intonasi maka hasil sintesis ucapan akan lebih mendekati ucapan alami. 1.2
Perumusan Masalah
Apakah model penentuan intonasi secara otomatis pada sintesis ucapan (text-to-speech) dalam Bahasa Indonesia yang melibatkan pola intonasi dari rekaman suara kalimat dapat dibuat dan apakah dapat ditentukan juga proses-proses yang diperlukan dalam penentuan intonasi pada sintesis bahasa Indonesia? 1.3
Batasan Masalah Sintesis ucapan yang akan dibuat dibatasi pada:
1. hanya pada kalimat berita; 2. pendengar dewasa, pada forum dan suasana formal; 3. keperluaan penyampaian informasi;
4
4. kaidah umum yang digunakan sesuai dengan buku Amran Halim (Halim, 1974, 1984); Buku ini banyak diacu oleh pembahas masalah intonasi bahasa Indonesia. 5. prosodi yang dimodifikasi hanya unsur durasi dan pitch; 6. pola intonasi rekaman dari seorang pembaca berita RRI; 7. struktur kalimat menggunakan model bangun kalimat dari Ajat Sakri (Sakri, 1994); Penguraian struktur kalimat yang mendasarkan pada frasa. Dengan cara ini kalimat diuraikan menjadi 2 bagian atau ruas. 8. model lebih menekankan pada penyusunan berkas fonem dan prosodi yang menyertainya. 1.4
Tujuan Penelitian
Penelitian ini bertujuan untuk: mengembangkan model/metode penentuan intonasi secara otomatis pada sintesis ucapan Bahasa Indonesia berdasarkan penggandengan difon, pola intonasi, dan struktur kalimat. 1.5
Manfaat
Model sintesis ucapan dapat diterapkan pada beberapa aplikasi sintesis ucapan seperti pembaca buku elektronik, penyampai pengumuman di tempat umum (bank, stasiun, bus, kereta api, rumah sakit), pembelajar bahasa Indonesia dan lain-lain. 1.6
Kontribusi
Hasil penelitian diharapkan dapat menjadi alternatif model sintesis ucapan bahasa Indonesia yang sudah melibatkan pola intonasi dari rekaman suara pembaca berita. Dengan model ini diharapkan dapat dikembangkan lagi menjadi sintesis ucapan berdasar pada dialek tertentu.
5
1.7
Metodologi Penelitian
Metodologi penelitian yang dilakukan secara garis besar adalah membuat model sintesis ucapan dengan melibatkan struktur kalimat dan pola intonasi. Pada awalnya dilakukan telaah artikel dan aplikasi tentang sintesis ucapan. Pada aplikasi MBROLA, sebagai pembangkit ucapan dari berkas berformat pho, ditemukan cara untuk memanipulasi intonasi dengan cara mengubah isi berkas pho. Pengubahan berkas pho dilakukan pada bagian durasi dan pitch atau frekuensi.Pengubahan didasarkan pada struktur kalimat dan pola intonasi. Gambar 1.1 menunjukkan metodologi penelitian yang dilakukan. Telaah artikel dan aplikasi tentang sintesis ucapan
Pengambilan data rekaman berita RRI
Pembuatan model sintesis ucapan
Pemenggalan rekaman kalimat demi kalimat
Pembuatan aplikasi sintesis ucapan
Penyusunan basis data pola intonasi
Ujicoba aplikasi
Pembahasan dan pengukuran kualitas suara ucapan
Penarikan kesimpulan dan saran
Gambar 1.1: Alur metodologi penelitian
6
Telaah artikel dan aplikasi tentang sintesis ucapan dilakukan untuk membuka wawasan dan memperluas pengetahuan tentang sintesis ucapan. Selain itu telaah dilakukan untuk mengetahui sejauh mana sintesis ucapan telah dilakukan dan kira-kira model seperti apa yang masih bisa dikembangkan. Pembuatan model sintesis ucapan dilakukan setelah mempelajari beberapa sintesis ucapan yang telah ada. Dalam model yang dibuat melibatkan struktur kalimat dan pola intonasi. Dari telaah artikel dan aplikasi yang telah dilakukan, model sintesis ucapan semacam ini belum ada. Pembuatan aplikasi sintesis ucapan merupakan implementasi dari model yang dibuat. Aplikasi ini sekaligus untuk menunjukkan bahwa model bisa diimplementasikan. Aplikasi dibuat cukup sederhana dan dapat dijalankan pada console. Pengambilan data rekaman berita RRI sebagai bahan untuk penyusunan basis data pola intonasi. Rekaman berita RRI dipilih dengan asumsi bahwa intonasinya mengikuti standar bahasa Indonesia. Data rekaman diperoleh dari siaran RRI online. Pemenggalan rekaman kalimat demi kalimat dilakukan agar memudahkan saat akan disimpan dalam basis data pola. Tidak semua kalimat dalam berita tersebut digunakan. Berita yang berupa kutipan dari suara sumber berita tidak digunakan karena intonasinya belum tentu sesuai dengan pola intonasi penyiar berita RRI. Penyusunan basis data pola intonasi diawali dengan cara melakukan transliterasi dari kalimat suara rekaman berita menjadi tulisan (teks) kalimat bahasa Indonesia. Kemudian kalimat suara rekaman berita dikenai proses pengambilan frekuensi fundamental menggunakan aplikasi Praat. Hasil dari tahap ini adalah teks, jumlah fonem, deretan waktu dan frekuensi fundamental. Ujicoba aplikasi dilakukan dengan menggunakan kalimat hasil transliterasi dan juga kalimat rekaan yang mengandung bilangan, simbol, atau singkatan.
7
Hasil akhir ujicoba dari kalimat transliterasi yang berupa berkas audio (wav) disimpan untuk keperluan uji kualitas. Pembahasan dilakukan terhadap hasil ujicoba. Pembahasan juga dilakukan untuk modul-modul yang ada dalam model sintesis ucapan. Hasil antara yang diamati antara lain teks ternormalisasi, pola intonasi, dan berkas pho. Pengukuran kualitas suara ucapan dilakukan dengan membandingkan berkas rekaman suara dan berkas hasil sintesis ucapan untuk kalimat yang sama. Pengukuran kualitas menggunakan metode PESQ dan jarak Mahalanobis. Penarikan kesimpulan dan saran dilakukan setelah proses pembahasan hasil. Saran lebih menekankan pada kemungkinan perbaikan agar hasilnya lebih baik. 1.8
Sistematika Penulisan
Disertasi ini ditulis dalam 7 bab. Hubungan antar bab disajikan dalam diagram Gambar 1.2. Inti dari disertasi ini ada di Bab IV yang berisi model sintesis ucapan yang diusulkan yaitu pelibatan pola intonasi dan struktur kalimat dalam penentuan intonasi. Pada Bab I disajikan pendahuluan dari penelitian. Bab ini berisi latar belakang, perumusan masalah, batasan masalah, tujuan penelitian, kontribusi, metodologi penelitian, dan sistematika penulisan. Pada Bab II disajikan tinjauan pustaka tentang sintesis ucapan terutama yang menggunakan metode penggandengan difon. Pengkajian tentang pengaturan pitch dan kontur durasi pada sintesis ucapan. Beberapa peneliti melakukan penelitian tentang pengaturan ekspresi dengan menggunakan penanda teks. Berdasarkan kajian dalam bab ini dibuatlah pengaturan prosodi menggunakan pola intonasi dan struktur kalimat. Bab III mengajikan dasar teori yang mendasari model yang diusulkan. Pengaturan intonasi sintesis memerlukan pengetahuan tentang fonetik bahasa Indonesia. Teori tentang struktur kalimat diperlukan untuk dapat melakukan pengelompokan kata (frasa) yang nantinya digunakan untuk pengaturan
8
Bab I Pendahuluan Latar belakang, tujuan, rumusan masalah, batasan masalah, sistematika penulisan
Bab II Tinjauan Pustaka Tinjauan artikel tentang sintesis ucapan terutama yang menggunakan metode penggandengan; tinjauan pengaturan prosodi; MBROLA
Bab III Dasar Teori Fonetik bahasa Indonesia: fonem, prosodi, tekanan
Struktur kalimat: penguraian kalimat berdasar kategori, pencarian kata dasar
Metode sintesis ucapan: NLP, DSP, berbasis aturan, penggandengan, teks ke fonem; teori:PSOLA, MBROLA
Pengukuran kualitas suara ucapan: PESQ, Mahalanobis
Bab IV Analisis Normalisasi: bilangan, simbol
Pola intonasi: frekuensi fundamental, pola intonasi rekaman kalimat
Analis sintaks: penulisan BNF, algoritme pencarian kata dasar
Model sintesis yang diusulkan: penjelasan modul di dalamnya
Bab V Rancangan dan Implementasi Rancangan Modul normalisasi
Modul pemilih pola
Modul Analis Sintaks
Pembangkit prosodi
Modul Analis Sintaks
Pembangkit prosodi
Implementasi Modul normalisasi
Modul pemilih pola
Bab VI Pembahasan Pembahasan normalisasi: dapat bekerja dengan baik
Pembahasan pemilih pola: kriteria panjang teks, jarak terdekat
Pembahasan analis sintaks: dapat menguraikan kalimat berdasar kategori kata
Pembangkit prosodi: menghasilkan deretan fonem beserta prosodinya
Bab VII Kesimpulan dan Saran Kesimpulan dari pembahasan; saran terhadap perbaikan berdasarkan kesimpulan
Gambar 1.2: Diagram Sistematika Penulisan jeda. Metode sintesis ucapan dibahasa mulai dari pengertian umum sampai dengan metode sintesis penggandengan unit suara terutama unit suara difon. Dalam bab ini dibahas pula tentang pengubahan teks ke fonem dan teori dasar PSOLA yang digunakan dalam MBROLA. Bagian akhir bab ini memuat cara pengukuran kualitas suara ucapan dengan metode PESQ dan
9
jarak Mahalanobis. Bab IV menyajikan model sintesis yang diusulkan. Model ini mengandung 4 bagian utama yaitu normalisasi, pola intonasi, analis sintaks, dan pembangkit prosodi. Normalisasi berhubungan dengan struktur kalimat dan pengubahan teks ke fonem dari Bab III. Normalisasi merupakan proses awal dari sintesis ucapan. Pola intonasi berhubungan dengan pembicaraan tekanan pada Bab III. Analis sintaks berhubungan langsung dengan bagian struktur kalimat pada Bab III. Analis sintaks menggunakan teori struktur kalimat dan BNF untuk menghasilkan parser bahasa Indonesia. Bagian akhir dari bab ini menyajikan pembangkit prosodi yang merupakan muara dari bagian-bagian lainnya. Bagian ini bertanggung jawab untuk menghasilkan prosodi yang menyertai deretan fonem. Bab V berisi rancangan dan implementasi dari model sintesis ucapan yang diusulkan. Rancangan berupa modul dari masing-masing bagian dari Bab IV yaitu modul normalisasi, pemilih pola, analis sintaks, dan pembangkit prosodi. Bagian implementasi merupakan implementasi dari modul-modul dalam bagian rancangan di bab ini juga. Bab VI berisi pembahasan kinerja dan hasil dari modul-modul yang sama dengan yang diuraikan pada Bab V. Pada bagian akhir disajikan tentang hasil pengujian kualitas suara dari model sintesis yang diusulkan. Bab VII berisi kesimpulan dan saran tentang hasil penelitian dalam disertasi ini.