Penyusunan Daftar Difon untuk Keperluan Sintesis Ucapan Yohanes Suyanto FMIPA UGM, Sekip Utara, Yogyakarta E-mail :
[email protected] Abstrak: Teknologi sintesis ucapan (text-to-speech) ada yang menggunakan basis data difon yaitu penggalan suara dari 2 fonem. Proses sintesis ucapannya dilakukan dengan menggabung difon-difon menjadi suara ucapan kata atau kalimat. Penyusunan basis data difon ditempuh dengan cara merekam perkataan utuh dari kata yang mengandung difon yang akan digunakan, kemudian rekaman tersebut dipenggal menggunakan aplikasi penyunting berkas suara. Telah berhasil disusun sebanyak 782 difon dalam format wav. Difon yang dimulai maupun diakhiri dengan i atau U merupakan jumlah terbanyak. Perlu diteliti lagi apakah mungkin masih ada difon yang lain.
Kata kunci: difon, tts, fonem, wav
1
1
Pendahuluan
Sintesis suara dalam bahasa Indonesia dengan menggunakan basis data difon belum banyak dilakukan. Penelitian yang ada kebanyakan menggunakan basis data dari bahasa asing, sehingga tidak cocok untuk bahasa Indonesia. Oleh karena itu perlu dilakukan penelitian untuk menyusun basis data difon dalam bahasa Indonesia.
1.1
Tinjauan pustaka
Dalam sintesis suara dengan metode penggabungan unit suara diperlukan sekumpulan data unit suara yang disatukan dalam basis data suara. Donovan [1996] mengemukakan bahwa panjang pendeknya unit suara berpengaruh terhadap hasil akhir sintesis suara. Unit suara yang panjang menghasilkan sintesis yang lebih alami daripada unit suara yang pendek. Namun dari sisi jumlah unit suara, unit suara pendek lebih sedikit, sehingga lebih mudah penanganannya karena tidak memerlukan ruang yang besar. Basis data vokal dengan variasi pitch diperlukan untuk penyelidikan sintesis suara dengan metode interpolasi. Namun penyimpanan dan pengambilan kembali data dari rekaman yang sudah ada menjadi kompleks karena variasi artikulasi dan durasi yang banyak. Mann [1999] menyusun jaringan RBF (Radial Base Function) untuk menyelidiki metode interpolasi pada sintesis suara. Metode ini menggunakan basis data suara vokal dengan variasi pitch.
2
2 2.1
Penyusunan daftar difon untuk keperluan sintesis ucapan Pengantar Sintesis Ucapan
Sintesis dari tulisan (teks) menjadi ucapan merupakan permasalahan yang kompleks untuk mengkonversikan kata-kata dalam tulisan menjadi ucapan yang terdengar alami. Idealnya hasil akhir sintesis ucapan ini tidak dapat dibedakan dari ucapan manusia (Mann [1999]). Permasalahan sintesis dengan metode penggabungan meliputi pemrosesan teks, penerjemahan teks menjadi fonem-fonem, menerjemahkan fonem menjadi suara dan menggabung suara-suara tersebut menjadi suara yang terdengar kontinyu tidak terputusputus.
2.2
Unit suara
Unit suara yang menggunakan kata mempunyai keunggulan yaitu unit tersebut sudah mencakup efek artikulasi pada bagian kata. Penggabungan kata-kata menjadi kalimat akan relatif mudah dilakukan karena artikulasi antara kata tidak begitu kuat pengaruhnya daripada artikulasi antar fonem dalam kata (Linggard [1985]). Namun demikian cara ini akan kalimat akan terdengar patah-patah, karena untuk memuluskan gandengan unit suara tersebut tidak mudah. Penyebabnya adalah kata sudah terisolasi oleh bunyi diam. Suku kata merupakan unit yang lebih kecil daripada kata. Dengan unit suara berdasarkan pada suku kata mempunyai 3
kerumitan yang mirip dengan kata, cuma jumlah unit suaranya jauh lebih kecil. Menurut Allen dkk. [1987] belum ada sistem sintesis suara dengan metode penggabungan yang menggunakan suku kata sebagai unit terkecilnya. Difon (diphone) adalah gabungan 2 buah fonem. Satuan suara difon lebih kecil daripada suku kata. Dengan menggunakan satuan ini, basis data yang dicatat menjadi lebih sedikit dan penggabungannya menjadi kata serta kalimat masih relatif lebih mudah daripada berdasarkan fonem. Sampai saat ini cara ini paling banyak dipakai. Dari paling awal tercatat Peterson dkk. [1958] sampai dengan yang mutakhir seperti Lernout & Hauspie menggunakan cara ini.
2.3
Penyiapan Basis data
Serangkaian kegiatan perlu dilakukan sebelum proses sintesis suara dapat dilakukan. Pertama, pemilihan unit suara yang tepat agar masalah penggabungan nantinya tidak banyak mengalami masalah. Kombinasi difon paling banyak digunakan sebagai unit suara karena suara transisi antar fonem ikut terekam juga, sehingga perpaduan fonem lebih mulus. Setelah didapat semua daftar segmen suara (yang mengandung unit suara) diperoleh, langkah berikutnya adalah merekam segmen suara tadi dan dikonversi dalam bentuk digital sehingga dapat disimpan dalam bentuk digital juga. Bahan inilah nantinya yang akan diambil oleh program sintesis suara untuk menghasilkan suara dengan merangkai unit-unit suara yang sesuai. (Dutoit [2003] dan Kaynar dan Gelgi [2004])
4
2.4
Format rekaman suara digital
Rekaman suara banyak dilakukan sejak dulu. Entah itu dalam bentuk piringan hitam, kaset, CD, atau DVD. Ada dua kelompok besar format perekaman suara yaitu analog dan digital. Rekaman suara analog menyimpan informasi intensitas suara kedalam bentuk fisik lekukan (dalam piringan hitam) atau intensitas magnet (dalam kaset). Perekaman suara format digital, menyimpan informasi suara tersebut dalam bentuk kode bilangan biner, sehingga untuk penulisan dan pembacaannya perlu dekoder yang cocok. Keunggulan format digital adalah informasi yang tersimpan dengan mudah dapat diproses sebagai data oleh komputer sehingga dapat dilakukan penapisan secara digital dan juga kompresi data. Dalam format digital, suara disimpan dalam format WAV ataupun MP3. Format MP3 lebih unggul dalam besar data (hanya sepersepuluh dari besar data format WAV) sehingga tidak memakan banyak tempat. Sekarang sudah banyak tersedia dipasaran alat perekam suara digital dalam format MP3 dengan harga terjangkau oleh kalangan peneliti universitas (dosen). Harapannya dengan alat ini jika diterapkan untuk perekaman basis data suara akan mempermudah proses perekaman dengan hasil yang jernih dan tidak memakan banyak memori.
2.5
Pembuatan daftar fonem
Pemilihan fonem dilakukan dengan mengacu pada buku tentang fonologi dan masih dapat ditemukan contoh kata yang
5
mengandung fonem tersebut. Kemungkinan variasi vokal lebih banyak daripada variasi konsonan. Maksudnya huruf e misalnya dalam sate dan teman sudah berbeda fonemnya. Dalam Marsono [1999] sudah ada tabel mengenai vokal monoftong dan diftong serta konsonan berbagai bahasa di Indonesia. Untuk penelitian ini peneliti mengacu pada tabel-tabel tersebut.
2.6
Pembuatan daftar difon dan contoh kata
Setelah semua fonem dapat diidentifikasi langkah selanjutnya adalah membuat kombinasi dari fonem-fonem tersebut sehingga membentuk difon (dua fonem). Dari kombinasi yang dibuat barulah dicari contoh kata yang mengandung difon tersebut. Jika ditemukan paling tidak satu kata saja, maka difon tersebut dipertahankan dalam daftar. Namun jika tidak ditemukan kata yang mengandung difon tersebut maka difon itu dikeluarkan dari daftar difon. Dalam Krishnamurti dan Suyanto [2003] telah terdapat contoh kata-kata yang ada kaitannya dengan difon ini sehingga peneliti juga mengacu pada contoh kata-kata ini walaupun ada sedikit perubahan simbol fonem.
2.7
Perekaman daftar kata yang mengandung difon
Daftar difon yang sudah terkumpul dijadikan pedoman untuk melakukan pere-kaman suara orang yang menyuarakan kata tersebut. Diusahakan agar perekaman dilakukan oleh satu orang yang sama dan dalam waktu yang terus-menerus, artinya tidak 6
boleh berhenti di tengah jalan. Jika ada proses perekaman yang ditunda, maka emosi penyuara akan berbeda sehingga mempengaruhi hasl akhir. Di samping itu penyuaraan kata-kata tersebut harus dilakukan dalam intonasi yang datar saja, tidak boleh turun-naik karena rekaman ini akan digunakan sebagai dasar sintesis suara. Intonasi akan diterapkan saat sintesis suara dengan aturan-aturan tertentu yang tidak dibahas di sini.
2.8
Penyimpanan rekaman dalam format .mp3
Perekaman yang dilakukan pada bagian sebelumnya masih dalam format .wav yang menyimpan informasi utuh tentang rekaman suara secara digital. Ukuran re-kaman suara dalam format .wav cukup besar. Sebagai gambaran ukuran rekaman 1 MB hanya direkam dalam waktu 6 detik. Padahal jika disimpan dalam format .mp3, rekaman 1 MB itu perlu waktu 1 menit. Dengan menyimpan dalam format .mp3 diharapkan makin kecil ukuran penyimpanan yang diperlukan.
2.9
Pembuatan daftar fonem
Berdasarkan hasil penelitian pada buku fonologi maka fonem bahasa Indonesia ada sebanyak 41 fonem ditambah dengan fonem ’diam’ seperti terlihat pada Tabel 1. Beberapa fonem tidak banyak digunakan dalam tulisan Bahasa Indonesia seperti x dan q. Namun demikian untuk mengantisipasi kemungkinan sintesis suara nantinya (dalam penyusunan difon) maka fonem itu tetap ditulis. 7
Fonem ’diam’ disertaan dalam tabel ini karena nantinya dapat membentuk difon yaitu mengawali fonem ataupun mengakhirinya. Tabel 1: Daftar fonem Bahasa Indonesia Fonem i e ˜e a ˆe o ˆ o U u ai au oi b c d f g h kh j
Huruf i e e a e o o u u ai au oi b c d f g h kh j
8
Dalam kata biak beo mei maaf lebah tokoh toko takjub kue sampai kaul amboi bimbang cantik dinda foto gila hutang khabar janji
Fonem k l m n nk n ˜ ng ny p q r s sy ks t v w x y z
2.10
Huruf k l m n nk n ng ny p q r s sy ks t v w x y z (diam)
lanjutan ... Dalam kata kabar lima mama nama bank menjual panjang kunyit papa quran jaring susu asyik ekspor tanam volum w xilofon bayi izin
Pembuatan daftar difon dan contoh kata
Berdasarkan daftar fonem seperti Tabel 1 maka dapat dibuat daftar difon yang merupakan kombinasi 2 fonem dari 42 macam fonem tadi. Dengan demikian akan didapat 42 x 42 atau 1746 9
macam kombinasi difon. Namun demikian ternyata tidak semua kombinasi difon itu mempunyai contoh penerapan dalam Bahasa Indonesia. Misalnya difon xx, mm, ll,ww, dan lain-lain tidak ditemukan contoh pemakaiannya dalam Bahasa Indonesia. Contoh kombinasi lain yang tidak ditemukan contoh katanya misalnya vq, qv, vd, nz, dan lain-lain. Daftar lengkap difon dan contoh kata ada pada Tabel ?? pada lampiran yang ternyata hanya ditemukan kombinasi yang mempunyai contoh kata sebanyak 782 atau 44% dari total kombinasi yang mungkin.
3 3.1
Hasil penelitian Perekaman daftar kata yang mengandung difon
Dari daftar difon didapat kata-kata sebagai contoh pemakaiannya yang kemudian direkam dengan alat perekam suara digital dalam format .wav. Contoh grafik suara hasil perekaman dapat dilihat pada Gambar 1. Pada gambar tersebut grafik suara belum ditandai batas untuk difon i-ˆ o dari kata ’bioskop’. Pada Gambar 2 sudah ditandai titik awal difon i-ˆ o, titik perubahan dari i ke ˆo, dan titik akhir ˆ o. Jumlah difon yang dapat ditemukan yang diawali dengan suatu fonem dapat dilihat pada grafik Gambar 3 sedang difon yang diakhiri dengan suatu fonem jumlahnya dapt dilihat pada Gambar 4. Terlihat bahwa penyebarannya tidak merata dan belum
10
Gambar 1: Grafik suara bioskop untuk pengambilan difon i-ˆ o sebelum ditandai
Gambar 2: Grafik suara bioskop untuk pengambilan difon i-ˆ o setelah ditandai ditemukan pola yang menentukan jumlah penggunaan fonem dalam difon. Namun demikian dapat dilihat bahwa fonem i dan U mendominasi sebagai awal maupun akhir difon.
3.2
Penyimpanan rekaman dalam format .mp3
Hasil perekaman dalam format .wav kemudian dikonversi menggunakan Cool-Edit sehingga menjadi format .mp3. Format ini
11
dipilih karena ukuran filenya kecil akibat proses kompresi data. Namun belum dicoba untuk melakukan menggabungan difon rekaman mp3 ini untuk digunakan dalam sintesis suara. Kemungkinan proses menjadi lebih panjang, namun karena kecepatan prosesor sekarang sudah dalam orde GHz, kemungkinan panjangnya proses ini tidak begitu terasa. Hasil kompresi format .wav menjadi .mp3 sebagian dapat dilihat pada Tabel 2 yang ternyata bahwa dugaan awal untuk besar format .mp3 menjadi kira-kira sepersepuluh besar format .mp3 menjadi tidak benar karena terlihat bahwa nilai perbandingan antara .wav dan .mp3 hanya berkisar antara 0,52 atau 0,53. Ini berlaku untuk semua sampel yang telah dikonversi.
4
Kesimpulan
Difon sebanyak 782 dikenali sebagai penyusun ucapan Bahasa Indonesia. Fonem i dan U mendominasi sebagai fonem awal maupun akhir pada difon. Kompresi wav menjadi mp3 untuk data rekaman difon hanya mengakibatkan besar data menjadi setengahnya.
Pustaka Allen, J., Hunnicutt, M. S., dan Klatt, D., 1987, From Text to Speech : MITalk System, Cambridge University Press, Cambridge.
12
Tabel 2: Perbandingan besar gian) WAV ukuran WAV w1030.wav 64044 w1031.wav 96044 w1032.wav 96044 w1036.wav 96044 w1037.wav 96044 w1039.wav 64044 w104.wav 128044 w1040.wav 64044 w1041.wav 64044 w1043.wav 64044 w1044.wav 96044 w1045.wav 64044 w1049.wav 64044 w105.wav 64044 w1051.wav 64044 w1055.wav 64044 w106.wav 96044
file format .wav dan .mp3 (sebaMP3 w1030.mp3 w1031.mp3 w1032.mp3 w1036.mp3 w1037.mp3 w1039.mp3 w104.mp3 w1040.mp3 w1041.mp3 w1043.mp3 w1044.mp3 w1045.mp3 w1049.mp3 w105.mp3 w1051.mp3 w1055.mp3 w106.mp3
13
ukuran MP3 33984 50112 50112 50112 50112 33984 66240 33984 33984 33984 50112 33984 33984 33984 33984 33984 50112
rasio 0,530635188308038 0,521760859606014 0,521760859606014 0,521760859606014 0,521760859606014 0,530635188308038 0,517322170503889 0,530635188308038 0,530635188308038 0,530635188308038 0,521760859606014 0,530635188308038 0,530635188308038 0,530635188308038 0,530635188308038 0,530635188308038 0,521760859606014
Donovan, R. E., 1996, Trainable Speech Synthesis, PhD thesis, Univeristy of Cambridge. Dutoit, T., 2003, A Short Introduction to Text-to-Speech Synthesis. URL tcts.fpms.ac.be/synthesis/introtts.html. Kaynar, I. dan Gelgi, F., 2004, Text-To-Speech Synthesis. URL www.cclub.metu.edu.tr/ fagelgi/studies/tts/proposal.htm. Krishnamurti, M. S. dan Suyanto, Y., 2003, Pembuatan dan Perekaman Segmen-segmen ucapan (Difon) Bahasa Indonesia untuk Pengembangan Basis Data Difon dalam Aplikasi Text-to-Speech Berbasis MBROLA, FMIPA UGM, Yogyakarta, Skripsi. Linggard, R., 1985, Electronics Synthesis of Speech, Cambridge University Press, Cambridge. Mann, I., 1999, An Investigation of Nonlinear Speech Synthesis and Pitch Modification Techniques, PhD thesis, The University of Edinburgh. Marsono, 1999, Fonetik, Gadjah Mada University Press, Yogyakarta. Peterson, G. E., Wang, dan Sivertsen, E., 1958, Segmentation Techniques in Speech Synthesis, Journal of the Acoustical Society of America, 30(8).
14
Tentang penulis Penulis dilahirkan di Bantul tanggal 6 Maret 1962, menempuh pendidikan SD di SD Kebonagung I, Imogiri dan SMP di SMPN Imogiri Bantul, serta SMA di SMA Negeri 1 Yogyakarta. Selesai pendidikan S1 di Jurusan Fisika FMIPA UGM tahun 1987 kemudian menjadi dosen pada tempat yang sama. Tahun 1988 bekerja juga di UPT Pusat Komputer UGM. Pendidikan S2 diselesaikan di Ilmu Komputer UI tahun 1992. Matakuliah yang pernah diampunya antara lain: Pemrograman Terstruktur, Algoritme dan Pemrograman, Pemrograman Berorientasi Objek, Pemrograman Web, Pemrograman Visual, Jaringan Komputer, Sistem Informasi Geografis, Arsitektur Komputer, Tapis Elektronika dan Sistem Digital. Penulis pernah menjabat sebagai Wakil Kepala UPT Puskom UGM Bidang Pengembangan Sistem dan Asisten Kepala II PPTIK UGM, serta terlibat dalam beberapa tim pengembangan sistem informasi di UGM
15
Gambar 3: Jumlah difon yang diawali dengan fonem 16
Gambar 4: Jumlah difon yang diakhiri dengan fonem 17