Bidang Ilmu : 462/ Teknologi Informasi
LAPORAN KEMAJUAN PENELITIAN PRODUK TERAPAN
APLIKASI SINTESIS UJARAN BEREKSPRESIF (EXPRESSIVE TEXT TO SPEECH) BAHASA INDONESIA MENGGUNAKAN HIDDEN MARKOV MODEL UNTUK MENDUKUNG INDUSTRI KREATIF NASIONAL
TIM PENGUSUL Ketua : Muljono, S.Si, M.Kom NIDN : 0604017101 Anggota : Catur Supriyanto, S.Kom, MCS NIDN : 0621108402
UNIVERSITAS DIAN NUSWANTORO SEMARANG Agustus 2016
ii
RINGKASAN Salah satu tantangan yang dihadapi para peneliti adalah untuk membangun antarmuka percakapan yang alami. Ketika berbicara tentang antarmuka berbasis ujaran untuk sistem komputer, kita melihat dua teknologi dasar yang berperan yaitu: pengenalan ujaran (speech recognition) dan sintesis ujaran (text to speech). Tujuan dari sistem sintesis ujaran adalah untuk memberikan output ujaran kepada pengguna dengan membangkitkan ujaran dari teks. Sintesis ujaran banyak digunakan dalam kehidupan sehari-hari seperti sistem dialog multibahasa (speech to speech translation) , aplikasi pembaca layar komputer untuk orang-orang buta dan gangguan penglihatan (screen reader), aplikasi di bidang telekomunikasi, aplikasi yang digunakan dengan tidak memerlukan mata dan tangan untuk pengoperasiannya dan lain-lain. Interaksi manusia dengan komputer dalam berbagai saluran (dalam hal ini menggunakan saluran ujaran) menjadi lebih efektif dan efisien apabila dalam ujaran tersebut diberikan ekspresif yang berbeda dan sesuai dengan kondisi emosional pengguna. Penelitian ini bertujuan menciptakan suatu sistem yang mampu mensintesis ujaran netral dengan meningkatkan kualitas ujaran yang lebih alami untuk bahasa Indonesia. Selanjutnya mengembangkan sintesis ujaran netral menjadi sintesis ujaran berekspresif (beremosi) misalnya emosi sedih, senang, marah, jijik, dan takut, secara semi otomatis atau otomatis sehingga mengurangi intervensi dan campur tangan manusia dalam penciptaan sintesis ujaran berekspresif tersebut. Serta mencari parameter-parameter emosi yang digunakan untuk mensitesis ujaran berekspresif tersebut. Penelitian ini merupakan penelitian eksperimen murni, yaitu penelitian yang dilakukan dengan membuat sebuah prototipe yang diujicoba, pre dan post test selanjutnya dikembangkan dan disempurnakan menjadi aplikasi yang siap untuk digunakan. Metode penelitian dibagi 2 proses, proses pertama yaitu pengumpulan data dan analisis sinyal ujaran dan proses kedua yaitu rancang bangun dari aplikasi sintetis ujaran, dimulai dari analisis sistem, design sistem dan implementasi sistem. Setelah prototype sintesis ujaran sudah diujicoba dalam laboratorium, aplikasi dikembangkan dan disempurnakan untuk diimplementasikan ke masyarakat. Pengusul menggunakan metode statistik parametrik Hidden Markov Model (HMM) berbasis monofon untuk membangun model akustik dari ujaran untuk disintesis menjadi ujaran berekspresif. Dalam pendekatan berbasis model, ujaran diparameterisasi dan dimodelkan menggunakan menggunakan metode statistik HMM. Metode ini menawarkan lebih banyak fleksibilitas untuk menyesuaikan dengan karakteristik ujaran
Kata kunci:
Sintesis Ujaran, Sintesis Ujaran Bereksrpesif Bahasa Indonesia, Hidden Markov Model (HMM), Parameter Ekspresif, Model Akustik.
iii
KATA PENGANTAR Bismillahirrahmanirrahim, Atas berkat rahmat dan karunia Allah SWT, penulis telah dapat menyelesaikan laporan kemajuan Penelitian Produk Terapan dengan judul "Aplikasi Sintesis Ujaran Berekspresif (Expressive Text To Speech) Bahasa Indonesia Menggunakan Hiden Markov Model Untuk Mendukung Industri Kreatif Nasional" ini dengan baik. Ucapan banyak terima kasih penulis sampaikan kepada : 1. Kemenristek Dikti yang telah memberikan dana bagi kami untuk menunjang penelitian ini . 2. LP2M Universitas Dian Nuswantoro yang banyak mendukung dan memfasilitasi penelitian ini. 3. Televisi Kampus Universitas Dian Nuswantoro Semarang 4. Bapak Dr. Abdul Syukur selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro 5. Bapak Dr. Heru Agus selaku Ketua Program Studi Teknik Informatika Universitas Dian Nuswantoro. 6. Dan semua pihak yang tidak dapat kami sebutkan satu per satu.
Penulis sangat mengharapkan masukan dan kritikan yang bermanfaat dalam melanjutkan penelitian ini hingga terselesaikannya laporan disertasi nanti. Aamiin Yaa Rabbal Alamin.
Semarang, 10 Agustus 2016 Penulis
iv
DAFTAR ISI
RINGKASAN ........................................................................................................ iii KATA PENGANTAR ........................................................................................... iv DAFTAR ISI ........................................................................................................... v DAFTAR GAMBAR ............................................................................................ vii DAFTAR TABEL .................................................................................................. ix BAB I ...................................................................................................................... 1 PENDAHULUAN .................................................................................................. 1 1.1 Latar Belakang ........................................................................................ 1 1.2 Permasalahan........................................................................................... 6 1.3 Tujuan Penelitian .................................................................................... 7 1.4 Manfaat Penelitian .................................................................................. 7 1.5 Penelitian Terkait .................................................................................... 7 1.6 Kontribusi Penelitian............................................................................. 16 1.7 Peta Jalan Penelitian.............................................................................. 16 BAB II ................................................................................................................... 18 LANDASAN TEORI ............................................................................................ 18 2.1 Deskripsi Umum Fonetik ...................................................................... 18 2.1.1 Proses Pembentukan Suara atau Bunyi ............................................. 19 2.1.2 Transkripsi Fonetis ............................................................................ 23 2.2 Klasifikasi Bunyi Segmental Bahasa Indonesia .................................... 25 2.2.1 Vokal dan Konsonan ......................................................................... 25 2.2.2 Bunyi Nasal dan Oral ........................................................................ 25 2.2.3 Bunyi Keras dan Lunak ..................................................................... 25 2.2.4 Bunyi Panjang dan Pendek................................................................ 26 2.2.5 Bunyi Nyaring dan Tak Nyaring ....................................................... 26 2.2.6 Bunyi Tunggal dan Rangkap ............................................................. 26 2.2.7 Bunyi Engresif dan Ingresif .............................................................. 26 2.3 Klasifikasi Bunyi Suprasegmental Bahasa Indonesia ........................... 27 2.3.1 Tinggi-Rendah (Nada, Tona, Pitch) .................................................. 27 2.3.2 Keras-Lemah (Tekanan, Aksen, Stress, Amplitudo) ........................ 28 2.3.3 Panjang-Pendek (Durasi) .................................................................. 29 2.3.4 Kesenyapan (Jeda) ............................................................................ 29 2.4 Deskripsi Umum Fonemik .................................................................... 30 2.4.1 Definisi Fonem dan Jenisnya ............................................................ 31 2.4.2 Pelafalan Artikulasi Fonem ............................................................... 32 2.4.3 Klasifikasi Fonem Bahasa Indonesia ................................................ 33 2.5 Sintesis Ujaran ...................................................................................... 36 2.5.1 Sejarah Sintesis Ujaran ..................................................................... 36 2.5.2 Metode Sintesis Ujaran ..................................................................... 37 2.6 Gambaran Sinyal Ujaran Dalam Domain Waktu dan Frekuensi .......... 39 v
2.7 Pengolahan Sinyal Digital ..................................................................... 42 2.7.1 Transformasi Fourier ......................................................................... 42 2.7.2 LPC (Linier Predictive Coding) ........................................................ 44 2.8 Model Markov Tersembunyi (Hidden Markov Model) ........................ 53 2.8.1 Rantai Markov (Markov Chain) ........................................................ 53 2.8.2 Definisi HMM (Hidden Markov Model) ........................................... 56 2.8.3 Elemen HMM ................................................................................... 56 2.8.4 Tipe HMM ........................................................................................ 59 2.8.5 Masalah-Masalah Utama dalam HMM ............................................. 60 2.8.6 Penyelesaian Masalah Menghitung Peluang Pengamatan ................ 61 2.8.7 Penyelesaian Masalah Penentuan Barisan Keadaan Tersembunyi ... 64 2.8.8 Penyelesaian Masalah Menaksir parameter-parameter HMM .......... 65 BAB III ................................................................................................................. 68 METODOLOGI PENELITIAN ............................................................................ 68 3.2.1 Inisialisasi Penelitian ......................................................................... 69 3.2.2 Pemilihan Teks Kalimat Bahasa Indonesia ....................................... 69 3.2.3 Perekaman Data Ujaran..................................................................... 70 3.2.4 Segmentasi dan pelabelan data ujaran............................................... 71 3.2.5 Desain Sistem .................................................................................... 71 3.2.6 Implementasi Sistem ......................................................................... 73 3.2.7 Pengujian Sistem ............................................................................... 73 BAB IV ................................................................................................................. 74 PEMBAHASAN DAN HASIL YANG DICAPAI ............................................... 74 4.1 Gambaran Umum dari Sistem yang Dibuat .......................................... 74 4.2 Detail dari Metode yang Diusulkan ...................................................... 75 4.3 Pemilihan Teks Kalimat Bahasa Indonesia ........................................... 76 4.4 Perekaman Data Ujaran......................................................................... 76 4.5 Segmentasi dan pelabelan data ujaran................................................... 77 4.6 Pengolahan data ujaran (wav) menjadi vektor fitur (feature vectors) ... 79 4.7 Formulasi Statistik dari Sintesis Ujaran berbasis HMM ....................... 80 4.8 Pelatihan (Training) .............................................................................. 83 4.9 Sintesis (Synthesis) ............................................................................... 85 4.11 Capaian Penelitian Saat Ini : ................................................................. 87 BAB V................................................................................................................... 88 KESIMPULAN DAN RENCANA KERJA SELANJUTNYA ............................ 88 5.1 Kesimpulan ........................................................................................... 88 5.2 Rencana Kerja Selanjutnya ................................................................... 88 DAFTAR PUSTAKA ........................................................................................... 89
vi
DAFTAR GAMBAR Gambar :
Halaman
Gambar 1.1
Posisi Penelitian........................................................
17
Gambar 2.1
Organ Ucap Manusia.................................................
21
Gambar 2.2
Sinyal suara yang berbunyi [a] dalam domain waktu
22
Gambar 2.3
Sinyal suara desah yang berbunyi [s] dalam domain
Gambar 2.4
waktu ........................................................................
23
Sinyal sunyi letupan yang berbunyi [t] dalam
23
domain waktu............................................................. Gambar 2.5
Contoh sinyal ujaran "It‟s time"................................
Gambar 2.6
Domain waktu (bawah) dan domain frekuensi (atas) sinyal ujaran dari kalimat “Every Salt Breeze
40
41
Comes From Sea” ..................................................... Gambar 2.7
Model Sintesis Ujaran berbasis Model LPC..............
46
Gambar 2.8
Proses pembingkaian dari sinyal ujaran...................
50
Gambar 2.9
Sistem Pemrosesan Sinyal dengan LPC....................
51
Gambar 2.10
Rantai Markov Diagram Peluang Cuaca...................
54
Gambar 2.11
Rantai Markov...........................................................
55
Gambar 2.12
HMM Model Ergodic...............................................
60
Gambar 2.13
HMM Model Kiri - Kanan .......................................
60
Gambar 3.1
Fishbone Chart Bagan Alir Penelitian.......................
69
Gambar 3.2
Alur sistem pengubahan teks ke ujaran.....................
72
Gambar 4.1
Sistem Sintesis Ujaran Berekspresif Bahasa
74
Indonesia ................................................................... Gambar 4.2
Detail Sistem Sintesis Ujaran Berekspresif Bahasa
75
Indonesia................................................................... Gambar 4.3
Proses rekaman pembuatan corpus ujaran di studio Televisi Kampus Universitas Dian Nuswantoro.......
77
Gambar 4.4
Proses segmentasi dan pelabelan data ujaran...........
78
Gambar 4.5
Proses segmentasi dan pelabelan data ujaran...........
78
Gambar 4.6
Fitur vektor dari data ujaran......................................
80
Gambar 4.7
Sistem Sintesis Ujaran berbasis HMM......................
82
vii
Gambar 4.8
Formulasi Statistik dalam Sintesis Ujaran berbasis HMM ........................................................................
Gambar 4.9
Formulasi statistik pembentukan model HMM pada tahap pelatihan...........................................................
Gambar 4.10
85
Source-filter model untuk memproduksi sebuah ujaran........................................................................
Gambar 4.12
84
Formulasi statistik dari pembangkitan parameter ujaran pada tahap sintesis.........................................
Gambar 4.11
83
86
Asumsi model pembangkitan ujaran. Eksitasi diciptakan oleh penyaringan (filtering) statedependent dari pulse train (voiced) dan Gaussian white noise (unvoiced)...............................................
viii
86
DAFTAR TABEL Tabel :
Halaman
Tabel 1.1
Perbandingan Beberapa Metode Sintesis Ujaran.......
5
Tabel 1.2
Riset terkait tentang parameter ekspresif....................
8
Tabel 1.3
Riset terkait tentang sintesis ujaran............................
9
Tabel 2.1
Transkripsi Fonetis Bahasa Indonesia........................
24
Tabel 2.2
Fonem Bahasa Indonesia...........................................
34
Tabel 2.3
Matriks distribusi peluang transisi-keadaan cuaca.......
54
Tabel 2.4
Matriks Emisi dari HMM..........................................
58
Tabel 3.1
Jadwal Penelitian ........................................................
85
ix
BAB I PENDAHULUAN
1.1
Latar Belakang Ujaran adalah cara komunikasi yang paling alami antara manusia ke
manusia lain. Menurut [1] sintesis ujaran adalah metode meniru bagian pembangkitan dari
komunikasi ucapan yang alami. Sedangkan menurut
[2]
sintesis ujaran adalah proses mengkonversi pesan dalam bentuk teks menjadi pesan dalam bentuk lisan yang setara. Sintesis ujaran berkspresif merupakan kegiatan mensintesis ujaran dan menambahkan berbagai ekspresi yang berkaitan dengan emosi dan gaya berbicara yang berbeda untuk ujaran yang disintesis Kamus besar bahasa Indonesia mengartikan ekspresif adalah mengungkapkan sebuah perasaan atau sebuah emosi. Ekspresif didefinisikan sebagai indikator vokal pada berbagai keadaan emosional yang dicerminkan dalam bentuk gelombang ujaran [3]. Emosi yang berbeda dan gaya berbicara juga dianggap sebagai bentuk ekspresif [2][4]. Sintesis ujaran berekspresif dapat membantu manusia dan mesin untuk berkomunikasi dengan cara yang lebih alami. Berbagai aplikasi yang memanfaatkan sintesis ujaran sangat luas digunakan, dari jam sederhana yang dapat berbicara, sistem pesan telepon dengan kosakata kecil dan terbatas, 3D talking head dengan sintesis teks terbatas dan sinkronisasi kepala dan gerakan mulut, aplikasi pembaca cerita (storytelling) untuk anak-anak agar lebih efektif dan menarik perhatian dengan menciptakan ekspresi yang berbeda dalam konteks yang berbeda pada sebuah cerita [5], aplikasi sistem informasi untuk membuat pengumuman dalam gaya berbicara yang berbeda kepada pengguna [4], aplikasi militer untuk mensimulasikan perintah dengan ujaran berteriak (shouted command) , percakapan dengan ujaran berteriak (shouted conversation), perintah ujaran normal dan percakapan ujaran normal untuk karakter animasi dan animasi kartun. Sintesis ujaran digunakan untuk aplikasi TTS (text to speech), telah banyak digunakan untuk orang dengan cacat jasmani seperti tuna netra dan tuna
1
wicara. Raymond Kurzweil pada tahun 1976 memperkenalkan Kurzweil Reading Machine [6] dengan scanner optik, pengenalan karakter dan TTS, untuk membaca teks dari kertas yang sangat berguna untuk tuna netra. Dengan menggunakan scanner, software OCR dan TTS juga bisa dibuat mesin pembaca text pada personal computer (PC) sehingga bisa digunakan untuk membaca e-mail, berita dan konten web lainnya. TTS juga digunakan dalam dunia pendidikan. Sebuah komputer dengan sinteses ujaran adalah guru yang selalu tersedia dan sabar. Hal ini dapat digunakan dalam mengajar bahasa asli atau bahasa asing. Sistem TTS bisa mengeja dan mengucapkan suku kata, kata, frasa dan kalimat membantu siswa sesuai kebutuhan. Hal ini juga dapat digunakan dengan aplikasi pendidikan interaktif. Terutama bagi orang yang memiliki gangguan dalam membaca (dyslexics), sintesis ujaran mungkin akan sangat membantu. Dalam multimedia dan telekomunikasi, TTS telah digunakan untuk pembaca pengumuman di gedung bioskop, pembaca email, pembaca SMS, aplikasi multi-modal yang populer dan terkenal yaitu Ananova Video Reports Service (seorang reporter berita buatan) berbasis web. Sebuah animasi perempuan sintetis pembaca berita seperti layaknya seorang reporter berita yang nyata. Perbedaannya adalah bahwa Ananova melakukan pembacaan kapan saja. Penggunaan lain TTS dalam sistem speech-tospeech language translation. Sistem mengenali masukan ujaran yang diucapkan, menganalisa dan menerjemahkannya, dan akhirnya mengucapkan kembali terjemahan ke bentuk ujaran dalam bahasa sudah diterjemahkan. Dalam proyek VERBMOBIL yang berorientasi bisnis, diimplementasikan dalam tiga bahasa yaitu bahasa Jerman, Inggris, dan Jepang. [7]. Terdapat empat tantangan dalam penelitan di bidang sintesis ujaran yaitu kejelasan (intelligibility), kealamian (naturalness), efektifitas biaya (costeffectiveness) dan ekspresifitas (expressivity). Di bidang industri tidak hanya mengharapkan kejelasan, kealamian, tetapi juga efektifitas biaya. Diharapkan sintesis ujaran hanya membutuhkan beberapa megabyte untuk
penyimpanan
(small footprint), kapasitas kecil CPU (small CPU), mudah dikembangkan ke bahasa lain dan kemungkinan menciptakan suara baru secepat mungkin. Sedangkan tantangan ekspresifitas, menjadi tren riset sintesis ujaran saat ini. Hal ini disebabkan saat ini sebagian besar sintesis ujaran dalam gaya netral (mirip
2
penyiar berita) dan kebutuhan interaksi manusia dengan komputer yang lebih alami dan berafeksi sangat dibutuhkan Banyak penelitan telah dilakukan di bidang sintesis ujaran, secara kualitas, kejelasan dan kealamian dari ujaran yang disintesis cukup memadai. Sedangkan penelitian pengembangan dari sintesis ujaran terus berlanjut. Pengembangan dari sintesis ujaran dilakukan baik pada metode untuk sintesis maupun pengembangan sintesis ujaran yang berekspresif. Beberapa metode sintesis ujaran sudah dalam pengembangan selama beberapa dekade. Ada empat teknologi utama saat ini yang digunakan untuk sintesis ujaran, yaitu sintesis ujaran artikulatoris (articulatory speech synthesis), sintesis ujaran formant (formant speech synthesis), sintesis ujaran perangkaian (concatenative speech synthesis) dan sintesis ujaran statistik parametrik (statistical parametric synthesis). Sintesis ujaran artikulatoris adalah memodelkan berbagai proses artikulasi yang terlibat dalam produksi ujaran dan menggunakan pengetahuan tersebut untuk mensintesis bunyi ujaran yang diharapkan berkualitas baik. Berbagai tahapan dalam pengembangan sintesis ujaran artikulatoris adalah sebagai berikut: 1) Akuisisi data artikulatoris (articulatory data acquisition), 2) Pemodelan geometris saluran vokal (geometric modeling of vocal tract), dan 3) Pemodelan akustik untuk sintesis. Sintesis ujaran artikulatoris didasarkan pada teori fisika, konstruksi dan pemetaan model geometris membuat komputasi kompleks. Juga pemodelan koartikulasi yang tidak tepat menyebabkan degradasi dalam ujaran yang disintesis. Kompleksitas komputasi dan kealamian yang berkurang membuat pendekatan sintesis ujaran artikulatoris kurang populer dibandingkan dengan pendekatan lain yang sudah ada untuk sintesis ujaran. Sintesis ujaran formant (formant speech synthesis) dikembangkan sampai tahun 1990. Sintesis ujaran formant tidak menggunakan contoh ujaran manusia pada saat runtime. Keluaran ujaran yang disintesis dibuat menggunakan model akustik. Parameter seperti frekuensi dasar, penyuaraan, dan tingkat derau bervariasi menurut waktu untuk membuat bentuk gelombang ujaran buatan. Banyak
sistem
menggunakan
teknologi
sintesis
ujaran
formant
untuk
membangkitkan ujaran buatan seperti robot. Meskipun ujaran yang disintesis
3
dengan formant hasilnya masih dapat dipahami, tapi suaranya tidak alami, hal ini merupakan kelemahan utamanya. Sintesis
ujaran
perangkaian
(concatenative
speech
synthesis)
dikembangkan setelah tahun 1990, merupakan sintesis berdasarkan pada rentetan bagian ujaran yang telah direkam. Ide dasar dalam sintesis ujaran perangkaian adalah sintesis dengan menggabungkan segmen-segmen dari gelombang ujaran alami yang disimpan dalam database [2][8][9]. Segmen-segmen tersebut dapat berupa kata-kata (words), unit sub-kata (subword unit) seperti fonem (phonemes), diphones dan suku kata (syllables). Sintesis ujaran perangkaian banyak digunakan luas, bekerja dengan prinsip pada pemilihan unit(unit selection). Sistem sintesis perangkaian pemilihan unit yang populer adalah unisyn, clunits dan multisyn [10][11][8][9]. Sistem ini berbeda satu sama lain dalam hal jenis satuan (unit), database dan kriteria pemilihan unit (unit selection criteria) yang digunakan untuk mesintesis ujaran. Sistem pemilihan unit unisyn menggunakan difon (diphone) sebagai unit dasar untuk perangkaian (concatenation). Untuk sistem pemilihan unit clunits, unit-unit dasar yang dirangkaikan adalah fonem tunggal/monofon (monophone). Sedangkan sistem sintesis ujaran perangkaian berbasis pemilihan unit multisyn, digunakan difon sebagai unit dasar dari concatenation (perangkaian). Difon yang diperlukan untuk perangkaian pemilihan unit multisyn diambil dari database besar berlabel difon dari 4-5 jam rekaman ujaran kontinyu (continuous speech). Sedangkan pada pemilihan unit unisyn menggunakan contoh tunggal difon. Dalam perangkaian antar unit terjadi diskontinyu pada titik perangkaian. Teknik pemrosesan sinyal, seperti Time Domain Pitch Synchronous Overlap Add (TD-PSOLA), digunakan untuk merperhalus diskontinuitas pada titik perangkaian [12][13]. Pada umumnya, sintesis ujaran perangkaian menghasilkan suara dengan kealamian lebih tinggi dari sintesis ujaran formant. Meskipun ada kemajuan dalam sintesis dengan pendekatan artikulatoris dan sintesis dengan pendekatan formant sintesis, namun sintesis dengan pendekatan perangkaian berbasis pemilihan unit tetap sebagai pendekatan sintesis ujaran yang banyak digunakan. Sintesis ujaran statistik parametrik mengikuti pendekatan berbasis model untuk sintesis ujaran. Berbeda dengan sistem sintesis ujaran perangkaian, dalam
4
sintesis ujaran perangkaian yang disimpan dalam repositori adalah unit yang berupa segmen-segmen dari rekaman ujaran asli, sedangkan pada sintesis ujaran statistik parametrik yang disimpan adalah model yang sesuai untuk setiap unit. Dalam pendekatan berbasis model, ujaran diparameterisasi dan menggunakan metode statistik untuk membangun model untuk parameter-parameter ujaran ini, maka dinamakan sintesis ujaran statistik parametrik [14]. Dalam sintesis ujaran statistik parametrik, model statistik parametrik yang dibangun menggunakan model HMM (Hidden Markov Model). Oleh karena itu sintesis ujaran statistik parametrik juga dikenal sebagai sintesis ujaran berbasis HMM [2][15]. Sintesis ujaran statistik parametrik menawarkan lebih banyak fleksibilitas untuk menyesuaikan karakteristik ujaran dibandingkan ke sistem sintesis ujaran perangkaian berbasis pemilihan unit. Karena sintesis ujaran statistik parametrik menggunakan vocoder untuk mensintesis ujaran, bunyi ujaran yang disintesis sedikit tidak alami dibandingkan dengan ujaran yang disintesis menggunakan sintesis ujaran perangkaian. Namun, beberapa penelitian sedang dikembangkan untuk meningkatkan kualitas dari ujaran yang disintesis menggunakan sintesis ujaran statistik parametrik dengan memasukkan parameter glotal source [16], parameter artikulasi [17], dan lain-lain. Tabel 1.1 Perbandingan Beberapa Metode Sintesis Ujaran Intelligibility
Naturalness
Cost-
Expressivity
effectiveness Articulatory
Formant
Concatenative
HMM
Meskipun banyak perkembangan dalam sintesis ujaran artikulatoris dan sintesis ujaran formant dalam beberapa tahun terakhir, saat ini sistem sintesis
5
ujaran perangkaian berbasis pemilihan unit dan sistem sintesis uajran berbasis statistik parametrik (HMM) adalah pendekatan yang paling banyak digunakan di bidang sintesis ujaran. Oleh karena itu untuk mengembangkan kualitas yang lebih dari sintesis ujaran netral maupun sintesis ujaran ekspresif, dapat digunakan sistem sintesis ujaran perangkaian berbasis pemilihan unit atau sistem sintesis ujaran statistik parametrik (HMM). Kini, sintesis ujaran dengan kualitas baik telah tersedia untuk sejumlah bahasa, misalnya Bahasa Inggris, Perancis, Belanda, Jerman dan beberapa bahasa lainnya. Namun demikian, sintesis ujaran untuk bahasa Indonesia sampai saat ini masih sedikit yang mengembangkannya. Aplikasi text to speech IndoTTS yang dibuat dan dipublikasikan di Indonesia oleh [18], menggunakan sintesis ujaran perangkaian (concatenation) berbasis difon. Perangkaian difon merupakan teknik yang saat ini digunakan untuk sintesis ujaran pada aplikasi TTS bahasa Indonesia. Sedangkan di lingkup internasional, salah satu perusahaan yang telah menghasilkan TTS berkualitas baik adalah perusahaan Lernout and Hauspie di Belgia. Perusahaan tersebut sudah memproduksi sistem TTS berkualitas baik untuk bahasa Inggris, Jerman, Perancis, Belanda, Spanyol dan Portugis.
1.2
Permasalahan Dengan memperhatikan latar belakang yang telah dijelaskan sebelumnya,
maka dapat dirumuskan permasalahan sebagai berikut : 1.
Penelitian di bidang ujaran bahasa Indonesia yang berekpresif masih jarang dilakukan sehingga sulit menemukan referensi jurnal atau proceeding dalam hal penentuan parameter ekspresif
dari ujaran
beremosi bahasa Indonesia. 2.
Ujaran adalah salah satu saluran komunikasi yang paling banyak dipakai manusia dalam berkomunikasi. Dari penelitian yang ada, sintesis ujaran terutama untuk bahasa Indonesia, belum memiliki kualitas baik dalam hal kejelasan, kealamian dan ekspresifitas.
6
1.3
Tujuan Penelitian
Tujuan penelitian yang akan dilakukan, diuraikan sebagai berikut : 1.
Menciptakan sistem sintesis ujaran netral bahasa Indonesia dengan meningkatkan kualitas ujaran yang lebih jelas dan alami.
2.
Meningkatkan kualitas ujaran tersintesis, tidak hanya jelas dan alami, tetapi juga berekspresif (sedih, senang, marah dan netral), secara semi otomatis atau otomatis sehingga mengurangi intervensi dan campur tangan manusia dalam penciptaan sintesis ujaran berekspresif tersebut.
3.
Dalam penciptaan sistem sintesis ujaran dan peningkatan kualitas ujaran tersintesis menggunakan Model Markov Tersembunyi.
1.4
Manfaat Penelitian Penelitian yang dilakukan mempunyai manfaat untuk masyarakat, baik
masyarakat akademik maupun non akademik. Adapun beberapa manfaat dari penelitian ini, diharapkan hasil penelitian sintesis ujaran bahasa Indonesia dapat digunakan untuk aplikasi pada bidang-bidang lain yang terkait, antara lain untuk beberapa aplikasi seperti : text to speech, speech to speech language translation system, pembaca email, pembaca sms, storytelling, talking head system, penyampai informasi pada kawasan terbatas, call center dan lain-lain. Aplikasiaplikasi tersebut akan sangat bermanfaat bagi para penyandang tuna netra dan tuna wicara. 1.5
Penelitian Terkait Sintesis ujaran berekpresif merupakan bidang riset yang banyak diteliti
dan dikembangkan saat ini. Sub-bab ini menyajikan pemetaan penelitian tentang parameter ekspresif dan sintesis ujaran yang dilakukan diantara penelitianpenelitian yang ada. Rincian dari keterkaitan penelitian ini diilustrasikan pada tabel 1.2 dan tabel 1.3.
7
Table 1.2 Riset terkait tentang parameter-parameter ekspresif Pengarang
Emosi
Tipe data ekspresif yang digunakan disimulasi oleh aktor
Parameter Ekspresif yang diselidiki F0 mean, F0 range, speech rate dan Energy
Williams and Stevens (1972) [19]
anger, sorrow, fear, neutral
Scherer (1986)[3]
happy, cold anger, hot anger, anxiety, disgust, sad
disimulasi oleh aktor
Murray and Arnott (1993)[20]
angry, happy, sad, fear, disgust
disimulasi oleh aktor
F0 parameters, F1 mean, F2 Mean dan Formant Bandwidth Speech rate, F0 mean, F0 range dan Intensity
Whiteside (1998)[21]
cold anger, hot anger, happy, sad, interest, elation tense, neutral, irritated, happy, depressed, bored, anxious
Mean dari seluruh jitter, Mean dari seluruh shimmer Jitter, Glottal closing Time
Signifikansi jitter dan shimmer dalam mendiskriminasi (membedaaan ) emosi
Jhonstone and Scherer (1999)[22]
Ishii and Campbell (2002)[23] Hashizawa et al. (2004)[24]
neutral, worried, bored, polite, depressed, angry angry, happy,sad
5 kalimat pendek disimulasi oleh dua Speakers data (EGG, EMG and speech) dikumpulkan selama event game komputer perekaman percakapan telepon alami kata terisolasi yang disimulasikan oleh penyiar radio profesional
F0 parameters, F3 mean, F4 mean Speech rate, F0 max dan Pitch Accent
F4 mempengaruhi kualitas suara yang berbeda 1. F0 max lebih tinggi untuk marah 2. Untuk emosi happy, baik aksen dan F0 akan ditingkatkan 3. F0 dan aksen ditekan untuk emosi sad
A. A. Razak, R. Komiya, M. Izani, and Z. Abidin, (2005), [25]
happy, sad, fear, anger, surprise dan disgust
6 emosi dasar happy, sad, fear, anger, surprise dan disgust dalam bahasa Malaysia dan Inggris.
Energy, LPC Coefficients, Durasi, Pitch dan Jitter
Parameter tersebut digunakan dalam mendeteksi emosi dari ujaran untuk klasifikasi emosi.
8
Temuan 1. F0 kontur sebagai indikator kondisi emosional yang berbeda 2. Parameter F0 dari simulasi dan real emosi adalah sama Parameter F0 bersama dengan parameter VT mewakili sifat akustik dari emosi Menekankan peran parameter prosodi dalam sintesis emosi
EGG signal memberikan emotion dependent characteristics
Pengarang
Emosi
Cabral and Oliveira (2006)[26]
angry, happy, sad, fear, surprise, boredom, disgust
Bulut and Narayanan (2008)[27]
angry, happy, sad, neutral
Tipe data ekspresif yang digunakan disimulasi oleh aktor
disimulasi oleh profesional dan non-profesional aktor
Parameter Ekspresif yang diselidiki Jitter, shimmer, glottal wave parameters (OQ, SQ, RQ) F0 mean, F0 range, F0 stylization characteristics
Temuan Tingkat pengenalan yang lebih baik diperoleh untuk happy, angry dan fear. Perubahan dalam F0 range mengubah secara signifikan emosi yang dirasakan
Table 1.3 Riset terkait tentang sintesis ujaran Pengarang dan diterbitkan Mermelstein, P. (1973). The Journal of the Acoustical Society of America, 53, 1070–1082. [28] Gauffin, J., & Sundberge, J. (1978), Phonetica, vol. 35, no. 3, pp. 157–168 [29] Narayanan, S. S., Alwan, A. A., & Haker, K. (1995). The Journal of the Acoustical Society of America, 98(3), 1325–1347. [30] Palo, P. (2006). Master‟s thesis, Helsinki University of Technology.
Judul
Diskripsi Singkat
Articulatory model for the study of speech production.
Membahas sintesis ujaran artikulatoris. Memodelkan berbagai proses artikulasi yang terlibat dalam produksi ujaran dan menggunakan pengetahuan itu untuk mensintesis ujaran, dalam akuisisi data artikulasi menggunakan sensor x-ray
Pharyngeal constrictions.
Data artikulatoris diperoleh dengan menggunakan sensor fiberscope. Memodelkan berbagai proses artikulasi yang terlibat dalam produksi ujaran dan menggunakan pengetahuan tersebut untuk mensintesis ujaran. Membahas sintesis ujaran artikulatoris. Memodelkan berbagai proses artikulasi yang terlibat dalam produksi ujaran dan menggunakan pengetahuan itu untuk mensintesis ujaran. Data artikulatoris diperoleh dengan menggunakan sensor magnetic resonance imaging
Fant, G. (1970). Walter de Gruyter.[31]
Acoustic theory of speech production.
An articulatory study of fricative consonants using magnetic resonance imaging.
A review of articulatory speech synthesis
Tesis ini mengulas literatur mengenai sintesis ujaran artikulatoris. Tujuan adalah untuk melihat bentuk sintesis ujaran artikulatoris dari sudut pandang penelitian ujaran dasar. Berbagai tahapan dalam pengembangan sintesis ujaran artikulatoris adalah akuisisi data artikulatoris (articulatory data acquisition), pemodelan geometris saluran vokal (geometric modeling of vocal tract), dan pemodelan akustik untuk sintesis (acoustic modeling for the synthesis). Membahas sintesis ujaran formant yang menggunakan model produksi ujaran dalam melakuan sintesis. Sintesis ujaran formant dikembangkan berdasarkan teori source filter produksi ujaran
9
Pengarang dan diterbitkan Klatt, D. H. (1980). The Journal of the Acoustical Society of America, 67, 971–995.[32]
Judul
Diskripsi Singkat
Software for a cascade/parallel formant synthesizer.
Cahn, J. E. (1989). Proc.American voice I/O society. [33] Hunt, A., & Black, A. (1996). Proc. ICASSP (pp. 373–376). [34]
The generation of affect in synthesized speech
Clark, R. A. J., Richmond, K., & King, S. (2007). Speech Communication, 49, 317–330. [35] Black, A. W., & Campbell, N. (1995). Proc. EUROSPEECH. [36]
Multisyn: opendomain unit selection for the Festival speech synthesis system.
Sintesis ujaran formant melibatkan simulasi pada frekuensi formant, amplitudo formant dan karakteristik source glotal untuk setiap unit suara. Saluran vokal disimulasikan dengan menggunakan satu set resonator dihubungkan secara kaskade atau paralel. Merupakan teknik populer untuk sintesis ujaran forman dikembangkan oleh Klatt. Parameter-parameter bersesuaian yang dengan formant dan sumber suara disetel secara manual untuk mensintesis ujaran dengan kualitas baik Menggunakan sintesis ujaran formant untuk aplikasi sintesis ujaran beremosi dengan memberikan fleksibilitas untuk memvariasikan kualitas suara pada ujaran yang disintesis dengan memvariasikan parameter kontrol dari sumber suara dan sistem Pendekatan pembangkitan suara alami dari sintesis ujaran dengan cara memilih (selection) dan merangkai (concanate) unit dari database ujaran besar. Unit digunakan adalah fonem yang dipilih untuk menghasilkan realisasi alami dari urutan fonem target yang diperkirakan dari teks yang dilabeli dengan prosodi dan informasi konteks fonetic. Framework sistem memiliki banyak kesamaan dengan pengenalan suara berbasis HMM. Sebuah pencarian Viterbi dipangkas digunakan untuk menyeleksi unit terbaik untuk sintesis dari database.. Menyajikan implementasi dan evaluasi dari sintesis ujaran menggunakan pemilihan unit, mesin didesain untuk domain terbuka. Menggunakan unit difons untuk perangkaian sistem tersebut, dipilih dari database besar berlabel difon dari 4 sampai dengan 5 jam rekaman ujaran kontinyu (continuous speech)
Zen, H., Toda, T., Nakamura, M., & Tokuda, K. (2007). IEICE Transactions on Information and Systems E, 90-D, 325–333.
Details of nitech HMM-based speech synthesis system for the Blizzard challenge 2005.
Unit selection in a concatenative speech synthesis system using a large speech database.
Optimising selection of units from speech database.
Sintesis ujaran menggunakan perangkaian unit dari ujaran netral. Sistem tersebut menggunakan inventarisasi unit dengan panjang tetap, dalam bentuk difon atau triphone dengan satu sampel dari masing-masing jenis. Juga menggunakan unit yang bervariasi, unit tak seragam diambil dari database ujaran besar yang berisi beberapa sampel dari masing-masing. Semakin besar variabilitas dalam segmen ujaran alami memungkinkan pemodelan dekat kealamian dengan perbedaan dalam gaya berbicara, dan menghilangkan kebutuhan untuk melakukan rekaman khusus database. Namun, dengan variabilitas yang lebih besar menimbulkan masalah bagaimana memilih diantara banyak sampel unit dalam database. Paper ini membahas metode untuk memilih unit. Sebuah evaluasi terbuka dari sistem text-to-speech sintesis berbasis corpus menggunakan dataset ujaran umum dinamakan Blizard Challenge 2005. Menggambarkan proses membangun dan kinerja dari sistem sintesis ujaran berbasis HMM.
10
Pengarang dan diterbitkan Moulines, E., & Charpentier, F. (1990). Speech Communication, 9, 452–467. [37]
Judul
Diskripsi Singkat
Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones.
Zen, H., Tokuda, K., & Black, A. (2009). Speech Communication, 51, 1039–1064. [38] King, S. (2011). Sadhana, 36(5), 837–852. [14]
Statistical parametric speech synthesis.
T. En-Najjary, O. Rosec, and T. Chonavel, (2004), Proc. 8th Int. Conf. Spoken Lang. Process., Jeju, Korea.[39]
A voice conversion method based on joint pitch and spectral envelope transformation
Meninjau kerangka umum (common framework) beberapa algoritma yang digunakan untuk meningkatkan kualitas suara pada text-to-speech sintesis berbasis perangkaian unit akustik. Menyajikan algoritma pitch-synchronous overlap-add (PSOLA) untuk memodifikasi prosodi ujaran dan merangkai bentuk gelombang ujaran. Modifikasi dari sinyal ujaran yang dilakukan dalam domain frekuensi (FDPSOLA), menggunakan Fast Fourier Transform, ataupun langsung dalam domain waktu (TD-PSOLA), tergantung pada panjang dari window yang digunakan dalam proses sintesis. Pendekatan frekuensi domain mampu memberikan fleksibilitas yang besar dalam memodifikasi karakteristik spektral dari sinyal ujaran, sedangkan pendekatan waktu domain menyediakan solusi yang sangat efisien untuk pelaksanaan real time dari sistem sintesis. Juga membahas berbagai jenis distorsi muncul dalam dari beberapa algoritma yang berbeda. Memberikan gambaran umum teknik yang digunakan dalam sintesis ujaran menggunakan statistik parametrik. Salah satu contoh dari teknik ini adalah Sintesis ujaran berbasis hidden Markov Model (HMM) yang baru-baru ini terbukti sangat efektif digunakan dalam sintesis ujaran. Teknik sebelumnya yang banyak mendominasi dalam sintesis ujaran adalah perangkaian menggunaan unit seleksi. Memperkenalkan sintesis ujaran menggunakan pendekatan statistik parametrik berbasis hidden markov model (HMM). Teknik ini telah menjadi kompetitor dari teknik perangkaian (concatenative) yang digunakan lebih dulu beberapa tahun terakhir. Sebagian besar penelitian dalam konversi ujaran (voice convertion) dikhususkan untuk transformasi spektral, sementara konversi fitur prosodi pada dasarnya diperoleh melalui transformasi linear sederhana dari pitch. Masing-masing transformasi menyebabkan pidato kualitas konversi tidak memuaskan, terutama ketika gaya berbicara (speaking style) dari sumber dan target speaker yang berbeda. Metode yang diusulkan mampu bersama-sama mengubah pitch dan informasi envelope spektral. Parameter untuk diubah diperoleh dengan menggabungkan nilai-nilai skala pitch dengan parameter envelope spektral untuk frame voice dan hanya parameter envelope spektral untuk unvoice. Parameter ini dikelompokkan menggunakan Gaussian Mixture Model (GMM). Kemudian fungsi transformasi ditentukan dengan menggunakan estimator ekspektasi bersyarat. Pengujian dilakukan menunjukkan bahwa, proses ini mengarah pada transformasi pitch memuaskan. Selain itu, membuat transformasi envelope spektral lebih robust.
An introduction to statistical parametric speech synthesis.
11
Pengarang dan diterbitkan O. Türk and M. Schröder, (2008), Proc. Interspeech, Brisbane, Australia, pp. 2282–2285. [40]
Judul
Diskripsi Singkat
A comparison of voice conversion methods for transforming voice quality in emotional speech synthesis
Y. Stylianou, (1999), Proc. IEEE ICASSP, Phoenix, AZ. [41]
Assessment and correction of voice quality variabilities in large speech databases for concatenative speech synthesis
J. Latorre, K. Iwano, and S. Furui, (2005), Proc. IEEE ICASSP, vol. 1, pp. 1–4. [42]
Polyglot synthesis using a mixture of monolingual corpora
F. Tesser, P. Cosi, C. Drioli, and G. Tisato, (2005), Proc. Interspeech, Lisbon, Portugal. [43]
Emotional festival-Mbrola TTS synthesis
Menyajikan perbandingan metode untuk mengubah kualitas suara dalam sintetis ujaran netral untuk mencocokkan gaya ekspresif ceria, agresif, dan depresi. Ujaran netral dihasilkan dengan menggunakan sistem pemilihan unit di platform MARY TTS dan database netral yang besar bahasa Jerman. Outputnya dimodifikasi menggunakan teknik konversi suara untuk mencocokkan target gaya ekspresif, fokus berada di konversi envelope spektral untuk mengubah kualitas suara secara keseluruhan. Berbagai perbaikan menghasilkan tiga algoritma. Untuk meningkatkan kealamian sintesis ujaran concatenative menggunakan database ujaran besar. Sementara itu diinginkan memberikan variasi karakteristik prosodi dan spektral dalam database, tidak diinginkan untuk memiliki kualitas suara yang variabel. Dalam makalah ini kami menyajikan metode otomatis untuk penilaian dan koreksi kualitas suara, bila diperlukan, database ujaran besar untuk sintesis ujaran concatenative. Metode yang diusulkan didasarkan pada penggunaan Gaussian Mixture Model (GMM), untuk memodel ruang akustik dari speaker pada database dan autoregressive filter untuk kompensasi. Metode objektif untuk mengukur efektivitas pada koreksi database berdasarkan fungsi likelihood untuk untuk speaker GMM, disajikan juga. Hasil obyektif dan subjektif menunjukkan bahwa metode yang diusulkan berhasil mendeteksi masalah kualitas suara dan berhasil mengoreksi mereka. Hasil menunjukkan peningkatan 14,2% dari fungsi log likelihood setelah kompensasi. Mengusulkan sebuah pendekatan baru untuk sintesis multibahasa didasarkan pada teknik sintesis HMM. Idenya terdiri dari menggabungkan data dari speaker monolingual yang berbeda di berbagai bahasa untuk membuat suara rata-rata polyglot tunggal. Rata-rata suara kemudian diubah menjadi suara speaker nyata dari salah satu bahasa tersebut. Ujaran disintesis dengan cara ini memiliki kejelasan sama dan mempertahankan individualitas yang sama untuk semua bahasa dicampur untuk menciptakan suara ratarata, terlepas dari bahasanya sendiri untuk target speaker. Pengembangan prosedur umum data-driven untuk menciptakan modul prosodi netral "narasi-style" untuk FESTIVAL Text-To-Speech (TTS) sintesis Italia, dan fokus untuk menyelidiki dan menerapkan strategi baru untuk membangun FESTIVAL TTS emosional baru. Modul prosodi emosional yang baru, sama dengan kasus netral, masih didasarkan pada teori “Classification And Regression Tree” (CART). Tambahan untuk sintesis pidato emosional diperoleh dengan menggunakan pendekatan diferensial: modul prosodi emosional mempelajari perbedaan antara netral (tanpa emosi) dan data prosodi emosional. Selain itu, karena fakta bahwa kualitas suara (voice quality/VQ) dikenal untuk memainkan peran penting dalam ujaran emotif, sebuah modul FESTIVAL-MBROLA VQ-modifikasi berbasis aturan, untuk mengendalikan karakteristik temporal dan spektral pada sintesis telah diimplementasikan .
12
Pengarang dan diterbitkan T. Dutoit and H. Leich, (1993), Speech Commun., vol. 13, pp. 435–440.[44] K. Hirose, Proc. Interspeech, (2004), pp. 1349–1352. [45]
E. Zovato, A. Pacchiotti, S. Quazza, and S. Sandri, (2004), Proc. 5th ISCA Speech Synth. Workshop, Jun. [46] G. Beller and X. Rodet, (2007), Proc. 16th Int. Congr. Phonetic Sci., Saarbrücken, Germany, pp. 2157–2160. D. Jiang, W. Zhang, L. Shen, and L. Cai, (2005), Proc. IEEE ICASSP, Mar. , vol. 1, pp. 281–284. [47]
Judul
Diskripsi Singkat
MBR-PSOLA: Text-tospeech synthesis based on a MBE re-synthesis of segments database Improvement in corpusbased generation of f0 contours using generation process model for emotional speech synthesis Towards emotional speech synthesis: A rule based approach
Modifikasi kualitas suara berbasis aturan yang dikombinasi dengan prediksi prosody ekspresif berbasis decision tree terintegrasi dengan TTS dengan framework MBROLA
Content-based transformation of the expressivity in speech
Prosody analysis and modeling for emotional speech synthesis
Teknologi sintesis ujaran berbasis HMM digunakan untuk memprediksi dan mendapatkan ekspresif dari kontur f0. Corpus ujaran mencakup empat jenis ujaran emosional (anger, joy, sadness dan calm ) diucapkan oleh narator perempuan.
Menggambarkan kerangka yang digunakan untuk mensimulasikan tiga dasar gaya emosional dengan cara teknik transplantasi prosodi diterapkan pada output dari sistem sintesis ujaran berbasis corpus. Profil target pitch bersama-sama dengan durasi dan energi terbatas telah diperoleh dengan menerapkan aturan sederhana disimpulkan dari analisis dari corpus kecil dan dicatat dalam tiga gaya emosional. Hasil tes persepsi menunjukkan bahwa gaya emosional dikenali dengan baik bahkan, jika kualitas akustiknya rendah. Menggunakan prinsip phase vocoder untuk membangkitkan emosi dari ujaran berbasis konten
Sistem Text-to-Speech concatenative dapat mensintesis emosi bervariasi, tetapi kehalusan dan beberapa hasil terbatas karena diperlukan data ujaran emosional yang besar. Dipelajari pendekatan yang lebih fleksibel berdasarkan pada analisis dan pemodelan fitur prosodi emosional. Tes perseptual pertama dilakukan untuk menyelidiki apakah hanya dengan memanipulasi fitur prosodi dapat mencapai tujuan komunikasi emosi. Algoritma adaptasi diusulkan untuk memprediksi fitur prosodi emosional. Model variasi prosodi dengan isyarat linguistik dan isyarat emosi secara terpisah hanya membutuhkan data dengan jumlah kecil. Hasil percobaan pada bahasa Mandarin menunjukkan bahwa algoritma adaptasi dapat memperoleh fitur prosodi emosional yang tepat, dan beberapa emosi dapat disintesis tanpa menggunakan corpus emosional khusus.
13
Pengarang dan diterbitkan M. Bulut, C. Busso, S. Yildirim, A. Kazemzadeh, M. C. Lee, S. Lee, and S. Narayanan, (2005), Proc. Interspeech, Lisbon, Portugal. [48]
Judul
Diskripsi Singkat
Investigating the role of phoneme-level modifications in emotional speech resynthesis
Ditunjukkan bahwa emosi dalam ujaran dimanifestasikan sebagai tren supra-segmental, parameter variasi yang berbeda dalam prosodi tingkat fonem dan parameter spektral. Diselidiki lebih lanjut pentingnya parameter ini untuk sintesis ujaran emosional. Secara khusus, dipelajari manipulasi properti sinyal level fonem dalam mentransformasikan informasi emosional dalam ujaran. Dianalisis pengaruh modifikasi tunggal atau gabungan dari F0, durasi, energi dan spektrum menggunakan data yang direkam oleh seorang aktris profesional dengan ekspresif happy, angry, sad and neutral. Digunakan pencocokan pasangan sumber-target dan menerapkan TDPSOLA untuk prosodi dan LPC untuk modifikasi spektrum dengan langsung mengekstraksi parameter yang diperlukan dari target ujaran. Tes mendengarkan dilakukan dengan 10 penilai naif menunjukkan bahwa modifikasi parameter prosodi dan envelope spektral secara terpisah tidaklah cukup. Namun, bila diterapkan bersama-sama, memodifikasi spektrum dan prosodi di tingkat fonem memberikan hasil yang sukses untuk sebagian besar pasangan emosi, kecuali konversi ke target happy. Juga diamati bahwa pada tingkat fonem, modifikasi envelope spektral lebih efektif daripada modifikasi prosodi lokal, dan modifikasi durasi lebih efektif daripada modifikasi pitch. Hasil modifikasi tingkat fonem dapat digunakan untuk memperbaiki tuning modifikasi berbasis parameter suprasegmental untuk meningkatkan kualitas keseluruhan emosi yang disintesis.
M. Bulut, S. Lee, and S. Narayanan, (2007), Proc. IEEE ICASSP, Honolulu, HI, vol. 4, pp. 1237–1240. [49]
A statistical approach for modeling prosody features using POS tags for emotional speech synthesis
Mendapatkan model statistik untuk pengolahan ujaran emosional adalah masalah yang menantang karena sifat yang sangat beragam dari ekspresi emosi. Sintesis ujaran emosional dilakukan dengan memodelkan perbedaan parameter prosodi pada tingkat bagian dari ujaran (Part Of Speech/POS) untuk ujaran emosional. Sintesis di tingkat POS menarik karena tag POS membawa informasi penting dalam menyampaikan ujaran yang menonjol. Analisis perbedaan energi, durasi dan FO antara pencocokan pasangan ujaran emosional neutral-angry, neutral-sad dan neutral-happy menunjukkan bahwa distribusi Gaussian dapat digunakan untuk memodelkan perbedaan parameter. Perbandingan pasangan dari fitur POS mengungkapkan bahwa hal itu lebih mungkin bahwa mean dan median energi tag POS sad yang dinormalisasi lebih besar dari tag POS neutral, angry atau happy. Juga ditunjukkan bahwa untuk tag tertentu untuk emosi angry memiliki median FO lebih tinggi dari emosi happy, dan emosi sad memiliki median FO lebih tinggi daripada emosi neutral. Percobaan konversi ujaran netral kedalam ujaran emosional menggunakan fungsi peluang Gaussian memberikan wawasan dan membantu dalam aplikasi pada model statistik dalam sintesis ujaran.
14
Pengarang dan diterbitkan O. Turk and M. Schroder, (2010), IEEE Trans. Audio Speech Lang. Process., vol. 18, no. 5, pp. 965 –973. [50]
Judul
Diskripsi Singkat
Evaluation of Expressive Speech Synthesis With Voice Conversion and Copy Resynthesis Techniques
Membangkitkan suara sintetis ekspresif membutuhkan database yang dirancang dengan hati-hati yang mengandung jumlah yang cukup dari material ujaran ekspresif. Dikaji konversi suara dan teknik modifikasi untuk mengurangi koleksi database dan upaya tetap menjaga kualitas ujaran yang dapat diterima dan kealamiannya. Dalam desain faktorial, dipelajari kontribusi relatif dari kualitas suara dan prosodi serta diperkenalkan sejumlah distorsi dengan langkah-langkah manipulasi sinyal masing-masing. Engine pemilihan unit yang open source dan modular text-to-speech (TTS) framework MARY dikembangkan dengan transformasi kualitas suara yang baik menggunakan prediksi berbasis GMM atau saluran vokal copy resynthesis. Algoritma ini kemudian dikombinasi silang dengan berbagai metode copy resynthesis prosodi. Keseluruhan fungsi proses pembangkitan ekspresif sebagai langkah postprocessing di output TTS untuk mengubah ujaran sintetis neutral menjadi ujaran aggressive, cheerful, or depressed. Kombinasi silang dari kualitas suara dan algoritma transformasi prosodi dibandingkan dalam tes mendengarkan untuk merasakan gaya ekspresif dan kualitas. Hasil menunjukkan bahwa ada tradeoff antara identifikasi dan kealamian. Gabungan pemodelan baik kualitas suara dan prosodi mengarah ke skor identifikasi terbaik dengan mengorbankan peringkat kealamian terendah. Detail yang halus dari kualitas suara dan prosodi yang dipertahankan dengan sintesis copy, tidak memberikan kontribusi untuk identifikasi yang lebih baik dibandingkan dengan model perkiraan
15
1.6
Kontribusi Penelitian Penelitian ini berkontribusi terhadap perkembangan teknologi sintesis ujaran,
khususnya dalam bahasa Indonesia, dan penelitan ini memegang peranan penting dalam aplikasi yang berhubungan dengan interaksi manusia dan komputer yang lebih alami dan berafeksi. Kebaruan dari penelitian ini : 1. Ditemukannya parameter-parameter ekspresif dari ujaran bahasa Indonesia yang beremosi sehingga bisa dijadikan acuan dalam pembuatan model ekspresif untuk digunakan dalam sintesis ujaran berekspresif. 2. Ditemukannya teknik mengubah parameter-parameter ujaran netral bahasa Indonesia menjadi ujaran beremosi sehingga menimbulkan ekspresif tertentu seperti sedih, senang dan marah. 3. Terbentuknya model akustik dari ujaran bahasa Indonesia berekspresif (sedih, senang, marah dan netral) yang dibangkitkan oleh HMM. 4. Dibangunnya sistem sintesis ujaran berekspresif bahasa Indonesia secara semi otomatis atau otomatis sehingga mengurangi intervensi dan campur tangan manusia (human assistance) dalam pembangkitan ujarannya. 1.7
Peta Jalan Penelitian Gambar 1.1. menunjukkan posisi penelitian dalam peta jalan yang akan
dilakukan oleh penulis terhadap penelitian-penelitian yang telah ada atau yang dilakukan sebelumnya oleh penulis. Kerangka peta jalan penelitian ini dapat digambarkan
sebagai berikut :
16
Gambar 1.1. Posisi Penelitian
17
BAB II LANDASAN TEORI 2.1
Deskripsi Umum Fonetik Fonetik merupakan bidang kajian ilmu pengetahuan yang menelaah
bagaimana manusia menghasilkan bunyi-bunyian bahasa dalam ujaran, menelaah gelombang-gelombang bunyi bahasa yang dikeluarkan, dan bagaimana alat pendengaran manusia menerima bunyi-bunyi bahasa untuk dianalisis otak manusia [51]. Menurut [52] , fonetik merupakan bidang yang berkaitan erat dengan bagaimana cara manusia berbahasa serta mendengar dan memproses ujaran yang diterima. Secara garis besar fonetik adalah ilmu bahasa yang membahas bunyi-bunyi bahasa yang dihasilkan alat ucap manusia, serta bagaimana bunyi itu dihasilkan. Secara umum, fonetik dibagi menjadi tiga bidang kajian [53], yaitu : a. Fonetik artikulatoris adalah fonetik yang mempelajari bagaimana mekanisme alat-alat bicara yang ada dalam tubuh manusia menghasilkan bunyi bahasa. Fonetik artikulatoris menyangkut produksi atau pembentukan bunyi bahasa oleh alat bicara, bagaimana bunyi bahasa dibuat atau diucapkan serta bagaimana bunyi bahasa diklasifikasi berdasarkan artikulasinya. Fonetik jenis ini banyak berkaitan dengan linguistik sehingga para linguis, khususnya para ahli fonetik, memasukannya sebagai cabang linguistik. b. Fonetik akustik adalah mempelajari bunyi bahasa sebagai gejala fisis yang berupa getaran udara. Dalam fonetik jenis ini dikaji frekuensi getaran bunyi, amplitudo, intensitas, dan timbrenya. Udara yang bergetar adalah udara yang bergerak dalam gelombang-gelombang. Arah gelombang itu bergerak kemana saja, jika tidak ada hambatan sama sekali. Gelombang bunyi itu berirama secara ritmis. Ritmenya diukur dengan frekuensi per satuan waktu (detik). Keras nyaringnya atau intesitas bunyi secara akustis berpangkal pada luas lebarnya gelombang udara yang disebut amplitudo. Amplitudo akan berkurang menurut jarak dari sumber bunyi. c. Fonetik auditori adalah mempelajari bagaimana mekanisme telinga menerima bunyi bahasa sebagai getaran udara. Fonetik ini berkaitan erat dengan proses
18
mendengarkan atau menyimak. Bidang fonetik ini cenderung dimasukan kedalam ilmu kedokteran bagian neurologi. 2.1.1 Proses Pembentukan Suara atau Bunyi Dalam kajian fonetik, bunyi bahasa dipandang sebagai fenomena alam. Ini berarti bunyi bahasa dianggap sebagai substansi yang otonom dan universal, tanpa melihat fungsinya sebagai pembeda makna, pembeda maksud dan sebagainya, walaupun secara linguistik ia merupakan "bahan mentah" bahasa. Sebagai bahan mentah, media atau substansi bahasa, bunyi itu menampak pada peristiwa komunikasi dengan bahasa lisan. Ketika seorang (si pembicara) menyampaikan maksud kepada orang lain (si pendengar), yang menampak adalah si pembicara mengucapkan serangkaian bunyi yang bisa didengar. Rangkaian bunyi yang mengandung makna/maksud tertentu diproduksi oleh alat ucap si pembicara, dan keluar dalam bentuk gelombang-gelombang bunyi di udara bebas, yang selanjutnya ditangkap oleh alat pendengar si pendengar sehingga bisa didengar sebagai serangkaian bunyi. Bunyi yang didengar tersebut kemudian diolah sedemikian rupa sehingga menjadi bunyi yang mengandung makna atau maksud sesuai dengan tujuan komunikasi [54]. Bunyi atau suara, termasuk bunyi bahasa adalah getaran udara yang masuk ke telinga. Getaran udara yang dinamakan bunyi itu dapat terjadi karena dua benda atau lebih bergesekan atau berbenturan. Genderang yang dipukul, gitar yang dipetik, lonceng yang digerakan, kedua tangan yang ditepukkan, atau koin uang yang jatuh ke lantai menimbulkan bunyi yang dapat ditangkap oleh telinga manusia normal. Pada dasarnya, bunyi adalah getaran atas benda apa saja karena adanya energi yang bekerja. Getaran ini disadari sebagai bunyi apabila getaran cukup dan dihantarkan ke alat pendengar oleh udara sekitar. Proses pembentukan bunyi bahasa juga demikian. Sumber energi utamanya adalah arus udara yang mengalir dari/ke paru-paru. Getaran-getaran ini timbul pada pita suara sebagai akibat tekanan arus udara, yang dibarengi dengan gerakan alat-alat ucap sedemikian rupa sehingga menimbulkan perbedaan/perubahan rongga udara yang terdapat dalam mulut dan/atau hidung. Bunyi bahasa dibuat oleh manusia untuk mengungkapkan sesuatu. Bunyi bahasa dapat terwujud dalam nyanyian atau ujaran. Tiga faktor utama yang berperan pembentukan bunyi bahasa yaitu sumber tenaga, alat ucap yang menimbulkan getaran, dan rongga pengubah getaran. 19
Pernafasan merupakan sumber tenaga yang digunakan untuk pembentukan bunyi bahasa. Paru-paru menghembuskan tenaga berupa arus udara sewaktu manusia mengeluarkan nafas. Pita suara yang terletak pada pangkal tenggorokan akan mengalami mengalami perubahan pada saat dilewati arus udara. Membuka dan menutupnya pita suara menyebabkan arus udara dan udara di sekitar pita suara berubah tekanannya atau bergetar sehingga mengakibatkan corak bunyi bahasa tertentu. Perbedaan bentuk saluran suara yang terdiri dari rongga faring, rongga mulut, dan rongga hidung menghasilkan bunyi bahasa yang berbeda-beda. Arus udara dari paru-paru dapat keluar melewati rongga mulut, rongga hidung, atau keduanya sekaligus. Bunyi bahasa yang arus udaranya keluar lewat rongga mulut disebut bunyi oral, misalnya [d], [a], [b], [o]. Bunyi bahasa yang dihasilkan dengan menutup arus udara keluar dari rongga mulut sehingga keluar melalui hidung disebut bunyi sengau atau bunyi nasal, misalnya [m] dihasilkan antara bibir, [n] dihasilkan ujung lidah dan lengkung gigi atas/gusi, [ny] dihasilkan tengah lidah dan langitlangit keras dan [ng] dihasilkan pangkal lidah dan langit-langit lunak. Bunyi yang arus udaranya keluar lewat rongga hidung dan rongga mulut disebut bunyi yang disengaukan atau dinasalisasi [55]. Diperlihatkan pada Gambar 2.1 bagian-bagian dari organ ucap yang digunakan dalam pembentukan bunyi bahasa. Tempat atau organ ucap yang dilewati udara dari paru-paru, antara lain : batang tenggorok, pangkal tenggorok, kerongkongan, rongga mulut, rongga hidung, atau bersama alat ucap yang lain. Alat ucap sebagai organ tubuh memiliki fungsi dan kerja tertentu, antara lain : 1.
Paru-paru berfungsi untuk pernafasan.
2.
Pangkal tenggorok adalah rongga pada ujung pipa pernafasan.
3.
Epiglottis (katup pangkal tenggorok berfungsi untuk melindungi masuknya makanan atau minuman ke batang tenggorok.
4.
Rongga kerongkongan berfungsi sebagai saluran makanan dan minuman.
5.
Langit-langit lunak atau velum berfungsi sebagai articulator pasif (atau titik artikulasinya), sedangkan artikulator aktifnya ialah pangkal lidah.
6.
Langi-langit keras atau palatum merupakan susunan tulang.
7.
Gusi dalam atau alveolum berfungsi sebagai artikulator pasif, sedangkan articulator aktifnya adalah ujung lidah. Bunyi yang dihasilkan oleh gusi disebut bunyi alveoral.
8.
Gigi atau denta dibedakan atas gigi atas dan gigi bawah. 20
9.
Bibir adalah sebagai pintu penjaga rongga mulut.
10. Lidah berfungsi sebagai alat perasa dan pemindah makanan yang akan atau sedang dikunyah. Lidah berfungsi sebagai artikulator aktif.
Gambar. 2.1. Organ Ucap Manusia. (1) Nasal cavity, (2) Hard palate, (3) Alveoral ridge,(4) Soft palate (Velum), (5) Tip of the tongue (Apex), (6) Dorsum, (7) Uvula, (8) Radix,(9) Pharynx, (10) Epiglottis, (11) False vocal cords, (12) Vocal cords, (13) Larynx,(14) Esophagus, and (15) Trachea. Bergetarnya pita suara terjadi karena proses membuka dan menutup. Lubang pada saat pita suara itu membuka disebut glotis. Membukanya dari muka menuju ke belakang. Kadang-kadang membukanya tidak sampai belakang betul. Menutupnya pun mulai dari muka. Selain dari getaran penuh dari muka ke belakang, ada lagi getaran kecil yang panjangnya setengah, sepertiga, seperempat dan seterusnya dari panjang pita suara, dan bergetar secara serempak. Satu kali membuka-menutupnya pita suara (dua getaran) disebut satu gelombang. Banyaknya gelombang per detik disebut frekuensi bunyi. Dengan demikian, suatu bunyi yang diucapkan orang berfrekuensi 300 gelombang per detik, berarti pita suara membuka-menutup sebanyak 300 kali per detik [54].
21
Berdasarkan perubahan aliran udara dari paru-paru menjadi suara, bunyi yang dihasilkan dibagi menjadi 2 yaitu [55]: 1.
Bunyi bersuara (voiced sound) Aliran udara yang dihasilkan dorongan otot paru-paru bersifat konstan. Ketika pita suara dalam keadaan berkontraksi, aliran udara yang lewat membuatnya bergetar. Aliran udara tersebut dipotong-potong oleh gerakan pita suara menjadi sinyal pulsa yang bersifat quasi-periodik. Sinyal pulsa tersebut kemudian mengalami modulasi frekuensi ketika melewati pharynx, rongga mulut ataupun pada rongga hidung. Sinyal suara yang dihasilkan pada proses ini dinamakan sinyal voiced. Contoh bunyi bersuara antara lain: [a], [i], [u], [e] dan [o]. Gambar 2.2 yang menunjukkan bentuk gelombang bunyi vokal [a]
Gambar 2.2 Sinyal suara yang berbunyi [a] dalam domain waktu
2.
Bunyi tak bersuara (unvoiced sound) Pita suara dalam keadaan relaksasi, maka aliran udara akan berusaha melewati celah sempit pada permulaan vocal tract sehingga alirannya menjadi turbulen, proses ini akan menghasilkan bunyi unvoiced. Bunyi tak bersuara (unvoiced) dibagi menjadi dua yaitu bunyi desah (fricative sound) dan bunyi letupan (plosive/stop sound). Bunyi desah terjadi akibat arus udara dilewatkan pada alur yang amat sempit sehingga sebagian besar arus udara terhambat. Penyempitan dilakukan pada beberapa bagian saluran suara misalnya :
bunyi [h]
penyempitan dinding varing dan pangkal lidah, bunyi [r] penyempitan pangkal lidah dan anak tekak, bunyi [s] dan [z] penyempitan daun lidah dan lengkung kaki gigi, dan bunyi [f] dan [v] penyempitan bibir bawah dan gigi atas. Gambar 2.3 menunjukkan bentuk gelombang bunyi [s].
22
Gambar 2.3 Sinyal suara desah yang berbunyi [s] dalam domain waktu.
Sedangkan bunyi letupan (plosive/stop sound) dihasilkan karena
adanya
penutupan pada bagian saluran suara sehingga akan menghambat udara kemudaian diletupkan oleh artikuator. Contoh bunyi letupan : bunyi [p] dan [b] yang dihasilkan di antata bibir yang dihasilkan oleh ujung lidah dan langit-langit keras, bunyi [t] dan [d] yang dihasilkan oleh ujung lidah dan lengkung kaki gigi, bunyi [c] dan [j] yang dihasilkan oleh tengah lidah dan langit-langit keras, bunyi [k] dan [g] yang dihasilkan oleh pangkal lidah dan langit-langit tekak.
Gambar 2.4 Sinyal suara letupan yang berbunyi [t] dalam domain waktu
Bunyi desah dan bunyi letupan tidak menyebabkan pita suara bergetar, sehingga keduanya disebut juga bunyi tak bersuara (unvoiced sound). 2.1.2 Transkripsi Fonetis Transkripsi fonetis adalah perekaman bunyi dalam bentuk lambang tulis. Lambang bunyi atau lambang fonetis (phonetic symbol) yang sering dipakai adalah lambang bunyi yang ditetapkan oleh The International Phonetic Association (IPA), yaitu persatuan para guru bahasa yang berdiri sejak akhir abad ke-19, yang didirikan untuk mempopulerkan metode baru dalam pengajaran bahasa yang lebih menekankan pada pengajaran bahasa lisan. Sistem lambang yang digunakan oleh IPA ini lazim disebut The International Phonetic Alphabetic yang disingkat IPA juga. Alfabet IPA ini merupakan serangkaian lambang yang didasarkan pada alfabet latin, yang diciptakan untuk keperluan memerikan semua bunyi bahasa yang ada di 23
dunia. Oleh karena itu jumlah bunyi bahasa-bahasa yang ada di dunia lebih banyak dari jumlah huruf yang ada, maka IPA melakukan modifikasi bentuk-bentuk huruf guna membedakan bunyi-bunyi yang berlainan. Dalam melakukan modifikasi bentuk huruf itu selalu diusahakan agar bunyi-bunyi yang banyak persamaannya diberi lambang atau bentuk dasar yang sama. Perbedaanya hanyalah pada penambahan diakritik saja [54]. Tabel 2.1 memuat daftar secara selektif lambang-lambang fonetik IPA yang diperkirakan terdapat dalam bunyi bahasa Indonesia.
Tabel 2.1. Transkripsi Fonetis Bahasa Indonesia Lambang Fonetis I
I biasa
„bisa‟
Lambang Fonetis k‟
Ĩ
I bertilde
sopir
?
E Ɛ Ə A
e biasa E kapital e terbalik a biasa
sore pendek Kelelawar parah
G M N ṇ
U ᴜ O O ay aw Oy P P‟
u biasa U kapital o biasa O kapital a+y a+w O kapital + y p biasa p berpetik tunggal b biasa t biasa
buku batuk soto boros santai payau amboi papan atap
Ń ῆ C J I R S Š Z
butuh tatar
X ɣ
t berpetik tunggal t bertitik bawah d biasa d bertitik bawah k biasa
adat
h
pentol
h-
dadi penduduk
W ώ
kakak
Y
B T t‟ ṭ D ḍ K
Alfabet Latin
Contoh
24
Alfabet Latin k berpetik tunggal Hentian glotis g biasa m biasa n biasa n bertitik bawah n bertilde n berekor c biasa J biasa l biasa r biasa s biasa s bertilde z biasa
Contoh politik ajak gagal malam pintu nama nyata Pulang cacar jajak lipat ramah sari syarat ziarah
x biasa x bergelung bawah h biasa
khas baligh
h bertangkai atas w biasa w bergaris bawah y biasa
mahkota
halus
wajar ruwet bayi
2.2
Klasifikasi Bunyi Segmental Bahasa Indonesia Bunyi-bunyi bahasa ketika diucapkan ada yang bisa disegmen-segmenkan,
diruas-ruaskan, atau dipisah-pisahkan, ada yang juga tidak. Yang bisa disegmensegmen dinamakan bunyi segmental, sedangkan yang tidak dinamakan bunyi suprasegmental. Klasifikasi bunyi segmental didasarkan berbagai macam kriteria, yaitu : (1) ada tidaknya gangguan, (2) mekanisme udara, (3) arah udara, (4) pita suara, (5) lubang lewatan udara, (6) mekanisme artikulasi, (7) cara gangguan, (8) maju mundurnya lidah, (9) tinggi rendahnya lidah, dan (10) bentuk bibir. [54] 2.2.1 Vokal dan Konsonan Vokal adalah bunyi bahasa yang arus udaranya tidak mengalami rintangan. Pada pembentukan vokal tidak ada artikulasi. Hambatan untuk bunyi vokal hanya pada pita suara saja. Hambatan pada pita suara tidak lazim disebut artikulasi. Kosonan adalah bunyi bahasa yang dibentuk dengan menghambat arus udara pada sebagian alat ucap. Dalam hal ini terjadi artikulasi. 2.2.2 Bunyi Nasal dan Oral Bunyi nasal atau sengau dibedakan dari bunyi oral berdasarkan jalan keluarnya arus udara. Bunyi nasal dihasilkan dengan menutup arus udara keluar melalui rongga mulut, membuka jalan agar dapat keluar melalui hidung. Bunyi oral dihasilkan dengan jalan mengangkat ujung anak tekak mendekati langit-langit lunak untuk menutupi rongga hidung sehingga arus udara dari paru-paru keluar melalui mulut. Selain bunyi nasal, semua bunyi vokal dan konsonan bahasa Indonesia termasuk bunyi oral. 2.2.3 Bunyi Keras dan Lunak Bunyi keras dibedakan dari bunyi lunak berdasarkan ada tidak adanya ketegangan arus udara pada waktu bunyi itu di artikulasikan.Bunyi bahasa disebut keras apabila pada waktu diartikulasikan disertai ketegangan kekuatan arus udara. Sebaliknya, apabila pada waktu di artikulasikan tidak di sertai ketegangan kekuatan arus udara, bunyi itu disebut lunak. Bunyi keras mencakupi beberapa jenis bunyi seperti : bunyi letup tak bersuara (p, t, c, k), bunyi geseran tak bersuara (s), dan bunyi vokal. Bunyi lunak mencakupi beberapa jenis seperti : bunyi letup bersuara (b, d, j, g), bunyi geseran bersuara (z), bunyi nasal (m, n, ng, ny), bunyi likuida (r, l), bunyi semivokal (w, y), bunyi vokal (a, i, u, e, o) 25
2.2.4 Bunyi Panjang dan Pendek Bunyi panjang dibedakan dari bunyi pendek berdasarkan lamanya bunyi tersebut diucapkan atau diartikulasikan. Vokal dan konsonan dapat dibedakan atas bunyi panjang dan bunyi pendek. 2.2.5 Bunyi Nyaring dan Tak Nyaring Pembedaan bunyi berdasarkan derajat penyaringan itu merupakan tinjauan fonetik auditoris. Derajat penyaringan itu sendiri ditentukan oleh luas sempitnya atau besar kecilnya ruang resonansi pada waktu bunyi itu diucapkan. 2.2.6 Bunyi Tunggal dan Rangkap Bunyi tunggal dibedakan dari bunyi rangkap berdasarkan perwujudannya. Bunyi tunggal adalah sebuah bunyi yang berdiri sendiri dalam satu suku kata, sedangkan bunyi rangkap adalah dua bunyi atau lebih yang bergabung alam satu suku kata. Semua bunyi vokal dan konsonan adalah bunyi tunggal. Bunyi tunggal vokal disebut juga monoftong. Bunyi rangkap dapat berupa diftong maupun klaster. Diftong, yang lazim disebut vokal rangkap, dibentuk apabila keadaan posisi lidah sewaktu mengucapkan bunyi vokal yang satu dengan bunyi vocal yang lainnya saling berbeda. Klaster, yang lazim disebut gugus konsonan, dibentuk apabila cara artikulasi atau tempat artikulaksi dari konsonan yang di ucapkan saling berbeda. 2.2.7 Bunyi Engresif dan Ingresif Bunyi engresif dan ingresif dibedakan berdasrkan arus udara. Bunyi engresif dibentuk dengan cara mengeluarkan arus udara dari dalam paru-paru, sedangkan bunyi ingresif dibentuk dengan cara mengisap udara ke dalam paru-paru. Kebanyakan bunyi bahasa Indonesia merupakan bunyi engresif. Bunyi engresif dibedakan lagi atas bunyi engresif pulmonic dan bunyi engresif glotalik, bunyi engresif pulmonic dibentuk dengan cara mengecilkan ruangan paru-paru oleh otot paru-paru, otot perut, dan rongga dada. Hampir semua bunyi bahasa Indonesia dibentuk melalui engresif pulmonic. Bunyi egresif glotalik terbentuk dengan cara merapatkan pita suara sehingga glotis dalam keadaan tertutup sama sekali. Bunyi engresif glotalik disebut juga bunyi ejektif. Bunyi ingresif dibedakan atas bunyi ingresif glotalik dan bunyi ingresif velarik. Bunyi ingresif glotalik memiliki kemiripan dengan cara pembentukan bunyi
26
egresif glotalik, hanya arus udara yang berbeda, bunyi ingresif velarik dibentuk dengan menaikkan pangkal lidah ditempatkan pada langit-langit lunak 2.3
Klasifikasi Bunyi Suprasegmental Bahasa Indonesia Di samping bunyi segmental, terdapat pula bunyi lain yang mendukung bunyi
segmental, yakni bunyi suprasegmental. Bunyi suprasegmental adalah bunyi yang tidak bisa disegmen-segmenkan, karena kehadiran bunyi ini selalu mengiringi, menindih, atau menemani bunyi segmental (baik vokal maupun konsonan). Bunyi ini juga sering disebut bunyi non-segmental. Oleh para fonetisi, bunyi-bunyi suprasegmental ini dikelompokkan menjadi empat jenis, yaitu yang menyangkut aspek (a) tinggi-rendahnya bunyi (nada), (b) keras lemahnya bunyi (teknanan), (c) panjang pendeknya bunyi, (d) kesenyapan (jeda). Keempat jenis aspek inilah yang disebut dengan prosodi [54]. 2.3.1 Tinggi-Rendah (Nada, Tona, Pitch) Ketika bunyi-bunyi segmental diucapkan selalu melibatkan nada, baik nada tinggi, sedang atau rendah. Hal ini disebabkan oleh adanya faktor ketegangan pita suara, arus udara, dan posisi pita suara ketika bunyi itu diucapkan. Makin tegang pita suara, yang disebabkan oleh kenaikan arus udara di paru-paru, makin tinggi pula nada bunyi tersebut. Begitu juga posisi pita suara. Pita suara yang bergetar lebih cepat akan menentukan tinggi nada suara ketika befonasi. Nada ini menjadi perhatian fonetisi karena secara linguistik berpengaruh dalam satuan sistem linguistik tertentu. Misalnya, nada turun biasanya menandakan kelengkapan tutur, sedangkan nada naik, menandakan ketidaklengkapan tuturan. Variasi-variasi nada pun bisa dipakai untuk menyatakan perbedaan makna tataran kata dan perbedaan maksud pada tataran kalimat. Pada tataran kata, variasivariasi pembeda makna disebut tona, yang ditandai dengan angka arab : [1] untuk nada rendah setingkat nada do, [2] untuk nada biasa setingkat nada re, [3] untuk nada tinggi setingkat nada mi, dan [4] untuk nada paling tinggi setingkat nada fa. [ma1 ] artinya 'hantu'
Contoh dalam bahasa Vietnam :
[ma2] artinya 'memeriksa' [ma3] artinya 'tetapi' [ma4] artinya 'makam'
27
Pada tataran kalimat, variasi-variasi nada pembeda maksud disebut intonasi, yang ditandai dengan [||] untuk intonasi datar turun, yang biasa terdapat dalam kalimat berita (deklaratif), [//] untuk intonasi datar naik, yang biasa terdapat dalam kalimat tanya, dan [==] untuk intonasi datar tinggi, yang biasa terdapat dalam kalimat perintah. Contoh dalam bahasa Indonesia : [roti||]
Roti.
'pemberitahuan bahwa ada roti'
[roti//]
Roti?
'menanyakan tentang roti'
[roti==]
Roti!
'memanggil penjual roti'
Bahkan, secara nonlinguistik, nada pun bisa menunjukkan kadar emosi penutur. Misalnya, nada tinggi tajam menunjukkan kemarahan, nada rendah menunjukkan kesusahan, dan nada tinggi menunjukkan kegembiraan. 2.3.2 Keras-Lemah (Tekanan, Aksen, Stress, Amplitudo) Ketika bunyi-bunyi segmental diucapkan pun tidak pernah terlepas dari lemah atau kerasnya bunyi. Hal ini disebabkan oleh keterlibatan oleh energi otot ketikan bunyi diucapkan. Suatu bunyi dikatakan mendapatkan tekanan apabila energi otot yang dikeluarkan lebih besar ketika bunyi itu diucapkan. Sebaliknya, suatu bunyi dikatakan tidak mendapatkan tekanan apabila energi otot yang dikeluarkan lebih kecil ketika bunyi diucapkan. Ada beberapa variasi tekanan pada bunyi, antara lain, tekanan keras, sedang, lemah dan tidak ada tekanan. Dalam bahasa-bahasa tertentu, variasi tekanan ini membedakan makna pada tataran kata, membedakan maksud pada tataran kalimat. Pada tataran kata, tekanan selalu bersifat silabis, yaitu tekanan yang diarahkan pada silaba tertentu. Pada tataran kalimat, tekanan bersifat leksis, yaitu tekanan yang diarahkan pada kata tertentu yang ingin ditonjolkan. Pada tataran kata, tekanan pada suku kata tertentu juga bisa membedakan makna. Misalnya : Inggris
: re`fuse
Tekanan pada silaba I
'sampah'
refu`se
Tekanan pada silaba II
'menolak'
Pada tataran kalimat, tekanan kata tertentu bisa membedakan maksud kalimat. Misalnya, dalam kalimat bahasa Indonesia berikut : Ayah mengendarai mobil (tekanan pada ayah) Maksudnya : yang mengendarai mobil adalah ayah, bukan yang lain. 28
Ayah mengendarai mobil (tekanan pada mengendarai) Maksudnya : Ayah benar-benar mengendarai, bukan membeli mobil Ayah mengendarai mobil (tekanan pada mobil) Maksudnya : yang ayah kendarai memang mobil, bukan yang lain 2.3.3 Panjang-Pendek (Durasi) Bunyi-bunyi segmental juga dapat dibedakan dari panjang pendeknya ketika bunyi diucapkan. Bunyi panjang untuk vokal diberi tanda satuan mora, yaitu satuan waktu pengujaran, dengan tanda titik. Tanda titik satu [.] menandakan satu mora, tada titik dua [:] menandakan dua mora, dan titik tiga [:.] menandakan tiga mora. Sementara itu bunyi-bunyi untuk konsonan diberi tanda rangkap. Dalam bahasa tertentu variasi panjang pendek bunyi ini ternyata bisa membedakan makna (sebagai fonem), bahkan bermakna (sebagai morfem). Misalnya : Belanda : [ban] artinya 'kecil' dan [ba:n] artinya 'jalan'. Variasi vokal panjang membedakan makna atau fonemis. Bugis : [mapeje] artinya 'teman' dan [mappeje] artinya 'membuat garam'. Variasi konsonan panjang mempunyai makna atau morfemis. Dalam bahasa Indonesia, aspek durasi ini tidak membedakan makna atau tidak fonemis, juga tidak mempunyai makna atau tidak morfemis. 2.3.4 Kesenyapan (Jeda) Yang dimaksud dengan penghentian adalah pemutusan suatu arus bunyibunyi segmental ketika diujarkan oleh penutur. Sebagai akibatnya, akan terjadi kesenyapan antara bunyi-bunyi yang terputus itu. Kesenyapan ini bisa terjadi di posisi awal, tengah dan akhir ujaran. Kesenyapan awal terjadi ketika bunyi itu akan diujarkan, misalnya ketika akan mengujarkan frasa sepatu baru, terjadi kesenyapan yang tidak terbatas sebelumnya. Kesenyapan tengah terjadi antara ujaran kata-kata dalam kalimat, misalnya ujaran kata sepatu dan baru pada sepatu baru; atau ujaran antarsuku kata, misalnya antar suku kata se, pa dan tu pada kata sepatu, walaupun kesenyapan itu sangat singkat. Kesenyapan akhir terjadi pada akhir ujaran, misalnya ujaran akhir kalimat sepatu baru terjadi kesenyapan yang tak terbatas. Kesenyapan awal dan akhir ujaran ditandai dengan palang rangkap memanjang [#], kesenyapan diantara kata ditandai dengan palang rangkap pendek 29
[#], sedangkan kesenyapan diantara suku kata ditandai dengan dengan palang tunggal [+]. Dengan demikian, frasa sepatu baru kalau ditranskripsikan dengan memperhatikan kesenyapan terlihat sebagai berikut. [ # se + pa + tu # ba + ru # ] Kesenyapan juga bisa disebut sendi (juncture) karena kesenyapan itu sekaligus sebagai tanda batas antara bentuk linguistik baik dalam tataran kalimat, klausa, frase, kata, morfem, silaba, maupun fonem. Transkripsi fonetis yang lengkap mestinya memperhatikan aspek-aspek bunyi suprasegmental ini, namun dalam beberapa bahasa hanya aspek suprasegmental yang dianggap memiliki fungsional saja yang diperhatikan. Dalam penuturan, empat jenis suprasegmental tersebut selalu menyertai bunyi-bunyi segmental. Kerjasama empat bunyi suprasegmental sejak awal hingg akhir penuturan disebut intonasi. Jadi intonasi pada dasarnya bercirikan gabungan nada, tekanan, durasi dan kesenyapan, tidak hanya nada saja, walaupun nada sangat menonjol dalam intonasi ujaran. 2.4
Deskripsi Umum Fonemik Secara garis besar fonemik adalah ilmu bahasa yang membahas bunyi-bunyi
bahasa yang berfungsi sebagai pembeda makna. Jika dalam fonetik mempelajari segala macam bunyi yang dapat dihasilkan oleh alat-alat ucap serta bagaimana tiaptiap bunyi itu dihasilkan, maka dalam fonemik mempelajari dan menyelidiki kemungkinan-kemungkinan, bunyi-ujaran yang manakah yang dapat mempunyai fungsi untuk membedakan arti. Untuk jelasnya kalau kita perhatikan baik-baik ternyata bunyi [i] yang terdapat pada kata-kata [intan], [angin], dan [batik] adalah tidak sama. Begitu juga bunyi [p] pada kata dalam bahasa Inggris [pace], [space], dan [map], juga tidak sama. Ketidaksamaan bunyi [i] dan bunyi [p] pada deretan kata-kata di atas itulah salah satu contoh obyek atau sasaran studi fonemik. Dalam kajiannya, fonetik akan berusaha mendeskripsikan perbedaan bunyibunyi itu serta menjelaskan sebab-sebabnya. Sebaliknya, perbedaan bunyi [p] dan [b] yang terdapat, misalnya, pada kata [paru] dan [baru] adalah menjadi contoh sasaran studi fonemik, sebab perbedaan bunyi [p] dan [b] itu menyebabkan berbedanya makna kata [paru] dan [baru] itu. Ada beberapa penulis mendifinisikan tentang fonemik. Menurut (Chaer, 1994: 102) fonemik adalah cabang studi fonologi yang mempelajari bunyi bahasa dengan 30
memperhatikan fungsi bunyi tersebut sebagai pembeda makna. Sedangkan (Keraf, 1984: 30) fonemik adalah ilmu yang mempelajari bunyi ujaran dalam fungsinya sebagai pembeda arti dan (Kridalaksana, 1995: 56) fonemik adalah penyelidikan mengenai sistem fonem suatu bahasa. 2.4.1 Definisi Fonem dan Jenisnya Fonem adalah istilah dalam studi fonologi (bidang studi yang membicarakan bunyi bahasa) untuk menyebut satuan bunyi terkecil yang dapat membedakan makna. Menurut (Gleason,1961: 9) fonem adalah unsur bahasa yang terkecil dan dapat membedakan arti atau makna. Berdasarkan definisi tersebut maka setiap bunyi bahasa, baik segmental maupun suprasegmental apabila terbukti dapat membedakan arti dapat disebut fonem. Setiap bunyi bahasa memiliki peluang yang sama untuk menjadi fonem, namun tidak semua bunyi bahasa pasti akan menjadi fonem. Bunyi itu harus diuji dengan beberapa pengujian penemuan fonem. Nama fonem, ciri-ciri fonem, dan watak fonem berasal dari bunyi bahasa. Adakalanya jumlah fonem sama dengan jumlah bunyi bahasa, tetapi sangat jarang terjadi. Pada umumnya fonem suatu bahasa lebih sedikit daripada jumlah bunyi suatu bahasa. Berdasarkan kenyataan, ternyata di dalam bahasa Indonesia hanya ditemukan fonem segmental saja, dan bunyi suprasegmental tidak terbukti dapat membedakan arti. Oleh karena itu, dalam bahasa Indonesia tidak ditemukan fonem suprasegmental. Itulah sebabnya dalam kajian berikut ini hanya dibicarakan fonem segmental bahasa Indonesia yang meliputi fonem vokal, fonem konsonan, dan fonem semi konsonan. Dalam mengenali fonem terdapat beberapa pokok pikiran umum yang dipakai untuk menganalisis fonem. Pokok-pokok pikiran tentang bunyi ini berbentuk pernyataan-pernyataan yang lumrah atu maklum sehingga tidak dipersoalkan lagi, maka pokok-pokok pikiran tersebut yang disebut premis-premis fonologis. Berdasarkan sifat umumnya premis-premis bahasa tersebut adalah sebagai berikut: a.
Bunyi bahasa mempunyai kencenderungan untuk dipengaruhi oleh lingkungannya.
b.
Sistem bunyi mempunyai kecenderungan bersifat simetris.
31
c.
Bunyi-bunyi bahasa yang secara fonetis mirip harus digolongkan ke dalam kelas-kelas bunyi (fonem) yang berbeda, apabila terdapat pertentangan di dalam lingkungan yang sama.
d.
Bunyi-bunyi yang secara fonetis mirip dan terdapat di dalam distribusi yang komplementer, harus dimasukkan ke dalam kelas-kelas bunyi (fonem) yang sama. Untuk mengenal dan menentukan bunyi-bunyi bahasa yang bersifat
fungsional (fonem), biasanya ditentukan melalui kontras pasangan minimal. Pasangan minimal ini adalah pasangan bentuk-bentuk bahasa yang terkecil dan bermakna pada sebuah bahasa atau kata tunggal yang secara ideal sama, kecuali satu bunyi berbeda. Contohnya : dara dan tara fonemnya /d/ dan /t/ atau kalah dan galah fonemnya /k/ dan /g/. Dijelaskan dalam kajian fonologi, bunyi atau fon ditulis di dalam kurung [ ], fonem tertulis di dalam tanda dua garis miring / /, dan huruf di antara kurung ( ). Fonem diftong terdiri dari /ay/, /aw/, /ey/ dan /oy/, di dalam ejaan dilambangkan dengan dua huruf vokal (ai), (au), (ei) dan (oi). Ada yang berpendapat bahwa diftong bukan fonem, sebab bunyi pertama adalah sebuah vokal dan bunyi kedua sebuah konsonan. Disebut diftong karena terpengaruh oleh sistem ejaan, yang seolah-olah menderetkan dua buah vokal dalam satu suku kata sebagai satu bunyi. Karena itu, dalam beberapa buku pelajaran, diftong sering diartikan sebagai “gabungan dua vokal yang diucapkan berurutan”. Ada yang berpendapat bahwa bunyi glotal [?] bukan fonem sebab tidak ada pasangan minimal yang membuktikannya. Kalau ada pun cuma satu–satunya, yaitu antara [sakat] dan [sa‟at]. Bunyi [?] merupakan alofon dari fonem /k/, seperti muncul pada posisi akhir kata [bapa?], yang secara fonemis ditulis /bapak/ dan secara ortografis bapak[55]. 2.4.2 Pelafalan Artikulasi Fonem Fonem adalah satuan bunyi bahasa terkecil yang bersifat fungsional, artinya satuan yang memiliki fungsi untuk membedakan makna. Fonem tidak dapat berdiri sendiri karena belum mengandung arti. Fonemisasi adalah usaha untuk menemukan bunyi-bunyi yang berfungsi dalam rangka pembedaan makna. Dalam bahasa Indonesia bunyi [f], [v] dan [p] pada dasarnya bukanlah tiga fonem yang berbeda. Kata "provinsi" apabila dilafazkan sebagai [propinsi], [profinsi] atau [provinsi] tetap sama saja. Fonem tidak memiliki makna, tapi peranannya dalam 32
bahasa sangat penting karena fonem dapat membedakan makna. Misalnya saja fonem /l/ dengan /r/. Jika kedua fonem tersebut berdiri sendiri, pastilah kita tidak akan menangkap makna. Akan tetapi lain halnya jika kedua fonem tersebut kita gabungkan dengan fonem lainnya seperti /m/, /a/, dan /h/, maka fonem /l/ dan /r/ bisa membentuk makna [marah] dan [malah]. Bagi orang Jepang kata marah dan malah mungkin mereka anggap sama karena dalam bahasa mereka tidak ada fonem /l/. Contoh lain: mari, lari, dari, tari, sari, jika satu unsur diganti dengan unsur lain maka akan membawa akibat yang besar yakni perubahan arti. 2.4.3 Klasifikasi Fonem Bahasa Indonesia Pengklasifikasian
fonem
bahasa
Indonesia
didasarkan
pada
pola
pengklasifikasian bunyi yang biasa dilakukan oleh fonetisi. Dengan demikian, pengklasifikasiannya bisa memanfaatkan peta bunyi vokal dan peta bunyi konsonan yang selama ini sering kita lihat di buku-buku tentang fonetik. Fonem, sebagai satuan bunyi terkecil dalam realisasinya seringkali tidak seragam dan tidak sama bunyinya. Beberapa fonem tersebut mempunyai sejumlah variasi (yang dalam studi fonologi disebut alofon), misalnya fonem /o/ dalam Bahasa Indonesia tidak sama bunyinya atau lafalnya yang terdapat pada kata "soto" dan "jeblos", begitu juga fonem /e/ pada kata "peta" dan "pesta" tidak sama bunyinya. Namun, secara fonemis dan ortografis keduanya akan ditulis dengan lambang yang sama. Sistem ejaan yang ideal adalah apabila sebuah huruf hanya dipakai untuk melambangkan sebuah fonem atau sebaliknya, sebuah fonem hanya melambangkan sebuah huruf. Namun, dalam prakteknya konsep keidealan ini jarang terlaksana. Pertama, karena jumlah huruf yang tersedia tidak sama jumlahnya dengan fonem yang ada. Kedua, karena sistem ejaan bahasa itu sendiri yang tampaknya agak aneh. Sistem ejaan Bahasa Indonesia kelihatannya hampir ideal, berbeda dengan sistem ejaan Bahasa Inggris yang tidak ideal, malah bisa dikatakan jauh dari ideal, sebab ada huruf yang dipakai untuk melambangkan lebih dari sebuah fonem. Huruf (c) dan (u) yang antara lain dipakai untuk melambangkan fonem /k/ dan /a/ seperti pada kata "cut", yang bunyinya mirip dengan bunyi [kat] pada kata Bahasa Indonesia "ikat", juga dipakai untuk melambangkan fonem /u/ seperti yang terdapat pada kata put, dan yang bunyinya mirip dengan bunyi [put] pada kata Bahasa Indonesia rumput. Jumlah fonem setiap bahasa tidak sama dan sangat bervariasi jumlahnya. Fonem Bahasa Indonesia memiliki jumlah 32 terdiri dari 6 buah fonem vokal, 4 buah 33
fonem diftong, dan 22 buah fonem konsonan. Karena jumlah fonem lebih banyak daripada jumlah huruf latin yang tersedia (hanya ada 26 buah), maka untuk mendeskripsikan fonem ini, dalam studi fonetik, tidak menggunakan abjad fonetik. Ejaan Bahasa Indonesia belum ideal, akibat jumlah fonem yang dimiliki jauh lebih banyak dari huruf yang tersedia dalam aksara Latin, namun ejaan Bahasa Indonesia jauh lebih baik dibandingkan ejaan Bahasa Inggris yang memiliki jumlah fonem 44 buah. Ditunjukkan dalam Tabel 2.2, kaitan antara beberapa fonem yang ada dalam Bahasa Indonesia, huruf yang digunakan untuk melambangkannya[55].
Tabel 2.2 Fonem Bahasa Indonesia. Fonem
Huruf
/i/ /u/
/e/
Contoh Penggunaan Bunyinya
Tulisannya
(i)
[bila]
bila
(u)
[haru]
haru
(U)
[kumpul]
kumpul
(e)
[sate]
sate
[p∑sta]
pesta
/∂/
(e)
[p∂ta]
peta
/o/
(o)
[soto]
soto
[jeblos]
jeblos
/a/
(a)
[aneh]
aneh
/ay/
(ai)
[santay]
santai
/aw/
(au)
[kerbaw]
kerbau
/oy/
(oi)
[asoy]
asoi
/ey/
(ei)
[survey]
survei
/y/
(y)
[yakin]
yakin
(i)
[ramay]
ramai
(ø)
[diya]
dia
(w)
[hewan]
hewan
(u)
[awla]
aula
(ø)
[duwa]/[cuwaca]
dua/cuaca
(l)
[lunak]
lunak
/w/
/l/
34
Tabel 2.2 Fonem Bahasa Indonesia. (lanjutan). Fonem
Huruf
/p/ /b/
Contoh Penggunaan Bunyinya
Tulisannya
(p)
[palu]
palu
(b)
[sebap]
sebab
(b)
[bulat]
bulat
(f)
[sifat]
sifat
(v)
[fas]
vas
/m/
(m)
[aman]
aman
/t/
(t)
[kusut]
kusut
(d)
[maksut]
maksud
/d/
(d)
[dada]
dada
/c/
(c)
[contoh]
contoh
/j/
(j)
[juwal]
jual
/s/
(s)
[sapu]
sapu
(z)
[basar]
bazar
/r/
(r)
[rabu]
rabu
/n/
(n)
[nanas]
nanas
/∫/
(sy)
[∫arat]
syarat
/ñ/
(ny)
[bañak]
banyak
(n)
[menjuwal]
menjual
(k)
[bapa?]
bapak
(ø)
[ma?af]
maaf
/k/
(k)
[kepala]
kepala
/g/
(g)
[gadis]
gadis
(k)
[bedug]
beduk
/x/
(kh)
[xusus]
khusus
/ŋ/
(ng)
[ŋarai]
ngarai
/h/
(h)
[hari]
hari
/f/
/?/
35
2.5
Sintesis Ujaran
2.5.1 Sejarah Sintesis Ujaran Sejarah mesin sintesis ujaran dimulai setidaknya pada awal ke -17. Namun, upaya pembuatan sintesis ujaran tidak meninggalkan apa-apa kecuali bukti dokumenter tidak langsung keberadaan mesin tersebut. Jika mesin tersebut memang ada dalam bentuk apapun, perancang dan pengguna mesin tersebut menganggap sebagai semacam alat musik. Namun demikian, mesin awal ini sebagai pertanda yang baik untuk perkembangan sintesis ujaran selanjutnya. Sampai akhir abad ke-19 sintesis ujaran didasarkan pada pembangunan model fisik, yang dapat dianggap sebagai sintesis ujaran artikulatoris sederhana. Selanjutnya pada akhir abad ke-18, pada tahun 1779, Academy of Sciences dari St. Petersburg mengadakan kontes untuk membangun dan menampilkan sebuah mesin berbicara yang mampu memproduksi lima vokal. Salah satu kontestan Christian Kratzenstein dari St. Petersburg membuat model sistem suara manusia yang dapat menghasilkan lima bunyi vokal panjang (a, e, i, o dan u).
Mesin
Kratzenstein hanya memproduksi vokal statis. Konstestan lain yaitu Wolfgang von Kempelen dari Vienna Austria menampilkan sebuah Acoustic-Mechanical Speech Machine (mesin ujaran akustik mekanik) yang mampu menghasilakan ujaran dinamis. Hal ini dijelaskan dalam artikelnya tahun 1791 Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine atau Mechanism of Human Speech With Description of His Speaking Machine (“mekanisme ujaran manusia dengan penjelasan mesin berbicaranya”, J.B. Degen, Wien). Pada tahun 1837 Charles Wheatstone menghasilkan sebuah 'mesin berbicara' berdasarkan pada rancangan von Kempelen's dan pada tahun 1857 M. Faber membangun 'Euphonia'. Rancangan Wheatstone dihidupkan kembali pada tahun 1923 oleh Paget [55]. Pada tahun 1930-an, Bell Labs mengembangkan VOCODER, sebuah papan ketik yang dioperasikan oleh penganalisis (analyzer) dan pembangkit ujaran elektronik. Homer Dudley menyempurnakannya menjadi VODER, yang dipamerkan pada tahun 1939 di New York World's Fair dan menghasilkan ujaran yang dapat dipahami[55].
36
Sintesis ujaran elektronik pada awalnya menghasilkan suara seperti robot dan hampir tidak dapat dipahami. Sedangkan keluaran dari sistem ujaran pada masa sekarang hampir sama dengan ujaran asli. Meskipun sintesis ujaran telah berhasil, penelitian masih diadakan ke dalam bentuk mekanik untuk robot. Komputer pertama yang menggunakan sistem pembangkitan ujaran dibuat pada tahun 1950-an. Saat ini banyak kemajuan di bidang teknologi yang digunakan untuk menghasilkan ujaran. Banyak penelitan telah dilakukan di bidang sintesis ujaran namun kualitas dan kealamian dari ujaran yang disintesis masih kurang. Sedangkan penelitian pengembangan dari sintesis ujaran terus berlanjut. Pengembangan dari sintesis ujaran dilakukan pada metode untuk sintesis dan pengembangan dari hasil ujaran sintesis diarahkan menjadi sintesis ujaran yang berekspresif. 2.5.2 Metode Sintesis Ujaran Beberapa metode sintesis ujaran sudah dalam pengembangan selama beberapa dekade Ada 4 teknologi utama saat ini yang digunakan untuk sintesis ujaran, yaitu sintesis ujaran artikulatoris (articulatory speech synthesis), sintesis ujaran formant (formant speech synthesis),
sintesis ujaran perangkaian
(concatenative speech synthesis) dan sintesis ujaran statistik parametrik (statistical parametric synthesis).
2.5.2.1 Sintesis Ujaran Artikulatoris (Articulatory) Siintesis ujaran artikulatoris adalah memodelkan berbagai proses artikulasi yang terlibat dalam produksi ujaran dan menggunakan pengetahuan tersebut untuk mensintesis bunyi ujaran yang diharapkan berkualitas baik. Berbagai tahapan dalam pengembangan sintesis ujaran artikulatoris adalah sebagai berikut: 1) Akuisisi data artikulatoris (articulatory data acquisition), 2) Pemodelan geometris saluran vokal (geometric modeling of vocal tract), dan 3) Pemodelan akustik untuk sintesis (acoustic modeling for the synthesis). Sintesis ujaran artikulatoris didasarkan pada teori fisika, konstruksi dan pemetaan model geometris membuat komputasi kompleks. Juga pemodelan koartikulasi yang tidak tepat menyebabkan degradasi dalam ujaran yang disintesis. Kompleksitas komputasi dan kealamian yang berkurang membuat pendekatan sintesis ujaran artikulatoris kurang populer dibandingkan dengan pendekatan lain yang sudah ada untuk sintesis ujaran.
37
2.5.2.2 Sintesis Ujaran Formant Sintesis ujaran formant (formant speech synthesis) dikembangkan sampai tahun 1990. Sintesis ujaran formant tidak menggunakan contoh ujaran manusia pada saat runtime. Keluaran ujaran yang disintesis dibuat menggunakan model akustik. Parameter seperti frekuensi dasar, penyuaraan, dan tingkat derau bervariasi menurut waktu untuk membuat bentuk gelombang ujaran buatan. Banyak sistem menggunakan teknologi sintesis ujaran formant untuk membangkitkan ujaran buatan seperti robot. Meskipun ujaran yang disintesis dengan formant hasilnya masih dapat dipahami, tapi suaranya tidak alami, hal ini merupakan kelemahan utamanya.
2.5.2.3 Sintesis Ujaran Perangkaian (Concatenative) Sintesis ujaran perangkaian (concatenative speech synthesis) dikembangkan setelah tahun 1990, merupakan sintesis berdasarkan pada rentetan bagian ujaran yang telah direkam. Ide dasar dalam sintesis ujaran perangkaian adalah sintesis dengan menggabungkan segmen-segmen dari gelombang ujaran alami yang disimpan dalam database [2][8][9]. Segmen-segmen tersebut dapat berupa unit kata, unit sub-kata seperti fonem, difon dan suku kata. Sintesis ujaran perangkaian banyak digunakan luas, bekerja dengan prinsip pada pemilihan unit(unit selection). Sistem sintesis perangkaian pemilihan unit yang populer adalah unisyn, clunits dan multisyn [10][11][8][9]. Sistem ini berbeda satu sama lain dalam hal jenis satuan (unit), database dan kriteria pemilihan unit (unit selection criteria) yang digunakan untuk mesintesis ujaran. Sistem pemilihan unit unisyn menggunakan difons sebagai unit dasar untuk perangkaian (concatenation). Untuk sistem pemilihan unit clunits, unitunit dasar yang dirangkaikan adalah fonem tunggal (monophones). Sedangkan sistem sintesis ujaran perangkaian berbasis pemilihan unit multisyn, digunakan difons sebagai unit dasar dari concatenation (perangkaian). Difon yang diperlukan untuk perangkaian pemilihan unit multisyn dipilih diambil dari database besar berlabel difon dari 4-5 jam rekaman ujaran kontinyu (continuous speech). Sedangkan pada pemilihan unit unisyn menggunakan contoh tunggal difon. Dalam perangkaian antar unit terjadi diskontinyu pada titik perangkaian. Teknik pemrosesan sinyal, seperti Time Domain Pitch Synchronous Overlap Add (TD-PSOLA), digunakan untuk memperhalus diskontinuitas pada titik perangkaian [12][13]. Pada umumnya, sintesis ujaran perangkaian menghasilkan suara dengan kealamian lebih tinggi dari sintesis ujaran formant. Meskipun ada kemajuan dalam sintesis dengan pendekatan 38
artikulatoris dan sintesis dengan pendekatan formant sintesis, namun sintesis dengan pendekatan perangkaian berbasis pemilihan unit tetap sebagai pendekatan sintesis ujaran yang banyak digunakan.
2.5.2.4 Sintesis Ujaran Statistik Parametrik (Hidden Markov Model) Sintesis ujaran statistik parametrik mengikuti pendekatan berbasis model untuk sintesis ujaran. Berbeda dengan sistem sintesis ujaran perangkaian, dalam sintesis ujaran perangkaian yang disimpan dalam repositori adalah unit yang berupa segmen-segmen dari rekaman ujaran asli, sedangkan pada sintesis ujaran statistik parametrik yang disimpan adalah model yang sesuai untuk setiap unit. Dalam pendekatan berbasis model, ujaran diparameterisasi dan menggunakan metode statistik untuk membangun model untuk parameter-parameter ujaran ini, maka dinamakan sintesis ujaran statistik parametrik [14]. Dalam sintesis ujaran statistik parametrik, model statistik parametrik yang dibangun menggunakan model HMM (Hidden Markov Model). Oleh karena itu sintesis ujaran statistik parametrik juga dikenal sebagai sintesis ujaran berbasis HMM [2][15]. Sintesis ujaran statistik parametrik menawarkan lebih banyak fleksibilitas untuk menyesuaikan karakteristik ujaran dibandingkan ke sistem sintesis ujaran perangkaian berbasis pemilihan unit. Karena sintesis ujaran statistik parametrik menggunakan vocoder untuk mensintesis ujaran, bunyi ujaran yang disintesis sedikit tidak alami dibandingkan dengan ujaran yang disintesis menggunakan sintesis ujaran perangkaian. Namun, beberapa penelitian sedang dikembangkan untuk meningkatkan kualitas dari ujaran yang disintesis menggunakan sintesis ujaran statistik parametrik dengan memasukkan parameter glotal source [16], parameter artikulasi [17], dan lain-lain. 2.6
Gambaran Sinyal Ujaran Dalam Domain Waktu dan Frekuensi Sinyal ujaran adalah sebuah sinyal yang berubah terhadap waktu dengan
kecepatan perubahan yang lambat. Ketika dilakukan pengamatan pada periode waktu yang pendek (antara 5 sampai dengan 100 mili detik), karakteristiknya bersifat tetap, namun,
pada periode waktu yang lebih panjang (untuk 1/5 detik atau lebih)
karakteristik sinyal berubah mencerminkan perbedaan bunyi ujaran yang sedang diucapkan. Sebagai ilustrasi
diperlihatkan pada Gambar 2.5 bentuk gelombang
ujaran dalam domain waktu dari frase bahasa Inggris "It’s time" yang diucapkan oleh seorang pria. Setiap baris dari bentuk gelombang tersebut mewakili dari potongan 39
sinyal selama 100 mili detik (1/10 detik), sehingga seluruh gambar tersebut meliputi sinyal ujaran sepanjang 500 mili detik (0.5 detik) [55] [56]. Ada beberapa cara untuk mengklasifikasikan (labelling) kejadian dalam sinyal ujaran, salah satu cara yang sederhana dengan melalui sumber produksi ujaran. Ketentuan yang sudah diterima adalah dengan cara merepresentasikannya menjadi tiga keadaan yang berbeda [55][56], yaitu (1) silence (S), keadaan pada saat tidak ada ujaran yang diproduksi; (2) unvoiced (U), keadaan pada saat pita suara tidak bergetar, sehingga bentuk gelombang ujaran yang dihasilkan bersifat tidak periodik atau bersifat acak; (3) voiced (V), keadaan pada saat pita suara tegang dan bergetar ketika udara mengalir dari paru-paru, sehingga menghasilkan bentuk gelombang ujaran yang bersifat quasi-periodic.
Gambar 2.5 Bentuk gelombang sinyal ujaran "It’s time" [56]. Pelabelan S, U, dan V mempermudah untuk mengamati perbedaan keadaankeadaan dalam sinyal ujaran. Baris pertama serta awal baris kedua ditandai dengan S, artinya bagian tersebut menggambarkan keadaan diam dimana pembicara belum mengucapkan apapun namun terdapat amplitudo kecil yang tampak merupakan derau latar belakang yang ikut terekam. Pada baris kedua terdapat periode singkat unvoiced (U) mendahului vokal pertama dalam kata It. Pada baris ketiga menunjukkan kelanjutan dari baris kedua yaitu daerah voiced (V) yang cukup panjang yang menggambarkan vokal (i) dan daerah unvoiced (U) yang menggambarkan daerah
40
pelemahan pengujaran /i/, serta silence (S) yang merupakan bagian dari fonem /t/, dan seterusnya. Segmentasi dan pelabelan ujaran untuk daerah silence, unvoiced dan voiced tidak dapat dilakukan secara tepat, sulit untuk membedakan sebuah bunyi unvoiced yang lemah dari silence, bunyi lemah voiced dari unvoiced bahkan silence. Ada daerah-daerah yang tidak dapat dikategorikan dengan tegas ke dalam salah satu dari tiga kategori tersebut. Salah satu penyebabnya adalah pengubahan dari keadaankeadaan alat ucap manusia yang tidak bersifat diskrit dari satu keadaan ke keadaan lainnya, sehingga bunyi peralihan dari satu segmen ke segmen lainnya menghasilkan bentuk yang tidak mudah ditentukan. Ada segmen-segmen ujaran yang mirip atau bahkan mengandung silence didalamnya [55] [56]. Untuk melakukan analisis untuk mendapatkan informasi lebih dari suatu ujaran, tidaklah cukup sinyal ujaran digambarkan dalam domain waktu yaitu bentuk diagram waktu terhadap amplitudo. Sinyal ujaran dapat digambarkan dalam domain waktu terhadap frekuensi menggunakan spektogram seperti terlihat pada Gambar 2.6. Frekuensi sinyal ujaran dapat diidentifikasikan dari suatu segmen ujaran dengan menggunakan spektogram. Segmentasi ujaran yang bentuknya mirip dan susah dibedakan dalam domain waktu, akan lebih mudah dibedakan dengan melihat
Amplitudo
Frekuensi
perbedaan komponen frekuensinya dalam domain frekuensi melalui spektogram.
Waktu (detik)
Gambar 2.6 Domain waktu (bawah) dan domain frekuensi (atas) sinyal ujaran dari kalimat “Every Salt Breeze Comes From Sea” [55] [56]. 41
2.7
Pengolahan Sinyal Digital
2.7.1
Transformasi Fourier Transformasi Fourier digunakan untuk mengubah bunyi dari domain waktu
kedalam domain frekuensi yang disebut deret Fourier. 1.
Transformasi Fourier Berkesinambungan Transformasi Fourier untuk fungsi berkesinambungan : 𝐹 𝜔 =
∞ ƒ −∞
𝑡 𝑒 −𝑗𝜔𝑡 𝑑𝑡
(1)
dengan : e-jθ = cos(θ) – j sin(θ)
Dengan deret Fourier, dapat diketahui nilai-nilai frekwensi yang membentuk suatu bunyi. Diantara deret fourier tersebut tentunya ada frekwensi dominan yang menunjukkan tingkat nada suatu bunyi. Sebuah deret Fourier dalam domain frekwensi dapat diubah kembali kedalam domain waktu. Dengan menginversi deret fourier tersebut kembali kedalam domain waktu.
Invers Fourier untuk fungsi berkesinambungan: ƒ 𝑡 =
2.
∞ 𝐹 −∞
𝜔 𝑒 𝑗𝜔𝑡 𝑑𝜔
(2)
Transformasi Fourier Diskrit Karena sampling gelombang bunyi dilakukan pada komputer maka dilakukan transformasi Fourier diskrit.
Anggap bahwa sebuah deret bilangan kompleks x(k) dengan sampel sebanyak N adalah: x0, x1, x2, x3, … xk, … xN-1 dengan x adalah bilangan komplek xi = xreal + j ximaginer
(3)
Selajutnya anggap bahwa deret diluar 0, N-1 adalah periodik, bahwa xk = xk+N untuk semua k. Hasil transformasi fourier dari deret tersebut di notasikan sebagai X(k), yang juga memiliki sampel sebanyak N. 42
N 1 jk 2n / N X ( k ) x ( n)e , k 0,1,..., N 1 n0
(4)
Invers Transformasi Fourier untuk fungsi diskrit :
x ( n)
1 N 1 jk 2n / N , n 0,1,..., N 1 X ( k )e N k 0
(5)
Setelah transformasi dilakukan, deret yang didapat adalah nilai real dan imajiner. Selanjutnya dapat di hitung magnitudonya . |X(n)| = (Xreal * Xreal + Ximag * Ximag) 0.5
3.
(6)
Transformasi Fourier Cepat / Fast Fourier Transform (FFT) Tidak ada yang berubah dalam rumus persamaan Transformasi Fourier Cepat (Fast Fourier Transform). Yang berubah hanya metode perhitungan yang digunakan. Hal ini dilakukan agar banyaknya operasi perhitungan yang dilakukan dapat diper-sedikit. Sehingga akan mengurangi waktu yang diperlukan komputer dalam menghitung transformasi Fourier diskrit. Algoritma perhitungan Transformasi Fourier Cepat (Fast Fourier Transform). Transformasi Fourier Diskrit :
N 1 X (k ) x(n)W kn , k 0,1,..., N 1 n0
(7)
dengan W = e-j(2π/N)
Dengan memisahkan bagian genap dan ganjil didapat persamaan berikut:
X (k )
N / 21 kn N 1 kn x(n)W x(n)W , k 0,1,..., N 1 n0 N /2
(8)
Pada kasus berikut andaikan terdapat deret dengan N=8, maka trasformasi Fourier diskrit :
7 X (k ) x(n)W kn , k 0,1,2,...,7 n0 W = W8 = e - jπ /4 43
(9)
Jika dijabarkan dalam bagian genap dan ganjil maka : X(k) = {x(0)W0 + x(2)W2n + x(4)W4n + x(6)W6n} + {x(1)Wn + x(3)W3n + x(5)W5n + x(7)W7n} k = 0, 1, … , 7
2.7.2
(10)
LPC (Linier Predictive Coding) Teori LPC digunakan di bidang suara, telah dipahamai dengan baik selama
bertahun-tahun. Pada bagian ini akan dijelaskan dasar bagaimana LPC dimanfaatkan dalam pengenalan ujaran maupun sintesis ujaran. Sebelum melangkah lebih jauh, ada beberapa alasan mengapa LPC banyak digunakan di bidang suara. Berikut ini adalah alasannya [56][57]: 1. LPC menyediakan model yang baik untuk sinyal ujaran. 2. LPC diterapkan untuk menganilis sinyal ujaran mengarah ke pemisahan pemisahan antara source dan vocal tract yang masuk akal. 3. LPC adalah sebuah model analitik yang mudah digunakan. Metode LPC secara matematik tepat, sederhana dan mudah diimplementasikan pada perangkat lunak dan perangkat keras. 4. Model LPC bekerja dengan baik pada aplikasi pengenalan ujaran maupun sintesis ujaran. 5. LPC sangat hemat dalam hal tempat penyimpan karakteristik suara.
2.7.2.1. Model LPC Ide dasar dari LPC sebenarnya adalah bagaimana suatu nilai sampel dari gelombang suara dapat diprediksi dari sejumlah nilai-nilai sampel sebelumnya. Contoh sinyal ujaran s(n) pada waktu ke-n dapat diperkirakan sebagai kombinasi linear dari p sampel sinyal ujaran sebelumnya yaitu [56]: sn a1sn 1 a2 sn 2 ... a p sn p
(11)
Dengan s(n) merupakan nilai sampel pada waktu ke-n. Sedangkan s(n-x) merupakan nilai sampel pada waktu (n-x), sehingga s(n-2) berarti nilai sampel ke-2 tepat sebelum sampel ke-n. Parameter p merupakan indeks sampel maksimum sebelum sampel ke-n sehingga jika p=10 berarti nilai sampel yang dapat digunakan untuk memprediksi sampel ke-n adalah s(n-1) sampai s(n-10). Parameter ai merupakan koefisien pengali sampel, dimana untuk p=10 maka akan ada koefisien koefisien a1 sebagai pengali sampel s(n-1), koefisien a2 sebagai pengali sampel 44
s(n-2), dan
seterusnya sampai koefisien a10 sebagai pengali sampel s(n-10). Koefisien a1, a2, a3, …, ap diasumsikan bernilai konstan selama bingkai analisis ujaran. Dengan adanya teknik LPC ini maka data ujaran sebanyak N sampel dapat diwakili hanya dengan koefisien-koefisien ai dan sampel data pertama saja mengingat sampel-sampel berikutnya dapat diprediksi dengan mengalikan koefisien-koefisien ai dengan sampel-sampel sebelumnya. Istilah 'Coding' pada LPC(Linear Predictive Coding) dimaksudkan, yaitu: untuk melakukan proses semacam kompresi suara dengan memanfaatkan
koefisien-koefisien tersebut. Persamaan (11) kemudian diubah
menjadi persamaan yang mencakup suatu masa eksitasi, G.u(n), menghasilkan p
sn ai sn i G.u n
(12)
i 1
dengan u(n) adalah eksitasi ternormalisasi dan G adalah penguatan eksitasi. Ekspresi persamaan (12) dalam domain z didapatkan hubungannya di persamaan (13) p
S z ai z i S z G.U z
(13)
i 1
menyebabkan fungsi alih (transfer function) menjadi H z
S z G.U z
1 p
1 ai z i
1 Az
(14)
i 1
Interpretasi dari persamaan (14) diberikan pada Gambar 2.7 menunjukkan sumber eksitasi ternormalisasi, u(n), diperbesar oleh perolehan, G, dan bertindak sebagai masukan sistem all-pole, H Z 1 , untuk memproduksi sinyal ujaran s(n). Az
Berdasarkan pengetahuan yang ada bahwa fungsi eksitasi sebenarnya untuk ujaran pada dasarnya baik quasi periodic pulse train (untuk bunyi ujaran terucap/voiced) atau random noise source (untuk bunyi tak terucap/unvoiced), model sintesis yang tepat untuk ujaran, sesuai dengan analisis LPC , ditunjukkan pada gambar 2.7. Berikut sumber eksitasi ternormalisasi dipilih melalui sebuah saklar/switch yang posisinya dikendalikan oleh karakter voiced / unvoiced dari ujaran, yang memilih sebuah quasi periodik pulse train sebagai eksitasi untuk bunyi voiced, atau sebuah urutan random noise untuk bunyi unvoiced.
Penambahan (gain) G yang tepat,
sumber yang diperkirakan dari sinyal ujaran, dan sumber skala digunakan sebagai masukan untuk filter digital (H(z)) , yang dikendalikan oleh karakteristik parameter saluran vokal (vocal tract) dari ujaran yang diproduksi . Jadi parameter dari model 45
ini adalah klasifikasi voiced/unvoice, periode pitch untuk bunyi voiced, parameter gain , dan koefisien dari filter digital {ak}. Semua parameter ini berubah ubah bergantian perlahan bersesuain dengan waktu Pitch Period Voiced/ Unvoiced Switch
Impulse Train Generator
u(n)
Random Noise Generator
Vocal Tract Parameters
Time-Varying Digital Filter
s(n)
G
Gambar 2.7 Model Sintesis Ujaran berbasis Model LPC [56].
2.7.2.2. Analisis LPC Berdasarkan model pada Gambar 2.7, hubungan yang tepat antara s(n) dan u(n) adalah p
sn ak sn k G.u n
(15)
k 1
Dengan mempertimbangkan kombinasi linear dari sampel ujaran sebelumnya sebagai
s n , didefinisikan sebagai berikut : perkiraan ~ p
~ s n ak sn k
(16)
k 1
sehingga bentuk prediksi kesalahan, e(n), didefinsikan sebagai en sn ~ s n sn ak sn k
(17)
dengan fungsi alih (transfer fuction) kesalahan
Az
p E z 1 ak z k S z k 1
(18)
Dasar permasalahan pada suatu analisis prediksi linear adalah menentukan himpunan koefisien LPC, {ak}, secara langsung dari sinyal ujaran. Karakteristik spektral ujaran yang bervariasi sepanjang waktu menyebabkan koefisien LPC pada 46
waktu yang diberikan n harus diperkirakan dari suatu segmen pendek dari saat terjadinya sinyal ujaran sekitar waktu n. Sebelum menyelesaikan persamaan-persamaan untuk menentukan koefisien LPC, terlebih dahulu ditetapkan ujaran jangka pendek, sn(m), dan segmen kesalahan pada waktu n, en(m)
s n m sn m
(19)
en m en m
dan minimal rata-rata kuadrat kesalahan (mean square error) dari sinyal pada waktu n, dinyatakan pada persamaan (20).
E n en2 m
(20)
m
Dari persamaan (17) dan persamaan (20) menghasilkan persamaan (21). p E n s n m a k s n m k m k 1
2
(21)
Penyelesaian persamaan (21), untuk koefisien prediksi (predictor coefficients) adalah dengan mendiferensiasikan En dengan tiap-tiap ak dan mengatur hasilnya sama dengan 0.
E n 0,..k 1,2,3,... p a k
(22)
sehingga menghasilkan p
sn m i sn m aˆ k sn m i sn m k k 1
m
(23)
m
Dengan mengenali bentuk persamaan (23) maka bentuk dari jangka waktu pendek kovarian pada sn(m) dinyatakan sebagai :
n i, k s n m i s n m k
(24)
m
Persamaan (23) dapat dituliskan dalam bentuk ringkas seperti dalam persamaan (25). p
n i,0 aˆ k n i, k
(25)
k 1
yang menunjukkan sekelompok persamaan p pada nilai p yang tidak diketahui, dan minimal rata-rata kuadrat kesalahan, Eˆ n , dapat dituliskan sebagai persamaan (26)
47
p
Eˆ n s n m aˆ k s n m i s n m k k 1
m
m
(26)
p
Eˆ n n 0,0 aˆ k n 0, k k 1
Dan minimal rata-rata kuadrat kesalahan yang terdiri dari suatu jangka tetap (Φn(0,0)), dan jangka yang bergantung pada koefisien prediksi. Untuk menyelesaikan persamaan (25) agar didapat koefisien prediksi yang optimal, harus dihitung (Φn(i,k)) untuk 1 ≤ i ≤ p dan 0 ≤ k ≤ p, dan kemudian menyelesaikan himpunan hasil dari persamaan simultan p.
2.7.2.3. Metode Autokorelasi Cara cukup sederhana dan mudah untuk mendefinisikan batas perjumlahan m adalah dengan mengasumsikan bahwa nilai segmen sinyal ujaran sn(m) adalah nol untuk nilai m di luar interval 0 ≤ m ≤ N-1. Untuk mendapatkan nilai sn(m), sinyal ujaran sn(m+n) dikalikan dengan sebuah panjang window terbatas w(m). Hal ini yang disebut dengan windowing. Pada metode autokorelasi ini digunakan window hamming Hal ini dinyatakan dengan persamaan berikut [56] :
sn m sm n.wm untuk 0 ≤ m ≤ N-1 dan
sn(m) = 0,
untuk nilai m lainnya
(27)
Berdasarkan persamaan (27), untuk m<0, kesalahan prediksi sinyal en(m) tepat nol karena sn(m)=0 untuk seluruh m<0, dan ini bukan kesalahan prediksi. Jadi jelas bahwa tujuan windowing sinyal ujaran adalah untuk meruncingkan atau memperhalus sinyal di antara m = 0 dan m = N-1, sehingga dapat memperkecil sinyal kesalahan pada batas daerah tersebut. Karena sinyal berada di antara m = 0 dan m = N-1 maka rata-rata kuadrat kesalahan sinyal menjadi
En
N 1 p
e m
m 0
2 n
(28)
dan Φn(i,k) dapat dituliskan sebagai
n i, k
N 1 p
s m i s m k
m 0
n
(29)
n
48
atau
n i, k
N 1i k
s ms m i k
m 0
n
(30)
n
dengan 1 ≤ i ≤ p dan 0 ≤ k ≤ p.
Karena persamaan (30) hanya sebuah fungsi dari i-k (i dan k adalah dua variabel bebas),
fungsi Φn(i,k) pada persamaan (30) tereduksi menjadi fungsi
autokorelasi sederhana, yaitu:
n i, k rn i k
N 1i k
s ms m i k m 0
n
Jika fungsi autokorelasi ini
(31)
n
bersifat simetris, yaitu
rn(k) = rn(-k), maka
persamaan LPC pada persamaan (25) dapat dituliskan sebagai :
r i k aˆ p
k 1
n
k
rn i 1 ≤ i ≤ p
(32)
Dan persamaan (32) dapat dituliskan dalam bentuk matrik sebagai berikut :
rn 1 rn 2 rn 0 r 1 rn 0 rn 1 n rn 2 rn 1 rn 0 ... ... ... rn p 1 rn p 2 rn p 3
... rn p 1 aˆ1 rn 1 ... rn p 2 aˆ 2 rn 2 ... rn p 3 aˆ3 rn 3 ... ... ... ... rn 0 aˆ p rn p
(33)
2.7.2.4. Proses LPC Pada bagian ini, dijelaskan detail dari proses LPC dari awal sampai akhir yang digunakan luas dalam pengenalan ujaran dan sintesis ujaran. Gambar 2.9 menunjukkan tahapan dari pemrosesan sinyal menggunakan LPC, dan penjelasannya sebagai berikut [56][57]: 1.
Preemphasis Sinyal suara s(n) yang telah disampling dilewatkan pada sistem digital tingkat
rendah untuk meratakan spektral sinyal dan menghilangkan derau yang ada pada sinyal tersebut. Sistem orde satu yang digunakan dalam preemphasis adalah : H(z) = 1 – ãz-1, 0,9 a 1
(34)
sehingga keluaran preemphasis ŝ(n) berkaitan dengan input s(n), sebagai berikut : sˆ(n) s(n) aˆs(n 1)
(35) 49
dengan nilai ã yang umum digunakan adalah 0,95. 2.
Pembingkaian (Frame Blocking) Keluaran dari proses preemphasis sinyal ŝ(n), dipotong-potong dalam suatu
bingkai dengan panjang N-sampel, dan jarak antar bingkai yang berdekatan sepanjang M-sampel. Tahap pembingkaian dinyatakan dengan persamaan : xl(n) = ŝ(Ml + n),
n = 0,1,…,N-1 ; l = 0,1,…,L-1
(36)
dengan L merupakan jumlah bingkai. Proses pembingkaian ditunjukkan pada Gambar 2.9. Bingkai pertama berisi N sampel data pertama sinyal suara. Bingkai ke-2 dimulai dari data ke M pada bingkai pertama, sehingga terdapat penumpukan (overlap) bingkai sejauh N-M buah data. Demikian juga dengan bingkai ke-3 dimulai dari data ke-2M bingkai pertama (atau data ke-M dari bingkai ke-2), sehingga terdapat penumpukan bingkai sejauh N-2M terhadap bingkai pertama dan N-M terhadap bingkai kedua. Proses ini berlangsung terus sampai seluruh data sinyal suara dibingkaikan.
Gambar 2.8 Proses pembingkaian dari sinyal ujaran
Keterangan gambar:
3.
Bi
= Bingkai ke-i dengan panjang N sampel
∆B
= selisih antar bingkai dengan panjang M sampel
Windowing (Penjendelaan) Setelah pembingkaian, langkah selanjutnya adalah melakukan windowing
terhadap masing-masing sinyal terbingkai untuk meminimalkan sinyal diskontinyu pada awal dan akhir pada masing-masing bingkai.
Jika didefinisikan window
sebagai w(n), maka hasil dari proses windowing adalah sinyal : ~
x l (n) xl (n) w(n) ,
0 n N-1
(37)
50
Umumnya, window yang digunakan Hamming window (walaupun ada window yang lain seperti Hanning, atau Blackman) dengan persamaannya : w(n) = 0,54 – 0,46 cos 2n ,
dengan 0 n N-1
N 1
(38)
Gambar 2.9 Sistem Pemrosesan Sinyal dengan LPC[56][57]
4.
Autocorrelation Analysis (Analisis Autokorelasi) Langkah selanjutnya adalah melakukan analisis autokorelasi sinyal dari
masing-masing bingkai yang sudah terwindow, untuk memberikan :
rl (m)
N 1 m ~
~
x l (n) x l (n m),
m = 0,1,….,p
(39)
n 0
dengan nilai autokorelasi tertinggi p, dengan p adalah orde analisis LPC (8 p 16)
5.
Analisis LPC Analisis LPC mengubah setiap bingkai autokorelasi p+1 ke dalam himpunan
parameter LPC menggunakan
metode Durbin. Secara formal dapat diberikan
algoritma sebagai berikut : E(0) = r(0) L 1 ki = r (i) (ji 1) r | i j | j 1
(40)
E
( i 1)
,
1
(41)
i(i ) ki
(42)
(ji ) (ji 1) kii(i j j )
(43)
E(i) = (1 – ki2 ) E(i-1)
(44) 51
Persamaan (40) sampai (44) diselesaikan secara rekursif untuk i = 1,2,…,p , dan hasil yang didapat adalah : am = Koefisien LPC = m(p),
1mp
dengan
km = Koefisien PARCOR gm = Koefisien Rasio Area Log = log (1-km / 1+km) 6.
Konversi Parameter LPC ke Koefisien Cepstral Koefisien cepstral LPC, c(m), adalah himpunan parameter LPC yang sangat
penting yang dapat diturunkan dari himpunan koefisien LPC. Rumus rekursi yang digunakan : m 1
k am .Ck .am k , where 1 m p m k 1 m 1 k Cm .Ck .am k , where m > p m k 1
Cm
7.
(45) (46)
Pembobotan Parameter (Parameter Weighting) Vektor koefisien cepstral Q yaitu cm dikalikan dengan wm sehingga didapatkan
ĉm. Sebuah pembobotan yang tepat, bandpass lifter (filter pada domain cepstral). wm = 1
Q m sin( ( )) , 2 Q
dengan 1 m Q
(47)
Fungsi pembobotan ini memotong perhitungan dan de-emphasize cm di sekitar m =1 dan m = Q. 8.
Turunan Cepstral terhadap waktu (Temporal Derivative) Representasi cepstral pada spektrum sinyal ujaran menyediakan sebuah
representasi yang baik dari sifat spektral lokal dari sinyal untuk bingkai analisis yang diberikan. Sebuah perbaikan representasi dapat diperoleh dengan memperluas analisis untuk memasukkan informasi tentang turunan ceptral terhadap waktu baik turunan pertama maupun turunan kedua. Delta cepstral ( ct(m)) adalah turunan pertama, sedangkan delta-delta ceptral (2 ct(m)) adalah turunan kedua terhadap waktu k
kc l k m .G k k
Delta Cepstal, ct(m) diolah menjadi ct(m) =
(48)
dengan 1 m Q. G adalah faktor penguatan yang dipilih agar varian dari ct(m) sama dengan ct(m). 52
2.8
Model Markov Tersembunyi (Hidden Markov Model) Pada tahun 1906, seorang ahli yang berasal dari Rusia yang bernama A.A
Markov mengembangkan Model Markov. Teknik ini mula-mula digunakan pada ilmu pengetahuan fisik dan meteorologi untuk menganalisis partikel-partikel gas dalam suatu kontainer tertutup sebagai alat untuk meramalkan keadaan cuaca. Hidden Markov Model (HMM) merupakan pengembangan dari Model Markov. HMM mulai dipublikasikan pada akhir tahun 1960 dan awal tahun 1970 melalui kumpulan paper klasik karya Baum dan kawan-kawannya. HMM semakin berkembang pada tahun 80-an dan pada tengah-akhir 80-an HMM menjadi pola pengenalan yang dominan dan terbukti sangat kuat dan fleksibel dalam pemodelan statistik yang menggambarkan berbagai jenis data terurut. HMM digunakan dalam berbagai area, seperti di bidang science dan engineering. Contoh aplikasi HMM pada masa itu adalah sistem pengolahan suara yang diciptakan oleh Baker di CMU dan Jelinek dan kawan-kawannya di IBM. Sekarang ini HMM digunakan luas diberbagai bidang meliputi analisis kimia, biologi, fisika, klimatologi, komunikasi, ekonometri, pengolahan citra, pengenalan tulisan, pengenalan ujaran dan sintesis ujaran. HMM berkembang pesat karena pemodelan ini sangat kaya dengan struktur matematika. HMM mengacu pada fungsi peluang rantai Markov[56][57]. 2.8.1 Rantai Markov (Markov Chain) Rantai Markov merupakan proses acak di mana semua informasi tentang masa depan terkandung di dalam keadaan sekarang (yaitu orang tidak perlu memeriksa masa lalu untuk menentukan masa depan). Untuk lebih tepatnya, proses memiliki properti Markov, yang berarti bahwa bentuk ke depan hanya tergantung pada keadaan sekarang, dan tidak bergantung pada bentuk sebelumnya. Dengan kata lain, gambaran tentang keadaan sepenuhnya menangkap semua informasi yang dapat mempengaruhi masa depan dari proses evolusi. Suatu Rantai Markov merupakan proses stokastik yang berarti bahwa semua transisi adalah probabilitas (ditentukan oleh kebetulan acak dan dengan demikian tidak dapat diprediksi secara detail, meskipun mungkin diprediksi dalam sifat statistik) Untuk memahami lebih jauh mengenai rantai Markov diberikan contoh data cuaca kota Semarang yang dapat diperkirakan, sebagai berikut : 1. Jika hari ini cerah (C) maka besok akan berpeluang 80% cuaca cerah (C), 5% akan turun hujan (H), dan 15% akan berawan (B). 53
2. Jika hari ini hujan (H) maka besok akan berpeluang 20% cuaca cerah (C), 60% akan turun hujan (H), dan 20% akan berawan (B). 3. Jika hari ini berawan (B) maka besok akan berpeluang 20% cuaca cerah (C), 30% akan turun hujan (H), dan 50% akan berawan (B). Dari data cuaca tersebut dapat dibuat tabel matrik distribusi peluang transisi keadaan cuaca, yang ditunjukkan pada tabel 2.3.
Cuaca hari ini
Tabel 2.3 Matriks distribusi peluang transisi-keadaan cuaca Cuaca hari besok C H 0.80 0.05 0.20 0.60 0.20 0.30
C H B
B 0.15 0.20 0.50
Peluang perubahan cuaca juga dapat ditunjukkan dengan menggunakan diagram keadaan seperti pada Gambar 2.10. 0.80
0.50 0.15
C
B
0.20 0.05
0.30 0.20
0.20
H
0.60
Gambar 2.10 Rantai Markov Diagram Peluang Cuaca. Jika diberikan contoh kasus pertama : jika hari ini cerah (C), berapa peluang untuk empat hari berikutnya adalah C, H, B, B, dan C berdasarkan model di atas. Maka tercipta barisan observasi O=(C,H,B,B,C), dan peluang dari barisan observasi tersebut (empat hari berikutnya) adalah
P(O | Model) P(C , H , B, B, C | Model) P q C , q H , q B, q B, q5 C | Model 1 2 3 4
PC .P q H q C .P q B q H .P q B q B .P q5 C q B . 2 1 3 2 4 3 4 1 0,05 0,20 0,50 0,20 0,001
54
Sedangkan untuk contoh kasus ke-dua : Jika pada hari Minggu hujan (H) maka perkiraan cuaca untuk hari Selasa berikutnya? Rantai Markov memiliki 3 keadaan yaitu cerah, hujan dan berawan dan hari Minggu kita anggap sebagai keadaan awal dengan urutan keadaannya 1=cerah, 2=hujan dan 3=berawan ( P(cerah, hujan, berawan)) , maka (Minggu ) (0,1,0)
.80 .05 .15 A .20 .60 .20 Matrik transisi .20 .30 .50 Peluang cuaca untuk hari Senin = π (Senin)
.80 .05 .15 ( Senin ) ( Minggu ) A (0,1 ,0) .20 .60 .20 .20, .60, .20 .20 .30 .50 maka peluang cuaca untuk hari Senin 20% akan cerah, 60% akan hujan, dan 20% berawan. Peluang cuaca untuk hari Selasa = π (Selasa)
.80 .05 .15 ( Selasa ) ( Senin ) A (.20, .60, .20) .20 .60 .20 .32, .43, .25 .20 .30 .50 maka peluang cuaca untuk hari Selasa 32% akan cerah, 43% akan hujan, dan 25% berawan.
Rantai Markov secara umum ditunjukkan pada Gambar 2.11. a11
a22 a12
1
2
a21 a13
a23 a32
a31
3
a33
Gambar 2.11 Rantai Markov. 55
Dua hal penting mengenai rantai Markov adalah : 1.
Transisi keadaan dari suatu keadaan tergantung pada keadaan sebelumnya.
Pqt j qt 1 i, qt 2 k... Pqt j qt 1 i 2.
(49)
Transisi keadaan bebas terhadap waktu. aij = P[qt = j | qt-1 = i ]
(50)
2.8.2 Definisi HMM (Hidden Markov Model) Rantai Markov mempunyai keadaan (state) yang dapat diobservasi secara langsung. Namun pada beberapa situasi tertentu yang ditemukan di kehidupan nyata, beberapa faktor yang tidak dapat diobservasi/tersembunyi (hidden) mempengaruhi perhitungan kemungkinan perpindahan keadaan. Untuk memasukkan faktor - faktor seperti itu ke dalam perhitungan, dibutuhkan suatu model yang lebih "cerdas" yaitu HMM. Sebuah HMM menggabungkan dua atau lebih rantai Markov, dengan hanya satu rantai saja yang keadaannya dapat diobservasi, sementara rantai lainnya tidak dapat diobservasi (hidden) mempengaruhi hasil dari state yang terobservasi. Biasanya pada HMM banyaknya keadaan tersembunyi (hidden state) dan probabilitas transisi dari keadaan tersembunyi tersebut diketahui. Penjelasan lainnya, HMM merupakan proses stokastik yang tidak secara langsung dapat diamati (tersembunyi), tapi dapat diamati melalui kelompok stokastik lain yang menghasilkan urutan pengamatan. HMM menggambarkan dua keterkaitan antar peubah yaitu peubah yang tak teramati (hidden state) dari waktu ke waktu, serta peubah yang teramati (observable state).
HMM sangat berguna untuk
pemodelan deret waktu, karena keadaan-ruang diskrit dapat digunakan untuk memperkirakan sistem non-linear dan non-Gaussian [56]. 2.8.3 Elemen HMM Sebuah HMM untuk pengamatan simbol diskrit dicirikan oleh [56][57][58]: 1.
N, merupakan jumlah keadaan (state) dalam model. Keadaan individu diberi label {1, 2, …, N} dan keadaan pada waktu t dinyatakan sebagai qt.
2.
M, merupakan jumlah simbol pengamatan (observation) yang berbeda per keadaan. Simbol individu pengamatan dinyatakan sebagai V = {v1, v2, …, vM}.
3.
Distribusi peluang transisi-keadaan, A = aij, dengan
aij Pqt 1 j qt i , 1 ≤ i,j ≤ N 56
(51)
𝑁 𝑗 =1 𝑎𝑖𝑗
= 1, 1 ≤ i ≤ N
(52)
Untuk kasus khusus dimana setiap keadaan dapat dicapai oleh keadaan lainnya dengan satu langkah, diperoleh aij >0 untuk semua i, j dan untuk tipe HMM lainnya aij=0 untuk 1 atau lebih pasangan (i,j). Matriks A adalah matriks dengan ukuran N × N. 4.
Distribusi peluang simbol pengamatan, B={bj(k)}, dengan
b j k POt Vk qt j , 1 ≤ k ≤ M
(53)
menyatakan distribusi simbol i pada keadaan j, j = 1,2,…,N. Matriks B adalah matriks dengan ukuran N × M. 5.
Distribusi keadaan awal, π = {πi}, dengan
i Pqt i , 1 ≤ i ≤ N
(54)
Dapat disimpulkan bahwa syarat lengkap dari sebuah HMM membutuhkan syarat dua parameter N dan M, simbol pengamatan, dan tiga himpunan dari ukuran peluang A, B dan π. Untuk lebih memudahkan, bisa dinyatakan secara ringkas, λ = (A, B, π)
(55)
untuk mengidikasikan himpunan parameter lengkap dari sebuah model HMM. Himpunan parameter ini tentu saja menyatakan sebuah ukuran peluang untuk O (observation), yaitu P(O|λ).
Contoh Kasus : Dalam contoh kasus cuaca sebelumnya bisa diselesaikan dengan Rantai Markov. Selanjutnya kasus tersebut dikembangkan ke persoalan yang tidak bisa diselesaikan dengan hanya menggunakan Rantai Markov saja, tetapi bisa diselesaikan dengan HMM. Diandaikan Si Budi berada dalam suatu kamar yang tertutup dan terkunci sehingga tidak tahu keadaan cuaca diluar (cerah, hujan dan berawan). Untuk mengetahui keadaan cuaca di luar, Si Budi hanya bisa menebak dari seseorang yang biasa mengantar makanan ke kamar nya, apakah orang tersebut membawa payung atau tidak. Keadaan seseorang membawa payung atau tidak membawa payung dipengaruhi oleh keadaan cuaca di luar. Peluang seseorang akan 57
membawa payung jika cuaca cerah (C) adalah 10%, jika cuaca hujan (H) adalah 80% dan jika cuaca berawan adalah 30%. Sehingga didapatkan suatu matrik yang menyatakan peluang membawa payung berdasarkan cuaca diluar, disebut matriks emisi seperti pada Tabel 2.4.
Tabel 2.4. Matriks Emisi dari HMM Observasi
Bawa
Tak Bawa
Payung
Payung
Cerah
0.10
0.90
Hujan
0.80
0.20
Berawan
0.30
0.70
State
Dari kasus tersebut diatas, dapat diketahui bahwa keadaan cuaca sebenarnya adalah keadaan tersembunyi (hidden state). Hidden state adalah keadaan yang harus ditebak (tidak dapat diamati secara langsung). Dalam contoh kasus ini, yang menjadi hidden state adalah cuaca di luar kamar. Sedangkan Si Budi hanya mengetahui dari kenyataan bahwa seseorang yang mengantar makanan kepadanya membawa payung atau tidak setiap harinya. Ini dapat diartikan bahwa prediksi cuaca qt hanya didasarkan pada keadaan pengamatan (observable state) xt = {membawa payung} atau xt = {tak membawa payung}. Kondisi ini dapat dinyatakan dengan teori bayes :
Pqt | xt
P( xt | qt ) P(qt ) P( xt )
(56)
untuk n hari Q={q1, q2, q3, ..., qn} sebagai hidden state (cuaca) dan X={x1, x2, x3, ..., xn} sebagai observable state. Dari kasus diatas dapat dimodelkan dalam bentuk HMM, sehingga dapat ditentukan elemen-elemen HMM, sebagai berikut : 1. Jumlah keadaan (state) dalam model = 3 dengan himpunan state Q = {cerah, hujan, berawan} 2. Jumlah simbol pengamatan (observasi) yang berbeda per keadaan (state) = 2, yaitu dengan himpunan X = {membawa payung, tak membawa payung}. 3. Distribusi peluang transisi-keadaan, A = aij, sehingga didapatkan : 58
.80 .05 .15 A .20 .60 .20 .20 .30 .50 4. Distribusi peluang simbol pengamatan, B={bj(k)}, sehingga didapatkan :
.10 .90 B .80 .20 .30 .70 5. Distribusi keadaan awal, π = {πi}, dengan i Pqt i
,
1≤i≤3
dengan π1 = P(cerah), π2 = P(hujan) dan π3 = P(berawan) sehingga didapatkan π = {P(cerah),P(hujan),P(berawan)}
Sekarang diasumsikan bahwa Si Budi berada dalam kamar yang terkunci dan saat itu (hari ke-1) cuaca cerah (C). Hari berikutnya seseorang
membawa
makanan
seperti biasanya dan membawa payung. Berapakah peluang cuaca pada hari berikutnya (hari ke-2) tersebut a) cerah (C), b) hujan (H) dan c) berawan (B) ?
Penyelesaian untuk kasus tersebut : a) Peluang bahwa hari kedua cerah (C). L(q2=C | q1=C, x2=bawa payung) = P(x2=bawa payung | q2=C)*P(q2=C | q1=C)= 0.1*0.8=0.08
b) Peluang bahwa hari kedua hujan (H). L(q2=H | q1=C, x2=bawa payung) = P(x2=bawa payung | q2=H)*P(q2=H | q1=C)= 0.8*0.05=0.04
c) Peluang bahwa hari kedua berawan (B). L(q2=B | q1=C, x2=bawa payung) = P(x2=bawa payung | q2=B)*P(q2=B | q1=C)= 0.3*0.15=0.045
2.8.4 Tipe HMM Berdasarkan arah perpindahan keadaan,
HMM
dibagi
menjadi
dua
yaitu[56][57] : 1.
HMM ergodic Pada HMM model ergodic perpindahan dari keadaan satu ke keadaan lainnya semuanya memungkinkan, sebagaimana ditunjukkan pada Gambar 2.12.
59
a11
a22 a12
S1
S2
a21 a13
a23 a32
a31
S3
a33
Gambar 2.12 HMM Model Ergodic.
2.
HMM Kiri – Kanan Pada HMM Kiri – Kanan perpindahan keadaan hanya dari kiri ke kanan, perpindahan keadaan tidak dapat mundur ke belakang, seperti ditunjukkan pada Gambar 2.13. Transisi keadaan untuk HMM Kiri – Kanan dapat dinyatakan dengan persamaan (57). aij = 0, j
(57) a11
S1
a33
a22
a12
S2
a23
S3
a13 Gambar 2.13 HMM Model Kiri – Kanan.
2.8.5 Masalah-Masalah Utama dalam HMM Ada 3 masalah utama HMM yang harus dipecahkan untuk model yang diterapkan di dunia nyata, yaitu : 1. Menghitung peluang pengamatan yaitu menghitung P(O|λ) bila diberikan urutan observasi O = O1,O2, ... ,OT dan sebuah model λ=(A, B, π).
60
2. Menentukan barisan keadaan tersembunyi yaitu memilih urutan keadaan yang paling optimal yang berhubungan dengan Q = q1,q2, ... ,qT bila diberikan urutan observasi O = O1,O2, ... ,OT dan sebuah model λ=(A, B, π). 3. Menaksir parameter-parameter HMM yaitu mengatur parameter λ agar P(O|λ) maksimal. Untuk memecahkan masalah pertama dengan menggunakan algoritma Maju (Forward) dan algoritma Mundur (Backward). Masalah kedua dipecahkan dengan menggunakan algoritma Viterbi. Sedangkan masalah ketiga dipecahkan dengan algoritma Baum-Welch. 2.8.6 Penyelesaian Masalah Menghitung Peluang Pengamatan Salah satu permasalahan dasar dalam pemodelan HMM adalah menghitung peluang urutan pengamatan. Untuk sebuah model . = (A, B, π) tertentu, ingin diketahui P(O|λ), yaitu peluang munculnya urutan O = (o1,o2,…,oT). Solusi : Urutan O = (o1,o2,…,oT) adalah nilai teramati yang merupakan refleksi atau emitten dari urutan keadaan tersembunyi Q = (q1,q2,…qT). Untuk suatu urutan keadaan tersembunyi tertentu Q = (q1,q2,…qT) dengan q1 adalah keadaan awal, nilai P(O|λ) dapat dihitung dengan penurunan berikut :
PO q, Pot qt , T
(58)
t 1
Jika peluang urutan pengamatan diasumsikan sebagai statistik pengamatan yang berdiri sendiri (independent), maka akan didapat persamaan (59).
PO q, bq1 o1 bq1 o1 ......bq1 o1
(59)
Sedangkan peluang kemunculan urutan keadaan q yaitu Q = (q1,q2,…qT) dapat ditulis sebagai :
Pq q1aq1q 2aq 2 q 3......aqT 1qT
(60)
Distribusi bersama O dengan Q diperoleh dengan mengalikan persamaan (59) dan (60).
P O, q P O q, P q
(61)
Peluang dari O yang diperoleh dengan menjumlahkan titik temu peluang dari semua kemungkinan urutan keadaan yang diberikan oleh q adalah sebagai berikut : 61
PO PO q, Pq all.q
b o1 aq1q 2 bq 2 o2 .....a qT 1qT bqT oT
q1 q1 q1, q 2,..,qT
(62)
Awalnya pada waktu t=1 keadaan q1 dengan peluang πq1, membangkitkan urutan pengamatan o1 dengan peluang bq1(o1). Perubahan waktu dari t menjadi t+1 menimbulkan transisi dari q1 ke q2 dengan peluang aq1q2, sehingga membangkitkan urutan pengamatan o2 dengan peluang bq2(o2). Proses ini berlanjut sampai transisi terakhir pada waktu T dari keadaan qT-1 ke keadaan qT dengan peluang aqT-1qT dan urutan keadaan oT dengan peluang bqT(oT). Terlihat orde perkalian tersebut adalah 2TNT. Sebagai ilustrasi, dari sebuah sinyal ujaran dengan durasi 1 detik dengan frekuensi sampling 1,28 KHZ dan dibaca per frame 30 ms dengan overlap antar frame 12 ms akan diperoleh T sebesar 71. Hal ini berarti jumlah komputasi untuk menghitung peluang pengamatan dari sebuah ujaran yang hanya 1 detik menggunakan HMM dengan tiga keadaan tersembunyai adalah kurang lebih sebesar 2*71*371, sehingga diperlukan algoritma yang lebih efisien. Ada dua algoritma yang bisa digunakan untuk hal tersebut, yaitu algoritma forward dan backward, dengan kompleksitas O (N2T). Sehingga dari kasus tersebut diatas, jumlah komputasi menjadi lebih ringkas yaitu 32*71 atau 639.
2.8.6.1
Menghitung Peluang Pengamatan Menggunakan Algoritma Forward
Algoritma forward merupakan suatu proses iterasi berdasarkan pada perhitungan peluang bersyarat P(O|λ) melalui sifat-sifat peluang. Algoritma ini menyimpan nilai nilai yang telah dihitung pada iterasi sebelumnya, sehingga mereduksi 2TNT menjadi N2T operasi. Algoritma ini akan sangat efisien ketika panjang barisan pengamatannya cukup besar. Didefinisikan t (i) adalah variabel forward pada saat t dan keadaan i, dinyatakan sebagai berikut [56][58]:
t i Po1o2 ...ot , qt i
(63)
dengan t (i) menyatakan total peluang pengamatan yang berakhir pada keadaan i pada saat t = 1,2, ..., T jika diketahui suatu barisan pengamatan (o1, o2,…oT).
62
Dengan algoritma forward, fungsi peluang untuk N keadaan dan T pengamatan dapat diselesaikan secara iterasi dengan langkah-langkah penyelesaiannya, yaitu : 1. Inisialisasi
t i i bi o1 , 1 ≤ i ≤ N
(64)
Peluang forward diinisialisasi sebagai peluang gabungan dari keadaan i dan pengamatan awal o. 2. Induksi
N t 1 j t i aij b j ot 1 , i 1
1 ≤ t ≤ T-1 dan 1 ≤ j ≤ N
(65)
Keadaan Sj pada waktu t + 1dicapai dari N kemungkinan keadaan pada saat t. 3. Terminasi
PO T i N
(66)
i 1
Pada terminasi PO dinyatakan sebagai jumlah variabel forward αt(i) pada seluruh keadaan pada saat T.
2.8.6.2
Menghitung Peluang Pengamatan Menggunakan Algoritma Backward
Algoritma Backward mirip dengan algoritma forward tetapi keadaan mengalir ke belakang dari pengamatan terakhir saat T. Fungsi peluang backward t (i) didefinisikan sebagai berikut [56][57][58]:
t i Pot 1ot 2 ...oT qt i,
(67)
Langkah-langkah backward dapat dianalogikan dengan langkah-langkah forward, sehingga t (i) dapat diselesaikan dengan cara berikut : 1. Inisialisasi
T i 1 , 1 ≤ i ≤ N
(68)
2. Induksi N
t i aij b j ot 1 t 1 j , t = T-1,T-2,…,1 dan 1 ≤ i ≤ N
(69)
j 1
Pada proses ini untuk menghitung urutan pengamatan dari waktu t+1 harus mempertimbangkan semua kemungkinan keadaan j pada waktu t+1, 63
selanjutnya menghitung transisi dari i ke j (aij), pengamatan ot+1 pada keadaan j dan menghitung urutan pengamatan parsial sisa dari keadaan j (βt+1(j)).
2.8.7 Penyelesaian Masalah Penentuan Barisan Keadaan Tersembunyi Penyelesaian masalah penentuan barisan tersembunyi digunakan algoritma Viterbi. Algoritma ini hampir mirip dengan algoritma forward, perbedaannya hanya mengganti penjumlahan dengan pemaksimalan. Algoritma ini diperkenalkan oleh Andrew J. Viterbi pada tahun 1967 dan pertama kali digunakan untuk menyelesaikan masalah pengkodean yang rumit. Algoritma ini digunakan dalam HMM untuk mencari barisan keadaan tersembunyi yang paling optimal dari suatu barisan pengamatan [56][58] Didefinisikan, arg maxy[z]
(70)
yaitu, argumen y bersesuaian dengan nilai maksimum dari z. Algoritma Viterbi memaksimalkan P(q,O) dan probabilitas bersyarat P(q|O) secara bersamaan berdasarkan fakta bahwa
P ( q, O | ) arg max[ P(q | O, )] arg max q q P(O | ) Algoritma Viterbi mendifinisikan :
1 i max q1, q 2,....qt 1P(O1, O2,..., Ot 1, Ot, q1, q2,..., qt 1, qt i | ) (71)
t j arg max t 1 i aij 1i N
(72) Variabel 1 i menyatakan peluang terbesar sepanjang t pengamatan pertama dan berakhir pada keadaan i. Sehingga 1 i merupakan peluang dari urutan keadaan yang paling optimal untuk barisan peluang secara parsial. Sementara t j menyimpan keadaan sebelumnya yang akan membentuk urutan keadaan yang paling optimal.
64
Langkah -langkah algoritma Viterbi terdiri dari : 1. Inisialisasi
1 i i bi o1 1 i 0
1≤i≤N
(73)
2. Rekursi
t j max t 1 i aij b j ot 1i N
t j arg max t 1 i aij
2 ≤ t ≤ T dan 1 ≤ j ≤ N
(74)
1i N
3. Terminasi
P max T i 1i N
(75)
q arg max T i T
1i N
4. Backtracking
qt t 1 qt1 t = T-1,T-2,…,1
(76)
Tahap backtracking memungkinkan barisan keadaan yang paling optimal ditemukan dari titik terakhir yang disimpan pada tahap rekursi.
2.8.8 Penyelesaian Masalah Menaksir parameter-parameter HMM Untuk menaksir parameter-parameter HMM digunakan prosedur pelatihan. Prosedur pelatihan ini berfungsi untuk mendapatkan parameter-parameter HMM sehingga mendapatkan model yang lebih baik. Algoritma yang digunakan untuk pelatihan adalah algoritma Baum – Welch, yang disebut juga algoritma forwardbackward. Untuk mengerti metode pelatihan, sebelumnya didefinisikan terlebih dulu fungsi peluang awal t (i), peluang pada keadaan i dan waktu t, yang diberikan oleh urutan pengamatan O dan model , sebagai berikut [56][57][58] :
t i Pqt S i O, t i
Pqt S i O,
(77)
PO
karena PO t i t i dan PO, qt S i t i t i
(78)
maka
t i
t i t i
(79)
N
i i i 1
t
t
65
Fungsi peluang t i, j adalah peluang dalam keadaan i saat t dan berpindah ke keadaan j saat t+1, yang diberikan oleh model dan urutan pengamatan O. t i, j secara matematik dapat didefinisikan sebagai :
t i, j P qt S i , qt 1 S j , O
(80)
Pada persamaan (80) kedua sisinya dikalikan dengan PO sehingga didapat :
t i, j .PO P qt S i , qt 1 S j , O .PO dengan aturan Bayesian menjadi :
P qt S i , qt 1 S j O, P O, qt S i , qt 1 S j
(81)
(82)
Sisi kanan persamaan dapat direpresentasikan sebagai dan , sebagai berikut :
P O, qt S i , qt 1 S j t i aij b j Ot 1 t 1 j
(83)
Substitusi persamaan (82) dan (83) ke persamaan (81) didapat :
t i, j
t i aij b j ot 1 t 1 j
(84)
N
i i t 1
t
i 1
dari persamaan (84) didapat :
t i, j
t i aij b j ot 1 t 1 j N
N
i a b o j i 1 j 1
t
ij
j
t 1
(85)
t 1
Hubungan antara t (i) dan t i, j dapat didefinisikan sebagai : N
t i t i, j
(86)
j 1
Jika t (i) dijumlahkan untuk semua t didapatkan jumlah waktu keadaan Si dikunjungi, atau ekuivalen dengan nilai transisi yang diharapkan dari keadaan Si. Di sisi lain jika dijumlahkan t i, j untuk semua waktu t akan didapat jumlah transisi yang diharapkan dari i ke j. T 1
i = jumlah transisi yang diharapkan dari keadaan i dalam O. t 1
t
(87a)
T 1
i, j t 1
t
= jumlah transisi yang diharapka88n dari keadaan i ke keadaan j dalam O.
(87b)
66
Dengan menggunakan persamaan (87) parameter model yaitu π, A, dan B dapat diestimasi ulang. Hasil estimasi ulang parameter model sebagai berikut :
ˆ jumlah yang diharapkan saat keadaan awal adalah Si = t (i). aˆ ij
Jumlah transisi yang diharapkan dari Si ke Sj Jumlah transisi yang diharapkan dari Si T 1
aˆ ij
T 1
(88a)
i, j i a b o j t 1 T 1
t
i t 1
t 1
t
ij
t 1
j
t 1
N
i i
t
t 1
t
i 1
Jumlah saat t yang diharapkan dalam Sj yang mempunyai observasi Ot wk. bˆ j k Jumlah yang diharapkan saat Sj T 1
bˆ j k
i
t 1,ot k T 1
t
i t 1
t
j j t
t 1,ot k
(88b)
t
T 1
j j t 1
t
t
Setelah estimasi ulang parameter model, maka akan didapatkan model lain ˆ yang lebih mirip dibandingkan , yang dihasilkan dari urutan pengamatan O. Hal ini
berarti P ˆ P .
67
BAB III METODOLOGI PENELITIAN Metode pengembangan aplikasi komputer bicara pada penelitian ini menggunakan model deskriptif
kualitatif, yaitu cara atau prosedur pemecahan
masalah dengan menggunakan urutan langkah yang telah ditentukan untuk menghasilkan suatu produk yang diharapkan. Kegiatan perancangan deskriptif ini melakukan upaya mendeskripsikan, mencatat, dan analisis, serta memaparkan keadaan objek yang diselidiki sebagaimana adanya berdasarkan fakta yang aktual ada dilapangan pada saat sekarang. 3.1. Bagan Alir Penelitian (Fishbone Diagram)
68
Gambar 2. Fishbone Chart Bagan Alir Penelitian 3.2. Tahapan Penelitian 3.2.1
Inisialisasi Penelitian Pada tahap ini, mendefinisikan dan mengkaji gambaran sistem secara umum,
kebutuhan dan manfaat akan desain aplikasi sistem yang akan dibangun. Metode Analisis untuk eksplorasi dan evaluasi yang digunakan pada penelitian ini adalah metode Synectics, pada intinya sama dengan metode brainstorming, tetapi melibatkan pihak-pihak dalam kompetensi yang lebih luas, termasuk individu diluar disiplin desain aplikasi sistem yaitu siswa dan guru dari Sekolah Luar Biasa Tuna Netra, Aktor, Aktris dan ahli bahasa Indonesia (ahli fonetik). 3.2.2
Pemilihan Teks Kalimat Bahasa Indonesia Sebagai langkah awal adalah pembuatan database ujaran. Sebelum membuat
database ujaran bahasa Indonesia adalah menentukan database (korpus) teks kalimat bahasa Indonesia terlebuh dahulu. Untuk membuat korpus kalimat tersebut bisa menggunakan dokumen koleksi artikel dari surat kabar misalnya koleksi Kompas online
atau yang lainnya. Dari ribuan bahkan jutaan kalimat yang ada, dapat
dilakukan seleksi terhadap kalimat-kalimat tersebut, sehingga tidak semua kalimat dipakai untuk korpus tersebut. Dari seleksi tersebut akan didapatkan minimum korpus kalimat bahasa Indonesia yang memenuhi keseimbangan fonetik (minimum phonetically balanced sentence corpus) yaitu kumpulan minimal kalimat-kalimat yang mengkover semua fonem yang ada didalam bahasa Indonesia (bahasa Indoneisa memiliki 26 huruf dan 33 fonem). Teks kalimat yang terpilih menjadi database 69
(korpus) kalimat, yang selanjutnya akan dilakukan perekaman (recording) berdasarkan kalimat-kalimat tersebut. 3.2.3
Perekaman Data Ujaran Dalam melakukan perekaman ujaran yang mengacu pada korpus kalimat
yang sudah ditentukan, diperlukan beberapa peralatan dan keterlibatan orang dalam pembuatan database ujaran bahasa Indonesia. Peralatan yang digunakan untuk perekaman tersebut meliputi : 1. Ruang dengan spesifikasi kedap suara (studio rekaman kedap suara) 2. Software untuk melakukan perekaman seperti Adobe Audition, Protools 9, Cubase 5, PRAAT, Wavesurfer. Soundcard external seperti M-Audio, Audio Fasttrack. Microphone seperti Shure sm 57, AKG D112, AKG C1000s AKG D40, AKG C430, RODE NTK, TOA dan lain-lain. Kerterlibatan orang dalam perekaman, digunakan 2 orang pengujar, 1 orang wanita dan 1 orang pria yang asli orang Indonesia. Pengujar tersebut seorang profesional sehingga dapat mengujarkan ujaran dengan baik. Pengujar mengujarkan ujaran dari database ujaran tersebut dengan suara yang datar. Untuk database suara ekspresif atau beremosi, digunakan 2 orang pengujar profesional yang bisa berakting emosi (aktor/aktris) sehingga bisa mengujarkan ujaran beremosi marah, sedih, senang, jijik, takut dan netral. Dalam perekaman akan dicatat segala sesuatu yang berhubungan dengan teknis perekaman, misalnya jarak antara mikrofon dengan pengujar, frekuensi sampling dan yang berhubungan sinyal suara, ruangan yang digunakan, alat-alat yang digunakan (hardware maupun software), serta transkrip kalimat yang diujarkan. Hal ini dilakukan agar nanti kalau kita menginginkan perekaman ulang bisa didapatkan hasil yang sama. Dalam riset ini, kami merencanakan perekaman suara menggunakan sekitar 3000 kalimat dengan frekuensi sampling 48 KHz (yang selanjutnya bisa dilakukan up-sampling maupun down-sampling sesuai kebutuhan), resolusi 16 bit precision, mono channel, durasi rekaman menyesuaikan kalimat yang diujarkan dan format file penyimpanan dalam bentuk .raw dan .wav. Lokasi perekaman audio :
Laboratorium Audio Visual Program Studi Desain Komunikasi Visual dan Broadcasting Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 70
Studio Lokananta Surakarta yang memiliki peralatan yang memenuhi standar dan ruang kedap suara
3.2.4
Segmentasi dan pelabelan data ujaran Segmentasi dan pelabelan dilakukan pada korpus ujaran sesuai dengan text
kalimat bahasa Indonesia yang membentuknya. Data ujaran dilakukan segmentasi dan dilabeli per monophone (fonem) berdasarkan fonem bahasa Indonesia. Kegiatan ini dilakukan secara manual menggunakan perangkat lunak Wavesurfer atau bisa dilakukan secara otomatis (automatic speech segmentation) menggunakan HMM toolkit (HTK) yang biasa digunakan dalam pengenalan suara otomatis (automatic speech recognition)(Park and Kim, 2006)(Park and Kim, 2007). Namun segmentasi secara otomatis hasilnya kurang akurat dibandingkan dengan cara manual terhadap hasil segmentasi. Sedangkan segmentasi secara manual membutuhkan waktu yang lama (time consume) dan membosankan (tedious). dilakukan
segmentasi
dan
pelabelan
Dalam penelitian ini, akan
menggunakan
segementasi
otomatis
menggunakan HTK, andaikata ada ketidaktepatan dalam hasilnya akan diperbaiki dengan segmentasi dan pelabelan secara manual. 3.2.5
Desain Sistem Dalam tahap desain gambaran keseluruhan dari aplikasi sistem secara umum
sudah diperoleh. Secara umum, aplikasi sintesis ujaran (text-to-speech) merupakan aplikasi yang dapat mentransformasikan text ke bentuk gelombang suara (ujaran). Input dari aplikasi sintesis ujaran bisa berupa text yang diinputkan secara langsung atau dokumen dalam bentuk soft-copy dengan format (.doc, .pdf, dan lain-lain). Gambaran umum dari sistem ini ditunjukkan pada Gambar 3.
71
Input text atau dokumen
Pengubahan Huruf ke Fonem
Tabel Pengecualian Input data text dan ujaran Proses Training
Pembangkitan Intonasi
Pengubahan Teks ke Fonem
Konversi ke bentuk Teks dan Normalisasi Teks
Model Akustik HMM Hasil Training
Pembangkitan Parameter dari Model HMM Produksi Sinyal Ujaran
Pengubahan Fonem ke Ujaran
Analisis Fonetik
Ujaran Gambar 3. Alur sistem pengubahan teks ke ujaran Sebuah sistem text-ujar dibentuk dari dua bagian, yaitu front end dan back end. Front end mempunyai dua fungsi utama. Pertama adalah mengambil barisan teks dan mengubah beberapa hal seperti nomor dan tanda ke dalam tulisan sesuai dengan bunyi yang seharusnya, sering disebut normalisasi teks (text normalization), pra-proses (pre-processing), atau penandaan (tokenization). Kemudian menentukan tulisan fonetik (phonetic transcriptions) untuk tiap kata dan membagi serta memberikan tanda bagi teks untuk berbagai variasi satuan intonasi, seperti frasa, klausa, dan kalimat. Proses penetapan tulisan fonetik untuk kata disebut dengan pengubahan teks ke fonem (text-to-phoneme atau grapheme-to-phoneme). Gabungan dari tulisan fonetik dan informasi intonasi menyusun keluaran penggambaran bahasa dengan simbol pada bagian front end. Bagian lainnya yaitu back end, mengambil penggambaran bahasa dengan simbol dan mengubahnya menjadi bunyi keluaran sebenarnya. Kealamian dari pembangkit suara sering mengacu pada seberapa besar
72
kemiripannya dengan suara asli. Kualitas dari pembangkit suara dilihat dari seberapa besar keluarannya dapat dipahami. 3.2.6
Implementasi Sistem Mengimplementasikan desain sesuai dengan konsep teknologi
yang
digunakan. Setelah tahap 1 sampai dengan tahap 5 telah dilakukan, selanjutnya pada tahap ke 6 yaitu implementasi sistem yaitu melakukan pembuatan program aplikasi sesuai desain yang terbentuk. Program aplikasi yang dibuat terdiri dari 2 bagian, bagian pertama yang di sebut front end dan bagian yang kedua disebut back end. Front end mengambil masukan berupa teks dan keluaran berupa penggambaran bahasa dengan simbol sedangkan back end mengambil penggambaran bahasa dengan simbol sebagai masukan dan bentuk gelombang suara yang telah diproses sebagai keluarannya. Pada bagian back end yang dilakukan adalah mengubah data ujaran menjadi fitur vektor yang digunakan sebagai data training, selajutnya dilakukan training untuk membentuk model akustik dari masing fonem dan selanjutnya dilakukan pembangkitan suara dari model akustik yang tersebut sesuai dengan text yang diinputkan. 3.2.7
Pengujian Sistem Menguji
apakah
desain
aplikasi
komputer
bicara
yang
telah
diimplementasikan sesuai dengan yang direncanakan atau belum. Pengujian rancangan menggunakan metode review atau pengkajian ulang adalah pengkajian yang ditekankan pada kualitas kemudahan penerimaan dan penggunaan bagi pengguna (fitness for user). Sedangkan pengujian implementasi dilakukan dengan pengukuran subyektif yaitu menggunakan metode pengujian rata-rata skor pendapat (mean opinion score) dari responden. Responden bisa diambil dari masyarakat dengan kisaran usia antara 17 sampai dengan 40 tahun serta siswa tuna netra atau guru sekolah luar biasa.
73
BAB IV PEMBAHASAN DAN HASIL YANG DICAPAI 4.1 Gambaran Umum dari Sistem yang Dibuat
Tujuan dari sintesis ujaran adalah untuk mensintesis bentuk gelombang ujaran dari teks. Blok diagram skematik dari sistim sintesis ujaran berekspresif ditunjukkan pada Gambar. 4.1. Input teks dan rekaman ujaran yang sesuai digunakan sebagai sumber data input yang akan dilatihkan (training) untuk mencari model ujaran. Sebelum dilakukan pelatihan, input text dianalisis terlebih dahulu untuk diubah menjadi label sesuai dengan ujaran yang direkam. Dengan menggunakan pelatihan berbasis Model Markov Tersembunyi (Hidden Markov Model/HMM) akan didapatkan model HMM dari ujaran sesuai dengan data yang dilatihkan. Tahap ini yang disebut dengan tahap pelatihan (training part). Setelah model HMM dari ujaran terbentuk, langkah selanjutnya adalah tahap sintesis (synthesis part). Pada tahap sintesis, diperlukan model HMM dari ujaran dan text sebagai inputan untuk pembangkitan atau sintesis dari ujaran yang dikehendaki. Pertama-tama input text dianalisis dan diubah menjadi label. Dari label tersebut dijadikan input yang digunakan untuk melakukan sintesis ujaran dari model HMM yang terbentuk. Ujaran awalnya disintesis tanpa ekspresif, yaitu, ujaran netral dan kemudian ekspresif yang diinginkan ditambahkan dengan menggunakan teknik memodifikasi dari fitur prosodi ujaran yang sesuai dengan ekspresif yang diinginkan. Pada penelitian ini, sistem seperti ini disebut sebagai sistem sintesis ujaran berekspresif.
Speech recordings
Input Data
Text Input
Text Input
Synthesis
Training
Expressive Parameters Modification
Speech Model
Gambar 4.1. Sistem Sintesis Ujaran Berekspresif Bahasa Indonesia
74
Expressive Speech
4.2 Detail dari Metode yang Diusulkan
Metode yang diusulkan dalam penelitian ini, bertujuan untuk menghasilkan ujaran berekspresif.
Input Speech
Modifikasi prosodi dengan FD - PSOLA Pitch (F0) Scale Modification Time Scale Modification Amplitude Modification
Excitation parameter extraction
Training Part
Spectral parameter extraction
Excitation parameters Text
Text Analysis
Spectral parameters Training HMM
Label
Contex-Dependent HMM & State Duration Models
Synthesis Part
Text
Text Analysis
Label
Parameter generation from HMM
Excitation parameters
Spectral parameters Excitation
Excitation generation
Synthesis Filter
Synthesized Speech
Gambar 4.2. Detail Sistem Sintesis Ujaran Berekspresif Bahasa Indonesia
Metode sintesis ujaran yang digunakan adalah metode Statistik Parametrik (Hidden Markov Model) yang berbasis pendekatan model.
75
Ketika berbicara tentang sintesis ujaran berbasis pendekatan model, terutama ketika ingin mempelajari model dari data, biasanya akan merujuk pada sebuah model parametrik statistik. Model ini disebut parametrik karena model menggambarkan ujaran menggunakan parameter. Model ini disebut statistik karena dalam menggambarkan parameter menggunakan statistik ( misalnya , mean dan varian dari fungsi kepadatan peluang/probabilty density functions ) yang menangkap distribusi nilai parameter yang ditemukan dalam data pelatihan. Fokus penelitian ini pada ujaran bahasa Indonesia yang berekspresif. Uraian berikut selanjutnya adalah penjelasan secara detil dari roadmap penelitian yang ada pada bab 1 sebelumnya.
4.3 Pemilihan Teks Kalimat Bahasa Indonesia
Sebagai langkah awal dalam pembuatan database ujaran bahasa Indonesia adalah menentukan database (korpus) teks kalimat bahasa Indonesia terlebuh dahulu. Untuk membuat korpus kalimat tersebut bisa menggunakan dokumen koleksi artikel dari surat kabar misalnya koleksi Kompas online 2001 yang dibuat oleh ILPS atau yang lainnya. Dari ribuan bahkan jutaan kalimat yang ada bisa dilakukan seleksi terhadap kalimat-kalimat tersebut, sehingga tidak semua kalimat dipakai untuk korpus tersebut. Dari seleksi tersebut kami mendapatkan minimum korpus kalimat bahasa Indonesia yang memenuhi keseimbangan fonetik (minimum phonetically balanced sentence corpus) yaitu kumpulan minimal kalimat-kalimat yang mengkover semua fonem yang ada didalam bahasa Indonesia dengan jumlah kalimat sebanyak 3000 teks kalimat. Teks kalimat yang terpilih menjadi database (korpus) kalimat, yang selanjutnya akan dilakukarn perekaman (recording) berdasarkan kalimat-kalimat tersebut.
4.4 Perekaman Data Ujaran
Dalam melakukan perekaman ujaran yang mengacu pada korpus kalimat yang sudah ditentukan, diperlukan beberapa peralatan dan keterlibatan orang dalam pembuatan database ujaran bahasa Indonesia. Kerterlibatan orang dalam perekaman,
sementara kami gunakan seorang
pengujar pria yang asli orang Indonesia. Pengujar tersebut seorang penyiar stasiun TV lokal di semarang. Pengujar mengucapkan ujaran dari database teks tersebut dengan suara yang datar (netral, tanpa ekspresif). 76
Dalam perekaman akan dicatat segala sesuatu yang berhubungan dengan teknis perekaman, misalnya jarak antara mikrofon dengan pengujar, frekuensi sampling dan yang berhubungan sinyal suara, ruangan yang digunakan, alat-alat yang digunakan (hardware maupun software), serta transkrip kalimat yang diucapkan. Hal ini dilakukan agar nanti kalau kita menginginkan perekaman ulang bisa didapatkan hasil yang sama. Dalam riset ini, kami melakukan perekaman suara
menggunakan 3000
kalimat dengan frekuensi sampling 48 KHz (yang selanjutnya bisa dilakukan upsampling maupun down-sampling sesuai kebutuhan), resolusi 16 bit precision, mono channel, durasi rekaman menyesuaikan kalimat yang diucapkan dan format file penyimpanan dalam bentuk .raw dan .wav.
Gambar 4.3. Proses rekaman pembuatan copus ujaran di studio Televisi Kampus Universitas Dian Nuswantoro 4.5 Segmentasi dan pelabelan data ujaran
Segmentasi dan pelabelan dilakukan pada korpus ujaran sesuai dengan text kalimat bahasa Indonesia yang membentuknya. Data ujaran dilakukan segmentasi dan dilabeli per monophone (fonem) berdasarkan fonem bahasa Indonesia. Kegiatan ini dilakukan secara manual menggunakan perangkat lunak Wavesurfer atau bisa dilakukan secara otomatis (automatic speech segmentation) menggunakan HMM toolkit (HTK) yang biasa digunakan dalam pengenalan suara otomatis (automatic speech recognition)[59][60]. Namun segmentasi secara otomatis hasilnya kurang 77
akurat dibandingkan dengan cara manual terhadap hasil segmentasi. Sedangkan segmentasi secara manual membutuhkan waktu yang lama (time consume) dan membosankan (tedious).
Dalam penelitian ini, akan dilakukan segmentasi dan
pelabelan menggunakan segementasi otomatis menggunakan HTK, andaikata ada ketidaktepatan dalam hasilnya akan diperbaiki dengan segmentasi dan pelabelan secara manual. Gambar 4.4 dibawah ini adalah proses segmentasi dan pelabelan secara manual menggunakan tools wavesurfer.
Gambar 4.4. Proses segmentasi dan pelabelan data ujaran
Gambar 4.5. Proses segmentasi dan pelabelan sinyal ujaran 78
4.6 Pengolahan data ujaran (wav) menjadi vektor fitur (feature vectors)
Dari database (korpus) ujaran akan dilakukan ekstraksi fitur dari masingmasing ujaran untuk mendapatkan fitur vektor. Fitur vektor pertama adalah mel cepstral, delta mel cepstral dan delta-delta mel cepstral yang merupakan parameter spektral dan sedangkan fitur vektor yang kedua adalah log-F0, delta log-F0 dan delta-delta log-F0 yang merupakan parameter eksitasi. Fitur vektor tersebut bersama dengan inputan label text yang akan digunakan untuk sebagai data pelatihan (training) untuk training HMM yang akan menghasilkan Context-Dependent HMM Model. Pengolahan data ujaran (wav) menjadi fitur vektor menggunakan beberapa teknik pengolahan sinyal digital, seperti LPC (Linier Predictive Coding) atau MFCC (Mel Frequency Cepstral Coefficients) yang digunakan untuk mencari cepstral coefficients sedangkan untuk mencari log-F0 bisa menggunakan Fourier Transforms, Instantaneous Frequency atau Auto Correlations. Log fundamental frequency (F0) atau frekuensi dasar atau sering disebut pitch dan mel-cepstral koefisien merupakan parameter berperan dalam proses sistem sintesis ujaran. Kedua parameter tersebut adalah sangat diperlukan untuk mendorong tahap output dari sistem sintesis dalam menghasilkan ujaran. Namun, kunci untuk menghasilkan suara yang terdengar alami menggunakan HMM sintesis tidak hanya terletak pada pemodelan dari distribusi statistik dari parameter ini , tetapi juga pemodelan laju perubahan - yaitu , kecepatan mereka. Meminjam terminologi dari pengenalan suara otomatis (automatic speech recognition), parameter sistem sintesis dikenal sebagai koefisien statis , dan turunan orde pertama mereka dikenal sebagai koefisien delta . Bahkan , manfaat lebih lanjut dapat diperoleh juga dari percepatan modeling, sehingga kita memiliki koefisien delta - delta. Sehingga dari log F0 tercipta delta log F0 dan delta-delta log F0. Dari mel-cepstral koefisien tercipta delta mel-ceptral koefisien dan delta-delta mel-cepstral koefisien. Ketiga jenis parameter ditumpuk bersama-sama ke dalam vektor pengamatan tunggal (single observation vector) untuk model. Selama pelatihan (training) , model mempelajari distribusi dari parameter ini . Selama sintesis, model menghasilkan lintasan parameter yang memiliki sifat statistik yang sesuai. Gambar 4.6. menunjukkan parameter untuk sintesis ujaran berupa vektor pengamatan tunggal dari data ujaran.
79
Gambar 4.6 Vektor fitur dari data ujaran [61]
4.7 Formulasi Statistik dari Sintesis Ujaran berbasis HMM
Jika kita memiliki database ujaran, yaitu sekumpulan dari text yang berhubungan dengan bentuk gelombang ujaran. Kemudian diberikan sebuah text untuk disintesis, apa yang terjadi? Apakah bentuk gelombang ujaran hasil sintesis sesuai dengan text yang diberikan. Jawaban dari pertanyaan diatas dapat dijelaskan dalam formulasi framework bayesian untuk prediksi di bawah ini.
~
Dapatkan x
dari
p( x | w, X ,W )
W : himpunan dari text
database
X : bentuk gelombang ujaran
diberikan
w : text yang akan disintesis x : bentuk gelombang ujaran
tidak diketahui
80
Dari framework bayesian untuk prediksi diatas dapat diuraikan menjadi : ~
Dapatkan x
dari
p( x | w, X ,W )
O arg max p X | O
ekstraksi fitur
L arg max PL | W
pelabelan
arg max p(O | L, ) p
pelatihan/training model akustik
l arg max Pl | w
analisis text
^
o
^
L
^
^
^
^
l
^
^
^
o arg max p(o | l , ) o
~
x
^
dari
p ( x | o)
pembangkitan parameter ujaran rekontruksi bentuk gelombang ujaran
dimana :
: acoustic model ( contex-dependent HMM dan state duration model) o : reperesentasi parametrik dari bentuk gelombang ujaran x (misalnya, cepstral, LPC, LSP, F0, aperiodicity) l : label yang diturunkan dari text w (misalnya pronunciation, POS, lexical strees, grammar, pause) O : representasi parametrik dari bentuk gelombang ujaran X L : label diturunkan dari text W
81
Sistem Sintesis Ujaran berbasis HMM (HMM-based Speech Synthesis System) :
Input Speech
Training Part
Excitation parameter extraction
Spectral parameter extraction
Excitation parameters Text
Text Analysis
Spectral parameters Training HMM
Label
Contex-Dependent HMM & State Duration Models
Synthesis Part
Text
Text Analysis
Label
Parameter generation from HMM
Excitation parameters
Spectral parameters Excitation
Excitation generation
Synthesis Filter
Synthesized Speech
Gambar 4.7. Sistem Sintesis Ujaran berbasis HMM [15]
82
Dalam gambar 4.8 dibawah ini, didiskripsikan formulasi statistik tiap-tiap langkah untuk melakukan sintesis ujaran menggunakan metode HMM (HMM-based speech synthesis system/HTS)
Input Speech
Training Part
Excitation ^ parameter extraction ^
O arg arg max max ppX O X ||O O o Training HMM
L | W L arg max PLabel
Text Analysis ^
L arg max PL | W L L L arg max PL | W ^
^
Spectral parameters
o
Excitation parameters Text
Spectral parameter extraction
O arg max pX | O ^
o
arg max p(O | L, ) p ^
L
^
^
Contex-Dependent HMM & State Duration Models
arg max p(O | L, ) p ^
Synthesis Part
^
Text Analysis ^ l
Label
^
l
^ ^
Parameter generation from HMM
l
l arg max Pl | w
^
o arg max p (o | l , ) o
l Parg l | wmax Pl | w l arg max ^
Text
^
^
x Excitation parameters Excitation generation
^ ^
o arg max p (o | l , ) ~ ^ o
p ( x | o) ^ Spectral x from p( x | o) parameters Excitation ~
~
Synthesis Filter
~
x
from
^
p ( x | o)
Synthesized Speech
Gambar 4.8. Formulasi Statistik dalam Sintesis Ujaran berbasis HMM [15] 4.8 Pelatihan (Training)
Sama seperti dalam pengenalan suara otomatis, model HMM untuk sintesis harus dilatih pada data berlabel. Label harus merupakan label konteks lengkap (full contex labels) dan label tersebut diproduksi untuk data pelatihan dengan cara yang dijelaskan dalam bagian 4.6. 83
Selanjutnya data dan label digunakan untuk membentuk model HMM melalui proses pada tahap pelatihan (training). Dalam gambar 3.7 didiskripsikan formulasi
arg max p(O | L, ) p . ^
statistik tahap pelatihan
^
^
Gambar 4.9. Formulasi statistik pembentukan model HMM pada tahap pelatihan [15]
Sedangkan tahapan proses pelatihan (training) dijelaskan dalam bagan dibawah ini [61]: Data dan Label Menghitung Variance Floor
Reestimasi CD-HMM menggunakan Algoritma EM
Mengestimasi model CD-durasi dari statistik Durasi
Inisialisasi CI-HMM menggunakan segmental k-means
Clustering berbasis Decision Tree
Clustering berbasis Decision Tree
Reestimasi CI-HMM menggunakan Algoritma EM
Reestimasi CD-HMM menggunakan Algoritma EM
Model Durasi
Salin CI-HMM ke CD-HMM
Membuka struktur ikatan parameter
monophone (Contex-Independent-CI)
fullcontex (Contex-Dependent-CD)
Keterangan : EM ( Expectation Maximization ) 84
Model HMM
4.9 Sintesis (Synthesis)
Proses sintesis sebenarnya adalah pembangkitkan ujaran dengan memberikan teks sebagai
input.
Gambar
4.10
menunjukkan letak
formulasi
statistik
^ ^
^
o arg max p(o | l , ) o
pada tahap pembangkitan ujaran dalam sintesis ujaran
berbasis HMM.
Gambar 4.10. Formulasi statistik dari pembangkitan parameter ujaran pada tahap sintesis [15]
Dalam bagian sintesis dari sintesis ujaran berbasis HMM, pertama, sebuah teks yang diberikan yang akan disintesis, dianalisis dan diubah menjadi sebuah urutan label berbasis konteks (full contex labels). Kedua, sesuai dengan urutan label, sebuah HMM kalimat dibangun dengan menggabungkan/merangkaikan dalam rantai panjang tunggal state-state dari contex dependent HMM. Durasi state dari HMM kalimat ditentukan untuk memaksimalkan peluang output dari durasi state, dan kemudian urutan koefisien mel - cepstral dan nilai log F0 mencakup keputusan voiced (terucap) / unvoiced (tak terucap) ditentukan sedemikian rupa sehingga peluang output untuk HMM dimaksimalkan menggunakan algoritma generator (pembangkit) parameter ujaran. Fitur utama dari sistem adalah penggunaan fitur dinamis : dengan penyertaan koefisien dinamis dalam vektor fitur , urutan parameter ujaran yang dihasilkan/dibangkitkan dalam sintesis dibatasi untuk menjadi realistis , 85
seperti yang didefinisikan oleh statistik parameter HMM . Selanjutnya, parameter sintesis ujaran yang dihasilkan digunakan pada tahap output untuk menggerakkan sintesis ujaran untuk menghasilkan bentuk gelombang ujaran. Bentuk gelombang ujaran disintesis langsung dari pembangkitan koefisien mel - cepstral dan nilai F0 dengan menggunakan source-filter model untuk memproduksi ujaran.
Gambar 4.11. Source-filter model untuk memproduksi sebuah ujaran [15]
Gambar 4.12. Asumsi model pembangkitan ujaran. Eksitasi diciptakan oleh penyaringan (filtering) state-dependent dari pulse train (voiced) dan Gaussian white noise (unvoiced) [62]
86
4.11
Capaian Penelitian Saat Ini :
Dari penelitian ini didapatkan : Sumber daya untuk pengembangan teknologi Bahasa Indonesia : a. Corpus Teks Bahasa Indonesia terdiri dari 3000 kalimat b. Corpus Ujaran Bahasa Indonesia dengan dubber penyiar televisi Pria.
Spesifikasi rekaman sampling rate 48 kHz, sampling size 16 bit per sampel, monochannel, little endian dan format dalam bentuk wav. c. Aplikasi sintesis ujaran Bahasa Indonesia dengan intonasi netral (reading
style). Publikasi Ilmiah : a.
Internasional jurnal dengan judul paper : "Indonesian Text To Audio Visual Speech with Animated Talking Head", Vol. 11, No 3, Maret 2015, pp, 261269,
International
Review
Computers
and
Software
(IRECOS)
DOI: http://dx.doi.org/10.15866/irecos.v11i3.8706 (published) b.
Internasional jurnal dengan judul paper : "Developing an Online Self-learning System of Indonesian Pronunciation for Foreign Learners", Vol 11, Isue 04, April 2016, pp.83-89, International Journal of Emerging Technologies in Learning
(iJET),
DOI
:
http://dx.doi.org/10.3991/ijet.v11i04.5440
(published) c.
Internasional seminar dengan judul paper : "Evaluation of Classification Methods for Indonesian Text Emotion Detection", IEEE-International Seminar on Application for Technology of Information and Communication (ISEMANTIC) 2016, ISBN: 978-1-5090-2325-7, 5-6 Agustus 2016, Universitas Dian Nuswantoro Semarang, Indonesia.
87
BAB V KESIMPULAN DAN RENCANA KERJA SELANJUTNYA 5.1 Kesimpulan Dari proses pembangunan sistem sintesis ujaran Bahasa Indonesia menggunakan metode Hidden Markov Model (HMM) dapat disimpulkan bahwa : a. Corpus (database) ujaran harus disegmentasi dan dillabeli terlebih dahulu. Segmentasi dan pelabelan bisa berbasis monophone, diphone, triphone atau quinphone. b. Hasil segementasi dan pelabelan dari ujaran akan diparameterisasi dalam bentuk cepstral, frekuensi dasar (F0) dan durasi. c. Hasil parameterisasi tersebut digunakan sebagai data latih untuk membentuk model HMM. d. Model HMM tersebut yang nanti akan digunakan untuk membangkitkan (mensintesis) ujaran berdasarkan input text yang diberikan. 5.2 Rencana Kerja Selanjutnya a. Menyelesaikan pembuatan corpus (database) ujaran untuk suara wanita untuk sumber daya pembuatan sistem sintesis ujaran suara wanita. b. Meningkatkan aplikasi sintensis ujaran Bahasa Indonesia ini agar lebih alami (naturalness) dan lebih jelas (intelligibilty) c. Mengumpulkan data-data dan sumber pustaka untuk pembangunan sistem sintesis ujaran berekspresif (emosi)
88
DAFTAR PUSTAKA [1] [2] [3] [4]
[5]
[6] [7] [8]
[9]
[10]
[11] [12]
[13] [14] [15] [16]
[17]
P. O. Heggtveit, “An Overview of Text-to-Speech Synthesis,” Telektronikk, vol. 2, 2003. D. Govind and S. R. Prasanna, “Expressive speech synthesis: a review,” Int J Speech Technol, vol. 16, no. 2, pp. 237–260, Jun. 2013. K. R. Scherer, “Vocal affect expression: A review and a model for future research,” Psychol. Bull., vol. 99, no. 2, pp. 143–165, 1986. J. F. Pitrelli, R. Bakis, E. M. Eide, R. Fernandez, W. Hamza, and M. A. Picheny, “The IBM expressive text-to-speech synthesis system for American English,” IEEE Trans. Audio Speech Lang. Process., vol. 14, no. 4, pp. 1099– 1108, 2006. M. Theune, K. Meijs, D. Heylen, and R. Ordelman, “Generating expressive speech for storytelling applications,” IEEE Trans. Audio Speech Lang. Process., vol. 14, no. 4, pp. 1137–1144, 2006. R. Kurzweil, The Age of Intelligent Machines. Cambridge, MA, MIT Press, 272–281, 1990. W. Wahlster, Verbmobil : Foundations of Speech-to-Speech Translation. Berlin – Heidelberg: Springer, 2000. A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in , 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings, 1996, vol. 1, pp. 373–376 vol. 1. R. A. J. Clark, K. Richmond, and S. King, “Multisyn: Open-domain unit selection for the Festival speech synthesis system, Speech Communication,” Speech Commun., vol. 49, no. 4, pp. 317–330, Apr. 2007. J. Olive, “Rule synthesis of speech from dyadic units,” in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’77., 1977, vol. 2, pp. 568–570. A. W. Black and N. Campbell, “Optimising selection of units from speech database for Concatenative Synthesis,” Proc EUROSPEECH, 1995. E. Moulines and F. Charpentier, “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones,” Speech Commun., vol. 9, no. 5–6, pp. 453–467, Dec. 1990. P. Taylor, Text to speech synthesis. Cambridge: Cambridge University Press., 2009. S. King, “An introduction to statistical parametric speech synthesis,” Sadhana, vol. 36, no. 5, pp. 837–852, Oct. 2011. H. Zen, K. Tokuda, and A. W. Black, “Statistical parametric speech synthesis,” Speech Commun., vol. 51, no. 11, pp. 1039–1064, Nov. 2009. J. P. Cabral, S. Renals, J. Yamagishi, and K. Richmond, “HMM-based speech synthesiser using the LF-model of the glottal source,” in 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 4704–4707. Z.-H. Ling, K. Richmond, and J. Yamagishi, “Feature-Space Transform Tying in Unified Acoustic-Articulatory Modelling for Articulatory Control of HMMbased Speech Synthesis,” Proc INTERSPEECH, Aug. 2011. 89
[18] A. A. Arman, “Konversi dari Teks ke Ucapan.” Sep-2004. [19] C. E. Williams and K. N. Stevens, “Emotions and Speech: Some Acoustical Correlates,” J. Acoust. Soc. Am., vol. 52, no. 4B, pp. 1238–1250, 1972. [20] I. R. Murray and J. L. Arnott, “Implementation and testing of a system for producing emotion-by-rule in synthetic speech,” Speech Commun., vol. 16, no. 4, pp. 369–390, Jun. 1995. [21] S. P. Whiteside, “Simulated emotions: an acoustic study of voice and perturbation measures,” Proc ICSLP Syd. Aust., pp. 699–703, 1998. [22] T. Jhonstone and K. R. Scherer, “The effects of emotions on voice quality,” Proc Int Congr Phoetic Sci. San Fransisco, pp. 2029–2031, 1999. [23] C. T. Ishi and N. Campbell, “Analysis of acoustic-prosodic features of spontaneous expressive speech,” Proc Ist Int. Congr. Phon. Phonol. Kobe Jpn., pp. 85–88, 2002. [24] S. T. Hashizawa, M. D. Hamzah, and G. Ohyama, “On the differences in prosodic features of emotional expressions in Japanese speech according to the degree of the emotion,” Proc Speech ProsodyNara Jpn., pp. 655–658, Mar. 2004. [25] A. A. Razak, R. Komiya, M. Izani, and Z. Abidin, “Comparison between fuzzy and NN method for speech emotion recognition,” in Third International Conference on Information Technology and Applications, 2005. ICITA 2005, 2005, vol. 1, pp. 297–302 vol.1. [26] J. P. Cabral and L. Oliveira C., “Emo voice: a system to generate emotions in speech,” Proc INTERSPEECH Pittsburgh PA USA, 2006. [27] M. Bulut and S. Narayanan, “On the robustness of overall F0-only modifications to the perception of emotions in speech,” J. Acoust. Soc. Am., vol. 123, no. 6, pp. 4547–4558, 2008. [28] P. Mermelstein, “Articulatory model for the study of speech production,” J. Acoust. Soc. Am., vol. 53, no. 4, pp. 1070–1082, 1973. [29] J. Gauffin and J. Sundberg, “Pharyngeal Constrictions,” Phonetica, vol. 35, no. 3, pp. 157–168, 1978. [30] S. S. Narayanan, A. A. Alwan, and K. Haker, “An articulatory study of fricative consonants using magnetic resonance imaging,” J. Acoust. Soc. Am., vol. 98, no. 3, pp. 1325–1347, 1995. [31] G. Fant, Acoustic Theory of Speech Production. Walter de Gruyter, 1970. [32] D. H. Klatt, “Software for a cascade/parallel formant synthesizer,” J. Acoust. Soc. Am., vol. 67, no. 3, pp. 971–995, 1980. [33] J. E. Cahn, The Generation of Affect in Synthesized Speech. 1990. [34] A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in , 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings, 1996, vol. 1, pp. 373–376 vol. 1. [35] R. A. J. Clark, K. Richmond, and S. King, “Multisyn: Open-domain unit selection for the Festival speech synthesis system,” Speech Commun., vol. 49, no. 4, pp. 317–330, Apr. 2007. [36] A. W. Black and N. Campbell, “Optimising selection of units from speech databases for concatenative synthesis.,” 1995. [37] E. Moulines and F. Charpentier, “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones,” Speech Commun., vol. 9, no. 5–6, pp. 453–467, Dec. 1990.
90
[38] H. Zen, M. Nakamura, and K. Tokuda, “Detail of nitech HMM-based speech synthesis system for the Blizzard challenge 2005.,” IEICE Trans. Inf. Syst. E 90- 325–333. [39] O. R. Taoufik En-Najjary, “A voice conversion method based on joint pitch and spectral envelope transformation.,” 2004. [40] O. Türk and M. Schröder, “A Comparison of Voice Conversion Methods for Transforming Voice Quality in Emotional Speech Synthesis,” 2008. [41] Y. Stylianou, “Assessment and correction of voice quality variabilities in large speech databases for concatenative speech synthesis,” in , 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999. Proceedings, 1999, vol. 1, pp. 377–380 vol.1. [42] J. Latorre, K. Iwano, and S. Furui, “Polyglot Synthesis Using a Mixture of Monolingual Corpora,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05), 2005, vol. 1, pp. 1–4. [43] F. Tesser, P. Cosi, C. Drioli, and G. Tisato, “Emotional FESTIVAL-MBROLA TTS synthesis,” Proc INTERSPEECH Pp505-508, 2005. [44] H. L. T. Dutoit, “MBR-PSOLA: Text-To-Speech synthesis based on an MBE re-synthesis of the segments database,” Speech Commun., pp. 435–440, 1993. [45] K. Hirose, K. Sato, and N. Minematsu, “Improved corpus-based synthesis of fundamental frequency contours using generation process model,” in Proc. ICSLP, 2002, pp. 2085–2088. [46] Silvia and S. Sandri, “Towards Emotional Speech Synthesis: A Rule-based Approach,” presented at the Proc. 5th ISCA Speech Synthesis Workshop, 2004, pp. 219–220. [47] D. Jiang, W. Zhang, L. Shen, and L.-H. Cai, “Prosody Analysis and Modeling for Emotional Speech Synthesis,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05), 2005, vol. 1, pp. 281–284. [48] M. Bulut, C. Busso, S. Yildirim, A. Kazemzadeh, C. M. Lee, S. Lee, and S. S. Narayanan, “Investigating the role of phoneme-level modifications in emotional speech resynthesis,” in Proceedings of InterSpeech, Lisbon, Portugal, 2005, pp. 801–804. [49] M. Bulut, S. Lee, and S. Narayanan, “A Statistical Approach for Modeling Prosody Features using POS Tags for Emotional Speech Synthesis,” in IEEE International Conference on Acoustics, Speech and Signal Processing, 2007. ICASSP 2007, 2007, vol. 4, pp. IV–1237–IV–1240. [50] O. Turk and M. Schroder, “Evaluation of Expressive Speech Synthesis With Voice Conversion and Copy Resynthesis Techniques,” IEEE Trans. Audio Speech Lang. Process., vol. 18, no. 5, pp. 965 –973, Jul. 2010. [51] J. D. O‟Connor, Phonetics. Penguin, 1973. [52] J. Clark, C. Yallop, and J. Fletcher, An Introduction to Phonetics and Phonology. Wiley, 2007. [53] D. W. Dew and P. J. Jensen, Phonetic Processing: The Dynamics of Speech. Charles E. Merrill Publishing Company, 1977. [54] M. Muslich, Fonologi Bahasa Indonesia Tinjauan Deskriptif Sistem Bunyi Bahasa Indonesia. Jakarta: Bumi Aksara, 2008. [55] M. Faiqoh, “Pengubahan Teks ke Ucapan menggunakan Metode Diphone Conctenation,” Jurusan Teknik Elektro Universitas Diponegoro, Semarang, 2005. 91
[56] L. R. Rabiner and B. B.-H. Juang, Fundamentals of Speech Recognition. Prentice Hall, 1993. [57] H. Asmawati, “Pengenalan Kata Tersambung Menggunakan Metode HMMLPC,” Jurusan Teknik Elektro Universitas Diponegoro, Semarang, 2006. [58] L. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proc. IEEE, vol. 77, no. 2, pp. 257–286, 1989. [59] S. S. Park and N. S. Kim, “Automatic Speech Segmentation Based on Boundary-Type Candidate Selection,” IEEE Signal Process. Lett., vol. 13, no. 10, pp. 640–643, 2006. [60] S. S. Park and N. S. Kim, “On Using Multiple Models for Automatic Speech Segmentation,” IEEE Trans. Audio Speech Lang. Process., vol. 15, no. 8, pp. 2202–2212, 2007. [61] K. Tokuda and H. Zen, “Fundamentals and recent advances in HMM-based speech synthesis,” Tutor. Interspeech 2009 Nagoya Inst. Technol., Sep. 2009. [62] R. Maia, T. Toda, H. Zen, Y. Nankaku, and K. Tokuda, “An Excitation Model for HMM-Based Speech Synthesis Based on Residual Modeling,” 6th ISCA Workshop Speech Synth. Bonn Ger., Aug. 2007.
92