PEMBUATAN PERANGKAT BASIS DATA UNTUK SINTESIS UCAPAN (NATURAL SPEECH SYNTHESIS) BERBAHASA INDONESIA BERBASIS HIDDEN MARKOV MODEL (HMM) Oleh: ELOK ANGGRAYNI NRP. 2409 100 092
Dosen Pembimbing: Prof. Dr. Ir. Sekartedjo, M.Sc Dr. Dhany Arifianto, S.T., M.Eng
NIPN. 19500402 197901 1 001 NIPN. 19731007 199802 1 001
Tahukah Anda tentang perkembangan TEKNOLOGI HUMAN MACHINE???
HIBURAN
MEDIS
BAGAIMANA membuat semua TEKNOLOGI ITU??
Dengan
SPEECH SYNTHESIS.. Ternyata Speech synthesis sangatlah bermanfaat bagi KEHIDUPAN...
SPEECH SYNTHESIS (Sintesis Ucapan) adalah ucapan
yang diproses oleh komputer berdasarkan
data suara manusia
menggunakan program tertentu yang telah
dirancang dan menghasilkan keluaran berupa sinyal
suara
Sintesis ucapan (speech synthesis) dapat
Jauh sebelum pemrosesan sinyal elektronik
dibuat dengan menggabungkan potongan
(electronic signal processing) ditemukan,
hasil rekaman ucapan manusia yang
ada orang-orang yang mencoba untuk membuat
disimpan dalam database.
mesin untuk membuat suara manusia.
SPEECH SYNTHESIS
Sistem
operasi
komputer telah memiliki speech synthesizers sejak awal 1990-an.
Speech
synthesis
merupakan
produksi buatan dari ucapan manusia.
BAHASA INGGRIS
BAHASA JEPANG
SPEECH SYNTHESIS
BAHASA THAILAND
BAHASA MALAY
BAHASA INDONESIA?????
RUMUSAN MASALAH: 1. Bagaimana membuat
basis data
dalam bahasa Indonesia untuk
pembuatan sintesis ucapan (natural speech synthesis) berbahasa Indonesia berdasarkan kaidah keseimbangan fonetik (phonetically balanced)? 2. Bagaimana membuat segmentasi dan labeling dataset untuk mempersiapkan rancangan sistem sintesis ucapan (natural speech synthesis)
berbahasa Indonesia berbasis Hidden Markov Model (HMM)? 3. Bagaimana menyiapkan perangkat lunak untuk melakukan sintesis ucapan berbahasa Inggris maupun berbahasa Indonesia berbasis Hidden Markov Model (HMM)?
Untuk keperluan pembuatan basis data kalimat bahasa Indonesia digunakan kalimat bahasa Indonesia yang memenuhi keseimbangan fonetik (phonetically balanced) dengan jumlah kalimat 1529 buah kalimat. Basis data suara yang digunakan berasal dari suara satu orang wanita dan satu orang laki-laki yang tidak memiliki logat bahasa daerah tertentu.
Teknik pengambilan data pada masing-masing objek dilakukan dengan perekaman langsung menggunakan interface EMU dan software Adobe Audition 3.0. Metode yang digunakan untuk membangun sintesis ucapan natural adalah metode Hidden Markov Models (HMM).
BATASAN MASALAH
Diagram alir proses penelitian
Tabel 1. Fonem dalam bahasa Indonesia berdasarkan International Phonetic Alphabet (IPA). (Suyanto, 2009)
Pembuatan 1529 Kalimat
Diagram alir proses pembuatan database
Berikut adalah setting alat saat perekaman : Jarak antara mikrofon dengan naracoba ± 2-3 cm. Non-aktifkan perangkat suara (sound) pada komputer sehingga dapat mendengarkan secara langsung suara yang
direkam melalui E-MU 0404. Parameter sinyal suara yang digunakan pada software adobe audition sesuai dengan yang parameter berikut ini:
PEREKAMAN Perekaman Suara Laki-laki & Perempuan
Setting description : 1. Mono, 32 bit, frekuensi sampling 44100 Hz 2. Hasil perekaman disimpan dalam ekstensi .wav 3. Hasil perekaman yang disimpan dalam ekstensi .wav diubah menjadi ekstensi .txt
BACK
BACK
Plot Amplitudo Digital Kalimat no 36 Amalia
Plot Amplitudo Digital Kalimat no 36 Hadi
Database 1529 Kalimat Hasil Rekaman 1529 Kalimat
Diagram alir proses segmentasi dan labeling
Diagram alir proses segmentasi dan labeling
Diagram alir proses segmentasi dan labeling
Hasil Segmentasi 100 Hasil Rekaman
Diagram alir proses penelitian
HMM-based speech synthesis system (HTS) HMM-based speech synthesis system (HTS) dikembangkan oleh kelompok kerja HTS Speaker dependent (SD) / adaptation (SA) demo scripts * SD: HTS-demo_CMU-ARCTIC-SLT * SA: HTS-demo_CMU-ARCTIC-ADAPT
DATABASE sangat PENTING dalam merancang sistem SPEECH SYNTHESIS
Festival
OpenFst-.
Running Speaker Dependent Normal Membutuhkan waktu synthetic speech
24
jam
Suara normal dari Database
untuk
menghasilkan
Suara Hasil Running
Running Speaker Adaptive/Adaptation Normal Membutuhkan waktu synthetic speech
3
hari
untuk
menghasilkan
Dengan menggunakan implementasi HTS pada arsitektur Festival, proses training data menggunakan 1132 kalimat dari CMU Communicator database3. Speech signal disampel pada frekuensi 16 kHZ. Faktor-faktor ini diambil dari ucapan-ucapan menggunakan ekstraksi fitur fungsi dari Festival speech synthesis system. Waktu running yang dibutuhkan mesin inti (core engine) terdiri dari 8 modul, decision trees untuk spektrum, F0 dan durasi, distribusi spektrum, F0 dan durasi, sebuah konverter yang mengubah fitur yang telah diekstraksi oleh Festival ke dalam urutan label context dependent dan synthesizer yang menghasilkan gelombang untuk diberikan urutan label.
Menilai Kualitas Suara
Kesimpulan: 1. Diperoleh basis data dalam bahasa Indonesia untuk
pembuatan
sintesis
ucapan
(natural
speech
synthesis)
berbahasa Indonesia berbasis Hidden Markov Model (HMM) sejumlah
1529
kalimat
yang
sesuai
dengan
kaidah
keseimbangan fonetik (phonetically balanced), yaitu telah memenuhi 33 jenis fonem.
Kesimpulan: 2. Diperoleh segmentasi dan labeling dataset sebanyak 100 kalimat hasil rekaman suara laki-laki dan 100 kalimat hasil rekaman suara wanita untuk mempersiapkan rancangan sistem sintesis ucapan (natural speech synthesis) berbahasa Indonesia berbasis Hidden Markov Model (HMM).
Kesimpulan: 3. Penyiapan perangkat lunak untuk menjalankan sistem sintesis ucapan berbahasa Inggris berbasis HMM telah dilakukan dengan mengaplikasikan HTS yang menggunakan Festival framework dan berhasil dengan baik.
Berdasarkan hasil uji kualitas suara menggunakan uji subyektif, melibatkan 20 responden, diperoleh naturalness dengan nilai Mean Opinion Score (MOS) 3,4 untuk pengujian hasil training speaker dependent (SD) training demo dan 3,2 untuk pengujian hasil speaker adaptation/adaptive (SAD) training demo. Dengan demikian, synthetic speech yang dihasilkan dapat dikategorikan baik dan perangkat lunak yang dipakai dapat digunakan untuk melakukan perancangan sistem sintesis ucapan berbahasa Indonesia.
LOGO