LAPORAN AKHIR PENELITIAN HIBAH BERSAING
SISTEM VISUALISASI PELAFALAN BAHASA INDONESIA BERBASIS WEB UNTUK MENINGKATKAN IMPLEMENTASI MODEL PEMBELAJARAN JARAK JAUH BAHASA INDONESIA BAGI PENUTUR ASING
Tahun ke I dari rencana 2 tahun TIM PENGUSUL Ketua : Arifin, M.Kom ( NIDN : 0612077101 ) Anggota : Hanny Haryanto, S.Kom, MT ( NIDN : 0621118401 ) Achmad Basari, SS., M.Pd. ( NIDN : 0602046701 )
UNIVERSITAS DIAN NUSWANTORO SEMARANG NOPEMBER, 2015
i
ii
RINGKASAN
Bahasa Indonesia merupakan salah satu bahasa yang mulai diminati oleh penutur asing sebagai bahasa kedua. Hal ini disebabkan karena Bahasa Indonesia merupakan bahasa standar yang dapat digunakan sebagai kunci untuk mempelajari bahasa-bahasa daerah lainnya di Indonesia. Indonesia mempunyai ratusan bahasa daerah, letak yang sangat strategis dan juga kekayaan alam yang melimpah, sehingga sangat menguntungkan untuk menanamkan investasi di Indonesia. Hal ini merupakan salah satu faktor banyak penutur asing ingin mempelajari Bahasa Indonesia. Tetapi banyak kendala bagi penutur asing dalam mempelajari Bahasa Indonesia, khususnya masalah pelafalan (fonologi). Banyak perbedaan-perbedaan yang mendasar dalam melafalkan bunyi dan masalah yang berkaitan dengan keterbatasan waktu dan tempat dalam proses pembelajaran. Oleh karena itu, media yang dapat dikembangkan adalah melalui metode pembelajaran jarak jauh yang berbasis web dengan menggunakan teknologi internet. Metode penelitian dalam membangun sistem ini menggunakan pendekatan penelitian dan pengembangan (research and development) yang terdiri dari beberapa tahapan define, design, develop dan disseminate. Penelitian ini dibagi menjadi tiga sub penelitian yaitu pemodelan visualisasi fonem (viseme / visual phoneme) Bahasa Indonesia, Transkripsi teks ke fonem-fonem dan penggenerasian suara, dan sub penelitian terakhir adalah sinkronisasi fonem, suara dan model serta pengembangan sistem berbasis web. Hasil penelitian ini diharapkan dapat mengatasi masalah yang ditimbulkan akibat keterbatasan penutur dalam bidang tersebut serta keterbatasan jarak dan waktu. Sistem hasil penelitian ini dapat membantu orang asing untuk memahami mengenai pelafalan Bahasa Indonesia yang sesuai dengan kaidah yang benar. Kata kunci :
pembelajaran jarak jauh, pelafalan Bahasa Indonesia, visualisasi fonem, penutur asing, web.
iii
PRAKATA
Assalamu’alaikum wr.wb Penulis panjatkan segala puji syukur ke hadirat Allah SWT yang telah melimpahkan maghfiroh, kekuatan, kemampuan, hidayah serta inayah-NYA sehingga kita masih bisa merasakan nikmat-NYA yang tidak dapat kita hitung. Sholawat dan salam tercurah bagi bagi Rasulullah SAW, suri tauladan sepanjang masa semoga kita kelak mendapatkan syafaat beliau di Yaumul Akhir nanti. Pada kesempatan ini kami ingin mengucapkan terima kasih yang tiada terkira kepada pihak-pihak dibawah ini yang telah membantu kami dalam menyelesaikan penelitian ini : 1. Dr. Ir. Edi Noersasongko, M.Kom selaku rektor Universitas Dian Nuswantoro Semarang. 2. Dr. Drs. Abdul Syukur, MM, selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro Semarang. 3. Prof. Vincent Didiek Wiet Aryanto, MBA., Ph. D., selaku kepala LPPM dan Juli Ratnawati, S.E, M.Si Selaku Kepala Pusat Penelitian Universitas Dian Nuswantoro atas motivasi dan dukungannya yang tiada terhingga sehingga laporan kemajuan ini dapat terselesaikan dengan baik. Serta tiada keringnya pelajaran MORAL dan KEHIDUPAN yang peneliti peroleh selama menjalankan laporan penelitian ini yang Insya Allah tidak akan pernah peneliti lupakan. Terima kasih banyak buat staf LPPM pak Karis Widyatmoko, S.Si, M.Kom atas perhatian dan dukungannya serta tak lupa Ibu Cicik Harini, SE, MM atas bantuan administrasi dan doanya. 4. Bp. Dr. Surya Sumpeno, M.Sc. dan Program Studi Teknik Multimedia Jaringan Jurusan Teknik Elektro Institut Teknologi Sepuluh Nopember (ITS) Surabaya, atas diijinkannya menggunakan Laboratorium HCS (Human Centric System). 5. Hanny Haryanto, S.Kom., MT., dan Achmad Basari, SS., M.Pd. atas partisipasinya sebagai anggota. Alhamdulillah ! Kita dapat menjalin kerjasama yang baik. Semoga di lain waktu kita dapat menjalin kembali kerjasama ini. 6. Dr. Heru Agus Santoso, M.Kom selaku Kaprodi Teknik Informatika dan rekanrekan dosen, baik di progdi Teknik Informatika maupun Fakultas Ilmu Komputer Udinus.
iv
7. Untuk keluargaku tercinta, penulis berharap terus atas cinta, doa, yang telah diberikan kepada peneliti. 8. Mahasiswa progdi Teknik Informatika Udinus, khususnya Galih Muji Nugroho (A11.2011.05950), Fadhilah Nurul dan M Nasrul (Mahasiswa Pasca Teknik Elektro ITS) atas dukungan dan doanya, semoga penelitian ini bermanfaat bagi kalian semua. Wassalamu’alaikum wr.wb
Semarang, 2015
Arifin
v
DAFTAR ISI Halaman RINGKASAN ..................................................................................................... v BAB I. PENDAHULUAN ................................................................................. 1 1.1 Latar Belakang dan Permasalahan ............................................................... 1 1.2 Perumusan Masalah ..................................................................................... 3
BAB II. TINJAUAN PUSTAKA ..................................................................... 4 2.1 State of the art ............................................................................................... 4 2.2 Visualisasi Wicara ........................................................................................ 5 2.2.1 Wicara ........................................................................................................ 5 2.3 Metode Ekstraksi Fitur Bibir ........................................................................ 6 2.3.1 Ekstraksi Berbasis Fitur ............................................................................. 6 2.3.2 Esktraksi Berbasis Kontour........................................................................ 7 2.4 Artikulasi dan Koartikulasi ........................................................................... 8 2.4.1 Definisi Koartikulasi ................................................................................. 8 2.5 Pengertian Fonem dalam Bahasa Indonesia ............................................... 10 2.5.1 Fonologi, Fonetik dan Fonemik .............................................................. 10 2.5.2 Pengertian Dasar Fonem ......................................................................... 12 2.5.3 Pelafalan Artikulasi Fonem ..................................................................... 13 2.5.4 Simbol dan Bunyi ................................................................................... 13 2.5.4.1 Realisasi Fonem ................................................................................... 13 2.5.4.2 Variasi Fonem ...................................................................................... 14 2.5.5 Pembentukan Fonem Bahasa Indonesia .................................................. 17 2.5.5.1 Cara Pembentukan Vokal .................................................................... 17 2.5.5.2 Pembentukan Vokal Berdasarkan Tinggi Rendahnya Lidah ............... 18 2.5.5.3 Struktur Vokal ...................................................................................... 19 2.5.5.4 Cara Pembentukan Konsonan .............................................................. 20 2.5.5.5 Cara Pembentukan Diftong .................................................................. 22 2.5.6 Pemilihan Fonem Bahasa Indonesia yang Digunakan ............................ 23 2.5.6.1 Macam-macam Fonem Bahasa Indonesia ........................................... 23 2.5.6.2 Pola Suku Kata ..................................................................................... 24 vi
2.6 Pemetaan Fonem ke Viseme ...................................................................... 25 2.6.1 Pengertian Viseme .................................................................................. 25 2.6.2 Pemetaan Fonem ke Viseme ................................................................... 26 2.7 Roadmap Penelitian ................................................................................... 27 2.8 Penelitian Pendahuluan Yang Telah Dilakukan Pengusul ......................... 27
BAB III. TUJUAN DAN MANFAAT PENELITIAN ..................................... 29 3.1 Tujuan Penelitian ....................................................................................... 29 3.2 Manfaat Pertahun ....................................................................................... 29
BAB IV. METODE PENELITIAN .................................................................. 32 4.1 Bagan Alir Penelitian ................................................................................. 32 4.1.1 Proses 1 : Pembentukan Model Viseme Bahasa Indonesia .................... 33 4.1.2 Proses 2 : Rekayasa Sistem ..................................................................... 36
BAB V. HASIL YANG DICAPAI .................................................................. 37 5.1 Pembuatan Database Visual Speech .......................................................... 37 5.1.1 Proses Perekaman Video ......................................................................... 37 5.2 Pembentukan Model Viseme Statis Bahasa Indonesia .............................. 39 5.2.1 Proses Ekstraksi Fitur Mulut ................................................................... 39 5.2.2 Reduksi Dimensi ..................................................................................... 42 5.2.3 Proses Klasterisasi .................................................................................. 47 5.2.4 Hasil Eksperimen .................................................................................... 49 5.2.5 Pemetaan Hasil Klasterisasi ke Kelas-Kelas Viseme ............................. 51 5.3 Desain Sistem Visualisasi Pelafalan Bahasa Indonesia Berbasis Animasi 2D ................................................................................................ 52 5.3.1 Desain Karakter Animasi Wajah ............................................................ 52 5.3.2 Desain Antarmuka Sistem ....................................................................... 54 5.4 Layout Sistem Yang Dihasilkan ................................................................ 58 5.5 Pembuatan Database Motion Capture Wajah ............................................ 59 5.5.1 Pengambilan Data Motion Capture Wajah ............................................. 60 5.5.2 Data Koordinat 3D Mulut ....................................................................... 62 5.6 Pembentukan Model Viseme Dinamis Berdasarkan Database Motion Capture ...................................................................................................... 62 vii
5.6.1 Normalisasi Posisi 3D ............................................................................. 63 5.6.2 Segmentasi Data Motion Capture Wajah ................................................ 64 5.6.3 Fitur Mulut Sebagai Fitur Tambahan ...................................................... 64 5.6.4 Membangun Model Viseme Dinamis Bahasa Indonesia ........................ 65 5.7 Sistem Visualisasi Pelafalan Bahasa Indonesia Berbasis Web ................... 68 5.8 Capaian Publikasi ....................................................................................... 70
BAB VI. RENCANA TAHAPAN BERIKUTNYA ........................................ 73 6.1 Rencana dan Jadual Selanjutnya ................................................................ 73
BAB VII. KESIMPULAN DAN SARAN ....................................................... 74 7.1 Kesimpulan ................................................................................................ 74 7.2 Saran .......................................................................................................... 74
DAFTAR PUSTAKA ....................................................................................... 75
LAMPIRAN Lampiran 1. Penggunaan Anggaran Penelitian................................................... b
viii
DAFTAR TABEL
Tabel 2.1. Pola Suku Kata Bahasa Indonesia .......................................................... 25 Tabel 2.2. Hasil Pemetaan Fonem ke Viseme Bahasa Indonesia ............................... 27 Tabel 2.3. Model-model Kelas Viseme setiap Bahasa ................................................. 28 Tabel 5.1. Hasil Perhitungsn SSE dan rasio antara BCV dan WCV ....................... 50 Tabel 5.2. Struktur Kelas Viseme Statis Bahasa Indonesia ..................................... 51 Tabel 5.3. Implementasi Masing-Masing Kelas Viseme Statis ............................... 52 Tabel 5.4. Struktur Kelas Viseme Dinamis Bahasa Indonesia ................................ 64
ix
DAFTAR GAMBAR Gambar 2.1. Model-model Kelas Viseme Statis Bahasa Indonesia........................... 4 Gambar 2.2. Cabang Ilmu Fonologi ........................................................................ 10 Gambar 2.3. Posisi Lidah pada Daerah Artikulasi Vokal ........................................ 18 Gambar 2.4. Posisi Lidah dalam Mengucapkan Vokal Depan, Tengah dan Belakang ............................................................................................ 19 Gambar 2.5. Bentuk Bibir Bulat dan Tak Bulat ...................................................... 20 Gambar 2.6. Daerah Artikulasi pada Pengucapan Konsonan ................................. 20 Gambar 2.7. Kerangka Roadmap Penelitian ........................................................... 27 Gambar 2.8. Contoh Sinkronisasi Sinyal Wicara dan Model Viseme .................... 28 Gambar 4.1. Fishbone Chart Bagan Alir Penelitian ............................................... 32 Gambar 4.2. Tahapan Pembentukan Model Viseme Bahasa Indonesia ................. 36 Gambar 5.1. Laboratirum Audiovisual ................................................................... 38 Gambar 5.2. Tim Perekaman Video ....................................................................... 38 Gambar 5.3. Video Visual Speech .......................................................................... 39 Gambar 5.4. Frame-frame hasil proses ekstraksi setelah dilakukan cropping ........ 40 Gambar 5.5. Program matlab Untuk Ekstraksi Fitur .............................................. 41 Gambar 5.6. Isi Matriks T ....................................................................................... 42 Gambar 5.7. Program matlab untuk Ekstraksi Fitur dan Reduksi Dimensi Dengan PCA ...................................................................................... 45 Gambar 5.8. Isi Matriks ProjectedTrain setelah Reduksi Dimensi dengan PCA ... 45 Gambar 5.9. Program matlab untuk Ekstraksi Fitur dan Reduksi dengan LDA...... 47 Gambar 5.10. Isi matriks ProjectedTrain setelah reduksi dimensi dengan LDA ..... 47 Gambar 5.11. Hasil proses klasterisasi untuk matriks ProjectedTrain ................... 49 Gambar 5.12. Hasil Proses Klasterisasi pada k=9 .................................................. 50 Gambar 5.13. Visualisasi Kelas Viseme Statis Bahasa Indonesia .......................... 51 Gambar 5.14. Karakter Animasi Wajah .................................................................. 52 Gambar 5.15. Desain Antarmuka Sistem ................................................................ 54 Gambar 5.16. Menu file .......................................................................................... 54 Gambar 5.17. Waveform ......................................................................................... 57 Gambar 5.18. Status ................................................................................................ 57 x
Gambar 5.19. Layout Sistem .................................................................................. 58 Gambar 5.20. Layout Sistem Alternatif .................................................................. 59 Gambar 5.21. Laboratorium Motion Capture ......................................................... 60 Gambar 5.22. Formasi optiTrack Camera ............................................................... 60 Gambar 5.23. Face Template dan Pemasangan di Wajah ....................................... 61 Gambar 5.24. Marker-marker di Kepala dan di mulut ............................................ 62 Gambar 5.25. Overview Pembentukan Model-model Viseme Dinamis ................. 63 Gambar 5.26. Bentuk Bidang untuk Acuan Sistem Koordinat ............................... 64 Gambar 5.27. Fitur Mulut ....................................................................................... 64 Gambar 5.28. Model-model Viseme Dinamis Bahasa Indonesia ........................... 68 Gambar 5.29. Home Page Sistem Visualisasi Berbasis Web ................................. 68 Gambar 5.30. Salah Satu Halaman Tentang BIPA ................................................. 69 Gambar 5.31. Salah Satu Halaman Tentang Sistem Visualisasi Pelafalan BI ........ 69 Gambar 5.32. Bukti Submit pada Jurnal International IRECOS ............................ 70 Gambar 5.33. Publikasi pada Seminar Nasional UPGRIS ..................................... 71 Gambar 5.34. publikasi pada Seminar Nasional SNATi UII .................................. 71 Gambar 5.35. Draft Jurnal Internasinal sedang Proses Konsultasi ......................... 72
xi
xii
BAB I PENDAHULUAN
1.1. Latar Belakang dan Permasalahan Belajar bahasa adalah belajar mengenai skill atau keahlian. Bahasa tidak untuk dipahami atau diingat saja tetapi harus digunakan, diucapkan, dan dituliskan dalam setiap hembusan nafas kita. Apabila tidak digunakan, maka fungsi pembelajaran bahasa menjadi sia-sia. Dewasa ini, Bahasa Indonesia semakin diminati oleh orang asing atau penutur asing. Hal ini dapat dilihat dengan semakin banyak dibukanya lembaga-lembaga yang mengajarkan Bahasa Indonesia sebagai bahasa asing di beberapa negara. Di dalam negei, terdapat 45 perguruan tinggi baik negeri maupun swasta yang menyelenggarakan Program Darmasiswa. Program ini merupakan program pembelajaran Bahasa Indonesia bagi penutur asing yang diselenggarakan oleh Biro Kerjasama Luar Negeri Departemen Pendidikan dan Kebudayaan sejak tahun 2005 dan diikuti oleh 110 negara dari lima benua, yaitu Asia, Amerika, Australia, Eropa dan Afrika. Penelitian-penelitian terdahulu seperti yang dilakukan oleh Lengkanawati (1997)[1], Ajip Rosidi (2001)[2], dan Hardini (2004)[3] membuktikan adanya perkembangan pembelajaran Bahasa Indonesia bagi penutur asing. Pembelajaran Bahasa Indonesia bagi penutur asing diharapkan dapat memperkenalkan Bahasa Indonesia kepada penutur asing untuk berbagai kepentingan, baik pengajaran maupun komunikasi praktis. Pembelajaran Bahasa Indonesia juga bertujuan untuk memberikan penguasaan bahasa secara lisan dan tulisan kepada para penutur asing, sehingga penutur asing diharapkan mampu menggunakannya dengan lancar dan sekaligus dapat mengerti bahasa yang digunakan oleh penutur aslinya. Berbagai upaya telah banyak dilakukan untuk mewujudkan kondisi pembelajaran Bahasa Indonesia bagi penutur asing (biasanya disingkat dengan BIPA) yang mantap. Dalam konteks global, pembelajaran BIPA akan mengalami perkembangan, sehingga berbagai langkah harus segera dirumuskan untuk mengantisipasi perkembangan yang terjadi. Dan perkembangan saat ini yang cenderung berpihak pada perkembangan teknologi informasi. Tujuan pembelajaran Bahasa Indonesia sebagai bahasa asing tidak serta merta dapat tercapai, karena dalam proses pembelajaran banyak ditemukan kendala-kendala atau permasalahan. Salah satu permasalahan yang muncul adalah kesalahan dalam 1
cakupan linguistik khususnya permasalahan fonologi. Secara umum fonologi merupakan ilmu bunyi yang mengkaji mengenai bunyi bahasa, maka pembahasan mengenai pengucapan atau pelafalan bunyi termasuk ke dalam bidang fonologi. Pelatihan kata Bahasa Indonesia pada setiap vokal yang digunakan belum tentu sama pada setiap kata. Jadi, tidak bisa menyamaratakan bunyi dari vokal yang ditemukan di kata tersebut. Sebagai contoh adalah bunyi /E/ pelafalannya berbeda. Apabila salah melafalkan, akan berbeda maknanya. Pada kata /teras/ yang artinya halaman rumah dan /teras/ yang artinya pejabat. Bunyi yang demikian disebut dengan homograf. Kata /kepala/ berbeda pelafalannya apabila diucapkan oleh orang Jawa dan orang Medan. Bunyi /K/ di akhir kata ada yang diucapkan dan ada yang tidak diucapkan. Misalnya pada kata /sendok/, /kodok/ dan lain sebagainya. Contoh-contoh di atas hanyalah sebagian kecil kesalahan dalam pelafalan yang ditemukan. Masih banyak sederet kata lain yang salah dalam pengucapannya. Keadaan seperti ini sangat memprihatinkan, apalagi jika kesalahan ini sudah berawal dari pengajaran Bahasa Indonesia pada tingkat dasar / pemula. Pola pemikiran seperti ini akan selalau melekat pada ingakatan mereka saat itu, sehingga akan sangat sulit untuk diperbaiki karena di alam bawah sadar mereka, pelafalan pertama-lah yang akan tersimpan dalam memori. Dengan perkembangan teknologi internet yang demikian pesat, dapat digunakan untuk mendukung pembelajaran Bahasa Indonesia bagi penutur asing yang mempunyai waktu terbatas dan mempunyai keterbatasan jarak untuk mencari lembaga pembelajaran Bahasa Indonesia. Pembelajaran dengan menggunakan teknologi internet dengan metode pembelajaran jarak jauhnya dan sistem interaktif dapat diguanakn sebagai salah satu jalan keluar untuk membantu mereka dalam melaksanakan pembelajaran Bahasa Indonesia. Selain sistem yang interaktif, Sistem ini seyogyanya dapat menampilkan audio visual yang lebih menarik dengan teknologi multimedianya, sehingga sistem betul-betul menjadi solusi terhadap permasalahan yang ada. Berdasarkan
pemikiran
di
atas,
penelitian
ini
dimaksudkan
untuk
mengembangkan sistem pembelajaran pelafalan Bahasa Indonesia yang interaktf (melibatkan interaksi antara user dengan sistem) dengan mengedepankan tampilan audio visual yang menarik, yaitu dengan menyertakan suara penutur dan visualisasi bentuk mulut saat pengucapan dengan karakter animasi yang menarik dan dapat diakses menggunakan teknologi internet sehingga dapat dijalankan secara online tidak 2
terbatas oleh jarak dan waktu. Hasil penelitian ini diharapkan menjadi solusi yang tepat
terhadap
permasalahan-permasalahan
pembelajaran
Bahasa
Indonesia,
khususnya masalah pelafalan Bahasa Indonesia bagi penutur asing.
1.2. Perumusan Masalah Beerdasarkan latar belakang dan permasalahan di atas, perumusan masalah dalam penelitian ini adalah : 1. Bagaimana membangun model-model viseme (visual phoneme) Bahasa Indonesia dengan metode data-driven untuk data-data fitur yang diperoleh dari hasil ekstraksi dan reduksi dimensi data-data image dua dimensi dari hasil transformasi video orang Berbicara bahasa Indonesia yang berdurasi 6 menit. Data-data fitur ini selanjutnya di kluster (dikelompokan secara alamiah) sehingga dihasilkan kelaskelas viseme? 2. Bagaimana membangun sistem pengucapan Bahasa Indonesia berdasarkan teks berbahasa Indonesia yang di tranformasikan menjadi fonem-fonem dan selanjutnya digunakan sebagai dasar penggenerasian suara. Pada tahap ini, diperlukan adanya database suara Bahasa Indonesia. Pembanganunan database suara ini tidak termasuk dalam cakupan penelitian ini, sehingga peneliti akan menggunakan database suara yang sudah dibangun oleh peneliti sebelumnya dengan memohon ijin kepada peneliti yang bersangkutan? 3. Bagaiman merancang pelafalan Bahasa Indonesia ke dalam sajian sistem yang interaktif dan mampu memvisualisasikan pelafalan Bahasa Indoensia dengan model animasi yang menarik sehingga pembelajaran pelafalan Bahasa Indonesia dapat disajikan lebih lengkap? 4. Bagaimana merancang dan membangun sistem ini dalam 2 versi, yaitu versi PC (Personal Computer) yang dapat mengakses sistem dari PC / laptop dan versi mobile yang dapat di akses dari hand phone? 5. Bagaimana mengimplementasikan aplikasi ini sebagai media pembelajaran yang efektif khususnya untuk penutur asing sebagai bahasa kedua. Dengan demikian Bahasa Indonesia menjadi salah satu bahasa yang mudah dipelajari oleh siapapun sehingga ekesistensi Bahasa Indonesia dapat lebih diakui seperti bahasa-bahasa lain di dunia ini?
3
BAB II TINJAUAN PUSTAKA
2.1 State of The Art Penelitian visualisasi pelafalan Bahasa Indonesia berkaitan dengan penelitian mengenai visual speech (visualisasi wicara) dan visual phoneme (viseme). Visualisasi pelafalan ini adalah salah satu metode terbaru menggunakan teknologi dalam memberikan pembelajaran pelafalan bahasa [4]. Penelitian yang terkait dengan hal tersebut telah banyak dilakukan, tetapi penelitian ini dilakukan pada bahasa selain bahasa Indonesia. Sedangkan penelitian bidang ini untuk Bahasa Indonesia masih jarang dilakukan. Salah satu penelitian yang terkait dengan viseme Bahasa Indoneisa, antara lain penelitian yang dilakukan oleh pengusul, Arifin dkk (2013)[5] yang dipresentasikan pada Seminar Internasional IEEE, dengan judul “Towards Building Indonesian Viseme: A Clustering-Based Approach”, dijelaskan bahwa model-model kelas viseme Bahasa Indonesia yang terbentuk pada penelitian ini adalah 10 kelas viseme. Pembentukan kelas-kelas viseme ini didasarkan hasil dari proses klusterisasi pada data-data fitur hasil ekstraksi fitur dari image-image yang diperoleh dari video orang berbicara Bahasa Indoneisa. Pembentukan model-model kelas ini merupakan tahap awal yang selanjutnya dapat digunakan sebagai dasar pembuatan sistem visualisasi pelafalan Bahasa Indonesia. Model-model kelas viseme tersebut dapat dilihat pada Gambar 2.1.
Gambar 2.1. Model-model Kelas Viseme Bahasa Indonesia [5]
4
Didalam ilmu linguistik, terdapat beberapa cabang yang sangat penting untuk dipelajari, seperti sintaksis, morfologi, fonologi, dan lain sebagainya. Tetapi yang paling berkaitan dengan bahasa adalah bunyi yang dikeluarkan sehingga melambangkan sesuatu [6]. Ilmu linguistik yang berhubungan dengan bunyi, produksi bunyi, instrumen bunyi. Pembelajaran jarak jauh mengacu pada instruksional dimana guru dan siswa terpisah secara geografis. Metode ini digunakan untuk pembelajaran jarak jauh yang sudah terjadi selama dua abad. Sekarang, banyak sekali model pembelajaran jarak jauh menggunakan internet, menyediakan secara virtual pada lokasi yang tersambung dengan internet [7].
2.2 Visualisasi wicara Wicara telah berkembang selama ribuan tahun sehingga saat ini manusia mampu menghasilkan aplikasi yang luas dari suara yang kompleks [8]. Suara ini diproduksi menggunakan rahang, bibir, lidah, velum dan laring, dan kedua rongga hidung dan rongga mulut. Ini semua adalah artikulator wicara dan ketika kita melihat dan mendengar seseorang berbicara, itu diproduksi oleh interaksi yang rumit dari artikulator ini. Penelitian analisis wicara telah mengembangkan set abstrak simbol untuk merepresentasikan wicara, yang meliputi : a. Fonem, sebuah unit minimal yang dapat berfungsi untuk membedakan antara makna kata-kata. Difon merupakan rangkaian dua fonem berturut-turut, sedangkan trifon merupakan rangkaian tiga fonem berturut-turut. b. Alofon, anggota dari keluarga fonem. Sebuah varian fonetik dari fonem dalam suatu bahasa tertentu. c. Monoftong, suara vokal tunggal atau kombinasi dua vokal yang diucapkan seperti satu vokal. d. Diftong, sebuah huruf vokal rangkap yang terdapat dalam satu suku kata, biasa disebut juga vokal rangkap. 2.2.1 Wicara Bicara, Wicara, Ujaran, Tuturan adalah bentuk kegiatan komunikasi yang mengeluarkan suara / disuarakan antara sesama manusia. Hal ini didasarkan pada kombinasi sintaksis lexicals dan nama yang diambil dari kosakata yang sangat banyak (biasanya sekitar 10.000 kata-kata yang berbeda). Setiap kata yang diucapkan diciptakan dari kombinasi fonetik dari seperangkat terbatas unit suara vokal dan 5
konsonan. Kosa kata ini merupakan sintaks yang struktur, dan seperangkat dengan unit bunyi ujaran yang berbeda, menciptakan keberadaan ribuan jenis bahasa manusia agar bisa saling dimengerti. Penutur / manusia yang berbicara (poliglot) mampu berkomunikasi dalam dua bahasa atau lebih. Kemampuan vokal yang memungkinkan manusia untuk menghasilkan ujaran juga mampu menyebabkan manusia dengan kemampuan bernyanyi.
2.3 Metode Ekstraksi Fitur Bibir Ekstraksi fitur merupakan dasar retieval citra berbasis konten. Ekstraksi fitur dapat diklasifikasi sebagi fitur-fitur umum dan fitur dengan spesifik domain. Klasifikasi pertama mencakup fitur warna, tekstur, dan bentuk, sedangkan klasifikasi kedua termasuk fitur-fitur yang merupakan fitur spesifik aplikasi sebagai contoh fitur untuk wajah manusia dan sidik jari. Analisis otomatis dan akurasi fitur wajah telah memotivasi penelitian yang intensif dalam bidang visi komputer dan merupakan hal penting untuk beberapa aplikasi seperti animasi data-driven yang semakin banyak digunakan untuk identifikasi dan rekognisi wajah. Ekstraksi gerakan bibir semakin banyak digunakan untuk membantu rekognisi otomatis audio-visual dan untuk mempelajari ilmu wicara yaitu produksi wicara dan koartikulasi. Sejumlah metode telah diusulkan untuk mengekstraksi kontur bibir dari citra. Sebagian besar metode-metode yang direview dalam sesi ini terdiri dari tiga kategori : metode feature-based, counter-based, dan model-based. Teknik feature-based mengekstrak daerah lokal fitur dari citra-citra dan mengidentifikasi fitur-fitur yang sesuai dalam masing-masing gambar berikutnya dalam urutan. Dengan teknik contour-based, kontur gerakan objek direpresentasikan oleh sebuah “snake” yang diupdat secara dinamis. Baik teknik feature-based dan contour-based, umumnya sangat tergantung pada inisialisasi. Teknik model-based mengeksploitasi ‘a priori knowledge’ objek khusus dalam sebuah adegan tertentu. Pelacakan terlokalisir dengan mencocokkan model yang diproyeksikan data citra. 2.3.1 Ekstraksi Berbasis Fitur Salah satu metode yang paling umum ekstraksi fitur visual adalah metode deformable template [9]. Fitur yang menarik seperti bibir, dijelaskan oleh template yang diparameterisasi. Parametrik deformable template adalah sebuah model 6
matematika yang diparameterisasi digunakan untuk melacak gerakan objek. Sebuah fungsi energi didefinisikan yang menghubungkan tepi, puncak dan lembah dalam intensitas citra untuk propertis yang sesuai dengan template. Model berinteraksi secara dinamis dengan citra dengan cara mengubah nilai parameter untuk meminimalkan fungsi energi, sehingga menggambarkan bentuk template ke fitur yang penting. Pencarian citra dilakukan dengan deformable template yang pas untuk gradien citra, asumsi tepi yang kuat yang konsisten pada kontur bibir. Beberapa model parametrik telah diusulkan untuk bibir. Tian et al. [10] menggunakan tiga model state geometris sederhana yang terbuat dari parabola. Hennecke et al. [11] mengusulkan model bibir yang terdiri dari jenis curva, parabola dan quartik. Metode ini tidak mampu menyelesaikan detil kontur yang halus karena model parametrik tidak menjelaskan konsisten asimetrik bibir, khususnya selama wicara. 2.3.2 Ekstraksi Berbasis Kontour Pendekatan lain yang umum untuk pemodelan bentuk didasarkan pada model kontur active yang memparameterisasi energi yang meminimalkan spline yang konvergen ke suatu kontur objek dalam sebuah citra. Teknik snake pertama dikenalkan oleh Kass et al. [12]. Modifikasi teknik ini telah diaplikasikan ke bibir dalam [13]. Snake dapat menyelesaikan detil kontur yang halus, namun sensitif terhadap daerah yang menonjol, karena bayangan dan refleksi, dekat dengan batas bibir yang diinginkan dan dengan demikian menyelaraskan minimum lokal yang diinginkan. Konfigurasi bibir direpresentasikan sebagai titik dalam ruang fitur dan satu set dari semua konfigurasi bibir adalah permukaan atau manifold dalam ruang ini. Barnard et al. [14] mengembangkan sistem lip-tracking yang menggunakan kombinasi dari algoritma snake yang dimodifikasi [15] dan teknik pencocokan template 2D yang tidak memerlukan pelatihan sebelumnya. Dalam kasus ini, snake dikontrol dengan menggunakan template pola dua dimensi dari kontur tepi bibir yang bukan gradien citra. Titik snake dan template pola 2D diinisialisasi secara manual sekitar tepi bibir luar untuk frame pertama. Selama tracking, template titik snake diupdat dengan menggunakan rata-rata tertimbang dari template pola awal dan template diekstrak dari citra sebelumnya dari urutan. Energi citra didefiniskan sebagai korelasi 2D antara patch 2D dari citra dan template yang diharapkan untuk titik snake yang spesifik. 7
2.4 Artikulasi dan Koartikulasi Artikulator adalah bagian alat-alat ucap yang terdapat dalam rongga mulut yang bisa digerakkan, dan bagian-bagian alat ucap yang menjadi sasaran sentuh disebut titik artikulasi. Artikulator berada dibagian bawah rongga mulut, sedangkan titik artikulasi berada dibagian atas rongga mulut. Koartikulasi adalah fenomena fisik yang menggambarkan ‘kaburnya’ perbedaan antara unit atomik wicara, baik yang terlihat dan terdengar. Transisi antara gerakan artikulatoris yang dibawa oleh sistem fisik otot. Hasil koartikulasi adalah bahwa gerakan artikulatoris yang dibentuk untuk unit wicara tertentu (dan suara yang dihasilkan itu sendiri) akan bervariasi selama produksi wicara alami. Koartikulasi tidak sekedar memperhatikan sejauh mana isyarat direalisasikan, tetapi juga pengaruh gerakan selama aksi wicara. Koartikulasi dapat antisipatif, yaitu saluran vokal yang mempersipkan gerakan penting yang akan datang (koartikulasi maju, misalnya pembuatan bibir dalam two), dan juga dapat mencerminkan efek yang dibawa dari gerakan sebelumnya (koartikulasi terbalik, misalnya tonjolan bibir dalam boots). Dalam rangka untuk menjelaskan sifat koartikulasi, beberapa teori telah diusulkan. Kent dan Minifie [3] mengkategorikan menjadi : learnt allophonic models; target based models; dan hierarchical models.
Model hirarkis menempatkan
koartikulasi sebagai bagian dari strategi produksi wicara secara keseluruhan, misalnya Kent dan Minifie mengusulkan hirarki yang meliputi tugas wicara dari kontrol neuromotor sampai dengan pengelompokan suku kata. Sementara ada banyak usulan, dengan pencocokan argumen dan bukti yang mendukung, beberapa cukup konkrit untuk diletakan untuk penggunaan praktis (misalnya dalam sebuah sistem sintesis). 2.4.1 Definisi Koartikulasi Koartikulasi atau artikulasi penyerta atau artikulasi skunder adalah gejala saling mempengaruhi antara bunyi yang satu dengan bunyi yang lain, dan dapat ditinjau dari tempat artikulasi yang mana yang mempengaruhi terjadinya gejala tersebut. Dalam proses ini, artikulasi primer, yaitu artikulator yang bekerja untuk menghasilkan bunyi tertentu, secara bersamaan tersertakan gerakan artikulator itu yang menghasilkan bunyi yang lain (artikulasi skunder). Contohnya yaitu bunyi /b/ pada kata “buku” dengan bunyi /b/ pada kata “baca”, diucapkan berbeda, meskipun titik artikulasinya sama yaitu bilabial.
8
Perbedaan yang menyebabkan terjadinya pengucapan yang berbeda yaitu adanya artikulasi penyerta (koartikulasi) dari vukuoid yang mengikutinya. Kata “buku”, vokoid yang langsung mengikutinya yaitu vokoid /u/. Vokoid /u/ adalah vokoid belakang, tinggi, bundar, maka /b/ pada kata “buku” diucapkan dengan posisi bibir bundar. Proses pengaruh bunyi yang disebabkan oleh artikulasi penyerta dapat dibedakan atas: labialisasi, retrospeksi, palatalisasi, velarisasi, dan glotalisasi [39]. (1) Labialisasi Labialisasi adalah pembulatan bibir pada artikulasi primer sehingga terdengar bunyi semi vokal [w] pada bunyi utama tersebut. Kecuali bunyi labial, bunyi bahasa dapat disertai labialisasi. Misalnya, bunyi [t] pada kata tujuan terdengar sebagai bunyi [tw] atau [t dilabialisasi]. (2) Retrofleksi Retrofleksi adalah penarikan ujung lidah ke belakang pada artikulasi primer, sehingga terdengar [r] pada bunyi utamanya. Kecuali bunyi apikal, bunyi lain dapat disertai retrofleksi. Misalnya, [kr] atau [k] diretrofleksi seperti kata kerdus. (3) Palatalisasi Palatalisasi adalah pengangkatan daun lidah ke arah langit-langit keras pada artikulasi primer. Kecuali bunyi palatal, bunyi lain dapat disertai palatalisasi. Misalnya, bunyi bunyi [p] dalam kata piara terdengar sebagai [py] atau [p] dipalatalisasi. (3) Velarisasi Velarisasi adalah pengangkatan pangkal lidah ke arah langit-langit lunak pada artikulasi primer. Selain buinyi velar, bunyi-bunyi lain dapat divelarisasi. Misalnya, bunyi [m] dalam kata mahluk terdengar sebagai [mx] atau [m] divelarisasi. (4) Glotalisasi Glotalisasi adalah proses penyerta hambatan pada glottis atau glottis tertutup rapat sewaktu artikulasi primer diucapkan. Selain bunyi glotal, bunyi-bunyi lain dapat disertai glotalisasi. Vokal pada awal kata dalam bahasa Indonesia sering diglotalisasikan. Misalnya bunyi [o] dalam obat terdengar sebagai [?o] [?obat] atau [o] diglotalisasi.
9
2.5 Pengertian Fonem dalam Bahasa Indonesia 2.5.1 Fonologi, Fonetik dan Fonemik Sebelum membahas tentang pembentukan fonem dalam bahasa Indonesia secara lebih nci, terlebih dahulu akan dijelaskan tentang pengertian fonologi, fonetik, dan fonemik. Dari beberapa sumber, pengertian fonologi (phonology) antara lain : o
Fonologi ialah bagian dari tata bahasa yang memperlajari bunyi-bunyi bahasa [16].
o
Fonologi ialah bidang dalam linguistik yang menyelidiki bunyi-bunyi bahasa menurut fungsinya [18].
o
Fonologi ialah bidang linguistik yang mempelajari, menganalisis, dan membicarakan runtutan bunyi-bunyi bahasa, yang secara etimologi terbentuk dari kata fon yaitu bunyi dan logi yaitu ilmu [17].
o
Dalam Kamus Besar Bahasa Indonesia (1997) dinyatakan bahwa fonologi adalah bidang dalam linguistik yang menyelidiki bunyi-bunyi bahasa menurut fungsinya. Secara garis besar fonologi adalah merupakan sistem bunyi dalam bahasa
Indonesia atau dapat juga dikatakan bahwa fonologi adalah ilmu tentang bunyi bahasa. Fonologi dalam tataran ilmu bahasa dibagi dua bagian, yaitu: (1) fonetik dan (2) fonemik. Gambar 2.2. menunjukkan dua cabang fonologi tersebut.
Gambar 2.2. Cabang Ilmu Fonologi Dari beberapa sumber, pengertian fonetik antara lain adalah : Fonetik adalah cabang studi fonologi yang mempelajari bunyi bahasa tanpa memperhatikan apakah bunyi-bunyi tersebut mempunyai fungsi sebagai pembeda makna atau tidak [17]. Fonetik adalah ilmu yang menyelidiki dan menganalisa bunyi-bunyi ujaran yang dipakai dalam tutur, serta mempelajari bagaimana menghasilkan bunyi-bunyi tersebut dengan alat ucap manusia [16]. Fonetik adalah ilmu yang menyelidiki penghasilan, penyampaian, dan penerimaan bunyi bahasa; ilmu interdisipliner linguistik dengan fisika, anatomi, dan psikologi [18]. 10
Secara garis besar fonetik adalah ilmu bahasa yang membahas bunyi-bunyi bahasa yang dihasilkan alat ucap manusia, serta bagaimana bunyi itu dihasilkan. Macam-macam fonetik antara lain : a. Fonetik artikulatoris adalah fonetik yang mempelajari posisi dan gerakan bibir, lidah dan organ-organ manusia lainnya yang memproduksi suara atau bunyi bahasa. b. Fonetik akustik adalah fonetik yang mempelajari gelombang suara dan bagaimana mereka didengarkan oleh telinga manusia. c. Fonetik auditori adalah fonetik yang mempelajari persepsi bunyi dan terutama bagaimana otak mengolah data yang masuk sebagai suara. Dari beberapa sumber, pengertian fonemik (phonemic) antara lain : Fonemik adalah cabang studi fonologi yang mempelajari bunyi bahasa dengan memperhatikan fungsi bunyi tersebut sebagai pembeda makna [17]. Fonemik adalah ilmu yang mempelajari bunyi ujaran dalam fungsinya sebagai pembeda arti [16]. Fonemik adalah penyelidikan mengenai sistem fonem suatu bahasa [18]. Secara garis besar fonemik adalah ilmu bahasa yang membahas bunyi-bunyi bahasa yang berfungsi sebagai pembeda makna. Jika dalam fonetik kita mempelajari segala macam bunyi yang dapat dihasilkan oleh alat-alat ucap serta bagaimana tiaptiap bunyi itu dilaksanakan, maka dalam fonemik kita mempelajari dan menyelidiki kemungkinan-kemungkinan, bunyi-ujaran yang manakah yang dapat mempunyai fungsi untuk membedakan arti?
Untuk jelasnya kalau kita perhatikan baik-baik
ternyata bunyi [i] yang terdapat pada kata-kata [intan], [angin], dan [batik] adalah tidak sama. Begitu juga bunyi [p] pada kata dalam bahasa Inggris [pace], [space], dan [map], juga tidak sama. Ketidaksamaan bunyi [i] dan bunyi [p] pada deretan kata-kata di atas itulah salah satu contoh obyek atau sasaran studi fonetik. Dalam kajiannya, fonetik akan berusaha mendeskripsikan perbedaan bunyibunyi itu serta menjelaskan sebab-sebabnya. Sebaliknya, perbedaan bunyi [p] dan [b] yang terdapat, misalnya, pada kata [paru] dan [baru] adalah menjadi contoh sasaran studi fonemik, sebab perbedaan bunyi [p] dan [b] itu menyebabkan berbedanya makna kata [paru] dan [baru] itu
11
2.5.2 Pengertian Dasar Fonem Sebelum ditemukan sejumlah fonem dalam bahasa Indonesia terlebih akan dirumuskan mengenai pengertian tentang fonem. Fonem adalah unsur bahasa yang terkecil dan dapat membedakan arti atau makna [19]. Berdasarkan definisi diatas maka setiap bunyi bahasa, baik segmental maupun suprasegmental apabila terbukti dapat membedakan arti dapat disebut fonem. Setiap bunyi bahasa memiliki peluang yang sama untuk menjadi fonem. Namun, tidak semua bunyi bahasa pasti akan menjadi fonem. Bunyi itu harus diuji dengan beberapa pengujian penemuan fonem. Nama fonem, ciri-ciri fonem, dan watak fonem berasal dari bunyi bahasa. Adakalanya jumlah fonem sama dengan jumlah bunyi bahasa, tetapi sangat jarang terjadi. Pada umumnya fonem suatu bahasa lebih sedikit daripada jumlah bunyi suatu bahasa. Berdasarkan kenyataan, ternyata di dalam bahasa Indonesia hanya ditemukan fonem segmental saja, dan bunyi suprasegmental tidak terbukti dapat membedakan arti. Oleh karena itu, dalam bahasa Indonesia tidak ditemukannya fonem suprasegmental. Itulah sebabnya dalam kajian berikut ini hanya dibicarakan fonem segmental bahasa Indonesia yang meliputi fonem vokal, fonem konsonan, dan fonem semi konsonan. Dalam mengenali fonem terdapat beberapa pokok pikiran umum yang disebut premis-premis fonologis. Berdasarkan sifat umumnya premis-premis bahasa tersebut adalah sebagai berikut: a)
Bunyi
bahasa
mempunyai
kencenderungan
untuk
dipengaruhi
oleh
lingkungannya. b) Sistem bunyi mempunyai kecenderungan bersifat simetris. c)
Bunyi-bunyi bahasa yang secara fonetis mirip harus digolongkan ke dalam kelaskelas bunyi (fonem) yang berbeda, apabila terdapat pertentangan di dalam lingkungan yang sama.
d) Bunyi-bunyi yang secara fonetis mirip dan terdapat di dalam distribusi yang komplementer, harus dimasukkan ke dalam kelas-kelas bunyi (fonem) yang sama. Untuk mengenal dan menentukan bunyi-bunyi bahasa yang bersifat fungsional (fonem), biasanya ditentukan melalui kontras pasangan minimal. Pasangan minimal ini adalah pasangan bentuk-bentuk bahasa yang terkecil dan bermakna pada sebuah bahasa atau kata tunggal yang secara ideal sama, kecuali satu bunyi berbeda. 12
Contohnya : dara dan tara fonemnya /d/ dan /t/ atau kalah dan galah fonemnya /k/ dan /g/. 2.5.3 Pelafalan Artikulasi Fonem Fonem adalah satuan bunyi bahasa terkecil yang bersifat fungsional, artinya satuan yang memiliki fungsi untuk membedakan makna. Fonem tidak dapat berdiri sendiri karena belum mengandung arti. Fonemisasi adalah usaha untuk menemukan bunyi-bunyi yang berfungsi dalam rangka pembedaan makna. Dalam bahasa Indonesia bunyi [f], [v] dan [p] pada dasarnya bukanlah tiga fonem yang berbeda. Kata provinsi apabila dilafazkan sebagai [propinsi], [profinsi] atau [provinsi] tetap sama saja. Fonem tidak memiliki makna, tapi peranannya dalam bahasa sangat penting karena fonem dapat membedakan makna. Misalnya saja fonem [l] dengan [r]. Jika kedua fonem tersebut berdiri sendiri, pastilah kita tidak akan menangkap makna. Akan tetapi lain halnya jika kedua fonem tersebut kita gabungkan dengan fonem lainnya seperti [m], [a], dan [h], maka fonem [l] dan [r] bisa membentuk makna /marah/ dan /malah/. Bagi orang Jepang kata marah dan malah mungkin mereka anggap sama karena dalam bahasa mereka tidak ada fonem [l]. Contoh lain: mari, lari, dari, tari, sari, jika satu unsur diganti dengan unsur lain maka akan membawa akibat yang besar yakni perubahan arti. 2.5.4 Simbol dan Bunyi Dalam kajian fonologi sering dipaparkan simbol dan bunyi dari oposisi fonemis tertentu. Oposisi rendah terdapat pada bunyi /p/ dan /f/ pada kata kapan dan kafan, sedangkan oposisi tinggi terdapat pada bunyi /k/ dan /g/ pada kata gita dan kita. 2.5.4.1 Realisasi Fonem Realisasi fonem adalah pengungkapan sebenarnya dari ciri atau satuan fonologis, yaitu fonem menjadi bunyi bahasa. Realisasi fonem antara lain: (1)
Realisasi Vokal, berdasarkan pembentukannya, realisasi fonem vokal dibedakan sebagai berikut : a) Fonem /i/ adalah vokal tinggi-depan-tak bulat. b) Fonem /u/ adalah vokal atas-belakang-bulat. c) Fonem /e/ adalah vokal sedang-depan-bulat. d) Fonem /Ɛ/ adalah vokal sedang-teng.ah-bulat. e) Fonem /ə/ adalah vokal rendah-tengah-bulat 13
f) Fonem /o/ adalah vokal sedang-belakang-bulat g) Fonem /O/ adalah vokal tinggi-tengah-bulat h) Fonem /a/ adalah vokal rendah-tengah-bulat. (2)
Realisasi Konsonan, berdasarkan cara pembentukannya, realisasi fonem konsonan dibedakan sebagai berikut : a) Konsonan hambat, dibedakan sebagai berikut : o konsonan hambat-bilabial, yaitu fonem /p/ dan /b/ o konsonan hambat-dental, yaitu fonem /t/ dan /d/ o konsonan hambat-palatal, yaitu /c/ dan /j/ o konsonan hambat-velar, yaitu /k/ dan /g/ b) Konsonan Frikatif, dibedakan sebagai berikut : o konsonan frikatif-labio-dental, yaitu /f/ dan /v/ o konsonan ferikatif-alveolar, yaitu /s/ dan /z/ o konsonan frikatif-palatal tak bersuara, yaitu /sy/ o konsonan frikatif-velar tak bersuara, yaitu /x/ dan /kh/ o konsonan frikatif-glotal tak bersuara, yaitu /h/ c) Konsonan getar-alveolar, yaitu /r/ d) Konsonan lateral-alveolar, yaitu /l/ e) Konsonan nasal, dibedakan dalam daerah artikulasi sebagai berikut : o konsonan nasal-bilabial, yaitu /m/ o konsonan nasal-dental, yaitu /n/ o konsonan nasal-palatal, yaitu /ny/ o konsonan nasal-velar, yaitu /h/ f) Semi-vokal , yaitu semivokal bilabial (/w/) dan semivokal palatal( /y/).
2.5.4.2 Variasi Fonem Variasi fonem ditentukan oleh lingkungan dalam distribusi yang komplementer disebut variasi alofonis. Variasi fonem yang tidak membedakan bentuk dan arti kata disebut alofon, yang terdiri dari : (1) Alofon Vokal a) Alofon fonem /i/, yaitu: [i] jika terdapat pada suku kata terbuka, misalnya, [bibi] /bibi/ [I] jika terdapat pada suku kata tertutup, misalnya, [karIb] /karib/ [Iy] palatalisasi jika diikuti oleh vokal [a,o,u], misalnya [kiyos] /kios/ 14
[ϊ] nasalisasi jika diikuti oleh nasal. [ϊndah]à /indah/ b) Alofon fonem /ε/, yaitu: [e] jika terdapat pada suku kata terbuka dan tidak diikuti oleh suku kata yang mengandung alofon [ε]. Misalnya, [sore] /sore/ [ε] jika terdapat pada tempat-tempat lain. Misalnya, [pεsta] /pesta/ [ə] jika terdapat pada posisi suku kata terbuka. [pəta] /peta/ [¶] jika terdapat pada posisi suku kata tertutup. [sent¶r] /senter/ c) Alofon fonem /o/, yaitu: [o] jika terdapat pada suku kata akhir terbuka. [soto] /soto/ [O] jika terdapat pada posisi lain. [jeblÉs] /jeblos/ d) Alofon fonem /a/, yaitu: [a] jika terdapat pada semua posisi suku kata. [aku] /aku/ e) Alofon fonem /u/, yaitu: [u] jika terdapat pada posisi suku kata terbuka. [aku] /aku/ [U] jika terdapat pada suku kata tertutup. [kumpul] /kumpul/ [uw] labialisasi jika diikuti oleh [I,e,a]. [buwih] /buih/, [kuwe] /kue/ (2) Alofon Konsonan a) Fonem /p/ [p] bunyi lepas jika diikuti vokal. [pipi] /pipi/, [sapi] /sapi/ [p>] bunyi tak lepas jika terdapat pada suku kata tertutup. [atap>] /atap/ [b] bunyi lepas jika diikuti oleh vocal. [babi] /babi/, [babu] /babu/ [p>] bunyi taklepas jika terdapat pada suku kata tertutup, namun berubah lagi menjadi [b] jika diikuti lagi vokal. [adap>] /adab/, [jawap>] /jawab/ b) Fonem /t/ [t] bunyi lepas jika diikut oleh vokal. [tanam] /tanam/, [tusuk] /tusuk/ [t>] bunyi tak lepas jika terdapat pada suku kata tertutup. [lompat>] /lompat/, [sakit>] /sakit/ [d] bunyi lepas jika diikuti vocal. [duta] /duta/, [dadu] /dadu/ [t>] bunyi hambat-dental-tak bersuara dan tak lepas jika terdapat pada suku kata tertutup atau pada akhir kata. [abat>] /abad/, [murtat>] /murtad/ c) Fonem /k/ [k] bunyi lepas jika terdapat pada awal suku kata. [kala] /kala/, [kelam] /kelam/
15
[k>] bunyi tak lepas jika tedapat pada tengah kata dan diikuti konsonan lain. [pak>sa] /paksa/, [sik>sa] /siksa/ [?] bunyi hambat glottal jika terdapat pada akhir kata. [tida?] /tidak/, [ana?] /anak/ d) Fonem /g/ [g] bunyi lepas jika diikuti glottal. [gagah] /gagah/, [gula] /gula/ [k>] bunyi hambat-velar-tak bersuara dan lepas jika terdapat di akhir kata. [beduk>] /bedug/, [gudek>] /gudeg/ e) Fonem /c/ [c] bunyi lepas jika diikuti vocal. [cari] /cari/, [cacing] /cacing/ f) Fonem /j/ [j] bunyi lepas jika diikuti vocal. [juga] /juga/, [jadi] /jadi/ g) Fonem /f/ [f] jika terdapat pada posisi sebelum dan sesudah vocal. [fakir] /fakir/, [fitri] /fitri/ h) Fonem /z/ [z] [zat] /zat/, [izin] /izin/ i) Fonem /š/ [š] umumnya terdapat di awal dan akhir kata [šarat] /syarat/, [araš] /arasy/ j) Fonem /x/ [x] berada di awal dan akhir suku kata. [xas] /khas/, [xusus] /khusus/ k) Fonem /h/ [h] bunyi tak bersuara jika terdapat di awal dan akhir suku kata. [hasil] /hasil, [hujan] /hujan/ [H] jika berada di tengah kata. [taHu] /tahu/, [laHan] /lahan/ l) Fonem /m/ [m] berada di awal dan akhir suku kata. [masuk] /masuk/, [makan] /makan/ m) Fonem /n/ [n] berada di awal dan akhir suku kata. [nakal] /nakal/, [nasib] /nasib/ n) Fonem /ň/ [ň] berada di awal suku kata. [baňak] /banyak/, [buňi] /bunyi/ o) Fonem /Ƞ/ [Ƞ] berada di awal dan akhir suku kata. [Ƞarai] /ngarai/, [paȠkal] /pangkal/ p) Fonem /r/ 16
[r] berada di awal dan akhir suku kata, kadang-kadang bervariasi dengan bunyi getar uvular [R]. [raja] atau [Raja] /raja/, [karya] atau [kaRya] /karya/ q) Fonem /l/ [l] berada di awal dan akhir suku kata. [lama] /lama/, [palsu] /palsu/ r) Fonem /w/ [w] merupakan konsonan jika terdapat di awal suku kata dan semi vocal pada akhir suku kata. [waktu] /waktu/, [wujud] /wujud/ s) Fonem /y/ [y] merupakan konsonan jika terdapat di awal suku kata dan semi vocal pada akhir suku kata. [santay] /santai/, [ramai] /ramai/ (3) DIFTONG Diftong adalah dua buah vokal yang berdiri bersama dan pada saat diucapkan berubah kualitasnya. Perbedaan vokal dengan diftong adalah terletak pada cara hembusan nafasnya. Diftong dalam bahasa Indonesia adalah sebagai berikut : a) Diftong /au/, pengucapannya [aw]. [kerbaw] /kerbau/, [pulaw] /pulau/ b) Diftong /ai/, pengucapannya [ay]. [santay] /santai/, [sungay] /sungai/ c) Diftong /oi/, pengucapannya [oy]. [amboy] /amboi/, [asoy] /asoi/ 2.5.5 Pembentukan Fonem Bahasa Indonesia Bunyi bahasa yang disebut fon dibentuk dengan cara diartikulasikan. Berdasarkan sifatnya, artikulator terbagi dua, yakni: (1) artikulator aktif dan (2) artikulator pasif. Artikulator aktif biasanya berpindah-pindah posisi untuk menentukan titik artikulasi guna menghasilkan bunyi bahasa. Menurut [20], hubungan posisional antara artikulator aktif dan artikulator pasif disebut struktur (structrure). Oleh karena vokal tidak mempunyai artikulasi, strukturnya ditentukan oleh celah antara lidah dan langit-langit. Sesuai dengan strukturnya, di bawah ini dikemukakan cara-cara membentuk fonem, baik vokal maupun konsonan. 2.5.5.1 Cara Pembentukan Vokal Vokal yaitu bunyi ucapan yang terbentuk oleh udara yang keluar dari paru-paru dan ketika melalui tenggorokan mendapat hambatan. Kualitas vokal umumnya ditentukan oleh tiga hal, antara lain: (1) bulat-hamparnya bentuk bibir, (2) atas-bawah lidah, dan 17
(3) maju-mundurnya lidah. Penentuan klasifikasi vokal diperkenalkan oleh Daniel Jones [38] dengan istilah sistem vokal kardinal, lihat Gambar 2.3. Vokal kardinal adalah bunyi vokal yang mempunyai kualitas tertentu, yang telah dipilih sedemikian rupa untuk dibentuk dalam suatu rangka gambar bunyi. Rangka gambar bunyi ini dapat dipakai sebagai acuan perbandingan dalam deskripsi vokal seluruh bahasa dunia.
Gambar 2.3. Posisi Lidah pada Daerah Artikulasi Vokal Vokal kardinal dilambangkan dengan [i, e, ε, a, u, o, O, dan ə] dalam International Phonetics Association [39]. Adapun vokal dalam bahasa Indonesia berjumlah delapan buah, yakni: [a], [i], [ə], [e], [ε], [o], [O], dan [u]. Pembentukan vokal ini didasarkan pada posisi bibir, tinggi rendahnya lidah, dan maju mundurnya lidah. 2.5.5.2 Pembentukan Vokal Berdasarkan Tinggi Rendahnya Lidah dan Lidah yang Bergerak Pembentukan vokal dasar berdasarkan tinggi rendahnya lidah, dapat dibedakan menjadi: a.
Vokal tinggi atau atas yang dibentuk apabila rahang bawah merapat ke rahang atas: [i] dan [u]
b.
Vokal madya atau tengah yang dibentuk apabila rahang bahwa menjauh sedikit dari rahang atas: [e], [...], [o] dan [O]
c.
Vokal rendah atau tengah yang di bentuk apabila rahang bawah diundurkan lagi sejauh-jauhnya: [a] dan [ə]. Berdasarkan lidah yang bergerak, vokal dibedakan adanya:
a)
Vokal depan, yaitu vokal yang dihasilkan oleh gerakan peranan turun naiknya lidah bagian depan, misalnya bunyi [i, e, ... , ə];
b) Vokal tengah, yaitu vokal yang dihasilkan oleh gerakan peranan lidah bagian tengah, misalnya bunyi [a]; 18
c)
Vokal belakang, yaitu vokal yang digerakan peranan turun naiknya lidah bagian belakang (pangkal lidah), misalnya bunyi [u, o, O]. Untuk melihat posisi lidah dalam mengucapkan vokal, dapat dilihat pada
Gambar 2.4. Posisi Lidah pada Daerah Artikulasi Vokal
[i, e, ə , a] Posisi Lidah dalam Mengucapkan Vokal Depan
[ a] Posisi Lidah dalam Mengucapkan Vokal Tengah
[u, o] Posisi Lidah dalam Mengucapkan Vokal Belakang
Gambar 2.4 Posisi Lidah dalam Mengucapkan Vokal Depan, Tengah dan Belakang [39] 2.5.5.3 Struktur Vokal Struktur ialah keadaan hubungan posisional artikulator aktif dengan artikulator pasif[39]. Karena vokal tidak ada artikulasi, maka struktur untuk vokal ditentukan oleh jarak lidah dengan langit-langit. Menurut strukturnya, maka vokal dapat dibedakan atas : (a) vokal tertutup (close vowel), yaitu vokal yang dibentuk dengan lidah diangkat setinggi mungkin mendekati langit-langit dalam batas vokal. Vokal tertutup ini dapat digambarkan terletak pada garis yang menghubungkan antara [i] dengan [u]. Jadi, vokal [i] dan [u] menurut strukturnya merupakan vokal tertutup. (b) vokal semi-tertutup (half-close), yaitu vokal yang dibentuk dengan lidah diangkat dalam ketinggian sepertiga di bawah tertutup atau dua pertiga di atas vokal yang paling rendah, terletak pada garis yang menghubungkan antara vokal [e] dengan [...]. Dengan demikian, vokal [e] dan [...] adalah semi-tertutup. (c) vokal semi-terbuka (half-open), yaitu vokal yang dibentuk dengan lidah diangkat dalam ketinggian sepertiga diatas vokal yang paling rendah atau dua pertiga di bawah vokal tertutup. Letaknya pada garis yang menghubungkan vokal [o] dengan [O], dan 19
(d) vokal terbuka (open vowel), yaitu vokal yang dibentuk dengan lidah dalam posisi serendah mungkin, pada garis yang menghubungkan antara vokal [a] dengan [ə]. Menurut bentuk bibir dibedakan adanya: (a) vokal bulat dan (b) vokal tak bulat. Vokal bulat yaitu vokal yang diucapkan dengan bentuk bibir bulat. Bentuk bibir bulat bisa terbuka atau tertutup, misalnya vokal [o] dan vokal [u]. Vokal tak bulat, yaitu vokal yang diucapkan dengan bentuk bibir tidak bulat atau terbentang lebar, misalnya vokal [i, e, a]. Bentuk bibir tak bulat terbentang lebar. Contoh dari kedua bentuk bibir dapat dilihat dalam Gambar 2.5. di bawah ini.
Bentuk Bibir Bulat
Bentuk Bibir Tak Bulat
Gambar 2.5. Bentuk Bibir Bulat dan Tak Bulat
2.5.5.4 Cara Pembentukan Konsonan Jika bunyi ujaran, ketika udara keluar dari paru-paru mendapat halangan, maka terjadilah bunyi konsonan. Halangan yang dijumpai bermacam-macam, ada hubungan yang bersifat seluruhnya, dan ada pula yang sebagian yaitu dengan menggeser atau mengadukkan arus suara/tabel sehingga menghasilkan konsonan bermacam-macam pula. Gambar 2.6. adalah daerah artikulasi pada pengucapan konsonan.
Daerah artikulasi (pasif & aktif): 1. Bibir luar, 2. Bibir dalam, 3. Gigi, 4. Rongga-gigi, 5. Pascarongga-gigi, 6. Pralangit-langit, 7. Langit-langit, 8. Langit-langit belakang, 9. Tekak, 10. Hulu kerongkongan, 11. Celah suara, 12. Katup napas, 13. Akar lidah, 14. Lidah belakang, 15. Punggung lidah, 16. Lidah depan, 17. Ujung lidah, 18. Bawah ujung lidah. Gambar 2.6. Daerah Artikulasi pada Pengucapan Konsonan Artikulasi adalah perubahan rongga dan ruang dalam saluran suara untuk menghasilkan bunyi bahasa. Daerah artikulasi terbentang dari bibir luar sampai pita suara, fonem-fonem terbentuk berdasarkan getaran pita suara disertai perubahan posisi lidah dan semacamnya. 20
Bunyi konsonan dihasilkan apabila arus udara mendapat hambatan, baik di rongga mulut atau di rongga hidung. Konsonan dalam bahasa Indonesia dapat digolongkan berdasarkan tiga faktor, yaitu: (a) Bergetar tidaknya pita suara: konsonan bersuara dan konsonan tidak bersuara (b) Daerah artikulasi: bilabial, labiodental, alveolar, palatal, velar, glotal. (c) Cara artikulasi: hambat, frikatif ,nasal, getar atau lateral. Bunyi konsonan biasanya dibedakan berdasarkan tiga kriteria, yaitu posisi pita suara, tempat artikulasi, dan cara artikulasi. Ketiga kriteria tersebut dapat dijelaskan sebagai berikut: (1) Posisi pita suara dibedakan adanya bunyi bersuara dan tidak bersuara. Bunyi terjadi apabila hanya pita suara terbuka sedikit, sehingga terjadi getaran pada pita suara. Bunyi bersuara antara lain, bunyi [b], [d], [g], dan [j]. Bunyi tidak bersuara terjadi apabila pita suara terbuka agak lebar, sehingga tidak ada getaran pada pita suara. Bunyi yang termasuk tidak bersuara, antara lain; bunyi [s], [k], [p], [t]. (2) Tempat artikulasi tidak lain dari pada alat ucap yang digunakan dalam pembentukan bunyi konsonan. Berdasarkan tempat artikulasinya kita mengenal konsonan: a) Bilabial, yaitu konsonan yang terjadi pada kedua belah bibir, bibir bawah merapat pada bibir atas. Bunyi yang termasuk konsonan bilabial adalah bunyi [b], [p], dan [m]. b) Labio-dental, yaitu konsonan yang terjadi pada gigi atas dan bibir bawah; gigi atas merapat pada bibir bawah. Bunyi yang termasuk konsonan labio-dental adalah bunyi [f], [v], dan [w]. c) Dental/alveoral, yaitu konsonan yang terjadi pada ujung lidah yang ditempelkan pada gusi yang merupakan daerah kasar terletak di belakang gigi atas. Bunyi yang termasuk konsonan dental/alveoral adalah [t], [d], [s], [z], [n], [r], dan [l]. d) Palatal, adalah bunyi yang dibentuk dengan lidah menyentuh langit-langit keras. Bunyi yang termasuk konsonan palatal adalah bunyi [c], [j], [š], [ň], dan [y]. e) Velar, yaitu bunyi yang dihasilkan dengan bagian belakang lidah menyentuh langit-langit lunak. Bunyi yang termasuk konsonan velar adalah bunyi [k, kh], [g], [q], [x], dan [ŋ].
21
f) Glotal, pengucapan bunyi glottal atau hamzah tidak terlalu menuntut penggunaan lidah dan bagian mulut yang lain secara aktif. Bunyi yang termasuk konsonan glotal adalah [h] dan [?]. (3) Cara artikulasi, yaitu bagaimana gangguan atau hambatan yang dilakukan terhadap arus udara. Berdasarkan cara artikulasinya konsonan dapat dibedakan menjadi: a. Hambat, yaitu bunyi yang dihasilkan dengan menghambat arus udara yang keluar dari paru-paru, lalu dilepaskan seketika. Bunyi yang termasuk konsonan hambat [p], [t], [c], [k], [b], [d], [j], [g], dan [?]. b. Geseran, yaitu bunyi yang melibatkan penghambatan arus udara melalui celah sempit. Bunyi yang termasuk konsonan geseran adalah [f], [v], [x], [h], [s], [š], z, dan x. c. Nasal, yaitu bunyi yang dihasilkan dengan menghambat rapat jalan udara dari paru-paru melalui rongga hidung. Bunyi yang termasuk konsonan nasal adalah [m], [n], [ň] atau [ny], dan [ŋ] atau [ng]. d. Getar, yaitu bunyi yang dibentuk dengan cara menaikkan ujung lidah dan melengkungkannya ke belakang gusi secara berulang-ulang menempel dan lepas dari gusi. Bunyi yang termasuk konsonan getar adalah [r]. e. Lateral, yaitu bunyi yang dihasilkan dengan cara menempelkan daun lidah pada gusi dan mengeluarkan udara melalui sisi-sisi lidah. Pada saat bunyi lateral dihasilkan pita suara bergetar. Bunyi termasuk konsonan lateral adalah [l]. f. Luncuran, yaitu bunyi yang dihasilkan sebagai bunyi- bunyi transisi. Bunyi yang termasuk transisi adalah [w, u, o], dan [y, i]. 2.5.5.5 Cara Pembentukan Diftong Telah disebutkan sebelumnya bahwa ciri diftong ialah waktu diucapkan posisi lidah yang satu dengan yang lain saling berbeda. Perbedaan itu menyangkut tinggi rendahnya lidah, bagian lidah yang bergerak, serta strikturnya (jarak lidah dengan langit-langit). Berdasarkan itu pula maka diftong kemudian dikiasifikasikan. Klasifikasi diftong dengan contoh dalam bahasa Indonesia dan bahasa Inggris diuraikan di bawah ini. Ada 2 kategori untuk diftong, antara lain: (1) Diftong Naik dan (2) Diftong Turun.
22
Diftong naik (rising diphtongs) ialah jika vokal yang kedua diucapkan dengän posisi lidah lebih tinggi daripada yang pertama. Karena lidah semakin menaik, dengan demikian strukturnya semakin tertutup, sehingga diftong ini juga dapat disebut diftong menutup (closing diphtongs). Berikut akan diuraikan diftong naik dalam bahasa Indonesia dan bahasa Inggris. Menurut Soebardi (1973:8-9), bahasa Indonesia mempunyai tiga jenis diftong naik, yaitu: a) Diftong naik-menutup-maju [ai], misalnya pada kata pakai, lalai, pandai, nilai, tupai, sampai. b) Diftong naik-menutup-maju [oi], misalnya pada kata amboi, sepoi-sepoi. c) Diftong naik-menutup-mundur [au], misalnya pada kata saudara, saudagar, lampau, surau, pulau, kacau. Dalam bahasa Indonesia hanya ada diftong naik, sedangkan diftong turun tidak ada. Diftong naik di sini diambil contohnya dari bahasa Inggris. Di dalam bahasa Inggris terdapat dua jenis diftong turun, yaitu : (1) Diftong turun membuka-memusat [iə], misalnya dalam kata ear. (2) Diftong turun membuka-memusat [uə], misalnya dalam kata poor [39]. 2.5.6 Pemilihan Fonem Bahasa Indonesia yang Digunakan Abjad latin atau huruf dalam bahasa Indonesia terdiri dari 5 vokal dan 21 konsonan, total 26 jenis huruf. Akan tetapi, jumlah fonem dalam bahasa Indonesia tidak sama dengan jumlah huruf, melainkan terdapat 48 fonem. Hal ini disebabkan dalam bahasa Indonesia juga dipengaruhi oleh kata serapan (absorp) dari bahasa daerah (Jawa, Sunda, dll.) maupun bahasa asing (bahasa Arab, bahasa Inggris, dll). Contoh fonem-fonem serapan, antara lain: ch (achmad), dh (dhuafa), dl (ramadlan), dz (muadzin), ky (kyai), sh (sholat), th (therapi), ts (tsunami). 2.5.6.1 Macam-macam Fonem Bahasa Indonesia Setelah menganalisis dari banyak literatur dan mengamati frekuensi penggunaan dalam kalimat bahasa Indonesia secara umum, jumlah fonem bahasa Indonesia yang digunakan pada penelitian ini adalah 48 fonem. Fonem yang digunakan meliputi vokal (V) dan konsonan (K), baik monoftong (huruf tunggal) maupun diftong (huruf rangkap / ganda). Fonem vokal yang digunakan dalam penelitian ini terdiri dari 10 vokal tunggal (a, i, I, u, U, ə, e, Ɛ, o, O) dan 3 vokal ganda (ai, au, oi). Sedangkan 23
fonem konsonan terdiri dari 21 konsonan tunggal (b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, z) dan 14 konsonan ganda (ch, dh, dl, dz, gh, kh, ks, ky, sh, sy, th, ts, ng, ny). Fonem konsonan yang berfungsi sebagai akhiran yang tidak (jarang) terpakai dalam bahasa Indonesia terdiri dari 18 fonem konsonan, antara lain: c, ch, dh, dl, dz, j, ky, q, sh, sy, th, ts, v, w, x, ny, y, z dan 3 fonem vokal Ɛ, I, dan U. Dari dua puluh satu akhiran fonem konsonan yang tidak (jarang) terpakai ini, seringkali cara membacanya diganti menjadi fonem lainnya seperti yang tertulis dalam penjelasan berikut ini : o
Akhiran /c/, /j/ dan /th/ sering kali dibaca menjadi /t/.
o
Akhiran /ch/ sering kali dibaca menjadi /kh/.
o
Akhiran /dh/, /dl/ dan /dz/ sering kali dibaca menjadi /d/.
o
Akhiran /q/ sering kali dibaca menjadi /k/.
o
Akhiran /sh/, /sy/, /ts/ dan /z/ sering kali dibaca menjadi /s/.
o
Akhiran /v/ sering kali dibaca menjadi /f/.
o
Akhiran /U/ dan /w/ sering kali dibaca menjadi /u/.
o
Akhiran /x/ sering kali dibaca menjadi /ks/.
o
Akhiran /I/, /ky/ dan /y/ sering kali dibaca menjadi /i/
o
Akhiran / Ɛ / dan /ny/, tidak pernah ada dalam kalimat bahasa Indonesia baku.
Pada tabel 2.1 berikut, terlihat bahwa tidak semua fonem dapat digunakan di awal, di tengah dan di akhir sebuah kata. Seperti fonem vokal diftong ai (pan-tai), au (pu-lau), dan oi (a-soi), hanya bisa dipakai di akhir kata. Vokal diftong bila diletakkan di awal sebuah kata, maka dibaca sebagai vokal monoftong, misal: aida (a-i-da, bukan ai-da), aura (a-u-ra, bukan au-ra), soimah (so-i-mah, bukan soi-mah). Fonem vokal Ɛ, I, O dan U, juga tidak pernah digunakan di akhir kata dalam bahasa Indonesia, akan tetapi sering dipakai sebagai pengganti ucapan, seperti pantai (dibaca pantƐ), dan pulau (dibaca pulO), sedangkan diftong oi sangat jarang dipakai dalam bahasa Indonesia. 2.5.6.2 Pola Suku kata Suku kata (syllable) adalah unit pembentuk kata yang tersusun dari satu fonem atau urutan fonem. Suku kata sering dianggap sebagai unit pembangun fonologis kata, karena dapat mempengaruhi ritme dan artikulasi suatu kata. Sementara ritme atau irama adalah suatu ukuran gerakan yang simetris dan aksen dari suatu suara yang teratur. Ilmu tentang ritme, penekanan, dan laras / nada dalam percakapan disebut prosodi (prosody), yang merupakan bagian dari ilmu linguistik. Suku kata ialah unit 24
penyusun aturan bunyi percakapan, yang boleh mempengaruhi irama, prosodi, puitis, corak tekanan, dsb. dalam sebuah bahasa. Contohnya, perkataan sayang terdiri dari dua suku kata sa dan yang. Satu suku kata biasanya terdiri dari nukleus suku kata (selalu vokal) dengan pinggir awalan dan akhiran biasanya konsonan. Satu kata yang terdiri dari satu suku kata saja (seperti yang) disebut eka-suku. Kata yang terdiri dari dua suku kata (seperti mana) disebut dwi-suku. Kata yang terdiri dari tiga suku kata (seperti belalang) disebut tri-suku, dan kata yang memiliki lebih dari tiga suku kata (seperti kebaikan) disebut banyak suku. Suku kata dalam bahasa Indonesia memiliki beberapa pola. Pola suku kata tersebut terdiri dari kombinasi vokal dan konsonan. Pemenggalan atau pemisahan suku kata dari sebuah kata, harus didasarkan pada kata dasar dan pola suku katanya. Tabel 2.3 berikut ini adalah daftar pola suku kata dalam bahasa Indonesia. Tabel 2.1. Pola Suku Kata Bahasa Indonesia [21] No 1 2 3 4 5 6 7 8 9 10 11
Pola Suku Kata V VK KV KVK KKV KKVK VKK KVKK KKVKK KKKV KKKVK
Contoh Pemenggalan Kata Di depan Di belakang i-bu di-a er-na ma-in sa-ya ban-tu pin-tu ru-sak dra-ma in-dus-tri trak-tor e-lek-trik eks-port eks sank-si kon-teks gross kom-pleks stra-tegi de-mon-stra-si struk-tur in-do-spring
2.6 Pemetaan Fonem ke Viseme (Mapping Phoneme to Viseme) 2.6.1 Pengertian Viseme Viseme adalah unit ekivalen dalam domain visual yang memodelkan sistem pengenalan pengucapan secara audio-visual. Sebenarnya, viseme mempunyai banyak interpretasi dalam literatur-literatur dan ada yang tidak setuju pada cara mendefinisikan viseme-viseme tersebut. Dua cara mendefinisikan secara praktis yang masuk akal adalah sebagai berikut:
Viseme dapat diasumsikan sebagai gerakan artikulasi, seperti menutup bibir bersama-sama, menggerakkan dagu, dan lain-lain. 25
Viseme diturunkan dari sekelompok fonem yang memiliki penampilan visual sama.
Cara kedua adalah yang paling banyak digunakan [22][23][24][18]. Dengan menggunakan pendekatan kedua, viseme dan fonem dikorelasikan melalui pemetaan fonem ke viseme. Pemetaan ini harus menjadi sebuah pemetaan banyak ke satu (many-to-one), karena banyak fonem yang tidak dapat dibedakan dengan menggunakan isyarat visual. 2.6.2 Pemetaan Fonem ke Viseme S aat ini, belum banyak penelitian yang membahas tentang viseme Indonesia. Sehingga proses pemetaan fonem-ke-viseme yang dapat digunakan untuk acuan adalah pemetaan dengan bahasa lainnya, seperti viseme Inggris, China, Canton, Jerman yang sudah banyak diteliti. Pemetaan fonem ke viseme dapat menggunakan dua pendekatan [23], yaitu : a.
Linguistik Kelas-kelas viseme didefinisikan melalui pengatahuan linguistik dan intuisi dengan memilih fonem-fonem yang memiliki tampilan yang sama secara visual.
b.
Data Driven Kelas-kelas viseme dibentuk dengan melakukan proses klasterisasi terhadap fonem-fonem, berdasarkan pada ekstraksi fitur dari region of interest (ROI) objek.
Metode data driven mempunyai beberapa kelebihan. Pertama, sistem pengenalan viseme menggunakan data yang dilatih dengan model statistik sehingga kelas-kelas dibentuk secara alami. Kedua, dapat menjelaskan variasi kontekstual dan perbedaan antara speaker (jika database yang tersedia besar). Metode linguistik biasanya dilakukan dengan fonem-fonem kanonik secara intuitif, sementara pengenalan dilakukan pada continuous speech. Pada Tabel 2.4 disajikan contoh hasil pemetaan fonem-ke-viseme untuk bahasa Indonesia dengan menggunakan pendekatan data driven berdasarkan ekstraksi fitur data-data citra visualisasi wicara.
26
Tabel 2.2. Hasil Pemetaan Fonem ke Viseme Bahasa Indonesia [5] Vise Classes Class#0 Class#1 Class#2 Class#3 Class#4 Class#5 Class#6 Class#7 Class#8 Class#9
Associated Phoneme Silence /a/, /h/ /p/, /b/, /m/ /d/, /t/, /n/, /l/, /r/ /o/, /au/, /u/, /w/ /k/, /g/, /kh/ /c/, /j/, /s/,/i/, /z/, /sy/, /ny/ /E/, /y/, /oi/, /ai/ /f/, /v/ /ng/, /e/
Visem e /a/ /b/ /d/ /u/ /k/ /c/ /E/ /f/ /ng/
2.7. Roadmap Penelitian Kerangka Roadmap penelitian ini dapat digambarkan sebagai berikut :
Gambar 2.7. Kerangka Roadmap Penelitian 2.8. Penelitian pendahuluan yang telah dilakukan pengusul Penelitian yang telah dilakukan oleh pengusul untuk mencapai tujuan penelitian hibah bersaing adalah : a.
Pembentukan
mode-model
viseme
dinamis
Bahasa
Indonesia
dengan
menggunakan metode pengelompokan secara natural yaitu dengan proses klusterisasi. 27
b.
Sistem text to speech Bahasa Indonesia dengan metode Finite State Automata, Pada penelitian ini pengusul tidak membuat database suara sendiri tetapi menggunakan database suara dari hasil penelitian dari peneliti lain.
Hasil penelitian di atas dapat digunakan sebagai dasar untuk mengembangkan sistem yang akan diusulkan dalam penelitian hibah bersaing ini. Model-model kelas viseme yang dihasilkan, selanjutnya digunakan untuk membuat sistem visualisasi pelafalan pada karakter animasi dengan cara merangkai model-model viseme tersebut yang disinkronisasi dengan fonem dan suara yang diucapkan. Proses merangkai dalam proses sinkronisasi dapat dilihat seperti Gambar 2.8. Penelitian mengenai pembentukan model-model viseme Bahasa Indonesia perlu dilakukan, karena setiap bahasa yang digunakan akan menghasilkan jumlah model kelas viseme yang berbeda-beda. Jumlah model kelas viseme untuk setiap bahasa dapat dilihat pada Tabel 2.3.
Gambar 2.8. Contoh Sinkronisasi Sinyal Wicara dan Model Viseme Tabel 2.3. Model-model Kelas Viseme Setiap Bahasa Bahasa English Persian Swedish Spanish
Jumlah Kelas Viseme Statis 16 7 11 14
28
BAB III TUJUAN DAN MANFAAT PENELITIAN 3.1. Tujuan Penelitian
Adapun tujuan khusus dari penelitian ini adalah untuk : 6. Membangun model-model viseme (visual phoneme) Bahasa Indonesia dengan metode data-driven untuk data-data fitur yang diperoleh dari hasil ekstraksi dan reduksi dimensi data-data image dua dimensi dari hasil transformasi video orang Berbicara bahasa Indonesia yang berdurasi 6 menit. Data-data fitur ini selanjutnya di kluster (dikelompokan secara alamiah) sehingga dihasilkan kelas-kelas viseme. 7. Membangun sistem pengucapan Bahasa Indonesia berdasarkan teks berbahasa Indonesia yang di tranformasikan menjadi fonem-fonem dan selanjutnya digunakan sebagai dasar penggenerasian suara. Pada tahap ini, diperlukan adanya database suara Bahasa Indonesia. Pembanganunan database suara ini tidak termasuk dalam cakupan penelitian ini, sehingga peneliti akan menggunakan database suara yang sudah dibangun oleh peneliti sebelumnya dengan memohon ijin kepada peneliti yang bersangkutan. 8. Merancang pelafalan Bahasa Indonesia ke dalam sajian sistem yang interaktif dan mampu memvisualisasikan pelafalan Bahasa Indoensia dengan model animasi yang menarik sehingga pembelajaran pelafalan Bahasa Indonesia dapat disajikan lebih lengkap. 9. Merancang dan membangun sistem ini dalam 2 versi, yaitu versi PC (Personal Computer) yang dapat mengakses sistem dari PC / laptop dan versi mobile yang dapat di akses dari hand phone. 10. Mengimplementasikan aplikasi ini sebagai media pembelajaran yang efektif khususnya untuk penutur asing sebagai bahasa kedua. Dengan demikian Bahasa Indonesia menjadi salah satu bahasa yang mudah dipelajari oleh siapapun sehingga ekesistensi Bahasa Indonesia dapat lebih diakui seperti bahasa-bahasa lain di dunia ini. 3.2. Manfaat Penelitian
Bahasa Indonesia adalah bahasa resmi bangsa Indonesia yang menjadi pemersatu bagi keberadaan bahasa-bahasa daerah yang tersebar diseluruh penjuru bangsa ini yang berjumlah ratusan bahasa daerah. Bahasa Indonesia juga menjadi 29
identitas bagi Bangsa Indonesia serta kunci bagi masuknya investor-investor asing. Oleh karena itu, Bahasa Indonesia harus dapat disejajarkan seperti bahasa-bahasa dari bangsa lain melalui beberapa aktivitas seperti kegiatan-kegiatan promosi, pengenalan Bahasa Indonesia untuk bangsa lain dan pembelajaran Bahasa Indonesia bagi penutur asing. Perkembangan teknologi informasi saat ini membuat semua hal hampir dapat dilakukan dengan menggunakan komputer. Hal ini menjadi tantangan semua negara agar bisa memanfaatkan teknologi informasi yang menjadi bangsa unggul dalam persaingan Global. Kemajuan yang pesat dalam bidang teknologi informasi juga telah membawa banyak perubahan terhadap pembelajaran bahasa. Pembelajaran bahasa kini telah berkembang menuju metode pembelajaran baru, yaitu pembelajaran bahasa di dunia maya dengan media internet. Dengan metode baru ini, para pengajar dan pembelajar bahasa dapat berkomunikasi tanpa dibatasi jarak dan waktu. Selain mendukung bagi terwujudnya eksistensi Bahasa Indonesia di antara bahasa-bahasa dari bangsa lain, hasil dari penelitian ini diharapkan dapat memberikan manfaat yaitu sebagai berikut : 1.
Memperkenalkan Bahasa Indonesia ke dunia luar melalui teknologi internet, pengguna dan pemerhati Bahasa Indonesia dengan tidak dibatasi oleh geografis dan waktu. Pembelajaran Bahasa Indonesia ini dapat diakses oleh peminat bahasa tersebut diseluruh dunia. Hal ini dapat terjadi karena internet merupakan satu jaringan antarbangsa yang menghubungkan lebih dari 50.000 jaringan di lebih dari 150 negara. Hingga kini terdapat lebih dari 75 juta website online diseluruh dunia. Internet kini mempunyai jutaan pengguna di seluruh dunia dan angka ini akan terus bertambah. Dengan demikian, sistem ini dapat memperkenalkan dan mempromosikan Bahasa Indonesia ke dunia luar.
2.
Membantu para penutur asing untuk lebih mudah memahami pembelajaran Bahasa Indonesia khususnya pelafalan Bahasa Indonesia dengan menggunakan sistem hasil penelitian ini yang dapat diakses secara online dan menyajikan pembelajaran yang interaktif dan juga dilengkapi dengan sajian audio dan visualisasi pelafalan dengan menggunakan karakter animasi yang menarik.
3.
Mendorong pembelajar untuk dapat menguasai ketrampilan berbahasa Indonesia secara cepat dan tepat. Dengan menggunakan sistem ini, pembelajar dapat melihat karakter animasi pelafalan, mendengarkan suara penutur asli, memonitor tingkat kemajuan belajarnya dan dapat mengulangi materi-materi / kata-kata yang sulit dan kurang dimengerti. 30
4.
Mengembangkan metode pembelajaran menuju sistem pendidikan yang modern, yaitu sistem pendidikan terbuka dan jarak jauh (PTJJ) di dunia maya, sehingga komunikasi antara pengajar dengan pembelajar dapat dilakukan melalui beragam media dan adanya pemantauan yang intensif yang menyebabkan pendidikan bersifat fleksibel.
31
BAB IV METODE PENELITIAN Penelitian ini merupakan eksperimen murni, yaitu penelitian yang dilakukan dengan membuat sebuah prototype yang diujicoba, pre dan post test. Agar tujuan penelitian ini dapat tercapai maka beberapa metode atau pendekatan direncanakan diusulkan untuk digunakan pada tiap-tiap sub sistem / penelitian seperti yang telah disebutkan di atas. Beberapa metode atau pendekatan yang diusulkan pada tiap-tiap sub sistem adalah sebagai berikut : Pembuatan Database Visual Speech, Pemodelan Viseme Dinamis Bahasa Indonesia, Transkripsi Teks ke Fonem, Pemetaan Fonem ke Viseme Dinamis, Proses : Segmentasi, Mengitung Durasi dan Pelabelan, Proses Sinkronisasi, Menganimasikan Visualisasi wicara. 4.1. Bagan Alir Penelitian (Fishbone Diagram)
Gambar 4.1. Fishbone Chart Bagan Alir Penelitian Dalam peneletian ini ada 2 Proses Utama yang dilakukan, yaitu : 1. Pembentukan model viseme Bahasa Indonesia dan Pengenerasian suara. 2. Merekayasa sistem visualisasi pelafalan Bahasa Indonesia berbasis web.
32
4.1.1 Proses 1 : Pembentukan Model Viseme Bahasa Indonesia. Beberapa tahapan yang dilakukan pada proses 1 dijelaskan sebagai berikut :
Tahap 1 : Perekaman Data dan Pembuatan Video Dalam penelitian ini, database yang digunakan terbagi menjadi dua jenis. Pertama, database visual speech video yang digunakan untuk menghasilkan animasi visualisasi 2D. Dan database visual speech dengan menggunakan teknologi motion capture yang digunakan untuk menghasilkan animasi visualisasi 3D. Tahapan yang dilakukan dalam pembuatan database visual speech adalah adalah : 1. Pembuatan video orang berbicara Bahasa Indonesia yang berdurasi sekitar 10 menit. Pembuatan video difokuskan pada perekaman bentuk mulut saat orang mengucapkan fonem-fonem Bahasa Indonesia dan perekaman suara yang diucapkan. Dari video yang telah dibuat, kemudian dilakukan transformasi ke dalam frame-frame yang merupakan data image 2D dan data suara. Dari kedua data inilah yang digunakan untuk membentuk database visual speech 2D dan database suara. Database visual speech yang terdiri dari frame-frame yang berjumlah lebih dari 10.000 frame tersimpan dalam file gambar dengan format jpg pada setiap frame nya. Sedangkan, database suara tersimpan dalam file .WAV. 2. Pembuatan database mocap wajah oarang berbicara Bahasa Indonesia yang mengucapkan kalimat berbahasa Indonesia sebanyak 250 kalimat. Dari proses ini, diperoleh database mocap wajah yang berisi posisi optik marker gerakan wajah dan mulut orang yang sedang berbicara kalimat berbahasa Indoensia dan database suara. Database mocap wajah disimpan dalam file C3D dan database suara disimpan dalam file .WAV.
Lokasi perekaman 1. Perekaman video :
Laboratorium Audio Visual Program Studi Desain Komunikasi Visual dan Broadcasting Fakultas Ilmu Komputer Universitas Dian Nuswantoro.
Model dalam pembuatan video tersebut adalah salah seorang mahasiswi.
2. Perekaman Database Motion Capture Wajah Laboratorium HCS (Human Centric System) Teknik Multimedia Jaringan Jurusan Teknik Elektro Fakultas Teknologi Industri ITS Surabaya.
Model dalam pembuatan Data Motion Capture wajah ini adalah salah seorang mahasiswi S2 Jurusan Teknik Elektro Fakultas Teknologi Industri ITS Surabaya. 33
Persiapan Perangkat Keras dan Perangkat Lunak untuk merekam : 1.
Perekaman video :
Peralatan Video dan audio visual yang memadai (Studio Audiovisual Program Studi Broadcasting Universitas Dian Nuswantoro Semarang)
Komputer/Laptop yang sudah diinstal Software Adobe Premire, Audacity, Matlab, dan lain-lain.
2.
Exterenal Sound Card
Perekaman database Motion Capture Wajah :
Peralatan unit Motion Capture yang meliputi : OptiTrack Camera, Server, marker, OptiHub, WebCam, Software Arena dari Natural Point (Lab HCS Teknik Multimedia Jaringan Jurusan Teknik Elektro Fakultas Teknik Industri ITS Surabaya)
Komputer/Laptop yang sudah diinstal Software MotionBuilder, Audacity, Matlab, Python, Blender dan lain-lain.
Tahap 2 : Pengolahan Data Data yang diperoleh adalah database visual speech 2D (frame-frame visual speech) dan database motion capture wajah (3D) bentuk mulut pengucapan fonem Bahasa Indonesia dan data suara pengucapan fonem-fonem tersebut.
Proses ekstraksi fitur data wicara dilakukan dengan beberapa tahap yaitu segmentasi terhadap data wicara tersebut ke dalam bagian-bagian yang lebih kecil yang merepresentasikan fonem (suku kata), memberikan label terhadap data wicara hasil segmentasi dan ekstraksi fitur. Hasil ekstraksi fitur data wicara terdiri dari F0 (fundamental frequency), Spektral dan durasi (Douglas F. Elliott, 1987).
Metode ekstraksi fitur dan reduksi dimensi yang digunakan pada data citra yang merepresentasikan viseme adalah subspace LDA (Linier Discriminant Analysis ) yang merupakan gabungan metode Principle Component Analysis (PCA) dan Linier Discriminant Analysis (LDA). Metode PCA bertujuan untuk mereduksi dimensi dengan melakukan transformasi linier dari suatu ruang berdimensi tinggi ke dalam ruang berdimensi rendah (J. Ostermann, 1998).
34
Tahap 3 : Proses Klusterisasi dan Analisis Hasil Proses clustering menggunakan metode K-Means yang menggunakan model pengelompokan fuzzy sehingga data dapat menjadi anggota dari semua kelas atau klaster yang terbentuk dengan derajat keanggotaan yang berbeda antara 0 hingga 1. FCM merupakan pengembangan dari metode K-Mean yang dapat memberikan hasil klaster yang halus dan cukup efektif untuk meningkatkan homogenitas tiap kelompok yang dihasilkan. Untuk pengujian terhadap hasil sintesis sinyal baru, apakah mendekati sinyal sebenarnya, maka perlu dilakukan uji kesalahan. Pengujian kesalahan dilakukan dengan metode MSE (Mean Square Error).
Tahap 4
: Pembentukan Model-Model
Viseme
Bahasa
Indonesia dan
Penggenerasian Suara Pemodelan viseme bahasa Indonesia menggunakan pendekatan data driven clustering terhadap data hasil ekstraksi fitur. Data yang digunakan dalam data-driven clustering terdiri dari data–data citra yang menggambarkan visual gerakan bibir dan data sinyal wicara. Hasil proses klusterisasi digunakan sebagai dasar untuk pemetaan ke kelas-kelas viseme. Pada tahap 4 ini, model-model viseme Bahasa Indonesia terbentuk. Sedangkan proses penggenerasian suara dapat uraikan secara singkat sebagai berikut Sinyal suara disegmentasi menjadi potongan-potongan sinyal suara yang mere-presentasikan fonem-fonem (fonem-fonem ini diperoleh dari proses transkripsi teks yang diinputkan), kemudian potongan-potongan sinyal wicara ini diberi label sesuai dengan nama fonem yang terbentuk. Dari potongan-potongan sinyal suara ini dapat dihitung informasi durasi, yang nantinya akan digunakan untuk menentuakan timing dalam proses animasi visualisasi pelafalan. Tahap-tahap diatas dilakukan dengan bantuan Software MATLAB, secara keseluruhan tahapan tersebut dapat di tunjukan pada Gambar 4.2.
35
Gambar 4.2. Tahapan Pembentukan Model Viseme Bahasa Indonesia 4.1.2 Proses 2 : Rekayasa Sistem. Dalam rangka merekayasa sistem visualisasi pelafalan Bahasa Indonesia. Pendekatan dilakukan dengan menggunakan Model System Development Life Cycle (SDLC) yang terdiri atas tahapan kegiatan [25] : Tahap 1 : Analisis Sistem Mendefinisikan dan mengkaji kebutuhan dan manfaat desain dokumentasi dalam bentuk sistem interaktif yang akan dibangun. Metode Analisis untuk eksplorasi dan evaluasi yang digunakan pada penelitian ini adalah metode Syntetics, pada intinya sama dengan metode
brainstorming. Menganalisa dan mendokumentasikan
persyaratan dalam mengembangkan desain sistem yang interaktif. Dalam memilih sumber data menggunakan teknik non-probabilitas, dimana pengambilan sampel lebih pada pertimbangan subjektif peneliti dengan didasarkan pada jangkauan kedalaman masalah yang diteliti. Data primer diperoleh dengan metode wawancara dan observasi dengan narasumber (ahli bahasa) langsung oleh peneliti. Dan data sekunder dari membaca berupa dokumen, surat, dan literatur, serta yang diperoleh langsung dari melihat dan mendengar. Tahap 2 : Desain Sistem Dalam tahap desain sistem dilakukan beberapa kegiatan, antara lain : desain aplikasi, desain user interface (antar muka) dari aplikasi tersebut, serta desain insfrastruktur dan arsitektur teknologi yang digunakan. Tahap 3 : Pra Implementasi Sistem Tahapan ini merupakan tahapan kegiatan programming, uji coba teknis dan perbaikan sistem visualisasi pelafalan Bahasa Indonesia yang ditekankan pada kualitas kemudahan penggunaan bagi pengguna (user). 36
BAB V HASIL YANG DICAPAI 5.1 Pembuatan Database Visual Speech Pada tahap ini, kami melakukan pembuatan database sebagai bahan dasar yang akan diolah dalam penelitian ini. Ada 2 (dua) jenis database yang kami buat, yaitu 1. Database visual speech yang diperoleh melalui proses perekaman dalam bentuk video untuk adegan orang yang sedang mengucapkan kalimat-kalimat berbahasa Indonesia. Database visual speech ini digunakan untuk membangun viseme-viseme statis Bahasa Indonesia yang berbasis 2D. 2. Database motion capture wajah yang diperoleh melalui proses perekaman menggunakan teknologi motion capture untuk menangkap gerakan wajah dan mulut aktor yang sedang beradegan mengucapkan kalimat-kalimat berbahasa Indonesia. Database motion capture wajah ini digunakan untuk membangun viseme-viseme dianmis Bahasa Indonesia yang berbasis 3D.
Jumlah kalimat yang digunakan dalam proses perekaman di atas adalah 250 kalimat berbahasa Indonesia. Kalimat-kalimat tersebut sudah mencakup seluruh fonem-fonem dan jenis suku kata Bahasa Indonesia. Viseme dinamis merupakan viseme yang dipengaruhi oleh koartikulasi yang mengikuti artikulasi, intonasi suara, dan lain-lain. Pembangunan viseme dinamis ini ditujukan untuk menghasilkan animasi visual speech yang lebih halus dibandingkan animasi visual speech yang dihasilkan dari viseme statis [30].
5.1.1 Proses Perekaman Video Lokasi perekaman video ini adalah laboratorium Audiovisual Program Studi Desain Komunikasi Visual dan Program Studi Penyiaraan Fakultas Ilmu Komputer Universitas Dian Nuswantoro, yang bertempat Gedung B Lantai 5. Untuk proses perekaman ini, kami menggunakan peralatan-peralatan Audiovisual yang sudah tersedia di laboratorium dan peralatan unit kamera video yang kami dapatkan dengan cara menyewa.
37
Gambar 5.1. Laboratorium Audiovisual
Untuk membantu proses perekaman video, kami membentuk tim yang beranggotakan mahasiswa-mahasiswa Program Studi Desain Komunikasi Visual dan Program Studi Penyiaran yang terdiri dari kamerawan, model / aktor, pengedit video, lighting dan lain-lain. Tim yang kami bentuk ini bertugas untuk melakukan proses prekaman dan pengeditan sampai dengan video visual speech yang berkualitas dapat dihasilkan.
Gambar 5.2. Tim Perekaman Video
Dari proses perekaman video yang telah dilakukan, dihasilkan video visual speech yang berisikan adegan orang yang sedangkan mengucapkan kalimat berbahasa Indonesia dihasilkan dengan durasi 8 Menit seperti yang terlihat pada Gambar 5.3. 38
Gambar 5.3. Video Visual Speech Yang kami fokuskan adalah gerakan wajah dan mulut saat pengucapan kalimatkalimat tersebut, karena fitur-fitur yang dibutuhkan dalam penelitian selanjutnya adalah hanya fitur-fitur mulut. Oleh karena itu, pada proses berikutnya hanya fitur mulut yang akan difokuskan dalam penelitian ini, sehingga image-image hasil dari proses ekstraksi dilakukan cropping hanya pada bagian mulut.
5.2 Pembentukan Model Viseme Statis Bahasa Indonesia Setelah database visual speech diperoleh, maka kami melakukan pengolahan database tersebut untuk pembentukan model-model viseme dinamis Bahasa Indonesia. Beberapa tahapan yang dilakukan adalah sebagai berikut :
5.2.1 Proses Ekstraksi Fitur Mulut Video visual speech yang sudah dihasilkan selanjutnya di ekstraksi menjadi frame-frame berupa image 2D yang berjumlah lebih dari 10.000 frame hasil dari proses ekstraksi ini. Setiap frame dilakukan cropping hanya pada bagian mulut saja, karena ini merupakan fitur yang akan digunakan dalam proses selanjutnya. Frameframe setelah proses cropping dapat dilihat pada Gambar 5.4.
39
Gambar 5.4. Frame-frame hasil proses ekstraksi setelah dilakukan cropping
Dari seluruh frame-frame yang dihasilkan, kami memilih frame-frame yang representatif terhadap pengucapan fonem-fonem tertentu dan jumlah yang dihasilkan dari proses pemilihan ini adalah 1200 frame. Masing-masing frame kemudian diberi nama file (label) yang urut untuk memudahkan ekstraksi fitur ke data-data pixel dengan menggunakan aplikasi di matlab. Gambar 5.5 merupakan program yang kami buat dengan matlab untuk melakukan ekstraksi fitur dari image 2D ke data-data pixel. % Ekstraksi fitur clear all;clc;close all; %--- Load File TrainDatabasePath='D:\Researh \MATLAB\data_train'; ssize=150; %smaller size of image lsize=350; %larger size of image tp='.jpg'; %setting type of input image break; %--- File management TestFilesT=dir(TestDatabasePath); % berawal dr direktori itu TestNumberT=0; for i=1:size(TestFilesT,1) %if not(strcmp(TestFilesT(i).name,'.')|strcmp(TestFilesT(i).name,'..')|strcmp(TestFilesT(i).name,'Thumbs.db')) TestNumberT=TestNumberT + 1; % Number of all images in the training database %end end TrainFiles = dir(TrainDatabasePath); Train_Number = 0; for i = 1:size(TrainFiles,1) %if not(strcmp(TrainFiles(i).name,'.')|strcmp(TrainFiles(i).name,'..')|strcmp(TrainFiles(i).name,'Thumbs.db')) Train_Number = Train_Number + 1; % Number of all images in the training database %end end %--- Convert 2D into 1D (sample as row) % [T] = CreateDatabase(TrainDatabasePath,Train_Number); T=[];
40
for i = 1 : Train_Number str = int2str(i); str = strcat('\',str,tp); str = strcat(TrainDatabasePath,str); [img,map,alpha] = imread(str); %--- resizing [rows cols] = size(img); if rows >= cols img = imresize(img, [lsize, ssize], 'bilinear'); else img = imresize(img, [ssize, lsize], 'bilinear'); end %--- convert to grayscale if size(alpha,1)~=0; img = rgb2gray(img); end %--- reshape temp = reshape(img,lsize*ssize,1); %--- collect into matrix T = [T temp]; % 'T' grows after each turn %--- counting i end
clear img; clear temp; clear str; TTest=[]; for j=1:TestNumberT TestImage = strcat(TestDatabasePath,'\',int2str(j),tp); %--- Read Test Image [im,map,alpha] = imread(TestImage); %--- resizing [rows cols] = size(im); if rows >= cols im = imresize(im, [lsize, ssize], 'bilinear'); else im = imresize(im, [ssize, lsize], 'bilinear'); end %--- grayscaling if size(alpha,1)~=0; im = rgb2gray(im); end %--- Change Dimension/reshape im = reshape(im,lsize*ssize,1); %--- collect into matrix TTest=[TTest im]; %--- counting j end save xTrain.mat T; % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%
Gambar 5.5 Program matlab untuk Ekstraksi Fitur
41
Secara garis besar, deskripsi dari program di atas adalah : Beberapa langkah adalah mengubah format warna citra, cropping dan mengubah ukuran seluruh data image agar mempunyai ukuran yang sama. Proses mengubah format warna citra merupakan proses konversi warna pada citra RGB menjadi citra grayscale (keabuan). Image grayscale lebih mudah untuk diproses karena mengandung warna yang lebih sedikit yaitu 8 bit warna daripada citra RGB dengan 24 bit warna. Tahap ini selanjutnya adalah reduksi dimensi yaitu mengubah dimensi citra 2D menjadi citra 1D yang bertujuan untuk memperkecil ukuran citra yang diolah sehingga mempercepat proses selanjutnya. Hasil reduksi ini adalah matriks kolom yang selanjutnya digabungkan ke dalam matriks T seperti yang terlihat di Gambar 5.6.
Gambar 5.6. Isi Matriks T Dari matriks T langkah selanjutnya adalah reduksi dimensi dengan menggunakan metode Subspace LDA (Linear Discriminant Analysis). Proses reduksi dimensi dilakukan karena dimensi data yang ada di matriks T merupakan data yang berdimensi tinggi, sehingga perlu dilakukan reduksi menjadi data dengan dimensi rendah.
5.2.2 Reduksi Dimensi Metode yang yang digunakan untuk melakukan reduksi dimensi adalah Metode Subspace LDA yang merupakan kombinasi dari dua metode, yaitu metode PCA (Principle Component Analysis) dan LDA (Linear Discriminant Analysis). 42
Metode Principal Component Analysis (PCA) merupakan metode ekstraksi fitur secara statistik. Metode PCA bertujuan untuk mereduksi dimensi dengan melakukan transformasi linier dari suatu ruang berdimensi tinggi ke dalam ruang berdimensi rendah[5]. Metode ini juga bertujuan untuk memproyeksikan data pada arah yang memiliki variasi terbesar, yang ditunjukkan oleh vektor eigen yang bersesuaian dengan nilai eigen terbesar dari matrik kovarian[26]. Kelemahan dari metode PCA adalah kurang optimal dalam pemisahan antar kelas. Metode Linear Discriminant Analysis bertujuan menemukan suatu proyeksi optimal sehingga dapat memproyeksikan data input pada ruang dengan dimensi yang lebih kecil dimana semua pola (pattern) dapat dipisahkan semaksimal mungkin. Untuk tujuan pemisahan tersebut, LDA akan memaksimalkan penyebaran data-data input diantara kelas-kelas yang berbeda dan meminimalkan penyebaran input pada kelas yang sama. Perbedaan antar kelas direpresentasikan oleh matriks Sb (scatter between class) dan perbedaan dalam kelas direpresentasikan oleh matriks Sw (scatter within class). Algoritma metode PCA dan LDA adalah sebagai berikut : Apabila terdapat himpunan sebanyak M data citra dari basis data citra bentuk bibir (Aj), dimana Aj = [A1,A2,..,AM], (j = 1, 2, ..., M) dengan dimensi citra baris x kolom pixels yang diproyeksikan ke dalam matrik dua dimensi (T) adalah :
(1)
Dimana x adalah nilai tiap pixels matrik citra Aj. Untuk menghitung rata-rata baris dari matrik T digunakan persamaan : (2) Dimana Mi adalah jumlah data baris ke i dan Xjm adalah data-data pada baris ke i . Langkah berikutnya adalah menghitung matrik ATrain yang berisi nilai selisih dari data citra T dengan nilai rata-rata baris : (3) Dimana adalah nilai rata-rata baris . Selanjutnya menghitung nilai matrik kovarian ST (total matrik Scatter ST) yang didefinisikan dengan menggunakan persamaan : (4) Dari matrik kovarian ST, dihitung eigenvalue(D) dan eigenvektor(V). Eigenvalue merupakan nilai karakteristik dari suatu matrik bujursangkar, sedangkan eigenvector merupakan nilai yang
43
diambil berdasarkan nilai eigen yang lebih besar dari 0. Dalam penelitian ini, nilai eigenvalue (D) dan eigenvector (V) dicari menggunakan fungsi Matlab. Setelah nilai eigenvector (V) diperoleh, langkah selanjutnya adalah menghitung nilai eigenfaces yang merupakan ciri data citra. Persamaan yang digunakan untuk menghitung nilai eigenfaces adalah : Eigenfaces = ATrain x V
(5)
Setelah nilai eigenfaces diperoleh, Tugas PCA selanjutnya adalah mereduksi ciri yang masih terdapat pada data citra. Hasil dari reduksi adalah pengurangan dimensi data. Jadi, dimensi data yang memiliki ciri yang tidak penting akan dihilangkan dan tidak akan digunakan untuk proses selanjutnya. Berikut ini adalah persamaan yang digunakan untuk menghitung matriks proyeksi PCA. PCA_Train = Eigenfaces’ x T
(6)
Matriks proyeksi PCA_Train merupakan hasil proses PCA yang selanjutnya digunakan untuk proyeksi LDA. Data sets PCA_train yang diperoleh dari proses PCA akan digunakan untuk proses proyeksi LDA. Matrik scatter dalam kelas (SW), dan matrik scatter antar kelas (SB) didefinisikan sebagai berikut : (7) (8) Dimana c adalah jumlah kelas dan Ni adalah jumlah data pada kelas Ai. Sedangkan nilai rata-rata per kelas dan adalah PCA_train yang diambil per kelas.
adalah
Sedangkan implementasi algoritma di atas ke dalam pemrograman matlab adalah sebagai berikut : %PCA Algorithm clear all; clc; close all; %--- Load File % one column in matrix is one data % each row is represent the feature of data load 'xTrain.mat'; %--- file location TrainDb='D:\Researh\MATLAB\pca code\data_train\'; %Identification m1 = mean(T,2); % create the mean of data in column form P = size(T,2); %P is identification of total train data /database PTest=size(TTest,2); %PTest is identification of total test data pop=15; %pop is identification of population train data in one class pop2=8; %pop2 is identification of population test data in one class class=P/pop; %nuber of class in database dmn=size(T,1); %dmn is dimention or number of featur redPCA=50; %dmn is dimention or number of featur that will be used (after dimensional reduction using PCA) % redLDA=class; %--- Centered Image T=double(T);
44
ATrain = T - repmat(m1,1,P); %--- Scatter Matrix % ST = cov(T'); ST=ATrain*ATrain'; % --- Eigenvalue and eigenface calculation //svd(ATrain,'econ');//pcacov(ST); [V D]=eig(ST); [A B]=sort(diag(D),'descend'); %sorting eign V=V(:,B); %sorting eign Eigenfaces =V(:,1:redPCA); %select features %extraction train data by projection %--- Image Projection ProjectedTrain = Eigenfaces' * T; % labeling train data group=[]; for i=1:class g=[]; for j=1:pop g=[g i]; end group=[group g]; end
% Test data process x=[]; TTest=double(TTest); % extracting test data feature ProjectedTest = Eigenfaces'*TTest; % Test image feature vector k=1; acc=0;accE=0; min_E=[]; min_E2=[];
save PTrainPCA.mat ProjectedTrain;
Gambar 5.7. Program matlab untuk ekstraksi fitur dan Reduksi dengan PCA
Hasil matriks ProjectedTrain setelah reduksi dimensi dengan metode PCA seperti yang terlihat Gambar 5.8.
Gambar 5.8. Isi matriks ProjectedTrain setelah reduksi dimensi dengan PCA
45
Implementasi metode LDA dalam pemrograman matlab seperti yang terlihat pada Gambar 5.9. %LDA Algorithm clear all; clc; close all; %--- Load File load 'PTrainPCA.mat'; %--- manage file TrainDb='D:\Researh\MATLAB\pca code\data_train\'; %Identification m1 = mean(ProjectedTrain,2); % Computing the average face image m = (1/P)*sum(Tj's) (j = 1 : P) P = size(ProjectedTrain,2); %P: total image PTest=size(ProjectedTest,2); pop=15; pop2=8; class=P/pop; dmn=size(ProjectedTrain,1); redPCA=50; redLDA=10; %--- Centered Image T=double(ProjectedTrain); ATrain = T - repmat(m1,1,P); %--- Scatter Matrix ST =(ATrain*ATrain'); %--- Eigen [VP DP]=eig(ST); [AP BP]=sort(diag(DP),'descend'); VP3=VP(:,BP); Eigenfaces=VP3(:,1:redPCA);%V; %--- Image Projection ProjectedTrain = Eigenfaces' * T; %=E'*A(:,1) loop from 1-P PTrain= ProjectedTrain; m2=mean(PTrain,2);% mean all clear ProjectedTrain clear T %--- LDA %--- Scatter Matrix % dmn=size(PTrain,1); PTrain2=[]; mc2=[]; PTrain2x=[];mc2x=[]; for i=1 : class j=(i-1)*pop+1; %first pop in class i k=i*pop; %last pop in class i mc=mean(PTrain(:,j:k),2); %mean class mc2=[mc2 mc]; PTrain1=PTrain(:,j:k)-repmat(mc,1,pop); PTrain2=[PTrain2 PTrain1]; end SW=PTrain2*PTrain2'; SB1=mc2-repmat(m2,1,class); SB=SB1*SB1'; %--- Eigen [V D] = eig(SB,SW);
46
[A B]=sort(diag(D),'descend'); V2=V(:,B); EigenfacesL=V2(:,1:redLDA);%51=73.82 %EigenfacesL = V2./repmat(sum(V2.^2).^0.5,dmn,1); % normalize %--- Image Projection ProjectedTrain = EigenfacesL' * PTrain; %=E'*A(:,1) loop from 1-P %labeling training group=[]; for i=1:class g=[]; for j=1:pop g=[g i]; end group=[group g]; end TTest=double(ProjectedTest); ProjectedTest = EigenfacesL'*(Eigenfaces'*TTest); % Test image feature vector k=1; accE=0; min_E2=[];
Gambar 5.9. Program matlab untuk ekstraksi fitur dan Reduksi dengan LDA Hasil matriks ProjectedTrain setelah reduksi dimensi dengan metode PCA seperti yang terlihat Gambar 5.10.
Gambar 5.10. Isi matriks ProjectedTrain setelah reduksi dimensi dengan LDA
5.2.3 Proses Klasterisasi Matriks ProjectedTrain yang telah diperoleh dari reduksi dimensi dengan metode LDA digunakan sebagai data untuk proses klasterisasi. Metode klasterisasi yang digunakan dalam penelitian ini adalah metode klasterisasi dengan K-Means. Algoritma K-Means merupakan algoritma untuk cluster n data berdasarkan atribut tertentu menjadi k partisi, dimana k < n [27]. Langkah-langkah dalam algoritma KMeans clustering dapat dijelaskan sebagai berikut : a. Menentukan jumlah cluster b. Menentukan nilai centroid
47
Pada awal iterasi, nilai-nilai centroid ditentukan secara acak. Dan tahap iterasi berikutnya, nilai centroid ditentukan dengan mengitung nilai rata-rata tiap cluster dengan rumus :
(9)
Dimana
adalah centroid cluster ke-i untuk variabel ke-j.
dalam cluster ke-i, sedangkan
adalah jumlah data
adalah data ke-k untuk variabel ke-j.
c. Menghitung jarak antara centroid dengan tiap data. Untuk menghitung jarak tersebut digunakan Euclidean Distance, yaitu :
(10)
Dimana
adalah Euclidean Distance dan i adalah banyaknya data, sedangkan
(x,y) merupakan koordinat data dan (s,t) merupakan koordinat centroid. d. Mengelompokan data berdasarkan Euclidean Distance yang paling minimum. e. Kembali ke tahap b, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota klaster tidak berpindah ke klaster yang lain.
Setiap klaster beranggotakan data-data yang lebih mirip satu sama lain dalam klaster itu dibanding dengan data-data dari anggota klaster yang lain. Salah satu cara agar klaster terdefinisi dengan baik, maka perlu menggunakan fungsi kriteria yang mengukur kualitas clustering yang dibuat. Salah satu cara yang paling sering digunakan adalah jumlah dari kesalahan kuadrat (Sum of Squared Error, SSE). Semakin kecil nilai SSE menunjukan kualitas clustering semakin baik[28].
(11)
Dimana k adalah jumlah klaster, p adalah titik data anggota masing-masing klaster dan
adalah jarak masing-masing titik data p ke centroid m untuk klaster ke i.
Kualitas Klaster juga dapat dilihat dari perbandingan variasi data antar klaster (between-class variation, BCV) dengan variasi data dalam klaster (within-class variation, WCV). BCV merupakan rata-rata jarak antar centroid dan WCV merupakan 48
Sum of Square Error[13]. Semakin besar nilai perbandingan menunjukan kualitas clustering semakin baik. Perbandingan antara BCV dengan WCV dirumuskan sebagai berikut [31].
(12) Dimana
adalah rata-rata jarak antar centroid.
5.2.4 Hasil Eksperimen Gambar.5.11 memperlihatkan penyajian ruang 2 dimensi hasil clustering dengan nilai k=6 untuk data sets proyeksi PCA dan proyeksi Subspace LDA. Dari gambar tersebut terlihat bahwa grafik scatter proyeksi PCA terlihat menyebar dengan skala nilai fitur yang masih sangat besar dibandingkan dengan proyeksi Subspace LDA. Hasil proyeksi PCA belum tentu baik untuk diskriminan antar kelas. Sedangkan fitur yang lebih diskriminatif diperoleh dengan menggunakan proyeksi Subspace LDA dengan menghitung matriks within class (Sw) dan matriks between class (SB). Matriks Sw diperoleh dengan cara mengurangkan data-data tiap baris dalam satu kelas dengan nilai rata-rata tiap baris kelas tersebut. Sedangkan matriks SB diperoleh dengan cara mengurangkan nilai data tiap baris dengan nilai rata-rata tiap baris seluruh data.
Gambar 5.11. Hasil proses klasterisasi untuk matriks ProjectedTrain hasil dari reduksi dimensi dengan metode PCA (kiri) dan metode Subspace LDA (kanan) Berdasarkan hasil klasterisasi di atas bahwa proyeksi PCA masih mempunyai dimensi data yang cukup tinggi dibandingkan dengan hasil klasterisasi dengan 49
Subspace LDA. Di dalam metode Subspace LDA terdapat perhitungan untuk diskriminan antar kelas, sehingga hasil klasterisasi lebih baik. Oleh karena itu, di dalam penelitian ini perhitungan selanjutnya dalam penelitian ini hanya didasarkan pada hasil proyeksi Subspace LDA saja. Dalam penelitian ini, proses klasterisasi dilakukan berulang-ulang dengan memasukan nilai k yang berbeda-beda sehingga diperoleh kualitas klaster yang terbaik berdasarkan perhitungan SSE dan ratio antara BCV dan WCV. Hasil eksperimen tersebut tersaji dalam Tabel 5.1.
Tabel 5.1. Hasil Perhtungan SSE dan rasio BCV dan WCV K value
k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13
Mean of Centroid Distance (BCV) 0.88 0.95 0.88 0.83 0.79 0.77 0.75 0.75 0.70
SSE (WCV) 66.58 54.37 50.28 47.86 42.38 46.87 43.59 42.81 42.73
BCV WCV 0.0132 0.0175 0.0176 0.0174 0.0187 0.0165 0.0171 0.0175 0.0162
Dari Tabel 5.1 dapat dilihat bahwa kualitas klaster terbaik terjadi pada k=9 dengan nilai SSE paling kecil dan nilai rasio perbandingan BCV dan WCV paling besar. Ini menunjukan bahwa proses klasterisasi yang akan digunakan sebagai dasar untuk pembentukan kelas-kelas viseme adalah klasterisasi pada k=9 seperti Gambar 5.12.
Gambar 5.12. Hasil proses klasterisasi pada k=9 50
5.2.5 Pemetaan Hasil Klasterisasi ke Kelas-Kelas Viseme Berdasarkan hasil klasterisasi pada k=9, maka klaster-klaster yang terbentuk digunakan sebagai dasar untuk pemetaan ke kelas-kelas viseme statis Bahasa Indoensia. Struktur kelas viseme Bahasa Indonesia yang dibentuk merupakan kelaskelas viseme hasil pemetaan dari proses klasterisasi dan ditambah 1 kelas viseme ‘silence’ yang tidak termasuk dalam proses klasterisasi. Struktur Kelas Viseme Statis Bahasa Indonesia yang terbentuk terlihat seperti di Tabel 5.2 dan visualisasi kelaskelas viseme terlihat seperti di Gambar 5.13. Tabel 5.2. Struktur Kelas Viseme Statis Bahasa Indonesia
silence
/a/
/b/
/d/
/u/
/k/
/c/
/E/
/f/
/ng/
Gambar 5.13. Visualisasi Kelas Viseme Statis Bahasa Indonesia
51
5.3 Desain Sistem Visualisasi Pelafalan Bahasa Indonesia Berbasis Animasi 2D Langkah selanutnya setelah model-model viseme statis Bahasa Indonesia terbentuk adalah Desain Sistem Visualisasi Pelafalan Bahasa Indonesia yang berbasis animasi 2D. Beberapa langkah desain sistem yang dilakukan adalah sebagai berikut : 5.3.1 Desain Karakter Animasi Wajah Karakter animasi wajah yang akan digunakan dalam sistem ini, didesain dengan menyesuaikan karakter orang Indonesia. Rambut, bentuk wajah, warna kulit dan lainlain disesuaikan dengan karakter Indonesia. Sehingga karakter animasi wajah yang berhasil didesain seperti yang terlihat pada Gambar 5.14. Berdasarkan karakter animasi wajah yang telah dihasilkan, maka implementasi ke dalam kelas-kelas viseme seperti yang terlihat di Tabel 5.3.
Gambar 5.14. Karakter Animasi Wajah
Tabel 5.3 Implementasi Masing-masing Kelas Viseme Statis No
Gambar (jpg)
1.
Ukuran (MB) 1.79
a
a, h
2.
1.79
b
p, b, m
52
Viseme
Kelompok Viseme
3.
1.79
c
c, j, s, I, z, sy, ny
4.
1.79
d
d, t, n, l, r
5.
1.79
E
E, y, oi, ai
6.
1.79
f
f, v
7.
1.79
k
k, g, kh
8.
1.79
ng
ng, e
9.
1.79
u
o, au, u, w
53
5.3.2 Desain Antarmuka Sistem Sebuah sistem / aplikasi akan lebih menarik dan mudah digunakan apabila terdapat antarmuka pengguna atau user interface, demikian pula untuk perancangan perangkat lunak pada penelitian ini dibuat user interface sehingga memudahkan pengguna dalam mengoperasikan perangkat tersebut. Melalui tombol-tombol untuk memberikan perintah tertentu dan ikon sehingga lebih mudah mengetahui fungsi gambar tersebut untuk apa. Berikut akan diberikan gambar dan penjelaskan bagianbagian dari rancangan antarmuka Sistem Visualisasi Pelafalan Bahasa Indonesia. Sistem Visualisasi Pelafalan Bahasa Indonesia
Gambar 5.15. Desain Antarmuka Sistem Keterangan : a.File File merupakan menu dropdown, pada saat menu file ini di klik akan muncul 4 menu lagi yaitu Open, Save, Save As, dan Exit seperti pada gambar berikut:
Gambar 5.16. Menu File 54
Dengan menekan menu Open… atau Ctrl+O pada keyboard akan muncul tampilan direktori dimana berkas bisa kita dapatkan. Karena pada penelitian ini menggunakan berkas suara sebagai masukan, maka kita cari dan pilih berkas dengan ekstensi .wav. Menu Save atau Ctrl+S digunakan untuk menyimpan berkas yang sebelumnya telah disimpan. Apabila kita membuka berkas yang telah disimpan sebelumnya kemudian melakukan perubahan seperti menambahkan atau mengurangi teks, maka dengan menekan tombol save atau Ctrl+S berkas akan tersimpan tanpa mengubah nama berkas. Menu Save AS… digunakan untuk menyimpan berkas yang sudah pernah dibuat maupun berkas baru dengan memberikan nama baru pada berkas tersebut. Sebagai contoh, kondisi pertama adalah apabila kita ingin menyimpan isi data yang sama namun dengan nama dan direktori yang berbeda. Kondisi kedua apabila kita ingin mengubah isi data dan menyimpannya dengan nama dan direktori yang berbeda. Menu Exit digunakan untuk keluar dari tampilan utama atau menutup sistem apabila telah selesai digunakkan. b.Open Open pada toolbar ini berfungsi membuka berkas pada direktori komputer, fungsinya sama dengan Open… pada menu file, namun mempunyai kemudahan dengan adanya gambar berkas
dan letaknya yang berada pada menu toolbar.
c.Save Save pada toolbar ini berfungsi menyimpan berkas pada direktori komputer, fungsinya sama dengan Save pada menu file, namun mempunyai kemudahan dengan adanya gambar disket
dan letaknya yang berada pada menu toolbar.
d.Play Play umumnya digunakan untuk memainkan atau memutar suatu data. Digambarkan dengan bentuk segitiga yang menghadap kearah kanan
. Fungsi play
pada sistem digunakan untuk menjalankan berkas audio yang diambil dari direktori komputer.
55
e.Stop Stop atau berhenti umumnya digunakan untuk menghentikan proses yang sedang berjalan dan digambarkan dengan bentuk persegi
. Fungsi Stop pada sistem
digunakan untuk menghentikan berkas audio yang sedang berjalan. f.Zoom_in Zoom_in berfungsi untuk memperlebar tampilan frame dari waveform sehingga dapat dilihat lebih besar pada tiap frame. Lambang Zoom_in dalam perangkat lunak ini digambarkan kaca pembesar dengan tanda plus (+) ditengahnya
.
g.Zoom_out Zoom_out merupakan kebalikan dari Zoom_in yang berfungsi untuk mengecilkan tampilan frame dari waveform sehingga apabila frame terlalu besar dapat dikecilkan dengan Zoom_out. Lambang Zoom_out dalam perangkat lunak ini digambarkan kaca pembesar dengan tanda minus (-) ditengahnya
.
h.Reset_zoom Reset_zoom merupakan berfungsi untuk mengatur ulang atau reset ukuran waveform ke bentuk awal apabila terlalu besar maupun terlalu kecil. Lambang Reset_zoom dalam perangkat lunak ini digambarkan kaca pembesar dengan tanda 1:1 ditengahnya
.
i.Waveform Waveform adalah gelombang yang pada umumnya berbentuk seperti gelombang air laut. Namun waveform disini yang dimaksud adalah gelombang suara dengan menggambarkan tinggi rendahnya suara yang didengar. Waveform pada Gambar 5.17 menunjukkan panjang gelombang yang terdiri dari 60 frame.
Gambar 5.17. Waveform j.Voicetext Voicetext merupakan tempat untuk memasukkan data berupa teks dengan mengetikkan huruf pada keyboard komputer sesuai dengan suara yang akan
56
digunakkan. Masukan bisa berupa huruf, angka, maupun simbol seperti .,!?;-/()". Namun jika masukan berupa simbol akan diabaikan penulisannya atau dihilangkan, sedangkan untuk angka masih dapat dibaca saat menambahkan viseme. k.Mouthview Mouthview adalah bagian dimana gambar viseme ditampilkan. Fungsinya yaitu menampilkan gambar viseme yang akan bergerak ketika data suara dan teks telah dimasukkan dengan menekan tombol play. l.Viseme Indonesia Viseme Indonesia merupakan menu untuk memilih viseme dalam bahasa Indonesia dan dihubungkan dengan phoneme_set yang berisi kumpulan viseme dalam bahasa Indonesia. m.Tambah Tombol Tambah berfungsi untuk menambahkan viseme dalam bahasa Indonesia. Penambahan viseme ditentukan dari kata yang mengacu pada isi voicetext dimana viseme disusun berdasarkan fonem. n.Fps Fps atau Frame Per Second atau bingkai per detik, merupakan penggambaran dari jumlah bingkai gambar yang akan ditampilkan setiap detiknya. Fps pada umumnya digunakan dalam pembuatan animasi dengan gambar setiap bingkai yang berbeda dan disejajarkan sehingga akan terlihat bergerak. Disini, bingkai diatur dengan standar 24fps dengan artian setiap satu detik dibutuhkan 24 gambar pada setiap bingkai. o.Status Status berfungsi sebagai sarana untuk mengetahui apa yang sedang terjadi pada sistem. Sebagai contoh, apabila kita mengarahkan kursor komputer pada toolbar Open maka akan muncul status tulisan “Open a sound file or Ttavi project” pada bagian kiri bawah tampilan. Pada status bagian kanan bawah tampilan akan menunjukkan proses “Stopped” apabila perangkat lunak berhenti dan menampilkan pergerakan frame apabila tombol play ditekan.
Gambar 5.18. Status
57
5.4 Layout Sistem Yang Dihasilkan Berdasarkan desain di atas, Layout sistem visualisasi pelafalan Bahasa Indonesia adalah sebagai berikut :
Gambar 5.19. Layout Sistem
Secara umum sistem visualisasi pelafalan Bahasa Indonesia sudah selesai. Tetapi ada beberapa hal yang masih ingin disempurnakan, misalnya transisi antara satu fonem dengan fonem berikutnya yang beluim terlihat halus (smooth). Kami juga membangun sistem visualisasi pelafalan bahasa Indonesia dengan animasi 2D lain, seperti yang terlihat pada gambar 5.20. Sistem ini dapat digunakan sebagai alternatif terhadap sistem yang sudah ada, dan berdasarkan hasil pengujian sistem alternatif ini lebih smooth dan realistis dibandingkan dengan sistem yang sudah ada.
58
Gambar 5.20. Layout Sistem Alternatif
5.5 Pembuatan Database Motion Capture Wajah Facial motion capture database merupakan database yang berisi data-data gerakan bentuk wajah terutama mulut dari seorang aktor yang telah dipasang beberapa marker dan ditangkap menggunakan teknologi motion capture. Sedangkan aksi yang dilakukan seorang aktor adalah mengucapkan kalimat-kalimat berbahasa Indonesia sejumlah 250 kalimat. Database yang dibentuk berikutnya adalah database visual speech yang direkam dengan menggunakan teknologi motion capture [32] yang kami namakan dengan database motion capture wajah. Database ini digunakan untuk menghasilkan sistem visualisasi pelafalan yang berbasis animasi 3D. Hal ini dilakukan, agar sistem visualisasi yang dihasilkan lebih natural dan realistik dalam memvisualisasi gerakan mulut. Pembentukan database motion capture wajah dilakukan di Laboratorium HCS (Human Centric System) Program Studi Teknik Multimedia Jaringan Jurusan Teknik Elektro ITS Surabaya. Tempat ini dipilih karena tidak banyak perguruan tinggi ataupun industri yang sudah memiliki peralatan teknologi motion capture. Kami sudah mendalami teknologi motion capture ini lebih dari enam bulan. Didalam laboratorium ini, kami belajar banyak hal antara lain : cara melakukan instalasi hardware maupun software motion capture, proses pengambilan data, dan proses pengolahan data motion capture.
59
Gambar 5.21. Laboratorium Motion Capture
5.5.1 Pengambilan Data Motion Capture Wajah Salah satu peralatan yang diperlukan dalam proses perekaman ini adalah OptiTrack Camera tipe VR100:R2 yang berjumlah 6 buah. Formasi kamera disusun menyerupai busur lingkaran dengan kisaran sudut 120ᴼ. Masing-masing kamera dipasang secara orientasi dan landscape. Tiga kamera disusun diatas kepala dan tiga kamera disusun setinggi dada. Jarak kamera dengan model sepanjang 60 cm, seperti ilustrasi pada gambar 5.22.
Gambar 5.22. Formasi OptiTrack Camera 60
Selain peralatan di atas, kami juga menggunakan WebCam untuk merekam data suara dan video. Data suara direkam ke dalam file dengan format .wav dan kami juga menggunakan perangkat lunak Audacity untuk melakukan peng-editan. Setelah peralatan mocap selesai dilakukan, langkah selanjutnya adalah mempersiapkan OptiTrack ARENA motion capture Software agar dapat digunakan untuk merekam data. Ada beberapa langkah yang dilakukan adalah sinkronisasi dan kalibrasi OptiTrack Camera serta pembentukan face template. Proses sinkronisasi ini bertujuan untuk mengatur fokus 6 buah OptiTrack Camera pada titik fokus yang sama. Sedangkan, proses kalibrasi bertujuan untuk mengatur kualitas dan jangkauan area tangkap OptiTrack Camera. Langkah selanjutnya adalah pembentukan face template seperti yang terlihat pada Gambar 5.23(a) yang digunakan sebagai acuan terhadap marker-marker di wajah aktor saat perekaman data. Pengambilan data dilakukan pada gerakan wajah aktor. Dalam penelitian ini, kami memasang marker pada wajah aktor sebanyak 37 yang terdiri dari 33 marker yang diletakan di area wajah dan 4 marker diletakan diatas kepala. Jumlah dan formasi marker ini mengacu pada template yang telah disediakan oleh OptiTrack ARENA motion capture Software. Pemilihan ini juga diharapkan dapat menghasilkan gerakan wajah dan mulut yang lebih baik. Gambar 5.23 mengilustrasikan mengenai template, pemasangan marker di wajah aktor dan formasi marker hasil perekaman.
(a)
(b)
(c)
Gambar 5.23. Face Template (a), Pemasangan Marker di Wajah (b), Hasil Perekaman (c) Proses perekaman bertujuan untuk merekam letak marker yang terdapat pada wajah model. Proses ini dilakukan untuk menghasilkan tampilan facial capture seperti terlihat pada Gambar 5.23(c).
61
5.5.2 Data Koordinat 3D Mulut Kami menggunakan Motion Kinematic & Kinetic Analyzer (Mokka) software untuk mentransformasikan file format C3D menjadi the 3D coordinates data untuk tiap marker di area mulut. Dari proses ini diperoleh 18859 frame dan masing-masing frame berisi data koordinat 3D untuk masing-masing marker di area mulut, seperti yang ditunjukan di Gambar 5.24(c). Data koordinat yang telah diperoleh bersifat relatif terhadap gerakan kepala. Posisi koordinat 3D gerakan mulut akan berubahubah yang disebabkan gerakan kepala. Oleh karena itu, the mouth 3D coordinates data perlu dinormalisasi.
(a)
(b)
(c)
Gambar 5.24. Marker-marker di Kepala (a) dan di Mulut (b), Data Koordinat 3D Mulut (c)
5.6 Pembentukan Model-Model Viseme Dinamis Berdasarkan Database Motion Capture Pengolahan database motion capture wajah berbeda dengan pengolahan database visual speech terhadap image-image 2D seperti yang telah diuraikan di atas. Database visual speech 2D di arahkan untuk membentuk sistem visualisasi pelafalan bahasa Indonesia berbasis animasi 2D, sedangkan database motion capture wajah diarahkan untuk membentuk sistem visualisasi pelafalan bahasa Indonesia berbasis animasi 3D. Secara garis besar tahapan-tahapan yang dilakukan untuk pengolahan database motion capture wajah sampai dengan menghasilkan model-model viseme dinamis bahasa Indonesia terlihat seperti Gambar 5.25. Secara lebih rinsci, tahapantahapan tersebut dijelaskan pada pokok-pokok bahasan berikut.
62
Gambar 5.25.
Overview Pembentukan Model-Model Viseme Dinamis Bahasa Indonesia berdasarkan Database Motion Capture
5.6.1 Normalisasi Posisi 3D Sistem koordinat yang dihasilkan dari facial motion capture ini adalah sistem koordinat dunia yang bersifat relatif terhadap gerakan kepala. Hal ini berarti data-data koordinat tiap frame akan mudah berubah seiring dengan gerakan kepala. Oleh karena itu, diperlukan transformasi dari sistem koordinat dunia ke sistem koordinat lokal. Pada proses transformasi ini diperlukan sebuah bidang yang digunakan sebagai acuan terhadap data-data koordinat dari marker-marker yang lain. Bidang ini disusun dari titik-titik marker yang mempunyai sifat relatif tetap terhadap gerakan kepala. Kami memilih tiga titik marker, yaitu titik marker head_1, head_2 dan head_4 (see Fig. 3) yang masing-masing disebut sebagai p1, p2 dan p3 sehingga terbentuk sebuah bidang seperti terlihat pada Gambar 5.26. Sumbu Z tegak lurus terhadap bidang P1P2P3, maka : (13) (14) (15) Sehingga terbentuk matriks M :
(16)
(17)
63
Selanjutnya, sistem koordinat dari seluruh titik marker di area mulut dikalikan dengan dengan matriks Mi. Sistem koordinat yang dihasilkan ini yang digunakan pada tahap selanjutnya. Dari kumpulan fitur data tersebut akan terbentuk the mouth 3D coordinates data yang akan digunakan pada proses selanjutnya.
Gambar 5.26. Bentuk Bidang Untuk Acuan Sistem Koordinat
5.6.2 Segmentasi Data Motion Capture Wajah Dalam penelitian ini, kami melakukan segmentasi data motion capture berdasarkan pola suku kata ‘KV’ (konsonan-vokal). Pada setiap pengucapan suku kata tertentu, frame-frame ditandai sebagai awal pengucapan sampai dengan akhir pengucapan. Selanjutnya, data koordinat x,y,z masing-masing marker dari kumpulan frame ini dihitung nilai rata-ratanya. Nilai rata-rata yang dihasilkan selanjutnya digunakan sebagai data fitur dari tiap marker dari masing-masing suku kata.
5.6.3 Fitur Mulut Sebagai Fitur Tambahan Gambar 5.27 memperlihatkan fitur mulut yang digunakan untuk menghitung tinggi dan lebar mulut. Kami mendefinisikan 3 fitur mulut d1, d2 dan x. Dimana d1 adalah tinggi mulut pada bagian tengah mulut yang dihitung dari selisih titik marker LipUpper dan LipLower, d2 adalah tinggi mulut pada bagian tepi mulut yang dihitung dari selisih titik marker LipUpperBend dan LipLowerBend. Sedangkan x merepresentasikan setengah lebar mulut yang dihitung dari jarak titik marker RMouthCorner dan LmouthCorner dibagi dua. Sehingga fitur mulut tiap frame adalah .
Gambar 5.27. Fitur Mulut 64
Untuk merealisasikan konsep viseme dianmis, kami menghitung fitur mulut untuk frame-frame pada awal (Vt_begin) dan akhir (Vt_end) pengucapan suku kata. Akhirnya, fitur data yang digunakan dalam proses klasterisasi ini terdiri dari the mouth 3D coordinates data yang telah dinormalisasi ditambah dengan fitur mulut (Vt_begin , Vt_end).
5..6.4 Membangun Model Viseme Dinamis Bahasa Indonesia Dari fitur data yang telah terbentuk, dilakukan reduksi dimensi menggunakan metode Subspace LDA seperti yang dilakukan pada fitur data visual speech 2D. Fitur data hasil reduksi dimensi digunakan untuk proses klasterisasi. Kami menggunakan metode klasterisasi K-Means. Tahapan dan proses yang dilakukan sama seperti yang dilakukan pada fitur data visual speech 2D. Hasil proses klasterisasi digunakan sebagai dasar untuk pemetaan ke model-model viseme dinamis Bahasa Indonesia. Tabel 5.4 menunjukan Struktur Kelas Viseme Dinamis Bahasa Indonesia yang terbentuk berdasarkan hasil proses klasterisasi yang difokuskan untuk fitur-fitur data suku kata berpola ‘KV’ dan model-model viseme dinamis yang terbentuk adalah sebagai berikut : Tabel 5.4 Struktur Viseme Dinamis Bahasa Indonesia Dynamic Viseme Classes Class#0 Class#1 Class#2 Class#3 Class#4 Class#5 Class#6 Class#7 Class#8 Class#9 Class#10 Class#11 Class#12 Class#13 Class#14 Class#15 Class#16 Class#17 Class#18
Associated Syllables 'silence' 'ba', 'ma', 'pa' 'wa' 'be', 'me', 'pe' 'ya' 'de', 'le', 'ne', 're', 'te' 'gai', 'kai' 'bo', 'bu', 'mo', 'po', 'pu', 'mu' 'gi', 'ki', 'khi' 'fa', 'va' 'bi', 'pi', 'mi' 'ga', 'ka', 'kha' 'di', 'li', 'ni', 't', 'ri' 'ci', 'ji', 'nyi', 'si' 'dai', 'lai', 'rai', 'rE', 'tai' 'dE', 'nE', 'rE', 'tE' 'ngi' 'co', 'ju', 'sau', 'so', 'su' 'cu', 'jo', 'syu' 'ce', 'je', 'nye', 'se' 'ge', 'ke'
Dynamic Viseme 'ba' 'wa' 'be' 'ya' 'te' 'gai' 'mu' 'gi' 'fa' 'pi' 'ka' 'ti' 'si' 'nE' 'ngi' 'so' 'se' 'ge'
Dynamic Associated Viseme Classes Syllables Class#19 'da', 'la', 'na', 'ra', 'ta' Class#20 'bE', 'mai', 'mE', 'pE', 'pai' Class#21 'do', 'du', 'lo', 'lu', 'no', 'nu' 'to', 'lu', 'ro', 'ru' Class#22 'go', 'gu', 'ko', 'ku' Class#23 'ca', 'ja', 'nya', 'sa' Class#24 'ha' Class#25 'ho', 'hu' Class#26 'nga' Class#27 'fi', 'vi' Class#28 'fE', 'vE' Class#29 'wo', 'wu' Class#30 'hi' Class#31 'yo', 'yu' Class#32 'se', 'ye' Class#33 'ngu' Class#34 'sE', 'sai' Class#35 'we' Class#36 'nge' Class#37 'fo', 'fu', 'vu' Class#38 'wi'
65
Dynamic Viseme 'ta' 'pE' 'tu' 'gu' 'sa' 'ha' 'hu' 'nga' 'fi' 'vE' 'wo' 'hi' 'yu' 'ye' 'ngu' 'sai' 'we' 'nge' 'fo' 'wi'
Class#0 ‘silence’
Class#1 ‘b a’
Class#2 ‘w a’
Class#3 ‘b e’
Class#4 ‘y a’
Class#5 ‘t e’
Class#6 ‘g ai’
Class#7 ‘m u’
Class#8 ‘g i’
Class#9 ‘f a’
Class#10 ‘p i’
Class#11 ‘k a’
Class#12 ‘t i’
Class#13 ‘s i’
Class#14 ‘n E’
66
Class#15 ‘ng i’
Class#16 ‘s o’
Class#17 ‘s e’
Class#18 ‘g e’
Class#19 ‘t a’
Class#20 ‘p E’
Class#21 ‘t u’
Class#22 ‘g u’
Class#23 ‘s a’
Class#24 ‘h a’
Class#25 ‘h u’
Class#26 ‘ng a’
Class#27 ‘f i’
Class#28 ‘v E’
Class#29 ‘w o’
67
Class#30 ‘h i’
Class#31 ‘y u’
Class#32 ‘y e’
Class#33 ‘ng u’
Class#34 ‘s ai’
Class#35 ‘w e’
Class#36 ‘ng e’
Class#37 ‘f o’
Class#38 ‘w i’
Gambar 5.28. Model-Model Viseme Dinamis Bahasa Indonesia 5.7 Sistem Visualisasi Pelafalan Bahasa Indonesia Berbasis Web a. Halaman Depan Sistem
Gambar 5.29. Home Page Sistem Visualisasi Berbasis Web 68
b. Salah Halaman tentang BIPA
Gambar 5.30. Salah Satu Halaman Tentang BIPA
c. Halaman Sistem Visualisasi Pelafalan Bahasa Indonesia
Gambar 5.31. Salah Satu Halaman Tentang Sistem Visualisasi Pelafalan BI
Sistem visualisasi pelafalan bahasa Indonesia ini dikembangkan berbasis web. Sistem dapat dijalankan secara online melalui sebuah program browser yang telah dilengkapi dengan Flash player. Beberapa halaman dalam sistem berbasis web ini dapat dilihat seperti tampilan di atas. Kami telah menyewa domain dan hosting sistem ini untuk periode 1 tahun, yaitu mulai bulan Nopember 2015 sampai dengan bulan Nopember 2016.
69
5.8 Capaian Publikasi Publikasi-publikasi jurnal / prosiding untuk tingkat nasional maupun internatasional yang telah dicapai seperti yang terlihat di Tabel 5.5. Tabel 5.5. Publikasi Jurnal dan Prosiding Tingkat Nasional dan Internasional No
Judul
Publikasi
Keterangan
1
Animasi Berbicara Indonesia Berdasarkan Motion Capture Wajah
Bahasa Database
Seminar Nasional SENS-1 Univ. PGRI Semarang
telah diseminarkan pada tanggal 8 Agustus 2015 di UPGRIS Semarang
2
Segmentasi Motion Data untuk Model Viseme Dinamis Bahasa Indonesia
Seminar Nasional Aplikasi Teknologi Informasi SNATi 2015 Univ. Islam Indonesia Yogyakarta
telah diseminarkan pada tanggal 6 Juni 2015 di EastParc Hotel Yogyakarta
3
A Text-to-Audiovisual Synthesizer for Indonesian by Morphing Viseme
Jurnal Internasional Terindex Scopus Q3 : International Review on Computers and Software (IRECOS)
Jurnal telah di Submit
4
A Model of Indonesian Dynamic Visemes From Facial Motion Capture Database Using A Clustering-Based Approach
Rencana publikasi Jurnal insternasional terindex Scopus Q2 (IAENG International Journal of Computer Science
Draft sudah dalam bentuk bahasa Inggris dan sedang proses konsultasi dengan Promotor
Beberapa dokumen pendukung capaian publikasi di atas, adalah sebagai berikut :
Gambar 5.32. Bukti Submit pada International Journal IRECOS Terindex Scopus Q3 70
Gambar 5.33. Publikasi pada Seminar Nasional UPGRIS Semarang
Gambar 5.34. Publikasi pada Seminar Nasional SNATi UII Yogyakarta 71
Gambar 5.35. Draft Jurnal Internasional Sedang Proses Konsultasi Dengan Promotor
72
BAB VI RENCANA TAHAPAN BERIKUTNYA
6.1
Rencana dan Jadual Selanjutnya
1. Pengajuan HAKI sistem visualisasi pelafalan Bahasa Indonesia berbasis animasi 2D pada Web, untuk kegiatan tahun 2015. 2. Menyelesaikan dan Memasukan draft “A Model of Indonesian Dynamic Visemes From Facial Motion Capture Database Using A Clustering-Based Approach” ke International Journal yang terindex Scopus Q2 (IAENG International Journal of Computer Science), untuk kegiatan tahun 2015. 3. Menyelesaikan pembuatan sistem visualisasi pelafalan Bahasa Indonesia berbasis animasi 2D pada Mobile, untuk kegiatan tahun 2016. 4. Menyelesaikan pembuatan sistem visualisasi pelafalan Bahasa Indonesia berbasis animasi 3D pada Web dan Mobile, untuk kegiatan tahun 2016. 5. Menyiapkan dan membuat publikasi seminar / jurnal nasional / internasional untuk tahun 2016 :
a. Development of Visual Speech Synthesis based on Coarticulation to Support Indonesian Learning b. Indonesian visual speech Synchronization between Speech and Lip Shape Movements for Mobile Devices c. Indonesian Pronunciation Visualization System for Foreign Speakers Using Hidden Markov Model
73
BAB VII KESIMPULAN DAN SARAN
7.1
Kesimpulan Berdasarkan laporan dan pembahasan yang telah diuraikan pada bab
sebelumnya, maka dapat diambil kesimpulan sebagai berikut : 1. Struktur kelas viseme statis Bahasa Indonesia yang dihasilkan dari proses klasterisasi terhadap fitur-fitur data 2D visual speech, terdiri dari 10 kelas. 2. Metode Subspace LDA (linear discriminat analysis) merupakan metode untuk reduksi dimensi yang optimal baik untuk data 2D visual speech maupun data motion capture yang berbasis 3D. 3. Struktur kelas viseme dinamis Bahasa Indonesia yang dihasilkan dari proses klasterisasi terhadap fitur-fitur data motion capture wajah, jumlah kelasnya lebih banyak dibandingkan dengan viseme statis. Hal ini menunjukan bahwa animasi yang dihasilkan dari data motion capture wajah untuk sistem visualisasi pelafalan Bahasa Indonesia lebih smooth. 4. Komputer
maupun
tablet
layar
sentuh
bisa
dimanfaatkan
untuk
mengimplementasikan sistem visualisasi pelafalan Bahasa Indonesia ini.
7.2
Saran Saran yang akan diberikan terkait dengan penelitian ini adalah sebagai berikut 1. Media ini diharapkan dapat digunakan untuk mempopulerkan Bahasa Indonesia diantara bahasa-bahasa lain dikancah Internasional. 2. Media ini dapat digunakan bagi penutur asing Bahasa Indonesia maupun orang asing dalam pembelajaran pengucapan Bahasa Indonesia secara praktis, mudah, murah dan fleksibel..
74
DAFTAR PUSTAKA [1] Lengkanawati, Nenden Sri, “Kontribusi Strategi Belajar Bahasa terhadap Tingkat Kemahiran Berbahasa (Studi tentang Perbedaan Strategi Belajar Bahasa Indonesia sebagai BA di Australia dan bahasa Inggris sebagai BA di Indonesia)”, 1997. [2]
Rosidi, Ajip, “Bahasa Indonesia, Bahasa Kita : Sekumpulan Karangan”, Jakarta : Pustaka Jaya, 2001.
[3]
Hardini, Tri Indri, “Sistem Belajar Jarak Jauh dalam Pembelajaran Bahasa Perancis”, Bandung : Jurnal Pengajaran Bahasa, Budaya, dan Sastra Perancis CADENCE edisi XV/Juli, 2003.
[4]
M.G. Busa, “New perspectives in teaching pronunciation”, Didactas to Ecolingua, pp. 165–182, 2008.
[5]
Arifin, Mulyono, Surya Sumpeno, Mochamad Hariadi, “Towards Building Indonesian Viseme : A Clustering-Based Approach”, CYBERNETICSCOM 2013 IEEE International Conference on Computational Intelegence and Cybernetics, Yogyakarta, Indonesia, 2013.
[6]
Lapoliwa, Hans, “Pengantar Fonologi”, Publisher : Jakarta : Departemen Pendidikan dan Kebudayaan, 1988.
[7]
Dwi, C. Bambang. E-Learning System Berbasis Web sebuah Alternatif Metode Pembelajaran, Bandung : Jurnal Pendidikan Mimbar Pendidikan, University Press Universitas Pendidikan Indonesia, 2002.
[8]
I. Mazonaviciute, R. Bausys, “Translingual Visemes Mapping for Lithuanian Speech Animation”, Department of Graphical Systems, Vilnius Gediminas Technical University, ISSN 1392-1215, pp. 95-98, 2011.
[9]
A. L. Yuille, P. W. Hallinan, and D. S. Cohen, “Feature extraction from faces using deformable templates”, International article of Computer Vision, 8(2), pp.133-144, 1992.
[10] Y. Tian, T. Kanade, and J. Cohn, “Robust lip tracking by combining shape, colour and motion”, In proccedings of the 4th Asian Conference on Computer Vision, 2000.
75
[11] M. E. Hennecke, K. V. Prasad, and D. G. Stork, “Using deformable templates to infer visual speech dynamics”, 1994. [12] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes : Active contour models”, International article of Computer Vision, 1(4):pp.321-331, 1988. [13] P. Delmas, P. Y. Coulon, and Fristot. V., “Automatic snakes for robust lip boundaries extraction”, In proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pages pp.3069{3072, 1999. [14] M. Barnard, E. Holden, and R. Owens, “Lip tracking using pattern matching snakes”, In proceedings of the 5th Asian Conference on Computer Vision, pages pp.273-278, 2002. [15] D. J. Williams and M. Shah, “A fast algorithm for active contours and curvature estimation”, CVGIP: Image understanding, 55(1), pp.14-26, 1991. [16] Dr. Gorys Keraf, “Buku : Tatabahasa Indonesia”, Penerbit Nusa Indah, 1984. [17] Chaer, Abdul, “Linguistik Umum”, Jakarta: PT. Rineka Cipta, 2003. [18] Harimurti Kridalaksana, “Kamus Linguistik”, Penerbit Gramedia Pustaka Utama, ISBN 9789792235708, 2008. [19] Gleason, H.A., “Introduction to Descriptive Linguistics”, New York: Rinehart and Winston, 1970. [20]
Lapoliwa, Hans, “Pengantar Fonologi”, Publisher : Jakarta : Departemen Pendidikan dan Kebudayaan, 1988.
[21] Subaryani D.H. Soedirdjo, Hasballah Zakaria, Richrad Mengko, “Indonesian Text-toSpeech Using Syllable Concatenation for PC-based Low Vision Aid”, International Conference on Electrical Engineering and informatics, Bandung, Indonesia, 2011. [22] Potamianos, Neti, Gravier, Garg, and Senior, “Recent advances in the autormatic recognition of audio-visual speech”, Proceeding of the IEEE, 91(9):1306–1326, 2003. [23] Saenko, K., “Articulary Features for Robust Visual Speech Recognition”, Master thesis, Massachussetts Institute of Technology, 2004. [24] Neti, Potamianos, Luettin, Matthews, Glotin, Vergyri, Sison, Mashari, and Zhou, “Audio-visual speech recognition. Technical report, Center for Languageand Speech Processing”, The Johns Hopkins University, Baltimore, 2000. [25] Jawadekar, W., “Software Engineering”, Tata McGraw Hill Book Company,
New Delhi, 2004. [26] Aamir Khan, Hasan Farooq, “PCA-LDA Feature Extractor for Pattern Recognition”, IJCSI International Journal of Computer Science Issues, Vol 8, ISSN : 1694-0814, pp. 267-270, 2011.
76
[27] K.A. Abdul Nazeer, M.P. Sebastian, “Improving the Accuracy and Efficiency of k-means Clustering Algorithm”, Proceedings of the World Congress on Engineering, July 1 – 3, London, U.K., Vol I, ISBN : 978-988-17012-5-1, 2009. [28] Daniel T. Larose, “Discovering Knowledge in Data”, A John Wiley & Sons, Inc. Publication, USA, pp. 153–157, 2005. [29] Suyanto,"An Indonesian Phonetically Balanced Sentence Set for Collecting Speech Database”, Journal of Industrial Technology, Vol. XI No. 1, pp. 59- 68, 2007. [30] Sarah
L.
Taylor,
Moshe
Mahler,
Barry-John
Theobald
and
Ianin
Matthews,”Dynamic Units of Visual Speech”, ACM SIGGRAPH Symposium on computer Animation, 2012. [31] K. A. Abdul Nazeer, M. P. Sebastian, “Improving The Accuracy and Efficiency of The K-menas Clustering Algorithm”, Proceedings of the World Congress on Engineering Vol I WCE 2009, London, U.K., July 1-3, 2009. [32] Wang, J., Lee, H., “Recognition of human actions using motion capture data and support vector machine”, Proc. WCSE. vol. 1, pp. 234-238, IEEE, 2009.
77
78
LAMPIRAN
a
b
c
d
e
f