1
PERANCANGAN PROGRAM PENGENALAN SUARA MENJADI TULISAN MENGGUNAKAN TEORI BAYES DAN MODEL MARKOV Hendriyanto Binus University, Jakarta, DKI Jakarta, Indonesia
Abstrak Perkembangan teknologi informasi yang semakin cepat telah memungkinkan segala sesuatu terjadi dengan perangkat-perangkat keras maupun lunak yang semakin canggih. Perangkat-perangkat ini menjadi sangat membantu dalam kehidupan manusia sekarang ini, namun tidak dapat dipungkiri segala sesuatu memiliki dampak positif dan negatif. Perkembangan teknologi speech recognition adalah salah satu bentuk perkembangan teknologi di abad ke 20 yang memanfaatkan suara sebagai masukan, suara tersebut merupakan metode alternatif bagi manusia untuk berinteraksi dengan komputer. Komputer akan mengenali suara terebut sebagai perintah ataupun informasi dan melakukan reaksi terhadap perintah/informasi tersebut. Sistem pengenalan suara modern secara umum berdasarkan pada Hidden Markov Models (HMMs). Dari HMMs diperoleh sinyal suara yang dapat dikarakteristikkan sebagai proses parameter acak, serta parameter dari proses stokastik yang dapat ditentukan dengan kemungkinan yang lebih tepat melalui teori bayes. Kata Kunci : suara, pengenalan, fonem, Markov, Bayes.
2
1. Pendahuluan Komputer adalah sebuah alat/mesin yang membantu kita untuk menyelesaikan tugas kita, mempermudah kita mencari informasi. Komputer juga bisa bergerak sebagai penghibur seperti bermain game komputer, menyetel music bahkan video. Akan tetapi komputer tidaklah mengerti bahasa yang kita ucapkan, meskipun begitu kita dapat membuat komputer untuk mengenali/mengerti bahasa yang kita ucapkan. Bagaimana agar komputer dapat mengenali bahasa kita? Bila komputer dapat mengerti apa yang kita ucapkan, komputer bisa saja melaksanaakan apa saja yang kita ucapkan selama komputer mengerti dan informasi tersedia dalam komputer. Komputerpun akan lebih mempermudah kita dalam melakukan segala aktifitas yang kita lakukan dalam berinteraksi dengan komputer, sejalan dengan itu teknologi pengenalan suara mulai dikembangkan. Teknologi pengenalan suara adalah teknologi yang menggunakan peralatan dengan sumber masukannya adalah suara, seperti mikrofon untuk menginterpretasikan suara manusia untuk transkripsi atau sebagai metode alternatif interaksi dengan komputer. Teknologi pengenalan suara tidak sama dengan teknologi voice recognition yang hanya mengenali suara sebagai identifikasi keamanan. Walaupun kesuksesan teknologi ini nyata, hanya sedikit orang yang menggunakan sistem pengenalan suara pada komputer. Hal yang terjadi pada kebanyakan pengguna komputer dalam membuat dan mengedit dokumen serta berinteraksi dengan komputer lebih cepat dan nyaman dengan menggunakan peralatan-peralatan input konvensional yaitu keyboard dan mouse, walaupun secara fakta dengan menggunakan teknologi pengenalan suara memungkinkan pengguna untuk berbicara secara langsung, cepat dan efisien daripada harus mengetikkan suatu perintah dengan menggunakan
3 keyboard. Sebenarnya perancangan program disini tidak terbatas untuk 1 perusahaan saja. Akan tetapi penulis melakukan uji coba program pertama kali dilakukan di dapur solo, karena dapur solo memiliki staff IT jadi memudahkan untuk konsultasi program yang diujicobakan. Juga dapur solo tidak jauh dari tempat tinggal penulis sehingga mengurangi kerugian-kerugian yang ditimbulkan bila lokasi jauh. Suatu lingkungan perkantoran dengan tingkat kebisingan yang tinggi merupakan salah satu lingkungan yang merugikan untuk teknologi pengenalan suara karena dengan begitu suara yang terdengar pada sistem tidak jelas sehingga sistem pengenalan suara tidak dapat bekerja dengan akurat. Pengenalan suara hanya dapat diterima dengan sistem mikrofon yang independent 80%-90% untuk lingkungan yang nyaman dan tidak bising. Sistem pengenalan suara dapat membantu orangorang yang mengalami kesulitan berinteraksi dengan komputer melalui keyboard contohnya orang yang memiliki carpal tunnel syndrome, serta orang-orang yang memiliki cacat fisik. (Fairley, Grant D.. Computer… Take a Letter... a Speech Recognition Update. 2010) Maka dibutuhkanlah sebuah software yang sangat mudah digunakan, mampu mengenal suara dengan tepat walaupun dengan tingkat kebisingan yang tinggi, dan mampu membedakan antara intruksi (perintah) atau bukan.
2. Methodology Agar diperoleh focus sesuai dengan yang diinginkan, maka perlu adanya pembatasan masalah, maka ruang lingkup atas batasan masalah pada penulisan penelitian ini adalah sebagai berikut:
4 1. Analisis ucapan menjadi tulisan dibatasi hanya selingkup pesanan yang diujicobakan dan berbahasa Indonesia. 2. Metode yang digunakan dalam analisis adalah bayes dan model markov. 3. Perancangan software menggunakan VC#. Voice Order menggunakan teori bayes dan markov model. Adapun pembahasan yang dilakukan meliputi sebagai berikut : - Perancangan - Implementasi - Evaluasi
2.1. Perancangan Perancangan program aplikasi voice order ini terdiri dari modul menu utama, modul parameter list makanan dan pemesanan, modul parameter cek pesanan, modul batal tambah, modul Markov Model, modul Bayes. Komponen voice order berfungsi sebagai penerima input suara dan menampilkannya dalam layar komputer sebagai text. Komponen voice order dirancang menggunakan sistem yang telah ada pada windows dan dikonfigurasi sedemikian rupa sehingga, dapat berfungsi dengan baik. Database perlu disediakan terlebih dahulu agar sistem dapat berjalan lebih baik.
2.2. Implementasi Rencana implementasi pada dapur solo yang akan dilakukan adalah sebagai berikut. 1. Mencoba program dan menerapkan ke beberapa customer.
5 2. Memberikan
pelatihan
kepada
karyawan
dapur
solo
tentang
bagaimana memakai program. 3. Melakukan perbaikan secara terus menerus agar didapat hasil yang optimal sehingga pemesanan melalui suara lebih tepat.
2.3. Evaluasi Perusahaan akan menampilkan list makanan yang tersedia di restaurant untuk
memenuhi
permintaan
customer.
Staff
yang
bertugas
akan
meninggalkan customer Untuk mengerjakan kesibukan lain. Setelah customer mendapatkan apa yang ingin dipesan, customer memanggil kembali staff yang bertugas. Metode pemesanan ini kurang menguntungkan, karena dapat menyebabkan customer menunggu untuk dilayani. Bila hal ini terjadi dapat menyebabkan perusahaan mengalami beberapa kerugian. Kerugian-kerugian yang mungkin terjadi adalah sebagai berikut. 1. Customer pergi karena tidak dilayani, yang disebabkan seluruh staff sibuk. 2. Karena banyaknya pesanan ada kemungkinan pesanan yang dipesan salah meja. 3. Hal ini dapat mengharuskan perusahaan untuk menambah jumlah karyawan. 4. Menyebabkan tempat yang cukup luas menjadi sempit karena terlalu banyaknya staff yang bertugas. Alternatif pemecahan masalah ini adalah dengan adanya Voice Order yang dirancang menggunakan metode markov model dilanjutkan dengan bayes,
6 karena metode Markov dapat menentukan beberapa kata yang seakan masih mirip dan belum bias mengeluarkan text yang tepat diinginkan. Dengan menambahkan bayes akan dapat menentukan dalam kemungkinan bayes, kata apa yang lebih tepat. Dengan demikian pengendalian atas pemesanan via suara dapat dipastikan lebih tepat seiring banyaknya training kata yang dibutuhkan. Kekurangan dari program ini adalah tidak menunjukan proses dari metode-metode yang digunakan, karena metode-metode berada dalam system program. Akan tetapi bila metode-metode dan proses ditampilkan dalam program, malah dapat membuat program menampilkan banyak kolusi suara yang tidak diinginkan dan dapat membuat program membutuhkan memory yang lebih besar, karena seluruh kata ditampilkan dan tiap kata itu membutuhkan memory untuk setiap penampungan.
3. Kesimpulan Dalam teknologi pengenalan suara digunakan metode Hidden Markov Models untuk mengenali suara. HMM menggunakan konsep statistik dan probabilitas. Namun, dalam penerapannya HMM memiliki 3 permasalahan utama yaitu bagaimana memperhitungkan kemungkinan rangkaian pengamatan secara efisien dari model, bagaimana memilih rangkaian status yang cocok dan optimal pada beberapa tafsiran, dan bagaimana menyesuaikan parameter model λ yang maksimal. Permasalahan lain dapat ditangani dengan menggunakan teori bayes. Dengan teori ini menggunakan konsep static programming dalam menentukan rangkaian probabilitas status pada setiap tahap.
7
Daftar Pustaka [1] Jurafsky, D., Martin, J. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. New Jersey; Prentice-Hall.. [2] Market, Katja. (2003/4). AI31: Natural Language Processing Lecture Notes. University of Leeds. [3]
Karat,
Clare-Marie;
Vergo,
John;
Nahamoo,
David
(2007).
"Conversational Interface Technologies". In Sears, Andrew; Jacko, Julie A.. The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. ISBN 978-0805858709. [4] Managing editors: Giovanni Battista Varile, Antonio Zampolli. (1997). Cole, Annie; Mariani, Joseph; Uszkoreit, Hans et al.. eds. Survey of the state of the art in human language technology. Cambridge Studies In Natural Language Processing. XII–XIII. Cambridge University Press. ISBN 0-52159277-1. [5] Junqua, J.-C.; Haton, J.-P. (1995). Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. ISBN 978-0792396468. [6] Zweig, Geoffrey G. (1998). Speech Recognition with Dynamic Bayesian Networks. California; University of California, Berkeley.
8 [7]Carmell,
Tim.
(1997).
SpectogramReading.
(http://www.cslu.ogi.edu/tutordemos/SpectrogramReading/why.html) [8] Matthews, James. (2002). How Does Speech Recognition Work?. United Kingdom; Generation5. [9] Irfani, Angela dan Amelia, Ratih dan Saptanti, Dyah. (2006). Algoritma Viterbi dalam Metode Hidden Markov Models pada Teknologi Speech Recognition. Bandung; Institut Teknologi Bandung. [10] http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_readin g.html [11] http://en.wikipedia.org/wiki/Vokal