1
BAB 1 PENDAHULUAN 1.1.
Latar Belakang Komputer adalah sebuah alat/mesin yang membantu kita untuk menyelesaikan
tugas kita, mempermudah kita mencari informasi. Komputer juga bisa bergerak sebagai penghibur seperti bermain game komputer, menyetel music bahkan video. Akan tetapi komputer tidaklah mengerti bahasa yang kita ucapkan, meskipun begitu kita dapat membuat komputer untuk mengenali/mengerti bahasa yang kita ucapkan. Bagaimana agar komputer dapat mengenali bahasa kita? Bila komputer dapat mengerti apa yang kita ucapkan, komputer bisa saja melaksanaakan apa saja yang kita ucapkan selama komputer mengerti dan informasi tersedia dalam komputer. Komputerpun akan lebih mempermudah kita dalam melakukan segala aktifitas yang kita lakukan dalam berinteraksi dengan komputer, sejalan dengan itu teknologi pengenalan suara mulai dikembangkan. Teknologi pengenalan suara adalah teknologi yang menggunakan peralatan dengan sumber masukannya adalah suara, seperti mikrofon untuk menginterpretasikan suara manusia untuk transkripsi atau sebagai metode alternatif interaksi dengan komputer. Teknologi pengenalan suara tidak sama dengan teknologi voice recognition yang hanya mengenali suara sebagai identifikasi keamanan. Walaupun kesuksesan teknologi ini nyata, hanya sedikit orang yang menggunakan sistem pengenalan suara pada komputer. Hal yang terjadi pada kebanyakan pengguna komputer dalam membuat
2 dan mengedit dokumen serta berinteraksi dengan komputer lebih cepat dan nyaman dengan menggunakan peralatan-peralatan input konvensional yaitu keyboard dan mouse, walaupun secara fakta dengan menggunakan teknologi pengenalan suara memungkinkan pengguna untuk berbicara secara langsung, cepat dan efisien daripada harus mengetikkan suatu perintah dengan menggunakan keyboard. Sebenarnya perancangan program disini tidak terbatas untuk 1 perusahaan saja. Akan tetapi penulis melakukan uji coba program pertama kali dilakukan di dapur solo, karena dapur solo memiliki staff IT jadi memudahkan untuk konsultasi program yang diujicobakan. Juga dapur solo tidak jauh dari tempat tinggal penulis sehingga mengurangi kerugiankerugian yang ditimbulkan bila lokasi jauh. Suatu lingkungan perkantoran dengan tingkat kebisingan yang tinggi merupakan salah satu lingkungan yang merugikan untuk teknologi pengenalan suara karena dengan begitu suara yang terdengar pada sistem tidak jelas sehingga sistem pengenalan suara tidak dapat bekerja dengan akurat. Pengenalan suara hanya dapat diterima dengan sistem mikrofon yang independent 80%-90% untuk lingkungan yang nyaman dan tidak bising. Sistem pengenalan suara dapat membantu orang-orang yang mengalami kesulitan berinteraksi dengan komputer melalui keyboard contohnya orang yang memiliki carpal tunnel syndrome, serta orang-orang yang memiliki cacat fisik. (Fairley, Grant D.. Computer… Take a Letter... a Speech Recognition Update. 2010) Maka dibutuhkanlah sebuah software yang sangat mudah digunakan, mampu mengenal suara dengan tepat walaupun dengan tingkat kebisingan yang tinggi, dan mampu membedakan antara intruksi (perintah) atau bukan.
3 1.2.
Perumusan Masalah Pada penelitian ini, perumusan masalah yang akan dibahas secara rinci beserta
solusinya secara lengkap meluputi: 1. Apa yang kita butuhkan agar komputer mendengar suara? 2. Bagaimana agar komputer dapat mengerti apa yang kita ucapkan? 3. Bagaimana bayes dan model markov dalam menganalisa suara terbaik? 1.3.
Ruang Lingkup Agar diperoleh focus sesuai dengan yang diinginkan, maka perlu adanya
pembatasan masalah, maka ruang lingkup atas batasan masalah pada penulisan penelitian ini adalah sebagai berikut: 1. Analysis of speech into writing is limited to orders selingkup tested and Indonesian language. 2. Metode yang digunakan dalam analisis adalah bayes dan model markov. 3. Perancangan software menggunakan VC#. 1.4.
Tujuan dan Manfaat Tujuan dari penelitian ini adalah merancang sebuah program komputer yang
dapat menganalisis ucapan dan merubahnya kedalam tulisan bahasa Indonesia. Tujuan lainnya adalah Analisis dapat melakukan berbagai proses berdasarkan input suara nantinya. Adapun manfaat penelitian ini adalah:
4 1. Bagi peneliti, penelitian ini berguna sebagai ajang pembelajaran pada bayes, model markov, spectrogram dan menambah wawasan serta pengetahuan dalam bidang sains. 2. Bagi pembaca atau pihak lainnya, diharapkan dapat memberikan wawasan dalam bidang komputer mengenal ucapan. 3. Bagi masyarakat, pengoptimalan analisis sehingga mengoptimalkan cara kerja komputer dalam mengenal ucapan. 1.5.
Metodologi Studi lapangan adalah sebuah metode pengumpulan data yang digunakan untuk
mencari data-data yang dibutuhkan dalam pembuatan skripsi ini. Hal ini dilakukan secara langsung di tempat objek itu berada. Data-data yang akan dikumpulkan berupa data-data yang bersifat kuantitatif dan merupakan variabel bebas. Observasi, yaitu teknik pengumpulan data dengan mengamati objek-objek secara langsung dan kemudian melakukan pencatatan terhadap objek yang diteliti tersebut. Pengumpulan data juga dilakukan dengan membaca buku-buku yang berhubungan dengan topik skripsi ini. Hal ini dilakukan agar dapat memahami dan menyelesaikan permasalahan yang dihadapi secara tepat dan akurat. Sama seperti studi lapangan, data-data yang didapat dari studi pustaka juga merupakan data-data yang bersifat kuantitatif dan merupakan variabel bebas. Dalam perancangan program menggunakan UML terdiri dari use case, sequence diagram dan diagram alir / flow chart. Adapun metode perancangan secara mendasar yang penulis lakukan sesuai pada flowchart berikut:
5
Gambar 1.1 Flowchart perancangan secara dasar Disini dijelaskan tentang flowchart yang dimaksud, secara lengkap: Tahap pencarian dan pengumpulan data
6 Tahap ini adalah tahap pencarian dan pengumpulan data yang digunakan untuk pembuatan program. Tahap-pengolahan-data tahap ini dimaksud untuk mengolah data-data untuk digunakan setelah tahap pencarian dan pengumpulan data. Tahap ketersediaan data Tahap ini adalah tahap pengecekan saat pembuatan software apakah data tersedia atau kurang tersedia. Tahap-penerimaan Masukan berupa kata-kata yang diucapkan lewat mikrofon. Tahap pengolahan data Tahap ini adalah tahap dimana data dikelolah dari raw data menjadi data yang siap digunakan. Tahap in Tahap ini adalahap menunggu masukkan input suara dari pengguna. Tahap-ekstraksi Tahap ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM). berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan
7 musik). Sinyal dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
a. N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model. b. M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata. c. Probabilita Perpindahan Bagian { } = ij A a d. Probabilita Simbol Observasi pada bagian j, { } () = j Bb k e. Inisial Distribusi Bagian i p p
8 Setelah memberikan nilai N, M, A, B, dan p, maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM:
1. Tahap-ekstraksi-tampilan Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital 2. Tahap-tugas-pemodelan Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital 3. Tahap-sistem-pengenalan-HMM Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut. Tahap-pembandingan Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
9 1. Transformasi
gelombang
diskrit
menjadi
data
yang
terurut
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu 2. Menghitung frekuensi pada tiap elemen data yang terurut
Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat. Tahap voice to text
Tahap ini akan menkonversi suara ke dalam text yang akan tertera dilayar komputer Tahap jalankan daftar perintah
Tahap ini akan memasukan program kedalam program perintah dimana software hanya akan melaksanakan perintah sampai hentikan intruksi.
1.6. Sistematika Penulisan
Keterangan masing-masing isi Bab secara ringkas. Gambaran umum tiap bab akan diterangkan pada subbab ini, dengan cara deskriptif: BAB 1 Pendahuluan Bab ini berisi latar belakang, perumusan masalah, ruang lingkup, tujuan dan manfaat, metodologi, sistematika penulisan, makalah relevan.
10 BAB 2 Landasan Teori Dalam bab ini dibahas mengenai teori-teori pendukung, teori-teori tentang markov dan bayes juga teori untuk metode perancangan program BAB 3 Perancangan Program Voice Order. Dalam bab ini diuraikan metode yang dipakai dalam penyusunan program, rancangan program dan hal lain yang terkait. BAB 4 Hasil dan Pembahasan Bab ini menampilkan hasil dari program voice order yang dibuat. BAB 5 Simpulan dan Saran Bab ini berisi kesimpulan hasil pembahasan program Voice Order ini.
1.7. Makalah Relevan
Disini dituliskan makalah atau penelitian apa saja yang telah dilakukan orang lain yang berkaitan dengan makalah yg akan dibuat :
Zweig, Geoffrey G. (1998). Speech Recognition with Dynamic Bayesian Networks. California; University of California, Berkeley.
Judul Speech Recognation with Dynamic Bayesian Networks. Menggunakan metode Dynamic Bayesian Networks, memiliki kelebihan rinci membahas mengenai DBN dan mengulas HMM dan Kekurangan lebih banyak mengulas permasalahan, hambatan dan Experiment juga teoritis.
Matthews, James.(2002) How Does Speech Recognition Work?. United Kingdom; generation5.
11 Judul How Does Speech Recognition Work?. Menggunakan mnetode Hiden Markov Model, memiliki kelebihan membahas langkah-langkah metode secara ringkas juga padat dan kekurangan : hasil yang masih kurang dari yang diharapkan.
Irfani, Angela dan Amelia, Ratih dan Saptanti, Dyah. (2006). Algoritma Viterbi dalam Metode Hidden Markov Models pada Teknologi Speech Recognition. Bandung; Institut Teknologi Bandung.
Judul Algoritma Viterbi dalam Metode Hidden Markov Models pada Teknologi Speech Recognition. Menggunakan metode Algoritma Viterbi, memiliki kelebihan metode ini menghasilkan ketepatan yang tinggi dengan rangkaian perhitungan mulai dari inisialisasi, rekursif, terminasi dan lintas status dan kekurangan sedikit rumit dan tidak mudah dimengerti, maupun diterapkan. Karena akan membutuhkan source dan memory yang cukup besar.