6
BAB 2 LANDASAN TEORI
2.1
Proses Penghasilan dan Pemahaman Suara pada Manusia Proses menghasilkan suara dimulai dari adanya ide atau pesan di dalam otak manusia
yang ingin disampaikan kepada orang lain. Lalu pesan ini diterjemahkan ke dalam bahasa, setelah menemukan kode bahasa yang tepat, langkah berikutnya otak akan memberikan perintah kepada jaringan saraf untuk membuat pita suara manusia bergetar dengan tepat, selain itu juga untuk membentuk bidang suara, sehingga akan dihasilkan suara yang diinginkan serta mewakili pesan yang ingin disampaikan (lihat gambar 2.1). SPEECH GENERATION
SPEECH RECOGNITION MACHINE COUNTERPARTS
MACHINE COUNTERPARTS
PRINTED TEXT (50BPS)
MEANING SEMANTICS MESSAGE COMPREHENSION
MESSAGE FORMULATION LANGUAGE CODE
PHONEMES SEQUENCES, PROSODY CONVENTION (200 BPS)
LANGUAGE CODE
NEURO-MUSCULAR ACTIONS
NEURAL TRANSDUCTION
(DISCRETE) (CONTINUOUS) ARTICULATORY MOTION(2000 BPS)
BASILAR MEMBRANE MOTION ACOUSTIC SYSTEM (VOCAL TRACT)
SOUND SOURCE (VOCAL CORDS)
TALKER
ACOUSTIC WAVE ELECTRICAL TRANSMISSION (30000 BPS)
PHONEMES, WORDS, SENTENCES, PROSODY (SYNTAX) (DISCRETE) (CONTINUOUS)
FEATURE EXTRACTION RE-CODING
ACOUSTIC SPECTRUM ANALYSIS
LISTENER
Gambar 2.1 Diagram Skematik Dari Proses Produksi dan Persepsi Suara (Rabiner dan Juang, 1993, p12) Proses pemahaman suara dimulai saat sinyal suara dari lawan bicara ditangkap oleh selaput basillar, kemudian selaput ini menghasilkan analisis spektrum bergerak. Proses pada
7 neural transduction mengubah sinyal spektral yang tadi dihasilkan oleh selaput basillar menjadi sinyal aktivitas pada saraf pendengaran. Aktifitas saraf tersebut diubah menjadi kode bahasa pada proses yang dilalui sebelum pesan tersebut diolah oleh otak manusia, pada akhirnya pemahaman terhadap pesan yang masuk didapatkan. Pemahaman pada unsur bunyi yang mendominasi suatu bahasa akan menjadi sangat penting. Dengan mengetahui unsur-unsur apa saja yang terdapat dalam suatu bahasa diharapkan dapat mengatasi kendala dalam mengenali kata-kata ucapan manusia.
2.1.1
Proses Penghasilan Ucapan Untuk berkomunikasi manusia menggunakan ucapan.
Ucapan yang dihasilkan
membentuk suatu bunyi yang dapat dimengerti oleh orang lain. Bunyi tersebut merupakan bahasa dalam kehidupan manusia.. Proses penghasilan ucapan diawali dengan adanya perintah dari otak kepada organorgan tubuh pernafasan manusia untuk membentuk suatu bunyi tertentu (gambar- 2.2). Udara masuk ke dalam paru-paru melalui proses pernafasan biasa. Kemudian udara dikeluarkan melalui tenggorokan menuju larinx. Di larinx aliran udara yang timbul menyebabkan pita suara bergetar. Bunyi yang dihasilkan akan dikeluarkan bersamaan dengan arus udara melalui saluran pernafasan. Organ–organ pada saluran pernafasan seperti pharinx, lidah, mulut dan bibir turut membentuk bunyi yang diinginkan. Paru-paru (lungs) dan batang tenggorokan (trachea) mengatur arus udara yang diperlukan untuk berbicara, sehingga keras dan lembutnya ucapan yang dihasilkan sangat bergantung pada paru-paru dan batang tenggorokan. Larinx adalah rongga pada ujung trachea dimana terdapat pita suara, sehingga larinx disebut juga voicebox.
8
Gambar 2.2 Anatomi Organ Penghasil Ucapan Pita suara memiliki fungsi akustik sebagai sumber pembangkit ucapan. Pita suara yang membuka dan menutup membentuk rongga di antara sepasang pita suara yang disebut glotis. Pita suara berfungsi juga sebagai klep yang dapat membuka, menutup, membuka lebar, menutup sebagian, atau menutup habis arus udara yang melewatinya. Pada saat pernafasan normal pita suara terbuka lebar sehingga arus udara dapat leluasa masuk dan keluar dari sistem pernafasan manusia. Akan tetapi pada saat manusia berbicara, pita suara dapat menutup rapat arus udara yang ada untuk menghasilkan bunyi sesuai dengan perintah otak. Ketika pita suara menegang, aliran udara mengakibatkan pita suara bergetar menghasilkan bunyi berucapan (voiced) (Rabiner dan Juang, 1993, p14). Ketika pita suara melonggar untuk menghasilkan suatu bunyi, aliran udara dipaksa melewati celah sempit pada
9 bidang ucapan sehingga dihasilkan bunyi tak berucapan (unvoiced) (Rabiner dan Juang, 1993, p15). Bidang ucapan berfungsi untuk pewarnaan dan artikulasi ucapan. Pada saat gelombang akustik melalui bidang ucapan, frekuensinya dipengaruhi oleh resonansi dalam rongga bidang ucapan. Resonansi ini sangat tergantung pada bentuk dan ukuran bidang ucapan manusia. Bidang ucapan meliputi pharinx (dari esophagus sampai mulut) dan mulut. Seluruh organ bicara setelah glotis merupakan bagian dari bidang ucapan. Pada laki-laki dewasa panjang total bidang ucapan mencapai sekitar 17 cm (Rabiner dan Juang, 1993, p14). Potongan melintang (cross-sectional) bidang ucapan ditentukan dari posisi lidah, bibir, rahang, dan langit-langit lunak (velum), dan biasanya berkisar dari nol sampai 20 cm2 (Rabiner dan Juang, 1993, p14 ). Sedangkan rongga hidung (nasal track) dimulai dari velum dan berakhir pada lubang hidung (nostrils). Ketika velum menurun/mengendor, rongga hidung secara akustik dipasangkan pada bidang ucapan untuk menghasilkan bunyi ucapan. Bidang suara secara akustik dapat dimodelkan sebagai tabung potongan melintang tak seragam sepanjang ±17 cm pada lelaki dewasa; terbuka pada salah satu ujungnya, dan tertutup pada ujung yang lain (Santosa, 2002). Tabung utama ini bercabang di tengah membentuk rongga hidung yang berupa tabung sepanjang ±13 cm, dengan katup (anak tekak) pada percabangannya sebagaimana pada gambar 2.3.
10
Gambar 2.3 Representasi Semantik dari Mekanisme Penghasilan Suara (Rabiner dan Juang,1993,p17 ) Untuk mempermudah analisis diasumsikan bahwa katup anak tekak tertutup. Tabung tersebut mempunyai banyak frekuensi alami, yaitu frekuensi pada saat fungsi pindah (transfer function) tabung maksimum. Jika potongan melintang tabung tersebut seragam, maka fungsi alami akan terjadi pada : fn =
(2n − 1)c , n = 1,2,3,... 4l
Di udara c = 350 m/detik, untuk panjang tabung l =17 cm, diperoleh frekuensi alami pada kelipatan ganjil mendekati 500 Hz. Karena kenyataannya daerah bidang suara tak seragam, maka resonansi terjadi dengan spasi frekuensi yang berbeda. Walaupun demikian untuk setiap lebar bidang tetap sekitar 1 kHz terjadi sekali resonansi. Resonansi ini disebut dengan formant, yaitu frekuensi alami
11 bidang suara yang merupakan bagian penting dalam modulasi suara. Formant ditandai dengan angka, sesuai dengan bertambahnya frekuensi.
2.1.2 Gangguan Pada Sinyal Ucapan Sinyal ucapan yang masuk ke dalam sistem pengenalan ucapan, tidak selalu bersih dari gangguan yang berupa noise atau derau. Noise merupakan semua bentuk besaran, yang bukan merupakan bagian dari besaran atau sesuatu yang diinginkan, misalnya sinyal ucapan. Ada dua macam noise yaitu internal noise dan external noise. Internal noise dihasilkan oleh efek panas pada penguat sinyal (amplifier). Banyaknya noise yang ditambahkan ke dalam sinyal bergantung pada bandwidth amplifier masukan. Salah satu cara untuk menekan internal noise adalah memilih amplifier yang memiliki bandwidth mendekati bandwidth sinyal masukan. Jenis kedua adalah external noise. Noise jenis ini masuk ke dalam sinyal ketika sinyal bergerak di dalam kabel. External noise dapat dihasilkan dari berbagai macam sumber. Salah satu contohnya, pada banyak eksperimen penambahan data, 60 Hz noise dihasilkan oleh jalur tenaga AC. Noise jenis ini muncul sebagai sinyal interferensi sinusoidal di dalam papan pengukur. Noise yang masuk ke dalam papan pengukur berasal dari sumbersumber eksternal. Hal ini terjadi karena sinyal sangat mudah dimasuki oleh sinyal lainnya di dalam lingkungan aktifitas elektris. Untuk menghilangkannya, dapat dilakukan beberapa cara, misalnya menjauhkan kabel penghantar sinyal dari lingkungan aktivitas elektris. Filter dapat digunakan untuk menekan adanya noise pada sinyal. Untuk beberapa aplikasi penambahan data cukup digunakan low-pass filter. Low-pass filter melewatkan komponen frekuensi yang lebih rendah tetapi melemahkan komponen dengan frekuensi lebih tinggi. Cut-off frekuensi dari filter harus cocok dengan frekuensi sinyal yang diinginkan saat ini serta sampling rate yang digunakan untuk pengubahan sinyal analog ke sinyal digital.
12 Antialiasing filter adalah low-pass filter yang digunakan untuk mencegah frekuensi yang lebih tinggi menimbulkan distorsi pada sinyal digital (Matlab, 2002).
2.2
Unsur-Unsur Bunyi pada Bahasa Bunyi–bunyi ujar menurut Samsuri secara garis besar dapat digolongkan menjadi 2
bagian yaitu vokoid dan kontoid. Vokoid ialah bunyi yang bagi pengucapannya jalan mulut tidak terhalang, sehingga arus udara dapat mengalir dari paru- paru ke bibir dan keluar tanpa dihambat, tanpa harus melalui lubang sempit, tanpa dipindahkan dari garis tengah pada alurnya, dan tanpa menyebabkan sebuahpun alat-alat supra glottal bergetar (Samsuri, 1994, p103). Kontoid ialah bunyi yang bagi pengucapannya arus udara dihambat sama sekali oleh penutupan larynx atau jalan di mulut, atau dipaksa melalui jalan sempit, atau dipindahkan dari garis tengah daripada alurnya melalui lubang lateral, atau menyebabkan bergetarnya salah satu alat- alat supra glottal (Samsuri, 1994, p103). Selain itu masih terdapat unsur-unsur bunyi lain seperti : •
Fonem
•
Vokal
•
Konsonan
•
Nasal
•
Diftong
•
Frikatif
•
Morfem
13 2.2.1
Fonem Ahli ilmu bunyi yang paling pandai sekalipun tidak dapat membedakan semua bunyi
secara objektif. Tidak ada dua orang pendengar, betapapun kecakapannya dalam ilmu bunyi, dapat menghasilkan dua transkripsi yang sama benar tentang bahasa yang sama (Samsuri,1994). Untuk itu diperlukan pengetahuan tentang fonem. Fonem didefinisikan sebagai : •
bunyi-bunyi yang membedakan arti atau pengertian (Samsuri, 1994, p124)
•
satuan bunyi terkecil yang mampu menunjukan kontras makna (Kamus Besar Bahasa Indonesia, 2001, p319) Seperti juga bunyi-bunyi, fonem-fonem dalam bahasa Indonesia dapat dibagi menjadi dua
kelompok, yaitu fonem-fonem segmen dan fonem-fonem suprasegmen. Fonem-fonem segmen dibagi lagi menjadi dua kelompok, yaitu fonem vokal (/i.∂,u,e,a,o/) dan fonem konsonan, sedangkan fonem suprasegmen terdiri atas tekanan, nada, panjang serta jeda.
2.2.2
Vokal Vokal didefinisikan sebagai :
•
Bunyi bahasa yang dihasilkan oleh arus udara dari paru- paru melalui pita suara dan penyempitan pada saluran suara di atas glottis (Kamus Besar Bahasa Indonesia, 2001, p1263).
•
Satuan fonologis yang diwujudkan dalam lafal tanpa pergeseran, seperti [a,i,u,e,o] (Kamus Besar Bahasa Indonesia , 2001, p1263).
2.2.3
Konsonan Menurut Kamus Besar Bahasa Indonesia konsonan diartikan sebagai bunyi bahasa
yang dihasilkan dengan menghambat aliran udara pada salah satu tempat disaluran suara di
14 atas glottis atau fonem yang mewakili suatu bunyi kontoid. Konsonan dibagi menjadi dua bagian yaitu ambisilabis dan silabis. Ambisilabis adalah konsonan yang menjadi transisi dari dua suku kata. Silabis adalah konsonan yang mendukung puncak kenyaringan dalam suku kata (Kamus Besar Bahasa Indonesia, 2001, p589).
2.2.4
Semi vokal Semi vokal adalah bunyi bahasa yang mempunyai ciri vokal ataupun konsonan,
mempunyai sedikit geseran dan tidak muncul sebagai inti suku kata, missal [y], [r], [w] (Kamus Besar Bahasa Indonesia, 2001, p1030).
2.2.5
Nasal Nasal bersangkutan dengan bunyi bahasa yang dihasilkan dengan mengeluarkan udara
melalui hidug yaitu m, n, ng, ny (Kamus Besar Bahasa Indonesia, 2001, p775).
2.2.6
Diftong Diftong adalah suatu kombinasi vokoid- vokoid silabis (Samsuri, 1994, p111).
Sedangkan menurut Kamus Besar Bahasa Indonesia diftong adalah bunyi vokal rangkap yang tergolong dalam satu suku kata. Diftong dapat dikelompokkan menjadi beberapa jenis yaitu : •
Lebar : diftong yang terjadi dengan perubahan letak lidah yang agak banyak, misal ai pada lantai
•
Naik
•
Sempit : diftong yang terjadi dengan sedikit perubahan letak lidah, misal ei pada survei
: diftong yang bagian paling nyaringnya terdapat sesudah peluncurannya
15 •
Turun : diftong yang bagian paling nyaringnya terdapat sebelum peluncurannya, misalnya au pada harimau
2.2.7
Frikatif Frikatif adalah bunyi yang dihasilkan bila udara menggeser alat ucap, misal bunyi [f]
(Kamus Besar Bahasa Indonesia, 2001, p322).
2.2.8
Morfem Morfem didefinisikan sebagai :
•
Komposit bentuk-pengertian yang terkecil yang sama atau mirip yang berulang (Samsuri, 1994, p170)
•
Satuan bentuk bahasa terkecil yang punya makna secara relatif stabil dan tidak dapat dibagi atas bagian bermakna yang lebih kecil (Kamus Besar Bahasa Indonesia, 2001, p755). Menurut Kamus Besar Bahasa Indonesia morfem dibagi menjadi beberapa jenis yaitu
: •
Bebas : morfem yang secara potensial dapat berdiri sendiri dalam suatu bangun kalimat
•
Dasar : morfem yang dapat diperluas dengan dibubuhi afiks
•
Dasar terikat : morfem dasar yang hanya dapat menjadi kata bila bergabung dengan afiks atau dengan morfem lain
•
Gramatikal : morfem yang jumlahnya terbatas dan berfungsi sebagai penghubung diantara morfem leksikal
16 •
Leksikal : morfem yang jumlahnya tidak terbatas dan sangat produktif (mencangkup kata penuh dan afiks derivatif)
•
Penyambung : unsusr yang diletakkan antara dua morfem lain
•
Segmental : morfem yang terjadi dari fonem segmental
•
Suprasegmental : morfem yang terjadi dari fonem suprasegmental
•
Terbagi : morfem yang realisasinya dalam bentuk morfem diantarai oleh unsur lain
•
Terikat : morfem yang tidak mempunyai potensi untuk berdiri sendiri dan yang selalu terikat dengan morfem lain untuk membentuk ujaran
•
2.3
Unik : morfem yang hanya mampu berkombinasi dengan satu satuan tertentu
Teknologi Suara Ketika seseorang berbicara, udara dari paru-paru dikeluarkan melalui bidang suara
dan keluar dari mulut berupa sebuah gelombang. Gelombang akustik yang sampai ke telinga pendengar dikenali sebagai ucapan (speech) dengan warna bunyi (timbre), periode (pitch), frekuensi resonans fundamental (formant), dan kekerasan (loudness) yang berbeda. Gelombang suara mengandung banyak informasi yang memungkinkan telinga dan otak manusia membedakan karakter dan cirinya, sehingga dapat dikenali dan dipahami. Dengan teknik pemprosesan suara (speech processing), ciri dan karakter suara dapat dikenali. Perkembangan teknologi yang pesat memungkinkan dilakukannya pemprosesan suara menggunakan komputer. Pemprosesan suara dapat di bagi 2, yaitu analisis suara (speech analysis) dan sintetis suara (speech synthetis). Analisis suara adalah bagian dari pemprosesan suara yang mengubah suara manusia menjadi bentuk digital yang sesuai untuk pengiriman atau penyimpanan oleh computer
17 (Santosa,2002). Analisis suara memainkan peranan yang sangat penting dalam pengenalan ucapan (speech recognition), pemahaman suara (speech understading) dan identifikasi pembicara (speaker identification). Sedangkan fungsi sintetis suara merupakan kebalikan dari analisis suara. Analisis dan sintetis suara dapat dilakukan baik dalam kawasan waktu maupun kawasan frekuensi, sehingga ciri-ciri dan karakteristik suara dapat ditentukan. Analisis suara menggunakan komputer diawali dengan mengubah sinyal analog menjadi sinyal digital menggunakan ADC (analog to digital converter). Sinyal suara analog yang kontinu akan diubah menjadi sinyal digital yang diskret. Dalam hal ini terjadi proses pencuplikan (sampling) dan kuantisasi (quantizing). Pencuplikan menjadi sinyal suara diskret dalam waktu, dan kuantisasi membuat amplitudo sinyal suara menjadi diskret. Teori pencuplikan (sampling teorem) menyatakan bahwa sinyal digital dapat mewakili sinyal analog secara unik jika kecepatan cuplik sekurang-kurangnya 2 kali frekuensi tertinggi sinyal analog yang dicuplik(Santosa, 2002). Dengan demikian jika frekuensi cuplik Fs Hz, maka frekuensi tertinggi untuk menyatakan sinyal analog tidak dapat melebihi frekuensi Nyquist Fs/2 Hz. Frekuensi cuplik yang kurang dari 2 kali frekuensi Nyquist akan menyebabkan aliasing. Pencuplikan yang benar tidak akan menghilangkan informasi. Komponen frekuensi sinyal suara bervariasi kurang lebih dari 80 Hz sampai 8 kHz, tetapi sebagian besar komponen yang berarti terkonsentrasi di bawah 4 kHz. Oleh karena itu pencuplikan suara dapat dilakukan pada frekuensi 8 kHz (Santosa, 2002).
2.3.1
Sejarah Perkembangan Pengenalan Ucapan Pemprosesan sinyal suara telah dirintis sejak tahun 1779 dengan ditemukannya alat
pensintesa ucapan secara mekanis, namun perkembangannya baru terlihat 143 tahun
18 kemudian yaitu pada tahun 1922 dengan ditemukannya pensintesa ucapan elektris dan selanjutnya ditemukannya spectogram pada tahun 1946 (Nugroho, 2001, p1) . Penelitian mengenai pengenalan suara secara otomatis oleh mesin telah dilakukan selama hampir 5 dekade. Ide mengenai sistem pengenalan suara oleh mesin muncul sekitar pada tahun 1950-an. Pada tahun 1950-an para peneliti mencoba mengeksploitasi ide dasar tentang acoustic-phonetics. Pada tahun 1952, di Bell Laboratories, Davis, Biddulp, dan Balashek membangun sebuah sistem pengenalan digit tertutup untuk seorang pembicara. Sedangkan pada tahun 1956, Oslon dan Belar di RCA Laboratories mencoba membangun sistem yang dapat mengenali 10 kata untuk seorang pembicara dengan setiap kata dari 10 kata-kata tersebut memiliki bunyi yang sangat berbeda dan monosyllabic. Pada tahun 1959 di Universitas Colegge, Inggris, Fry dan Denes mencoba membuat sebuah pengenal fonem untuk mengenali 4 buah vokal dan 9 konsonan. Mereka menggunakan analisis spectrum dan pembanding pola untuk menganalisa suara. Pada tahun yang sama, Forgie dan Forgie membangun sebuah sistem pengenalan vokal pada MIT Lincoln Laboratories. Pada percobaan tersebut metode yang digunakan untuk analisis spectral adalah filter bank dan untuk menentukan vokal mana yang diucapkan digunakan estimasi waktu terhadap resonansi vokal track. Pada tahun 1960-an, Jepang turut serta mengambil bagian dalam pengembangan sistem pengenalan suara. Beberapa laboratorium di Jepang membangun perangkat keras dengan tujuan khusus untuk pengenalan suara sebagai bagian dari sistem mereka. Salah satu perangkat keras yang dikembangkan pada tahap awal penelitian dibuat oleh Suzuki dan Nakata dari Radio Reseach Lab, Tokyo, untuk mengenali suara vokal. Pada tahun 1962, Doshita dan Sakai dari Kyoto University berhasil membuat sebuah perangkat keras pengenal
19 fonem. Sumbangan lainnya diberikan oleh Nagata dan pekerja dari NEC Laboratories pada tahun 1963, yaitu berupa perangkat keras pengenal digit. Pada tahun 1960-an terdapat 3 penelitian penting yang mempengaruhi penelitian sistem pengenalan suara untuk masa-masa mendatang. Yang pertama dibuat oleh Martin dan rekannya dari RCA Laboratories. Mereka membangun sebuah dasar metode normalisasi waktu (time-normalization method) yang memiliki kemampuan untuk mendeteksi awal dan akhir ucapan. Martin terus mengembangkan metode tersebut dan mendirikan sebuah perusahaan yang bernama Threshold Company, yang pertama kali membuat, memasarkan dan menjual produk pengenal suara. Pada saat yang sama, di Rusia, Vintsyuk mengajukan penggunaan metode pemograman dinamis yang sejalan dengan waktu untuk pengenalan suara. Ini merupakan dasar dari Dynamic Time Warping, yang penggunaannya tidak diketahui oleh dunia barat sampai pada tahun 1980-an. Pada waktu itu metode formal lainnya sudah lama diajukan dan digunakan. Penelitian lainnya dilakukan oleh Reddy yang menitikberatkan pada pengenalan suara kontinu (continuous speech recognition) dengan penelusuran dinamis terhadap fonem. Program penelitiannya di Carnegie Mellon University berkembang dan membuahkan hasil yang memuaskan. Pada tahun 1970-an, terdapat sejumlah penelitian penting mengenai sistem pengenalan suara. Untuk pertama kalinya isolated word atau discrete utterance recognition menjadi teknologi yang berguna berkat penelitian fundamental yang dilakukan oleh Velichko dan Zagoruyko di Rusia, Sakoe dan Chiba di Jepang, dan Itakura di Amerika Serikat. Penelitian oleh Rusia membantu penguasaan metode pattern recognition untuk sistem pengenalan suara. Penelitian di Jepang menunjukan bagaimana metode pemograman dinamis berhasil diterapkan. Sedangkan penelitian Itakura menunjukan bagaimana ide mengenai Linear Predictive Coding (LPC) berhasil diterapkan pada low-bit-rate speech coding, yang
20 dapat dikembangkan menjadi sistem pengenalan suara dengan menggunakan pendekatan pengukuran jarak (distance measure) berdasarkan parameter spectral LPC. Penelitian penting lainnya pada tahun 1970-an dilakukan oleh IBM yang berhasil membangun sebuah sistem dengan menggunakan pengenalan suara kosa kata besar (large vocabulary speech recognition). Peneliti mempelajari 3 fungsi utama sistem selama hampir 2 dekade. Fungsi pertama diberi nama New Raleigh language yang berfungsi sebagai simple database queries. Yang kedua adalah laser patent text language yang bertugas menerjemahkan laser patents. Sedangkan yang ketiga, Tangora merupakan sistem pendiktean pada memo sederhana. Jika pada tahun 1970-an penelitian difokuskan pada isolated word recognition, maka pada tahun 1980-an penelitian lebih difokuskan pada connected word recognition. Pada tahun 1980-an terjadi perubahan metode penelitian dari template-based approach ke metode pemodelan statistik (statistical modeling method). Metode pemodelan statistik yang terkenal adalah hidden Markov model (HMM). HMM sebenarnya telah digunakan oleh beberapa laboratorium seperti IBM, Institute for Defense Analyses (IDA), dan Dragon System. Akan tetapi penggunaan HMM baru tersebar luas pada pertengahan tahun 1980-an. Teknologi lainnya yang muncul pada akhir tahun 1980-an adalah penggunaan Neural Network. Neural Network pertama kali diperkenalkan pada tahun 1950-an, tetapi tidak berkembang karena terdapat banyak masalah pada implementasinya. Akhirnya pada tahun 1980-an perhatian tertuju pada sistem pengenalan suara kontinu dan kosa kata besar yang penelitiannya didukung oleh Defense Advanced Research Projects Agency (DARPA). Penelitian mentargetkan pengenalan 1000 kata dengan pembicaran kontinu dan fungsi managemen database. Program penelitian DARPA terus berlanjut hingga tahun 1990-an. Penelitian lainnya yang berperan serta antara lain diberikan oleh CMU
21 dengan sistem SPHINX, BBN dengan sistem BYBLOS, Lincoln Lab, SRI, MIT, dan AT&T Bell Labs.
2.3.2
Speech to Text Speech to Text merupakan aplikasi yang dikembangkan dari pengenalan ucapan,
sehingga bila kita membicarakan aplikasi speech to text tidak mungkin terlepas dari pengenalan ucapan itu sendiri. Pengenalan ucapan atau lebih tepatnya disebut Automatic Speech Recognition (ASR) telah dikembangkan selama lebih dari lima dekade. Berbagai percobaan telah dilakukan sejak timbulnya ide untuk menciptakan mesin yang dapat mengerti ucapan manusia dan studi terhadap acoustic-phonetics sejak awal 1950-an. Tetapi tingkat kerumitan pengucapan bahasa pada tiap manusia yang berbeda membuat percobaanpercobaan tersebut memiliki tingkat kesalahan yang cukup tinggi. Salah satu aspek tersulit dalam melakukan penelitian pengenalan ucapan dengan mesin adalah hubungannya dengan cabang-cabang ilmu alam dan kecenderungan para peneliti menerapkan pendekatan monolitis untuk masalah perseorangan . Berikut adalah beberapa cabang ilmu yang telah digunakan pada satu atau lebih masalah pengenalan ucapan (Rabiner dan Juang, 1993, p2) : •
Pemrosesan sinyal, proses mengambil informasi yang dibutuhkan dari sinyal ucapan secara efisien dan tepat. Termasuk dalam pemprosesan sinyal adalah analisis spektral yang digunakan untuk menggambarkan properti sinyal ucapan yang berubah-ubah terhadap waktu.
•
Fisik (akustik), ilmu yang mempelajari hubungan antara bentuk fisik sinyal ucapan dengan
mekanisme
fisiologis
(mekanisme
bidang
suara
manusia)
dalam
22 menghasilkan suara dan bagaimana suara ucapan ditangkap (mekanisme pendengaran manusia). •
Pattern recognition, sebuah algoritma yang digunakan untuk mengelompokkan data untuk menghasilkan satu atau lebih pola prototype dari data yang ada, dan untuk membandingkan dua buah pola dengan dasar pengukuran yang sama.
•
Teori informasi dan komunikasi, prosedur untuk memperkirakan parameter dari model statistik. Metode untuk mendeteksi keberadaan sebagian pola sinyal ucapan. kumpulan algoritma coding dan decoding modern (termasuk pemograman dinamis, algoritma stack, dan Viterbi decoding) untuk mencari kata yang paling tepat pada data yang besar tapi terbatas melalui jalur yang terbaik.
•
Linguistik, hubungan antara suara (phonology), kata dalam bahasa (sintax), arti dari kata ucapan(semantic), dan perasaan yang timbul dari arti(pragmatic).
•
Fisiologi, memahami sistem saraf utama manusia dalam menghasilkan dan menerima suara ucapan.
•
Ilmu komputer, mempelajari algoritma yang efisien untuk implementasi, baik itu perangkat lunak, perangkat keras, dan berbagai metode yang akan digunakan dalam sistem pengenalan ucapan.
•
Fisikologi,
ilmu
yang
mempelajari
faktor
yang
memungkinkan
manusia
menggunakan teknologi dalam kehidupannya. Keberhasilan sistem pengenalan ucapan memerlukan pengetahuan dan keahlian pada banyak bidang ilmu. Pada tahun 1980-an, DARPA berhasil membuat sistem pengenalan ucapan kontinu (continuous-speech-recognition systems) dengan kosa kata yang besar, memiliki ketepatan hingga seribu kata. Dengan adanya sistem pengenalan ucapan kontinu,
23 mesin dapat mengenali ucapan manusia secara lebih alami, tanpa harus mengucapkan kata demi kata secara terpotong-potong. Sistem ini juga yang akhirnya melahirkan aplikasi speech to text. Dengan speech to text komputer diharapkan dapat langsung mencatat setiap ucapan manusia yang dikenalinya secara otomatis. Speech to text adalah sebuah aplikasi berbasis komputer yang dapat mengenali ucapan manusia dan memberikan respon balik berupa teks. Speech to text memiliki cara kerja yang berlawan dengan text to speech. Text to speech mengadopsi cara kerja manusia menghasilkan suara sedangkan speech to text mengadopsi cara kerja persepsi pendengar.
2.3.3
Cara Kerja Speech to Text Pada dasarnya cara kerja dari speech to text sama dengan cara kerja sistem
pengenalan ucapan ( lihat gambar 2.4 ).
24
Gambar 2.4 Proses Pengenalan Suara Pertama–tama suara yang dihasilkan oleh manusia akan ditangkap oleh microphone untuk kemudian diubah menjadi sinyal digital. Jika memungkinkan suara pengganggu dan suara utama dipisahkan dan diubah menjadi bentuk yang lebih sederhana. Pada tahap feature extraction, prosesor sinyal mengubah sinyal digital yang didapat dengan transformasi fourier, menghitung tingkat energi yang ada dalam berbagai frekuensi untuk menghasilkan bagianbagian yang disebut frames. Teknik sampling ini menghasilkan sederet vector yang digunakan untuk proses pengenalan. Dengan adanya teknik ini, memori yang dibutuhkan untuk menyimpan data yang akan diproses menjadi lebih kecil. Hal ini akan menghemat memori yang digunakan. Algoritma untuk menghasilkan sederet vector ini lebih dikenal sebagai vector quantization.
25 Selanjutnya pada tahap probability estimation dan decoding, vektor yang dihasilkan akan dibandingkan dengan data yang ada dan mengarahkannya ke data yang terdekat untuk diubah menjadi serangkaian simbol tertentu sesuai dengan language model yang ada. Tahap berikutnya adalah pattern recognition. Pada tahap ini sinyal yang sudah diproses dibandingkan dengan model akustik yang sudah ada. Model akustik yang ada disimpan dalam bentuk serangkaian frames. Jadi ketika sistem pengenalan ucapan menerima masukan baru, sistem akan mengolahnya dan membandingkannya dengan data yang ada untuk menemukan kata yang terdekat. Metode ini terbatas pada sedikitnya jumlah kata yang dapat digunakan dan pengucapan yang terpotong-potong. Secara umum terdapat beberapa metode pendekatan untuk pengenalan ucapan (Rabiner dan Juang, 1993, p42), antara lain : •
Pendekatan Akustik Fonetik
•
Pendekatan Statistical Pattern-Recognition
•
Pendekatan Intelegensia Semu
2.3.3.1 Pendekatan Akustik Fonetik Blok diagram sistem pengenalan ucapan akustik fonetik ditunjukkan oleh gambar 2.5. langkah pertama adalah speech analysis system atau sistem analisis ucapan yang menghasilkan representasi spektral dari sinyal ucapan. Di dalam sistem ini terdapat beberapa metode yang dapat dipakai yaitu bank of filter dan LPC. Langkah berikutnya adalah featuredetection. Ide dasarnya adalah mengubah besaran spektral menjadi serangkaian fitur yang menggambarkan properti akustik secara luas dari unit fonetik yang berbeda. Fitur-fitur yang termasuk di dalamnya antara lain: nasality (ada tidaknya resonansi nasal), frication (ada tidaknya penekanan dalam ucapan), Formants locations (frekuensi dari tiga resonansi
26 pertama), Voiced/Unvoiced classification (penekanan secara periodik maupun tidak periodik), high/low-energi ratio.
FEATURE DETECTOR 1
s(n)
SPEECH ANALYSIS SYSTEM FILTER BANK LPC
. . .
SEGMENTATION AND LABELING
CONTROL ENERGY
RECOGNIZED SPEECH
FEATURE DETECTOR Q
FORMANTS PITCH VOICED/ UNVOICED ENERGY NASALITY FRICATION
PHONEME LATTICE SEGMENT LATTICE PROBABILISTIC LABELING DECISION TREES PARSING STRATEGIES
Gambar 2.5 Blok Diagram Sistem Pengenalan Ucapan Akustik Fonetik (Rabiner dan Juang, 1993, p45) Langkah ketiga adalah fase segmentation and labeling. Pada fase ini sistem mencoba menemukan daerah yang stabil, yaitu pada daerah yang hanya terjadi sedikit perubahan maupun pergeseran fitur. Kemudian, memberikan label pada area yang tersegmen menurut seberapa cocok fitur di dalam area tersebut dengan unit fonetik individual. Keluaran terakhir adalah kata-kata yang memiliki pasangan paling cocok pada referensi kata. Akan tetapi banyak masalah yang terkait dengan pendekatan ini, sehingga menyebabkan kurang suksesnya praktik sistem pengenalan ucapan, diantaranya : •
Metodenya memerlukan pengetahuan yang luas tentang properti akustik dari unit fonetik.
27 •
Pemilihan fitur didasarkan pada pemikiran yang tidak terencana. Pada banyak sistem, pemilihan fitur didasarkan pada intuisi serta tidak optimal dalam logika berpikir.
•
Desain pengklasifikasi suara juga tidak optimal. Metode yang tidak terencana biasanya digunakan untuk membangun suatu pohon keputusan binary. Pada akhirnya CART (Classification And Regression Tree) digunakan untuk membuat pohon keputusan menjadi lebih baik.
•
Tidak ada cara yang ideal untuk memberikan label pada pelatihan ucapan yang diterima dan disetujui oleh pakar linguistik secara luas.
2.3.3.2 Pendekatan Statistical Pattern-Recognition Dalam pendekatan ini terdapat 4 langkah dasar yaitu : •
Feature Measurement : adalah hasil dari beberapa tipe teknik analisis spektral seperti LPC, Filter-Bank Analyzer.
•
Pattern Training : test pattern untuk menghasilkan bentuk atau pola yang memiliki fitur-fitur (keistimewaan) dari suatu kelas, kemudian hasilnya akan dijadikan reference pattern (berupa template / model statistik).
•
Pattern Classification : membandingkan masing-masing test pattern yang dimasukkan, dengan reference pattern yang ada di dalam kelas-kelas atau basis data.
•
Decision Logic : hasil perbandingan dari pattern classification, digunakan untuk menentukan reference pattern yang paling mendekati atau mirip dengan test pattern yang dimasukkan. Salah satu metode yang sudah digunakan secara luas untuk aplikasi continuous speech
recognition adalah Hidden Markov Model (HMM). HMM merupakan model statistik yang
28 menggambarkan distribusi kemungkinan transisi dari model bahasa yang ada. HMM mengandung suatu proses stokastik tambahan dengan proses stokastik tersembunyi sebagai dasarnya, tetapi proses tambahan ini dapat dipelajari melalui rangkaian proses stokastik lain, proses ini menghasilkan urutan-urutan pengamatan. Probabilistic Pattern Recognition Model yang digunakan di dalam sistem pengenalan suara untuk membantu mendeterminasi kata-kata mana saja yang dipresentasikan oleh suara yang ditangkap oleh komputer. HMM merupakan algoritma dasar yang digunakan pada sistem pengenalan suara (Atwell, 1999). Elemen-elemen yang terdapat dalam HMM sebagai berikut : •
N, banyaknya state dalam satu model
•
M, banyaknya simbol pengamatan dalam satu state
•
Distribusi kemungkinan perpindahan state, A = {aij }dengan :
aij = P[ qt+1 = j | qt = i ], •
Distribusi kemungkinan observasi simbol, B = {bj(k)} dengan :
bj(k) = P[ ot = vk | qt = j ], •
1 ≤ i,j ≤ N
1≤k≤M
Distribusi initial state, π = { πi } dengan :
πi = P[ q1 = i ],
1≤i≤N
Model statical pattern-recognition tentu saja memiliki kelebihan dan kelemahan. Beberapa kelebihan dan kelemahan model statical pattern-recognition, sebagai berikut:
•
Kinerja sistem sensitif terhadap sejumlah data latihan yang ada untuk membuat pola referensi kelas suara. Biasanya semakin sering berlatih, kinerja sistem semakin tinggi.
29
•
Pola-pola referensi sensitif terhadap lingkungan pembicara dan karakteristik media transmisi yang digunakan dalam menghasilkan ucapan. Hal ini menyebabkan karakteristik spektral ucapan dipengaruhi oleh transmisi dan noise.
•
Tidak ada pengetahuan ucapan khusus yang digunakan secara eksplisit di dalam sistem, sehingga metode ini kurang sensitif untuk memilih kosa-kata, penugasan sintak, dan penugasan semantik.
•
Perhitungan yang digunakan pada pelatihan pola dan klasifikasi pola umumnya cocok terhadap sejumlah pola yang telah dilatih maupun dikenali.
•
Karena sistem kurang peka terhadap kelas suara, sehingga serangkaian teknik pengembangan untuk satu kelas suara dapat langsung digunakan pada kelas suara yang lain tanpa mengganti maupun memodifikasi algoritma yang dipakai.
•
Model pengenalan pola secara relatif menggabungkan batasan sintaks kedalam struktur pengenalan pola, sehingga meningkatkan keakuratan sistem pengenalan sekaligus menurunkan proses penghitungan.
2.3.3.3 Pendekatan Intelegensia Semu Ide dasarnya adalah mengumpulkan dan menggabungkan berbagai macam informasi dari berbagai sumber pengetahuan kemudian digunakan untuk menyelesaikan masalah yang ada. Dalam hal ini terdapat beberapa sumber informasi :
•
Pengetahuan akustik : keterangan dari mana suara berasal untuk menentukan spectral
measurement serta ada tidaknya fitur-fitur.
30
•
Pengetahuan leksikal : merupakan kombinasi dari akustik untuk memetakan atau mengubah dari bentuk suara menjadi bentuk kata menggunakan leksikon.
•
Pengetahuan sintaksis : merupakan kombinasi dari kata-kata untuk membentuk kalimat yang benar sesuai aturan penulisan.
•
Pengetahuan semantik : pemahaman terhadap tugas utama sehingga dapat menentukan apakah sebuah kalimat sudah tepat dan sesuai aturan bahasa.
•
Pengetahuan pragmatik : kemampuan menyimpulkan arti dari suatu kata berdasarkan aturan bahasa suatu daerah yang menggunakan bahasa/kata-kata tersebut. Ada beberapa cara untuk menggabungkan sumber pengetahuan kedalam sistem
pengenal ucapan. Cara yang pertama adalah dengan pemrosesan bottom up, yaitu tingkat proses paling bawah mendahului proses pada tingkat yang lebih tinggi secara berurutan, jadi cara ini akan memberikan batasan yang bertujuan untuk mendapatkan proses sesedikit mungkin. Top down merupakan pemroses kedua yang dapat dipakai. Pada proses ini model bahasa menghasilkan hipotesis kata yang sesuai dengan sinyal ucapan, selain itu akan terbentuk kalimat yang secara sintak dan semantik benar pada nilai kata yang dicocokkan. Pendekatan blackboard merupakan cara lain yang dapat digunakan. Pada teknik ini semua sumber pengetahuan dianggap berdiri sendiri. Hipotesa dan tes paradigma digunakan sebagai media komunikasi dasar diantara sumber-sumber pengetahuan. Berbagai macam sumber pengetahuan perlu dimasukkan kedalam pendekatan intelegensia semu. Dua konsep kunci dalam intelegensia semu adalah mempelajari pengetahuan yang ada dan beradaptasi. Salah satu jalan untuk mengimplementasikan konsep ini adalah dengan menggunakan pendekatan neural network.
31 Konsep pemahaman ucapan berdasarkan pada persepsi manusia. Sinyal masukan pertama kali dianalisis oleh suatu model yang disebut “ear model”, model ini memberikan informasi spektral dan menyimpannya ke dalam penyimpanan informasi sensor. Informasi sensor yang lain juga tersedia di dalam penyimpanan informasi sensor, informasi ini digunakan untuk menghasilkan beberapa tingkat fitur dari deskripsi ucapan. Selain media penyimpanan informasi sensor pada konsep ini terdapat pula long-term dan short-term
memory yang tersedia untuk berbagai macam pendeteksi fitur.
2.3.4
Masalah Fundamental pada Sistem Pengenalan Ucapan Seperti halnya masalah pada pengenalan pola lainnya, masalah fundamental pada
pengenalan ucapan adalah variabilitas dari pola ucapan manusia. Kesalahan pada pengenalan ucapan dikarenakan terjadinya tumpang tindih unit ucapan yang berbeda pada realisasi distribusi akustik (Anonim,2001). Secara umum variabilitas ucapan dapat dijabarkan sebagai berikut (Anonim, 2001) :
•
Variabilitas durasi. Dua kali pengucapan sebuah kata tidak mungkin memiliki durasi yang sama, walaupun diucapkan oleh orang yang sama.
•
Variabilitas spektral. Dua kali pengucapan sebuah kata tidak mungkin memiliki lintasan waktu spektral yang sama.
•
Variabilitas pembicara. Suara ucapan dipengaruhi oleh karakteristik anatomi, jenis kelamin, kesehatan, dan emosi dari si pembicara.
•
Logat. Logat pembicara dapat memberikan pengaruh yang cukup besar pada karakteristik suara ucapan dan pada kinerja sistem pengenalan suara.
32
•
Variabilitas kontekstual. Karakteristik unit ucapan dipengaruhi oleh hubungan unit kata-kata sebelum dan sesudahnya.
•
Co-articulation. Hampir sama dengan variabelitas kontekstual, hanya saja coarticulation juga dipengaruhi oleh kecepatan berbicara, logat, dan faktor psikologis.
•
Noise. Pengenalan ucapan dipengaruhi oleh noise, echo, distorsi pada saluran dan keadaan lingkungan.
2.4
Sinyal Sinyal didefinisikan sebagai :
•
besaran fisik yang berubah-ubah menurut waktu, ruang atau variabel bebas atau variabel-variabel lainnya. Secara matematis, kita mendeskripsikan sinyal sebagai fungsi dari satu atau lebih variabel bebas (Proakis dan Manolakis, 1997, p2)
•
informasi, pesan (berita), atau efek yang perlu dibawa lewat sistem komunikasi; Gelombang isyarat, perwujudan fisik suatu berita (IEEE); Kejadian (event) atau gejala (fenomena) yang membawa data dari satu titik ke titik lainnya (Wasito, 1987)
2.4.1
Klasifikasi Sinyal Menurut Proakis dan Manolakis (1997) sinyal dibedakan menjadi 4 golongan yaitu :
•
Sinyal-sinyal Multikanal dan Multidimensi Sinyal multikanal adalah sinyal yang nilai fungsinya dapat berupa vektor sinyal dengan sinyal-sinyal elektrik sensor ke-k sebagai fungsi waktu. k dapat bernilai dari satu sampai tak terhingga.
33 Sinyal multidimensi adalah sinyal yang merupakan suatu fungsi dari m variabel bebas.
•
Sinyal waktu-kontinu versus sinyal waktu-diskrit Sinyal waktu-kontinu (sinyal analog) didefinisikan sebagai sinyal yang untuk setiap nilai waktu diambil pada nilai-nilai dalam selang kontinu (a, b) dengan a dapat menjadi -∞ dan b dapat menjadi ∞. Sinyal waktu-diskrit adalah sinyal yang diambil hanya pada nilai-nilai waktu khusus tertentu. Sinyal waktu diskrit dapat digambarkan secara matematis dengan suatu barisan bilangan real atau bilangan kompleks.
•
Sinyal bernilai kontinu versus sinyal bernilai diskrit Jika suatu sinyal diambil dengan seluruh nilai yang mungkin baik pada interval terbatas atau tidak terbatas, hal ini dikatakan sinyal bernilai kontinu. Jika sinyal diambil pada nilai-nilai dari suatu himpunan terbatas nilai yang mungkin, hal ini dikatakan sinyal bernilai diskrit. Sinyal waktu diskrit yang mempunyai himpunan nilai-nilai diskrit dinamakan sinyal digital. Agar suatu sinyal dapat diproses secara digital, sinyal itu harus didiskritkan waktunya dan nilainya harus diskrit.
•
Sinyal deterministik versus sinyal acak Setiap sinyal yang dapat dideskripsikan secara unik dengan suatu pernyataan matematis eksplisit, suatu tabel data, atau suatu aturan yang didefinisikan dengan baik dinamakan deterministik. Istilah ini digunakan untuk menegaskan fakta bahwa seluruh nilai sinyal sebelum, sekarang, dan yang akan datang diketahui secara pasti, tanpa adanya ketidakpastian.
34 Namun dalam banyak aplikasi praktis, terdapat sinyal-sinyal yang tidak dapat dideskripsikan terhadap setiap alasan derajat keakuratan dengan formula-formula matematis eksplisit, atau suatu deskripsi seperti itu terlalu sukar untuk setiap penggunaan praktis. Kekurangan hubungan seperti itu menyatakan bahwa sinyalsinyal seperti itu dibatasi waktu dengan cara yang tidak dapat diramalkan. Kita mengacu sinyal-sinyal ini sebagai acak
2.4.2
Pemrosesan Sinyal pada Sistem Pengenalan Ucapan Pemrosesan sinyal merupakan bagian terpenting dari sistem pengenalan suara.
Berbagai parameter dapat digunakan untuk menggambarkan sinyal suara seperti short time
energy, zero crossing rates, level crossing rates, dan berbagai parameter lainnya. Akan tetapi short time spectral envelope dirasakan sebagai parameter yang paling cocok bagi sinyal suara (Proakis dan Dimitris, 1997). Pada spektral analisis terdapat dua metode utama yaitu filter-
bank spectrum analysis model dan linear predictive coding (LPC ) spectral analysis model.
2.5
Filter Filter merupakan suatu fungsi yang secara selektif mengubah bentuk gelombang,
karakteristik amplitudo-frekuensi dan frasa frekuensi sebuah sinyal menjadi bentuk yang diinginkan. Filter mempunyai tujuan untuk menekan adanya derau dan meningkatkan kualitas sinyal, mengekstraksi informasi yang dibutuhkan dari sinyal. Filter digital merupakan algoritma matematis, bertujuan untuk memroses sinyal, misalnya sinyal analog yang didigitalisasi kemudian menyimpan hasilnya ke dalam memori komputer.
35 Ada dua macam filter digital yang umum dikenal yaitu, FIR (Finite Impulse
Response) dan IIR (Infinite Impulse Response). n−1
s ( n) = ∑ h( k ) x ( n − k ) k =0 ∞
s ( n) = ∑ h( k ) x ( n − k ) k =0
persamaan pertama adalah persamaan untuk FIR, sedangkan filter IIR ditunjukkan pada persamaan kedua (Nugroho, 2001, p4). Salah satu teknik didalam Filter IIR yang dapat mendeteksi perubahan dalam sinyal suara adalah parametrik. Parametrik bekerja dengan cara menemukan parameter untuk model matematika, menggambarkan sinyal, sistem, atau proses. Teknik ini memanfaatkan informasi yang diketahui tentang sistem untuk membuat modelnya. (Matlab, 2002). Salah satu teknik yang dipakai dalam parametrik modeling adalah LPC. LPC merupakan teknik yang telah umum dipakai dalam sistem pengenalan ucapan. LPC memiliki beberapa keunggulan dibandingkan dengan metode lain, yang menyebabkan LPC banyak digunakan dalam sistem pengenalan ucapan, diantaranya, sebagai berikut :
•
LPC menyediakan pemodelan yang baik dari sinyal ucapan.
•
Ketika LPC ditempatkan pada analisis sinyal ucapan, LPC akan mengarah ke sumber yang masuk akal, hasilnya adalah representasi karakteristik vocal tract yang sesuai dengan kebutuhan.
•
LPC adalah model yang dapat menentukan area ucapan dengan menganalisis sinyal tersebut.
•
Model LPC bekerja sangat baik pada aplikasi pengenalan ucapan. Pengalaman telah menunjukkan bahwa kinerja sistem pengenalan ucapan yang menggunakan LPC,
36 hasilnya lebih baik daripada sistem pengenal yang menggunakan teknik lain, misalnya teknik filter-bank (Rabiner dan Juang, 1993, p98).
2.5.1
Deret “Bank of Filter” Pada metode ini, sinyal suara dianalogikan sebagai sinyal digital, s(n), dilewatkan
pada bandpass filter Q yang memilah frekuensi sinyal yang dilewatkan (lihat gambar 2.6 ). Misalnya 100-3000 Hz untuk sinyal telepon dan 100-8000 Hz untuk sinyal pemancar. Setiap filter dapat melakukan penyaringan sendiri dan umumnya saling melengkapi. Keluaran dari
bandpass filter ke i adalah Xn(eiωi), dimana ωi adalah frekuensi yang sudah dinormalisasikan dengan 2πfi / Fs dan Fs adalah frekuensi percobaan. Bandpass filter 1
Xn(eiω1)
speech
s(n)
Bandpass filter Q
Xn(eiωQ)
Gambar 2.6 Model Analisis Bank Filter (Rabiner dan Juang, 1993, p72)
2.5.2
Linear Predictive Coding (LPC) Metode ini membagi sinyal suara menjadi bagian-bagian kecil yang disebut speech
frames untuk dianalisis (lihat gambar 2.7). LPC menghasilkan koefisien bagi filter suara. Pada proses blok into frame, N menunjukkan ukuran dari frame sedangkan M menunjukkan jarak antar frame yang berdekatan.
37 Speech
s(n)
Block into frames
N
LPC Spectral Analysis
an
LPC Parameter Conversion
M
Gambar 2.7 model analisis LPC (Rabiner dan Juang, 1993, p72) 2.5.2.1 Model LPC Ide dasar dalam model LPC adalah contoh ucapan dalam waktu n dinyatakan dengan persamaan : s ( n) ≈ a1 s ( n − 1) + a 2 s ( n − 2) + K + a p s ( n − p )
dimana koefisien a1, a2,…, ap dianggap konstan. Bila ekspresi pemacu G u(n) dimasukkan kedalam persamaan di atas akan didapatkan persamaan : p
s (n) = ∑ ai s(n − i ) + Gu (n) i =1
dimana u(n) adalah ekspresi pemacu yang dinormalisasi, sedangkan G didapatkan dari pemacu tersebut. Dengan mengekspresikan persamaan tersebut ke dalam domain z maka akan didapatkan relasi : p
S ( z ) = ∑ ai z −i S ( z ) + GU ( z ) i =1
mengarah ke fungsi transfer :
H ( z) =
S ( z) = GU ( z )
1 p
1 − ∑ a i z −i
=
1 A( z )
i =1
Interpretasi dari persamaan di atas dapat dilihat pada gambar 2.8.
38
A(z)
Gambar 2.8 Model Linear Prediction (Rabiner dan Juang, 1993, p100) Dimana u(n), diskalakan oleh G, dan berperan sebagai input untuk semua kutub sistem,
H ( z) =
1 , untuk menghasilkan sinyal ucapan s(n). A( z )
2.5.2.2 Persamaan Analisis LPC Berdasarkan gambar 2.8, hubungan antara s(n) dan u(n) adalah : p
s (n) = ∑ a k s(n − k ) + Gu (n) k =1
Kombinasi linier dari sample ucapan yang terakhir diandaikan sebagai : p
s ( n) = ∑ a k s ( n − k ) k =1
2.5.2.3 LPC Processor LPC processor memiliki beberapa langkah dasar pemrosesan sebagai berikut (gambar 2.9) :
39 N
S (n)
C(m)
M
P
preemphasis
Frame Blocking
Windowing
LPC Parameter Conversion
LPC Analysis
Autocorrelation Analysis
Gambar 2.9 LPC Processor
a.
Preemphasis Preemphasis merupakan tahap pertama dari LPC yang memfilter sinyal suara
masukan dari mikrofon. Pada tahap ini, sinyal dengan frekuensi tinggi dilemahkan sehingga sinyal lebih tahan terhadap efek presisi atau pergeseran. Sistem digital yang digunakan oleh fungsi preemphasis adalah fixed atau slowly adaptive. Sistem yang paling umum dipakai adalah fixed first-order, H ( z ) = 1 − az −1 . Dengan a = 0.95 merupakan nilai yang paling umum dipakai (Rabiner dan Juang, 1993, p113 ) . b.
Frame Blocking Sinyal ucapan hasil preemphasis, s (n) , kemudian diblok kedalam frame-frame
sebanyak N sample, frame-frame yang saling berhubungan dipisahkan oleh M sample.
c.
Windowing
40 Langkah selanjutnya adalah pemberian window pada individual frame. Windowing memiliki tujuan untuk meminimalisasi diskontinuitas sinyal pada awal dan akhir masingmasing frame. Jika window didefinisikan sebagai w(n), dengan 0 ≤ n ≤ N − 1 , hasil akhir dari windowing adalah xl (n) = xl (n) w(n) , dengan 0 ≤ n ≤ N − 1 . Hamming window, merupakan teknik windowing yang paling umum dipakai pada sistem pengenalan ucapan. Hamming
window dirumuskan : 2πn w(n) = 0.54 − 0.46 cos , N −1
d.
0 ≤ n ≤ N −1
Analisis otokorelasi Masing-masing frame dari sinyal yang telah di-window, dilakukan otokorelasi.
rl (m ) =
N −1− m
∑ x (n )x (n + m) , n=0
l
l
dengan m = 0,1,…,p. Nilai p adalah nilai tertinggi pada
otokorelasi. Nilai p akan digunakan pada langkah berikutnya yaitu analisis LPC. Zeroth otokorelasi, Rl (0 ) , merupakan energi dari frame ke-ℓ. Energi ini merupakan parameter penting pada sistem pengenalan ucapan.
e.
Analisis LPC Analisis LPC merupakan proses yang mengubah masing-masing frame dari
otokorelasi p+1 kedalam bentuk set parameter LPC, dimana set tersebut mungkin saja koefisien LPC, koefisien refleksi, kofisien log area ratio, koefisien cepstral, atau transformasi ke bentuk set yang diinginkan. Metode umum yang biasa digunakan untuk mengubah koefisien hasil otokorelasi menjadi perameter LPC adalah Metode Levinson-Durbin.
41
f.
Pengubahan Parameter LPC Menjadi Koefisien Cepstral Koefisien cepstral LPC, c(m), dapat diturunkan secara langsung dari parameter LPC.
Koefisien cepstral merupakan koefisien hasil representasi transformasi fourier terhadap log
magnitude spectrum.
2.6
Perbandingan Sinyal Suara Untuk suatu sistem pengenalan suara dapat digunakan metode template, yaitu suara
yang dimasukkan kemudian dibandingkan dengan suara referensi (template) yang sudah tersedia di dalam basisdata. Untuk perbandingan terdapat banyak cara, sehingga perbandingan bentuk suara merupakan bagian penting dari suatu sistem pengenalan suara, agar didapatkan sinyal suara yang baik (jernih) serta dapat mendukung keakuratan hasil perbandingan, sinyal suara yang dimasukkan terlebih dahulu harus dipisahkan dari sinyalsinyal lain yang dapat mengganggu. Pendeteksian suara bertujuan agar sinyal suara yang dimasukkan dapat dipisahkan dari sinyal-sinyal lain yang tidak berguna. Untuk memperoleh kualitas suara yang baik dan jernih, sehingga dapat digunakan untuk membentuk speech pattern atau sering disebut juga
template. Menurut Rabiner dan Juang, dalam pendeteksian suara ada beberapa metode yang dapat digunakan, metode-metode ini digolongkan menjadi tiga macam pendekatan, sebagai berikut :
•
The Explicit Approach : pendekatan ini didasarkan atas premis bahwa pendeteksian suara dapat dilakukan tanpa tergantung kepada operasi-operasi pencocokan bentuk lain pada langkah berikutnya dalam proses pengenalan suara.
42
•
The Implicit Approach : pendekatan ini mempertimbangkan masalah pendeteksian suara secara simultan dengan pattern-matching dan proses recognition-decision, dianggap bahwa dalam sinyal suara yang dimasukkan selalu terdapat sinyal-sinyal lain.
•
The Hybrid Approach : pendekatan ini memiliki perhitungan yang sama dengan metode explicit namun tingkat keakuratannya sebanding terhadap metode implicit.