SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN M. SyamsaArdisasmita'
ABSTRAK SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN. Penggunaansuara untuk mengendalikanperalatanmerupakanantarmukayang efektif clanaman. Telah dikembangkansistem pengenalankata secaraotomatis untuk sistempengendaliperalatanmenggunakanPC yang dilengkapi denganDigital SignalProcessorcard. Sistemmemungkinkankomputermenangkapsuaraseseorangclan mengubahnya ke dalam bentuk spektogram.Digital signal processorcard dirancanguntuk melakukan akuisisidata suaraclanperhitungantransformasiFourier cepatuntuk menghasilkanspektogram.Sistem kemudianmembandingkaninformasi digital yang dihasilkan dengan suatudatabasesuara,baik yang tergantungpada pembicaramaupunyang tidak tergantungpada pembicaraclanmemberikanperintah jawaban yang sesuaikepada pemakai. Metoda Hidden Markov Model (HMM) mampu menangani perubahanstatistik daTi suara dengan memodelkan clemen-clemenfonetik kata-kata menggunakan probabilitas.Sinyalsuaradikarakterisasisebagaisuatuprosesacakdalambentukparameter-parameter, di mana parametertersebutdapatdiperkirakandengantepat clandirumuskandenganbaik. KeandalandaTi sistempengenalan kata otomatisakanberkurangsecaradrastisjika suaratergangguoleh derau.Jaringan syaraftiruanadalahbaik digunakanuntuk pembelajaran,mengekstraksi ciri, mengklasifikasimasalahclan memperkirakanpeluang.Penelitian dilakukan denganpendekatancampuranyaitu HMM clanjaringan syaraftiruanuntuk prakiraanclanoptimasipeluanglokal daTiHMM. Kata kunci: PengenalanKata,JaringanSyaraf,Hidden Markov Model
ABSTRACT INSTRUMENT CONTROL SYSTEM BY SPEECH COMMAND USING HIDDEN MARKOV MODEL AND ARTIFICIAL NEURAL NETWORK. The use of voice for instrument controlis the mosteffective and safestmode of interface.We developeautomaticspeechrecognitionfor instrumentcontrol systemusing PC and Digital SignalProcessorcard. Systemenablesa computerto take a person'svoice and convertit into a spectogram.Digital signalprocessorscard aredesignedspecifically to perform speechdata acquisition and intensive computationof fast Fourier transform to generate spectogram.The system then comparesthe resulting digitized information with either a speaker dependentor speakerindependentdatabaseand provides the user a reponsecommand.The Hidden Markov Model handlesthe statisticalvariationsof speechby modelling the phoneticelementsof words using probability.The speechsignalcan be well characterizedas a parametricrandomprocess,and that the parameterscan be estimatedin a precise,well-definedmanner.The performanceof automaticspeech recognitionsystemsdegradesgreatly when speechis corruptedby noise. The artificial neural network .Pusat Pengembangan Teknologi Infonnasi daD Komputasi -BAT AN
69
RisalahLokakaryaKomputasidalamgainsdan TeknologiNuklir XIV, Juli 2003 (69-86)
(ANN) is good at learning,feature extraction,classificationproblems,and probabilistic estimations.Our researc~,i,Sto have a hybrid approachusing the HMM and ANN to estimateand optimizethe local probabIlitIesof the HMM. Key words: SpeechRecognation,Neural Networks,HiddenMarkovModels.
,
PENDAHULUAN Pengendalian peralatan menggunakan suara merupakan model komunikasi antara manusia dengan mesin (human machine interface) yang paling efektif terutama untuk yang membutuhkan keamanan clanfleksibilitas tinggi seperti sistem pengendali pada pesawat tempur. Teknologi pengenalan suara memungkinkan komputer menangkap suara seseorang clan mengubahnya menjadi format digital yang dapat dipahami oleh sistem. Sistem kemudian membandingkan informasi digital yang dihasilkan dengan database suara, baik yang tergantung pada pembicara (speaker dependent) maupun yang tidak tergantung pada pembicara (speaker independent) untuk memberikan tanggapan kepada pemakai. Sampai beberapa tahun yang lalu, pengenalan suara selalu tidak akurat, rumit clan mahal. Tetapi dengan kemajuan daTi kecepatan prosesor, digital signal processor (DSP) clan metoda-metoda barn, menyebabkan pengenalan suara tidak lagi sulit clanmahal, tetapi menjadi kenyataan sehari-hari. Penggunaan digital signal processor adalah untuk mempercepat perhitungan daTioperasi-operasi kompleks dalam bentuk sinyal digital. Sistem pengenalan suara ini menggunakan kartu Digital Signal Processor TMS320C25 untuk mengambil data suara clan kemudian melakukan transformasi Fourier cepat (FFT) untuk mengubah sinyal suara daTi domain waktu menjadi spektrum energi dalam domain frekuensi. Suara ditangkap mikrofon clan ditranformasi menjadi citra dua dimensi (spectogram). Spektogram adalah penggambaran dua dimensi daTi sinyal suara dengan sumbu horisontal menunjukkan waktu, sumbu vertikal menunjukkan frekuensi, clan kerapatan titik menggambarkan amplitudo atau energi akustik. Segmen-segmen fonetik dapat terlihat denganjelas pada spektogram dengan derajat ketelitian yang tinggi. Pembacaan spektogram melibatkan proses pengambilan keputusan kompleks yang berdasarkan pada pengetahuan mengenai produksi suara. Karena itu dibutuhkan kemampuan untuk mendeteksi himpunan relatif kecil daTi isyarat-isyarat dasar pada spektogram clan penampilan yang berhubungandengan bentuk gelombang, zero crossing, atau energi terhadapwaktu. Pengenalan suara secara otomatis merupakan satu kemampuan manusia yang saatini berusaha dikuasai oleh komputer. Beberapa pendekatantelah digunakan dalam memecahkan masalah pengenalan suara secara otomatis ini, yaitu: Dynamic Time Warping (DTW), Hidden Markov Models (HMM) clan Artificial Neural Network (ANN). Model Markov Tersembunyi clan Jaringan Syaraf Tiruan memberikan basil yang terbaik. Metoda jaringan syaraf menyelesaikan pengenalan suara sebagai suatu
70
SistemKendali PeralatandenganPerintahSuaraMenggunakan Mode! Hidden
(M. SyamsaArdisasmita)
rnasalahpengklasifikasian fonetik yaitu dengan menemukanbatas permukaanpermukaankompleksantara segmen-segmen suarayang berbeda.Segmensuara ini dapat berupa kata-kata, fonem-fonem atau beberapaklasifikasi lainnya. Sistem klasifikasi pertama kali dilatih dengan sejumlah contoh kelas-kelasfonetik dalam usahamenentukanbatas-bataskelas. Pengenalandilakukan denganmengumpankan suaramasukanke jaringan untuk menentukanpadakelas keluaranyangmana segmen suaraini menjadibagianyangpalingmemungkinkan. Model Markov Tersembunyi(HMM) menganggapsuara sebagaisinyal yang dapat dimodelkandalam suatuprosesstokastik.Denganmengembangkansejumlah model yang berbeda untuk setiap segmensuara, maka suara yang datang dapat dibandingkandenganseluruhmodel yang adaclansegmensuarayang dikenal adalah yang memiliki kecocokanterbesar. Variabel-variabelsuara diberikan juga, walau untuk pembicara tunggal sarna seperti untuk pembicarajarnak, yaitu mempunyai kelas-kelassuarayangberbeda.Teori HMM dikembangkanoleh Baum (1970) adalah untuk pengenalansuaradidasarkanpada rantai Markov sebagaisuatumodel proses statistik. Sistemyang kami rancang melakukanpengenalansuara dalam dua tahap. TahappertarnadenganANN jenis Multi-Layer Perceptron(MLP) untuk memperoleh kelas-kelasfonetik yang tidak tergantungpadapembicara.Tahapkeduamenggunakan kelas-kelasfonem sebagaikeluarandaTiANN menjadiurutanvektor-vektorobservasi sebagaidatamasukanbagi sistempengenalansuaraberbasisHMM. Penggunaan MLP di sini adalah untuk membantu mengestimasiprobabilitas pengarnatandengan mengurangijumlah parameteryangdibutuhkandalampemodelanfonetik. METODA DAN PRINSIP KERJA Sistem terdiri daTi Personal Computer yang dilengkapi dengan card DSP. Card DSP berfungsi sebagai masukan yaitu untuk akuisisi perintah suara dan berfungsi sebagaikeluaran yaitu untuk bertindak sebagaipenggerak, untuk itu maka card DSP dilengkapi dengan mikroprosesor TMS320C25, pengubah analog ke digital (ADC) dan pengubah digital ke analog (DAC). Komunikasi antara card DSP dengan host PC dilakukan melalui instruksi Input/Output Port daTi alamat-alamat masukan/keluaran card DSP. Alamat dasar card DSP dapat dipilih dengan mengatur addressjumper pada card tersebut. Komputer host dapat memulai dan menghentikan eksekusi TMS320C25, mengakses RAM TMS320C25 dan menginterupsi kerja TMS320C25. Usaha mempercepat waktu perhitungan transformasi Fourier telah dilakukan yaitu dengan membuat algoritma Transformasi Fourier Cepat (Fast Fourier Transform) atau disingkat FFT seperti yang dilakukan oleh Cooley-Tukey. Algoritma FFT didasarkan pada pengfaktoran matriks yaitu pada perkalian dan penambahan yang mempunyai faktor bobot yang sarna. Besamya peningkatan kecepatan perhitungan dengan algoritma FFT adalahNflog N kali dari transformasi Fourier langsung.
71
RisalahLokakaryaKomputasidalamSainsdan TeknologiNuklir XN, Juli 2003
Gambar Bagansistempengenalan suara TMS320C25 merupakan keluarga DSP Texas Instruments TMS320, yaitu mikroprosesor CMOS pertama yang dapat mengeksekusi lebih dari 10 juta instruksi per detik. Kemampuan ini adalah basil dari penggabunganarsitektur perangkat keras, penerapan pengolahan paralel yang disebut pipelining disertai sejumlah kumpulan instruksi pemrograman yang efisien dan mudah untuk dimengerti. Arsitektur TMS320 menggunakan ripe Harvard yang dimodifikasi. Arsitektur ripe Harvard memisahkan struktur bus data dan bus program untuk memberikan kemampuan eksekusi dengan kecepatanpenuh, serta menempatkan memori data dan memori program di dua tempat terpisah. Hal ini memugkinkan pelaksanaan program dengan urutan serentak. Misalnya jika ada 3 instruksi yang akan dieksekusi secara berurutan, maka teknik pipelining akan mengambil instruksi ketiga, menerjemahkan instruksi kedua dan mengeksekusi intsruksi pertama secara serentak dalam satu siklus mesin. Modifikasi tipe Harvard pada keluarga TMS320 memungkinkan adanya pertukaran data antara memori data dengan memori program yang lebih fleksibel. Suara adalah penggabungan dari sejumlah getaran yang mengubah tekanan udara ke telinga. Jumlah getaran per detik disebut frekuensi yang diukur dalam siklus per detik (Hertz). Suara merupakan kombinasi dari nada-nada yang berbeda di mana setiap nada memberikan spektrum tersendiri dalam domain frekuensi. Batas tertinggi dari amplitudo spektrum frekuensi disebut dengan formant. Setiap nada mempunyai formant khusus pada lokasi-iokasi frekuensi tertentu, terutama huruf-huruf hidup. Kualitas dari suatu suara ditentukan oleh rentang frekuensi dan warna suara yaitu komposisi dari frekuensi-frekuensi penyusun bunyi. Jenis suara yang dihasilkan sangat dipengaruhi oleh segmen-segmenbunyi yang disebut dengan fonem yang membentuk formant. Formant disebut juga sebagai segmen-segmenfonetik suara yaitu frekuensi resonansi jalur lintasan suara pada manusia. Suara manusia memiliki banyak formant. Bunyi suatu kata sangat dipengaruhi oleh tiga formant dasar pertama (Fl, F2 dan F3), sedangkan warna bunyi ditentukan oleh formant frekuensi tinggi di atasnya. Komposisi formant-format dari ucapan kata seseorangdapat dijadikan sebagai kunci biometri yang bersifat unik, yaitu sistem yang tergantung pada pembicara (dependent speaker).
72
SistemKenda!iPeralatandenganPerintahSuaraMenggunakan Mode! Hidden
(M. SyamsaArdisasmita)
Fr~q\Jenc)'[kH~J
Gambar2. Formantsuaramanusia Transfonnasi Fourier merupakan perangkat matematika penting dalam pengolahansinyal yaitu untuk menghubungkan antaradomainspasialdengandomain frekuensi. Gelombangsuara dapat dianalisis dengantransformasiFourier. Analisis Fourier dari gelombang suara dapat menunjukkan struktur frekuensi dasar atau fundamentaldaTi gelombang tersebut dan harmonisa-harmonisanya. Transformasi Fourier menghubungkanantara sinyal suara dalam domainwaktu dengan spektrum energinya dalam domain frekuensi. TransformasiFourier yang diterapkan pada cuplikan sinyal suara sebagai fungsi waktu akan menghasilkanspektogramyaitu tampilan energi akustik (daerah hitam) sebagaifungsi daTi waktu (sumbu-x) dan frekuensi(sumbu-y)sepertipadaGambar3.
Gambar 3. Spektogram suara daTikata "syamsa"
73
Risalah i.A:>kakaryaKomputasi dalam Sains daDTeknologi Nuklir XN,
Juli 2003
Gambar4. Spektogramduapembicara,tiga formantpertamasangatmirip Gambar4 memperlihatkanspektogramdua orang pembicara,pembicara satu clanpembicaradua. Untuk memperolehsuarayang tidak tergantungpadapembicara (speaker independent)cukup diambil tiga formant pertama daTi pembentuksuara denganmenggunakanfilter pelewat rendah (low-passfilter). Filter digunakanuntuk menghilangkanspektrum-spektrumsinyal yang tidak dikehendakiclanmemperbaiki sinyal yang diinginkan. Dari Gambar4 dapatditunjukkanbahwa dalam suatukata terlihatbahwabentuktiga formantdasarpertamaadalahsangatmirip.
PRINSIP KLASIFlKASI DAN PENGENALAN SUARA Pengenalan suara dapat dilakukan melalui tiga tahap. Tahap pertama adalah pembentukan spektral suara yang disebut dengan spektogram. Sinyal suara ditangkap oleh mikrofon, kemudian didigitasi dan ditransformasi menjadi segmen-segmensuara oleh suatu pengolah sinyal digital ke dalam bentuk spektogram. Jaringan syaraf tiruan digunakan untuk menganalisis spektral ciri suara yaitu menyelesaikan pengenalan suara sebagai suatu masalah pengklasifikasian fonetik. Pengenalan dilakukan dengan menentukan pada kelas mana segmen suara, berupa fonem, menjadi bagian yang paling memungkinkan daTi suatu kata. Model Markov Tersembunyi memodelkan
74
~ ~
SistemKendaliPeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyamsaArdisasmita)
struktur temporal daTi urutan sinyal fonetik suarake dalam model-model kata. Segmen fonetik suara yang dikenal adalah yang memiliki kecocokan terbesar dengan seluruh model kata yang ada. Dengan melakukan kombinasi daTi dua metoda di atas diperoleh peningkatan pengenalan clan ketelitian daTi sistem pengenalan suara sebagai fungsi daTijumlah data pelatihan clanukuran jaringan syaraf yang digunakan.
--+
Pembentukan
Spektral (Filter)
Analisis Spektral Ciri Suara
Gambar5. Prinsipklasifikasiparametersuara Jaringan Syaraf Tiruan (ANN) Klasifikasi clan pengenalan suara dilakukan secara bertingkat. Pertama kelaskelas fonetik diklasifikasikan menggunakan jaringan syaraf tiruan jenis Multi-Layer Perceptron (MLP) yaitu model jaringan denganhubungan bertingkat di mana unit-unit neuron dikelompokkan menjadi beberapa lapisan, biasanya dikelompokkan menjadi tiga bagian yaitu: lapisan masukan (input layer), lapisan tersembunyi (hidden layer) dan lapisan keluaran (output layer). Umumnya jaringan yang lebih rurnit akan merniliki kemampuan yang lebih tinggi. Gambar 6 memperlihatkan skema keIja dari MLP yaitu melakukan klasifikasi sinyal suara yang telah ditransformasi ke domain frekuensi dengan algoritma FFT menjadi bentuk spektogram yang telah dinormalisasi. Normalisasi dari keseluruhan spektogram bekeIja dengancara berbeda-beda sepanjang sumbu waktu dan frekuensi. Skala waktu dimampatkan secaratinier, sedangkannilainilai komponen frekuensi dikelompokkan ke dalam pita-pita yang berbeda. Lebar pitanya tidak tetap, tetapi berubah secara eksponensialmenurut besar frekuensi. Sinyal Suara
Spektogram
Multilayer Perceptron
Kelas-kelas Fonetik
Gambar6. Klasifikasi kelas-kelasfonetik denganMLP
75
RisalahLokakaryaKornputasidalamgains dan TeknologiNuklir XN, Juli 2003
Untuk mendefinisikansuatupengklasifikasiangandayang memberikanderajat kepercayaan tertentu,kita barns memperolehsejumlahestimasidari post-probabilitas P(XECi/X),(i=l, ..., M) daTi keluaran-keluaranjaringan. Cara sederhanauntuk menggabungkanK pengklasifikasiadalahdenganmembangunpengklasifikasiratarata dengansuatupost-probabilitasyangbarn: 1 K
Pav(XECj Ix)=-
K
LPj(xeCj
Ix)
0 J=\
(1)
Jika tidak, makajaringan merupakanpengklasifikasisintaktik yang hasilnya hanya berupalabel yangmenandakan kelasyang palingmungkin.Dalamkasusini kesalahan jaringanmemainkanperanyang sangatpenting. KeandalandaTi suatuJaringan Syaraf Tiruan biasanyadibatasi oleh beberapa faktor, antaralain: -Tidak memadainyajumlah datadanpelatihan. -Sensitifnya sistemterhadapkondisi lingkungan. -Ketidak cermatanpadaprosedurpelatihan. -Adanya pengaruhderau(noise). Beberapafaktor di atas dapat di atasi denganteknik-teknik tertentu. Penggunaan skema cross-validation atau data tiruan untuk pelatihan dapat meningkatkan keandalandari jaringan syaraf.Masalahnyaadalahkedua teknik pendekatantersebut didasarkanpada interpretasiprobabilistik dan tidak ada jaminan untuk basil akhir. Karena itu MLP di sini digunakan untuk pengklasifikasian awal daTi sistem pengenalansuara.
Hidden Markov Model (HMM)
~~~~
~
~
~
~ I Pongonll"" f--
"'--v--"y" ~ ~ SI
S2
Suoro
~ SJ
Gambar 7. Pengkodeansuara
76
SistemKendali PeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. Syarnsa Ardisasmita)
Model Markov Tersembunyi (HMM) adalah suatu proses deterministik atau stokastik yang memodelkan fenomena acak yang bervariasi terhadap waktu atau struktur temporal daTi urutan sinyal terhadap waktu farik. HMM akan mencocokkan estimasi probabilistik dengan model vektor-vektor berurutan keluaran daTi suatu proses acak yang menjadi bagian dari rantai Markov. Rantai Markov adalah suatu struktur yang terdiri dari entitas-entitas stationer yang disebut keadaan (state). Transisi antara atau di dalam suatu keadaan adalah suatuprobabilistik. HMM mempunyai dua komponen utama: rantai markov keadaan hingga (finite state) dan himpunan hingga daTidistribusi probabilitas keluaran. Sistem pengenalan suara menganggap sinyal suara sebagai urutan satu atau lebih simbol-simbol atau segmen-segmensuara (fonem) yang dikodekan (Gambar 7). Dalam proses parametrisasi, suatu bentuk gelombang suara kontinyu diubah menjadi vektor-vektor parameter suara diskrit. Sedangkan proses pengenalan melakukan pemetaan antara vektor-vektor suara berurutan dan urutan simbol-simbol yang diinginkan. Ada dua masalah yang menyebabkan pengenalan seperti ini cukup sulit. Peftama, pemetaan antara simbol-simbol ke suara bukan pemetaan satu-ke-satu, karena urutan simbol-simbol berbeda dapat memberikan suara yang mirip. Selain itu ada variasi gelombang suara cukup besar disebabkanoleh misalnya gaya bicara, emosi dan kondisi lingkungan. Kedua, batas-batas antara simbol dalam bentuk gelombang tidak dapat diidentifikasi secarajelas. Permasalahanini dikenal sebagaimasalah lokasi batas-batas kata pada sinyal suara. Hal ini dapat dihindari dengan menerapkan pengenalankata secaraterisolasi.
Pengenalan Kata Terisolasi Misal suatu ucapankata didefinisikan sebagaivektor-vektorsuara berurutan ataupengarnatan 0, yaitu: 0 = 0\, °2,
, OT
(2)
dengan OTadalah vektor suara yang diamati pada waktu T. Masalah pengenalan kata terisolasi dapat dilihat sebagai suatu perhitungan probabilitas posterior: arg~{p(CJ)j
IO)}
(3)
1
dengan ffij adalah kosa kata ke-i. Probabilitas ini tidak dihitung langsung tetapi melalui aturan Bayes: P(o>.IO)= P(OIO>j)P(O>j) I
P(O)
(4)
Jadi untuk suatu probabilitas P( roJ, peluang kata yang diucapkan tergantung hanya pada probabilitas keserupaan (likelihood) P(roj I 0). Masalah untuk memperkirakan
77
RisalahLokakaryaKomputasidalamgainsdaDTeknologiNuklir XN. Juli 2003
kondisi kelas kerapatan pengamatan P(rojI 0) diganti menjadi masalah lebih sederhana untuk mengestimasi parameter-parametermodel Markov. a22
a33
ass
344
Model Markov
M
~
a34
323
a45
356
, I " '.
"I
a241
"'35\ I
.
I
'I
I
I
,,b2(DJ~b2(DJ " Ib3(o3)
\ \ \
\
\
\
""
lb4(DJ\b4(DS)
O~~~~~~Si D 0]
\\bS(D~
D
D
D
D
D
02
03
04
05
06
Gambar 8. Model pembangkit Markov
Dalam pengenalansuara berbasisHMM, diumpamakanvektor-vektor suara yang diamatiberhubungandengansetiapkatayang dibangkitkanoleh model Markov sepertipada Gambar8. Di sini diperlihatkanprosesdi mana enammodel keadaan bergerakmelalui suatu urutan keadaanX = 1, 2, 2, 3, 4, 4, 5, 6 dalam rangka membangkitkanurutan01sampai06. Maka urutankeadaanX adalah: P(O, x I M) = alzbz(oJ+ azzbz(oz) + az3b3(O3) +...
(5)
Dalam praktek, hanya urutan pengamatan0 yang diketahui clanurutan keadaanX bersifat tersembunyi.Oleh karena itu mengapametoda ini disebut sebagaiModel MarkovTersembunyi. Jika X tidak diketahui, keserupaanyang dibutuhkan dapat dihitung dengan menjumlahkanseluruhkemungkinanurutan keadaanX = x(l), x(2), x(3), ..., x(T), yaitu: T
P(O I M) = L aX(O)X(I)I1bX(I)(ol)a X(I)x(t+l) x
(6)
1=1
dengan x(O) dibatasi sebagai model keadaan jalan masuk sedangkan x(T+ 1) dibatasi sebagai model keadaan jalan keluar. Probabilitas kemiripan dapat didekati dengan hanya menggunakan urutan keadaanyang paling serupa:
78
SistemKendaliPeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyamsaArdisasmita)
P(OIM)=~x{aX(O)X(l)gbX(t)(Ot)aX(t)X(t+l)}
(7)
Misal suatu himpunan model Mi berhubungan dengan kata-kata Wi,persamaan2 dapat diselesaikan dengan menggunakan persamaan(3) dan menganggapbahwa: P(O I wJ = P(O I MJ
(8)
Dengan menganggap parameter-parameter {~j} dan {bj(oJ} diketahui untuk setiap model Mj dan dengan suatu pelatihan untuk setiap kosa kata, maka probabilitas kemiripan untuk setiap model yang membangkitkan kata tersebut dihitung dan model yang paling mirip akan mengidentifikasi kata tersebut.
dua
satu
tiga
1. 0 0 0 0 0 0
DODD
DDDDDD
2. DODD
DODOO
DDDDD
3. 0 0 0 110
DODOO
00000
Modelmodel Estimasi
!
!
!
M,
Mz
M3
Gambar9. Contohpelatihan Gambar 9 memperlihatkan contoh pelatihan HMM menggunakan kosa kata yang terdiri daTi tiga kata: "satu", "dua" dan "tiga". Dari pelatihan ill diperoleh model-model estimasi M\, M2 dan M3. Kemudian untuk melakukan pengenalan daTi beberapa kata yang tidak dikenal, probabilitas kemiripan akan membangkitkan setiap model daTi kata tersebut dan melakukan perhitungan sehingga model yang paling mirip akan mengidentifikasi kata tersebut (Gambar 10). Tidak diketahui:
0=000000
/
P(OIM1)
~ """'
P(OIM2)
P(OIM3)
Pilih Nilai Maksimum
Gambar10. Pengenalanmenggunakan HMM untukkataterisolasi.
79
RisalahLokakaryaKomputasidalamSainsdan TeknologiNuklir XN, Juli 2003
Kembali kita pada model konsep produksi dan pengenalansuara yang ditunjukkanpada gambar6, adalahjelas bahwa pengembangan untuk pengenalan suara pembicaraanyang kontinyu adalah denganmenghubungkanbeberapaHMM secarabersama-samasecara berurutan. Setiap model dalam urutan berhubungan langsungdenganperumpamaansimbol yang mendasariyaitu fonem-fonemuntuk pengenalansuarakontinyu. Data pelatihanuntuk pengenalansuara kontinyu harus terdiri daTi ucapan-ucapan yang kontinyu dan umumnyabatas-batasyang membagi segmen-segmen suara yang berhubungandengansetiapmodel fonem dalam urutan ternyatatidak diketahui.Dalam praktekbiasanyabatas-batas pada sejumlahkecil data pelatihan diberi tanda secara manual dengan tangan. Seluruh segmen yang berhubungandenganmodel tersebutdapatdikenaldan kata terisolasibasil pelatihan yang digambarkandi atas dapat digunakan.Biasanyajumlah data yang diperoleh dengancara ini sangatterbatasdan model-modelyang dihasilkanakanmiskin dengan perkiraan-perkiraan.Walaupun menggunakanjumlah data yang lebih besar, batasbatasyangdibuatdengantangantidak akanoptimalselamaterkait denganHMM.
BASIL DAN DISKUSI Suara yang masuk melalui mikrofon difilter untuk mencegah aliasing clan untuk mereduksi derau. Sinyal suara kemudian dicuplik dengan frekuensi sampling 22.050 Hz clan kemudian diubah ke dalam bentuk digital. Pembentukan spektral dilakukan dengan transformasi Fourier cepat (FFT) daTi 1024 titik secaraon-line oleh card DSP, sehingga diperoleh spektrum suara dalam bentuk spektogram. Gambar 11 memperlihatkan kotak dialog untuk mengatur paramater-parameter yang dibutuhkan untuk penfilteran, pencuplikan clanFFT.
Gambar11. Kotak dialog untukanalisisspektral
80
SistemKendali PeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyamsaArdisasmita)
Prosedur pertama adalah melatih ANN dengan sejumlah kosa kata dari beberapa pembicara. ANN yang digunakan adalah jenis MLP dengan 50 neuron di lapisan tersembunyi dan 10 neuron di lapisan keluaran. Ada beberapa parameter-parameter suara yang dapat dianalisis, misalnya: spektogram, zero crossing, profil pitch, dan energi. Parameter suara yang digunakan adalah spektogram karena memberikan basil yang terbaik dibandingkan dengan menggunakan diagram energi atau diagram zero crossing.
Tabell. Perbandingan basil pengenalan suara
ANN HMM ANN+HMM
,
Pengenalan Penyisipan Ketelitian 85% 32% 53 % 86% 11 % 75% 90% 86% 3,8%
Perbandingan hasil dan proses pengenalan suara antara sistem pengenalan suara berbasis ANN, HMM dan gabungan ANN dengan HMM ditunjukkan pada Tabell. Kita dapat lihat kelebihan daTiHMM terhadap ANN dengan86% pengenalan dan 75% ketelitian, sedangkan ANN dengan 85% pengenalan tetapi hanya 53% ketelitian disebabkan adanya penyisipan yang cukup besar (32%) yang sebagian besar disebabkan oleh segmen-segmen yang muncul secara singkat. ANN melakukan klasifikasi dengan baik tetapi menghasilkan keluaran yang penuh derau dan banyak penyisipan-penyisipan. HMM menghilangkan sebagian besar penyisipan tersebut karena mempunyai selang waktu dan kemampuan pemodelan dalam domain waktu yang lebih baik. Penggabungan daTi dua sistem ini memberikan keuntungan pada sistem pengenalansuara yaitu memberikan 90% pengenalandan 86% ketelitian.
Gambar 12. Dekoder penga1amatanclanPPI 8255A
81
RisalahLokakaryaKomputasidalamSainsdanTeknologi Nuklir XIV, Juli 2003
Sistem pengenalan suara tersebut dihubungkan dengan dekoder pengalamatan yaitu untuk mengarahkan tujuan dari perintah yang disalurkan melalui antarmuka periferal terprogram (Programmable Peripheral Interface) PPI 8255A. Perintah dapat berupa tombol untuk mengaktifkan suatu motor, menyalakan lampu, atau mengfungsikan detektor, bisa juga berupa kode misalnya untuk menggerakkan posisi suatu step-motor atau arab robot mobil. Penggunaannyayang lain adalah pada sistem pengamananakses di mana pintu hanya dapat terbuka jika suara yang diucapkan sudah mendapat otoritas sesuai dengan data suara yang tersimpan dalam database komputer sebagaibasil dari suatupelatihan.
KESIMPULAN Telah berhasil direalisasikan sistem pengenalan suara untuk mengendalikan suatu peralatan, baik berupa tombol maupun kode digital dengan tingkat keberhasilan yang cukup baik. Pada sistem pengenalan berbasis ANN, persentasekesalahan adalah fungsi daTi jumlah data pelatihan clan besar lapisan tersembunyi yang digunakan. Derau latar belakang yang cukup besar dapat mengurangi tingkat pengenalan, karena ANN hanya didasarkan pada interpretasi probabilistik sehingga tidak ada jaminan untuk basil akhir. Oleh sebab itu, ANN di sini hanya digunakan untuk pengklasifikasian awal daTi sistem pengenalansuara. Pada HMM standar, sebagian besar parameter dari distribusi pengamatan berhubungan dengan keadaan individual daTi setiap model fonem, sehingga secara statistik menjadi pembatas keandalan HMM. Penggunaan ANN jenis MLP adalah untuk mendapatkankelas-kelas fonetik untuk memperkirakan probabilitas keserupaan pengamatan yang akan meningkatkan ketelitian clan mengurangi kebutuhan memori daTi sistempengenalan suara berbasis HMM. Kombinasi daTidua metoda di atas dapat meningkatkan pengenalan clanketelitian daTisistem pengenalansuara.
DAFTARPUSTAKA ACERO, A., STERN, R.M., "EnvironmentalRobustnessin Automatic Speech Recognition", Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing,Albuquerque, NM, April, (1990) 849-852
2. BAHL, L.R., BROWN, P.F., SOUZA, P.V. DE, and MERCER, R.L., "Speech recognitionwith continuous-parameter hiddenmarkovmodels", In Alex Waibel editors, Readingsin SpeechRecognition. Morgan KaufmannPublishers,Inc., 1990.
82
SistemKendali PeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyamsaArdisasmita)
3
BENGIO, Y., CARDIN, R., MORI, R. DE, NORMANDIN, R., "A hybrid coder for hidden markov models using a recurreat neural network", Proc. of the International Conference on Acoustic, Speech and Signal Processing, Albuquerque,(1990)537-540
4.
RENALS, S., MORGAN, N., COHEN, M., and FRANCO, H., "Connectionist Probabilit stimation in the DECIPHER SpeechRecognitionSystem", ICASSP, SanFrancisco,(1992) 601-604
5
COSTA, M., FILIPPI, E., PASERO,E., "Multi-Layer PerceptIonensemblefor patternrecognation:some experiments",Proc. of IEEE Int. Con! on Neural Network.\', Vol. Vll, (1994)4232-4236
6. BOURLARD, H., MORGAN, N.; ConnectionistSpeechRecognition-AHybrid Approach.Kluwer AcademicPress,1994 7.
YOUNG, S. et al., The Hidden Markov Model Toolkit Book (for HTK version 3.1),CambridgeUniversity EngineeringDepartement,London,2002.
8.
ARDISASMITA. M. Syamsa., "Pengenalan Suara Secara Otomatis MenggunakanHidden Markov dan Jaringan Syaraf Tiruan", Prosiding Ilmu KomputerdanTeknologiInformasiIII, Jakarta,3 (I) (2002)
83
RisalahLokakaryaKomputasidalamgainsclanTeknologiNuklir XN, Juli 2003
DAFTARRIWAYATHIDUP 1. Nama
: M. SyamsaArdisasmita
2. TempattranggalLahir 3. Instansi 4. Pekerjaan/ Jabatan
: Bandung,28 Oktober 1957 : P2TIK-BATAN : KepalaP2TIK -Ahli PenelitiUtama
5. RiwayatPendidikan
: (setelahSMU sampaisekarang)
.S1
BidangFisikaInstrumentasi,FMIPA-UI
.S2
(DEA) BidangElektonikaPengolahSinyal,Univ. Montpellier, Perancis
.S3 BidangInformatikaIndustri,UniversitasMontpellier,Perancis 6. Pengalaman Kerja : .Kasubag SistemclanPera1atan Komputer-BBP, BATAN .Kabid
SistemKomputer-PPIBATAN
.Kepala PusbangtekInformasidan Komputasi .Fungsional PenelitiBidangPengolahan Citra Digital 7. OrganisasiProfesional : .Himpunan MasyarakatNuklir Indonesia(HIMNI) .Himpunan FisikawanIndonesia(HF!) .Perhimpunan Ahli Teknik Indonesia(PAT!) .International Societyfor Optical Engineering(SPIE) .International ImagingScienceclanTechnology(IS&T) .Anggota DewanRisetDaerah,PropinsiBaten
84
SistemKendali PeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyarnsaArdisasrnita)
DISKUSI
ABU KHALill RIV AI Apakah perbedaan model Hidden Markov dan model ANN juga termasuk perbedaan alat atau material yang digunakan? Jika berbeda, di mana letak perbedaannya yang mendasar.
M. SY AMSA ARDISASMIT A
Alat atau material yang digunakan adalah sarna yaitu Personal Computer yang dilengkapidengankartu DSP. Yangberbedaadalahmetodamatematikaatauprogram yangdigunakan.
UTAJA Seberapajauh ketelitian digitasi suara daTimicrophone?
M. SYAMSA ARDISASMU A Ketelitian digitasi suara ditentukan oleh resolusi/jumlah bit ADC (Analog-to-Digital Converter) yang digunakan. Kualitas daTi mikrofon menentukan sedikit atau besarnya derau (noise) pada sinyal suara. Tentu saja hat ini penting, karena besamya derau dapat menyebabkankegagalan atau penyisipan pada waktu pengenalankata.
GUNANDJAR 1
Kalau program ini bisa berhasil dapat menggantikansistemRemote Controle (dengancarapejettombol) untuk mengendalikan alat, apakahlebih efektif?
2,
Bila berhasil,alangkahsangatbermanfaatnya hila orangpidato/ceramah otomatis keluartulisan(sehinggapembuatannaskahpidato dilakukantanpamengetik).
85
2.
SistemKendali PeralatandenganPerintahSuaraMenggunakanModel Hidden
(M. SyarnsaArdisasmita)
M. SYAMSA ARDISASMITA
1.
Efektivitas dari penggunaan perintah suara pertama adalah masalah ergonomi, misalnya pada pengendali peralatan pesawat tempur di mana pilot pesawat diharuskan berkonsentrasi pada obyek yang diamati sambil memberikan perintahperintah melalui suara yang tidak mengganggu konsentrasi pandang yang bersangkutan. Yang kedua adalah dari segi keamanan di mana sistem kendali hanya dapat diperintah oleh pembicara tertentu (speakerdependent).
Pada saat ini Microsoft sudah menyertakansistempengenalansuara kontinyu pada produk Microsoft Office XP yang dapatmenggantifungsi penulisankatakata daTi penekanankeyboard menjadi penangkapankata-kata daTi suara pembicara oleh mikrofon yang dihubungkan ke soundcard komputer. PermasalahannyaMicrosoft belum membuat pengenalan suara berbahasa mdonesiajadi belum dapat untuk membuatpengetikanotomatis menggunakan suaradalambahasamdonesia.Fasilitasinilah yangbarnskita buatsendiri.
Home
86