12
BAB 2 LANDASAN TEORI 2.1. Spell Checking Operasi yang paling dasar dalam memproses bahasa.
2.1.1. Noisy Channel Model Speel checking dapat diistilahkan sebagai noisy channel model (NCM). pada dasarnya adalah idealisasi matematika dari suatu sistem komunikasi. Model ini dapat digambarkan dalam hal input, output, noise, target class dan estimasi input.
Tabel 2.1 Model Saluran bising
Noisy Channel Model
Input I
Word sequences
Output O
Word sequences (with mistakes)
Noise
Spelling Errors
Target Classes
All possible English words
Estimated Input Î
Corrected words
13 Oleh karena itu secara resmi ditetapkan tujuan spell checker untuk membuat daftar kata-kata yang kemungkinannya paling benar diberikan input tertentu, atau: î = argmax(p(i|o)) atau menggunakan Bayes: î = argmax(p(o|i)p(i)) Dimana p(i) adalah probabilitas sebelum dan p(o|i) adalah likelihood. artinya p(i) adalah probabilitas dari urutan kata, dimana p(o|i) adalah model dari spelling errors. Untuk memperjelas, tulis ulang formula menjadi: ĉ = argmax(p(t|c)p(c)) Yang kira-kira menjadi "koreksi terbaik adalah kata yang benar yang terjadi paling sering dengan kesalahan pengetikan”.
2.1.1.1.
Spelling Mistakes Kesalahan ejaan terdapat dua kategori: kesalahan non-kata dan kesalahan kata
yang sebenarnya. Kesalahan ejaan non-kata adalah kesalahan yang menghasilkan katakata tidak masuk akal, sedangkan kesalahan kata sebenarnya menghasilkan kata sah lainnya. Kesalahan ejaan juga dapat dibagi menjadi dua kategori: kesalahan ketik dan kesalahan kognitif. Kesalahan ketik berasal dari kesalahan sedangkan kesalahan kognitif
14 adalah kesalahan sebenarnya. Hal ini juga relevan untuk dicatat bahwa kesalahan ejaan dapat tunggal atau banyak kesalahan eja.
2.1.2. Error Checker Sebagian besar kesalahan ejaan adalah single-error, dan dapat diklasifikasikan sebagai salah satu dari berikut: •
Insertion (x menjadi xy)
•
Deletion (xy menjadi x)
•
Substitution (x menjadi y)
•
Transposition (xy menjadi yx)
Untuk mendeteksi kesalahan eja, checker akan memeriksa setiap kata dalam teks dan membandingkannya dengan sebuah kamus. Checker mungkin perlu melakukan transformasi morfologi dasar. Setelah sistem memiliki daftar kata-kata non teks, ia mengikuti algoritma sederhana: 1. Membuat daftar calon koreksi 2. Rank variasi ejaan 3. Memilih peringkat tertinggi sebagai hasil koreksi yang paling mungkin
15 2.2. Phonemes
Tabel 2.2 konsonan chart
Ahli bahasa mengklasifikasikan pidato suara yang digunakan dalam bahasa ke dalam beberapa kategori abstrak yang disebut fonem-fonem. Meskipun jumlahnya bervariasi sesuai dengan dialek pembicaraan dan ejaan dari linguis dalam klasifikasi. Fonem-fonem adalah kategori abstrak yang memungkinkan untuk bergrup bersama himpunan bagian dari suara pidato. Meskipun tidak ada suara pidato perantara, atau telepon, adalah ejaan c, semua telepon dikelompokkan ke dalam satu kategori phenome yang cukup mirip sehingga mereka menyampaikan arti yang sama.
16 Fonem-fonem dapat diklasifikasikan kedalam katagori ini:
VOKAL 1. Monophthongs – inggris amerika memiliki sebelas qualitas vokal tunggal termasuk Sembilan ejaan yang diucapkan menekan seperti dalam kata beet, bit, bet, bat, Bert, boot, book, but, bought dan duaejaan yang diucapkan merendah seperti dalam akhir kata abbot dan Hubert. Adapun vokal merendah lain seperti dalam kata caught / cot. 2. Diphthongs – Inggris amerika memiliki 6 diphthongs – ejaan yang memanifest secara tegas perubahannya dalam hal kualitas dari awal sampai akhir seperti pada kata bite, Boyd, bate, beaut, bout, boat.
KONSONAN 1. Approximants – ‘w’, ‘l’, ‘r’, dan ‘y’. 2. Nasals – ‘m’, ‘n’, dan ‘ng’. 3. Fricatives – ‘h’, ‘f’, ‘v’, ‘t’, ‘d’, ‘s’, ‘z’, ‘sh’ dan ‘z’. 4. Plosives – ‘p’, ‘t’, ‘k’, ‘b’, ‘d’, ‘g’. 5. Affricates – ‘ch’, ‘j’. Dalam daftar di atas kami menggunakan surat dari ejaan pada setiap kata untuk menunjukkan bunyi ujaran yang dimaksud. Namun, ejaan bahasa Inggris tidak fonetik, seperti yang kita semua tahu. Phoneticians telah mengembangkan seperangkat simbolsimbol yang mewakili pidato suara tidak hanya untuk bahasa Inggris, tetapi untuk semua
17 bahasa lisan yang ada. International Phonetic Alphabet (IPA) diakui sebagai standar internasional untuk transkripsi fonem dalam semua bahasa di dunia.
Gambar 2.1 vokal chart Pidato suara diciptakan oleh aktivitas getaran dalam saluran vokal manusia. Pidato biasanya ditransmisikan ke telinga pendengar atau ke mikrofon melalui udara, di mana pidato dan suara lain mengambil bentuk gelombang memancar variasi tekanan udara di sekitar nilai rata-rata beristirahat di permukaan laut sekitar 100.000 pascal (Pa). (Carmell, Tim. (1997).SpectogramReading. http://www.cslu.ogi.edu/tutordemos/SpectrogramReading/why.html)
2.3. Waveform dan Spectrogram Kita bisa menggabungkan tampilan waveform dan spektrogram untuk ucapan yang sama bersamaan menggunakan garis yang memberikan ukuran waktu berlalu.
18
Gambar 2.2 waveform dan spectrogram dari kata compute Waveform dan spectrogram untuk kata "compute" dikombinasikan dengan garis yang memberi kita ukuran durasi berbagai komponen yang di ucapan. (Carmell, Tim. (1997).SpectogramReading. http://www.cslu.ogi.edu/tutordemos/SpectrogramReading/why.html)
19 2.4. Model Markov
Model Markov adalah cara yang sangat baik dari konsep abstrak yang sederhana menjadi bentuk yang relatif yang mudah dikomputasi. Model Markov digunakan dalam segala hal seperti kompresi data untuk pengenalan suara. Dalam artificial intelligence, digunakan dalam pengolahan bahasa dan pengenalan suara.
2.4.1. Definisi Proses Markov Proses stokastik X(t) adalah aturan untuk menentukan fungsi X(t, ξ) untuk setiap ξ. Jadi proses stokastik adalah keluarga fungsi waktu yang tergantung pada parameter ξ atau secara ekivalen fungsi t dan ξ. X(t) adalah proses keadaan diskret bila hargaharganya bulat. Bila tidak demikian X(t) adalah proses kontinu. Pada tahun 1906, A.A. Markov seorang ahli matematika dari Rusia yang merupakan murid Chebysev mengemukakan teori ketergantungan variabel acak proses acak yang dikenal dengan proses Markov. Proses Markov adalah proses stokastik masa lalu tidak mempunyai pengaruh pada masa yang akan datang bila masa sekarang diketahui. Bila tn-1
20 2.4.2. Sifat Umum Sifat umum dari proses Markov adalah : 1. f(XnۚXn-1,……,X1) = f(XnۚXn-1) 2. E{ XnۚXn-1,……,X1} = E{ XnۚXn-1} 3. Proses Markov juga Markov bila waktu dibalik : f(XnۚXn+1,……,Xn+k) = f(XnۚXn+1) 4. Bila keadaan sekarang diketahui, masa lalu independen dengan masa akan datang, bila k<m
2.4.3. Definisi Rantai Markov Diberikan sebuah himpunan N dengan keadaaan E = { E1,E2, …, EN} dan rantai keadaan itu : Ej1, Ej2, Ej3,……EjN Rantai tersebut adalah rantai Markov bila : P( EkۚEj1Ej2…..Eji ) = P( EkۚEji )
2.4.3.1 Rantai Markov Diskret Rantai Markov waktu diskret adalah proses Markov Xn yang mempunyai keadaan (state) terbatas ai, dicirikan dalam bentuk probabilitas keadaannya : Pi[n] = P{Xn = ai} i = 1,2,…
21 Dan probabilitas transisi : πij[n1,n2] = P{Xn2 = ajۚXn1 = ai} karena Σπij[ni,n2] = 1 j
Σpi[k]π [k,n] = pj[n] ij
i
bila n1,n2,n3 maka :
πij [n1, n3] = Σπir [n1,n2]πrj[n2,n3] r
2.4.3.2. Probabilitas Transisi Probabilitas transisi adalah probabilitas pergerakan dari keadaan Ei ke Ej, dinotasikan dengan pij. P(Ej ۚEk1.Ek2,…Ekv, Ei) = P(EjۚEi) = pij N
Untuk semua i dan j pij ≥ 0 dan untuk setiap i Σpij = 1 J=1
2.4.3.3. Matriks Transisi Matriks transisi sebuah sistem dengan N keadaan, E1, E2,…., EN dan probabilitas transisi Pij1,2,….N adalah :
22 2.4.3.4. Probabilitas Vektor Distribusi probabilitas awal yaitu : N
P(Ei) = pi , sehingga untuk setiap i, pi ≥0 dan Σ
pi = 1
I=1
Biasanya dituangkan dalam matriks satu baris : ( p1 p2 p3 ….pN) disebut vektor karena isi yang ada di dalamnya adalah vektor probabilitas awal yang disimbolkan π0 sehingga : π0 = ( p1 p2 p3 …… pN)
2.4.3.5. Rantai Markov Homogen Bila proses Xn homogen, maka probabilitas transisi hanya tergantung pada selisih m = n2 – n1. πij[m] = P{Xn+m = ajۚXn = ai} Dengan mengambil n2 – n1 = k, n3 – n2 = n maka : πij[n+k] = Σπir[k] πrj[n] r
Untuk rantai Markov keadaan berhingga, bentuk di atas ditulis dalam bentuk vektor : Π[n+k] = Π[n] Π[k] dimana Π[n] adalah matriks Markov dengan elemen πij[n] menghasilkan Π[n] = Πn dimana Π = Π[1] adalah matriks transisi satu langkah dengan elemen-elemen πij.
23 Π[n+1] = Π[n] Π Matriks Π :
2.4.3.6. Rantai Markov Ergodik Rantai Markov disebut ergodik jika mungkin untuk berpindah dari keadaan satu ke keadaan yang lain. Πj = lim Pij(n) ∞
n=
dan Πj, 0 ≤ j ≤ M adalah solusi dari : M
M
Πj =ΣΠk pkj dan ΣΠj = 1 k=0
j=0
2.4.4. Definisi Model Markov Tersembunyi Penerapan teori HMM untuk pengenalan kata bukan lagi hal yang baru. Teori dasar HMM telah dipublikasikan oleh Baum pada awal tahun 70-an dan telah diaplikasikan oleh Baker dan Jelinek di IBM pada tahun 70-an. Tetapi perkembangan pesat dari HMM baru terjadi beberapa tahun terakhir ini. Hal ini disebabkan : 1. Teori dasar dari HMM telah dipublikasikan pada jurnal matematika namun tidak dibaca oleh insinyur yang bekerja pada pemrosesan sinyal.
24 2. Penerapan teori langsung ke pengenalan kata tidak memberi tutorial yang cukup untuk diterapkan ke penelitian mandiri. Model Markov Tersembunyi (Hidden Markov Model = HMM) merupakan salah satu model stokastik yang banyak menarik perhatian akhir-akhir ini. HMM terdiri atas sebuah sinyal yang dimodelkan sebagai sebuah rantai Markov keadaan terhingga dan sebuah observasi yang dimodelkan sesuai proses observasi pada rantai Markov. Metode statisitik HMM semakin populer pada dekade terakhir ini karena model tersebut kaya akan struktur matematika dan mengandung teori dasar yang bisa digunakan untuk beberapa aplikasi yang penting. Penerapan dari HMM meliputi pengenalan ucapan (speech recognition), target tracking, komunikasi digital, teknik biomedik dan keuangan. HMM didefinisikan sebagai kumpulan lima parameter (N, M, A, B, π). Jika dianggap λ = {A, B, π} maka HMM mempunyai parameter tertentu N dan M. Ciri-ciri HMM adalah : • Observasi diketahui tetapi urutan keadaan (state) tidak diketahui sehingga disebut hidden. • Observasi adalah fungsi probabilitas keadaan • Perpindahan keadaan adalah dalam bentuk probabilitas 2.4.5. Parameter Distribusi HMM mempunyai parameter-parameter distribusi sebagai berikut : 1. Probabilitas Transisi A = {aij} , aij = Pr(Xt+1 = qj ۚXt = qi ) , 1 ≤ j,i ≤ N
25 2. Probabilitas observasi B = { bi} , bi(k) = Pr(Ot = VkۚXt = qit ), 3. Distribusi keadaan awal π = { πi} , πi = Pr(Xo = qi) Sedangkan parameter tertentu HMM ada dua yaitu N dan M. 1. N, jumlah keadaan model. Dinotasikan himpunan terbatas untuk keadaan yang mungkin adalah Q = {q1, …….., qN} 2. M, jumlah dari simbol observasi/keadaan, ukuran huruf diskret. Simbol observasi berhubungan dengan keluaran fisik dari sistem yang dimodelkan. Dinotasikan himpunan terbatas untuk observasi yang mungkin adalah V= {V1,……..,VM}. Secara tradisional, parameter-parameter HMM ditaksir berdasarkan kriteria maximum likelihood (ML) dan algoritma Baum-Welch (EM = Expectation Modification). 2.4.6. Perluasan Model Markov Perluasan konsep dari model Markov adalah observasi merupakan fungsi probabilitas dari keadaan yang disebut Hidden Markov Model (HMM). HMM adalah suatu proses stokastik dengan proses stokastik dasar observasi diketahui tetapi urutan keadaan tidak diketahui (hidden), tetapi bisa diobservasi melalui himpunan proses stokastik lain yang menghasilkan urutan simbol observasi 2.4.7. Tipe-Tipe Model Markov Tersembunyi Ada dua tipe dasar HMM yaitu :
26 1. Discrete Hidden Markov Model (DHMM) Menggunakan probabilitas keluaran diskret nonparameter berdasarkan proses kuantisasi vektor sebelumnya. 2. Continuous Hidden Markov Model (CHMM) Menggunakan kerapatan parameter pada model untuk probabilitas keluarannya. 2.5. Teorema Bayes Teori ini dikemukakan oleh Thomas Bayes. Teorema Bayes adalah kebalikan dari probabilitas kondisional P(A|B) atau disebut posteriori probability, dimana dalam teorema Bayes : keadaan probabilitas dari kejadian awal diberikan untuk melihat kejadian yang mungkin akan terjadi kemudian. Bentuk umum Teorema Bayes : P(Hi|E)
= P(E∩Hi) ∑ P(E∩Hj) = P(E|Hi) P(Hi) ∑ P(E|Hj) P(Hj) = P(E|Hi) P(Hi) P(E)
Setelah penggunaan model markov untuk mendapatkan kata seperti apa yang didengar oleh komputer, ada kemungkinan kemputer menghasilkan kata yang sedikit bias dari kata yang sebenarnya. Untuk menghindari ini digunakan bayes untuk membuat sebuah pohon keputusan. Pohon keputusan secara kasar seperti pada pohon keputusan ini:
27
Gambar 2.3 Pohon Keputusan Teorema Bayes
2.5.1.
Bayesian Jaringan Dinamis Sebelum beralih
ke
jaringan
Bayesian,
kita
berhenti
sejenak
untuk
mempertimbangkan metode sementara. Sementara semua metode memaintain keadaan representasi dan beroperasi tersembunyinya dalam domain waktu diskrit, ada perbedaan danketerbatasan yang sangat signifikan. Hal ini menjadi
pertimbangan
sepanjang
sumbu linearity, interpretability, factorization, and extensibility. Linearity. Teknik Kalman fi ltering dasarnya
linier:
mengasumsikan
bahwa keadaan berturut-turut terkait dengan transformasi linear, dan bahwa keadaan dan observasi variabel terkait dengan transformasi linier. Meskipun berbagai skema telah dikembangkan untuk pemodelan sistem nonlinear dengan Kalman filters (Anderson & Moore 1979), mereka cenderung rumit dan diterapkan secara terbatas. Sebaliknya, baik HMMs dan NNS secara alami cocok untuk model proses nonlinier. Dalam HMMs, kemampuan ini berasal dari kesewenang-wenangan probabilitas
28 kondisional yang dapat dikaitkan dengan kedua transmisi dan emisi matriks, atau dengan representasi fungsionalnya. Dalam kasus NNS, berasal dari penggunaan fungsi aktivasi nonlinier. Interpretability. teknik
pemodelan.
Kalman
filter
Dalam
banyak
mungkin
yang
aplikasi,
paling
matriks
ditafsirkan terlibat
dari
adalah
dirancang dengan tangan yang tidak jauh dari hukum-hukum fisika yang dikenal dll. Parameter yang terkait dengan HMMs yang ditafsirkan sejauh mereka jelas, diberi label sebagai transisi \ "atau \ emisi" probabilitas, tetapi keadaan bagian HMM yang tidak selalu
memiliki
interpretasi
yang
jelas,
terutama
setelah
pelatihan.
Jaringan saraf adalah karena sering ditafsirkan setidaknya unit tersembunyi tidak ditugaskan. Artinya, apapun baik sebelum atau sesudah pelatihan. Bagaimanapun Juga adapengecualian. Factorization. Ada variasi yang luas dalam tingkat faktorisasi dikenakan oleh teknik-teknik pemodelan yang berbeda-beda, dan variabilitas meningkat dengan derajat tertentu bila ada yang bersedia untuk memodifikasi sistem “plain vanilla” . Kasus paling sederhana untuk mengatasinya adalah Kalman filters, dimana vektoralisasi keadaan dan observasi
pengamatan
secara
factor
inheren.
Sejauh bahwa matriks yang jarang, faktorisasi juga mengarah ke pengurangan jumlah parameter. Jaringan saraf dasar factorized dalam keadaan diwakili dengan pendistribusian busana oleh sejumlah besar node, tetapi, jika ada interkoneksi lengkap antara node dalam lapisan berturut-turut, jumlah parameter adalah jumlah kuadrat dalam keadaan, dan skalabilitas sangat terbatas. (Pemangkasan teknik dan berat-pembusukan dapat
29 digunakan untuk melawan ini: misalnya (Le Cun et al 1990;. Scalettar & Zee 1988). Sesuatu yang lebih besar tingkat strukturnya dapat merusakan jaringan besar menjadi sebuah kombinasi jaringan yang lebih kecil. Sebagai contoh, sebuah sistem untuk mengenali
digit
tulisan
tangan
(Le
Cun
et
al.
1989) menguraikan unit di lapisan tersembunyi ke dalam kelompok yang terpisah, dan tidak menggunakan interkoneksi lengkap antar lapisan. Selain itu, bobot kelompok berbeda yang pembatasnya harus sama (yaitu adanya parameter pengikat), lebih lanjut untuk mengurangi jumlah parameter bebas. Hirarkis konstruksi algoritma jaringan (Frean 1990; Fahlman &Lebiere 1990) mencapai representasi yang diperhitungkan dengan
hati-hati
membangun
struktur
hirarkis
di mana node dalam lapisan berturut-turut secara hati-hati ditambahkan untuk memperbaiki kesalahan-kesalahan lapisan sebelumnya, agar
interkoneksi secara
lengkap dihindari. Campuran struktur disajikan dalam (. Jacobs & Jordan 1991; Jacobs et al, 1991) mirip: jaringan saraf kecil dapat dilatih sebagai “lokal”, dan output mereka dikombinasikan
dalam
cara
yang
berprinsip
untuk
membentuk
output dari seluruh sistem. Dalam (Jordan 1992), skema ini diperluas untuk hirarki jaringan terorganisir. Dalam pengenalan suara, diperhitungkan pendekatan jaringan saraf telah digunakan oleh sejumlah peneliti. Dalam (Morgan & Bourlard 1992), metode disajikan untuk memfaktorkan jaring saraf sehinggadapat menghitung P (A, B JC) sebagai P (A; BJC) = P (AJC) P (BjA; C): Sebuah jaringan saraf terpisah digunakan untuk menghitung masing-masing faktor, dan skema ini mengurangi jumlah parameter pada lapisan output, tanpa
30 memerlukan kemandirian asumsi statistik. Metode ini diperluas dan diterapkan untuk tugas pengakuan skala besar pidato di (Cohen et al, 1992.), Jelas, faktorisasi ke lebih dari dua komponen juga mungkin. Pekerjaan (Fritsch 1997) menggunakan hirarki ANNs untuk mewakili distribusi probabilitas dengan cara yang diperhitungkan. Skema ini menunjukkan bahwa parameter-teknik mengurangi faktorisasi dapat diterapkan untuk jaringan saraf. Dalam definisi standard, HMMs secara fundamental unfactored: jika keadaan sistem terdiri dari kombinasi faktor, tidak dapat direpresentasikan sesingkat ini dalam metodologi. Dengan bagaimanapun, adalah mungkin untuk membuat sistem HMM di mana secara implisit merupakan kombinasi potongan yang berbeda dari beberapa informasi. Ini ini terjadi, misalnya, HMM-dekomposisi (Varga & Moore 1990) yang secara implisit kedua model sumber kebisingan dan sumber pidato, dan dalam HMMs artikulatori dari (Deng & Erler 1992). Perlu dicatat bahwa meskipun skema ini mencapai pengurangan parameter, tidak ada pengurangan yang sesuai pada persyaratan komputasi. Extensibility. Jaringan saraf sangat dapat diperluas, dan dapat dibuktikan secara approximators fungsinya mendunia. Kalman filter juga cukup diperluas karena keadaan dan pengamatan variabel adalah vektor-vektor, dengan demikian kompleksitas sistem dapat ditingkatkan dengan meningkatkan dimensiality dari vektor-vektor. Flexibility ini memodulasi, namun, dengan berasumsi yang mendasarinya dari linearitas. Hidden Markov Model yang agak terbatas dalam perpanjangan mereka oleh fakta bahwa cara utama mereka adalah meningkatkan kompleksitas hanya untuk meningkatkan jumlah
31 keadaan. Hal ini dapat canggung ketika keadaan keseluruhan sistem sebenarnya terdiri dari kombinasi faktor secara terpisah dapat diidentifikasi.
2.5.2.
Bayesian Network Dalam beberapa tahun terakhir, jaringan probabilistik atau Bayesian (Pearl 1988)
telah muncul sebagai metode utama untuk mewakili dan memanipulasi informasi probabilistik dalam AI komunitas. Jaringan ini dapat digunakan untuk mewakili baik peristiwa statis, seperti terjadinya serangkaian penyakit dan gejala, atau untuk mewakili proses-proses sementara seperti gerak dari sebuah mobil jalan raya. Jaringan probabilistik merupakan distribusi probabilitas gabungan dari satu set variabel acak {X1;…; Xn}. Yang menunjukkan penugasan nilai spesifik untuk variabel dengan surat yang lebih rendah-kasus, kemungkinan tugas gabungan dari nilai-nilai yang Spesifik dengan aturan rantai dan satu set asumsi conditional independence sebagai: P (x;…; xn) =
1
P(xi|Parents (Xi)). Berikut Parents (Xi) mengacu pada subset
dari variabel x1… Xi-1; diberikan nilai untuk Parents, Xi dianggap kondisional independen dari semua variable indeks lebih rendah lainnya. Probabilitas bersyarat yang terkait dengan masing-masing variabel sering disimpan dalam tabel yang disebut sebagai
CPTs.
Sebuah
jaringan
Bayesian
memiliki
grafis
yang
nyaman
direpresentasikan di mana variabel muncul sebagai node, dan variable parents ditunjukan oleh busur mengarah ke dalamnya, lihat Gambar 2.4.
32
Gambar 2.4: Sebuah jaringan Bayesian. Node berbayang mewakili variabel yang diamati. Setiap variabel memiliki tabel probabilitas kondisional yang terkait (atau representasi fungsional setara) yang terdistribusi atas nilai-nilai, dikondisikan pada nilainilai variabel Parents.
Sebagai contoh dari jaringan Bayesian, perhatikan Gambar 2.4. Jaringan ini berkaitan dengan gejala medis yang dapat diamati, melalui dua penyakit dasar. Set variabel dalam kasus ini adalah: “asbestos exposure”, ”lung cancer”, ” bronchitis”, ”shortness-of-breath”, and “headaches”. Ini semua adalah variabel biner, meskipun secara umum variabel dapat mengambil nilai-nilai banyak atau terus menerus. Untuk kenyamanan referensial, variabel juga telah diberikan singkatan huruf Faktorisasi yang jaringan ini kodekan adalah:
P (a, b, c, d, e) = P (a) P (bja) P (CJA) P (DJB; c) P (EJC):
tunggal.
33 Hal ini biasanya terjadi bahwa pengetahuan variabel parents yang tidak sepenuhnya menentukan nilai dari variabel tersebut, kita merujuk ke variabel seperti stokastik. Adapengecualian penting, bagaimanapun, di mana variabel parents sepenuhnya menentukan nilainya, dan kita mengacu pada variabel seperti deterministik. Bila kasusnya ini, keuntungan besar efesiensi dapat dihasil dari menggunakan pengkodean tipis dari probabilitas kondisional; ini akan muncul sebagai isu penting dalam penerapan jaringan Bayesian untuk pengenalan suara.
2.5.3.
Dynamic Bayesian Network Dalam kasus yang dinamis, jaringan probabilistik model sistem seperti ini
berkembang seiring waktu. Pada setiap titik waktu, satu set variabel X1;…; Xn adalah ketertarikan. Misalnya, untuk model mengemudi mobil, jalur-posisi dan kecepatan yang relevan. Sebuah DBN menggunakan satu set variabel Xit mewakili nilai kuantitas i pada waktu t. DBNs yang juga waktu-invariant sehingga topologi jaringan adalah struktur berulang, dan CPTs tidak berubah dengan waktu. Distribusi probabilitas gabungan ini kemudian direpresentasikan sebagai
1
P(xit|Parents (Xit). Dalam jaringan dengan
properti Markov deret pertama, perents dari variabel dalam timeslice t harus terjadi baik dalam irisan t atau t-1. Distribusi bersyarat di dalam dan di antara irisan diulang untuk semua t> 0, sehingga DBNs dapat dicari hanya dengan memberikan dua iris dan hubungan antara mereka. Ketika diterapkan pada urutan pengamatan panjang yang diberikan, DBN masih “unrolled” untuk menghasilkan jaringan probabilistik yang sesuai ukuran untuk mengakomodasi pengamatan.
34 2.5.4.
Kekuatan DBNs Jaringan Bayesian Dinamis secara ideal cocok untuk pemodelan proses
temporal,
memiliki
DBNs
keuntungan
sebagai
berikut:
1. Nonlinier. Dengan menggunakan representasi tabular probabilitas bersyarat, sangat mudah untuk mewakili fenomena nonlinier sewenang-wenang, apalagi mungkin untuk melakukan perhitungan yang spesifik dengan DBNs bahkan ketika variabel kontinyu dan probabilitas bersyarat yang diwakili oleh Gaussians. 2. Interpretability. Masing-masing variabel mewakili sebuah konsep yang spesifik. 3. Faktorisasi. Distribusi gabungan adalah pemfaktoran sebanyak mungkin. Hal ini menyebabkan: Efesiensi statistik. Dibandingkan dengan HMM tidak terfaktorkan dengan kemungkinan yang
sama,
DBN
dengan
representasi
negara
diperhitungkan
dan
jarang
hubungan antara variabel akan memerlukan parameter secara eksponensial lebih sedikit. Efisiensi komputasi. Tergantung dari topologi grafik yang tepat, pengurangan dalam model parameter dapat mungkin dibalikan dalam pengurangan
running time.
4. Extensibility. DBNs dapat menangani sejumlah besar variabel, memberikan strukturgrafik yang sangat jarang.
35
Gambar 2.5 atas: Sebuah DBN sederhana, “unrolled” Bawah: DBN A dengan keadaan faktor representasi. Representasi diperhitungkan dapat menggambarkan evolusi jumlah yang sama dari negara total dengan parameter secara eksponensial lebih sedikit.
Akhirnya, DBNs memiliki semantik probabilistik yang tepat dan dipahami dengan baik. Kombinasi dari efiensi mendasari teoritis, ekspresif, dan efisiensi pertanda baik bagi masa depan DBNs di banyak area aplikasi.
36 2.5.5. Inference and Learning with DBNs
Gambar 2.6 variabel tree. Partisi bukti ditunjukkan untuk Xi.
Jika Xi = j tidak konsisten dengan pembuktian yang berlawanan ei0, maka P(ei-,ei0|Xi = j) = 0. Dapat disimpulkan, quantitas keduanya akan di kalkulasi untuk setiap variable Xi. :
Mengikuti dari definisi :
37
(G. Zweig, Geoffrey. Speech Recognation With Dynamic Bayesian Networks. 1998)
2.6. Metode Perancangan Program
Bagaimana komputer mengubah ucapan yang diucapkan menjadi data yang kemudian dapat dimanipulasi atau dieksekusi? Dari perspektif umum yang harus dilakukan pada Awalnya, ketika kita berbicara, mikrofon mengubah sinyal analog suara kita menjadi digital potongan data yang komputer harus analisis. Dari data inilah
38 komputer harus mengekstrak informasi yang cukup untuk menebak kata yang diucapkan. Jadi caranya:
Step 1: Extract Phonemes Fonem-fonem paling baik digambarkan sebagai unit linguistik. Mereka adalah kelompok suara yang bersama-sama membentuk kata-kata kita. Fonem dikonversi menjadi suara tergantung pada banyak faktor termasuk Fonem-fonem disekitarnya, aksen pembicara dan usia. Berikut adalah beberapa contoh: Tabel 2.3 Fonem-fonem inggris aa
father
ae
cat
ah
cut
ao
dog
aw
foul
ng
sing
t
talk
th
thin
39
uh
book
uw
too
zh
pleasure
Bahasa Inggris menggunakan sekitar 40 fonem-fonem untuk menyampaikan 500.000 atau lebih kata-kata yang dikandung, membuat bahasa inggris menjadi sebuah data yang relatif baik digunakan untuk mesin pengenalan suara.
Extracting Phonemes Fonem-fonem sering diekstraksi dengan menjalankan waveform melalui Fourier Transform. Hal ini memungkinkan gelombang yang akan dianalisa dalam domain frekuensi. Prinsip ini lebih mudah dipahami dengan melihat sebuah spektrograf. Spektrogram adalah plot 3D frekuensi gelombang dan amplitudo terhadap waktu. Dalam banyak kasus, amplitudo frekuensi dinyatakan sebagai warna (baik Skala abu-abu, atau warna gradien). Berikut ini adalah spektrogram "Generation5":
40
Gambar 2.7 Spektrogram dari kata Generation 5 Sebagai perbandingan, di sini adalah spektrograf lain dari bit "ss":
Gambar 2.8 Spektrogram dari bit ss
41 Dengan ini, kita dapat melihat di mana dalam "Generation5" "sh" dari Generation5 bahwa rentang waktu yang sedikit berbeda pada dua spektrograf, sehingga mereka terlihat sedikit berbeda.
Relatif mudah untuk menyesuaikan amplitudo dan frekuensi dari template fonem dengan fonem yang sesuai pada sebuah kata. Untuk komputer, tugas ini jelas lebih rumit tapi pasti dapat dicapai.
Step 2: Markov Models Setelah komputer menghasilkan daftar fonem, fonem ini harus diubah menjadi kata-kata dan bahkan mungkin kata-kata menjadi kalimat.
Namun, metode yang paling umum adalah dengan menggunakan Hidden Markov Model (HMM).
Pada dasarnya, pemikirkan Model Markov (dalam konteks pengenalan suara) sebagai rantai phonemes yang mewakili sebuah kata. Rantai dapat bercabang, dan jika tidak maka secara statistik rantai seimbang. Misalnya:
Gambar 2.9 Model Markov dari kata Tomato
42 Ini adalah Markov Model untuk kata "tomato". Dalam hal ini, model sedikit bias terhadap pengucapan dalam bahasa Inggris. Ide ini bisa diperpanjang sampai ke tingkat kalimat, dan sangat dapat meningkatkan pengenalan. Misalnya: Recognize speech Bisa terdengar seakan seperti: Wreck a nice beach Kedua frase secara mengejutkan mirip, namun memiliki makna yang sangat berbeda. Sebuah program dengan menggunakan Model Markov pada tingkat kalimat mungkin bisa memastikan mana dari kedua frase pembicara itu benar-benar digunakan melalui analisis statistik menggunakan frase yang mendahuluinya. (Matthews, James. (2002). How Does Speech Recognition Work?. United Kingdom; Generation5.) Step 3 : Teorema Bayes Setelah kata-kata didapat dari semua kemiripan frase, untuk mendapatkan kata/ yang diinginkan dan benar, dapat gunakan teori bayes.
Gambar 2.10 Keputusan Berdasarkan Bayes