17
2 TINJAUAN PUSTAKA 2.1
Gerakan Kawanan Ikan Gerakan kawanan jenis ikan tertentu di perairan baik di laut maupun di air tawar terdiri dari 3 (tiga) gerakan yaitu : schooling, shoaling dan soliter. Pada penelitian ini akan dibahas ikan bergerak secara schooling dan ikan yang bergerak secara shoaling Dilihat dari gerakannya pengertian
schooling suatu kelompok ikan
diartikan bermacam-macam oleh beberapa pakar antara lain : 1) Breder dan Halpern (1946) : schooling adalah kelompok ikan yang
mempunyai kesamaan orientasi, dengan jarak antar individu sama dan berenang dengan kecepatan yang sama. 2) Breder (1967) : schooling adalah untuk species hampir seluruh hidupnya berenang dengan polarisasi yang sama dan mempunyai kelompok yang permanen. 3) Radakov (1973) : school adalah sebuah kelompok ikan yang berenang bersama-sama. 4) Shaw (1983) : menyatakan bahwa kelompok dari ikan secara kesatuan melakukan atraksi secara bersamaan. 5) Pitcher (1983) : mendefinisikan schooling adalah ikan yang berenang terpolarisasi dan sinkron.. 6) Partridge (1982) : tiga atau beberapa kelompok ikan dimana setiap anggotanya (individu) secara konstan mengatur (adjust) kecepatan dan arahnya sesuai dengan gerakan ikan-ikan lainnya. Tetapi pada prinsipnya schooling dapat disimpulkan adalah pergerakan kawanan ikan tertentu dengan pola, arah (polarisasi), dengan irama dan struktur yang sama untuk setiap individu. Sekumpulan ikan yang secara individual koordinasinya tidak terlalu ketat disebut shoaling. Menurut Pitcher (1983), menyatakan bahwa schooling adalah kejadian khusus dari shoaling, tetapi dengan penekanan pada gerakan sinkronisasi dan polarisasi . Umumnya schooling sekumpulan ikan pada malam hari menyebar dan mengembangkan (memperluas) bentuk dan batasan kumpulan.
18
Fungsi dari schooling dari kawanan ikan adalah : 1) Menghindari serangan dari predator 2) Mencari makan yang efektif 3) Keuntungan dalam hidrodinamik 4) Migrasi 5) Reproduksi 6) Pembelajaran Kepadatan schooling ikan (jumlah ikan per unit volume) tergantung dari jenis dan panjang ikan (Pitcher and Partridge, 1979). Makin panjang makin kecil kepadatannya. Pada Gambar 9 dapat dilihat kepadatan ikan dalam satu schooling untuk tiga jenis ikan yaitu saithe, heering (kembung) dan sprat. Pada Gambar 10 dapat dilihat volume rata-rata per ikan untuk schooling saithe lebih besar dari schooling
herring. Dari hasil pengamatan beberapa pakar, antara lain untuk
herring dengan panjang 27 cm, kepadatannya dalam akuarium berukuran 0,7 m3, kepadatannya mencapai 60 per m3 (Foote, 1983), sedangkan kondisi
Fish length (cm)
Gambar 9. Kepadatan schooling yang berhubungan dengan panjang ikan untuk jenis-jenis saithe, herring, dan sprat. (Misund, 1993b).,( o = saithe, = herring, = sprat)
19
Gambar 10. kepadatan schooling herring (Misund and Floen, 1993). dimana herring berenang bebas, kepadatannya rata-rata mencapai 2 ikan per m3 (Misund, 1993b).
Untuk ikan jenis saithe dengan ukuran 35 cm mempunyai
kepadatan sekitar 100 per m3 dan sprat dengan panjang 10 cm, kepadatannya sekitar 200 m3 (Rottingen, 1976). Berdasarkan hasil pengamatan echo sounder dari tiga transect, diperoleh gambaran dimana setiap transect diperoleh bentuk schooling yang berbeda dengan kepadatan per transect yang bervariasi. Gambar
10
memperlihatkan
pandangan
horisontal
bentuk dan
kepadatan
schooling
herring
dari
sangat bervariasi. Umumnya bagian dalam schooling
mempunyai kepadatan yang paling besar Bentuk dan dimensi dari schooling tergantung dari waktu (Squire, 1978), jenis ikan (Misund et al, 1995; Hara, 1985), kedalaman (Misund, 1993b) dan penghindaran terhadap serangan predator (Freon et al, 1992). Demikian pula dimensi schooling horisontal lebih besar dari dimensi school vertikal (Oshihimo, 1996). Bentuk schooling herring tergantung dari kedalaman (Misund, 1993b). 70 % dari schooling hering berbentuk circular atau oval, 20 % berbentuk parabola atau rod, dan 10 % berbentuk amorphous. (Misund et al, 1995).
20
Dari hasil pengamatan yang dilakukan oleh Freon, (1992) melalui udara (pesawat terbang) selama satu jam diperoleh bentuk schooling secara horisontal dari jenis harengula clupeola selalu berubah-ubah (Gambar 11)
Gambar 11.
Perubahan bentuk schooling harengula clupeola dari pandangan horisontal selama pengamatan satu jam. (Freon et.al., 1992).
Pada gambar dapat dilihat selama periode satu jam, luas permukaan schooling berubah dari 145 – 522 m2. beberapa sepecies seperti herring, bentuk schoolingnya mempunyai
perubahan yang lebih
kecil dibandingkan dengan
species lainnya (Partridge et. al, 1980) Ikan berenang membentuk pola tertentu tergantung dari jenis ikan. Umumnya semua jenis ikan berenang dengan membentuk barisan berupa kisi-kisi (lattice) belah ketupat (rhombic lattice) dan ada pula membentuk barisan kisi-kisi bujur sangkar (cubic lattice) baik secara vertikal maupun horisontal. Jarak atau sudut antar individu berbeda untuk setiap jenis ikan. Gambar 12 memperlihatkan
21
(a)
(b)
Gambar 12.
Posisi antar individu untuk tiga jenis ikan, seithe, herring dan cod dilihat dari pandangan (a) atas (horisontal) dan (b) vertical (Partridge et al., 1980).
posisi antar individu dari tiga jenis ikan yaitu saithe, herring dan cod. Baik secara vertikal maupun horizontal (Partridge et. al, 1980). Umumnya schooling atau shoaling campuran beberapa jenis ikan terdapat pada kawanan ikan demersal atau semi demersal dan beberapa perairan terumbu karang di daerah tropis (Ehrlich, 1973, Alevizon, 1976). Akan tetapi ada pula untuk ikan pelagis yang umumnya campuran jenis ikan tertentu misalnya dari hasil pengamatan in situ
juvenile anchovetas (cetengraulis mysticetus) dengan
flatiron herring (Hobson, 1963) di di perairan Teluk California. Demikian pula Radovich (1979) melakukan pengamatan yang sama dimana schooling northern
22
anchoy (engraulix mordax) berenang dikelilingi schooling californian sardines anchovy (sardinops sagax). Di perairan Indonesia belum ada pengamatan yang meneliti schooling ikan yang berenang campuran.
2.2
Gerakan Ikan secara Individu (Bone,1978) Gerakan ikan dilihat dari pandangan horisontal (lateral aspect) terdapat 2 (dua) gerakan yaitu : 1.
Pectoral fin movement, adalah gerakan ikan yang diakibatkan adanya
dorongan dari gerakan sirip pectoral, contohnya untuk ikan karang pada umumnya (typical coral fish) seperti pada Gambar 13 (a). Gerakan ikan tersebut disebut juga gerakan meluncur (gliding). 2.
Amplitude horizontal wriggle, adalah gerakan ikan yang dibangkitkan oleh
gerakan meliuk badan ikan secara horisontal, contohnya ikan pelagis besar dan ikan hiu. (Gambar 13 (b)).
Arah gerakan
(a) Arah gerakan
(b)
Gambar 13. Pola gerakan ikan (a) gerakan pectoral fin movement (b) gerakan amplitude horizontal wriggle
23
2.3
Pengelohan Sinyal (signal processing) Gelombang adalah perubahan amplitude suaru getaran baik fisik suara, maupun getaran gelombang radio per satuan waktu. Bentuk suatu gelombang dasar adalah gelombang sinuasoida dengan frekuensi dan amplitude tertentu (Gambar 14). Persamaan gelombang dasar tersebut dapat ditulis V = A sin 2π f t
(16)
dimana A = amplitude maksimum, dan f = frekuensi (Hz). Bentuk gelombang (waveform) suatu getaran tidak selalu berbentuk sinusoida tetapi dapat berbentuk segiempat, segitiga atau berbentuk acak yang ditentukan dari banyaknya gelombang-gelombang sinusoida yang dikandung dengan frekuensi dan amplitude tertentu. Kumpulan gelombang-gelombang sinusoida tersebut dinamakan spektrum frekuensi dari suatu gelombang. Untuk mengetahui spektrum frekuensi suatu gelombang dilakukan dengan menggunakan Fourier Transform. Gambar 15 memperlihatkan contoh suatu gelombang dengan spektrum frekuensinya.
Gelombang sinusoida
Amplitude
A 0
90
180
0
360
0
t Frekuensi f = 1/T
T
Gambar 14. Bentuk gelombang sinusoida.
24
Perubahan bentuk gelombang pada domain waktu ke domain frekuensi dapat dilakukan dengan Persamaan Fourier Transform dibawah ini (Cheng, 1963)
dimana
∞ g(ω) = ∫ f(t) e- jnωt dt -∞
(17)
f(t) = a0/2 + ∑(an cos nωt + bn sin nωt)
(18)
an = 1/T ∫ f(t) cos nωt dt
(19)
bn = 1/T∫ f(t) sin nωt dt
(20)
Sebagai contoh untuk gelombang pulsa segiempat periodik seperti pada Gambar 15 dimana f(t) dalam satu periode (-T/2 < t < T/2).
f(t) A
-3T/4
-T/4
0 T/4
3T/4
t
Gambar 15. Gelombang pulsa segiempat periodik. 0, -T/2 < t < -T/4, f(t) =
A, -T/4 < t < T/4, 0,
(21)
T/4 < t < T/2.
Dari Persamaan 18 untuk bagian cosine diperoleh : T/2
an = 2/T ∫ f(t) cos nωt dt -T/2
2A =
nπ sin
nπ
(22) 2
25
dimana ω = 2π/T, sehingga pada persamaan di atas nilai ω T = 2π. Untuk bagian sinusoida dari Persamaan 18 diperoleh : T/2
bn = 2/T ∫ f(t) sin nωt dt -T/2
T/4
= 2/T ∫ A sin nωt dt = 0
(23)
-T/4
sedangkan harga rata-rata gelombang tersebut
ao /2 = rata-rata dari f(t) = A/2 Untuk berbagai harga an Persamaan (21) dapat ditulis :
a0 = 0 a0 =
jika n = 2, 4. 6, …..
2A Nπ
a0 = −
2A Nπ
jika n =1, 5, 9, ....... jika n = 3, 7, 11, ....
Sehingga Persamaan (21) menjadi :
f (t ) =
A 2A (cosωt − 1/ 3 cos 3ωt + 1/ 5 cos 5ωt − .......) + 2 π
(24)
Dari Persamaan (24) di atas dapat dilihat gelombang segiempat mempunyai spektrum pada frekuensi ganjil. Berdasarkan Persamaan (24) tersebut spektrum gelombang segiempat periodik dapat dilihat pada Gambar 16.
26
2A/π A/2 2A/3π 2A/5π 2A/7π
2A/9π
ω 0ω
3ω
5ω
7ω 9ω
Gambar 16. Spektrum frekuensi gelombang segiempat periodik.
2.4
Deteksi Perubahan Fase Gambar 17 memperlihatkan diagram blok dari pendeteksian sinyal dari gelombang pembawanya (carrier) yang mengalami perubahan fase sesuai dengan sinyal yang dimodulasi.
VO
Vm
Vd
Vi
X
Vc
VS
Vc GEN
ω c = 2πfc phase modulator Gambar 17.
LPF
X
GEN
ω χ = 2πfc phase shifted detector
Diagram Blok phase modulator dan phase shifted detector.
Sinyal gelombang akustik kontinyu dengan frekuensi pembawa fc :
Vc = A sin (ωct),
(25)
27
dimana ωc = 2π fc. Sinyal yang dimodulasi (untuk penelitian ini dapat merupakan gelombang gerakan ikan yang diambil untuk mewakili satu frekuensi spektral dari frekuensi-frekuensi yang terdapat dalam gelombang gerakan ikan) adalah :
Vm = B sin (ωmt)
(26)
Sinyal keluaran modulator yang dapat berupa sinyal yang dipantulkan masuk ke penerima adalah :
VO = A B sin (ωct). sin (ωmt) = ½ A B [cos (ωct + ωmt) - cos (ωct - ωmt)]
(27)
Sinyal yang masuk ke rangkaian phase shifted detector
Vi = C [cos (ωct + ωmt)] = C [cos (ωct + φ(t))]
(28)
dimana ωmt = φ (t). Selanjutnya sinyal yang keluar dari phase shifted detector
Vd = Vi . Vc Vd = C cos (ωct + φ(t)). sin (ωct) = ½ C {sin [ωct + φ(t) + ωct] + sin [ωct + φ(t) - ωct]} = ½ C {sin [2ωct + φ(t)] + sin [φ(t)]}
(29)
Sinyal yang keluar low pass filter (LPF)
Vo = ½ C sin φ(t)
(30)
Vo = ½ C sin ωmt
(31)
atau
Bentuk Vo sama dengan sinyal yang dimodulasi Vm
2.5
Persamaan Akustik Persamaan akustik digunakan untuk menentukan daya pancar yang diperlukan pada jarak pengamatan atau sebaliknya untuk menentukan jarak
28
pengamatan dengan daya pancar tertentu. Persaman akustik dapat ditulis sebagai berikut (Ehrenberg at al, 1972) :
El = 170.8 + 10 log μ P + Di - 20 log R - α + TS
(32)
dimana : El = Echo intensity (dB/1 μ Pa)
P = daya pemancar (W) μ = efisiensi = 0.6
Di = Directivity index (dB/ 1 μ Pa/ 1 m) R = jarak pancar (m) α = redaman /m (dB/m) tergantung dari frekuensi, salinitas dan suhu
TS = Target Strength (dB) Besarnya Target Strength (TS) tergantung dari jenis ikan. Umumnya untuk beberapa jenis ikan mmpunyai besar TS yang sama, sedangkan besar Di dan El tergantung dari transducer dan frekuensi yang digunakan
2.6
Proses Pengenalan (Recognition) Diagram blok proses pengenalan dapat dilihat pada Gambar 18 Sebelum proses pengenalan dilakukan, terlebih dahulu dilakukan pembentukan basis data (data base) yang merekam data sebagai acuan. Baik untuk pembentukan basis data maupun proses pengenalan, tahap pertama adalah melakukan proses ekstraksi gelombang yang dideteksi
29
Gelombang beberapa jenis ikan yang diterima
Proses Ekstraksi
PEMBENTUKAN BASIS DATA
Discrete Hidden Markov Model untuk trainning
Basis Data
PROSES PENGENALAN
Gelombang jenis ikan yang diamati
Gambar 18.
Proses Ekstraksi
Discrete Hidden Markov Model untuk recognition
Identifikasi/ Recognition
Diagram pembuatan basis data referensi dan proses identifikasi.
Proses ekstraksi fase gelombang pantul yang diterima Tujuan feature extraction ini adalah untuk mengubah bentuk gelombang yang diterima (sinyal suara atau gelombang perubahan fase) menjadi berbagai tipe parameter yang merepresentasikan gelombang aslinya untuk dianalisis (Liu at al, 2002) Gelombang perubahan fase tergolong sebagai slowly time varing signal yang disebut juga sebagai quasi stationary. Ketika dianalisis dengan short periode of time yang cukup (5 – 10 ms), karakteristik yang dimiliki tidak berubah atau tetap. Bila diterapkan long periode of time (1/5 detik atau lebih), karakteristiknya berubah dan merepresentasikan gelombang perubahan fase yang berbeda dengan aslinya. Oleh karena itu short time spectral analysis merupakan cara yang lebih baik untuk mengkarakterisasikan gelombang perubahan fase gerakan kawanan ikan. Metode yang digunakan untuk mendapatkan parameter yang dapat merepresentasikan gelombang suara adalah denganl Linear Prediction Coding (LPC), Mel-Frequency Cepstrum Coefficient (MFCC) dan lainnya. sedangkan pada proses pengenal gelombang perubahan fase digunakan metode MFCC. MFCC didasarkan pada variasi yang telah diketahui dari batas bandwidth pendengaran manusia dengan frekuensi sampai 5 kHz, sehingga untuk gelombang
30
perubahan fase yang diperkirakan mencapai 100 kHz masih dapat digunakan. MFCC menyaring secara linear pada frekuensi rendah dan secara logaritmik pada frekuensi tinggi yang digunakan untuk menangkap karakteristik dari suatu sinyal suara. Ini diekspresikan dengan skala mel-frequency. Pemetaan secara linear untuk frekuensi dibawah 1000 Hz dan logaritmik untuk frekuensi di atas 1000 Hz.
Mel-Freq Ceptrum Coefficient Processor Gambar 19 adalah diagram struktur blok dari MFCC processor. Speech input secara khusus direkam pada sampling rate di atas 10 KHz. Sampling frekuensi ini dipilih untuk meminimalisasi efek aliasing dalam pengubahaan sinyal analog ke digital. Sampling sinyal tersebut dapat menangkap dengan baik semua frekuensi sampai dengan 5 KHz, dan mengkonversikan semua energi gelombang perubahan fase. (Liu at al, 2002).
continues
frame
speech
mel
mel
spectrum
spectrum
Gambar 19.
MFCC processor (Liu et al, 2002).
Frame blocking Continous speech diblok dalam frame dari N sampel, dengan frame yang berdekatan yang terpisah oleh M (M
31
atau lebih. Nilai khusus untuk N dan M adalah N = 256, yang mana sama dengan 30 ms windowing, sedangkan nilai M = 100.
Windowing Langkah selanjutnya adalah windowing masing-masing individual frame untuk meminimalisasikan diskontinuitas sinyal pada permulaan dan akhir dari masing-masing frame. Windowing ini untuk meminimalisasikan spectral distortion dengan menggunakan window untuk men-taper sinyal ke nol pada permulaan dan akhir masing-masing frame. Jika kita mendefinisikan window sebagai w(n), 0 ≤ n ≤ N − 1 , dimana N adalah angka sampel pada masing-masing frame. Hasil
windowing adalah signal yang dinyatakan dengan persamaan (Liu et al, 2002).
y1 ( n) = x1 (n) w(n) ,
0 ≤ n ≤ N −1
(33)
Pada penelitian ini menggunakan Hamming Windowing yang dinyatakan dalam persamaan ⎛ 2πn ⎞ w(n) = 0.54 − 0.46 cos⎜ ⎟, ⎝ N −1⎠
0 ≤ n ≤ N −1
(34)
Fast Fourier Transform (FFT)
FFT mengubah masing-masing frame dari domain waktu ke domain frekuensi. FFT adalah fast algorithm untuk mengimplementasikan Discrete Fourier Transform (DFT) yang mana didefinisikan sebagai N sampel {xn}, yaitu N −1
X n = ∑ xk e − 2πjkn / N
(35)
k =0
Hasil sequence {xn} diinterpretasikan sebagai berikut : 1) frekuensi nol untuk harga n = 0 2) frekuensi positif 0 < f < f s / 2 untuk harga
1 ≤ n ≤ N / 2 −1
3) frekuensi negatif − f s / 2 < f < 0 untuk harga N / 2 + 1 ≤ n ≤ N − 1 Gambar 20 merupakan filterbank yang diperoleh dengan menempatkan pusat frekuensi pada skala mel-frekuensi dan hasil pemetaan dikembalikan lagi sebagai lebar dari triangular bandpass. Filter bank yang diaplikasikan dalam
32
domain frekuensi menyederhanakan perhitungan untuk mengambil triangle-shape
window pada spektrum. Keuntungan dari pemikiran mel wrapping filter bank adalah bahwa masing-masing filter dapat digambarkan sebagai sebuah histogram pada domain frekuensi.
Gambar 20.
Mel-spaced filterbank (Liu et al, 2002).
Cepstrum Ini adalah langkah terakhir dalam feature extraction, log mel spectrum diubah kembali ke waktu. Hasilnya disebut MFCC. Representatif spectral dari
speech spectrum memberikan representatif yang baik untuk local spectral properties dari sinyal suara untuk analisis frame yang diberikan. Karena mel spectrum coefficient (dan logaritmiknya) adalah angka real, kita dapat mengubahnya ke time domain menggunakan Discrete Cosine Transform (DCT). Oleh karena itu mel power spectrum coefficient tersebut merupakan hasil dari ~ langkah terakhir yang dinotasikan dengan S k , dimana k = 1,2,..., K , maka MFCC,
c~n dapat dihitung dengan persamaan (Liu at al, 2002).. K ⎡ ⎛ 1⎞π ⎤ ~ c~n = ∑ (log S k ) cos ⎢n⎜ k − ⎟ ⎥ , 2⎠ K ⎦ k =1 ⎣ ⎝
k = 1,2,..., K
(36)
33
Vector Quantization (VQ)
VQ adalah proses dari pemetaan vektor dari ruang vektor yang besar menjadi sebuah wilayah yang terbatas. Masing-masing wilayah ini disebut cluster dan dapat direpresentasikan dengan centroid yang disebut codeword. Koleksi dari semua codeword disebut codebook yang berhubungan untuk gelombang yang telah diketahui. VQ diinterpretasikan dengan skalar kuantisasi. Sinyal input akan dikuantisasi menjadi codebook C = { yk | k = 1,..., N } . Hampir keseluruhan sinyal input merupakan sebuah vektor yang harus dikodekan kedalam ruang multidimensi. Gambar 21 merupakan contoh ruang dua dimensi dari codebook. Gambar 21 menunjukan partisi dari ruang multidimensi sebuah input vektor yang dibagi menjadi L wilayah yang dapat dinotasikan sebagai P = {C1 , C2 ,..., C L } dimana (Thomas, 1990) Ci = {x | d ( x, yi ) ≤ d ( x, y j ), j ≠ i}
(37)
Gambar 21 menunjukan konseptual diagram untuk mengilustrasikan proses recognition. Pada gambar tersebut hanya digambarkan 2 suara dari 2 pembicara (speaker) dalam ruang akustik dua dimensi. Lingkaran menunjukkan vektor akustik dari suara 1, sedangkan segitiga adalah vektor akustik dari suara 2. Dalam tahap trainning, VQ codebook untuk masing-masing suara yang telah diketahui dibuat dengan mengumpulkan vektor akustik trainning-nya menjadi sebuah cluster. Hasil codeword-nya
ditunjukkan pada
dan segitiga hitam untuk suara 1 dan 2.
Gambar 22 dengan lingkaran
34
Gambar 21.
Codebook dari suatu input vektor (Thomas, 1990).
.Jarak dari sebuah vektor ke codeword terdekat disebut VQ distortion. Pada tahap recognition, sebuah input dari suara atau gelombang lainnya yang tidak dikenal akan
dilakukan proses vector-quantized dengan menggunakan semua trained
codebook dan selanjutnya dihitung total VQ distortion-nya. Total VQ distortion yang paling kecil antara codeword dari salah satu suara dalam basis data dan VQ codebook dari suara input diambil sebagai hasil identifikasi. Dalam pembentukan codebook untuk iterasi guna memperbaiki VQ digunakan General Lloyd Algorithm (GLA) atau yang sering disebut dengan algoritma LBG.. Algoritma LBG
tersebut dapat diimplementasikan dengan
prosedur rekursif sebagai berikut (Thomas, 1990) : 1) Mendesain suatu vektor codebook yang merupakan centroid dari keseluruhan vektor pembelajaran (trainning vector). 2) Menjadikan ukuran codebook dua kali lipat dengan membagi masing-masing current codebook Cn menurut aturan
C n+ = C n (1 + ε )
(38)
Cn- = Cn(1 - ε)
(39)
35
Gambar 22.
Diagram konsep pembentukan codebook dengan vector quantization. sinyal satu dan lainnya dapat dibedakan berdasarkan lokasi dari centroidnya (Liu at al, 2002).
dimana n bervariasi dari 1 sampai dengan current size codebook dan ε adalah parameter splitting (ε = 0.01) . 3) Nearest neighboor search, yaitu mengelompokkan trainning vector yang mengumpul pada blok tertentu. Selanjutnya menentukan codeword dalam current codebook yang terdekat dan memberikan tanda vektor yaitu cell yang diasosiasikan dengan codeword yang terdekat. 4) Centroid update, yaitu menentukan centroid baru yang merupakan codeword yang baru pada masing-masing cell dengan menggunakan trainning vector pada cell tersebut. 5) Iterasi 1, mengulang step 3 dan 4 sampai jarak rata-rata dibawah present threshold. 6) Iterasi 2, mengulang step 2, 3, 4 sampai codebook berukuran M. Gambar 23 menunjukan diagram alir, langkah detail dari LBG algorithm. Cluster vector menerapkan prosedur nearest neighboor search yang menandai masing-masing trainning vector ke sebuah cluster yang diasosiasikan dengan codeword terdekat. “find centroid’’ merupakan prosedur meng-update centroid
36
untuk menentukan codeword yang baru. ‘Compute D (distortion)’ berarti menjumlah jarak semua trainning vector dalam nearest neighboor search terhadap centroid untuk menentukan besarnya distortion
Gambar 23. Diagram alir dari algoritma LBG (Thomas, 1990).
2.7
Hidden Markov Model (HMM) Hidden Markov Models (HMM) merupakan model dengan pendekatan statistik yang digunakan dalam berbagai implementasi pengenal suara. Time variance dalam suatu bahasa dimodelkan sebagai proses Markov dengan discrete state. Masing-masing state menghasilkan observasi menurut karakteristik distribusi
37
probabilitas dari state tersebut. Observasi dapat bernilai diskrit atau kontinyu. Observasi merepresentasikan durasi waktu yang tetap yang disebut frame. Pada model ini state tidak secara langsung dapat diamati, hal ini yang menjadikan model ini disebut sebagai Hidden Markov Model. Tipe-tipe Hidden Markov Models (Rabiner and Juang, 1993)
Salah satu cara untuk mengklasifikasikan HMM adalah dengan melihat bentuk matriks transisinya (A) dari rantai Markov (Markov chain) Bentuk yang umum adalah bentuk ergodic atau bentuk yang setiap state saling terhubung (fully connected HMM). Seperti terlihat pada Gambar 24 untuk N = 4 state model, model ini mempunyai nilai aij antara 0 dan 1. Nilai 0 dan 1 tidak termasuk, jika tidak maka bentuk model ergodic tidak akan terwujud. Matriks transisi untuk ergodic model dapat dimisalkan seperti dibawah ini.
A =
⎡ a11 a12 ⎢a ⎢ 21 a22 ⎢ a31 a32 ⎢ ⎣a41 a42
a13 a23 a33 a43
a14 ⎤ a24 ⎥⎥ a34 ⎥ ⎥ a44 ⎦
(40)
Untuk voice recognition atau speech recognition model yang tepat digunakan adalah model left-right HMM atau biasa disebut Bakis Model. Mengikuti kenyataan bahwa dalam suara aliran waktu terus bertambah, hal ini dapat diwakili oleh perpindahan state dari kiri ke kanan (left-to-right),. seperti terlihat pada Gambar 24.
38
a22
a15 a24
a12
a11
a21 a42 a51
State 1
state 2
state 3
state 4
state 5
Gambar 24. State diagram dari rantai HMM atau HMM chain dengan 4 state (Rabiner
and Juang, 1993).
Elemen- elemen Hidden Markov Model
Elemen-elemen Hidden Markov Model meliputi (Rabiner and Juang, 1993) (1) N, jumlah state dalam model. Umumnya state dapat diinterkoneksi,
sehingga setiap state dapat dicapai dari state yang lain. State individual dinotasikan sebagai S = {S1 , S 2 ,...S N } dan state pada waktu t adalah qt (2) M, jumlah observasi simbol yang berbeda tiap state. Simbol-simbol tersebut
dapat dinotasikan dalam V = {v1 , v2 ,...vM } (3) A = {aij } , distribusi probabilitas transisi state, dimana
aij = P[qt +1 = S j | qt = Si ] ,
1 ≤ i, j ≤ N
(41)
(4) B = {b j (k )} , distribusi probabilitas simbol observasi pada state j, dimana
b j (k ) = P[vk _ pada _ t | qt = S j ]
1≤ j ≤ N , 1≤ k ≤ M
(42)
(5) π = {π i } , distribusi state initial, dimana
π i = P[q1 = Si ]
1≤ i ≤ N
(43)
Hidden Markov Model dapat dituliskan sebagai λ = ( A, B,π ) . (Rabiner and Juang, 1993). Dengan diketahuinya N, M, A, B, dan π, Hidden Markov
39
Model dapat menghasilkan urutan observasi O = O1O2 ...OT dimana masing-masing
observasi Ot adalah simbol dari V, dan T adalah jumlah urutan observasi. Perhitungan yang efisien dari P(O | λ ) , yaitu probabilitas urutan observasi apabila diberikan urutan observasi
O = O1O2O3 ...OT
dan sebuah model
λ = ( A, B,π ) . Misalkan diberikan urutan state Q = q1q2 ...qT
(44)
dimana q1 adalah inisial state. Dengan demikian probabilitas urutan observasi O untuk urutan state pada persamaan (44) adalah T
P(O | Q, λ ) = ∏ P(Ot | qt , λ )
(45)
P(O | Q, λ ) = bq1 (O1 ).bq 2 (O2 )...bqT (OT )
(46)
t =1
sehingga didapatkan
Probabilitas dari urutan state Q dapat dituliskan P(Q | λ ) = π q1 aq1q 2 aq 2 q3 ...aqT −1qT
(47)
Probabilitas gabungan dari O dan Q yaitu probabilitas dari O dan Q yang terjadi secara bersamaan. Probabilitas gabungan ini dapat dituliskan P(O, Q | λ ) = P(O | Q, λ ) P(Q | λ )
(48)
Probabilitas observasi O yang diberikan, diperoleh dengan menjumlahkan seluruh probabilitas gabungan terhadap semua kemungkinan urutan state q, yaitu P (O | λ ) = ∑ P (O | Q, λ ) P(Q | λ )
(49)
allQ
atau dapat juga ditulis
P(O│λ) =
∑π
q1q2 ...qT
b (O1 )aq1q2 .bq2 (O2 )...aqT −1qT bqT (OT )
q1 q1
(50)
Untuk menghitung persamaan (50) dengan menggunakan prosedur forward. Variabel forward α1 (i ) didefinisikan sebagai probabilitas sebagian urutan observasi O1O2…Ot (hingga waktu t) dan state Si pada waktu t, dari model λ yang diberikan.
40
α t (i) = P(O1O2 ...Ot , qt = Si | λ )
(51)
untuk menyelesaikan α1 (i ) adalah sebagai berikut : 1. Inisialisasi
α1 (i ) = π i bi (O1 )
1≤ i ≤ N
(52)
1≤ j ≤ N
(53)
2. Induksi ⎡
⎤
N
α t +1 ( j ) = ⎢∑ α t (i )aij ⎥b j (Ot +1 ) ⎣ i =1
⎦
3. Terminasi N
P (O | λ ) = ∑ α T (i ) i =1
(54)