BAB II LANDASAN TEORI
2.1 Emosi Emosi adalah perasaan intens yang ditujukan kepada seseorang atau sesuatu dan juga merupakan reaksi terhadap seseorang atau kejadian.Emosi dapat ditunjukkan ketika merasa senang mengenai sesuatu, marah kepada seseorang, ataupun takut terhadap sesuatu (Frieda, 1993).Kondisi emosional terefleksi dalam perkataan, gerak tubuh, dan terutama ekspresi wajah (Chibelushi & Bourel, 2003).
2.2 Identifikasi Emosi dalam Percakapan Percakapan atau speechdidefinisikan sebagai produksi dan persepsi vokal dan konsonan berasal dari kapasitas pra-fonetik untuk melakukan percakapan dan gestur(Aaltonen & Uusipaikka, 2005).Seperti sistem identifikasi lainnya, sistem identifikasi emosi juga melibatkan dua tahap yaitu, pelatihan dan pengujian. Pelatihan adalah proses yang dilakukan agar sistem mengenali karakteristik emosi pembicara. Pengujian adalah proses identifikasi yang sebenarnya. Sistem pengenalan emosi dalam percakapan memiliki percakapan beremosi sebagai input dan emosi yang sudah terklasifikasi sebagai hasil.Sistem ini terdiri dari empat tahap utama, praproses, ekstraksi fitur, seleksi fitur dan akhirnya klasifikasi(Kaur &Sharma,
9
10
2014). Gambar2.1 menunjukkan diagram alur untuk sistem identifikasi emosi dalam percakapan.
Gambar 2.1 Diagram AlurIdentifikasi Emosi dalam Percakapan.
2.2.1 Memasukkan Percakapan Beremosi Pada tahap ini basis data rekaman suara dengan emosi-emosi tertentu yang sudah disiapkan dimasukkan ke dalam sistem Identifikasi Percakapan Otomatis atau Automatic Speech Recognition (ASR).
2.2.1.1 Identifikasi Percakapan Otomatis Identifikasi
percakapan
sering
juga
dikenal
dengan
identifikasi percakapan otomatis atau identifikasi percakapan komputer yang berarti memahami suara komputer danmelakukan setiap tugas yang diperlukan atau kemampuan untuk mencocokkan suara terhadap kosakata yang disediakan atau diperoleh.Tugasnya
11
adalah
untuk
membuat
komputer
memahami
bahasa
lisan.Kemampuan untuk “memahami”ditujukan agar komputer dapat bereaksi dengan tepat dan mengkonversi percakapan yang telah dimasukkan ke media yang lain seperti teks. Namun identifikasi percakapansering kali disebut sebagai percakapan-keteks
atauspeech-to-text
percakapan
terdiri
dari
(STT).
Sebuah
mikrofon,
yang
sistem
identifikasi
digunakan
untuk
memasukkan hasil percakapan yang dilakukan ke sistem; perangkat lunak identifikasi percakapan; sebuah komputer untuk mengambil dan menafsirkan percakapan yang dilakukan; kualitas soundcard yang baik untuk proses input dan / atau output; pelafalan yang baik dan benar (Saini & Kaur, 2013).
2.2.2 Ekstraksi dan Pemilihan Fitur Dalam pembelajaran mesin, saat input data dalam sebuah algoritma terlalu besar untuk diproses dan diduga memiliki data yang redundan, maka data dapat diubah menjadi sebuah set fitur(biasa disebut juga dengan fitur vektor). Proses ini disebut ekstraksi fitur. Fitur yang diekstraksi diharapkan berisi informasi yang relevan dari data input, sehingga tugas yang diinginkan dapat dilakukan dengan menggunakan representasi ini daripada data awal yang lebih lengkap(Wikipedia, 2015). Ada beberapa macam fitur ekstraksi yang dapat dilakukan untuk mengidentifikasi sebuah emosi (Rabiner, Cheng, Rosenberg & McGonegal, 1976; Shrawankar & Thakare, 2010; Dave, 2013; Desai,
12
Dhameliya, & Desai, 2013; Anagnotopoulos, Iliou, & Giannoukos, 2015).Salah
satu
fitur
ekstraksiyang
sering
digunakan
dalam
mengidentifikasikan sebuah percakapan adalah metodeekstraksiMelFrequency Cepstral Coefficient(MFCC).
Mel Frequency Cepstral Coefficient MFCC sangat efektif dalam identifikasi audio dan dalam pemodelan nada dan frekuensi yang subjektif dari sinyal audio(Ling, et al., 2004). Metode ini digunakan untuk melakukan ekstraksi fitur, sebuah proses
yang
mengkonversikan
sinyal
suara
menjadi
beberapa
parameter(Resmawan, 2010). Beberapa keunggulan dari metode ini adalah (Manunggal, 2005): 1)
Mampu untuk menangkap karakteristik suara yang sangat penting bagi pengenalan suara, atau dengan kata lain dapat menangkap informasi-informasi penting yang terkandung dalam sinyal suara.
2)
Menghasilkan menghilangkan
data
seminimal
informasi-informasi
mungkin,
tanpa
penting
yang
dikandungnya. 3)
Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap sinyal suara.
4)
Mendekati respon sistem manusia lebih dekat daripada sistem lainnya.
5)
Biaya yang dibutuhkan rendah.
13
MFCC terdiri dari tahap-tahap berikut (Ling, Liang, Jianfei, Chang, Qi, & Xu, 2004; Muda, Begam, & Elamvazuthi, 2010; Patil, Zope, & Suralkar, 2012): 1)
Pra-Proses
2)
Framing
3)
Windowing
4)
Fast Fourier Transform
5)
Mel Filter bank Processing
6)
Discrete Cosine Transform
2.2.2.1 Pra-Proses Dalam pra-proses gelombang tekanan suara akustik diubah menjadi sinyal digital, yang sesuai untuk pengolahan suara.Sebuah mikrofon dapat digunakan untuk mengubah gelombang akustik menjadi sebuah sinyal analog. Sinyal analog ini dilewatkan melalui filter antialiasing untuk mengkompensasi adanya gangguan (Mower, Mataric, & Narayanan, 2011). Suara tersebut kemudian dibatasi lebih lanjut dengan memilih sebuah frame size dan melewatkan melalui Hamming window. Sebuah sampel kata yang sudah terisolasi dilewatkan melalui sebuah filter yang menekankan frekuensi yang lebih tinggi. Hal ini akan meningkatkan energi dari sinyal pada frekuensi yang lebih tinggi(Kandali, Routray, & Basu, 2008; Patil, Zope, & Suralkar, 2012 Singh & Rani, 2014).
14
2.2.2.2 Framing Framing diperlukan karenapercakapan merupakan sinyal yang berubah-ubah seiring dengan jalannya waktu, tetapi ketika dilihat dalam waktu yang singkat, karakteristiknya cukup stasioner.Oleh karena itu dilakukanlah analisis spektral dalam jangka waktu yang singkat. Sinyal percakapan disegmentasi menjadi blok-blok dengan durasi kecil kisaran 20-30 ms yang juga dikenal denganframe. Sinyal suara dibagi menjadi sampel frame yang berdekatan dipisahkan oleh
di mana
dan (Singh
& Rani, 2014).
2.2.2.3 Windowing Dalam pemrosesan sinyal, fungsi window (juga dikenal sebagai fungsi apodisasi atau fungsi tappering) adalah fungsi matematika yang memiliki nilai nol di luar dari beberapa interval yang dipilih. Misalnya, sebuah fungsi yang konstan dalam interval dan nol di tempat lain disebut rectangular window, yang menggambarkan bentuk representasi grafis. Ketika fungsi lain atau gelombang / urutan-data dikalikan dengan fungsi window, hasilnya juga nilai-nol di luar interval;bagian yang tersisa adalah bagian di mana mereka tumpang tindih, "lihat melalui jendela"(Enochson & Otnes, 1968). Setiap frame di atas dikalikan dengan Hamming window untuk menjaga kelangsungan sinyal. Jadi untuk mengurangi
15
diskontinuitas ini kita menerapkan fungsi window.Pada dasarnya distorsi spektral diminimalkan dengan menggunakan window untuk mempertajam sampel suara ke nol pada bagian awal dan akhir setiap frame(Muda, Begam, & Elamvazuthi, 2010; Singh & Rani, 2014).
2.2.2.4 Fast Fourier Transform Fast Fourier Transform (FFT) adalah algoritma yang menghitung Discrete Fourier Transform (DFT) dari urutan, atau kebalikannya.Analisis Fourier mengubah sinyal dari domain aslinya (sering kali waktu atau ruang) ke domain frekuensi dan sebaliknya (Loan, 1992).FFT adalah proses mengubah domain waktu ke domain frekuensi. Untuk mendapatkan besarnya respon frekuensi dari setiap frame kita melakukan FFT. Dengan menerapkan FFT hasil yang akan diperoleh adalah spektrum atau periodogram (Singh & Rani, 2014). Tahap ini mengubah masing-masing frame dari
sampel,
dari domain waktu menjadi domain frekuensi. Fourier Transform mengubah konvolusi dariglottal pulse impulse
dan respon vocal tract
dalam domain waktu(Kaur & Sharma, 2014).
16
2.2.2.5 Mel Filter bank Processing Telinga manusia menerima frekuensi non-linear(Salsabila, Soelistijorini, & Huda, 2013).Penelitian menunjukkan bahwa skala yang didapat linear sampai dengan 1 kHz dan logaritmik di atas itu.Skala Melodi (Mel-Scale) filter bankmenggambarkan frekuensi yang dapat diterima oleh manusia. Hal ini digunakan sebagai filter band passpada tahap identifikasi. Sinyal untuk setiap frame dilewatkan melalui Mel-Scale filterband pass untuk meniru telinga manusia (Muda, Begam, & Elamvazuthi, 2010). Filter bank adalah salah satu bentuk filter yang dilakukan dengan tujuan untuk mengetahui ukuran energi dari frekuensi band tertentu dalam sinyal suara (Salsabila, Soelistijorini, & Huda, 2013). Pada MFCC, filter bank diterapkan dalam domain frekuensi. Filter bank menggunakan representasi konvolusi dalam melakukan filter terhadap sinyal. Konvolusi dapat dilakukan dengan melakukan multiplikasi antara sinyal spektrum dengan koefisien filter bank. Jangkauan frekuensi di spektrum FFT sangat lebar dan sinyal suara tidak mengikuti skala linear. Besar masing-masing frekuensi filter berbentuk segitiga dan sama dengan frekuensi tengahnya dan menurun secara linear ke nol di frekuensi tengah dari filter-filter yang berdekatan. Lalu masing-masing keluaran dari filter merupakan jumlah dari komponen spektral yang difilternya dan menurun secara linear ke nol di frekuensi tengah dari filter-
17
filter yang berdekatan. Lalu masing-masing keluaran dari filter merupakan jumlah dari komponen spektral yang difilter.
Gambar 2.2 Triangular Filter bank(Muda, Begam, & Elamvazuthi, 2010) Gambar 2.2 menunjukkan satu set filter segitiga yang digunakan untuk menghitung jumlah komponen spektral filter sehingga keluaran dari proses mendekati dengan skala Mel. Masing-masing keluaran filter adalah jumlah yang difilter komponen spektral(Muda, Begam, & Elamvazuthi, 2010; Salsabila, Soelistijorini, & Huda, 2013).
2.2.2.6 Discrete Cosine Transform Tahap ini merupakan proses untuk mengkonversi log Mel spektrum dalam domain waktu menggunakan Discrete Cosine Transform (DCT). Hasil konversi disebut Mel Frequency Cepstrum Coefficient. Set koefisien disebut vektor akustik. Oleh karena itu, setiap
masukan
ucapan
berubah
menjadi
urutan
vektor
18
akustik(Muda,
Begam,
&
Elamvazuthi,
2010;
Salsabila,
Soelistijorini, & Huda, 2013; Kaur & Sharma, 2014).
Pemilihan Fitur Setelah melakukan proses MFCC tahap yang harus dilakukan selanjutnya adalah memilih jenis-jenis fitur yang akan digunakan untuk mengidentifikasi kelas dari sebuah set data(Maleki, Rezaei, & Bidgoli, 2009).
2.2.3 Pelatihan Fitur-fitur yang telah disiapkan dan dipilih akan digunakan untuk dipelajari
masing-masing
karakteristiknya
agar
sistem
dapat
mengidentifikasi kelas yang ingin diketahui.
2.2.4 Klasifikasi Algoritma klasifikasi terdiri dari dua fase utama; pada tahap pertama mereka mencoba untuk menemukan model untuk atribut kelas sebagai fungsi dari variabel lain dari set data, dan pada tahap kedua, mereka menerapkan model yang sebelumnya dirancang pada dataset baru dan tak terlihat untuk menentukan kelas terkait dari setiap record. Ada beberapa metode yang berbeda untuk klasifikasi data seperti Decision Trees (DT), Rule Based Methods, Logistic Regression (LogR), Linear
Regression
(LR),
Naïve
Bayes
(NB),
Support
Vector
19
Machine(SVM), k-Nearest Neighbor (k-NN), Artificial Neural Networks (ANN),
Linear
Classifier
(LC)dan
sebagainya.
Perbandingan
pengklasifikasi dan menggunakan metode klasifikasi yang paling prediktif sangat penting. Setiap metode klasifikasi menunjukkan efikasi dan akurasi yang berbeda berdasarkan jenis set data(Saini & Kaur, 2013).
2.2.4.1 Support Vector Machine Sebuah Support Vector Machine (SVM) adalah suatu algoritma
yang
menggunakan
pemetaan
non-linear
untuk
mengubah data pelatihan sebenarnya ke dalam dimensi yang lebih tinggi. Dalam dimensi baru ini, ia mencari pemisah hyperplane optimal linear. Sebuah hyperplane adalah "batasan keputusan" yang memisahkan tupel dari satu kelas dari yang lain. Dengan pemetaan non-linear yang tepat ke dimensi yang cukup tinggi, data dari dua kelas selalu dapat dipisahkan dengan hyperplane.SVM menemukan hyperplane ini menggunakan vektor pendukung ("penting" tupel pelatihan) dan margin (didefinisikan oleh vektor pendukung). Walaupun waktu pelatihan SVM tercepat bisa saja sangat lambat, mereka sangat akurat, karena kemampuan mereka untuk memodelkan batas keputusan non-linear yang kompleks.Metode ini cenderung memiliki lebih sedikit data yang over fittingdaripada metode lainnya (Maleki, Rezaei, & Bidgoli, 2009).
20
2.2.5 Identifikasi Emosi Pada dua dekade terakhir identifikasi emosi otomatis berdasarkan percakapan menjadi area penelitian yang menarik pada topik komunikasi manusia-mesin banyak sistem yang sudah diimplementasi untuk mengidentifikasi emosi dalam sinyal percakapan. Identifikasi emosi dalam percakapan akan diulas kembali dengan menggunakan berbagai macam klasifikasi. Klasifikasi ini digunakan untuk membedakan emosi seperti marah, senang dan sedih.