Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes I. Destuardi 2207205717 PROGRAM MAGISTER BIDANG KEAHLIAN JARINGAN CERDAS MULTIMEDIA (GAME TECHNOLOGY) JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNOLOGI INDUSTRI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA
Perumusan Masalah Berkaitan dengan klasifikasi dokumen emosi dalam bentuk kalimat, dapat dirumuskan masalah sebagai berikut: • Bagaimana mengklasifikasikan dokumen teks yang berisi kalimat emosi menggunakan metode naïve bayes. • Sejauh mana metode naive bayes mampu mengklasifikasikan emosi beberapa dokumen teks
Batasan Masalah • • • •
Data yang digunakan adalah data teks berbahasa indonesia Tidak membahas bahasa simbol emosi Tidak membahas visual avatar Tidak membahas emosi berupa tanda dalam kalimat
Tujuan Penelitian Mengklasifikasi emosi untuk teks berbahasa Indonesia dengan menggunakan motode naïve bayes
Metodologi • • • •
Persiapan data dokumen Teks Preprocessing Pembobotan Klasifikasi
PSIKOLOGI DAN EMOSI • Sebagai efek, situasi yang timbul disebabkan perubahan fisik atau perubahan tubuh mengikuti tanggapan terhadap lingkungan dan perasaan perubahan yang sama
EMOSI DASAR • • • • •
Takut sebagai ancaman fisik atau sosial untuk diri sendiri Marah sebagai ganjalan atau frustasi dari peran atau tujuan yang di rasakan orang lain Jijik menggambarkan penghapusan atau jarak dari seseorang, obyek, atau menolak ide untuk diri sendiri dan menghargai peran dan tujuan Sedih digambarkan sebagai kegagalan atau kerugian tentang peran dan tujuan Senang digambarkan sebagai berhasil atau bergerak menuju selesainya peran yang bernilai atau tujuan
TEXT MINING Menambang berupa teks dengan mencari kata-kata yang dapat mewakili isi suatu dokumen
P
PENDEKATAN
Pendekatan Kata Kunci Pendekatan Hubungan Kata Dengan Kamus Pendekatan Statistik Pemprosesan Bahasa Alami (NLP)
Alur Pembahasan • Teks Input berupa teks • Teks Preprocessing Tokenizing Filtering • Teks Transformation
Dokumen vektor
Modifikasi Dokumen • Muncul makna berbeda • Mengeliminasi kesalahan kelas • Menggabungkan kata pada katakata negasi
REPRESENTASI DOKUMEN Dokumen teks adalah sekumpulan kata sehingga diperlukan proses transformasi kedalam bentuk yang dapat di gunakan dalam proses klasifikasi. ada dua dasar untuk membuat vector : a. Biner - hanya berdasarkan pada ada tidaknya kata yang muncul dalam dokumen b. Frekuensi – banyaknya kemunculan kata dalam dokumen
Pembobotan • Log-tf (logarithmic term frequency) Logtf(d,t) = log (1+rawtf(d,t)) • Log-tf.idf (logarithmic term frequency – inverse document) Logtf.idf(d,t) = log tf(d,t) * log( |D|/n) Rawtf(d,f) adalah frekuensi kemunculan term t pada dokumen d |D| juml semua dokumen yang mengandung term t
NAIVE BAYES C
P1
P2
Pk
Klasifikasi Naïve Bayes sebagai jaringan bayes dengan atribut prediksi (P1, P2, …….Pk) dan kelas (C)
P (c j | d ) =
P (c j ) P ( d | c j )
l MNB (d ) = arg max c log pˆ (θ c ) +
P (d ) ∑ i
N ci + α i f i log Nc + α
Data Penelitian Data Penelitian
Terjemah dalam bhs. Indonesia
Data terjemah (Data)
Data terjemah modifikasi (DataNot)
Mesin Learning
EXPERIMENT 65
Akurasi
60
55
50
Multinomial NB
45
Naive Bayes 40 0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Ras io Data
Multinominal vs NB (data)
0,9
1
70
65
Akurasi
60
55
50
Data Multinomial NB Naive Bayes
45
40 0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Rasio Data
Multinominal vs NB (data NOt)
0,9
1
70
65
Akurasi
60
55
50 Data
45
DataNot
40 0
0,1
0,2
0,3
0,4
0,5
0,6
Ras io Data
Data vs Data NOT (MNB)
0,7
0,8
0,9
1
70
65
Akurasi
60
55
50 Data
45
DataNot 40 0
0,1
0,2
0,3
0,4
0,5
0,6
Ras io Data
Data vs Data NOT (NB)
0,7
0,8
0,9
1
DAFTAR PUSTAKA • • • • • • • •
[1] Casell, J., Sullivan, J., Prevost, S., and Churchill, E., (2000). Embodied Conversational Agent. MIT Press editors [2] S.J Russell and P. Norvig, (2003). Artificial Intelligence: A Modern Approach. Prentice Hall, [3] Minsky, M.L., (1987). The Society of Mind William Heinemann Ltd., London. [4] P. Ekman, W. V Friesen, (1969). The repertoire of nonverbal behaviour. Semiotica, Vol.1, pp.49-98. [5] Hazlett, R., (2003). Measurement of User Frustration: A Biologic Approach. Ext. Abstracts CHI 2003 (Florida, FL, April 5-10), ACM. Press, 734-735. [6] Oatley, K. and Jenkins, J.M, (1996). Understanding Emotions, Blackwell. [7] Power, M. and Dalgleish, T., (1997) Cognition and Emotion, LEA Press. [8] Taner danisma and Adil Alpkocak., (2008). Feeler: Emotion Clasification of Text Using Vector, Proceedings of AISB 2008 Symposium on Affective Language in Human and Machine Volume 2.
• • •
•
•
•
•
[9] Machnik Lukasz, (2004). Document Clustering Techniques, Annales UMCS Informatica AI 2 p.401-411. [10] Paralic, J. - Bednar, P. (2003). Text Mining for Documents Annotation and Ontology Support. A book chapter in: Intelligent Systems at the Service of Mankind, Springer Verlag. [11] George H. John and Pat Langley, (1995). Estimating Continuous Distribution in Bayesian Classifiers, In Poceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, Morgan Kaufmann Publishers, San Mateo. [12] Andrew McCallum and Kamal Nigam, (1998). A Comparison of Event Models for Naive Bayes Text Classification, In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp.41-48, Technical Report WS-98-05. AAAI Press. [13] Agus Zainal Arifin dan Ari Novan Setiono, (2002). Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering”, Proceeding of Seminar on Intelligent Technology and Its Applications (SITIA), Teknik Elektro, Institut Teknologi Sepuluh Nopember, 07 Mei. [14] Minarsari Dewi, Indra Budi dan Petrus Mursanto, (2005). Identifikasi Titik Percabangan Pada Deskripsi Tekstual Use Case Menggunakan Entitas Bernama dengan Metode Association Rules Mining, Seminar NAsional Ilmu Komputer dan Teknologi Informasi Universitas Kriten Satya Wacana. [15] Yang, Yiming, (1999). An evaluation of statistical approaches to text categorization. Journal of Information Retrieval I, pp 69-90, Kluwer Academic Publishers, Netherlands.
Terimakasih