PENENTUAN EMOSI BERDASARKAN LIRIK LAGU MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI)
Oleh : Nama:
Hagi Semara Putra
NIM:
1204505094
Dosen :
I Putu Agus Eka Pratama, ST. MT
JURUSAN TEKNOLOGI INFORMASI FAKULTAS TEKNIK UNIVERSITAS UDAYANA 2015
KATA PENGANTAR Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa/ Ida Sang Hyang Widhi Wasa karena atas berkat-Nya makalah ini dapat penulis selesaikan tepat pada waktunya. Di dalam penyusunan makalah ini, penulis merasa bahwa banyak hambatan yang penulis hadapi. Namun, berkat bimbingan dan dukungan dari berbagai pihak, hambatan-hambatan tersebut dapat penulis atasi sedikit demi sedikit. Untuk itu, penulis mengucapkan terima kasih kepada : 1.
I Putu Agus Eka Pratama, ST., MT. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi
2.
Serta semua pihak yang turut serta memberikan uluran tangan dan motivasi. Penulis mohon maaf apabila terdapat kesalahan-kesalahan di dalam penulisan
karya tulis ini. Penulis harapkan makalah ini mempunyai manfaat bagi pihak yang membaca makalah ini.
Bukit Jimbaran,
Penulis
Mei 2015
Abstrak
Lagu dapat menentukan perasaan seseorang yang menyanyikannya, dari lagu dapat di simpulkan seseorang tersebut mengalami suatu emosi yang sedang dirasakan. Maka dari itu lirik lagu merupakan salah satu elemen yang paling berpengaruh dalam menentukan emosi. Jika dibandingkan dengan elemen yang bersifat audio, representasi makna yang menggambarkan emosi, tampak lebih kuat dalam lirik lagu. Fokus penelitian ini terletak pada lirik lagu yang sifatnya berupa teks, dan dapat diselesaikan dengan proses text mining. Paper ini menggunakan sistem temu kembali informasi yang untuk menentukan lirik lagu dengan metode Latent Semantic Indexing (LSI). Teknik dalam
LSI
mengadopsi
proses
matematis
reduksi
dimensi
Singular
Value
Decomposition (SVD). Walaupun dimensi data direduksi, proses tersebut tidak mengganggu keterkaitan makna antara lirik lagu pada corpus dan query. Pada masingmasing lirik lagu dalam corpus dan query, diberi label emosi secara otomatis yaitu, label religius, sedih, marah, semangat, takut, dan cinta. Sistem akan menentukan relevansi berdasarkan kecocokan label emosi antara query dan corpus.
Kata kunci : Information Retrieval, Latent Semantic Indexing, Singular Value Decomposition, Stemming, Text Mining
BAB I PENDAHULUAN
1.1
Latar Belakang Sistem temu kembali informasi merupakan salah satu teknik pencarian untuk
mencari informasi yang relevan antara query dan corpus. Kasus yang paling sering banyak diteliti dalam proses sistem temu kembali adalah teks. Lirik lagu merupakan salah satu betuk teks yang dapat digunakan sebagai objek dalam penelitian sistem temu kembali berdasarkan emosi. Dalam penentuan emosi, lirik lagu merupakan elemen yang memiliki makna yang paling kuat dalam menggambarkan emosi. Pada sebuah dimensi data yang besar, dibutuhkan reduksi dimensi untuk mengurangi adanya proses komputasi. Penelitian dilakukan oleh Kleedorfer, Knees, dan Pohle (2008) menggunakan proses reduksi dimensi matriks Nonnegative Matrix Factorization (NMF), dan penelitian Samat, Murad, Abdullah dan Atan (2005) menggunakan metode reduksi matriks Singular Value Decomposition (SVD) untuk proses clustering data. Pada penelitian Peter, Shivapratap, Dyva, dan Soman (2009) melakukan analisis terhadap evaluasi SVD dan NMF untuk proses Latent Semantic Analysis (LSA) dan menyebutkan rata-rata nilai interpolated average precission SVD memiliki nilai lebih tinggi dibanding dengan menggunakan NMF dan Vector Space Model (VSM). Proses temu kembali dengan menggunakan konsep SVD disebut dengan LSI. Pada penelitian ini, digunakan proses temu kembali LSI yang memanfaatkan reduksi dimensi SVD dengan menggunakan obyek lirik lagu berbahasa Indonesia dan mengabaikan bahasa yang sifatnya tidak resmi. Proses pengolahan yang pertama dilakukan adalah menggunakan teknik preprocessing pada text mining yang merupakan salah satu cabang ilmu dari Natural Language Processing (NLP). Dalam proses prepocessing, stemming yang digunakan menggunakan algoritma Nazief-Andriani, karena stemming tersebut mempunyai hasil kebenaran sekitar 93%. Hasil numerik dari proses pembobotan setelah di-prepocessing diolah menggunakan Latent Semantic Indexing (LSI). Hasil dari sistem ini untuk mengetahui akurasi dari LSI dalam proses penentuan emosi berdasarkan lirik lagu (Sari, Yuita Arum. 2012).
1.2
Rumusan Masalah Permasalahan yang ingin diambil dari latar belakang diatas adalah sebagai
berikut: 1.
Bagaimana penggunaan metode Latent Semantic Indexing (LSI) pada proses menentukan emosi berdasarkan lirik lagu?
2.
Bagaimana mengenali jenis emosi dari teks lagu berbahasa Indonesia?
1.3
Solusi Solusi yang dapat digunakan dalam penerapan sistem ini agar berjalan sesuai
yang diharapkan yaitu : 1.
Menggunakan lirik lagu berbahasa Indonesia yang resmi, agar mudah dalam menerapkan metode Latent Semantic Indexing (LSI).
2.
Jumlah kata dan lirik lagu yang digunakan tidak terlalu banyak, sehingga waktu komputasi yang dihasilkan lebih cepat untuk menentukan emosi menggunakan lirik lagu berbahasa Indonesia yang resmi.
BAB II TINJAUAN PUSTAKA
2.1.
Proses Sistem Temu Kembali Informasi Proses temu kembali teks yang lebih dikenal dengan nama text information
retrieval, merupakan sebuah teknik pencarian dengan menggunakan algoritma tertentu untuk mendapatkan hasil pencarian yang relevan berdasarkan kumpulan (corpus) informasi yang besar. Sebagian besar penggunaan sistem temu kembali adalah pada teks. Pengguna memasukkan kata kunci berupa teks, dan kemudian sistem mengolahnya hingga mendapatkan informasi semantik yang diinginkan oleh pengguna (Sari, Yuita Arum. 2012).
2.1.1 Lirik Lagu dalam Menentukan Emosi Lirik Lagu merupakan ekspresi seseorang tentang suatu hal yang sudah dilihat, didengar maupun dialaminya.Dalam mengekspresikan pengalamannya, penyair atau pencipta Lagu melakukan permainan kata-kata dan bahasa untuk menciptakan daya tarik dan kekhasan terhadap lirik atau syairnya. Permainan bahasa ini dapat berupa permainan vokal, gaya bahasa maupun penyimpangan makna kata dan diperkuat dengan penggunaan melodi dan notasi musik yang disesuaikan dengan lirik lagunya sehingga pendengar semakin terbawa dengan apa yang dipikirkan pengarangnya (Sari, Yuita Arum. 2012). Definisi lirik atau syair lagu dapat dianggap sebagai puisi begitu pula sebaliknya. Hal serupa juga dikatakan oleh Jan van Luxemburg (1989) yaitu definisi mengenai teks-teks puisi tidak hanya mencakup jenis-jenis sastra melainkan juga ungkapan yang bersifat pepatah, pesan iklan, semboyan-semboyan politik, syair-syair lagu pop dan doa-doa. Jika definisi lirik lagu dianggap sama dengan puisi, maka harus diketahui apa yang dimaksud dengan puisi. Lagu yang terbentuk dari hubungan antara unsur musik dengan unsur syair atau lirik lagu merupakan salah satu bentuk komunikasi massa. Pada kondisi ini, lagu sekaligus merupakan media penyampaian pesan oleh komunikator kepada komunikan dalam jumlah yang besar melalui media massa.Pesan dapat memiliki berbagai macam bentuk, baik lisan maupun tulisan. Lirik lagu memiliki bentuk pesan berupa tulisan
kata-kata dan kalimat yang dapat digunakan untukmenciptakan suasana dan gambaran imajinasi tertentu kepada pendengarnya sehingga dapat pula menciptakan makna-makna yang beragam. Dalam fungsinya sebagai media komunikasi, lagu juga sering digunakan sebagai sarana untuk mengajak bersimpati tentang realitas yang sedang terjadi maupun atas cerita-cerita imajinatif. Dengan demikian lagu juga dapat digunakan untuk bebagai tujuan, misalnya menyatukan perbedaan, pengobar semangat seperti pada masa perjuangan, bahkan lagu dapat digunakan untuk memprovokasi atau sarana propaganda untuk mendapatkan dukungan serta mempermainkan emosi dan perasaan seseorang dengan tujuan menanamkan sikap atau nilai yangkemudian dapat dirasakan orang sebagai hal yang wajar, benar dan tepat. Propaganda melalui maupun tidak melalui lirik lagu tetap memiliki efek yang kompleks. Contohnya Jika pesan dalam lirik lagu oleh propagandis diketengahkan tentang ketidakadilan dan ketimpangan-ketimpangan sosial dansecara tidak langsung menempatkan pemerintah sebagai pihak yang harusnya bertanggung jawab pada keadaan itu, bukan tidak mungkin hanya melalui lagu , khalayak menjadi marah, menuntut bahkan melawan pemerintah sebagai pihak yang bertanggungjawab dengan berbagai bentuk.Oleh karena bahasa dalam hal ini kata-kata, khususnya yang digunakan dalam lirik lagu tidak seperti bahasa sehari-hari dan memiliki sifat yang ambigu dan penuh ekspresi ini menyebabkan bahasa cenderung untuk mempengaruhi, membujuk dan pada akhirnya mengubah sikap pembaca. Maka untuk menemukan makna dari pesan yang ada pada lirik lagu, digunakanlah metode semiotika yang notabene merupakan bidang ilmu yang mempelajari tentang sistim tanda. Mulai dari bagaimana tanda itu diartikan, dipengaruhi oleh persepsi dan budaya, serta bagaimana tanda membantu manusia memaknai keadaan sekitarnya. Tanda atau sign menurut Littlejohn adalah basis dari seluruh komunikasi. Sedangkan yang disebut tanda dapatberupa gambar atau tulisan. Kata Emosi berasal dari dua bahasa yaitu bahasa perancis emotion yang berartikegembiraan dan dari bahasa latin emovere yang berarti bergerak menjauh. Emosi adalah perasaan intens yang ditujukan kepada seseorang atau sesuatu dalam arti lain emosi adalah reaksi terhadap seseorang atau kejadian.
Arti kata emosi diatas menyiratkan bahwa kecenderungan bertindak merupakan hal yang mutlak dalam emosi.Kebanyakan ahli yakin bahwa emosi lebih cepat berlalu daripada suasana hati.Emosi merupakan reaksi terhadap rangsangan dari luar dan dalam diri individu.Emosi dapat ditunjukkan ketika merasa senang mengenai sesuatu, marah kepada seseorang, ataupun takut terhadap sesuatu (Amelia. Rahayu, Dwi. 2013) Beberapa tokoh mengemukakan tentang macam – macam emosi antara lain Descrates, JB Waston dan Daniel Goleman. Menurut Descrates, emosi terbagi atas : 1.
Desire
= hasrat
2.
Hate
= benci
3.
Sorrow
= sedih / duka
4.
Wonder
= heran
5.
Love
= cinta
6.
Joy
= kegembiraan
Menutur JB Waston, emosi terbagi menjadi tiga yaitu : 1.
Fear
= ketakutan
2.
Rage
= kemarahan
3.
Love
= cinta
Dan menurut Daniel Goleman, dia mengemukakan bahwa emosi terdiri dari : 1.
Amarah
= beringas, mengamuk, benci, jengkel, kesal hati
2.
Kesedihan
= pedih, sedih, muram, suram, melankolis, mengasihi diri, putus
asa 3.
Rasa takut
= cemas, gugup, khawatir, was-was, waspada, tidak tenang, ngeri
4.
Kenikmatan
= bahagia, gembira, riang, puas, riang, senang, terhibur, bangga
5.
Cinta
= penerimaan, persahabatan, kepercayaan, bakti, hormat,
kemesraan 6.
Terkejut
= terkesiap
7.
Jengkel
= hina, jijik, muak, mual, tidak suka
8.
Malu
= malu hati, kesal
Dari uraian beberapa tokoh diatas, dapat disimpulkan bahwa pengertian emosi adalah suatu perasaan yang mendorong individu untuk merespon atau bertingkah laku
terhadap stimulus, baik yang berasal dari dalam maupun dari luar dirinya (Amelia. Rahayu, Dwi. 2013)
2.1.2 Metode Penentuan Lirik Metode yang digunakan pada penentuan emosi berdasarkan lirik lagu, berikut merupakan penjabaran metode yang digunakan pada sistem. 2.1.2.1 Singular Value Decomposition (SVD) Singular Value Decomposition (SVD) merupakan model matematis yang digunakan untuk reduksi dimensi data. Proses SVD dilakukan dengan mendekomposisi matriks menjadi tiga bagian, seperti pada gambar 2.1.
Gambar 2.1. Ilustrasi matriks SVD Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf
Matriks U dan V adalah matriks othonormal, dimana baris pada matriks U menggambarkan banyaknya baris pada matriks A, sementara kolom pada matriks V menggambarkan banyaknya kolom pada matriks A. k-rank digunakan untuk mereduksi dimensi dari matriks A. Matriks S merupakan matriks simetris yang berisi nilai positif di sepanjang diagonal, daerah selain diagonal berisi 0 (Sari, Yuita Arum. 2012). 2.1.2.2 Latent Semantic Indexing (LSI) Penggunaan SVD digunakan dalam LSI. LSI merupakan salah satu bentuk teknik proses temu kembali dengan menggunakan Vector Space Model (VSM), untuk menemukan informasi yang relevan. Keterkaitan makna di dalam LSI sifatnya
tersembunyi. Fungsi matematis di dalam LSI mampu menemukan hubungan semantik antar kata. Representasi dari LSI adalah 𝒒′ = 𝒒𝑻. 𝑼𝒌. 𝑺−𝒌𝟏
(1)
dimana q’ adalah query vector representasi dari LSI, qT adalah transpose TDM dari pembobotan ternormalisasi TFIDF query, Uk adalah reduksi dimensi k dari matriks U, dan Sk1 adalah inverse dari reduksi dimensi k matriks S (Sari, Yuita Arum. 2012). 2.1.2.3 Vector Space Model (VSM) VSM adalah cara konvensional yang biasa digunakan dalam proses temu kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu antara vektor dari corpus dan vektor dari query. Penghitungan kemiripan dihitungdengan menggunakan rumus cosine similarity. (2)
Dari persamaan 6 nilai q merupakan nilai matriks hasil query SVD. d merupakan nilai dari matriks V, dimana nilai dimensi dari matriks V merupakan hasil input k sesuai dengan nilai reduksi dengan k ≤ min(m x n), dimana m adalah banyaknya kata-kata dan n adalah banyaknya dokumen lirik (Sari, Yuita Arum. 2012).
2.1.3 Teknik Pembobotan Teknik pembobotan digunakan untuk mengumpulkan data yang berupa teks yang kemudian digunakan untuk proses pengolahan teks menjadi bobot yang mudah diolah oleh sistem. Berikut merupakan teknik pembobotan yang digunakan pada sistem. 2.1.3.1 Pembobotan TF-IDF Ternormalisasi Terdapat tiga cara untuk menghitung nilai term frequency (TF), yaitu dengan menghitung frekuensi sebagai bobot, menghitung peluang kemunculan sebagai bobot (TF tanpa ternormalisasi), dan menghitung logaritma dari banyaknya kemunculan term (TF ternormalisasi). Dari ketiga fungsi tersebut, menurut Garcia, TF dengan normalisasi menghasilkan nilai pembobotan yang baik, karena dapat mengurangi efek panjang dari dokumen. TF ternormalisasi dihitung sebagai berikut:
(3) dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Untuk normalisasi frekuensi dalam query diberikan rumus : (4) dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, dan max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Sehingga, pembobotan TF-IDF pada kata i dan dokumen j dapat ditulis sebagai berikut : (5)
dimana Wi,j adalah bobot kata i pada dokumen j , fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang mengandung kata i. Pembobotan tersebut digunakan untuk pembobotan pada corpus. Pembobotan pada query dapat ditulis sebagai berikut : (6)
dimana Wi,j adalah bobot kata i pada dokumen j, fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang mengandung kata i (Sari, Yuita Arum. 2012). 2.1.3.2 Text Mining Teknik text mining merupakan sebuah teknik dimana data yang berupa teks dikumpulkan dan diolah, untuk dapat diidentifikasi dengan pola-pola tertentu. Proses text mining termasuk dalam salah satu bidang Natural Language Processing (NLP), karena di dalam text mining, teks akan diolah sehingga dapat dikomputasi dan dapat menghasilkan informasi yang relevan satu dengan yang lainnya. Pengolahan dalam teks mining tahap awal dikenal dengan nama preprocessing. Teknik yang terdapat dalam
preprocessing yaitu case folding, stopword removal, tokenizing, dan stemming. Case foding merupakan proses untuk membuat semua teks menjadi pola yang seragam (uppercase atau lowercase). Stopword removal menghilangkan kata-kata yang dianggap tidak mempunyai kata penting. Tokenizing atau teknik parsing digunakan untuk memecah kalimat menjadi kata-kata. Selanjutnya, katakata tersebut diolah sehingga hanya didapatkan kata-dasar saja. Teknik tersebut dinamakan dengan stemming. Stemming yang digunakan pada penelitian ini adalah algoritma Nazief-Andriani (Sari, Yuita Arum. 2012). 2.1.3.3 Stemming Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran (confixes) pada kata turunan. Imbuhan pada Bahasa Indonesia lebih kompleks bila dibandingkan dengan imbuhan pada Bahasa Inggris karena imbuhan pada Bahasa Indonesia terdiri dari awalan, sisipan, akhiran bentuk perulangan, serta kombinasi dari awalan dan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya. Salah satu masalah yang ada adalah perbedaan tipe dari imbuhan-imbuhan, yang lain adalah bahwa awalan dapat berubah tergantung dari huruf pertama pada kata dasar. Sebagai contoh ”me-” dapat berubah menj adi ”mem-” ketika huruf pertama dari kata dasar tersebut adalah ”b”, misalnya ”membuat”, tetapi ”me-” juga dapat berubah menj adi ”meny-” ketika huruf pertama dari kata dasar melekat adalah ”s”, misalnya ”menyapu” (Amelia. Rahayu, Dwi. 2013) Ada beberapa teknik pendekatan untuk melakukan stemming untuk teks berbahasa Indonesia, yaitu : 1.
Nazief and Andriani’s Algorithm Algoritma ini berdasarkan pada aturan morfologi bahasa Indonesiayang luas dan
dikumpulkan menjadi satu grup serta dienkapsulasi pada imbuhan yang diperbolehkan dan imbuhan yang tidak diperbolehkan. Langkah-langkah Nazief and Andriani’s Algorithm :
a.
Kata yang belum di stemming dicari pada kamus. Jika ditemukan, berarti kata tersebut merupakan kata dasar sehingga kata tersebut dikembalikan dan algoritma dihentikan.
b.
Hilangkan Inflectional suffixes terlebih dahulu. Jika berhasil dan suffix adalah partikel (“lah” atau “kah”), langkah ini dilakukan lagi untuk menghilangkan Inflectional possessive pronoun suffixes (“ku”, “mu” atau “nya”)
c.
Derivational suffix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek apakah masih ada Derivational suffix yang tersisa, jika ada maka dihilangkan. Jika tidak ada maka lakukan langkah selanjutnya.
d.
Derivational prefix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek apakah masih ada Derivational prefix yang tersisa, jika ada maka dihilangkan. Jika tidak ada maka lakukan langkah selanjutnya.
e.
Setelah tidak ada lagi imbuhan yang tersisa, algoritma dihentikan dan kata dasar dicari pada kamus, jika kata dasar tersebut ditemukan berarti algoritma ini berhasil tetapi jika tidak ketemu, maka dilakukan recoding.
f.
Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak ditemukan pada kamus juga maka algoritma ini mengembalikan kata yang asli sebelum dilakukan stemming.
2.
Arifin and Setiono’s Algorithm Arifin and Setiono mengajukan skema algoritma yang sedikit lebih sederhana
dibandingkan Nazief and Adriani, tetapi terdapat kesamaan di antara kedua algoritma tersebut yaitu menggunakan kamus dan menyediakan fungsi recoding. Langkah-langkah penghilangan imbuhan-imbuhan yang diterapkan pada algoritma ini adalah dengan menghilangkan awalan (prefix) terlebih dahulu baru kemudian menghilangkan akhiran (suffix) pada kata turunan yang akan dilakukan stemming. Jika kata turunan yang sudah dilakukan proses stemming telah berhasil dilakukan, namun tidak dapat ditemukan kata dasarnya pada kamus maka semua imbuhan yang telah dihilangkan tadi dikembalikan untuk kemudian dikombinasikan dengan kata hasil stemming tadi guna mengurangi terjadinya overstemming. Keuntungan Arifin and Setiono’s Algorithm adalah jika kata dasar dari sebuah kata turunan tidak dapat ditemukan setelah menghilangkan awalan dan akhirannya maka algoritma ini akan mencoba mengembalikan semua imbuhan yang telah dihilangkan tadi
untuk dikombinasikan dengan kata hasil stemming dari kata turunan yang kata dasarnya tidak ditemukan pada kamus (Amelia. Rahayu, Dwi. 2013) 2.1.3.3 Term Weighting (Pemberian bobot terhadap term) Setiap term diberikan bobot sesuai dengan model pembobotan yang dipilih, apakah pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi yang menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan global inverse document frequency (Amelia. Rahayu, Dwi. 2013). 2.1.3.4 Inverted Index Inverted Index merupakan struktur data berbentuk matriks, yang digunakan untuk mempermudah dalam merepresentasikan banyaknya kata yang muncul dalam dokumen teks. Tabel 1. Contoh penerapan inverted index
Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf
2.1.4 Pemrosesan Teks Teks merupakan deretan karakter yang bisa direkam ke dalam suatu file/berkas/arsip.Pemrosesan Teks adalah suatu proses pengubahan bentuk data yang belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan pengguna untuk proses mining yang lebih lanjut (Amelia. Rahayu, Dwi. 2013).
Pemrosesan teks mencakup: 1.
Information retrieval : tindakan, metode dan prosedur yang dilakukan untuk menemukan kembali data yang tersimpan untuk menyediakan informasi mengenai subyek yang dibutuhkan.
2.
Klasifikasi dokumen : membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya.
3.
Document Clustering : mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya.
4.
Peringkasan teks
: Menghasilkan ringkasan suatu dokumen secara otomatis.
5.
Ekstraksi informasi
: Mengekstrak informasi yang dianggap penting dari suatu
dokumen. Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai indeks yang nantinya digunakan untuk membuat pemodelan Temu Kembali Informasi (Amelia. Rahayu, Dwi. 2013).
2.1.5 Tipe Evaluasi Precision, recall, dan F-Measure merupakan kumpulan evaluasi untuk mengetahui keakuratan sistem temu kembali secara unranked retrieval, atau dengan pengembalian dokumen tanpa perangkingan. Tipe evaluasi yang digunakan untuk mengevaluasi sistem temu kembali dengan ranked retrieval pada penelitian ini digunakan Mean Average Precission (MAP). Dalam konteks sistem temu kembali, dokumen yang dikembalikan dengan memasukkan top-k dokumen yang retrieved. Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan. Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak relevan nilainya adalah 0. Rumus dari Mean Average Precission adalah sebagai berikut: (7) dimana nilai Q merupakan kumpulan query atau menyatakan banyaknya query yang diinputkan qj € Q {d1,……dmj} dan Rjk adalah nilai precission dari kumpulan file lirik lagu retrieved dan relevan yang telah diranking. Nilai MAP mempunyai rentang
nilai 0 sampai 1, dan dalam sebuah sistem dikatakan baik jika nilai MAP mendekati 1 (Sari, Yuita Arum. 2012).
2.2
Desain Sistem Perancangan
desain
sistem
penentuan
emosi
berdasarkan
lirik
lagu
menggunakan sistem temu kembali informasi dengan metode latent semantic indexing (LSI) menggunakan flowchart berikut. 2.2.1 Metode Penelitian Kumpulan lirik lagu bahasa Indonesia didapatkan dari berbagai sumber yang ada di internet dan kemudian ditentukan emosi-emosi apa saja yang terdapat di dalam sebuah lirik lagu. Label emosi yang digunakan diantaranya religius, sedih, marah, semangat, takut, dan cinta. Penelitian dilakukan melalui langkahlangkah sebagai berikut: 1.
Mengumpulkan lirik lagu berbahasa Indonesia. Kumpulan lirik lagu tersebut disebut sebagai corpus. Inputan sistem terdiri atas corpus dan query yang berupa lirik.
2.
Preprocessing file corpus dan query.
3.
Membentuk struktur data inverted index pada corpus.
4.
Membentuk matriks pembobotan TF IDF ternormalisasi pada corpus dan query.
5.
Mendekomposisi matriks pembobotan corpus dengan SVD.
6.
Reduksi dimensi dari hasil dekomposisi matriks SVD.
7.
Menghitung query vector yang merupakan representasi dari LSI.
8.
Mencari kemiripan antara corpus dan query dengan cosine similarity.
9.
Pengurutan nilai cosine similarity secara descending order.
10.
Pengambilan top-n teratas nilai cosine similarity hasil pengurutan.
11.
Melakukan evaluasi dari hasil penelitian dengan Mean Average Precission (MAP). Hasil yang relevan antara query dan corpus adalah yang memiliki label emosi yang sama (Sari, Yuita Arum. 2012).
2.2.2 Flowchart Perancangan flowchart atau diagram alir akan memudahkan pengembang untuk mengimplementasikan sistem ke dalam bahasa pemrograman, karena akan menjelaskan bagaimana cara kerja sistem dari awal hingga akhir.
Mulai
Daftar filterTerm dalam tipe data vektor
Proses pencocokan filterTerm[index]
Index + 1
Kata kunci
Recording? false (filterTerm[inde x] == token)
(Term== kata kuncu) ( Term == kata kunci)
false
Cek rule
false
Proses reduksiAwalan()
true
false
false
(Term==kata kunci)
Proses reduksiAkhiran()
Sudah melalukan proses reduksiAwalan()
true
Proses loopPengembalianA khiran() true Cek apakah term merupakan kata ulang
Proses ambil sub kata disebelah kanan dan kiri tanda “-“
(index > filterTerm.size()
Proses simpan term ke varianel stemTerm
true
Lakukan proses stemming pada dua sub kata
true
Sama ?
false
Proses pengembalian kata ulang sebelum proses stemming
true Daftar stemTerm dalam tipe data vektor
selesai
Gambar 2.2. Flowchart Stemming Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764 6<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac
Proses stemming dilakukan berdasarkan input daftar filterTerm, proses stemming ini menggunakan algoritma Enhanced Confix Stripping Stemmer seperti yang disebutkan pada analisa permasalahan sebelumnya. Langkah pertama pada algoritma stemmer ini adalah mencocokkan term pada elemen di index tertentu dengan daftar “kata dasar” dalam database kamus. Jika cocok maka term tersebut langsung disimpan dalam variable stemTerm, jika tidak maka dilakukan pengecekan rulePrecedence yakni larangan kombinasi awalan dan akhiran. Jika rulePrecedence mengembalikan nilai true proses reduksiAwalan dilakukan dan selanjutnya melakukan pencocokan kembali terhadap database kamus, jika benar term disimpan jika tidak lakukan proses recording bila perlu. Proses reduksiAkhiran dan proses loopPengembalianAkhiran dilakukan jika proses reduksiAwalan sudah dilakukan dan term yang bersangkutan tidak cocok dengan database kamus. Jika semua proses itu tidak berhasil, maka term yang ada langsung disimpan dalam variable dan dianggap sebagai sebuah kata dasar. Proses ini terus berulang pada setiap elemen yang mengandung term di variable filterTerm hingga akhir elemen variable ini. Gambar 2.2. memaparkan diagram alir dari proses stemming. Berikut proses berjalannya sistem (Amelia. Rahayu, Dwi. 2013).
Teks Lirik Lagu dengan Emosi
Pengelompokk an Emosi
Klasifikasi Teks Lirik Lagu Berdasarkan Jenis Emosi
Nilai Parameter
Nilai Peluang Teks Lirik Lagu terhadap Emosi
Latent Semantic Indexing (LSI)
Gambar 2.3 Klasifikasi Emosi berdasarkan lirik lagu dengan Naïve Bayes dan Logika Fuzzy Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764 6<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac
BAB III ANALISA DAN KESIMPULAN
3.1
Analisa Berdasarkan refrensi jurnal yang saya baca pada (Sari, Yuita Arum. 2012) dan
(Amelia. Rahayu, Dwi. 2013) tentang cara menentukan emosi berdasarkan lirik lagu dapat dianalisa sebagai berikut. Untuk menerapkan sistem digunakan lirik lagu berbahasa Indonesia, sehingga dalam proses stemming dapat dengan mudah sistem mengabaikan penggunaan bahasa Indonesia yang kurang resmi (bahasa gaul), dengan demikian kata yang dihasilkan pada proses tokenizing semakin banyak dan memudahkan pemrosesan kata yang akan dijadikan sebagai acuan untuk menentukan emosi. Jika dimensi antara jumlah kata dan banyaknya lirik lagu semakin besar maka waktu komputasi yang dihasilkan juga cukup lama. Maka dari itu pemanfaatan metode SVD digunakan disini. Metode SVD digunakan pada proses reduksi dimensi karena dapat mengurangi jumlah dimensi. Proses LSI menggunakan SVD juga digunakan untuk mencari keterkaitan makna antar kata yang tersembunyi. Sehingga kata yang tersembunyi dapat diolah dan dijadikan tambahan dalam melakukan proses pengolahan kata. Proses matematis dalam SVD mampu menunjukkan hubungan semantik antar kata. Pemilihan k-rank yang optimal tidak dapat ditentukan secara pasti karena banyaknya jumlah kata dan dokumen yang berbeda akan memungkinkan untuk menghasilkan k-rank optimal yang berbeda pula. Frasa yang ditimbulkan pada lirik lagu juga dapat dimanfaatkan dalam proses pembobotan sehingga makna dari frasa akan lebih baik dan menghasilkan presisi yang cukup baik jika penggunaan frasa dilibatkan. Tetapi pada penerapannya sistem belum dapat mengenali frasa secara baik, sistem ini belum bisa mengenali frasa yang terdiri dari dua buah kata. Sehingga hasil dari sistem belum cukup akurat. Maka dari itu dapat menyebabkan
dimensi
data
tidak
dapat
diminimalkan,
sehingga
pemangkasan frekuensi kata sebelum proses pembobotan dilakukan.
dibutuhkan
3.2
Kesimpulan Beberapa kesimpulan yang dapat diambil dari sistem penentuan emosi
berdasarkan lirik lagu menggunakan sistem temu kembali informasi dengan metode latent semantic indexing (LSI) antara lain adalah: 1.
Banyaknya jumlah kata yang terdapat dalam file lirik lagu berpengaruh dalam proses pembobotan TF-IDF.
2.
Penggunaan frasa dalam penentuan makna sangat berpengaruh. Penggunaan frasa dapat diletakkan sebelum menghitung pembobotan dengan menggunakan TF-IDF ternormalisasi.
DAFTAR PUSTAKA
((Sari, Yuita Arum. 2012) Sari, Yuita Arum. Achmad Ridok, Marji. 2012. Penentuan Emosi berdasarkan lirik lagu Menggunakan Sistem Temu Kembali Informasi dengan Metode Latent Semantic Indexing (LSI). Teknik Informatika, Institut Teknologi Sepuluh Nopember (ITS), Surabaya Program Teknik Informatika dan Ilmu
Komputer,
Universitas
Brawijaya
(UB),
Malang.
http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_P ENENTUAN_LIRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN _SISTEM_TEMU_KEMBALI_INFORMASI_DENGAN_METODE_LATENT _SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf
diakses
tanggal 4 Mei 2015
(Amelia. Rahayu, Dwi. 2013) Amelia. Rahayu, Dwi. 2013. Klasifikasi Emosi Pada Lirik Lagu Dengan Metode Naïve Bayes Classifier (NBC) dan Logika Fuzzy. Program Studi Teknik Informatika Program Teknologi Informasi dan Ilmu Komputer.
Universitas
Brawijaya,
Malang.
https://www.scribd.com/document_downloads/direct/241289319?extension=doc &ft=1432037646<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp 9jMuY0sb8ZTTeac diakses tanggal 18 Mei 2015