OPEN ACCESS Ind. Symposium on Computing Sept 2016. pp. 139-148
ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc
doi:10.21108/indosc.2016.131
Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes Rifqi Abdul Aziz #1, Mohamad Syahrul Mubarok *2, Adiwijaya #3 # School of Computing, Telkom University Bandung (40257) Indonesia 1
[email protected] 2
[email protected] 3
[email protected]
Abstract The current system for categorizing songs on application like iTunes on the iPhone has been able to categorize songs by genre, artist, and album. However, there has been no categorization song by song topics, categorizing songs based on topic is still done manually. This research aims to create a system that categorizes songs by song topics using lyrics as research objects. This research begins by collecting lyrics from many website which serve as research dataset, then data preprocessing is done, consisting of case folding, tokenization, stopword removal and stemming. The next step is to do feature selection by using chi-square. Furthermore, feature extraction will be on the feature selection results by using bag of words. Classifier building is then performed to be used in the classification process. The next step is to clasify song lyrics on test data into a class topic by using multinomial naïve bayes method. The last step in this research is to evaluate system by calculating accuracy, precision, recall and f1-measure. Topic class in this system are love, friendship, nasionalism, family, religion, and negative content. The performance of this system in this study, the f1-measure values at 88.91% and accuracy at 96.00%. Keywords: Classification, Song lyrics, Chi square, Multinomial naïve bayes
Abstrak Saat ini sistem pengkategorian lagu pada aplikasi pemutar musik seperti iTunes pada iPhone sudah mampu mengkategorikan lagu berdasarkan genre, artist, dan album. Namun belum terdapat pengkategorian lagu berdasarkan topik lagu, sehingga untuk mengkategorikan lagu berdasar topik ini masih dilakukan secara manual. Penelitian ini bertujuan untuk membuat sistem yang mampu mengkategorikan lagu berdasarkan topik lagu dengan menggunakan lirik lagu sebagai objek penelitian. Penelitian ini diawali dengan mengumpulkan lirik lagu dari berbagai website penyedia lirik lagu sebagai dataset penelitian, kemudian dilakukan preprocessing data yang terdiri dari case folding, tokenization, stopword removal dan stemming. Tahap selanjutnya yaitu melakukan feature selection dengan menggunakan metode chi-square. Selanjutnya hasil feature selection tersebut dilakukan feature extraction dengan menggunakan metode bag of words. Selanjutnya dilakukan pembangunan classifier yang nantinya digunakan pada saat proses klasifikasi. Tahap selanjutnya yaitu melakukan klasifikasi lirik lagu pada data testing kedalam sebuah kelas topik tertentu dengan menggunakan metode multinomial naïve bayes. Tahap terakhir pada penelitian ini yaitu mengevaluasi sistem dengan menghitung accuracy, precission, recall, dan f1-measure. Kelas topik lagu yang dihasilkan pada sistem ini yaitu cinta, persahabatan, nasionalisme, keluarga, religi dan konten negatif. Performansi sistem yang dihasilkan pada penelitian ini didapatkan nilai f1-measure sebesar 88.91% dan nilai akurasi 96.00%. Kata Kunci: Klasifikasi, Lirik lagu, Chi square, Multinomial naïve bayes
Received on August 2016. Accepted on Sept 2016
Rifqi Abdul Aziz et.al. Klasifikasi Topik pada Lirik Lagu dengan ...
140
I.
INTRODUCTION
J
umlah lagu khususnya di Indonesia semakin lama akan semakin bertambah banyak dan beragam, terbukti dari banyak bermunculannya single bahkan album yang diluncurkan oleh group musik/penyanyi setiap waktunya. Dari hal tersebut diperlukan suatu sistem yang mampu mengkategorikan lagu untuk memudahkan pendengar dalam melakukan pencarian lagu. Saat ini aplikasi pemutar musik seperti iTunes pada iPhone, laya pada Android sudah mampu mengkategorikan lagu berdasarkan genre, artist, dan album. Namun, belum terdapat pengkategorian lagu berdasarkan topik lagu, sehingga untuk mengkategorikan lagu berdasar topik ini masih dilakukan secara manual. Salah satu cara untuk melakukan kategorisasi lagu berdasarkan topik lagu tersebut dapat diselesaikan dengan menggunakan machine learning. Lirik merupakan salah satu komponen yang penting pada sebuah karya lagu. Lirik dapat didefinisikan sebagai rangkaian kata-kata yang merupakan ungkapan, perasaan dan pikiran pencipta lagu [1], sehingga dengan lirik lagu tersebut kita dapat mengetahui pesan yang terkandung pada sebuah lagu. Dari hal tersebut, lirik dapat digunakan sebagai objek penelitian pada text classification. Pada penelitian ini dibuat sebuah sistem yang mampu mengkategorikan lagu berdasarkan topik lagu seperti penelitian yang telah dilakukan oleh Jose P. G. Mahedero, Alvaro Martinez, dan Pedro Cano [2]. Kelas topik yang dihasilkan pada penelitian ini yaitu cinta, persahabatan, keluarga, religi, nasionalisme dan konten negatif. II. LITERATURE REVIEW Pada bab ini akan dibahas mengenai kajian apa saja yang dijadikan sebagai landasan teori pada text classification. Berikut adalah kajian yang digunakan pada penelitian ini. A. Text Classification Menurut Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze [3], Text classification atau bisa disebut text categorization merupakan proses pengelompokan dokumen kedalam suatu kelas tertentu. Permasalahan utama pada text classification yaitu bagaimana sistem mampu menentukan kelas sebenarnya pada dokumen dengan memanfaatkan informasi-informasi yang terdapat pada dokumen tersebut. Salah satu cara untuk melakukan text classification tersebut dapat diselesaikan dengan menggunakan supervised machine learning, dimana proses klasifikasi dokumen dilakukan berdasarkan dokumen-dokumen yang telah dipelajari oleh sistem sebelumnya. B. Sampling Sampling merupakan teknik pengambilan data sampel dari populasi [4]. Menurut Chawla, dan Nitesh V [5], ketidakseimbangan data antar kelas telah menjadi permasalahan pada machine learning. Ketidakseimbangan ini terjadi karena pada dasarnya data yang terdapat di dunia nyata memiliki jumlah yang berbeda-beda, terdapat kelas yang memiliki jumlah data banyak (mayoritas), dan terdapat kelas yang memliki jumlah datanya sedikit (minoritas). Teknik sampling yang dapat dilakukan untuk menangani permasalahan imbalance data tersebut diantaranya dengan melakukan undersampling atau oversampling. Dari kedua metode sampling tersebut, berdasarkan penelitian yang dilakukan oleh Alexander Yun-chung Liu, B.S, random undersampling telah terbukti secara empiris sebagai metode resampling yang paling efektif dalam menangangi permasalahan imbalance data [6]. Menurut Sheldon M. Ross proses sampling ini dikatakan valid jika dilakukan minimal sebanyak 30 kali [7]. C. Chi Square Chi square yang dilambangkan dengan 𝜒 " merupakan metode yang digunakan untuk menghitung nilai ketergantungan dua variabel, dimana pada text classification metode ini digunakan untuk menghitung ketergantungan antara kata dengan kelas [8]. Perhitungan chi square dirumuskan dengan persamaan (1) [9]. 𝜒" =
𝑓𝑜 − 𝑓𝑒 𝑓𝑒
"
(1)
Ind. Symposium on Computing
Sept 2016
141
Dimana 𝜒 " merupakan nilai chi-square, fo merupakan jumlah frekuensi kata yang diamati, dan 𝑓𝑒 merupakan nilai ekspektasi dari data yang diamati atau theoretical frequency. Dalam melakukan feature selection chi-square ini, critic score ditentukan berdasarkan level of significance (𝛼) dan degree of freedom. Kata yang lolos pada feature selection ini adalah kata yang memiliki jumlah nilai chi-square melebihi nilai kritis yang sudah ditentukan. D. Multinomial Naïve Bayes Menurut Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze [3], Multinomial Naïve Bayes merupakan metode klasifikasi supervised learning untuk menentukan nilai probabilistik sebuah dokumen terhadap suatu kelas. Algoritma machine learning ini memiliki ciri utama asumsi yang kuat (naïve) terhadap ketertidakgantungan (independence). Pada text classification, algoritma ini memiliki dua asumsi yaitu asumsi Bag of Words yang berasumsi bahwa posisi kata dalam dokumen tidak berpengaruh dan Conditional Independence dimana masing-masing probabilitas setiap feature saling independence. Perhitungan Multinomial Naïve Bayes dirumuskan pada persamaan (2). 𝑃 𝑐|𝑑 ∝ 𝑃 c
(2)
𝑃(𝑡1 |𝑐) 341567
Dimana 𝑃 𝑐|𝑑 merupakan posterior probability dokumen terhadap suatu kelas, 𝑃 c merupakan prior probability suatu kelas, 𝑃(𝑡1 |𝑐) merupakan conditional/likelihood probability sebuah term dengan given class c, dan 𝑛9 merupakan jumlah term pada dokumen.Tujuan utama dari text classification yaitu mencari kelas terbaik pada sebuah dokumen. Penentuan kelas tersebut dilakukan dengan cara mencari nilai posterior probability tertinggi (maximum a posteriori) dengan menggunakan persamaan (3). 𝐶;<= = arg 𝑚𝑎𝑥 𝑃 𝑐|𝑑 = arg 𝑚𝑎𝑥 𝑃 c E∈ℂ
E∈ℂ
𝑃(𝑡1 |𝑐) 341567
III. RESEARCH METHOD Gambaran umum dari sistem yang dibuat pada penelitian ini ditunjukkan pada Gambar 1.
Gambar 1 Gambaran Umum Sistem
(3)
Rifqi Abdul Aziz et.al. Klasifikasi Topik pada Lirik Lagu dengan ...
142
TABLE I GAMBARAN UMUM SISTEM
No 1
Tahap Preprocessing
Input Dataset
2
Sampling
3
Spliting Dataset Feature Selection
Dataset hasil preprocess Dataset hasil sampling Term pada data training
4 5
Feature Extraction
Term hasil seleksi dan data training
6
Pembangunan Classifier
Bag of Words
7
Klasifikasi
8
Evaluasi Sistem
Data testing dan model classifier Hasil Klasifikasi
Proses Membersikan dataset agar sistem lebih mudah dalam melakukan kompterisasi data teks tersebut, dan mereduksi kata yang kurang penting (stopword). Proses ini terdiri dari case folding, tokenization, stopword removal, dan stemming. Proses sampling dengan menggunakan metode random undersampling. Proses membagi dataset menjadi data training dan data testing. Melakukan seleksi term dengan menggunakan metode chi square. Melakukan ekstraksi fitur dengan menggunakan representasi model bag of words, yaitu dengan cara menghitung jumlah kemunculan term pada data training. Membangun model classifier dengan menghitung prior probability semua kelas, dan likelihood probability semua term. Melakukan klasifikasi pada data testing dengan menggunakan metode multinomial naïve bayes. Mengevaluasi sistem dengan menghitung nilai accuracy, precision, recall, dan f1-measure.
Output Dataset hasil preprocess.
Dataset hasil sampling. Data training dan data testing Kumpulan term yang lolos seleksi fitur Bag of words
Model classifier (prior probability dan likelihood probability) Hasil klasifikasi Nilai evaluasi sistem
IV. RESULTS AND DISCUSSION A. Dataset Jumlah data lirik lagu yang telah dikumpulkan adalah sebanyak 1326 data. Dataset lirik ini terdiri dari 6 kelas kategori topik (cinta, persahabatan, nasionalisme, keluarga, religi, dan negatif) yang telah diberikan label secara manual (hand-labeling). Berikut rincian dataset lirik lagu ditunjukkan pada Tabel 2. TABLE 2 RINCIAN DATASET
Kelas Cinta Persahabatan Nasionalisme Keluarga Religi Negatif Total
Jumlah Lirik Lagu 250 195 199 193 250 239 1326
Ind. Symposium on Computing
Sept 2016
143
B. Skenario Pengujian 1. Menganalisis pengaruh persentase pembagian data training dan data testing dengan menggunakan satu dataset yang telah dilakukan random undersampling, dimana masing-masing persentase pembagian data training dan data testing dilakukan pengujian sebanyak 30 kali yaitu dengan 30 pembagian data training dan data testing berbeda yang ditentukan secara acak. Persentase pembagian data training dan data testing yang digunakan yaitu 15-85%, 25%-75%, 35%-65% 50%-50, 65%-35%,75%-25% dan 85%-15%. 2. Menganalisis hasil klasifikasi dari dataset random undersampling dengan menggunakan 30 dataset yang telah dilakukan random undersampling. Masing-masing dataset dillakukan pengujian sebanyak 30 kali yaitu dengan menggunakan 30 data training dan data testing berbeda yang ditentukan secara acak. 3. Menganalisis pengaruh penggunaan level of significance pada feature selection Chi-Square dengan menggunakan dataset random undersampling terbaik yang telah dilakukan pada skenario pengujian sebelumnya. level of significance yang digunakan pada pengujian ini yaitu 0,0005, 0.001, 0.005, 0.01, 0.05, dan 0.1. Masing-masing penggunaan level of significance dilakukan pengujian sebanyak 30 kali yaitu dengan dengan menggunakan 30 data training dan data testing berbeda yang ditentukan secara acak. 4. Membandingkan performansi sistem metode klasifikasi berbeda dengan menggunakan satu dataset random undersampling. Metode klasifikasi yang digunakan pada pengujian ini yaitu Multinomial Naïve Bayes, Support Vector Machine, Simple Logistic, dan Decision Tree (J48). C. Hasil Pengujian Hasil pengujian pada penelitian ini terdiri dari empat bagian, yaitu analisis peresentase pembagian data training dan data testing, analisis hasil klasifikasi pada dataset random undersampling, analisis pengaruh level of significance pada feature selection chi-square, dan analisis perbandingan performansi sistem dengan menggunakan metode klasifikasi yang lain. 1) Analisis hasil Pengujian Persentase Pembagian Data Training dan Data Testing Pengujian ini dilakukan untuk mengetahui pengaruh persentase pembagian data training dan data testing terhadap performansi sistem. Rincian pembagian data training dan data testing pengujian ini ditunjukkan pada Gambar 2. 1200 1000
984
870
200 0
984
576 576
600 400
750
750
800
870
174
15%-85%
288
25%-75%
408
408 288
35%-65%
50%-50%
65%-35%
Persentase Pembagian Data Training-Testing Data Training
75%-25%
174
85%-15%
Data Testing
Gambar 2 Pembagian Data Training dan Data Testing
Hasil perbandingan performansi sistem masing-masing persentase pembagian data training dan data testing ditunjukkan pada Gambar 3.
Rifqi Abdul Aziz et.al. Klasifikasi Topik pada Lirik Lagu dengan ...
144
100.00 80.00
91.18
89.88 75.10
77.79
91.98 79.53
92.58 80.85
93.36
93.14
92.99
82.70
82.16
81.82
60.00 40.00 20.00 0.00
15%-85%
25%-75%
35%-65%
50%-50%
65%-35%
75%-25%
Persentase Pembagian Data Training-Testing Microaverage F1-Measure Microaverage Accuracy
85%-15%
Gambar 3 Perbandingan Performansi Sistem Persentase Pembagian Data Training Data Testing
Berdasarkan Gambar 3, dapat disimpulkan bahwa semakin banyak data training maka semakin baik pula performansi sistem yang dihasilkan. Hal tersebut terjadi karena semakin banyak jumlah data training maka semakin banyak pula jumlah kata pada bag of words yang dilakukan proses pembelajaran oleh sistem, sehingga sistem memiliki knowledge yang lebih banyak. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pengujian ini ditunjukkan pada Tabel 3. TABLE 3 RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN PERSENTASE PEMBAGIAN DATA TRAINING DAN DATA TESTING
Kelas
Accuracy
Precision
Recall
F1-Measure
Cinta
96.23%
82.66%
100.00%
90.63%
Persahabatan
95.03%
83.87%
89.66%
86.67%
Nasionalisme
98.08%
96.43%
93.10%
94.74%
Keluarga
93.87%
91.30%
72.41%
80.77%
Religi
94.44%
85.71%
82.76%
84.21%
Negatif
96.23%
89.66%
89.66%
89.66%
Microaverage F1-Measure
88.00%
Microaverage Accuracy
95.63%
2) Analisis Hasil Klasifikasi pada Dataset Random Undersampling Pengujian ini dilakukan untuk mencari dataset yang memiliki nilai performansi sistem terbaik. Hasil perbandingan rata-rata microaverage f1-measure dari masing-masing dataset random undersampling ditunjukkan pada Gambar 4.
145
82.91 82.28 81.39
83.27 82.76 83.10 82.69 83.14 82.97 82.86 83.72 82.93 83.95 82.79 82.92
Sept 2016
82.16 82.69 82.35 82.67 82.78 83.15 83.45 83.41 83.02 82.83 83.10 83.43 83.03 83.30 83.19
RATA-RATA MICROAVERAGE F1-MEASURE
Ind. Symposium on Computing
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
RANDOM UNDERSAMPLING
Gambar 4 Rata-Rata Microaverage F1-measure masing-masing Dataset Random Undersampling
Berdasarkan Gambar 4, rata-rata microaverage f1-measure pada 30 dataset random undersampling berada pada rentang 81.39% sampai 83.95%. Hal tersebut menunjukan bahwa performansi sistem klasifikasi topik pada lirik lagu dengan menggunakan metode Multinomial Naïve Bayes ini mampu menghasilkan performansi sistem cukup baik. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pada pengujian ini ditunjukkan pada Tabel 4. TABLE 4 RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN DATASET RANDOM UNDERSAMPLING
Kelas
Accuracy
Precision
Recall
F1-Measure
Cinta
96.97%
90.00%
93.75%
91.84%
Persahabatan
95.17%
84.31%
89.58%
86.87%
Nasionalisme
95.88%
89.36%
87.50%
88.42%
Keluarga
96.60%
91.49%
89.58%
90.53%
Religi
95.52%
90.91%
83.33%
86.96%
Negatif
95.88%
87.76%
89.58%
88.66%
Microaverage F1-Measure
88.91%
Microaverage Accuracy
96.00 %
3) Analisis Pengaruh Level of Significance Feature Selection Chi-square Pengujian ini dilakukan untuk mengetahui pengaruh penggunaan level of significance pada feature selection chi-square (𝜒 " ). Pemilihan level of significance ini mempengaruhi jumlah kata yang lolos pada feature selection. Hasil perbandingan jumlah kata yang berhasil terseleksi pada masing-masing penggunaan level of significance ditunjukkan pada Gambar 5.
Rifqi Abdul Aziz et.al. Klasifikasi Topik pada Lirik Lagu dengan ...
146
Jumlah Kata
3224
3500 3000 2500 2000 1500 1000 500 0
489
0.00
537
0.0005 0.001
655
764
0.005
0.01
1057
0.05
1229
0.1
Level of Significance Gambar 5 Perbandingan Jumlah Kata pada Bag of Words
Waktu Proses (Second)
Berdasarkan Gambar 5, dapat disimpulkan bahwa semakin kecil nilai level of significance maka semakin sedikit kata yang lolos pada feature selection. Hal ini dikarenakan semakin kecil nilai level of significance, semakin tinggi nilai critic scorenya yang menyebabkan proses seleksi menjadi lebih ketat. Jumlah kata yang berhasil pada feature selection ini tentunya mempengaruhi waktu pembangunan model classifier. Berikut hasil perbandingan waktu pembangunan model classifer masing-masing level of significance dan tanpa penggunaan feature selection (0) ditunjukkan pada Gambar 6. 250
206.48
200 150 100 50
43.49
52.05
54.40
57.05
60.79
70.85
0.0005
0.001
0.005
0.01
0.05
0.1
0 0.00
Level of Significance Gambar 6 Perbandingan Waktu Pembangunan Classifier
Berdasarkan Gambar 6, ditunjukkan bahwa semakin kecil nilai level of significance maka semakin cepat waktu untuk membangun model classifier. Penggunaan feature selection ini mampu mereduksi jumlah feature yang banyak dan mampu mempercepat waktu pembangunan model classifier 66%-80% lebih cepat dibandingkan tanpa menggunakan feature selection. Penggunaan level of significance memiliki pengaruh terhadap performansi sistem, hasil perbandingan performansi sistem masing-masing penggunaan level of significance dan tanpa penggunaan feature selection (0) ditunjukkan pada Gambar 7.
Ind. Symposium on Computing
93.91
95.00
Sept 2016
147
93.68
93.62
93.37
93.36
93.25
93.17
90.00 85.00
83.95
83.25
82.64
82.62
82.33
82.12
83.39
80.00 75.00 0
0.0005
0.001
0.005
0.01
0.05
0.1
Level of Significance Rata-Rata Microaverage F1-Measure
Rata-rata Microaverage Accuracy
Gambar 7 Perbandingan Hasil Evaluasi Level of Significance Berbeda
Berdasarkan Gambar 7, ditunjukkan bahwa semakin kecil nilai level of significance maka semakin kecil nilai performansi sistemnya. Hal tersebut dikarenakan semakin kecil nilai level of significance maka semakin banyak feature yang hilang, sehingga jumlah kata yang dipelajari oleh sistem lebih sedikit dan kemungkinan sebuah feature dianggap sebagai unknown word lebih tinggi. Penggunaaan feature selection chi-square pada penelitian ini belum mampu meningkatkan performansi sistem, namun mampu mereduksi jumlah feature yang sangat banyak sehigga classifier yang dibangun lebih efisien dan mampu mempercepat proses pembangunan model classifier. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pada pengujian ini ditunjukkan pada Tabel 5. TABLE 5 RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN LEVEL OF SIGNIFICANCE
Kelas
Accuracy
Precision
Recall
Cinta
94.38%
81.13%
89.58%
F1Measure 85.15%
Persahabatan
95.09%
81.82%
93.75%
87.38%
Nasionalisme
96.55%
93.33%
87.50%
90.32%
Keluarga
95.82%
83.64%
95.83%
89.32%
Religi
95.09%
97.30%
75.00%
84.71%
Negatif
95.82%
93.02%
83.33%
87.91%
Microaverage F1-Measure
87.51%
Microaverage Accuracy
95.45%
4) Perbandingan Performansi Sistem dengan Metode Klasifikasi Lain. Pengujian ini dilakukan untuk mengetahui perbandingan performansi sistem dari beberapa metode klasifikasi yaitu Multinomial Naïve Bayes, Support Vector Machine, Simple Logistic, dan Decision Tree (J48). Hasil perbandingan performansi sistem masing-masing metode klasifikasi ditunjukkan pada Tabel 6.
Rifqi Abdul Aziz et.al. Klasifikasi Topik pada Lirik Lagu dengan ...
148
TABLE 6 PERBANDINGAN PERFORMANSI SISTEM METODE KLASIFIKASI
Metode
Average F1-Measure
Multinomial Naïve Bayes
82.30 %
SVM (Radial Basis Function)
81.00 %
SVM (Sigmoid)
80.90 %
SVM (Linear)
80.80 %
Simple Logistic
77.00 %
Decision Tree (J48)
69.30 %
Berdasarkan Tabel 6, dapat disimpulkan bahwa untuk studi kasus klasifikasi topik lirik lagu pada penelitian ini, metode Multinomial Naïve Bayes memiliki performansi sistem yang paling baik dibandingkan dengan metode klasifikasi lainnya. V. CONCLUSION Penggunaan metode Multinomial Naïve bayes pada penelitian ini mampu menghasilkan performansi yang baik dengan nilai f1-measure 88.91% dan nilai akurasi 96.00%. Persentase pembagian data training dan data testing terbaik pada penelitian ini yaitu pada persentase pembagian data 85%-15%. Penggunaan feature selection chi-square pada penelitian ini belum mampu meningkatkan performansi sistem namun mampu mereduksi jumlah feature yang banyak dan mampu mempercepat waktu pembentukan classifier 66%-80% lebih cepat dibandingkan tanpa menggunakan feature selection. ACKNOWLEDGMENT Penulis mengucapkan terima kasih kepada reviewers dan pihak lainnya yang sudah membantu menyelesaikan penelitian ini. REFERENCES
[1] Y. RM and Siswandi, Pendidikan Seni Budaya, Bogor: yudhistira, 2008. [2] J. P. G. Mahedero, A. Martinez and P. Cano, "NATURAL LANGUAGE PROCESSING of LYRICS," 2005. [3] C. D. Manning, P. Raghavan and H. Schütze, "Text classification and Naive Bayes," in An Introduction to Information Retrieval, Cambridge, Cambridge UP, 2009. [4] Eriyanto, Teknik Sampling Analisis Opini Publik, Yogyakarta: Lkis , 2007. [5] N. V. Chawla, "Data Mining for Imbalanced Datasets : An Overview," in Data Mining and Knowledge Discovery Handbook, Springer US, 2005, pp. 853-867. [6] A. Y.-c. Liu, "The Effect of Oversampling and Undersampling on Classifying Imbalanced Text Datasets," p. 8, 2004. [7] S. M. Ross, Introductory Statistics : Third Edition, Los Angeles: Elsevier, 2010. [8] D. A. Said, "DIMENSIONALITY REDUCTION TECHNIQUES FOR ENHANCING AUTOMATIC TEXT CATEGORIZATION," p. 30, 2007. [9] J. E. Nesbitt, CHI-SQUARE, Manchester: Manchester University Press, 1966.