Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi Berita dan Informasi Pelengkap Bahasa Indonesia Masayu Leylia Khodra1, Yudi Wibisono2, Dyah Rahmawati1, Fawwaz Muhammad1 1
2
Sekolah Teknik Elektro dan Informatika ITB Ilmu Komputer Universitas Pendidikan Indonesia Email:
[email protected]
Makalah ini bertujuan untuk menginvestigasi berbagai model kategorisasi teks untuk agregasi berita dan informasi pelengkapnya dari media sosial (Twitter). Model kategorisasi biner, multikelas, dan multilabel dibangun untuk sistem agregasi ini. Untuk setiap artikel berita, diaplikasikan kategorisasi multilabel untuk kategorisasi berita, sedangkan kategorisasi multikelas untuk ekstraksi event 5W1H (Who, What, Where, When, Why, How). Kinerja terbaik model pemrosesan berita adalah Fmeasure 76.13% untuk kategorisasi berita dan Fmeasure 66.6% untuk kategorisasi ekstraksi 5W1H. Untuk setiap tweet sebagai informasi pelengkap, diaplikasikan kategorisasi biner untuk mendapatkan tweet yang relevan dan kategorisasi multikelas ke dalam 10 kategori berita. Kinerja terbaik model pemrosesan tweet adalah akurasi 79.29% untuk kategorisasi relevansi dan Fmeasure 52.4% untuk kategorisasi tweet. Kategorisasi multilabel hirarki sedang dieksplorasi untuk meningkatkan kinerja model kategorisasi berita. Kata kunci: kategorisasi teks, berita, tweet, biner, multilabel, multikelas
1. Pendahuluan Sistem agregasi berita dikembangkan untuk membantu pembaca berita dengan mengumpulkan informasi berita dari berbagai sumber dan menyajikannya dalam satu tempat. Dengan sistem ini, pembaca tidak perlu mencari berita dari berbagai sumber, dan aplikasi dapat mengambil berita sesuai kebutuhan dari pembaca (Lasica, 2003). Berbeda dengan agregator berita konvensional yang hanya menyajikan daftar topik berita dan kumpulan berita dari setiap topik, sistem ini bertujuan mendeskripsikan agregator berita yang dilengkapi dengan fasilitas analisis teks meliputi kategorisasi berita dan tweet, clustering berita, ekstraksi informasi 5W1H (Who, What, Where, When, Why, How), dan peringkasan kumpul berita. Makalah ini akan difokusan pada pemanfaatan kategorisasi teks dalam kategorisasi berita, kategorisasi tweet, dan ekstraksi informasi 5W1H. Gambar 1 memperlihatkan contoh ideal salah satu kategori dengan cluster seputar putusan tentang kebakaran hutan. Kategorisasi teks bertujuan menstrukturkan koleksi teks ke dalam kelas-kelas yang telah ditentukan sebelumnya. Kategorisasi teks dapat juga didefinisikan sebagai kegiatan melabeli nilai boolean terhadap setiap pasangan
, dengan teksi ∈ set dokumen, dan kelasj ∈ set kelas. Secara formal, pemodelan kategorisasi teks mengestimasi fungsi target pelabelan teks oleh manusia dengan fungsi hampiran h: DxC→boolean (Sebastiani, 2002). Dalam makalah ini, kategorisasi teks dimanfaatkan dalam berbagai task pada sistem agregasi berita dan tweet berbahasa Indonesia yang dikembangkan. Tantangan dalam makalah ini adalah kinerja sistem agar dapat digunakan secara operasional dalam menganalisis artikel berita dan tweet.
Gambar 1. Contoh keluaran sistem
Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita, dan dua model kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat kategorisasi label tunggal dan kategorisasi egorisasi multilabel. Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap teks hanya berasosiasi tepat satu ke kelas. las. Pada Gambar 2, diperlihatkan contoh artikel berita yang dapat dimasukkan ke dalam dua kelas yaitu Politik dan Hiburan. KEDIRI - Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri dalam pilkada serentak 9 Desember 2015. Hengki m mengklaim engklaim mendapat dukungan koalisi lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu (27/6/2015). Lima partai yang siap mengantarkannya men menjadi jadi orang nomor …. (SINDONEWS) Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan
Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan yaitu pendidikan, politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis & ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau
beberapa kelas. Walaupun menggunakan set kelas yang sama, tweet hanya diproses dengan kategorisasi label tunggal, tepatnya kategorisasi multikelas biasa. Selain itu, kategorisasi multikelas diaplikasikan juga untuk setiap term dalam artikel berita untuk mengekstraksi informasi 5W1H. Kategorisasi biner diaplikasikan untuk filtering tweet sehingga hanya tweet yang relevan akan diproses untuk masuk dalam salah satu dari 10 kelas berita yang telah didefinisikan. Setiap model kategorisasi teks dibangun dengan pendekatan berbasis koleksi yang memanfaatkan pembelajaran mesin. Konstruksi korpus dilakukan dengan semi-supervised learning, yaitu pelabelan manual dilakukan terhadap sejumlah teks, lalu pemodelan, kategorisasi berdasarkan model, evaluasi hasil, dan koreksi label yang salah. Proses pemodelan, kategorisasi, evaluasi, dan koreksi label dilakukan secara iteratif selama penelitian dilakukan. Untuk kategorisasi berita, sebuah korpus 3.226 artikel berita berlabel dikonstruksi berdasarkan korpus awal 690 artikel dengan 1000 pasangan artikel-kelas. Untuk ekstraksi 5W1H, korpus 22.769 term dikonstruksi dari 90 artikel berita dengan menggunakan anotasi BIO (Begin In Other). Selain korpus berita, dikonstruksi juga korpus 19.386 tweet berlabel relevan atau tidak relevan, dan korpus 3.622 tweet berlabel 10 kelas berita. Tweet berasal dari 2000 account Twitter tokoh-tokoh yang dapat dipercaya sesuai bidangnya: wartawan, pengacara, pejabat, olahragawan, artis. Pada bagian selanjutnya, akan dibahas kajian terkait. Bagian 3 membahas sistem agregasi berita dan tweet yang dibangun, sedangkan bagian 4-6 akan membahas setiap komponen yang memanfaatkan kategorisasi teks termasuk korpus dan hasil eksperimen. Bagian 7 berisi penutup dan rencana kegiatan riset lanjutan.
2. Kajian Terkait Sebuah sistem agregasi berita merupakan situs yang mengambil berita beberapa situs berita online lainnya dan menampilkannya pada satu tempat. Isbel dkk (2010) mengelompokkan sistem ini ke dalam empat kategori yaitu feed aggregators (seperti Yahoo! News dan Google News), speciality aggregators (seperti Techmeme), user-curated aggregators (seperti Digg), dan blog aggregators (seperti Gawker). Secara umum, agregator berita memiliki fitur kategorisasi berita, fitur pengelompokan berita (clustering) untuk mendapatkan topik per kategori, dan fitur penyajian. Karhendana (2008) telah mengimplementasikan sistem Agata, sistem agregasi berita berbahasa Indonesia, tetapi sistem ini hanya memiliki fitur konvensional dan belum memiliki fasilitas peringkasan. McKeown dkk (2002) telah mengembangkan Columbia Newsblaster sebagai sistem agregasi berita yang dilengkapi dengan fitur peringkasan multidokumen berbahasa Inggris. Terdapat dua pendekatan untuk kategorisasi multilabel yaitu transformasi persoalan dan adaptasi algoritma (Tsoumakas dkk, 2010). Transformasi persoalan mengubah persoalan multilabel menjadi satu atau beberapa persoalan label tunggal, contohnya Binary Relevance, Label Powerset, dan Calibrated Label Ranking. Adaptasi algoritma mengembangkan algoritma untuk diaplikasikan langsung ke persoalan kategorisasi multilabel, contohnya Adaboost.MH dan MLkNN. Kategorisasi multilabel berita telah dilakukan dengan BR-Naïve Bayes (Chase dkk ) dan CLR-Perceptron (Furnkranz dkk, 2008). Kategorisasi artikel berita bahasa Indonesia sudah dilakukan oleh banyak peneliti, tetapi masih mengasumsikan klasifikasi tunggal untuk setiap berita. Buana dkk (2012) melakukan kategorisasi berita dari korpus 802 artikel ke dalam 6 kelas berita (Umum, EkonomiBisnis, EdukasidanSains, Kesehatan, Olahraga, dan Teknologi) dengan Fmeasure rata-rata 80.29%.
3. Sistem Agregasi Berita dan Tweet Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan, dan 4 komponen melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan peringkasan teks.
Gambar 3. Komponen utama sistem agregasi berita dan informasi pelengkapnya
Komponen pertama, Crawler dan HTML parser, memanfaatkan informasi RSS ((Rich Rich Site Summary) Summary dari situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tidak tid hanya mengandung konten berita, tetapi masih mengandung header, footer,, iklan, dan tambahan informasi pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten berita dan foto yang terkait berita tersebut. Komponen kedua, categorizer,, berfungsi menentukan kategori dari setiap artikel berita dan tweet. Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat diakses melalui RSS. Selain itu, label kategori dapat berbed berbedaa antar situs media online. Oleh karena itu, makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu, komponen relevance berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki informasi pelengkap). Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas dengan menggunakan pendekatan sequence labeling. Terdapat rdapat 6 jenis informasi yang akan diekstraksi dari setiap artikel berita yaitu Who, What, Where, When, Why, How.
Komponen selanjutnya, Clusterer berfungsi mengelompokkan kumpulan berita dalam setiap kategori yang sama untuk mendapatkan topik-topik utamanya. Komponen Summarizer menghasilkan ringkasan untuk setiap topik. Pada sistem saat ini, ringkasan dibentuk dengan membentuk kalimat berdasarkan template informasi 5W1H. Pada bagian selanjutnya, makalah ini hanya akan membahas bagian kategorisasi teksnya saja.
4. Kategorisasi Multilabel untuk Kategorisasi Artikel Berita Pembangunan model kategorisasi multilabel dilakukan dengan menggunakan kedua pendekatan transformasi persoalan multilabel dan adaptasi algoritma (Rahmawati & Khodra, 2015). Gambar 4 menunjukkan arsitektur kategorisasi multilabel. Eksperimen dilakukan dengan korpus 3.226 artikel berita berlabel sebagai data pembelajaran, dengan 100 artikel berita berlabel sebagai data pengujian.
Gambar 4. Proses kategorisasi multilabel dengan pendekatan transformasi persoalan dan adaptasi algoritma
Eksperimen yang dilakukan menunjukkan bahwa classifier terbaik didapatkan dengan mengkombinasikan TF-IDF, seleksi fitur symmetrical uncertainty, dan algoritma CLR-SVM. Kinerja terbaik pembelajaran mencapai Fmeasure rata-rata 85.13% dengan skema 10-fold cross validation, dan kinerja pengujian Fmeasure 76.73%. Tabel 1. Fmeasure data pengujian dari 3 iterasi pembangunan model
Label
Iterasi 1
Iterasi 2
Iterasi 3
Pendidikan
85.710%
92.310%
92.310%
Politik
82.350%
78.260%
70.000%
Hukum dan Kriminal
83.330%
77.420%
66.670%
0.000%
54.550%
42.860%
100.000%
100.000%
97.300%
Teknologi dan sains
71.430%
61.540%
54.550%
Hiburan
46.150%
50.000%
44.440%
Bisnis dan Ekonomi
68.180%
59.460%
66.670%
Kesehatan
90.910%
88.890%
75.000%
Bencana dan Kecelakaan
84.210%
84.210%
88.890%
Sosial Budaya Olahraga
Gambar 5 menunjukkan contoh artikel berita yang berhasil dikategorisasi ke semua kelas sesuai pelabelan yang dilakukan manusia, sedangkan Gambar 6 memberikan contoh artikel berita yang hasil kategorisasi teksnya sebagian benar. Jakarta - Windows XP adalah sistem operasi lama Microsoft yang diluncurkan sekitar 14 tahun lalu dan sudah diberhentikan dukungannya. Tapi Angkatan Laut Amerika Serikat (AS) masih memakainya dan rela membayar mahal Microsoft agar tetap mendapatkan support. Microsoft sejatinya telah menghentikan dukungan terhadap Windows XP sejak April tahun lalu. Karenanya, Windows XP lebih rentan diserang hacker karena tidak lagi mendapat update jika ada celah keamanan. Agar tetap mendapatkan dukungan, Angkatan Laut AS rela membayar USD 9 juta atau di kisaran Rp 120 miliar per tahun. …. (fyk/fyk) Gambar 5. Contoh artikel berita yang berhasil dikategorisasi ke kelas Teknologi & Sains, dan Bisnis & Ekonomi. Jakarta - Selepas pensiun dari Microsoft, Bill Gates aktif di berbagai kegiatan amal. Salah satunya adalah dalam program riset untuk mencari obat AIDS. Lewat Bill and Melinda Gates Foundation, sang pendiri raksasa teknologi Microsoft itu menghabiskan USD 400 juta atau sekitar Rp 5,2 triliun (USD 1 = Rp 13.000) setiap tahunnya untuk penelitian dari penyakit yang belum ditemukan obatnya tersebut. Gates pun berharap, vaksin untuk memerangi virus HIV yang menyebabkan AIDS dapat ditemukan dalam jangka waktu 5-10 tahun ke depan. ... (ash/ash) Gambar 6. Contoh artikel berita yang dikategorisasi ke kelas Teknologi & Sains, dan Kesehatan. Seharusnya hanya kelas Kesehatan saja.
5. Kategorisasi Label Tunggal untuk Filtering dan Kategorisasi Tweet Pembangunan model filtering tweet menggunakan SVM dan korpus 6.386 tweet yang menghasilkan akurasi 79.29%. Saat ini korpus telah dianotasi sebanyak 19.386 tweet berlabel relevan atau tidak relevan. Dari korpus 3.622 tweet berlabel 10 kelas berita, pemodelan baru memanfaatkan 1.653 tweet berlabel. Pembangunan model kategorisasi tweet menggunakan SVM yang menghasilkan Fmeasure 83.61% dengan skema 10-fold cross validation, dan pengujian hanya mencapai Fmeasure 52.4%. Gambar 7, Gambar 8, dan Gambar 9 menunjukkan contoh-contoh tweet hasil filtering dan kategorisasi tweet.
Pemerintah pusat, daerah, TNI, Polri dan masyarakat bahu membahu mengatasi kabut asap di Sumatera & Kalimantan -Jkw Gambar 7. Contoh tweet yang berhasil dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan Kita berduka atas jatuhnya banyak korban jiwa di Mina, Arab Saudi, tmsk WNI. Semoga para syuhada hidup tenang di sisi Allah Swt. *SBY* Gambar 8. Contoh tweet yang salah dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan. Seharusnya tweet ini dianggap tidak relevan karena tidak mengandung informasi pelengkap. GIGABYTE GA-Z170X Gaming 7: Mudah Di-Overclock, Stabil, dan Kaya Fitur via @metro_tv http://t.co/6m5KeSSgk8 Gambar 9. Contoh tweet yang salah dikategorisasi sebagai tidak relevan. Seharusnya tweet ini dianggap relevan dan masuk kategori Teknologi & Sains
6. Kategorisasi Multikelas untuk Ekstraksi Event 5W1H Ekstraksi event mengidentifikasi who did what, when, where, why, and how, atau 5W1H sebagai persoalan sequence labeling dengan notasi BIO (Begin Inside Other). Setiap token dari artikel diproses dengan kategorisasi multikelas ke salah satu dari 13 kelas yang terdefinisi. Setiap jenis informasi 5W1H terdiri atas dua kategori yaitu kategori begin-<jenis informasi> untuk token pertama yang mengandung informasi tersebut dan in-<jenis informasi> untuk token kedua dan berikutnya yang mengandung informasi tersebut. Kategori tambahan other didefinisikan untuk token lain yang tidak berlabel. Total kategori untuk 6 jenis informasi yang telah didefinisikan tersebut adalah 6*2+1=13 kategori. Model klasifikasi akan menganalisis setiap token pada artikel dan menentukan kategori token tersebut. Berikut merupakan contoh potongan artikel pada korpus yang setiap tokennya telah ditentukan kategorinya. TEMPO.CO/O ,/O Jakarta/B-Where -/O Forum/B-Who Indonesia/I-Who untuk/I-Who Transparansi/I-Who Anggaran/I-Who (/I-Who Fitra/I-Who ) /I-Who telah/O menduga/B-What PT/I-What Ghalia/I-What Indonesia/I-What Printing/I-What tak/I-What akan/I-What berhasil/I-What menyelesaikan/I-What tender/I-What naskah/I-What ujian/I-What nasional/I-What ./O ... "/O Dari/O awal/O saya/O sudah/O menduga/O ini/O bermasalah/O ,/O "/O katanya/O saat/O dihubungi/O ,/O Ahad/B-When ,/I-When 14/I-When April/I-When 2013/I-When ./O ... Menurut/O Uchok/O ,/O ini/O merupakan/O bukti/O Ghalia/B-Why tak/I-Why mempertimbangkan/I-Why kapasitas/I-Why perusahannya/I-Why ./O ...
Pada potongan artikel di atas, terdapat 5 jenis informasi yaitu Who, What, Where, When, Why. Token pertama setiap informasi mendapat awalan B (begin) seperti kategori B-Who, dan B-What. Jika informasi tersebut mengandung lebih dari satu token, kategori yang digunakan diawali dengan I (in) seperti I-When. Vektor fitur untuk token didefinisikan berdasarkan atribut leksikal token tersebut dan 2 atribut token tetangganya (2 sebelum dan 2 sesudah). Gambar 10 menunjukkan contoh hasil ekstraksi 5W1H dari sebuah berita. Tabel 2 menunjukkan distribusi data setiap label. Korpus ini termasuk dataset yang tidak seimbang dengan kelas mayoritas adalah other, dan kelas minoritas adalah beg_how. Eksperimen yang dilakukan terhadap korpus 22.769 term berlabel ini menunjukkan bahwa C4.5 memberikan kinerja Fmeasure 66.6% yang lebih baik daripada AdaboostM1 (Khodra, 2015). Walaupun begitu, Adaboost dapat mengidentifikasi beberapa label minoritas lebih baik daripada C4.5.
Empat Bank Biayai Proyek Kereta Komuter Jakarta TEMPO.CO, Jakarta - Bank Mandiri mengucurkan pinjaman untuk proyek pengembangan kereta commuter Jabodetabek. Kredit tersebut disalurkan melalui sindikasi perbankan bersama BRI, BNI, dan BCA. Direktur Institutional Banking Bank Mandiri Abdul Rachman mengatakan kredit sindikasi ini berjangka waktu 14 tahun. Keempat bank menyalurkan pembiayaan dengan porsi kredit yang sama, yaitu masing-masing sebesar Rp 760,97 miliar. Dengan demikian total pinjaman yang disalurkan mencapai Rp 3,04 triliun. (Baca: Subsidi KRL Jabodetabek Ditambah Rp 88 Miliar) "Kredit sindikasi tersebut merupakan salah satu upaya Bank Mandiri untuk berperan dalam pengembangan transportasi massal," kata dia melalui keterangan tertulis, Senin, 10 November 2014. (Baca: Hari Ini PT KCJ Datangkan 32 Kereta Rel Listrik) Abdul Rachman mengatakan transportasi massal yang baik merupakan salah satu komponen utama untuk mendorong pertumbuhan ekonomi yang berkelanjutan. Keberadaan transportasi massal, kata dia, mempercepat arus pergerakan masyarakat karena waktu tempuh akan semakin cepat sehingga berbagai aktivitas produktif dapat terlaksana secara efektif dan efisien. "Transaksi ekonomi yang terjadi pun dapat bertambah banyak." FERY F. Berita
What: mengucurkan pinjaman untuk proyek pengembangan kereta commuter Jabodetabek Who: Bank Mandiri Where: Jakarta When: 10 November 2014 Why: berbagai aktivitas produktif dapat terlaksana secara efektif dan efisien . How: -
Gambar 10. Contoh hasil ekstraksi 5W 1H pada berita Tabel 2. Korpus 5W1H dengan notasi BIO
Label Beg_who In_who Beg _what In_what Beg _when In_when Beg _where In_where Beg _why In_why Beg _how In_how Other
Count
Description 87 Beginning token of who filler 356 Inside token of who filler 90 Beginning token of who filler 933 Inside token of who filler 86 Beginning token of who filler 229 Inside token of who filler 89 Beginning token of who filler 178 Inside token of who filler 84 Beginning token of who filler 771 Inside token of who filler 75 Beginning token of who filler 849 Inside token of who filler
18,942 Outside token
7. Penutup Makalah ini telah membahas pemanfaatan berbagai model kategorisasi teks untuk agregasi berita dan informasi pelengkapnya mulai dari kategorisasi berita dan tweet ke dalam 10 kelas berita, sampai dengan ekstraksi 5W1H. Kinerja yang telah dicapai saat pengujian adalah Fmeasure 76.73% untuk kategorisasi berita, akurasi 79.29% untuk filtering tweet, Fmeasure 52.4% untuk kategorisasi tweet, dan Fmeasure 66.6% untuk kategorisasi term dalam ekstraksi event 5W1H.
Penelitian selanjutnya akan memperbaiki kinerja setiap model. Salah satunya dengan melanjutkan semisupervised learning untuk mengkonstruksi korpus yang lebih baik. Penanganan imbalanced dataset perlu juga dilakukan karena distribusi kelas pada korpus yang tidak seimbang.
Referensi Buana, P.W., Jannet, S.D.R.M., Putra, I.K.G.D (2012). Combination of K-Nearest Neighbor and K-Means based on Term Re-weighting for Classify Indonesian News Isbell, K. (2010). The Rise Of The Agregator berita: Legal Implications And Best Practices. The Berkman Center for Internet & Society at Harvard University. Karhendana, A. (2008). Pemanfaatan Document Clustering Pada Agregator Berita. Laporan Tugas Akhir Program Studi Teknik Informatika STEI ITB, Institut Teknologi Bandung, Bandung. Khodra, M.L., Event Extraction on Indonesian News Article using Multiclass Categorization, ICAICTA, Chonburi, 20-21 August 2015. Khodra, M.L., Wibisono, Y., Automatic Extraction of Who-What-When-Where-Why-How on Indonesian News Article, The 8th International Conference on Applied Linguistics, Bandung, 19-20 August 2015 Lasica, J. (2003, January 23). News That Comes to You. Retrieved from USC Annenberg Online Journalism Review McKeown, K. R., Barzilay, R., Evans, D., Hatzivassiloglou, V., Klavans, J. L., Nenkova, A. (2002). T racking and Summarizing News on a Daily Basis with Columbia's Newsblaster. Proceedings of the second international conference on Human Language Technology Research (pp. 280-285). Morgan Kaufmann Publishers Inc. Rahmawati, D., Khodra, M.L., Automatic Multilabel Classification for Indonesian News Articles, ICAICTA, Chonburi, 20-21 August 2015. G. Tsoumakas, I. Katakis, and I. Vlahavas, “Mining multi-label data,” in Data mining and knowledge discovery handbook, Springer, 2010, pp. 667–685. Sebastiani, F., Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34 (1), pp.1-47, 2002. Sebastiani, F., Text Categorization, 2005. Z. Chase, N. Genain, and O. Karniol-Tambour, “Learning Multi-Label Topic Classification of News Articles.” J. Fürnkranz, E. Hüllermeier, E. L. Mencía, and K. Brinker, “Multilabel classification via calibrated label ranking,” Mach. Learn., vol. 73, no. 2, pp. 133–153, 2008.