KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA Aini Rachmania Kusumaagama Fuddoly – Agus Zainal Arifin Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia email:
[email protected]
Abstrak Berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen – dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Tugas Akhir ini memperkenalkan metode klasifikasi kategori, identifikasi topik dan ekstraksi kata kunci dokumen berita berbahasa Indonesia. Dalam tugas akhir ini digunakan perhitungan Likelihood untuk mengklasifikasikan kategori dan Cosine Similarity untuk mengidentifikasikan topik dokumen. Diharapkan metode ini dapat mengatasi permasalahan klasifikasi dokumen berita dan memudahkan pengguna menemukan berita yang sesuai dengan kebutuhannya. Uji coba dilakukan pada dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda – beda. Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. Selain itu, hasil uji coba juga menunjukkan nilai rata – rata akurasi yang cukup tinggi yaitu 93,84% Kata Kunci : klasifikasi kategori, identifikasi topik, likelihood, cosine similarity kategori merupakan one-to-many yang berarti sebuah topik dapat berada pada banyak kategori, misalnya sebuah topik mengenai teknologi hybrid dapat saja berada pada kategori “Teknologi”, “Sains dan Ilmu Pengetahuan” atau “Lingkungan”. Permasalahan lain yang muncul adalah saat berita menjadi suatu raw material yang krusial bagi profesi tertentu seperti presenter ataupun pembawa acara, terutama acara yang membutuhkan pengetahuan umum yang luas mengenai berita yang sedang hangat terjadi. Seperti yang telah dijelaskan sebelumnya, berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen – dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka untuk melakukan klasifikasi topik dan kategori dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Oleh karena itu, penulis mengusulkan sebuah aplikasi yang dapat menunjang penglasifikasian berita sesuai topik dan kategoriny dan menampilkan snippet dari setiap berita tersebut. Aplikasi ini mempunyai fungsi utama menglasifikasikan berita – berita online yang ada menjadi hirarki dengan topik dan kategori yang lebih spesifik. Dengan begitu, diharapkan pemahaman pembaca mengenai sebuah kejadian
1. Pendahuluan Sejak tahun 1990-an, internet menjadi media vital penyebaran berita kepada khayalak ramai [1]. Pada dasarnya, berita yang disebarkan melalui internet merupakan artikel berita tekstual yang dikemas dengan bahasa tulis yang lugas dan informatif. Selain itu, berita mempunyai perbedaan yang begitu mendasar dengan koleksi dokumen – dokumen lainnya, yaitu pada model aliran informasi. Aliran informasi sebuah berita merupakan sebuah stream yang dinamis dan terus diperbarui. Dokumen berita baru terus menerus datang, sehingga koleksi data selalu bertambah dan menjadi sebuah kumpulan data dengan jumlah yang sangat besar [2]. Dengan variasi data yang sangat besar, permasalahan mulai muncul ketika pembaca ingin meramba berita – berita yang berbeda namun mempunyai tema yang sama. Maka untuk memudahkan navigasi, berita – berita tersebut harus dipecah menjadi topik dan kategori yang berbeda – beda. Pada laman internet misalnya, biasanya dipisah menjadi halaman olahraga, bisnis, dan teknologi sendiri. Semakin besar arus dokumen berita yang masuk, makan semakin luas pula range topik dan kategori berita yang ada, misalnya: kategori “Olahraga” dibagi menjadi beberapa topik yang lebih spesifik seperti “balap motor” atau “sepak bola”. Kemudian dalam
topik yang spesifik tersebut terdapat beberapa
1
yang terliput dalam banyak berita akan menjadi lebih mudah.
Setiap dokumen training diekstraksi termsnya dan diboboti, kemudian terms tersebut ditetapkan sebagai kata kunci – kata kunci untuk setiap kategori dan disimpan beserta jumlah dokumen training tempat kata kunci tersebut muncul. Gambar 2.1 menjelaskan alur kerja proses training. Berbeda dengan algoritma training pada umumnya, proses training hanya berfungsi untuk mengambil kata kunci, tanpa mengambil parameter – parameter tertentu. Pseudocode algoritma training dijelaskan selanjutnya.
2. Text Processing 2.1 Representasi Dokumen Teks Untuk mengimplementasikan metode-metode klasifikasi dokumen teks, diperlukan suatu transformasi yang dapat mengubah teks-teks digital menjadi suatu model yang lebih efisien dan dapat dimengerti sehingga proses analisa dapat dilakukan [1]. Vector space model adalah salah satu pendekatan yang paling banyak digunakan dalam merepresentasikan dokumen teks. Dalam model ini, setiap dokumen dj ditransformasikan menjadi suatu vektor [4]: (1)
dj =
(w 1j ,
w 2j ,
...,
Dokumen Training
w ij ),
Untuk Setiap Dokumen D
dimana wij adalah bobot term ke-i pada dokumen j bersangkutan. Bobot setiap term dapat direpresentasikan secara binari (true atau false), frekuensi, atau dengan frekuensi dan frekuensi inversdokumennya (TF-IDF). Metode TF-IDF klasik telah menunjukkan performa yang lebih baik jika dibandingkan dengan metode binari dan frekuensi [6], yang dinyatakan sebagai berikut: N wij = tf ij . log 2 dfi
,
Ekstraksi Kata Kunci
Perbarui total dokumen
Perbarui jumlah frekuensi kata kunci
Kategori
Gambar 2.4 Proses Training
Proses berikutnya adalah klasifikasi, yaitu penetapan kategori untuk dokumen uji yang diujikan pada aplikasi. Oroses klasifikasi meliputi empat tahap besar: 1. Ekstraksi kata kunci dokumen uji 2. Perhitungan likelihood 3. Perhitungan rata – rata dan standard deviasi 4. Seleksi kategori Ekstraksi kata kunci untuk dokumen uji menggunakan algoritma yang sama dengan dokumen training. Perhitungan likelihood untuk sebuah kategori dijelaskan pada rumus 2.1. Dalam persamaan tersebut, cj adalah kategori, A adalah artikel dokumen uji, dan P(ki |c j ) dihitung menggunakan “InDocument” dan perhitungan “jumlah total dokumen”.
(2)
dimana wij adalah bobot term i pada dokumen j, tf ij adalah frekuensi term i pada dokumen j, N adalah jumlah dokumen yang diproses dan df j adalah jumlah dokumen yang memiliki term i di dalamnya. 2.2 Klasifikasi Kategori Langkah pertama sebelum melakukan klasifikasi kategori adalah penentuan kategori primitif. Kategori primitif merupakan kategori yang telah ditentukan sebelumnya. Dalam penulisan Tugas Akhir ini, kategori yang digunakan merupakan hasil pengamatan terhadap kategori – kategori yang terdapat pada situs berita seperti www.kompas.com, www.antaranews.com dan www.tempointeraktif.com. Dalam hal ini, terdapat sembilan kategori yang digunakan, yaitu: Nasional, Regional, Internasional, Metropolitan, Bisnis dan Ekonomi, Olahraga, Sains dan Teknologi, Edukasi dan Pariwisata. Klasifikasi kategori dibagi menjadi dua proses besar: proses training dan proses klasifikasi. Pada proses training, model kategori untuk setiap kategori dibangun. Model ini berisi nama kategori, jumlah dokumen dan daftar keywords (kata kunci). Untuk melatih sebuah classifier untuk kategori, diperlukan sekumpulan dokumen training. Dari setiap dokumen tersebut, kata kunci diekstraksi menggunakan teknik pembobotan TF-IDF seperti yang telah dijelaskan sebelumnya.
n
Likelihood (cj | A={k1, k2, … , kn})= - � P(ki | cj) log (P(ki | cj)) i=1
2.1
Setelah seluruh likelihood untuk semua kategori telah dihitung, nilai ambang batas bisa didapatkan. Nilai ambang (threshold), seperti yang ditunjukkan pada rumus 2.2, berguna untuk menentukan apakah sebuah kategori bisa ditetapkan untuk artikel uji atau tidak. Nilai ini didapatkan dari standar deviasi dan rata – rata. L adalah jumlah banyaknya likelihood, sementara l i adalah likelihood untuk kategori ke – i. Asumsinya adalah kategori – kategori yang tepat akan memiliki nilai yang besarnya jauh berbeda dibandingkan kategori – kategori lainnya. Secara
2
formal, klasifikasi Gambar 2.2.
Threshold=
∑|L| 1 li |L|
+
kategori
�∑ (li-
dijelaskan
|L| 2 l 1 i) |L|
pada
∑
|L|
2.2
Gambar 2.2 Klasifikasi Kategori
2.3 Identifikasi Topik
.
Algoritma identifikasi topik tidak memerlukan corpus training khusus untuk melatih aplikasi terlebih dahulu. Topik baru muncul setiap hari, oleh karena itu, diperlukan sebuah algoritma yang dapat mengetahui apakah topik baru harus ditentukan untuk artikel tersebut. Algoritma identifikasi topik dibagi menjadi dua proses besar, yaitu klasifikasi dan dynamic thresholding.
Gambar 2.3 Identifikasi Topik
Topi k
Kurs 5
Doll ar 10
Saha m 3
Ku rs 5
Doll ar 10
Saha m 3
Valu ta 0
Arti kel
Valu ta 2
Kurs 3
Doll ar 7
Ku rs 3
Doll ar 7
Saha m 0
Valu ta 2
Gambar 2.4 Transformasi Vektor
Setelah kedua vektor dinormalisasi, maka CosSim untuk keduanya dihitung menggunakan rumus 2.2. Pada rumus tersebut, t i adalah vektor topik ke – i, dan A adalah artikel uji A. |t i | dan |A| beruturut – turut merupakan panjang vektor topik ke – i dan panjang vektor Artikel A. CosSim tertinggi dipilih sebagai conditionally assigned topic, atau topik awal yang ditentukan. Topik ini nantinya akan diuji kembali menggunakan nilai ambang batas dinamis (dynamic thresholding).
Konsep dasar identifikasi topik dijelaskan pada Gambar 2.3
Algoritma ini menghitung similarity antara kata kunci topik yang sebelumnya telah diketahui dengan kata kunci artikel uji. Setelah itu, nilai yang memiliki similarity paling tinggi ditetapkan untuk artikel sebagai conditionally assigned topic. Sebagaimana yang telah dijelaskan mengenai vector-space model, kata kunci dokumen dan topik juga direpresentasikan dalam bentuk vektor. Nilai isi vektor merupakan skor kata kunci. Untuk membandingkan antara vektor kata kunci dengan vektor topik, keduanya ditransformasikan ke dalam vector-space yang sama. Bila sebuah kata kunci terdapat dalam vektor artikel saja, maka vektor topik juga ditambahkan tempat untuk kata kunci tersebut namun dengan nilai kata kunci 0, karena kata kunci tersebut tidak ditemukan di dalam topik. Begitu juga sebaliknya apabila kata kunci ditemukan hanya pada vektor topik, maka disediakan tempat untuk kata kunci pada vektor artikel dengan nilai sebesar 0. Contoh transformasi vektor dapat dilihat pada Gambar 2.4
CosSim ( ti , A)=
ti∙A |ti||A|
2.2
Dengan perkembangan berita yang ada di dunia, tidaklah mungkin topik – topik yang sebelumnya pernah muncul dapat mencakup seluruh topik yang diprediksi akan muncul di masa depan. Oleh karena itu, algoritma identifikasi topik juga harus dapat mendeteksi, apakah topik awal yang ditentukan sudah merupakan topik yang tepat atau topik baru harus diberikan. Hal ini dapat dilakukan dengan perhitungan nilai ambang yang dinamis. Nilai ambang atau threshold akan membandingkan antara nilai topik awal yang ditentukan dengan nilai topik baru yang mungkin terbentuk NewTSim menggunakan rumus 2.3
3
NewTSim(tc, A) =
3.3 Metode Evaluasi Hasil Klasifikasi
(0.05 x |tc|) x �Mean(A)- StdDev.(A)� x Mean(tc) 2
2
�|A| x �Mean(A)� � x (|tc| x �Mean(tc)� )
Pelaksanaan evaluasi uji coba menggunakan rumus precision, recall, F-Measure dan Accuration dengan pendekatan dokumen yang diretrieve dan relevan seperti pada Tabel 3.3. Tabel tersebut menunjukkan beberapa item yang diperlukan untk mengukur performa classifier. Item - item tersebut akan digunakan untuk menghitung Precision, Recall, F-Measure dan Accuration dengan rumus sebagai berikut:
2.3
NewTSim menghitung topik baru secara hipotetis. Pada rumus t c merupakan topik awal yang telah ditentukan, yaitu hasil perhitungan CosSim terbesar, Mean(A) merupakan rata – rata vektor dokumen A, StdDev.(A) adalah standar deviasi vektor dokumen A, dan Mean(t c ) adalah rata – rata topik awal yang telah ditentukan. |A| adalah panjang vektor dokumen A, dan |t c | adalah panjang vektor topik. Bila nilai NewTSim telah ditemukan, maka langkah berikutnya adalah menggunakan nilai tersebut sebagai salah satu komponen dalam dynamic thresholding untuk dibandingkan dengan nilai topik awal yang telah ditentukan. Terdapat dua nilai ambang batas yang harus dipenuhi agar sebuah topik awal dapat ditetapkan untuk artikel. Nilai ambang pertama dijelaskan pada persamaan 2.4a dan nilai ambang kedua dijelaskan pada persamaan ke 2.4b. CosSim(t c ,A) > 0.1 ∧ CosSim(t c ,A) > NewTSim(t c ,A)
NumTopics > 10 ∧ CosSim(tc,A) > (2 ×StdDev(AllTopicSims) + Mean(AllTopicSims))
•
Precision (P) = TP / (TP + FP)
•
Recall (R)
•
F-Measure (F) = 2 * P * R / (P + R)
•
Accuration (A) = (TP + TN) / (TP + FP + FN + TN)
= TP / (TP + FN)
Tabel 3.3 Retrieve dan Relevant Retrieved Not Retrieved
Relevant TP FN
Not Relevant FP TN
2.4a
4. Uji Coba Data yang digunakan untuk menguji aplikasi ini terbagi sesuai dengan skenario dan tujuan uji coba. Karakteristik dan jumlah data dijelaskan sebagai berikut: • Data uji coba untuk skenario I dan II Karakteristik : Data berupa corpus berita online berbahasa Indonesia yang didapatkan dari www.kompas.com. Berita diunduh berdasar kategori yang telah ditetapkan. Kategori primitif dalam uji coba berguna untuk mengevaluasi hasil klasifikasi. Jumlah : Antara sebuah kategori dengan kategori lainnya memiliki jumlah dokumen uji yang berbeda. Spesifikasi jumlah dokumen untuk setiap kategori dapat dilihat pada Tabel 4.1 Selain data yang digunakan untuk uji coba aplikasi, terdapat data yang digunakan sebagai data pelatihan aplikasi. Data tersebut disebut data training dan memiliki karakter yang sama dengan data uji, hanya saja dalam pembuatan corpus, data tersebut telah dilabeli kategori sesuai dengan kategori yang diberikan oleh situs berita tersebut. Rincian mengenai data training dapat dilihat pada Tabel 4.2.
2.4b
CosSim(t c ,A) adalah hasil perhitungan Cosine Similarity terbesar yang didapatkan melalui rumus 2.7 dan selanjutnya dianggap sebagai topik awal yang ditentukan, sementara NumTopics merupakan jumlah keseluruhan topik yang telah diketahui sebelumnya, StdDev(AllTopicSims) dan Mean(AllTopicSims) adalah berturut – turut standard deviasi dan rata – rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik – topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training.
2.3
4
Uji coba berikutnya adalah uji coba klasifikasi kategori yang dijalankan menggunakan data yang langsung diunduh online. Corpus langsung dibentuk menggunakan parser dan hasilnya diklasifikasikan seperti yang Mean(AllTopicSims) telah dijelaskandan adalah berturut – turut standard deviasi dan rata – rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Hasil perhitungan akurasi skenario ini dapat dilihat pada Tabel 4.4. Masing – masing nilai yang didapatkan untuk setiap klasifikasi adalah 92,63%, 92,61%, 93,35% dan 93,84%.
Tabel 4.1 Dokumen Testing Kategori
Jumlah Dokumen
Nasional
10
Regional
11
Internasional
11
Metropolitan
10
Bisnis dan Ekonomi
11
Olahraga
11
Sains dan Teknologi
11
Edukasi
10
Pariwisata
10
Total
95
Tabel 4.4 Hasil Uji Coba Online
Tabel 4.2 Dokumen Training Kategori Nasional Regional Internasional Metropolitan Bisnis dan Ekonomi Olahraga Sains dan Teknologi Edukasi Pariwisata Total
Jumlah Dokumen 105 106 104 106 101 110 90 109 101 932
Dari hasil uji coba, didapatkan hasil rata – rata nilai akurasi masing – masing 91,32%, 92,22%, 92,93% dan 93,82% untuk 5, 10, 15 dan 20 pengambilan kata kunci. Dari hasil percobaan tersebut dibuktikan bahwa jumlah kata kunci yang sebaiknya diekstraksi untuk mendapatkan akurasi optimal adalah 20. Tabel 4.3 Hasil Uji Coba Offline 5 10 15 20 Accurat ion
Accurat ion
Accurat ion
Accurat ion
92,59%
93,13%
95,38%
96,15%
94,12%
93,13%
94,62%
96,15%
92,19%
94,66%
93,85%
94,62%
88,89%
89,31%
90,00%
90,91%
98,52%
98,47%
Olahraga
98,52%
98,52%
Pariwisat a
98,46% 100,00 %
99,24% 100,00 %
84,44%
99,29%
86,36%
88,89%
Regional
77,78 %
82,58%
80,77%
80,77%
94,81%
80,92%
96,92%
97,69%
91,32%
92,22%
92,93%
93,82%
Kategori Bisnis & Ekonomi Edukasi Internasi onal Metropol itan Nasional
Sains & Teknolo gi Rata rata
5
10
15
20
Accuratio n
Accuration
Accuration
Accuration
Bisnis & Ekonomi
100,00%
98,58%
99,29%
100,00%
Edukasi
93,66%
94,33%
95,77%
96,48%
Internasional
92,25%
92,96%
92,20%
94,33%
Metropolitan
90,85%
91,49%
92,20%
92,91%
Nasional
96,45%
96,43%
98,46%
97,87%
Olahraga
98,52%
98,58%
100,00%
100,00%
Pariwisata
84,51%
83,80%
86,36%
85,00%
Regional
81,69%
81,56%
81,56%
81,56%
Sains & Teknologi
95,77%
95,74%
94,33%
96,43%
92,63%
92,61%
93,35%
93,84%
Kategori
Rata - rata
4.1 Uji Identifikasi Topik dan Parser Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik – topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training. Hasil uji coba identifikasi topik yang dilakukan pada kondisi offline ditunjukkan pada gambar 4.1.
5
Tabel 4.5 Klasifikasi Kesalahan Grabber dan Parser
Akurasi Identifikasi Topik A K U R A S I
Tipe Kesalahan
95.50% 95.00% 94.50% 94.00% 93.50% 93.00%
Pembacaan karakter HTML 2.0 Dokumen tidak terunduh sempurna
0.1 0.2 0.3 0.4
NILAI THRESHOLD
Gambar 4.1 Akurasi Identifikasi Topik Offline
Hasil pengujian pada skenario II yang dilakukan pada kondisi offline menunjukkan menghasilkan performa optimal adalah 0.3. Hal ini ditunjukkan oleh rata – rata akurasi pada Gambar 4.1 yang menunjukkan bahwa aplikasi mampu meraih nilai akurasi sebesar 95.26%, sedangkan pada nilai threshold 0.1, 0.2, dan 0.4 nilai yang diraih adalah 93.76%, 94.31%, dan 94.78%. Hasil pengujian tersebut menunjukkan sedikit perbedaan dengan hasil uji coba yang dilakukan pada kondisi online yang ditunjukkan pada Gambar 4.2. Gambar 4.2 menunjukkan bahwa nilai threshold yang mampu menghasilkan performa optimal adalah 0.4. Secara keseluruhan, nilai akurasi hasil percobaan pada skenario online memang lebih kecil.
5. Evaluasi Hasil Uji Coba Dari uji coba yang telah dilakukan terhadap data uji, terlihat bahwa classifier mampu mengklasifikasikan dokumen berita berbahasa Indonesia dengan kategori dan topik yang beragam denagn nilai akurasi sebesar 93,82% untuk klasifikasi offline dan 93,84% untuk klasifikasi online. Hasil optimal tersebut dapat diperoleh apabila jumlah kata kunci yang diekstraksi adalah 20. Hasil uji coba pada skenario pertama baik offline maupun online juga menunjukkan bahwa akurasi hasil berbanding lurus dengan jumlah kata kunci. Semakin banyak kata kunci yang diekstraksi, maka semakin tinggi nilai akurasinya. Hal ini disebabkan karena semakin banyak kata kunci yang diambil, semakin besar kemungkinan kata tersebut juga muncul dalam kata kunci dokumen. Pada skenario I, terlihat bahwa kategori tertentu dapat mencapai tingkat akurasi hingga 100%. Tingkat akurasi yang tinggi tersebut dikarenakan kategori tersebut memilki kata kunci – kata kunci yang spesifik, sehingga kata kunci tersebut hanya muncul pada kategori tersebut. Hal ini pula yang menyebabkan beberapa kategori memiliki nilai akurasi yang terus menerus rendah untuk beberapa kategori lainnya, seperti Internasional. Kategori Internasional seringkali tertukar dengan kategori Pariwisata karena kata kunci yang terdapat pada kategori Internasional sebagian besar hanya berhubungan dengan tempat yang terdapat di luar negeri, tanpa adanya “tema” tertentu. Itulah yang menyebabkan kategori ini seringkali tertukar dengan kategori Pariwisata. Pengujian skenario I di lakukan pada dua kondisi, yaitu online dan offline. Hasil uji coba tidak menunjukkan beda yang signifikan, kecuali kemampuan klasifikasi yang lebih baik pada kondisi online. Ini dibuktikan dengan hasil yang menunjukkan bahwa pada kondisi online, pengujian dengan 5 kata kunci saja telah dapat menghasilkan nilai yang lebih tinggi
Akurasi Identifikasi Topik
A K U R A S I
96.00% 94.00% 92.00% 90.00% 88.00% 86.00%
0.1
0.2
0.3
NILAI THRESHOLD
Contoh Kasus Kesalahan Seharusnya > > — — " ̎ ldquo; “ Dokumen Dokumen hanya terunduh terunduh secara hingga lengkap pertengahan hingga akhir berita berita
0.4
Gambar 4.2 Akurasi Identifikasi Topik Online
Nilai threshold 0.1 menghasilkan akurasi sebesar 90.32%, nilai 0.2 menghasilkan akurasi sebesar 91,27% dan nilai 0.3 menghasilkan akurasi sebesar 95.22%. Pengujian tambahan berikutnya adalah web parser untuk mengetahui hasil pengunduhan berita yang diunduh langsung dari situs berita online www.kompas.com dan hanya dapat digunakan pada situs tersebut karena perbedaan struktur halaman web yang terdapat pada situs tersebut. Hasil uji coba menunjukkan bahwa parser telah dapat menghapus tag – tag HTML pada halaman unduhan, namun terdapat beberapa kesalahan yang terjadi saat proses pembuatan corpus. Kesalahan – kesalahan tersebut dijelaskan pada Tabel 4.5.
6
dibandingkan kondisi offline untuk kata kunci 5. Selain itu, nilai akurasi yang dapat dicapai pun lebih tinggi. Pada dasarnya, tidak terdapat perbedaan dalam implementasi kedua kondisi, sehingga hal yang memungkinkan terjadinya perbedaan tersebut adalah koneksi internet dan penggunaan memori. Pada kondisi online, tidak diperlukan lagi proses training data. Dokumen yang masuk langsung diklasifikasi, sehingga menghemat penggunaan memori program dan mengakibatkan peningkatan performa. Kesalahan dalam proses grabber dan parser yang berhubungan dengan pembacaan karakter sebenarnya berhubungan erat dengan versi bahasa HTML yang digunakan. Versi HTML terbaru yang dapat dibaca oleh Java adalah versi 2.0, sementara HTML yang telah umum digunakan pada situs situs adalah HTML versi 4.0. Setelah dilakukan beberapa kali pengujian pada kondisi online, ternyata dapat dibuktikan bahwa kesalahan – kesalahan yang terjadi pada grabber dan parser tidak membawa dampak perubahan nilai akurasi yang signifikan. Pengujian pada skenario II membantu menentukan parameter thersholding yang baik. Parameter thersholding yang dianggap baik oleh [2] adalah 0,1. Namun setelah dilakukan percobaan pada kondisi offline, ditemukan bahwa parameter tersebut tidak dapat membawa hasil identifikasi topik yang baik. Hal ini dikarenakan nilai CosSim untuk Conditionally Assigned Topic tinggi dan rata – rata berada di atas nilai 0,2, sehingga dengan nilai parameter 0,1 seluruh topik (bahkan yang tidak relevan) dianggap relevan oleh aplikasi.Dari hasil percobaan didapatkan bahwa parameter optimal untuk thresholding adalah 0,3 dengan tingkat akurasi sebesar 95,26%. Nilai tersebut dapat menghasilkan topik yang optimal karena topik yang benar selalu memiliki nilai CosSim yang pada umumnya berada di atas nilai 0,3. Sehingga apabila parameter di-set 0,4 nilai tersebut terlalu tinggi hingga topik yang benar akhirnya dianggap salah, dan bila diset 0,2 nilai tersebut terlalu rendah sehingga banyak topik yang sebenarnya tidak relevan dianggap benar oleh aplikasi. Pengujian pada skenario II de ngan kondisi online menunjukkan hasil yang berbeda. Nilai threshold pada identifikasi topik secara online harus diset lebih strict, yaitu pada 0.4. Nilai ini pun masih menghasilkan nilai akurasi yang lebih rendah dibandingkan hasil percobaan pada skenario II offline karena perhitungan nilai CosSim pada kondisi online memang terlihat mampu menghasilkan nilai – nilai yang lebih tinggi.
6.1 Kesimpulan 1. Algoritma yang diusulkan oleh [2] terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia 2. Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci 3. Parameter optimal dalam klasifikasi dan identfikasi adalh 20 untuk kata kunci, dan 0,3 untuk threshold 4. Nilai akurasi yang dapat dicapai algoritma klasifikasi kategori adalah 93,84% dan 97,26% untuk identifikasi topik 6.2 Saran 1. Perlunya eksperimen lebih jauh untuk menemukan jumlah kata kunci yang tepat untuk menghasilkan performa yang lebih baik 2. Pemilihan kategori yang dianggap sebagai ground truth sebaiknya lebih spesifik, sehingga berbeda antara satu sama lain. Misalnya antara kategori internasional dengan pariwisata, dokumen yang berada pada kedua kategori seringkali sama memiliki kata kunci yang berhubungan dengan tempat, sehingga mengurangi performa klasifikasi 3. Perlunya riset untuk mempercepat running time yang diperlukan untuk identifikasi topik, karena butuh running time cukup lama apabila topik dokumen training banyak. 7. Daftar Pustaka [1] Arifin, A. Z., Roby Darwanto, Dini Adni Navastara, Henning Titi Ciptaningtyas. 2008. “Klasifikasi Online Dokumen Berita Dengan Menggunakan Algoritma Suffix Tree Clustering”. Seminar Sistem Informasi Indonesia (SESINDO2008). ITS, Surabaya 17 Desember. [2] Bracewell D., Jiajun Yan, Fuji Ren dan Shingo Kuroiwa. 2009. “Category Classification and Topic Discovery of Japanese and English News Articles”. Electronic Notes in Theoretical Computer Science 225 (2009) 51–65. [3] Mahendra, I Putu Adhi Kerta. 2008. “Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language”. The 5th International Conference on Information & Communication Technology and Systems ISSN 2085-1944. [4] DR. E. Garcia , 2006. The Classic Vector Space Model,
[5] Yates, Ricardo B. dan Bertiher R. Neto. Modern Information Retrieval.
6. Kesimpulan dan Saran
7
[6] Husni. IR dan Klasifikasi. Diktat kuliah, Universitas Trunojoyo. [7] Skiba, Michael Jan. 2010. Text Preprocessing in Programmable Logic. Canada: University of Waterloo. [8] Salton G., 1989. Automatic Text Processing. Cornell University. [9] Salton G. dan C. Buckley. 1988. TermWeighting Approaches in Automatic Text Retrieval. Department of Computer Science, Cornell University. [10] Li, Y. H. Dan A. K. Jain. 1998. “Classification of Text Documents”. The Computer Journal, Vol. 41, No. 8. [11] J.E.N.I. Pengenalan Bahasa JAVA. Diktat kuliah, IPB
8