KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Oleh: YUDHA PERMADI G64102064
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh: YUDHA PERMADI G64102064
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008
ABSTRAK YUDHA PERMADI. Kategorisasi Teks Menggunakan N-gram untuk Dokumen Berbahasa Indonesia. Dibimbing oleh JULIO ADISANTOSO dan FIRMAN ARDIANSYAH. Luasnya sumber untuk mendapatkan suatu dokumen dengan topik atau tema tertentu dapat mengakibatkan banyaknya dokumen yang dicari memiliki topik yang sama walaupun dengan sudut pandang yang berbeda. Perbedaan sudut pandang ini kemudian dapat dikelompokkan berdasarkan pembahasan dari tiap sudut pandang. Namun jika dilihat dari akar permasalahan atau topik utamanya maka akan cukup sulit membedakan satu permasalahan dengan permasalahan lainnya. Dalam bidang temu kembali informasi terdapat suatu model pengelompokan dokumen yang disebut kategorisasi teks. Model ini juga memiliki beberapa jenis metode pengelompokan dokumen yang salah satunya adalah metode N-gram. Metode N-gram merupakan suatu metode yang sering digunakan untuk mengenali kesalahan-kesalahan yang sering terjadi pada suatu dokumen. Menggunakan N-gram untuk proses kategorisasi teks, dokumen-dokumen dengan topik utama yang sama dapat dikelompokkan ke dalam beberapa kategori walaupun terdapat kesalahan tekstual. Kinerja dari sistem ini dapat diketahui dengan membandingkan profil N-gram dari dokumen dengan kategori yang sudah ada. Dari proses perbandingan ini dapat ditentukan dan dikalkulasikan jarak antara dua profil tersebut, dan menentukan kategori mana yang memiliki jarak terkecil dengan dokumen tersebut. Dari penelitian ini didapatkan bahwa pemotongan Trigram memiliki persentase kebenaran kategorisasi terbesar yaitu 26,035%. Kata kunci: Temu Kembali Informasi, Kategorisasi Teks, N-gram.
Judul Nama NRP
: Kategorisasi Teks Menggunakan N-gram untuk Dokumen Berbahasa Indonesia : Yudha Permadi : G64102064
Menyetujui: Pembimbing I,
Pembimbing II,
Ir. Julio Adisantoso, M.Komp. NIP 131578807
Firman Ardiansyah, S.Kom, M.Si. NIP 132311919
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Drh. Hasim, DEA. NIP 131578806
Tanggal Lulus:
RIWAYAT HIDUP Penulis bernama Yudha Permadi, lahir di Jakarta pada hari Jumat tanggal 4 November 1983 dari pasangan Agus Hendrayanto dan Sulastri. Penulis merupakan putra pertama dari dua bersaudara. Pada tahun 2002 penulis lulus dari SMUN 3 Depok dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Seleksi Penerimaan Mahasiswa Baru. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis juga aktif dalam kegiatan kemahasiswaan, yaitu sebagai Koordinator Kesekretariatan Pesta Sains Nasional 2005 yang merupakan kompetisi dalam bidang sains untuk siswa-siswi SMA se-Indonesia. Selain itu, penulis juga aktif di organisasi kemahasiswaan, yaitu sebagai staf Departemen Minat dan Bakat Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) Periode 2004-2005.
v
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT, karena atas rahmat dan hidayah-Nya penelitian ini dapat diselesaikan. Penelitian ini mengambil tema temu kembali informasi dengan judul Kategorisasi Teks Menggunakan N-gram untuk Dokumen Berbahasa Indonesia. Dalam penyusunan tugas akhir ini, penulis memperoleh bimbingan dan bantuan dari berbagai pihak. Oleh karena itu, kata terima kasih sebesar-besarnya penulis ucapkan kepada Ayahanda dan Ibunda tercinta yang selalu mengalirkan do’a dan kasih sayangnya serta Adinda Imam Prayudhi yang selalu memberikan bantuan dan pengertiannya. Bapak Ir. Julio Adisantoso, M.Komp. dan Bapak Firman Ardiansyah, S.Kom, M.Si. selaku pembimbing dan Bapak Sony Hartono Wijaya, S.Kom selaku penguji. Seluruh staf Departemen Ilmu Komputer. Teman-teman lab TKI: Abdul Rahman, Nafi’ Ikhsani, Adam S. Akbar, M. Zaenal Arifin, dan Fridolin F. Paiki. Rekan-rekan ILKOMERZ 39 yang lain terutama Fajri Ma’rifatullah dan Sundoro A. Nugroho yang telah mendorong semangat penulis Ummi Syarifah dan keluarga yang telah membantu cukup banyak dalam proses penelitian Akhir kata, penulis berharap agar hasil penelitian ini dapat bermanfaat bagi pembaca, terutama para pembaca yang berminat untuk melanjutkan dan menyempurnakan penelitian ini.
Depok, April 2008
Yudha Permadi
v
v
DAFTAR ISI Halaman DAFTAR GAMBAR ................................................................................................................. vi DAFTAR TABEL...................................................................................................................... vi DAFTAR LAMPIRAN.............................................................................................................. vi PENDAHULUAN....................................................................................................................... 1 Latar Belakang ...................................................................................................................... 1 Tujuan.................................................................................................................................... 1 TINJAUAN PUSTAKA.............................................................................................................. 1 Temu Kembali Informasi....................................................................................................... 1 Kategorisasi Teks .................................................................................................................. 1 N-gram................................................................................................................................... 1 Kategorisasi Teks Menggunakan Frekuensi Statistik N-gram............................................... 2 METODE PENELITIAN............................................................................................................ 2 Penyusunan Frekuensi N-gram.............................................................................................. 2 Perbandingan dan Perangkingan Frekuensi N-gram.............................................................. 2 Pengujian Kategorisasi Teks pada Klasifikasi Tiap Kategori................................................ 3 Koleksi Dokumen.................................................................................................................. 3 Lingkungan Pengembangan .................................................................................................. 3 HASIL DAN PEMBAHASAN................................................................................................... 4 Koleksi Dokumen.................................................................................................................. 4 Kategori Dokumen ................................................................................................................ 4 Pembuatan Profil ................................................................................................................... 4 Hasil Perbandingan Jarak Profil ............................................................................................ 5 Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram ................................................... 5 KESIMPULAN DAN SARAN ................................................................................................... 8 Kesimpulan............................................................................................................................ 8 Saran...................................................................................................................................... 9 DAFTAR PUSTAKA ................................................................................................................. 9 LAMPIRAN.............................................................................................................................. 10
v
vi
DAFTAR GAMBAR Halaman 1 2 3 4
Distribusi Zipf dari frekuensi N-gram. ............................................................................. 2 Ilustrasi pengukuran jarak. ............................................................................................... 3 Alur data kategorisasi teks................................................................................................ 3 Grafik jumlah N-gram dengan ukuran profil tiap kategori. .............................................. 5
DAFTAR TABEL Halaman 1 Profil kategori................................................................................................................... 4 2 Kategori dokumen ............................................................................................................ 4 3 Perbandingan jumlah dokumen ........................................................................................ 4 4 Jumlah N-gram tiap kategori ............................................................................................ 5 5 Klasifikasi Bigram............................................................................................................ 6 6 Kategorisasi Bigram dua kategori .................................................................................... 6 7 Klasifikasi Trigram........................................................................................................... 6 8 Kategorisasi Trigram dua kategori ................................................................................... 6 9 Klasifikasi Quadgram ....................................................................................................... 7 10 Kategorisasi Quadgram dua kategori................................................................................ 7 11 Kategorisasi Quadgram tanpa kategori Musim Panen...................................................... 7 12 Klasifikasi Ngram............................................................................................................. 8 13 Klasifikasi Ngram dua kategori ........................................................................................ 8 14 Klasifikasi Ngram tanpa kategori Musim Panen .............................................................. 8
DAFTAR LAMPIRAN Halaman 1 2 3 4
Kategorisasi teks menggunakan Bigram......................................................................... 11 Kategorisasi teks menggunakan Trigram ....................................................................... 12 Kategorisasi teks menggunakan Quadgram.................................................................... 13 Kategorisasi teks menggunakan Ngram ......................................................................... 14
vi
1
PENDAHULUAN Latar Belakang Dengan pesatnya perkembangan dan luasnya jangkauan Internet, maka banyak sekali sumber yang dapat digunakan untuk mendapatkan suatu dokumen. Bahkan untuk satu jenis pembahasan topik atau tema, banyak sekali dokumen-dokumen yang memiliki kesamaan walaupun pembahasan tema tiap-tiap dokumen dilihat dari beberapa sudut pandang. Contohnya untuk tema pertanian, dapat dibahas dalam beberapa sudut pandang, seperti pembangunan dalam bidang pertanian, penerapan metode tumpang sari, penelitianpenelitian bidang pertanian, dan lain-lain. Beberapa perbedaan sudut pandang ini kemudian dapat digunakan untuk mengelompokkan dokumen-dokumen yang ada ke dalam beberapa pembahasan atau kelompok. Akan tetapi jika dilihat dari akar permasalahan atau tema utama dari dokumen-dokumen tersebut maka akan cukup sulit membedakan satu sudut pandang dengan sudut pandang yang lainnya. Akan lebih sulit juga apabila dokumendokumen yang akan dikelompokkan memiliki jumlah yang cukup banyak dan terus bertambah seiring waktu dan perkembangan jaman. Oleh karena itu dibutuhkan suatu sistem yang dapat mengelompokkan dokumendokumen tersebut ke dalam beberapa kategori. Dalam bidang temu kembali informasi terdapat suatu model pengelompokan dokumen yang disebut kategorisasi teks. Dalam model ini terdapat berbagai jenis metode untuk mengelompokkan dokumen. Salah satu di antaranya adalah metode N-gram. Metode N-gram sebenarnya merupakan suatu metode untuk mengenali kesalahankesalahan yang mungkin terjadi pada suatu dokumen. Kesalahan yang sering terjadi adalah kesalahan pengetikan dan kesalahan pengenalan suatu kata. Oleh karena itu, kategorisasi teks menggunakan N-gram akan memiliki beberapa karakteristik, antara lain: •
dapat berfungsi dengan baik walaupun terdapat kesalahan tekstual,
•
dapat berjalan secara efisien, membutuhkan penyimpanan yang sederhana dan waktu proses yang cepat.
Tujuan Penelitian ini bertujuan untuk mengimplementasikan dan menganalisis beberapa metode N-gram untuk kategorisasi
teks, serta mengetahui metode N-gram mana yang paling baik dalam proses kategorisasi teks. Penelitian ini dibatasi untuk dokumen-dokumen berbahasa Indonesia.
TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi merupakan sebuah proses untuk membantu pengguna menemukan obyek informasi yang relevan dengan suatu tujuan atau masalah. Oleh karena itu, sebuah sistem temu kembali informasi memiliki sebuah tujuan untuk mengembalikan informasi yang relevan dan sesedikit mungkin (atau bahkan tidak) mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto 1999). Untuk memenuhi tujuan dari sebuah sistem temu kembali informasi yang ideal, maka dikembangkan berbagai cara mengoptimalkan sistem temu kembali informasi. Beberapa cara untuk mengoptimalkan sebuah sistem temu kembali, adalah: •
mengembangkan pemrosesan dokumen, yaitu bagaimana dokumen direpresentasikan dalam sistem.
•
mengembangkan ukuran kesamaan (similarity measurement) antara dokumen dengan kueri.
Kategorisasi Teks Kategorisasi teks merupakan salah satu tahap pemrosesan dokumen pada temu kembali informasi, di mana dokumen-dokumen yang ada dikelompokkan atau diklasifikasikan ke dalam beberapa topik atau tema (Attardi 2004). Pada kategorisasi teks, representasi suatu dokumen adalah kata, di mana tiap kata memiliki ciri khas yang berbeda. Oleh karena itu, pada sebagian besar proses kategorisasi teks, terdapat banyak ciri khas yang mungkin terjadi, baik ciri khas yang relevan dengan tema dokumen maupun yang tidak relevan dari proses kategorisasi. Adapun metode yang mengelompokkan semua ciri khas tersebut cenderung lebih baik daripada metode yang hanya mengelompokkan ciri khas yang relevan (Mooney 2001). N-gram N-gram adalah pemotongan dari string (kata) yang lebih panjang. Pada beberapa literatur dapat juga diartikan munculnya makna atau kata baru dari seperangkat karakter hasil
1
2
pemotongan pada sebuah kata (Trenkle & Cavnar 1994). Khasnya adalah satu potongan kata menjadi seperangkat N-gram yang bertumpang tindih. Penambahan garis bawah (blank) pada awal dan akhir kata digunakan untuk membantu menentukan kondisi awal kata dan akhir kata. Maka pada kata ”TEKS” dapat dikomposisikan menjadi N-gram berikut: Bi-gram:
_T, TE, EK, KS, S_
Tri-gram:
_TE, TEK, EKS, KS_, S_ _
membandingkan dokumen dari kategori yang sama, maka dapat terlihat dokumen-dokumen tersebut memiliki distribusi frekuensi N-gram yang hampir sama (Trenkle & Cavnar 1994). Dari pernyataan tersebut dapat digambarkan implikasi Hukum Zipf seperti pada Gambar 1.
Quad-gram: _TEK, TEKS, EKS_, KS_ _, S_ _ _ Oleh karena itu, sebuah string dengan panjang k, ditambahkan dengan garis bawah, akan memiliki k+1 bigram, k+1 trigram, k+1 quadgram, dan seterusnya. Pencocokan berdasarkan N-gram telah berhasil dalam menangani masukan yang tidak jernih seperti, dalam menafsirkan alamat pos, memulihkan teks, dan aplikasi pemrosesan bahasa alami. Kunci sukses pencocokan berdasarkan N-gram adalah karena tiap kata dikomposisikan menjadi bagian-bagian kecil, kesalahan yang muncul hanya mempengaruhi sejumlah kecil bagian tersebut, meninggalkan yang lain tetap utuh. Jika kita menghitung beberapa N-gram yang sama pada dua kata, kita akan mendapatkan ukuran kesamaan dua kata tersebut yang tidak terpengaruh oleh berbagai macam kesalahan tekstual.
Gambar 1 Distribusi Zipf dari frekuensi Ngram.
METODE PENELITIAN Penyusunan Frekuensi N-gram Langkah ini dilakukan dengan membaca teks yang datang dan menghitung kemunculan dari ketiga N-gram. Adapun langkahlangkahnya adalah: •
Kata (token) diambil dari teks, dilakukan pembuangan stopword dan ditambahkan blank sebelum dan setelah token.
•
N-gram dengan n = 2, 3, dan 4 dari token yang didapat kemudian disusun. Digunakan juga penambahan blank pada token.
•
Dilakukan pemotongan untuk membentuk tabel untuk mendapatkan frekuensi untuk tiap N-gram. Tabel pemotongan diatur sedemikian rupa sehingga tiap N-gram memiliki frekuensi-nya masing-masing.
Kata ke-n yang paling umum pada teks bahasa manusia muncul dengan frekuensi yang berbanding terbalik pada n.
•
Setelah selesai, semua N-gram dan frekuensi akhirnya serta jumlah N-gram tiap tabel ditampilkan.
Implikasi dari hukum ini adalah bahwa selalu terdapat kata-kata yang paling mendominasi dari kata-kata lain dalam bahasa manusia pada frekuensi penggunaan tertentu. Implikasi ini cocok untuk kata-kata pada umumnya dan kata-kata yang spesifik pada subjek tertentu. Hukum Zipf mengimplikasikan bahwa mengklasifikasikan dokumen menggunakan frekuensi statistik N-gram tidak akan terlalu berpengaruh dalam pemotongan distribusi pada rank tertentu. Hal ini juga mengimplikasikan bahwa jika kita
•
Akhirnya, frekuensi diurutkan berdasarkan banyaknya kemunculan, di mana yang digunakan hanya hasil pemotongan N-gram yang telah terurut dari banyaknya frekuensi.
Kategorisasi Teks Menggunakan Frekuensi Statistik N-gram Bahasa manusia pada dasarnya memiliki beberapa kata yang lebih sering digunakan dari kata yang lainnya. Salah satu cara yang dapat digunakan untuk mengekspresikan ide ini adalah yang dikenal dengan Hukum Zipf yang berbunyi:
Perbandingan dan Perangkingan Frekuensi N-gram Langkah ini dilakukan dengan mengambil dua tabel N-gram dan menghitung statistika perbedaan rangking sederhana. Cara ini digunakan untuk menentukan seberapa jauh frekuensi satu N-gram dengan N-gram yang
2
3
lainnya. Sehingga didapatkan ukuran jarak antara dokumen dan kumpulan dokumen (kategori) tertentu.
penghitungan frekuensi untuk tiap kategori (menyusun profil artikel / dokumen). •
Penghitungan keseluruhan ukuran jarak antara artikel dan kategori (mengukur jarak).
•
Penentuan kumpulan dokumen terpilih dari sumber dokumen (memilih jarak terkecil).
Gambar 2 Ilustrasi pengukuran jarak. Seperti yang terlihat pada Gambar 2, pada profil dokumen dan profil kategori, N-gram ”TH” berada pada rank (baris) pertama, maka nilai jaraknya adalah 0. Jika N-gram ”ING” berada pada rank kedua pada profil dokumen dan pada rank kelima pada profil kategori, maka nilai jaraknya adalah 3. Apabila terdapat N-gram pada profil dokumen tapi tidak terdapat pada profil kategori, seperti N-gram ”ED”, maka nilai jaraknya adalah maksimum. Nilai maksimum yang dimaksud adalah jumlah Ngram dari profil kategori yang dibandingkan. Sedangkan ukuran jarak antara dokumen dengan kategori adalah jumlah dari nilai jarak dari tiap N-gram pada profil dokumen. Pengujian Kategorisasi Teks pada Klasifikasi Tiap Kategori Pendekatan dalam kategorisasi teks dapat dilakukan dengan menggunakan frekuensi Ngram untuk mengukur kesamaan subjek (kategori) dari dokumen. Tentu saja pendekatannya berdasarkan dari isi dokumen yang mana menjadi daya tarik dari proses temukembali. Untuk menguji pendekatan ini, akan digunakan sistem klasifikasi untuk mengenali dokumen yang sesuai pada kategori yang akan digunakan. Seperti yang terlihat pada Gambar 3, prosedur untuk kategorisasi adalah sebagai berikut: •
•
•
Pengumpulan dokumen untuk tiap jenis sumber. Dokumen yang diambil adalah artikel surat kabar yang berkisar antara 686 bytes sampai 36 kilobytes. Penghitungan frekuensi N-gram pada tiap kategori (menyusun profil kategori). Frekuensi N-gram yang dimaksud adalah sama dengan frekuensi N-gram yang sebelumnya telah disebutkan.
Gambar 3 Alur data kategorisasi teks. Koleksi Dokumen Pengujian Untuk menguji sistem ini, digunakan koleksi dokumen (corpus) Adisantoso & Ridha (2004) yang berkaitan dengan masalah pertanian. Jumlah dokumen yang akan digunakan dalam penelitian ini sebanyak 1000 dokumen. Lingkungan Pengembangan Lingkungan pengembangan digunakan adalah sebagai berikut :
yang
•
Perangkat lunak: Windows XP Professional, Visual Basic .NET 2005, Microsoft Access 2003.
•
Perangkat keras: Intel Core 2 Duo 1,5 GHz, 512 MB RAM.
Penghitungan N-gram dari sebuah artikel dengan cara yang sama dengan
3
4
HASIL DAN PEMBAHASAN Koleksi Dokumen Koleksi dokumen yang digunakan pada penelitian ini berasal dari corpus Adisantoso & Ridha (2004). Jumlah dokumen pada koleksi ini adalah 1000 dokumen. Akan tetapi, koleksi yang terbagi dalam 30 kategori hanya 953 dokumen. Dalam penelitian ini, hanya digunakan 10 kategori yang memiliki jumlah dokumen terbanyak. Kemudian dari 10 kategori tersebut akan dibentuk profil kategori berdasarkan sebagian dari dokumen-dokumen dalam tiap kategori. Jumlah dari ukuran dokumen-dokumen yang akan digunakan sebagai profil kategori untuk tiap kategori dapat dilihat pada Tabel 1. Tabel 1 Profil kategori Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan TOTAL
Ukuran Profil (KB) 40,9 61,3 140 66,7 58,8 50,3 107 72,9 130 51,4 780
Kategori Dokumen Penentuan kategori-kategori yang akan digunakan dalam penelitian adalah sepuluh kategori yang memiliki jumlah dokumen terbanyak pada koleksi dokumen. Dari tiap kategori yang telah ditentukan tersebut, dilakukan pembuatan profil untuk masingmasing kategori dan jenis-jenis kategori tersebut disimpan dalam tabel “Kategori”. Jenis-jenis kategori dan jumlah dokumen perbandingan dalam penelitian ini dapat dilihat pada Tabel 2. Pembuatan Profil Proses pembuatan profil kategori dan profil dokumen pada dasarnya adalah sama, yaitu proses tokenizing, stopword, proses penambahan blank pada awal dan akhir tiap token, pemotongan N-gram untuk tiap nilai n, penyusunan ke dalam tabel-tabel tiap nilai n, dan pengurutan tabel-tabel tersebut berdasarkan jumlah tiap N-gram hasil pemotongan N-gram. Perbedaan proses pembuatan profil kategori dan
profil dokumen adalah pada banyaknya tabel yang dihasilkan. Tabel 2 Kategori dokumen Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan TOTAL
Jumlah Dokumen 32 39 44 33 32 32 37 34 56 35 374
Proses pembuatan profil kategori menghasilkan empat tabel, yaitu tabel bigram (2gram), trigram (3gram), quadgram (4gram) dan Ngram (2gram, 3gram, 4gram). Sedangkan pada proses pembuatan profil dokumen hanya menghasilkan satu tabel, yaitu tabel dari jenis kategorisasi teks yang akan digunakan (2gram, 3gram, 4gram atau Ngram). Tabel 3 Perbandingan jumlah dokumen Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan
Jumlah Profil
Jumlah Dokumen
%
7
39
17,949%
9
48
18,75%
11
55
20%
8
41
19,512%
8
40
20%
8
40
20%
9
46
19,565%
8
42
19,048%
13
69
18,841%
8
43
18,605%
Pada Tabel 3 dapat dilihat bahwa jumlah dokumen yang akan digunakan dalam pembuatan profil tiap kategori adalah < 20% dari jumlah dokumen tiap kategori. Jumlah N-gram tiap kategori hasil dari pembuatan profil kategori dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa untuk jumlah N-gram pada Bigram tidak ada yang mencapai 1000 N-gram. Sedangkan pada Trigram, jumlah N-gram tiap kategori adalah
4
5
2000 – 4000 N-gram. Dan untuk Quadgram dan Ngram, jumlah N-gram mencapai lebih dari 4000 N-gram. Hal ini dapat disebabkan pada Bigram, tiap N-gram tidak memiliki pengertian yang jelas dalam pengelompokan N-gram. Pada Trigram, pengelompokan N-gram sudah memiliki pengertian jelas dalam tiap kelompok N-gram. Sedangkan pada Quadgram dan Ngram, tiap N-gram memiliki pengertian yang sangat jelas untuk dapat dikelompokkan seperti mengelompokkan kata dasar satu dengan yang lainnya atau kata dasar dengan imbuhannya. Tabel 4 Jumlah N-gram tiap kategori Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan
2gram
3gram
4gram
Ngram
475
2205
4696
7376
524
2616
5906
9046
567
3108
7720
11395
501
2455
5588
8544
514
2510
5774
8798
483
2292
5113
7888
545
2852
6809
10206
537
2861
6860
10258
605
3396
8825
12826
521
2501
5420
8442
14000 12000 10000 8000 6000 4000 2000 0 40.9
50.3
51.4
58.8 2gram
61.3 3gram
66.7 4gram
72.9
107.0
130.0
140.0
gram yang dihasilkan pada proses pembuatan profil kategori. Hasil Perbandingan Jarak Profil Pengukuran jarak dalam proses kategorisasi teks adalah dengan menghitung perbedaan rank atau baris tabel tiap token antara profil dokumen dengan profil kategori. Hasil perbandingan ini kemudian dikalkulasikan untuk tiap kategori. Proses perbandingan dilakukan berdasarkan banyaknya dokumen yang akan diklasifikasikan (374 dokumen). Tiap dokumen akan diklasifikasikan untuk tiap jenis N-gram (2gram, 3gram, 4gram dan Ngram). Hal yang menarik dari hasil kalkulasi jarak tiap dokumen adalah semakin besar jumlah Ngram tiap profil dokumen maka akan semakin besar juga jarak antara dokumen tersebut dengan tiap kategori. Karena dengan semakin besar jumlah N-gram pada profil dokumen maka akan semakin bervariasi N-gram profil dokumen tersebut dan kondisi jarak maksimum akan semakin sering terjadi. Tetapi sebaliknya, semakin banyak jumlah N-gram pada profil suatu kategori maka akan semakin kecil jarak antara kategori tersebut dengan tiap dokumen. Hal ini disebabkan karena semakin banyak jumlah N-gram pada profil kategori maka kondisi jarak maksimum akan jarang terjadi. Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram Berdasarkan ukuran jarak yang telah didapatkan, kita dapat menentukan jarak suatu dokumen dengan tiap kategori. Dengan jarak tersebut kita dapat menentukan termasuk ke dalam kategori apa suatu dokumen dengan mencari nilai minimum jarak antara dokumen dan kategori tersebut.
Ngram
Gambar 4 Grafik jumlah N-gram dengan ukuran profil tiap kategori. Pada Gambar 4 dapat dilihat perbandingan jumlah N-gram dengan ukuran profil tiap kategorinya, dapat diketahui bahwa semakin besar ukuran profil suatu kategori maka jumlah N-gram kategori tersebut juga cenderung semakin banyak. Meskipun hal ini juga sangat tergantung pada seberapa banyak kesalahankesalahan pada dokumen-dokumen yang digunakan untuk membuat profil kategori baik kesalahan pengetikan, pengejaan maupun kesalahan pengenalan suatu kata dalam dokumen. Semakin banyak kesalahan yang terjadi maka semakin banyak juga jumlah N-
Akan tetapi setiap jenis klasifikasi memiliki kinerja yang berbeda dan perlu dievaluasi. Hasil klasifikasi tiap jenis N-gram dapat dievaluasi sebagai berikut. Pada klasifikasi Bigram dapat diketahui bahwa proses klasifikasi berhasil mengklasifikasikan setidaknya dua dokumen untuk tiap kategori. Klasifikasi Bigram mencapai kinerja tertinggi pada proses klasifikasi kategori Penerapan Bioteknologi (32,353%) dan mengalami kinerja terendah pada kategori Impor Beras (6,061%). Hasil klasifikasi Bigram selengkapnya dapat dilihat pada Tabel 5.
5
6
Tabel 5 Klasifikasi Bigram Jumlah Kategori Benar Bencana 9 Kekeringan Gagal Panen 8 Harga Komoditas 8 Pertanian Impor Beras 2 Institut Pertanian 9 Bogor Musim Panen 8 Pembangunan 11 Pertanian Penerapan 11 Bioteknologi Riset Pertanian 17 Tanaman Pangan 9 Total / Rata-rata 92
Persentase Benar 28,125% 20,513% 18,182% 6,061% 28,125% 25% 29,73% 32,353% 30,357% 25,714% 24,416%
Tabel 6 Kategorisasi Bigram dua kategori Impor Penerapan Kategori Beras Bioteknologi Bencana 1 0 Kekeringan Gagal Panen 4 3 Harga Komoditas 7 2 Pertanian 0 Impor Beras 2 Institut Pertanian 0 2 Bogor Musim Panen 10 3 Pembangunan 5 0 Pertanian Penerapan 0 11 Bioteknologi Riset Pertanian 0 10 Tanaman Pangan 4 3 Jumlah 33 34 Dari perbandingan dua kategori yang memiliki kinerja tertinggi dan terendah pada Tabel 6 juga dapat dilihat bahwa pada klasifikasi kategori Impor Beras sebagian besar dokumen diklasifikasikan pada kategori Musim Panen yang mencapai sepuluh dokumen (30,303%). Sedangkan pada kategori Penerapan Bioteknologi sebagian besar dokumen berhasil diklasifikasikan dengan benar walaupun cukup banyak diklasifikasikan pada kategori Riset Pertanian yang mencapai sepuluh dokumen (29,412%). Hal ini karena terdapat kesamaan topik antara Penerapan Bioteknologi dengan Riset Pertanian. Hasil lengkap kategorisasi Bigram dapat dilihat pada Lampiran 1. Pada Tabel 7 untuk klasifikasi Trigram, proses kategorisasi berhasil mengklasifikasikan
minimal tiga dokumen untuk tiap kategori. Kinerja tertinggi terjadi pada kategori Bencana Kekeringan yang mencapai 81,25% dan memiliki kinerja terendah pada kategori Riset Pertanian (5,357%). Tabel 7 Klasifikasi Trigram Jumlah Kategori Benar Bencana 26 Kekeringan Gagal Panen 4 Harga Komoditas 6 Pertanian Impor Beras 4 Institut Pertanian 12 Bogor Musim Panen 13 Pembangunan 8 Pertanian Penerapan 10 Bioteknologi Riset Pertanian 3 Tanaman Pangan 3 Total / Rata-rata 89
Persentase Benar 81,25% 10,256% 13,636% 12,121% 37,5% 40,625% 21,622% 29,412% 5,357% 8,571% 26,035%
Tabel 8 Kategorisasi Trigram dua kategori Bencana Riset Kategori Kekeringan Pertanian Bencana 5 26 Kekeringan Gagal Panen 3 3 Harga 0 4 Komoditas Pertanian Impor Beras 0 5 Institut 0 6 Pertanian Bogor Musim Panen 3 18 Pembangunan 0 0 Pertanian Penerapan 0 10 Bioteknologi 0 Riset Pertanian 3 Tanaman 0 2 Pangan Jumlah 32 56 Dari Tabel 8 dapat terlihat bahwa klasifikasi kategori Bencana Kekeringan yang memiliki kinerja tertinggi, hanya salah mengklasifikasikan enam dokumen yang terbagi rata tiga dokumen (9,375%) untuk kategori Gagal Panen dan kategori Musim Panen. Sedangkan kategori Riset Pertanian yang memiliki kinerja terendah, sebagian besar mengklasifikasikan dokumen pada kategori Musim Panen sebanyak delapan belas dokumen
6
7
(32,143%) dan kategori Penerapan Bioteknologi sebanyak sepuluh dokumen (17,857%). Hasil lengkap kategorisasi Trigram dapat dilihat pada Lampiran 2. Tabel 9 Klasifikasi Quadgram Jumlah Kategori Benar Bencana 31 Kekeringan Gagal Panen 1 Harga Komoditas 2 Pertanian Impor Beras 4 Institut Pertanian 12 Bogor Musim Panen 8 Pembangunan 4 Pertanian Penerapan 2 Bioteknologi Riset Pertanian 0 Tanaman Pangan 4 Total / Rata-rata 68
Persentase Benar 96,875% 2,564% 4,545% 12,121% 37,5% 25% 10,811% 5,882% 0% 11,429% 20,673%
Tabel 10 Kategorisasi Quadgram dua kategori Bencana Riset Kategori Kekeringan Pertanian Bencana 16 31 Kekeringan Gagal Panen 0 1 Harga Komoditas 0 1 Pertanian Impor Beras 0 4 Institut 0 3 Pertanian Bogor Musim Panen 1 28 Pembangunan 0 0 Pertanian Penerapan 0 1 Bioteknologi Riset 0 0 Pertanian Tanaman 0 2 Pangan Jumlah 32 56 Dengan melihat Tabel 9 dapat dikatakan bahwa pada klasifikasi Quadgram terdapat keanehan pada proses kategorisasi. Dapat terlihat pada kategori Bencana Kekeringan, proses kategorisasi berhasil mengklasifikasikan hampir semua dokumen dan memiliki kinerja tertinggi pada kategori ini yang mencapai 96,875%. Akan tetapi pada klasifikasi Quadgram, proses kategorisasi tidak
mengklasifikasikan satu dokumen pun dari 56 dokumen yang ada yang termasuk kategori Riset Pertanian. Dengan melihat Tabel 10 dapat dikatakan bahwa kategori Bencana Kekeringan cukup mendominasi klasifikasi dokumen. Dengan mengklasifikasikan 31 dokumen benar dan hanya satu dokumen (3,125%) salah yang diklasifikasikan termasuk kategori Musim Panen. Sedangkan pada kategori Riset Pertanian, klasifikasi dokumen terkonsentrasi pada kategori Musim panen yang mencapai 28 dokumen atau 50% dari keseluruhan dokumen dan enam belas dokumen terklasifikasikan pada kategori Bencana Kekeringan tanpa ada satu dokumen pun yang termasuk klasifikasi kategori Riset Pertanian. Hasil lengkap kategorisasi Quadgram dapat dilihat pada Lampiran 3. Dengan melihat pada Tabel 11 dapat dikatakan bahwa walaupun kategori Musim Panen dihilangkan dalam proses kategorisasi, klasifikasi Quadgram juga tidak berhasil mengklasifikasikan dokumen yang termasuk kategori Riset Pertanian dan lebih mengklasifikasikan sebagian besar dokumen pada kategori Bencana Kekeringan yang mencapai 34 dokumen (60,714%). Tabel 11 Kategorisasi Quadgram tanpa kategori Musim Panen Kategori Riset Pertanian Bencana Kekeringan 34 Gagal Panen 1 Harga Komoditas Pertanian 2 Impor Beras 6 Institut Pertanian Bogor 4 Pembangunan Pertanian 0 Penerapan Bioteknologi 3 Riset Pertanian 0 Tanaman Pangan 6 Jumlah Dokumen 56 Pada klasifikasi Ngram memiliki beberapa kesamaan dengan klasifikasi Quadgram di mana pada klasifikasi kategori Bencana Kekeringan kinerja mencapai lebih dari 90%, yaitu 90,625% dan tidak mengklasifikasikan satu pun dokumen dari 56 dokumen kategori Riset Pertanian. Hasil lengkap dari klasifikasi Ngram dapat dilihat pada Tabel 12. Tidak jauh berbeda dengan klasifikasi Quadgram pada kategori Bencana Kekeringan dan kategori Riset Pertanian. Klasifikasi Ngram berhasil mengklasifikasikan 29 dokumen yang termasuk kategori Bencana Kekeringan dan hanya salah mengklasifikasikan satu dokumen
7
8
(3,125%) yang termasuk kategori Gagal Panen dan dua dokumen (6,25%) yang termasuk kategori Musim Panen. Sedangkan untuk kategori Riset Pertanian, proses kategorisasi mengklasifikasikan 27 dokumen (48,214%) yang termasuk kategori Musim Panen. Ini dapat terlihat pada Tabel 13. Hasil lengkap kategorisasi Ngram dapat dilihat pada Lampiran 4. Tabel 12 Klasifikasi Ngram Jumlah Kategori Benar Bencana 29 Kekeringan Gagal Panen 1 Harga Komoditas 4 Pertanian Impor Beras 6 Institut Pertanian 17 Bogor Musim Panen 9 Pembangunan 5 Pertanian Penerapan 7 Bioteknologi Riset Pertanian 0 Tanaman Pangan 3 Total / Rata-rata 81
Persentase Benar 90,625% 2,564% 9,091% 18,182% 53,125%
terdistribusikan hampir ke semua kategori dengan sebagian besar terklasifikasikan pada kategori Bencana Kekeringan sebanyak sembilan belas dokumen (33,929%) dan kategori Penerapan Bioteknologi sebanyak dua belas dokumen (21,429%). Hasil selengkapnya dapat dilihat pada Tabel 14. Tabel 14 Klasifikasi Ngram tanpa kategori Musim Panen Kategori Riset Pertanian Bencana Kekeringan 19 Gagal Panen 2 Harga Komoditas Pertanian 3 Impor Beras 5 Institut Pertanian Bogor 8 Pembangunan Pertanian 1 Penerapan Bioteknologi 12 Riset Pertanian 0 Tanaman Pangan 6 Jumlah Dokumen 56
28,125% 13,514%
KESIMPULAN DAN SARAN
20,588%
Kesimpulan
0% 8,571% 24,439%
•
Pada proses kategorisasi teks menggunakan N-gram, klasifikasi Trigram yang paling sesuai untuk dokumen-dokumen berbahasa Indonesia dengan persentase hasil 26,035%.
•
Klasifikasi Trigram juga cukup dapat diandalkan untuk proses kategorisasi teks, karena semua kategori berhasil diklasifikasikan dengan benar dengan kinerja tertinggi 81,25% dan kinerja terendah 5,357%.
•
Klasifikasi Trigram dianggap paling sesuai untuk implementasi Kategorisasi Teks karena pada dokumen berbahasa Indonesia, Trigram dapat mengelompokkan kata-kata dalam bahasa Indonesia baik kata-kata dasar maupun kata-kata yang berimbuhan tanpa menggunakan proses stemming.
•
Kategorisasi teks menggunakan N-gram terbukti cukup efektif dalam mengklasifikasikan dokumen karena metode ini menggunakan pendekatan “kategorisasi menggunakan contoh” dengan cara mengumpulkan dan menggunakan profil kategori dari dokumen yang sudah ada.
•
Dalam proses kategorisasi, masalah salah pengejaan suatu kata, karena pengetikan dan pengenalan suatu kata, tidak terlalu berpengaruh pada hasil klasifikasi dokumen secara keseluruhan.
Tabel 13 Klasifikasi Ngram dua kategori Bencana Riset Kategori Kekeringan Pertanian Bencana 9 29 Kekeringan Gagal Panen 1 1 Harga 0 2 Komoditas Pertanian Impor Beras 0 3 Institut 0 6 Pertanian Bogor Musim Panen 2 27 Pembangunan 0 0 Pertanian Penerapan 0 4 Bioteknologi 0 Riset Pertanian 0 Tanaman 0 4 Pangan Jumlah 32 56 Hampir sama dengan hasil klasifikasi Quadgram, klasifikasi Ngram tanpa kategori Musim Panen juga tidak berhasil mengklasifikasikan dokumen untuk kategori Riset Pertanian. Akan tetapi pada klasifikasi Ngram, hasil klasifikasi dokumen
8
9
•
Tingkat akurasi rata-rata semua jenis Ngram adalah 23,891%.
Saran Terdapat diperhatikan selanjutnya:
beberapa hal yang dapat untuk penelitian-penelitian
•
dalam pembuatan profil kategori dapat menggunakan dokumen-dokumen yang lebih memperlihatkan perbedaan karakteristik untuk tiap kategori.
•
dapat juga dikembangkan beberapa jenis Ngram lain untuk proses kategorisasi teks.
•
menggunakan beberapa macam metode perhitungan jarak antara suatu dokumen dengan kategori yang ada.
•
menggunakan metode yang berbeda dalam mempresentasikan profil suatu kategori.
DAFTAR PUSTAKA Adisantoso J, Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4. Bogor: Departemen Ilmu Komputer FMIPA IPB. Attardi G. 2004. Text Categorization. Roma: Pisa University Pr. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. England: Addison-Wesley. Mooney R. 2001. Intelligent Information Retrieval and Web Search. Austin: Texas University Pr. Trenkle JM, Cavnar WB. 1994. N-Gram-Based Text Categorization. Di dalam: Lewis D, editor. Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval; Las Vegas, 11-13 April 1994. Nevada: UNLV Publications/Reprographics. Hlm 161175. Zipf GK. 1949. Human Behavior and The Principle of Least Effort, An Introduction To Human Ecology. England: AddisonWesley.
9
LAMPIRAN
11
Lampiran 1 Kategorisasi teks menggunakan Bigram Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan Total Dokumen
Bencana Kekeringan
Gagal Panen
9 6 0 1 2 2 1 0 1 10 32
12 8 1 0 1 5 0 1 0 11 39
Harga Komoditas Pertanian 3 5 8 1 0 12 5 1 4 5 44
Impor Beras 1 4 7 2 0 10 5 0 0 4 33
Institut Pertanian Bogor 2 1 4 1 9 5 2 1 5 2 32
Musim Panen
Pembangunan Pertanian
Penerapan Bioteknologi
Riset Pertanian
Tanaman Pangan
5 5 2 1 0 8 1 2 1 7 32
0 3 12 2 2 0 11 0 1 6 37
0 3 2 0 2 3 0 11 10 3 34
2 5 5 1 5 2 3 7 17 9 56
5 9 1 1 2 0 2 3 3 9 35
12
Lampiran 2 Kategorisasi teks menggunakan Trigram Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan Total Dokumen
Bencana Kekeringan
Gagal Panen
Harga Komoditas Pertanian
Impor Beras
Institut Pertanian Bogor
Musim Panen
Pembangunan Pertanian
Penerapan Bioteknologi
Riset Pertanian
Tanaman Pangan
26 3 0 0 0 3 0 0 0 0 32
30 4 0 0 1 3 1 0 0 0 39
4 1 6 8 1 18 1 2 1 2 44
1 2 6 4 0 17 2 0 0 1 33
4 0 0 5 12 5 4 1 1 0 32
11 2 2 1 0 13 0 2 0 1 32
4 1 8 5 3 5 8 0 0 3 37
0 4 1 1 1 10 0 10 6 1 34
5 3 4 5 6 18 0 10 3 2 56
13 0 0 2 1 9 2 5 0 3 35
13
Lampiran 3 Kategorisasi teks menggunakan Quadgram Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan Total Dokumen
Bencana Kekeringan
Gagal Panen
31 0 0 0 0 1 0 0 0 0 32
34 1 0 1 1 2 0 0 0 0 39
Harga Komoditas Pertanian 8 1 2 12 1 19 0 0 0 1 44
Impor Beras 7 0 1 5 1 17 1 0 0 1 33
Institut Pertanian Bogor 14 0 0 2 12 3 1 0 0 0 32
Musim Panen
Pembangunan Pertanian
Penerapan Bioteknologi
Riset Pertanian
Tanaman Pangan
20 0 0 2 0 8 0 1 0 1 32
10 1 3 8 2 7 4 0 0 2 37
5 3 0 1 0 20 0 2 0 3 34
16 1 1 4 3 28 0 1 0 2 56
20 0 0 2 0 6 1 2 0 4 35
14
Lampiran 4 Kategorisasi teks menggunakan Ngram Kategori Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan Total Dokumen
Bencana Kekeringan
Gagal Panen
Harga Komoditas Pertanian
Impor Beras
Institut Pertanian Bogor
Musim Panen
Pembangunan Pertanian
Penerapan Bioteknologi
Riset Pertanian
Tanaman Pangan
29 1 0 0 0 2 0 0 0 0 32
34 1 0 1 1 2 0 0 0 0 39
7 1 4 10 1 19 0 0 0 2 44
3 1 2 6 0 18 3 0 0 0 33
7 0 0 3 17 3 2 0 0 0 32
17 0 0 3 0 9 0 1 0 2 32
7 1 5 10 3 2 5 0 0 4 37
4 3 0 1 0 16 0 7 1 2 34
9 1 2 3 6 27 0 4 0 4 56
17 0 0 2 0 8 2 3 0 3 35