KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS
INDRA JUNIAWAN
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS
INDRA JUNIAWAN
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
ABSTRACT
INDRA JUNIAWAN. Text Document Classification with Minor Component Analysis. Under the supervision of AHMAD RIDHA.
Document classification can improve information retrieval process by decreasing the search time and increase the relevance of the results. Many classification algorithms have been developed, e.g., Naïve Bayes Classifier, Nearest Neighbor, Principal Component Analysis, and Minor Component Analysis (MCA). This research investigates the performance of MCA in classifying text documents in Bahasa Indonesia. MCA has been applied for image classification, but has not been widely used in text classification. The dataset used in this research contains 750 documents from Media Indonesia Online, consisting of five classes, i.e., economics, education, crime, environment, and badminton. This research also observes the influence of stemming and stoplist in preprocessing to the classification performance. The experiment results show that MCA achieves more 90% accuracy and the preprocessing methods do not have significant effect to the performance. Keywords: document text classification, minor component analysis. ……
Judul : Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis Nama : Indra Juniawan NRP : G64051546
Menyetujui: Pembimbing,
Ahmad Ridha, S.Kom, M.S. NIP 198005072005011001
Mengetahui: Dekan Fakultas Matematika dan Pengetahuan Alam Institut Pertanian Bogor
Dr. drh. Hasim, DEA NIP 196103281986011002
Tanggal Lulus:
i
KATA PENGANTAR
Puji Syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karuniaNya sehingga penulis dapat menyelesaikan tugas akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB. Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penyelesaian tugas akhir ini, antara lain kepada Bapak Weskoni dan Ibu Ipah Syaripah selaku kedua orang tua penulis, dan kepada Tia Lestari dan Aditya Mahendra selaku kakak penulis yang selalu memberikan motivasi, semangat, moril, serta kasih sayang yang telah diberikan. Ucapan terima kasih dan penghargaan yang setinggi-tingginya kepada Bapak Ahmad Ridha, S.Kom, M.S selaku pembimbing atas dukungan, bimbingan, serta perhatiannya kepada penulis selama penelitian berlangsung. Tidak lupa kepada semua dosen pengajar yang telah mendidik, membina, serta mengajar penulis selama menjadi mahasiswa Departemen Ilmu Komputer. Ucapan terima kasih juga penulis ucapkan kepada Adeth, Lena, Mirna, Medria, Indra, Huda, Dony, Nila, Vera, Ibu Yeni, dan seluruh rekan Ilkomerz 42 atas dukungan, kebersamaan, serta pengalaman yang tak terlupakan. Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari kesempurnaan, namun besar harapan penulis bahwa apa yang telah dikerjakan dapat memberikan manfaat bagi seluruh pihak.
Bogor, Juli 2009
Indra Juniawan
ii
RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 23 Juni 1987 sebagai anak ketiga dari Bapak Weskoni dan Ibu Ipah Syaripah. Pada tahun 2002 penulis menempuh pendidikan di SMA Negeri 2 Cianjur hingga tahun 2005. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tanggal 7 Juli 2008 penulis melaksanakan Praktik Kerja Lapangan di Direktorat Jenderal Kelautan Pesisir dan Pulau-pulau Kecil Departemen Kelautan Perikanan sampai dengan tanggal 25 Agustus 2008.
iii
DAFTAR ISI Halaman DAFTAR TABEL....................................................................................................................... vi DAFTAR GAMBAR .................................................................................................................. vi DAFTAR LAMPIRAN ............................................................................................................... vi PENDAHULUAN Latar Belakang ....................................................................................................................... 1 Tujuan .................................................................................................................................... 1 Ruang Lingkup ....................................................................................................................... 1 Manfaat Penelitian .................................................................................................................. 1 TINJAUAN PUSTAKA Klasifikasi Dokumen .............................................................................................................. 1 Minor Component Analysis (MCA)......................................................................................... 2 Algoritme MCA ..................................................................................................................... 2 Confusion Matrix.................................................................................................................... 2 K-Fold Cross Validation ......................................................................................................... 2 Uji Cochran ............................................................................................................................ 2 Tokenisasi .............................................................................................................................. 3 Stemming................................................................................................................................ 3 Stop Word .............................................................................................................................. 3 Pembobotan tf.idf.................................................................................................................... 3 Panjang Vektor ....................................................................................................................... 4 Proyeksi Vektor ...................................................................................................................... 4 METODOLOGI PENELITIAN Studi Pustaka .......................................................................................................................... 4 Pengumpulan Data.................................................................................................................. 4 Implementasi Sistem............................................................................................................... 5 Klasifikasi MCA .................................................................................................................... 5 Praproses ................................................................................................................................ 5 Perlakuan Pertama .................................................................................................................. 5 Perlakuan Kedua .................................................................................................................... 5 Perlakuan Ketiga .................................................................................................................... 5 Perlakuan Keempat ................................................................................................................. 5 Data Latih dan Data Uji .......................................................................................................... 6 Pelatihan ................................................................................................................................ 6 Klasifikasi .............................................................................................................................. 6 Akurasi .................................................................................................................................. 6 Uji Cochran ............................................................................................................................ 6 3-Fold Cross Validation ......................................................................................................... 6 Lingkungan Pengembangan .................................................................................................... 7 HASIL DAN PEMBAHASAN Praproses ................................................................................................................................ 7 Pelatihan ................................................................................................................................ 7 Perlakuan Pertama .................................................................................................................. 8 Perlakuan Kedua .................................................................................................................... 8 Perlakuan Ketiga .................................................................................................................... 8 Perlakuan Keempat ................................................................................................................. 8 Klasifikasi MCA pada Kelas Ekonomi .................................................................................... 9 Klasifikasi MCA pada Kelas Bulutangkis................................................................................ 9 Klasifikasi MCA pada Kelas Kriminal .................................................................................... 9 Klasifikasi MCA pada Kelas Lingkungan................................................................................ 9
iv
Klasifikasi MCA pada Kelas Pendidikan ................................................................................. 9 Akurasi Setiap Perlakuan ........................................................................................................ 9 3-Fold Cross Validation ....................................................................................................... 11 KESIMPULAN DAN SARAN Kesimpulan .......................................................................................................................... 11 Saran .................................................................................................................................... 11 DAFTAR PUSTAKA ................................................................................................................ 11 LAMPIRAN .............................................................................................................................. 12
v
DAFTAR TABEL Halaman 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Confusion Matrix ....................................................................................................................... 2 Data percobaan .......................................................................................................................... 3 Contoh pembobotan idf .............................................................................................................. 4 Kelas data .................................................................................................................................. 5 Jumlah term hasil praposes ......................................................................................................... 7 Perbedaan akurasi pada jumlah term yang berbeda ...................................................................... 7 Perhitungan waktu praproses ...................................................................................................... 7 Akurasi perlakuan pertama ......................................................................................................... 8 Akurasi perlakuan kedua ............................................................................................................ 8 Akurasi perlakuan ketiga ............................................................................................................ 8 Akurasi perlakuan keempat ........................................................................................................ 9 Confusion matrix perlakuan pertama ........................................................................................... 9 Confusion matrix perlakuan kedua ............................................................................................ 10 Confusion matrix perlakuan ketiga ............................................................................................ 10 Confusion matrix perlakuan keempat ........................................................................................ 10 Rekapitulasi akurasi ................................................................................................................. 10
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9
Tahap klasifikasi. ....................................................................................................................... 2 Proyeksi vektor. ......................................................................................................................... 4 Metodologi penelitian................................................................................................................. 4 Alur klasifikasi. .......................................................................................................................... 5 Ilustrasi kelas. ............................................................................................................................ 6 Akurasi kelas ekonomi. .............................................................................................................. 9 Akurasi kelas lingkungan. .......................................................................................................... 9 Akurasi kelas pendidikan. ........................................................................................................... 9 Akurasi pada setiap data set. ..................................................................................................... 11
DAFTAR LAMPIRAN Halaman 1 2 3 4
Contoh tabel perhitungan uji Cohcran ....................................................................................... 13 Contoh dokumen dalam format XML ....................................................................................... 14 Stoplist ..................................................................................................................................... 15 Contoh dokumen yang salah diklasifikasikan ............................................................................ 17
vi
PENDAHULUAN Latar Belakang World Wide Web (WWW) merupakan sebuah galeri informasi yang dapat diakses dari semua penjuru dunia. Perkembangan dunia informasi dan teknologi yang sangat pesat memungkinkan ketersedian data melimpah. Pada akhir pertengahan tahun 1996 WWW mempunyai sekitar 60 juta dokumen dalam 12 juta host dan 600.000 server, padahal pada awal tahun 1996 hanya terdapat sekitar 9 juta host dan 250.000 server (Li 1998). Pertumbuhan Internet yang cepat ini akan menyulitkan pengguna untuk mendapatkan informasi yang relevan dan cepat karena data yang sangat melimpah. Semakin besar data yang ada, semakin lama waktu yang dibutuhkan untuk mencari suatu informasi yang diinginkan. Hal tersebut akan mengarah pada pengembangan alat yang tepat untuk membantu dalam pencarian informasi untuk pengguna. Seperti halnya sebuah mesin pencari di Internet yang telah banyak berkembang seperti Google, Yahoo, Altavista, Bing, dan lainnya. Mesin pencari tersebut tidak jarang memberikan hasil yang tidak relevan dengan kebutuhan pengguna. Oleh karena itu, diperlukan sebuah algoritme klasifikasi dokumen agar lingkup pencarian dapat dipersempit sehingga hanya dokumen yang sejenis yang akan ditampilkan dalam hasil pencarian. Tanpa adanya klasifikasi dokumen, proses pencarian data akan memerlukan pencarian ke semua dokumen yang ada, sehingga memakan banyak waktu dan memberikan peluang hasil temu kembali yang terlalu melebar. Sangatlah penting untuk bisa mengklasifikasi dokumen. Namun, untuk mengklasifikasi dokumen dengan jumlah yang sangat banyak membutuhkan biaya dan waktu yang lama. Untuk itu pengembangan algoritme untuk klasifikasi dokumen menggunakan bantuan komputer pun semakin dikembangkan. Beberapa penelitian terkait klasifikasi dokumen telah banyak dilakukan. Beberapa algoritme dikembangkan dan diterapkan dalam klasifikasi dokumen di antaranya Naïve Bayes Classifier, Nearest Neighbour, Clustering, Principal Component Analysis, dan Minor Component Analysis (MCA). Beberapa penelitian tersebut tidak hanya melakukan klasifikasi pada dokumen melainkan beberapa diimplementasikan juga pada citra contohnya pada penerapan klasifikasi citra menggunakan MCA dalam sistem content
based image retrieval (CBIR) (Jankovic 2006). Berdasarkan penelitian Marko Jancovic pada tahun 2006, didapatkan hasil penelitian bahwa penerapan MCA pada klasifikasi citra dapat mempercepat waktu pencarian dan efisien dalam kalsifikasi citra. Penelitian ini, mencoba menerapkan MCA dalam klasifikasi dokumen berita berbahasa Indonesia. Tujuan Tujuan dari penelitian ini adalah untuk mengimplementasikan dan menganalisis kinerja MCA dalam klasifikasi dokumen berita digital berbahasa Indonesia. Penelitian ini juga bertujuan menganalisis pengaruh perlakuan praproses pada hasil akurasi klasifikasi. Ruang Lingkup Ruang lingkup penelitian ini meliputi: 1.
Penelitian ini difokuskan kepada klasifikasi dokumen menggunakan MCA pada korpus berita digital berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.
Manfaat Penelitian Penelitian ini diharapkan dapat membentuk suatu model klasifikasi untuk klasifikasi dokumen berita berbahasa Indonesia yang memiliki tingkat akurasi yang baik. TINJAUAN PUSTAKA Klasifikasi Dokumen Klasifikasi merupakan sebuah model yang terbentuk unuk memprediksi suatu kategori. Kategori yang dimaksud dapat berupa nilai diskret yang tidak memiliki hierarki. Klasifikasi memiliki dua tahap proses, tahap pembelajaran dan tahap klasifikasi seperti yang ditunjukkan pada Gambar 1. Pada tahap pertama, algoritme klasifikasi membentuk model klasifikasi dengan menganalisis data latih. Tahap ini disebut juga sebagai supervised learning karena setiap data latih telah memiliki label kelas masing-masing. Tahap ini pun dapat dilihat sebagai pemetaan sebuah fungsi y=f(x), menentukan label kelas y dari data x dengan fungsi pemetaan f. Tahap kedua adalah menentukan kelas untuk data uji dengan melihat model klasifikasi yang terbentuk (Han & Kamber 2005).
merupakan dekomposisi nilai eigen. Secara umum untuk mendapatkan komponen minor w ke-i dari vn adalah
(Chen & Amari 2001). Confusion Matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005). Gambar 1 Tahap klasifikasi.
Tabel 1 Confusion Matrix
Minor Component Analysis (MCA) Minor Component merupakan arah dari data, di mana data memiliki nilai ragam terkecil. MCA adalah metode statistika yang digunakan untuk mengambil komponenkomponen minor dari sebuah data. MCA merupakan alat yang baik untuk digunakan pemrosesan sinyal dan analisis data (Pheng & Yi 2006). Menurut Moeller dan Konies (2003), MCA adalah salah suatu metode untuk menentukan arah dari ragam minimal pada suatu data. Pada principal component analysis arah data yang diambil merupakan arah dari data dengan nilai ragam data yang maksimum sedangkan MCA mengambil arah dari ragam data yang minimum. Algoritme MCA Terdapat sebuah single linear neuron dengan relasi input dan output sebagai berikut:
y(k)= neuron output, rangkaian input {x(k) | x(k) ª R n (k=0,1,2,…)} memiliki rataan 0. Dan w(k) ª Rn (k=0,1,2,…) merupakan bobot vektor dari neuron. Target MCA adalah mendapatkan komponen minor dari data input dengan melakukan update bobot w(k) secara adaptive. Bila R = x(k)xT(k) adalah matriks autokorelasi dari input x(k). R akan memiliki nilai eigen yang terurut ë1> ë2> …> ën ≥ 0 dengan eigen vektor yang bersesuaian v1, v2, …, vn. maka
Predicted Class
Actual Class
Class=1
Class = 0
Class=1
F 11
F 10
Class=0
F 01
F 00
Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah sebagai berikut:
K-Fold Cross Validation Dalam k-fold cross validation data akan dibagi ke dalam k buah partisi dengan ukuran yang sama D1, D2, D3,…, Dk. Pelatihan dan pengujian dilakukan sebanyak k kali. Dalam iterasi ke-i, partisi Di akan menjadi data uji, selainnya menjadi data latih. Pada iterasi pertama, D1 akan menjadi data uji, D2, D3, ..., Dk akan menjadi data latih. Selanjutnya iterasi ke-2, D2 akan menjadi data uji, D1, D3, …, Dk menjadi data latih, dan seterusnya (Han & Kamber 2005). Uji Cochran Uji Cochran merupakan uji statistik yang bersifat non-parametrik. Uji Cohran ini dapat diterapkan untuk menguji hasil tiga sampel atau lebih dengan catatan reaksi (hasil) terhadap suatu perlakuan bersifat nominal (kategori), hasil hanya dinyatakan dalam dua buah nilai yaitu 0 dan 1 (Santoso 2004). Ilustrasi data yang dapat digunakan dapat dilihat pada Tabel 2.
2
Tabel 2 Data percobaan
merupakan turunan dari token dengan tahaptahap normalisasi sebelumnya.
Perlakuan
Perco baan
1
2
…
c
1
X11
X12
…
X1c
R1
2
X21
X22
…
X2c
R2
…
…
…
…
…
…
r
Xr1
Xr2
…
Xrc
Rr
C1
C2
…
Cc
N
Keterangan: r
= banyaknya perulangan percobaan.
c
= banyaknya perlakuan.
Xij = hasil percobaan bernilai {1,0}. Ci = Xic. N = Ci.
Ri = Ci.
Statistik hitung menggunakan rumus:
untuk
uji
Cochran
൫ܿሺܿ െ ͳሻ σୀଵ ܿଶ ൯ െ ൫ሺܿ െ ͳሻܰ ଶ ൯ ܳൌ Ǥ ܿܰ െ σୀଵ ܴଶ
Hipotesis yang digunakan adalah:
H0 = Semua perlakuan efektivitas yang sama.
mempunyai
H1 = Terdapat perbedaan efektivitas antarperlakuan.
Kriteria uji:
Terima H0 jika nilai Q lebih kecil dari ɖଶଵିఈȀଶǢିଵ . Tolak H0 jika nilai Q lebih besar dari ɖଶଵିఈȀଶǢିଵ .
Contoh perhitungan dengan uji Cochran dapat dilihat pada Lampiran 1. Tokenisasi Tokenisasi merupakan tahap memotongmotong kalimat atau teks menjadi bagianbagian yang lebih kecil yaitu token. Token sering kali didefinisikan sebagai sebuah term atau kata, namun terkadang token lebih baik bila dibedakan dengan hal tersebut. Token merupakan sebuah rangkaian karakter dalam dokumen yang dikelompokkan sebagai sebuah unit semantik yang berguna dalam pemrosesan teks (Manning 2008). Term biasanya
Contohnya bila sebuah kalimat yang akan diindeks adalah “aku dan dia akan pergi”. Hasil tokenisasi ada 5 buah token, yaitu “aku”, ”dan”, “dia”, “akan”, “pergi”, sedangkan term hanya ada tiga buah bila diterapkan pembuangan stop word, kata “akan” dan “dan” akan dibuang karena termasuk ke dalam daftar stoplist. Stemming Sebuah kata dapat memiliki bentuk yang berbeda-beda tergantung konteks pemakaian kata tersebut dalam suatu kalimat, seperti kata mencari, dicari, dan carilah. Kata-kata tersebut pada dasarnya memiliki arti yang sama, namun bila diindeks, kata-kata tersebut akan dianggap memiliki arti yang berbeda. Stemming merupakan proses kasar dalam memotong suatu kata untuk membentuknya menjadi kata dasar dan untuk mengurangi kata-kata yang berinfleksi yaitu kata jamak dan tunggal (Manning 2008). Stop Word Terkadang kata-kata yang sering muncul dan umum merupakan kata-kata yang kurang bermakna bila dijadikan penciri sebuah dokumen, kata-kata tersebut akan dibuang dari himpunan kata yang akan diindeks nantinya. Kata-kata tersebut merupakan kata-kata yang termasuk dalam stop word (Manning 2008). Kata-kata yang akan dibuang tersebut akan disimpan dalam sebuah daftar kata yang disebut stoplist. Stoplist akan berbeda-beda tergantung bahasa yang digunakan. Dalam konteks bahasa Indonesia, beberapa kata yang termasuk dalam stoplist di antaranya adalah kata tugas seperti ‘yang’, ‘hingga’, dan ‘dengan’. Pembobotan tf.idf Pembobotan tf.idf merupakan gabungan dari pembobotan term frequency (tf) dengan pembobotan inverse document frequency (idf). Pembobotan tf didasarkan pada jumlah kemunculan term dalam sebuah dokumen. Skor sebuah term adalah frekuensi kemunculan term tersebut dalam dokumen. Idf merupakan pembobotan log N/df, dengan df adalah banyaknya dokumen dalam koleksi N yang mengandung term t. Ilustrasi pembobotan idf dapat dilihat pada Tabel 3.
3
Tabel 3 Contoh pembobotan idf Term
Df
METODOLOGI PENELITIAN Idf
Mobil
25 125
1,5
Auto
6 700
2,08
18 165
1,62
Asuransi
Penelitian ini dilakukan dalam beberapa tahap seperti yang digambarkan pada Gambar 3. Secara garis besar tahapannya adalah studi pustaka, pengadaan data, implementasi sistem, praproses data, pelatihan, klasifikasi, uji Cochran, dan 3-fold cross validation.
Pembobotan tf.idf didapatkan dengan mengalikan tf dengan idf. Pada Tabel 3 terlihat bahwa skor tinggi akan muncul bila term muncul dalam sedikit dokumen dan akan semakin kecil bila term semakin sering muncul dalam dokumen (Manning 2008). Pembobotan terbaik saat ini untuk klasifikasi dokumen teks adalah pembobotan tf.rf yaitu salah satu pembobotan supervised learning yang baru dikembangkan pada tahun 2007. Namun, pembobotan tf.rf rumit untuk digunakan. Pembobotan tf.idf memiliki kinerja di atas pembobotan tf dan mendekati tf.rf (Lan et al 2007). Panjang Vektor Panjang vektor (vector norm) suatu vektor C=[x1,x2,…,xn] dapat dihitung sebagai panjang dari sembarang segmen garis berarah (Leon 2001). Panjang segmen garis dari [0,0,…,0] ke [x1,x2,…,xn] adalah:
Proyeksi Vektor Proyeksi sebuah vektor A terhadap vektor B adalah membentuk sebuah vektor C yang memiliki arah atau kemiringan yang sama dengan vektor B dan memiliki panjang |C| = A cos è (è merupakan sudut apit antara vektor A dan vektor B). Vektor C merupakan proyeksi vektor A terhadap vektor B, maka vektor C dikatakan sebagai suatu transformasi linear (Leon 2001). Ilustrasi proyeksi vektor A terhadap vektor B dapat dilihat pada Gambar 2. Untuk menghitung vektor C hasil proyeksi A terhadap B dapat digunakan rumus .
Gambar 2 Proyeksi vektor.
Gambar 3 Metodologi penelitian. Studi Pustaka Pada tahap ini dilakukan pengumpulan informasi tentang klasifikasi dokumen menggunakan MCA. Literatur yang digunakan berupa buku, jurnal, dan artikel-artikel dari Internet. Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data berita digital sebanyak 750 dokumen yang bersumber dari Media Indonesia Online. Klasifikasi dokumen menggunakan klasifikasi secara manual oleh Media Indonesia. Data tersebut diklasifikasikan menjadi lima kelas dokumen berita, yaitu kelas pendidikan, ekonomi, lingkungan, bulutangkis, dan kriminal dengan masing-masing anggota setiap kelas berjumlah 150 dokumen. Setiap kelas dokumen diambil dalam rentang waktu terbitan yang
4
berbeda, Tabel 4 menunjukkan perbedaan rentang waktu pengambilan dokumen. Tabel 4 Kelas data Kelas Pendidikan Ekonomi
Terbitan 25 Januari 2009 – 25 Maret 2009 7 Mei 2009 – 31 Mei 2009
Lingkungan
21 Februari 2009 – 23 April 2009
Bulutangkis
15 November 2008 – 26 April 2009
Kriminal
24 April 2009 – 1 Mei 2009
Setiap dokumen direpresentasikan dalam format XML dengan bentuk sebagai berikut:
Stoplist yang digunakan dalam penelitian ini terdiri atas 263 kata yang diambil dari penelitian Ridha (2002), stoplist dapat dilihat pada Lampiran 3. Stemmer yang digunakan dalam penelitian ini menggunakan algoritme stemming untuk berbahasa Indonesia yang telah dikembangkan dengan mengikuti aturan tata bahasa Indonesia serta penambahan teknik pengecekan kamus (Adisantoso & Haryo 2009). Perlakuan Pertama Pada tahap ini semua teks dalam setiap dokumen dipilah menjadi sekumpulan token. Token hanya dimulai oleh huruf dengan batas minimal terdiri dari 3 karakter. Pemisah kata yang digunakan adalah white space, koma (,), titik (.), dan titik dua (:).
… <TITLE> …
… … … . Contoh dokumen dalam format XML dapat dilihat pada Lampiran 2. Implementasi Sistem Implementasi sistem terbagi menjadi dua, yaitu implementasi praproses dan implementasi klasifikasi MCA. Implementasi praproses meliputi pembuatan modul untuk tokenisasi dan pembuangan stop word dengan menggunakan bahasa PHP, implementasi klasifikasi MCA menggunakan perangkat lunak MATLAB 7.0.1.
Gambar 4 Alur klasifikasi. Perlakuan Kedua
Klasifikasi MCA
Pada perlakuan kedua akan dilakukan pembuangan stop word. Semua kata-kata yang akan dibuang didaftarkan dalam daftar stoplist.
Tahapan ini meliputi tiga tahap utama yaitu praproses, pelatihan, dan klasifikasi. Alur klasifikasi MCA dapat dilihat pada Gambar 4.
Perlakuan Ketiga
Praproses Setelah data terkumpul, dilakukan praproses data dengan empat perlakuan, meliputi parsing, pembuangan stop word, stemming serta pembuangan stop word dan stemming. Pembobotan dokumen menggunakan pembobotan tf.idf. Sebelum dilakukan empat perlakuan tersebut, semua isi dokumen diubah dalam lower case.
Pada perlakuan ketiga dilakukan proses stemming. Pada perlakuan ini tidak ada pembuangan kata-kata yang terdaftar dalam stoplist. Perlakuan Keempat Perlakuan terakhir merupakan penggabungan dari perlakuan kedua dan ketiga yaitu hanya kata-kata di luar daftar stoplist yang akan di-stemm.
5
Dalam penelitian ini jumlah token yang digunakan sebagai penciri dibatasi sebanyak n buah token dengan frekuensi tertinggi. Hasil dari praproses ini setiap dokumen akan direpresentasikan dalam bentuk vektor, yaitu setiap dokumen berbentuk vektor kolom dengan baris berisi bobot dari term (wi). Setiap kelas direpresentasikan dengan menggabungkan setiap vektor kolom anggota kelas tersebut membentuk vektor kelas, dapat divisualisasikan pada Gambar 5.
Klasifikasi Proses klasifikasi dilakukan dengan cara menghitung vektor proyeksi dari vektor dokumen terhadap setiap vektor kelas yang ada. Setelah itu norm dari vektor–vektor proyeksi tersebut dihitung. Vektor proyeksi yang memiliki norm terkecil menunjukkan kelas dari dokumen tersebut. Berikut adalah algoritme klasifikasi yang digunakan: 1.
Proyeksikan vektor dokumen ke dalam setiap vektor kelas.
2.
Hitung nilai norm dari setiap vektor proyeksi yang dihasilkan.
3.
Urutkan nilai norm yang didapatkan.
4.
Nilai norm terkecil menunjukkan kelas dari dokumen tersebut.
Akurasi Untuk menghitung tingkat akurasi hasil klasifikasi yang terbentuk digunakan confusion matrix. Dari confusion matrix perhitungan akurasi diperoleh dengan membandingkan antara jumlah data uji yang diklasifikasikan benar dengan total data uji. Rumus yang digunakan adalah: . Uji Cochran
Gambar 5 Ilustrasi kelas. Data Latih dan Data Uji Setelah data terkumpul, data tersebut dibagi ke dalam data latih dan data uji dengan proporsi data latih lebih banyak dari data uji. Dari setiap kelas, masing-masing 100 dokumen menjadi data latih dan 50 dokumen akan menjadi data uji, sehingga total data latih sebanyak 500 dokumen dan 250 dokumen menjadi data uji.
Uji Cochran dilakukan untuk mengetahui beda nyata akurasi antar empat buah perlakuan praproses. Perlakuan tersebut meliputi tokenisasi, pembuangan stop word, stemming, serta pembuangan stop word dan stemming. Dalam uji Cochran ini hipotesis yang digunakan adalah sebagai berikut: H0: Keempat perlakuan memberikan hasil akurasi yang sama. H1: Keempat perlakuan berbeda akurasi klasifikasi.
hal
Taraf nyata á/2 = 0,05.
Pelatihan Pada tahap pelatihan, masing-masing kelas dokumen dari data latih akan dihitung komponen minornya dengan menggunakan algoritme MCA, hasilnya berupa sebuah vektor baris MCA. Dengan demikian akan terdapat lima buah vektor kolom untuk merepresentasikan nilai komponen minor masing-masing kelas.
dalam
. Hipotesis H0 akan ditolak jika Q lebih besar dari . 3-Fold Cross Validation Proses 3-fold cross validation dilakukan untuk menguji akurasi algoritme dengan data latih yang berbeda. Data akan dibagi menjadi
6
tiga buah subset, s1, s2, dan s3. Pengulangan akan dilakukan sebanyak tiga kali, pada setiap ulangan satu buah subset akan menjadi data uji, dan sisanya menjadi data latih. Pada iterasi pertama, subset s1 akan menjadi data uji, s2 dan s3 akan menjadi data latih. Selanjutnya iterasi ke-2, s2 akan menjadi data uji, s1 dan s3 menjadi data latih, dan seterusnya.
Tabel 6 Perbedaan akurasi pada jumlah term yang berbeda
Lingkungan Pengembangan Lingkungan pengembangan yang digunakan adalah sebagai berikut:
Perangkat lunak:
Jumlah Term
Akurasi perlakuan ke- (%) 1
2
3
4
Windows XP Professional
600
93,6
94,0
93,2
94,0
MATLAB 7.0.1
800
95,2
95,2
96,4
96,0
1000
94,4
96,0
97,2
97,2
1200
96,4
96,8
97,6
97,6
1400
96,8
97,2
97,6
97,6
XAMPP 1.6.7
Perangkat keras:
Sebelum melanjutkan ke proses selanjutnya, akan dilakukan beberapa percobaan untuk menentukan jumlah term yang akan digunakan, dengan pertimbangan akurasi dan efisiensi waktu pelatihan. Perbandingan akurasi beberapa percobaan dengan jumlah term yang berbeda dan perlakuan yang diberikan adalah perlakuan keempat dapat dilihat pada Tabel 6.
Prosesor Intel Core 2 Duo E6300 (1.68 GHz) 2048 MByte RAM.
HASIL DAN PEMBAHASAN Praproses Dari empat buah perlakuan praproses, akan dihasilkan kumpulan term unik yang berbeda. Jumlah term tersebut dihasilkan dari 750 koleksi dokumen. Hasil praproses data tersebut dapat dilihat pada Tabel 5. Tabel 5 Jumlah term unik hasil praposes Perlakuan
Jumlah term
Pertama
14145
Kedua
13932
Ketiga
10149
Keempat
10046
Terlihat dari Tabel 5 bahwa jumlah term yang dihasilkan setiap perlakuan memiliki jumlah yang berbeda dan jumlah semakin menurun. Penurunan jumlah term dikarenakan pada tahap perlakuan kedua kata-kata yang termasuk ke dalam daftar stoplist akan dibuang. Pada perlakuan ketiga terjadi penurunan jumlah term karena kata dibentuk menjadi kata dasar, sehingga kata-kata yang unik akan berkurang. Namun jumlah term yang banyak tidak akan efisien bila semua term dijadikan penciri dokumen, maka tidak semua term akan dijadikan sebagai penciri dokumen.
Dari Tabel 6 terlihat bahwa pada jumlah term 1200 dan 1400 tidak terdapat banyak perubahan akurasi. Hal ini menunjukkan bahwa 1200 term sudah cukup baik untuk pelatihan. Dengan demikian, untuk pertimbangan efisiensi, jumlah term yang digunakan sebagai penciri adalah sebanyak 1200 term. Ukuran vektor untuk setiap dokumen yang terbentuk adalah ͳʹͲͲͳݔǤ Setiap perlakuan praproses memerlukan waktu eksekusi yang berbeda. Tabel 7 menunjukkan perbedaan rataan waktu yang diperlukan untuk tahap praproses. Perhitungan waktu praproses didapatkan dari rataan tiga kali percobaan. Tabel 7 Perhitungan waktu praproses Ulangan kePerlakuan
Rataan waktu (s)
1
2
3
314
276
305
298,33
Kedua
2617
2395
2623
2 545,00
Ketiga
8791
8706
8718
8738,33
10596
9543
10207
10115,33
Pertama
Keempat Pelatihan
Pada tahap pelatihan ini vektor data latih akan menjadi input untuk algoritme MCA yang
7
akan menghasilkan komponen minor untuk setiap kelas.
w(i) adalah pembobotan MCA.
Pada perlakuan kedua terdapat kenaikan akurasi untuk kelas lingkungan sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan kedua dapat dilihat pada Tabel 9. Jumlah stop word yang digunakan adalah sebanyak 263 kata. Kelas bulutangkis dan kriminal tetap memiliki akurasi 100%.
ߟ adalah laju pembelajaran.
Tabel 9 Akurasi perlakuan kedua
Beberapa variabel yang digunakan dalam algoritme ini adalah:
Perlakuan Kedua
R adalah matriks autokorelasi, dengan R=E[x(k)xT(k)].
Ukuran vektor data latih setiap kelas adalah 100 x 1200, sehingga ukuran vektor R adalah 1200 x 1200. Pembobotan awal yang digunakan adalah w(0)= {0.1 0.1… 0.1} berukuran 1200 x 1. Komponen minor pertama (w(k)) setiap kelas diperoleh dengan menggunakan rumus: ݓሺ݇ ͳሻ ൌ ்ሺ
ݓሺ݇ ሻ െ ߟ ሾܴሺ݇ ሻ ݓሺ݇ሻ ݇ ݓሻ ݓሺ݇ሻ െ ݓሺ݇ ሻ ் ݓሺ݇ሻܴ ሺ݇ ሻݓሺ݇ሻሿ
dengan nilai ߟ ൌ ͲǤͲͲͳ. Proses pembobotan akan dilakukan berulang-ulang sampai bobot konvergen pada suatu nilai. Pada penelitian ini komponen minor yang digunakan hanya komponen minor pertama karena algoritme yang digunakan masih memiliki kelemahan yaitu untuk beberapa kasus tidak mampu mengambil komponen minor kedua (Pheng & Zhang 2006). Perlakuan Pertama Pada perlakuan pertama, term yang diambil merupakan 1200 term pertama dengan tingkat frekuensi tertinggi. Pada perlakuan ini hasil klasifikasi pada tiap kelas sudah menunjukkan nilai akurasi yang tinggi, nilai akurasi minimal adalah 92% dan maksimal 100%. Akurasi klasifikasi tiap kelas dengan perlakuan pertama dapat dilihat pada Tabel 8. Terdapat dua kelas yang tepat diklasifikasikan dengan akurasi 100% yaitu kelas bulutangkis dan kelas kriminal. Tabel 8 Akurasi perlakuan pertama Kelas
Hasil Klasifikasi
Akurasi Klasifikasi
Benar
Salah
Ekonomi
46
4
92%
Bulutangkis
50
0
100%
Kriminal
50
0
100%
Lingkungan
46
4
92%
Pendidikan
49
1
98%
Hasil Klasifikasi
Kelas
Akurasi Klasifikasi
Benar
Salah
Ekonomi
46
4
92%
Bulutangkis
50
0
100%
Kriminal
50
0
100%
Lingkungan
47
3
94%
Pendidikan
49
1
98%
Perlakuan Ketiga Pada perlakuan ketiga terdapat kenaikan akurasi masing-masing sebesar 2% pada kelas ekonomi dan kelas pendidikan. Rentang akurasi mengalami kenaikan, akurasi minimal pada perlakuan ketiga menjadi 94% dan kelas yang tepat diklasifikasikan menjadi 3 kelas yaitu kelas bulutangkis, kriminal, dan kelas pendidikan. Akurasi klasifikasi tiap kelas dengan perlakuan ketiga dapat dilihat pada Tabel 10. Tabel 10 Akurasi perlakuan ketiga Kelas
Hasil Klasifikasi
Akurasi Klasifikasi
Benar
Salah
Ekonomi
47
3
94%
Bulutangkis
50
0
100%
Kriminal
50
0
100%
Lingkungan
47
3
94%
Pendidikan
50
0
100%
Perlakuan Keempat Pada perlakuan keempat, terdapat penurunan akurasi dari perlakuan sebelumnya yaitu pada kelas ekonomi, penurunan sebesar 2%, namun pada kelas lingkungan terdapat kenaikan akurasi sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan keempat dapat dilihat
8
pada Tabel 11. Contoh dokumen yang salah diklasifikasikan dapat dilihat pada Lampiran 4. Tabel 11 Akurasi perlakuan keempat Hasil Klasifikasi Benar Salah
Kelas
Akurasi Klasifikasi
Ekonomi
46
4
92%
Bulutangkis
50
0
100%
Kriminal
50
0
100%
Lingkungan
48
2
96%
Pendidikan
50
0
100%
Klasifikasi MCA pada Kelas Ekonomi Pada kelas ekonomi, akurasi terbaik terdapat di perlakuan ketiga. Perlakuan pertama, kedua, dan keempat mempunyai nilai akurasi yang sama yaitu 92%. Perubahan perlakuan tidak menunjukkan perubahan signifikan pada kelas ekonomi. Perubahan akurasi pada setiap perlakuan dapat dilihat pada Gambar 6. 100 95 90 85 (%) 80 75 70 65
92
92
94
keempat dengan nilai akurasi sebesar 96% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi pada setiap perlakuan dapat dilihat pada Gambar 7. Klasifikasi MCA pada Kelas Pendidikan Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan seperti yang terjadi pada kelas lingkungan. Akurasi terbaik terdapat di perlakuan ketiga dan keempat dengan nilai akurasi sebesar 100% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi kelas pendidikan pada setiap perlakuan dapat dilihat pada Gambar 8. 100 95 90 85 (%) 80 75 70 65
94
92
96
94
92 Gambar 7 Akurasi kelas lingkungan. 105 95
(%)
100
98
92
100
85 75 65
Gambar 6 Akurasi kelas ekonomi. Klasifikasi MCA pada Kelas Bulutangkis Pada kelas bulutangkis, semua perlakuan memberikan akurasi sempurna yaitu 100%. Hal ini dikarenakan pada kelas bulutangkis katakata yang digunakan spesifik, pada umumnya kata-kata yang digunakan pada kelas ini tidak digunakan pada kelas lainnya. Klasifikasi MCA pada Kelas Kriminal Pada kelas kriminal, seperti halnya pada kelas bulutangkis, kata-kata yang digunakan dalam kelas ini spesifik sehingga semua perlakuan memberikan akurasi 100%.
Gambar 8 Akurasi kelas pendidikan. Akurasi Setiap Perlakuan Akurasi perlakuan pertama secara keseluruhan dari algortime MCA dihitung dengan menggunakan bantuan tabel confusion matrix dapat dilihat pada Tabel 12. Tabel 12 Confusion matrix perlakuan pertama Kelas Prediksi 1
2
3
4
5
1
46
0
0
4
0
2
0
50
0
0
0
Klasifikasi MCA pada Kelas Lingkungan Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan. Akurasi terbaik terdapat di perlakuan
Kelas Aktual
9
Tabel 12 Lanjutan
Akurasi perlakuan keempat secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 15.
Kelas Prediksi
Kelas Aktual
1
2
3
4
5
3
0
0
50
0
0
4
3
0
0
46
1
5
0
0
0
1
49
Akurasi perlakuan ଶସଵ ݅ݏܽݎݑ݇ܣൌ ଶହ
pertama
Tabel 15 Confusion matrix perlakuan keempat Kelas Prediksi
adalah: Kelas Aktual
= 96,4%. Akurasi perlakuan kedua secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 13. Tabel 13 Confusion matrix perlakuan kedua
1
2 0
3 0
4 4
5 0
2
0
50
0
0
0
3
0
0
50
0
0
4
2
0
0
47
1
5
0
0
0
1
49
kedua
3
4
5
1
46
0
0
3
1
2
0
50
0
0
0
3
0
0
50
0
0
4
1
0
0
48
1
5
0
0
0
0
50
keempat
adalah:
ଶହ
= 97,6%.
1 46
Akurasi perlakuan ଶସଶ ݅ݏܽݎݑ݇ܣൌ ଶହ
2
Akurasi perlakuan ଶସସ ݅ݏܽݎݑ݇ܣൌ
Kelas Prediksi
Kelas Aktual
1
adalah:
= 96,8%.
Terdapat perbedaan akurasi yang tidak terlalu signifikan, rekapitulasi perhitungan akurasi setiap perlakuan dapat dilihat pada Tabel 16. Tabel 16 Rekapitulasi akurasi Akurasi Perlakuan ke-
1 96,4%
2
3
4
96,8%
97,6%
97,6%
Untuk membuktikan beda nyata antar perlakuan, dilakukan uji Cochran dengan hipotesis:
Akurasi perlakuan ketiga secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 14.
H0: Keempat perlakuan memberikan hasil akurasi yang identik.
Tabel 14 Confusion matrix perlakuan ketiga
H1: Keempat perlakuan berbeda akurasi klasifikasi.
Kelas Prediksi
Kelas Aktual
1
1 47
2 0
3 0
4 2
5 1
2
0
50
0
0
0
3
0
0
50
0
0
4
2
0
0
47
1
5
0
0
0
0
50
Akurasi perlakuan ଶସସ ݅ݏܽݎݑ݇ܣൌ ଶହ
= 97,6%.
ketiga
adalah:
ܳൌ
dalam
hal
ሺସሺସିଵሻሺଶଷହଵሻሻିቀሺସିଵሻଽଵమ ቁ ସൈଽଵିଷ଼ହଽ
Hipotesis H0 akan ditolak jika Q lebih besar ଶ dari atau sama dengan ɖଵିఈȀଶǢିଵ . Didapatkan dari perhitungan nilai Q = 3.24 dan dari tabel ଶ ɖଶ diperoleh ɖଵିఈȀଶǢିଵ ൌ Ǥͺͳͷ, maka dapat diambil kesimpulan Q lebih kecil dari ଶ ɖଵିఈȀଶǢିଵ sehingga H0 tidak dapat ditolak. Dengan demikian, keempat perlakuan memberikan hasil akurasi yang identik. Dengan demikian, keempat perlakuan praproses tidak memberikan pengaruh yang signifikan terhadap klasifikasi oleh MCA.
10
100 95 90 85 (%) 80 75 70 65
96.4
96.8 96.8 96.8
96
97.2 97.6 97.2 97.6 97.6 97.6 97.6
2.
Penggunaan data yang lebih besar dan jumlah kelas yang lebih banyak untuk melihat konsistensi efektivitas MCA.
DAFTAR PUSTAKA Adisantoso J, Haryo A. 2009. Stemmer Bahasa Indonesia dengan Kamus. Bogor: Departemen Ilmu Komputer.
Ulangan-1
Ulangan-2
Ulangan-3
Gambar 9 Akurasi pada setiap data set. 3-Fold Cross Validation Hasil perhitungan akurasi tiap perlakuan dengan data set yang berbeda menunjukkan tidak terdapat perubahan akurasi yang signifikan antar-data set yang berbeda. Grafik pada Gambar 9 menunjukkan nilai akurasi yang tidak jauh berbeda dengan subset yang berlainan. Hal ini menunjukkan bahwa algoritme tahan terhadap perubahan data set.
Chen TP, Amari S, Murata N. 2001. Sequential Extraction of Minor Components. Neural Processing Letters 13. 195-201. Han J, Kamber M. 2006. Data Mining Concepts and Techniques. San Fransisco: Morgan Kaufman Publisher. Jankovic M et al. 2006. Minor Component Analysis (MCA) Applied to Image Classification in CBIR Systems. IEEE Transactions on Neural Network 6. Lan M, Tan CL, Su J. 2007. Supervised and Traditional Methods for Automatic Text Categorization. IEEE PAMI Vol.10(10). Leon S J. 1999. Aljabar Linier dan Aplikasinya. Jakarta: Penerbit Erlangga. Li Y H, Jain A K. 2006. Classification of Text Documents. The Computer Journal. Vol.41(2):537-546.
KESIMPULAN DAN SARAN Kesimpulan Dari penelitian dalam menerapkan algoritme MCA untuk klasifikasi dokumen berita, didapatkan kesimpulan sebagai berikut:
Manning C. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Moller R, Konies A. 2003. Couple Principle Component Analysis Algorithm. IEEE Transaction on Neural Network 3.
1.
Penerapan klasifikasi MCA untuk dokumen teks berhasil dilakukan.
2.
Akurasi dari model terbentuk di atas 90%.
3.
Algoritme tahan terhadap perubahan data set.
Peng D, Yi Z. 2006. A New Algorithm for Sequential Minor Component Analysis. International Journal of Computational Intelligence Research. Vol.2(2): 207-208.
4.
Perbedaan perlakuan pada praproses tidak memberikan pengaruh yang signifikan terhadap hasil akurasi klasifikasi oleh MCA.
Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.
klasifikasi
yang
Saran Saran-saran yang diberikan untuk pengembangan lebih lanjut adalah sebagai berikut: 1.
Penggunaan algoritme MCA yang mampu mengambil lebih dari satu komponen minor.
Santoso S. 2003. Mengatasi Berbagai Masalah Statistik dengan SPSS 11. Jakarta: PT Media Elex Komputindo Tan P, Michael S, Vipin K. 2005. Introduction to Data Mining. Boston: Pearson Education, Inc.
11
kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk
LAMPIRAN
Lampiran 1 Contoh tabel perhitungan uji Cohcran Perlakuan Mesin A
Mesin B
Mesin C
Jumlah nilai baris (R i)
1
0
0
1
1
2
0
1
0
1
3
1
1
0
2
4
1
1
1
3
5
1
0
0
1
6
0
0
1
1
7
0
1
1
2
8
0
0
0
0
C1= 3
C2= 3
C3 = 4
N=10
Pekerja
Hipotesis: H0: Ketiga mesin memberikan kinerja yang sama. H1: Ketiga mesin mempunyai kinerja yang berbeda. Keterangan: Q = statistik hitung uji Cochran c = banyaknya perlakuan Ri = jumlah nilai baris ke-i N = Ci ܳൌ ൌ ൌ
൫ܿሺܿ െ ͳሻ σୀଵ ܿଶ ൯ െ ൫ሺܿ െ ͳሻܰ ଶ ൯ ܿܰ െ σ ୀଵ ܴଶ
൫͵ሺ͵ െ ͳሻ σୀଵ ܿଶ ൯ െ ൫ሺ͵ െ ͳሻͳͲଶ ൯ ͵ሺͳͲሻ െ σ ୀଵ ܴଶ ሺ͵ ሺ͵ െ ͳሻሺ͵Ͷሻሻ െ ൫ሺ͵ െ ͳሻͳͲଶ ൯ ͵ሺͳͲሻ െ ʹͳ
ൌ ͲǡͶͶͶͶ.
Didapatkan nilai statistik tabel sebesar 5,991 dengan á/2= 5%, karena nilai statistik hitung Q (0,444) lebih kecil dari statistik Tabel Khi (5,991), maka hipotesis H0 diterima, atau ketiga mesin memberikan kinerja yang sama.
13
Lampiran 2 Contoh dokumen dalam format XML Bulu_tangkis_Nov_3 <TITLE>Jenderal Djoko Santoso Jadi Ketua Umum PB PBSI 15 November 2008 Panglima TNI Jenderal Djoko Santoso terpilih menjadi Ketua Umum PB PBSI periode 2008-2012 secara aklamasi. Pernyataan tersebut disampaikan ketua pimpinan sidang Paris Yusuf dalam Musyawarah Nasional (Munas) PBB PBSI dengan agenda pemilihan ketua umum di Jakarta, Sabtu (15/11). "Terhitung mulai hari ini Jenderal Djoko Santoso telah terpilih sebagai ketua umum periode 20082012 secara aklamasi," katanya. Dalam pemilihan ketua umum yang dihadiri oleh Panglima TNI tersebut, Djoko terpilih secara aklamasi setelah menjadi calon tunggal yang didukung sepenuhnya oleh 32 Pengda yang hadir dalam Munas. Djoko terpilih setelah memberikan surat pernyataan secara resmi yang menyatakan dia bersedia dicalonkan menjadi ketua umum. "Setelah mendengar dan memperhatikan 32 dukungan dari PBSIB dan Pengda pada tanggal 14 November 2008, saya Jenderal Djoko Santoso menyatakan dengan sesungguhnya menyatakan siap, bersedia, dicalonkan sebagai calon ketua umum PB PBSIB periode 2008-2012," demikian isi surat tersebut. Usai pemilihan ketua umum tersebut, sidang dilanjutkan dengan pembentukan formatur untuk membentuk susunan pengurus. (Ant/OL-02)
14
Lampiran 3 Stoplist ada
biasanya
kalau
menunjukkan
sedang
seusai
adalah
bila
kalian
menurut
sedangkan
sewaktu
adanya
bilamana
kami
mereka
sedikit
si
adapun
buat
kamu
merupakan
segera
siapa
aduh
bukan
karena
meski
sehabis
siapakah
agar
dalam
kata
meskipun
sehingga
siapapun
ah
dan
katanya
misalnya
sehubungan
suatu
akan
dapat
kau
mungkin
sejak
sudah
aku
dari
ke
namun
sejumlah
supaya
alih-alih
daripada
kebanyakan
nanti
sekarang
tak
anda
dekat
kecuali
nyaris
sekeliling
tanpa
andai
demi
kemanakah
oleh
seketika
tapi
antar
demikian
kemudian
pada
sekitar
tatkala
antara
dengan
kenapa
padahal
sekonyongkonyong
telah
apa
depan
kenapakah
para
selagi
tengah
apakah
di
kepada
pasti
selain
tentang
apalagi
dia
ketika
pelbagai
selalu
tentu
asalkan
dikatakan
ketimbang
per
selama
tentunya
atas
dilakukan
kini
peri
selanjutnya
tergolong
atau
dkk
kita
perihal
selesai
terhadap
ataupun
dll
lagi
pinggir
seluruh
terjadi
bagai
dsb
lain
pula
seluruhnya
terkadang
bagaikan
engkau
lain-lain
pun
semakin
terlalu
bagaimana
hal
lainnya
saat
semenjak
terlebih
bagaimanakah
hampir
lalu
saja
sementara
termasuk
bagaimanapun
hanya
lebih
sambil
semua
ternyata
bagi
harus
lepas
sampai
semuanya
tersebut
bahkan
hingga
lewat
samping
seorang
tertentu
bahwa
ia
maka
sang
sepanjang
tetap
balik
ialah
makin
sangat
seperti
tetapi
banyak
ini
manakala
sangatlah
sepertinya
tiap
barangkali
itu
masih
saya
seputar
tiba-tiba
bawah
iya
masing-masing
seakan
seraya
tidak
beberapa
jadi
masingmasingnya
seakan-akan
sering
ujar
begini
jangan
maupun
seantero
seringkali
ujarnya
15
Lampiran 2 Lanjutan begitu
jarang
melainkan
sebab
serta
umumnya
belakang
jauh
melakukan
sebabnya
sesuai
untuk
belum
jika
melalui
sebagai
sesuatu
walau
berapa
jikalau
memang
sebagaimana
sesudah
walaupun
berbagai
juga
mengatakan
sebagainya
sesudahnya
ya
bersama
jumlah
mengenai
sebelum
sesungguhnya
yaitu
beserta
justru
menjadi
sebelumnya
setelah
yakni
betapa
kadang
menjelang
sebuah
seterusnya
yang
biar
kadangkadang
menuju
secara
setiap
16
Lampiran 4 Contoh dokumen yang salah diklasifikasikan Dokumen pada kelas ekonomi yang diklasifikasikan ke dalam kelas lingkungan: MI_eko_15_9 <TITLE>JK Desak Perbankan Turunkan Bunga dan Kucurkan Kredit Jumat, 15 Mei 2009 Wakil Presiden Jusuf Kalla mendesak perbankan untuk menurunkan suku bunga dan menggenjot kredit ke sektor riil. Dia mengingatkan, bank mempunyai utang kepada rakyat saat krisis 1997-1998 dengan BLBI-nya. Menurut JK, saat ini potensi perbankan sangat kuat dengan likuiditas yang menumpuk di sertifikat Bank Indonesia. Namun, entah kenapa perbankan enggan menjalankan intermediasi dengan menyalurkan kredit. Selain itu, suku bunga masih saja tinggi dan tidak mengindahkan kebijakan BI yang telah menurunkan suku bunga acuannya (BI Rate). "Anda bertanggung jawab kepada rakyat. Jadi bank jangan macam-macam dengan menaikkan suku bunga. Karena ingat, rakyat pernah membela anda," tegas JK di hadapan para bankir dalam kegiatan makan malam Perbanas di Jakarta, Kamis malam (14/5). Kalla mengingatkan kembali tugas perbankan untuk berpartisipasi dalam menggerakkan ekonomi. Hal ini dilakukan dengan menerapkan fungsi intermediasi bank. Semua itu harus dilakukan guna memenuhi kebutuhan dan kepentingan rakyat. Ini adalah tugas perbankan kepada rakyat yang pernah membela mereka. Lebih jauh, Kalla mengatakan sudah banyak uang rakyat yang dialokasikan untuk menyelamatkan perbankan. Melalui program Bantuan Likuiditas BI (BLBI), Rp600 triliun digelontorkan untuk menyelamatkan perbankan. Padahal, kehancuran bank saat itu bukan kesalahan rakyat. Akan tetapi, uang rakyat yang diambil melalui pajak tersebut harus dialokasikan ke bank guna penyelamatan. Terkait desakan adanya penjaminan penuh (blanket guarantee), JK mengakui dirinya tidak akan menyetujuinya. Berkaca pada krisis 12 tahun lalu, fasilitas ini malah memancing moral hazard. Sehingga, sekarang posisinya dibalik, bukan rakyat yang bertanggung jawab pada ulah bank, tapi bank yang harus bertanggung jawab membantu rakyat. Apalagi, di saat krisis seperti sekarang, peran bank sangat krusial dalam upaya melepaskan diri dari krisis. Dengan begitu, tidak ada alasan lagi bagi bank untuk memenuhi tanggung jawabnya. Ada atau tidak ada penjaminan penuh, bank harus bisa membantu rakyat untuk kembali bangkit dari krisis. Salah satunya dengan menyalurkan dan menurunkan bunga kredit. Dia memastikan negara menjamin siapapun pelaku perbankan yang melanggar hukum akan diproses. "Siapa yang berbuat, dia yang akan ambil akibatnya. I guarantee you a blanket. Siapa yang berani macam-macam, saya kasih selimut di penjara," ujar Kalla. Kalla mengingatkan saat ini dana bank di BI mencapai lebih dari Rp260 triliun. Sebuah jumlah yang sangat besar untuk disia-siakan dengan mengendap. Seharusnya dana itu bisa disalurkan melalui kredit agar masyarakat bisa berusaha. Dunia usaha bisa kembali memutar bisnisnya dan masyarakat bisa kembali bekerja. (Toh/OL-04)
17