KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS INDRA JUNIAWAN

KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS

INDRA JUNIAWAN

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS

INDRA JUNIAWAN

Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

ABSTRACT

INDRA JUNIAWAN. Text Document Classification with Minor Component Analysis. Under the supervision of AHMAD RIDHA.

Document classification can improve information retrieval process by decreasing the search time and increase the relevance of the results. Many classification algorithms have been developed, e.g., Naïve Bayes Classifier, Nearest Neighbor, Principal Component Analysis, and Minor Component Analysis (MCA). This research investigates the performance of MCA in classifying text documents in Bahasa Indonesia. MCA has been applied for image classification, but has not been widely used in text classification. The dataset used in this research contains 750 documents from Media Indonesia Online, consisting of five classes, i.e., economics, education, crime, environment, and badminton. This research also observes the influence of stemming and stoplist in preprocessing to the classification performance. The experiment results show that MCA achieves more 90% accuracy and the preprocessing methods do not have significant effect to the performance. Keywords: document text classification, minor component analysis. ……

Judul : Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis Nama : Indra Juniawan NRP : G64051546

Menyetujui: Pembimbing,

Ahmad Ridha, S.Kom, M.S. NIP 198005072005011001

Mengetahui: Dekan Fakultas Matematika dan Pengetahuan Alam Institut Pertanian Bogor

Dr. drh. Hasim, DEA NIP 196103281986011002

Tanggal Lulus:

i

KATA PENGANTAR

Puji Syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karuniaNya sehingga penulis dapat menyelesaikan tugas akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB. Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penyelesaian tugas akhir ini, antara lain kepada Bapak Weskoni dan Ibu Ipah Syaripah selaku kedua orang tua penulis, dan kepada Tia Lestari dan Aditya Mahendra selaku kakak penulis yang selalu memberikan motivasi, semangat, moril, serta kasih sayang yang telah diberikan. Ucapan terima kasih dan penghargaan yang setinggi-tingginya kepada Bapak Ahmad Ridha, S.Kom, M.S selaku pembimbing atas dukungan, bimbingan, serta perhatiannya kepada penulis selama penelitian berlangsung. Tidak lupa kepada semua dosen pengajar yang telah mendidik, membina, serta mengajar penulis selama menjadi mahasiswa Departemen Ilmu Komputer. Ucapan terima kasih juga penulis ucapkan kepada Adeth, Lena, Mirna, Medria, Indra, Huda, Dony, Nila, Vera, Ibu Yeni, dan seluruh rekan Ilkomerz 42 atas dukungan, kebersamaan, serta pengalaman yang tak terlupakan. Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari kesempurnaan, namun besar harapan penulis bahwa apa yang telah dikerjakan dapat memberikan manfaat bagi seluruh pihak.

Bogor, Juli 2009

Indra Juniawan

ii

RIWAYAT HIDUP

Penulis dilahirkan di Bogor pada tanggal 23 Juni 1987 sebagai anak ketiga dari Bapak Weskoni dan Ibu Ipah Syaripah. Pada tahun 2002 penulis menempuh pendidikan di SMA Negeri 2 Cianjur hingga tahun 2005. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tanggal 7 Juli 2008 penulis melaksanakan Praktik Kerja Lapangan di Direktorat Jenderal Kelautan Pesisir dan Pulau-pulau Kecil Departemen Kelautan Perikanan sampai dengan tanggal 25 Agustus 2008.

iii

DAFTAR ISI Halaman DAFTAR TABEL....................................................................................................................... vi DAFTAR GAMBAR .................................................................................................................. vi DAFTAR LAMPIRAN ............................................................................................................... vi PENDAHULUAN Latar Belakang ....................................................................................................................... 1 Tujuan .................................................................................................................................... 1 Ruang Lingkup ....................................................................................................................... 1 Manfaat Penelitian .................................................................................................................. 1 TINJAUAN PUSTAKA Klasifikasi Dokumen .............................................................................................................. 1 Minor Component Analysis (MCA)......................................................................................... 2 Algoritme MCA ..................................................................................................................... 2 Confusion Matrix.................................................................................................................... 2 K-Fold Cross Validation ......................................................................................................... 2 Uji Cochran ............................................................................................................................ 2 Tokenisasi .............................................................................................................................. 3 Stemming................................................................................................................................ 3 Stop Word .............................................................................................................................. 3 Pembobotan tf.idf.................................................................................................................... 3 Panjang Vektor ....................................................................................................................... 4 Proyeksi Vektor ...................................................................................................................... 4 METODOLOGI PENELITIAN Studi Pustaka .......................................................................................................................... 4 Pengumpulan Data.................................................................................................................. 4 Implementasi Sistem............................................................................................................... 5 Klasifikasi MCA .................................................................................................................... 5 Praproses ................................................................................................................................ 5 Perlakuan Pertama .................................................................................................................. 5 Perlakuan Kedua .................................................................................................................... 5 Perlakuan Ketiga .................................................................................................................... 5 Perlakuan Keempat ................................................................................................................. 5 Data Latih dan Data Uji .......................................................................................................... 6 Pelatihan ................................................................................................................................ 6 Klasifikasi .............................................................................................................................. 6 Akurasi .................................................................................................................................. 6 Uji Cochran ............................................................................................................................ 6 3-Fold Cross Validation ......................................................................................................... 6 Lingkungan Pengembangan .................................................................................................... 7 HASIL DAN PEMBAHASAN Praproses ................................................................................................................................ 7 Pelatihan ................................................................................................................................ 7 Perlakuan Pertama .................................................................................................................. 8 Perlakuan Kedua .................................................................................................................... 8 Perlakuan Ketiga .................................................................................................................... 8 Perlakuan Keempat ................................................................................................................. 8 Klasifikasi MCA pada Kelas Ekonomi .................................................................................... 9 Klasifikasi MCA pada Kelas Bulutangkis................................................................................ 9 Klasifikasi MCA pada Kelas Kriminal .................................................................................... 9 Klasifikasi MCA pada Kelas Lingkungan................................................................................ 9

iv

Klasifikasi MCA pada Kelas Pendidikan ................................................................................. 9 Akurasi Setiap Perlakuan ........................................................................................................ 9 3-Fold Cross Validation ....................................................................................................... 11 KESIMPULAN DAN SARAN Kesimpulan .......................................................................................................................... 11 Saran .................................................................................................................................... 11 DAFTAR PUSTAKA ................................................................................................................ 11 LAMPIRAN .............................................................................................................................. 12

v

DAFTAR TABEL Halaman 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Confusion Matrix ....................................................................................................................... 2 Data percobaan .......................................................................................................................... 3 Contoh pembobotan idf .............................................................................................................. 4 Kelas data .................................................................................................................................. 5 Jumlah term hasil praposes ......................................................................................................... 7 Perbedaan akurasi pada jumlah term yang berbeda ...................................................................... 7 Perhitungan waktu praproses ...................................................................................................... 7 Akurasi perlakuan pertama ......................................................................................................... 8 Akurasi perlakuan kedua ............................................................................................................ 8 Akurasi perlakuan ketiga ............................................................................................................ 8 Akurasi perlakuan keempat ........................................................................................................ 9 Confusion matrix perlakuan pertama ........................................................................................... 9 Confusion matrix perlakuan kedua ............................................................................................ 10 Confusion matrix perlakuan ketiga ............................................................................................ 10 Confusion matrix perlakuan keempat ........................................................................................ 10 Rekapitulasi akurasi ................................................................................................................. 10

DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9

Tahap klasifikasi. ....................................................................................................................... 2 Proyeksi vektor. ......................................................................................................................... 4 Metodologi penelitian................................................................................................................. 4 Alur klasifikasi. .......................................................................................................................... 5 Ilustrasi kelas. ............................................................................................................................ 6 Akurasi kelas ekonomi. .............................................................................................................. 9 Akurasi kelas lingkungan. .......................................................................................................... 9 Akurasi kelas pendidikan. ........................................................................................................... 9 Akurasi pada setiap data set. ..................................................................................................... 11

DAFTAR LAMPIRAN Halaman 1 2 3 4

Contoh tabel perhitungan uji Cohcran ....................................................................................... 13 Contoh dokumen dalam format XML ....................................................................................... 14 Stoplist ..................................................................................................................................... 15 Contoh dokumen yang salah diklasifikasikan ............................................................................ 17

vi

PENDAHULUAN Latar Belakang World Wide Web (WWW) merupakan sebuah galeri informasi yang dapat diakses dari semua penjuru dunia. Perkembangan dunia informasi dan teknologi yang sangat pesat memungkinkan ketersedian data melimpah. Pada akhir pertengahan tahun 1996 WWW mempunyai sekitar 60 juta dokumen dalam 12 juta host dan 600.000 server, padahal pada awal tahun 1996 hanya terdapat sekitar 9 juta host dan 250.000 server (Li 1998). Pertumbuhan Internet yang cepat ini akan menyulitkan pengguna untuk mendapatkan informasi yang relevan dan cepat karena data yang sangat melimpah. Semakin besar data yang ada, semakin lama waktu yang dibutuhkan untuk mencari suatu informasi yang diinginkan. Hal tersebut akan mengarah pada pengembangan alat yang tepat untuk membantu dalam pencarian informasi untuk pengguna. Seperti halnya sebuah mesin pencari di Internet yang telah banyak berkembang seperti Google, Yahoo, Altavista, Bing, dan lainnya. Mesin pencari tersebut tidak jarang memberikan hasil yang tidak relevan dengan kebutuhan pengguna. Oleh karena itu, diperlukan sebuah algoritme klasifikasi dokumen agar lingkup pencarian dapat dipersempit sehingga hanya dokumen yang sejenis yang akan ditampilkan dalam hasil pencarian. Tanpa adanya klasifikasi dokumen, proses pencarian data akan memerlukan pencarian ke semua dokumen yang ada, sehingga memakan banyak waktu dan memberikan peluang hasil temu kembali yang terlalu melebar. Sangatlah penting untuk bisa mengklasifikasi dokumen. Namun, untuk mengklasifikasi dokumen dengan jumlah yang sangat banyak membutuhkan biaya dan waktu yang lama. Untuk itu pengembangan algoritme untuk klasifikasi dokumen menggunakan bantuan komputer pun semakin dikembangkan. Beberapa penelitian terkait klasifikasi dokumen telah banyak dilakukan. Beberapa algoritme dikembangkan dan diterapkan dalam klasifikasi dokumen di antaranya Naïve Bayes Classifier, Nearest Neighbour, Clustering, Principal Component Analysis, dan Minor Component Analysis (MCA). Beberapa penelitian tersebut tidak hanya melakukan klasifikasi pada dokumen melainkan beberapa diimplementasikan juga pada citra contohnya pada penerapan klasifikasi citra menggunakan MCA dalam sistem content

based image retrieval (CBIR) (Jankovic 2006). Berdasarkan penelitian Marko Jancovic pada tahun 2006, didapatkan hasil penelitian bahwa penerapan MCA pada klasifikasi citra dapat mempercepat waktu pencarian dan efisien dalam kalsifikasi citra. Penelitian ini, mencoba menerapkan MCA dalam klasifikasi dokumen berita berbahasa Indonesia. Tujuan Tujuan dari penelitian ini adalah untuk mengimplementasikan dan menganalisis kinerja MCA dalam klasifikasi dokumen berita digital berbahasa Indonesia. Penelitian ini juga bertujuan menganalisis pengaruh perlakuan praproses pada hasil akurasi klasifikasi. Ruang Lingkup Ruang lingkup penelitian ini meliputi: 1.

Penelitian ini difokuskan kepada klasifikasi dokumen menggunakan MCA pada korpus berita digital berbahasa Indonesia.

2.

Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.

Manfaat Penelitian Penelitian ini diharapkan dapat membentuk suatu model klasifikasi untuk klasifikasi dokumen berita berbahasa Indonesia yang memiliki tingkat akurasi yang baik. TINJAUAN PUSTAKA Klasifikasi Dokumen Klasifikasi merupakan sebuah model yang terbentuk unuk memprediksi suatu kategori. Kategori yang dimaksud dapat berupa nilai diskret yang tidak memiliki hierarki. Klasifikasi memiliki dua tahap proses, tahap pembelajaran dan tahap klasifikasi seperti yang ditunjukkan pada Gambar 1. Pada tahap pertama, algoritme klasifikasi membentuk model klasifikasi dengan menganalisis data latih. Tahap ini disebut juga sebagai supervised learning karena setiap data latih telah memiliki label kelas masing-masing. Tahap ini pun dapat dilihat sebagai pemetaan sebuah fungsi y=f(x), menentukan label kelas y dari data x dengan fungsi pemetaan f. Tahap kedua adalah menentukan kelas untuk data uji dengan melihat model klasifikasi yang terbentuk (Han & Kamber 2005).

merupakan dekomposisi nilai eigen. Secara umum untuk mendapatkan komponen minor w ke-i dari vn adalah

(Chen & Amari 2001). Confusion Matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005). Gambar 1 Tahap klasifikasi.

Tabel 1 Confusion Matrix

Minor Component Analysis (MCA) Minor Component merupakan arah dari data, di mana data memiliki nilai ragam terkecil. MCA adalah metode statistika yang digunakan untuk mengambil komponenkomponen minor dari sebuah data. MCA merupakan alat yang baik untuk digunakan pemrosesan sinyal dan analisis data (Pheng & Yi 2006). Menurut Moeller dan Konies (2003), MCA adalah salah suatu metode untuk menentukan arah dari ragam minimal pada suatu data. Pada principal component analysis arah data yang diambil merupakan arah dari data dengan nilai ragam data yang maksimum sedangkan MCA mengambil arah dari ragam data yang minimum. Algoritme MCA Terdapat sebuah single linear neuron dengan relasi input dan output sebagai berikut:

y(k)= neuron output, rangkaian input {x(k) | x(k) ª R n (k=0,1,2,…)} memiliki rataan 0. Dan w(k) ª Rn (k=0,1,2,…) merupakan bobot vektor dari neuron. Target MCA adalah mendapatkan komponen minor dari data input dengan melakukan update bobot w(k) secara adaptive. Bila R = x(k)xT(k) adalah matriks autokorelasi dari input x(k). R akan memiliki nilai eigen yang terurut ë1> ë2> …> ën ≥ 0 dengan eigen vektor yang bersesuaian v1, v2, …, vn. maka

Predicted Class

Actual Class

Class=1

Class = 0

Class=1

F 11

F 10

Class=0

F 01

F 00

Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah sebagai berikut:

K-Fold Cross Validation Dalam k-fold cross validation data akan dibagi ke dalam k buah partisi dengan ukuran yang sama D1, D2, D3,…, Dk. Pelatihan dan pengujian dilakukan sebanyak k kali. Dalam iterasi ke-i, partisi Di akan menjadi data uji, selainnya menjadi data latih. Pada iterasi pertama, D1 akan menjadi data uji, D2, D3, ..., Dk akan menjadi data latih. Selanjutnya iterasi ke-2, D2 akan menjadi data uji, D1, D3, …, Dk menjadi data latih, dan seterusnya (Han & Kamber 2005). Uji Cochran Uji Cochran merupakan uji statistik yang bersifat non-parametrik. Uji Cohran ini dapat diterapkan untuk menguji hasil tiga sampel atau lebih dengan catatan reaksi (hasil) terhadap suatu perlakuan bersifat nominal (kategori), hasil hanya dinyatakan dalam dua buah nilai yaitu 0 dan 1 (Santoso 2004). Ilustrasi data yang dapat digunakan dapat dilihat pada Tabel 2.

2

Tabel 2 Data percobaan

merupakan turunan dari token dengan tahaptahap normalisasi sebelumnya.

Perlakuan

Perco baan

1

2

…

c

1

X11

X12

…

X1c

R1

2

X21

X22

…

X2c

R2

…

…

…

…

…

…

r

Xr1

Xr2

…

Xrc

Rr

C1

C2

…

Cc

N

Keterangan: r

= banyaknya perulangan percobaan.

c

= banyaknya perlakuan.

Xij = hasil percobaan bernilai {1,0}. Ci = ઱Xic. N = ઱Ci.

Ri = ઱Ci.

Statistik hitung menggunakan rumus:

untuk

uji

Cochran

൫ܿሺܿ െ ͳሻ σ௖௝ୀଵ ܿ௝ଶ ൯ െ ൫ሺܿ െ ͳሻܰ ଶ ൯ ܳൌ Ǥ ܿܰ െ σ௥௜ୀଵ ܴ௜ଶ

Hipotesis yang digunakan adalah:  

H0 = Semua perlakuan efektivitas yang sama.

mempunyai

H1 = Terdapat perbedaan efektivitas antarperlakuan.

Kriteria uji:  

Terima H0 jika nilai Q lebih kecil dari ɖଶଵିఈȀଶǢ௖ିଵ . Tolak H0 jika nilai Q lebih besar dari ɖଶଵିఈȀଶǢ௖ିଵ .

Contoh perhitungan dengan uji Cochran dapat dilihat pada Lampiran 1. Tokenisasi Tokenisasi merupakan tahap memotongmotong kalimat atau teks menjadi bagianbagian yang lebih kecil yaitu token. Token sering kali didefinisikan sebagai sebuah term atau kata, namun terkadang token lebih baik bila dibedakan dengan hal tersebut. Token merupakan sebuah rangkaian karakter dalam dokumen yang dikelompokkan sebagai sebuah unit semantik yang berguna dalam pemrosesan teks (Manning 2008). Term biasanya

Contohnya bila sebuah kalimat yang akan diindeks adalah “aku dan dia akan pergi”. Hasil tokenisasi ada 5 buah token, yaitu “aku”, ”dan”, “dia”, “akan”, “pergi”, sedangkan term hanya ada tiga buah bila diterapkan pembuangan stop word, kata “akan” dan “dan” akan dibuang karena termasuk ke dalam daftar stoplist. Stemming Sebuah kata dapat memiliki bentuk yang berbeda-beda tergantung konteks pemakaian kata tersebut dalam suatu kalimat, seperti kata mencari, dicari, dan carilah. Kata-kata tersebut pada dasarnya memiliki arti yang sama, namun bila diindeks, kata-kata tersebut akan dianggap memiliki arti yang berbeda. Stemming merupakan proses kasar dalam memotong suatu kata untuk membentuknya menjadi kata dasar dan untuk mengurangi kata-kata yang berinfleksi yaitu kata jamak dan tunggal (Manning 2008). Stop Word Terkadang kata-kata yang sering muncul dan umum merupakan kata-kata yang kurang bermakna bila dijadikan penciri sebuah dokumen, kata-kata tersebut akan dibuang dari himpunan kata yang akan diindeks nantinya. Kata-kata tersebut merupakan kata-kata yang termasuk dalam stop word (Manning 2008). Kata-kata yang akan dibuang tersebut akan disimpan dalam sebuah daftar kata yang disebut stoplist. Stoplist akan berbeda-beda tergantung bahasa yang digunakan. Dalam konteks bahasa Indonesia, beberapa kata yang termasuk dalam stoplist di antaranya adalah kata tugas seperti ‘yang’, ‘hingga’, dan ‘dengan’. Pembobotan tf.idf Pembobotan tf.idf merupakan gabungan dari pembobotan term frequency (tf) dengan pembobotan inverse document frequency (idf). Pembobotan tf didasarkan pada jumlah kemunculan term dalam sebuah dokumen. Skor sebuah term adalah frekuensi kemunculan term tersebut dalam dokumen. Idf merupakan pembobotan log N/df, dengan df adalah banyaknya dokumen dalam koleksi N yang mengandung term t. Ilustrasi pembobotan idf dapat dilihat pada Tabel 3.

3

Tabel 3 Contoh pembobotan idf Term

Df

METODOLOGI PENELITIAN Idf

Mobil

25 125

1,5

Auto

6 700

2,08

18 165

1,62

Asuransi

Penelitian ini dilakukan dalam beberapa tahap seperti yang digambarkan pada Gambar 3. Secara garis besar tahapannya adalah studi pustaka, pengadaan data, implementasi sistem, praproses data, pelatihan, klasifikasi, uji Cochran, dan 3-fold cross validation.

Pembobotan tf.idf didapatkan dengan mengalikan tf dengan idf. Pada Tabel 3 terlihat bahwa skor tinggi akan muncul bila term muncul dalam sedikit dokumen dan akan semakin kecil bila term semakin sering muncul dalam dokumen (Manning 2008). Pembobotan terbaik saat ini untuk klasifikasi dokumen teks adalah pembobotan tf.rf yaitu salah satu pembobotan supervised learning yang baru dikembangkan pada tahun 2007. Namun, pembobotan tf.rf rumit untuk digunakan. Pembobotan tf.idf memiliki kinerja di atas pembobotan tf dan mendekati tf.rf (Lan et al 2007). Panjang Vektor Panjang vektor (vector norm) suatu vektor C=[x1,x2,…,xn] dapat dihitung sebagai panjang dari sembarang segmen garis berarah (Leon 2001). Panjang segmen garis dari [0,0,…,0] ke [x1,x2,…,xn] adalah:

Proyeksi Vektor Proyeksi sebuah vektor A terhadap vektor B adalah membentuk sebuah vektor C yang memiliki arah atau kemiringan yang sama dengan vektor B dan memiliki panjang |C| = A cos è (è merupakan sudut apit antara vektor A dan vektor B). Vektor C merupakan proyeksi vektor A terhadap vektor B, maka vektor C dikatakan sebagai suatu transformasi linear (Leon 2001). Ilustrasi proyeksi vektor A terhadap vektor B dapat dilihat pada Gambar 2. Untuk menghitung vektor C hasil proyeksi A terhadap B dapat digunakan rumus .

Gambar 2 Proyeksi vektor.

Gambar 3 Metodologi penelitian. Studi Pustaka Pada tahap ini dilakukan pengumpulan informasi tentang klasifikasi dokumen menggunakan MCA. Literatur yang digunakan berupa buku, jurnal, dan artikel-artikel dari Internet. Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data berita digital sebanyak 750 dokumen yang bersumber dari Media Indonesia Online. Klasifikasi dokumen menggunakan klasifikasi secara manual oleh Media Indonesia. Data tersebut diklasifikasikan menjadi lima kelas dokumen berita, yaitu kelas pendidikan, ekonomi, lingkungan, bulutangkis, dan kriminal dengan masing-masing anggota setiap kelas berjumlah 150 dokumen. Setiap kelas dokumen diambil dalam rentang waktu terbitan yang

4

berbeda, Tabel 4 menunjukkan perbedaan rentang waktu pengambilan dokumen. Tabel 4 Kelas data Kelas Pendidikan Ekonomi

Terbitan 25 Januari 2009 – 25 Maret 2009 7 Mei 2009 – 31 Mei 2009

Lingkungan

21 Februari 2009 – 23 April 2009

Bulutangkis

15 November 2008 – 26 April 2009

Kriminal

24 April 2009 – 1 Mei 2009

Setiap dokumen direpresentasikan dalam format XML dengan bentuk sebagai berikut:

Stoplist yang digunakan dalam penelitian ini terdiri atas 263 kata yang diambil dari penelitian Ridha (2002), stoplist dapat dilihat pada Lampiran 3. Stemmer yang digunakan dalam penelitian ini menggunakan algoritme stemming untuk berbahasa Indonesia yang telah dikembangkan dengan mengikuti aturan tata bahasa Indonesia serta penambahan teknik pengecekan kamus (Adisantoso & Haryo 2009). Perlakuan Pertama Pada tahap ini semua teks dalam setiap dokumen dipilah menjadi sekumpulan token. Token hanya dimulai oleh huruf dengan batas minimal terdiri dari 3 karakter. Pemisah kata yang digunakan adalah white space, koma (,), titik (.), dan titik dua (:).

… <TITLE> …

… … … . Contoh dokumen dalam format XML dapat dilihat pada Lampiran 2. Implementasi Sistem Implementasi sistem terbagi menjadi dua, yaitu implementasi praproses dan implementasi klasifikasi MCA. Implementasi praproses meliputi pembuatan modul untuk tokenisasi dan pembuangan stop word dengan menggunakan bahasa PHP, implementasi klasifikasi MCA menggunakan perangkat lunak MATLAB 7.0.1.

Gambar 4 Alur klasifikasi. Perlakuan Kedua

Klasifikasi MCA

Pada perlakuan kedua akan dilakukan pembuangan stop word. Semua kata-kata yang akan dibuang didaftarkan dalam daftar stoplist.

Tahapan ini meliputi tiga tahap utama yaitu praproses, pelatihan, dan klasifikasi. Alur klasifikasi MCA dapat dilihat pada Gambar 4.

Perlakuan Ketiga

Praproses Setelah data terkumpul, dilakukan praproses data dengan empat perlakuan, meliputi parsing, pembuangan stop word, stemming serta pembuangan stop word dan stemming. Pembobotan dokumen menggunakan pembobotan tf.idf. Sebelum dilakukan empat perlakuan tersebut, semua isi dokumen diubah dalam lower case.

Pada perlakuan ketiga dilakukan proses stemming. Pada perlakuan ini tidak ada pembuangan kata-kata yang terdaftar dalam stoplist. Perlakuan Keempat Perlakuan terakhir merupakan penggabungan dari perlakuan kedua dan ketiga yaitu hanya kata-kata di luar daftar stoplist yang akan di-stemm.

5

Dalam penelitian ini jumlah token yang digunakan sebagai penciri dibatasi sebanyak n buah token dengan frekuensi tertinggi. Hasil dari praproses ini setiap dokumen akan direpresentasikan dalam bentuk vektor, yaitu setiap dokumen berbentuk vektor kolom dengan baris berisi bobot dari term (wi). Setiap kelas direpresentasikan dengan menggabungkan setiap vektor kolom anggota kelas tersebut membentuk vektor kelas, dapat divisualisasikan pada Gambar 5.

Klasifikasi Proses klasifikasi dilakukan dengan cara menghitung vektor proyeksi dari vektor dokumen terhadap setiap vektor kelas yang ada. Setelah itu norm dari vektor–vektor proyeksi tersebut dihitung. Vektor proyeksi yang memiliki norm terkecil menunjukkan kelas dari dokumen tersebut. Berikut adalah algoritme klasifikasi yang digunakan: 1.

Proyeksikan vektor dokumen ke dalam setiap vektor kelas.

2.

Hitung nilai norm dari setiap vektor proyeksi yang dihasilkan.

3.

Urutkan nilai norm yang didapatkan.

4.

Nilai norm terkecil menunjukkan kelas dari dokumen tersebut.

Akurasi Untuk menghitung tingkat akurasi hasil klasifikasi yang terbentuk digunakan confusion matrix. Dari confusion matrix perhitungan akurasi diperoleh dengan membandingkan antara jumlah data uji yang diklasifikasikan benar dengan total data uji. Rumus yang digunakan adalah: . Uji Cochran

Gambar 5 Ilustrasi kelas. Data Latih dan Data Uji Setelah data terkumpul, data tersebut dibagi ke dalam data latih dan data uji dengan proporsi data latih lebih banyak dari data uji. Dari setiap kelas, masing-masing 100 dokumen menjadi data latih dan 50 dokumen akan menjadi data uji, sehingga total data latih sebanyak 500 dokumen dan 250 dokumen menjadi data uji.

Uji Cochran dilakukan untuk mengetahui beda nyata akurasi antar empat buah perlakuan praproses. Perlakuan tersebut meliputi tokenisasi, pembuangan stop word, stemming, serta pembuangan stop word dan stemming. Dalam uji Cochran ini hipotesis yang digunakan adalah sebagai berikut: H0: Keempat perlakuan memberikan hasil akurasi yang sama. H1: Keempat perlakuan berbeda akurasi klasifikasi.

hal

Taraf nyata á/2 = 0,05.

Pelatihan Pada tahap pelatihan, masing-masing kelas dokumen dari data latih akan dihitung komponen minornya dengan menggunakan algoritme MCA, hasilnya berupa sebuah vektor baris MCA. Dengan demikian akan terdapat lima buah vektor kolom untuk merepresentasikan nilai komponen minor masing-masing kelas.

dalam

. Hipotesis H0 akan ditolak jika Q lebih besar dari . 3-Fold Cross Validation Proses 3-fold cross validation dilakukan untuk menguji akurasi algoritme dengan data latih yang berbeda. Data akan dibagi menjadi

6

tiga buah subset, s1, s2, dan s3. Pengulangan akan dilakukan sebanyak tiga kali, pada setiap ulangan satu buah subset akan menjadi data uji, dan sisanya menjadi data latih. Pada iterasi pertama, subset s1 akan menjadi data uji, s2 dan s3 akan menjadi data latih. Selanjutnya iterasi ke-2, s2 akan menjadi data uji, s1 dan s3 menjadi data latih, dan seterusnya.

Tabel 6 Perbedaan akurasi pada jumlah term yang berbeda

Lingkungan Pengembangan Lingkungan pengembangan yang digunakan adalah sebagai berikut: 

Perangkat lunak:  







Jumlah Term

Akurasi perlakuan ke- (%) 1

2

3

4

Windows XP Professional

600

93,6

94,0

93,2

94,0

MATLAB 7.0.1

800

95,2

95,2

96,4

96,0

1000

94,4

96,0

97,2

97,2

1200

96,4

96,8

97,6

97,6

1400

96,8

97,2

97,6

97,6

XAMPP 1.6.7

Perangkat keras: 

Sebelum melanjutkan ke proses selanjutnya, akan dilakukan beberapa percobaan untuk menentukan jumlah term yang akan digunakan, dengan pertimbangan akurasi dan efisiensi waktu pelatihan. Perbandingan akurasi beberapa percobaan dengan jumlah term yang berbeda dan perlakuan yang diberikan adalah perlakuan keempat dapat dilihat pada Tabel 6.

Prosesor Intel Core 2 Duo E6300 (1.68 GHz) 2048 MByte RAM.

HASIL DAN PEMBAHASAN Praproses Dari empat buah perlakuan praproses, akan dihasilkan kumpulan term unik yang berbeda. Jumlah term tersebut dihasilkan dari 750 koleksi dokumen. Hasil praproses data tersebut dapat dilihat pada Tabel 5. Tabel 5 Jumlah term unik hasil praposes Perlakuan

Jumlah term

Pertama

14145

Kedua

13932

Ketiga

10149

Keempat

10046

Terlihat dari Tabel 5 bahwa jumlah term yang dihasilkan setiap perlakuan memiliki jumlah yang berbeda dan jumlah semakin menurun. Penurunan jumlah term dikarenakan pada tahap perlakuan kedua kata-kata yang termasuk ke dalam daftar stoplist akan dibuang. Pada perlakuan ketiga terjadi penurunan jumlah term karena kata dibentuk menjadi kata dasar, sehingga kata-kata yang unik akan berkurang. Namun jumlah term yang banyak tidak akan efisien bila semua term dijadikan penciri dokumen, maka tidak semua term akan dijadikan sebagai penciri dokumen.

Dari Tabel 6 terlihat bahwa pada jumlah term 1200 dan 1400 tidak terdapat banyak perubahan akurasi. Hal ini menunjukkan bahwa 1200 term sudah cukup baik untuk pelatihan. Dengan demikian, untuk pertimbangan efisiensi, jumlah term yang digunakan sebagai penciri adalah sebanyak 1200 term. Ukuran vektor untuk setiap dokumen yang terbentuk adalah ͳʹͲͲ‫ͳݔ‬Ǥ Setiap perlakuan praproses memerlukan waktu eksekusi yang berbeda. Tabel 7 menunjukkan perbedaan rataan waktu yang diperlukan untuk tahap praproses. Perhitungan waktu praproses didapatkan dari rataan tiga kali percobaan. Tabel 7 Perhitungan waktu praproses Ulangan kePerlakuan

Rataan waktu (s)

1

2

3

314

276

305

298,33

Kedua

2617

2395

2623

2 545,00

Ketiga

8791

8706

8718

8738,33

10596

9543

10207

10115,33

Pertama

Keempat Pelatihan

Pada tahap pelatihan ini vektor data latih akan menjadi input untuk algoritme MCA yang

7

akan menghasilkan komponen minor untuk setiap kelas.

w(i) adalah pembobotan MCA.

Pada perlakuan kedua terdapat kenaikan akurasi untuk kelas lingkungan sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan kedua dapat dilihat pada Tabel 9. Jumlah stop word yang digunakan adalah sebanyak 263 kata. Kelas bulutangkis dan kriminal tetap memiliki akurasi 100%.

ߟ adalah laju pembelajaran.

Tabel 9 Akurasi perlakuan kedua

Beberapa variabel yang digunakan dalam algoritme ini adalah:   

Perlakuan Kedua

R adalah matriks autokorelasi, dengan R=E[x(k)xT(k)].

Ukuran vektor data latih setiap kelas adalah 100 x 1200, sehingga ukuran vektor R adalah 1200 x 1200. Pembobotan awal yang digunakan adalah w(0)= {0.1 0.1… 0.1} berukuran 1200 x 1. Komponen minor pertama (w(k)) setiap kelas diperoleh dengan menggunakan rumus: ‫ ݓ‬ሺ݇ ൅ ͳሻ ൌ ்ሺ

‫ ݓ‬ሺ݇ ሻ െ ߟ ሾܴሺ݇ ሻ‫ ݓ‬ሺ݇ሻ‫ ݇ ݓ‬ሻ‫ ݓ‬ሺ݇ሻ െ ‫ݓ‬ሺ݇ ሻ‫ ் ݓ‬ሺ݇ሻܴ ሺ݇ ሻ‫ݓ‬ሺ݇ሻሿ

dengan nilai ߟ ൌ ͲǤͲͲͳ. Proses pembobotan akan dilakukan berulang-ulang sampai bobot konvergen pada suatu nilai. Pada penelitian ini komponen minor yang digunakan hanya komponen minor pertama karena algoritme yang digunakan masih memiliki kelemahan yaitu untuk beberapa kasus tidak mampu mengambil komponen minor kedua (Pheng & Zhang 2006). Perlakuan Pertama Pada perlakuan pertama, term yang diambil merupakan 1200 term pertama dengan tingkat frekuensi tertinggi. Pada perlakuan ini hasil klasifikasi pada tiap kelas sudah menunjukkan nilai akurasi yang tinggi, nilai akurasi minimal adalah 92% dan maksimal 100%. Akurasi klasifikasi tiap kelas dengan perlakuan pertama dapat dilihat pada Tabel 8. Terdapat dua kelas yang tepat diklasifikasikan dengan akurasi 100% yaitu kelas bulutangkis dan kelas kriminal. Tabel 8 Akurasi perlakuan pertama Kelas

Hasil Klasifikasi

Akurasi Klasifikasi

Benar

Salah

Ekonomi

46

4

92%

Bulutangkis

50

0

100%

Kriminal

50

0

100%

Lingkungan

46

4

92%

Pendidikan

49

1

98%

Hasil Klasifikasi

Kelas

Akurasi Klasifikasi

Benar

Salah

Ekonomi

46

4

92%

Bulutangkis

50

0

100%

Kriminal

50

0

100%

Lingkungan

47

3

94%

Pendidikan

49

1

98%

Perlakuan Ketiga Pada perlakuan ketiga terdapat kenaikan akurasi masing-masing sebesar 2% pada kelas ekonomi dan kelas pendidikan. Rentang akurasi mengalami kenaikan, akurasi minimal pada perlakuan ketiga menjadi 94% dan kelas yang tepat diklasifikasikan menjadi 3 kelas yaitu kelas bulutangkis, kriminal, dan kelas pendidikan. Akurasi klasifikasi tiap kelas dengan perlakuan ketiga dapat dilihat pada Tabel 10. Tabel 10 Akurasi perlakuan ketiga Kelas

Hasil Klasifikasi

Akurasi Klasifikasi

Benar

Salah

Ekonomi

47

3

94%

Bulutangkis

50

0

100%

Kriminal

50

0

100%

Lingkungan

47

3

94%

Pendidikan

50

0

100%

Perlakuan Keempat Pada perlakuan keempat, terdapat penurunan akurasi dari perlakuan sebelumnya yaitu pada kelas ekonomi, penurunan sebesar 2%, namun pada kelas lingkungan terdapat kenaikan akurasi sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan keempat dapat dilihat

8

pada Tabel 11. Contoh dokumen yang salah diklasifikasikan dapat dilihat pada Lampiran 4. Tabel 11 Akurasi perlakuan keempat Hasil Klasifikasi Benar Salah

Kelas

Akurasi Klasifikasi

Ekonomi

46

4

92%

Bulutangkis

50

0

100%

Kriminal

50

0

100%

Lingkungan

48

2

96%

Pendidikan

50

0

100%

Klasifikasi MCA pada Kelas Ekonomi Pada kelas ekonomi, akurasi terbaik terdapat di perlakuan ketiga. Perlakuan pertama, kedua, dan keempat mempunyai nilai akurasi yang sama yaitu 92%. Perubahan perlakuan tidak menunjukkan perubahan signifikan pada kelas ekonomi. Perubahan akurasi pada setiap perlakuan dapat dilihat pada Gambar 6. 100 95 90 85 (%) 80 75 70 65

92

92

94

keempat dengan nilai akurasi sebesar 96% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi pada setiap perlakuan dapat dilihat pada Gambar 7. Klasifikasi MCA pada Kelas Pendidikan Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan seperti yang terjadi pada kelas lingkungan. Akurasi terbaik terdapat di perlakuan ketiga dan keempat dengan nilai akurasi sebesar 100% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi kelas pendidikan pada setiap perlakuan dapat dilihat pada Gambar 8. 100 95 90 85 (%) 80 75 70 65

94

92

96

94

92 Gambar 7 Akurasi kelas lingkungan. 105 95

(%)

100

98

92

100

85 75 65

Gambar 6 Akurasi kelas ekonomi. Klasifikasi MCA pada Kelas Bulutangkis Pada kelas bulutangkis, semua perlakuan memberikan akurasi sempurna yaitu 100%. Hal ini dikarenakan pada kelas bulutangkis katakata yang digunakan spesifik, pada umumnya kata-kata yang digunakan pada kelas ini tidak digunakan pada kelas lainnya. Klasifikasi MCA pada Kelas Kriminal Pada kelas kriminal, seperti halnya pada kelas bulutangkis, kata-kata yang digunakan dalam kelas ini spesifik sehingga semua perlakuan memberikan akurasi 100%.

Gambar 8 Akurasi kelas pendidikan. Akurasi Setiap Perlakuan Akurasi perlakuan pertama secara keseluruhan dari algortime MCA dihitung dengan menggunakan bantuan tabel confusion matrix dapat dilihat pada Tabel 12. Tabel 12 Confusion matrix perlakuan pertama Kelas Prediksi 1

2

3

4

5

1

46

0

0

4

0

2

0

50

0

0

0

Klasifikasi MCA pada Kelas Lingkungan Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan. Akurasi terbaik terdapat di perlakuan

Kelas Aktual

9

Tabel 12 Lanjutan

Akurasi perlakuan keempat secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 15.

Kelas Prediksi

Kelas Aktual

1

2

3

4

5

3

0

0

50

0

0

4

3

0

0

46

1

5

0

0

0

1

49

Akurasi perlakuan ଶସଵ ‫ ݅ݏܽݎݑ݇ܣ‬ൌ ଶହ଴

pertama

Tabel 15 Confusion matrix perlakuan keempat Kelas Prediksi

adalah: Kelas Aktual

= 96,4%. Akurasi perlakuan kedua secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 13. Tabel 13 Confusion matrix perlakuan kedua

1

2 0

3 0

4 4

5 0

2

0

50

0

0

0

3

0

0

50

0

0

4

2

0

0

47

1

5

0

0

0

1

49

kedua

3

4

5

1

46

0

0

3

1

2

0

50

0

0

0

3

0

0

50

0

0

4

1

0

0

48

1

5

0

0

0

0

50

keempat

adalah:

ଶହ଴

= 97,6%.

1 46

Akurasi perlakuan ଶସଶ ‫ ݅ݏܽݎݑ݇ܣ‬ൌ ଶହ଴

2

Akurasi perlakuan ଶସସ ‫ ݅ݏܽݎݑ݇ܣ‬ൌ

Kelas Prediksi

Kelas Aktual

1

adalah:

= 96,8%.

Terdapat perbedaan akurasi yang tidak terlalu signifikan, rekapitulasi perhitungan akurasi setiap perlakuan dapat dilihat pada Tabel 16. Tabel 16 Rekapitulasi akurasi Akurasi Perlakuan ke-

1 96,4%

2

3

4

96,8%

97,6%

97,6%

Untuk membuktikan beda nyata antar perlakuan, dilakukan uji Cochran dengan hipotesis:

Akurasi perlakuan ketiga secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 14.

H0: Keempat perlakuan memberikan hasil akurasi yang identik.

Tabel 14 Confusion matrix perlakuan ketiga

H1: Keempat perlakuan berbeda akurasi klasifikasi.

Kelas Prediksi

Kelas Aktual

1

1 47

2 0

3 0

4 2

5 1

2

0

50

0

0

0

3

0

0

50

0

0

4

2

0

0

47

1

5

0

0

0

0

50

Akurasi perlakuan ଶସସ ‫ ݅ݏܽݎݑ݇ܣ‬ൌ ଶହ଴

= 97,6%.

ketiga

adalah:

ܳൌ

dalam

hal

ሺସሺସିଵሻሺଶଷହ଻ଵ଻ሻሻିቀሺସିଵሻଽ଻ଵమ ቁ ସൈଽ଻ଵିଷ଼ହଽ

Hipotesis H0 akan ditolak jika Q lebih besar ଶ dari atau sama dengan ɖଵିఈȀଶǢ௖ିଵ . Didapatkan dari perhitungan nilai Q = 3.24 dan dari tabel ଶ ɖଶ diperoleh ɖଵିఈȀଶǢ௖ିଵ ൌ ͹Ǥͺͳͷ, maka dapat diambil kesimpulan Q lebih kecil dari ଶ ɖଵିఈȀଶǢ௖ିଵ sehingga H0 tidak dapat ditolak. Dengan demikian, keempat perlakuan memberikan hasil akurasi yang identik. Dengan demikian, keempat perlakuan praproses tidak memberikan pengaruh yang signifikan terhadap klasifikasi oleh MCA.

10

100 95 90 85 (%) 80 75 70 65

96.4

96.8 96.8 96.8

96

97.2 97.6 97.2 97.6 97.6 97.6 97.6

2.

Penggunaan data yang lebih besar dan jumlah kelas yang lebih banyak untuk melihat konsistensi efektivitas MCA.

DAFTAR PUSTAKA Adisantoso J, Haryo A. 2009. Stemmer Bahasa Indonesia dengan Kamus. Bogor: Departemen Ilmu Komputer.

Ulangan-1

Ulangan-2

Ulangan-3

Gambar 9 Akurasi pada setiap data set. 3-Fold Cross Validation Hasil perhitungan akurasi tiap perlakuan dengan data set yang berbeda menunjukkan tidak terdapat perubahan akurasi yang signifikan antar-data set yang berbeda. Grafik pada Gambar 9 menunjukkan nilai akurasi yang tidak jauh berbeda dengan subset yang berlainan. Hal ini menunjukkan bahwa algoritme tahan terhadap perubahan data set.

Chen TP, Amari S, Murata N. 2001. Sequential Extraction of Minor Components. Neural Processing Letters 13. 195-201. Han J, Kamber M. 2006. Data Mining Concepts and Techniques. San Fransisco: Morgan Kaufman Publisher. Jankovic M et al. 2006. Minor Component Analysis (MCA) Applied to Image Classification in CBIR Systems. IEEE Transactions on Neural Network 6. Lan M, Tan CL, Su J. 2007. Supervised and Traditional Methods for Automatic Text Categorization. IEEE PAMI Vol.10(10). Leon S J. 1999. Aljabar Linier dan Aplikasinya. Jakarta: Penerbit Erlangga. Li Y H, Jain A K. 2006. Classification of Text Documents. The Computer Journal. Vol.41(2):537-546.

KESIMPULAN DAN SARAN Kesimpulan Dari penelitian dalam menerapkan algoritme MCA untuk klasifikasi dokumen berita, didapatkan kesimpulan sebagai berikut:

Manning C. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Moller R, Konies A. 2003. Couple Principle Component Analysis Algorithm. IEEE Transaction on Neural Network 3.

1.

Penerapan klasifikasi MCA untuk dokumen teks berhasil dilakukan.

2.

Akurasi dari model terbentuk di atas 90%.

3.

Algoritme tahan terhadap perubahan data set.

Peng D, Yi Z. 2006. A New Algorithm for Sequential Minor Component Analysis. International Journal of Computational Intelligence Research. Vol.2(2): 207-208.

4.

Perbedaan perlakuan pada praproses tidak memberikan pengaruh yang signifikan terhadap hasil akurasi klasifikasi oleh MCA.

Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.

klasifikasi

yang

Saran Saran-saran yang diberikan untuk pengembangan lebih lanjut adalah sebagai berikut: 1.

Penggunaan algoritme MCA yang mampu mengambil lebih dari satu komponen minor.

Santoso S. 2003. Mengatasi Berbagai Masalah Statistik dengan SPSS 11. Jakarta: PT Media Elex Komputindo Tan P, Michael S, Vipin K. 2005. Introduction to Data Mining. Boston: Pearson Education, Inc.

11

kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk

LAMPIRAN

Lampiran 1 Contoh tabel perhitungan uji Cohcran Perlakuan Mesin A

Mesin B

Mesin C

Jumlah nilai baris (R i)

1

0

0

1

1

2

0

1

0

1

3

1

1

0

2

4

1

1

1

3

5

1

0

0

1

6

0

0

1

1

7

0

1

1

2

8

0

0

0

0

઱

C1= 3

C2= 3

C3 = 4

N=10

Pekerja

Hipotesis: H0: Ketiga mesin memberikan kinerja yang sama. H1: Ketiga mesin mempunyai kinerja yang berbeda. Keterangan: Q = statistik hitung uji Cochran c = banyaknya perlakuan Ri = jumlah nilai baris ke-i N = ઱ Ci ܳൌ ൌ ൌ

൫ܿሺܿ െ ͳሻ σ௖௝ୀଵ ܿ௝ଶ ൯ െ ൫ሺܿ െ ͳሻܰ ଶ ൯ ܿܰ െ σ ௥௜ୀଵ ܴ௜ଶ

൫͵ሺ͵ െ ͳሻ σ௖௝ୀଵ ܿ௝ଶ ൯ െ ൫ሺ͵ െ ͳሻͳͲଶ ൯ ͵ሺͳͲሻ െ σ ௥௜ୀଵ ܴ௜ଶ ሺ͵ ሺ͵ െ ͳሻሺ͵Ͷሻሻ െ ൫ሺ͵ െ ͳሻͳͲଶ ൯ ͵ሺͳͲሻ െ ʹͳ

ൌ ͲǡͶͶͶͶ.

Didapatkan nilai statistik tabel sebesar 5,991 dengan á/2= 5%, karena nilai statistik hitung Q (0,444) lebih kecil dari statistik Tabel Khi (5,991), maka hipotesis H0 diterima, atau ketiga mesin memberikan kinerja yang sama.

13

Lampiran 2 Contoh dokumen dalam format XML Bulu_tangkis_Nov_3 <TITLE>Jenderal Djoko Santoso Jadi Ketua Umum PB PBSI 15 November 2008 Panglima TNI Jenderal Djoko Santoso terpilih menjadi Ketua Umum PB PBSI periode 2008-2012 secara aklamasi. Pernyataan tersebut disampaikan ketua pimpinan sidang Paris Yusuf dalam Musyawarah Nasional (Munas) PBB PBSI dengan agenda pemilihan ketua umum di Jakarta, Sabtu (15/11). "Terhitung mulai hari ini Jenderal Djoko Santoso telah terpilih sebagai ketua umum periode 20082012 secara aklamasi," katanya. Dalam pemilihan ketua umum yang dihadiri oleh Panglima TNI tersebut, Djoko terpilih secara aklamasi setelah menjadi calon tunggal yang didukung sepenuhnya oleh 32 Pengda yang hadir dalam Munas. Djoko terpilih setelah memberikan surat pernyataan secara resmi yang menyatakan dia bersedia dicalonkan menjadi ketua umum. "Setelah mendengar dan memperhatikan 32 dukungan dari PBSIB dan Pengda pada tanggal 14 November 2008, saya Jenderal Djoko Santoso menyatakan dengan sesungguhnya menyatakan siap, bersedia, dicalonkan sebagai calon ketua umum PB PBSIB periode 2008-2012," demikian isi surat tersebut. Usai pemilihan ketua umum tersebut, sidang dilanjutkan dengan pembentukan formatur untuk membentuk susunan pengurus. (Ant/OL-02)

14

Lampiran 3 Stoplist ada

biasanya

kalau

menunjukkan

sedang

seusai

adalah

bila

kalian

menurut

sedangkan

sewaktu

adanya

bilamana

kami

mereka

sedikit

si

adapun

buat

kamu

merupakan

segera

siapa

aduh

bukan

karena

meski

sehabis

siapakah

agar

dalam

kata

meskipun

sehingga

siapapun

ah

dan

katanya

misalnya

sehubungan

suatu

akan

dapat

kau

mungkin

sejak

sudah

aku

dari

ke

namun

sejumlah

supaya

alih-alih

daripada

kebanyakan

nanti

sekarang

tak

anda

dekat

kecuali

nyaris

sekeliling

tanpa

andai

demi

kemanakah

oleh

seketika

tapi

antar

demikian

kemudian

pada

sekitar

tatkala

antara

dengan

kenapa

padahal

sekonyongkonyong

telah

apa

depan

kenapakah

para

selagi

tengah

apakah

di

kepada

pasti

selain

tentang

apalagi

dia

ketika

pelbagai

selalu

tentu

asalkan

dikatakan

ketimbang

per

selama

tentunya

atas

dilakukan

kini

peri

selanjutnya

tergolong

atau

dkk

kita

perihal

selesai

terhadap

ataupun

dll

lagi

pinggir

seluruh

terjadi

bagai

dsb

lain

pula

seluruhnya

terkadang

bagaikan

engkau

lain-lain

pun

semakin

terlalu

bagaimana

hal

lainnya

saat

semenjak

terlebih

bagaimanakah

hampir

lalu

saja

sementara

termasuk

bagaimanapun

hanya

lebih

sambil

semua

ternyata

bagi

harus

lepas

sampai

semuanya

tersebut

bahkan

hingga

lewat

samping

seorang

tertentu

bahwa

ia

maka

sang

sepanjang

tetap

balik

ialah

makin

sangat

seperti

tetapi

banyak

ini

manakala

sangatlah

sepertinya

tiap

barangkali

itu

masih

saya

seputar

tiba-tiba

bawah

iya

masing-masing

seakan

seraya

tidak

beberapa

jadi

masingmasingnya

seakan-akan

sering

ujar

begini

jangan

maupun

seantero

seringkali

ujarnya

15

Lampiran 2 Lanjutan begitu

jarang

melainkan

sebab

serta

umumnya

belakang

jauh

melakukan

sebabnya

sesuai

untuk

belum

jika

melalui

sebagai

sesuatu

walau

berapa

jikalau

memang

sebagaimana

sesudah

walaupun

berbagai

juga

mengatakan

sebagainya

sesudahnya

ya

bersama

jumlah

mengenai

sebelum

sesungguhnya

yaitu

beserta

justru

menjadi

sebelumnya

setelah

yakni

betapa

kadang

menjelang

sebuah

seterusnya

yang

biar

kadangkadang

menuju

secara

setiap

16

Lampiran 4 Contoh dokumen yang salah diklasifikasikan Dokumen pada kelas ekonomi yang diklasifikasikan ke dalam kelas lingkungan: MI_eko_15_9 <TITLE>JK Desak Perbankan Turunkan Bunga dan Kucurkan Kredit Jumat, 15 Mei 2009 Wakil Presiden Jusuf Kalla mendesak perbankan untuk menurunkan suku bunga dan menggenjot kredit ke sektor riil. Dia mengingatkan, bank mempunyai utang kepada rakyat saat krisis 1997-1998 dengan BLBI-nya. Menurut JK, saat ini potensi perbankan sangat kuat dengan likuiditas yang menumpuk di sertifikat Bank Indonesia. Namun, entah kenapa perbankan enggan menjalankan intermediasi dengan menyalurkan kredit. Selain itu, suku bunga masih saja tinggi dan tidak mengindahkan kebijakan BI yang telah menurunkan suku bunga acuannya (BI Rate). "Anda bertanggung jawab kepada rakyat. Jadi bank jangan macam-macam dengan menaikkan suku bunga. Karena ingat, rakyat pernah membela anda," tegas JK di hadapan para bankir dalam kegiatan makan malam Perbanas di Jakarta, Kamis malam (14/5). Kalla mengingatkan kembali tugas perbankan untuk berpartisipasi dalam menggerakkan ekonomi. Hal ini dilakukan dengan menerapkan fungsi intermediasi bank. Semua itu harus dilakukan guna memenuhi kebutuhan dan kepentingan rakyat. Ini adalah tugas perbankan kepada rakyat yang pernah membela mereka. Lebih jauh, Kalla mengatakan sudah banyak uang rakyat yang dialokasikan untuk menyelamatkan perbankan. Melalui program Bantuan Likuiditas BI (BLBI), Rp600 triliun digelontorkan untuk menyelamatkan perbankan. Padahal, kehancuran bank saat itu bukan kesalahan rakyat. Akan tetapi, uang rakyat yang diambil melalui pajak tersebut harus dialokasikan ke bank guna penyelamatan. Terkait desakan adanya penjaminan penuh (blanket guarantee), JK mengakui dirinya tidak akan menyetujuinya. Berkaca pada krisis 12 tahun lalu, fasilitas ini malah memancing moral hazard. Sehingga, sekarang posisinya dibalik, bukan rakyat yang bertanggung jawab pada ulah bank, tapi bank yang harus bertanggung jawab membantu rakyat. Apalagi, di saat krisis seperti sekarang, peran bank sangat krusial dalam upaya melepaskan diri dari krisis. Dengan begitu, tidak ada alasan lagi bagi bank untuk memenuhi tanggung jawabnya. Ada atau tidak ada penjaminan penuh, bank harus bisa membantu rakyat untuk kembali bangkit dari krisis. Salah satunya dengan menyalurkan dan menurunkan bunga kredit. Dia memastikan negara menjamin siapapun pelaku perbankan yang melanggar hukum akan diproses. "Siapa yang berbuat, dia yang akan ambil akibatnya. I guarantee you a blanket. Siapa yang berani macam-macam, saya kasih selimut di penjara," ujar Kalla. Kalla mengingatkan saat ini dana bank di BI mencapai lebih dari Rp260 triliun. Sebuah jumlah yang sangat besar untuk disia-siakan dengan mengendap. Seharusnya dana itu bisa disalurkan melalui kredit agar masyarakat bisa berusaha. Dunia usaha bisa kembali memutar bisnisnya dan masyarakat bisa kembali bekerja. (Toh/OL-04)

17

KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS INDRA JUNIAWAN

Recommend Documents