SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom
Doc. 1 …..???? Doc. 2 …..**** Doc. 3 …. #### Doc. 4 …..@@@
081211633014 Emilia Fitria Fahma S1 Sistem Informasi
Universitas Airlangga
S1 Sistem Informasi Universitas Airlangga
Pengertian Teknik Rocchio Rocchio classifiers merupakan salah satu metode pembelajara supervised document classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran rocchio disebut juga dengan tfidf Classifiers (Joachihms,1997) Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector – vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data test dengan semua prototype vector (Tomassen, 2007) Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian yang singkat dan presisi. Berikut adalah rumus dan definisi variabel untuk rocchio relevansi umpan balik sebagai berikut :
Keterangan : Variabel
Nilai Modifikasi query vector Query vector yang asli
2|STKI
S1 Sistem Informasi Universitas Airlangga
Dokumen vector yang relevan Dokumen vector yang tidak relevan Berat query yang asli Dokumen relevan Dokumen non relevan Set dokumen relevan Set dokumen tidak relevan Keterbatasan Teknik Rocchio Teknik Rocchio ini memiliki keterbatasan dimana sering gagal untuk mengklasifikasikan kelas multimodal dan hubungan. Misalnya, negara Burma berganti nama menjadi Myanmar pada tahun 1989. Oleh karena itu dua pertanyaan dari "Burma" dan "Myanmar" akan muncul lebih jauh terpisah dalam vector space model , meskipun mereka sama-sama mengandung asal yang sama. Kegunaan Teknik Rocchio Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai.Teknik Rocchio menerapkan batasbatas tersebut dalam bentuk centroid untuk memberi batasan tersebut. Centroid sebuah kelas c adalah rata-rata semua vektor yang berada pada kelas c.
Dimana Dc adalah himpunan dokumen di dalam korpus pada kelas c. Sedangkan v(d) merupakan vektor dokumen yang telah dinormalisasi.Untuk menentukankemiripan dua vektor space model ada dua cara yaitu dengan mengukur jarak atau dengan mengukur kemiripan. Dalam menentukan jarak (distance) antara dua vektor space model digunakan jarak euclidean.
Dan dengan menghitung kemiripan (similarity) antara dua vektor dokumen adalah sebagai berikut:
3|STKI
S1 Sistem Informasi Universitas Airlangga
Jika terdapat suatu kueri diproses menjadi sebuah vektor space, maka dapat dibandingkan dengan masing-masing centroid kelas yang ada pada korpus. Dengan dua pendekatan mencari kemiripan dua vektor space., vektor kueri dianggap mirip dengan sebuah centorid kelas dapaat dilakukan dengan menggunakan jarak (distance) atau menggunakan kemiripan (similarity). Jika menggunakan jarak, yang dicari adalah kelas yang memiliki jarak yang terkecil dengan kueri. Dan jika menggunakan kemiripan yang dicari adalah kelas yang memiliki kemiripan yang paling besar dengan kueri, seperti yang ada di bawah: - menggunakan jarak -
menggunakan kemiripan
1. Term frequency and weighting Berdasarkan frekuensi munculnya term yang sesuai dengan query Term yang sama akan dijumlah semua frekuensinya Akan tetapi metode ingin masih kurang bagus karena : Jika dokumen yang digunakan adalah dokumen yang lebih besar, maka dokumen tersebut memiliki term yang lebih banyak sehingga score-nya pun lebih besar. Langkah-langkah dalam menggunakan metode ini adalah : a. Tiap-tiap dokumen dipecah menjadi term-term b. Kemudian term yang sudah ada diurutkan menjadi sebuah kamus di dalam sebuah kolom (catatan : jika ada beberapa term yang sama, maka hanya ditulis sekali) c. Di sebelah kanan kolom term, tambahkan 2 kolom lagi. Kolom yang pertama untuk frekuensi term (tf). Hitung jumlah term sama. d. Untuk kolom yang kedua untuk kolom idft. Rumus : idft = N : banyaknya dokumen dft : frekuensi dari sebuah term e. Tambahkan kolom lagi untuk bobot dari term Rumus : β = tf * idft 4|STKI
S1 Sistem Informasi Universitas Airlangga
2. The Rocchio algorithm for relevance feedback Metode ini merupakan strategi reformulasi query paling populer karena sering digunakan untuk membantu user pemula suatu information retrieval systems. Rocchio memandang feedback sebagai permasalahan mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara dokumen relevan dengan dokumen tak relevan. Langkah-langkah pengolahan query a. Text Mining Dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam kategori tertentu b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase, atau kalimat. c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran) d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen Dalam menggunakan vector space model diperlukan batasbatas antar kelas untuk mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas tersebut.
Dc : himpunan dokumen pada suatu kelas (kelas c) Untuk menentukan kemiripan 2 vector space model data dapat dilakukan dengan 2 cara, yaitu : a. Menentukan jarak antara 2 vector space model dengan cara menggunakan jarak euclidean.
b. Menghitung kemiripan antara 2 vector dokumen
5|STKI
S1 Sistem Informasi Universitas Airlangga
Contoh penggunaan Rocchio Algorithm Query = Sistem Dokumen 1 : Sistem adalah kumpulan elemen Dokumen 2 : Adalah kumpulan elemen yang saling berinteraksi Dokumen 3 : Sistem berinteraksi untuk mencapai tujuan Proses parsering Doc 1 : sistem, adalah, kumpulan, elemen Doc 2 : adalah, kumpulan, elemen, yang, saling, berinteraksi Doc 3 : sistem, berinteraksi, untuk, mencapai, tujuan Proses filtering Doc 1 : sistem, kumpulan, elemen Doc 2 : kumpulan, elemen, saling, berinteraksi Doc 3 : sistem, berinteraksi, mencapai, tujuan Proses Stemming Doc 1 : sistem, kumpul, elemen Doc 2 : kumpul, elemen, saling, interaksi Doc 3 : sistem, interaksi, capai, tujuan
Menghitung tf-idf term Q D1 Capai 0 0 Elemen 0 1 Interaksi 0 0 Kumpul 0 1 Saling 0 0 Sistem 1 1 tujuan 0 0
tf df D/df Log W (D/df) D2 D3 Q D1 D2 D3 0 1 1 3 0,477 0 0 0 0,477 1 0 2 1,5 0,176 0 0,176 0,176 0 1 1 2 1,5 0,176 0 0 0,176 0,176 1 0 2 1,5 0,176 0 0,176 0,176 0 1 0 1 3 0,477 0 0 0,477 0 0 1 2 1,5 0,176 0.176 0,176 0 0,176 0 1 1 3 0,477 0 0 0 0,477
6|STKI
S1 Sistem Informasi Universitas Airlangga
Menghitung jarak dokumen dan query Term
W(Q)*W(Di) Panjang Vektor D1 D2 D3 Q^2 D1^2 D2^2 D3^2 Capai 0 0 0 0 0 0 0,227 Elemen 0 0 0 0 0,031 0,031 0 Interaksi 0 0 0 0 0 0,031 0,031 Kumpul 0 0 0 0 0,031 0,031 0 Saling 0 0 0 0 0 0,227 0 Sistem 0,031 0 0,031 0,031 0,031 0 0,031 Tujuan 0 0 0 0 0 0 0,227 0,031 0 0,031 0,031 0,093 0,321 0,517 SUM 0,176 0,305 0,566 0,719 SQRT Cosine similarity D1 0,053
D2 0
D3 0,12
Sumber http://jurnal.fmipa.unila.ac.id/index.php/semirata/article/view/881/700 http://translate.google.com/translate?hl=id&sl=en&u=http://en.wikipedia.org/wiki/Rocchio_al gorithm&prev=/search%3Fq%3Drocchio%2Bclassification%26es_sm%3D93%26biw%3D1366%2 6bih%3D643
7|STKI