Model IR Vector Space
TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB
Pertemuan 3 MODEL IR
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Konsep IR
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Pemodelan IR Model IR didefinisikan sebagai empat komponen, yaitu: D, F, Q, R(q, dj ) Keterangan: dengan D adalah kumpulan dokumen, Q adalah query, F menunjukkan pemodelan dokumen dan query, dan R(q, dj ) adalah fungsi peringkat yang dikaitkan dengan suatu fungsi R, dimana q ∈ Q dan dj ∈ D.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Model IR
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Remember: Matrik Term-Document Matrik untuk mengabstraksikan inverted index: t1 w11 w12 w13 . . . w1N t2 w21 w22 w23 . . . w2N .. .. .. .. .. . . . . . . . . tT
wT1 wT2 wT3 . . .
wTN
dengan wij adalah bobot term ke-i pada dokumen ke-j untuk i = 1, 2, . . . , T (term) dan j = 1, 2, . . . , N (dokumen).
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Standard Boolean Model Exact match, pencocokan secara tepat sama. Query berbentuk ekspresi boolean. Dokumen bisa cocok atau tidak cocok dengan query yang diberikan. Hasilnya berupa sekumpulan dokumen yang cocok. Tidak ada peringkat dokumen sesuai dengan query yang diberikan. —————– Bobot wtd ∈ {0, 1} Query q terdiri dari kata, frase, atau konsep yang dihubungkan dengan operator Boolean AND, OR, atau NOT. Contoh: q = [ta ∧ (tb ∨ ¬tc )] = ta AND (tb OR !tc ) JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Contoh: Korpus: d1 → And the angels, all pallid and wan, d2 → Uprising, unveiling, affirm d3 → That the play is the tragedy, ”Man” d4 → Angel and its hero the Conqueror Worm. Hasil tokenisasi: affirm angel conqueror hero
man pallid play tragedy
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
unveil uprise wan worm
TEMU KEMBALI INFORMASI
Model IR Vector Space
Konsep Boolean Model
Pembobotan Boolean Contoh query: hero AND (angel OR NOT man)
Formulasi query: = [t4 ∧ {t2 ∨ ¬t5 }] = [(0101) ∧ {(1000) ∨ ¬(0010)}] = (0101) Hasil query (tidak ada urutan): d2 dan d4
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Vector Space Model (VSM) Prinsip dasar: Dokumen sebagai vektor token Terdapat T kumpulan token Query sebagai dokumen kecil (sebagai juga vektor token) Kesamaan vektor dokumen dan query dihitung berdasarkan jarak atau kesamaan antar vektor
Jadi, VSM adalah model berbasis token, yang memungkinkan partial matching dan pemeringkatan dokumen. Cenderung sebagai best matching.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Metode Pembobotan Pertanyaannya, apa yang digunakan sebagai nilai elemen vektor dokumen d~j = (w1j , w2j , . . . , wTj )? VSM tidak memberikan ketentuan mengenai nilai yang digunakan sebagai elemen vektor (wij ). Nilai elemen vektor term ke-i pada dokumen ke-j (wij ) menunjukkan ukuran kepentingan term ke-i pada dokumen ke-j. Sering disebut sebagai metode pembobotan dalam IR.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Metode Pembobotan Metode pembobotan melibatkan 3 komponen: 1
2
3
Lokal, menunjukkan bobot suatu term pada suatu dokumen. Tidak memperhatikan dokumen lainnya. Misalnya: TF. Global, menunjukkan bobot suatu term di seluruh dokumen dalam korpus. Misalnya: IDF. Normalisasi, menunjukkan apakah panjang vektor dinormalisasi atau tidak
Bobot term ke-i pada dokumen ke-j (wij ) merupakan hasil kali ketiga komponen tersebut. Metode pembobotan yang melibatkan 3 komponen tersebut telah dibakukan dalam bentuk SMART Notation (Manning et.al 2009)
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
SMART Notation (Manning et.el 2009)
Sebagai contoh, pembobotan TF.IDF dinotasikan sebagai pembobotan ”ntn”. Pembobotan TF dinotasikan sebagai pembobotan ”nnn”.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Jarak 2 Vektor
Jarak 2 vektor d~1 dan d~2 didefinisikan sebagai (Jarak Euclidean): r 0 p ~ ~ ~ ~ ~ ~ J(d1 , d2 ) = d1 − d2 d1 − d2 = (x1 − x2 )2 + (y1 − y2 )2
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Ukuran Jarak Semakin besar nilai jarak 2 vektor dokumen, maka 2 dokumen tersebut dikatakan semakin tidak mirip. Sebaliknya, 2 dokumen dikatakan mirip jika memiliki jarak yang kecil. Dokumen dengan ukuran besar cenderung memiliki vektor yang panjang, sebaliknya dokumen dengan ukuran kecil cenderung memiliki vektor yang pendek. Kosekuensinya, walaupun dua vektor tersebut berdekatan, akan memiliki jarak yang cukup besar → missleading. Ukuran jarak tidak cocok digunakan untuk dokumen yang memiliki ukuran beragam → perlu normalisasi (jadikan sebagai vektor satuan), atau menggunakan ukuran kemiripan.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Ukuran Kemiripan Cosine Ukuran kemiripan sebagai nilai Cosinus dari sudut θ. Perhatikan gambar samping: cos(θ) = cos(θ2 − θ1 ) = cos(θ1 )cos(θ2 ) + sin(θ1 )sin(θ2 ) 1 x2 +y1 y2 = kdx11 k kdx22 k + kdy11 k kdy22 k = xkd 1 kkd2 k =
0 d~1 d~2 kd1 kkd2 k
→ cosine similarity
dengan p k d k adalah panjang vektor = ~d0~d JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Prosedur IR secara Umum
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Contoh SE dengan TF.IDF
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Contoh SE dengan TF.IDF Query diperlakukan sebagai sebuah dokumen kecil. Panjang vektor: k Q k= 0.912, k D1 k= 0.615, k D2 k= 0.748, k D3 k= 1.126, k D4 k= 1.385 Ukuran kesamaan Cosine sim(D1 , Q) = 0.189 sim(D2 , Q) = 0.023 sim(D3 , Q) = 0.000 sim(D4 , Q) = 0.730
Urutan hasil: D4 D1 D2 D3 JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Latihan Kelas 1 Diketahui dokumen: d1 : Shipment of gold damaged in a fire d2 : Delivery of silver arrived in a silver truck d3 : Shipment of gold arrived in a truck
Query: gold silver truck Asumsi: N=1000
Bagaimana urutan hasil jika menggunakan pembobotan TF.IDF dengan ukuran kesamaan cosine?
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Model IR Vector Space
Vector Space Model Pembobotan
Latihan Kelas 2 Diketahui corpus XML yang digunakan pada latihan kelas pertemuan sebelumnya. Dengan menggunakan R, lakukan hal-hal berikut: Buat matrik Term Document untuk semua term yang ada seperti sebelumnya, dan hitung nilai IDF setiap term. Buat matrik Term Document hanya untuk term yang memiliki nilai IDF ¿1.0 dan panjang kata [3,15], serta bobot elemen matrik menggunakan TF.IDF (ntn).
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI