Cosine Similarity (Tf-idf) Denny Setyo R (080411100131)
[email protected] STBI Kelas C
Contoh, Diketahui terdapat 6 dokumen (D1 s.d. D6) sebagai berikut : o D1. Komisi Yudisial dengan Universitas resmi menjalin kerjasama dalam memberantas mafia peradilan.
o
D2. SAR trunojoyo mengadakan DIKLAT mereka di Bumi perkemahan wisata air Terjun Mojokerto.Acara itu dibuka langsung oleh Pembantu Rektor
o
D3. Roadshow Speedy yang di trunojoyo diisi dengan berbagai acara yaitu seminar internet sehat,
o
Cangkrukankomunitas,workshop,serta lomba band . D4. Pemerintah Kabupaten Pamekasan menghentikan sementara program bantuan beasiswa kepada mahasiswa Pamekasan yang kuliah di Universitas Trunojoyo
o o
D5. Sebanyak 11 orang staf Universitas Trunojoyo melakukan magang di Fakultas Teknik Industri UII D6. Perpustakaan Universitas Airlangga pada minggu ini kedatangan tamu dari 2 perguruan tinggi, yaitu staf Perpustakaan Trunojoyo dan staf Perpustakaan Gunadharma
Query yang dimasukkan adalah “universitas trunojoyo”.Jadi dokumen yang paling relevan adalah ??? Langkah-langkah,
Langkah1. Preprocessing terhadap semua (n= 7) dokumen yang terlibat, yaitu Q, D1, D2, D3, D4, D5 dan D6. Langkah 1a: Lakukan tokenisasi, stop words removal dan stemming. Hasilnya diperlihatkan pada tabel berikut: Dokumen Q D1 D2 D3 D4 D5 D6
Term yang mewakili dokumen universitas trunojoyo komisi yudisial universitas jalin kerjasama berantas mafia adil sar trunojoyo diklat bumi kemah wisata air terjun mojokerto bantu rektor roadshow speedy trunojoyo seminar internet sehat cangkruk komunitas workshop lomba band perintah kabupaten pamekasan henti program bantu beasiswa mahasiswa pamekasan universitas trunojoyo 11 staf universitas trunojoyo magang fakultas teknik industri uii perpus universitas airlangga datang tamu 2 guru tinggi staf perpus universitas trunojoyo staf perpus universitas gunadarma
[email protected]
Universitas Trunojoyo
Langkah 1b. Tentukan bobot untuk setiap term dari 7 dokumen tersebut.
Term
Q
universitas
1
trunojoyo komisi
1
tf idf D1 D2 D3 D4 D5 D6 df log(n/df) 1
1
1
1
5
0.146
1
1
1
1
6 1
0.066 0.845
yudisial
1
1
0.845
jalin
1
1
0.845
kerjasama berantas
1 1
1 1
0.845 0.845
mafia
1
1
0.845
adil
1
1
0.845
1
1
sar
1
1
0.845
diklat bumi
1 1
1 1
0.845 0.845
kemah
1
1
0.845
wisata
1
1
0.845
air
1
1
0.845
terjun mojokerto
1 1
1 1
0.845 0.845
bantu
1
1
0.845
rektor
1
1
0.845
roadshow
1
1
0.845
speedy seminar
1 1
1 1
0.845 0.845
internet
1
1
0.845
sehat
1
1
0.845
cangkruk
1
1
0.845
komunitas
1
1
0.845
workshop
1
1
0.845
lomba
1
1
0.845
band
1
1
0.845
perintah
1
1
0.845
kabupaten
1
1
0.845
pamekasan
2
1
0.845
henti
1
1
0.845
program
1
1
0.845
[email protected]
Universitas Trunojoyo
bantu mahasiswa
1 1 11
1 2
1 1
0.845 0.845
1
0.845
2
0.544
staf
1
magang
1
1
0.845
fakultas
1
1
0.845
teknik
1
1
0.845
industri
1
1
0.845
uii
1
1
0.845
perpus
1
1
0.845
tamu
3 1
1 1
0.845 0.845
guru
1
1
0.845
tinggi
1
1
0.845
gunadarma
1
1
0.845
2
Q
D1
0.146
0.146
0.066
D2 0.066
Wdt=tf.idf D3 0.066
D4
D5
D6
0.146
0.146
0.146
0.066
0.066
0.066
0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845
[email protected]
Universitas Trunojoyo
0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 0.845 1.69 0.845 0.845 0.845 0.845 0.845 0.544
1.088
0.845 0.845 0.845 0.845 0.845 0.845 2.535 0.845 0.845 0.845 0.845
Langkah 2: Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumusnya adalah sebagai berikut:
Langkah 2a: Hitung hasil perkalian skalar antara Q dan 6 dokumen lain. Hasilnya perkalian dari setiap dokumen dengan Q dijumlahkan (sesuai pembilang pada rumus di atas)
[email protected]
Universitas Trunojoyo
Langkah 2b: Hitung panjang setiap dokumen, termasuk Q. Caranya, kuadratkan bobot setiap term dalam setiap dokumen, jumlahkan nilai kuadrat dan terakhir akarkan. Sisi kiri dari tabel di bawah ini mewakili langkah 2a dan sisi kanan memperlihatkan langkah 2b.
D1
WD*Wdi D3 D4
D2
0.021316
0
D5
D6
0 0.021316
0.021316 0.021316
0 0.004356 0.004356 0.004356
0.004356 0.004356
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
[email protected]
Universitas Trunojoyo
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
0 0
0 0
0 0
0 0
0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0 0 0 0 0 0.021316 0.004356 0.004356 0.025672 0.025672 0.025672
Q
Panjang Vektor D2 D3
D1
D4
D5
D6
0.0213
0.0213
0
0
0.0213
0.0213
0.0213
0.0043
0
0.0043
0.0043
0.0043
0.0043
0.0043
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0 0
0.714 0.714
0 0
0 0
0 0
0 0
0 0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0 0
0 0
0.714 0.714
0 0
0 0
0 0
0 0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0.714
0
0
0
0
0 0
[email protected]
Universitas Trunojoyo
0 0
0 0
0 0
0.714 0.714
0 0
0 0
0 0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0 0
0 0
0 0
0 0
0.714 0.714
0 0
0 0
0
0
0
0
2.856
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0 0
0 0
0 0
0 0
0.714 0.714
0 0
0 0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.544
1.183
0 0
0 0
0 0
0 0
0 0
0.714 0.714
0 0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0 0
0 0
0 0
0 0
0 0
0 0
0.714 6.426
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0
0
0
0
0
0
0.714
0 0.0256 0.16
0 5.0193 2.2403
0 7.1443 2.6728
0 7.1443 2.6728
0 7.1656 2.6768
0 4.8536 2.203
0.714 11.2046 3.3473
[email protected]
Universitas Trunojoyo
Langkah 2c: Terapkan rumus cosine similarity. Hitung kemiripan Q dengan D1, D2 dan seterusnya sampai dengan D6. Cos (Q, D1) = 0.021316/(0.16*2.2403) = 0.021316/0.358448 = 0.059 Cos (Q, D2) = 0.004356/(0.16*2.6728) =0.004356/0.427648 = 0.0102 Cos (Q, D3) = 0.004356/(0.16*2.6728) = 0.427648/0.427648 = 0.0102 Cos (Q, D4) = 0.025672/(0.16*2.6768) = 0.025672/0.428288 = 0.0599 Cos (Q, D5) = 0.025672/(0.16*2.203) = 0.025672/0.35248 = 0.073 Cos (Q, D6) = 0.025672/(0.16*3.3473) = 0.025672/0.535568 = 0.048 Hasil perhitungan dalam tabel D1
D2
D3
D4
D5
D6
0.059
0.0102
0.0102
0.0599
0.073
0.048
Langkah 3: Urutkan hasil perhitungan kemiripan, diperoleh:
1
2
3
4
5
6
D5
D4
D1
D6
D2
D3
Dokumen yang relevan dengan Query “universitas trunojoyo” yaitu D4 dan D5 Jika keenam dokumen tersebut diserahkan kepada pengguna,maka Recall = 6/6 x 100 % = 100% Jika diberikan kepada pengguna keenam dokumen tersebut, padahal hanya 4 dokumen yang relevan, maka: Presisi = 4/6 x 100 % = 66.66 %
[email protected]
Universitas Trunojoyo