5. Kondisi kelima adalah saat jumlah hasil pencarian dokumen yang mengandung lebih besar dibandingkan yang mengandung , dan hasil pencarian menggunakan kata lebih besar dibandingkan dengan hasil pencarian yang menggunakan kata . Hubungan antara ketiga kata tersebut dalam rangkaian dapat menggunakan (9).
(9) 6. Kondisi keenam adalah saat jumlah hasil pencarian dokumen yang mengandung lebih besar dibandingkan yang mengandung , namun hasil pencarian menggunakan kata lebih kecil dibandingkan dengan hasil pencarian yang menggunakan kata . Hubungan antara ketiga kata tersebut dalam rangkaian dapat menggunakan (10).
(10) Setiap pasangan kata akan dibuatkan semua kemungkinan urutan dan dihitung bobot GLSD dari setiap kemungkinan tersebut. Sehingga untuk setiap 3 kata, maka akan didapatkan 6 macam rangkaian. Untuk memilih rangkaian mana yang akan dijadikan sebagai rekomendasi akhir, maka dipilih rangkaian dengan nilai GLSD terbesar (Chen, Lin, & Chu, 2011).
Skenario keempat adalah dengan menggunakan kata kunci yang telah disediakan pada bagian abstrak dokumen. Rangkaian kata kunci yang telah berhasil dibuat kemudian diambil satu perwakilan untuk diukur keberhasilannya dalam mendapatkan kembali dokumen. Rangkaian kata kunci yang digunakan adalah rangkaian pada setiap dokumen yang memiliki nilai GLSD tertinggi. Keberhasilan mendapatkan dokumen dilihat dari terdapatnya dokumen dimaksud pada hasil pencarian menggunakan mesin pencari secara online. Letak kemunculan dokumen dilihat dalam tiga kemungkinan, peringkat 10 tertinggi, peringkat 20 tertinggi, dan peringkat 30 tertinggi. Tingkat keberhasilan sistem dalam membuat rangkaian kata kunci dari dokumen diukur dengan menggunakan presisi dan recall. Presisi digunakan untuk mengukur keberhasilan rangkaian kata kunci dalam menemukan kembali dokumen pada mesin pencari. Presisi dihitung dari jumlah kata kunci yang dapat menemukan dokumen relevan dibagi dengan jumlah keseluruhan kata kunci. Presisi sebesar 100% berarti kata kunci yang dihasilkan dapat menemukan semua dokumen yang relevan. Recall dihitung dari jumlah kata kunci yang dapat menemukan dokumen termaksud dibagi dengan jumlah dokumen dalam database. Recall sebesar 100% berarti sistem yang dibangun berhasil merangkai kata kunci yang relevan dan lengkap untuk semua dokumen. Persamaan presisi dan recall dapat dilihat pada (11) dan (12). Tabel 1. Tabel kebenaran
4. Uji Coba
Retrived Dokumen
Data yang digunakan dalam uji coba ini merupakan dokumen makalah ilmiah yang disimpan dalam bentuk Portable Document Format (PDF) pada direktori lokal. Dokumen-dokumen tersebut telah diunduh dari www.sciencedirect.com yang menyimpan berbagai macam makalah dari berbagai bidang. Jumlah dokumen digunakan untuk uji coba berjumlah 130. Semua dokumen tersebut termasuk dalam bidang Arts and Humanities dan terbagi dalam beberapa jurnal, antara lain Assesing Writing, Computer and Composition, English for Specific Purposes, Journal of Historical Geography, dan Political Geography. Terdapat empat skenario dalam uji coba ini. Skenario pertama adalah dengan menggunakan bagian abstrak dokumen sebagai teks sumber dalam pembuatan rangkaian kata kunci. Skenario kedua adalah dengan menggunakan bagian selain abstrak dan referensi. Skenario ketiga adalah dengan menggunakan teks dari abstrak namun tanpa melewati proses pembentukan frasa.
nonretrieved
Kata kunci Relevan Tidak Relevan True Positive False Positive (TP) (FP) False True Negative Negative (FN) (TN)
(11) (12)
4.1. Rata-rata jumlah rangkaian kata kunci yang dihasilkan Dari skenario pertama didapat rata-rata jumlah kata yang berada pada abstrak dokumen adalah 176 kata, sedangkan rata-rata jumlah kata kunci yang didapatkan adalah 8 kata. Dari rata-rata jumlah kata kunci tersebut, didapatkan rata-rata rangkaian yang berhasil dibangun adalah sebanyak 768 rangkaian.
6
Contoh hasil uji coba pertama dapat dilihat pada Tabel 2. Pada tabel tersebut diperlihatkan perbandingan jumlah kata hasil ekstraksi dengan jumlah kata kunci yang berhasil didapatkan. Pada Tabel 2 terlihat adanya korelasi antara jumlah kata hasil ekstraksi dengan jumlah kata kunci yang didapatkan. Contohnya, pada abstrak yang memiliki jumlah kata antara 101 hingga 150 didapatkan rata-rata jumlah kata kunci sebanyak 7,361 dan pada abstrak yang memiliki jumlah kata antara 151 hingga 200 didapatkan rata-rata jumlah kata khusus sebanyak 8,407.
berarti jumlah kata dalam dokumen memengaruhi jumlah kata kunci yang terdapat dalam dokumen tersebut. Korelasi yang terjadi adalah semakin banyak jumlah kata hasil ekstrasi berbanding lurus dengan rata-rata jumlah kata kunci. Hal ini berarti jumlah kata dalam suatu dokumen memengaruhi jumlah kata khusus yang digunakan dalam dokumen.
Tabel 2. Rata-rata jumlah hasil perangkaian kata kunci dari abstrak dokumen.
Contoh hasil rangkaian kata kunci yang berhasil dibangun pada uji coba pertama dapat dilihat pada Tabel 5. Pada tabel tersebut diperlihatkan hasil temu kembali dokumen menggunakan rangkaian kata kunci dengan nilai GLSD tertinggi. Kolom (A) menunjukan nomor dokumen, sedangkan kolom (B), (C) dan (D) menunjukan kata kunci yang berhasil didapatkan. Kolom (E), (F), (G) menunjukan letak dokumen pada hasil temu kembali. Pada Tabel 5 dapat dilihat hasil temu kembali dokumen menggunakan rangkaian kata kunci yang berhasil dibangun pada uji coba pertama. Pada uji coba menggunakan rangkaian kata kunci untuk dokumen 1, rangkaian tersebut tidak dapat menemukan kembali dokumen sehigga kolom (E), (F) dan (G) bernilai 0. Berbeda halnya dengan uji coba rangkaian untuk dokumen 23 yang dapat menemukan kembali dokumen di peringkat 27. Pada Tabel 6 diperlihatkan contoh hasil temu kembali dokumen menggunakan rangkaian kata kunci yang dibangun menggunakan algoritma GLSD pada uji coba kedua. Pada Tabel 6 terlihat bahwa rangkaian kata kunci bagi dokumen 1 dapat menemukan kembali dokumen tersebut pada peringkat ke-4 hasil pencarian. Berbeda halnya dengan rangkaian kata kunci bagi dokumen 7 yang baru bisa mendapatkan dokumen tersebut di peringkat 18 dalam hasil pencarian. Contoh hasil temu kembali dokumen menggunakan rangkaian yang telah dibangun pada uji coba ketiga dapat dilihat pada Tabel 7. Dari hasil temu kembali ini didapatkan perbedaan hasil diantara skenario. Sebagian besar rangkaian kata kunci yang didapatkan pada uji coba pertama, yaitu yang menggunakan abstrak dokumen, dapat menemukan dokumen pada urutan teratas hasil pencarian. Sedangkan sebagian besar rangkaian kata kunci yang didapatkan pada uji coba kedua, menggunakan bagian selain abstrak dan referensi, dapat menemukan dokumen namun tidak pada urutan teratas hasil pencarian. Berbeda halnya dengan rangkaian kata kunci yang didapatkan pada uji coba ketiga. Pada uji coba ini, hanya sebagian rangkaian kata kunci yang berhasil menemukan kembali dokumen pada mesin pencari.
Jumlah Kata Hasil Ekstraksi 0 – 100 101 – 150 151 – 200 201 – 250 251 – 300 >301
Rata-rata Jumlah Kata Kunci 5,750 ≈ 5 7,361 ≈ 7 8,407 ≈ 8 9,344 ≈ 9 9,000 ≈ 9 13,333 ≈ 13
Tabel 3. Rata-rata jumlah hasil perangkaian kata kunci dari seluruh bagian dokumen.
Jumlah Kata Hasil Ekstraksi 0 – 500 501 – 1000 1001 – 1500 1501 – 2000 >2001
Rata-rata Jumlah Kata Kunci 14,800 ≈ 14 20,482 ≈ 20 30,945 ≈ 30 41,357 ≈ 41 80,461 ≈ 80
Tabel 4. Rata-rata Jumlah Hasil Perangkaian Kata Kunci Menggunakan Bagian Abstrak Tanpa Melalui Proses Pembentukan Frasa
Jumlah Kata Hasil Ekstraksi 0 – 100 101 – 150 151 – 200 201 – 250 > 251
Rata-rata Jumlah Kata Kunci 2,000 ≈ 2 3,444 ≈ 3 4,093 ≈ 4 3,966 ≈ 3 4.286 ≈ 4
Pada skenario kedua, rata-rata jumlah kata yang berhasil diekstrak dari dokumen adalah 1304 kata. Ratarata jumlah kata kunci yang berhasil didapatkan dari katakata tersebut adalah sebanyak 35 kata dan rata-rata jumlah rangkaian kata kunci yang berhasil dibangun sebanyak 175.621 rangkaian. Pada Tabel 3 juga dapat dilihat bahwa jumlah kata yang dapat diekstrak berbanding lurus dengan rata-rata jumlah kata kunci yang berhasil didapatkan. Hal ini
4.2. Hasil Temu Kembali Dokumen Menggunakan Rangkaian Kata Kunci Hasil Algoritma GLSD
7
Contoh hasil uji coba keempat dapat dilihat pada Tabel 8. Pada tabel tersebut diperlihatkan contoh hasil temu kembali dokumen menggunakan kata kunci yang sudah disediakan pada abstrak dokumen. Pada Tabel 8 terlihat bahwa sebagian besar kata kunci dapat menemukan kembali dokumen pada urutan
teratas hasil pencarian. Contohnya, kata kunci untuk dokumen 83 dapat menemukan kembali dokumen pada urutan 1 hasil pencarian, sedangkan kata kunci untuk dokumen 81 dapat menemukan dokumen pada urutan 3 hasil pencarian.
Tabel 5. Hasil perangkaian kata kunci dari teks pada abstrak dan hasil temu kembali pada mesin pencari
No
DOK (A)
1
1
2
2
3
3
4
4
5
5
6
Rangkaian Kata Kunci Kata Kata Kata Khusus 1 Khusus 2 Khusus 3 (B) (C) (D) generalization audiorecordedtelephone curricularpraxis pedagogicalliterature facultyevaluations
6
presented
7
7
8
8
9
9
topicalstructure talk-aloudwriting dependablesource
10
23
variancecomponent
TOP 10 (E) 0
Peringkat TOP TOP 20 30 (F) (G) 0 0
essay-scores
timed-essays
canadiangrades
territoriesrespondents
1
1
1
evaluativemethodologies orientationfairness
writing-richcurriculum
1
1
1
hamp-lyons
1
1
1
1
1
1
mgenovabrennan
examineewriting ratingschemes
1
1
1
lexis
hoey-lexical
1
1
1
takerspreference crediblesummative generalizabil itycoefficient
1
1
1
1
1
1
0
0
27
textual-quality
test-takers minimalmodifications scorevariation
Tabel 6. Hasil perangkaian kata kunci dari teks selain abstrak dan referensi dan hasil temu kembali pada mesin pencari.
Rangkaian Kata Kunci Kata Kunci Kata Kata 1 Kunci 2 Kunci 3 (B) (C) (D)
No
DOK (A)
1
1
2
2
breakscomposing mcmillanstiggins
3
3
textual-analyses
4
4
raimes-tests
tests-alikehave
5
5
scardamalia
raimes
6
d-studiesdesign
different-dstudies
6
handwritingtyping stigginsconklin samplesfreshman
7
7
cohesion-hoey
analysis-hoey
8
8
9
9
marsellalewkowicz teacherssubconscious emphasisselfpeer
cumminggebril high-stakespressures selfpeerevaluation
10
10
exam-eslpe
PERINGKAT TOP TOP TOP 10 20 30 (E) (F) (G) 4 4 4
permeateswriting criteriologica l-contextual alikehavebrief sentencecohesion
1
1
1
3
3
3
1
1
1
6
6
6
raters-work
0
0
0
cohesiontexts essaycomposing
0
18
18
1
1
1
scores-dras
1
1
1
summativefeedback
0
0
0
8
Tabel 7 Hasil Perangkaian Kata Kunci dan Hasil Temu Kembali pada Mesin Pencari Menggunakan Teks pada Abstrak Tanpa Melalui Proses Pembentukan Frasa
N o
D O K (A)
1
1
heuristic
infrastructural
2
2
publishers
3
3
4
4
5
5
6
6
industrializati on -
7
7
enactment
8
8
9
9
10
10
Rangkaian Kata Kunci
PERINGKAT TOP 10 (E)
TOP 20 (F)
TOP 30 (G)
despecialization
1
1
1
advances
rhetorical
0
0
0
revolve
multi-phased
professionalizing
1
1
1
infovis
deluge
visualizations
3
3
3
Kata Kunci 1 (B)
Kata Kunci 2 (C)
Kata Kunci 3 (D)
pertains
scale
0
0
0
interconnectio n
-
0
0
0
affordances
0
0
0
programmatic
topoi
latours
2
2
2
rhetoricallybased
privileging
literacies
0
14
14
logics
undercut
invasions
0
0
0
Tabel 8 Contoh Hasil Temu Kembali Dokumen Menggunakan Kata Kunci yang Tersedia pada Abstrak Dokumen No
Dok
1
81
2
82
3
83
4
84
5
85
6
86
7
87
8
88
9
89
10
90
Kata Kunci Wikis; English for Academic Purposes; L2 writing; Collaborative writing; Metadiscourse ESP; English Lingua Franca; Non-Anglophone scholars; Language needs; ESP language policies India; Pakistan; Palestine; Peel; Radcliffe; Woodhead Space; Church; Pre-modern England Population migration; Climate change; Human response; Loess Plateau; Yellow River; Chinese history Climate change; Climate policy; Kyoto; UNFCCC; Carbon trading; Narrative Forestry; British Empire; Conferences; Resources; Conservation Zimbabwe; Forestry governance; Continuity; Indigenous knowledge systems (IKS) Planning; Revival; Settlement; Manche; Normandy; Saint-Lo Architecture; Germany; historic preservation; nationalism; Nazism; places of memory
Hasil temu kembali ini kemudian dihitung tingkat keberhasilannya menggunakan presisi dan recall. Hasil perhitungan presisi dan recall dapat dilihat pada Tabel 6 dan Tabel 7. Tabel 9 memperlihatkan nilai presisi dan recall untuk hasil temu kembali dokumen pada uji coba pertama, sedangkan Tabel 10 memperlihatkan nilai presisi dan recall untuk hasil temu kembali dokumen pada uji coba kedua. Terlihat pada Tabel 9, hasil perhitungan presisi mencapai 87,30%. Hal ini berarti untuk setiap 100 rangkaian kata kunci, 87 rangkaian berhasil menemukan kembali dokumen yang dimaksud pada 10 hasil teratas. Pada tabel tersebut juga terlihat bahwa hasil perhitungan
Top 10
Top 20
Top 30
3
3
3
2
2
2
1
1
1
1
1
1
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
recall mencapai lebih dari 84%. Hal ini berarti algoritma GLSD berhasil merangkai 84 kata kunci yang dapat menemukan kembali dokumen untuk setiap 100 dokumen. Sedangkan, berdasarkan Tabel 7, hasil temu kembali untuk uji coba kedua, nilai presisi untuk hasil temu kembali di 10 hasil teratas sebesar 79,69%. Hal ini berarti 79,69% rangkaian kata kunci yang telah dibangun berhasil mendapatkan kembali dokumen di 10 hasil pencarian pertama. Nilai presisi semakin tinggi untuk 20 hasil pertama dan 30 hasil pertama. Pada tabel tersebut juga terlihat nilai recall untuk 10 hasil pertama sebesar 79,07%. Hal ini berarti untuk setiap 100 dokumen, algoritma GLSD berhasil membuat sekitar
9
79 rangkaian kata kunci yang dapat menemukan kembali dokumen di 10 hasil pertama. Nilai recall ini terus bertambah untuk 20 hasil pertama dan 30 hasil pertama. Hasil perhitungan presisi dan recall untuk uji coba ketiga dapat dilihat pada Tabel 11. Pada tabel tersebut terlihat hasil perhitungan presisi pada urutan 10 teratas untuk uji coba ini adalah 50,59%. Perhitungan tersebut lebih rendah dibandingkan dengan hasil perhitungan presisi untuk uji coba pertama sebesar 87,30%, walaupun keduanya berasal dari bagian teks yang sama. Hal yang sama juga terjadi pada hasil perhitungan recall. Pada tabel ditunjukan recall untuk kelompok urutan 10 teratas uji coba ini adalah sebesar 33,08%, lebih rendah dibandingkan dengan recall untuk kelompok yang sama pada uji coba pertama, 84,62%. Tabel 9. Hasil perhitungan presisi dan recall hasil temu kembali dokumen pada uji coba menggunakan abstrak dokumen Presisi Recall 87,30% 84,62% TOP 10 88,89% 86,15% TOP 20 89,68% 86,92% TOP 30 Tabel 10. Hasil perhitungan presisi dan recall hasil temu kembali dokumen pada uji coba menggunakan bagian dokumen selain abstrak dan referensi Presisi
Recall
TOP 10
79,69%
79,07%
TOP 20
83,59%
82,95%
TOP 30
84,38%
83,72%
Tabel 11 Hasil Perhitungan Presisi dan Recall untuk Uji Coba Menggunakan Teks pada Abstrak Tanpa Melalui Proses Pembentukan Frasa
TOP 10 TOP 20 TOP 30
Presisi 50,59% 52,94% 55,29%
Recall 33,08% 34,62% 36,15%
Tabel 12 Hasil Perhitungan Presisi dan Recall untuk Uji Coba Menggunakan Kata Kunci yang Tersedia pada Abstrak
TOP 10
Presisi 92,11%
Recall 80,77%
TOP 20
92,11%
80,77%
TOP 30
92,98%
81,54%
Hasil perhitungan presisi dan recall untuk uji coba ini dapat dilihat pada Tabel 5.12. Pada tabel tersebut dapat dilihat bahwa nilai presisi untuk urutan 10 teratas hasil temu kembali dokumen adalah 92,11%. Hal ini berarti
jika terdapat 100 kata kunci yang dicoba, maka 92 buah didalamnya dapat menemukan kembali dokumen pada peringkat 10 teratas. Nilai recall untuk uji coba ini juga dapat dilihat pada Tabel 5.12. Pada tabel tersebut ditunjukan bahwa nilai recall untuk urutan 10 teratas hasil temu kembali dokumen adalah 80,77%. Hal ini berarti hampir semua dokumen memiliki kata kunci yang dapat menemukan kembali dokumen pada 10 urutan teratas.
5. Kesimpulan Setelah melakukan serangkaian uji coba pada sistem yang telah dibuat, didapatkan hasil bahwa jumlah kata hasil ekstraksi dokumen memengaruhi jumlah rangkaian kata kunci yang dapat dibangun dari kata-kata tersebut. Semakin banyak kata yang dapat diekstrak dari suatu dokumen, menyebabkan jumlah rangkaian kata kunci semakin banyak. Hal ini disebabkan dari pilihan kata dan frasa yang digunakan dalam dokumen. Jika dokumen tersebut mengandung banyak kata-kata khusus ataupun frasa tertentu dalam suatu bidang, maka rangkaian kata kunci yang dihasilkan semakin banyak. Selain itu, sistem berhasil membuat rangkaian kata kunci yang dapat mewakili isi dokumen sehingga rangkaian tersebut dapat menemukan kembali dokumen tersebut. Hal ini dapat dilihat dari hasil perhitungan recall pada Tabel 6 dan Tabel 7. Pada kedua tabel tersebut diperlihatkan bahwa perhitungan recall berada dalam kisaran 85% untuk uji coba pertama dan 80% untuk uji coba kedua. Sebagian besar rangkaian kata kunci yang dibangun menggunakan sistem dalam tugas akhir ini berhasil mendapatkan kembali dokumen dalam pencarian menggunakan mesin pencari. Hal ini dapat dilihat dari hasil perhitungan presisi pada Tabel 6 dan Tabel 7. Pada kedua tabel tersebut diperlihatkan bahwa perhitungan presisi berada dalam kisaran 88% untuk uji coba pertama dan 82% untuk uji coba kedua. Teks dari bagian abstrak lebih baik digunakan sebagai teks sumber dibandingkan dengan teks dari keseluruhan isi dokumen selain abstrak dan referensi. Hal ini karena nilai presisi dan recall uji coba pertama lebih besar dibandingkan dengan uji coba kedua. Perbedaan nilai presisi dan recall tersebut terjadi karena kata-kata yang berada pada seluruh isi dokumen tidak selalu fokus terhadap isi dokumen tersebut, berbeda dengan kata-kata pada bagian abstrak. Kata-kata bagian abstrak dipilih secara khusus oleh penulis agar dapat menggambarkan isi dokumen secara keseluruhan dengan singkat dan padat. Hanya sebagian dokumen saja yang dapat dibangun rangkaian kata kuncinya. Hal ini dapat dilihat dari nilai recall pada Tabel 11. Pada tabel tersebut diperlihatkan bahwa nilai recall untuk hasil pada urutan 10 teratas hanya bernilai 33,08%, dan 34,62% untuk urutan 20
10
teratas serta 36,15% untuk urutan 30 teratas. Kecilnya nilai recall ini dikarenakan sedikitnya satuan kata khusus yang terkandung dalam dokumen yang digunakan dalam uji coba sehingga beberapa dokumen tidak dapat dibuatkan rangkaian kata kuncinya. Hanya sebagian rangkaian kata kunci yang berhasil dibangun pada uji coba ketiga yang dapat menemukan kembali dokumen pada hasil pencarian menggunakan mesin pencari. Hal ini dapat dilihat pada hasil presisi pada Tabel 11 yang hanya berkisar 50% untuk setiap kelompok urutan. Kecilnya nilai presisi ini dikarenakan kata kunci yang terdapat dalam rangkaian hanya terdiri dari satu kata saja. Kata-kata tersebut tidak dapat mewakili isi dokumen secara keseluruhan karena bersifat umum. Nilai presisi uji coba keempat, menggunakan kata kunci yang telah tersedia pada bagian abstrak dokumen sebagai kata kunci pada mesin pencari, lebih besar dibandingkan dengan nilai presisi uji coba pertama, perangkaian kata kunci menggunakan teks bagian abstrak. Hal ini dikarenakan kata kunci yang telah disediakan pada bagian abstrak dokumen memang dipilih khusus oleh penulis dokumen tersebut untuk mewakili isi dokumen. Hal ini berbeda dengan rangkaian kata kunci dokumen yang telah berhasil dibangun pada uji coba pertama karena rangkaian tersebut dibangun secara otomatis menggunakan algoritma GLSD. Kata-kata dalam rangkaian tersebut dipilih secara otomatis melalui serangkaian proses agar didapatkan kata-kata khusus yang dapat mewakili isi dokumen. Nilai recall uji coba keempat lebih rendah dibandingkan dengan nilai recall uji coba pertama. Hal ini dikarenakan terdapat beberapa dokumen yang tidak menyediakan kata kunci pada bagian abstrak dokumen tersebut. Selain itu juga dikarenakan jumlah dokumen yang tidak menyediakan kata kunci lebih banyak dibandingkan dengan jumlah dokumen yang tidak dapat dibangun rangkaian kata kuncinya menggunakan algoritma GLSD.
[4] Cilibrasi, L. R., & Vitanyi, M. P. (2007). The Google Similarity Distance. IEEE Transaction on Knowledge and Data Engineering , 19 (3), 370-383.
Daftar Referensi [1] Borges, J., & Lavene, M. (2007). Evaluating Variable-length Markov Chain Models for Analysis of User Web Navigation Sessions. IEEE Transaction on Knowledge and Data Engineering, (pp. 441-452). [2] Chen, P. I., & Lin, S. J. (2010). Automatic Keyword using Google Similarity Distance. Expert Systems with Applications , 1928-1938. [3] Chen, P. I., Lin, S. J., & Chu, C. Y. (2011). Using Google Latent Semantic Distance to Extract the Most Relevant Information. Expert Systems with Applications , 7349-7358.
11