PERINGKASAN ABSTRAK MAKALAH ILMIAH UNTUK PEMBANGKITAN JUDUL SECARA OTOMATIS
Laporan Tugas Akhir
Disusun sebagai syarat kelulusan tingkat sarjana
Oleh
JAN WIRA GOTAMA PUTRA NIM : 13512015
PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA INSTITUT TEKNOLOGI BANDUNG JUNI 2016
PERINGKASAN ABSTRAK MAKALAH ILMIAH UNTUK PEMBANGKITAN JUDUL SECARA OTOMATIS
Laporan Tugas Akhir
Oleh
JAN WIRA GOTAMA PUTRA NIM : 13512015 Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung
Telah disetujui dan disahkan sebagai Laporan Tugas Akhir di Bandung, pada tanggal 8 Juni 2016
Pembimbing,
Dr. Masayu Leylia Khodra, S.T., M.T. NIP 19760429 200812 2001
LEMBAR PERNYATAAN Dengan ini saya menyatakan bahwa: 1.
Pengerjaan dan penulisan Laporan Tugas Akhir ini dilakukan tanpa menggunakan bantuan yang tidak dibenarkan.
2.
Segala bentuk kutipan dan acuan terhadap tulisan orang lain yang digunakan di dalam penyusunan laporan tugas akhir ini telah dituliskan dengan baik dan benar.
3.
Laporan Tugas Akhir ini belum pernah diajukan pada program pendidikan di perguruan tinggi mana pun.
Jika terbukti melanggar hal-hal di atas, saya bersedia dikenakan sanksi sesuai dengan Peraturan Akademik dan Kemahasiswaan Institut Teknologi Bandung bagian Penegakan Norma Akademik dan Kemahasiswaan khususnya Pasal 2.1 dan Pasal 2.2.
Bandung, 8 Juni 2016
Jan Wira Gotama Putra NIM 13512015
iii
ABSTRAK
PERINGKASAN ABSTRAK MAKALAH ILMIAH UNTUK PEMBANGKITAN JUDUL SECARA OTOMATIS Oleh JAN WIRA GOTAMA PUTRA NIM : 13512015 Judul merupakan bagian yang sangat penting bagi makalah ilmiah karena mencerminkan isi makalah secara singkat. Judul digunakan sebagai indikator relevansi saat melakukan pencarian literatur. Namun, penulis makalah pada umumnya hanya mengalokasikan sedikit waktu dalam membuat judul makalah sehingga terkadang tidak merepresentasikan isi makalah. Karena pentingnya judul bagi makalah, Tugas Akhir ini akan membantu pemakalah (khususnya pemula) untuk memberikan kandidat judul yang baik bagi makalahnya. Pembangkitan judul makalah ilmiah dapat dianggap sebagai suatu tugas peringkasan dokumen. Aspek kategori retorik kalimat dapat dimanfaatkan dalam pemilihan informasi penting. Kategori retorik kalimat merupakan tipe informasi yang disampaikan dalam suatu kalimat. Tahap penyajian judul makalah ilmiah pada Tugas Akhir ini memanfaatkan metode template, dan Adaptive K-NearestNeighbor (AKNN). Metode AKNN memiliki kinerja terbaik untuk pembangkitan judul makalah baik dari segi F1-Measure dibandingkan metode template (0.210.32), relevansi (2.205-2.237), dan keterbacaan (1.684-2.405). Secara umum, pemanfaatan kategori retorik dapat meningkatkan kinerja pembangkitan judul makalah otomatis. Teks yang berasal dari domain berbeda perlu diperlakukan berbeda dalam peringkasan dokumen dengan memperhatikan kategori retorik kalimat. Kata kunci: peringkasan dokumen, pembangkitan judul makalah otomatis, kategori retorik kalimat, Adaptive K-Nearest-Neighbor. iv
KATA PENGANTAR
Puji syukur penulis panjatkan pada kehadirat Tuhan Yang Maha Esa, karena atas berkat dan rahmat-Nya penulis dapat menyelesaikan Tugas Akhir ini. Pada kesempatan ini, penulis ingin mengucapkan terima kasih pada berbagai pihak yang telah berkontribusi baik secara material maupun moral pada pengerjaan Tugas Akhir ini: 1. Ibu Dr. Masayu Leylia Khodra, S.T., M.T. selaku pembimbing yang telah mengarahkan Tugas Akhir ini dengan sangat baik. Penulis juga berterima kasih atas dukungan moral yang diberikan. 2. Ibu Dr. Nur Ulfa Maulidevi, S.T., M.Sc, dan Bapak Dr. techn. Saiful Akbar, S.T., M.T. selaku penguji sidang TA dan memberikan banyak masukan. 3. Seluruh pengajar program studi Teknik Informatika, karena telah mengajarkan ilmu yang cukup untuk mengerjakan Tugas Akhir. 4. Katsuhide Fujita, Ph.D selaku pembimbing riset kerja praktek saya di Tokyo University of Agriculture and Technology yang memberikan ide sebagai topik Tugas Akhir ini. 5. Tidak lupa saya ucapkan terima kasih kepada teman-teman saya yang membantu mengisi kuisioner evaluasi Tugas Akhir ini. Tanpa temanteman, Tugas Akhir ini tidak akan lancar. 6. Keluarga yang senantiasa memberikan dukungan moral.
v
DAFTAR ISI
BAB I PENDAHULUAN.......................................................................................1 I.1
Latar Belakang ............................................................................................1
I.2
Rumusan Masalah.......................................................................................3
I.3
Tujuan .........................................................................................................4
I.4
Batasan Masalah .........................................................................................4
I.5
Metodologi..................................................................................................4
I.6
Sistematika Pembahasan.............................................................................5
BAB II STUDI LITERATUR ...............................................................................6 II.1 Peringkasan Dokumen ................................................................................6 II.2 Representasi Dokumen ...............................................................................8 II.2.1 Praproses Bahasa Alami ......................................................................9 II.2.2 Pembobotan Term ..............................................................................11 II.3 Metode Pembangkitan Teks Bahasa Alami ..............................................12 II.4 Klasifikasi Retorik ....................................................................................14 II.5 Minimum Edit Distance............................................................................20 II.6 Penelitian Terkait Pembangkitan Judul Secara Otomatis .........................21 II.6.1 Jin & Hauptmann ...............................................................................21 II.6.2 Chen & Lee ........................................................................................22 II.6.3 Sheng-yi, dkk. ....................................................................................23 II.7 Penelitian Terkait Peringkasan Makalah Ilmiah Secara Otomatis ...........24 BAB III ANALISIS PERSOALAN DAN DESKRIPSI SOLUSI ....................26 III.1
Analisis Pembangkitan Judul Otomatis.................................................26
III.2
Proses Eksperimen Pembangkit Judul Otomatis ...................................27 vi
III.2.1
Praproses.........................................................................................28
III.2.2
Pencarian Informasi Penting ...........................................................30
III.2.3
Penentuan Template Judul ..............................................................33
III.2.4
Pembangkitan Judul........................................................................36
III.3
Implementasi .........................................................................................39
III.3.1
Modul Pra-Proses ...........................................................................40
III.3.2
Modul Pencarian Informasi Penting ...............................................41
III.3.3
Modul N-Gram ...............................................................................41
III.3.4
Modul Template Judul ....................................................................42
III.3.5
Modul Pembangkitan Judul ............................................................42
III.4
Pengujian Eksperimen ...........................................................................43
III.5
Anotasi Data ..........................................................................................43
BAB IV EKSPERIMEN .....................................................................................46 IV.1
Tujuan Eksperimen ...............................................................................46
IV.2
Skenario Eksperimen.............................................................................46
IV.2.1
Klasifikasi Retorik ..........................................................................46
IV.2.2
Pembangkitan Judul Otomatis ........................................................47
IV.3
Model Klasifikasi Retorik .....................................................................48
IV.4
Pembangkitan Judul ..............................................................................56
IV.5
Evaluasi Penilaian Manusia ..................................................................61
BAB V SIMPULAN DAN SARAN.....................................................................64 V.1 Simpulan ...................................................................................................64 V.2 Saran .........................................................................................................65
vii
DAFTAR LAMPIRAN
Lampiran A. PennTreeBank POS Tag .................................................................. 69 Lampiran B. Tipe Aksi dan Ekspresi Formula pada Kalimat ............................... 70 Lampiran C. Lexicon (Adaptasi Teufel, 1999) ..................................................... 71 Lampiran D. Eksperimen Pembangkitan Judul Domain CS, Menggunakan 632 Data ....................................................................................................................... 72 Lampiran E. Eksperimen Pembangkitan Judul Domain GaN, Menggunakan 486 Data ....................................................................................................................... 74 Lampiran F. Eksperimen Pembangkitan Judul Domain CS, Menggunakan 250 Data Tambahan ..................................................................................................... 77 Lampiran G. Eksperimen Pembangkitan Judul Domain GaN, Menggunakan 250 Data Tambahan ..................................................................................................... 78
viii
DAFTAR GAMBAR
Gambar II.1. Judul Makalah Ilmiah dengan Pendekatan Ekstraktif. .......................7 Gambar II.2. Judul Makalah Ilmiah dengan Pendekatan Abstraktif. .......................7 Gambar II.3. Contoh Konstruksi Abstrak Makalah Ilmiah pada domain NLP (O'Seaghdha & Teufel, 2014) ................................................................................20 Gambar II.4. Pseudo Code Minimum Edit Distance (Jurafsky & Martin, 2009). .20 Gambar II.5. Adaptive K-Nearest-Neighbor (Chen & Lee, 2003). .......................23 Gambar III.1. Tahapan Proses Eksperimen. ..........................................................28 Gambar III.2. Template Judul terpilih....................................................................35 Gambar III.3. Ilustrasi Implementasi .....................................................................40 Gambar IV.1. Model J48 CS..................................................................................53 Gambar IV.2. Model J48 GaN. ..............................................................................53 Gambar IV.3. Eksperimen Pembangkitan Judul domain CS (data latih). .............56 Gambar IV.4. Perbandingan Kinerja Pembangkitan Judul domain CS (data latih) terhadap Baseline. ..................................................................................................57 Gambar IV.5. Eksperimen Pembangkitan Judul domain GaN (data latih). ...........57 Gambar IV.6. Perbandingan Kinerja Pembangkitan Judul domain GaN (data latih) terhadap Baseline. ..................................................................................................58 Gambar IV.7. Eksperimen Pembangkitan Judul domain CS (250 data tambahan). ................................................................................................................................58 Gambar IV.8. Perbandingan Kinerja Pembangkitan Judul domain CS (250 data tambahan) terhadap Baseline. ................................................................................59 Gambar IV.9. Eksperimen Pembangkitan Judul domain GaN (250 data tambahan). ................................................................................................................................59
ix
Gambar IV.10. Perbandingan Kinerja Pembangkitan Judul domain GaN (250 data tambahan) terhadap Baseline. ................................................................................60
x
DAFTAR TABEL
Tabel II.1. Micro Planning Items (Clark, 2010). ...................................................13 Tabel II.2. Skema Anotasi untuk Kategori Retorik (Teufel S. dkk., 2009) ...........15 Tabel II.3. Contoh kalimat untuk Kategori Retorik (Teufel S. dkk., 2009)...........16 Tabel II.4. Fitur Klasifikasi Retorik (Teufel & Moens, 1999)...............................17 Tabel II.5. Jumlah Kalimat Abstrak per Kategori Retorik (Khodra dkk., 2011) ...19 Tabel II.6. Contoh Eksekusi Minimum Edit Distance (Jurafsky & Martin, 2009). ................................................................................................................................21 Tabel II.7. Fitur Klasifikasi Kalimat Kandidat Ringkasan (Contractor dkk., 2012). ................................................................................................................................25 Tabel III.1. Fitur Klasifikasi Kalimat Retorik. ......................................................32 Tabel III.2. POS tag Pola Pengembangan Judul Dataset CS. ...............................35 Tabel III.3. POS tag Pola Pengembangan Judul Dataset GaN. .............................35 Tabel III.4. Frasa Pre-defined untuk POS tag tercadang. ......................................36 Tabel III.5. Implementasi Kelompok Fungsional Pra-Proses. ...............................40 Tabel III.6. Implementasi Kelompok Fungsional Pencarian Informasi Penting. ..41 Tabel III.7. Contoh Statistik Bigram......................................................................42 Tabel III.8. Hasil Anotasi Dataset CS. ..................................................................44 Tabel III.9. Hasil Anotasi Dataset GaN.................................................................44 Tabel III.10. Pola Pengembangan Abstrak. ...........................................................44 Tabel IV.1. Kinerja Model yang Dilatih Menggunakan Dataset CS, 10-Fold-Cross Validation...............................................................................................................48 Tabel IV.2. Kinerja Model yang Dilatih Menggunakan Dataset GaN, 10-FoldCross Validation.....................................................................................................49
xi
Tabel IV.3. Kinerja Model yang Dilatih Menggunakan Dataset CS, Dievaluasi Menggunakan Dataset GaN...................................................................................49 Tabel IV.4. Kinerja Model yang Dilatih Menggunakan Dataset GaN, Dievaluasi Menggunakan Dataset CS. ....................................................................................50 Tabel IV.5. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, 10-Fold-Cross Validation.......................................................................................50 Tabel IV.6. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, 10-Fold-Cross Validation. ............................................................................51 Tabel IV.7. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, Evaluasi On-the-run (dengan SMOTE). ................................................................51 Tabel IV.8. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, Evaluasi On-the-run (dengan SMOTE). .....................................................51 Tabel IV.9. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, Evaluasi On-the-run (Tanpa SMOTE)...................................................................52 Tabel IV.10. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, Evaluasi On-the-run (Tanpa SMOTE). .......................................................52 Tabel IV.11. Kinerja Model yang Dilatih Menggunakan Dataset CS+GaN .........53 Tabel IV.12. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS+GaN, Evaluasi On-The-Run. ...........................................................................54 Tabel IV.13. Hubungan Penambahan Data Latih pada Kinerja (Testing On-therun).........................................................................................................................54 Tabel IV.14. Contoh Kalimat Salah Klasifikasi ....................................................55 Tabel IV.15. Evaluasi Penilaian Manusia, Nilai Relevansi dan Keterbacaan. ......62 Tabel IV.16. Evaluasi Penilaian Manusia, Nilai Cronbach Alpha. .......................62
xii
BAB I PENDAHULUAN
Pada bab ini, akan dibahas mengenai latar belakang mengapa Tugas Akhir ini perlu dilaksanakan. Rumusan masalah, tujuan, batasan masalah serta metodelogi juga dipaparkan untuk memberikan gambaran tentang Tugas Akhir ini. I.1
Latar Belakang
Judul merupakan nama yang dipakai untuk karangan yang dapat menyiratkan secara singkat isi atau maksud dari karangan tersebut (KBBI, 2015; Xu dkk., 2015). Jamali dan Nikzad (2011) mengatakan bahwa sebuah judul memainkan peranan yang sangat penting bagi artikel ilmiah karena judul mengindikasikan subjek utama dari suatu artikel. Judul makalah ilmiah juga digunakan oleh pengguna mesin pencari sebagai sumber informasi utama untuk menentukan relevansi sebuah dokumen pada saat melakukan pencarian literatur. Penulis makalah menghabiskan sebagian besar waktu untuk bagian isi makalah. Proses pembuatan judul mendapatkan lebih sedikit perhatian sehingga judul makalah ilmiah terkadang tidak merepresentasikan isi makalah. Sebuah judul makalah ilmiah seharusnya pendek, yaitu memuat 2-10 kata, mengandung tujuan penelitian serta relevan dengan kebutuhan (Colemares dkk., 2015). Hubungan sebuah judul makalah ilmiah terhadap suatu makalah ilmiah dapat dimanifestasikan dalam jumlah unduhan maupun kutipan terhadap makalah tersebut (Jamali dan Nikzad, 2011). Gaya penulisan judul makalah ilmiah juga memiliki hubungan terhadap jumlah unduhan suatu makalah, yang berakibat pada kemungkinan suatu makalah dikutip menjadi lebih besar. Tugas Akhir ini melakukan eksperimen yang menghasilkan kandidat judul suatu makalah ilmiah dalam waktu singkat. Pembangkitan judul makalah ilmiah secara otomatis memiliki kaitan yang erat dengan pembangkitan ringkasan (Sheng-yi dkk., 2008; Xu dkk., 2015; Colmenares dkk., 2015). Judul dapat dipandang sebagai ringkasan suatu dokumen dalam versi yang sangat pendek (Jin dan 1
Hauptmann, 2001; Xu dkk., 2015). Pembangkitan judul memiliki karakteristik khusus dalam artian memiliki tingkat kompresi yang tinggi. Walaupun memiliki jumlah kata yang sedikit, tetapi sebuah judul harus dapat mengekspresikan seluruh konsep yang dimiliki oleh suatu dokumen (Xu dkk., 2015). Secara umum, informasi yang terkandung dalam suatu dokumen sering tersebar pada beberapa kalimat (Witbrock, 1999; Teufel dkk., 2009). Hal tersebut menyebabkan pembangkitan judul yang mewadahi keseluruhan ide dokumen memiliki tantangan untuk mengidentifikasi konsep penting serta penyusunan konsep menjadi judul. Terdapat beberapa penelitian yang sudah ada terkait pembangkitan judul secara otomatis yang dilakukan dengan pendekatan peringkasan ekstraktif (Jin & Hauptmann, 2001; Chen & Lee, 2003; Sheng-yi dkk., 2008). Namun, penelitian yang sudah dilakukan hanya diaplikasikan untuk berita, walaupun terdapat juga kebutuhan pembangkitan judul makalah ilmiah. Tahapan kerja pembangkitan suatu judul bagi dokumen dimulai dari mencari terms penting yang merepresentasikan isi dokumen, dan menyusunnya menjadi judul yang menarik untuk dibaca oleh manusia (Jin & Hauptmann, 2001; Chen & Lee, 2003; Sheng-yi dkk., 2008). Kinerja terbaik aplikasi pembangkit judul secara otomatis pada dataset berita yang disebutkan berasal dari penelitian Chen & Lee (2003) dengan skor F1Measure berkisar pada 0.35-0.4. Penelitian tersebut memanfaatkan algoritma Adaptive K-Nearest Neighbor pada dataset potongan berita berbahasa Mandarin di Taipei. Peringkasan makalah ilmiah memiliki pendekatan yang berbeda dengan berita. Kalimat dengan kategori retorik tertentu cenderung mewadahi konsep makalah ilmiah secara lebih dalam dibanding kalimat dengan kategori retorik lainnya. Informasi pada judul makalah ilmiah pada umumnya dapat ditemukan pada kalimat tujuan (AIM) dan metode (OWN_MTHD) pada abstrak makalah ilmiah (Jamali dan Nikzad, 2011, Contractor, 2012; Akhman, 2013; P. Carlos dkk. 2012; Letchford, dkk., 2015; Elliot, 2008; Elmslie, 2014; Academic Learning Centre, 2016). Klasifikasi kalimat tujuan dan metode tersebut disebut klasifikasi retorik kalimat. Salah satu cara yang dapat membangkitkan judul adalah dengan 2
mempertimbangkan kategori retorik kalimat (Teufel dan Moens, 2002; Teufel dkk., 2009). Peringkasan makalah ilmiah secara otomatis dengan pendekatan ekstraktif dengan mempertimbangkan kategori retorik kalimat sudah dilakukan oleh Contractor dkk. (2012) untuk pembangkitan ringkasan berupa abstrak dengan skor F1-Measure terbaik sebesar 0.27. Tetapi, pembangkitan judul makalah ilmiah secara otomatis belum dilakukan. Tugas Akhir ini bertujuan untuk melakukan eksperimen pembangkit judul makalah ilmiah secara otomatis dengan mempertimbangkan aspek kategori retorik kalimat. Proses-proses pada eksperimen akan memberikan beberapa judul yang dibangkitkan dengan pendekatan pembangkitan bahasa alami berbasis template dan Adaptive K-Nearest Neighbor berdasarkan pemrosesan terhadap abstrak makalah ilmiah. Abstrak makalah ilmiah dipilih karena mudah didapat, tidak terlalu panjang serta mampu merepresentasikan ide penelitian secara singkat (Putra & Fujita, 2015). I.2
Rumusan Masalah
Karena judul merupakan bagian yang sangat penting bagi makalah ilmiah, Tugas Akhir ini akan mengerjakan eksperimen yang mampu membangkitkan judul secara otomatis untuk memberikan kandidat judul bagi penulis makalah ilmiah. Terdapat tiga tantangan pada Tugas Akhir ini. Pertama, pekerjaan pembangkitan judul secara otomatis belum banyak diterapkan pada domain teks makalah ilmiah. Kedua, judul makalah ilmiah merupakan ringkasan makalah ilmiah dengan tingkat kompresi yang tinggi, yaitu memiliki jumlah kata yang sedikit. Ketiga, dalam kasus pembangkitan judul, terutama pada domain makalah ilmiah, kategori retorik AIM (tujuan penelitian) dan OWN_MTHD (metode penelitian) pada makalah ilmiah perlu diperhatikan. Kalimat dengan kategori retorik AIM dan OWN_MTHD cenderung mewadahi ide spesifik penelitian. Rumusan masalah pada Tugas Akhir ini adalah bagaimana pengaruh penggunaan kategori retorik untuk pembangkitan judul makalah ilmiah secara otomatis.
3
I.3
Tujuan
Tujuan yang ingin dicapai dalam Tugas Akhir ini adalah melakukan eksperimen pembangkitan judul otomatis bagi suatu teks makalah ilmiah secara umum dengan memperhatikan kategori retorik kalimat. Dengan proses pembangkit judul otomatis, penulis dapat memiliki beberapa kandidat suatu kalimat judul yang cukup bagus bagi makalah ilmiahnya. I.4
Batasan Masalah
Batasan masalah pada Tugas Akhir ini, yaitu corpus teks yang digunakan dalam pengerjaan Tugas Akhir ini berasal dari domain kimia (GaN) dan ilmu komputer (CS). Domain yang digunakan sengaja berbeda untuk mengevaluasi apakah metode yang diterapkan berkinerja baik untuk domain berbeda. Makalah yang digunakan pada penelitian ini terbatas pada makalah berbahasa Inggris. Prosesproses pada eksperimen ini bersifat domain-dependent, yaitu sensitif terhadap bahasa, dan bidang dataset yang digunakan. I.5
Metodologi
Metodologi yang digunakan dalam pengerjaan Tugas Akhir ini adalah: 1. Studi Literatur dan Eksplorasi Kakas Hal yang dilakukan pada tahap ini adalah studi literatur untuk mempelajari metode-metode yang sudah ada untuk mencari istilah-istilah penting yang dapat dimuat pada judul suatu makalah ilmiah, penyusunan kalimat otomatis serta sistem atau aplikasi yang sudah ada. Selain itu, studi literatur juga berguna untuk mencari landasan teori untuk membangun solusi yang lebih baik untuk sistem pembangkitan judul. Eksplorasi kakas dilakukan untuk mempelajari kakas-kakas yang membantu dalam mengembangkan sistem. 2. Analisis & Desain Solusi Pada tahap ini, analisis karakteristik judul yang baik dilakukan untuk mendapatkan gambaran umum mengenai kriteria judul yang harus dibangkitkan. Diharapkan, dengan memiliki gambaran karakteristik 4
tersebut, proses untuk membangkitkan judul makalah ilmiah secara otomatis dapat dikembangkan secara lebih baik. Pada tahap ini, arsitektur solusi juga dirancang. 3. Pengembangan Prototipe Pembangkit Judul Otomatis Pada tahap ini, dilakukan pengembangan prototipe pembangkit judul otomatis bagi makalah ilmiah dengan memanfaatkan corpus data yang ada serta berbagai macam metode. 4. Eksperimen Pada tahap ini, percobaan dilakukan untuk menciptakan model klasifikasi retorik terbaik, serta konfigurasi pembangkitan bahasa alami terbaik (berbasis
template
atau
Adaptive
K-Nearest-Neighbor)
dalam
pembangkitan judul secara otomatis. 5. Evaluasi dan Penarikan Kesimpulan Evaluasi akan dilakukan dengan 2 cara yaitu: penilaian secara otomatis (Putra & Fujita, 2015) serta penilaian oleh manusia untuk kualitas judul makalah ilmiah yang dibangkitkan oleh mesin. Penarikan kesimpulan dilakukan berdasarkan hasil evaluasi pengujian eksperimen pembangkit makalah ilmiah otomatis. I.6
Sistematika Pembahasan
Laporan Tugas Akhir ini dibagi menjadi 5 Bab. Bab I memberikan gambaran umum mengenai Tugas Akhir meliputi: latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, serta sistematika pembahasan. Bab II membahas studi literatur terkait yang mendukung pengerjaan Tugas Akhir ini, meliputi: peringkasan dokumen, representasi dokumen, metode pembangkitan teks bahasa alami, klasifikasi retorik, minimum edit distance, serta penelitian terkait yang mendukung pengerjaan tugas akhir ini. Bab III berisi analisis persoalan serta deskripsi solusi yang ditawarkan. Bab IV memuat hasil eksperimen serta analisis. Bab V memuat simpulan dan saran.
5
BAB II STUDI LITERATUR
Pada bab ini dibahas tentang studi literatur yang mendukung pengerjaan Tugas Akhir ini. Studi literatur mencakup peringkasan dokumen, pembangkitan bahasa alami (natural language generation) , representasi dokumen, klasifikasi retorik, serta metode pemeriksaan kecocokan judul makalah ilmiah secara otomatis. II.1 Peringkasan Dokumen Judul suatu makalah ilmiah merupakan ringkasan makalah ilmiah dengan versi yang sangat singkat. Pembangkitan judul suatu dokumen secara otomatis dapat dipandang sebagai peringkasan dokumen, yaitu kegiatan membuat dokumen dengan versi yang lebih singkat (Jin & Hauptmann, 2001). Sebuah ringkasan merupakan bentuk penyajian kembali informasi penting dari dokumen asli (Khan & Salim, 2014). Secara umum, dari segi hasil, pendekatan peringkasan dokumen dapat dipandang dari segi ekstraktif maupun segi abstraktif (Khan & Salim, 2014). Dari segi jumlah input, pendekatan peringkasan dokumen dapat dipandang dari segi dokumen tunggal maupun multi dokumen (Jurafsky & Martin, 2009). Pendekatan peringkasan secara ekstraktif merupakan pendekatan peringkasan dokumen dengan cara mencari unit penting (Wong dkk., 2008). Unit penting tersebut dapat diakuisisi dari kalimat-kalimat yang penting. Peringkasan ekstraktif dapat dipandang sebagai permasalahan klasifikasi untuk memisahkan antara kalimat penting dan tidak penting dalam teks (Kupiec, 1995; Wong dkk., 2008). Hanya kalimat-kalimat yang penting saja yang akan diseleksi untuk masuk dalam ringkasan ekstraktif. Peringkasan abstraktif merupakan peringkasan dengan cara melakukan parafrasa informasi yang terdapat pada teks, berbeda dengan peringkasan ekstraktif yang mungkin mengandung potongan teks (Contractor dkk., 2012). Dengan pendekatan ini, versi lebih singkat dokumen dibuat dengan pembangkitan kalimat baru dari kumpulan informasi penting yang diekstraksi. Gambar II.1 adalah contoh judul 6
makalah ilmiah yang dibuat menggunakan pendekatan ekstraktif. Gambar II.2 adalah contoh judul makalah ilmiah yang dibuat menggunakan pendekatan abstraktif. JUDUL = EFFICIENT PARSING STRATEGIES FOR SYNTACTIC ANALYSIS OF CLOSED CAPTIONS ABSTRAK = We present an efficient multi-level chart parser that was designed for syntactic analysis of closed captions (subtitles) in a real-time Machine Translation (MT) system. In order to achieve high parsing speed, we divided an existing English grammar into multiple levels. The parser proceeds in stages. At each stage, rules corresponding to only one level are used. A constituent pruning step is added between levels to insure that constituents not likely to be part of the final parse are removed. This results in a significant parse time and ambiguity reduction. Since the domain is unrestricted, out-of-coverage sentences are to be expected and the parser might not produce a single analysis spanning the whole input. Despite the incomplete parsing strategy and the radical pruning, the initial evaluation results show that the loss of parsing accuracy is acceptable. The parsing time favorable compares with a Tomita parser and a chart parser parsing time when run on the same grammar and lexicon.
Gambar II.1. Judul Makalah Ilmiah dengan Pendekatan Ekstraktif.
JUDUL = HETEROEPITAXY OF GALLIUM NITRIDE ON (0001), [(1)OVER-BAR012] AND [10(1)OVER-BAR-0] SAPPHIRE SURFACES ABSTRAK = The structure, surface morphology and photoluminescence properties for the undoped GaN films grown on the (0001), (1012BAR) and (1010BAR) alpha-Al2O3 substrates have been investigated using the halide vapor phase epitaxy (HVPE) method with the Ga/HCl/NH3/He system. X-ray diffratometer (XRD), reflection high energy electron diffraction (RHEED) and scanning electron microscopy (SEM) are used for the study of the structure and surface morphology of the film. The luminescence property is assessed by photoluminescence (PL) measurement at room temperature. The following orientation relationships are observed; (0001) GaN/(0001) Al2O3, (1120BAR) GaN/(1012BAR) Al2O3, and (1013BAR) and (1212BAR) GaN/(1010BAR) Al2O3. The (1013BAR) GaN films possess two types of surface morphology depending upon the growth conditions. A possible reason for this phenomenon is discussed. The optimum growth conditions of the GaN films for each orientation are established. The qualities of the films showing different orientations are compared. For the (1013BAR) GaN films, it is observed that the higher the growth temperature, the better the crystal structure and the smoother the surface morphology. The relative intensities of (1212BAR) and (1013BAR) films grown al higher temperature are much lower by several ten times than those of (0001), (1120BAR) and (1013BAR) GaN film grown at lower temperature.
Gambar II.2. Judul Makalah Ilmiah dengan Pendekatan Abstraktif.
7
Pada Gambar II.1, semua term yang membentuk judul muncul pada abstrak. Pada Gambar II.2, kasus abstraksi membutuhkan latar belakang pengetahuan dalam pembuatan kalimat, misal bahwa GaN merupakan Gallium Nitride. Berdasarkan data penelitian Putra & Fujita (2015) terhadap hubungan kemunculan term pada judul dan abstrak makalah ilmiah, sebagian besar term (70-80%) yang muncul pada judul makalah ilmiah merupakan term yang ada pada bagian abstrak makalah ilmiah. II.2 Representasi Dokumen Agar dokumen dapat diproses oleh mesin, dokumen harus direpresentasikan dalam
bentuk
yang
dapat
dimengerti
oleh
mesin.
Dokumen
dapat
direpresentasikan dalam berbagai macam bentuk, seperti string, lexical, syntactic+structure, entities+relation, dan logic + predicates (Jurafsky & Martin, 2009). Pada umumnya, dokumen direpresentasikan dalam bag of words (lexical). Hal tersebut karena representasi pada aras leksikal merupakan representasi yang sering digunakan pada penlitian. Dengan hal tersebut, analisis pada fitur leksikal dapat diaplikasikan dalam berbagai macam bidang, sehingga analisis tersebut bersifat domain independent (Hovy & Lin, 1999). Dalam peringkasan dokumen, identifikasi informasi penting merupakan hal yang sangat krusial (Khan dan Salim, 2014). Informasi penting dapat ditemui dalam kalimat-kalimat penting. Wong, dkk. (2008) menggunakan kalimat sebagai unit informasi penting. Terdapat beberapa fitur yang perlu diperhatikan dalam menilai tingkat kepentingan suatu kalimat (Wong dkk., 2008), diantaranya yaitu: 1. Surface Features Surface Features digunakan dalam penilaian kalimat dari sisi struktur dokumen, mencakup posisi kalimat pada dokumen dan panjang kalimat. Pada penulisan dengan ragam deduktif, kalimat pertama pada sebuah paragraf merupakan kalimat penting. Suatu kalimat yang baik pada umumnya tersusun atas 15-20 kata. Apabila suatu kalimat terlalu panjang atau terlalu pendek, maka dapat diasumsikan bahwa kalimat tersebut tidak relevan (Wong dkk., 2008).
8
2. Content Features Content Features digunakan untuk menilai kalimat berdasarkan nilai konten yang dimuat oleh kalimat tersebut. Nilai konten tersebut dapat dilihat dari sisi jumlah term penting pada kalimat tersebut. Misal, cue terms (“in summary”, “in conclusion”), term kunci dengan bobot tinggi tinggi, serta kata benda. Contohnya pada Gambar II.1 kalimat ke-1 penting karena memuat cue (present) yang menyatakan tujuan penelitian. Adapun menurut Teufel dan Moens (2002), discourse structure harus diperhatikan dalam peringkasan dokumen. Discourse merupakan kerangka struktur informasi dalam sebuah dokumen. Dokumen tertentu memiliki kerangka penulisan yang khas, bagian dari kerangka tertentu dapat memberikan indikator kepentingan kalimatnya dalam peringkasan. Contoh spesifik pada makalah ilmiah, terdapat berbagai bagian seperti metode, eksperimen, serta pekerjaan yang sudah ada. Teks pada
makalah
ilmiah
dapat
dibagi
menjadi
kategori-kategori
seperti
OWN_METHD, OWN_RES, OWN_CONC, OTHR, USE, AIM, FUT, dan NOV_ADV. Himpunan kategori ini akan dibahas lebih mendalam pada bagian Klasifikasi Retorik (subbab II.4). II.2.1 Praproses Bahasa Alami Suatu dokumen pada umumnya melewati beberapa tahap praproses bahasa alami. Tujuan dari tahap-tahap tersebut adalah untuk mengkonversi dokumen menjadi term agar lebih mudah untuk diproses lebih lanjut. Beberapa tahap praproses mencakup pemisahan kalimat, tokenisasi, POS tagging, lematisasi dan penghapusan stop words. 1. Pemisahan Kalimat Pemisahan kalimat adalah proses untuk menentukan tempat-tempat pemisah antara kalimat pada suatu teks. Perhatikan contoh berikut dalam penerapan pemisahan kalimat. It is difficult to identify sentence importance from a single point of view. In this paper, we propose a learning-based approach to combine various sentence features. They are categorized as surface, content, relevance and event features.
9
Setelah pemisahan kalimat, maka teks tersebut menjadi Kalimat 1 = It is difficult to identify sentence importance from a single point of view. Kalimat 2 = In this paper, we propose a learning-based approach to combine various sentence features. Kalimat 3 = They are categorized as surface, content, relevance and event features.
2. Tokenisasi Tokenisasi adalah proses memecahkan teks menjadi potongan-potongan lebih kecil yang disebut token. Token (term) dapat berupa kata, angka, maupun tanda baca. Misal sebuah teks “It is difficult to identify sentence importance from a single point of view.”, setelah melalui proses tokenization menjadi [It, is, difficult, to, identify, sentence, importance, from, a, single, point, of, view]. 3. POS Tagging POS
tagging
(part
of
speech
tagging)
merupakan
proses
untuk
mengklasifikasikan kelas kata (noun, verb, dsb). Hal tersebut berguna untuk analisis konteks (word sense disambiguation), maupun analisis sintaksis kata. POS Tagging pada umumnya memanfaatkan kelas kata yang berasal dari PennTreeBank. Misal, sebuah kalimat “It is difficult to identify sentence importance from a single point of view.” memiliki POS Tag [PRP, VBZ, JJ, VB, NN, NN, IN, DT, JJ, NN, IN, NN]. Keterangan daftar POS tag beserta artinya dapat dilihat pada Lampiran A. 4. Lematisasi Lematisasi adalah proses mengubah sebuah kata menjadi bentuk dasarnya, misal kata “employing” menjadi “employ”. 5. Penghapusan Stop Words Penghapusan stop words adalah proses untuk menghapus terms yang tidak memiliki arti, misalnya kata “the” pada bahasa Inggris. Daftar stop words pada umumnya merupakan kata yang sangat umum pada sebuah bahasa.
10
II.2.2 Pembobotan Term Sebuah dokumen berisi berbagai macam term.
Term pada umumnya dapat
merupakan kata, tanda baca, atau bilangan. Untuk menentukan apakah suatu term penting atau tidak, diperlukan suatu pembobotan term yang dapat mencerminkan tingkat kepentingan suatu term (Manning, 2008). Pembobotan terms pada umumnya menggunakan metode term frequency. Bobot setiap term dapat dipandang sebagai nilai kuantitatif yang independen satu sama lainnya. Pada kasus representasi dokumen dipandang sebagai bag of words yang berarti urutan kata tidaklah berarti pada pembobotan (Manning, 2008). Term Frequency adalah suatu metode pembobotan term berdasarkan jumlah kemunculannya pada dokumen bersangkutan (Manning, 2008). Semakin sering suatu term muncul, maka term tersebut akan dianggap semakin penting. Untuk T adalah suatu term dan D adalah dokumen, maka formalisasi term frequency (TF) merupakan persamaan berikut 𝑇𝐹 𝑇, 𝐷 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑇 𝑝𝑎𝑑𝑎 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝐷
( II.1 )
Untuk kalimat Sapi memakan rumput di padang rumput.
Nilai TF untuk setiap term yang muncul pada kalimat tersebut adalah Sapi(1) memakan(1) rumput(2) di(1) padang(1)
Inverse Document Frequency adalah suatu metode pembobotan term berdasarkan jumlah kemunculannya pada semua dokumen (Manning, 2008). Semakin sering suatu term muncul pada banyak dokumen, maka term tersebut akan dianggap semakin tidak penting, karena tidak mampu membedakan dokumen satu dan lainnya. Untuk T adalah suatu term dan D adalah semua dokumen, maka formalisasi inverse document frequency (IDF) merupakan persamaan berikut
𝐼𝐷𝐹 𝑇, 𝐷 = 𝐿𝑜𝑔(
𝐽𝑢𝑚𝑙𝑎ℎ 𝑆𝑒𝑚𝑢𝑎 𝐷𝑜𝑘𝑢𝑚𝑒𝑛 ) 𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑇 𝑝𝑎𝑑𝑎 𝑠𝑒𝑚𝑢𝑎 𝑑𝑜𝑘𝑢𝑚𝑒𝑛
11
( II.2 )
Untuk term “sapi” pada corpus dokumen [1] Sapi memakan rumput di padang rumput. [2] Sapi Gila [3] Lumba-lumba adalah binatang yang hidup di air.
Memiliki nilai IDF = Log(3/2) = 0.238. II.3 Metode Pembangkitan Teks Bahasa Alami Tahapan akhir dari pembangkitan judul secara otomatis adalah pembangkitan bahasa alami. Dalam pembangkitan bahasa alami (natural language generation), terdapat beberapa tahap yang harus diperhatikan (Clark, 2010): 1. Document Planning Document
Planning
mencakup
pemilihan
informasi
apa
yang
ingin
dikomunikasikan dalam teks serta bagaimana informasi tersebut harus diorganisasikan (stuktural). Masukan pada tahap ini adalah sebuah dokumen, sementara keluarannya merupakan potongan informasi yang diekstraksi dari data masukan, misal berupa frasa penting. Pemilihan konten penting pada peringkasan dokumen dengan pendekatan peringkasan dokumen merupakan tahapan document planning. Pengorganisasian mencakup menentukan susunan urutan penyampaian informasi agar pengguna dapat mengerti kalimat yang disajikan. Salah satu cara untuk menentukan urutan informasi menggunakan pendekatan ngram. N-gram merupakan representasi teks atau model untuk peluang kemunculan suatu kata dilihat terhadap sejumlah kata (n) yang sudah muncul sebelumnya (Jurafsky & Martin, 2009). Estimasi terhadap peluang tersebut dilakukan dengan cara menghitung frekuensi kemunculan kata terhadap kata lain pada suatu teks. Variasi n-gram dengan nilai n adalah dua disebut dengan bigram yang menghitung peluang kemunculan suatu kata dilihat dari satu kata sebelumnya. Sementara itu variasi n-gram dengan nilai n adalah tiga disebut dengan trigram yang menghitung peluang kemunculan suatu kata berdasarkan dua kata sebelumnya.
12
2. Micro planning Tahapan Micro planning menentukan bagaimana mengekspresikan informasi dalam teks. Pada tahap Document Planning, urutan kemunculan informasi sudah diketahui, kemudian pada tahap micro planning, maka informasi tersebut harus ditinjau agar tidak janggal. Misalkan terdapat morfologi kata yang tidak cocok pada konteksnya. Tahap ini mencakup pekerjaan untuk membuat teks yang disajikan lebih mudah dibaca. Tabel II.1 mencakup beberapa hal yang harus diperhatikan dalam tahap micro planning.
Tabel II.1. Micro Planning Items (Clark, 2010). Item
Keterangan
Contoh
Lexical Choice
Memilih kata/frasa apa yang digunakan, agar secara tepat dapat mengekspresikan informasi.
Pilihan antara “pukul 15:00” atau “pertengahan pukul 13.00-18.00” untuk mengungkapkan ekspresi tengah sore.
Reference
Memilih ekspresi acuan untuk mengacu entitas.
Kalimat “kesehatan dan kebugaran Anda” untuk mengacu 2 ekspresi tentang kesehatan dan kebugaran.
Syntactic Choice
Memilih stuktur sintaksis kalimat yang ingin dibangkitkan.
Memilih kalimat berbentuk aktif atau pasif.
Aggregation
Menentukan bagaimana bagianbagian informasi dikombinasikan untuk membentuk potongan kalimat.
Bentuk penyajian informasi yang berbeda antara kalimat “arah angin berubah pada pukul 15:00 dan pukul 18:00” atau “arah angin berubah sebanyak 2 kali pada sore hari”
3. Sentence Realization Berdasarkan informasi yang dipilih pada tahap document planning serta micro planning, maka kalimat sesungguhnya (dalam bentuk teks) akan dibangkitkan (surface form). Tahap ini dikenal juga sebagai tahap grammatical formalism, yaitu membangkitkan kalimat dengan tata bahasa yang benar. Menurut Channarukul (1999), terdapat beberapa pendekatan pembangkitan kalimat, yaitu:
13
3.1. Pendekatan berbasis canned text Canned text merupakan sekumpulan kalimat yang sudah pre-defined. Kalimat yang bersesuaian akan dibangkitkan pada kejadian yang bersesuaian terhadap prekondisi kalimat tersebut. Contohnya merupakan pesan kesalahan suatu sistem dialog seperti “command not found” pada command prompt. 3.2. Pendekatan berbasis template Pendekatan berbasis template. Template adalah sebuah tata penyajian informasi yang sudah didefinisikan, berbentuk struktur fitur beserta nilainya. Contohnya sebagai berikut Nama orang – kata kerja transitif – kata benda Dengan memanfaatkan contoh template tersebut, mesin dapat merealisasikan sebuah kalimat “Wira menendang bola”. 3.3. Pendekatan Berbasis Frasa Frasa adalah sekelompok kata yang dapat membentuk klausa atau kalimat dalam bahasa alami. Pendekatan ini memanfaatkan aturan-aturan produksi kalimat. Kalimat akan dibangkitkan menggunakan aturan-aturan produksi yang ada dengan menggantikan fungsi produksi dengan kata bahasa alami. Misal terdapat aturan produksi berikut: S: NP VP NP: DET N | N DET: sebuah N: bola | Budi VP: V NP V: menendang
Dengan aturan produksi tersebut, dapat direalisasikan sebuah kalimat “Budi menendang sebuah bola”. II.4 Klasifikasi Retorik Makalah ilmiah memiliki ciri penulisan yang khas, hal tersebut ditandai pada struktur penyampaian informasi pada aras kalimat (O’Seaghdha & Teufel, 2014). Misalnya suatu kalimat menyatakan informasi tujuan riset, latar belakang atau 14
hasil penelitian. Pada peringkasan dokumen, struktur dokumen memainkan peranan penting karena hal tersebut merupakan ciri khas yang mampu memberikan informasi tentang isi suatu dokumen. Struktur dokumen merupakan fitur discourse untuk menilai kepentingan suatu kalimat. Pada kasus makalah ilmiah, kalimat dengan retorik berbeda dapat diperlakukan berbeda pada kasus peringkasan dokumen (Teufel & Moens, 2002; Teufel dkk., 2009). Prinsip ini dapat diterapkan pada seleksi konten untuk peringkasan spesifik pada makalah ilmiah. Menurut Teufel dan Moens (2009), suatu makalah ilmiah mempunyai struktur dokumen yang dapat dianotasikan dalam kelas retorik yang dapat dilihat pada Tabel II.2. Contoh kalimat untuk masing-masing kelas retorik dapat dilihat pada Tabel II.3. Tabel II.2. Skema Anotasi untuk Kategori Retorik (Teufel S. dkk., 2009) Kategori
Deskripsi
AIM
Tujuan spesifik atau hipotesis penelitian
NOV_ADV
Kontribusi atau manfaat pendekatan
CO_ GRO
Tidak membuat klaim atau klaim tidak signifikan untuk makalah tersebut
OTHR
Klaim signifikan yang dilakukan orang lain, bersifat netral
PREV_OWN
Klaim signifikan yang dilakukan pengarang pada makalah sebelumnya, bersifat netral
OWN_MTHD
Klaim baru, metode yang dilakukan
OWN_FAIL
Solusi/metode/eksperimen dalam makalah yang tidak berhasil
OWN_RES
Hasil terukur dari penelitian tersebut
OWN_CONC
Temuan, kesimpulan yang tidak terukur dari penelitian tersebut
CODI
Perbandingan, kontras, perbedaan dengan solusi lain (netral)
GAP_WEAK
Kekurangan/masalah dari solusi sebelumnya
ANTI SUPP
Masalah dengan hasil atau teori penelitian lain; hasil penelitian lebih baik
SUPPORT
Penelitian lain yang mendukung/didukung penelitian saat ini
USE
Penelitian lain yang digunakan dalam penelitian saat ini
FUT
Penelitian selanjutnya
15
Tabel II.3. Contoh kalimat untuk Kategori Retorik (Teufel S. dkk., 2009) Kategori
Contoh Kalimat
AIM
The aim of this paper is to examine the role that training plays in the tagging process . . . (9410012)
NOV_ADV
Other than the economic factor, an important advantage of combining morphological analysis and error detection/ correction is the way the lexical tree associated with the analysis can be used to determine correction possibilities. (9504024)
CO_ GRO
It has often been stated that discourse is an inherently collaborative process . . . (9504007)
OTHR
But in Moortgat’s mixed system all the different resource management modes of the different systems are left intact in the combination and can be exploited in different parts of the grammar. (9605016)
PREV_OWN
Earlier work of the author (Feldweg 1993; Feldweg 1995a) within the framework of a project on corpus based development of lexical knowledge bases (ELWIS) has produced LIKELY . . . (9502038)
OWN_MTHD
In order for it to be useful for our purposes,the following extensions must be made: (0102021)
OWN_FAIL
When the ABL algorithms try to learn with two completely distinct sentences, nothing can be learned. (0104006)
OWN_RES
All the curves have a generally upward trend but always lie far below backoff (51% error rate). (0001012)
OWN_CONC
Unless grammar size takes on proportionately much more significance for such longer inputs, which seems implausible, it appears that in fact the major problems do not lie in the area of grammar size, but in input length. (9405033)
CODI
Unlike most research in pragmatics that focuses on certain types of presuppositions or implicatures, we provide a global framework in which one can express all these types of
16
Kategori
Contoh Kalimat pragmatic inferences. (9504017)
GAP_WEAK
Here, we will produce experimental evidence suggesting that this simple model leads to serious overestimates of system error rates. . . (9407009)
ANTI SUPP
This result challenges the claims of recent discourse theories (Grosz and Sidner 1986, Reichman 1985) which argue for a the close relation between cue words and discourse structure. (9504006)
SUPPORT
Work similar to that described here has been carried out by Merialdo (1994), with broadly similar conclusions. (9410012)
USE
We use the framework for the allocation and transfer of control of Whittaker and Stenton (1988). (9504007)
FUT
An important area for future research is to develop principled methods for identifying distinct speaker strategies pertaining to how they signal segments. (9505025)
Pada makalah ilmiah, kategori retorik AIM dan OWN_MTHD memerankan peranan penting karena merepresentasikan tujuan dan metode spesifik penelitian. Kategori retorik AIM dan OWN_MTHD sering muncul pada bagian abstrak makalah ilmiah (Khodra dkk., 2011). Salah satu cara melakukan klasifikasi retorik menggunakan algoritma Naïve Bayes dengan detail fitur untuk teks berbahasa Inggris dapat dilihat pada Tabel II.4 (Teufel & Moens, 1999). Tabel II.4. Fitur Klasifikasi Retorik (Teufel & Moens, 1999) Tipe Fitur Explicit Structure
Nama
Deskripsi
Nilai
Struct-1
Tipe headline pada seksi.
8 headline proto tipikal atau “non proto tipikal”
Struct-2
Posisi relatif kalimat pada paragraph.
Awal, tengah, akhir.
Struct-3
Posisi relatif kalimat pada seksi.
Pertama, kedua atau ketiga akhir.
17
Tipe Fitur
Nama
Deskripsi
Nilai
Relative Location
Loc
Makalah ilmiah dibagi menjadi 10 ruas dengan ukuran sama.
1-10
Citation
Cit-1
Apakah kalimat mengandung kutipan atau nama dari pengarang yang ada pada daftar refrensi?
Kutipan lengkap, nama pengarang, tidak ada.
Cit-2
Apakah kalimat merupakan kutipan diri sendiri?
Ya atau tidak.
Syn-1
Jenis kalimat.
Present, past, present perfect, past perfect, future, nothing.
Syn-2
Modal auxiliaries.
Ada atau tidak.
Syn-3
Jenis kalimat.
Aktif atau pasif.
Syn-4
Negasi.
Ada atau tidak.
Sem-1
Tipe aksi dari kata kerja pertama pada kalimat.
20 tipe aksi berbeda atau tidak ada.
Sem-2
Tipe agen.
Pengarang, lainnya atau tidak ada.
Sem-3
Tipe ekspresi formula dalam kalimat. (Lampiran B)
18 ekspresi formula berbeda pada kalimat atau tidak ada.
Cont-1
Apakah kalimat mengandung kata kunci yang ditentukan oleh pembobotan TF/IDF.
Ya atau tidak.
Syntactic Features
Semantic Features
Content Features
Khodra, dkk. (2011) mencoba melakukan klasifikasi kalimat retorik terhadap abstrak makalah ilmiah dengan menggunakan 15 kategori retorik. Tabel II.5 menunjukkan hasil rekapitulasi jumlah kalimat abstrak per kategori retorik hasil penelitian Khodra, dkk. (2011) pada 74 papers yang secara total terdiri dari 10778 kalimat.
18
Tabel II.5. Jumlah Kalimat Abstrak per Kategori Retorik (Khodra dkk., 2011) Kategori
Jumlah kalimat
% Kalimat
183
35.12%
AIM
83
15.93%
PREV_OWN
44
8.45%
NOV_ADV
35
6.72%
CO_GRO
34
6.53%
OWN_CONC
32
6.14%
OWN_RES
29
5.57%
OTHR
27
5.18%
GAP_WEAK
21
4.03%
SUPPORT
7
1.34%
TEXTUAL
7
1.34%
CODI
5
0.96%
ANTISUPP
5
0.96%
USE
5
0.96%
FUT
3
0.58%
OWN_FAIL
1
0.19%
N/A
0
0.00%
521
100.00%
OWN_MTHD
Total
O’Seaghdha & Teufel (2014) berpendapat bahwa kata-kata dan bentuk linguistik pada makalah ilmiah tidak spesifik terhadap topik penelitian. Secara umum, terdapat perbedaan struktur penyajian pada domain penelitian yang berbeda (O’Seaghdha & Teufel, 2014), tetapi mirip pada domain penelitian yang sama. Hal tersebut tergambar pada Gambar II.3 yang merupakan contoh template abstrak makalah ilmiah pada domain pemrosesan Bahasa alami (Natural Language Processing – NLP).
19
Gambar II.3. Contoh Konstruksi Abstrak Makalah Ilmiah pada domain NLP (O'Seaghdha & Teufel, 2014)
Berdasarkan Gambar II.3, dapat terlihat bahwa beberapa informasi yang disampaikan pada abstrak adalah latar belakang penelitian & kajian penelitian terkait, tujuan penelitian, metode baru yang ditawarkan, hasil penelitian serta perbandingan terhadap pekerjaan lain. II.5 Minimum Edit Distance Minimum Edit Distance adalah algoritma untuk menghitung jarak antara dua buah string, yaitu operasi edit minimal (penambahan karakter, penghapusan karakter, substitusi karakter) yang dibutuhkan untuk mentransformasi suatu string menjadi string lainnya (Jurafsky & Martin, 2009). Gambar II.4 adalah pseudo code dari algoritma Minimum Edit Distance dengan implementasi dynamic programming.
Gambar II.4. Pseudo Code Minimum Edit Distance (Jurafsky & Martin, 2009).
Tabel II.6 adalah contoh eksekusi (Dynamic Programming table) untuk MINEDIT-DISTANCE(intention,
execution). 20
Contohnya,
untuk
mencari
nilai
tabel[3][3] untuk menentukan minimum edit distance “EXE” dan “INT”, adalah nilai min(tabel[2][3]+1, tabel[2][2]+2, tabel[3][2]+1) = min(5+1, 4+2, 5+1) = 6. Setelah tabel terbentuk, jarak antara dua kata merupakan nilai tabel[n][m]. n merupakan panjang kata 1, sementara m merupakan panjang kata 2. Pada kasus ini tabel[n][m] memberikan nilai 8.
Tabel II.6. Contoh Eksekusi Minimum Edit Distance (Jurafsky & Martin, 2009). N O I T N E T N I #
9 8 7 6 5 4 3 2 1 0 #
8 7 6 5 4 3 4 3 2 1 E
9 8 7 6 5 4 5 4 3 2 X
10 9 8 7 6 5 6 5 4 3 E
11 10 9 8 7 6 7 6 5 4 C
12 11 10 9 8 7 8 7 6 5 U
11 10 9 8 9 8 7 8 7 6 T
10 9 8 9 10 9 8 7 6 7 I
9 8 9 10 11 10 9 8 7 8 O
8 9 10 11 10 9 8 7 8 9 N
II.6 Penelitian Terkait Pembangkitan Judul Secara Otomatis Saat ini, sudah ada beberapa penelitian terkait pembangkitan judul secara otomatis seperti yang dilakukan oleh Jin & Hauptmann (2001), Chen & Lee (2003) serta Sheng-yi dkk. (2008). Secara umum, beberapa penelitian yang sudah ada menyelesaikan permasalahan pembangkitan judul secara otomatis melalui pendekatan peringkasan dokumen, dengan memilih informasi penting yang disusun menjadi judul dengan memperhatikan aspek keterbacaan judul. Penelitian-penelitian tersebut memanfaatkan representasi leksikal dalam unit term. Kinerja untuk masing-masing penelitian dihitung dengan skor F1-measure, dengan kinerja terbaik berkisar pada 0.18-0.25 (Jin & Hauptmann, 2011), 0.35-0.4 (Chen & Lee, 2003) dan 0.1938 (Sheng-y dkk., 2008). II.6.1 Jin & Hauptmann Jin & Hauptmann (2001) melakukan penelitian dengan pendekatan peringkasan ekstraktif. Penelitian ini menggunakan 21190 rekaman audio berita berbahasa 21
Inggris CNN pada tahun 1999 sebagai korpus pembelajaran termasuk judul yang dibangkitkan oleh manusia, serta menggunakan 1006 data berita ucapan CNN pada tahun yang sama sebagai test set. Dokumen direpresentasikan dalam unit term. Pembelajaran mesin serta pembobotan term dilakukan terhadap korpus pembelajaran, untuk mencari hubungan antara term yang muncul pada judul makalah ilmiah serta term yang muncul pada dokumen, kemudian mengambil term dengan probabilitas/bobot tertinggi untuk dijadikan term pada judul. Setelah itu, dilakukan pendekatan pembangkitan bahasa alami untuk membangkitkan kalimat yang dapat dibaca. Jin & Hauptmann (2001) berpendapat bahwa membedakan term trivia dengan term penting merupakan hal yang sangat penting pada proses pembangkitan judul makalah ilmiah. Penelitian ini memanfaatkan metode KNN, TF-IDF, Naïve Bayes Limited Vocabulary, Naïve Bayes Full Vocabulary serta EM. Metode yang dimanfaatkan bertujuan untuk mencari terms yang harus muncul pada judul untuk input. Setiap terms yang sudah dipilih akan melalui tahap postprocessing untuk membangkitkan judul yang dibaca dengan menggunakan model n-gram. Penelitian ini memiliki kinerja skor F1-measure yang berkisar pada 0.15-0.18 (KNN), 0.18-0.25 (TF-IDF), 0.15-0.20 (Naïve Bayes Limited Vocabulary), 0.030.05 (Naïve Bayes Full Vocabulary), serta 0.05-0.11 (EM). II.6.2 Chen & Lee Chen & Lee (2003) menggunakan pendekatan yang berbeda. Penelitian tersebut menggunakan dataset dengan bahasa Mandarin dan representasi leksikal dalam bentuk term (word in chinese). Penelitian ini menggunakan 151.537 potongan berita berbasa Mandarin dengan judul yang dibangkitkan oleh manusia, berita tersebut berasal dari Central News Agency (CAN) di Taipei. 210 berita ucapan yang berasal dari radio FM News98 digunakan sebagai bahan evaluasi. Adaptive K-Nearest-Neighbor adalah skema pembangkitan judul yang diusulkan oleh Chen & Lee (2003). Pertama-tama, terdapat corpus teks sebagai basis pengetahuan (pasangan teks-judul). Algoritma tersebut mencari 15 teks paling mirip dengan teks input berdasarkan perhitungan similarity, kemudian memilih judul dari 15 teks tersebut sebagai template judul bagi input. Diantara 15 judul 22
tersebut, dicari salah satu judul terbaik menggunakan penilaian berdasarkan perhitungan probabilitas, yaitu peluang kemunculan judul terhadap teks input yang dihitung berdasarkan pembelajaran mesin (Naive Bayes) terhadap corpus. Setelah template judul terbaik dipilih, perlu dilakukan penyesuaian named entity pada template judul. Penyesuaian named entity tersebut yang disebut sebagai “adaptive”. Named entity pada template diganti dengan named entity yang tersusun atas term dengan bobot TF-IDF tertinggi pada teks input. Lalu, algoritma Viterbi dieksekusi terhadap model HMM untuk menciptakan frasa named entity yang baik. Penelitian ini mampu mencapai kinerja F1-Measure berkisar pada 0.35-0.40. Langkah kerja metode ini dapat dilihat pada Gambar II.5
Gambar II.5. Adaptive K-Nearest-Neighbor (Chen & Lee, 2003).
II.6.3 Sheng-yi, dkk. Sheng-yi, dkk. (2008) menggunakan pendekatan yang berbeda. Penelitian ini menggunakan data berbahasa Mandarin dengan representasi leksikal dalam bentuk term. Penelitian ini menggunakan dokumen yang berasal dari domain broadcast news stories. Korpus pembelajaran berasal dari agensi berita di Taipei beserta judul yang dibangkitkan manusia. Korpus pembelajaran mencakup 2 training set: 10660 berita pada Januari 2001, 7.523 berita pada Desember 2005. Pada penelitian ini, algoritma Viterbi digunakan untuk menilai keabsahan sebuah judul terhadap isi dokumen. Skor algoritma Viterbi ditentukan terhadap hasil proses dari 3 tahap yaitu: term selection model, term ordering model, title length model. Ketiga model tersebut dihasilkan melalui training terhadap corpus. Term selection model menentukan istilah-istilah penting yang harus dimuat oleh judul dokumen input. Kemudian istilah-istilah penting yang sudah diekstrak akan 23
diorganisasi agar mudah dibaca. Kemudian, judul akan dibuat dengan beberapa variasi terhadap panjang judul (title length model). Setelah itu, algoritma Viterbi digunakan untuk mencari sequence of term dengan nilai tertinggi sebagai judul. Metode dievaluasi dengan 118 berita dari beberapa stasiun radio di Taipei pada tahun 2005. Penelitian ini memiliki kinerja konfigurasi terbaik dengan skor F1measure sebesar 0.1938. II.7 Penelitian Terkait Peringkasan Makalah Ilmiah Secara Otomatis Kupiec dkk. (1995) melakukan peringkasan dengan cara memiilih beberapa kalimat pada teks untuk ditampilkan dalam ringkasan. Pemilihan kalimat tersebut menggunakan metode klasifikasi. Kupiec dkk. (1995) hanya mempertimbangkan aspek statistik dalam melakukan peringkasan. Sementara itu, Contractor dkk. (2012) melakukan penelitian terkait peringkasan isi makalah ilmiah menjadi abstrak dengan mempertimbangkan aspek kategori retorik kalimat. Penelitian Contractor dkk. (2012) dilakukan menggunakan dataset pada domain biomedic, berjumlah 1000 makalah ilmiah. Terdapat beberapa tahapan praproses yang dilalui untuk mengubah teks menjadi representasi yang dapat diproses komputer, meliputi: tokenisasi, POS tagging, penghapusan stop words dan lematisasi. Setelah melalui tahap praproses, maka akan dilakukan tahapan klasifikasi dan clustering. Pertama-tama, dicari kalimat yang layak muncul dalam ringkasan (kalimat kandidat) dengan model klasifikasi. Model klasifikasi dilatih menggunakan isi makalah ilmiah terhadap abstrak makalah ilmiah. Pilihan fitur klasifikasi yang digunakan dapat dilihat pada Tabel II.7. Selanjutnya, clustering dilakukan untuk mencari kalimat lain yang mirip dengan kalimat kandidat, untuk muncul pada ringkasan. Clustering dilakukan dengan cara mengelompokkan kalimat yang berada pada seksi makalah ilmiah yang sama atau berdasarkan kategori retorik kalimat. Kinerja terbaik didapatkan menggunakan fitur kata kerja dan TF-IDF dengan nilai F1-measure sebesar 0.27.
24
Tabel II.7. Fitur Klasifikasi Kalimat Kandidat Ringkasan (Contractor dkk., 2012). Nama Fitur
Keterangan
Fitur Kata Kerja.
Kata kerja beserta POS tag-nya.
Nilai TF-IDF.
Bobot TF-IDF setiap kalimat.
Kemunculan sitasi dan refrensi.
Bernilai ya atau tidak. Bernilai ya apabila ada sitasi atau refrensi pada kalimat. Kalimat yang mengandung sitasi cenderung muncul pada kalimat yang mengandung informasi latar belakang atau penelitian sebelumnya yang menjadu acuan.
Argumentative Zones.
Kategori retorik kalimat.
Lokasi.
Nilai posisi kalimat. Hal ini berguna, misal untuk mengidentifikasi kalimat latar belakang. Pada umumnya, kalimat latar belakang muncul pada awal paragraf.
25
BAB III ANALISIS PERSOALAN DAN DESKRIPSI SOLUSI
Pada bab ini, dideskripsikan analisis persoalan dan deskripsi solusi yang ditawarkan pada Tugas Akhir ini. III.1 Analisis Pembangkitan Judul Otomatis Karena pentingnya suatu judul makalah ilmiah (Jamali dan Nikzad, 2011), diperlukan aplikasi yang mampu memberikan beberapa kandidat judul bagi penulis makalah. Judul yang diberikan aplikasi berjumlah lebih dari satu agar penulis makalah ilmiah dapat menciptakan judul yang baik dari berbagai sudut pandang. Karakteristik dari judul makalah ilmiah yang baik (Jamali dan Nikzad, 2011, Contractor, 2012; Akhman, 2013; P. Carlos dkk. 2012; Letchford, dkk., 2015; Elliot, 2008; Elmslie, 2014; Academic Learning Centre, 2016), yaitu : 1. Judul makalah ilmiah harus mampu membedakan makalah satu dan yang lainnya (spesifik), sehingga perlu terdapat key terms pada judul makalah ilmiah. Key terms dapat berupa istilah penting yang tidak dapat dipisahkan dari subjek penelitian makalah ilmiah. 2. Tidak menggunakan singkatan. 3. Judul sebaiknya dimulai dengan kata benda, seperti subjek penelitian. 4. Tidak menggunakan kata kerja pembanding, seperti “lebih baik”. Judul makalah ilmiah sebaiknya tidak menyebutkan bahwa penelitian pada makalah tersebut lebih baik dari penelitian lainnya. 5. Kalimat judul makalah ilmiah tidak terlalu panjang, yaitu kurang dari 20 kata (2~10 kata). Hal ini mencerminkan tingkat kompresi yang tinggi karena abstrak makalah ilmiah memiliki jumlah kata antara 21 sampai 233 kata dengan rata-rata 88 kata. Karakteristik tersebut mempengaruhi pemilihan konten serta pembangkitan judul. setiap kandidat judul yang dibangkitkan oleh proses-proses pada eksperimen akan
26
memenuhi karakteristik poin 1,3,4 dan 5. Karakteristik 2 tidak digunakan karena diperlukan pengetahuan tentang domain. Pembangkitan judul makalah ilmiah secara otomatis dapat dipandang sebagai peringkasan dokumen dalam versi yang sangat singkat (Witbrock dkk., 1999; Colmenares dkk., 2015; Xu dkk., 2015). Pada Tugas Akhir ini, hal tersebut didekati dengan pendekatan peringkasan dokumen tunggal. Secara umum, tahapan peringkasan dokumen adalah: 1. Representasi dokumen. Kalimat pada Tugas Akhir ini direpresentasikan pada level leksikal sebagai bag of words. Representasi bag of words digunakan karena bersifat domain independent (Hovy & Lin, 1999). 2. Pemilihan informasi penting. Informasi penting pada Tugas Akhir ini didefinisikan dalam unit kalimat dan term. Kalimat yang memiliki retorik AIM dan OWN_MTHD merupakan kalimat yang dianggap penting. Kupiec (1995) berpendapat bahwa pencarian informasi penting merupakan proses klasifikasi. Terms yang memiliki bobot tinggi merupakan terms penting. Terms yang memiliki bobot tinggi dianggap mewakili permasalahan, pekerjaan, metode, domain serta objek penelitian pada makalah ilmiah. Tahapan ini mewakili karakteristik poin 1. 3. Pembangkitan ringkasan. Setelah informasi penting ditentukan, maka kalimat judul makalah ilmiah direalisasikan berbasis template. Untuk memenuhi karakteristik poin 3, maka template judul untuk realisasi kalimat harus diawali oleh kata benda. Tugas Akhir ini memanfaatkan data papers dari penelitian Putra & Fujita (2015), penelitian Khodra, dkk. (2011), data konferensi ACL-Computational Linguistics (COLING)’14, ACL-Human Language Technology (HLT)’15, serta ACLLanguage Resources (LREC)’14 yang berasal dari domain penelitian ilmu komputer (CS) dan kimia (GaN). III.2 Proses Eksperimen Pembangkit Judul Otomatis Secara umum, eksperimen ini berfokus pada pendekatan peringkasan ekstraktif. Eksperimen pembangkit judul otomatis dari makalah ilmiah menerima input abstrak makalah ilmiah yang judulnya ingin dibangkitkan. Eksperimen 27
memberikan beberapa opsi judul berdasarkan struktur penulisan yang berbeda. Tahapan penelitian tentang pembangkitan judul berita secara otomatis (Jin & Hauptmann, 2011; Chen & Lee, 2003; Sheng-yi dkk., 2008; Contractor dkk., 2012) diadaptasi pada Tugas Akhir ini. Tahapan metode pembangkitan kalimat (document planning, micro planning, sentence realization) juga diadopsi dalam mengembangkan tahapan penelitian ini. Secara umum, eksperimen melakukan pencarian term penting untuk dimuat dalam judul makalah ilmiah (document planning) dari input abstrak makalah ilmiah. Sesuai template yang ada, eksperimen merealisasikan frasa-frasa (micro planning, aggregation) untuk mengkombinasikan informasi dalam unit term menjadi potongan kalimat. Menggunakan frasa-frasa yang sudah direalisasikan, realisasi kalimat (sentence realization) judul dilakukan menggunakan pembangkitan bahasa alami berbasis template dan metode Adaptive K-Nearest-Neighbor. Metode pembangkitan bahasa alami berbasis template dipilih karena Tugas Akhir ini berpedoman pada pekerjaan Chen & Lee (2003). Gambar III.I merupakan tahapan proses eksperimen yang ingin dikembangkan pada Tugas Akhir ini.
Gambar III.1. Tahapan Proses Eksperimen. III.2.1 Praproses Praproses merupakan tahap untuk mengubah teks input menjadi representasi yang dapat diproses oleh komputer. Proses pada tahap ini mengacu ke subbab II.2.1. Lematisasi tidak dipakai pada Tugas Akhir ini, agar pembangkitan bahasa alami tidak perlu memusingkan morfologi kata.
28
Hasil pada tahap ini adalah daftar kalimat serta daftar terms dari teks abstrak makalah ilmiah. Sebagai contoh, hasil preproses terhadap Gambar II.1 adalah sebagai berikut (dalam bentuk terms beserta POS tag). Kalimat 1 = We present an efficient multi-level chart parser that was designed for syntactic analysis of closed captions (subtitles) in a real-time Machine Translation (MT) system. Kalimat 2 = In order to achieve high parsing speed, we divided an existing English grammar into multiple levels. Kalimat 3 = The parser proceeds in stages. At each stage, rules corresponding to only one level are used. Kalimat 4 = A constituent pruning step is added between levels to insure that constituents not likely to be part of the final parse are removed. Kalimat 5 = This results in a significant parse time and ambiguity reduction. Since the do- main is unrestricted, out-of-coverage sentences are to be expected and the parser might not produce a sin- gle analysis spanning the whole input. Kalimat 6 = Despite the incomplete parsing strategy and the radical prun- ing, the initial evaluation results show that the loss of parsing accuracy is acceptable. Kalimat 7 = The parsing time favorable compares with a Tomita parser and a chart parser parsing time when run on the same grammar and lexicon.
Hasil POS tagging adalah Abstract = [We(PRP), present(VBP), efficient(JJ), multi-level(JJ), chart(NN), parser(NN), designed(VBN), syntactic(JJ), analysis(NN), closed(JJ), captions(NNS), subtitles(NNS), real-time(JJ), Machine(NN), Translation(NN), MT(NN), system(NN), order(NN), achieve(VB), high(JJ), parsing(NN), speed(NN), we(PRP), divided(VBD), existing(VBG), English(NNP), grammar(NN), multiple(JJ), levels(NNS), parser(NN), proceeds(VBZ), stages(NNS), each(DT), stage(NN), rules(NNS), corresponding(VBG), only(RB), one(CD), level(NN), used(VBN), constituent(JJ), pruning(NN), step(NN), added(VBN), between(IN), levels(NNS), insure(VB), constituents(NNS), likely(JJ), part(NN), final(JJ), parse(NN), removed(VBN), This(DT), results(VBZ), significant(JJ), parse(NN), time(NN), ambiguity(NN), reduction(NN), Since(IN), do(VBP), main(JJ), unrestricted(JJ), out-of-coverage(JJ), sentences(NNS), expected(VBN), parser(NN), might(MD), produce(VB), sin(NN), gle(NN), analysis(NN), spanning(VBG), whole(JJ), input(NN), Despite(IN), incomplete(JJ), parsing(NN), strategy(NN), radical(JJ), prun(NN), ing(NN), initial(JJ), evaluation(NN), results(NNS), show(VBP), loss(NN), parsing(VBG), accuracy(NN), acceptable(JJ), parsing(NN), time(NN), favorable(JJ), compares(VBZ), Tomita(NNP), parser(NN), chart(NN), parser(NN), parsing(NN), time(NN), when(WRB), run(VBN), same(JJ), grammar(NN), lexicon(NN)]
29
III.2.2 Pencarian Informasi Penting Informasi penting tersebut dapat dimanifestasikan dalam unit term atau kalimat penting dalam teks. III.2.2.1 Pembobotan Terms Judul makalah ilmiah pada umumnya memuat terms yang dapat membedakan antara makalah ilmiah satu dan lainnya (Putra & Fujita, 2015). Pencarian terms penting dilakukan berdasarkan analisis leksikal dengan melakukan pembobotan terms TF. Hasil dari tahap ini merupakan list of term-weight yaitu bobot untuk setiap term. Berikut adalah terms beserta bobotnya, hasil pengolahan Gambar II.1 yang sudah dilakukan praproses: acceptable(1.0), accuracy(1.0), achieve(1.0), added(1.0), ambiguity(1.0), analysis(2.0), between(1.0), captions(1.0), chart(2.0), closed(1.0), compares(1.0), constituent(1.0), constituents(1.0), corresponding(1.0), designed(1.0), despite(1.0), divided(1.0), do(1.0), each(1.0), efficient(1.0), english(1.0), evaluation(1.0), existing(1.0), expected(1.0), favorable(1.0), final(1.0), gle(1.0), grammar(2.0), high(1.0), incomplete(1.0), ing(1.0), initial(1.0), input(1.0), insure(1.0), level(1.0), levels(2.0), lexicon(1.0), likely(1.0), loss(1.0), machine(1.0), main(1.0), might(1.0), mt(1.0), multi-level(1.0), multiple(1.0), one(1.0), only(1.0), order(1.0), out-ofcoverage(1.0), parse(2.0), parser(5.0), parsing(5.0), part(1.0), present(1.0), proceeds(1.0), produce(1.0), prun(1.0), pruning(1.0), radical(1.0), real-time(1.0), reduction(1.0), removed(1.0), results(2.0), rules(1.0), run(1.0), same(1.0), sentences(1.0), show(1.0), significant(1.0), sin(1.0), since(1.0), spanning(1.0), speed(1.0), stage(1.0), stages(1.0), step(1.0), strategy(1.0), subtitles(1.0), syntactic(1.0), system(1.0), time(3.0), tomita(1.0), translation(1.0), unrestricted(1.0), used(1.0), we(2.0), when(1.0), whole(1.0)
III.2.2.2 Ekstraksi Kalimat Retorik Colmenares dkk. (2015) menyebutkan algoritma peringkasan otomatis pada umumnya menghasilkan ringkasan yang tidak kurang dari 10% dari teks awal. Judul memiliki panjang 1%-14% dari abstrak makalah ilmiah. Dengan demikian, pembangkitan judul membutuhkan strategi khusus. Strategi yang diterapkan pada Tugas Akhir ini adalah dengan mempertimbangkan aspek tipe informasi yang diwakili kalimat (Teufel dkk., 2009). Judul makalah ilmiah pada umumnya memuat tujuan spesifik dari penelitian. Teufel, dkk. (2009) mengembangkan
30
kategori retorik kalimat untuk makalah ilmiah. Kategori retorik tersebut dibuat berdasarkan struktur discourse dari makalah ilmiah. Berdasarkan temuan penelitian O’Seaghdha & Teufel (2014) yang terkandung pada Gambar II.3, dan karakteristik judul makalah ilmiah yang baik poin 1 (Bagian III.1), heuristic informasi judul makalah ilmiah dapat ditemukan pada abstrak makalah ilmiah pada umumnya memiliki kategori retorik AIM dan OWN_MTHD. Dengan hal itu, kategori retorik AIM dan OWN_MTHD dianggap penting pada Tugas Akhir ini. Kalimat dengan kategori retorik AIM dan OWN_MTHD dianggap sebagai kalimat relevan, sementara kalimat dengan kategori retorik lainnya dianggap tidak relevan (NR). Oleh karena itu, terdapat 3 kategori AIM, OWN_MTHD, dan NR. Model yang berbasiskan beberapa fitur klasifikasi digunakan untuk mengklasifikasikan kalimat terhadap daftar kalimat abstrak makalah ilmiah yang sudah mengalami praproses. Fitur klasifikasi retorik pada Tabel II.4 dan Tabel II.7 diadaptasi agar dapat digunakan untuk mengklasifikan kalimat pada abstrak makalah ilmiah. Fitur yang dipakai pada penelitian ini dapat dilihat pada Tabel III.1. Fitur pada Tabel III.1 adalah hasil eksperimen kombinasi fitur. Eksperimen tersebut mencoba fitur-fitur yang ada pada penelitian sebelumnya, kemudian menyisihkan fitur yang tidak berpengaruh pada klasifikasi kalimat pada abstrak. Hasil eksperimen kombinasi fitur adalah kombinasi fitur yang menghasilan model dengan kinerja terbaik. Berdasarkan kelompok fitur pada Tabel II.4, kelompok fitur relative location, serta citation tidak digunakan karena tidak cocok digunakan pada input abstrak makalah ilmiah. Fitur Sem-1 dan Sem-2 pada kelompok semantic features tidak digunakan karena tidak spesifik terhadap kategori AIM dan OWN_MTHD. Hasil dari tahap ini merupakan kelas AIM, OWN_MTHD atau non relevan (NR). Detail AIM lexicon, OWN_MTHD lexicon dan NR lexicon yang digunakan dapat dilihat pada Lampiran C.
31
Tabel III.1. Fitur Klasifikasi Kalimat Retorik. Nama Fitur
Lokasi.
AIM Lexicon.
OWN_MTHD Lexicon.
NR Lexicon.
Fitur bobot.
Fitur Sequence (usulan baru)
Deskripsi
Posisi urutan kalimat dalam abstrak per jumlah kalimat pada abstrak. Mengandung lexicon yang relevan dengan kategori retorik AIM. Mengandung lexicon yang relevan dengan kategori retorik OWN_MTHD. Mengandung lexicon yang relevan dengan latar belakang penelitian & kajian penelitian terkait serta perbandingan terhadap pekerjaan lain. Total bobot TF terms yang menyusun kalimat dibagi panjang kalimat. Kategori Retorik Kalimat Sebelumya
Nilai
Numerik (Real)
Fitur Teufel & Moens (1999) Explicit Structure (Struct-2)
Fitur Contractor dkk. (2012) Lokasi.
-
-
{Ya, Tidak}
Numerik (Real) Nominal {NO, AIM, OWN_MTHD, NR)
Semantic Features (Sem-3)
Content Features (cont-1) -
Kemunculan sitasi dan refrensi.
-
-
Berikut adalah hasil klasifikasi retorik untuk setiap kalimat pada Gambar II.1 yang sudah mengalami praproses. Kalimat 1 (AIM) = We present an efficient multi-level chart parser that was designed for syntactic analysis of closed captions (subtitles) in a real-time Machine Translation (MT) system. Kalimat 2 =(OWN_MTHD) In order to achieve high parsing speed, we divided an existing English grammar into multiple levels. Kalimat 3 (OWN_MTHD) = The parser proceeds in stages. At each stage, rules corresponding to only one level are used. Kalimat 4 (OWN_MTHD) = A constituent pruning step is added between levels to insure that constituents not likely to be part of the final parse are removed. Kalimat 5 (NR) = This results in a significant parse time and ambiguity reduction. Since the domain is unrestricted, out-ofcoverage sentences are to be expected and the parser might not produce a single analysis spanning the whole input.
32
Kalimat 6 (NR) = Despite the incomplete parsing strategy and the radical pruning, the initial evaluation results show that the loss of parsing accuracy is acceptable. Kalimat 7 (NR) = The parsing time favorable compares with a Tomita parser and a chart parser parsing time when run on the same grammar and lexicon.
Kemudian, dilakukan tahap penyaringan. Penyaringan dilakukan dengan 3 alternatif konfigurasi: 1. Konfigurasi Delete Non Relevant. Konfigurasi ini menghapus kalimat yang memiliki kelas NR, sehingga judul benar-benar merupakan ekstrak dari kalimat AIM dan OWN_MTHD saja. 2. Konfigurasi Filter AIM OWN_MTHD. Konfigurasi ini menghapus kalimat yang memiliki kelas NR, serta menyisakan hanya satu kalimat OWN_MTHD yang paling relevan terhadap kalimat AIM lainnya. Nilai relevansi dihitung berdasarkan total jumlah kata yang muncul pada kalimat OWN_MTHD serta kalimat AIM. Bila semua nilai relevansi sama atau tidak ada kalimat AIM, maka sisakan kalimat OWN_MTHD yang pertama ditemukan saja. 3. Konfigurasi increase relevant frequency by X. Konfigurasi ini menambahkan bobot TF kata pada kalimat AIM dan OWN_MTHD dengan nilai X tertentu untuk mencerminkan prioritas dimuat dalam kandidat judul. Konfigurasi yang lebih baik akan dibuktikan melalui eksperimen. Rincian anotasi data dapat dilihat pada subbab III.5. Kalimat yang sudah disaring akan dibuat model bigram-nya untuk merealisasikan frasa. III.2.3 Penentuan Template Judul Pada Tugas Akhir ini, akan dipakai pembangkitan Bahasa alami berbasis template dan metode Adaptive K-Nearest-Neighbor. Dengan hal itu, metode pencarian template perlu dijelaskan. Secara umum, pola bentuk judul yang banyak adalah “task <using> method” yang merepresentasikan tujuan serta metode penelitian. Task adalah kelompok frasa yang mencerminkan tujuan penelitian. Frasa yang tergolong kelompok task dapat dianalisis terhadap kalimat dengan kategori retorik AIM dan OWN_MTHD, sementara frasa yang tergolong kelompok method dapat dianalisis terhadap kalimat dengan kategori retorik OWN_MTHD. Tetapi, hal ini
33
memiliki permasalahan tersendiri dan harus dilakukan penelitian lebih lanjut untuk pengenalan frasa yang termasuk dalam kelompok task maupun method. Template ditentukan berdasarkan analisis judul makalah ilmiah pada data latih menggunakan POS tag. Template yang dipilih mempertimbangkan karakteristik judul yang baik poin 4, yaitu tidak mengandung kata perbandingan. Untuk setiap judul pada data latih, akan dicari POS tag-nya. POS tag kemudian akan dikompresi menjadi bentuk lebih sederhana, misal POS tag [JJ, NN, NN, VBG, DT, JJ, JJ, NN, NN] dari judul “Japanese Dependency Analysis using a Deterministic Finate State Transducer” akan diubah menjadi [JJ, NN, VBG, DT, JJ, NN] (P1). Kemudian akan dilakukan clustering terhadap POS tag judul menggunakan K-Means Clustering, jarak antara satu pola dengan pola lainnya ditentukan dengan minimum edit distance. Pola POS tag akan menjadi satu cluster dengan centroid terdekat. Misalkan terdapat dua judul lain yaitu “Improved Word Alignment using a Symmetric Lexicon Model” yang memiliki POS tag [JJ, NN, NN, VBG, DT, JJ, NNP, NNP] dan judul “Self-assembling GaN quantum dots on AlxGa1-xN surfaces using a surfactant” yang memiliki POS tag [VBG, NNP, NNP, NNS, IN, JJ, NNS, VBG, DT, NN]. POS tag judul pertama diubah menjadi [JJ, NN, VBG, DT, JJ, NNP](P2), sementara POS tag judul kedua diubah menjadi [VBG, NNP, NNS, IN, JJ, NNS, VBG, DT, NN] (P3). Jarak P1 dan P2 adalah 2 sementara jarak P1 dan P3 adalah 7. Sehingga P1 dan P2 menjadi satu cluster (C1). Dari dataset komputer (648 judul), dan dataset kimia (488 judul), masing-masing dibentuk 5, 10, 50, 100, dan 200 clusters untuk mencari template judul dengan random seed. Cluster terbaik dipilih berdasarkan nilai average minimum edit distance inter-cluster dan antar-clusters. Nilai average minimum edit distance yang kecil menandakan variansi cluster yang kecil. Pada eksperimen ini, percobaan dengan membuat 10 clusters memberikan hasil paling maksimal. Setelah itu, pola yang ada akan diubah ke dalam bentuk regex secara manual, misal pola pada C1 diubah menjadi menjadi JJ+ NN+ VBG DT JJ+ (NN+|NNP+). Dipilih 2 pola paling umum sebagai template judul. POS tag pola judul paling umum untuk dataset CS dan dataset GaN dapat dilihat masing-masing pada Tabel 34
III.2 dan Tabel III.3. Dapat terlihat, POS tag paling sering muncul adalah JJ dan NN. Setelah melakukan analisis terhadap cluster letak POS tag paling umum, template diputuskan secara manual sesuai pada Gambar III.2.
Tabel III.2. POS tag Pola Pengembangan Judul Dataset CS. Pola [JJ, NN] [JJ, NNP, IN, NNP] [NNP, IN, NNP] [NNP, NN] [NN, IN, NNP] [JJ, NN, IN, NNP] [JJ, NNP]
Kemunculan (dari 648 data) 9 5 5 4 4 4 4
Tabel III.3. POS tag Pola Pengembangan Judul Dataset GaN. Pola [JJ, NN, IN, NN, NNS] [NN, IN, NNP, JJ, NNS] [JJ, NNS, IN, NNP] [NN, IN, NN, IN, NN, NNS] [NN, IN, NN, NNS] [JJ, NN, IN, NN] [JJ, NN, IN, JJ, NN] [NNP, NN, IN, NNP, NNS] [NN, IN, NN, NNS, IN, NNP] [JJ, NN, JJ, NNS, VBN, IN, NN] [NN, IN, JJ, NNS] [JJ, NN, NNS, IN, NN] [NNP, NN, IN, JJ, NN, NNS] [JJ, NN, IN, NNP]
Kemunculan (dari 488 data) 4 2 2 2 2 2 2 2 2 2 2 2 2 2
Template 1 (T0) = DT? (JJ+)? Noun+ (VBG|VBN|TO|IN) DT? (JJ+)? Noun+ Template 2 (T1) = (VBG|VBN)? DT? (JJ+)? Noun+ IN Noun+ *Noun = (NN|NNP|NNPS|NNS) Gambar III.2. Template Judul terpilih
Untuk beberapa POS tag seperti CC dan DT (POS tag tercadang), frasa realisasi untuk POS tag tersebut pada realisasi kalimat merupakan pre-defined. POS tag 35
yang harus bertindak sebagai “POS tag tercadang” (POS tag yang memiliki frasa realisasi pre-defined) adalah CC, DT, IN, dan TO. POS tag tersebut dipilih berdasarkan asumsi pada judul makalah ilmiah secara umum, hanya sedikit variasi kata pada POS tag tersebut. Untuk masing-masing POS tag, frasa pre-defined yang dapat direalisasikan dapat dilihat pada Tabel III.4. Realisasi frasa tersebut dipilih berdasarkan term paling sering muncul pada corpus (dengan POS tag yang berkorespondensi).
Tabel III.4. Frasa Pre-defined untuk POS tag tercadang. POS tag DT IN TO
Realisasi a/an in, of, on to
III.2.4 Pembangkitan Judul Setelah mencari informasi penting dalam unit terms atau kalimat, eksperimen akan membangkitkan kalimat judul makalah ilmiah. Terdapat beberapa cara untuk membangkitkan kalimat bahasa alami. Namun pada Tugas Akhir ini, akan dipakai pembangkitan bahasa alami berbasis template, dan metode Adaptive K-NearestNeighbor. Hal tersebut disebabkan Tugas Akhir ini berpedoman pada metode pembangkitan bahasa alami pada penelitian Chen & Lee (2003). III.2.4.1 Pembangkitan Judul Berbasis Template Dengan template yang sudah ada (Hasil dari bagian III.2.4), unit informasi penting berupa terms, akan dicocokkan terhadap template sesuai dengan POS tag serta term ordering untuk memastikan judul yang dibangkitkan dapat dibaca dari kiri ke kanan. Untuk memastikan judul yang dihasilkan program dapat dibaca, perlu dilakukan term ordering. Pendekatan term ordering dapat didekati dengan pendekatan statistik melalui pengamatan terhadap teks input (Jurafsky & Martin, 2009). Pendekatan term ordering secara probabilistik dapat memanfaatkan model
36
N-gram. Dalam kasus ini pembangkitan judul dimulai dari kiri ke kanan sesuai template, bersamaan dengan dilakukannya ordering. Untuk setiap POS tag pada template, direalisasikan suatu frasa dengan mencari pola N-gram terpanjang untuk frasa tersebut yang bersesuaian dengan aturan regex. Realisasi frasa dimulai dari kata dengan bobot tertinggi untuk suatu POS tag. Misal pada template JJ+ NN+ VBG DT JJ+ (NN+|NNP+) perlu direalisasikan minimal empat frasa, yaitu dua untuk [JJ+], serta dua frasa untuk NN+, atau satu frasa NN+ dan satu frasa NNP+ (Frasa DT tidak perlu direalisasikan karena sudah didefinisikan pada tahap pembangkitan template). Frasa yang mewakili [JJ+] dan NN+ atau NNP+ minimal terdiri dari 1 kata. Untuk setiap template, direalisasikan kalimat dengan pseudo code sebagai berikut 1. Pilih suatu frasa f[i] dengan bobot tertinggi (bobot dihitung dari total bobot term yang menyusunnya) yang bersesuaian dengan POS tag. 2. Frasa berikutnya f[i+1] merupakan frasa yang cocok terhadap f[i] yang bersesuaian dengan POS tag template. Frasa dipilih berdasarkan kecocokan term terakhir frasa f[i] dengan term pertama pada kandidat frasa fo[i+1]. Bila POS tag template berikutnya adalah POS tag tercadang (DT, IN, TO), maka langsung realisasikan frasa. 3. Bila nilai kecocokan kemunculan kandidat fo[i+1] lebih besar dari suatu nilai batas yang ditentukan (threshold), maka fo[i+1] dipilih sebagai frasa berikutnya (f[i+1]). 4. Bila tidak ada frasa f[i+1] yang dipilih (artinya semua nilai kecocokan adalah 0), lakukan backtrack untuk memilih frasa f[i] dengan bobot terbesar berikutnya, yang masih cocok dengan frasa f[i-1]. Bila i-1 adalah start, maka tidak perlu mencari kecocokan terhadap frasa f[i-1]. 5. Lanjutkan sampai semua frasa untuk masing-masing posisi pada template sudah terisi. 6. Frasa yang direalisasikan dari POS tag tercadang (DT, IN, TO) dianggap selalu cocok dengan frasa sebelum dan setelahnya. 7. Kecocokan suatu term dihitung memanfaatkan pendekatan N-gram. Pada pendekatan N-gram, nilai kecocokan dihitung berbasis pengamatan frekuensi 37
kemunculan term pertama suatu kandidat frasa fo[i+1] setelah term terakhir frasa f[i] terhadap teks input.
Menggunakan contoh template [JJ+]NN+VBG[DT][JJ+](NN+|NNP+) dan input abstrak sesuai Gambar II.1, dapat direalisasikan beberapa frasa untuk [JJ+], misal “multi-level”, “syntactic”, “efficient”, dan “real-time”. Realisasi beberapa frasa untuk NN+, misal “chart parser”, “Machine Translation MT System”. Berikut adalah simulasi eksekusi pseudo code di atas (menggunakan kecocokan berdasarkan bigram, terurut abjad). 1. POS tag adalah JJ+, pilih frasa “efficient” 2. Tidak ada f[i+1] yang dipilih – backtrack. 3. POS tag adalah JJ+, pilih frasa “multi-level”. 4. POS tag adalah NN+, pilih frasa “chart parser” 5. POS tag adalah VBG, gunakan “corresponding”. 6. POS tag adalah DT, gunakan “the” 7. POS tag adalah JJ+, pilih frasa “real-time”. 8. POS tag adalah NN+, pilih frasa “machine translation mt system”. Dengan hal tersebut dapat direalisasikan judul “efficient chart parser corresponding the real-time machine translation mt system” dengan jumlah 10 kata bagi input abstrak Gambar II.1. Dari 2 template pola judul yang ada, apabila terdapat realisasi judul yang berjumlah kurang dari 2 atau lebih dari 10 kata, maka judul tersebut tidak akan ditampilkan sebagai output. Hal tersebut dilakukan untuk memenuhi karakteristik judul yang baik poin 5. Terdapat tahap postprocessing untuk memastikan keabsahan realisasi kata dengan POS tag CC terhadap kata setelahnya. Misal kata “a initial” diubah menjadi “an initial”. III.2.4.2 Pembangkitan Judul Berbasis Adaptive K-Nearest-Neighbor Metode ini merupakan adaptasi penelitian Chen & Lee (2003). Pada penelitian ini, Adaptive
K-Nearest-Neighbor
(AKNN)
yang
diterapkan
merupakan
penyederhanaan versi Chen & Lee (2003). Pada metode ini, dicari sebuah kandidat judul yang paling mirip dengan input pada corpus. Perhitungan kemiripan menggunakan perhitungan similarity rate. Similarity rate dihitung 38
berdasarkan total nilai hasil perkalian bobot TF kata yang muncul pada teks input dan teks lainnya pada corpus. Instans abstrak pada corpus yang paling mirip dengan input akan diambil judulnya untuk digunakan sebagai basis (template). Kemudian, perlu dilakukan penyesuaian dengan mengganti frasa benda dan frasa kerja pada template sesuai yang terdapat pada input. Direalisasikan frasa dengan pola bigram berdasarkan informasi penting pada teks input. Frasa yang direalisasikan memiliki POS tag kata kerja, dan kata benda (NN+, NNP+, NNS+, NNPS+, VB+, VBD+, dan VBG+). Kemudian, urutkan semua frasa berdasarkan total bobot TF frasa untuk mencerminkan prioritas frasa muncul sebagai judul. Kata kerja dan kata benda pada template akan digantikan dengan frasa yang sudah direalisasikan dengan pseudo code sebagai berikut. 1. Pilih letak frasa kata benda dan kata kerja pada template (posisi sidx..eidx). 2. Untuk semua frasa f[1]..f[N] yang memiliki POS tag yang cocok dengan kata benda/kata kerja pada posisi bersangkutan, lakukan perhitungan kecocokan, yaitu: probabilitas kemunculan kata pertama f[x] setelah kata pada posisi sidx1 ditambah probabilitas kemunculan kata pada posisi edix+1 setelah kata terakhir pada f[x] berdasarkan model N-gram. 3. Pilih frasa paling cocok, bila dua frasa memiliki nilai perhitungan kecocokan yang sama, pilih frasa dengan bobot lebih tinggi. 4. Ulangi langkah 1-3 sampai semua kata benda, dan kata kerja pada template sudah diganti. Berbeda dengan tahap III.2.5.1, tahap ini tidak memiki postprocessing. Dengan demikian, kandidat judul yang dihasilkan mungkin tidak memuhi karakteristik judul yang baik poin 5, karena tidak di cek panjang katanya. III.3 Implementasi Bagian ini menjelaskan detil implementasi modul program seperti yang disajikan pada desain arsitektur program (Gambar III.1). Satu persegi panjang pada gambar merupakan satu modul. Gambar III.3 adalah gambaran umum implementasi per modul sesuai dengan arsitektur program. Gambar tersebut menunjukkan bagian pemanfaatan library, dan bagian yang diimplementasi. Detail per modul akan dijelaskan pada subbab berikutnya. 39
Gambar III.3. Ilustrasi Implementasi
III.3.1 Modul Pra-Proses Pra-proses terdiri dari empat fungsional seperti yang dibahas pada bagian III.2.2, detail implementasi modul ini dapat dilihat pada Tabel III.3.
Tabel III.5. Implementasi Kelompok Fungsional Pra-Proses. Memanfaatkan Library Stanford Core NLP 3.4.1 (D. Manning dkk., 2014): 1. Pemisahan kalimat 2. Tokenisasi 3. POS Tagging Implementasi: 1. Penghapusan Stop Words. Memanfaatkan daftar LUCENE stop words, yaitu: "a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to",
"was", "will", "with",
Selain itu, tanda baca berikut juga dihapus: "!", ".", ",", "?", "'", "\"", ":", ";", "*", "^", "#", "{", "|", "}", "(", ")", "_", "-", "[", "]", "/", "\\", "%", "&", "'", "''", "=", "+", "<", ">", "~".
40
III.3.2 Modul Pencarian Informasi Penting Modul pencarian informasi penting terdiri dari pembobotan term, klasifikasi retorik, serta model retorik kalimat. Pembobotan term dengan menggunakan metode TF diimplementasikan sendiri. Model retorik kalimat serta proses klasifikasi memanfaatkan library WEKA 3.7.12. (Hall dkk., 2009). Sementara itu, pembangunan fitur diimplementasikan sendiri. Detil dapat dilihat pada Tabel III.6.
Tabel III.6. Implementasi Kelompok Fungsional Pencarian Informasi Penting. Memanfaatkan Library WEKA 3.7.12 (Hall dkk., 2009): 1. Training Model Klasifikasi. Algoritma yang digunakan mencakup: Naïve Bayes, J48 (C4.5), Simple Logistic, dan SMO. 2. Klasifikasi kalimat memanfaatan fungsional klasifikasi yang terdapat pada library WEKA 3.7.12. Implementasi: 1. Pembobotan term menggunakan metode TF. 2. Pembangunan fitur klasifikasi kalimat (Tabel III.1).
III.3.3 Modul N-Gram Modul N-gram diimplementasikan sendiri. Pada modul ini, model bigram dibangun berdasarkan kalimat yang sudah disaring. Probabilitas bigram(X|Y) merupakan probabilitas kemunculan suatu kata X setelah kata Y. Misalkan terdapat sebuah kalimat “budi menendang bola budi”, maka akan terbentuk model statistik kemunculan kata seperti pada Tabel III.7. Probabilitas (“menendang” | “budi”) = jumlah kemunculan kata “menendang” setelah kata “budi” / jumlah kemunculan kata “budi” = 1/2 = 0.5.
41
Tabel III.7. Contoh Statistik Bigram. Sebelum\Sesudah Budi Menendang Bola
Budi 0 0 1
Menendang 1 0 0
Bola 0 1 0
III.3.4 Modul Template Judul Template dibangun berdasarkan penjelasan pada bagian III.2.4.1. Kelompok fungsional ini diimplementasikan sendiri. Pertama-tama judul pada corpus diubah ke dalam bentuk Regex. Lalu, dibuat beberapa cluster pola pengembangan judul menggunakan K-Means Clustering dengan random seed (dibuat 10 clusters). Lalu dihitung rata-rata minimum edit distance baik untuk satu cluster maupun keseluruhan antar-cluster. Kemudian, dihitung frekuensi kemunculan pola judul. Template judul dipilih berdasarkan frekuensi kemunculan suatu pola judul tertinggi yang dimodifikasi sesuai dengan cluster-nya (secara manual). Template yang sudah dibuat dapat di-load oleh program. Template tersebut merupakan analisis terhadap corpus dari kedua domain dataset yang digunakan. Hasil pengujian dapat dilihat pada bab IV. III.3.5 Modul Pembangkitan Judul Modul pembangkitan judul diimplementasikan sendiri sesuai dengan penjelasan pada bagian III.2.4. Untuk pembangkitan bahasa alami berbasis template, yang dilakukan pertama kali adalah template loading. Lalu, realisasikan frasa sesuai template yang ada. Kemudian, program akan membangkitkan judul sesuai dengan pseudo code pada bagian III.2.4.1. Untuk pembangkitan judul menggunakan metode Adaptive K-Nearest-Neighbor (AKNN), pertama kali dibuat vector space model (VSM) untuk corpus abstrak-judul. Kemudian, dicari instans dengan abstrak paling mirip dengan input dengan cara perhitungan perkalian TF. Judul teks corpus paling mirip digunakan sebagai template, kemudian direalisasikan frasa dengan POS tag NN+, NNP+, NNS+, NNPS+, VB+, VBD+, dan VBG+. Setelah itu, direalisasikan judul dengan mengikuti pseudo code pada bagian
42
III.2.4.2. Metode AKNN memerlukan waktu lebih lama dibanding pembangkitan berbasis template karena harus menciptakan VSM terlebih dahulu. III.4 Pengujian Eksperimen Eksperimen akan diuji menggunakan pengujian mesin dan pengujian manusia. Pengujian mesin akan dilakukan menghitung skor F1-Measure dengan membandingkan judul yang dibangkitkan oleh mesin terhadap judul asli. F1Measure digunakan karena merupakan harmonic mean precision, dan recall. Sehingga pertimbangan kinerja mencakup keseimbangan precision, dan recall. Pengujian manusia dilakukan dengan cara memberikan skor 1-3 terhadap judul yang dihasilkan eksperimen. Terdapat dua macam skor yang harus dinilai yaitu relevansi dan keterbacaan. Pada segi relevansi, skor 1 berarti tidak relevan, skor 2 berarti ragu, dan skor 3 berarti relevan. Pada segi keterbacaan, skor 1 berarti tidak mudah dibaca, skor 2 berarti ragu, dan skor 3 berarti mudah dibaca. Pertamatama, penguji perlu membaca abstrak makalah ilmiah yang menjadi input eksperimen, kemudian memberikan skor terhadap judul-judul yang dihasilkan. III.5 Anotasi Data Dataset yang digunakan berasal dari dua domain berbeda, yaitu domain ilmu komputer (CS), dan domain kimia (GaN). Dataset yang dianotasi pada domain CS terdiri dari 71 makalah pada Khodra dkk. (2011), 217 makalah konferensi Computational Linguistics (COLING) 2014, 186 makalah konferensi Human Language Technology (HLT) 2015, dan 176 makalah panjang konferensi Internasional Joint Conference on Natural Language Processing (IJCNLP) 2015. Totalnya terdapat 648 abstrak pada dataset CS. Dataset yang dianotasi pada domain kimia terdiri dari 488 abstrak makalah yang berasal dari penelitian Putra & Fujita (2015). Totalnya, 3648 kalimat pada dataset CS dan 2755 kalimat yang dianotasikan pada dataset GaN. Kedua dataset itu dianotasi dengan skema tiga kategori (AIM, OWN_MTHD, NR). Hasil anotasi yang disajikan dengan gaya statistik bigram dapat dilihat pada Tabel III.8 dan Tabel III.9. Tabel III.10 menunjukkan statistik pola pengembangan retorik abstrak (lebih dari 10 kemunculan). Sebagai contoh, abstrak pada Gambar II.1 mempunyai pola pengembangan “AIM, OWN_MTHD, NR”. Pada Tabel III.10, terlihat pola 43
pengembangan “AIM, OWN_MTHD, NR” (diarsir) muncul pada banyak pola dengan penambahan tertentu. Ketiga tabel tersebut mendukung penelitian O’Seaghdha dan Teufel (2014) tentang pola penulisan teks abstrak. Kalimat dengan retorik tertentu cenderung diikuti oleh retorik tertentu. Pada umumnya, kalimat pertama pada abstrak memiliki kategori retorik AIM dan NR. Tabel III.8. Hasil Anotasi Dataset CS. PREV \ NEXT NO AIM OWN_MTHD NR Total
AIM 283 18 15 363 679
OWN_MTHD 4 372 417 173 966
NR 361 271 502 869 2003
Tabel III.9. Hasil Anotasi Dataset GaN. PREV \ NEXT NO AIM OWN_MTHD NR Total
AIM 434 14 7 40 495
OWN_MTHD 8 171 112 115 406
NR 46 300 280 1128 1854
Tabel III.10. Pola Pengembangan Abstrak. Dataset Ilmu Komputer (CS) Pattern NR, AIM, OWN_MTHD, NR AIM, OWN_MTHD, NR NR, AIM, NR AIM, NR, OWN_MTHD, NR AIM, NR NR, AIM, NR, OWN_MTHD, NR AIM, OWN_MTHD, NR, OWN_MTHD, NR NR, AIM, OWN_MTHD, NR, OWN_MTHD, NR NR, OWN_MTHD, NR NR, AIM, OWN_MTHD Dataset Kimia (GaN) Pattern AIM, NR AIM, OWN-MTHD, NR AIM, NR, OWN_MTHD, NR 44
Count 159 129 105 56 33 22 19 14 12 11 Count 202 124 51
Dataset Kimia (GaN) Pattern AIM, OWN_MTHD, NR, OWN_MTHD, NR NR, AIM, NR NR
45
Count 30 18 12
BAB IV EKSPERIMEN
Pada bab ini, dipaparkan eksperimen yang telah dilakukan pada Tugas Akhir ini. Pembahasan mencakup tujuan ekseperimen, scenario eksperimen, dan hasil serta analisis percobaan. IV.1 Tujuan Eksperimen Tujuan utama eksperimen Tugas Akhir ini, yaitu: 1. Mengkonstruksi model klasifikasi retorik terbaik. Eksperimen ini mencakup percobaan penggunaan berbagai macam konfigurasi, serta algoritma pembelajaran mesin. 2. Mencari konfigurasi pembangkitan judul makalah otomatis terbaik. Pada task pembangkitkan
judul
makalah
otomatis,
eksperimen
berfokus
pada
pembangkitan judul yang mirip dengan judul aslinya. IV.2 Skenario Eksperimen IV.2.1 Klasifikasi Retorik 1. Beberapa model dilatih menggunakan kombinasi dataset: CS, GaN, dan CS+GaN. 2. Saat membangun model menggunakan dataset CS, model diuji menggunakan dataset GaN, begitu pula sebaliknya. Model CS+GaN, diuji dengan kedua dataset. 3. Model dinilai berdasarkan skor F1-Measure, dan confusion matrix. Skor F1Measure digunakan untuk agar dapat mempertimbangkan aspek precision, dan recall sekaligus. Confusion matrix digunakan agar analisis dapat dilakukan secara detil. 4. Model diuji secara on-the-run untuk melihat error rambatan (propagated error) akibat kesalahan klasifikasi retorik kalimat sebelumnya. Maksud pengujian on-the-run adalah menggunakan nilai fitur sequence (Tabel III.1) 46
yang berasal dari klasifikasi kalimat sebelumnya (bukan hasil anotasi manual). Hal ini perlu dilakukan karena klasifikasi kalimat dianggap sebagai sequence labeling. Agar mudah melihat perbedaan error yang ada, parameter kinerja on-the-run adalah misclassified sentence (1-akurasi). 5. Terdapat empat algoritma yang digunakan untuk membangun model: Naïve Bayes, J48 (C4.5), SMO, dan Simple Logistic. Algoritma Naïve Bayes digunakan karena merupakan algoritma yang digunakan pada penelitian paling awal (Teufel, 1999). Algoritma SMO digunakan pada penelitian Khodra, dkk. (2011). Algoritma J48 digunakan agar dapat menganalisis fitur apa yang paling berpengaruh pada eksperimen ini. Simple Logistic sebagai pembanding saja. 6. Karena dataset bersifat imbalanced, terdapat beberapa filter yang digunakan, yaitu: SMOTE, dan Class Balancer. 7. Fitur klasifikasi yang digunakan sesuai pada Tabel III.1. 8. Sebagai
baseline,
dilakukan
eksperimen
kinerja
algoritma
ketika
menggunakan pembobotan TF-IDF saja sebagai fitur klasifikasi (tanpa filter). Eksperimen ini dilakukan untuk model yang dilatih menggunakan dataset CS, dan GaN. IV.2.2 Pembangkitan Judul Otomatis 1. Setelah kalimat diklasifikasikan, kalimat disaring menggunakan beberapa konfigurasi, yaitu: delete non relevant, filter AIM OWN_MTHD, dan increase relevant frequency by {0,1,2,3,4,10,15} (bagian III.2.4). 2. Pembangkitan judul yang dilakukan menggunakan pendekatan pembangkitan bahasa alami berbasis template (ada dua template), dan berbasis AKNN (bagian III.2.4). Totalnya, terdapat maksimal tiga judul yang dibangkitkan untuk suatu input. Template judul yang digunakan dapat dilihat pada bagian III.2.4.1 (T0 dan T1). 3. Eksperimen pembangkitan judul menggunakan dataset yang sama dengan dataset model klasifikasi retorik. Akan tetapi, tetapi 16 tidak digunakan pada dataset CS. Sementara itu, 2 abstrak tidak digunakan untuk eksperimen
47
pembangkitan judul GaN. Hal tersebut disebabkan term pada judul abstrak data yang tidak digunakan, tidak muncul sama sekali di abstrak. 4. Konfigurasi increase relevant frequency by 0 dijadikan baseline karena merupakan konfigurasi paling sederhana (bagian III. 2.4.2) 5. Corpus yang digunakan sebagai basis AKNN adalah data latih masing-masing domain, sesuai bagian III.5. 6. Untuk menguji lebih lanjut (selain data latih), eksperimen pembangkitan judul dilakukan untuk dataset tambahan. Sebanyak 250 abstrak pada konferensi Language Resources (LREC) 2014 untuk domain CS, dan 250 abstrak makalah tambahan pada Putra & Fujita (2015) untuk domain GaN digunakan. IV.3 Model Klasifikasi Retorik Ketika menggunakan filter SMOTE, Dataset CS terdiri 2037 kalimat dengan retorik AIM, 1932 kalimat dengan retorik OWN_MTHD, dan 2003 kalimat dengan retorik NR. Sementara itu, ketika menggunakan filter SMOTE, dataset GaN terdiri dari 1980 kalimat dengan retorik AIM, 1624 kalimat dengan retorik OWN_MTHD, dan 1854 kalimat dengan kategori retorik NR. Detil kinerja model yang dilatih menggunakan dataset CS dapat dilihat pada Tabel IV.1. Detil kinerja model yang dilatih menggunakan dataset GaN dapat dilihat pada Tabel IV.2. Pada kedua tabel tersebut, terlihat penggunaan konfigurasi latih tanpa filter, dan penggunaan filter SMOTE memberikan kinerja lebih baik. Sehingga, filter Class Balancer tidak dipakai pada tahap-tahap berikutnya.
Tabel IV.1. Kinerja Model yang Dilatih Menggunakan Dataset CS, 10-Fold-Cross Validation. Model
Naïve Bayes J48 SMO Simple Logistic
10-Fold-Cross Validation Weighted Avg. FMeasure (Tanpa Filter) 0.776 0.771 0.762 0.765
10-Fold-Cross Validation Weighted Avg. FMeasure (SMOTE) 0.721 0.786 0.732 0.742
48
10-Fold-Cross Validation Weighted Avg. FMeasure (Class Balancer) 0.718 0.756 0.73 0.744
Baseline
0.39 0.389 0.389 0.389
Tabel IV.2. Kinerja Model yang Dilatih Menggunakan Dataset GaN, 10-FoldCross Validation. Model
Naïve Bayes J48 SMO Simple Logistic
10-Fold-Cross Validation Weighted Avg. FMeasure (Tanpa Filter) 0.803 0.779 0.749 0.777
10-Fold-Cross Validation Weighted Avg. FMeasure (SMOTE) 0.767 0.797 0.757 0.762
10-Fold-Cross Validation Weighted Avg. FMeasure (Class Balancer) 0.757 0.753 0.722 0.75
Baseline
0.551 0.541 0.541 0.541
Tabel IV.3 dan Tabel IV.4 memberikan kinerja model yang dilatih menggunakan dataset CS, dan GaN saat dievaluasi menggunakan dataset yang berlainan (model CS, dievaluasi dengan dataset GaN). Pada Tabel IV.3 dan Tabel IV.4, terlihat kinerja model yang buruk ketika dievaluasi dengan dataset pada domain yang berbeda. Artinya, model yang dibuat oleh teks pada suatu domain, tidak cocok digunakan untuk mengklasifikasikan teks pada domain lainnya. Hasil pada Tabel IV.1 – Tabel IV.4 menunjukkan algoritma yang berbeda memiliki kinerja yang kurang lebih sama. Kami memilih model berbasis J48 sebagai model terbaik dengan pertimbangan kinerja yang cukup konsisten, serta kemudahan membaca model.
Tabel IV.3. Kinerja Model yang Dilatih Menggunakan Dataset CS, Dievaluasi Menggunakan Dataset GaN. Model
Naïve Bayes J48 SMO Simple Logistic
Weighted Avg. F-Measure, GaN Dataset sebagai Test Data (Tanpa Filter) 0.693
Weighted Avg. F-Measure, GaN Dataset sebagai Test Data (SMOTE) 0.684
0.683 0.697 0.697
0.568 0.693 0.668
49
Tabel IV.4. Kinerja Model yang Dilatih Menggunakan Dataset GaN, Dievaluasi Menggunakan Dataset CS. Model
Naïve Bayes J48 SMO Simple Logistic
Weighted Avg. F-Measure, Cs Dataset sebagai Test Data (Tanpa Filter) 0.541
Weighted Avg. F-Measure, CS Dataset sebagai Test Data (SMOTE) 0.595
0.457 0.440 0.447
0.620 0.576 0.655
Model dengan filter SMOTE, secara umum memiliki kinerja lebih baik untuk kedua dataset, hal tersebut dapat dilihat pada Tabel IV.5 – Tabel IV.10. Berdasarkan Tabel IV.5 – Tabel IV.10, model memiliki kinerja cukup buruk ketika dievaluasi menggunakan dataset yang berasal dari domain berbeda. Pada model tanpa filter, kalimat dengan kategorik retorik semestinya OWN_MTHD, banyak diklasifikasikan sebagai NR. Sementara itu, pada model dengan filter SMOTE, kalimat dengan kategori retorik NR, banyak diklasifikasikan sebagai OWN_MTHD. Recall klasifikasi untuk retorik AIM, dan OWN_MTHD lebih diutamakan pada Tugas Akhir ini karena memuat informasi yang penting untuk dimuat pada judul makalah ilmiah. Dengan demikian, model dengan filter SMOTE dianggap lebih baik dibanding tanpa filter.
Tabel IV.5. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, 10-Fold-Cross Validation. J48 (TANPA FILTER) AIM OWN_MTHD 493 29 31 622 65 233 J48 (DENGAN SMOTE) AIM OWN_MTHD 1734 120 145 1550 169 419
NR 157 313 1705
<- Classified As AIM OWN_MTHD NR
NR 183 237 1415
<- Classifed As AIM OWN_MTHD NR
50
Tabel IV.6. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, 10-Fold-Cross Validation. J48 (TANPA FILTER) AIM OWN_MTHD 435 2 9 54 49 48 J48 (DENGAN SMOTE) AIM OWN_MTHD 1836 75 53 1166 97 408
NR 58 343 1757
<- Classified As AIM OWN_MTHD NR
NR 69 405 1349
<- Classifed As AIM OWN_MTHD NR
Tabel IV.7. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, Evaluasi On-the-run (dengan SMOTE). J48 dievaluasi menggunakan dataset CS on-the-run (0.359 misclassified sentence) AIM OWN_MTHD NR <- Classified As 484 50 145 AIM 131 507 328 OWN_MTHD 114 544 1345 NR J48 dievaluasi menggunakan dataset GaN on-the-run (0.575 misclassified sentence) AIM OWN_MTHD NR <- Classifed As 199 11 285 AIM 59 95 252 OWN_MTHD 185 793 876 NR
Tabel IV.8. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, Evaluasi On-the-run (dengan SMOTE). J48 dievaluasi menggunakan dataset CS on-the-run (0.465 misclassified sentence) AIM OWN_MTHD NR <- Classified As 339 117 163 AIM 38 489 439 OWN_MTHD 488 474 1121 NR J48 dievaluasi menggunakan dataset GaN on-the-run (0.312 misclassified sentence) AIM OWN_MTHD NR <- Classifed As 440 34 21 AIM 25 193 188 OWN_MTHD 90 501 1263 NR
51
Tabel IV.9. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS, Evaluasi On-the-run (Raw). J48 dievaluasi menggunakan dataset CS on-the-run (0.317 misclassified sentence) AIM OWN_MTHD NR <- Classified As 487 32 160 AIM 40 287 639 OWN_MTHD 66 220 1717 NR J48 dievaluasi menggunakan dataset GaN on-the-run (0.312 misclassified sentence) AIM OWN_MTHD NR <- Classifed As 203 5 287 AIM 22 30 354 OWN_MTHD 49 143 1662 NR
Tabel IV.10. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset GaN, Evaluasi On-the-run (Raw). J48 dievaluasi menggunakan dataset CS on-the-run (0.494 misclassified sentence) AIM OWN_MTHD NR <- Classified As 299 86 294 AIM 14 134 818 OWN_MTHD 85 204 1414 NR J48 dievaluasi menggunakan dataset GaN on-the-run (0.198 misclassified sentence) AIM OWN_MTHD NR <- Classifed As 348 11 46 AIM 15 109 282 OWN_MTHD 64 129 1661 NR
Sebagai ilustrasi, model J48 yang dilatih menggunakan dataset CS dan GaN dapat dilihat pada Gambar IV.1, dan Gambar IV.2. Tingkat kepentingan suatu fitur berbeda pada dataset yang berbeda. Kinerja on-the-run yang kurang baik dapat diakibatkan oleh pola pengembangan kalimat yang berbeda pada dataset yang berbeda seperti pada Tabel III.10. Model pembelajaran mesin cenderung menyesuaikan diri dengan pola paling umum, sehingga hal ini sangat masuk akal. Fitur paling penting untuk dataset CS adalah AIM Lexicon, diikuti oleh fitur kategori retorik sebelum. Sementara itu, pada dataset GaN, fitur terpenting adalah lokasi, diikuti oleh fitur kategori retorik sebelum. Model juga dibangun menggunakan kombinasi dari kedua dataset sekaligus (CS+GaN), percobaan dilakukan tanpa filter, dan menggunakan filter SMOTE. Model memiliki kinerja lebih baik saat menggunakan filter SMOTE. Detil dapat dilihat pada Tabel IV.11, dan Tabel IV.12. Hasil tersebut menunjukkan model memiliki kinerja lebih baik ketika dibangun secara terpisah untuk masing-masing 52
dataset. Artinya, saat melakukan klasifikasi teks CS, sebaiknya menggunakan model yang dibangun menggunakan corpus yang berasal dari domain sama.
Gambar IV.1. Model J48 CS.
Gambar IV.2. Model J48 GaN.
Tabel IV.11. Kinerja Model yang Dilatih Menggunakan Dataset CS+GaN Model
Naïve Bayes J48 SMO Simple Logistic
10-Fold-Cross Validation Weighted Avg. F Measure (SMOTE) 0.739 0.760 0.708 0.735
Evaluasi menggunakan dataset CS. 0.668 0.715 0.576 0.683
53
Evaluasi Menggunakan Dataset GaN. 0.753 0.761 0.735 0.722
Tabel IV.12. Confusion Matrix, Model J48 yang Dilatih Menggunakan Dataset CS+GaN, Evaluasi On-The-Run. J48 dievaluasi on-the-run menggunakan dataset CS (0.426 misclassified sentences) AIM OWN_MTHD NR <- Classified As 461 90 128 AIM 48 695 223 OWN_MTHD 134 930 939 NR J48 dievaluasi on-the-run menggunakan dataset GaN (0.426 misclassified sentences) AIM OWN_MTHD NR <- Classifed As 270 15 210 AIM 25 198 183 OWN_MTHD 55 876 923 NR
Berdasarkan Tabel IV.1 - Tabel IV.12, dapat disimpulkan bahwa model sebaiknya dibuat secara independen untuk masing-masing domain. Selain itu, eksperimen juga dilakukan untuk mencari tahu apakah jumlah instances pada data latih mempengaruhi kinerja model secara signifikan saat digunakan on-the-run. Eksperimen ini dilakukan menggunakan algoritma J48 (filter SMOTE), menggunakan dataset CS secara incremental sebanyak tiga kali. Detil hasil dapat dilihat pada Tabel IV.13. Hasil tersebut menunjukkan penambahan jumlah instances pada dataset tidak selalu menambah kinerja model.
Tabel IV.13. Hubungan Penambahan Data Latih pada Kinerja (Testing On-therun). Traning Data 71 Khodra 71 Khodra + 217 COLING 71 Khodra + 217 COLING + 186 HLT
Testing Data (Target) 217 COLING 186 HLT 174 IJCNLP
Misclassified Sentences 0.284 0.365 0.316
Sebagai contoh, beberapa kalimat salah klasifikasi on-the-run oleh model J48 (filter SMOTE) pada domain CS dapat dilihat pada Tabel IV.14. Percobaan tersebut menggunakan dataset domain CS yang sudah dianotasikan. Salah klasifikasi banyak terjadi ketika suatu abstrak memiliki pola pengembangan retorik yang jarang. Sebagai contoh, kalimat pertama pada Tabel IV.14 diklasifikan karena OWN_MTHD pada umumnya tidak diikuti oleh AIM. Pada 54
contoh kedua, kalimat NR umumnya diikuti oleh kalimat NR pada awal abstrak, apabila tidak ada AIM lexicon. Kalimat ketiga salah klasifikasi karena NR pada umumnya diikuti oleh AIM di awal abstrak. Ketiga kasus tersebut merupakan kasus pola yang tidak umum (lihat Tabel III.10). Pada contoh keempat, kemunculan NR lexicon di awal abstrak membuatnya diklasifikasikan sebagai NR. Pada contoh kelima, kalimat tersebut diklasifikan sebagai AIM karena kemunculan AIM lexicon. Contoh terakhir diklasifikasikan sebagai OWN_MTHD karena pengaruh presentasi bobot. Berdasarkan hal ini, model yang dibangun memiliki peluang overfitting yang besar. Pola pengembangan kalimat yang tidak umum berkontribusi pada misclassified sentences saat dijalankan on-the-run.
Tabel IV.14. Contoh Kalimat Salah Klasifikasi No.
1
2 3
4
5
6
Kalimat
Kelas Seharusnya
Diklasifikasikan Sebagai
Features value [Posisi, AIM Lexicon, …, Kategori Retorik Sebelumnya] [0.2, true, false, false, 1.8261, OWN_MTHD]
We present here a method of calculating person name match probability using a language model derived from a directory of legal professionals. In this research, we developed a support system for revising titles.
AIM
OWN_MTHD
AIM
NR
To achieve these goals, we combine two supervised machine learning paradigms, online and multitask learning, adapting and unifying them in a single framework. In order to achieve high parsing speed, we divided an existing english grammar into multiple levels. Our contribution is a large-scale user study with 121 participants using the netspeak search engine to shed light on this issue for the first time. The final corpus and the annotation guidelines are freely available to encourage future research in argument recognition.
OWN_MTHD
AIM
OWN_MTHD
NR
[0.1111, false, false, true, 1.0556, AIM]
NR
AIM
[0.6, true, false, false, 0.9231, NR]
NR
OWN_MTHD
[0.8, false, false, false, 0.8889, NR]
55
[0.2857, false, false, false, 1.0769, NR] [0.4, true, false, true, 1.1111, NR]
IV.4 Pembangkitan Judul Model yang digunakan untuk mengklasifikasikan kalimat pada eksperimen ini adalah model yang dilatih menggunakan algoritma J48 (filter SMOTE) karena dianggap memiliki kinerja yang cukup konsisten, serta mudah dibaca. Gambar IV.3 merupakan rata-rata F1-Measure hasil eksperimen pembangkitan judul dengan berbagai macam konfigurasi untuk dataset CS. Detil hasil eksperimen lengkap dapat dilihat pada lampiran D. Perbandingan rata-rata F1-Measure terhadap baseline dapat dilihat pada Gambar IV.4. Gambar IV.5 merupakan rata-rata F1-Measure hasil eksperimen pembangkitan judul dengan berbagai macam konfigurasi untuk dataset GaN. Detil eksperimen lengkap dapat dilihat pada lampiran E. Perbandingan rata-rata F1-Measure terhadap baseline dapat dilihat pada Gambar IV.6. Secara umum, hasil pembangkitan judul lebih baik saat menggunakan konfigurasi delete non relevant atau filter aim own_mthd untuk domain GaN. Artinya, judul makalah ilmiah cenderung mengandung informasi tujuan spesifik penelitian, objek penelitian, dan metode penelitian. Sementara itu, pada domain CS, pemanfaatan retorik kalimat tidak meningkatkan kinerja. Artinya, kata kunci spesifik penelitian (tujuan, objek, metode) memiliki bobot TF yang tinggi. T0 0.203 0.191
0.232
Increase Relevant Frequency by 0 (baseline)
0.205
T1 0.183
AKNN 0.216
Filter AIM OWN
0.197
0.217 0.183
Delete Non Relevant
Gambar IV.3. Eksperimen Pembangkitan Judul domain CS (632 Data).
56
0.004
0.002
0.002 0 Delete Non Relevant
-0.002
Filter AIM OWN_MTHD
-0.004 -0.006
-0.006
-0.008
-0.008
-0.01
-0.008
-0.012 -0.014 -0.016
-0.015
-0.016
-0.018 T0
T1
AKNN
Gambar IV.4. Perbandingan Kinerja Pembangkitan Judul domain CS (632 Data) terhadap Baseline.
T0
T1
0.313
0.279
0.123
0.169
Increase Relevant Frequency by 0 (baseline)
AKNN
0.18
0.303
0.213 0.165
Filter AIM OWN
0.201
Delete Non Relevant
Gambar IV.5. Eksperimen Pembangkitan Judul domain GaN (486 Data).
57
0.057
0.06 0.05
0.044
0.042
0.04
0.034
0.032
0.03
0.024
0.02 0.01 0 Delete Non Relevant
Filter AIM OWN_MTHD T0
T1
AKNN
Gambar IV.6. Perbandingan Kinerja Pembangkitan Judul domain GaN (486 Data) terhadap Baseline.
Untuk menguji lebih lanjut, penulis melakukan eksperimen pembangkitan judul pada 250 abstrak pada konferensi LREC14 untuk domain CS, dan 250 abstrak makalah tambahan pada Putra & Fujita (2015) untuk domain GaN. Hasil rata-rata F1-Measure dapat dilihat pada Gambar IV.7 – Gambar IV.11. Detil dapat dilihat pada Lampiran F, dan Lampiran G.
T0 0.215 0.205
T1
0.255
Increase Relevant Frequency by 0 (baseline)
0.212 0.202
AKNN 0.243
Filter AIM OWN
0.209 0.203
0.243
Delete Non Relevant
Gambar IV.7. Eksperimen Pembangkitan Judul domain CS (250 data tambahan).
58
0 Delete Non Relevant -0.002
Filter AIM OWN_MTHD
-0.002 -0.003
-0.004 -0.006
-0.003
-0.006
-0.008 -0.01 -0.012
-0.012
-0.012
-0.014 T0
T1
AKNN
Gambar IV.8. Perbandingan Kinerja Pembangkitan Judul domain CS (250 data tambahan) terhadap Baseline.
T0
0.109
Increase Relevant Frequency by 0 (baseline)
AKNN 0.251
0.231 0.149
T1
0.245
0.192 0.131
0.169 0.124
Filter AIM OWN
Delete Non Relevant
Gambar IV.9. Eksperimen Pembangkitan Judul domain GaN (250 data tambahan).
59
0.05
0.043
0.045 0.04 0.035 0.03 0.025 0.02 0.015
0.022
0.02 0.015
0.02
0.014
0.01 0.005 0 Delete Non Relevant
Filter AIM OWN_MTHD T0
T1
AKNN
Gambar IV.10. Perbandingan Kinerja Pembangkitan Judul domain GaN (250 data tambahan) terhadap Baseline.
Secara umum, metode pembangkitan judul AKNN menghasilkan kinerja paling baik dilihat dari rata-rata F1-Measure. Hal tersebut diakibatkan oleh fleksibilitas pola judul AKNN karena tidak memiliki batasan panjang judul seperti pada metode pembangkitan judul berdasarkan template (Bagian III.2.5.1). Berikut adalah contoh judul yang dibangkitkan menggunakan metode AKNN untuk domain CS. Judul Asli Judul AKNN Judul T0
Judul T1
= “Event Extraction Using Distant Supervision” = “Multilingual Event Extraction Using Cross-Lingual Extraction” (minimum edit distance terhadap judul asli = 60) = “A Distant Supervision Approach to an Other Facts” (minimum edit distance terhadap judul asli = 48) = “Concerning a Template-Based Event Extraction on Extraction” (minimum edit distance terhadap judul asli = 58)
Abstrak = Distant supervision is a successful paradigm that gathers training data for information extraction systems by automatically aligning vast databases of facts with text. Previous work has demonstrated its usefulness for the extraction of binary relations such as a person’s employer or a film’s director. Here, we extend the distant supervision approach to template-based event extraction, focusing on the extraction of passenger counts,
60
aircraft types, and other facts concerning airplane crash events. we present a new publicly available dataset and event extraction task in the plane crash domain based on wikipedia infoboxes and newswire text. Using this dataset, we conduct a preliminary evaluation of four distantly supervised extraction models which assign named entity mentions in text to entries in the event template. our results indicate that joint inference over sequences of candidate entity mentions is beneficial. Furthermore, we demonstrate that the searn algorithm outperforms a linear-chain crf and strong baselines with local inference.
IV.5 Evaluasi Penilaian Manusia Output judul yang dihasilkan oleh eksperimen, selain dievaluasi menggunakan parameter
kinerja
eksperimen
peringkasan
dokumen,
juga
dievaluasi
menggunakan penilaian manusia. Evaluasi ini melibatkan penilaian relevansi dan keterbacaan judul yang dihasilkan eksperimen dengan skor 1-3. Skor 1 berarti tidak relevan/tidak mudah dibaca. Skor 2 berarti ragu-ragu. Skor 3 berarti relevan/mudah dibaca. Judul yang dievaluasi adalah judul yang dihasilkan oleh program menggunakan dataset LREC 2014 (domain CS), dan 250 data GaN tambahan (domain GaN), dengan konfigurasi filter AIM OWN_MTHD. Untuk masing-masing domain, dipilih 30 sample abstrak dan judulnya sebagai bahan evaluasi. Dalam melakukan sampling, 250 data dibagi menjadi beberapa kelompok, tiap kelompok memiliki rentang F1-Measure sebesar 1.5 (0<=F1Measure kelompok 1<=1.5, 1.5
61
Alpha secara umum lebih dari atau sama dengan 0.7, maka respon pada kuisioner dapat dikatakan baik. Berdasarkan Tabel IV.15 dan Tabel IV.16, terlihat judul yang dihasilkan dengan metode AKNN memiliki relevansi, dan keterbacaan tertinggi dibanding metode lainnya. Hal tersebut sejalan dengan evaluasi judul menggunakan penilaian F1Measure. Hasil evaluasi menunjukkan konsistensi antar responden yang dapat diterima. Artinya, evaluasi ini dapat diterima.
Tabel IV.15. Evaluasi Penilaian Manusia, Nilai Relevansi dan Keterbacaan. Parameter\Algoritma Rata-Rata Relevansi Rata-Rata Keterbacaan
AKNN 2.237 2.405
CS T0 2.070 2.302
T1 1.699 1.964
AKNN 2.205 1.684
GaN T0 1.792 1.600
T1 1.595 1.448
Tabel IV.16. Evaluasi Penilaian Manusia, Nilai Cronbach Alpha. Parameter\Algoritma Cronbach Alpha Relevansi Cronbach Alpha Keterbacaan
AKNN 0.781
CS T0 0.559
T1 0.800
AKNN 0.938
GaN T0 0.825
T1 0.799
0.671
0.595
0.697
0.952
0.865
0.752
Sebagai contoh, berikut adalah contoh judul terbaik untuk rata-rata nilai relevansi, dan keterbacaan pada masing-masing domain. Domain CS Judul Asli
= “Constructing a Corpus of Japanese Predicate Phrases for Synonym/Antonym Relations” Judul terbaik (AKNN) = “Corpus for Japanese Predicate Phrases” (F1-Measure = 0.67, minimum edit distance terhadap judul asli = 37) Abstrak = “We construct a large corpus of japanese predicate phrases for synonym-antonym relations. The corpus consists of 7,278 pairs of predicates such as ‘receive’-permission vs. ‘obtain’-permission, in which each predicate pair is accompanied by noun phrase and case information. The relations are categorized as synonyms, entailment, antonyms, or unrelated. Antonyms are further categorized into three different classes depending on their aspect of oppositeness. Using the data as training corpus, we conduct the supervised binary classification of synonymous predicates based on linguistically-motivared features. Combining features that are characteristic of synonymous predicates with
62
those that are characteristic of antonymous predicates, we succeed in automatically indentifying synonymous predicates at the high FScore of 0.92, a 0.4 improvement over the baseline method of using the Japanese WordNet. The results of an experiment confirm that the quality of the corpus is high enough to achieve automatic classification. To the best of our knowledge, this is the first and the largest publicly available corpus of Japanese predicate phrases for synonym-antonym relations. “
Domain GaN Judul Asli
= “Selective Growth of Cubic GaN in Small Areas on Patterned GaaS(100) Substrates By Metalorganic Vapor-Phase Epitaxy” Judul Terbaik (T0) = “vapor phase epitaxy growth and gaas substrates of phase epitaxy growth and epitaxy growth on gan ” (F1-Measure = 0.4797, minimum edit distance terhadap judul asli = 37) Abstrak = “The metalorganic vapor phase epitaxy growth of cubic GaN in small areas on SiO2-patterned gaas substrates has been performed. we have succeeded in selective growth without deposition on the SiO2 mask at temperatures between 620 and 675 degrees C. The crystal quality of cubic GaN has been improved through growth in small areas on patterned GaaS substrates. It is found that the grain size becomes larger and the full width at half maximum of the x-ray diffraction peak of cubic gan becomes narrower on patterned substrates than on unpatterned ones.”
Judul terbaik pada domain CS menggunakan metode AKNN, dan memiliki nilai F1-Measure tertinggi diantara judul yang dihasilkan oleh metode AKNN pada kuisioner. Sementara itu, judul pilihan terbaik pada domain GaN pada kuisioner menggunakan metode pembangkitan bahasa alami berbasis template, dan bukan merupakan judul dengan F1-Measure tertinggi. Judul yang mirip dengan judul asli memiliki tingkat relevansi, dan keterbacaan yang tinggi. Akan tetapi, walau tidak terlalu menyerupai judul asli dan benar secara sintaks (Berdasarkan F1-Measure dan skor minimum edit distance), tidak berarti suatu judul yang dibangkitkan program tidak relevan.
63
BAB V SIMPULAN DAN SARAN
V.1 Simpulan Pada Tugas Akhir ini, beberapa kesimpulan terkait pembangkitan judul makalah ilmiah otomatis yaitu: 1. Pemanfaatan kategori retorik kalimat pada domain yang berbeda dapat menghasilkan kinerja yang berbeda. Pada dataset GaN, pemanfaatan retorik kalimat dapat meningkatkan kinerja sampai 46.3%, sementara itu tidak meningkatkan kinerja pada dataset CS. 2. Pada Tugas Akhir ini, kinerja pembangkitan judul otomatis pada domain GaN lebih menonjol. F1-Measure terbaik pembangkitan judul otomatis berkisar antara 0.21-0.32 menggunakan metode AKNN. Metode AKNN menunjukkan hasil lebih baik dari segi F1-Measure maupun evaluasi penilaian manusia dibanding metode pembangkitan bahasa alami berbasis template. 3. Walaupun judul yang dihasilkan metode AKNN tidak secara ketat memenuhi karakteristik judul yang baik, tetapi memiliki nilai relevansi (2.205-2.237) dan keterbacaan (1.684-2.405) yang lebih baik dibanding metode lainnya. Sesuai hasil kuisioner, judul yang memiliki nilai F1Measure kecil bukan berarti tidak relevan terhadap isi teks. 4. Tugas Akhir ini melakukan klasifikasi retorik kalimat sebagai sequence labelling, menggunakan tiga kategori: AIM, OWN_MTHD, dan NR. Model klasifikasi memiliki kinerja cukup baik dengan nilai F1-Measure sekitar 0.70-0.79. Model klasifikasi yang dihasilkan bersifat domaindependent, serta cenderung overfitting terhadap pola penulisan. 5. Penambahan dataset untuk membangun model klasifikasi retorik tidak memberikan kontribusi secara signifikan. Asumsi satu discourse per kalimat tidak mutlak cocok pada klasifikasi retorik, khususnya pada kalimat majemuk yang memuat banyak tipe informasi. Hal ini 64
menunjukkan bahwa klasifikasi retorik dapat dipandang sebagai klasifikasi multi-label (satu kalimat memiliki banyak label). 6. Model klasifikasi retorik memiliki kinerja lebih baik ketika dibangun secara
indenpenden
untuk
dataset
pada
domain
yang
berbeda.
Penambahan dataset tidak serta merta meningkatkan kinerja model klasifikasi pembangkitan judul, V.2 Saran Terdapat beberapa saran untuk penelitian berikutnya: 1. Penelitian lebih lanjut perlu dilakukan untuk meneliti fitur yang dapat digunakan untuk melakukan klasifikasi retorik multi-domain. 2. Perlu diteliti lebih lanjut apakah klasifikasi multi-label untuk kalimat retorik dapat meningkatkan kinerja pembangkitan judul makalah secara otomatis. Analisis yang dilakukan dalam membangun model klasifikasi retorik sebaiknya dilakukan lebih dalam untuk meningkatkan kinerja model (sintaksik, semantik, pragmatik). 3. Corpus data yang lebih besar sebaiknya digunakan dalam metode AKNN dalam pembangkitan judul seperti dilakukan Chen & Lee (2003). 4. Teks pada domain yang berbeda perlu diberikan perlakuan yang berbeda dalam pembangkitan judul otomatis. 5. Karena keterbatasan waktu, responden kuisioner pada Tugas Akhir ini tidak banyak. Untuk Tugas Akhir, terutama peringkasan dokumen yang membutuhkan penilaian manusia, sebaiknya periode penyebaran kuisioner cukup panjang (1-2 bulan) agar mendapat banyak responden.
65
DAFTAR REFERENSI
Academic Learning Centre. (2016). Writing a Great Title. University of Manitoba Notes. Retrieved 2015, from https://umanitoba.ca/student/academiclearning/media/Writing_a_Great_Tit le_NEW.pdf Akman, Tolga. (2013). Selection of Authors, Titles and Writing a Manuscript Abstract. Turkish Journal of Urology. Vol 39 (Supplement 1), pp. 5-7. Channarukul, Songsak. (1999). A Template-Based Natural Language Generator for Real-Time Systems. The University of Wisconsin-Milwaukee: Technical Report NLKRRG-2000-01. Colmenares, Carlos A., Litvak, Marina, Matrach, Amin & Silvestri, Fabrizio. (2015). HEADS: Headline Generation as Sequence Prediction Using an Abstract Feature-Rich Space. In Proceedings of Human Language Technology (The 2015 Annual Conference of the North American Chapter of ACL), pp. 133-142. Contractor, Danish, Guo, Yu fan, Korhonen, Anna. (2012). Using Argumentative Zones for Extractive Summarization of Scientific Articles. In Proceedings of Computational Linguistics (COLING) 2012, pp. 663-678. Chen, S. C., & Lee, L. S. (2003). Automatic Title Generation for Chinese Spoken Documents Using an Adaptive K-Nearest-Neighbor Approach. In Proceedings European Conference of Speech Communication and Technology, pp. 2813-2816. Clark, Alexander, Fox, Christ & Lappin, Shalom. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Singapore: John Wiley & Sons. Chapter 20, pp. 574-598. Elliot, Celia M. (2008). Writing Effective Title. University oF Illinois Notes. Elmslie. (2012). Some Tips on Titling Your Critical Analysis Essay. Dawson College Notes. Hall, Mark, Frank, Eibe, Holmes. Geoffrey, Pfahringer, Bernhard, Reutemann, Pter, & Witten, Ian H. (2009). The WEKA Data Mining Software: An Update. In Proceedings Special Interest Group in Knowledge Discovery and Data Mining (SIGKDD) Explorations, Vol. 11. Hovy, Eduard & Lin, Chin-Yew. (1999). Automated Text Summarization in SUMMARIST. TIPSTER ’98 in Proceedings of a workshop on held at Baltiore, Maryland: October 13-15, 1998, pp. 197-214. 66
Jamali, H. R., & Nikzad, M. (2011). Article title type and its relation with the number of downloads and citations. Scientometrics. Vol 88, Issue. 2, pp. 653-661. Jin, Rong., & Hauptmann, Alexander G. (2001). Automatic Title Generation for Spoken Broadcast News. In Proceedings of Human Language Technology (HLT), pp. 1-3. Jurafsky, Daniel & Martin, James H. (2009). Speech and Language Processing. New Jersey: Pearson International Edition, Prentice Hall. KBBI. (2015). Retrieved 2015, from http://kbbi.web.id/ Khan, Atif, & Salim, Naoimie. (2014). A Review on Abstractive Summarization Methods. Journal of Theoretical and Applied Information Technology Vol. 59 No. 1, pp. 64-72. Khodra, Masayu L., Widyantoro, Dwi H., Aziz, E. Aminudin, Trilaksono, Bambang R. (2011). Konstruksi Koleksi Retorik Kalimat. In the Proceedings of Konferensi Nasional Sistem Informasi (KNSI), pp. 262268. Kupiec J., dkk. (1995). A Trainable Document Summarizer. In the Proceedings of Special Interest Group in Information Retrieval (SIGIR), pp. 68-73. Letchford, Adrian, M., Hellen Susannah, Preis, Tobias. 2015. The Advantage of Short Paper Titles. R. Soc. Open Sci. Vol 2. Manning, Christoper D., Raghavan, Prabhakar, & Schütze, Hinrich. (2008). Introduction to Information Retrieval (online edition). Cambridge:Cambridge University Press. Manning, Christopher D., Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. (2014). The Stanford CoreNLP Natural Language Processing Toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pp. 55-60. O’Seaghdha, D., Teufel, S. (2014). Unsupervised Learning of Rhetorical Structure with Un-Topic Models. In Proceedings of the 25th Internasional Conference on Computational Linguistics (COLING 2014), pp. 2-13. P., Carlos E., L., Joao Paulo da S. N., P., Bianca Sakamoto R. P. (2012). Article with Short Titles Describing the Results Are Cited More Often. CLINICS Journal. Vol. 67, Issue 5, pp. 509-513. Putra, Jan Wira Gotama, & Fujita, Katsuhide. (2015). Scientific Paper Title Validity Checker Utilizing Vector Space Model and Topics Model. In Proceedings of Konferensi Nasional Informatika (KNIF) 2015, pp. 69-74. 67
Ren, Hongwei. (2011). A Comparison Study on the Rhetorical Moves of Abstracts in Published Research Articles and Master’s Foreign-language Theses. English Language Teaching, Vol. 4, No. 1, pp. 162-166. Sheng-yi, Kong, Chien-chi, Wang, Ko-chien, Kuo & Lin-shan, Lee. (2008). Automatic Title Generation for Chinese Spoken Documents with A Delciated Scored Viterbi Algorithm. Spoken Language Technology Workshop-SLT 2008, pp. 165-168. Teufel, S. & Moens, M. (1999). Discourse-level argumentation in scientific articles: human and automatic annotation. In Towards Standards and Tools for Discourse Tagging. Association of Computational Linguistics (ACL) 1999 Workshop. Teufel, S.. (1999). Argumentative Zoning: Information Extraction from Scientific Text. Ph.D Thesis: University of Edinburgh. Teufel, S. & Moens, M. (2002). Summarizing Scientific Articles - Experiments with Relevance and Rhetorical Status. Journal of Computational Linguistics, vol. 28, issue 4, pp. 409-445. Teufel, S., Siddhartan, A., Batchelor, C. (2009). Towards Discipline-Independent Argumentative zoning Evidence from Chemistry and Computational linguistics, Singapore, In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp. 1493-1502. Teufel, S.. (2014). Scientific Argumentation Detection as Limited-Domain Intention Recognition. In Proceedings of Workshop for Frontiers and Connections Between Argumentation Theory and Natural Language. Witbrock, Michael, & Mittal, Vibhu. (1999). Ultra-Summarization: A Statistical Approach to Generating Highly Condensed Non-Extractive Summaries. In Proceedings of Special Interest Group in Information Retrieval (SIGIR), Berkeley, CA. Wong, Kam-Fai, Wu, Mingli, Li, Wen jie. (2008). Extractive Summarization Using Supervised and Semi-Supervised Learning. In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pp. 985–992. Xu, Han, Martin, Eric & Mahidadia, Ashesh. (2015). Extractive Summarisation Based on Keyword Profile and Language Model. In Proceedings of Human Language Technology (The 2015 Annual Conference of the North American Chapter of ACL), pp. 123-132.
68
Lampiran A. PennTreeBank POS Tag Berikut merupakan PennTreeBank POS Tag untuk teks Bahasa Inggris. No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
Tag CC CD DT EX FW IN JJ JJR JJS LS MD NN NNS NNP NNPS PDT POS PRP PRP$ RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ WDT WP WP$ WRB
Deskripsi Coordinating conjunction Cardinal number Determiner Existential there Foreign word Preposition or subordinating conjunction Adjective Adjective, comparative Adjective, superlative List item marker Modal Noun, singular or mass Noun, plural Proper noun, singular Proper noun, plural Predeterminer Possessive ending Personal pronoun Possessive pronoun Adverb Adverb, comparative Adverb, superlative Particle Symbol to Interjection Verb, base form Verb, past tense Verb, gerund or present participle Verb, past participle Verb, non-3rd person singular present Verb, 3rd person singular present Wh-determiner Wh-pronoun Possessive wh-pronoun Wh-adverb
69
Lampiran B. Tipe Aksi dan Ekspresi Formula pada Kalimat
Dikutp dari Teufel & Moens (2002).
70
Lampiran C. Lexicon (Adaptasi Teufel, 1999) Kelompok
Daftar Lexicon
Lexicon AIM Lexicon
aim, goal, intention, theme, belief, we present, this paper, this work, in this paper, in this work, address, we investigate, we investigated, investigate/ investigates/ investigated, study, studied, approach, framework, introduce
OWN_MTHD
apply, employ, make use, utilize, modification, refine/ refinement,
Lexicon
incorporate/ incorporates/ incorporating, implement/ implements/ implemented
NR Lexicon
enhance, defeat, improve/ improves, perform better, outperform, outweight, surpass, compare, compete, accuracy, baseline, comparison, competition, evaluation, inferiority, performance, precision, optimum, recall, superiority, accomplishment, achievement, benefit, breakthrough, improvement, proof, remedy, success, triumph, verification, observed, achieve/ achieves/ achieved, state-of-the-art, experimental, result, evaluative, superior, inferior, better, best, worst, greater, larger, faster, weaker, over, effective, quality, significant, significantly, stronger, found, find/ finds, show/ shows, previous work, previous research, to our knowledge, conclude, conclusion
71
Lampiran D. Eksperimen Pembangkitan Judul Domain CS, Menggunakan 632 Data.
Konfigurasi
Delete Non Relevant
Filter AIM OWN_MTHD
Increase Relevant Frequency By 0
Increase Relevant Frequency By 1
Increase Relevant Frequency By 2
Increase Relevant Frequency By 3
Algoritma Pembangkitan Judul Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan
T0
T1
AKNN
0.197
0.183
0.217
0.807
0.667
0.799
0
0
0
498 0.788 0.205
584 0.924 0.183
632 1 0.216
0.875
0.698
0.799
0
0
0
500 0.791 0.203
577 0.913 0.191
632 1 0.232
0.769
0.667
0.75
0
0
0
550 0.870 0.206
629 0.995 0.182
632 1 0.23
0.769
0.667
0.75
0
0
0
561 0.888 0.202
627 0.992 0.186
632 1 0.228
0.769
0.667
0.75
0
0
0
551 0.872 0.199
628 0.994 0.185
632 1 0.227
0.764
0.667
0.75
0
0
0
551
628
632
72
Konfigurasi
Increase Relevant Frequency By 4
Increase Relevant Frequency By 10
Increase Relevant Frequency By 15
Algoritma Pembangkitan Judul Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi
T0
T1
AKNN
0.872 0.199
0.994 0.182
1 0.224
0.763
0.667
0.75
0
0
0
550 0.870 0.199
628 0.994 0.179
632 1 0.221
0.764
0.667
0.75
0
0
0
550 0.870 0.199
628 0.994 0.181
632 1 0.221
0.764
0.667
0.75
0
0
0
550 0.870
629 0.995
632 1
73
Lampiran E. Eksperimen Pembangkitan Judul Domain GaN, Menggunakan 486 Data. Konfigurasi
Delete Non Relevant
Filter AIM OWN_MTHD
Increase Relevant Frequency By 0
Increase Relevant Frequency By 1
Increase Relevant Frequency By 2
Increase Relevant Frequency By 3
Increase
Algoritma Pembangkitan Judul Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure
T0
T1
AKNN
0.165
0.201
0.303
0.584
0.75
0.878
0
0
0
377 0.776 0.180
480 0.988 0.21
486 1 0.313
0.585
0.368
0.878
0
0
0
364 0.749 0.123
481 0.989 0.169
486 1 0.278
0.545
0.823
0.875
0
0
0
411 0.846 0.152
480 0.988 0.185
486 1 0.287
0.545
0.75
0.815
0
0
0
406 0.835 0.156
475 0.977 0.185
486 1 0.289
0.636
0.706
0.824
0
0
0
409 0.842 0.157
478 0.986 0.188
486 1 0.290
0.636
0.75
0.824
0
0
0
411 0.846 0.158
478 0.984 0.188
486 1 0.289
74
Konfigurasi Relevant Frequency By 4
Increase Relevant Frequency By 10
Increase Relevant Frequency By 15
Algoritma Pembangkitan Judul Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi
T0
T1
AKNN
0.636
0.824
0.824
0
0
0
410 0.847 0.159
478 0.984 0.183
486 1 0.292
0.636
0.799
0.878
0
0
0
410 0.844 0.159
478 0.984 0.177
486 1 0.292
0.636
0.7
0.878
0
0
0
410 0.844
478 0.984
486 1
75
Lampiran F. Eksperimen Pembangkitan Judul Domain CS, Menggunakan 250 Data Tambahan.
Konfigurasi
Delete Non Relevant
Filter AIM OWN_MTHD
Increase Relevant Frequency By 0
Increase Relevant Frequency By 1
Increase Relevant Frequency By 2
Increase Relevant Frequency By 3
Algoritma Pembangkitan Judul Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul
T0
T1
AKNN
0.209
0.203
0.243
0.757
0.690
0.627
0
0
0
198 0.792 0.212
238 0.952 0.202
250 1 0.243
0.757
0.727
0.666
0
0
0
196 0.784 0.215
238 0.952 0.205
250 1 0.255
0.833
0.769
0.625
0
0
0
213 0.852 0.218
249 0.996 0.211
250 1 0.256
0.706
0.686
0.625
0
0
0
214 0.856 0.212
250 1 0.204
250 1 0.246
0.706
0.615
0.625
0
0
0
215 0.860 0.209
250 1 0.198
250 1 0.242
0.706
0.615
0.625
0 214
0 250
0 250
76
Konfigurasi
Increase Relevant Frequency By 4
Increase Relevant Frequency By 10
Increase Relevant Frequency By 15
Algoritma Pembangkitan Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi
T0
T1
AKNN
0.856 0.209
1 0.197
1 0.237
0.706
0.686
0.625
0
0
0
214 0.856 0.208
250 1 0.140
250 1 0.227
0.706
0.615
0.625
0
0
0
214 0.856 0.208
250 1 0.191
250 1 0.227
0.588
0.615
0.625
0
0
0
214 0.856
250 1
250 1
77
Lampiran G. Eksperimen Pembangkitan Judul Domain GaN, Menggunakan 250 Data Tambahan. Konfigurasi
Delete Non Relevant
Filter AIM OWN_MTHD
Increase Relevant Frequency By 0
Increase Relevant Frequency By 1
Increase Relevant Frequency By 2
Increase Relevant Frequency By 3
Increase
Algoritma Pembangkitan Judul Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure
T0
T1
AKNN
0.124
0.169
0.245
0.625
0.652
0.668
0
0
0
212 0.848 0.131
247 0.988 0.192
250 1 0.251
0.625
0.533
0.694
0
0
206 0.824 0.109
248 0.992 0.149
250 1 0.231
0.625
0.706
0.668
0
0
0
220 0.880 0.118
244 0.976 0.161
250 1 0.227
0.625
0.706
0.651
0
0
0
220 0.880 0.123
246 0.984 0.171
250 1 0.222
0.625
0.666
0.635
0
0
0
219 0.876 0.122
246 0.984 0.162
250 1 0.218
0.625
0.652
0.635
0
0
0
221 0.884 0.122
246 0.984 0.158
250 1 0.217
78
Konfigurasi Relevant Frequency By 4
Increase Relevant Frequency By 10
Increase Relevant Frequency By 15
Algoritma Pembangkitan Judul Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi Rata-rata F1-Measure Nilai F1-Measure terbesar Nilai F1-Measure terkecil Jumlah Judul Direalisasikan Persentase Realisasi
T0
T1
AKNN
0.625
0.555
0.635
0
0
0
221 0.884 0.121
246 0.984 0.154
250 1 0.216
0.625
0.555
0.635
0
0
0
221 0.884 0.121
244 0.976 0.581
250 1 0.216
0.625
0.666
0.635
0
0
0
221 0.884
244 0.976
250 1
79