TUGAS AKHIR – KS 141501
PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098 Dosen Pembimbing : Renny Pradina Kusumawardani S.T., M.T. JURUSAN SISTEM INFORMASI Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya 2017
i
TUGAS AKHIR – KS 141501
PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098
Dosen Pembimbing : Renny Pradina Kusumawardani S.T., M.T.
JURUSAN SISTEM INFORMASI Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya 2017
i
FINAL PROJECT – KS 141501
DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098
SUPERVISOR: Renny Pradina Kusumawardani S.T., M.T.
DEPARTMENT OF INFORMATION SYSTEMS Faculty of Information Technology Institut Teknologi Sepuluh Nopember Surabaya 2017
ii
LEMBAR PENGESAHAN PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION
TUGAS AKHIR Disusun Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer pada Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember
Oleh: U
HANUM FITRIANI AYU KUMALA NRP. 5213 100 098
Surabaya,
Januari 2017
KETUA JURUSAN SISTEM INFORMASI
Dr. Ir. Aris Tjahyanto, M.Kom NIP.19650310 199102 1 001
iii
LEMBAR PERSETUJUAN PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION
TUGAS AKHIR Disusun Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer pada Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Oleh : U
HANUM FITRIANI AYU KUMALA NRP. 5213 100 098
Disetujui Tim Penguji
:Tanggal Ujian Periode Wisuda
: 11 Januari 2017 : Maret 2017
Renny Pradina Kusumawardani S.T., M.T. (Pembimbing I) Nur Aini R., S.Kom., M.Sc.Eng., Ph.D (Penguji I) Faizal Johan Atletiko, S.Kom., M.T. (Penguji II)
iv
PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION Nama Mahasiswa NRP Jurusan Pembimbing 1
: Hanum Fitriani Ayu Kumala : 5213 100 098 : Sistem Informasi FTIf-ITS : Renny Pradina Kusumawardani S.T., M.T.
ABSTRAK Media sosial saat ini sangat berkembang seiring dengan jumlah pengguna yang terus meningkat di seluruh dunia, termasuk Indonesia. Seperti pada media sosial facebook, terdapat kurang lebih 65 juta pengguna Facebook aktif untuk wilayah Indonesia. Hal tersebut membuktikan bahwa media sosial memiliki informasi yang melimpah dan dapat menjadi sumber informasi yang berharga. Di sisi lain, penyajian informasi oleh media sosial saat ini dirasa kurang efektif sehingga kurang relevan. Untuk itu diperlukan sistem untuk mengolah informasi yang ada. Named Entity Recognition atau NER merupakan salah satu teknik berbasis entitas yang dikembangkan untuk melakukan pengolahan tersebut, supaya informasi yang diberikan menjadi lebih relevan bagi pengguna. Pada penelitian ini, dikembangkan suatu modul Named Entity Recognition yang secara spesifik mengolah informasi-informasi seputar kota Surabaya yang dibagi oleh masyarakat melalui media sosial yaitu Facebook fanpage E100. Informasi yang diidentifikasi dengan mengunakan NER dalam penelitian ini adalah entitas lokasi yang ada dalam teks status Facebook. Penggunaan Named Entity Recognition dilakukan dalam beberapa tahapan. Tahapan tersebut diawali dengan pencarian nama-nama lokasi kota Surabaya yang didapat dari Open Street Map dan Dinas PU Bina Marga. Selanjutnya, diperlukan v
praproses data yang berupa penghapusan kata-kata lokasi yang duplikat, pemuatan data teks, matching data teks dengan lokasi, tokenization, labeling dengan program maupun manual, serta pembagian dataset training dan testing berdasarkan cross validation. Pada penelitian ini ditemukan bahwa pada proses labeling dengan program kurang efisien jika dibandingkan dengan proses labeling secara manual. Selain hal tersebut, dalam menentukan feature extractor apa saja yang digunakan untuk menghasilkan performa yang optimal, digunakan metode seleksi forward selection serta backward elimination. Dari hasil percobaan didapatkan 2 model terbaik yang menghasilkan rata-rata F-Measure sebesar 0.93604 dan 0.9377. Selain itu, berdasarkan hasil analisa model juga didapatkan 9 feature extractor yang dirasa penting dalam pembuatan model NER pada studi kasus ini.
Kata kunci: Media Sosial, Surabaya, Named Entity Recognition, Indonesian Named Entity Recognition
vi
DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION Student Name NRP Department Supervisor 1
: Hanum Fitriani Ayu Kumala : 5213 100 098 : Sistem Informasi FTIf-ITS : Renny Pradina Kusumawardani S.T., M.T.
ABSTRACT Social media nowadays is highly developed as the number of users continues to increase around the world, including Indonesia. As on facebook social media, there were approximately 65 million active users to Indonesia. From this data, it is proved that social media has a huge number of information stored and can be a valuable source of information. On the other hand, the presentation of information by social media today is less effective so it is less relevant. In this case, it is necessary to provide a system that able to process the information available. Named Entity Recognition or NER is an entity based technique that was developed to perform such processing, so that the information provided more relevant to users. In this study, we developed a Named Entity Recognition module which specifically processing the information about the city of Surabaya, which is shared by the public through social media namely E100 Facebook Fanpage. The information identified by using NER in this study is a location entity which exists in the Facebook status text. The use of Named Entity Recognition is done in several stages. The first step is finding the location names of city of Surabaya from Open Street Map and the Department of Public Works. The next step is data preprocessing include removing the words of duplicate locations, loading text data, matching the text vii
data with the location, tokenization, and labeling through programs and manual approach, as well as dividing the dataset into training and testing dataset based on cross validation. This study found that in the process of labeling through program is less efficient than the labeling process through manual approach. In addition to that, in determining what feature extractors are used to produce optimal performance, we use forward selection methods and backward elimination methods. From the experiment results, obtained 2 best models that generates average F-Measure value of 0.93604 and 0.9377. In addition, based on the results of the model analysis we also obtained 9 feature extractors which are considered to be essential for NER modeling in this case study. Keywords: Social Media, Surabaya, Named Entity Recognition, Indonesian Named Entity Recognition
viii
KATA PENGANTAR Puji dan syukur penulis tuturkan ke hadirat Allah SWT, Tuhan Semesta Alam yang telah memberikan kekuatan dan hidayah-Nya kepada penulis sehingga penulis mendapatkan kelancaran dalam menyelesaikan tugas akhir dengan judul: PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION yang merupakan salah satu syarat kelulusan pada Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Surabaya. Terima kasih penulis sampaikan kepada pihak-pihak yang telah mendukung, memberikan saran, motivasi, semangat, dan bantuan baik berupa materiil maupun moril demi tercapainya tujuan pembuatan tugas akhir ini. Tugas akhir ini tidak akan pernah terwujud tanpa bantuan dan dukungan dari berbagai pihak yang sudah melauangkan waktu, tenaga dan pikirannya. Secara khusus penulis akan menyampaikan ucapan terima kasih yang sebanyakbanyaknya kepada: 1)
Orang tua dan kakak penulis, Bapak Ir.Putro Kumolo (Alm), Bapak Siswanto, Ibu Supatminingsih, Ivan Pudya Putra dan Lely Agustining Ayu Kumala yang telah memberikan motivasi, semangat, keyakinan, kasih sayang serta doa sehingga penulis mampu menyelesaikan pendidikan S1 ini dengan baik.
2)
Ibu Renny Pradina Kusumawardani ST., MT. selaku dosen pembimbing yang telah dengan sabar dan telaten memberikan ilmu, petunjuk, dan motivasi sehingga penulis dapat menyelesaikan Tugas Akhir ini.
3)
Dinas PU Bina Marga dan Pematusan Kota Surabaya khususnya kepada Adel yang telah membantu penulis dalam
ix
mengumpulkan data dan informasi terkait keperluan Tugas Akhir ini. 4)
Ibu Mahendrawathi ER, ST., MSc., Ph.D. selaku dosen wali penulis selama menempuh pendidikan di Jurusan Sistem Informasi yang telah memberikan pengalaman serta nasehat kepada penulis selama ini.
5)
Ibu Nur Aini Rakhmawati, S.Kom., M.Sc.Eng., Ibu Irmasari Hafidz, S.Kom., M.Sc. dan Bapak Faizal Johan Atletiko, S.Kom., M.T. selaku dosen penguji yang telah memberikan kritik, saran, dan masukan yang berharga sehinga dapat menyempurnakan Tugas Akhir ini.
6)
Seluruh dosen pengajar beserta staf dan karyawan di Jurusan Sistem Informasi, Fakultas Teknologi Informasi ITS Surabaya yang telah memberikan ilmu dan pengalaman yang berharga kepada penulis selama ini.
7)
Rekan-rekan mahasiswa Jurusan Sistem Informasi BASILISK, SOLA12IS, BELTRANIS, dan OSIRIS serta anggota Lab RDIB dan ADDI atas semua bantuan ketika penulis kuliah di Sistem Informasi.
8)
Teman-teman serta sahabat yang sudah banyak membantu, Nikolaus Herjuno, Hendra Rismana, Ashma Hanifah, Bintang Setyawan, Bambang Setyawan, Stezar Priansya, Valliant Ferlyando, Tetha Valianta, Ervi Ritya, dan Adimas Raka (Statistika ITS) yang membantu jika penulis memerlukan bantuan dalam pengerjaan tugas akhir ini.
9)
Teman-teman Lab ADDI, Ari Agustina, Valliant Ferlyando, dan Rizza Firmansyah yang berjuang bersama untuk menyelesaikan tugas akhir serta saling mengingatkan dan memotivasi satu sama lain.
10) Teman seperjuangan dalam menyelesaikan tugas akhir. Maulana Dhawangkara, Safrina Kharisma, Faisal Setia,
x
Chandra Surya, Delina Rahayu, dan Ikhwan Aziz yang terus berusaha menyelesaikan tugas akhir bersama-sama. 11) Sahabat penulis yang menemani dan mendukung penulis dalam menjalani kehidupan kampus hingga dapat menyelesaikan tugas akhir ini. Almira Fiana Dhara, Rani Oktavia, Nadya Chandra, Kevin Setyawan, Nabihah Hanun, Marina Safitri serta teman-teman yang penulis belum dapat tuliskan satu-persatu. 12) Rekan penulis, Kadek Hari Baskara yang tidak pernah lelah mendukung penulis untuk terus giat mengerjakan tugas akhir, membantu jika terdapat kesulitan, serta menjadi teman untuk berbagi di saat senang maupun susah. 13) Serta semua pihak yang telah membantu dalam pengerjaan Tugas Akhir ini yang belum mampu penulis sebutkan diatas. Terima kasih atas segala bantuan, dukungan, serta doa yang telah diberikan. Penulis menyadari bahwa tugas akhir ini masih belum sempurna dan memiliki banyak kekurangan di dalamnya. Oleh karena itu, penulis juga memohon maaf atas segala kesalahan penulis buat dalam buku tugas akhir ini. Penulis membuka pintu selebar-lebarnya bagi pihak yang ingin memberikan kritik maupun saran, serta penelitian selanjutnya yang ingin menyempurnakan karya dari tugas akhir ini. Semoga buku tugas akhir ini bermanfaat bagi seluruh pembaca. Surabaya, Januari 2017
Penulis
xi
Halaman ini sengaja dikosongkan
xii
DAFTAR ISI ABSTRAK ............................................................................... v ABSTRACT ........................................................................... vii KATA PENGANTAR ............................................................ ix DAFTAR ISI ......................................................................... xiii DAFTAR GAMBAR ........................................................... xvii DAFTAR KODE ................................................................... xxi DAFTAR TABEL ............................................................... xxiii BAB I PENDAHULUAN ...................................................... 1 1.1. Latar Belakang Masalah ........................................... 1 1.2. Perumusan Masalah .................................................. 4 1.3. Batasan Masalah ....................................................... 5 1.4. Tujuan Penelitian ...................................................... 5 1.5. Manfaat Penelitian .................................................... 5 1.6. Relevansi................................................................... 6 BAB II TINJAUAN PUSTAKA ............................................ 7 2.1. Penelitian Sebelumnya .............................................. 7 2.2. Dasar Teori ............................................................. 12 2.2.1. Natural Language Processing (NLP) .............. 12 2.2.2. Named Entity Recognition (NER) .................. 12 2.2.3. Conditional Random Field (CRF) ................... 14 2.2.4. Performance Measure dan Confusion Matrix . 15 2.2.5. Java ................................................................. 17 2.2.6. Stanford NER .................................................. 17 2.2.7. Forward Selection dan Backward Elimination 18 2.2.8. Open Street Map ............................................. 18 2.2.9. Mapzen Metro Extract .................................... 19 2.2.10. Facebook ......................................................... 19 2.2.11. Dataset Status Facebook ................................. 20 2.2.12. CitiViz ............................................................. 20 BAB III METODOLOGI PENELITIAN ............................. 23 3.1. Studi Literatur Media Sosial, NLP dan NER .......... 24 3.2. Menyiapkan Environtment Training NER .............. 24 3.3. Mencari daftar lokasi kota Surabaya ...................... 25 3.4. Menggabungkan Teks dan Menghapus Teks yang Terduplikat .............................................................. 25 xiii
3.5. Restrukturisasi Teks ................................................ 25 3.6. Tokenization............................................................ 26 3.7. Entity Labeling........................................................ 27 3.8. Pembagian Data Training dan Data Testing ........... 28 3.9. Membuat Daftar Fitur ............................................. 29 3.10. Membuat Properties ................................................ 29 3.11. Training ................................................................... 30 3.12. Testing..................................................................... 30 3.13. Penulisan Buku Tugas Akhir .................................. 31 BAB IV PERANCANGAN................................................... 33 4.1. Pengambilan Data ................................................... 33 4.2. Pemilihan Atribut .................................................... 36 4.3. Perancangan Model ................................................. 37 4.3.1. Perancangan Data Lokasi ................................ 37 4.3.2. Perancangan Praproses Data ........................... 40 4.3.3. Perancangan Feature Extractor ........................ 51 4.3.4. Perancangan Pemrosesan Data ........................ 65 BAB V IMPLEMENTASI .................................................... 69 5.1. Perangkat Penelitian ................................................ 69 5.2. Ekstraksi Data Lokasi ............................................. 70 5.2.1. Ekstraksi Data Lokasi Open Street Map ......... 70 5.2.2. Ekstraksi Data Lokasi Dinas PU Bina Marga . 75 5.3. Praproses Data......................................................... 77 5.3.1. Memuat Data Teks .......................................... 77 5.3.2. Memuat Data Lokasi dan Non Lokasi ............. 79 5.3.3. Pembagian Dataset .......................................... 82 5.3.4. Matching Lokasi dan Non Lokasi dengan Teks ................................................................. 84 5.3.5. Tokenizing ....................................................... 85 5.3.6. Labeling Lokasi ............................................... 86 5.4. Seleksi Feature Extractor ........................................ 88 5.4.1. Generate 1 Feature Extractor ........................... 89 5.4.2. Generate Feature Extractor pada Forward Selection .......................................................... 90 5.4.3. Generate Feature Extractor pada Backward Elimination ...................................................... 93 5.5. Pemrosesan Data ..................................................... 96 xiv
5.5.1. Implementasi Training .................................... 96 5.5.2. Implementasi Testing ...................................... 99 BAB VI HASIL DAN PEMBAHASAN ............................ 101 6.1. Data Lokasi ........................................................... 101 6.1.1. Ekstrak Data Lokasi Open Street Map .......... 101 6.1.2. Ekstrak Data Lokasi Dinas PU Bina Marga .. 102 6.2. Dataset Percobaan ................................................. 102 6.2.1. Muatan Data Teks ......................................... 102 6.2.2. Muatan Data Lokasi ...................................... 103 6.2.3. Hasil Matching .............................................. 103 6.2.4. Hasil Tokenizing ........................................... 105 6.2.5. Hasil Labeling ............................................... 105 6.2.6. Hasil Pembagian Dataset .............................. 109 6.3. Percobaan wordShape Selection ........................... 110 6.4. Percobaan maxNGramLeng Selection .................. 112 6.5. Percobaan Forward Selection Feature Extractor... 113 6.5.1. Percobaan 1 Feature Extractor ...................... 114 6.5.2. Percobaan 2 Feature Extractor ...................... 116 6.5.3. Percobaan 4 Feature Extractor ...................... 118 6.5.4. Percobaan 5 Feature Extractor ...................... 120 6.5.5. Percobaan 6 Feature Extractor ...................... 122 6.5.6. Percobaan 7 Feature Extractor ...................... 124 6.5.7. Percobaan 8 Feature Extractor ...................... 126 6.5.8. Percobaan 9 Feature Extractor ...................... 128 6.5.9. Percobaan 10 Feature Extractor .................... 130 6.5.10. Percobaan 11 Feature Extractor .................... 132 6.5.11. Percobaan 12 Feature Extractor .................... 134 6.5.12. Percobaan 13 Feature Extractor .................... 136 6.5.13. Percobaan 15 Feature Extractor .................... 138 6.6. Percobaan Backward Elimination Feature Extractor ............................................................... 140 6.6.1. Percobaan 24 Feature Extractor .................... 141 6.6.2. Percobaan 23 Feature Extractor .................... 142 6.6.3. Percobaan 22 Feature Extractor .................... 144 6.6.4. Percobaan 21 Feature Extractor .................... 146 6.6.5. Percobaan 20 Feature Extractor .................... 148 6.6.6. Percobaan 19 Feature Extractor .................... 150 xv
6.6.7. Percobaan 18 Feature Extractor .................... 152 6.6.8. Percobaan 17 Feature Extractor .................... 154 6.6.9. Percobaan 16 Feature Extractor .................... 156 6.6.10. Percobaan 15 Feature Extractor .................... 158 6.6.11. Percobaan 14 Feature Extractor .................... 160 6.6.12. Percobaan 13 Feature Extractor .................... 162 6.6.13. Percobaan 12 Feature Extractor .................... 164 6.7. Analisa Hasil ......................................................... 166 6.7.1. Analisa Hasil Forward Selection ................... 166 6.7.2. Analisa Hasil Backward Elimination ............ 167 6.8. Pembahasan Hasil ................................................. 168 6.8.1. Fitur-Fitur Penting ......................................... 168 6.8.2. Kesalahan Prediksi Model ............................. 175 6.8.3. Uji Statistik 2 Model Terbaik ........................ 175 BAB VII KESIMPULAN DAN SARAN ........................... 181 7.1. Kesimpulan ........................................................... 181 7.2. Saran ..................................................................... 183 DAFTAR PUSTAKA ........................................................... 185 BIODATA PENULIS ........................................................... 189 LAMPIRAN A ................................................................... A-1 LAMPIRAN B..................................................................... B-1 LAMPIRAN C..................................................................... C-1
xvi
DAFTAR GAMBAR Gambar 1.1 Timeline Facebook Fanpage E100 tertanggal 13 Oktober 2016............................................................................ 2 Gambar 1.2 Contoh status Facebook Fanpage E100 tertanggal 13 Oktober 2016 ....................................................................... 3 Gambar 2.1 Contoh Tampilan Fanpage ................................. 20 Gambar 2.2 Aplikasi CitiViz .................................................. 21 Gambar 3.1 Bagan Metodologi .............................................. 23 Gambar 3.2 Pembagian Data Training dan Data Testing ....... 28 Gambar 4.1 Alur Pengambilan Data ...................................... 33 Gambar 4.2 Sumber Data Lokasi ........................................... 37 Gambar 4.3 Alur Ekstraksi Data Lokasi Open Street Map .... 38 Gambar 4.4 Alur Ekstraksi Data Lokasi Dinas PU Bina Marga ................................................................................................ 39 Gambar 4.5 Alur Praproses Data............................................ 40 Gambar 4.6 Alur Pemuatan Data Teks Status Facebook ....... 41 Gambar 4.7 Alur Pemuatan Data Lokasi................................ 42 Gambar 4.8 Alur Pemuatan Data Non Lokasi........................ 43 Gambar 4.9 Pembagian Dataset ............................................. 44 Gambar 4.10 Alur Matching Lokasi dan Non Lokasi dengan Data Teks ............................................................................... 45 Gambar 4.11 Alur Tokenizing ............................................... 46 Gambar 4.12 Alur Labeling Lokasi Menggunakan Program . 47 Gambar 4.13 Irisan Nama Lokasi yang Diberikan Label ....... 48 Gambar 4.14 Skenario Forward Selection Feature Extractor . 62 Gambar 4.15 Skenario Backward Elimination Feature Extractor ................................................................................................ 64 Gambar 4.16 Alur Pemrosesan Data ...................................... 65 Gambar 4.17 Alur Proses Training ........................................ 66 Gambar 4.18 Alur Proses Testing .......................................... 67 Gambar 5.1 Tampilan Open Street Map Kota Surabaya ........ 70 Gambar 5.2 Pencarian Lokasi Mapzen Metro Extract ........... 71 Gambar 5.3 Bounding Box Extract Lokasi ............................ 71 Gambar 5.4 Mapzen Metro Extract Kota Surabaya ............... 72 Gambar 5.5 Contoh Format Data GEOJSON OSM ............... 73 Gambar 6.1 Rata-Rata F-Measure wordShape ..................... 110 xvii
Gambar 6.2 Rata-Rata Time wordShape ..............................111 Gambar 6.3 Rata-Rata F-Measure maxNGramLeng ............112 Gambar 6.4 Rata-Rata Time maxNGramLeng .....................113 Gambar 6.5 F-Measure Forward Selection 1 Feature Extractor ..............................................................................................114 Gambar 6.6 Time Forward Selection 1 Feature Extractor ....115 Gambar 6.7 F-Measure Forward Selection 2 Feature Extractor ..............................................................................................116 Gambar 6.8 Time Forward Selection 2 Feature Extractor ....117 Gambar 6.9 F-Measure Forward Selection 4 Feature Extractor ..............................................................................................118 Gambar 6.10 Time Forward Selection 4 Feature Extractor ..119 Gambar 6.11 F-Measure Forward Selection 5 Feature Extractor ..............................................................................................120 Gambar 6.12 Time Forward Selection 5 Feature Extractor ..121 Gambar 6.13 F-Measure Forward Selection 6 Feature Extractor ..............................................................................................122 Gambar 6.14 Time Forward Selection 6 Feature Extractor ..123 Gambar 6.15 F-Measure Forward Selection 7 Feature Extractor ..............................................................................................124 Gambar 6.16 Time Forward Selection 7 Feature Extractor ..125 Gambar 6.17 F-Measure Forward Selection 8 Feature Extractor ..............................................................................................126 Gambar 6.18 Time Forward Selection 8 Feature Extractor ..127 Gambar 6.19 F-Measure Forward Selection 9 Feature Extractor ..............................................................................................128 Gambar 6.20 Time Forward Selection 9 Feature Extractor ..129 Gambar 6.21 F-Measure Forward Selection 10 Feature Extractor ...............................................................................130 Gambar 6.22 Time Forward Selection 10 Feature Extractor 131 Gambar 6.23 F-Measure Forward Selection 11 Feature Extractor ...............................................................................132 Gambar 6.24 Time Forward Selection 11 Feature Extractor 133 Gambar 6.25 F-Measure Forward Selection 12 Feature Extractor ...............................................................................134 Gambar 6.26 Time Forward Selection 12 Feature Extractor 135 xviii
Gambar 6.27 F-Measure Forward Selection 13 Feature Extractor ............................................................................... 136 Gambar 6.28 Time Forward Selection 13 Feature Extractor 137 Gambar 6.29 F-Measure Forward Selection 15 Feature Extractor ............................................................................... 138 Gambar 6.30 Time Forward Selection 15 Feature Extractor 139 Gambar 6.31 F-Measure Backward Elimination 23 Feature Extractor ............................................................................... 142 Gambar 6.32 Time Backward Elimination 23 Feature Extractor .............................................................................................. 143 Gambar 6.33 F-Measure Backward Elimination 22 Feature Extractor ............................................................................... 144 Gambar 6.34 Time Backward Elimination 22 Feature Extractor .............................................................................................. 145 Gambar 6.35 F-Measure Backward Elimination 21 Feature Extractor ............................................................................... 146 Gambar 6.36 Time Backward Elimination 21 Feature Extractor .............................................................................................. 147 Gambar 6.37 F-Measure Backward Elimination 20 Feature Extractor ............................................................................... 148 Gambar 6.38 Time Backward Elimination 20 Feature Extractor .............................................................................................. 149 Gambar 6.39 F-Measure Backward Elimination 19 Feature Extractor ............................................................................... 150 Gambar 6.40 Time Backward Elimination 19 Feature Extractor .............................................................................................. 151 Gambar 6.41 F-Measure Backward Elimination 18 Feature Extractor ............................................................................... 152 Gambar 6.42 Time Backward Elimination 18 Feature Extractor .............................................................................................. 153 Gambar 6.43 F-Measure Backward Elimination 17 Feature Extractor ............................................................................... 154 Gambar 6.44 Time Backward Elimination 17 Feature Extractor .............................................................................................. 155 Gambar 6.45 F-Measure Backward Elimination 17 Feature Extractor ............................................................................... 156 xix
Gambar 6.46 Time Backward Elimination 16 Feature Extractor ..............................................................................................157 Gambar 6.47 F-Measure Backward Elimination 15 Feature Extractor ...............................................................................158 Gambar 6.48 Time Backward Elimination 15 Feature Extractor ..............................................................................................159 Gambar 6.49 F-Measure Backward Elimination 14 Feature Extractor ...............................................................................160 Gambar 6.50 Time Backward Elimination 14 Feature Extractor ..............................................................................................161 Gambar 6.51 F-Measure Backward Elimination 13 Feature Extractor ...............................................................................162 Gambar 6.52 Time Backward Elimination 13 Feature Extractor ..............................................................................................163 Gambar 6.53 F-Measure Backward Elimination 12 Feature Extractor ...............................................................................164 Gambar 6.54 Time Backward Elimination 12 Feature Extractor ..............................................................................................165 Gambar 6.55 Rata-Rata F-Measure Skenario Forward Selection ..............................................................................................166 Gambar 6.56 Rata-Rata Time Skenario Forward Selection .166 Gambar 6.57 Rata-Rata F-Measure Skenario Backward Elimination ...........................................................................167 Gambar 6.58 Rata-Rata Time Skenario Backward Elimination ..............................................................................................167 Gambar 6.59 Pengujian F-Measure 2 Sampel ......................177 Gambar 6.60 Pengujian Time 2 Sampel ...............................178
xx
DAFTAR KODE Kode 5.1 Parsing Data GEOJSON ......................................... 74 Kode 5.2 Fungsi getTextFromDB Untuk Pemuatan Data Teks ........................................................................................ 78 Kode 5.3 Pemanggilan Fungsi getTextFromDB pada Main ................................................................................................ 78 Kode 5.4 Fungsi getLocation Untuk Pemuatan Lokasi 79 Kode 5.5 Pemuatan Data Lokasi pada Main .......................... 80 Kode 5.6 Fungsi getNonLocation Untuk Pemuatan Data Non-Lokasi ............................................................................. 81 Kode 5.7 Pemuatan Data Non Lokasi pada Main .................. 82 Kode 5.8 Pengacakan Data Teks pada Fungsi createTrainDataset ..................................................... 82 Kode 5.9 Pembuatan Dataset trainFile pada Fungsi createTrainDataset ..................................................... 83 Kode 5.10 Pemanggilan Fungsi createTrainDataset pada Main ............................................................................... 83 Kode 5.11 Matching Menggunakan Pattern Matcher pada Fungsi createTrainDataset ......................................... 84 Kode 5.12 Fungsi tokenizing Untuk Proses Tokenizing Kalimat ................................................................................... 85 Kode 5.13 Fungsi tokenizing pada createTrainDataset ..................................................... 85 Kode 5.14 Labeling pada Fungsi createTrainDataset 86 Kode 5.15 Daftar Feature Extractor Yang akan Di-Generate 89 Kode 5.16 Generate File Properties 1 Feature Extractor........ 89 Kode 5.17 Menyimpan Feature Extractor yang Pasti Dipilih90 Kode 5.18 Menyimpan Feature Extractor Tambahan ............ 91 Kode 5.19 Generate File Properties Skenario Forward Selection ................................................................................................ 92 Kode 5.20 Menyimpan Daftar Seluruh Feature Extractor...... 93 Kode 5.21 Menyimpan Daftar Feature Extractor yang Pasti Dihilangkan ............................................................................ 94 Kode 5.22 Menyimpan Daftar Feature Extractor yang Diuji Eliminasi ................................................................................ 94 xxi
Kode 5.23 Generate File Properties Skenario Backward Elimination .............................................................................95 Kode 5.24 Fungsi trainCrf untuk Training Dataset ........96 Kode 5.25 Menyimpan Directory Dataset TrainFile ..............96 Kode 5.26 Membuat Kombinasi TrainFile Sesuai Cross Validation ...............................................................................97 Kode 5.27 Menyimpan Folder Kombinasi Feature Extractor 97 Kode 5.28 Pemanggilan Fungsi trainCrf pada Main ........98 Kode 5.29 Fungsi testCrf yang Digunakan Untuk Testing Model......................................................................................99 Kode 5.30 Pemanggilan Fungsi testCrf pada Main ........100
xxii
DAFTAR TABEL Tabel 2.1 Penelitian Sebelumnya ............................................. 7 Tabel 2.2 Confusion Matrix ................................................... 16 Tabel 4.1 Atribut Data............................................................ 34 Tabel 4.2 Sampel Data Mentah Status Facebook ................... 34 Tabel 4.3 Sampel Data Status Facebook ................................ 36 Tabel 4.4 Daftar Nama Non Lokasi ....................................... 43 Tabel 4.5 Daftar Feature Extractor ......................................... 52 Tabel 4.6 Karakter N-Gram ................................................... 56 Tabel 4.7 Deskripsi wordShape Extractor.............................. 58 Tabel 4.8 N-Gram Pada maxNGramLeng.............................. 61 Tabel 5.1 Atribut Data Panjang Jalan..................................... 75 Tabel 5.2 Bagian Data Panjang Jalan ..................................... 75 Tabel 5.3 Sampel Data Panjang Jalan Gabungan ................... 76 Tabel 5.4 Sampel Data yang Digunakan ................................ 77 Tabel 6.1 Sampel Nama-Nama Lokasi pada Data Lokasi OSM .............................................................................................. 101 Tabel 6.2 Contoh Nama-Nama Lokasi pada Data Lokasi Bina Marga ................................................................................... 102 Tabel 6.3 Jumlah Pemuatan Data Lokasi ............................. 103 Tabel 6.4 Skenario Matching ............................................... 103 Tabel 6.5 Hasil Tokenizing Teks ......................................... 105 Tabel 6.6 Kesalahan Labeling dengan Program ................... 106 Tabel 6.7 Pembagian Dataset ............................................... 109 Tabel 6.8 Model Terbaik ...................................................... 168 Tabel 6.9 Feature Extractor Yang Digunakan ...................... 168 Tabel 6.10 Nilai F-Measure Model Terbaik......................... 176 Tabel 6.11 Nilai Time Model Terbaik ................................. 177
xxiii
Halaman ini sengaja dikosongkan
xxiv
BAB I PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang pengerjaan tugas akhir, rumusan permasalahan, batasan permasalahan, tujuan pengerjaan dan juga manfaat pengerjaan tugas akhir. Media sosial saat ini sangat berkembang seiring dengan jumlah pengguna yang terus meningkat di seluruh dunia. Di Indonesia sendiri, menurut data Kementerian Komunikasi dan Informatika (Kemenkominfo), pengguna internet di Indonesia saat ini mencapai 63 juta orang. Dari angka tersebut, 95 persennya menggunakan internet untuk mengakses jejaring sosial [1]. Berbagai jejaring sosial diakses oleh masyarakat Indonesia, mulai dari Facebook, Twitter, Youtube, Path, Google+, hingga LinkedIn telah digunakan oleh masyarakat Indonesia. Kian banyaknya masyarakat Indonesia yang menggunakan media sosial sebagai ajang komunikasi, hingga menempati peringkat 4 sebagai pengguna Facebook terbesar dan peringkat 5 sebagai pengguna Twitter terbesar sedunia. Menurut data dari Webershandwick, untuk wilayah Indonesia terdapat kurang lebih 65 juta pengguna Facebook aktif. Sedangkan untuk pengguna Twitter, berdasarkan data PT Bakrie Telecom, memiliki 19,5 juta pengguna di Indonesia dari total 500 juta pengguna global [1]. Hal tersebut menunjukkan bahwa saat ini sangat banyak masyarakat yang berbagi informasi melalui media sosial. Sehingga, media sosial saat ini memiliki informasi yang sangat melimpah dan dapat menjadi sumber informasi yang berharga. Media sosial pun memiliki kelebihan dalam hal komunikasi sehingga memungkinkan pengguna untuk menciptakan lingkungan yang bersifat partisipatif dan penyediaan informasi secara real-time [2]. Pengguna pun dapat sesuka hati memberikan status maupun komentar tertentu tanpa ada batasan waktu untuk dapat berbagi informasi pada media sosial. Contohnya, pada media sosial Facebook, status atau 1
2 komentar yang diberikan pengguna akan muncul pada timeline sebagai papan berjalan untuk menampilkan informasi. Pada timeline tersebut status dan komentar diurutkan berdasarkan waktu. Status maupun komentar yang terbaru disediakan pada posisi paling atas, seperti tampak pada Gambar 1.1. Sehingga, untuk mendapatkan informasi yang diinginkan, setiap orang pun harus memperhatikan informasi yang disediakan secara terus menerus dimana aktivitas tersebut kurang efektif.
Gambar 1.1 Timeline Facebook Fanpage E100 tertanggal 13 Oktober 2016
Dengan kelebihan dapat menyediakan informasi yang sangat banyak dan secara real-time, media sosial pun juga memiliki kelemahan dalam penyampaian informasi. Banyaknya informasi yang diberikan dan sifat waktunya yang tidak menentu tersebut menyebabkan dibutuhkan usaha untuk
3 menyaring informasi yang diperlukan supaya dapat sesuai dengan pengguna. Untuk itu, diperlukan sistem untuk mengolah informasi yang ada, sehingga dapat diorganisasikan secara lebih efektif. Named Entity Recognition atau NER merupakan salah satu teknik berbasis entitas yang dikembangkan untuk melakukan pengolahan tersebut sehingga informasi yang diberikan menjadi lebih relevan bagi pengguna. Named Entity Recognition (NER) adalah bagian dari ekstraksi informasi yang dapat menspesifikasikan entitas seperti orang, tempat, organisasi, ekspresi waktu, maupun kuantitas [3]. NER bertujuan untuk mengenali entitas-entitas tersebut pada suatu potongan informasi, sehingga aspek-aspek penting dari informasi tersebut dapat diidentifikasi. Sebagai contoh seperti status yang diberikan pada Gambar 1.2, “10.21 : Info awal : Kecelakaan beruntun di Tol Sidoarjo - Waru KM 17.600, kendaraan yang terlibat antara lain mobil box, avanza, panther. Kondisi avanza pintu sebelah kanannya rusak. (odprt)”. Maka dapat diidentifikasi potongan “Tol Sidoarjo-Waru” merupakan sebuah lokasi.
Gambar 1.2 Contoh status Facebook Fanpage E100 tertanggal 13 Oktober 2016
Untuk itu, pada penelitian ini akan dikembangkan suatu modul Named Entity Recognition yang secara spesifik akan mengolah informasi-informasi seputar kota Surabaya yang dibagi oleh masyarakat melalui akun media sosial Facebook fanpage E100. Informasi yang akan diidentifikasi nengan mengunakan NER dalam penelitian ini adalah entitas lokasi yang ada dalam teks status maupun komentar. Selain itu, penelitian ini juga akan mengeksplorasi penggunaan algoritma
4 yang lazim dipergunakan untuk Named Entity Recognition, misalnya, Conditional Random Field (CRF). Meskipun pengembangan NER telah banyak digunakan dalam bidang Information Extraction (IE), dalam pengembangannya tidak banyak penggunaannya dalam basis bahasa Indonesia. Riset tentang NER telah banyak dilakukan menggunakan basis bahasa Inggris karena merupakan bahasa yang banyak digunakan di seluruh dunia. Selain itu, terdapat pula bahasa-bahasa yang sedang gencar-gencarnya diperhatikan peneliti untuk mulai diinvestigasi, seperti bahasa Jerman, Belanda, Jepang, Mandarin, Perancis, Yunani, Italia, Bulgaria, dll [4]. Bagaimanapun, penerapan NER pada teks berbahasa Indonesia masih belum terlalu banyak dipelajari, terlebih lagi dengan karakterisik kebahasaan yang bersifat informal, sehingga dapat menjadi tantangan tersendiri bagi peneliti. Penelitian ini pun juga merupakan salah satu upaya untuk menerapkan NER dalam konteks tersebut.
Berdasarkan latar belakang yang telah dipaparkan di atas, maka berikut ini merupakan rumusan masalah yang akan di selesaikan pada penelitian ini adalah: 1. Bagaimana melakukan praproses data, pembuatan dan pengujian model Named Entity Recognition dengan lexicon Bahasa Indonesia? 2. Bagaimana hasil pendeteksian lokasi dari informasi publik media sosial Kota Surabaya dengan Named Entity Recognition?
5
Pada penyelesaian tugas akhir ini memiliki beberapa batasan masalah, berikut batasan masalah yang harus di perhatikan: 1. Dataset yang digunakan untuk training adalah data yang berasal dari status media sosial Facebook Fanpage akun E100. 2. Data media sosial hanya mengenai kota Surabaya. 3. Named Entity Recognition berbahasa Indonesia dengan memuat 1 label saja yaitu lokasi. Tujuan dari pengerjaan tugas akhir ini adalah: 1. 2.
Memudahkan identifikasi entitas lokasi pada teks media sosial berbahasa Indonesia Modul Named Entity Recognition yang dibuat akan digunakan dalam pengembangan aplikasi CitiViz
Tugas Akhir ini diharapkan dapat memberikan manfaat yaitu: Bagi penulis Tugas Akhir ini berguna untuk memberikan pengetahuan mengenai pemrosesan bahasa atau Natural Language Processing Bagi pengembang CitiViz Melalui tugas akhir ini, penulis dapat membantu pengembang Aplikasi CitiViz dalam melakukan pendeteksian lokasi pada teks sehingga dapat menampilkan informasi yang relevan bagi pengguna berdasarkan lokasi yang dipilih. Dengan begitu, informasi yang ditampilkan akan menjadi lebih lengkap.
6
Tugas Akhir ini sangat relevan untuk menjadi tugas akhir S1, karena melakukan implementasi mata kuliah pada bidang keilmuan seperti: • •
Sistem Cerdas Penggalian Data dan Analitika Bisnis
Tugas akhir ini juga bersifat menyelesaikan masalah dari studi kasus nyata berdasarkan teori yang ada, sehingga tugas akhir ini layak untuk dikerjakan
BAB II TINJAUAN PUSTAKA Untuk dapat memberikan wawasan dan pengetahuan mengenai beberapa hal yang dibahas dalam tugas akhir ini, berikut terdapat penjelasan tentang penilitian sebelumnya, yang dijadikan acuan pengerjaan tugas akhir, serta beberapa dasar teori terkait dengan tugas akhir, yang dapat membantu memahami apa saja yang terdapat pada tugas akhir. Beberapa penelitian sebelumnya yang terkait dengan tugas akhir ini adalah sebagai berikut. Tabel 2.1 Penelitian Sebelumnya
No 1.
Judul Penelitian Tahun Indonesian Namedentity Recognitio n for 15 Classes Using Ensemble Supervised Learning 2016
Identitas Peneliti Aditya Satrya Wibawa , Ayu Purwari anti
7
Kesimpulan
Sumber
Berdasarkan hasil penelitian tentang Named Entity Recognition and Classifcation (NERC) pada dokumen berita berbahasa Indonesia, kesimpulan yang didapat antara lain: Fitur yang digunakan dapat dibagi dalam 3 kategori, yaitu word-level (morphological dan POS), sentence-level,
[4]
8
No
2.
Judul Penelitian Tahun
Identitas Peneliti
Kesimpulan
dan lookup list. Penggunaan fitur word-level sudah cukup baik untuk klasifikasi kelas Named Entity. Namun, jika menambah fitur lookup list, akan meningkatkan akurasi. Hasil performa FMeasure terbaik pada testing adalah 0.528 dengan algoritma Simple Logistic, Direct scheme, dan kombinasi dari ketiga fitur. Named Indra Berdasarkan hasil Entity Budi, penelitian yang Recognitio Stéphan menggunkan n for the e pendekatan Indonesian Bressan, knowledge Language: Gatot engineering pada Combining Wahyud Indonesian Contextual, i, Zainal Named Entity Morphologi A. Recognition cal Hasibua (InNER) yang and Part- n , didasarkan pada of-Speech and aturan yang Features Bobby menggabungkan fitur kontekstual,
Sumber
[5]
9
No
Judul Identitas Penelitian Kesimpulan Peneliti Tahun into a A.A. morphological, Knowledge Nazief dan part of Engineerin speech pada teksg Approach teks dalam bahasa - 2005 Indonesia, kesimpulan yang didapat antara lain: Metode ini dapat menghasilkan kinerja paling tinggi adalah 63.43% untuk Recall dan 71.84% untuk Precision dengan mengkombinasik an ketiga fitur yang telah ditentukan. Berdasarkan percobaan, fitur morphological memberikan hasil yang lebih baik dari fitur part of speech. Hal tersebut berarti bahwa, mengetahui struktur teks dapat memberikan hasil yang lebih baik.
Sumber
10
No
Judul Penelitian Tahun
Identitas Peneliti
Kesimpulan
Sumber
Selanjutnya dapat disimpulkan pula bahwa metode association rule dapat memberikan performa yang lebih baik dibandingkan maximum entropy. Sehingga, metode knowledge engineering adalah metode yang terbaik. 3.
A SemiSupervised Algorithm for Indonesian Named Entity Recognitio n - 2015
Rezka Aufar Leonan dya,
Pendekatan Semi-supervised learning menunjukkan Bayu hasil yang lebih Distiaw baik daripada an, Supervised Nursidi learning. Hal ini k Heru disebabkan Prapton adanya o penambahan pengetahuan yang didapatkan classifier dari decision rule, tidak seperti
[6]
11
No
Judul Penelitian Tahun
Identitas Peneliti
Kesimpulan
pada supervised learning yang dilakukan training tanpa penambahan pengetahuan. Secara keseluruham, sistem yang dibuat berhasil mencapai peningkatan skor F1 pada iterasi algoritma semisupervised. Namun, hasilnya masih tergolong rendah. Untuk selanjutnya, akan dicari bagaimana mengotomasi tagging untuk meningkatkan nilai inisiasi F1.
Sumber
12
2.2.1. Natural Language Processing (NLP) Natural Language Processing atau NLP merupakan sebuah studi mengenai kajian interaksi antara komputer dengan bahasa (alami) manusia. NLP merupakan studi yang dapat mempercepat strategi pembelajaran untuk mendeteksi dan penggunaan pola-pola yang ada. NLP adalah sebuah rangkaian asumsi yang jika di adopsi saat berkomunikasi, maka interaksinya akan menjadi lebih efektif [7]. Algoritma NLP yang modern didasarkan pada machine learning, terutama statistical machine learning. Implementasi sebelumnya melibatkan code secara langsung. Namun sekarang, telah banyak algoritma machine learning yang digunakan untuk kajian NLP. Algoritma ini akan mengambil masukan fitur yang dihasilkan dari data masukan. Kajian atau task yang ada pada NLP antara lain sebagai berikut [8]: • • • •
Sentiment Analysis Speech Segmentation Text Segmentation Morphological segmentation • Part-of-Speech-Tagging • Word Sense Disambiguation • Automatic Summarization
• Named Entity Recognition • Machine translation • Relationship extraction • Speech recognition • Information retrieval (IR) • Information extraction (IE)
2.2.2. Named Entity Recognition (NER) Named Entity Recognition (NER) merupakan sebuah bagian tugas dari Information Extraction (IE) yang dapat menandai lokasi dari entitas-entitas yang telah didefinisikan sebelumnya. NER dapat digunakan untuk mengidentifikasi entitas-entitas yang ada pada suatu kalimat seperti nama
13 orang, perusahaan, lokasi, organisasi, tanggal, mata uang, dll [9]. Modul NER selanjutnya akan memberikan tanda label untuk entitas yang teridentifikasi. NER merupakan salah satu riset penting dalam area machine learning dan Natural Language Processing (NLP). Karena, NER dapat digunakan untuk menjawab banyak pertanyaan yang ada di dunia nyata [9], misalkan: • Apakah sebuah status mengandung nama orang? Apakah status tersebut menyediakan lokasi orang tersebut? • Perusahaan manakah yang disebutkan dalam artikel berita? • Produk mana kah yang disebutkan dalam komplain tertentu? Untuk mendapatkan modul NER yang sesuai, perlu dilakukan Training pada dataset yang memiliki entitas dengan label yang diinginkan. Untuk entitas tanpa label cukup diberikan tanda “0”. Kemudian, dataset tersebut akan dilakukan training hingga mendapatkan model NER yang diinginkan. Contoh pemberian label entitas dapat dilihat dibawah ini.
Bapak Jokowi kapan tukangsayur2 indonesia dilengkapi EDC Bank Syariah untuk tumbuhkan ekonomi
O PERS O O LOC O O COMP COMP O O O O
14 2.2.3. Conditional Random Field (CRF) Conditional Random Field atau CRF merupakan model probabilistik statistika yang sering diterapkan untuk pengenalan pola dan machine learning untuk memprediksi atau mendeteksi suatu struktur kalimat. CRF sangat populer dan dalam bidang Natural Language Processing ataupun biological sequences untuk memprediksi label (pelabelan) entitas dari suatu masukan [10]. CRF merupakan metode yang dapat digunakan untuk memprediksi sequence/urutan label dari suatu kalimat. Prediksi akan dilakukan berdasarkan fitur-fitur dari kata saat ini dan kata yang mendahuluinya. Kemudian, fitur-fitur tersebut akan dikombinasikan untuk membentuk suatu nilai yang menunjukkan skor dari suatu sequence label pada kalimat. CRF dapat digambarkan pada graph yang terhubung seperti dibawah ini [11]:
Dengan keterangan sebagai berikut: y = label yang ada x = keseluruhan timeseries Formula CRF dapat ditunjukkan sebagai berikut: 𝑲
𝟏 𝒑(𝒚|𝒙) = 𝒆𝒙𝒑 {∑ 𝝀𝒌 𝒇𝒌 (𝒚𝒕 , 𝒚𝒕−𝟏 , 𝒙𝒕 )} 𝒁(𝒙) 𝒌=𝟏
dimana Z(x) merupakan sebuah instans untuk fungsi normalisasi: 𝑲
𝒁(𝒙) = ∑ 𝒆𝒙𝒑 {∑ 𝝀𝒌 𝒇𝒌 (𝒚𝒕 , 𝒚𝒕−𝟏 , 𝒙𝒕 )} 𝒚
𝒌=𝟏
15 Keterangan: y = sequence label x = kalimat K = jumlah fitur λ_k= weight/bobot f_k= fitur-fitur 2.2.4. Performance Measure dan Confusion Matrix Ketepatan pendeteksian dari suatu model merupakan hal yang sangat penting untuk diperhatikan. Sehingga, performa dari suatu model untuk melakukan deteksi ataupun prediksi dapat diketahui dengan kuantitas. Penilaian yang lazim digunakan untuk Named Entity Recognition adalah Precision, Recall dan F-Measure. Sebelum mengetahui apa itu Precision, Recall dan F-Measure, ada baiknya jika mengetahui Confusion Matrix terlebih dahulu. Confusion matrix merupakan sebuah alat analisis yang sangat berguna untuk menangkap apa saja yang ada pada hasil evaluasi dengan menunjukkan hal yang lebih detil dan sebagai basis dalam perhitungan performa yang lainnya. Confusion matrix menghitung frekuensi pada setiap kemungkinan yang keluar pada prediksi yang dibuat oleh model [12]. Untuk prediksi dengan fitur biner yaitu terdapat 2 level, maka akan terdapat 4 luaran hasil saat model membuat prediksi: • True Positive (TP) Jika nilai pada data testing positif dan diprediksi positif. • True Negative (TN) Jika nilai pada data testing negatif dan diprediksi negatif. • False Positive (FP) Jika nilai pada data testing negatif dan diprediksi positif. • False Negative (FN) Jika nilai pada data testing positif dan diprediksi negatif.
16 Bentuk tabel penyajian confusion matrix dapat dilihat pada Tabel 2.2. Tabel 2.2 Confusion Matrix
a. Precision Precision merupakan nilai ketepatan deteksi atau prediksi dengan benar. Sehingga, perhitungan precision dilakukan dengan membandingan jumlah deteksi yang benar dengan jumlah seluruh deteksi. 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 b. Recall Recall merupakan nilai perbandingan ketepatan prediksi benar dengan jumlah seluruh deteksi yang seharusnya benar. 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 c. F-Measure Sedangkan F-Measure adalah perhitungan yang digunakan untuk menggabungkan nilai Precision dan Recall. Ia akan menunjukkan nilai keseimbangan dari Precision dan Recall dengan cara: 2 𝑥 (𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙) 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
17 2.2.5. Java Java adalah sebuah bahasa pemrograman generalpurpose yang concurrent, berbasis kelas serta berorientasi objek [13]. Bahas pemrograman Java didesain agar Java dikembangkan oleh Sun Microsystems sejak tahun 1991 yang saat ini merupakan bagian dari Oracle. Praproses dan pemrosesan data dalam penelitian ini memerlukan adanya program untuk dapat menangani hal tersebut. Dengan menggunakan program, keseluruhan tahapan diharapkan dapat terselesaikan dengan lebih cepat dan akurat. Untuk itu, pada penelitian ini, program dibuat dengan menggunakan bahasa pemrograman Java, baik praproses maupun pemrosesan data. 2.2.6. Stanford NER Stanford NER adalah implementasi Named Entity Recognition dalam Java yang dibuat oleh The Stanford Natural Language Processing Group [13]. Stanford NER menyediakan ekstraktor-esktraktor fitur untuk NER dan juga menyediakan banyak pilihan untuk menentukan ekstraktorekstraktor fitur. Stanford NER sangat baik digunakan untuk identifikasi entitas dalam Bahasa Inggris dengan 3 label yaitu Person (Orang), Organization (Organisasi), dan Location (Lokasi). Stanford NER juga dikenal sebagai CRFClassifier. Perangkat lunak ini menyediakan implementasi rantai linear Conditional Random Field (CRF). Maka, dengan menggunakan Stanford NER, dapat dilakukan training pada model data milik sendiri dengan pelabelan tertentu. Stanford NER pada penelitian ini digunakan sebagai library untuk implementasi praproses hingga pemrosesan data. Adapun class yang digunakan pada penelitian ini antara lain adalah PTBTokenizer, NERFeatureFactory, serta CRFClassifier. PTBTokenizer digunakan untuk melakukan proses tokenizing kalimat. NERFeatureFactory menyediakan feature extractor yang akan digunakan pada file properties
18 untuk pemrosesan. Sedangkan CRFClassifier digunakan untuk pemrosesan data yakni pemrosesan training yang menghasilkan model dan testing yang menunjukkan nilai performa model. 2.2.7. Forward Selection dan Backward Elimination Pembuatan model dalam penelitian ini akan melibatkan beraneka feature extractor yang digunakan dalam pemrosesan data untuk membuat model. Bagaimanapun juga, himpunan feature extractor yang dipilih untuk membuat model terbaik tidak dapat ditemukan kecuali dengan melakukan percobaan (experiment) dan akan menjadi bagian dari analisa penelitian. Terdapat dua pendekatan dalam melakukan seleksi feature extractor yaitu forward selection dan backward elimination. Forward selection merupakan teknik pemodelan yang memulai percobaan dari nol, kemudian ditambahkan dengan satu persatu variabel, yang dalam hal ini adalah feature extractor, hingga mencapai performa terbaik. Sedangkan metode backward elimination dilakukan dengan terus-menerus mengeluarkan atau mengeliminasi satu per satu variabel yang tidak signifikan dalam meningkatkan performa model hingga didapatkan model terbaik. 2.2.8. Open Street Map Open Street Map (OSM) merupakan proyek kolaboratif yang dilakukan oleh volunteer untuk membuat sebuah peta dunia secara gratis. Volunteer dapat melakukan edit peta untuk menghasilkan peta dunia yang lebih akurat. Lisensi OpenStreetMap memungkinkan akses yang gratis pada gambar serta keseluruhan data yang terdapat pada peta [15]. Penggunaan lexicon bahasa Indonesia dalam pembuatan model pada penelitian ini diambil dari nama-nama lokasi, terutama nama-nama lokasi di kota Surabaya. OSM yang merupakan peta open-source dapat menyediakan datadata tersebut.
19 2.2.9. Mapzen Metro Extract Mapzen Metro Extract dapat memungkinkan untuk mendapatkan potongan dara dari Open Street Map (OSM) pada daerah persegi panjang yang mengelilingi kota atau wilayah tujuan tertentu [16]. Data yang tersedia merupakan data lokasi untuk seluruh dunia. Dari data yang terdapat pada peta Open Street Map, tidak semata-mata data tersebut dapat langsung diambil. Mapzen Metro Extract dapat digunakan untuk melakukan ekstraksi data dari Open Street Map. Adapun ekstraksi data tersebut merupakan data nama-nama lokasi yang terdapat pada kota Surabaya. 2.2.10. Facebook Facebook merupakan salah satu jejaring sosial di dunia maya yang sangat eksis. Facebook yang diluncurkan pada tahun 2004 silam telah memiliki lebih dari satu miliar pengguna aktif dari seluruh dunia [17]. Untuk dapat menggunakan Facebook, pengguna perlu melakukan pendaftaran dan membuat profil. Dengan facebook, pengguna dapat berinteraksi dengan pengguna lain dengan menambahkan teman yang telah memiliki profil Facebook. Facebook pun juga memiliki fitur fanpage yang digunakan oleh organisasi untuk berbagi informasi pada masyarakat pengguna facebook. Informasi yang terdapat pada fanpage ini dapat menjadi informasi penting bagi pengguna jika pengguna terus-menerus mengikuti pembaruan daripada fanpage tersebut. Contoh tampilan facebook fanpage terdapat pada Gambar 2.1.
20
Gambar 2.1 Contoh Tampilan Fanpage
2.2.11. Dataset Status Facebook Dataset merupakan koleksi atau kumpulan data yang akan diolah pada tugas akhir. Dataset berupa kumpulan teks dan detail keterangan yang didapatkan dari status dan komentar facebook fanpage E100 serta Sapawarga Kota Surabaya sejak Februari hingga Oktober 2016. Dataset berupa tabel berbentuk file dengan format SQL yang terdiri dari teks, akun yang melakukan posting, id akun, serta hari dan jam posting. Pada tugas akhir ini, data yang digunakan berjumlah 5000 teks yang kemudian akan diberikan entity label dan diolah. 2.2.12. CitiViz CitiViz merupakan aplikasi visualisasi kemacetan dalam kota yang diambil berdasarkan data media sosial. Untuk dapat memberikan informasi yang tepat dan relevan bagi pengguna, pada pengembangannya, CitiViz akan memiliki beberapa modul pemrosesan bahasa dan machine learning yang dapat menangani hal tersebut. Beberapa modul tersebut antara lain, pengubahan bahasa informal menjadi formal, identifikasi topik [18], serta identifikasi lokasi.
21 Sedangkan pada penelitian ini, akan dibuat modul identifikasi atau deteksi lokasi yang akan digunakan untuk pengembangan aplikasi CitiViz. Adapun bagian-bagian dari aplikasi CitiViz dapat dilihat pada Gambar 2.2.
Gambar 2.2 Aplikasi CitiViz
22 Halaman ini sengaja dikosongkan
BAB III METODOLOGI PENELITIAN Pada bab ini akan dijelaskan mengenai gambaran metode dan alur pengerjaan tugas akhir. Gambar 3.1 berikut ini merupakan alur pengerjaan tugas akhir.
Gambar 3.1 Bagan Metodologi
23
24 Berikut merupakan penjelasan dari setiap tahapan yang ada pada metodologi yang digunakan, yaitu: Tahapan awal pengerjaan Tugas Akhir ini adalah studi literatur. Studi literatur digunakan untuk menentukan topik dengan cara menganalisa latar belakang permasalahan informasi publik di media sosial kota surabaya dan menentukan rumusan permasalahan yang diangkat. Pada tahapan ini pun juga ditentukan batasan masalah, tujuan, serta manfaat penentuan topik penelitian. Untuk mendukung latar belakang permasalahan dan rumusan masalah yang sesuai dengan topik, dilakukan peninjauan pustaka mulai dari studi penelitian sebelumnya terkait dengan penggunaan Named Entity Recognition dan juga dasar teori mengenai Natural Language Processing, Named Entity Recognition, algoritma pendekatan seperti Conditonal Random Field (CRF), Performance Measure dan Confusion Matrix, serta media sosial sebagai referensi pustaka. Adapun literatur yang digunakan berasal dari jurnal ilmiah nasional maupun internasional, makalah penelitian, ebook, maupun buku-buku yang dapat dijadikan bahan acuan pengerjaan tugas akhir ini.
Tahap yang harus dilakukan selanjutnya adalah menyiapkan Environment atau Lingkungan Kerja. Persiapan Lingkungan Kerja dilakukan dengan cara mempersiapkan Java Development Kit (JDK) dan Java Runtime Environment (JRE) serta library untuk Named Entity Recognition yang sesuai. Adapun tahapan ini bertujuan untuk mempersiapkan tools atau alat yang dapat digunakan dalam mengeksplorasi pembuatan properties, melakukan tokenization, melakukan entity labeling, hingga dapat melakukan training atau pelatihan serta testing atau pengujian pada dataset.
25
Untuk dapat mengetahui manakah lokasi kota Surabaya, perlu didapatkan daftar lokasi-lokasi yang ada di kota Surabaya berupa nama jalan, nama daerah, kelurahan, kecamatan, serta nama bangunan. Hal tersebut dapat dibantu dengan menggunakan Open Street Map (OSM). OSM merupakan sumber peta yang terbuka, sehingga pengguna dapat melakukan penambahan maupun pengubahan pada data peta. Selain itu, pengguna juga dapat melakukan ekstraksi pada data. Sehingga, pada penelitian ini, akan dilakukan ekstraksi data peta pada kota Surabaya menggunakan custom extraction pada OSM dengan menggunakan polygon untuk dapat menentukan daerah mana yang dilakukan ekstraksi. Format file ekstraksi OSM menggunakan GEOJSON file. Ekstraksi yang dipilih adalah ekstraksi berdasarkan tag OSM seperti nama jalan, nama daerah, area transportasi, area air, serta bangunan. Daftar nama lokasi ini akan digunakan untuk proses entity labeling.
Dataset yang dikumpulkan terpisah-pisah berdasarkan sumber waktu teks yang diambil. Selain itu, terdapat kemungkinan-kemungkinan bahwa teks yang didapat terduplikasi sehingga harus dihapus. Untuk itu, tahap ini akan menangani permasalahan tersebut. Dengan melakukan tahap ini, akan diperoleh data teks yang layak untuk dianalisa pada tahap berikutnya.
Tahapan Restrukturisasi Teks merupakan salah satu tahap yang penting. Tahap ini merupakan tahap yang dilakukan untuk memastikan bahwa teks yang akan dilakukan tokenization telah ada pada format yang sesuai dengan library Stanford NER. Format yang digunakan yaitu 1 teks status
26 dituliskan dalam 1 tokenization.
baris
sehingga
dapat
dilakukan
Dari teks yang sudah dilakukan tahap restrukturisasi, pada tahap selanjutnya, teks akan dilakukan tokenization. Tahap ini merupakan salah satu bagian yang penting dari pengembangan Named Entity Recognition. Tokenization adalah tahapan untuk mengubah kalimat-kalimat teks menjadi potongan-potongan kata dalam tiap barisnya. Setiap baris tersebut akan menjadi 1 token. Batasan setiap token adalah whitespace antar karakter pada kalimat dan juga memisahkan karakter tanda baca. Berikut adalah contoh Tokenization. Kalimat “21.50 : Sepanjang - Medaeng padat cenderung MACET. Sebabnya ada kabel yang menggantung.” akan memiliki token-token dengan berurutan tiap barisnya: 21.50 : Sepanjang Medaeng padat cenderung MACET . Sebabnya ada kabel yang menggantung .
27
Setelah melakukan Tokenization, tahap yang tidak kalah penting selanjutnya adalah Entity Labeling. Entity Labeling merupakan pemberian label pada setiap token yang ada. Untuk dapat melakukan entity labeling, format yang digunakan haruslah sesuai yaitu pada kolom ke-0 merupakan kolom token, kemudian pada kolom ke-1 merupakan label yang dipisahkan menggunakan ‘tab’. Berkas hasil entity labeling ini akan disimpan dalam format .tsv. Untuk dapat membantu peneliti dalam melakukan entity labeling, tools yang dapat digunakan adalah menggunakan Regular Expression (Regex). Regex digunakan untuk mendeteksi kata yang teridentifikasi label pada token. Kata-kata ini didapatkan dari daftar nama lokasi kota Surabaya dari OSM berdasarkan sub 3.3. Maka, jika terdapat kata yang sesuai, akan diberikan label yang sesuai juga. Namun pada penelitian ini, melakukan pelabelan secara manual tetap perlu dilakukan untuk memastikan bahwa pelabelan telah dilakukan dengan benar. Adapun pada penelitian kali ini, label yang dibuat hanya 1 yaitu label lokasi. Sehingga, untuk setiap token yang menunjukkan suatu lokasi, haruslah diberikan label LOC. Untuk token-token yang tidak menunjukkan lokasi, akan diberikan label O, yang berarti tidak memiliki label. Lokasi yang dideteksi dalam penelitian ini sesuai dengan daftar lokasi yang sudah didapatkan. Berikut contoh hasil entity labeling pada contoh kalimat. 21.50 O : O Sepanjang LOC O Medaeng LOC padat O cenderung O MACET O . O Sebabnya O
28 ada kabel yang menggantung .
O O O O O
Setelah entity labeling selesai dilakukan, tahap selanjutnya adalah melakukan pembagian data teks untuk data training dan data testing. Pembagian data teks untuk proses training dan testing dilakukan dengan menggunakan metode Cross Validation. Cross Validation merupakan salah satu teknik validasi yang akan membagi data menjadi data training dan data testing yang digambarkan pada Gambar 3.2. Selanjutnya, data ini akan dilakukan proses silang yaitu data testing akan menjadi data training maupun sebaliknya. Cross Validation yang digunakan pada penelitian ini yaitu K-Fold Cross Validation. Proses silang yang ada pada K-Fold Cross Validation dapat digambarkan dengan skenario sebagai berikut: K1
Data Testing
K2 K3 Data Training K4 K5
Gambar 3.2 Pembagian Data Training dan Data Testing
29 1. Bagi data menjadi sejumlah kelompok k, dalam penelitian kali ini k yang digunakan sejumlah 5 (setiapnya 20% data). 2. Pada setiap kelompok data, misalkan diberikan nama K1, K2, K3, K4 dan K5. 3. Gunakan 1 kelompok data sebagai data testing (misal, K1), sedangkan sisanya sebagai data training (misal, K2K5). 4. Ulangi proses 3 hingga seluruh kelompok data telah digunakan sebagai data testing. Sehingga, pada tahap ini akan menghasilkan 5 yaitu data training dalam format .tsv yang akan digunakan untuk training dan testing dengan 5 kemungkinan kombinasi dataset file yang berbeda.
Daftar fitur perlu dibuat untuk dapat menyesuaikan dengan struktur bahasa yang ada. Fitur-fitur yang dibutuhkan ini dapat diketahui pada skenario eksperimen. Eksperimen dilakukan dengan cara mengubah-ubah fitur agar sesuai hingga mendapatkan hasil model yang optimal. Berikut ini merupakan contoh fitur pada CRF beserta pengertiannya. • w = word/kata • t = tag • p = position (index kata pada kalimat) • c = class • p = paren • n(w) = ngrams dari word/kata
Dari daftar fitur yang telah dibuat, tahap selanjutnya adalah mentranslasikan fitur tersebut menjadi sebuah file properties yang dapat mendefinisikan feature extractor apa saja yang akan digunakan untuk mengekstraksi fitur. File properties juga harus mendefinisikan file data training yang akan didapatkan pada tahap pembagian data training dan
30 testing. File properties ini pun selanjutnya akan digunakan untuk melakukan training bersama-sama dengan data training. Berikut ini contoh beberapa feature extractor berserta pengertiannya.
useWord : Mengunakan fitur word useNGrams : Pembuatan fitur n-gram dari suatu kata, sehingga menghasilkan substring dari kata lowercaseNGrams : Pembuatan fitur n-gram dari suatu kata dengan huruf kecil saja useSymWordPairs : Memberikan fitur kata sebelum, kata setelah dan kelas saat ini Contoh pengaplikasian feature extractor useWordPairs Sepanjang – Medaeng padat cenderung MACET Kelas kata saat ini: LOC Kata sebelum: – Kata setelah: padat
Jika telah memiliki file data training dalam format .tsv dan telah memiliki file properties dalam format .prop, maka tahap selanjutnya yang dapat dilakukan adalah tahap training. Pada tahap ini, akan digunakan library Stanford NER. Cukup dengan memanggil file properties, library akan menjalankan iterasinya untuk menghasilkan model. Jika iterasi telah selesai, akan didapatkan file ner-model yang akan diuji pada tahap testing.
Setelah didapatkan ner-model dari tahapan training, tahap selanjutnya yang perlu dilakukan adalah menguji model tersebut dengan testing. Testing dapat dilakukan dengan memanggil library Stanford NER untuk menguji model yang telah dibuat menggunakan data testing. Pada tahapan ini akan dibandingkan apakah deteksi label lokasi yang diberikan oleh model telah sesuai dengan testing yang diberikan. Untuk
31 penilaian, digunakanlah nilai performa Precision, Recall dan F-Measure. Kemudian, jika ingin melakukan percobaan untuk mendapatkan nilai performa yang berbeda, peneliti akan kembali pada tahapan membuat daftar fitur dan file properties. Namun, jika nilai yang didapatkan telah sesuai dengan yang diinginkan, dapat dilakukan pengambilan kesimpulan. Skenario percobaan akan dilakukan sesuai dengan skenario forward selection dan backward elimination pada feature extractor.
Penulisan Buku Tugas Akhir adalah tahap yang menghasilkan buku Tugas Akhir. Penulisan buku ini dilakukan bersamaan dengan tahapan penelitian yang lainnya. Harapannya, luaran berupa buku tugas akhir dapat dijadikan sebagai referensi untuk penelitian selanjutnya.
32 Halaman ini sengaja dikosongkan
BAB IV PERANCANGAN Untuk dapat memberikan gambaran apa-apa saja yang dikerjakan pada implementasi penelitian tugas akhir, pada bab ini, akan dijelaskan mengenai perancangan penelitian tugas akhir yang meliputi subyek dan obyek penelitian, pemilihan subyek dan obyek penelitian serta bagaimana penelitian akan dilakukan.
Data merupakan salah satu komponen penting untuk dapat melakukan penelitian pendeteksian lokasi dari informasi publik pada media sosial kota Surabaya berbasis Named-Entity Recognition. Data dalam penelitian ini merupakan dataset berupa tipe data teks dari status fanpage facebook Suara Surabaya.
Gambar 4.1 Alur Pengambilan Data
Untuk dapat menggunakan data tersebut, maka perlu dilakukan pengambilan data. Pada penelitian ini, pengambilan data dilakukan oleh Stezar Priansya (Sistem Informasi ITS 2013) [16] dalam periode 3 bulan mulai September 2016 hingga dengan November 2016 dengan data yang diambil merupakan status facebook fanpage Suara Surabaya dalam periode 15 bulan sejak Agustus 2015 sampai dengan November 2016. Sesuai dengan alur pengambilan data yang ditunjukkan pada Gambar 4.1, pengambilan data status facebook fanpage dilakukan dengan teknik crawling menggunakan library Facebook4J pada bahasa pemrograman Java. Selanjutnya, keseluruhan dataset akan disimpan ke dalam database MySQL.
33
34 Data status yang telah diambil memiliki beberapa atribut seperti id status facebook, isi dari status facebook, story status facebook, serta waktu dibuatnya status tersebut. Tabel 4.1 menunjukkan daftar atribut status, tipe data pada setiap atribut, serta keterangan yang ada pada atribut. Tabel 4.1 Atribut Data
Nama Atribut fb_id message story created_time
Tipe Data Text Text Text Datetime
Keterangan ID status facebook isi dari status facebook story status facebook tanggal posting status facebook
Dari proses pengambilan data, terdapat sebanyak 25.416 teks status yang dapat dikumpulkan. Tabel 4.2 menunjukkan sampel data yang tersimpan dalam database MySQL. Tabel 4.2 Sampel Data Mentah Status Facebook
fb_id
Message
story
227268 729878 _10154 869178 789879
Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanak ota/detail.php?id=2rd5iab0l0skf1u 7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odpfk)
E100 with Naira Purn omo.
22726 87298 78_10 15388
E100 with Naira Purn omo.
creat ed_ti me 8/1/20 15 23:41
8/1/20 15 23:27
35 45897 39879 22726 87298 78_10 15388 43725 94879 22726 87298 78_10 15388 43727 39879
http://m.suarasurabaya.net/kelanak ota/detail.php?id=2rd5iab0l0skf1u 7a4ru2jflp32015156523 "Sebanyak 94 TKI ilegal NUL Dideportasi Malaysia. (odp-rt) L http://m.suarasurabaya.net/kelanak ota/detail.php?id=ik878thocermn5 g8a7r6esbdr72015156517"
8/1/20 15 22:10
Datang ke Muktamar, Jokowi NUL Bagikan Kaos dan Kartu Indonesia L Pintar. (odp-rt) http://m.suarasurabaya.net/kelanak ota/detail.php?id=ik878thocermn5 g8a7r6esbdr72015156512
8/1/20 15 21:55
22726 87298 78_10 15388 43602 59879
21.45 : Hindari masuk Jombang NUL Kota! Lalu lintas MACET TOTAL. L Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso Gedeg saja, Kawan. (odp-rt)
8/1/20 15 21:46
22726 87298 78_10 15388 43128 39879
Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/d etail.php?id=ik878thocermn5g8a7r 6es01082015156501&fokusid=61 3
E100 8/1/20 with 15 Ima 21:16 m De Iwes and Naira Purn omo.
36
Tahap selanjutnya yang perlu dilakukan setelah pengambilan data adalah pemilihan atribut. Pemilihan atribut dilakukan untuk mempertimbangkan dan menyeleksi atribut data mana saja yang akan digunakan selama penelitian berlangsung. Berdasarkan dataset status facebook yang diperoleh dari proses pengambilan data, atribut yang dapat digunakan adalah atribut message. Atribut message dipilih karena merupakan atribut yang menunjukkan isi teks dari status facebook fanpage. Sehingga, atribut data inilah yang selanjutnya akan diolah dan dilakukan analisis. Tabel 4.3 dibawah ini menujukkan sampel data berdasarkan hasil pemilihan atribut yang digunakan dalam penelitian. Tabel 4.3 Sampel Data Status Facebook
Message Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.php?id=2rd5ia b0l0skf1u7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.php?id=2rd5ia b0l0skf1u7a4ru2jflp32015156523 "Sebanyak 94 TKI ilegal Dideportasi Malaysia. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.php?id=ik878t hocermn5g8a7r6esbdr72015156517" Datang ke Muktamar, Jokowi Bagikan Kaos dan Kartu Indonesia Pintar. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.php?id=ik878t hocermn5g8a7r6esbdr72015156512
37 21.45 : Hindari masuk Jombang Kota! Lalu lintas MACET TOTAL. Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso - Gedeg saja, Kawan. (odp-rt) Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/detail.php?id=ik878thocer mn5g8a7r6es01082015156501&fokusid=613
Tahapan perancangan model akan mendefinisikan halhal apa saja yang perlu dilakukan setelah memilih atribut data yang digunakan dalam penelitian. Adapun hal-hal tersebut akan diimplementasikan menggunakan tools komputasi secara otomatis dengan bahasa pemrograman Java. Terdapat empat tahapan besar untuk mendapatkan model yaitu perancangan data lokasi, perancangan prarproses data, perancangan feature extractor, serta perancangan pemrosesan data. Berikut ini merupakan tahapan yang ada pada setiap perancangan. 4.3.1. Perancangan Data Lokasi
Gambar 4.2 Sumber Data Lokasi
38 Pada penelitian ini, implementasi perancangan data lokasi akan menghasilkan daftar nama-nama lokasi kota Surabaya yang akan digunakan dalam proses pencarian nama lokasi dalam suatu teks secara otomatis. Tahapan perancangan data lokasi diawali dengan proses pengumpulan data lokasi dari beberapa sumber. Pada Gambar 4.2 ditunjukkan bahwa sumber data lokasi terbagi atas dua sumber yaitu Open Street Map dan Dinas PU Bina Marga. Data-data yang telah dikumpulkan akan diekstraksi menggunakan tools yang sesuai dengan format data dari seluruh sumber. Setelah itu, data yang telah diekstrak dari kedua sumber akan digabungkan dan akan didapatkan daftar nama-nama lokasi kota Surabaya dalam format text. Adapun perancangan proses pengumpulan, ekstraksi dan pengubahan format pada setiap sumbernya dijelaskan sebagai berikut: 4.3.1.1. Data Lokasi Open Street Map
Gambar 4.3 Alur Ekstraksi Data Lokasi Open Street Map
Untuk dapat memuat nama-nama lokasi yang ada di kota Surabaya dari Open Street Map, terdapat beberapa tahapan yang perlu dilakukan. Gambar 4.3 di atas menunjukan tahapan alur ekstraksi data lokasi dari Open Street Map. Tahapan yang pertama adalah melakukan esktraksi peta Open Street Map menggunakan Mapzen Metro Extracts yang
39 dapat diakses pada https://mapzen.com/data/metro-extracts/. Mapzen Metro Extracts dapat digunakan untuk memilih area mana yang akan diekstraksi. Setelah dilakukan ekstraksi, akan didapatkan data lokasi Surabaya dalam format GeoJSON. Selanjutnya, akan dilakukan parsing data GeoJSON menggunakan Program Java yang akhirnya menghasilkan data daftar nama-nama lokasi kota Surabaya dalam format text. 4.3.1.2. Data Lokasi Dinas PU Bina Marga
Gambar 4.4 Alur Ekstraksi Data Lokasi Dinas PU Bina Marga
Proses pengumpulan data pada Dinas PU Bina Marga diawali melalui wawancara pegawai dinas dan pengajuan surat permohonan data melalui Badan Kesatuan Bangsa dan Politik (Bakesbangpol) Kota Surabaya. Adapun alur ekstraksi data lokasi Dinas PU Bina Marga tampak pada Gambar 4.4 di atas. Data yang didapatkan dari Dinas PU Bina Marga untuk menjadi masukan pada penelitian ini adalah data panjang jalan kota Surabaya. Data tersebut berupa file excel (.xlsx) yang berisikan daftar nama-nama jalan beserta nama pangkal ruas jalan dan nama ujung ruas jalan. Setelah data didapatkan, selanjutnya adalah pemilihan atribut data yang berisikan nama jalan, kelurahan serta kecamatan untuk dimasukkan pada daftar nama lokasi kota Surabaya.
40 4.3.2. Perancangan Praproses Data
Gambar 4.5 Alur Praproses Data
Sebelum dapat melakukan pemrosesan data, data yang telah terkumpul perlu disesuaikan dengan format yang ada pada library yang digunakan pada pemrosesan data, yaitu library Stanford NER dengan bahasa pemrograman Java. Untuk itu, data-data yang digunakan akan melalui praproses data, sehingga dapat digunakan dalam pemrosesan data menggunakan library Stanford NER. Pada penelitian ini, seperti yang terdapat pada gambar alur praproses data pada Gambar 4.5, data-data seperti data lokasi, data non lokasi, serta dataset status facebook yang tersimpan dalam database, akan melalui praproses data untuk dapat menjadi file berupa file Tab-Separated Value (.tsv). Praproses data akan dilakukan menggunakan program dengan bahasa pemrograman Java. Program praproses data dibuat untuk menandai lokasi yang ada pada suatu teks secara otomatis dari daftar nama-nama lokasi dengan menggunakan Java Pattern dan Java Matcher. Selain dilakukan penandaan secara otomatis menggunakan program, penelitian ini juga akan mencoba percobaan dengan melakukan penandaan lokasi secara manual tanpa program. Setelah penandaan nama-nama lokasi dilakukan, selanjutnya, akan dilakukan pembagian dataset. Dataset akan
41 dibagi berdasarkan cross-validataion dengan k-fold=5. Maka, dataset keseluruhan akan dibagi menjadi 5 file (.tsv). Masingmasing file akan mewakili sejumlah 20% data dari keseluruhan dataset. Selanjutnya, 5 file ini akan diteruskan untuk dilakukan pemrosesan data. Adapun tahapan dalam melakukan praproses data yang harus dilakukan di atas akan dibagi berdasarkan tahapantahapan yang lebih rinci, antara lain adalah pemuatan data teks, pemuatan data teks, pembagian dataset, matching lokasi dan non lokasi dengan teks, tokenizing, serta labeling teks dengan lokasi. Tahapan-tahapan tersebut akan dibahas lebih rinci dalam pembahasan berikut ini. 4.3.2.1. Perancangan Pemuatan Data Teks
Gambar 4.6 Alur Pemuatan Data Teks Status Facebook
Tahapan pertama dalam melalakukan praproses data adalah pemuatan dataset status facebook yang berupa data teks. Gambar 4.6 menampilkan alur pemuatan data teks status facebook. Pemuatan data dilakukan dengan menggunakan program dengan bahasa pemrograman Java yang mengkoneksikan program dengan Database MySQL status facebook. Pada proses ini, akan dilakukan pemanggilan data dengan menggunakan Query SELECT MySQL. Dalam penelitian ini, akan dipanggil sejumlah 1000 data teks yang akan digunakan menjadi keseluruhan dataset. Setelah data diambil, tautan yang ada pada data teks perlu dihapus karena tidak dimasukkan dalam pemrosesan data. Selain itu, juga
42 dilakukan penghapusan baris baru pada teks, sehingga teks akan menjadi dalam 1 baris. Kemudian, data yang telah diambil akan diberikan tanda bahwa data tersebut telah dilakukan proses pemanggilan data. Selanjutnya, data yang telah dipanggil akan dimuat dalam program berupa Data Teks. 4.3.2.2. Perancangan Pemuatan Data Lokasi dan Non Lokasi Tahap selanjutnya yang perlu dilakukan dalam praproses data adalah pemuatan data lokasi dan non lokasi. Data lokasi dan non lokasi akan dimuat dalam program menggunakan bahasa pemrograman Java dan akan disimpan menjadi Pattern.
Gambar 4.7 Alur Pemuatan Data Lokasi
Gambar 4.7 di atas menunjukkan alur pemuatan data lokasi menjadi Pattern Lokasi. Proses pemuatan data lokasi diawali dengan mengidentifikasi setiap baris yang ada pada Data Lokasi. Setiap baris berupa teks tersebut akan dimuat pada program Java. Setelah keseluruhan baris dimuat, selanjutnya, akan dilakukan pengurutan data teks lokasi secara descending berdasarkan panjang kata. Sehingga, data lokasi yang memiliki jumlah huruf paling banyak berada pada posisi awal. Sedangkan data lokasi yang memiliki huruf paling sedikit berada di posisi terakhir. Setelah itu data yang telah diurutkan tersebut akan disimpan dalam Pattern Lokasi.
43 Tabel 4.4 Daftar Nama Non Lokasi
No 1 2 3 4 5
Nama non lokasi Suara Surabaya Suara Bojonegoro Indah Se-Surabaya Walikota Surabaya Pilkada Surabaya
Data non lokasi pada penelitian ini merupakan daftar nama-nama non lokasi, misalkan nama organisasi, yang didalamnya terdapat nama lokasi. Data non lokasi digunakan agar penandaan nama lokasi pada data teks tidak perlu menandai nama-nama non lokasi yang didalamnya terdapat nama lokasi. Nama non lokasi diambil dari kata-kata yang sering muncul pada data teks dan pada konteks penelitian ini dapat dilihat pada Tabel 4.4.
Gambar 4.8 Alur Pemuatan Data Non Lokasi
Gambar 4.8 di atas menunjukkan alur pemuatan data non lokasi menjadi Pattern Non Lokasi. Proses pemuatan data lokasi diawali dengan mengidentifikasi setiap baris yang ada pada Data Non Lokasi. Setiap baris berupa teks tersebut akan dimuat pada program Java. Setelah keseluruhan baris dimuat, selanjutnya, akan dilakukan pengurutan data teks non lokasi secara descending berdasarkan panjang kata. Sehingga, data non lokasi yang memiliki jumlah huruf paling banyak berada pada posisi awal. Sedangkan data lokasi yang memiliki huruf paling sedikit berada di posisi terakhir. Setelah itu data yang telah diurutkan tersebut akan disimpan dalam Pattern Non Lokasi.
44 4.3.2.3. Perancangan Pembagian Dataset
Gambar 4.9 Pembagian Dataset
Setelah dilakukan pemuatan Data Teks maupun Data Lokasi dan Non Lokasi, tahap berikutnya adalah pembuatan file dalam format TSV (.tsv) untuk pembagian dataset. File akan dibuat dengan menggunakan program Java dan dituliskan dengan Java BufferedWriter untuk setiap file. Seperti pada Gambar 4.9, berdasarkan cross-validation dengan k-fold=5, maka dataset akan dibagi ke dalam 5 file yang berbeda. Pembagian ini akan dilakukan dengan pengurutan data teks. Sehigga, data teks ke-1 akan dimasukkan pada file ke-1, data teks ke-2 akan dimasukkan pada file ke-2, data teks ke-3 akan dimasukkan pada file ke-3 dan seterusnya. Data teks yang dimasukkan pada file tidak semata-mata dari hasil muatan dataset teks mentah. Data teks yang dimuat awalnya akan dilakukan pengacakan dengan Random Shuffle menggunakan Seed pada Java. Selain itu, training file yang dibuat akan dituliskan hasil dari praproses matching pada sub 4.3.2.4., tokenizing pada sub 4.3.2.5. serta labeling pada sub 4.3.2.6. untuk setiap data teks dengan data lokasi dan non lokasi yang berupa token dan label.
45 4.3.2.4. Perancangan Matching Lokasi dan Non Lokasi dengan Data Teks
Gambar 4.10 Alur Matching Lokasi dan Non Lokasi dengan Data Teks
Matching Lokasi dan Non Lokasi dengan Data Teks merupakan tahapan untuk menghidentifikasi bagian dari teks mana yang merupakan suatu lokasi menggunakan Java Pattern dan Java Matcher. Alur Matching Lokasi dan Non Lokasi dengan Data Teks ini ditunjukkan pada Gambar 4.10 di atas. Pada tahapan ini, terdapat 3 masukan pada program yaitu Data Teks, Pattern Lokasi, serta Pattern Non Lokasi. Pertama-tama yang perlu dilakukan pada program adalah duplikasi Data Teks menjadi Data Teks Temporary. Data Teks Temporary diperlukan untuk menandai bagian dari suatu teks yang merupakan lokasi maupun non lokasi. Proses penandaan dimulai dengan menggunakan matcher pada pattern non lokasi dengan teks. Jika dalam suatu teks terdapat kata-kata yang ada pada pattern non lokasi, data yang terdapat pada data teks temporary sesuai index yang ditemukan akan ditandai menjadi non lokasi. Setelah itu barulah digunakan matcher pada pattern lokasi dengan teks. Jika dalam suatu teks terdapat kata-kata yang ada pada pattern lokasi, data yang terdapat pada teks temporary sesuai index yang ditemukan akan ditandai menjadi lokasi.
46 4.3.2.5. Perancangan Tokenizing
Gambar 4.11 Alur Tokenizing
Tahap yang perlu dilakukan selanjutnya setelah Data Teks dan Data Teks Temporary ditandai lokasi dan lokasi adalah Tokenizing. Gambar 4.11 di atas menggambarkan alur tokenizing untuk data teks dan data teks temporary. Pada tahapan ini, tokenizing dilakukan dengan menggunakan library dari Stanford NLP Process dengan class PTBTokenizer. Tahapan Tokenizing akan membagi teks menjadi sequence token-token, yang bisa dikorespondensikan menjadi “katakata” [17]. Tokenizing ini dilakukan untuk data teks maupun data teks temporary. Sehingga, tahapan ini akan menghasilkan sequence token dari data teks serta sequence token dari data teks temporary. 4.3.2.6. Perancangan Labeling Lokasi Setelah dilakukan tokenizing, tahap berikutnya adalah penandaan lokasi sesuai dengan format yang ada pada library Stanford NER, yaitu sequence dari token teks diletakkan pada kolom ke-0 dari data, kemudian pada kolom ke-1 merupakan label yang dipisahkan menggunakan ‘tab’. File hasil entity labeling ini akan disimpan dalam format .tsv.
47 a. Labeling dengan Program
Gambar 4.12 Alur Labeling Lokasi Menggunakan Program
Gambar 4.12 di atas menunjukkan alur labeling lokasi dengan menggunakan program Java. Untuk melakukan labeling tersebut, pertama-tama, hal yang perlu dilakukan adalah membandingkan setiap sequence dengan index yang sama pada token teks dan token teks temporary. Saat dibandingkan, jika sequence yang terdapat pada token teks dan token teks temporary adalah sama (equals), maka token teks tidak akan terindikasi sebagai lokasi dan diberikan label berupa “O” dengan pemisahan berupa ‘tab’. Jika sequence yang terdapat pada token teks dan token teks temporary adalah tidak sama dan terdapat tanda non lokasi, maka token teks tidak diinfikasikan sebagai lokasi dan diberikan label berupa “O” dengan pemisahan berupa ‘tab’. Maka, indikasi terdapat lokasi dalam suatu teks adalah ketika sequence token teks temporary berbeda dengan sequence token teks dan teks temporary memiliki tanda lokasi. Selanjutnya, teks yang terindikasi sebagai lokasi akan diberikan label berupa “LOC” dengan pemisahan berupa ‘tab’. Setelah dilakukan pemberian label pada seluruh token, maka token dan label akan dituliskan pada file dalam format TSV (.tsv) untuk dapat dilakukan pemrosesan data dengan pembagian dataset yang dijelaskan pada sub 4.3.2.3.
48 b. Labeling Manual Setelah didapatkan file dari tahapan pembagian dataset hingga pemberian label dengan program, penelitian ini juga akan melakukan pemberian label lokasi yang ada pada teks secara manual. Hal ini dilakukan untuk menanggulangi namanama lokasi di luar kota Surabaya yang tidak terindikasi pada program. Selain itu, pengecekan manual juga dilakukan unutk menanggulangi nama-nama non lokasi yang seharusnya tidak terindikasi pada program. Sehingga, diharapkan, dataset yang akan digunakan pada pemrosesan data (training dan testing) akan maksimal. Pengecekan manual pada pemberian label lokasi dilakukan dengan pengecekan satu-persatu keseluruhan token yang ada pada data file. Jika terindikasi sebagai lokasi, maka akan diberikan label berupa “LOC”. Selain itu, jika terdapat token yang seharusnya bukan lokasi namun terdapat label “LOC”, maka label tersebut akan diubah menjadi “O”. Pada proses pelabelan ini, diperlukan konsistensi dalam memberikan label “LOC”. Untuk itu, perlu adanya definisi tetap mengenai apa yang dimaksudkan degan label lokasi atau “LOC”. Label lokasi (LOC) dapat diberikan pada suatu token dengan memperhatikan beberapa hal seperti pada Gambar 4.13.
Gambar 4.13 Irisan Nama Lokasi yang Diberikan Label
49 Gambar 4.13 menunjukkan hasil irisan antara beberapa hal yang perlu diperhatikan saat melakukan pemberian label lokasi antara lain nama-nama lokasi, struktur bahasa formal dan non-formal, konteks berita, serta batasan-batasan tertentu seperti yang didefinisikan sebagai berikut: 1. Token merupakan nama-nama lokasi. Dasar utama penentuan lokasi pada suatu kalimat adalah nama-nama lokasi yang ada di bawah ini: Nama-nama negara seperti “Indonesia”, “Malaysia”. Nama-nama provinsi seperti “Jawa Timur” Nama-nama kota dan daerah seperti “Surabaya”, “Malang”, “Pasuruan”. Nama daerah administratif seperti nama desa, kelurahan, kecamatan, maupun daerah pemukiman penduduk seperti perumahan. Didefinisikan sebagai lokasi jika terdapat nama daerah seperti “Benowo”. Nama fasilitas umum seperti stasiun kereta, terminal, bandara, halte, perpustakaan, rumah sakit, puskesmas, klinik kesehatan, tempat pengisian bahan bakar, jembatan, SIM Corner, maupun laboratorium. Contoh dari fasilitas umum adalah “Puskesmas Suramadu”. Nama jalan pembatas yang berupa jalan tol. Misalnya, “Tol Dupak”. Nama bangunan seperti apartemen, hotel, asrama, industri, toko, gereja, masjid, candi, rumah sakit, sekolah, bank, perguruan tinggi, universitas, supermarket, mimarket, pasar, rumah makan, bangunan pemerintahan, kantor, polres, polsek, balai, maupun hall umum. Contoh dari nama bangunan misalnya “Apartemen Puri Darmo”. Nama-nama jalan. Contoh penulisan nama jalan yang sesuai EYD adalah “Jalan Pemuda”. Nama lokasi alam seperti nama sungai dan gunung. Contoh nama lokasi alam adalah “Kali Mas”
50
Alamat rumah lengkap dengan nomor gang, nomor rumah, blok, nomor RT, maupun nomor RW. 2. Struktur bahasa formal dan non formal. Struktur bahasa formal yaitu struktur bahasa yang menganut Ejaan Yang Disempurnakan. Lokasi dengan struktur bahasa formal akan diberikan label. Pada penelitian ini pun juga tidak menghiraukan nama lokasi dengan struktur penulisan non formal yang umumnya tidak sesuai dengan EYD seperti berikut: Nama-nama lokasi yang disingkat tetap diberikan label lokasi seperti “Sby” yang berarti lokasi “Surabaya”, ataupun “Ds.” yang berarti “Desa”. Menghiraukan penulisan huruf kapital dan non kapital yang kurang tepat misal “jl kertajaya” tetap diberikan label lokasi. Nama jalan yang mengandung singkatan seperti “JL”, “Jl”, “jl”, “jl”, “Jln.”, “Jl.”, serta penulisan nama jalan yang tidak menghiraukan tata cara penulisan huruf kapital seperti ,”jalan”, ”pemuda”, “PEMUDA” tetap diberikan label lokasi. 3. Penentuan lokasi berdasarkan konteks berita: Memperhatikan relevansi nama lokasi dengan berita. Pada berita, jika terdapat nama suatu lokasi, tidak semata-semata dapat langsung didefinisikan sebagai lokasi. Melainkan harus dilihat relevansi nama lokasi pada berita. Lokasi pada kalimat berita umumnya merupakan sebuah Keterangan (K) pada struktur kalimat Subjek (S) – Predikat (P) – Objek (O) – Keterangan (K), yang merupakan keterangan tempat. Ciri-ciri yang merupakan sebuah lokasi pada kalimat adalah terdapat kata-kata awalan seperti kata “di”, “ke”, “dari”, “depan”, maupun “asal”. Nama jalur jalan yang didefinisikan menggunakan kata “arah” maupun tanda “-“. Contohnya pada
51 “Warugunung - Karangpilang”, maka “Warugunung” dan “Karangpilang” merupakan sebuah lokasi. 4. Batasan nama lokasi: Tidak termasuk nama organisasi (ORGANIZATION). Misalnya, “Polrestabes Surabaya” tidak didefinisikan sebagai lokasi jika pada konteks berita terdefinisikan sebagai organisasi. Tidak termasuk lokasi yang menerangkan orang (PERSON). Misalnya, “Walikota Surabaya” tidak didefinisikan sebagai lokasi. Tidak termasuk kata yang menerangkan lokasi seperti “Exit” pada “Exit Tol Waru”, kata “TL” (Traffic Light) pada “TL Demak”, mapupun kata “simpang” pada “simpang Balongsari” 4.3.3. Perancangan Feature Extractor Feature Extractor pada penelitian ini digunakan untuk mengekstraksi fitur-fitur yang digunakan dalam pemrosesan data. Penggunaan feature extractor akan dituliskan dalam file properties. Selanjutnya, file properties akan digunakan pada tahap training sehingga menghasilkan model. Pada penelitian ini pun akan dilakukan percobaan yang menguji penggunaan feature extractor mana saja yang dapat meningkatkan performa model secara optimal. feature extractor yang digunakan didapatkan dari Class NERFeatureFactory pada library Stanford NER. Terdapat 24 feature extractor yang diujicobakan pada pemrosesan data penelitian ini. 24 feature extractor tersebut terdapat pada Tabel 4.5 dengan keterangan fitur sebagai berikut. Keterangan Fitur w = word / kata g = gazette t = tag s = shape p = position (index kata n(w) = ngrams dari pada kalimat) word/kata c = class / kelas g(w) = gazette yang p = paren berisikan word/kata
52 Tabel 4.5 Daftar Feature Extractor
No 1. 2. 3. 4.
Kode A B C D
Feature Extractor wordShape useTypeSeqs useTypeSeqs2 useTypeySequences
Syarat wordShape wordShape wordShape
5. 6. 7. 8. 9.
E F G H I
MaxLeft useWord usePrev useNext useWordPairs
-
10. 11. 12. 13.
J K L M
useSymWordPairs usePosition useClassFeature useSequences
-
14.
N
usePrevSequences
-
15.
O
useDisjShape
-
16.
P
useDisjunctive
-
17.
Q
disjunctionWidth
18. 19.
R S
strictlyFirstOrder useSum
useDisjuncti ve -
Fitur s,c pw, c nw, c s,pc,c ns,pc,c ps,pc,s,c w,c pw,c nw,c pw,w,c w,nw,c pw,nw,c p,c c pc,w,c nc,c pc,nc,c pc,c pc,w,c (ps;p2s;p 3s;p4s),c; (ns;n2s;n 3s;n4s),c (pw;p2w; p3w;p4w ),c; (nw;n2w; n3w;n4w ),c -
53 20.
T
useNGrams
21. 22. 23. 24.
U V W X
maxNGramLeng noMidNGrams useGazettes cleanGazette
useNGrams useNGrams useGazettes
n(w),c n(w),s,c
g(w),c g(w),[pw ,nw,...],c
Deskripsi Feature Extractor A. WordShape Feature extractor wordShape akan mengekstraksi fitur shape atau bentuk karakter dari suatu kata, seperti bentuk huruf besar, huruf kecil, digit atau angka, maupun karakter yunani. Terdapat berbagai skema identifikasi wordShape yang terdapat pada class WordShapeClassifier.lookupShaper. B. UseTypeSeqs UseTypeSeqs merupakan Feature extractor yang digunakan untuk menangkap urutan dari wordShape yang digunakan. C. useTypeSeqs2 UseTypeSeqs2 merupakan Feature extractor yang digunakan untuk menangkap urutan pertama dan kedua dari wordShape yang digunakan. D. useTypeySequences UseTypeSeqs2 merupakan Feature extractor yang digunakan untuk menangkap urutan pertama dari pola wordShape yang digunakan dengan melihat kelas sebelum. E. MaxLeft Nilai yang digunakan untuk mendefinisikan jarak kata ke kiri atau sebelum untuk mengetahui konteks fitur kelas yang digunakan.
54 F. useWord Feature extractor useWord akan mengekstraksi fitur word atau kata itu sendiri serta kelas yang mengikutinya. G. usePrev Feature extractor usePrev merupakan ekstraktor fitur prev word atau kata sebelum serta kelas yang mengikutinya. H. useNext Feature extractor useNext merupakan ekstraktor fitur next word atau kata sesudah serta kelas yang mengikutinya. I. useWordPairs Feature extractor useWordPairs merupakan ekstraktor fitur prev word atau kata sebelum, word atau kata itu sendiri serta kelas yang mengikutinya. Fitur tersebut diekstrak bersamaan dengan fitur word atau kata itu sendiri, next word atau kata sesudah serta kelas yang mengikutinya. J. useSymWordPairs Feature extractor useWordPairs merupakan ekstraktor fitur prev word atau kata sebelum, next word atau kata sesudah, serta class yang mengikutinya. K. usePosition Feature extractor usePosition merupakan kombinasi fitur posisi kata pada kalimat serta kelas pada kata. L. useClassFeature Feature extractor akan mengekstraksi fitur kelas dengan melihat seberapa sering fitur kelas akan muncul pada data training.
55 M. useSequences useSequences merupakan feature extractor yang digunakan untuk mengekstraksi sequence atau urutan dari fitur kelas dengan memperhatikan prev class atau kelas sebelum, word atau kata itu sendiri dan kelas yang mengikutinya, serta next class atau kelas sesudah kata. N. usePrevSequences usePrevSequences akan mengekstraksi fitur yang melihat sequence atau urutan dengan memperhatikan prev class atau kelas sebelum. O. useDisjShape useDisjShape digunakan untuk mengekstraksi fitur disjungsi dari word shape atau bentuk karakter pada kata dengan jarak ke kiri (sebelum) dan ke kanan (sesudah) yang didefinisikan pada feature extractor disjunctionWidth. Ekstraksi fitur ini akan memperhatikan arah, bukan posisi kata dalam kalimat. P. useDisjunctive Feature extractor useDisjunctive akan mengekstraksi fitur disjungsi dari kata dengan jarak ke kiri (sebelum) dan ke kanan (sesudah) yang didefinisikan pada feature extractor disjunctionWidth. Ekstraksi fitur ini akan memperhatikan arah, bukan posisi kata dalam kalimat. Q. disjunctionWidth disjuctionWidth digunakan untuk mendefinisikan jarak kata yang digunakan untuk memperhatikan disjungsi dari kata saat ini. Secara default, disjunctionWidth didefinisikan dengan nilai 4. R. strictlyFirstOrder Feature extractor strictlyFirstOrder akan mengekstraksi fitur yang dapat menghilangkan seluruh fitur selain fitur kelas dan fitur clique CpC.
56 S. useSum Tidak terdapat definisi yang komprehensif mengenai feature extractor ini berdasarkan dokumentasi library. T. useNGrams useNGrams merupakan ekstraksi fitur n-grams kata. N-Gram merupakan potongan n karakter dalam suatu string atau kata tertentu. Misalnya pada kata “SURABAYA” akan didapat ngram yang dapat dilihat pada Tabel 4.6. Tabel 4.6 Karakter N-Gram
N-Gram 1-Gram (Uni-gram) 2-Gram (Bi-gram) 3-Gram (Tri-gram)
Karakter N-Gram S, U, R, A, B, A, Y, A
4-Gram (Quad-gram)
_ _ _ S, _ _ SU, _ SUR, SURA, URAB, RABA, ABAY, BAYA, AYA_, YA_ _, A_ _ _ _ _ _ _ S, _ _ _ SU, _ _ SUR, _ SURA, SURAB, URABA, RABAY, ABAYA, BAYA _, AYA_ _, YA_ _ _, A_ _ _ _
5-Gram
6-Gram
7-Gram
_S, SU, UR, RA, AB, BA, AY, YA, A_ _ _S, _SU, SUR, URA, RAB, ABA, BAY, AYA, YA_, A_ _
_ _ _ _ _ S, _ _ _ _SU, _ _ _SUR, _ _SURA, _SURAB, SURABA, URABAY, RABAYA, ABAYA_, BAYA_ _, AYA_ _ _, YA_ _ _ _, A_ _ ___ _ _ _ _ _ _ S, _ _ _ _ _ SU, _ _ _ _ SUR, _ _ _SURA, _ _SURAB, _SURABA, SURABAY, URABAYA, RABAYA_, ABAYA_ _, BAYA_ _ _, AYA_ _ _ _, YA_ _ _ _ _, A_ _ _ _ _ _
57 U. maxNGramLeng Feature extractor maxNGramLeng merupakan ekstraksi fitur yang digunakan untuk mendefinisikan nilai n-gram yang digunakan. N-Gram dengan nilai di atas maxNGramLeng tidak akan digunakan pada training untuk menghasilkan model. V. noMidNGrams Jika menggunakan feature extractor noMidNGrams, training tidak mengikutkan huruf awal dan terakhir untuk N-Gram dari suatu kata. W. useGazettes Feature extractor useGazettes akan memperhatikan gazette atau lexicon nama-nama lokasi yang pada penelitian ini didefinisikan sebagai daftar nama lokasi yang didapat dari data lokasi OSM dan Bina Marga. X. cleanGazette Jika feature extractor cleanGazzete digunakan, fitur gazette digunakan dengan memperhatikan keseluruhan gabungan kata pada gazette. Khusus pada wordShape feature extractor, library Stanford NER menyediakan beberapa pilihan wordShape dengan berbagai skema wordShape. Untuk dapat mengetahui wordShape mana yang dapat mengoptimalkan hasil performa model, maka perlu dilakukan percobaan dengan wordShape Selection. Selain itu, untuk menguji hasil performa model menggunakan suatu feature extractor serta kombinasi feature extractor, digunakan skenario forward selection dan backward elimination. 4.3.3.1. wordShape Selection Skema wordShape yang disediakan oleh library Stanford NER terdapat pada Class WordShapeClassifier. Pada penelitian ini akan dilakukan percobaan dengan 1 feature extractor wordShape untuk membandingkan dan mengetahui
58 feature extractor wordShape mana yang akan menghasilkan performa paling optimal. WordShape yang menghasilkan performa paling optimal selanjutnya akan digunakan dalam skenario percobaan forward selection maupun backward elimination. wordShape extractor yang disediakan oleh library Stanford NER terdapat pada Tabel 4.7. Tabel 4.7 Deskripsi wordShape Extractor
No wordShape Feature Extractor
1
dan1
2
chris1
3
dan2
4
dan2useLC
Deskripsi WordShape dan1 menyediakan 5 cara dasar untuk mendefinisikan shape atau betuk karakter dari suatu kata antara lain digit, huruf besar seluruhnya, huruf kecil seluruhnya, gabungan, serta karakter non alphanumeric. WordShape chris1 dapat mendefinisikan kata-kata menjadi 24 jenis kelas yang dispesifikasikan pada BBN Nymble NER. Pada wordShape extractor ini, karakter non-Latin didefinisikan sebagai karakter huruf kecil. WordShape dan2 memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama tanpa mengubah karakter tanda baca. WordShape dan2useLC merupakan wordShape dan2
59
5
dan2bio
6
dan2bioUseLC
7
jenny1
8
jenny1useLC
9
chris2
yang memperhatikan karakter lower case pada kata. WordShape dan2bio memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama tanpa mengubah karakter tanda baca. Selain itu, wordShape ini memperhatikan karakter yunani yang berguna untuk bio. WordShape dan2bioUseLC merupakan wordShape dan2bio yang memperhatikan karakter lower case pada kata. WordShape jenny1 memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama, tetapi menetapkan karakter tanda baca. Selain itu, wordShape ini juga memperhatikan karakter yunani. WordShape jenny1useLC merupakan wordShape jenny1 yang memperhatikan karakter lower case pada kata. WordShape chris2 memiliki cara yang sama seperti wordShape dan2. Namun, pada wordShape ini dibedakan antara kata yang pendek dan yang panjang. Pada kata yang panjang, diperhatikan 2
60
10
chris2useLC
11
chris3
12
chris3useLC
13
chris4
karakter awal dan 2 karakter terakhir pada suatu kata. Selanjutnya, akan dirapatkan bentuk karakter antara 2 karakter awal dan 2 karakter akhir tersebut. WordShape chris2useLC merupakan wordShape chris2 yang memperhatikan karakter lower case pada kata. WordShape chris3 merupakan wordShape chris2 yang mengabaikan kata-kata yang memiliki panjang kata kurang dari boundary (4 karakter). WordShape chris3useLC merupakan wordShape chris2useLC yang mengabaikan kata-kata yang memiliki panjang kata kurang dari boundary (4 karakter). WordShape chris4 menggunakan cara seperti wordShape dan2 tetapi menyortir kata-kata yang panjang dan mempertahankan kata-kata yang pendek dengan selalu merekam 2 karakter awal dan akhir. Dibandingkan dengan wordShape2, wordShape ini lebih diunggulkan untuk menangkap karakter-karakter Unicode.
61 4.3.3.2. maxNGramLeng Selection Feature extractor maxNGramLeng mendefinisikan nilai terpanjang n-gram yang digunakan dalam feature extractor useNGram. Adapun pada percobaan akan dilakukan dengan menggunakan perbedaan nilai maxNGramLeng, yaitu 1 hingga 7. Percobaan dilakukan untuk mencari tahu nilai maxNGramLeng mana yang akan menghasilkan performa paling optimal. Nilai maxNGramLeng dengan performa paling optimal tersebut akan digunakan pada percobaan selajutnya dalam skenario forward selection mapupun backward elimination. Setiap nilai maxNGramLeng dideskripsikan pada Tabel 4.8. Tabel 4.8 N-Gram Pada maxNGramLeng
maxNGramLeng maxNGramLeng=1 maxNGramLeng=2 maxNGramLeng=3 maxNGramLeng=4 maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7
N-Gram Uni-Gram Uni-Gram, Bi-Gram Uni-Gram, Bi-Gram, Tri-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram, 6-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram, 6-Gram, 7Gram
4.3.3.3. Skenario Forward Selection Prosedur feature extractor selection dengan forward selection dapat dilakukan dengan beberapa tahapan sebagai berikut. 1. Awali dengan pemrosesan menggunakan feature extractor
data
tanpa
62 2. Lakukan pemrosesan data menggunakan seluruh kemungkinan penambahan 1 feature extractor 3. Pilih model dengan hasil performa tertinggi 4. Ulangi tahapan 2 dan 3 5. Hentikan ketika nilai performa tidak meningkat Adapun penggambaran skenario dapat dilihat pada Gambar 4.14.
Gambar 4.14 Skenario Forward Selection Feature Extractor
Skenario forward selection jika menggunakan 24 feature extractor (A-X): 1. Percobaan pertama pemrosesan dilakukan dengan menggunakan 1 feature extractor. Misal ditemukan bahwa feature extractor E dapat menghasilkan performa paling baik. 2. Percobaan selanjutnya, kombinasikan feature extractor E dengan setiap feature extractor selain E. Misal ditemukan bahwa subset feature extractor EG menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 1, maka lanjutkan. 3. Pada percobaan berikutnya, kombinasikan subset feature extractor EG dengan setiap feature extractor selain EG. Misal ditemukan bahwa subset feature extractor EGC menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 2, maka lanjutkan.
63 4. Selanjutnya, kombinasikan subset feature extractor EGC dengan setiap feature extractor selain EGC. Misal ditemukan bahwa subset feature extractor EGCH menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 3, maka lanjutkan. 5. Berikutnya, kombinasikan subset feature extractor EGCH dengan setiap feature extractor selain EGCH. Misal tidak ditemukan peningkatan performa jika dibandingkan percobaan sebelumnya, hentikan percobaan. 4.3.3.4. Skenario Backward Elimination Prosedur feature extractor selection dengan backward elimination dapat dilakukan dengan beberapa tahapan sebagai berikut. 1. Awali dengan pemrosesan data menggunakan seluruh feature extractor yang ditentukan 2. Lakukan pemrosesan data yang akan menghasilkan model dengan menggunakan seluruh kemungkinan menghilangkan setiap 1 feature extractor 3. Pilih model dengan hasil performa tertinggi 4. Ulangi tahapan 2 dan 3 5. Hentikan ketika nilai performa tidak meningkat Adapun penggambaran skenario dapat dilihat pada Gambar 4.15.
64
Gambar 4.15 Skenario Backward Elimination Feature Extractor
Skenario backward elimination jika menggunakan 24 feature extractor (A-X): 1. Percobaan pertama pemrosesan dilakukan dengan menggunakan 24 feature extractor. 2. Pada percobaan selanjutnya, lakukan seluruh kemungkinan percobaan dengan mengeliminasi setiap 1 feature extractor. Misalkan kemungkinan 1 adalah dengan mengeliminasi feature extractor kode A, maka percobaan akan dilakukan dengan menggunakan kombinasi kode feature extractor seperti BCDEFG…WX. Sehingga pada percobaan ini akan terdapat 24 kemungkinan percobaan. Misal pada percobaan ini ditemukan bahwa dengan mengeliminasi feature extractor kode C pada model akan meningkatkan performa, yaitu model dengan kombinasi feature extractor ABDEFG…WX 3. Pada percobaan berikutnya, lakukan percobaan dengan seluruh kemungkinan untuk mengeliminasi setiap 1 feature extractor kembali dari kombinasi feature extractor model yang terpilih yaitu ABDEFG...WX.
65 Misalkan pada percobaan ini ditemukan bahwa dengan mengeliminasi feature extractor kode E pada model akan meningkatkan performa, yaitu model dengan kombinasi feature extractor ABDFGH...WX. 4. Selanjutnya, lakukan hal sama yaitu melakukan percobaan dengan seluruh kemungkinan untuk mengeliminasi setiap 1 feature extractor dari kombinasi feature extractor model yang terpilih, yaitu ABDFGH...WX. Misalkan pada percobaan ini tidak ditemukan peningkatan performa pada model manapun, maka percobaan dapat dihentikan. 4.3.4. Perancangan Pemrosesan Data
Gambar 4.16 Alur Pemrosesan Data
Gambar 4.16 menunjukkan alur kerja dalam melakukan pemrosesan data. Pemrosesan data yang dilakukan menggunakan library Stanford NER pada class CRFClassifier. Dalam hal ini, pemrosesan data akan melalui tahap training yang akan menghasilkan model. Selain itu, pemrosesan data juga akan melalui tahap testing yang akan menghasilkan nilai performa model. Adapun untuk dapat memudahkan pengerjaan pemrosesan data sesuai skenario feature extractor selection, perlu adanya proses pembuatan folder sesuai skenario forward selection dan backward elimination. Folder dibuat berdasarkan pemisahan folder skenario dan model, yang akan berisikan file properties serta model yang dihasilkan pada proses training.
66 4.3.4.1. Training Setelah didapatkan 5 file data training serta file properties, tahap yang dilakukan selanjutnya adalah melakukan training data. Training data akan dilakukan dengan metode cross-validation. Dengan k-fold=5, maka pada tahap training akan menghasilkan 5 model yang berbeda dengan kombinasi file seperti berikut ini. Model 1: Training file 2,3,4,5 Model 2: Training file 1,3,4,5 Model 3: Training file 1,2,4,5 Model 4: Training file 1,2,3,5 Model 5: Training file 1,2,3,4
Gambar 4.17 Alur Proses Training
Gambar 4.17 menunjukkan alur proses pada tahap training. Proses training akan dilakukan dengan menggunakan library Stanford NER pada class CRFClassifier dengan masukan berupa training file untuk dataset training serta file properties yang berisikan feature extractor yang ingin digunakan pada percoban. Library Stanford NER ini akan mengeksekusi training dengan algoritma Conditional Random Field. Setelah itu, akan dihasilkan file model serialized yang akan digunakan pada proses testing.
67 4.3.4.2. Testing Testing pada penelitian ini diujikan pada setiap model. Model akan diuji dengan menggunakan training file yang tidak digunakan pada model tersebut. Dengan metode crossvalidation maka pembagian file untuk dilakukan testing adalah sebagai berikut: Model 1: Training file 1 Model 2: Training file 2 Model 3: Training file 3 Model 4: Training file 4 Model 5: Training file 5
Gambar 4.18 Alur Proses Testing
Gambar 4.18 menunjukkan alur proses pada tahap testing. Proses testing dilakukan dengan menggunakan library Stanford NER pada class CRFClassifier dengan masukan berupa serialized model yang dihasilkan pada proses training serta training file yang digunakan untuk menguji model berdasarkan metode cross validation. Proses testing akan menghasilkan file output hasil prediksi yang dilakukan oleh model serta nilai performa model yang dihasilkan.
68 Halaman ini sengaja dikosongkan
BAB V IMPLEMENTASI Bab ini berisi tentang proses implementasi dalam pembuatan model. Implementasi model membahas tentang perangkat penelitian apa yang digunakan, penerapan ekstraksi data lokasi yang diambil dari berbagai sumber, penerapan praproses data, penerapan seleksi feature extractor serta penerapan pemrosesan data yang dilakukan dengan menggunakan bahasa pemrograman Java. Dalam pelaksanakan penelitian pendeteksian lokasi dari informasi publik pada media sosial Kota Surabaya berbasis Named-Entity Recognition, dibutuhkan perangkat-perangkat yang dapat mendukung proses yang ada pada setiap tahapan penelitian. Adapun perangkat-perangkat yang dibutuhkan meliputi perangkat keras dan perangkat lunak beserta spesifikasinya sebagai berikut: Perangkat keras -
CPU : Intel ® Core™ i5-2400 CPU @3.10 GHz, RAM 8.00 GB, Harddisk 160 GB SDD Monitor : 14 inch 1440x900 Keyboard dan Mouse
Perangkat Lunak -
Sistem Operasi Bahasa Pemrograman Tools
: Windows 10 Pro : Java : Netbeans IDE 8.2 Mapzen Metro Extract Ms. Excel 2016 Notepad Minitab
69
70
Data lokasi yang didapatkan dari 2 sumber perlu dilakukan ekstraksi data untuk dapat digunakan dalam proses penelitian yaitu Open Street Map dan Dinas PU Bina Marga. 5.2.1. Ekstraksi Data Lokasi Open Street Map Pada tampilan Open Street Map Kota Surabaya pada Gambar 5.1 menunjukkan berbagai lokasi yang tercatat pada website. Untuk dapat memuat data tersebut, digunakanlah tools Mapzen Metro Extract pada tanggal 19 Oktober 2016.
Gambar 5.1 Tampilan Open Street Map Kota Surabaya
Saat menggunakan Mapzen Metro Extract, pertamatama cari lokasi Kota Surabaya pada Box Search seperti pada Gambar 5.2. Tetapi karena Kota Surabaya masih jarang yang melakukan pencarian, maka diperlukan request custom extract kepada developer Mapzen.
71
Gambar 5.2 Pencarian Lokasi Mapzen Metro Extract
5.2.1.1. Custom Extract pada Mapzen Metro Extract Tahap selanjutnya adalah menentukan lokasi yang ingin diekstrak menggunakan bounding box yang mengelilingi lokasi pada peta yang tampak pada Gambar 5.3. Kemudian, klik Get Extract yang akan diteruskan untuk merequest custom extract pada Mapzen yang dilakukan penulis pada 19 Oktober 2016 05.20.
Gambar 5.3 Bounding Box Extract Lokasi
72 Selanjutnya, pada 19 Oktober 2016 12:40, penulis mendapat email bahwa custom extract. Hasil custom extract dapat dilihat pada Gambar 5.4 dibawah ini.
Gambar 5.4 Mapzen Metro Extract Kota Surabaya
Dari hasil custom extract tersebut, data yang diunduh merupakan file data lokasi dengan format GEOJSON dari Open Street Map yang dibagi berdasarkan tag Open Street Map (IMPOSM) yaitu Administrative boundaries : admin.geojson Aeroways : aeroways.geojson Amenities : amenities.geojson Barrier : barrierpoints.geojson, barrierways.geojson Buildings : buildings.geojson, housenumbers.geojson Land Usage : landusages.geojson Places : places.geojson Roads : roads.geojson, roads_gen0.geojson, roads_gen1.geojson Transport Areas: transport_areas.geojson, transport_points.geojson Water Areas: waterareas.geojson Waterways : waterways.geojson ‘
73 Gambar 5.5 menunjukkan contoh format data GEOJSON yang telah dilakukan ekstraksi dengan Mapzen Extract. Data yang diambil adalah value data pada properties “name”. Misal pada Gambar 5.5 terdapat lokasi “Menanggal” serta “Monokrembangan”. { "type": "FeatureCollection", "crs": { "type": "name", "properties": { "name": "urn:ogc:def:crs:OGC:1.3:CRS84" } }, "features": [ { "type": "Feature", "properties": { "id": 1.000000, "osm_id": 1308636440.000000, "name": "Menanggal", "type": "village", "z_order": 5.000000, "population": null }, "geometry": { "type": "Point", "coordinates": [ 112.725408472176184, -7.335265945937323 ] } }, { "type": "Feature", "properties": { "id": 2.000000, "osm_id": 1308636686.000000, "name": "Morokrembangan", "type": "village", "z_order": 5.000000, "population": null }, "geometry": { "type": "Point", "coordinates": [ 112.714829672180883, -7.231329005481228 ] } } ] }
Gambar 5.5 Contoh Format Data GEOJSON OSM
5.2.1.2. Ekstraksi Data GEOJSON Pada penelitian ini, ekstraksi Data GeoJSON yang didapat dari Open Street Map dilakukan dengan menggunakan program Java dan library json-simple. JSONParser parser = new JSONParser(); try { Object obj = parser.parse( new FileReader("coba.geojson")); JSONObject jsonObject = (JSONObject) obj; ArrayList<String> list = new ArrayList<String>(); JSONArray jsonArray = (JSONArray)(JSONArray) jsonObject.get("features");
74 if (jsonArray != null) { int len = jsonArray.size(); for (int i=0;i
Kode 5.1 diatas dapat digunakan untuk melakukan parsing data GEOJSON yang didapat dari ekstraksi Open Street Map menggunakan Mapzen Extract. Parsing dilakukan dengan menggambil data nilai dari key berupa “name”. Sehingga, data yang digunakan adalah nama-nama lokasi saja. Selanjutnya nama-nama lokasi ini akan dikumpulkan ke dalam 1 file data lokasi berformat teks bernama lokasi_osm.txt.
75 5.2.2. Ekstraksi Data Lokasi Dinas PU Bina Marga Dinas PU Bina Marga memiliki Data Panjang Jalan Kota Surabaya yang dapat digunakan sebagai masukan data lokasi pada penelitian ini. Atribut yang terdapat pada Data Panjang Jalan tersebut terdapat pada Tabel 5.1. Tabel 5.1 Atribut Data Panjang Jalan
Nama Atribut Nama Jalan Nama Pangkal Ruas Jalan
Nama Ujung Ruas Jalan
Keterangan Nama jalan yang terdapat di Kota Surabaya Nama jalan yang terdapat pada pangkal ruas nama jalan yang ditunjuk Nama jalan yang terdapat pada ujung ruas nama jalan yang ditunjuk
Pada Data Panjang Jalan Kota Surabaya, terdapat beberapa bagian data yang terbagi menjadi Fasum Jalan, Sby Barat, Sby Timur, Sby Utara, Sby Selatan, Sby Pusat, Gabungan, Gabungan(2), cover seperti yang ada pada tabel 5.2 di bawah. Adapun data yang digunakan dalam penelitian ini adalah bagian data Gabungan. Tabel 5.2 Bagian Data Panjang Jalan
Bagian Data Fasum Jalan Sby Barat Sby Timur Sby Utara
Keterangan Rekapitulasi Data Fasum Jalan Kota Surabaya Rekapitulasi Data Panjang Jalan Surabaya Barat Rekapitulasi Data Panjang Jalan Surabaya Timur Rekapitulasi Data Panjang Jalan Surabaya Utara
76 Sby Selatan Sby Pusat Gabungan Gabungan(2) cover
Rekapitulasi Data Panjang Jalan Surabaya Selatan Rekapitulasi Data Panjang Jalan Surabaya Pusat Rekapitulasi Seluruh Data Panjang Jalan Surabaya Rekapitulasi Seluruh Data Panjang Jalan Surabaya Cover Rekapitulasi Data
Dari data yang didapat pada bagian data Gabungan, terdapat sebanyak 4267 nama-nama lokasi berupa nama jalan. Tabel 5.3. menunjukkan sampel data panjang jalan pada bagian data Gabungan. Tabel 5.3 Sampel Data Panjang Jalan Gabungan
Nama Jalan Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II
Nama Pangkal Nama Ujung Ruas Ruas Jalan Jalan Jl. Dharmawangsa Jl. Airlangga Jl. Kertajaya Jl. Raya Dharmawangsa Jl. Raya Dharmawangsa Jl. Dharmawangsa
Jl. Prof. Dr. Mustopo Jl. Dharmawangsa Barat Jl. Dharmawangsa Barat Jl. Gubeng Airlangga VI
Setelah itu, pada bagian data Gabungan, atribut yang dipilih untuk digunakan dalam penelitian ini adalah kolom Nama Jalan. Karena dalam penelitian ini, nama pangkal ruas jalan maupun ujung ruas jalan tidak akan digunakan untuk mendukung penelitian. Tabel 5.4 akan menunjukkan sampel data Nama Jalan yang digunakan.
77 Tabel 5.4 Sampel Data yang Digunakan
Nama Jalan Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II Selanjutnya, data-data tersebut ditambahkan pada Data Lokasi berformat teks dengan nama file lokasi_binamarga.txt. Praproses data pada penelitian ini terdiri dari beberapa tahap antara lain memuat data teks, data lokasi dan non lokasi, pembagian dataset yang telah dilakukan matching, tokenizing serta labeling menggunakan program. Selain itu juga terdapat labeling yang dilakukan secara manual. 5.3.1. Memuat Data Teks public static ArrayList<String> getTextFromDB(String uname, String pass, String db, String table, int row){ ArrayList<String> textDB = new ArrayList<>(); try { Class.forName("com.mysql.jdbc.Driver"); Connection con=DriverManager.getConnection( "jdbc:mysql://localhost:3306/"+db,uname,pass); String sqlSelect = "select fb_id, message " + "from "+table +" limit 0,"+row; Statement stmtSelect=con.createStatement(); ResultSet rs=stmtSelect.executeQuery(sqlSelect); while(rs.next()){ if(rs.getString(2)!=null) { System.out.println(rs.getString(2)); String fb_id = rs.getString(1);
78 textDB.add(rs.getString(2) .replaceAll("https?://\\S+\\s?", "") .replaceAll("\n", " ") .replaceAll(":", "")); } else { rs.next(); } } con.close(); } catch(ClassNotFoundException | SQLException e) { System.out.println(e); } return textDB; }
Kode 5.2 Fungsi getTextFromDB Untuk Pemuatan Data Teks
Kode 5.2 merupakan kode fungsi untuk pemuatan data teks. Untuk dapat memuat data teks, dibutuhkan koneksi java dengan database MySQL menggunakan mysql-connector. Dengan melakukan koneksi dengan database MySQL, akan didapatkan setiap row dari hasil query. Setelah itu, setiap kalimat yang ada pada setiap row pada database, terdapat beberapa hal yang perlu dilakukan, antara lain menghapus link atau tautan pada kalimat, menghapus baris baru, dan menghapus tanda “:” karena tokenizing dengan menggunakan library Stanford NER tidak dapat menanggulanggi tanda “:”. Kemudian setiap kalimat akan disimpan dalam kembalian ArrayList<String> textDB. int rowNum = 5000; ArrayList<String> myText = getTextFromDB("root","","fb_crawler","fb_test5" ,rowNum); Kode 5.3 Pemanggilan Fungsi getTextFromDB pada Main
79 Kode 5.3 menunjukkan pemuatan data pada Fungsi Main. Data yang dimuat sejumlah 5000 data menggunakan pemanggilan fungsi getTextFromDB dengan argument row bernilai 5000. 5.3.2. Memuat Data Lokasi dan Non Lokasi public static ArrayList<Pattern> getLocation(File myFile) throws FileNotFoundException{ ArrayList<Pattern> listLocation = new ArrayList<>(); String readString = null; try (BufferedReader br = new BufferedReader(new FileReader(myFile))) { while ((readString = br.readLine()) != null){ listLocation.add(Pattern.compile(readString, Pattern.CASE_INSENSITIVE)); } } catch(Exception e){ e.printStackTrace(); } //SORTING Collections.sort(listLocation, new Comparator<Pattern>(){ @Override public int compare(Pattern pattern1, Pattern pattern2){ if(pattern1.toString().length()!=pattern2.toSt ring().length()){ return pattern1.toString().length()pattern2.toString().length(); } return pattern1.toString().compareTo(pattern2.toString( )); } }.reversed()); return listLocation; } Kode 5.4 Fungsi getLocation Untuk Pemuatan Lokasi
80 Kode 5.4 menunjukkan fungsi getLocation yang digunakan untuk memuat data lokasi dengan format teks. Pada fungsi ini, dibuat ArrayList berupa Pattern yang digunakan untuk menyimpan nilai kembalian ketika terdapat File data lokasi. Penyimpanan berupa Pattern digunakan agar dapat langsung digunakan pada saat proses Matching pada sub 5.3.4. Kemudian, digunakanlah BufferedReader serta FileReader untuk dapat membaca setiap baris pada file data lokasi. Ketika baris lokasi dibaca, teks akan disimpan menjadi pattern menggunakan Pattern.compile(). Setelah dilakukan pembacaan, daftar lokasi yang didapatkan akan dilakukan pengurutan dengan menggunakan Comparator pembanding panjang huruf. Kemudian, akan dilakukan pembalikan untuk mendapatkan pengurutan nama lokasi terpanjang ke nama lokasi terpendek. File fileLocationOSM = new File("lokasi_osm.txt"); ArrayList<Pattern> myLocationOSM = getLocation(fileLocationOSM); File fileLocationBinaMarga = new File("lokasi_binamarga.txt"); ArrayList<Pattern> myLocationBinaMarga = getLocation(fileLocationBinaMarga); ArrayList<Pattern> myLocation = new ArrayList<>(); myLocation.addAll(myLocationOSM); myLocation.addAll(myLocationBinaMarga); Kode 5.5 Pemuatan Data Lokasi pada Main
Selanjutnya, pada fungsi main seperti nampak pada Kode 5.5, kode digunakan untuk memuat data lokasi dari 2 sumber yang berupa file dengan format teks menggunakan fungsi getLocation(). Kemudian digabungkanlah kedua sumber tersebut agar dapat digunakan pada proses Matching berikutnya.
81 public static ArrayList<Pattern> getLocation(File myFile) throws FileNotFoundException{ ArrayList<Pattern> listLocation = new ArrayList<>(); String readString = null; try (BufferedReader br = new BufferedReader(new FileReader(myFile))) { while ((readString = br.readLine()) != null){ listLocation.add(Pattern.compile(readString, Pattern.CASE_INSENSITIVE)); } } catch(Exception e){ e.printStackTrace(); } //SORTING Collections.sort(listLocation, new Comparator<Pattern>(){ @Override public int compare(Pattern pattern1, Pattern pattern2){ if(pattern1.toString().length()!=pattern2.toSt ring().length()){ return pattern1.toString().length()pattern2.toString().length(); } return pattern1.toString().compareTo(pattern2.toString( )); } }.reversed()); return listLocation; } Kode 5.6 Fungsi getNonLocation Untuk Pemuatan Data NonLokasi
Kode 5.6 menunjukkan fungsi getNonLocation yang digunakan untuk memuat data non lokasi dengan format teks. Pada fungsi ini, dibuat ArrayList berupa Pattern yang digunakan untuk menyimpan nilai kembalian ketika terdapat file data non lokasi. Penyimpanan berupa Pattern digunakan agar dapat langsung digunakan pada saat proses Matching pada sub 5.3.4.
82 Kemudian, digunakanlah BufferedReader serta FileReader untuk dapat membaca setiap baris pada file data non lokasi. Ketika baris non lokasi dibaca, teks akan disimpan menjadi pattern menggunakan Pattern.compile(). Setelah dilakukan pembacaan, daftar non lokasi yang didapatkan akan dilakukan pengurutan dengan menggunakan Comparator pembanding panjang huruf. Kemudian, akan dilakukan pembalikan untuk mendapatkan pengurutan nama non lokasi terpanjang ke nama non lokasi terpendek. File fileNonLocation = new File("nonlokasi.txt"); ArrayList<Pattern> nonLocation = getNonLocation(fileNonLocation);
Kode 5.7 Pemuatan Data Non Lokasi pada Main
Selanjutnya, pada fungsi main seperti nampak pada Kode 5.7, kode digunakan untuk memuat data non lokasi yang berupa file dengan format teks menggunakan fungsi getNonLocation(). 5.3.3. Pembagian Dataset public static void createTrainDataset(int kfold, ArrayList<String> myText, ArrayList<Pattern> myLocation, ArrayList<Pattern> nonLocation) throws IOException{ Collections.shuffle(myText, new Random(40));
Kode 5.8 Pengacakan Data Teks pada Fungsi
createTrainDataset
Tahap awal dalam melakukan pembagian dataset adalah mengubah urutan data teks secara acak. Untuk itu, dapat dilakukan dengan fungsi Collections.shuffle(). Selain itu, agar pengacakan data teks dapat dilakukan secara menetap dapat menggunakan Seed. Untuk dapat mengatur Seed tersebut dapat menggunakan new Random(Seed) Kode 5.8.
83 try{ ArrayList
trainFiles = new ArrayList<>(); for(int i=0;i fileWriters = new ArrayList<>(); ArrayList<BufferedWriter> bufferedWriters = new ArrayList<>(); for (int fileIndex=0; fileIndex
Kode 5.9 Pembuatan Dataset trainFile pada Fungsi
createTrainDataset
Kode 5.9 merupakan kode yang digunakan untuk melakukan pembuatan file dataset trainFile sejumlah k-fold yang digunakan dalam penelitian, dalam hal ini yaitu 5-fold. Pembuatan file digunakan menggunakan perulangan dan dibuat menggunakan fungsi createNewFile(). Untuk dapat digunakan pada program, file yang telah dibuat perlu dibaca dengan menggunakan fungsi getAbsoluteFile(). Selain itu, dibuatlah FileWriter serta BufferedWriter untuk setiap file dataset trainFile. Sehingga, setiap trainFile yang dibuat memiliki FileWriter dan BufferedWriter masing-masing yang akan digunakan pada proses Labeling Lokasi dengan program pada sub 5.3.6.1. PreProcessing.createTrainDataset(5, myText, myLocation, nonLocation); Kode 5.10 Pemanggilan Fungsi createTrainDataset pada Main
84 Kode 5.10 di atas merupakan kode untuk membuat dataset menggunakan fungsi createTrainDataset dengan argumen jumlah k-fold, ArrayList data teks, ArrayList nama lokasi, serta ArrayList nama non lokasi. 5.3.4. Matching Lokasi dan Non Lokasi dengan Teks for (int i=0; i< myText.size(); i++){ for(int x=0;x
Kode 5.11 Matching Menggunakan Pattern Matcher pada Fungsi
createTrainDataset
Kode 5.11 di atas digunakan pada penelitian ini untuk proses matching nama lokasi dan non lokasi. Untuk setiap data teks, dibuatlah StringBuilder myTextTemp untuk
85 menduplikasi data teks. Selanjutnya, untuk setiap pattern non lokasi dan lokasi dilakukan pengecekan dan dilakukan Pattern.matcher() pada myTextTemp yang menduplikasi data teks. Kemudian, jika terdapat kata pada myTextTemp yang sama dengan kata pada pattern, simpan index awal dari kalimat data teks dengan menggunakan matcher.start() dan index akhir kata yang ditemukan dengan matcher.end(). Selanjutnya, simpan nama non lokasi maupun lokasi yang ditemukan dengan matcher.group(), kemudian replace kata tersebut dengan “n” untuk non lokasi dan “l” untuk lokasi dari index awal hingga index akhir kata yang ditemukan dalam kalimat. 5.3.5. Tokenizing public static ArrayList<String> tokenizing(String text){ ArrayList<String> token = new ArrayList<>(); PTBTokenizer ptbt = new PTBTokenizer<>( new StringReader(text), new CoreLabelTokenFactory(), ""); while (ptbt.hasNext()) { CoreLabel label = ptbt.next(); token.add(label.originalText()); } return token; } Kode 5.12 Fungsi tokenizing Untuk Proses Tokenizing Kalimat
Proses tokenizing menggunakan Kode 5.12 dibuat dengan menggunakan library Stanford NER pada class PTBTokenizer dan CoreLabel. Ketika terdapat suatu kalimat yang menjadi masukan pada fungsi tokenizing, kata-kata pada suatu kalimat akan diubah menjadi bentuk token. Kemudian token-token tersebut akan disimpan dalam kembalian bentuk ArrayList. ArrayList<String> text = tokenizing(myText.get(i)); ArrayList<String> newText = tokenizing(stringContent); Kode 5.13 Fungsi tokenizing pada createTrainDataset
86 Kode 5.13 merupakan kode pemanggilan fungsi tokenizing. Fungsi tokenizing digunakan pada Fungsi createTrainDataset untuk mengubah data teks menjadi bentuk token serta mengubah data teks terduplikasi yang telah ditandai non lokasi maupun lokasi dari proses Matching pada sub 5.3.5 menjadi bentuk token. 5.3.6. Labeling Lokasi Setelah dilakukan proses tokenizing, salah satu tahap yang penting dalam penelitian ini adalah proses pelabelan atau labeling lokasi. Pada implementasinya, labeling dilakukan dengan menggunakan program maupun secara manual. 5.3.6.1. Labeling dengan Program for (int a=0; a
Kode 5.14 Labeling pada Fungsi createTrainDataset
Labeling dengan program pada penelitian ini dilakukan dengan menggunakan kode program yang terdapat pada Kode 5.14. Proses labeling menggunakan pembandingan token teks dengan token teks yang sudah ditandai kata non lokasi maupun
87 lokasi yang didapatkan pada proses matching pada sub 5.3.4 serta proses tokenizing pada sub 5.3.5. Proses ini akan melakukan pengecekan pada setiap token teks, apakah token teks sama dengan token yang ada pada teks yang sudah ditandai. Jika token sama, maka akan ditandai label bukan lokasi yaitu “O”. Jika token tidak sama, maka akan dicek kembali apakah token merupakan tanda non lokasi. Jika benar, maka akan diberi label bukan lokasi yaitu “O”. Selain itu, jika token memliki tanda lokasi, maka akan diberikan label berupa lokasi yaitu “LOC”. 5.3.6.2. Labeling Manual Proses pelabelan atau labeling secara manual dilakukan dengan pengecekan 5 trainfile yang telah dibuat dengan program yaitu trainfileX.tsv dengan X adalah nomor file. Pengecekan dilakukan untuk memeriksa data apakah sudah pelabelan yang dibuat pada program sudah sesuai atau belum. Jika belum sesuai, pada proses ini akan dilakukan penyesuaian sehingga dataset dapat digunakan pada pemrosesan. Labeling manual dilakukan dengan menggunakan tools Ms. Excel 2016. Pada file trainfileX.tsv terdapat 2 kolom. Kolom pertama berisikan token yang didapatkan pada proses tokenizing pada sub 5.3.5. Sedangkan kolom kedua merupakan label dari token yang terdapat pada kolom pertama. Pemeriksaan dilakukan untuk memastikan bahwa label yang ada pada kolom 2 sesuai dengan token pada kolom 1. Tentunya pada penelitian ini hanya terdapat 2 label yaitu “LOC” yang merupakan label lokasi, dan “O” yang merupakan tanda bahwa token bukan lokasi.
88 Dalam melakukan pengecekan, perlu dilakukan beberapa langkah sebagai berikut: 1. Lakukan pengecekan satu-persatu pada token dan label yang mengikutinya. 2. Jika sesuai, lanjutkan pada token berikutnya. 3. Jika tidak sesuai, terdapat dua kemungkinan: - Jika terdapat lokasi tetapi labelnya “O”, maka label harus diganti dengan “LOC” - Jika token bukanlah suatu lokasi mendapat label “LOC”, maka label harus diganti dengan “O” 4. Lakukan proses di atas hingga kata terakhir pada trainfile. 5. Simpan data. Jika proses labeling manual telah selesai untuk 5 trainfile, maka dataset trainfile siap digunakan untuk pemrosesan data.
Proses seleksi feature extractor dilakukan dengan melakukan seleksi feature extractor wordShape, seleksi feature extractor maxNGramLeng, serta skenario forward selection maupun backward elimination. Untuk dapat melakukan hal tersebut, pembuatan file properties yang berisikan feature extractor yang dibutuhkan menjadi peran yang penting. Untuk itu, pada implementasinya, dibuatlah program untuk melakukan generate file properties dengan 1 feature extractor, generate file properties pada skenario forward selection dan skenario backward elimination.
89 5.4.1. Generate 1 Feature Extractor ArrayList<String> wordShapeList = new ArrayList<>(); wordShapeList.add("wordShape=dan1"); wordShapeList.add("wordShape=chris1"); wordShapeList.add("wordShape=dan1"); wordShapeList.add("wordShape=dan2useLC"); wordShapeList.add("wordShape=dan2bio"); wordShapeList.add("wordShape=dan2bioUseLC"); wordShapeList.add("wordShape=jenny1"); wordShapeList.add("wordShape=jenny1useLC"); wordShapeList.add("wordShape=chris2"); wordShapeList.add("wordShape=chris2useLC"); wordShapeList.add("wordShape=chris3"); wordShapeList.add("wordShape=chris3useLC"); wordShapeList.add("wordShape=chris4");
Kode 5.15 Daftar Feature Extractor Yang akan Di-Generate
Kode 5.15 menunjukkan contoh kode yang digunakan untuk implementasi penyimpanan daftar feature extractor yang setiapnya akan di-generate dalam 1 file properties. Pada contoh kode digunakan untuk men-generate file properties pada percobaan seleksi wordShape. Sehingga, 1 nilai wordShape akan disimpan dalam 1 file properties. FileWriter fw = null; BufferedWriter bw = null; String dir = "wordShape/"; for (int i=0; i<wordShapeList.size(); i++){ String folder = dir+(i+1)+" "+wordShapeList.get(i); File fileFolder = new File (folder); File fileProp = new File (folder+"/ner.prop"); fileFolder.mkdir(); fileProp.createNewFile(); fw = new FileWriter(folder+"/ner.prop"); bw = new BufferedWriter(fw); bw.write(wordShapeList.get(i)); bw.flush(); }
Kode 5.16 Generate File Properties 1 Feature Extractor
90 Contoh potongan kode pada Kode 5.16 digunakan untuk men-generate file properties untuk setiap feature extractor wordShape. Pada setiap feature extractor, dibuatkan directory penyimpanan file properties karena setiap file properties akan dipisahkan pada folder yang memiliki nama feature extractor. Setelah itu, akan dibuat file dengan nama ner.prop yang akan berisikan 1 feature extractor wordShape. 5.4.2. Generate Feature Extractor pada Forward Selection String fix = "P"; ArrayList<String> fixFeatures = new ArrayList<>(); fixFeatures.add("useDisjunctive=true"); Kode 5.17 Menyimpan Feature Extractor yang Pasti Dipilih
Kode 5.17 di atas digunakan untuk menyimpan feature extractor yang pasti dipilih pada saat skenario forward selection. Program menyimpan kode feature extractor yang dipilih untuk digunakan sebagai nama folder. Kemudian menambahkan feature extractor pada ArrayList fixFeatures. Untuk setiap kali proses percobaan pada skenario forward selection, variabel fix perlu disesuaikan dengan feature extractor apa yang terpilih. Misalnya, jika feature extractor terpilih memiliki kode P dan V maka variabel fix harus memiliki nilai "PV". Kemudian, ArrayList fixFeatures juga perlu disesuaikan dengan feature extractor yang terpilih pada skenario forward selection. Misalnya, jika terpilih feature extractor useDisjunctive=true dan noMidNGrams=true, maka perlu ditambahkan dengan menggunakan fungsi add() seperti yang ada pada kode.
91 ArrayList<String> combAL = new ArrayList<>( Arrays.asList("A","B","C", "E","F","G","H","I","J","K","L","M","N", "O","P","Q","R","S","T","U","V","W","X")); ArrayList<String> combFeatures = new ArrayList<>(); combFeatures.add("wordShape=jenny1"); combFeatures.add("useTypeSeqs=true"); combFeatures.add("useTypeSeqs2=true"); combFeatures.add("useTypeySequences=true"); combFeatures.add("maxLeft=1"); combFeatures.add("useWord=true"); combFeatures.add("usePrev=true"); combFeatures.add("useNext=true"); combFeatures.add("useWordPairs=true"); combFeatures.add("useSymWordPairs=true"); combFeatures.add("usePosition=true"); combFeatures.add("useClassFeature=true"); combFeatures.add("useSequences=true"); combFeatures.add("usePrevSequences=true"); combFeatures.add("useDisjShape=true"); combFeatures.add("disjunctionWidth=6"); combFeatures.add("strictlyFirstOrder=true"); combFeatures.add("useSum=true"); combFeatures.add("useNGrams=true"); combFeatures.add("maxNGramLeng=6"); combFeatures.add("noMidNGrams=true"); combFeatures.add("useGazettes=true"); combFeatures.add("cleanGazette=true"); Kode 5.18 Menyimpan Feature Extractor Tambahan
Pada Kode 5.18 ditunjukkan cara penyimpanan kode feature extractor yang akan ditambahkan pada setiap percobaan skenario forward selection. Feature extractor tambahan merupakan feature extractor yang tidak terpilih pada proses forward selection sebelumnya. Misalnya terdapat feature extractor terpilih yaitu feature extractor useDisjunctive=true dengan kode feature extractor P. Maka, feature extractor tambahan merupakan feature extractor selain feature extractor P atau useDisjunctive=true. Variabel combAL digunakan untuk menyimpan kode feature extractor tambahan. Sedangkan combFeatures
92 digunakan untuk menyimpan feature extractor tambahan. Pada saat ingin men-generate file properties percobaan, kode program haruslah disesuaikan. FileWriter fw = null; BufferedWriter bw = null; String dir = "frwexperiment/model 2/"; for (int i=0; i
Kode 5.19 digunakan untuk men-generate file properties pada skenario forward selection. Program memungkinkan pengguna untuk membuat directory file untuk
93 memisahkan setiap kombinasi feature extractor yang dilakukan pada percobaan skenario forward selection. Pada skenario forward selection, jika terdapat kode feature extractor cleanGazette=true, maka perlu ditambahkan feature extractor useGazettes=true karena merupakan syarat feature extractor. 5.4.3. Generate Elimination
Feature
Extractor
pada
Backward
ArrayList<String> allFeatures = new ArrayList<>(); allFeatures.add("wordShape=jenny1"); allFeatures.add("useTypeSeqs=true"); allFeatures.add("useTypeSeqs2=true"); allFeatures.add("useTypeySequences=true"); allFeatures.add("maxLeft=1"); allFeatures.add("useWord=true"); allFeatures.add("usePrev=true"); allFeatures.add("useNext=true"); allFeatures.add("useWordPairs=true"); allFeatures.add("useSymWordPairs=true"); allFeatures.add("usePosition=true"); allFeatures.add("useClassFeature=true"); allFeatures.add("useSequences=true"); allFeatures.add("usePrevSequences=true"); allFeatures.add("useDisjShape=true"); allFeatures.add("useDisjunctive=true"); allFeatures.add("disjunctionWidth=6"); allFeatures.add("strictlyFirstOrder=true"); allFeatures.add("useSum=true"); allFeatures.add("useNGrams=true"); allFeatures.add("maxNGramLeng=6"); allFeatures.add("noMidNGrams=true"); allFeatures.add("useGazettes=true"); allFeatures.add("cleanGazette=true");
Kode 5.20 Menyimpan Daftar Seluruh Feature Extractor
Kode 5.20 menunjukkan variabel allFeatures yang dapat digunakan untuk menyimpan daftar seluruh feature extractor pada implementasi generate file properties.
94 String fix ="VQEDKILMR"; ArrayList<String> fixNonExist = new ArrayList<>(); fixNonExist.add("noMidNGrams=true"); fixNonExist.add("disjunctionWidth=6"); fixNonExist.add("maxLeft=1"); fixNonExist.add("useTypeySequences=true"); fixNonExist.add("usePosition=true"); fixNonExist.add("useWordPairs=true"); fixNonExist.add("useClassFeature=true"); fixNonExist.add("useSequences=true"); fixNonExist.add("strictlyFirstOrder=true"); Kode 5.21 Menyimpan Daftar Feature Extractor yang Pasti Dihilangkan
Kode 5.21 digunakan untuk menyimpan daftar feature extractor yang terpilih untuk dieliminasi pada hasil proses skenario backward elimination. Pada kode ditunjukkan variabel untuk menyimpan kode feature extractor dan variabel yang menyimpan daftar feature extractor yang pasti dieliminasi. Sehingga, pada setiap proses backward elimination, varibel ini perlu disesuaikan. ArrayList<String> folderNonExist = new ArrayList<>(Arrays.asList("A" ,"B","C","F","G","H","J","N","O","P" ,"S","T","U","W","X")); ArrayList<String> nonExist = new ArrayList<>(); nonExist.add("wordShape=jenny1"); nonExist.add("useTypeSeqs=true"); nonExist.add("useTypeSeqs2=true"); nonExist.add("useWord=true"); nonExist.add("usePrev=true"); nonExist.add("useNext=true"); nonExist.add("useSymWordPairs=true"); nonExist.add("usePrevSequences=true"); nonExist.add("useDisjShape=true"); nonExist.add("useDisjunctive=true"); nonExist.add("useSum=true"); nonExist.add("useNGrams=true"); nonExist.add("maxNGramLeng=6"); nonExist.add("useGazettes=true"); nonExist.add("cleanGazette=true"); Kode 5.22 Menyimpan Daftar Feature Extractor yang Diuji Eliminasi
95 Kode 5.22 menunjukkan variabel yang menyimpan daftar feature extractor yang akan diuji untuk dieliminasi pada skenario backward elimination. Variabel akan menyimpan kode feature extractor beserta feature extractor yang akan ditambahkan untuk diuji. FileWriter fw = null; BufferedWriter bw = null; String dir = "backexperiment/model 14/"; for (int i=0; i
Kode 5.23 digunakan untuk men-generate file properties pada skenario backward elimination. Program memungkinkan untuk membuat directory file untuk memisahkan setiap kombinasi feature extractor yang dilakukan pada percobaan skenario backward elimination. Pemilihan kombinasi feature extractor dilakukan dengan pengecekan apakah feature extractor terdapat pada daftar feature extractor uji eliminasi dan daftar feature extractor yang pasti dieliminasi. Jika tidak, maka feature extractor akan dituliskan pada file properties dan dipisahkan pada diretory folder.
96
Pemrosesan data pada penelitian ini menggunakan library Stanford NER. Implementasi pemrosesan data terdiri dari implementasi training dan implementasi testing. 5.5.1. Implementasi Training void trainCrf(String serializeFile, String prop, String fileList) { Properties props = StringUtils.propFileToProperties(prop); props.setProperty("serializeTo", serializeFile); SeqClassifierFlags flags = new SeqClassifierFlags(props); flags.serializeTo=serializeFile; flags.trainFileList = fileList; flags.map = "word=0,answer=1"; flags.gazettes.add("gazette.gaz.txt"); CRFClassifier crf = new CRFClassifier<>(flags); crf.train(); crf.serializeClassifier(serializeFile); }
Kode 5.24 Fungsi trainCrf untuk Training Dataset
Kode 5.24 menunjukkan fungsi trainCrf yang digunakan untuk proses training dataset. Pada fungsi ini digunakan pemanggilan file properties, penyimpanan model dalam serializeFile, serta dataset yang digunakan pada proses training. Untuk dapat melakukan training, diperlukan fungsi train() dari class CRFClassifier dari library Stanford NER. String dir = "dataset/"; ArrayList<String> myFile = new ArrayList<>(); for (int i=0; i<5; i++){ myFile.add(dir+"trainfile"+(i+1)+".tsv"); }
Kode 5.25 Menyimpan Directory Dataset TrainFile
97 Kode 5.25 menunjukkan variabel yang digunakan untuk menunjukkan directory dimana dataset trainfile diletakkan. Selain itu juga terdapat variabel yang menyimpan nama file trainfile. ArrayList<String> myFileList = new ArrayList<>(); myFileList.add(myFile.get(1)+","+myFile.get(2)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(2)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(2)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(2)+","+myFile.get(3)); Kode 5.26 Membuat Kombinasi TrainFile Sesuai Cross Validation
Kode 5.26 digunakan untuk melakukan kombinasi trainfile yang sesuai dengan teori cross validation menggunakan 5-fold. ArrayList<String> folder = new ArrayList<>(); folder.add("1 PVTDGNABCOJE"); folder.add("2 PVTDGNABCOJF"); folder.add("3 PVTDGNABCOJH"); folder.add("4 PVTDGNABCOJI"); folder.add("5 PVTDGNABCOJK"); folder.add("6 PVTDGNABCOJL"); folder.add("7 PVTDGNABCOJM"); folder.add("8 PVTDGNABCOJQ"); folder.add("9 PVTDGNABCOJR"); folder.add("10 PVTDGNABCOJS"); folder.add("11 PVTDGNABCOJU"); folder.add("12 PVTDGNABCOJW"); folder.add("13 PVTDGNABCOJX"); Kode 5.27 Menyimpan Folder Kombinasi Feature Extractor
98 Kode 5.27 menunjukkan variabel yang menyimpan daftar folder percobaan sesuai dengan skenario yang ingin diuji. Sehingga, pada percobaannya, variabel ini harus disesuaikan. for(String foldername : folder){ String dirmodel = dir + "upexperiment/" + "model 12/"+foldername+"/"; ArrayList<String> serializeFileModel = new ArrayList<>(); for (int j=0; j<5; j++){ serializeFileModel.add(dirmodel+"citiviz-" + "ner-model"+(j+1)+".ser.gz"); } String prop = dirmodel+"ner.prop"; TrainNER trainModel = new TrainNER(); trainModel.trainCrf(serializeFileModel.get(0), prop, myFileList.get(0)); trainModel.trainCrf(serializeFileModel.get(1), prop, myFileList.get(1)); trainModel.trainCrf(serializeFileModel.get(2), prop, myFileList.get(2)); trainModel.trainCrf(serializeFileModel.get(3), prop, myFileList.get(3)); trainModel.trainCrf(serializeFileModel.get(4), prop, myFileList.get(4)); } Kode 5.28 Pemanggilan Fungsi trainCrf pada Main
Kode 5.28 digunakan untuk melakukan proses training dengan memanggil fungsi trainCrf. Pada kode juga tampak directory folder serta file serialized model untuk penyimpanan model.
99 5.5.2. Implementasi Testing void testCrf(String serializeFile, String testFile, String output) throws IOException, ClassCastException, ClassNotFoundException, Exception{ Properties props = new Properties(); SeqClassifierFlags flags = new SeqClassifierFlags(props); flags.testFile = testFile; CRFClassifier crf = new CRFClassifier<>(flags); crf.loadClassifier(serializeFile); DocumentReaderAndWriter readerAndWriter = crf.defaultReaderAndWriter(); PrintWriter printWriter = new PrintWriter(output); ObjectBank> documents = crf.makeObjectBankFromFile(testFile, readerAndWriter); crf.classifyAndWriteAnswers(documents, printWriter, readerAndWriter, true); }
Kode 5.29 Fungsi testCrf yang Digunakan Untuk Testing Model
Kode 5.29 menunjukkan fungsi testCrf yang digunakan untuk proses testing model yang telah dibuat pada proses training. Pada fungsi ini digunakan pemanggilan file model yang telah di serialize, file dataset yang digunakan untuk testing model, serta file output yang digunakan untuk menyimpan hasil prediksi model. Untuk dapat melakukan testing, diperlukan fungsi train() dari class CRFClassifier dari library Stanford NER.
100 for(String foldername : folder){ String dirmodel = dir + "upexperiment/" + "model 12/"+foldername+"/"; ArrayList<String> serializeFileModel = new ArrayList<>(); for (int j=0; j<5; j++){ serializeFileModel.add(dirmodel+"citiviz-" + "ner-model"+(j+1)+".ser.gz"); } ArrayList<String> myOutput = new ArrayList<>(); for (int k=0; k<5; k++){ myOutput.add(dirmodel+"output"+(k+1)); } TrainNER trainModel = new TrainNER(); trainModel.testCrf(serializeFileModel.get(0), myFile.get(0), myOutput.get(0)); trainModel.testCrf(serializeFileModel.get(1), myFile.get(1), myOutput.get(1)); trainModel.testCrf(serializeFileModel.get(2), myFile.get(2), myOutput.get(2)); trainModel.testCrf(serializeFileModel.get(3), myFile.get(3), myOutput.get(3)); trainModel.testCrf(serializeFileModel.get(4), myFile.get(4), myOutput.get(4)); }
Kode 5.30 Pemanggilan Fungsi testCrf pada Main
Kode 5.30 menunjukkan kode program untuk memanggil fungsi testCrf pada Main. Selain itu juga terdapat pembuatan file output untuk hasil prediksi pada setiap testing model.
BAB VI HASIL DAN PEMBAHASAN Pada bab ini akan dijelaskan hasil serta analisis terhadap hasil yang diperoleh dari proses implementasi yang telah dibahas pada bab sebelumnya. Setelah dilakukan ekstraksi data lokasi, berikut ini merupakan hasil ekstraksi data lokasi dari sumber Open Street Map serta Dinas PU Bina Marga. 6.1.1. Ekstrak Data Lokasi Open Street Map Dari hasil ekstraksi data lokasi Open Street Map, didapatkan nama-nama lokasi sejumlah 3462 lokasi. Pada Tabel 6.1 dapat diketahui sampel nama-nama lokasi pada data lokasi Open Street Map. Tabel 6.1 Sampel Nama-Nama Lokasi pada Data Lokasi OSM
Menanggal Morokrembangan Krembangan Selatan Sedati Agung Sawotratap Sawahan Klakah Rejo Sidodadi Gading Gubeng Berdasarkan hasil ekstraksi data lokasi Open Street Map, terdapat nama-nama lokasi yang tidak spesifik seperti “Rumah”, “Warung”, dan “Toko”. Nama-nama lokasi yang tidak spesifik tersebut menyebabkan kurang relevannya data lokasi untuk digunakan dalam penelitian ini. 101
102 6.1.2. Ekstrak Data Lokasi Dinas PU Bina Marga Dari hasil ekstraksi data lokasi dari Data Panjang Jalan Dinas PU Bina Marga Kota Surabaya, didapatkan nama-nama lokasi sejumlah 4267 lokasi. Pada Tabel 6.2 dapat diketahui sampel nama-nama lokasi pada data lokasi Dinas PU Bina Marga. Tabel 6.2 Contoh Nama-Nama Lokasi pada Data Lokasi Bina Marga
Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II Jl. Gubeng Airlangga IV Jl. Gubeng Airlangga V Jl. Gubeng Airlangga V - A Jl. Gubeng Kertajaya V Jl. Gubeng Kertajaya V - C
6.2.1. Muatan Data Teks Data teks yang dimuat dalam penelitian ini sebanyak 5000 data. Ketika dilakukan pemuatan teks, terdapat data-data yang kosong atau NULL. Maka, data tersebut tidak akan dimasukkan dalam pemrosesan berikutnya. Data yang NULL tersebut berjumlah 14 data. Sehingga, data yang digunakan dalam tahap selanjutnya adalah sebanyak 4986 data teks.
103 6.2.2. Muatan Data Lokasi Data lokasi yang dimuat pada program didapat berdasar 2 sumber yaitu lokasi_osm.txt dan lokasi_binamarga.txt. Jumlah nama-nama lokasi yang terdaftar pada data lokasi dapat dilihat pada Tabel 6.3. Tabel 6.3 Jumlah Pemuatan Data Lokasi
Sumber lokasi_osm.txt lokasi_binamarga.txt
Jumlah 3462 4267 TOTAL = 7729
6.2.3. Hasil Matching Matching pada penelitian ini digunakan untuk melakukan penandaan pada kalimat ketika suatu kalimat memiliki kata-kata yang merupakan nama-nama lokasi yang terdapat pada data lokasi. Matching dilakukan dengan membandingkan isi data teks dengan nama-nama yang terdapat pada data lokasi. Selain itu juga dibandingkan pada data non lokasi yang berisikan nama-nama lokasi namun bukan berupa lokasi seperti “Suara Surabaya”. Jika terdapat kesamaan, data teks akan ditandai mana yang merupakan suatu lokasi maupun non lokasi. Tabel 6.4 menunjukkan skenario hasil matching pada teks “19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah Karangpilang padat. (odp-pr)”. Tabel 6.4 Skenario Matching
Skenario Matching 1
Temuan dan Perubahan 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo
104
Matching 2
Matching 3
Matching 4
Matching 5
2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah Karangpilang padat. (odp-pr) Start index: 152 End index: 164 Found: Karangpilang 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 109 End index: 118 Found: Sepanjang 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah Kletek Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 124 End index: 130 Found: Kletek 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 141 End index: 146 Found: Bambe 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. lllll arah llllllllllll padat. (odp-pr)
Berdasarkan hasil matching, teks ditandai mana yang merupakan nama lokasi. Seperti contoh di atas, teks yang telah diberi tanda menjadi “19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. lllll arah llllllllllll padat. (odp-pr)”. Hasil dari matching ini digunakan pada labeling dengan program.
105 6.2.4. Hasil Tokenizing Tokenizing digunakan untuk pengubahan kalimat dalam bentuk token agar sesuai dengan format pada library Stanford NER. Tokenizing dilakukan pada data teks asli dan data teks yang telah ditandai. Seperti contoh yang dapat dilihat pada Tabel 6.5. Tabel 6.5 Hasil Tokenizing Teks
Teks Teks Asli
Hasil Tokenizing [19.34, 4, jalur, ini, padat, ., 1, ., HR, Muhammad, arah, Satelit, Macet, ., 2, ., Beji, Bangil, arah, Probolinggo, 2, arah, padat, ., 3, ., Sepanjang, arah, Kletek, Macet, ., 4, ., Bambe, arah, Karangpilang, padat, ., -LRB-, odp-pr, -RRB-] [19.34, 4, jalur, ini, padat, ., 1, ., HR, Muhammad, Teks arah, Satelit, Macet, ., 2, ., Beji, Bangil, arah, yang Probolinggo, 2, arah, padat, ., 3, ., lllllllll, arah, Telah Ditandai llllll, Macet, ., 4, ., lllll, arah, llllllllllll, padat, ., LRB-, odp-pr, -RRB-] 6.2.5. Hasil Labeling Labeling pada penelitian ini dilakukan menggunakan Program dan Manual. Adapun hasilnya akan dijelaskan sebagai berikut. 6.2.5.1. Labeling dengan Program Labeling dengan Program dilakukan berdasarkan hasil matching serta tokenizing. Hasil labeling dengan program masih terdapat banyak kekurangan yang disebabkan karena beberapa hal seperti daftar lokasi yang kurang ataupun terdapat nama-nama organisasi yang memiliki nama lokasi sehingga terdeteksi menjadi lokasi. Beberapa kesalahan tersebut dapat dilihat pada Tabel 6.6.
106 Tabel 6.6 Kesalahan Labeling dengan Program
Kata Rumah
Kesalahan Label LOC
Solar
LOC
Berhasil, berharap, LOC terhadap, perhatikan, #PilwaliSuabaya LOC
Avanza
LOC
e100suarasurabaya LOC @gmail.com
Sekolah
LOC
Toko, pertokoan, LOC tokonya Ruko LOC
Penyebab Terdapat lokasi ‘Rumah’ pada data lokasi OSM. Terdapat lokasi ‘Solar’ pada data lokasi OSM. Terdapat lokasi ‘Erha’ pada data lokas OSM. Terdapat lokasi ‘Surabaya’ pada data lokasi OSM. Belum terdapat kata #PilwaliSurabaya pada data non lokasi Terdapat lokasi ‘Avanza’ pada data lokasi OSM. Terdapat lokasi ‘Surabaya’ pada data lokasi OSM. Belum terdapat kata e100suarasurabaya @gmail.com pada data non lokasi Terdapat lokasi ‘sekolah’ pada data lokasi OSM. Terdapat lokasi ‘toko’ pada data lokasi OSM. Terdapat lokasi ‘ruko’ pada data lokasi OSM.
107 Sawah
LOC
Sepanjang
LOC
Parkir
LOC
Sungai
LOC
Terdapat lokasi ‘sawah’ pada data lokasi OSM. Terdapat lokasi ‘Sepanjang’ pada data lokasi OSM dan perlu dilihat pada konteks. Terdapat lokasi ‘parkir’ pada data lokasi OSM. Terdapat lokasi ‘sungai’ pada data lokasi OSM.
Sehingga, pada kalimat contoh pun juga terdapat kekurangan karena kurangnya nama lokasi pada data lokasi. Seperti contoh hasil labeling di bawah, maka terdapat kata-kata yang belum berhasil diberikan label LOC yaitu kata “HR Muhammad”, “Satelit”, “Beji Bangil” serta “Probolinggo”. 19.34 O 4 O jalur O ini O padat O . O 1 O . O HR O Muhammad arah O Satelit O Macet O . O 2 O . O Beji O
O
Bangil O arah O Probolinggo 2 O arah O padat O . O 3 O . O Sepanjang arah O Kletek LOC Macet O . O 4 O . O Bambe LOC
O
LOC
108 arah O Karangpilang padat O . O
LOC
-LRB- O odp-pr O -RRB- O
Hasil yang didapat dari labeling dengan program dirasa kurang memuaskan karena penentuan kata yang merupakan sebuah lokasi atau bukan, lebih banyak mempertimbangkan konteks yang ada pada kalimat. Sehingga, pada saat labeling dengan program terdapat berbagai kesalahan yang telah disebutkan. Karena hasil labeling menggunakan program dirasa masih terdapat banyak kekurangan dengan adanya berbagai kesalahan, oleh karena itu, labeling manual menjadi peran penting dalam pembuatan corpus dataset dalam penelitian ini, meskipun harus melakukan pengecekan kembali pada label yang salah dari hasil labeling dengan program. 6.2.5.2. Labeling Manual Labeling manual pada penelitian ini merupakan salah satu hal yang penting karena untuk dapat menggunakan data pada pemrosesan selanjutnya, label dari suatu kata harus dapat dipastikan sesuai dengan token dan konsisten pada seluruh dataset. Untuk menjaga kekonsistenan tersebut, digunakanlah definisi lokasi yang terdapat pada sub 4.3.2.6 pada penelitian ini. Kata-kata yang belum memiliki label yang sesuai, diberikan perbaikan pada tahap ini. Contoh pelabelan menggunakan teks contoh adalah berikut ini. Kata “HR Muhammad”, “Satelit”, “Beji Bangil” serta “Probolinggo” yang belum memiliki label lokasi akan diberikan label lokasi yaitu “LOC”. 19.34 4 jalur ini padat
O O O O O
. O 1 O . O HR LOC Muhammad
LOC
109 arah O Satelit LOC Macet O . O 2 O . O Beji LOC Bangil LOC arah O Probolinggo 2 O arah O padat O . O 3 O . O
Sepanjang arah O Kletek LOC Macet O . O 4 O . O Bambe LOC arah O Karangpilang padat O . O -LRB- O odp-pr O -RRB- O
LOC
LOC
LOC
6.2.6. Hasil Pembagian Dataset Pembagian dataset pada penelitian ini dibagi sesuai jumlah k-fold yaitu 5-fold. Pembagian ini dilakukan berdasar pembagian acak data teks yang berupa kalimat. Hasil pembagian tersebut dapat dilihat pada Tabel 6.7. Tabel 6.7 Pembagian Dataset
Nama File trainfile1.tsv trainfile2.tsv trainfile3.tsv trainfile4.tsv trainfile5.tsv
Jumlah Token 41501 token 39184 token 40816 token 41245 token 40095 token
110
F_AVG 0.72 0.715 0.71 0.705 0.7 0.695 0.69
Gambar 6.1 Rata-Rata F-Measure wordShape
Gambar 6.1
jenny1useLC serta jenny1 memiliki standar deviasi yang lebih rendah yaitu 0.01209. Sehingga, bisa dianggap lebih stabil untuk dataset. Gambar 6.2 untuk rata-rata Time, wordShape jenny1 menunjukkan waktu lebih cepat daripada jenny1useLC.
111
T_AVG 8 7.5 7 6.5 6
Gambar 6.2 Rata-Rata Time wordShape
Meskipun hasil performa F-Measure dari jenny1 dan chris3 adalah sama, tetapi jenny1 lebih sederhana dibanding chris3 dan sesuai untuk deteksi lokasi. Oleh karena itu, rata-rata Time jenny1 menjadi lebih cepat. Cara kerja wordShape Chris3 adalah dengan melihat shape atau bentuk karakter pada 2 huruf awal dan 2 huruf akhir, serta melihat shape atau bentuk karakter diantaranya sebagai 1 kesatuan. Sedangkan wordShape jenny1 akan menangkap fenomena karakter upper case dan lower case serta digit. WordShape jenny1 akan merapatkan kumpulan karakter yang memiliki shape yang sama. Sehingga, hal ini dapat memungkingkan perhitungan fitur menjadi lebih sederhana. Hal ini sesuai dengan karakteristik nama-nama lokasi yang umumnya huruf besar (upper case) terdapat pada awal kata saja. Sedangkan karakter sisanya merupakan huruf kecil (lower case). Selain itu juga terdapat nomor yang terkait lokasi yang dapat dideteksi sebagai karakter digit.
112
F_AVG 0.765 0.76 0.755 0.75 0.745 0.74 0.735 0.73 0.725
Gambar 6.3 Rata-Rata F-Measure maxNGramLeng
Pada percobaan yang dilakukan untuk mengetahui nilai panjang N-Gram maksimum yang optimal digunakan pada pemrosesan, didapatkan bahwa hasil yang optimal adalah dengan maxNGramLeng=6. Nilai rata-rata F-Measure yang dihasilkan adalah sebesar 0.7598. Perbandingan rata-rata FMeasure yang dihasilkan dapat dilihat pada Gambar 6.3. Pada percobaan ini juga dilakukan pencatatan waktu. Penambahan panjang N-Gram ternyata akan memakan banyak waktu karena semakin panjang N-Gram semakin bertambah bobot fitur yang digunakan. Fenomena tersebut ditunjukkan pada Gambar 6.4. Selain hal tersebut, dapat diketahui juga rata-rata F-Measure berkorelasi terhadap rata-rata Time sebesar 0.8242. Namun, ketika maxNGramLeng=7 terjadi penurunan F-Measure. Sehingga, maxNGramLeng=6 dirasa lebih optimal.
113
T_AVG 120 100 80 60 40 20 0
Gambar 6.4 Rata-Rata Time maxNGramLeng
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Percobaan 1 Feature Extractor: P Percobaan 2 Feature Extractor: PV Percobaan 4 Feature Extractor: PVTD Percobaan 5 Feature Extractor: PVTDG Percobaan 6 Feature Extractor: PVTDGN Percobaan 7 Feature Extractor: PVTDGNA Percobaan 8 Feature Extractor: PVTDGNAB Percobaan 9 Feature Extractor: PVTDGNABC Percobaan 10 Feature Extractor: PVTDGNABCO Percobaan 11 Feature Extractor: PVTDGNABCOJ Percobaan 12 Feature Extractor: PVTDGNABCOJR
114 6.5.1. Percobaan 1 Feature Extractor
F_AVG
useDisjShape useClassFeature usePosition wordShape=jenny1 useWord useGazettes useNGrams strictlyFirstOrder usePrevSequences useTypeSeqs2 useSequences useTypeSeqs useSum maxLeft=1 cleanGazette noMidNGrams maxNGramLeng=6 useNext useSymWordPairs useTypeySequences usePrev useWordPairs disjunctionWidth=6 useDisjunctive
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
Gambar 6.5 F-Measure Forward Selection 1 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 1 feature extractor, didapatkan bahwa feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor P yaitu useDisjunctive. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.8378, 0.8558, 0.8677, 0.8445, serta 0.8229. Sehingga dapat menghasilkan nilai rata-rata F-Measure sebesar 0.84374 dengan standar deviasi sebesar 0.014234571. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.5.
115
T_AVG
useDisjShape useClassFeature usePosition wordShape=jenny1 useWord useGazettes useNGrams strictlyFirstOrder usePrevSequences useTypeSeqs2 useSequences useTypeSeqs useSum maxLeft=1 cleanGazette noMidNGrams maxNGramLeng=6 useNext useSymWordPairs useTypeySequences usePrev useWordPairs disjunctionWidth=6 useDisjunctive
40 35 30 25 20 15 10 5 0
Gambar 6.6 Time Forward Selection 1 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.152. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor P (useDisjunctive) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 9.43, 9.15, 8.78, 9.03, serta 9.15 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 9.108 detik dengan standar deviasi sebesar 0.234989361 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.6.
116 6.5.2. Percobaan 2 Feature Extractor
F_AVG 0.9 0.88 0.86 0.84 0.82 0.8
disjunctionWidth=6 usePosition useNGrams useGazettes usePrevSequences useSum useSequences useTypeSeqs2 strictlyFirstOrder useTypeSeqs useWord maxLeft=1 cleanGazette useClassFeature useDisjShape useNext useSymWordPairs useWordPairs usePrev useTypeySequences wordShape=jenny1 maxNGramLeng=6 noMidNGrams
0.78
Gambar 6.7 F-Measure Forward Selection 2 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 2 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode V yaitu noMidNGrams. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.8847, 0.9095, 0.8852, 0.8853, serta 0.8775. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.88844 dengan standar deviasi sebesar 0.012222438. Karena feature extractor noMidNGrams memiliki syarat feature extractor T yaitu useNGrams, maka pada percobaan berikutnya feature extractor syarat juga akan diikutkan pada penambahan feature extractor. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.7.
117
T_AVG 35
30 25 20 15 10 5
disjunctionWidth=6 usePosition useNGrams useGazettes usePrevSequences useSum useSequences useTypeSeqs2 strictlyFirstOrder useTypeSeqs useWord maxLeft=1 cleanGazette useClassFeature useDisjShape useNext useSymWordPairs useWordPairs usePrev useTypeySequences wordShape=jenny1 maxNGramLeng=6 noMidNGrams
0
Gambar 6.8 Time Forward Selection 2 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi sebesar 0.74. Namun bagaimanapun pemilihan feature extractor lebih diutamakan didasarkan pada rata-rata FMeasure. Untuk feature extractor V (noMidNGrams) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 19.69, 19.99, 21, 20.56, serta 19.42 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 20.132 detik dengan standar deviasi sebesar 0.644026397 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.8.
118 6.5.3. Percobaan 4 Feature Extractor
F_AVG 0.92 0.91 0.9 0.89 0.88 0.87 0.86
disjunctionWidth=6 useDisjShape useClassFeature usePosition maxNGramLeng=6 cleanGazette wordShape=jenny1 maxLeft=1 useSequences usePrevSequences useSum strictlyFirstOrder useTypeSeqs useGazettes useWord useTypeSeqs2 useSymWordPairs useNext usePrev useWordPairs useTypeySequences
0.85
Gambar 6.9 F-Measure Forward Selection 4 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 4 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode D yaitu useTypeySequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9181, 0.9288, 0.9228, 0.9138, serta 0.8935. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.9154 dengan standar deviasi sebesar 0.01345158. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.9.
119
T_AVG 30 25 20 15 10 5
disjunctionWidth=6 useDisjShape useClassFeature usePosition maxNGramLeng=6 cleanGazette wordShape=jenny1 maxLeft=1 useSequences usePrevSequences useSum strictlyFirstOrder useTypeSeqs useGazettes useWord useTypeSeqs2 useSymWordPairs useNext usePrev useWordPairs useTypeySequences
0
Gambar 6.10 Time Forward Selection 4 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.211. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor D (useTypeySequences) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 22.3, 23.68, 24, 22.94, serta 22.2 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 23.024 detik dengan standar deviasi sebesar 0.80515837 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.10.
120 6.5.4. Percobaan 5 Feature Extractor
F_AVG 0.925 0.92 0.915 0.91 0.905
disjunctionWidth=6 maxNGramLeng=6 usePosition useSequences useWord useSum strictlyFirstOrder useTypeSeqs2 useGazettes usePrevSequences useTypeSeqs maxLeft=1 useDisjShape useClassFeature cleanGazette useNext wordShape=jenny1 useSymWordPairs useWordPairs usePrev
0.9
Gambar 6.11 F-Measure Forward Selection 5 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 5 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode G yaitu usePrev. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.924, 0.9354, 0.9303, 0.924, serta 0.9051. Sehingga dapat meningkatkan nilai rata-rata FMeasure menjadi 0.92376 dengan standar deviasi sebesar 0.011473578. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.11.
121
T_AVG 35 30 25 20 15 10
5 disjunctionWidth=6 maxNGramLeng=6 usePosition useSequences useWord useSum strictlyFirstOrder useTypeSeqs2 useGazettes usePrevSequences useTypeSeqs maxLeft=1 useDisjShape useClassFeature cleanGazette useNext wordShape=jenny1 useSymWordPairs useWordPairs usePrev
0
Gambar 6.12 Time Forward Selection 5 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.373. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor G (usePrev) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 23.18, 26.32, 23.54, 23.46, serta 22.8 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 23.86 detik dengan standar deviasi sebesar 1.405346932 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.12.
122 6.5.5. Percobaan 6 Feature Extractor
F_AVG
disjunctionWidth=6 usePosition maxNGramLeng=6 useDisjShape maxLeft=1 useClassFeature useWord useTypeSeqs2 useGazettes strictlyFirstOrder useSequences useTypeSeqs useSum cleanGazette wordShape=jenny1 useSymWordPairs useWordPairs useNext usePrevSequences
0.935 0.93 0.925 0.92 0.915 0.91 0.905
Gambar 6.13 F-Measure Forward Selection 6 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 6 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode N yaitu usePrevSequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9302, 0.9442, 0.9374, 0.9334, serta 0.9152. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93208 dengan standar deviasi sebesar 0.010786658. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.13.
123
T_AVG
disjunctionWidth=6 usePosition maxNGramLeng=6 useDisjShape maxLeft=1 useClassFeature useWord useTypeSeqs2 useGazettes strictlyFirstOrder useSequences useTypeSeqs useSum cleanGazette wordShape=jenny1 useSymWordPairs useWordPairs useNext usePrevSequences
40 35 30 25 20 15 10 5 0
Gambar 6.14 Time Forward Selection 6 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.557. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor N (usePrevSequences) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 35.01, 34.69, 39.76, 39.5, serta 40.15 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 37.822 detik dengan standar deviasi sebesar 2.725246778 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.14.
124 6.5.6. Percobaan 7 Feature Extractor
F_AVG
disjunctionWidth=6 usePosition useWordPairs useDisjShape useWord cleanGazette strictlyFirstOrder useTypeSeqs2 useSum useSequences useGazettes useTypeSeqs maxNGramLeng=6 useClassFeature useNext useSymWordPairs maxLeft=1 wordShape=jenny1
0.935 0.934 0.933 0.932 0.931 0.93 0.929 0.928 0.927 0.926
Gambar 6.15 F-Measure Forward Selection 7 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 7 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode A yaitu wordShape=jenny1. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9314, 0.9441, 0.9408, 0.9356, serta 0.9165. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93368 dengan standar deviasi sebesar 0.010762295. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.15.
125
T_AVG 60 50 40 30 20 10
disjunctionWidth=6 usePosition useWordPairs useDisjShape useWord cleanGazette strictlyFirstOrder useTypeSeqs2 useSum useSequences useGazettes useTypeSeqs maxNGramLeng=6 useClassFeature useNext useSymWordPairs maxLeft=1 wordShape=jenny1
0
Gambar 6.16 Time Forward Selection 7 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah, bahkan tidak ada korelasi, yaitu dengan nilai sebesar -0.17. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor A (wordShape=jenny1) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 37.34, 38.4, 38.41, 38.95, serta 45.49 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 39.718 detik dengan standar deviasi sebesar 3.279050167 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.16.
126 6.5.7. Percobaan 8 Feature Extractor
F_AVG
useTypeSeqs
cleanGazette
useSymWordPairs
useSum
useGazettes
useSequences
strictlyFirstOrder
useTypeSeqs2
useWord
maxLeft=1
useNext
useDisjShape
useWordPairs
useClassFeature
maxNGramLeng=6
usePosition
disjunctionWidth=6
0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929 0.928
Gambar 6.17 F-Measure Forward Selection 8 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 8 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode B yaitu useTypeSeqs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9319, 0.9458, 0.944, 0.9357, serta 0.9177. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93502 dengan standar deviasi sebesar 0.011258641. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.17.
127
T_AVG
useTypeSeqs
useSymWordPairs
useGazettes
cleanGazette
useSum
strictlyFirstOrder
useSequences
useWord
useTypeSeqs2
maxLeft=1
useDisjShape
useNext
useWordPairs
useClassFeature
usePosition
maxNGramLeng=6
disjunctionWidth=6
60 50 40 30 20 10 0
Gambar 6.18 Time Forward Selection 8 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.249. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor B (useTypeSeqs) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 48.49, 53.84, 51.16, 47.49, serta 63.96 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 52.988 detik dengan standar deviasi sebesar 6.612720318 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.18.
128 6.5.8. Percobaan 9 Feature Extractor
F_AVG
useNext
useTypeSeqs2
useWordPairs
useSymWordPairs
maxLeft=1
useGazettes
useSequences
useSum
useWord
strictlyFirstOrder
usePosition
useClassFeature
useDisjShape
cleanGazette
maxNGramLeng=6
disjunctionWidth=6
0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93
Gambar 6.19 F-Measure Forward Selection 9 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 9 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode C yaitu useTypeSeqs2. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9332, 0.9479, 0.9451, 0.9364, serta 0.9167. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93586 dengan standar deviasi sebesar 0.012296463. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.19.
129
T_AVG
useTypeSeqs2
useNext
useWordPairs
useSymWordPairs
maxLeft=1
useGazettes
useSequences
useSum
strictlyFirstOrder
useWord
usePosition
useClassFeature
useDisjShape
cleanGazette
maxNGramLeng=6
disjunctionWidth=6
80 70 60 50 40 30 20 10 0
Gambar 6.20 Time Forward Selection 9 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.286. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor C (useTypeSeqs2) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 49.64, 55.9, 68.64, 69.02, serta 76.14 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 63.868 detik dengan standar deviasi sebesar 10.79168754 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.20.
130 6.5.9. Percobaan 10 Feature Extractor
F_AVG
useDisjShape
useWord
useGazettes
strictlyFirstOrder
useSequences
useSum
cleanGazette
usePosition
useWordPairs
useSymWordPairs
useClassFeature
useNext
maxNGramLeng=6
maxLeft=1
disjunctionWidth=6
0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929
Gambar 6.21 F-Measure Forward Selection 10 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 10 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode O yaitu useDisjShape. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9326, 0.9472, 0.9445, 0.9347, serta 0.9205. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.9359 dengan standar deviasi sebesar 0.012296463. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.21.
131
T_AVG 90 80 70 60 50 40 30 20
10 0
Gambar 6.22 Time Forward Selection 10 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.213. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor O (useDisjShape) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 70.11, 71.37, 93.98, 70.17, serta 67.44 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 74.614 detik dengan standar deviasi sebesar 10.92093082 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.22.
132 6.5.10. Percobaan 11 Feature Extractor
F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929
Gambar 6.23 F-Measure Forward Selection 11 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 11 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode J yaitu useSymWordPairs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93604 dengan standar deviasi sebesar 0.011218199. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.23.
133
T_AVG 120 100
80 60 40 20 0
Gambar 6.24 Time Forward Selection 11 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.123. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor J (useSymWordPairs) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 78.19, 84.08, 87.42, 80.54, serta 82.92 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 82.63 detik dengan standar deviasi sebesar 3.507577512 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.24.
134 6.5.11. Percobaan 12 Feature Extractor
F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931
0.93 0.929
Gambar 6.25 F-Measure Forward Selection 12 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 12 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode R yaitu strictlyFirstOrder. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93604 dengan standar deviasi sebesar 0.011218199. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.25.
135
T_AVG 120 100 80 60 40 20 0
Gambar 6.26 Time Forward Selection 12 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.03. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor R (strictlyFirstOrder) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 68.39, 77.02, 80.18, 72.49, serta 75.1292 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 74.64 detik dengan standar deviasi sebesar 4.479715393 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.26.
136 6.5.12. Percobaan 13 Feature Extractor
F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929
Gambar 6.27 F-Measure Forward Selection 13 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 13 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode X yaitu cleanGazette. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga rata-rata nilai F-Measure yang dihasilkan sama seperti percobaan 12 feature extractor yaitu 0.93604 dengan standar deviasi sebesar 0.011218199. Karena feature extractor cleanGazette memiliki syarat feature extractor W yaitu useGazettes, maka pada percobaan berikutnya feature extractor syarat juga akan diikutkan pada penambahan feature extractor. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.27.
137
T_AVG 120 100 80 60 40 20 0
Gambar 6.28 Time Forward Selection 13 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.103. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor X (cleanGazette) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 73.47, 78.32, 82.25, 74.13, serta 79.22 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 77.478 detik dengan standar deviasi sebesar 3.667038314 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.28.
138 6.5.13. Percobaan 15 Feature Extractor
F_AVG 0.9355 0.935 0.9345 0.934 0.9335 0.933 0.9325 0.932 0.9315
Gambar 6.29 F-Measure Forward Selection 15 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 15 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode S yaitu useSum. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9324, 0.9435, 0.9447, 0.9356, serta 0.9198. Namun penambahan feature extractor ini dapat menurunkan performa F-Measure menjadi 0.9352 dengan standar deviasi sebesar 0.010053606. Sehingga, percobaan dapat dihentikan. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.29.
139
T_AVG 120
100 80 60 40 20 0
Gambar 6.30 Time Forward Selection 15 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.121. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor S (useSum) yang terpilih untuk memiliki nilai performa tertinggi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 72, 77.38, 76.69, 89.89, serta 74.28 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 78.048 detik dengan standar deviasi sebesar 6.951609166 detik. Hal ini menunjukkan bahwa terdapat peningkatan jumlah waktu dengan adanya penambahan feature extractor, meskipun performa F-Measure menurun. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.30.
140
1. Percobaan 24 Feature Extractor: ABCDEFGHIJKLMN OPQRSTUVWX 2. Percobaan 23 Feature Extractor: ABCDEFGHIJKLMN OPQRSTUWX 3. Percobaan 22 Feature Extractor: ABCDEFGHIJKLMN OPRSTUWX 4. Percobaan 21 Feature Extractor: ABCDFGHIJKLMN OPRSTUWX 5. Percobaan 20 Feature Extractor: ABCFGHIJKLMN OPRSTUWX 6. Percobaan 19 Feature Extractor: ABCFGHIJLMN OPRSTUWX 7. Percobaan 18 Feature Extractor: ABCFGHJLMN
141 OPRSTUWX 8. Percobaan 17 Feature Extractor: ABCFGHJMN OPRSTUWX 9. Percobaan 16 Feature Extractor: ABCFGHJN OPRSTUWX 10. Percobaan 15 Feature Extractor: ABCFGHJNOPSTUWX 11. Percobaan 14 Feature Extractor: ABCFGHJNOPTUWX 12. Percobaan 13 Feature Extractor: ABCGHJNOPTUWX 13. Percobaan 12 Feature Extractor: ABCGJNOPTUWX
6.6.1. Percobaan 24 Feature Extractor Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan seluruh feature extractor yaitu 24 feature extractor, didapatkan bahwa pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9273, 0.9427, 0.9393, 0.9283, serta 0.9142. Sehingga dapat menghasilkan nilai rata-rata F-Measure sebesar 0.93036 dengan standar deviasi sebesar 0.011257797. Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Nilai Time yang dihasilkan pada percobaan model 1 hingga 5 sebesar 60.82, 58.14, 72.96, 72.24, serta 74.6 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 67.752 detik dengan standar deviasi sebesar 7.658388865 detik.
142 6.6.2. Percobaan 23 Feature Extractor
F_AVG 0.94 0.935 0.93 0.925 0.92 0.915
useNGrams usePrevSequences usePrev useDisjunctive useTypeSeqs wordShape=jenny1 cleanGazette useGazettes useTypeySequences useWordPairs useSum useWord useSequences strictlyFirstOrder useClassFeature useSymWordPairs useDisjShape useTypeSeqs2 useNext usePosition maxLeft=1 maxNGramLeng=6 disjunctionWidth=6 noMidNGrams
0.91
Gambar 6.31 F-Measure Backward Elimination 23 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 23 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor V yaitu noMidNGrams. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9305, 0.9473, 0.9409, 0.9357, serta 0.916. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93408 dengan standar deviasi sebesar 0.011870215. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.31.
143
T_AVG 120 100 80 60 40 20
useNGrams usePrevSequences usePrev useDisjunctive useTypeSeqs wordShape=jenny1 cleanGazette useGazettes useTypeySequences useWordPairs useSum useWord useSequences strictlyFirstOrder useClassFeature useSymWordPairs useDisjShape useTypeSeqs2 useNext usePosition maxLeft=1 maxNGramLeng=6 disjunctionWidth=6 noMidNGrams
0
Gambar 6.32 Time Backward Elimination 23 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.435. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk model dengan feature extractor V (noMidNGrams) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 92.74,125.3, 116.88, 96.96, serta 116.7 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 109.716 detik dengan standar deviasi sebesar 14.08776348 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.32
144 6.6.3. Percobaan 22 Feature Extractor
F_AVG 0.94 0.935 0.93 0.925 0.92 0.915 0.91
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useGazettes cleanGazette useDisjShape useTypeySequences useWordPairs useSymWordPairs useClassFeature maxLeft=1 strictlyFirstOrder useSequences useSum useWord useNext usePosition useTypeSeqs2 disjunctionWidth=6
0.905
Gambar 6.33 F-Measure Backward Elimination 22 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 22 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor Q yaitu disjunctionWidth=6. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.931, 0.9458, 0.9459, 0.9365, serta 0.9175. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93534 dengan standar deviasi sebesar 0.011825523. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.33.
145
T_AVG
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useGazettes cleanGazette useDisjShape useTypeySequences useWordPairs useSymWordPairs useClassFeature maxLeft=1 strictlyFirstOrder useSequences useSum useWord useNext usePosition useTypeSeqs2 disjunctionWidth=6
140 120 100 80 60 40 20 0
Gambar 6.34 Time Backward Elimination 22 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.633. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor Q (disjunctionWidth=6) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 112.21, 123, 122.04, 97.71, serta 98.04 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 110.6 detik dengan standar deviasi sebesar 12.36053599 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.34.
146 6.6.4. Percobaan 21 Feature Extractor
F_AVG 0.94 0.935 0.93 0.925 0.92
useNGrams maxNGramLeng=6 useDisjunctive usePrev usePrevSequences wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext usePosition useTypeySequences useClassFeature useSymWordPairs useSum useSequences strictlyFirstOrder useWord cleanGazette useGazettes useWordPairs useDisjShape maxLeft=1
0.915
Gambar 6.35 F-Measure Backward Elimination 21 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 21 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor E yaitu maxLeft=1. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9337, 0.9492, 0.9451, 0.9372, serta 0.9195. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93694 dengan standar deviasi sebesar 0.011528356. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.35.
147
T_AVG
useNGrams maxNGramLeng=6 useDisjunctive usePrev usePrevSequences wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext usePosition useTypeySequences useClassFeature useSymWordPairs useSum useSequences strictlyFirstOrder useWord cleanGazette useGazettes useWordPairs useDisjShape maxLeft=1
140 120 100 80 60 40 20 0
Gambar 6.36 Time Backward Elimination 21 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.595. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor E (maxLeft=1) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 109.94, 139.96, 136.9, 138.06, serta 111.42 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 127.256 detik dengan standar deviasi sebesar 15.18014756 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.36.
148 6.6.5. Percobaan 20 Feature Extractor
F_AVG
maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette usePosition useSymWordPairs useClassFeature useNext useWord strictlyFirstOrder useSum useSequences useWordPairs useTypeySequences
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.37 F-Measure Backward Elimination 20 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 20 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor D yaitu useTypeySequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9335, 0.9497, 0.9451, 0.9385, serta 0.9193. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93722 dengan standar deviasi sebesar 0.01177336. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.37.
149
T_AVG
maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette usePosition useSymWordPairs useClassFeature useNext useWord strictlyFirstOrder useSum useSequences useWordPairs useTypeySequences
140 120 100 80 60 40 20 0
Gambar 6.38 Time Backward Elimination 20 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.627. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor E (maxLeft=1) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 126.27, 141.17, 136.9, 133.58, serta 106.42 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 128.868 detik dengan standar deviasi sebesar 13.68135118 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.38.
150 6.6.6. Percobaan 19 Feature Extractor
F_AVG
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useNext useClassFeature useSymWordPairs cleanGazette useGazettes useWordPairs strictlyFirstOrder useWord useSum useSequences usePosition
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.39 F-Measure Backward Elimination 19 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 19 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor K yaitu usePosition. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9339, 0.9498, 0.9453, 0.9378, serta 0.9197. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.9373 dengan standar deviasi sebesar 0.010409803. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.39.
151
T_AVG
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useNext useClassFeature useSymWordPairs cleanGazette useGazettes useWordPairs strictlyFirstOrder useWord useSum useSequences usePosition
140 120 100 80 60 40 20 0
Gambar 6.40 Time Backward Elimination 19 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.647. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor K (usePosition) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 118.2, 128.03, 103, 93.81, serta 113.84 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 111.376 detik dengan standar deviasi sebesar 11.90559297 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.40.
152 6.6.7. Percobaan 18 Feature Extractor
F_AVG
maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext useDisjShape useGazettes cleanGazette useClassFeature strictlyFirstOrder useSum useWord useSequences useSymWordPairs useWordPairs
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.41 F-Measure Backward Elimination 18 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 18 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor I yaitu useWordPairs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9339, 0.9486, 0.9478, 0.937, serta 0.9211. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93768 dengan standar deviasi sebesar 0.01130606. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.41.
153
T_AVG 140 120 100 80 60 40 20
maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext useDisjShape useGazettes cleanGazette useClassFeature strictlyFirstOrder useSum useWord useSequences useSymWordPairs useWordPairs
0
Gambar 6.42 Time Backward Elimination 18 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.632. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor I (useWordPairs) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 76.01, 74.49, 90.88, 80.94, serta 79.92 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 80.448 detik dengan standar deviasi sebesar 6.413678352 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.42.
154 6.6.8. Percobaan 17 Feature Extractor
F_AVG
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette useSymWordPairs useNext useSequences strictlyFirstOrder useWord useSum useClassFeature
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.43 F-Measure Backward Elimination 17 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 17 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor L yaitu useClassFeature. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.43.
155
T_AVG 120 100 80 60 40 20
useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette useSymWordPairs useNext useSequences strictlyFirstOrder useWord useSum useClassFeature
0
Gambar 6.44 Time Backward Elimination 17 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.702. Tetapi pengeliminasian feature extractor tetap didasarkan pada F-Measure. Untuk model dengan feature extractor L (useClassFeature) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 91.99, 113.55, 90.66, 85.66, 107.45 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 97.862 detik dengan standar deviasi sebesar 11.97164442 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.44.
156 6.6.9. Percobaan 16 Feature Extractor
F_AVG
useWord
useSum
useSequences
useNext
strictlyFirstOrder
useGazettes
cleanGazette
useDisjShape
useTypeSeqs2
useSymWordPairs
useTypeSeqs
useDisjunctive
wordShape=jenny1
usePrev
usePrevSequences
useNGrams
maxNGramLeng=6
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.45 F-Measure Backward Elimination 17 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 16 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor F yaitu useWord. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.45.
157
T_AVG 120 100 80 60 40 20
useWord
useSequences
useSum
strictlyFirstOrder
useNext
cleanGazette
useGazettes
useDisjShape
useTypeSeqs2
useSymWordPairs
useTypeSeqs
wordShape=jenny1
useDisjunctive
usePrevSequences
usePrev
maxNGramLeng=6
useNGrams
0
Gambar 6.46 Time Backward Elimination 16 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.657. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor M (useSequences) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 79.44, 106.38, 85.96, 81.19, serta 101.88 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 90.97 detik dengan standar deviasi sebesar 12.35096757 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.46.
158 6.6.10. Percobaan 15 Feature Extractor
F_AVG
useSum
strictlyFirstOrder
useNext
useSequences
useGazettes
cleanGazette
useDisjShape
useSymWordPairs
useTypeSeqs
useTypeSeqs2
useDisjunctive
wordShape=jenny1
usePrevSequences
usePrev
maxNGramLeng=6
useNGrams
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.47 F-Measure Backward Elimination 15 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 15 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor R yaitu strictlyFirstOrder. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai rata-rata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.47.
159
T_AVG 120 100 80 60 40 20
useSum
strictlyFirstOrder
useSequences
useNext
useGazettes
cleanGazette
useDisjShape
useTypeSeqs2
useSymWordPairs
useTypeSeqs
wordShape=jenny1
useDisjunctive
usePrevSequences
usePrev
useNGrams
maxNGramLeng=6
0
Gambar 6.48 Time Backward Elimination 15 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.705. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor R (strictlyFirstOrder) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 79.59, 106.26, 84.92, 80.96, serta 103 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 90.946 detik dengan standar deviasi sebesar 12.69654599 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.48.
160 6.6.11. Percobaan 14 Feature Extractor
F_AVG
useSequences
useSum
useNext
useGazettes
cleanGazette
useDisjShape
useSymWordPairs
useTypeSeqs2
useTypeSeqs
wordShape=jenny1
useDisjunctive
usePrevSequences
usePrev
maxNGramLeng=6
useNGrams
0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.49 F-Measure Backward Elimination 14 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 14 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor M yaitu useSequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.49.
161
T_AVG 120 100 80 60 40 20 0
Gambar 6.50 Time Backward Elimination 14 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.677. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor S (useSum) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 81.83, 107.03, 85.1, 78.9, serta 103.7 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 91.312 detik dengan standar deviasi sebesar 13.06783341 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.50.
162 6.6.12. Percobaan 13 Feature Extractor
F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.51 F-Measure Backward Elimination 13 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 13 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor F yaitu useWord. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374 serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.51.
163
T_AVG 120 100 80 60 40 20 0
Gambar 6.52 Time Backward Elimination 13 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.685. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor F (useWord) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 74.24, 89.93, 77.97, 83.62, serta 108.59 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 86.87 detik dengan standar deviasi sebesar 13.5130622 detik. Pada percobaan ini tampak penurunan waktu yang cukup signifikan. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.52.
164 6.6.13. Percobaan 12 Feature Extractor
F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918
Gambar 6.53 F-Measure Backward Elimination 12 Feature Extractor
Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 12 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk performa model adalah dengan mengeliminasi feature extractor H yaitu useNext. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9347,0.9492, 0.9468, 0.9382, serta 0.9191. Sehingga menghasilkan nilai rata-rata F-Measure yang turun yaitu 0.9376 dengan standar deviasi sebesar 0.01193964. Maka, percobaan dapat dihentikan. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.53.
165
T_AVG 120 100 80 60 40 20 0
Gambar 6.54 Time Backward Elimination 12 Feature Extractor
Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.633. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor H (useNext) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 71.79, 95.77, 77.86, 98.97, serta 92.97 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 87.472 detik dengan standar deviasi sebesar 11.93319404 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.54.
166
6.7.1. Analisa Hasil Forward Selection
F_AVG 0.95 0.9
0.85 0.8 0.75
Gambar 6.55 Rata-Rata F-Measure Skenario Forward Selection
Berdasarkan hasil percobaan dengan skenario forward selection seperti pada Gambar 6.55, model terbaik yang dipilih adalah model 12 dengan rata-rata F-Measure 0.93604 dan ratarata Time yang paling optimal sebesar 74.64. Meskipun model 11-13 memiliki performa F-Measure yang sama, tetapi rata-rata Time terendah dimiliki oleh Model 12 terlihat pada Gambar 6.56.
T_AVG 100 80 60 40 20 0
Gambar 6.56 Rata-Rata Time Skenario Forward Selection
167 6.7.2. Analisa Hasil Backward Elimination
F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926
Gambar 6.57 Rata-Rata F-Measure Skenario Backward Elimination
Berdasarkan hasil percobaan dengan skenario backward elimination seperti pada Gambar 6.57, model terbaik yang dipilih adalah model 13 dengan rata-rata F-Measure 0.9377 dan rata-rata Time yang paling optimal sebesar 86.87. Meskipun model 17-13 memiliki performa F-Measure yang sama, tetapi rata-rata Time terendah dimiliki oleh Model 13 terlihat pada Gambar 6.58.
T_AVG 150 100 50 0
Gambar 6.58 Rata-Rata Time Skenario Backward Elimination
168
Berdasarkan analisa hasil yang telah dilakukan, pilihan model terbaik dapat dilihat pada Tabel 6.8 yang menunjukkan performa rata-rata F-Measure, standar deviasi F-Measure, ratarata Time, serta standar deviasi Time dari model. Model yang terpilih dari analisa hasil berdasarkan metode forward selection adalah Model 12. Sedangkan model yang terpilih dari analisa hasil berdasar metode backward elimination adalah Model 13. Tabel 6.8 Model Terbaik Performa F_STDEV T_AVG
Metode Seleksi
Model Terbaik
Jumlah Fitur
F_AVG
Forward Selection Backward Elimination
Model 12
12
0.93604
0.011218
74.64
4.479715
Model 13
13
0.9377
0.011641
88.706
12.518948
T_STDEV
6.8.1. Fitur-Fitur Penting Berdasarkan hasil pemilihan model terbaik, dapat ditentukan fitur-fitur penting yang harus diperhatikan dengan melihat feature extractors apa saja yang digunakan model terbaik pada Tabel 6.9. Analisa feature extractor dilakukan dengan melihat irisan feature extractor pada kedua model, feature extractor yang terpilih hanya pada model, serta feature extractor yang tidak terpilih. Tabel 6.9 Feature Extractor Yang Digunakan Model Terbaik Forward Selection Model 12
Feature Extractor Yang Digunakan A: wordShape=jenny1 B: useTypeSeqs C: useTypeSeqs2 D: useTypeySequences G: usePrev J: useSymWordPairs N: usePrevSequences
169
Backward Elimination Model 14
O: useDisjShape P: useDisjunctive R: strictlyFirstOrder T: useNGrams V: useNGrams, noMidNGrams A: wordShape=jenny1 B: useTypeSeqs C: useTypeSeqs2 G: usePrev H: useNext J: useSymWordPairs N: usePrevSequences O: useDisjShape P: useDisjunctive T: useNGrams U: maxNGramLeng=6 W: useGazettes X: cleanGazette
6.8.1.1. Fitur yang Terpilih Pada Seluruh Metode Seleksi Terdapat 9 feature extractor yang terpilih pada seluruh metode seleksi. Dari ke-9 feature extractor yang terpilih tersebut, keseluruhan feature extractor mencirikan konteks dari nama-nama lokasi. Sedangkan kata yang merupakan sebuah lokasi itu sendiri tidak banyak mengindikasikan bahwa kata tersebut merupakan sebuah lokasi. Berikut 9 feature extractor yang terpilih pada kedua metode seleksi beserta justifikasi pentingnya feature extractor yang terpilih: 1. A : wordShape=jenny1 Feature extractor dirasa penting karena dapat menangkap fenomena shape atau bentuk karakter pada nama-nama lokasi yang memiliki ciri huruf besar (upper case) pada awal kata. 2. B : useTypeSeqs Feature extractor ini dapat mengidentifikasi shape atau bentuk karakter pada kata sebelum dengan shape atau bentuk karakter pada kata saat ini, misal terdapat kata “di Surabaya”. Kata “di”
170 teridentifikasi shape lower case dan kata “Surabaya” teridentifikasi shape upper case di awal kata dengan diikuti karakter lower case. Sehingga dapat mencirikan bahwa “Surabaya” merupakan lokasi. Selain itu, feature extractor juga dapat mengidentifikasi shape kata sesudah dengan shape kata saat ini. Jika terdapat nomor pada suatu alamat lokasi, akan teridentifikasi shape berupa digit. Sehingga dapat menangkap fenomena jika terdapat alamat yang diawali huruf besar dan diikuti dengan nomor angka, maka alamat tersebut dapat dikatakan sebagai lokasi. 3. C : useTypeSeqs2 Feature extractor mampu menangkap ciri-ciri shape lokasi dengan melihat shape kata sebelum dengan digabungkan shape kata saat ini serta kelas sebelum dan kelas saat ini. Misalkan “arah Malang” berarti dapat mencirikan dengan kata sebelum yang memiliki shape lower case dan label bukan lokasi serta shape upper case pada kata saat ini, maka mengindikasikan bahwa kata saat ini merupakan sebuah lokasi. 4. G : usePrev Feature extractor dapat menangkap fenomena ciri-ciri nama lokasi yang biasanya diawali dengan kata-kata seperti “di”, “ke”, “dari”, “depan”, maupun “asal”. 5. J : useSymWordPairs Ciri-ciri lokasi kata sebelum dan kata sesudah dapat diidentifikasi dengan feature extractor ini. Lokasi umumnya dijadikan sebagai kata keterangan. Maka, pada umumnya, katakata lokasi menjadi akhir pada suatu kalimat yang kemudian diakhiri dengan tanda baca. Tanda baca dapat dianggap sebagai sebuah token. Dengan menggunakan feature extractor ini, maka fenomena tersebut akan mudah ditangkap.
171 6. N : usePrevSequences Feature extractor ini dapat mengekstraksi fitur dengan memperhatikan kelas sebelum kata saat ini. Sehingga, dapat menangkap fenomena kata-kata lokasi yang berupa alamat yang cukup panjang. 7. O : useDisjShape Merupakan disjungsi bentuk karakter pada kata yang terdapat pada suatu kalimat dengan jarak 4 kata. Dengan adanya feature extractor ini, shape yang diperhatikan adalah shape 4 kata sebelum dan 4 kata sesudah. Fitur tersebut akan memperhatikan apakah suatu bentuk karakter dengan disjungsi sebelum dan sesudah tersebut akan mengindikasikan kelas kata saat ini. 8. P : useDisjunctive Merupakan disjungsi fitur-fitur dengan memperhatikan 4 kata sebelum dan 4 kata sesudah. Fitur tersebut akan memperhatikan apakah fitur yang terdapat pada disjungsi sebelum dan sesudah akan mengindikasikan kelas dari kata saat ini. 9. T : useNGrams Membentuk kata berdasarkan N-Gram-nya. Hal ini dapat menjadi feature extractor yang penting karena beberapa namanama lokasi terdapat kemiripan pola seperti “Stasiun Gubeng” dan “Stasiun Pasar Turi” yang memiliki nilai 2-gram yang sama yaitu “St” dari kata Stasiun. Sehingga, hal ini dapt mencirikan kata tersebut merupakan sebuah lokasi. 6.8.1.2. Fitur yang Hanya Terpilih Pada Metode Forward Selection Terdapat pula feature extractor yang hanya terpilih pada metode forward selection. Berikut justifikasi mengenai mengapa feature extractor tidak terpilih menjadi feature extractor yang dianggap paling penting:
172 1. D : useTypeySequences Feature extractor mampu menangkap shape, kelas sebelum dan kelas sesudah. Feature extractor ini sudah dapat dirangkum dengan feature extractor useTypeSeqs serta useTypeSeqs2. 2. V : noMidNGrams Feature extractor ini tidak mengikutkan huruf awal dan terakhir untuk N-Gram dari suatu kata. Padahal umumnya nama-nama lokasi memiliki kemiripan huruf pada awal kata. 3. R : strictlyFirstOrder Feature extractor memungkinkan menghapus feature extractor lain selain class fan CpC. Padahal feature extractor lain masih tetap dibutuhkan. 6.8.1.3. Fitur yang Hanya Terpilih Pada Metode Backward Elimination 1. H : useNext Penggunaan kata sesudah beserta kelas yang mengikutinya tidak terlalu dianggap penting karena label lokasi tidak cukup dengan memperhatikan kata sesudah. Kata lokasi lebih diindikasikan melalui kata sebelum. Selain itu, penggunaan kata sesudah juga sudah dirangkum pada feature extractor useSymWordPairs yang memperhatikan kata sebelum dan sesudah sekaligus. 2. U : maxNGramLeng=6 Penggunaan N-Gram yang panjang tidak dianggap menjadi feature extractor yang penting karena ciri-ciri kata lokasi yang mirip tidak sampai memiliki 6 N-Gram.
173 3. W : useGazettes Penggunaan gazette yang berisikan daftar kelas beserta kata-kata (pada penelitian ini adalah lokasi) tidak menggaransikan bahwa kata-kata pada gazette atau lexicon atau lookup-list selalu digunakan pada prediksi. Gazette tidak selalu dipilih untuk memprediksi. Gazette hanya menambah feature extractor lain pada model CRF train. Jika model yang dihasilkan memiliki weight yang lebih tinggi pada feature extractor lain, maka gazette juga tidak terlalu diperhatikan dalam melakukan prediksi. 4. X : cleanGazettes Feature extractor ini akan membuat pengecekan gazette secara utuh tidak terpisah kata satu dengan lainnya. Sedangkan pada penggunaan bahasa non formal, nama lokasi tidak disebutkan secara utuh. 6.8.1.4. Fitur yang Tidak Terpilih 1. E : maxLeft=1 Feature extractor akan membatasi jarak kata yang dilihat untuk memprediksikan sequence dengan hanya 1 left. Sedangkan default maxLeft=2 2. F : useWord Feature extractor yang menggunakan kata itu sendiri untuk mengindikasikan sebuah kelas tidak dianggap penting untuk digunakan karena terdapat kata-kata lokasi yang digunakan pada konteks bukan lokasi misalnya organisasi “Suara Surabaya”. Sehingga terkadang, kata “Surabaya” bisa berarti kata lokasi, tetapi tidak selalu. Sehingga, harus lebih banyak memperhatikan konteks kalimat di sekitarnya. Selain hal tersebut, penggunaan fitur kata saja dirasa tidak cukup karena diperlukan kombinasi fitur kata sebelum dan sesudah maupun kelas sebelum dan sesudah. Untuk itu,
174 kombinasi fitur ini sudah dirangkum dalam feature extractor usePrevSequences. 3. I : useWordPairs Penggunaan kata sebelum dan kata sesudah akan digunakan pada feature extractor, tetapi kata saat ini itu sendiri tidak banyak mencirikan bahwa ia merupakan sebuah lokasi. Sehingga cukup digunakan useSymWordPairs untuk memperhatikan kata sebelum dan sesudah serta kelas saat ini. 4. K : usePosition Posisi lokasi pada suatu kalimat tidak banyak mencirikan ia merupakan sebuah lokasi. Utamanya pada bahasa non formal, lokasi dapat diletakkan dengan tidak teratur. 5. L : useClassFeature Penggunaan fitur kelas pada suatu kata tidak terlalu diperhatikan karena sudah dirangkum pada hampir seluruh feature extractor lain. 6. M : useSequences Sequence dari kelas tidak dianggap sebagai feature extractor yang penting karena pada kasus ini kelas yang ada hanya kelas lokasi. 7. Q : disjunctionWidth=6 Jarak disjungsi kata untuk melihat shape ataupun kata itu sendiri terlampau jauh untuk mencirikan sebuah lokasi. Umumnya terdapat 3-4 kata sebelum ataupun sesudah. 8. S : useSum Tidak terdapat definisi yang komprehensif mengenai feature extractor ini berdasarkan dokumentasi library.
175 6.8.2. Kesalahan Prediksi Model Model yang dihasilkan pada kedua metode memiliki beberapa pola kesalahan prediksi. Berikut ini merupakan kesalahan yang terjadi pada prediksi oleh model: - Model tidak dapat memprediksi lokasi yang dipisahkan dengan tanda “-“ tanpa diberi white space - Model tidak dapat memprediksi kata lokasi yang diawali huruf kecil - Model tidak dapat memprediksikan lokasi yang diawali dengan kata ‘dititik’ - Kata yang diawali dengan kata ‘dan’ serta memiliki huruf kapital di awal kata diprediksikan sebagai lokasi, meskipun kata tersebut merupakan suatu organisasi - Kata-kata yang didahului dengan kata ‘di’ dan memiliki huruf kapital pada awal kata diprediksi sebagai lokasi - Tidak dapat memprediksi lokasi yang digunakan sebagai subjek Dari analisa kesalahan prediksi oleh model tersebut dapat diketahui bahwa penulisan kata lokasi yang tidak lazim lebih sulit untuk diprediksi karena prediksi didasarkan pada bobot fitur yang memperhatikan bentuk karakter kata serta konteks di sekitar kata. Selain hal tersebut, konteks penulisan nama organisasi dan orang yang mirip dengan nama lokasi dapat menyebabkan kesalahan prediksi. Untuk itu, penambahan label organisasi dan orang dapat dijadikan sebagai bahan penelitian selanjutnya. 6.8.3. Uji Statistik 2 Model Terbaik Independent Sample T-Test digunakan untuk membandingkan (membedakan) dua sampel, apakah sampel tersebut sama atau berbeda. Pada kasus ini hal yang dibandingkan adalah hasil performa model menggunakan metode forward selection dan backward elimination. Kegunaan Independent Sample T-Test ini untuk menguji kemampuan
176 generalisasi, yaitu signifikansi hasil penelitian yang berupa perbandingan dua rata-rata sampel. Sampel sendiri termasuk kategori sampel yang tidak berkorelasi alias independen. Sampel yang digunakan dalam pengujian adalah sampel pada performa F-Measure serta Time. Pada pengujian, model hasil forward selection dinyatakan sebagai model 1. Sedangkan model hasil backward elimination dinyatakan sebagai model 2. Berikut merupakan hasil pengujian T-Test. Pada performa model. 6.8.3.1. Uji Hipotesis Performa F-Measure Tabel 6.10 Nilai F-Measure Model Terbaik
MODEL (FMeasure) Model 1
METODE SELEKSI FORWARD BACKWARD SELECTION ELIMINATION 0.932 0.9338
Model 2
0.9481
0.9494
Model 3
0.9453
0.9474
Model 4
0.9347
0.9374
Model 5
0.9201
0.9205
F_AVG
0.93604
0.9377
0.011218199
0.011641735
F_STDEV
Pernyatan Hipotesis H0 : Performa F1 Model 1 = Performa F1 Model 2 HA : Performa F1 Model 1 ≠ Performa F1 Model 2 Penentuan Tingkat Signifikansi Tingkat Signifikansi merupakan probabilitas penolakan hipotesis nol ketika hipotesis tersebut benar. Pada kasus pengujian hipotesis ini dipilih tingkat signifikansi 𝛼 = 0.05
177 Pengujian Hasil pengujian dengan menggunakan tools Minitab dapat dilihat pada Gambar 6.59.
Gambar 6.59 Pengujian F-Measure 2 Sampel
Hasil pengujian menunjukkan bahwa P-Value sebesar 0.824 menghasilkan nilai lebih dari nilai α. Nilai tersebut menunjukkan bahwa tidak terdapat perbedaan nilai Mean yang signifikan antar dua sampel. Sehingga, hipotesis nol gagal tolak. 6.8.3.2. Uji Hipotesis Performa Time Tabel 6.11 Nilai Time Model Terbaik
MODEL (Time) Model 1
METODE SELEKSI FORWARD BACKWARD SELECTION ELIMINATION 68.39 74.24
Model 2
77.02
89.93
Model 3
80.18
77.97
Model 4
72.49
83.62
Model 5
75.12
108.59
T_AVG
74.64
86.87
4.479715393
13.5130622
T_STDEV
178 Pernyatan Hipotesis H0 : Performa Time Model 1 = Performa Time Model 2 HA : Performa Time Model 1 ≠ Performa Time Model 2 Penentuan Tingkat Signifikansi Tingkat Signifikansi merupakan probabilitas penolakan hipotesis nol ketika hipotesis tersebut benar. Pada kasus pengujian hipotesis ini dipilih tingkat signifikansi 𝛼 = 0.05 Pengujian Hasil pengujian dengan menggunakan tools Minitab dapat dilihat pada Gambar 6.60.
Gambar 6.60 Pengujian Time 2 Sampel
Hasil pengujian menunjukkan bahwa P-Value sebesar 0.091 menghasilkan nilai lebih dari nilai α. Nilai tersebut menunjukkan bahwa tidak terdapat perbedaan nilai Mean yang signifikan antar dua sampel. Sehingga, hipotesis nol gagal tolak.
179 6.8.3.3. Kesimpulan Pengujian Statistik 2 Sampel Hasil Pengujian Statistik 2 Sampel menunjukkan bahwa kedua pengujian menghasilkan hipotesis nol gagal tolak. Maka, dapat disimpulkan bahwa tidak terdapat perbedaan yang signifikan antara kedua model. Sehingga, untuk penggunaan model terbaik dapat dipilih di antara keduanya, mengingat bahwa tidak terdapat perbedaan yang berarti pada rata-rata hasil performa kedua model.
180 Halaman ini sengaja dikosongkan
BAB VII KESIMPULAN DAN SARAN Pada bab ini dibahas mengenai kesimpulan dari semua proses yang telah dilakukan dan saran yang dapat diberikan untuk pengembangan yang lebih baik. Kesimpulan yang didapatkan dari proses pengerjaan tugas akhir yang telah dilakukan antara lain: 1. Penggunaan library tertentu untuk melakukan pemrosesan data dapat mempengaruhi tahapan apa saja yang perlu dilakukan pada praproses data. Berdasarkan hasil yang didapat, ditemukan bahwa terdapat tahapan praproses yang dirasa tidak banyak membantu yaitu praproses pada tahap labeling dengan program. Hasil labeling dengan program memiliki berbagai kesalahan yang menyebabkan adanya pekerjaan tambahan untuk mengecek kesalahan saat melakukan labeling manual sehingga kurang efisien. Maka, praproses yang berhubungan dengan labeling menggunakan program yaitu pemuatan data lokasi dan non lokasi serta tahap matching juga dirasa kurang penting. Adapun tahapan praproses yang dilakukan dengan pemuatan data teks, pembagian dataset, tokenizing serta labeling manual dirasa lebih penting untuk dilakukan. Dari hasil tersebut, dapat diketahui bahwa penggunaan matching kata-kata yang terdapat pada daftar nama lokasi saja tidak cukup untuk menentukan mana kata yang merupakan suatu lokasi pada suatu kalimat. Sehingga, untuk dapat menentukan kata yang merupakan suatu lokasi diperlukan modul NER yang dibuat pada penelitian ini. 2. Tahapan praproses labeling secara manual memerlukan konsistensi pelabelan karena persepsi mengenai label lokasi antar manusia bisa berbeda-beda. Oleh karena itu, pendefinisian secara komprehensif mengenai kata-kata apa saja yang perlu diberikan label berupa lokasi perlu dilakukan. 181
182 3. Gazzette atau lookup-list atau lexicon bahasa Indoensia merupakan daftar nama-nama lokasi yang dianggap dapat meningkatkan performa pengujian. Ternyata pada penelitian ini ditemukan bahwa penggunaan lexicon tidak dapat meningkatkan performa secara signifikan karena penentuan lokasi lebih banyak dilihat dari konteks yang ada di sekitar kata, bukan kata itu sendiri. Berdasarkan pemrosesan data, terdapat 2 model terbaik dari hasil 2 skenario yang berbeda. Model terbaik dari skenario forward selection menghasilkan rata-rata F-Measure sebesar 0.93604. Sedangkan model terbaik berdasarkan skenario backward elimination menghasilkan rata-rata FMeasure 0.9377. 4. Berdasarkan pemrosesan data, terdapat 2 model terbaik dari hasil 2 skenario yang berbeda. Model terbaik dari skenario forward selection menghasilkan rata-rata F-Measure sebesar 0.93604 dengan rata-rata waktu pemrosesan 74.64 detik. Sedangkan model terbaik berdasarkan skenario backward elimination menghasilkan rata-rata F-Measure 0.9377 dengan rata-rata waktu pemrosesan 88.706 detik. Dengan menggunakan uji statistik 2 sampel, hasil kedua model tidak memiliki perbedaan yang signifikan sehingga dapat dipilih diantara keduanya. 5. Terdapat fitur-fitur yang dianggap penting untuk mencirikan kata adalah suatu lokasi. Fitur-fitur tersebut diekstraksi oleh 9 feautre extractor, antara lain: a. wordShape=jenny1 b. useTypeSeqs c. useTypeSeqs2 d. usePrev e. useSymWordPairs f. usePrevSequences g. useDisjShape h. useDisjunctive i. useNGrams
183 6. Kesalahan yang dihasilkan model terbaik menunjukkan bahwa penulisan kata-kata lokasi yang tidak umum seperti penggunaan huruf kecil pada awal kata dan penggunaan tanda pemisah “-” tanpa pemberian tanda spasi, masih belum dapat diprediksi seluruhnya. Selain itu juga masih terdapat prediksi yang salah terhadap nama organisasi yang digunakan sebagai kata keterangan karena pada konteks tersebut nama organisasi memiliki ciri yang sama seperti nama lokasi.
Dari pengerjaan tugas akhir ini, adapun beberapa saran untuk pengembangan penelitian ke depan. Dalam melakukan eksplorasi fitur-fitur dengan feature extractor, masih terdapat banyak feature extractor dari library yang belum diujicobakan dalam percobaan. Untuk itu, pada pengembangan berikutnya, perlu melakukan eksplorasi kembali dengan menambah feature extractor di luar penelitian ini. Selain itu, pemilihan dataset pada penelitian ini didasarkan pada status facebook fanpage yang menggunakan kebahasaan berita radio. Pada pengembangannya, dapat diujicobakan dataset dari akun penyedia berita radio lain ataupun dataset yang diambil dari komentar pada status facebook fanpage yang dirasa lebih banyak menggunakan karakteristik kebahasaan informal dan sehari-hari. Untuk pengembangan yang lebih baik lagi, eksplorasi pelabelan lain seperti label organisasi maupun orang juga dapat dilakukan karena dirasa dapat menanggulangi kesalahan prediksi yang dilakukan oleh model dengan pelabelan lokasi saja.
184 Halaman ini sengaja dikosongkan
DAFTAR PUSTAKA [1] Kementrian Komunikasi dan Informatika, "Kominfo : Pengguna Internet di Indonesia 63 Juta Orang," 07 11 2013. [Online]. Available: https://kominfo.go.id/. [Accessed 28 5 2016]. [2] Y. Herlanti, Blogquest+: Pemanfaatan media sosial pada pembelajaran sains berbasis isu sosiosaintifik untuk mengembangkan keterampilan berargumentasi dan literasi sains, Bandung: Pendidikan IPA SPs Universitas Pendidikan Indonesia, 2014. [3] D. Nouvel, M. Ehrmann and S. Rosset, Named Entities for Computational Linguistics, London, UK dan Hoboken, NJ, USA: John Wiley & Sons, 2016. [4] A. S. Wibawa and A. Purwarianti, "Indonesian Namedentity Recognition for 15 Classes Using," in 5th Workshop on Spoken Language Technology for Under-resourced Languages, Yogyakarta, Indonesia, 2016. [5] I. Budi, S. Bressan, G. Wahyudi and Z. A. Hasibuan, "Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach," in 8th International Conference, DS, Singapore, 2005. [6] R. A. Leonandya, B. Distiawan and N. H. Praptono, "A Semi-Supervised Algorithm for Indonesian Named Entity Recognition," in 3rd International Symposium on Computational and Business Intelligence, Bali, Indonesia, 2015. [7] L. Wake, NLP: Principles in Practice, St Albans: Ecademy Press, 2010. [8] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglo and P. Kuksa, "Natural Language 185
186
[9]
[10
[11 [12
[13
[14
[15
[16
[17
Processing (Almost) from Scratch," Machine Learning Research 12, pp. 2493-2537, 2011. Microsoft Azure, "Named Entity Recognition," 25 Desember 2015. [Online]. Available: https://msdn.microsoft.com/enus/library/azure/dn905955.aspx. [Accessed 6 Oktober 2016]. J. Lafferty, A. McCallum and F. C. Pereira, "Conditional ] Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," 18th International Conference on Machine Learning, 2001. Carnegie Mellon University, Conditional Random Fields ] for Activity Recognition, Pittsburgh: ProQuest, 2008. J. D. Kelleher, B. M. Namee and A. D'Arcy, ] Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies, London, England: MIT Press, 2015. J. Gosling, B. Joy, G. Steele, G. Bracha and A. Buckley, ] Java (R) Language Spesificaiton, California: Oracle America, 2015. The Stanford NLP Group, "About Stanford NLP Group," ] [Online]. Available: http://nlp.stanford.edu/software/CRF-NER.shtml#. [Accessed 19 Oktober 2016]. Open Street Map, "About OpenStreetMap," 31 Maret ] 2016. [Online]. Available: http://wiki.openstreetmap.org/wiki/About_OpenStre etMap. [Accessed 7 Januari 2017]. Mapzen, "Documentation Metro Extracts," [Online]. ] Available: https://mapzen.com/documentation/metro-extracts/. [Accessed 1 Januari 2017]. The Wall Street Journal (Jones, Dow), "Facebook Tops ] Billion-User Mark," 4 Oktober 2012. [Online]. [Accessed 6 Oktober 2016].
187 [18 M. Hasan Basri, "Identifikasi Topik Informasi Publik ] Media Sosial di Kota Surabaya Berdasarkan Klasterisasi Teks pada Twitter dengan Menggunakan Algoritma K-Means," Surabaya, 2016. [19 S. Priansya, Oktober 2016. ] [20 The Stanford Natural Language Processing Group, ] "About Stanford Tokenizer," [Online]. Available: http://nlp.stanford.edu/software/tokenizer.shtml. [Accessed 16 December 2016].
188 Halaman ini sengaja dikosongkan
BIODATA PENULIS Penulis lahir di Kediri pada tanggal 17 Februari 1996. Merupakan anak ketiga dari 3 bersaudara. Penulis telah menempuh beberapa pendidikan formal yaitu; SDS Pawyatan Daha 2 Kediri, SMP Negeri 1 Kediri, dan SMA Negeri 1 Kediri. Pada tahun 2013 pasca kelulusan SMA, penulis melanjutkan pendidikan dengan jalur SBMPTN (Tulis) di Jurusan Sistem Informasi FTIf – Institut Teknologi Sepuluh Nopember (ITS) Surabaya dan terdaftar sebagai mahasiswa dengan NRP 5213100098. Selama menjadi mahasiswa, penulis mengikuti berbagai kegiatan kemahasiswaan seperti beberapa kepanitiaan serta pernah menjabat sebagai Sekretaris 2 Paduan Suara Mahasiswa ITS pada tahun kedua serta menjabat sebagai Sekretaris Eksternal Badan Eksekutif Mahasiswa Fakultas Teknologi Informasi ITS pada tahun ketiga. Selain iut, kegiatan seperti Latihan Ketrampilan Manajemen Mahasiswa pun pernah diikuti hingga Tingkat Menengah. Di bidang akademik, penulis aktif menjadi asisten dosen dan asisten praktikum pada beberapa mata kuliah seperti Desain dan Manajemen Jaringan dan Desain Basis Data. Selain itu, pada tahun 2016 penulis menjadi salah satu delegasi ITS dalam kegiatan kemahasiswaan yaitu Magang Ormawa untuk melakukan kunjungan pada Mahidol University di Thailand . Pada tahun keempat, karena penulis memiliki ketertarikan di bidang pengolahan data, maka penulis mengambil bidang minat Akuisisi Data dan Diseminasi Informasi (ADDI). Penulis dapat dihubungi melalui email di [email protected].
189
190 Halaman ini sengaja dikosongkan
LAMPIRAN A Contoh Data Mentah Status Facebook E100 Suara Surabaya
fb_id
message
story
227268729878_ 1015388461919 4879
Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=2rd5iab0l0skf1u7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=2rd5iab0l0skf1u7a4ru2jflp32015156523 Sebanyak 94 TKI ilegal Dideportasi Malaysia. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515651 7
E100 with Naira Purnomo.
created _time 8/1/201 5 23:41
E100 with Naira Purnomo.
8/1/201 5 23:27
NULL
8/1/201 5 22:10
227268729878_ 1015388458973 9879 227268729878_ 1015388437259 4879
A-1
A-2 fb_id
message
story
227268729878_ 1015388437273 9879
Datang ke Muktamar, Jokowi Bagikan Kaos dan Kartu Indonesia Pintar. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515651 2 21.45 : Hindari masuk Jombang Kota! Lalu lintas MACET TOTAL. Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso - Gedeg saja, Kawan. (odp-rt) Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/detail.php?id= ik878thocermn5g8a7r6es01082015156501&fo kusid=613
NULL
227268729878_ 1015388436025 9879 227268729878_ 1015388431283 9879
created _time 8/1/201 5 21:55
NULL
8/1/201 5 21:46
E100 with Imam De Iwes and Naira Purnomo.
8/1/201 5 21:16
fb_id
message
story
227268729878_ 1015388429817 4879
21.00 : 4 Jalur MACET : 1.Simpang 3 Lakasantri; 2.Depan Stasiun Wonokromo. Imbas banyak taksi berhenti; 3.Singosari - Malang; 4.Jombang - Ploso. Imbas pembukaan muktamar NU ke 33. (odp-rt) 20.50 : Hindari masuk JL Kalidami! JL Kalidami - Unair Kampus B ada bazar. Lalu lintas MACET karena jalur yang dari arah Karang Menjangan digunakan jadi 2 lajur. (odp-rt) Masih Ada Pilkada Paslon Tunggal, Tahapan Pilkada Lanjut Terus. (odp-rt) http://m.suarasurabaya.net/politik/detail.php?id =ik878thocermn5g8a7r6esbdr72015156515 #SSinfo : Unjuk rasa ribuan karyawan Migas Blok Cepu Bojonegoro ricuh, Sabtu (1/8/2015). Nana reporter Radio Suara Bojonegoro Indah
NULL
227268729878_ 1015388428108 9879
227268729878_ 1015388425070 9879 227268729878_ 1015388423653 9879
A-3
created _time 8/1/201 5 21:04
NULL
8/1/201 5 20:51
NULL
8/1/201 5 20:34
E100 added 2 new photos.
8/1/201 5 20:22
A-4 fb_id
227268729878_ 1015388417919 9879
message melaporkan ribuan massa merusak kantor dan pos security. Empat Mobil digulingkan dan satu mobil dibakar. Unjuk rasa menuntut dibukanya kembali lima pintu utama masuk dan keluar karyawan. Saat ini, hanya satu pintu yang digunakan. Jadi karyawan harus berdesakdesakan untuk keluar,masuk dan istirahat. Tidak adanya jawaban dari pihak perusahaan memicu timbulnya kericuhan. Imbas kejadian ini, kegiatan diperusahaan diliburkan sampai batas waktu yang tidak bisa ditentukan. Foto : Dokumentasi Radio Suara Bojonegoro Indah. (odp-rt) 19.53 : Info awal : Kecelakaan di jelang FO Peterongan Jombang antara mobil dengan sepeda motor. Lalu lintas MACET. Belum ada polisi dilokasi. (odp-rt)
story
created _time
NULL
8/1/201 5 19:54
fb_id
message
story
227268729878_ 1015388412359 4879 227268729878_ 1015388408745 9879
19.38 : Jalur luar kota MACET : 1.Balong Bendo - Mojokerto; 2.Peterongan Jombang - Surabaya. (odp-rt) 19.15 : 3 Jalur MACET malam ini: 1.Jembatan Karangpilang Baru dan lama Sepanjang; 2.Kletek - Krian. Ada pick up mogok didepan SPBU Kletek; 3.Mojoagung. (odp-rt) 18.53 : Info awal : Kebakaran lahan kosong di depan Lenmarc. Api membesar. PMK sudah menuju lokasi. Foto : Enig Mia via e100. (odprt) 18.45 : Adzan Isya telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat Isya, Kawan. (Odprt)
NULL
227268729878_ 1015388404520 9879 227268729878_ 1015388404728 9879
A-5
created _time 8/1/201 5 19:40
NULL
8/1/201 5 19:15
NULL
8/1/201 5 18:54
NULL
8/1/201 5 18:46
A-6 fb_id
message
story
227268729878_ 1015388401647 9879
Suwarno, (50) seorang pemulung warga Bratang Gede, menemukan jenazah bayi di sungai Jagir, Jalan Jagir, Wonokromo, Surabaya, Sabtu (1/8/2015). (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515650 2 18.03 : 3 jalur MACET : 1.Simpang 4 Balongsari. Volume kendaraan tinggi; 2.Sukorejo - Purwosari; 3.Jombang - Nganjuk. (odp-rt) 17.52 : Hindari lewat JL Karang Menjangan! Lalu lintas MACET karena ada bazar. Gunakan jalur lain, Kawan. Foto : Aditya Surya Nata via @e100ss. (odp-rt) 17.40 : Update : Kondisi kijang innova L 1581 JV yang naik ke trotoar dan menabrak sepeda motor di JL Kendangsari - Rungkut. Kondisi
NULL
227268729878_ 1015388399882 9879
227268729878_ 1015388398192 4879 227268729878_ 1015388395866 4879
created _time 8/1/201 5 18:17
NULL
8/1/201 5 18:05
NULL
8/1/201 5 17:53
NULL
8/1/201 5 17:40
fb_id
227268729878_ 1015388395998 9879 227268729878_ 1015388394043 4879 227268729878_ 1015388388615 9879
227268729878_ 1015388384151 4879
message pengendara sepeda motor belum diketahui. Foto : Petrus Budi Riyanto via e100. (odp-rt) 17.33 : Adzan maghrib telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat maghrib Kawan. (Odp-rt) KPU RI: Penundaan Pilkada Karena Perilaku Politik Elit Parpol. (odp-rt) http://m.suarasurabaya.net/politik/detail.php?id =ik878thocermn5g8a7r6esbdr72015156504 16.46 : Info awal : Kecelakaan di JL Kendangsari depan Kantor PDIP - Rungkut. Ada Mobil honda CRV naik ke trotoar dan infonya, kendaraan juga menabrak sepeda motor. Belum ada data kendaraan dan kronologi lengkap kejadian. (odp-rt) 16.35 : Purwosari-Malang MACET. Imbas ada trailler muat kepala pesawat yang berjalan pelan. Foto : Irul via e100. (odp-rt)
A-7
story
created _time
NULL
8/1/201 5 17:33
NULL
8/1/201 5 17:17
NULL
8/1/201 5 16:47
E100 with Yoga Faris and Fatah.
8/1/201 5 16:35
A-8 fb_id
message
story
227268729878_ 1015388382656 4879
16.20 : Jalur-jalur MACET sore ini : 1.JL Mastrip-Karang Pilang MACET TOTAL. Imbas jalur Legundi ditutup; 2.Sepanjang - Kletek; 3.Brangkal - Mojokerto. Imbas jalur Bypass ditutup, diduga ada rombongan RI 1 yang menuju Jombang; 4.Beji - Pasuruan setelah Pasar Gondang MACET. (odp-rt) Seorang penjual es tebu menemukan uang segepok yang terjatuh di dekat gerobaknya saat berjualan di kawasan Jl. Demak Surabaya, Jumat (31/7/2015) siang. Hingga, siang ini pemilik uang belum ditemukan. Jika sampai waktu lama tidak juga ada yang mengambil uang itu, rencananya akan disumbangkan ke Masjid dekat rumahnya. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph
NULL
227268729878_ 1015388379961 4879
NULL
created _time 8/1/201 5 16:22
8/1/201 5 16:08
fb_id
227268729878_ 1015388377920 4879
227268729878_ 1015388375445 9879
227268729878_ 1015388373829 4879
message p?id=ik878thocermn5g8a7r6esbdr7201515650 0 15.50 : Bundaran Waru MACET TOTAL SEGALA ARAH. Imbasnya masuk dan keluar tol Waru juga terhambat. Ekor dari arah Sidoarjo sudah sampai U-turn depan RS Mitra Keluarga Waru. Foto : Denny Setiyono via e100. (odp-rt) 15.34 : Info awal :Grand Max muat karung terguling di Tol Sidoarjo - Porong KM 36, posisi dilajur kanan. Lalu lintas masih belum terdampak. Foto : Hendarto Hutama via @e100ss. (odp-rt) 15.15 : Update : Kebakaran sampah limbah plastik milik PT Philips Indonesia Rungkut. Duta Komandan Pleton 4 PMK Rungkut menjelaskan, lokasi yang terbakar adalah area terbuka dan api tidak sampai menjalar ke bangunan pabrik. 3 Unit PMK diturunkan
A-9
story
created _time
NULL
8/1/201 5 15:52
NULL
8/1/201 5 15:36
NULL
8/1/201 5 15:17
A-10 fb_id
227268729878_ 1015388372337 4879
227268729878_ 1015388371667 4879 227268729878_ 1015388370158 9879
message untuk mengatasi kebakaran ini. Api cepat dikuasai karena pabrik juga memiliki sistem hidran yang bagus. (odp-rt) Muktamar NU akan Bahas BPJS yang Kontroversi. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515649 5 14.49 : Adzan ashar telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat ashar, Kawan. (odprt) 14.42 : Rangkuman Jalur MACET : 1.Warugunung - Karangpilang - Sepanjang. Imbas jalur Legundi-Wringin Anom ditutup. Foto : Amung Putra via e100' 2.Lidah - Wiyung; 3.HR Muhammad - Mayjend Sungkono; 4.Manukan - Lempung Tama - Balongsari;
story
created _time
NULL
8/1/201 5 15:08
NULL
8/1/201 5 15:00
E100 added 3 new photos.
8/1/201 5 14:45
fb_id
227268729878_ 1015388369040 4879
227268729878_ 1015388366736 4879
227268729878_ 1015388365816 9879
message
story
5.Sebelum Simpang 4 Karang Lo Malang. Foto : Rufinus via e100; 6.Depan Ponpes Tebu Ireng Jombang. Imbas acara Muktamar NU. Foto : Joki via e100 (odprt) Kemarau, Kebakaran Alang-Alang Terjadi di NULL Beberapa Lokasi. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515648 9 14.12: Update #kebakaran di Brebek. Bangunan NULL yang terbakar berupa Pabrik Philips, di Jl Brebek Industri 5. Api sudah mulai mengecil, asap juga sudah mulai berkurang. Sudah ada petugas PMK d lokasi. Foto: Poendra via e100. (odp-pr) 14.00: Info #kebakaran di dekat PMK Rungkut, NULL ada pabrik yang terbakar. Lokasi ada di Brebek 1 depan Tjokro dekat Philip. Sudah ada 3 unit
A-11
created _time
8/1/201 5 14:32
8/1/201 5 14:11
8/1/201 5 13:59
A-12 fb_id
227268729878_ 1015388365532 4879
227268729878_ 1015388363932 4879
227268729878_ 1015388360424 4879
message PMK yang meluncur ke lokasi. Data dan kronologi masih belum diketahui. (odp-pr) 13.57: Info awal #kecelakaan di depan RS Orthopedi Citraland. Grand Livina warna abuabu dengan Pick Up warna hitam. Posisi Pick Up melintang. Data dan kronologi belum diketahui. Info sudah diteruskan ke petugas. Foto: Donnie O via e100. (odp-pr) 13.43: 4 jalur ini padat cenderung Macet. 1. Rolak - Kalijaten padat. 2. Jembatan Sepanjang - Bukit Bambe Macet. 3. Simpang 3 TL Lakarsantri - Menganti padat. 4. Lidah Kulon - Simpang 3 Unesa Macet. (odp-pr) 13.16: Waspada #kebakaran ilalang di Tol KM 20 Waru arah Sidoarjo. Asap sedikit menganggu pendangan pengguna jalan. Info sudah diteruskan ke petugas. Foto: Anjar via e100. (odp-pr)
story
created _time
NULL
8/1/201 5 13:56
NULL
8/1/201 5 13:41
NULL
8/1/201 5 13:15
fb_id
message
story
227268729878_ 1015388359058 4879
13.04: Info awal #penemuan jenazah bayi di dekat Kali Jagir. Sudah ada Satpol PP di lokasi. Lalu lintas padat karena banyak kendaraan yg mengurangi kecepatan untuk melihat. Foto: Sumarno via e100. (odp-pr) Malam Ini, Muktamar NU Siap Dibuka Jokowi Foto: Fatkhurohman Taufik - Reporter Suara Surabaya (odp-pr) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=aaqvvpqisq9baqleg3e89lg6302015156488 12.40: Hati-hati,kawan. Di Interchange turun Tol Waru ada mobil mogok. Posisi di lajur tengah. Foto: Santoso via @e100ss. (odp-pr) 12.15: Waspadai kepadatan di jalur-jalur ini,kawan. 1. Simpang 4 Babatan masih MACET. 2. Lenmarc arah HR Muhammad padat. 3. Singosari arah Malang padat. Foto: Ghifary via @e100ss.
NULL
227268729878_ 1015388357141 9879
227268729878_ 1015388356718 9879 227268729878_ 1015388353271 4879
A-13
created _time 8/1/201 5 13:03
E100 with Naira Purnomo and Yudhistira Ar Rachman.
8/1/201 5 12:46
NULL
8/1/201 5 12:41
NULL
8/1/201 5 12:16
A-14 fb_id
227268729878_ 1015388351524 9879
227268729878_ 1015388348870 9879 227268729878_ 1015388347590 9879
message 4. Manukan arah Balongsari padat. 5. Dupak arah PGS padat. 6. Waru arah Trosobo padat. (odp-pr) 11.53: Update #kebakaran ilalang di sebelah barat Terminal Benowo. Ada 4 unit mobil PMK dari Kandangan, Pakal, dan Lakarsantri. Saat ini sedang melakukan pemadaman api yang cukup besar. Lalu lintas di sekitar lokasi padat. Foto: F Lopez via e100. (odp-pr) 11.39: Kumandang adzan Dzuhur sudah terdengar di Surabaya dan sekitarnya. Selamat menunaikan ibadah shalat Dzuhur, Kawan. (odp-pr) 11.29: Info #kecelakaan, kejadian sekitar pukul 11.15,Truk Terguling di Jl Ngagel Bagong Ginayan. Tidak ada korban. Saat ini ada forklift yang berusaha mengevakuasi Truk dibantu oleh warga. Lalu lintas Macet. Belum ada petugas di lokasi. Foto: Warkoppitulikur (odp-pr)
story
created _time
E100 with Yudhistira Ar Rachman.
8/1/201 5 11:52
NULL
8/1/201 5 11:38
NULL
8/1/201 5 11:27
fb_id
message
story
227268729878_ 1015388346603 4879
11.19: Info awal #kebakaran ilalang di sebalah barat Terminal Benowo. Api cukup besar. Di dekat ilalang yg terbakar banyak lapak milik pedagang. Info sudah diteruskan ke petugas PMK. (odp-pr) 11.08: 4 Jalur ini padat. 1. Wiyung 2 arah Macet. Foto: Priyo via e100. 2. Simpang 4 Babatan masih Macet. 3. Manukan Lor arah Margomulyo, depan Bibis 1 ada Truk Kontainer yang Mogok. Posisi Truk di lajur kiri. Lalu lintas Macet. 4. Pendem, Junrejo arah Batu Macet. (odp-pr) Gunung Manam Meletus, Bandara Merauke Ditutup (odp-pr) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=aaqvvpqisq9baqleg3e89lg6302015156483 10.49: 2 Jalur ini padat. 1. Simpang 4 Babatan Macet. Dari arah Unesa,
NULL
227268729878_ 1015388345735 4879
227268729878_ 1015388344582 4879 227268729878_ 1015388343591 4879
A-15
created _time 8/1/201 5 11:18
NULL
8/1/201 5 11:09
NULL
8/1/201 5 11:03
NULL
8/1/201 5 10:49
A-16 fb_id
227268729878_ 1015388340507 4879
227268729878_ 1015388339279 4879
message ekor antrean sampai di Danau. 2. Flyover Arjosari arah Malang padat. (odp-pr) 10.23: Waspadai kepadatan di jalur-jalur ini, kawan. 1. Depan Ponpes Tebu Ireng padat. Foto: Rahman via e100. 2. Abdul Karim Rungkut arah Juanda Macet. Ekor antrean sampai di Rungkut Mapan. 3. Bundaran Aloha arah Surabaya padat. Foto: Santoso via @e100ss. 4. Segoromadu Gresik arah Surabaya ada Truk Mogok di lajur kanan. Lalu lintas padat. Antrean sampai Semen Gresik. (odp-pr) #InspirasiSolusi Ikuti talkshow Inspirasi Solusi Sabtu (1/8/2015) pukul 10.00 - 11.00 WIB dengan topik "Mengidentifikasi dan Mengatasi Resiko Usaha" bersama narasumber DR Tri Siwi - Dosen UMKM dan Kewirausahaan Prodi Manajemen FEB Unair, dipandu penyiar Isa
story
created _time
E100 added 2 new photos.
8/1/201 5 10:23
NULL
8/1/201 5 10:10
fb_id
message
story
Anshori. Kawan bisa bergabung di 0315600000. (odp-wd)
A-17
created _time
A-18 Halaman ini sengaja dikosongkan
LAMPIRAN B Contoh Dataset Hasil Praproses 17.03 Kumandang adzan Maghrib sudah terdengar di Surabaya dan sekitarnya . Selamat menunaikan ibadah shalat Maghrib , Kawan . #SStoday Pembongkaran Median Jalan di Kejapanan AKP Hendro Gunawan Kasatlantas B-1
O O O O O O O LOC O O O O O O O O O O O O O O O O LOC O O O O
B-2 Polres Kabupaten Pasuruan menjelaskan , saat ini lalu lintas dilokasi sudah lancar , ada polisi yang berjaga dilokasi . Besok Tim Polres Pasuruan akan berkoordinasi dengan Dishub untuk mengoperasikan TL sementara
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-3 , Balai Besar V dan stakeholder terkait untuk penertiban pasar -LRBBakesbanglinmas , Satpol PP -RRB. Warga yang membongkar paksa pembatas jalan ini , karena mengeluh pasar disekitar lokasi sepi
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-4 . 13.04 Info awal #penemuan jenazah bayi di dekat Kali Jagir . Sudah ada Satpol PP di lokasi . Lalu lintas padat karena banyak kendaraan yg mengurangi kecepatan untuk melihat .
O O O O O O O O O LOC LOC O O O O O O O O O O O O O O O O O O O O
B-5 Foto Sumarno via e100 . 15.28 2 Jalur ini padat . 1 . PGS arah Dupak , padat mulai depan Dupak Grosir . 2 . Sukorejo arah Malang masih padat imbas
O O O O O O O O O O O O O LOC O LOC O O O O LOC LOC O O O LOC O LOC O O O
B-6 dilakukannya kontraflow untuk menghindari Truk yang mengalami patah as . 7.57 Jalur Surabaya Malang 2 arah masih padat imbas Truk terguling di depan Wisma Bukit Sentul -LRBdekat SPBU -RRB-
O O O O O O O O O O O O LOC O LOC O O O O O O O O O LOC LOC LOC O O LOC O
B-7 . Saat ini Crane yang digunakan untuk mengevakuasi Truk sudah ada di lokasi .
O O O O O O O O O O O O O O
B-8 Halaman ini sengaja dikosongkan
LAMPIRAN C Hasil Percobaan A. wordShape Selection Uji F-Measure Kode WordShape
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
A1
dan1
F-Measure
0.6941
0.7222
0.6895
0.6985
0.7007
0.701
0.012605951
A2
chris1
F-Measure
0.7103
0.7366
0.7018
0.71
0.7176
0.71526
0.0131749
A10
chris2useLC
F-Measure
0.711
0.7418
0.7058
0.714
0.7199
0.7185
0.013987852
A9
chris2
F-Measure
0.711
0.7418
0.7058
0.714
0.7199
0.7185
0.013987852
A13
chris4
F-Measure
0.7119
0.7399
0.7061
0.7142
0.7205
0.71852
0.013016989
A4
dan2useLC
F-Measure
0.7146
0.738
0.7053
0.7143
0.7204
0.71852
0.012154711
A3
dan2
F-Measure
0.7146
0.738
0.7053
0.7143
0.7204
0.71852
0.012154711
A5
dan2bio
F-Measure
0.7146
0.7384
0.7054
0.7143
0.7204
0.71862
0.012288287
A6
dan2bioUseLC
F-Measure
0.7146
0.7384
0.7054
0.7143
0.7204
0.71862
0.012288287
A12
chris3useLC
F-Measure
0.7127
0.7387
0.7054
0.7148
0.7216
0.71864
0.012614397
A11
chris3
F-Measure
0.7127
0.7387
0.7054
0.7148
0.7216
0.71864
0.012614397
A8
jenny1useLC
F-Measure
0.7146
0.738
0.7055
0.7145
0.7206
0.71864
0.01209103
A7
jenny1
F-Measure
0.7146
0.738
0.7055
0.7145
0.7206
0.71864
0.01209103
C-1
C-2 Uji Time Kode
WordShape
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
A1
dan1
Time
7.64
9.25
7.83
6.78
7.3
7.76
0.923498782
A2
chris1
Time
6.77
6.81
6.89
6.62
7.09
6.836
0.172568827
A10
chris2useLC
Time
7.16
7.94
8.28
7.64
8.17
7.838
0.45135352
A9
chris2
Time
7.06
7.8
7.81
7.34
7.95
7.592
0.375992021
A13
chris4
Time
8.75
7.97
7.64
6.81
7.27
7.688
0.734043595
A4
dan2useLC
Time
7.95
6.92
7.63
7.23
7.36
7.418
0.392007653
A3
dan2
Time
7.88
6.81
7.45
6.89
6.91
7.188
0.462731023
A5
dan2bio
Time
7.38
7.08
7.38
7.16
6.75
7.15
0.260192237
A6
dan2bioUseLC
Time
7.41
7.06
7.14
7.02
6.67
7.06
0.265800677
A12
chris3useLC
Time
7.56
6.31
7.33
7.11
7.02
7.066
0.471518823
A11
chris3
Time
7.56
6.31
7.39
7.08
6.94
7.056
0.483766473
A8
jenny1useLC
Time
7.23
6.45
6.97
6.23
6.47
6.67
0.414004831
A7
jenny1
Time
7.27
6.47
6.95
6.17
6.25
6.622
0.472567456
B. maxNGramLeng Selection Uji F-Measure Kode U1 U2 U3 U4
maxNGramLeng maxNGramLeng=1 maxNGramLeng=2 maxNGramLeng=3 maxNGramLeng=4
Uji F-Measure F-Measure F-Measure F-Measure
Model 1 0.7346 0.7327 0.7421 0.7475
Model 2 0.7534 0.7558 0.7648 0.7706
Model 3 0.731 0.7378 0.7486 0.7535
Model 4 0.7326 0.7345 0.7457 0.7518
Model 5 0.7379 0.7462 0.7611 0.7622
F_AVG 0.7379 0.7414 0.75246 0.75712
F_STDEV 0.009039358 0.009574184 0.009935442 0.009239426
U5 U6 U7
maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7
F-Measure F-Measure F-Measure
0.7493 0.7515 0.7517
0.7721 0.7735 0.7734
0.7537 0.7575 0.754
0.7523 0.7516 0.7527
0.7649 0.7649 0.7651
0.75846 0.7598 0.75938
0.009644066 0.009422314 0.009510888
Uji Time Kode U1 U2
maxNGramLeng maxNGramLeng=1 maxNGramLeng=2
Uji Time Time
Model 1 16.48 21.08
Model 2 10.89 21.89
Model 3 10.17 23.06
Model 4 8.4 24.04
Model 5 8.66 22.91
T_AVG 10.92 22.596
T_STDEV 3.276240223 1.139706102
U3 U4 U5 U6 U7
maxNGramLeng=3 maxNGramLeng=4 maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7
Time Time Time Time Time
31.17 41.12 47.6 114.34 95.72
32.69 40.74 70.11 75.3 115.56
62.87 37.81 60.3 73 103.41
32.45 38.22 62.04 92.35 122.07
30.91 41.24 64.89 63.11 98.85
38.018 39.826 60.988 83.62 107.122
13.91429912 1.669784417 8.355463482 20.14074353 11.25669889
C-3
C-4 C. Forward Selection Feature Extractor 1. Model 1 Feature Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
O
useDisjShape
F-Measure
0.6758
0.6944
0.672
0.682
0.6775
0.68034
0.008641065
L
useClassFeature
F-Measure
0.6758
0.6944
0.672
0.682
0.6775
0.68034
0.008641065
K
usePosition
F-Measure
0.6809
0.6988
0.6879
0.687
0.6897
0.68886
0.006466297
A
wordShape=jenny1
F-Measure
0.7146
0.738
0.7055
0.7145
0.7206
0.71864
0.01209103
F
useWord
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
W
useGazettes
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
T
useNGrams
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
R
strictlyFirstOrder
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
N
usePrevSequences
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
C
useTypeSeqs2
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
M
useSequences
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
B
useTypeSeqs
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
S
useSum
F-Measure
0.7346
0.7534
0.731
0.7326
0.7379
0.7379
0.009039358
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
E
maxLeft=1
F-Measure
0.735
0.7534
0.731
0.7326
0.7379
0.73798
0.009004554
X
cleanGazette
F-Measure
0.7435
0.7614
0.7379
0.7387
0.7442
0.74514
0.009511204
V
noMidNGrams
F-Measure
0.7502
0.7719
0.7523
0.7497
0.7637
0.75756
0.009835548
U
maxNGramLeng=6
F-Measure
0.7515
0.7735
0.7575
0.7516
0.7649
0.7598
0.009422314
H
useNext
F-Measure
0.7521
0.7785
0.7726
0.7557
0.7504
0.76186
0.012813782
J
useSymWordPairs
F-Measure
0.794
0.8115
0.8029
0.7944
0.7883
0.79822
0.009070116
D
useTypeySequences
F-Measure
0.7991
0.8104
0.8115
0.8032
0.7802
0.80088
0.012645434
G
usePrev
F-Measure
0.8117
0.8222
0.8164
0.8075
0.7822
0.808
0.015425466
I
useWordPairs
F-Measure
0.8041
0.8209
0.8099
0.8084
0.8014
0.80894
0.007492196
Q
disjunctionWidth=6
F-Measure
0.8269
0.8342
0.8375
0.8203
0.8001
0.8238
0.01482734
P
useDisjunctive
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
C-5
C-6 Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
O
useDisjShape
Time
7.02
7.67
7.53
7.68
8.12
7.604
0.394626406
L
useClassFeature
Time
6.53
6.79
7.41
7.26
7.51
7.1
0.421544778
K
usePosition
Time
7.17
7.89
7.57
7.92
7.04
7.518
0.403819267
A
wordShape (jenny1)
Time
7.27
6.47
6.95
6.17
6.25
6.622
0.472567456
F
useWord
Time
10.68
10.55
9.82
6.11
6.05
8.642
2.361730298
W
useGazettes
Time
10.39
6
6.42
5.4
5.5
6.742
2.080004808
T
useNGrams
Time
9.88
5.99
6.44
5.47
5.7
6.696
1.816378265
R
strictlyFirstOrder
Time
9.95
6.07
6.41
5.4
5.6
6.686
1.866984199
N
usePrevSequences
Time
9.92
5.94
6.45
5.39
5.45
6.63
1.88829288
C
useTypeSeqs2
Time
9.88
5.95
6.36
5.33
5.52
6.608
1.871996261
M
useSequences
Time
9.88
5.95
6.38
5.3
5.45
6.592
1.886894274
B
useTypeSeqs
Time
9.81
5.88
6.34
5.31
5.61
6.59
1.839415668
S
useSum
Time
9.86
5.94
6.3
5.29
5.47
6.572
1.880311144
E
maxLeft=1
Time
5.2
2.98
3.2
2.56
2.75
3.338
1.068325793
X
cleanGazette
Time
6.24
6.15
5.8
5.71
5.69
5.918
0.258205345
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
V
noMidNGrams
Time
22.72
22.83
32.37
25.93
26.28
26.026
3.919952806
U
maxNGramLeng=6
Time
34.83
35.47
35.69
36.55
35.99
35.706
0.635672872
H
useNext
Time
7.54
7.32
7.62
8.6
7.3
7.676
0.534677473
J
useSymWordPairs
Time
7.31
7.27
7.76
10.07
8.06
8.094
1.152271669
D
useTypeySequences
Time
7.74
9
6.74
9.61
8.92
8.402
1.149530339
G
usePrev
Time
7.25
7.36
7.16
6.69
7.19
7.13
0.257584937
I
useWordPairs
Time
7.91
7.36
8.48
9.07
8.92
8.348
0.713070824
Q
disjunctionWidth=6
Time
11.15
11.3
11.47
11.26
12.01
11.438
0.33980877
P
useDisjunctive
Time
9.43
9.15
8.78
9.03
9.15
9.108
0.234989361
C-7
C-8 2. Model 2 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PQ
disjunctionWidth=6
F-Measure
0.8269
0.8342
0.8375
0.8203
0.8001
0.8238
0.01482734
PK
usePosition
F-Measure
0.8289
0.851
0.8479
0.8348
0.8128
0.83508
0.01543104
PT
useNGrams
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PW
useGazettes
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PN
usePrevSequences
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PS
useSum
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PM
useSequences
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PC
useTypeSeqs2
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PR
strictlyFirstOrder
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PB
useTypeSeqs
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PF
useWord
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PE
maxLeft=1
F-Measure
0.8378
0.8558
0.8577
0.8445
0.8229
0.84374
0.014234571
PX
cleanGazette
F-Measure
0.8335
0.8535
0.8607
0.8499
0.8218
0.84388
0.01586638
PL
useClassFeature
F-Measure
0.8469
0.8543
0.8608
0.8452
0.8171
0.84486
0.016718941
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PO
useDisjShape
F-Measure
0.8483
0.8545
0.8613
0.8455
0.8162
0.84516
0.01729445
PH
useNext
F-Measure
0.8467
0.8621
0.8669
0.8503
0.8225
0.8497
0.017311846
PJ
useSymWordPairs
F-Measure
0.8449
0.8672
0.8618
0.8467
0.8295
0.85002
0.014935093
PI
useWordPairs
F-Measure
0.8465
0.8638
0.8667
0.8529
0.8296
0.8519
0.014900503
PG
usePrev
F-Measure
0.8489
0.8702
0.8675
0.8489
0.8357
0.85424
0.014416241
PD
useTypeySequences
F-Measure
0.8629
0.864
0.8808
0.8571
0.8296
0.85888
0.018596693
PA
wordShape=jenny1
F-Measure
0.8605
0.8834
0.8764
0.8648
0.8534
0.8677
0.012113216
PU
maxNGramLeng=6
F-Measure
0.8791
0.9058
0.8836
0.8807
0.8732
0.88448
0.012507878
PV
noMidNGrams
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
C-9
C-10 Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PQ
disjunctionWidth=6
Time
11.11
11.22
11.68
11.5
12.11
11.524
0.397529873
PK
usePosition
Time
11.28
10.33
10.27
11.08
11.47
10.886
0.552838132
PT
useNGrams
Time
10.03
10.39
12.46
11
10.52
10.88
0.9490785
PW
useGazettes
Time
9.42
9.35
8.9
9.4
11.29
9.672
0.929392275
PN
usePrevSequences
Time
9.44
9.67
9.45
9.78
9.92
9.652
0.208734281
PS
useSum
Time
9.41
9.54
9.42
9.74
9.89
9.6
0.209642553
PM
useSequences
Time
9.48
9.44
9.31
9.76
9.84
9.566
0.224454895
PC
useTypeSeqs2
Time
9.49
9.4
9.35
9.71
9.82
9.554
0.202805325
PR
strictlyFirstOrder
Time
9.52
9.23
8.92
9.37
9.51
9.31
0.248092725
PB
useTypeSeqs
Time
9.43
9.12
8.77
9.35
9.5
9.234
0.296192505
PF
useWord
Time
9.45
9.23
8.83
9.13
9.22
9.172
0.224543982
PE
maxLeft=1
Time
5.08
4.81
4.54
4.75
4.73
4.782
0.194858923
PX
cleanGazette
Time
9.27
8.96
9.52
9.68
9.28
9.342
0.274262648
PL
useClassFeature
Time
10.38
10.28
10.64
10.37
11.12
10.558
0.341643089
PO
useDisjShape
Time
10.15
10.77
10.41
10.7
11.28
10.662
0.424464368
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PH
useNext
Time
10.69
10.04
9.99
10.1
10.12
10.188
0.285254273
PJ
useSymWordPairs
Time
11.8
12.13
11.69
10.98
12.02
11.724
0.450810381
PI
useWordPairs
Time
12.79
14.1
13.25
12.84
13.9
13.376
0.601107312
PG
usePrev
Time
10.37
10.05
9.74
9.82
10.33
10.062
0.286827474
PD
useTypeySequences
Time
12.04
12.24
13.19
12.03
13.85
12.67
0.814585784
PA
wordShape=jenny1
Time
9.85
9.85
9.64
9.31
10.21
9.772
0.32972716
PU
maxNGramLeng=6
Time
30.88
32.16
31.04
29.91
29.36
30.67
1.083374358
PV
noMidNGrams
Time
19.69
19.99
21
20.56
19.42
20.132
0.644026397
C-11
C-12 3. Model 4 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTQ
disjunctionWidth=6
F-Measure
0.8726
0.8947
0.8822
0.8701
0.8603
0.87598
0.013047873
PVTO
useDisjShape
F-Measure
0.8787
0.9089
0.8885
0.8861
0.8714
0.88672
0.014093687
PVTL
useClassFeature
F-Measure
0.8787
0.9078
0.8892
0.8859
0.872
0.88672
0.013529486
PVTK
usePosition
F-Measure
0.8811
0.9077
0.8858
0.8832
0.8768
0.88692
0.012074643
PVTU
maxNGramLeng=6
F-Measure
0.8802
0.9099
0.8888
0.8819
0.8767
0.8875
0.01327347
PVTX
cleanGazette
F-Measure
0.8832
0.9089
0.8856
0.8865
0.876
0.88804
0.012367821
PVTA
wordShape (jenny1)
F-Measure
0.8846
0.9075
0.886
0.8862
0.876
0.88806
0.011651524
PVTE
maxLeft=1
F-Measure
0.8845
0.9091
0.8853
0.8851
0.8775
0.8883
0.012072282
PVTM
useSequences
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTN
usePrevSequences
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTS
useSum
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTR
strictlyFirstOrder
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTB
useTypeSeqs
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTW
useGazettes
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTF
useWord
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTC
useTypeSeqs2
F-Measure
0.8847
0.9095
0.8852
0.8853
0.8775
0.88844
0.012222438
PVTJ
useSymWordPairs
F-Measure
0.8855
0.9106
0.8902
0.8872
0.8787
0.89044
0.012033412
PVTH
useNext
F-Measure
0.8844
0.9116
0.8888
0.8906
0.8782
0.89072
0.012613168
PVTG
usePrev
F-Measure
0.889
0.9084
0.898
0.8919
0.8758
0.89262
0.01198424
PVTI
useWordPairs
F-Measure
0.8909
0.9139
0.8966
0.8936
0.8838
0.89576
0.011192542
PVTD
useTypeySequences
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTQ
disjunctionWidth=6
Time
22
23
23.57
22.45
22.12
22.628
0.6538119
PVTO
useDisjShape
Time
23.4
22.64
23.36
22.75
22.35
22.9
0.462114704
PVTL
useClassFeature
Time
21.16
21.29
21.87
22.08
22.09
21.698
0.443023701
PVTK
usePosition
Time
22.18
21.84
22.93
21.67
22.51
22.226
0.509048131
PVTU
maxNGramLeng=6
Time
15.56
17.14
16.11
15.96
15.04
15.962
0.778023136
PVTX
cleanGazette
Time
21.07
23.25
21.1
20.91
21.01
21.468
0.998809291
PVTA
wordShape (jenny1)
Time
19.84
21.76
20.21
23.59
22.2
21.52
1.528348782
C-13
C-14 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTE
maxLeft=1
Time
12.91
14.6
12.85
13.57
12.58
13.302
0.811769672
PVTM
useSequences
Time
20.12
21.23
21.77
22.04
22.42
21.516
0.892597334
PVTN
usePrevSequences
Time
23.8
20.75
22.28
20.42
19.94
21.438
1.584430497
PVTS
useSum
Time
22.53
21.01
21.33
20.78
21.05
21.34
0.69332532
PVTR
strictlyFirstOrder
Time
19.91
20.97
21.64
20.42
19.66
20.52
0.80290099
PVTB
useTypeSeqs
Time
19.42
20.12
20.54
21.62
19.77
20.294
0.849635216
PVTW
useGazettes
Time
19.18
19.72
21.02
21.17
19.6
20.138
0.897897544
PVTF
useWord
Time
19.58
20.01
20.56
21.01
19.51
20.134
0.644305828
PVTC
useTypeSeqs2
Time
19.18
19.74
20.85
20.82
20.07
20.132
0.716358849
PVTJ
useSymWordPairs
Time
23.57
23.56
25.14
24.38
24.51
24.232
0.673327558
PVTH
useNext
Time
19.92
22.25
20.63
21.96
21.02
21.156
0.957355733
PVTG
usePrev
Time
19.45
20.46
21.31
21.41
20.31
20.588
0.804002488
PVTI
useWordPairs
Time
26.32
27.61
25.89
28.33
25.24
26.678
1.266360928
PVTD
useTypeySequences
Time
22.3
23.68
24
22.94
22.2
23.024
0.80515837
4. Model 5 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDQ
disjunctionWidth=6
F-Measure
0.9059
0.9245
0.913
0.9078
0.8887
0.90798
0.012982565
PVTDU
maxNGramLeng=6
F-Measure
0.916
0.9281
0.9227
0.912
0.8934
0.91444
0.013284314
PVTDK
usePosition
F-Measure
0.9173
0.9282
0.9229
0.9132
0.8922
0.91476
0.013826894
PVTDM
useSequences
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDF
useWord
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDS
useSum
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDR
strictlyFirstOrder
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDC
useTypeSeqs2
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDW
useGazettes
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDN
usePrevSequences
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDB
useTypeSeqs
F-Measure
0.9181
0.9288
0.9228
0.9138
0.8935
0.9154
0.01345158
PVTDE
maxLeft=1
F-Measure
0.9186
0.9288
0.9223
0.9136
0.8939
0.91544
0.013256055
PVTDO
useDisjShape
F-Measure
0.9182
0.9287
0.9225
0.9136
0.8943
0.91546
0.013072605
PVTDL
useClassFeature
F-Measure
0.919
0.9284
0.9231
0.9134
0.8937
0.91552
0.013379723
C-15
C-16 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDX
cleanGazette
F-Measure
0.917
0.9287
0.9237
0.9144
0.8959
0.91594
0.012531281
PVTDH
useNext
F-Measure
0.9191
0.9321
0.9251
0.9137
0.8966
0.91732
0.0134589
PVTDA
wordShape (jenny1)
F-Measure
0.9185
0.9294
0.9293
0.9144
0.8987
0.91806
0.012681995
PVTDJ
useSymWordPairs
F-Measure
0.9217
0.9315
0.9246
0.9185
0.8993
0.91912
0.012074436
PVTDI
useWordPairs
F-Measure
0.9214
0.9331
0.9251
0.92
0.8997
0.91986
0.012364991
PVTDG
usePrev
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDQ
disjunctionWidth=6
Time
22.37
23.27
22.5
23.87
23.25
23.052
0.6175921
PVTDU
maxNGramLeng=6
Time
16.51
18.04
18.89
17.72
16.81
17.594
0.9597031
PVTDK
usePosition
Time
25.91
25.45
28.71
27.28
24.96
26.462
1.5254081
PVTDM
useSequences
Time
22.84
24.58
24.74
22.69
24.46
23.862
1.0077301
PVTDF
useWord
Time
22.91
25.43
25.13
22.06
23.14
23.734
1.4713361
PVTDS
useSum
Time
22.69
25.02
25.39
22.35
22.19
23.528
1.5470359
PVTDR
strictlyFirstOrder
Time
22.87
24.18
24.92
23.15
22.44
23.512
1.0150222
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDC
useTypeSeqs2
Time
22.79
24.77
24.72
22.43
22.73
23.488
1.1556903
PVTDW
useGazettes
Time
22.64
24.61
25.15
21.91
22.58
23.378
1.4137079
PVTDN
usePrevSequences
Time
22.83
24.28
25.11
22.27
22.22
23.342
1.2918862
PVTDB
useTypeSeqs
Time
22.54
24.42
24.73
22.56
22.35
23.32
1.1537981
PVTDE
maxLeft=1
Time
15.16
15.75
15.81
15.28
14.69
15.338
0.4602934
PVTDO
useDisjShape
Time
23.55
24.58
23.69
23.61
24.09
23.904
0.4327586
PVTDL
useClassFeature
Time
22.86
26.03
22.89
25.48
24.08
24.268
1.4569043
PVTDX
cleanGazette
Time
23.08
23.73
23.23
21.57
22.28
22.778
0.8528013
PVTDH
useNext
Time
23.99
25.55
25.99
24.78
24.43
24.948
0.8158554
PVTDA
wordShape (jenny1)
Time
24.34
23.36
23.28
22.57
25.42
23.794
1.1059747
PVTDJ
useSymWordPairs
Time
28.8
29.04
30.03
27.91
31.27
29.41
1.2848152
PVTDI
useWordPairs
Time
31.74
33.47
34.06
34.24
32.48
33.198
1.0658424
PVTDG
usePrev
Time
23.18
26.32
23.54
23.46
22.8
23.86
1.4053469
C-17
C-18 5. Model 6 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGQ
disjunctionWidth=6
F-Measure
0.9162
0.9307
0.9192
0.9181
0.8966
0.91616
0.012318807
PVTDGK
usePosition
F-Measure
0.9218
0.9333
0.9285
0.9234
0.8993
0.92126
0.013081399
PVTDGU
maxNGramLeng=6
F-Measure
0.9225
0.934
0.9303
0.9225
0.9032
0.9225
0.011890963
PVTDGO
useDisjShape
F-Measure
0.9238
0.9346
0.9281
0.9237
0.9043
0.9229
0.011306414
PVTDGE
maxLeft=1
F-Measure
0.924
0.9354
0.9291
0.9238
0.9047
0.9234
0.011474973
PVTDGL
useClassFeature
F-Measure
0.924
0.935
0.9306
0.9241
0.9041
0.92356
0.01182806
PVTDGF
useWord
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGC
useTypeSeqs2
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGW
useGazettes
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGR
strictlyFirstOrder
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGM
useSequences
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGB
useTypeSeqs
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGS
useSum
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
PVTDGX
cleanGazette
F-Measure
0.924
0.9354
0.9303
0.924
0.9051
0.92376
0.011473578
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGA
wordShape=jenny1
F-Measure
0.9232
0.9335
0.9336
0.9226
0.9096
0.9245
0.009888377
PVTDGJ
useSymWordPairs
F-Measure
0.9242
0.9367
0.9316
0.9237
0.9074
0.92472
0.011092204
PVTDGI
useWordPairs
F-Measure
0.9245
0.9377
0.931
0.9256
0.9094
0.92564
0.010478693
PVTDGH
useNext
F-Measure
0.9241
0.9406
0.931
0.9258
0.9097
0.92624
0.011260684
PVTDGN
usePrevSequences
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGQ
disjunctionWidth=6
Time
24.5
25.33
27.29
24.02
22.91
24.81
1.639435879
PVTDGK
usePosition
Time
25.56
24.5
26.78
26.01
24.98
25.566
0.88751338
PVTDGU
maxNGramLeng=6
Time
16.8
17.69
18.11
18.36
18.61
17.914
0.709387059
PVTDGO
useDisjShape
Time
24.07
24.81
24.05
26
24.61
24.708
0.795185513
PVTDGE
maxLeft=1
Time
15
16.39
15.27
16.21
14.44
15.462
0.823935677
PVTDGL
useClassFeature
Time
22.82
23.93
25.12
23.12
24.26
23.85
0.91940198
PVTDGF
useWord
Time
24.07
27.53
23.73
23.43
22.66
24.284
1.88785063
PVTDGC
useTypeSeqs2
Time
22.93
25.59
23.43
23.76
23.5
23.842
1.022335561
PVTDGW
useGazettes
Time
23.33
24.95
23.54
24.28
22.42
23.704
0.961732811
C-19
C-20 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGR
strictlyFirstOrder
Time
23.2
25.67
23.23
23.84
22.48
23.684
1.210218988
PVTDGM
useSequences
Time
23.11
24.91
23.25
24.12
22.66
23.61
0.898916014
PVTDGB
useTypeSeqs
Time
23.11
25.27
22.9
23.38
23.23
23.578
0.962013513
PVTDGS
useSum
Time
23.69
24.91
22.74
23.26
22.61
23.442
0.926644484
PVTDGX
cleanGazette
Time
22.95
24.79
23.07
23.47
22.61
23.378
0.847065523
PVTDGA
wordShape=jenny1
Time
23.37
25.56
24.49
24.48
23.56
24.292
0.875825325
PVTDGJ
useSymWordPairs
Time
29.45
30.75
32.96
29.72
28.49
30.274
1.70365196
PVTDGI
useWordPairs
Time
27.82
32.36
33.47
34.99
33.68
32.464
2.759027002
PVTDGH
useNext
Time
23.27
25.57
24.53
23.64
22.77
23.956
1.108097469
PVTDGN
usePrevSequences
Time
35.01
34.69
39.76
39.5
40.15
37.822
2.725246778
6. Model 7 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNQ
disjunctionWidth=6
F-Measure
0.9302
0.9403
0.9362
0.9295
0.9095
0.92914
0.011846645
PVTDGNK
usePosition
F-Measure
0.9287
0.9438
0.9355
0.9338
0.9146
0.93128
0.010791061
PVTDGNI
useWordPairs
F-Measure
0.9295
0.9443
0.9359
0.9328
0.9139
0.93128
0.011162527
PVTDGNO
useDisjShape
F-Measure
0.93
0.9434
0.9376
0.9332
0.915
0.93184
0.010672769
PVTDGNF
useWord
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNX
cleanGazette
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNR
strictlyFirstOrder
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNC
useTypeSeqs2
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNS
useSum
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNM
useSequences
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNW
useGazettes
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNB
useTypeSeqs
F-Measure
0.9302
0.9442
0.9374
0.9334
0.9152
0.93208
0.010786658
PVTDGNU
maxNGramLeng=6
F-Measure
0.9301
0.9443
0.9386
0.9336
0.914
0.93212
0.011455872
PVTDGNL
useClassFeature
F-Measure
0.9299
0.944
0.938
0.9336
0.9152
0.93214
0.010829497
C-21
C-22 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNH
useNext
F-Measure
0.9306
0.945
0.938
0.933
0.9148
0.93228
0.011218378
PVTDGNJ
useSymWordPairs
F-Measure
0.9308
0.9438
0.9366
0.9338
0.9168
0.93236
0.009943239
PVTDGNE
maxLeft=1
F-Measure
0.9304
0.9442
0.9386
0.9336
0.915
0.93236
0.011021252
PVTDGNA
wordShape (jenny1)
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNQ
disjunctionWidth=6
Time
38.28
40.57
42.72
42.11
40.93
40.922
1.713788202
PVTDGNK
usePosition
Time
41.53
44.53
49.45
43.24
43.5
44.45
2.995805401
PVTDGNI
useWordPairs
Time
45.12
52.27
53.73
52.57
48.82
50.502
3.521983816
PVTDGNO
useDisjShape
Time
38.33
42.06
40.02
39.07
41.13
40.122
1.508333517
PVTDGNF
useWord
Time
40.72
40.66
42.52
41.41
40.72
41.206
0.796668061
PVTDGNX
cleanGazette
Time
37.25
39.63
44.39
40.91
40.65
40.566
2.579744173
PVTDGNR
strictlyFirstOrder
Time
37.82
40.34
41.69
40.52
41.86
40.446
1.617059059
PVTDGNC
useTypeSeqs2
Time
37.23
41.31
42.08
40.13
41.36
40.422
1.916473324
PVTDGNS
useSum
Time
38.42
39.37
42.68
40
41.46
40.386
1.69280241
PVTDGNM
useSequences
Time
38.19
39.38
41.25
40.77
40.88
40.094
1.279269323
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNW
useGazettes
Time
36.79
40.17
41.77
39.28
39.77
39.556
1.806344375
PVTDGNB
useTypeSeqs
Time
36.71
35.91
42.21
39.59
41.19
39.122
2.746182805
PVTDGNU
maxNGramLeng=6
Time
28.12
31.83
33.51
31.16
28
30.524
2.407079143
PVTDGNL
useClassFeature
Time
35.18
40.89
40.13
39.81
41.67
39.536
2.539188847
PVTDGNH
useNext
Time
39.59
41.64
42.8
41.69
40.78
41.3
1.19501046
PVTDGNJ
useSymWordPairs
Time
67.85
49.16
47.87
46.12
48.57
51.914
8.981193128
PVTDGNE
maxLeft=1
Time
30.31
33.3
37.46
32.57
33.62
33.452
2.586768254
PVTDGNA
wordShape=jenny1
Time
37.34
38.4
38.41
38.95
45.49
39.718
3.279050167
C-23
C-24 7. Model 8 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAQ
disjunctionWidth=6
F-Measure
0.9283
0.9444
0.9391
0.9317
0.9104
0.93078
0.013010265
PVTDGNAK
usePosition
F-Measure
0.9297
0.9443
0.94
0.9353
0.917
0.93326
0.010589287
PVTDGNAU
maxNGramLeng=6
F-Measure
0.929
0.9448
0.9403
0.9351
0.9171
0.93326
0.010786705
PVTDGNAL
useClassFeature
F-Measure
0.9312
0.9443
0.9398
0.9353
0.9157
0.93326
0.010970551
PVTDGNAI
useWordPairs
F-Measure
0.9296
0.9452
0.9397
0.9355
0.9168
0.93336
0.010878097
PVTDGNAH
useNext
F-Measure
0.9306
0.9445
0.9426
0.9339
0.9159
0.9335
0.011425191
PVTDGNAO
useDisjShape
F-Measure
0.9297
0.9439
0.942
0.9327
0.9192
0.9335
0.00999975
PVTDGNAE
maxLeft=1
F-Measure
0.9314
0.9447
0.9398
0.9355
0.9165
0.93358
0.010753
PVTDGNAF
useWord
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAC
useTypeSeqs2
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAM
useSequences
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAR
strictlyFirstOrder
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAS
useSum
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAW
useGazettes
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAX
cleanGazette
F-Measure
0.9314
0.9441
0.9408
0.9356
0.9165
0.93368
0.010762295
PVTDGNAJ
useSymWordPairs
F-Measure
0.9324
0.9452
0.9391
0.9368
0.9172
0.93414
0.010535559
PVTDGNAB
useTypeSeqs
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNAQ
disjunctionWidth=6
Time
37.73
46.9
45.8
45.37
42.59
43.678
3.684748295
PVTDGNAK
usePosition
Time
45.54
62.52
62.13
48.01
48.49
53.338
8.281121301
PVTDGNAU
maxNGramLeng=6
Time
31.47
33.78
32.67
32.75
34.55
33.044
1.174044292
PVTDGNAL
useClassFeature
Time
44.03
48.69
46.53
58.45
53.32
50.204
5.73617294
PVTDGNAI
useWordPairs
Time
52.87
58.52
59.01
57.04
57.96
57.08
2.464680507
PVTDGNAH
useNext
Time
43.31
44.2
45
55.9
63.05
50.292
8.776136394
PVTDGNAO
useDisjShape
Time
47.58
50.33
63.68
47.36
46.56
51.102
7.173543058
PVTDGNAE
maxLeft=1
Time
34.42
37.46
37.66
39.36
44.39
38.658
3.665394931
PVTDGNAF
useWord
Time
43.57
45.29
47.98
47.87
52.98
47.538
3.560880509
PVTDGNAC
useTypeSeqs2
Time
39.49
45.2
46.96
46.95
53.59
46.438
5.0371887
PVTDGNAM
useSequences
Time
39.84
43.21
45.83
46.53
52.71
45.624
4.752807591
C-25
C-26 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNAR
strictlyFirstOrder
Time
37.53
42.78
43.48
44.98
50.97
43.948
4.825647107
PVTDGNAS
useSum
Time
37.68
42.21
44.92
45.17
49.47
43.89
4.336536637
PVTDGNAW
useGazettes
Time
36.27
42.53
43.81
45.09
49.95
43.53
4.935483766
PVTDGNAX
cleanGazette
Time
37.19
41.71
43.53
44.04
50.86
43.466
4.936509901
PVTDGNAJ
useSymWordPairs
Time
49.64
54.19
67.65
52.61
53.1
55.438
7.031555304
PVTDGNAB
useTypeSeqs
Time
48.49
53.84
51.16
47.49
63.96
52.988
6.612720318
8. Model 9 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNABQ
disjunctionWidth=6
F-Measure
0.9282
0.945
0.9402
0.9323
0.915
0.93214
0.011615421
PVTDGNABU
maxNGramLeng=6
F-Measure
0.9293
0.947
0.9433
0.9355
0.9149
0.934
0.012694881
PVTDGNABX
cleanGazette
F-Measure
0.9305
0.9428
0.9436
0.9358
0.9183
0.9342
0.010384845
PVTDGNABO
useDisjShape
F-Measure
0.9312
0.9449
0.9439
0.9342
0.9198
0.9348
0.010285184
PVTDGNABL
useClassFeature
F-Measure
0.9311
0.9462
0.9434
0.9357
0.9177
0.93482
0.011300752
PVTDGNABK
usePosition
F-Measure
0.9311
0.947
0.9423
0.9363
0.9177
0.93488
0.011329254
PVTDGNABF
useWord
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
PVTDGNABR
strictlyFirstOrder
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
PVTDGNABS
useSum
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
PVTDGNABM
useSequences
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
PVTDGNABW
useGazettes
F-Measure
0.9319
0.9458
0.944
0.9357
0.9177
0.93502
0.011258641
PVTDGNABE
maxLeft=1
F-Measure
0.9319
0.9457
0.944
0.9359
0.9183
0.93516
0.011007634
PVTDGNABJ
useSymWordPairs
F-Measure
0.9317
0.9459
0.9424
0.938
0.9181
0.93522
0.010941069
PVTDGNABI
useWordPairs
F-Measure
0.93
0.9462
0.9438
0.9374
0.9188
0.93524
0.011133194
C-27
C-28 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNABH
useNext
F-Measure
0.9321
0.9476
0.9432
0.9365
0.9175
0.93538
0.011642465
PVTDGNABC
useTypeSeqs2
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.93586
0.012296463
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABQ
disjunctionWidth=6
Time
52.9
58.15
58.49
71.26
59.8
60.12
6.761438456
PVTDGNABU
maxNGramLeng=6
Time
46.84
50.2
48.7
50.7
47.59
48.806
1.649660571
PVTDGNABX
cleanGazette
Time
55.08
75.81
61.19
73.69
57.52
64.658
9.495528948
PVTDGNABO
useDisjShape
Time
73.65
65.68
63.74
65.21
62.34
66.124
4.406680156
PVTDGNABL
useClassFeature
Time
54.82
64.31
60.2
58.93
60.55
59.762
3.413673974
PVTDGNABK
usePosition
Time
61.55
79.33
64.24
64.51
64.71
66.868
7.083538664
PVTDGNABF
useWord
Time
59.26
68.31
61.64
59.58
68.72
63.502
4.668727878
PVTDGNABR
strictlyFirstOrder
Time
55.97
62.81
63.33
57.51
68.56
61.636
5.032820283
PVTDGNABS
useSum
Time
54.56
62.05
62.03
57.78
69.79
61.242
5.722252179
PVTDGNABM
useSequences
Time
54.06
62.26
62.73
56.6
68.79
60.888
5.760327248
PVTDGNABW
useGazettes
Time
54.15
61.81
61.08
56.56
70.04
60.728
6.096111055
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABE
maxLeft=1
Time
48.32
52.11
51.97
46.77
60.75
51.984
5.419167833
PVTDGNABJ
useSymWordPairs
Time
64.67
83.42
67.75
66.46
68.47
70.154
7.555159164
PVTDGNABI
useWordPairs
Time
70.5
76.23
75.92
69.22
87.58
75.89
7.251096469
PVTDGNABH
useNext
Time
55.42
59.93
62.08
77.49
61.12
63.208
8.381615
PVTDGNABC
useTypeSeqs2
Time
49.64
55.9
68.64
69.02
76.14
63.868
10.79168754
C-29
C-30 9. Model 10 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNABCQ
disjunctionWidth=6
F-Measure
0.93
0.9419
0.9397
0.9323
0.9141
0.9316
0.010965856
PVTDGNABCE
maxLeft=1
F-Measure
0.9302
0.9458
0.9445
0.9354
0.9177
0.9347
0.01149987
PVTDGNABCU
maxNGramLeng=6
F-Measure
0.9312
0.9483
0.9428
0.9357
0.9173
0.9351
0.011894663
PVTDGNABCH
useNext
F-Measure
0.9319
0.9466
0.9441
0.9356
0.9176
0.9352
0.01151056
PVTDGNABCL
useClassFeature
F-Measure
0.9323
0.9473
0.9451
0.9354
0.9163
0.9353
0.012349575
PVTDGNABCI
useWordPairs
F-Measure
0.9321
0.9463
0.9435
0.9371
0.9186
0.9355
0.01095865
PVTDGNABCJ
useSymWordPairs
F-Measure
0.9337
0.9462
0.9439
0.9366
0.9173
0.9355
0.011409777
PVTDGNABCK
usePosition
F-Measure
0.9334
0.9481
0.9441
0.9363
0.9171
0.9358
0.01199875
PVTDGNABCX
cleanGazette
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
PVTDGNABCS
useSum
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
PVTDGNABCM
useSequences
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
PVTDGNABCR
strictlyFirstOrder
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
PVTDGNABCW
useGazettes
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNABCF
useWord
F-Measure
0.9332
0.9479
0.9451
0.9364
0.9167
0.9359
0.012296463
PVTDGNABCO
useDisjShape
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABCQ
disjunctionWidth=6
Time
57.87
79.7
67.05
79.4
62.33
69.27
9.9304305
PVTDGNABCE
maxLeft=1
Time
39.81
41.15
40.12
40.2
50.06
42.268
4.3845604
PVTDGNABCU
maxNGramLeng=6
Time
49.8
51.6
56.82
67.96
52.01
55.638
7.3617063
PVTDGNABCH
useNext
Time
57.85
82.17
70.13
65.3
67.1
68.51
8.8762013
PVTDGNABCL
useClassFeature
Time
74.98
62.64
63.59
64.59
63.35
65.83
5.1624655
PVTDGNABCI
useWordPairs
Time
90.22
75.96
76.3
89.79
71.26
80.706
8.7206582
PVTDGNABCJ
useSymWordPairs
Time
66.07
72.19
72.83
70.42
75.42
71.386
3.4712289
PVTDGNABCK
usePosition
Time
63.33
65.64
70.84
67.77
65.53
66.622
2.8329966
PVTDGNABCX
cleanGazette
Time
59.07
65.81
81.07
78.4
72.85
71.44
9.053734
PVTDGNABCS
useSum
Time
55.13
65.44
81.68
79.99
74.06
71.26
11.030397
PVTDGNABCM
useSequences
Time
56.17
67.11
81.04
77.78
72.85
70.99
9.8139314
C-31
C-32 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABCR
strictlyFirstOrder
Time
55.64
64.65
79.2
79.29
73.29
70.414
10.194892
PVTDGNABCW
useGazettes
Time
55.15
65.14
80.42
78.02
73.06
70.358
10.316997
PVTDGNABCF
useWord
Time
51.56
63.13
78.47
75.17
76.65
68.996
11.45516
PVTDGNABCO
useDisjShape
Time
70.11
71.37
93.98
70.17
67.44
74.614
10.920931
10. Model 11 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNABCOQ
disjunctionWidth
F-Measure
0.9291
0.9427
0.9383
0.9322
0.9149
0.93144
0.010647441
PVTDGNABCOU
maxNGramLeng
F-Measure
0.9297
0.946
0.944
0.9346
0.9202
0.9349
0.010597641
PVTDGNABCOI
useWordPairs
F-Measure
0.9308
0.9448
0.9449
0.9345
0.92
0.935
0.010451555
PVTDGNABCOE
maxLeft=1
F-Measure
0.9312
0.9464
0.9442
0.934
0.9195
0.93506
0.010842878
PVTDGNABCOH
useNext
F-Measure
0.9323
0.947
0.9435
0.9335
0.9206
0.93538
0.010397452
PVTDGNABCOL
useClassFeature
F-Measure
0.9321
0.9476
0.9449
0.9339
0.9205
0.9358
0.010879338
PVTDGNABCOK
usePosition
F-Measure
0.9317
0.9479
0.9447
0.9359
0.9192
0.93588
0.011379455
PVTDGNABCOF
useWord
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOM
useSequences
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOR
strictlyFirstOrder
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOS
useSum
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOW
useGazettes
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOX
cleanGazette
F-Measure
0.9326
0.9472
0.9445
0.9347
0.9205
0.9359
0.010620028
PVTDGNABCOJ
useSymWordPairs
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
C-33
C-34 Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABCOQ
disjunctionWidth
Time
73.19
72.53
60.25
81.81
75.31
72.618
7.82691
PVTDGNABCOU
maxNGramLeng
Time
68.41
74.36
57.6
73.44
55.69
65.9
8.7729328
PVTDGNABCOI
useWordPairs
Time
82.21
109.3
86.53
107.35
100.89
97.256
12.263583
PVTDGNABCOE
maxLeft=1
Time
46.4
48.12
45.92
47.57
64.9
50.582
8.0523611
PVTDGNABCOH
useNext
Time
73.6
98.96
91.33
75.41
76.5
83.16
11.315925
PVTDGNABCOL
useClassFeature
Time
68.12
77.97
76.68
72.38
72.81
73.592
3.8963406
PVTDGNABCOK
usePosition
Time
73.08
78.79
76.87
92.86
72.91
78.902
8.1970586
PVTDGNABCOF
useWord
Time
72.51
74.09
98.5
73.66
71.88
78.128
11.422415
PVTDGNABCOM
useSequences
Time
71.95
74.52
98.82
73.32
70.74
77.87
11.79736
PVTDGNABCOR
strictlyFirstOrder
Time
69.21
69.78
93.29
70.03
68.07
74.076
10.767469
PVTDGNABCOS
useSum
Time
66.67
69.52
93.08
69.6
68.19
73.412
11.059307
PVTDGNABCOW
useGazettes
Time
64.99
69.16
93.79
69.38
68.21
73.106
11.695321
PVTDGNABCOX
cleanGazette
Time
67.07
69.68
91.9
69.13
67.69
73.094
10.565582
PVTDGNABCOJ
useSymWordPairs
Time
78.19
84.08
87.42
80.54
82.92
82.63
3.5075775
11. Model 12 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNA BCOJQ PVTDGNA BCOJE PVTDGNA BCOJU PVTDGNA BCOJI PVTDGNA BCOJK PVTDGNA BCOJL PVTDGNA BCOJH PVTDGNA BCOJS PVTDGNA BCOJF
disjunctionWidth=6
F-Measure
0.93
0.9415
0.9387
0.9329
0.9167
0.93196
0.009669953
maxLeft=1
F-Measure
0.9317
0.9457
0.9422
0.9343
0.9192
0.93462
0.010327488
maxNGramLeng=6
F-Measure
0.9311
0.9464
0.944
0.9345
0.9193
0.93506
0.01087304
useWordPairs
F-Measure
0.9313
0.946
0.9445
0.9343
0.9194
0.9351
0.010825202
usePosition
F-Measure
0.933
0.9458
0.9445
0.936
0.9186
0.93558
0.010944953
useClassFeature
F-Measure
0.9324
0.947
0.9445
0.9353
0.9202
0.93588
0.010680215
useNext
F-Measure
0.9339
0.9468
0.9445
0.9347
0.9203
0.93604
0.010505618
useSum
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
useWord
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
C-35
C-36 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNA BCOJW PVTDGNA BCOJX PVTDGNA BCOJM PVTDGNA BCOJR
useGazettes
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
cleanGazette
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
useSequences
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
strictlyFirstOrder
F-Measure
0.932
0.9481
0.9453
0.9347
0.9201
0.93604
0.011218199
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNA BCOJQ PVTDGNA BCOJE PVTDGNA BCOJU PVTDGNA BCOJI PVTDGNA BCOJK
disjunctionWidth=6
Time
90.65
96.75
92.85
90.43
74.2
88.976
8.6413182
maxLeft=1
Time
49.87
50.88
54.67
62.43
65.42
56.654
6.9552664
maxNGramLeng=6
Time
66.33
69.97
65
64.6
66.62
66.504
2.118025
useWordPairs
Time
83.94
91.69
118.08
116.58
111.14
104.29
15.500106
usePosition
Time
93.06
103.67
100.57
83.37
99.84
96.102
8.1019732
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNA BCOJL PVTDGNA BCOJH PVTDGNA BCOJS PVTDGNA BCOJF PVTDGNA BCOJW PVTDGNA BCOJX PVTDGNA BCOJM PVTDGNA BCOJR
useClassFeature
Time
95.93
104.13
82.69
77.51
94.36
90.924
10.712128
useNext
Time
75.75
105.54
82.76
80.06
98.93
88.608
12.901859
useSum
Time
80.75
80.91
86.03
77.37
81.31
81.274
3.093102
useWord
Time
79.47
83.06
85.8
76.67
79.47
80.894
3.5587259
useGazettes
Time
73.75
81.7
84.94
77.42
81.24
79.81
4.3118905
cleanGazette
Time
74.15
80.51
84.33
76.65
80.15
79.158
3.9029374
useSequences
Time
74.04
83.84
85.59
74.48
76.65
78.92
5.4170149
strictlyFirstOrder
Time
68.39
77.02
80.18
72.49
75.12
74.64
4.4797154
C-37
C-38 12. Model 13 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAB COJRQ PVTDGNAB COJRE PVTDGNAB COJRU PVTDGNAB COJRI PVTDGNAB COJRK PVTDGNAB COJRL PVTDGNAB COJRH PVTDGNAB COJRF PVTDGNAB COJRS
disjunctionWidth=6
F-Measure
0.93
0.942
0.939
0.933
0.917
0.93196
0.009669953
maxLeft=1
F-Measure
0.932
0.946
0.942
0.934
0.919
0.93462
0.010327488
maxNGramLeng=6
F-Measure
0.931
0.946
0.944
0.935
0.919
0.93506
0.01087304
useWordPairs
F-Measure
0.931
0.946
0.945
0.934
0.919
0.9351
0.010825202
usePosition
F-Measure
0.933
0.946
0.945
0.936
0.919
0.93558
0.010944953
useClassFeature
F-Measure
0.932
0.947
0.945
0.935
0.92
0.93588
0.010680215
useNext
F-Measure
0.934
0.947
0.945
0.935
0.92
0.93604
0.010505618
useWord
F-Measure
0.932
0.948
0.945
0.935
0.92
0.93604
0.011218199
useSum
F-Measure
0.932
0.948
0.945
0.935
0.92
0.93604
0.011218199
Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAB COJRW PVTDGNAB COJRM PVTDGNAB COJRX
useGazettes
F-Measure
0.932
0.948
0.945
0.935
0.92
0.93604
0.011218199
useSequences
F-Measure
0.932
0.948
0.945
0.935
0.92
0.93604
0.011218199
cleanGazette
F-Measure
0.932
0.948
0.945
0.935
0.92
0.93604
0.011218199
Uji Time Kode
Feature Extractor
Uji
Model 2 100.52
Model 3 96.32
Model 4 93.45
Model 5 77.82
T_AVG
T_STDEV
Time
Model 1 91.56
PVTDGNAB COJRQ PVTDGNAB COJRE PVTDGNAB COJRU PVTDGNAB COJRI PVTDGNAB COJRK PVTDGNAB
disjunctionWidth=6
91.934
8.5819508
maxLeft=1
Time
48.43
49.89
50.76
51.64
59.59
52.062
4.3718726
maxNGramLeng=6
Time
64.02
67.83
62.97
62.02
64.87
64.342
2.2261334
useWordPairs
Time
80.43
90.2
118.45
115.52
110.21
102.96
16.73824
usePosition
Time
93.23
99.27
95.55
80.63
97.34
93.204
7.3741562
useClassFeature
Time
92.21
98.5
77.79
75.36
92.67
87.306
10.141357
C-39
C-40 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
useNext
Time
73.91
103.62
79.99
77.98
96.9
86.48
12.987792
useWord
Time
72.94
79.56
83.21
75.69
79.54
78.188
3.9595543
useSum
Time
72.62
79.21
82.26
76.07
79
77.832
3.6448553
useGazettes
Time
71.08
77.39
82.52
74.89
81.89
77.554
4.8088075
useSequences
Time
73.46
78.6
82.31
74.9
78.17
77.488
3.4596199
cleanGazette
Time
73.47
78.32
82.25
74.13
79.22
77.478
3.6670383
COJRL PVTDGNAB COJRH PVTDGNAB COJRF PVTDGNAB COJRS PVTDGNAB COJRW PVTDGNAB COJRM PVTDGNAB COJRX
13. Model 15 Feature Extractor Uji F-Measure Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAB COJRXWQ PVTDGNAB COJRXWE PVTDGNAB COJRXWI PVTDGNAB COJRXWU PVTDGNAB COJRXWH PVTDGNAB COJRXWK PVTDGNAB COJRXWL PVTDGNAB COJRXWF PVTDGNAB COJRXWM
disjunctionWidth=6
F-Measure
0.931
0.941
0.939
0.934
0.918
0.9329
0.00909148
maxLeft=1
F-Measure
0.932
0.944
0.943
0.935
0.919
0.93426
0.01022316
useWordPairs
F-Measure
0.932
0.943
0.944
0.935
0.918
0.9343
0.010313826
maxNGramLeng=6
F-Measure
0.932
0.943
0.944
0.935
0.919
0.9345
0.01008241
useNext
F-Measure
0.932
0.943
0.944
0.936
0.919
0.93484
0.010061461
usePosition
F-Measure
0.93
0.944
0.945
0.937
0.919
0.93494
0.010895091
useClassFeature
F-Measure
0.932
0.944
0.944
0.936
0.919
0.93498
0.010311014
useWord
F-Measure
0.932
0.944
0.945
0.936
0.92
0.9352
0.010053606
useSequences
F-Measure
0.932
0.944
0.945
0.936
0.92
0.9352
0.010053606
C-41
C-42 Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
PVTDGNAB COJRXWS
useSum
F-Measure
0.932
0.944
0.945
0.936
0.92
0.9352
0.010053606
Uji Time Kode
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
PVTDGNABCOJRQ
disjunctionWidth=6
Time
88.87
98.13
73.78
91.16
89.98
88.384
8.9267984
PVTDGNABCOJRE
maxLeft=1
Time
51
48.62
52.92
49.47
75.35
55.472
11.231877
PVTDGNABCOJRI
useWordPairs
Time
83.19
107.34
84.34
114.67
109.3
99.768
14.858643
PVTDGNABCOJRU
maxNGramLeng=6
Time
73.07
81.31
81.35
62.27
62.29
72.058
9.5417986
PVTDGNABCOJRH
useNext
Time
93.48
99.94
81.99
77.94
93.2
89.31
9.0605905
PVTDGNABCOJRK
usePosition
Time
88.63
79.44
99.32
78.38
95.46
88.246
9.3502182
PVTDGNABCOJRL
useClassFeature
Time
67.06
96.95
81.99
72.86
71.56
78.084
11.859217
PVTDGNABCOJRF
useWord
Time
77.41
79.04
77.57
89.5
74.82
79.668
5.7023215
PVTDGNABCOJRM
useSequences
Time
71.05
77.35
78.87
90
75.43
78.54
7.0467865
PVTDGNABCOJRS
useSum
Time
72
77.38
76.69
89.89
74.28
78.048
6.9516092
D. Backward Elimination Feature Extractor 1. Model 24 Feature Extractor Uji F-Measure Kode Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
ABCDEFGHIJKL MNOPQRSTUV WX
F-Measure
0.9273
0.9427
0.9393
0.9283
0.9142
0.9304
0.011258
Model 1 60.82
Model 2 58.14
Model 3 72.96
Uji Time Kode Feature Extractor ABCDEFGHIJKL MNOPQRSTUV WX
Uji Time
Model 4 72.24
C-43
Model 5 74.6
T_AVG
T_STDEV
67.752
7.658389
C-44 2. Model 23 Feature Extractor Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
T
useNGrams
F-Measure
0.9168
0.9294
0.9275
0.9185
0.8997
0.91838
0.011790547
N
usePrevSequences
F-Measure
0.9243
0.9388
0.9343
0.9264
0.9085
0.92646
0.011629402
G
usePrev
F-Measure
0.925
0.9384
0.9345
0.9261
0.9097
0.92674
0.011067656
P
useDisjunctive
F-Measure
0.9269
0.9412
0.9348
0.9291
0.9117
0.92874
0.011021025
B
useTypeSeqs
F-Measure
0.9259
0.94
0.9372
0.9299
0.9132
0.92924
0.010583147
A
wordShape (jenny1)
F-Measure
0.928
0.9419
0.9362
0.9293
0.911
0.92928
0.011650622
X
cleanGazette
F-Measure
0.9267
0.9418
0.9397
0.928
0.914
0.93004
0.011227333
W
useGazettes
F-Measure
0.9267
0.9418
0.9397
0.928
0.914
0.93004
0.011227333
D
useTypeySequences
F-Measure
0.9289
0.9416
0.9373
0.9303
0.9126
0.93014
0.011088417
I
useWordPairs
F-Measure
0.927
0.943
0.9376
0.9289
0.9142
0.93014
0.011028509
S
useSum
F-Measure
0.9273
0.9427
0.9393
0.9283
0.9142
0.93036
0.011257797
F
useWord
F-Measure
0.9273
0.9427
0.9393
0.9283
0.9142
0.93036
0.011257797
M
useSequences
F-Measure
0.9273
0.9427
0.9393
0.9283
0.9142
0.93036
0.011257797
R
strictlyFirstOrder
F-Measure
0.9273
0.9427
0.9393
0.9283
0.9142
0.93036
0.011257797
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
L
useClassFeature
F-Measure
0.9275
0.9429
0.9391
0.9287
0.9137
0.93038
0.01142506
J
useSymWordPairs
F-Measure
0.927
0.9433
0.939
0.9304
0.913
0.93054
0.011774889
O
useDisjShape
F-Measure
0.926
0.9448
0.9391
0.9314
0.9116
0.93058
0.012812962
C
useTypeSeqs2
F-Measure
0.9284
0.9437
0.9397
0.929
0.9135
0.93086
0.011767455
H
useNext
F-Measure
0.9277
0.9431
0.9402
0.9293
0.9144
0.93094
0.011405832
K
usePosition
F-Measure
0.9275
0.9431
0.9403
0.9295
0.9147
0.93102
0.011325723
E
maxLeft=1
F-Measure
0.9287
0.9419
0.9391
0.9321
0.9157
0.9315
0.010292716
U
maxNGramLeng=6
F-Measure
0.9301
0.9446
0.9391
0.932
0.9157
0.9323
0.010931834
Q
disjunctionWidth=6
F-Measure
0.9277
0.9446
0.944
0.9348
0.9171
0.93364
0.011593662
V
noMidNGrams
F-Measure
0.9305
0.9473
0.9409
0.9357
0.916
0.93408
0.011870215
C-45
C-46 Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
T
useNGrams
Time
59.75
69.78
68.42
69.95
86.05
70.79
9.514354944
N
usePrevSequences
Time
41.31
42.08
47.84
52.42
51.52
47.034
5.174193657
G
usePrev
Time
40.44
40.38
39.58
39.49
48.55
41.688
3.861032245
P
useDisjunctive
Time
60.13
80.29
71.86
72.69
78.19
72.632
7.849134984
B
useTypeSeqs
Time
58.51
61.46
48.43
55.38
81.83
61.122
12.5480624
A
wordShape (jenny1)
Time
38.08
37.66
38.8
34.89
38.19
37.524
1.527851433
X
cleanGazette
Time
71.09
96.48
98.83
84.13
81.25
86.356
11.42555382
W
useGazettes
Time
71.23
97.85
96.33
82.84
79.15
85.48
11.41096403
D
useTypeySequences
Time
55.54
61.49
88.62
87.65
74.07
73.474
14.96629647
I
useWordPairs
Time
59.82
70.07
60.65
62.04
80.88
66.692
8.91741947
S
useSum
Time
73.36
73.22
92.7
77.19
76.11
78.516
8.114260903
F
useWord
Time
61.86
71.21
94.95
79.25
84.2
78.294
12.58447973
M
useSequences
Time
59.5
69.79
94.37
77.87
78.03
75.912
12.80478504
R
strictlyFirstOrder
Time
61.01
58.33
77.09
71.63
76.04
68.82
8.652363839
L
useClassFeature
Time
68.68
61.8
81.32
92.41
95.42
79.926
14.60207109
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
J
useSymWordPairs
Time
57.92
67.31
86.9
67.29
65.89
69.062
10.70758469
O
useDisjShape
Time
68.8
67.84
64.17
65.31
71.63
67.55
2.94682032
C
useTypeSeqs2
Time
69.03
59.7
65.84
90.2
74.52
71.858
11.57093428
H
useNext
Time
72.83
60.2
63.76
88.29
70.03
71.022
10.86610648
K
usePosition
Time
55.72
63.82
88.9
74.45
91.54
74.886
15.52199987
E
maxLeft=1
Time
74.13
80.61
109.05
117.45
88.64
93.976
18.56906514
U
maxNGramLeng=6
Time
94.42
85.69
104.89
99.29
99.09
96.676
7.174815677
Q
disjunctionWidth=6
Time
58.49
60.69
67.24
79.38
83.07
69.774
11.01507739
V
noMidNGrams
Time
92.74
125.3
116.88
96.96
116.7
109.716
14.08776348
C-47
C-48 3. Model 22 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VT
useNGrams
F-Measure
0.9168
0.9294
0.9275
0.9185
0.8997
0.91838
0.011790547
VU
maxNGramLeng=6
F-Measure
0.9168
0.9294
0.9275
0.9185
0.8997
0.91838
0.011790547
VG
usePrev
F-Measure
0.9276
0.9406
0.9384
0.9311
0.9081
0.92916
0.012903217
VN
usePrevSequences
F-Measure
0.9277
0.9414
0.9382
0.9333
0.9103
0.93018
0.012260791
VP
useDisjunctive
F-Measure
0.9289
0.9439
0.9387
0.9329
0.9126
0.9314
0.011952824
VA
wordShape (jenny1)
F-Measure
0.9301
0.946
0.9378
0.933
0.9129
0.93196
0.012237769
VB
useTypeSeqs
F-Measure
0.9269
0.9455
0.9379
0.9361
0.9142
0.93212
0.012006748
VW
useGazettes
F-Measure
0.9288
0.9471
0.941
0.9343
0.915
0.93324
0.012307031
VX
cleanGazette
F-Measure
0.9288
0.9471
0.941
0.9343
0.915
0.93324
0.012307031
VO
useDisjShape
F-Measure
0.9281
0.9488
0.9411
0.9352
0.9143
0.9335
0.013158077
VD
useTypeySequences
F-Measure
0.9315
0.9461
0.9393
0.9366
0.9142
0.93354
0.01202593
VI
useWordPairs
F-Measure
0.9305
0.9471
0.9405
0.9355
0.9151
0.93374
0.012095784
VJ
useSymWordPairs
F-Measure
0.9307
0.9465
0.9409
0.9359
0.9156
0.93392
0.011799237
VL
useClassFeature
F-Measure
0.9305
0.9471
0.9407
0.9356
0.9162
0.93402
0.01170628
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VE
maxLeft=1
F-Measure
0.9299
0.9466
0.9414
0.9353
0.9172
0.93408
0.011338298
VR
strictlyFirstOrder
F-Measure
0.9305
0.9473
0.9409
0.9357
0.916
0.93408
0.011870215
VM
useSequences
F-Measure
0.9305
0.9473
0.9409
0.9357
0.916
0.93408
0.011870215
VS
useSum
F-Measure
0.9305
0.9473
0.9409
0.9357
0.916
0.93408
0.011870215
VF
useWord
F-Measure
0.9305
0.9473
0.9409
0.9357
0.916
0.93408
0.011870215
VH
useNext
F-Measure
0.9302
0.9465
0.9414
0.9357
0.9169
0.93414
0.0114089
VK
usePosition
F-Measure
0.9302
0.9467
0.9419
0.9361
0.916
0.93418
0.011899454
VC
useTypeSeqs2
F-Measure
0.9313
0.9475
0.9414
0.9359
0.9165
0.93452
0.011755935
VQ
disjunctionWidth=6
F-Measure
0.931
0.9458
0.9459
0.9365
0.9175
0.93534
0.011825523
C-49
C-50 Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VT
useNGrams
Time
63.88
72.47
73.08
73.11
89.12
74.332
9.14408388
VU
maxNGramLeng=6
Time
61.7
74.55
73.43
72.22
88.79
74.138
9.666109352
VG
usePrev
Time
64.42
64.96
64.08
64.54
67.68
65.136
1.456530123
VN
usePrevSequences
Time
61.84
72.49
68.68
80.81
71.38
71.04
6.85347722
VP
useDisjunctive
Time
90.23
124.36
99.98
94.67
93.14
100.476
13.81302393
VA
wordShape (jenny1)
Time
54.96
57.83
56.78
66.69
71.4
61.532
7.131968172
VB
useTypeSeqs
Time
77.95
107.42
102.68
112.07
96.8
99.384
13.25206512
VW
useGazettes
Time
89.92
123.49
120.35
95.76
120.82
110.068
15.90704152
VX
cleanGazette
Time
96.8
123.41
118.82
94.84
114.15
109.604
13.02041205
VO
useDisjShape
Time
88.79
88.48
91.47
90.66
107.34
93.348
7.921506801
VD
useTypeySequences
Time
108.16
92.68
94.33
93.89
112.43
100.298
9.269707115
VI
useWordPairs
Time
80.45
89.51
83.43
105
101.27
91.932
10.81616013
VJ
useSymWordPairs
Time
88.17
109.79
96.11
89.78
83.65
93.5
10.14206586
VL
useClassFeature
Time
95.87
93.71
119.31
120.08
117.24
109.242
13.25564295
VE
maxLeft=1
Time
131.02
135.67
116.29
111.97
103.47
119.684
13.39753634
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VR
strictlyFirstOrder
Time
92.4
127.37
119.76
100.39
116
111.184
14.38816632
VM
useSequences
Time
93.68
126.87
119.86
98.78
116.73
111.184
14.25070981
VS
useSum
Time
94.97
127.41
118.26
98
115.46
110.82
13.85357535
VF
useWord
Time
91.35
126.48
121.49
100.12
113.79
110.646
14.6741688
VH
useNext
Time
106.98
121.79
113.84
94.05
110.42
109.416
10.19489725
VK
usePosition
Time
86.83
99.38
99.36
119.47
95.06
100.02
12.01795948
VC
useTypeSeqs2
Time
109.91
92.38
118.35
97.17
115.64
106.69
11.42183216
VQ
disjunctionWidth=6
Time
112.21
123
122.04
97.71
98.04
110.6
12.36053599
C-51
C-52 4. Model 21 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQT
useNGrams
F-Measure
0.9186
0.9323
0.9327
0.9216
0.9068
0.9224
0.010753
VQU
maxNGramLeng=6
F-Measure
0.9186
0.9323
0.9327
0.9216
0.9068
0.9224
0.010753
VQP
useDisjunctive
F-Measure
0.9289
0.9439
0.9387
0.9329
0.9126
0.9314
0.011953
VQG
usePrev
F-Measure
0.9281
0.9416
0.9418
0.9339
0.9143
0.9319
0.011405
VQN
usePrevSequences
F-Measure
0.9278
0.9422
0.9419
0.9335
0.9148
0.932
0.011377
VQA
wordShape (jenny1)
F-Measure
0.934
0.9466
0.9405
0.9357
0.9135
0.9341
0.012491
VQB
useTypeSeqs
F-Measure
0.9292
0.9462
0.9426
0.9365
0.9176
0.9344
0.011404
VQC
useTypeSeqs2
F-Measure
0.9306
0.9448
0.9434
0.9372
0.9183
0.9349
0.010835
VQH
useNext
F-Measure
0.9306
0.9458
0.9451
0.9367
0.9162
0.9349
0.012189
VQK
usePosition
F-Measure
0.9306
0.945
0.9455
0.9361
0.9172
0.9349
0.0117
VQD
useTypeySequences
F-Measure
0.9305
0.9462
0.945
0.9363
0.9167
0.9349
0.012065
VQL
useClassFeature
F-Measure
0.931
0.945
0.9461
0.9361
0.9175
0.9351
0.011689
VQJ
useSymWordPairs
F-Measure
0.9308
0.9456
0.9453
0.9359
0.9186
0.9352
0.011242
VQS
useSum
F-Measure
0.931
0.9458
0.9459
0.9365
0.9175
0.9353
0.011826
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQM
useSequences
F-Measure
0.931
0.9458
0.9459
0.9365
0.9175
0.9353
0.011826
VQR
strictlyFirstOrder
F-Measure
0.931
0.9458
0.9459
0.9365
0.9175
0.9353
0.011826
VQF
useWord
F-Measure
0.931
0.9458
0.9459
0.9365
0.9175
0.9353
0.011826
VQX
cleanGazette
F-Measure
0.9314
0.9469
0.9435
0.9366
0.9185
0.9354
0.01119
VQW
useGazettes
F-Measure
0.9314
0.9469
0.9435
0.9366
0.9185
0.9354
0.01119
VQI
useWordPairs
F-Measure
0.9306
0.9462
0.9472
0.9351
0.9181
0.9354
0.012024
VQO
useDisjShape
F-Measure
0.9315
0.9473
0.9439
0.9378
0.9186
0.9358
0.01136
VQE
maxLeft=1
F-Measure
0.9337
0.9492
0.9451
0.9372
0.9195
0.9369
0.011528
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQT
useNGrams
Time
67.16
69.58
71.16
70.34
94.79
74.606
11.381686
VQU
maxNGramLeng=6
Time
66.33
71.45
72.14
71.11
89.94
74.194
9.097232
VQP
useDisjunctive
Time
88.3
120.65
96.1
93.96
90.21
97.844
13.111126
VQG
usePrev
Time
63.72
69.66
67.61
71.35
67.25
67.918
2.8713011
VQN
usePrevSequences
Time
69.35
69.48
68.57
68.43
65.41
68.248
1.6525193
VQA
wordShape (jenny1)
Time
57.07
61.26
67.44
70.41
69.67
65.17
5.7827027
C-53
C-54 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQB
useTypeSeqs
Time
98.48
102.88
85.72
80.06
103.64
94.156
10.660848
VQC
useTypeSeqs2
Time
113.5
97.76
92.93
93
116.11
102.66
11.29609
VQH
useNext
Time
117.85
94.46
95.13
93.29
89.31
98.008
11.319131
VQK
usePosition
Time
90.22
97.51
87.71
96.01
117.09
97.708
11.560866
VQD
useTypeySequences
Time
99.82
94.54
94.33
92.71
95.14
95.308
2.677792
VQL
useClassFeature
Time
120.58
114.38
97.85
97.79
91.39
104.4
12.422233
VQJ
useSymWordPairs
Time
83.34
110.56
111.99
91.21
85.46
96.512
13.790162
VQS
useSum
Time
109.01
118.82
117.3
94.5
98.52
107.63
10.908923
VQM
useSequences
Time
109.54
117.95
117.34
93.64
93.08
106.31
12.279507
VQR
strictlyFirstOrder
Time
106.62
118.03
114.6
92.76
93.54
105.11
11.679619
VQF
useWord
Time
92.26
95.48
118.87
98.02
96.74
100.27
10.613523
VQX
cleanGazette
Time
128.69
120.15
96.49
96.56
114.12
111.2
14.363519
VQW
useGazettes
Time
123.76
123.03
97.39
91.79
117.14
110.62
14.989829
VQI
useWordPairs
Time
75.21
104.79
104.55
81.87
82.79
89.842
13.848708
VQO
useDisjShape
Time
82.81
87.57
88.97
98.44
86.1
88.778
5.8659841
VQE
maxLeft=1
Time
109.94
139.96
136.9
138.06
111.42
127.26
15.180148
5. Model 20 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEU
maxNGramLeng=6
F-Measure
0.923
0.9331
0.9325
0.9254
0.909
0.9246
0.009762
VQET
useNGrams
F-Measure
0.923
0.9331
0.9325
0.9254
0.909
0.9246
0.009762
VQEG
usePrev
F-Measure
0.9295
0.943
0.9409
0.9336
0.9155
0.9325
0.010955
VQEN
usePrevSequences
F-Measure
0.9284
0.9449
0.942
0.9331
0.9157
0.9328
0.01165
VQEP
useDisjunctive
F-Measure
0.9288
0.9445
0.9397
0.9356
0.9159
0.9329
0.011112
VQEA
wordShape (jenny1)
F-Measure
0.9342
0.947
0.9404
0.9351
0.9135
0.934
0.012564
VQEB
useTypeSeqs
F-Measure
0.9298
0.9466
0.943
0.9361
0.917
0.9345
0.011721
VQEC
useTypeSeqs2
F-Measure
0.9305
0.9456
0.9434
0.9372
0.918
0.9349
0.011147
VQEO
useDisjShape
F-Measure
0.9338
0.9491
0.9431
0.9369
0.9176
0.9361
0.011897
VQEW
useGazettes
F-Measure
0.933
0.9491
0.9425
0.9365
0.9199
0.9362
0.010979
VQEX
cleanGazette
F-Measure
0.933
0.9491
0.9425
0.9365
0.9199
0.9362
0.010979
VQEK
usePosition
F-Measure
0.9338
0.9473
0.944
0.9367
0.9201
0.9364
0.010596
VQEJ
useSymWordPairs
F-Measure
0.9329
0.9486
0.9442
0.9362
0.9206
0.9365
0.010858
VQEL
useClassFeature
F-Measure
0.9332
0.9488
0.944
0.9368
0.9199
0.9365
0.011114
C-55
C-56 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEH
useNext
F-Measure
0.9339
0.9486
0.9441
0.9387
0.9189
0.9368
0.011456
VQEF
useWord
F-Measure
0.9337
0.9492
0.9451
0.9372
0.9195
0.9369
0.011528
VQER
strictlyFirstOrder
F-Measure
0.9337
0.9492
0.9451
0.9372
0.9195
0.9369
0.011528
VQES
useSum
F-Measure
0.9337
0.9492
0.9451
0.9372
0.9195
0.9369
0.011528
VQEM
useSequences
F-Measure
0.9337
0.9492
0.9451
0.9372
0.9195
0.9369
0.011528
VQEI
useWordPairs
F-Measure
0.9341
0.9494
0.9445
0.9362
0.9208
0.937
0.010972
VQED
useTypeySequences
F-Measure
0.9335
0.9497
0.9451
0.9385
0.9193
0.9372
0.011773
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEU
maxNGramLeng=6
Time
75.59
81.02
83.79
91.74
107.91
88.01
12.558342
VQET
useNGrams
Time
79.34
82.03
85.72
85.48
104.25
87.364
9.8008331
VQEG
usePrev
Time
71.66
80.53
81.82
81.29
78.19
78.698
4.1717227
VQEN
usePrevSequences
Time
78.04
86.44
99.04
82.61
77.98
84.822
8.695845
VQEP
useDisjunctive
Time
106.25
114.41
117.63
110.97
108.46
111.54
4.5585173
VQEA
wordShape (jenny1)
Time
68.02
70.9
63.82
73.14
76.05
70.386
4.7074388
VQEB
useTypeSeqs
Time
106.3
115.7
94.13
87.36
109.66
102.63
11.609668
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEC
useTypeSeqs2
Time
124.38
111.35
107.41
102.25
124.29
113.94
10.026479
VQEO
useDisjShape
Time
128.3
133.52
108.38
103.32
99.61
114.63
15.299346
VQEW
useGazettes
Time
101.52
112.94
99.87
115.56
134.93
112.96
14.068253
VQEX
cleanGazette
Time
92.81
94.89
102.12
113.09
131.26
106.83
15.790191
VQEK
usePosition
Time
102.38
104.61
137.12
130.59
107.04
116.35
16.231413
VQEJ
useSymWordPairs
Time
98
100.28
127.63
98.85
95.62
104.08
13.27529
VQEL
useClassFeature
Time
99.97
113.44
116.47
105.66
124.81
112.07
9.631233
VQEH
useNext
Time
128.33
131.21
133.26
139.6
106.75
127.83
12.490582
VQEF
useWord
Time
108.28
140.14
136.61
140.91
109.56
127.1
16.681141
VQER
strictlyFirstOrder
Time
110.76
139.85
139.25
137.62
107.01
126.9
16.517075
VQES
useSum
Time
109.41
141.04
137.76
137.03
108.52
126.75
16.310358
VQEM
useSequences
Time
106.94
137.27
138.84
133.04
107.36
124.69
16.152343
VQEI
useWordPairs
Time
92.31
94.81
97.65
91.98
115.25
98.4
9.6912022
VQED
useTypeySequences
Time
126.27
141.17
136.9
133.58
106.42
128.87
13.681351
C-57
C-58 6. Model 19 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDT
useNGrams
F-Measure
0.9222
0.934
0.9321
0.926
0.9097
0.9248
0.00865
VQEDU
maxNGramLeng=6
F-Measure
0.9222
0.934
0.9321
0.926
0.9097
0.9248
0.00865
VQEDG
usePrev
F-Measure
0.9263
0.9434
0.9376
0.9321
0.9124
0.9304
0.010626
VQEDN
usePrevSequences
F-Measure
0.9253
0.9449
0.9391
0.9334
0.914
0.9313
0.010821
VQEDP
useDisjunctive
F-Measure
0.9287
0.9435
0.9406
0.9349
0.9168
0.9329
0.009513
VQEDA
wordShape (jenny1)
F-Measure
0.9344
0.947
0.9401
0.9361
0.9147
0.9345
0.010791
VQEDB
useTypeSeqs
F-Measure
0.9297
0.9456
0.9449
0.9371
0.9164
0.9347
0.010849
VQEDC
useTypeSeqs2
F-Measure
0.9297
0.9465
0.9452
0.9386
0.9172
0.9354
0.010892
VQEDO
useDisjShape
F-Measure
0.9327
0.9495
0.9443
0.9382
0.9181
0.9366
0.010823
VQEDH
useNext
F-Measure
0.9328
0.9489
0.9468
0.9376
0.9176
0.9367
0.01124
VQEDL
useClassFeature
F-Measure
0.9326
0.9493
0.9447
0.9385
0.9191
0.9368
0.010512
VQEDJ
useSymWordPairs
F-Measure
0.9318
0.9491
0.9457
0.9376
0.9201
0.9369
0.010344
VQEDX
cleanGazette
F-Measure
0.9339
0.9489
0.9436
0.9387
0.9195
0.9369
0.010039
VQEDW
useGazettes
F-Measure
0.9339
0.9489
0.9436
0.9387
0.9195
0.9369
0.010039
VQEDI
useWordPairs
F-Measure
0.9339
0.9502
0.9451
0.9373
0.9193
0.9372
0.010609
VQEDR
strictlyFirstOrder
F-Measure
0.9335
0.9497
0.9451
0.9385
0.9193
0.9372
0.01053
VQEDF
useWord
F-Measure
0.9335
0.9497
0.9451
0.9385
0.9193
0.9372
0.01053
VQEDS
useSum
F-Measure
0.9335
0.9497
0.9451
0.9385
0.9193
0.9372
11.5221
VQEDM
useSequences
F-Measure
0.9335
0.9497
0.9451
0.9385
0.9193
0.9372
0.01053
VQEDK
usePosition
F-Measure
0.9339
0.9498
0.9453
0.9378
0.9197
0.9373
0.01041
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDT
useNGrams
Time
72.66
80.89
103.57
80.55
93.79
86.292
10.97937
VQEDU
maxNGramLeng=6
Time
69.99
80.67
103.94
81.25
94
85.97
11.773959
VQEDG
usePrev
Time
73.89
78.84
78.33
76.72
76.89
76.934
1.7259965
VQEDN
usePrevSequences
Time
75.64
83.24
80.26
79.45
79.75
79.668
2.4244043
VQEDP
useDisjunctive
Time
104.47
141.72
116.03
111.44
130.66
120.86
13.504643
VQEDA
wordShape (jenny1)
Time
62.37
65.47
67.34
69.03
98.09
72.46
13.004187
VQEDB
useTypeSeqs
Time
85.39
88.3
104.36
85.94
107.3
94.258
9.5443437
VQEDC
useTypeSeqs2
Time
125.48
101.75
99.82
126.45
119.01
114.5
11.504502
VQEDO
useDisjShape
Time
96.65
109.57
101.24
99.13
96.86
100.69
4.7451238
C-59
C-60 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDH
useNext
Time
98.62
136.52
130.73
133.53
97.78
119.44
17.437583
VQEDL
useClassFeature
Time
122.87
124.56
98.61
123.57
98.82
113.69
12.235742
VQEDJ
useSymWordPairs
Time
85.05
96.24
117.5
116.1
89.86
100.95
13.426892
VQEDX
cleanGazette
Time
138.74
105.09
135.57
108.06
107.58
119.01
14.885028
VQEDW
useGazettes
Time
133.54
110.77
133.14
108.02
105.62
118.22
12.454809
VQEDI
useWordPairs
Time
102.24
108.01
90.04
95.26
106.58
100.43
6.8298744
VQEDR
strictlyFirstOrder
Time
130.13
146.77
135.11
133.25
109.25
130.9
12.201794
VQEDF
useWord
Time
127.93
143.58
135.44
127.5
107.27
128.34
12.062223
VQEDS
useSum
Time
127.32
141.35
135.45
129.45
107.32
128.18
11.522099
VQEDM
useSequences
Time
107.62
127.75
133.72
132.23
107.86
121.84
11.676158
VQEDK
usePosition
Time
118.2
128.03
103
93.81
113.84
111.38
11.905593
7. Model 18 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKU
maxNGramLeng=6
F-Measure
0.9233
0.9358
0.9326
0.9263
0.9102
0.92564
0.00995
VQEDKT
useNGrams
F-Measure
0.9233
0.9358
0.9326
0.9263
0.9102
0.92564
0.00995
VQEDKG
usePrev
F-Measure
0.9268
0.943
0.9389
0.9321
0.913
0.93076
0.011715
VQEDKN
usePrevSequences
F-Measure
0.9257
0.9442
0.9391
0.9331
0.9133
0.93108
0.0121
VQEDKP
useDisjunctive
F-Measure
0.9307
0.9432
0.9393
0.9349
0.9168
0.93298
0.010187
VQEDKA
wordShape (jenny1)
F-Measure
0.9328
0.9495
0.9392
0.9347
0.9146
0.93416
0.012703
VQEDKB
useTypeSeqs
F-Measure
0.929
0.9466
0.9453
0.9365
0.9164
0.93476
0.012496
VQEDKC
useTypeSeqs2
F-Measure
0.9301
0.9478
0.9473
0.9376
0.9188
0.93632
0.012244
VQEDKH
useNext
F-Measure
0.9336
0.948
0.946
0.937
0.9182
0.93656
0.011896
VQEDKO
useDisjShape
F-Measure
0.9338
0.9497
0.943
0.9375
0.9195
0.9367
0.011331
VQEDKW
useGazettes
F-Measure
0.9317
0.9499
0.944
0.9382
0.9207
0.9369
0.011298
VQEDKX
cleanGazette
F-Measure
0.9317
0.9499
0.944
0.9382
0.9207
0.9369
0.011298
VQEDKL
useClassFeature
F-Measure
0.9338
0.9489
0.9447
0.9378
0.9197
0.93698
0.011303
VQEDKR
strictlyFirstOrder
F-Measure
0.9339
0.9498
0.9453
0.9378
0.9197
0.9373
0.011639
C-61
C-62 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKS
useSum
F-Measure
0.9339
0.9498
0.9453
0.9378
0.9197
0.9373
0.011639
VQEDKF
useWord
F-Measure
0.9339
0.9498
0.9453
0.9378
0.9197
0.9373
0.011639
VQEDKM
useSequences
F-Measure
0.9339
0.9498
0.9453
0.9378
0.9197
0.9373
0.011639
VQEDKJ
useSymWordPairs
F-Measure
0.9336
0.949
0.9465
0.9376
0.9209
0.93752
0.011225
VQEDKI
useWordPairs
F-Measure
0.9339
0.9486
0.9478
0.937
0.9211
0.93768
0.011306
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKU
maxNGramLeng=6
Time
88.48
75.56
76.41
93.19
70.82
80.892
9.4707745
VQEDKT
useNGrams
Time
89.43
75.88
73.84
91.85
70.87
80.374
9.5776422
VQEDKG
usePrev
Time
67.7
71.32
67.5
68.28
70.14
68.988
1.668808
VQEDKN
usePrevSequences
Time
65.23
73.1
75.33
75.27
73.66
72.518
4.190426
VQEDKP
useDisjunctive
Time
89.13
84.75
117.67
102.05
100.82
98.884
12.860753
VQEDKA
wordShape (jenny1)
Time
60.31
58.88
57.59
63.66
68.77
61.842
4.4861531
VQEDKB
useTypeSeqs
Time
99.67
85.93
105.6
76.06
97.84
93.02
11.870352
VQEDKC
useTypeSeqs2
Time
86.12
90.8
119.84
96.83
86.35
95.988
14.025073
VQEDKH
useNext
Time
85.41
95.99
121.83
99.36
93.63
99.244
13.634753
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKO
useDisjShape
Time
85.36
99.03
123.21
91.65
87.8
97.41
15.321526
VQEDKW
useGazettes
Time
105.53
110.69
104.36
125.75
124.45
114.16
10.280685
VQEDKX
cleanGazette
Time
99.47
108.09
101.77
126.34
129.05
112.94
13.863841
VQEDKL
useClassFeature
Time
104.75
131.44
128.41
117.02
120.01
120.33
10.518
VQEDKR
strictlyFirstOrder
Time
126.11
136.51
108.65
98.31
118.96
117.71
14.86612
VQEDKS
useSum
Time
123.82
135.17
106.77
100.96
113.04
115.95
13.681976
VQEDKF
useWord
Time
119.98
132.72
101.98
98.68
114.14
113.5
13.821642
VQEDKM
useSequences
Time
119.87
128.9
103.02
95.44
113.8
112.21
13.280142
VQEDKJ
useSymWordPairs
Time
88.14
119.1
95.39
89.98
110.75
100.67
13.605391
VQEDKI
useWordPairs
Time
76.01
74.49
90.88
80.94
79.92
80.448
6.4136784
C-63
C-64 8. Model 17 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKIT
useNGrams
F-Measure
0.9233
0.9352
0.9345
0.9258
0.9105
0.92586
0.010054501
VQEDKIU
maxNGramLeng=6
F-Measure
0.9233
0.9352
0.9345
0.9258
0.9105
0.92586
0.010054501
VQEDKIG
usePrev
F-Measure
0.9272
0.9425
0.9393
0.9314
0.9128
0.93064
0.011686873
VQEDKIN
usePrevSequences
F-Measure
0.9263
0.9433
0.9401
0.9318
0.9135
0.931
0.011864653
VQEDKIP
useDisjunctive
F-Measure
0.9296
0.9437
0.9386
0.935
0.9157
0.93252
0.010718535
VQEDKIA
wordShape (jenny1)
F-Measure
0.9336
0.9487
0.9399
0.9358
0.9134
0.93428
0.013021789
VQEDKIB
useTypeSeqs
F-Measure
0.9294
0.9473
0.9468
0.9361
0.9174
0.9354
0.012570402
VQEDKIC
useTypeSeqs2
F-Measure
0.9304
0.9474
0.9461
0.9382
0.9201
0.93644
0.011401886
VQEDKIO
useDisjShape
F-Measure
0.933
0.9488
0.9449
0.9367
0.919
0.93648
0.011623124
VQEDKIW
useGazettes
F-Measure
0.9327
0.9488
0.9449
0.9374
0.9205
0.93686
0.01109563
VQEDKIX
cleanGazette
F-Measure
0.9327
0.9488
0.9449
0.9374
0.9205
0.93686
0.01109563
VQEDKIJ
useSymWordPairs
F-Measure
0.9326
0.9497
0.9463
0.9361
0.9205
0.93704
0.011621015
VQEDKIH
useNext
F-Measure
0.9349
0.949
0.947
0.9375
0.9191
0.9375
0.011914487
VQEDKIM
useSequences
F-Measure
0.9339
0.9486
0.9478
0.937
0.9211
0.93768
0.01130606
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKIR
strictlyFirstOrder
F-Measure
0.9339
0.9486
0.9478
0.937
0.9211
0.93768
0.01130606
VQEDKIF
useWord
F-Measure
0.9339
0.9486
0.9478
0.937
0.9211
0.93768
0.01130606
VQEDKIS
useSum
F-Measure
0.9339
0.9486
0.9478
0.937
0.9211
0.93768
0.01130606
VQEDKIL
useClassFeature
F-Measure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.011641735
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKIT
useNGrams
Time
56.26
61.33
79.15
66.04
59.61
64.478
8.928189626
VQEDKIU
maxNGramLeng=6
Time
50.58
58.27
75.03
62.28
58.46
60.924
8.957278046
VQEDKIG
usePrev
Time
51.66
59.32
58.38
59.66
51.62
56.128
4.12372647
VQEDKIN
usePrevSequences
Time
56.86
59.83
62.94
61.49
60.97
60.418
2.281418418
VQEDKIP
useDisjunctive
Time
86.38
118.92
119.51
92.25
87.66
100.944
16.82255421
VQEDKIA
wordShape (jenny1)
Time
49.2
52.4
51.14
50.08
52.2
51.004
1.369846707
VQEDKIB
useTypeSeqs
Time
83.34
89.63
89.92
72.68
63.2
79.754
11.59545946
VQEDKIC
useTypeSeqs2
Time
88.26
82.22
86.65
104.06
78.42
87.922
9.810301728
VQEDKIO
useDisjShape
Time
77.35
81.22
83.93
82.21
80.41
81.024
2.437474102
VQEDKIW
useGazettes
Time
79.39
90.13
90.66
88.41
82.18
86.154
5.068197905
C-65
C-66 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKIX
cleanGazette
Time
79.8
91.77
88.79
88.54
81.03
85.986
5.259955323
VQEDKIJ
useSymWordPairs
Time
94.41
102.15
89.3
83.11
82.3
90.254
8.276474491
VQEDKIH
useNext
Time
97.07
105.06
106.01
82.44
101.58
98.432
9.602935489
VQEDKIM
useSequences
Time
81.08
91.44
111.55
87.46
84.68
91.242
11.96958312
VQEDKIR
strictlyFirstOrder
Time
79.19
89.28
111.56
86.2
85.55
90.356
12.40782938
VQEDKIF
useWord
Time
78.24
89.05
112.62
87.79
83.88
90.316
13.15963259
VQEDKIS
useSum
Time
77.93
87.57
111.96
87.15
83.27
89.576
13.09912134
VQEDKIL
useClassFeature
Time
91.99
113.55
90.66
85.66
107.45
97.862
11.97164442
9. Model 16 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILT
useNGrams
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILU
maxNGramLeng=6
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILG
usePrev
0.9264
0.9415
0.9397
0.9298
0.9157
0.93062
0.01051
VQEDKILN
usePrevSequences
0.9257
0.9412
0.9399
0.9317
0.916
0.9309
0.01045
VQEDKILP
useDisjunctive
0.9286
0.9446
0.9378
0.9353
0.9159
0.93244
0.01088
VQEDKILA
wordShape=jenny1
0.934
0.9482
0.9401
0.9358
0.914
0.93442
0.01266
VQEDKILB
useTypeSeqs
0.9296
0.9472
0.9445
0.9369
0.9168
0.935
0.01228
VQEDKILC
useTypeSeqs2
0.9304
0.9472
0.947
0.9371
0.9185
0.93604
0.0121
VQEDKILJ
useSymWordPairs
FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure
0.9332
0.9485
0.9461
0.9357
0.9207
0.93684
0.01114
C-67
C-68 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILO
useDisjShape
0.9339
0.9486
0.9455
0.9373
0.9195
0.93696
0.01143
VQEDKILW
useGazettes
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILX
cleanGazette
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILH
useNext
0.9347
0.9492
0.9468
0.9382
0.9191
0.9376
0.01194
VQEDKILR
strictlyFirstOrder
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
VQEDKILS
useSum
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
VQEDKILM
useSequences
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
VQEDKILF
useWord
FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILT
useNGrams
Time
59.58
61
80.18
62.27
79.66
68.54
10.435397
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILU
maxNGramLeng=6
Time
56.2
60.52
79.97
61.23
80.06
67.6
11.499258
VQEDKILG
usePrev
Time
48.72
55.67
57.36
56.49
51.56
53.96
3.6777235
VQEDKILN
usePrevSequences
Time
54
57.08
63.53
57.83
59.35
58.36
3.4870432
VQEDKILP
useDisjunctive
Time
88.47
120.47
94.73
93.01
88.11
96.96
13.450819
VQEDKILA
wordShape=jenny1
Time
48.53
51.66
53.44
47.55
47.44
49.72
2.6891132
VQEDKILB
useTypeSeqs
Time
56.92
88.68
69.61
80.16
62.1
71.49
12.987074
VQEDKILC
useTypeSeqs2
Time
71.25
99.05
101.69
93.43
93.82
91.85
12.035394
VQEDKILJ
useSymWordPairs
Time
64.72
94.6
96.46
79.62
73.85
81.85
13.586983
VQEDKILO
useDisjShape
Time
101.19
102.8
87.48
84.81
78.21
90.9
10.692459
VQEDKILW
useGazettes
Time
99.71
107.87
92.37
86.97
104.24
98.23
8.5493754
VQEDKILX
cleanGazette
Time
101.71
107.1
89.53
84
101.36
96.74
9.5873171
VQEDKILH
useNext
Time
77.39
100.88
81.57
103.35
99.82
92.6
12.13728
VQEDKILR
strictlyFirstOrder
Time
91.31
116.83
94.32
88.15
108.93
99.91
12.360749
VQEDKILS
useSum
Time
85.98
119.99
93.63
86.2
109.73
99.11
15.148054
VQEDKILM
useSequences
Time
81.69
107.65
87.96
81.97
105.88
93.03
12.801279
VQEDKILF
useWord
Time
79.44
106.38
85.96
81.19
101.88
90.97
12.350968
C-69
C-70
10. Model 15 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFT
useNGrams
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFU
maxNGramLeng=6
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFG
usePrev
0.9264
0.9415
0.9397
0.9298
0.9157
0.93062
0.01051
VQEDKILFN
usePrevSequences
0.9257
0.9412
0.9399
0.9317
0.916
0.9309
0.01045
VQEDKILFP
useDisjunctive
0.9286
0.9446
0.9378
0.9353
0.9159
0.93244
0.01088
VQEDKILFA
wordShape=jenny1
0.934
0.9482
0.9401
0.9358
0.914
0.93442
0.01266
VQEDKILFB
useTypeSeqs
0.9296
0.9472
0.9445
0.9369
0.9168
0.935
0.01228
VQEDKILFC
useTypeSeqs2
FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure
0.9304
0.9472
0.947
0.9371
0.9185
0.93604
0.0121
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFJ
useSymWordPairs
0.9332
0.9485
0.9461
0.9357
0.9207
0.93684
0.01114
VQEDKILFO
useDisjShape
0.9339
0.9486
0.9455
0.9373
0.9195
0.93696
0.01143
VQEDKILFX
cleanGazette
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFW
useGazettes
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFH
useNext
0.9347
0.9492
0.9468
0.9382
0.9191
0.9376
0.01194
VQEDKILFM
useSequences
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
VQEDKILFS
useSum
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
VQEDKILFR
strictlyFirstOrder
FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFT
useNGrams
Time
51.07
57.59
76.29
58.28
75.19
63.68
11.366093
C-71
C-72 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFU
maxNGramLeng=6
Time
51.89
57.97
75.93
56.55
75.08
63.48
11.205752
VQEDKILFG
usePrev
Time
50.42
53.81
57.26
57.57
50.83
53.98
3.4011572
VQEDKILFN
usePrevSequences
Time
53.12
58.73
58.38
56.77
54.24
56.25
2.4897128
VQEDKILFP
useDisjunctive
Time
78.51
112.63
88.83
88.1
84.52
90.52
13.017341
VQEDKILFA
wordShape=jenny1
Time
51.86
51.44
53.82
49.48
47.99
50.92
2.2484706
VQEDKILFB
useTypeSeqs
Time
59.12
88.47
68
80.45
62.15
71.64
12.459184
VQEDKILFC
useTypeSeqs2
Time
72.88
98.61
103.02
93.45
93.98
92.39
11.575589
VQEDKILFJ
useSymWordPairs
Time
66.05
95.91
98.11
79.99
73.83
82.78
13.921075
VQEDKILFO
useDisjShape
Time
90.15
97.78
81.94
77.58
72.43
83.98
10.087528
VQEDKILFX
cleanGazette
Time
99.72
105.9
89.28
86.37
102.6
96.77
8.5192183
VQEDKILFW
useGazettes
Time
95.97
106
88.12
83.56
99.1
94.55
8.8874406
VQEDKILFH
useNext
Time
74.36
97.93
80.15
103.43
97.77
90.73
12.674826
VQEDKILFM
useSequences
Time
81.2
105.93
86.43
79.6
102.62
91.16
12.295248
VQEDKILFS
useSum
Time
79.02
109.22
86.02
79.65
100.93
90.97
13.488064
VQEDKILFR
strictlyFirstOrder
Time
79.59
106.26
84.92
80.96
103
90.95
12.696546
11. Model 14 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFRT
useNGrams
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRU
maxNGramLeng=6
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRG
usePrev
F-Measure
0.9264
0.9415
0.9397
0.9298
0.9157
0.93062
0.01051
VQEDKILFRN
usePrevSequences
F-Measure
0.9257
0.9412
0.9399
0.9317
0.916
0.9309
0.01045
VQEDKILFRP
useDisjunctive
F-Measure
0.9286
0.9446
0.9378
0.9353
0.9159
0.93244
0.01088
VQEDKILFRA
wordShape=jenny1
F-Measure
0.934
0.9482
0.9401
0.9358
0.914
0.93442
0.01266
VQEDKILFRB
useTypeSeqs
F-Measure
0.9296
0.9472
0.9445
0.9369
0.9168
0.935
0.01228
VQEDKILFRC
useTypeSeqs2
F-Measure
0.9304
0.9472
0.947
0.9371
0.9185
0.93604
0.0121
VQEDKILFRJ
useSymWordPairs
F-Measure
0.9332
0.9485
0.9461
0.9357
0.9207
0.93684
0.01114
VQEDKILFRO
useDisjShape
F-Measure
0.9339
0.9486
0.9455
0.9373
0.9195
0.93696
0.01143
VQEDKILFRX
cleanGazette
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRW
useGazettes
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRH
useNext
F-Measure
0.9347
0.9492
0.9468
0.9382
0.9191
0.9376
0.01194
VQEDKILFRS
useSum
F-Measure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
C-73
C-74 !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFRM
useSequences
F-Measure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFRT
useNGrams
Time
53.4
58.53
76.76
58.36
76.54
64.72
11.085825
VQEDKILFRU
maxNGramLeng=6
Time
52.73
57.04
76.97
58.91
76.3
64.39
11.402993
VQEDKILFRG
usePrev
Time
51.83
53.81
56.42
57.34
50.54
53.99
2.9037855
VQEDKILFRN
usePrevSequences
Time
54.26
58.79
61.69
57.76
55.65
57.63
2.8776466
VQEDKILFRP
useDisjunctive
Time
81.22
115.77
88.91
89.14
84.17
91.84
13.785256
VQEDKILFRA
wordShape=jenny1
Time
49.31
50.89
53.46
49.57
48.8
50.41
1.8735341
VQEDKILFRB
useTypeSeqs
Time
60.26
88.35
68.63
79.98
61.02
71.65
12.248758
VQEDKILFRC
useTypeSeqs2
Time
71.63
100.02
102.93
94.35
92.98
92.38
12.293042
VQEDKILFRJ
useSymWordPairs
Time
66.18
94.1
95.33
80.2
74.18
82
12.636887
VQEDKILFRO
useDisjShape
Time
93.21
97.43
83.64
78.86
74.53
85.53
9.6131852
VQEDKILFRX
cleanGazette
Time
98.97
106.96
91.45
86.97
102.79
97.43
8.1715066
VQEDKILFRW
useGazettes
Time
99.56
104.6
87.85
83.65
103.24
95.78
9.4571957
!exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFRH
useNext
Time
75.75
101
81.96
104.89
98.39
92.4
12.767696
VQEDKILFRS
useSum
Time
82.73
106.56
85.22
80.21
103.13
91.57
12.307024
VQEDKILFRM
useSequences
Time
81.83
107.03
85.1
78.9
103.7
91.31
13.067833
C-75
C-76 12. Model 13 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFRMT
useNGrams
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRMU
maxNGramLeng=6
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRMG
usePrev
F-Measure
0.9264
0.9415
0.9397
0.9298
0.9157
0.93062
0.01051
VQEDKILFRMN
usePrevSequences
F-Measure
0.9257
0.9412
0.9399
0.9317
0.916
0.9309
0.01045
VQEDKILFRMP
useDisjunctive
F-Measure
0.9286
0.9446
0.9378
0.9353
0.9159
0.93244
0.01088
VQEDKILFRMA
wordShape=jenny1
F-Measure
0.934
0.9482
0.9401
0.9358
0.914
0.93442
0.01266
VQEDKILFRMB
useTypeSeqs
F-Measure
0.9296
0.9472
0.9445
0.9369
0.9168
0.935
0.01228
VQEDKILFRMC
useTypeSeqs2
F-Measure
0.9304
0.9472
0.947
0.9371
0.9185
0.93604
0.0121
VQEDKILFRMJ
useSymWordPairs
F-Measure
0.9332
0.9485
0.9461
0.9357
0.9207
0.93684
0.01114
VQEDKILFRMO
useDisjShape
F-Measure
0.9339
0.9486
0.9455
0.9373
0.9195
0.93696
0.01143
VQEDKILFRMX
cleanGazette
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRMW
useGazettes
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRMH
useNext
F-Measure
0.9347
0.9492
0.9468
0.9382
0.9191
0.9376
0.01194
VQEDKILFRMS
useSum
F-Measure
0.9338
0.9494
0.9474
0.9374
0.9205
0.9377
0.01164
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFRT
useNGrams
Time
52.76
57.36
76.77
59.21
76.74
64.57
11.370342
VQEDKILFRU
maxNGramLeng=6
Time
53.52
57.59
76.2
59
75.96
64.45
10.802425
VQEDKILFRG
usePrev
Time
49.11
57.48
56.84
56.46
54.67
54.91
3.4069737
VQEDKILFRN
usePrevSequences
Time
54.31
60.38
60.91
57.16
54.62
57.48
3.1026489
VQEDKILFRP
useDisjunctive
Time
79.19
112.8
90.37
90.08
83.7
91.23
12.932415
VQEDKILFRA
wordShape=jenny1
Time
49.5
50.39
53.38
49.3
47.59
50.03
2.1283491
VQEDKILFRB
useTypeSeqs
Time
58.66
90.59
69.81
80.06
61.57
72.14
13.247576
VQEDKILFRC
useTypeSeqs2
Time
70.69
99.19
102.51
93.48
92.38
91.65
12.429749
VQEDKILFRJ
useSymWordPairs
Time
68.17
95.62
97.09
78.84
74.91
82.93
12.849589
VQEDKILFRO
useDisjShape
Time
93.04
100.19
84.37
80.25
74.07
86.38
10.346796
VQEDKILFRX
cleanGazette
Time
99.29
106.91
91.66
84.95
101.31
96.82
8.5963876
VQEDKILFRW
useGazettes
Time
98.71
104.64
87.33
83.52
99.87
94.81
8.9562397
VQEDKILFRH
useNext
Time
76.1
101.77
81.76
103.3
100.05
92.6
12.686971
VQEDKILFRS
useSum
Time
74.24
89.93
77.97
83.62
108.59
86.87
13.513062
C-77
C-78 13. Model 12 Features Uji F-Measure !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
F_AVG
F_STDEV
VQEDKILFRMST
useNGrams
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRMSU
maxNGramLeng=6
F-Measure
0.9231
0.9354
0.935
0.9256
0.9102
0.92586
0.01034
VQEDKILFRMSG
usePrev
F-Measure
0.9264
0.9415
0.9397
0.9298
0.9157
0.93062
0.01051
VQEDKILFRMSN
usePrevSequences
F-Measure
0.9257
0.9412
0.9399
0.9317
0.916
0.9309
0.01045
VQEDKILFRMSP
useDisjunctive
F-Measure
0.9286
0.9446
0.9378
0.9353
0.9159
0.93244
0.01088
VQEDKILFRMSA
wordShape=jenny1
F-Measure
0.934
0.9482
0.9401
0.9358
0.914
0.93442
0.01266
VQEDKILFRMSB
useTypeSeqs
F-Measure
0.9296
0.9472
0.9445
0.9369
0.9168
0.935
0.01228
VQEDKILFRMSC
useTypeSeqs2
F-Measure
0.9304
0.9472
0.947
0.9371
0.9185
0.93604
0.0121
VQEDKILFRMSJ
useSymWordPairs
F-Measure
0.9332
0.9485
0.9461
0.9357
0.9207
0.93684
0.01114
VQEDKILFRMSO
useDisjShape
F-Measure
0.9339
0.9486
0.9455
0.9373
0.9195
0.93696
0.01143
VQEDKILFRMSW
useGazettes
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRMSX
cleanGazette
F-Measure
0.9336
0.9482
0.9455
0.9374
0.9203
0.937
0.01105
VQEDKILFRMSH
useNext
F-Measure
0.9347
0.9492
0.9468
0.9382
0.9191
0.9376
0.01194
Uji Time !exist FE
Feature Extractor
Uji
Model 1
Model 2
Model 3
Model 4
Model 5
T_AVG
T_STDEV
VQEDKILFRT
useNGrams
Time
55.79
61.59
80.53
61.64
80.68
68.05
11.708912
VQEDKILFRU
maxNGramLeng=6
Time
56.65
60.41
80.37
61.83
79.63
67.78
11.319528
VQEDKILFRG
usePrev
Time
46.84
54.41
55.2
53.57
46.84
51.37
4.1770887
VQEDKILFRN
usePrevSequences
Time
51.15
58.03
72.09
70.05
65.49
63.36
8.7034315
VQEDKILFRP
useDisjunctive
Time
97.14
130.1
94.81
92.86
86.79
100.3
17.073601
VQEDKILFRA
wordShape=jenny1
Time
56.07
68.89
83.89
74.42
59.24
68.5
11.317057
VQEDKILFRB
useTypeSeqs
Time
65.2
95.77
70.3
78.67
60.96
74.18
13.754557
VQEDKILFRC
useTypeSeqs2
Time
66.5
97.09
100.06
88.54
89.86
88.41
13.164653
VQEDKILFRJ
useSymWordPairs
Time
58.98
89.26
93.88
75.11
70.66
77.58
14.160329
VQEDKILFRO
useDisjShape
Time
112.36
112.08
96.84
94.33
85.21
100.2
11.826243
VQEDKILFRW
useGazettes
Time
103.02
108.66
90.87
92.95
107.8
100.7
8.3041767
VQEDKILFRX
cleanGazette
Time
106.37
109.6
91.66
89.12
105.11
100.4
9.3017079
VQEDKILFRH
useNext
Time
71.79
95.77
77.86
98.97
92.97
87.47
11.933194
C-79
C-80 Halaman ini sengaja dikosongkan