PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION

TUGAS AKHIR – KS 141501

PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098 Dosen Pembimbing : Renny Pradina Kusumawardani S.T., M.T. JURUSAN SISTEM INFORMASI Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya 2017

i

TUGAS AKHIR – KS 141501

PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098

Dosen Pembimbing : Renny Pradina Kusumawardani S.T., M.T.

JURUSAN SISTEM INFORMASI Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya 2017

i

FINAL PROJECT – KS 141501

DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION HANUM FITRIANI AYU KUMALA NRP 5213 100 098

SUPERVISOR: Renny Pradina Kusumawardani S.T., M.T.

DEPARTMENT OF INFORMATION SYSTEMS Faculty of Information Technology Institut Teknologi Sepuluh Nopember Surabaya 2017

ii

LEMBAR PENGESAHAN PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION

TUGAS AKHIR Disusun Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer pada Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Oleh: U

HANUM FITRIANI AYU KUMALA NRP. 5213 100 098

Surabaya,

Januari 2017

KETUA JURUSAN SISTEM INFORMASI

Dr. Ir. Aris Tjahyanto, M.Kom NIP.19650310 199102 1 001

iii

LEMBAR PERSETUJUAN PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION

TUGAS AKHIR Disusun Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer pada Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Oleh : U

HANUM FITRIANI AYU KUMALA NRP. 5213 100 098

Disetujui Tim Penguji

:Tanggal Ujian Periode Wisuda

: 11 Januari 2017 : Maret 2017

Renny Pradina Kusumawardani S.T., M.T. (Pembimbing I) Nur Aini R., S.Kom., M.Sc.Eng., Ph.D (Penguji I) Faizal Johan Atletiko, S.Kom., M.T. (Penguji II)

iv

PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION Nama Mahasiswa NRP Jurusan Pembimbing 1

: Hanum Fitriani Ayu Kumala : 5213 100 098 : Sistem Informasi FTIf-ITS : Renny Pradina Kusumawardani S.T., M.T.

ABSTRAK Media sosial saat ini sangat berkembang seiring dengan jumlah pengguna yang terus meningkat di seluruh dunia, termasuk Indonesia. Seperti pada media sosial facebook, terdapat kurang lebih 65 juta pengguna Facebook aktif untuk wilayah Indonesia. Hal tersebut membuktikan bahwa media sosial memiliki informasi yang melimpah dan dapat menjadi sumber informasi yang berharga. Di sisi lain, penyajian informasi oleh media sosial saat ini dirasa kurang efektif sehingga kurang relevan. Untuk itu diperlukan sistem untuk mengolah informasi yang ada. Named Entity Recognition atau NER merupakan salah satu teknik berbasis entitas yang dikembangkan untuk melakukan pengolahan tersebut, supaya informasi yang diberikan menjadi lebih relevan bagi pengguna. Pada penelitian ini, dikembangkan suatu modul Named Entity Recognition yang secara spesifik mengolah informasi-informasi seputar kota Surabaya yang dibagi oleh masyarakat melalui media sosial yaitu Facebook fanpage E100. Informasi yang diidentifikasi dengan mengunakan NER dalam penelitian ini adalah entitas lokasi yang ada dalam teks status Facebook. Penggunaan Named Entity Recognition dilakukan dalam beberapa tahapan. Tahapan tersebut diawali dengan pencarian nama-nama lokasi kota Surabaya yang didapat dari Open Street Map dan Dinas PU Bina Marga. Selanjutnya, diperlukan v

praproses data yang berupa penghapusan kata-kata lokasi yang duplikat, pemuatan data teks, matching data teks dengan lokasi, tokenization, labeling dengan program maupun manual, serta pembagian dataset training dan testing berdasarkan cross validation. Pada penelitian ini ditemukan bahwa pada proses labeling dengan program kurang efisien jika dibandingkan dengan proses labeling secara manual. Selain hal tersebut, dalam menentukan feature extractor apa saja yang digunakan untuk menghasilkan performa yang optimal, digunakan metode seleksi forward selection serta backward elimination. Dari hasil percobaan didapatkan 2 model terbaik yang menghasilkan rata-rata F-Measure sebesar 0.93604 dan 0.9377. Selain itu, berdasarkan hasil analisa model juga didapatkan 9 feature extractor yang dirasa penting dalam pembuatan model NER pada studi kasus ini.

Kata kunci: Media Sosial, Surabaya, Named Entity Recognition, Indonesian Named Entity Recognition

vi

DETECTION OF LOCATION NAME IN PUBLIC INFORMATION ON SOCIAL MEDIA IN SURABAYA CITY BASED ON NAMED-ENTITY RECOGNITION Student Name NRP Department Supervisor 1

: Hanum Fitriani Ayu Kumala : 5213 100 098 : Sistem Informasi FTIf-ITS : Renny Pradina Kusumawardani S.T., M.T.

ABSTRACT Social media nowadays is highly developed as the number of users continues to increase around the world, including Indonesia. As on facebook social media, there were approximately 65 million active users to Indonesia. From this data, it is proved that social media has a huge number of information stored and can be a valuable source of information. On the other hand, the presentation of information by social media today is less effective so it is less relevant. In this case, it is necessary to provide a system that able to process the information available. Named Entity Recognition or NER is an entity based technique that was developed to perform such processing, so that the information provided more relevant to users. In this study, we developed a Named Entity Recognition module which specifically processing the information about the city of Surabaya, which is shared by the public through social media namely E100 Facebook Fanpage. The information identified by using NER in this study is a location entity which exists in the Facebook status text. The use of Named Entity Recognition is done in several stages. The first step is finding the location names of city of Surabaya from Open Street Map and the Department of Public Works. The next step is data preprocessing include removing the words of duplicate locations, loading text data, matching the text vii

data with the location, tokenization, and labeling through programs and manual approach, as well as dividing the dataset into training and testing dataset based on cross validation. This study found that in the process of labeling through program is less efficient than the labeling process through manual approach. In addition to that, in determining what feature extractors are used to produce optimal performance, we use forward selection methods and backward elimination methods. From the experiment results, obtained 2 best models that generates average F-Measure value of 0.93604 and 0.9377. In addition, based on the results of the model analysis we also obtained 9 feature extractors which are considered to be essential for NER modeling in this case study. Keywords: Social Media, Surabaya, Named Entity Recognition, Indonesian Named Entity Recognition

viii

KATA PENGANTAR Puji dan syukur penulis tuturkan ke hadirat Allah SWT, Tuhan Semesta Alam yang telah memberikan kekuatan dan hidayah-Nya kepada penulis sehingga penulis mendapatkan kelancaran dalam menyelesaikan tugas akhir dengan judul: PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION yang merupakan salah satu syarat kelulusan pada Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Surabaya. Terima kasih penulis sampaikan kepada pihak-pihak yang telah mendukung, memberikan saran, motivasi, semangat, dan bantuan baik berupa materiil maupun moril demi tercapainya tujuan pembuatan tugas akhir ini. Tugas akhir ini tidak akan pernah terwujud tanpa bantuan dan dukungan dari berbagai pihak yang sudah melauangkan waktu, tenaga dan pikirannya. Secara khusus penulis akan menyampaikan ucapan terima kasih yang sebanyakbanyaknya kepada: 1)

Orang tua dan kakak penulis, Bapak Ir.Putro Kumolo (Alm), Bapak Siswanto, Ibu Supatminingsih, Ivan Pudya Putra dan Lely Agustining Ayu Kumala yang telah memberikan motivasi, semangat, keyakinan, kasih sayang serta doa sehingga penulis mampu menyelesaikan pendidikan S1 ini dengan baik.

2)

Ibu Renny Pradina Kusumawardani ST., MT. selaku dosen pembimbing yang telah dengan sabar dan telaten memberikan ilmu, petunjuk, dan motivasi sehingga penulis dapat menyelesaikan Tugas Akhir ini.

3)

Dinas PU Bina Marga dan Pematusan Kota Surabaya khususnya kepada Adel yang telah membantu penulis dalam

ix

mengumpulkan data dan informasi terkait keperluan Tugas Akhir ini. 4)

Ibu Mahendrawathi ER, ST., MSc., Ph.D. selaku dosen wali penulis selama menempuh pendidikan di Jurusan Sistem Informasi yang telah memberikan pengalaman serta nasehat kepada penulis selama ini.

5)

Ibu Nur Aini Rakhmawati, S.Kom., M.Sc.Eng., Ibu Irmasari Hafidz, S.Kom., M.Sc. dan Bapak Faizal Johan Atletiko, S.Kom., M.T. selaku dosen penguji yang telah memberikan kritik, saran, dan masukan yang berharga sehinga dapat menyempurnakan Tugas Akhir ini.

6)

Seluruh dosen pengajar beserta staf dan karyawan di Jurusan Sistem Informasi, Fakultas Teknologi Informasi ITS Surabaya yang telah memberikan ilmu dan pengalaman yang berharga kepada penulis selama ini.

7)

Rekan-rekan mahasiswa Jurusan Sistem Informasi BASILISK, SOLA12IS, BELTRANIS, dan OSIRIS serta anggota Lab RDIB dan ADDI atas semua bantuan ketika penulis kuliah di Sistem Informasi.

8)

Teman-teman serta sahabat yang sudah banyak membantu, Nikolaus Herjuno, Hendra Rismana, Ashma Hanifah, Bintang Setyawan, Bambang Setyawan, Stezar Priansya, Valliant Ferlyando, Tetha Valianta, Ervi Ritya, dan Adimas Raka (Statistika ITS) yang membantu jika penulis memerlukan bantuan dalam pengerjaan tugas akhir ini.

9)

Teman-teman Lab ADDI, Ari Agustina, Valliant Ferlyando, dan Rizza Firmansyah yang berjuang bersama untuk menyelesaikan tugas akhir serta saling mengingatkan dan memotivasi satu sama lain.

10) Teman seperjuangan dalam menyelesaikan tugas akhir. Maulana Dhawangkara, Safrina Kharisma, Faisal Setia,

x

Chandra Surya, Delina Rahayu, dan Ikhwan Aziz yang terus berusaha menyelesaikan tugas akhir bersama-sama. 11) Sahabat penulis yang menemani dan mendukung penulis dalam menjalani kehidupan kampus hingga dapat menyelesaikan tugas akhir ini. Almira Fiana Dhara, Rani Oktavia, Nadya Chandra, Kevin Setyawan, Nabihah Hanun, Marina Safitri serta teman-teman yang penulis belum dapat tuliskan satu-persatu. 12) Rekan penulis, Kadek Hari Baskara yang tidak pernah lelah mendukung penulis untuk terus giat mengerjakan tugas akhir, membantu jika terdapat kesulitan, serta menjadi teman untuk berbagi di saat senang maupun susah. 13) Serta semua pihak yang telah membantu dalam pengerjaan Tugas Akhir ini yang belum mampu penulis sebutkan diatas. Terima kasih atas segala bantuan, dukungan, serta doa yang telah diberikan. Penulis menyadari bahwa tugas akhir ini masih belum sempurna dan memiliki banyak kekurangan di dalamnya. Oleh karena itu, penulis juga memohon maaf atas segala kesalahan penulis buat dalam buku tugas akhir ini. Penulis membuka pintu selebar-lebarnya bagi pihak yang ingin memberikan kritik maupun saran, serta penelitian selanjutnya yang ingin menyempurnakan karya dari tugas akhir ini. Semoga buku tugas akhir ini bermanfaat bagi seluruh pembaca. Surabaya, Januari 2017

Penulis

xi

Halaman ini sengaja dikosongkan

xii

DAFTAR ISI ABSTRAK ............................................................................... v ABSTRACT ........................................................................... vii KATA PENGANTAR ............................................................ ix DAFTAR ISI ......................................................................... xiii DAFTAR GAMBAR ........................................................... xvii DAFTAR KODE ................................................................... xxi DAFTAR TABEL ............................................................... xxiii BAB I PENDAHULUAN ...................................................... 1 1.1. Latar Belakang Masalah ........................................... 1 1.2. Perumusan Masalah .................................................. 4 1.3. Batasan Masalah ....................................................... 5 1.4. Tujuan Penelitian ...................................................... 5 1.5. Manfaat Penelitian .................................................... 5 1.6. Relevansi................................................................... 6 BAB II TINJAUAN PUSTAKA ............................................ 7 2.1. Penelitian Sebelumnya .............................................. 7 2.2. Dasar Teori ............................................................. 12 2.2.1. Natural Language Processing (NLP) .............. 12 2.2.2. Named Entity Recognition (NER) .................. 12 2.2.3. Conditional Random Field (CRF) ................... 14 2.2.4. Performance Measure dan Confusion Matrix . 15 2.2.5. Java ................................................................. 17 2.2.6. Stanford NER .................................................. 17 2.2.7. Forward Selection dan Backward Elimination 18 2.2.8. Open Street Map ............................................. 18 2.2.9. Mapzen Metro Extract .................................... 19 2.2.10. Facebook ......................................................... 19 2.2.11. Dataset Status Facebook ................................. 20 2.2.12. CitiViz ............................................................. 20 BAB III METODOLOGI PENELITIAN ............................. 23 3.1. Studi Literatur Media Sosial, NLP dan NER .......... 24 3.2. Menyiapkan Environtment Training NER .............. 24 3.3. Mencari daftar lokasi kota Surabaya ...................... 25 3.4. Menggabungkan Teks dan Menghapus Teks yang Terduplikat .............................................................. 25 xiii

3.5. Restrukturisasi Teks ................................................ 25 3.6. Tokenization............................................................ 26 3.7. Entity Labeling........................................................ 27 3.8. Pembagian Data Training dan Data Testing ........... 28 3.9. Membuat Daftar Fitur ............................................. 29 3.10. Membuat Properties ................................................ 29 3.11. Training ................................................................... 30 3.12. Testing..................................................................... 30 3.13. Penulisan Buku Tugas Akhir .................................. 31 BAB IV PERANCANGAN................................................... 33 4.1. Pengambilan Data ................................................... 33 4.2. Pemilihan Atribut .................................................... 36 4.3. Perancangan Model ................................................. 37 4.3.1. Perancangan Data Lokasi ................................ 37 4.3.2. Perancangan Praproses Data ........................... 40 4.3.3. Perancangan Feature Extractor ........................ 51 4.3.4. Perancangan Pemrosesan Data ........................ 65 BAB V IMPLEMENTASI .................................................... 69 5.1. Perangkat Penelitian ................................................ 69 5.2. Ekstraksi Data Lokasi ............................................. 70 5.2.1. Ekstraksi Data Lokasi Open Street Map ......... 70 5.2.2. Ekstraksi Data Lokasi Dinas PU Bina Marga . 75 5.3. Praproses Data......................................................... 77 5.3.1. Memuat Data Teks .......................................... 77 5.3.2. Memuat Data Lokasi dan Non Lokasi ............. 79 5.3.3. Pembagian Dataset .......................................... 82 5.3.4. Matching Lokasi dan Non Lokasi dengan Teks ................................................................. 84 5.3.5. Tokenizing ....................................................... 85 5.3.6. Labeling Lokasi ............................................... 86 5.4. Seleksi Feature Extractor ........................................ 88 5.4.1. Generate 1 Feature Extractor ........................... 89 5.4.2. Generate Feature Extractor pada Forward Selection .......................................................... 90 5.4.3. Generate Feature Extractor pada Backward Elimination ...................................................... 93 5.5. Pemrosesan Data ..................................................... 96 xiv

5.5.1. Implementasi Training .................................... 96 5.5.2. Implementasi Testing ...................................... 99 BAB VI HASIL DAN PEMBAHASAN ............................ 101 6.1. Data Lokasi ........................................................... 101 6.1.1. Ekstrak Data Lokasi Open Street Map .......... 101 6.1.2. Ekstrak Data Lokasi Dinas PU Bina Marga .. 102 6.2. Dataset Percobaan ................................................. 102 6.2.1. Muatan Data Teks ......................................... 102 6.2.2. Muatan Data Lokasi ...................................... 103 6.2.3. Hasil Matching .............................................. 103 6.2.4. Hasil Tokenizing ........................................... 105 6.2.5. Hasil Labeling ............................................... 105 6.2.6. Hasil Pembagian Dataset .............................. 109 6.3. Percobaan wordShape Selection ........................... 110 6.4. Percobaan maxNGramLeng Selection .................. 112 6.5. Percobaan Forward Selection Feature Extractor... 113 6.5.1. Percobaan 1 Feature Extractor ...................... 114 6.5.2. Percobaan 2 Feature Extractor ...................... 116 6.5.3. Percobaan 4 Feature Extractor ...................... 118 6.5.4. Percobaan 5 Feature Extractor ...................... 120 6.5.5. Percobaan 6 Feature Extractor ...................... 122 6.5.6. Percobaan 7 Feature Extractor ...................... 124 6.5.7. Percobaan 8 Feature Extractor ...................... 126 6.5.8. Percobaan 9 Feature Extractor ...................... 128 6.5.9. Percobaan 10 Feature Extractor .................... 130 6.5.10. Percobaan 11 Feature Extractor .................... 132 6.5.11. Percobaan 12 Feature Extractor .................... 134 6.5.12. Percobaan 13 Feature Extractor .................... 136 6.5.13. Percobaan 15 Feature Extractor .................... 138 6.6. Percobaan Backward Elimination Feature Extractor ............................................................... 140 6.6.1. Percobaan 24 Feature Extractor .................... 141 6.6.2. Percobaan 23 Feature Extractor .................... 142 6.6.3. Percobaan 22 Feature Extractor .................... 144 6.6.4. Percobaan 21 Feature Extractor .................... 146 6.6.5. Percobaan 20 Feature Extractor .................... 148 6.6.6. Percobaan 19 Feature Extractor .................... 150 xv

6.6.7. Percobaan 18 Feature Extractor .................... 152 6.6.8. Percobaan 17 Feature Extractor .................... 154 6.6.9. Percobaan 16 Feature Extractor .................... 156 6.6.10. Percobaan 15 Feature Extractor .................... 158 6.6.11. Percobaan 14 Feature Extractor .................... 160 6.6.12. Percobaan 13 Feature Extractor .................... 162 6.6.13. Percobaan 12 Feature Extractor .................... 164 6.7. Analisa Hasil ......................................................... 166 6.7.1. Analisa Hasil Forward Selection ................... 166 6.7.2. Analisa Hasil Backward Elimination ............ 167 6.8. Pembahasan Hasil ................................................. 168 6.8.1. Fitur-Fitur Penting ......................................... 168 6.8.2. Kesalahan Prediksi Model ............................. 175 6.8.3. Uji Statistik 2 Model Terbaik ........................ 175 BAB VII KESIMPULAN DAN SARAN ........................... 181 7.1. Kesimpulan ........................................................... 181 7.2. Saran ..................................................................... 183 DAFTAR PUSTAKA ........................................................... 185 BIODATA PENULIS ........................................................... 189 LAMPIRAN A ................................................................... A-1 LAMPIRAN B..................................................................... B-1 LAMPIRAN C..................................................................... C-1

xvi

DAFTAR GAMBAR Gambar 1.1 Timeline Facebook Fanpage E100 tertanggal 13 Oktober 2016............................................................................ 2 Gambar 1.2 Contoh status Facebook Fanpage E100 tertanggal 13 Oktober 2016 ....................................................................... 3 Gambar 2.1 Contoh Tampilan Fanpage ................................. 20 Gambar 2.2 Aplikasi CitiViz .................................................. 21 Gambar 3.1 Bagan Metodologi .............................................. 23 Gambar 3.2 Pembagian Data Training dan Data Testing ....... 28 Gambar 4.1 Alur Pengambilan Data ...................................... 33 Gambar 4.2 Sumber Data Lokasi ........................................... 37 Gambar 4.3 Alur Ekstraksi Data Lokasi Open Street Map .... 38 Gambar 4.4 Alur Ekstraksi Data Lokasi Dinas PU Bina Marga ................................................................................................ 39 Gambar 4.5 Alur Praproses Data............................................ 40 Gambar 4.6 Alur Pemuatan Data Teks Status Facebook ....... 41 Gambar 4.7 Alur Pemuatan Data Lokasi................................ 42 Gambar 4.8 Alur Pemuatan Data Non Lokasi........................ 43 Gambar 4.9 Pembagian Dataset ............................................. 44 Gambar 4.10 Alur Matching Lokasi dan Non Lokasi dengan Data Teks ............................................................................... 45 Gambar 4.11 Alur Tokenizing ............................................... 46 Gambar 4.12 Alur Labeling Lokasi Menggunakan Program . 47 Gambar 4.13 Irisan Nama Lokasi yang Diberikan Label ....... 48 Gambar 4.14 Skenario Forward Selection Feature Extractor . 62 Gambar 4.15 Skenario Backward Elimination Feature Extractor ................................................................................................ 64 Gambar 4.16 Alur Pemrosesan Data ...................................... 65 Gambar 4.17 Alur Proses Training ........................................ 66 Gambar 4.18 Alur Proses Testing .......................................... 67 Gambar 5.1 Tampilan Open Street Map Kota Surabaya ........ 70 Gambar 5.2 Pencarian Lokasi Mapzen Metro Extract ........... 71 Gambar 5.3 Bounding Box Extract Lokasi ............................ 71 Gambar 5.4 Mapzen Metro Extract Kota Surabaya ............... 72 Gambar 5.5 Contoh Format Data GEOJSON OSM ............... 73 Gambar 6.1 Rata-Rata F-Measure wordShape ..................... 110 xvii

Gambar 6.2 Rata-Rata Time wordShape ..............................111 Gambar 6.3 Rata-Rata F-Measure maxNGramLeng ............112 Gambar 6.4 Rata-Rata Time maxNGramLeng .....................113 Gambar 6.5 F-Measure Forward Selection 1 Feature Extractor ..............................................................................................114 Gambar 6.6 Time Forward Selection 1 Feature Extractor ....115 Gambar 6.7 F-Measure Forward Selection 2 Feature Extractor ..............................................................................................116 Gambar 6.8 Time Forward Selection 2 Feature Extractor ....117 Gambar 6.9 F-Measure Forward Selection 4 Feature Extractor ..............................................................................................118 Gambar 6.10 Time Forward Selection 4 Feature Extractor ..119 Gambar 6.11 F-Measure Forward Selection 5 Feature Extractor ..............................................................................................120 Gambar 6.12 Time Forward Selection 5 Feature Extractor ..121 Gambar 6.13 F-Measure Forward Selection 6 Feature Extractor ..............................................................................................122 Gambar 6.14 Time Forward Selection 6 Feature Extractor ..123 Gambar 6.15 F-Measure Forward Selection 7 Feature Extractor ..............................................................................................124 Gambar 6.16 Time Forward Selection 7 Feature Extractor ..125 Gambar 6.17 F-Measure Forward Selection 8 Feature Extractor ..............................................................................................126 Gambar 6.18 Time Forward Selection 8 Feature Extractor ..127 Gambar 6.19 F-Measure Forward Selection 9 Feature Extractor ..............................................................................................128 Gambar 6.20 Time Forward Selection 9 Feature Extractor ..129 Gambar 6.21 F-Measure Forward Selection 10 Feature Extractor ...............................................................................130 Gambar 6.22 Time Forward Selection 10 Feature Extractor 131 Gambar 6.23 F-Measure Forward Selection 11 Feature Extractor ...............................................................................132 Gambar 6.24 Time Forward Selection 11 Feature Extractor 133 Gambar 6.25 F-Measure Forward Selection 12 Feature Extractor ...............................................................................134 Gambar 6.26 Time Forward Selection 12 Feature Extractor 135 xviii

Gambar 6.27 F-Measure Forward Selection 13 Feature Extractor ............................................................................... 136 Gambar 6.28 Time Forward Selection 13 Feature Extractor 137 Gambar 6.29 F-Measure Forward Selection 15 Feature Extractor ............................................................................... 138 Gambar 6.30 Time Forward Selection 15 Feature Extractor 139 Gambar 6.31 F-Measure Backward Elimination 23 Feature Extractor ............................................................................... 142 Gambar 6.32 Time Backward Elimination 23 Feature Extractor .............................................................................................. 143 Gambar 6.33 F-Measure Backward Elimination 22 Feature Extractor ............................................................................... 144 Gambar 6.34 Time Backward Elimination 22 Feature Extractor .............................................................................................. 145 Gambar 6.35 F-Measure Backward Elimination 21 Feature Extractor ............................................................................... 146 Gambar 6.36 Time Backward Elimination 21 Feature Extractor .............................................................................................. 147 Gambar 6.37 F-Measure Backward Elimination 20 Feature Extractor ............................................................................... 148 Gambar 6.38 Time Backward Elimination 20 Feature Extractor .............................................................................................. 149 Gambar 6.39 F-Measure Backward Elimination 19 Feature Extractor ............................................................................... 150 Gambar 6.40 Time Backward Elimination 19 Feature Extractor .............................................................................................. 151 Gambar 6.41 F-Measure Backward Elimination 18 Feature Extractor ............................................................................... 152 Gambar 6.42 Time Backward Elimination 18 Feature Extractor .............................................................................................. 153 Gambar 6.43 F-Measure Backward Elimination 17 Feature Extractor ............................................................................... 154 Gambar 6.44 Time Backward Elimination 17 Feature Extractor .............................................................................................. 155 Gambar 6.45 F-Measure Backward Elimination 17 Feature Extractor ............................................................................... 156 xix

Gambar 6.46 Time Backward Elimination 16 Feature Extractor ..............................................................................................157 Gambar 6.47 F-Measure Backward Elimination 15 Feature Extractor ...............................................................................158 Gambar 6.48 Time Backward Elimination 15 Feature Extractor ..............................................................................................159 Gambar 6.49 F-Measure Backward Elimination 14 Feature Extractor ...............................................................................160 Gambar 6.50 Time Backward Elimination 14 Feature Extractor ..............................................................................................161 Gambar 6.51 F-Measure Backward Elimination 13 Feature Extractor ...............................................................................162 Gambar 6.52 Time Backward Elimination 13 Feature Extractor ..............................................................................................163 Gambar 6.53 F-Measure Backward Elimination 12 Feature Extractor ...............................................................................164 Gambar 6.54 Time Backward Elimination 12 Feature Extractor ..............................................................................................165 Gambar 6.55 Rata-Rata F-Measure Skenario Forward Selection ..............................................................................................166 Gambar 6.56 Rata-Rata Time Skenario Forward Selection .166 Gambar 6.57 Rata-Rata F-Measure Skenario Backward Elimination ...........................................................................167 Gambar 6.58 Rata-Rata Time Skenario Backward Elimination ..............................................................................................167 Gambar 6.59 Pengujian F-Measure 2 Sampel ......................177 Gambar 6.60 Pengujian Time 2 Sampel ...............................178

xx

DAFTAR KODE Kode 5.1 Parsing Data GEOJSON ......................................... 74 Kode 5.2 Fungsi getTextFromDB Untuk Pemuatan Data Teks ........................................................................................ 78 Kode 5.3 Pemanggilan Fungsi getTextFromDB pada Main ................................................................................................ 78 Kode 5.4 Fungsi getLocation Untuk Pemuatan Lokasi 79 Kode 5.5 Pemuatan Data Lokasi pada Main .......................... 80 Kode 5.6 Fungsi getNonLocation Untuk Pemuatan Data Non-Lokasi ............................................................................. 81 Kode 5.7 Pemuatan Data Non Lokasi pada Main .................. 82 Kode 5.8 Pengacakan Data Teks pada Fungsi createTrainDataset ..................................................... 82 Kode 5.9 Pembuatan Dataset trainFile pada Fungsi createTrainDataset ..................................................... 83 Kode 5.10 Pemanggilan Fungsi createTrainDataset pada Main ............................................................................... 83 Kode 5.11 Matching Menggunakan Pattern Matcher pada Fungsi createTrainDataset ......................................... 84 Kode 5.12 Fungsi tokenizing Untuk Proses Tokenizing Kalimat ................................................................................... 85 Kode 5.13 Fungsi tokenizing pada createTrainDataset ..................................................... 85 Kode 5.14 Labeling pada Fungsi createTrainDataset 86 Kode 5.15 Daftar Feature Extractor Yang akan Di-Generate 89 Kode 5.16 Generate File Properties 1 Feature Extractor........ 89 Kode 5.17 Menyimpan Feature Extractor yang Pasti Dipilih90 Kode 5.18 Menyimpan Feature Extractor Tambahan ............ 91 Kode 5.19 Generate File Properties Skenario Forward Selection ................................................................................................ 92 Kode 5.20 Menyimpan Daftar Seluruh Feature Extractor...... 93 Kode 5.21 Menyimpan Daftar Feature Extractor yang Pasti Dihilangkan ............................................................................ 94 Kode 5.22 Menyimpan Daftar Feature Extractor yang Diuji Eliminasi ................................................................................ 94 xxi

Kode 5.23 Generate File Properties Skenario Backward Elimination .............................................................................95 Kode 5.24 Fungsi trainCrf untuk Training Dataset ........96 Kode 5.25 Menyimpan Directory Dataset TrainFile ..............96 Kode 5.26 Membuat Kombinasi TrainFile Sesuai Cross Validation ...............................................................................97 Kode 5.27 Menyimpan Folder Kombinasi Feature Extractor 97 Kode 5.28 Pemanggilan Fungsi trainCrf pada Main ........98 Kode 5.29 Fungsi testCrf yang Digunakan Untuk Testing Model......................................................................................99 Kode 5.30 Pemanggilan Fungsi testCrf pada Main ........100

xxii

DAFTAR TABEL Tabel 2.1 Penelitian Sebelumnya ............................................. 7 Tabel 2.2 Confusion Matrix ................................................... 16 Tabel 4.1 Atribut Data............................................................ 34 Tabel 4.2 Sampel Data Mentah Status Facebook ................... 34 Tabel 4.3 Sampel Data Status Facebook ................................ 36 Tabel 4.4 Daftar Nama Non Lokasi ....................................... 43 Tabel 4.5 Daftar Feature Extractor ......................................... 52 Tabel 4.6 Karakter N-Gram ................................................... 56 Tabel 4.7 Deskripsi wordShape Extractor.............................. 58 Tabel 4.8 N-Gram Pada maxNGramLeng.............................. 61 Tabel 5.1 Atribut Data Panjang Jalan..................................... 75 Tabel 5.2 Bagian Data Panjang Jalan ..................................... 75 Tabel 5.3 Sampel Data Panjang Jalan Gabungan ................... 76 Tabel 5.4 Sampel Data yang Digunakan ................................ 77 Tabel 6.1 Sampel Nama-Nama Lokasi pada Data Lokasi OSM .............................................................................................. 101 Tabel 6.2 Contoh Nama-Nama Lokasi pada Data Lokasi Bina Marga ................................................................................... 102 Tabel 6.3 Jumlah Pemuatan Data Lokasi ............................. 103 Tabel 6.4 Skenario Matching ............................................... 103 Tabel 6.5 Hasil Tokenizing Teks ......................................... 105 Tabel 6.6 Kesalahan Labeling dengan Program ................... 106 Tabel 6.7 Pembagian Dataset ............................................... 109 Tabel 6.8 Model Terbaik ...................................................... 168 Tabel 6.9 Feature Extractor Yang Digunakan ...................... 168 Tabel 6.10 Nilai F-Measure Model Terbaik......................... 176 Tabel 6.11 Nilai Time Model Terbaik ................................. 177

xxiii

Halaman ini sengaja dikosongkan

xxiv

BAB I PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang pengerjaan tugas akhir, rumusan permasalahan, batasan permasalahan, tujuan pengerjaan dan juga manfaat pengerjaan tugas akhir. Media sosial saat ini sangat berkembang seiring dengan jumlah pengguna yang terus meningkat di seluruh dunia. Di Indonesia sendiri, menurut data Kementerian Komunikasi dan Informatika (Kemenkominfo), pengguna internet di Indonesia saat ini mencapai 63 juta orang. Dari angka tersebut, 95 persennya menggunakan internet untuk mengakses jejaring sosial [1]. Berbagai jejaring sosial diakses oleh masyarakat Indonesia, mulai dari Facebook, Twitter, Youtube, Path, Google+, hingga LinkedIn telah digunakan oleh masyarakat Indonesia. Kian banyaknya masyarakat Indonesia yang menggunakan media sosial sebagai ajang komunikasi, hingga menempati peringkat 4 sebagai pengguna Facebook terbesar dan peringkat 5 sebagai pengguna Twitter terbesar sedunia. Menurut data dari Webershandwick, untuk wilayah Indonesia terdapat kurang lebih 65 juta pengguna Facebook aktif. Sedangkan untuk pengguna Twitter, berdasarkan data PT Bakrie Telecom, memiliki 19,5 juta pengguna di Indonesia dari total 500 juta pengguna global [1]. Hal tersebut menunjukkan bahwa saat ini sangat banyak masyarakat yang berbagi informasi melalui media sosial. Sehingga, media sosial saat ini memiliki informasi yang sangat melimpah dan dapat menjadi sumber informasi yang berharga. Media sosial pun memiliki kelebihan dalam hal komunikasi sehingga memungkinkan pengguna untuk menciptakan lingkungan yang bersifat partisipatif dan penyediaan informasi secara real-time [2]. Pengguna pun dapat sesuka hati memberikan status maupun komentar tertentu tanpa ada batasan waktu untuk dapat berbagi informasi pada media sosial. Contohnya, pada media sosial Facebook, status atau 1

2 komentar yang diberikan pengguna akan muncul pada timeline sebagai papan berjalan untuk menampilkan informasi. Pada timeline tersebut status dan komentar diurutkan berdasarkan waktu. Status maupun komentar yang terbaru disediakan pada posisi paling atas, seperti tampak pada Gambar 1.1. Sehingga, untuk mendapatkan informasi yang diinginkan, setiap orang pun harus memperhatikan informasi yang disediakan secara terus menerus dimana aktivitas tersebut kurang efektif.

Gambar 1.1 Timeline Facebook Fanpage E100 tertanggal 13 Oktober 2016

Dengan kelebihan dapat menyediakan informasi yang sangat banyak dan secara real-time, media sosial pun juga memiliki kelemahan dalam penyampaian informasi. Banyaknya informasi yang diberikan dan sifat waktunya yang tidak menentu tersebut menyebabkan dibutuhkan usaha untuk

3 menyaring informasi yang diperlukan supaya dapat sesuai dengan pengguna. Untuk itu, diperlukan sistem untuk mengolah informasi yang ada, sehingga dapat diorganisasikan secara lebih efektif. Named Entity Recognition atau NER merupakan salah satu teknik berbasis entitas yang dikembangkan untuk melakukan pengolahan tersebut sehingga informasi yang diberikan menjadi lebih relevan bagi pengguna. Named Entity Recognition (NER) adalah bagian dari ekstraksi informasi yang dapat menspesifikasikan entitas seperti orang, tempat, organisasi, ekspresi waktu, maupun kuantitas [3]. NER bertujuan untuk mengenali entitas-entitas tersebut pada suatu potongan informasi, sehingga aspek-aspek penting dari informasi tersebut dapat diidentifikasi. Sebagai contoh seperti status yang diberikan pada Gambar 1.2, “10.21 : Info awal : Kecelakaan beruntun di Tol Sidoarjo - Waru KM 17.600, kendaraan yang terlibat antara lain mobil box, avanza, panther. Kondisi avanza pintu sebelah kanannya rusak. (odprt)”. Maka dapat diidentifikasi potongan “Tol Sidoarjo-Waru” merupakan sebuah lokasi.

Gambar 1.2 Contoh status Facebook Fanpage E100 tertanggal 13 Oktober 2016

Untuk itu, pada penelitian ini akan dikembangkan suatu modul Named Entity Recognition yang secara spesifik akan mengolah informasi-informasi seputar kota Surabaya yang dibagi oleh masyarakat melalui akun media sosial Facebook fanpage E100. Informasi yang akan diidentifikasi nengan mengunakan NER dalam penelitian ini adalah entitas lokasi yang ada dalam teks status maupun komentar. Selain itu, penelitian ini juga akan mengeksplorasi penggunaan algoritma

4 yang lazim dipergunakan untuk Named Entity Recognition, misalnya, Conditional Random Field (CRF). Meskipun pengembangan NER telah banyak digunakan dalam bidang Information Extraction (IE), dalam pengembangannya tidak banyak penggunaannya dalam basis bahasa Indonesia. Riset tentang NER telah banyak dilakukan menggunakan basis bahasa Inggris karena merupakan bahasa yang banyak digunakan di seluruh dunia. Selain itu, terdapat pula bahasa-bahasa yang sedang gencar-gencarnya diperhatikan peneliti untuk mulai diinvestigasi, seperti bahasa Jerman, Belanda, Jepang, Mandarin, Perancis, Yunani, Italia, Bulgaria, dll [4]. Bagaimanapun, penerapan NER pada teks berbahasa Indonesia masih belum terlalu banyak dipelajari, terlebih lagi dengan karakterisik kebahasaan yang bersifat informal, sehingga dapat menjadi tantangan tersendiri bagi peneliti. Penelitian ini pun juga merupakan salah satu upaya untuk menerapkan NER dalam konteks tersebut.

Berdasarkan latar belakang yang telah dipaparkan di atas, maka berikut ini merupakan rumusan masalah yang akan di selesaikan pada penelitian ini adalah: 1. Bagaimana melakukan praproses data, pembuatan dan pengujian model Named Entity Recognition dengan lexicon Bahasa Indonesia? 2. Bagaimana hasil pendeteksian lokasi dari informasi publik media sosial Kota Surabaya dengan Named Entity Recognition?

5

Pada penyelesaian tugas akhir ini memiliki beberapa batasan masalah, berikut batasan masalah yang harus di perhatikan: 1. Dataset yang digunakan untuk training adalah data yang berasal dari status media sosial Facebook Fanpage akun E100. 2. Data media sosial hanya mengenai kota Surabaya. 3. Named Entity Recognition berbahasa Indonesia dengan memuat 1 label saja yaitu lokasi. Tujuan dari pengerjaan tugas akhir ini adalah: 1. 2.

Memudahkan identifikasi entitas lokasi pada teks media sosial berbahasa Indonesia Modul Named Entity Recognition yang dibuat akan digunakan dalam pengembangan aplikasi CitiViz

Tugas Akhir ini diharapkan dapat memberikan manfaat yaitu: Bagi penulis Tugas Akhir ini berguna untuk memberikan pengetahuan mengenai pemrosesan bahasa atau Natural Language Processing Bagi pengembang CitiViz Melalui tugas akhir ini, penulis dapat membantu pengembang Aplikasi CitiViz dalam melakukan pendeteksian lokasi pada teks sehingga dapat menampilkan informasi yang relevan bagi pengguna berdasarkan lokasi yang dipilih. Dengan begitu, informasi yang ditampilkan akan menjadi lebih lengkap.

6

Tugas Akhir ini sangat relevan untuk menjadi tugas akhir S1, karena melakukan implementasi mata kuliah pada bidang keilmuan seperti: • •

Sistem Cerdas Penggalian Data dan Analitika Bisnis

Tugas akhir ini juga bersifat menyelesaikan masalah dari studi kasus nyata berdasarkan teori yang ada, sehingga tugas akhir ini layak untuk dikerjakan

BAB II TINJAUAN PUSTAKA Untuk dapat memberikan wawasan dan pengetahuan mengenai beberapa hal yang dibahas dalam tugas akhir ini, berikut terdapat penjelasan tentang penilitian sebelumnya, yang dijadikan acuan pengerjaan tugas akhir, serta beberapa dasar teori terkait dengan tugas akhir, yang dapat membantu memahami apa saja yang terdapat pada tugas akhir. Beberapa penelitian sebelumnya yang terkait dengan tugas akhir ini adalah sebagai berikut. Tabel 2.1 Penelitian Sebelumnya

No 1.

Judul Penelitian Tahun Indonesian Namedentity Recognitio n for 15 Classes Using Ensemble Supervised Learning 2016

Identitas Peneliti Aditya Satrya Wibawa , Ayu Purwari anti

7

Kesimpulan

Sumber

Berdasarkan hasil penelitian tentang Named Entity Recognition and Classifcation (NERC) pada dokumen berita berbahasa Indonesia, kesimpulan yang didapat antara lain: Fitur yang digunakan dapat dibagi dalam 3 kategori, yaitu word-level (morphological dan POS), sentence-level,

[4]

8

No

2.

Judul Penelitian Tahun

Identitas Peneliti

Kesimpulan

dan lookup list. Penggunaan fitur word-level sudah cukup baik untuk klasifikasi kelas Named Entity. Namun, jika menambah fitur lookup list, akan meningkatkan akurasi. Hasil performa FMeasure terbaik pada testing adalah 0.528 dengan algoritma Simple Logistic, Direct scheme, dan kombinasi dari ketiga fitur. Named Indra Berdasarkan hasil Entity Budi, penelitian yang Recognitio Stéphan menggunkan n for the e pendekatan Indonesian Bressan, knowledge Language: Gatot engineering pada Combining Wahyud Indonesian Contextual, i, Zainal Named Entity Morphologi A. Recognition cal Hasibua (InNER) yang and Part- n , didasarkan pada of-Speech and aturan yang Features Bobby menggabungkan fitur kontekstual,

Sumber

[5]

9

No

Judul Identitas Penelitian Kesimpulan Peneliti Tahun into a A.A. morphological, Knowledge Nazief dan part of Engineerin speech pada teksg Approach teks dalam bahasa - 2005 Indonesia, kesimpulan yang didapat antara lain: Metode ini dapat menghasilkan kinerja paling tinggi adalah 63.43% untuk Recall dan 71.84% untuk Precision dengan mengkombinasik an ketiga fitur yang telah ditentukan. Berdasarkan percobaan, fitur morphological memberikan hasil yang lebih baik dari fitur part of speech. Hal tersebut berarti bahwa, mengetahui struktur teks dapat memberikan hasil yang lebih baik.

Sumber

10

No


Identitas Peneliti

Kesimpulan

Sumber

Selanjutnya dapat disimpulkan pula bahwa metode association rule dapat memberikan performa yang lebih baik dibandingkan maximum entropy. Sehingga, metode knowledge engineering adalah metode yang terbaik. 3.

A SemiSupervised Algorithm for Indonesian Named Entity Recognitio n - 2015

Rezka Aufar Leonan dya,

Pendekatan Semi-supervised learning menunjukkan Bayu hasil yang lebih Distiaw baik daripada an, Supervised Nursidi learning. Hal ini k Heru disebabkan Prapton adanya o penambahan pengetahuan yang didapatkan classifier dari decision rule, tidak seperti

[6]

11

No


Identitas Peneliti

Kesimpulan

pada supervised learning yang dilakukan training tanpa penambahan pengetahuan. Secara keseluruham, sistem yang dibuat berhasil mencapai peningkatan skor F1 pada iterasi algoritma semisupervised. Namun, hasilnya masih tergolong rendah. Untuk selanjutnya, akan dicari bagaimana mengotomasi tagging untuk meningkatkan nilai inisiasi F1.

Sumber

12

2.2.1. Natural Language Processing (NLP) Natural Language Processing atau NLP merupakan sebuah studi mengenai kajian interaksi antara komputer dengan bahasa (alami) manusia. NLP merupakan studi yang dapat mempercepat strategi pembelajaran untuk mendeteksi dan penggunaan pola-pola yang ada. NLP adalah sebuah rangkaian asumsi yang jika di adopsi saat berkomunikasi, maka interaksinya akan menjadi lebih efektif [7]. Algoritma NLP yang modern didasarkan pada machine learning, terutama statistical machine learning. Implementasi sebelumnya melibatkan code secara langsung. Namun sekarang, telah banyak algoritma machine learning yang digunakan untuk kajian NLP. Algoritma ini akan mengambil masukan fitur yang dihasilkan dari data masukan. Kajian atau task yang ada pada NLP antara lain sebagai berikut [8]: • • • •

Sentiment Analysis Speech Segmentation Text Segmentation Morphological segmentation • Part-of-Speech-Tagging • Word Sense Disambiguation • Automatic Summarization

• Named Entity Recognition • Machine translation • Relationship extraction • Speech recognition • Information retrieval (IR) • Information extraction (IE)

2.2.2. Named Entity Recognition (NER) Named Entity Recognition (NER) merupakan sebuah bagian tugas dari Information Extraction (IE) yang dapat menandai lokasi dari entitas-entitas yang telah didefinisikan sebelumnya. NER dapat digunakan untuk mengidentifikasi entitas-entitas yang ada pada suatu kalimat seperti nama

13 orang, perusahaan, lokasi, organisasi, tanggal, mata uang, dll [9]. Modul NER selanjutnya akan memberikan tanda label untuk entitas yang teridentifikasi. NER merupakan salah satu riset penting dalam area machine learning dan Natural Language Processing (NLP). Karena, NER dapat digunakan untuk menjawab banyak pertanyaan yang ada di dunia nyata [9], misalkan: • Apakah sebuah status mengandung nama orang? Apakah status tersebut menyediakan lokasi orang tersebut? • Perusahaan manakah yang disebutkan dalam artikel berita? • Produk mana kah yang disebutkan dalam komplain tertentu? Untuk mendapatkan modul NER yang sesuai, perlu dilakukan Training pada dataset yang memiliki entitas dengan label yang diinginkan. Untuk entitas tanpa label cukup diberikan tanda “0”. Kemudian, dataset tersebut akan dilakukan training hingga mendapatkan model NER yang diinginkan. Contoh pemberian label entitas dapat dilihat dibawah ini.

Bapak Jokowi kapan tukangsayur2 indonesia dilengkapi EDC Bank Syariah untuk tumbuhkan ekonomi

O PERS O O LOC O O COMP COMP O O O O

14 2.2.3. Conditional Random Field (CRF) Conditional Random Field atau CRF merupakan model probabilistik statistika yang sering diterapkan untuk pengenalan pola dan machine learning untuk memprediksi atau mendeteksi suatu struktur kalimat. CRF sangat populer dan dalam bidang Natural Language Processing ataupun biological sequences untuk memprediksi label (pelabelan) entitas dari suatu masukan [10]. CRF merupakan metode yang dapat digunakan untuk memprediksi sequence/urutan label dari suatu kalimat. Prediksi akan dilakukan berdasarkan fitur-fitur dari kata saat ini dan kata yang mendahuluinya. Kemudian, fitur-fitur tersebut akan dikombinasikan untuk membentuk suatu nilai yang menunjukkan skor dari suatu sequence label pada kalimat. CRF dapat digambarkan pada graph yang terhubung seperti dibawah ini [11]:

Dengan keterangan sebagai berikut: y = label yang ada x = keseluruhan timeseries Formula CRF dapat ditunjukkan sebagai berikut: 𝑲

𝟏 𝒑(𝒚|𝒙) = 𝒆𝒙𝒑 {∑ 𝝀𝒌 𝒇𝒌 (𝒚𝒕 , 𝒚𝒕−𝟏 , 𝒙𝒕 )} 𝒁(𝒙) 𝒌=𝟏

dimana Z(x) merupakan sebuah instans untuk fungsi normalisasi: 𝑲

𝒁(𝒙) = ∑ 𝒆𝒙𝒑 {∑ 𝝀𝒌 𝒇𝒌 (𝒚𝒕 , 𝒚𝒕−𝟏 , 𝒙𝒕 )} 𝒚

𝒌=𝟏

15 Keterangan: y = sequence label x = kalimat K = jumlah fitur λ_k= weight/bobot f_k= fitur-fitur 2.2.4. Performance Measure dan Confusion Matrix Ketepatan pendeteksian dari suatu model merupakan hal yang sangat penting untuk diperhatikan. Sehingga, performa dari suatu model untuk melakukan deteksi ataupun prediksi dapat diketahui dengan kuantitas. Penilaian yang lazim digunakan untuk Named Entity Recognition adalah Precision, Recall dan F-Measure. Sebelum mengetahui apa itu Precision, Recall dan F-Measure, ada baiknya jika mengetahui Confusion Matrix terlebih dahulu. Confusion matrix merupakan sebuah alat analisis yang sangat berguna untuk menangkap apa saja yang ada pada hasil evaluasi dengan menunjukkan hal yang lebih detil dan sebagai basis dalam perhitungan performa yang lainnya. Confusion matrix menghitung frekuensi pada setiap kemungkinan yang keluar pada prediksi yang dibuat oleh model [12]. Untuk prediksi dengan fitur biner yaitu terdapat 2 level, maka akan terdapat 4 luaran hasil saat model membuat prediksi: • True Positive (TP) Jika nilai pada data testing positif dan diprediksi positif. • True Negative (TN) Jika nilai pada data testing negatif dan diprediksi negatif. • False Positive (FP) Jika nilai pada data testing negatif dan diprediksi positif. • False Negative (FN) Jika nilai pada data testing positif dan diprediksi negatif.

16 Bentuk tabel penyajian confusion matrix dapat dilihat pada Tabel 2.2. Tabel 2.2 Confusion Matrix

a. Precision Precision merupakan nilai ketepatan deteksi atau prediksi dengan benar. Sehingga, perhitungan precision dilakukan dengan membandingan jumlah deteksi yang benar dengan jumlah seluruh deteksi. 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 b. Recall Recall merupakan nilai perbandingan ketepatan prediksi benar dengan jumlah seluruh deteksi yang seharusnya benar. 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 c. F-Measure Sedangkan F-Measure adalah perhitungan yang digunakan untuk menggabungkan nilai Precision dan Recall. Ia akan menunjukkan nilai keseimbangan dari Precision dan Recall dengan cara: 2 𝑥 (𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙) 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

17 2.2.5. Java Java adalah sebuah bahasa pemrograman generalpurpose yang concurrent, berbasis kelas serta berorientasi objek [13]. Bahas pemrograman Java didesain agar Java dikembangkan oleh Sun Microsystems sejak tahun 1991 yang saat ini merupakan bagian dari Oracle. Praproses dan pemrosesan data dalam penelitian ini memerlukan adanya program untuk dapat menangani hal tersebut. Dengan menggunakan program, keseluruhan tahapan diharapkan dapat terselesaikan dengan lebih cepat dan akurat. Untuk itu, pada penelitian ini, program dibuat dengan menggunakan bahasa pemrograman Java, baik praproses maupun pemrosesan data. 2.2.6. Stanford NER Stanford NER adalah implementasi Named Entity Recognition dalam Java yang dibuat oleh The Stanford Natural Language Processing Group [13]. Stanford NER menyediakan ekstraktor-esktraktor fitur untuk NER dan juga menyediakan banyak pilihan untuk menentukan ekstraktorekstraktor fitur. Stanford NER sangat baik digunakan untuk identifikasi entitas dalam Bahasa Inggris dengan 3 label yaitu Person (Orang), Organization (Organisasi), dan Location (Lokasi). Stanford NER juga dikenal sebagai CRFClassifier. Perangkat lunak ini menyediakan implementasi rantai linear Conditional Random Field (CRF). Maka, dengan menggunakan Stanford NER, dapat dilakukan training pada model data milik sendiri dengan pelabelan tertentu. Stanford NER pada penelitian ini digunakan sebagai library untuk implementasi praproses hingga pemrosesan data. Adapun class yang digunakan pada penelitian ini antara lain adalah PTBTokenizer, NERFeatureFactory, serta CRFClassifier. PTBTokenizer digunakan untuk melakukan proses tokenizing kalimat. NERFeatureFactory menyediakan feature extractor yang akan digunakan pada file properties

18 untuk pemrosesan. Sedangkan CRFClassifier digunakan untuk pemrosesan data yakni pemrosesan training yang menghasilkan model dan testing yang menunjukkan nilai performa model. 2.2.7. Forward Selection dan Backward Elimination Pembuatan model dalam penelitian ini akan melibatkan beraneka feature extractor yang digunakan dalam pemrosesan data untuk membuat model. Bagaimanapun juga, himpunan feature extractor yang dipilih untuk membuat model terbaik tidak dapat ditemukan kecuali dengan melakukan percobaan (experiment) dan akan menjadi bagian dari analisa penelitian. Terdapat dua pendekatan dalam melakukan seleksi feature extractor yaitu forward selection dan backward elimination. Forward selection merupakan teknik pemodelan yang memulai percobaan dari nol, kemudian ditambahkan dengan satu persatu variabel, yang dalam hal ini adalah feature extractor, hingga mencapai performa terbaik. Sedangkan metode backward elimination dilakukan dengan terus-menerus mengeluarkan atau mengeliminasi satu per satu variabel yang tidak signifikan dalam meningkatkan performa model hingga didapatkan model terbaik. 2.2.8. Open Street Map Open Street Map (OSM) merupakan proyek kolaboratif yang dilakukan oleh volunteer untuk membuat sebuah peta dunia secara gratis. Volunteer dapat melakukan edit peta untuk menghasilkan peta dunia yang lebih akurat. Lisensi OpenStreetMap memungkinkan akses yang gratis pada gambar serta keseluruhan data yang terdapat pada peta [15]. Penggunaan lexicon bahasa Indonesia dalam pembuatan model pada penelitian ini diambil dari nama-nama lokasi, terutama nama-nama lokasi di kota Surabaya. OSM yang merupakan peta open-source dapat menyediakan datadata tersebut.

19 2.2.9. Mapzen Metro Extract Mapzen Metro Extract dapat memungkinkan untuk mendapatkan potongan dara dari Open Street Map (OSM) pada daerah persegi panjang yang mengelilingi kota atau wilayah tujuan tertentu [16]. Data yang tersedia merupakan data lokasi untuk seluruh dunia. Dari data yang terdapat pada peta Open Street Map, tidak semata-mata data tersebut dapat langsung diambil. Mapzen Metro Extract dapat digunakan untuk melakukan ekstraksi data dari Open Street Map. Adapun ekstraksi data tersebut merupakan data nama-nama lokasi yang terdapat pada kota Surabaya. 2.2.10. Facebook Facebook merupakan salah satu jejaring sosial di dunia maya yang sangat eksis. Facebook yang diluncurkan pada tahun 2004 silam telah memiliki lebih dari satu miliar pengguna aktif dari seluruh dunia [17]. Untuk dapat menggunakan Facebook, pengguna perlu melakukan pendaftaran dan membuat profil. Dengan facebook, pengguna dapat berinteraksi dengan pengguna lain dengan menambahkan teman yang telah memiliki profil Facebook. Facebook pun juga memiliki fitur fanpage yang digunakan oleh organisasi untuk berbagi informasi pada masyarakat pengguna facebook. Informasi yang terdapat pada fanpage ini dapat menjadi informasi penting bagi pengguna jika pengguna terus-menerus mengikuti pembaruan daripada fanpage tersebut. Contoh tampilan facebook fanpage terdapat pada Gambar 2.1.

20

Gambar 2.1 Contoh Tampilan Fanpage

2.2.11. Dataset Status Facebook Dataset merupakan koleksi atau kumpulan data yang akan diolah pada tugas akhir. Dataset berupa kumpulan teks dan detail keterangan yang didapatkan dari status dan komentar facebook fanpage E100 serta Sapawarga Kota Surabaya sejak Februari hingga Oktober 2016. Dataset berupa tabel berbentuk file dengan format SQL yang terdiri dari teks, akun yang melakukan posting, id akun, serta hari dan jam posting. Pada tugas akhir ini, data yang digunakan berjumlah 5000 teks yang kemudian akan diberikan entity label dan diolah. 2.2.12. CitiViz CitiViz merupakan aplikasi visualisasi kemacetan dalam kota yang diambil berdasarkan data media sosial. Untuk dapat memberikan informasi yang tepat dan relevan bagi pengguna, pada pengembangannya, CitiViz akan memiliki beberapa modul pemrosesan bahasa dan machine learning yang dapat menangani hal tersebut. Beberapa modul tersebut antara lain, pengubahan bahasa informal menjadi formal, identifikasi topik [18], serta identifikasi lokasi.

21 Sedangkan pada penelitian ini, akan dibuat modul identifikasi atau deteksi lokasi yang akan digunakan untuk pengembangan aplikasi CitiViz. Adapun bagian-bagian dari aplikasi CitiViz dapat dilihat pada Gambar 2.2.

Gambar 2.2 Aplikasi CitiViz

22 Halaman ini sengaja dikosongkan

BAB III METODOLOGI PENELITIAN Pada bab ini akan dijelaskan mengenai gambaran metode dan alur pengerjaan tugas akhir. Gambar 3.1 berikut ini merupakan alur pengerjaan tugas akhir.

Gambar 3.1 Bagan Metodologi

23

24 Berikut merupakan penjelasan dari setiap tahapan yang ada pada metodologi yang digunakan, yaitu: Tahapan awal pengerjaan Tugas Akhir ini adalah studi literatur. Studi literatur digunakan untuk menentukan topik dengan cara menganalisa latar belakang permasalahan informasi publik di media sosial kota surabaya dan menentukan rumusan permasalahan yang diangkat. Pada tahapan ini pun juga ditentukan batasan masalah, tujuan, serta manfaat penentuan topik penelitian. Untuk mendukung latar belakang permasalahan dan rumusan masalah yang sesuai dengan topik, dilakukan peninjauan pustaka mulai dari studi penelitian sebelumnya terkait dengan penggunaan Named Entity Recognition dan juga dasar teori mengenai Natural Language Processing, Named Entity Recognition, algoritma pendekatan seperti Conditonal Random Field (CRF), Performance Measure dan Confusion Matrix, serta media sosial sebagai referensi pustaka. Adapun literatur yang digunakan berasal dari jurnal ilmiah nasional maupun internasional, makalah penelitian, ebook, maupun buku-buku yang dapat dijadikan bahan acuan pengerjaan tugas akhir ini.

Tahap yang harus dilakukan selanjutnya adalah menyiapkan Environment atau Lingkungan Kerja. Persiapan Lingkungan Kerja dilakukan dengan cara mempersiapkan Java Development Kit (JDK) dan Java Runtime Environment (JRE) serta library untuk Named Entity Recognition yang sesuai. Adapun tahapan ini bertujuan untuk mempersiapkan tools atau alat yang dapat digunakan dalam mengeksplorasi pembuatan properties, melakukan tokenization, melakukan entity labeling, hingga dapat melakukan training atau pelatihan serta testing atau pengujian pada dataset.

25

Untuk dapat mengetahui manakah lokasi kota Surabaya, perlu didapatkan daftar lokasi-lokasi yang ada di kota Surabaya berupa nama jalan, nama daerah, kelurahan, kecamatan, serta nama bangunan. Hal tersebut dapat dibantu dengan menggunakan Open Street Map (OSM). OSM merupakan sumber peta yang terbuka, sehingga pengguna dapat melakukan penambahan maupun pengubahan pada data peta. Selain itu, pengguna juga dapat melakukan ekstraksi pada data. Sehingga, pada penelitian ini, akan dilakukan ekstraksi data peta pada kota Surabaya menggunakan custom extraction pada OSM dengan menggunakan polygon untuk dapat menentukan daerah mana yang dilakukan ekstraksi. Format file ekstraksi OSM menggunakan GEOJSON file. Ekstraksi yang dipilih adalah ekstraksi berdasarkan tag OSM seperti nama jalan, nama daerah, area transportasi, area air, serta bangunan. Daftar nama lokasi ini akan digunakan untuk proses entity labeling.

Dataset yang dikumpulkan terpisah-pisah berdasarkan sumber waktu teks yang diambil. Selain itu, terdapat kemungkinan-kemungkinan bahwa teks yang didapat terduplikasi sehingga harus dihapus. Untuk itu, tahap ini akan menangani permasalahan tersebut. Dengan melakukan tahap ini, akan diperoleh data teks yang layak untuk dianalisa pada tahap berikutnya.

Tahapan Restrukturisasi Teks merupakan salah satu tahap yang penting. Tahap ini merupakan tahap yang dilakukan untuk memastikan bahwa teks yang akan dilakukan tokenization telah ada pada format yang sesuai dengan library Stanford NER. Format yang digunakan yaitu 1 teks status

26 dituliskan dalam 1 tokenization.

baris

sehingga

dapat

dilakukan

Dari teks yang sudah dilakukan tahap restrukturisasi, pada tahap selanjutnya, teks akan dilakukan tokenization. Tahap ini merupakan salah satu bagian yang penting dari pengembangan Named Entity Recognition. Tokenization adalah tahapan untuk mengubah kalimat-kalimat teks menjadi potongan-potongan kata dalam tiap barisnya. Setiap baris tersebut akan menjadi 1 token. Batasan setiap token adalah whitespace antar karakter pada kalimat dan juga memisahkan karakter tanda baca. Berikut adalah contoh Tokenization. Kalimat “21.50 : Sepanjang - Medaeng padat cenderung MACET. Sebabnya ada kabel yang menggantung.” akan memiliki token-token dengan berurutan tiap barisnya: 21.50 : Sepanjang Medaeng padat cenderung MACET . Sebabnya ada kabel yang menggantung .

27

Setelah melakukan Tokenization, tahap yang tidak kalah penting selanjutnya adalah Entity Labeling. Entity Labeling merupakan pemberian label pada setiap token yang ada. Untuk dapat melakukan entity labeling, format yang digunakan haruslah sesuai yaitu pada kolom ke-0 merupakan kolom token, kemudian pada kolom ke-1 merupakan label yang dipisahkan menggunakan ‘tab’. Berkas hasil entity labeling ini akan disimpan dalam format .tsv. Untuk dapat membantu peneliti dalam melakukan entity labeling, tools yang dapat digunakan adalah menggunakan Regular Expression (Regex). Regex digunakan untuk mendeteksi kata yang teridentifikasi label pada token. Kata-kata ini didapatkan dari daftar nama lokasi kota Surabaya dari OSM berdasarkan sub 3.3. Maka, jika terdapat kata yang sesuai, akan diberikan label yang sesuai juga. Namun pada penelitian ini, melakukan pelabelan secara manual tetap perlu dilakukan untuk memastikan bahwa pelabelan telah dilakukan dengan benar. Adapun pada penelitian kali ini, label yang dibuat hanya 1 yaitu label lokasi. Sehingga, untuk setiap token yang menunjukkan suatu lokasi, haruslah diberikan label LOC. Untuk token-token yang tidak menunjukkan lokasi, akan diberikan label O, yang berarti tidak memiliki label. Lokasi yang dideteksi dalam penelitian ini sesuai dengan daftar lokasi yang sudah didapatkan. Berikut contoh hasil entity labeling pada contoh kalimat. 21.50 O : O Sepanjang LOC O Medaeng LOC padat O cenderung O MACET O . O Sebabnya O

28 ada kabel yang menggantung .

O O O O O

Setelah entity labeling selesai dilakukan, tahap selanjutnya adalah melakukan pembagian data teks untuk data training dan data testing. Pembagian data teks untuk proses training dan testing dilakukan dengan menggunakan metode Cross Validation. Cross Validation merupakan salah satu teknik validasi yang akan membagi data menjadi data training dan data testing yang digambarkan pada Gambar 3.2. Selanjutnya, data ini akan dilakukan proses silang yaitu data testing akan menjadi data training maupun sebaliknya. Cross Validation yang digunakan pada penelitian ini yaitu K-Fold Cross Validation. Proses silang yang ada pada K-Fold Cross Validation dapat digambarkan dengan skenario sebagai berikut: K1

Data Testing

K2 K3 Data Training K4 K5

Gambar 3.2 Pembagian Data Training dan Data Testing

29 1. Bagi data menjadi sejumlah kelompok k, dalam penelitian kali ini k yang digunakan sejumlah 5 (setiapnya 20% data). 2. Pada setiap kelompok data, misalkan diberikan nama K1, K2, K3, K4 dan K5. 3. Gunakan 1 kelompok data sebagai data testing (misal, K1), sedangkan sisanya sebagai data training (misal, K2K5). 4. Ulangi proses 3 hingga seluruh kelompok data telah digunakan sebagai data testing. Sehingga, pada tahap ini akan menghasilkan 5 yaitu data training dalam format .tsv yang akan digunakan untuk training dan testing dengan 5 kemungkinan kombinasi dataset file yang berbeda.

Daftar fitur perlu dibuat untuk dapat menyesuaikan dengan struktur bahasa yang ada. Fitur-fitur yang dibutuhkan ini dapat diketahui pada skenario eksperimen. Eksperimen dilakukan dengan cara mengubah-ubah fitur agar sesuai hingga mendapatkan hasil model yang optimal. Berikut ini merupakan contoh fitur pada CRF beserta pengertiannya. • w = word/kata • t = tag • p = position (index kata pada kalimat) • c = class • p = paren • n(w) = ngrams dari word/kata

Dari daftar fitur yang telah dibuat, tahap selanjutnya adalah mentranslasikan fitur tersebut menjadi sebuah file properties yang dapat mendefinisikan feature extractor apa saja yang akan digunakan untuk mengekstraksi fitur. File properties juga harus mendefinisikan file data training yang akan didapatkan pada tahap pembagian data training dan

30 testing. File properties ini pun selanjutnya akan digunakan untuk melakukan training bersama-sama dengan data training. Berikut ini contoh beberapa feature extractor berserta pengertiannya.    

useWord : Mengunakan fitur word useNGrams : Pembuatan fitur n-gram dari suatu kata, sehingga menghasilkan substring dari kata lowercaseNGrams : Pembuatan fitur n-gram dari suatu kata dengan huruf kecil saja useSymWordPairs : Memberikan fitur kata sebelum, kata setelah dan kelas saat ini Contoh pengaplikasian feature extractor useWordPairs Sepanjang – Medaeng padat cenderung MACET Kelas kata saat ini: LOC Kata sebelum: – Kata setelah: padat

Jika telah memiliki file data training dalam format .tsv dan telah memiliki file properties dalam format .prop, maka tahap selanjutnya yang dapat dilakukan adalah tahap training. Pada tahap ini, akan digunakan library Stanford NER. Cukup dengan memanggil file properties, library akan menjalankan iterasinya untuk menghasilkan model. Jika iterasi telah selesai, akan didapatkan file ner-model yang akan diuji pada tahap testing.

Setelah didapatkan ner-model dari tahapan training, tahap selanjutnya yang perlu dilakukan adalah menguji model tersebut dengan testing. Testing dapat dilakukan dengan memanggil library Stanford NER untuk menguji model yang telah dibuat menggunakan data testing. Pada tahapan ini akan dibandingkan apakah deteksi label lokasi yang diberikan oleh model telah sesuai dengan testing yang diberikan. Untuk

31 penilaian, digunakanlah nilai performa Precision, Recall dan F-Measure. Kemudian, jika ingin melakukan percobaan untuk mendapatkan nilai performa yang berbeda, peneliti akan kembali pada tahapan membuat daftar fitur dan file properties. Namun, jika nilai yang didapatkan telah sesuai dengan yang diinginkan, dapat dilakukan pengambilan kesimpulan. Skenario percobaan akan dilakukan sesuai dengan skenario forward selection dan backward elimination pada feature extractor.

Penulisan Buku Tugas Akhir adalah tahap yang menghasilkan buku Tugas Akhir. Penulisan buku ini dilakukan bersamaan dengan tahapan penelitian yang lainnya. Harapannya, luaran berupa buku tugas akhir dapat dijadikan sebagai referensi untuk penelitian selanjutnya.


BAB IV PERANCANGAN Untuk dapat memberikan gambaran apa-apa saja yang dikerjakan pada implementasi penelitian tugas akhir, pada bab ini, akan dijelaskan mengenai perancangan penelitian tugas akhir yang meliputi subyek dan obyek penelitian, pemilihan subyek dan obyek penelitian serta bagaimana penelitian akan dilakukan.

Data merupakan salah satu komponen penting untuk dapat melakukan penelitian pendeteksian lokasi dari informasi publik pada media sosial kota Surabaya berbasis Named-Entity Recognition. Data dalam penelitian ini merupakan dataset berupa tipe data teks dari status fanpage facebook Suara Surabaya.

Gambar 4.1 Alur Pengambilan Data

Untuk dapat menggunakan data tersebut, maka perlu dilakukan pengambilan data. Pada penelitian ini, pengambilan data dilakukan oleh Stezar Priansya (Sistem Informasi ITS 2013) [16] dalam periode 3 bulan mulai September 2016 hingga dengan November 2016 dengan data yang diambil merupakan status facebook fanpage Suara Surabaya dalam periode 15 bulan sejak Agustus 2015 sampai dengan November 2016. Sesuai dengan alur pengambilan data yang ditunjukkan pada Gambar 4.1, pengambilan data status facebook fanpage dilakukan dengan teknik crawling menggunakan library Facebook4J pada bahasa pemrograman Java. Selanjutnya, keseluruhan dataset akan disimpan ke dalam database MySQL.

33

34 Data status yang telah diambil memiliki beberapa atribut seperti id status facebook, isi dari status facebook, story status facebook, serta waktu dibuatnya status tersebut. Tabel 4.1 menunjukkan daftar atribut status, tipe data pada setiap atribut, serta keterangan yang ada pada atribut. Tabel 4.1 Atribut Data

Nama Atribut fb_id message story created_time

Tipe Data Text Text Text Datetime

Keterangan ID status facebook isi dari status facebook story status facebook tanggal posting status facebook

Dari proses pengambilan data, terdapat sebanyak 25.416 teks status yang dapat dikumpulkan. Tabel 4.2 menunjukkan sampel data yang tersimpan dalam database MySQL. Tabel 4.2 Sampel Data Mentah Status Facebook

fb_id

Message

story

227268 729878 _10154 869178 789879

Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanak ota/detail.php?id=2rd5iab0l0skf1u 7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odpfk)

E100 with Naira Purn omo.

22726 87298 78_10 15388

E100 with Naira Purn omo.

creat ed_ti me 8/1/20 15 23:41

8/1/20 15 23:27

35 45897 39879 22726 87298 78_10 15388 43725 94879 22726 87298 78_10 15388 43727 39879

http://m.suarasurabaya.net/kelanak ota/detail.php?id=2rd5iab0l0skf1u 7a4ru2jflp32015156523 "Sebanyak 94 TKI ilegal NUL Dideportasi Malaysia. (odp-rt) L http://m.suarasurabaya.net/kelanak ota/detail.php?id=ik878thocermn5 g8a7r6esbdr72015156517"

8/1/20 15 22:10

Datang ke Muktamar, Jokowi NUL Bagikan Kaos dan Kartu Indonesia L Pintar. (odp-rt) http://m.suarasurabaya.net/kelanak ota/detail.php?id=ik878thocermn5 g8a7r6esbdr72015156512

8/1/20 15 21:55

22726 87298 78_10 15388 43602 59879

21.45 : Hindari masuk Jombang NUL Kota! Lalu lintas MACET TOTAL. L Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso Gedeg saja, Kawan. (odp-rt)

8/1/20 15 21:46

22726 87298 78_10 15388 43128 39879

Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/d etail.php?id=ik878thocermn5g8a7r 6es01082015156501&fokusid=61 3

E100 8/1/20 with 15 Ima 21:16 m De Iwes and Naira Purn omo.

36

Tahap selanjutnya yang perlu dilakukan setelah pengambilan data adalah pemilihan atribut. Pemilihan atribut dilakukan untuk mempertimbangkan dan menyeleksi atribut data mana saja yang akan digunakan selama penelitian berlangsung. Berdasarkan dataset status facebook yang diperoleh dari proses pengambilan data, atribut yang dapat digunakan adalah atribut message. Atribut message dipilih karena merupakan atribut yang menunjukkan isi teks dari status facebook fanpage. Sehingga, atribut data inilah yang selanjutnya akan diolah dan dilakukan analisis. Tabel 4.3 dibawah ini menujukkan sampel data berdasarkan hasil pemilihan atribut yang digunakan dalam penelitian. Tabel 4.3 Sampel Data Status Facebook

Message Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.php?id=2rd5ia b0l0skf1u7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.php?id=2rd5ia b0l0skf1u7a4ru2jflp32015156523 "Sebanyak 94 TKI ilegal Dideportasi Malaysia. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.php?id=ik878t hocermn5g8a7r6esbdr72015156517" Datang ke Muktamar, Jokowi Bagikan Kaos dan Kartu Indonesia Pintar. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.php?id=ik878t hocermn5g8a7r6esbdr72015156512

37 21.45 : Hindari masuk Jombang Kota! Lalu lintas MACET TOTAL. Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso - Gedeg saja, Kawan. (odp-rt) Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/detail.php?id=ik878thocer mn5g8a7r6es01082015156501&fokusid=613

Tahapan perancangan model akan mendefinisikan halhal apa saja yang perlu dilakukan setelah memilih atribut data yang digunakan dalam penelitian. Adapun hal-hal tersebut akan diimplementasikan menggunakan tools komputasi secara otomatis dengan bahasa pemrograman Java. Terdapat empat tahapan besar untuk mendapatkan model yaitu perancangan data lokasi, perancangan prarproses data, perancangan feature extractor, serta perancangan pemrosesan data. Berikut ini merupakan tahapan yang ada pada setiap perancangan. 4.3.1. Perancangan Data Lokasi

Gambar 4.2 Sumber Data Lokasi

38 Pada penelitian ini, implementasi perancangan data lokasi akan menghasilkan daftar nama-nama lokasi kota Surabaya yang akan digunakan dalam proses pencarian nama lokasi dalam suatu teks secara otomatis. Tahapan perancangan data lokasi diawali dengan proses pengumpulan data lokasi dari beberapa sumber. Pada Gambar 4.2 ditunjukkan bahwa sumber data lokasi terbagi atas dua sumber yaitu Open Street Map dan Dinas PU Bina Marga. Data-data yang telah dikumpulkan akan diekstraksi menggunakan tools yang sesuai dengan format data dari seluruh sumber. Setelah itu, data yang telah diekstrak dari kedua sumber akan digabungkan dan akan didapatkan daftar nama-nama lokasi kota Surabaya dalam format text. Adapun perancangan proses pengumpulan, ekstraksi dan pengubahan format pada setiap sumbernya dijelaskan sebagai berikut: 4.3.1.1. Data Lokasi Open Street Map

Gambar 4.3 Alur Ekstraksi Data Lokasi Open Street Map

Untuk dapat memuat nama-nama lokasi yang ada di kota Surabaya dari Open Street Map, terdapat beberapa tahapan yang perlu dilakukan. Gambar 4.3 di atas menunjukan tahapan alur ekstraksi data lokasi dari Open Street Map. Tahapan yang pertama adalah melakukan esktraksi peta Open Street Map menggunakan Mapzen Metro Extracts yang

39 dapat diakses pada https://mapzen.com/data/metro-extracts/. Mapzen Metro Extracts dapat digunakan untuk memilih area mana yang akan diekstraksi. Setelah dilakukan ekstraksi, akan didapatkan data lokasi Surabaya dalam format GeoJSON. Selanjutnya, akan dilakukan parsing data GeoJSON menggunakan Program Java yang akhirnya menghasilkan data daftar nama-nama lokasi kota Surabaya dalam format text. 4.3.1.2. Data Lokasi Dinas PU Bina Marga

Gambar 4.4 Alur Ekstraksi Data Lokasi Dinas PU Bina Marga

Proses pengumpulan data pada Dinas PU Bina Marga diawali melalui wawancara pegawai dinas dan pengajuan surat permohonan data melalui Badan Kesatuan Bangsa dan Politik (Bakesbangpol) Kota Surabaya. Adapun alur ekstraksi data lokasi Dinas PU Bina Marga tampak pada Gambar 4.4 di atas. Data yang didapatkan dari Dinas PU Bina Marga untuk menjadi masukan pada penelitian ini adalah data panjang jalan kota Surabaya. Data tersebut berupa file excel (.xlsx) yang berisikan daftar nama-nama jalan beserta nama pangkal ruas jalan dan nama ujung ruas jalan. Setelah data didapatkan, selanjutnya adalah pemilihan atribut data yang berisikan nama jalan, kelurahan serta kecamatan untuk dimasukkan pada daftar nama lokasi kota Surabaya.

40 4.3.2. Perancangan Praproses Data

Gambar 4.5 Alur Praproses Data

Sebelum dapat melakukan pemrosesan data, data yang telah terkumpul perlu disesuaikan dengan format yang ada pada library yang digunakan pada pemrosesan data, yaitu library Stanford NER dengan bahasa pemrograman Java. Untuk itu, data-data yang digunakan akan melalui praproses data, sehingga dapat digunakan dalam pemrosesan data menggunakan library Stanford NER. Pada penelitian ini, seperti yang terdapat pada gambar alur praproses data pada Gambar 4.5, data-data seperti data lokasi, data non lokasi, serta dataset status facebook yang tersimpan dalam database, akan melalui praproses data untuk dapat menjadi file berupa file Tab-Separated Value (.tsv). Praproses data akan dilakukan menggunakan program dengan bahasa pemrograman Java. Program praproses data dibuat untuk menandai lokasi yang ada pada suatu teks secara otomatis dari daftar nama-nama lokasi dengan menggunakan Java Pattern dan Java Matcher. Selain dilakukan penandaan secara otomatis menggunakan program, penelitian ini juga akan mencoba percobaan dengan melakukan penandaan lokasi secara manual tanpa program. Setelah penandaan nama-nama lokasi dilakukan, selanjutnya, akan dilakukan pembagian dataset. Dataset akan

41 dibagi berdasarkan cross-validataion dengan k-fold=5. Maka, dataset keseluruhan akan dibagi menjadi 5 file (.tsv). Masingmasing file akan mewakili sejumlah 20% data dari keseluruhan dataset. Selanjutnya, 5 file ini akan diteruskan untuk dilakukan pemrosesan data. Adapun tahapan dalam melakukan praproses data yang harus dilakukan di atas akan dibagi berdasarkan tahapantahapan yang lebih rinci, antara lain adalah pemuatan data teks, pemuatan data teks, pembagian dataset, matching lokasi dan non lokasi dengan teks, tokenizing, serta labeling teks dengan lokasi. Tahapan-tahapan tersebut akan dibahas lebih rinci dalam pembahasan berikut ini. 4.3.2.1. Perancangan Pemuatan Data Teks

Gambar 4.6 Alur Pemuatan Data Teks Status Facebook

Tahapan pertama dalam melalakukan praproses data adalah pemuatan dataset status facebook yang berupa data teks. Gambar 4.6 menampilkan alur pemuatan data teks status facebook. Pemuatan data dilakukan dengan menggunakan program dengan bahasa pemrograman Java yang mengkoneksikan program dengan Database MySQL status facebook. Pada proses ini, akan dilakukan pemanggilan data dengan menggunakan Query SELECT MySQL. Dalam penelitian ini, akan dipanggil sejumlah 1000 data teks yang akan digunakan menjadi keseluruhan dataset. Setelah data diambil, tautan yang ada pada data teks perlu dihapus karena tidak dimasukkan dalam pemrosesan data. Selain itu, juga

42 dilakukan penghapusan baris baru pada teks, sehingga teks akan menjadi dalam 1 baris. Kemudian, data yang telah diambil akan diberikan tanda bahwa data tersebut telah dilakukan proses pemanggilan data. Selanjutnya, data yang telah dipanggil akan dimuat dalam program berupa Data Teks. 4.3.2.2. Perancangan Pemuatan Data Lokasi dan Non Lokasi Tahap selanjutnya yang perlu dilakukan dalam praproses data adalah pemuatan data lokasi dan non lokasi. Data lokasi dan non lokasi akan dimuat dalam program menggunakan bahasa pemrograman Java dan akan disimpan menjadi Pattern.

Gambar 4.7 Alur Pemuatan Data Lokasi

Gambar 4.7 di atas menunjukkan alur pemuatan data lokasi menjadi Pattern Lokasi. Proses pemuatan data lokasi diawali dengan mengidentifikasi setiap baris yang ada pada Data Lokasi. Setiap baris berupa teks tersebut akan dimuat pada program Java. Setelah keseluruhan baris dimuat, selanjutnya, akan dilakukan pengurutan data teks lokasi secara descending berdasarkan panjang kata. Sehingga, data lokasi yang memiliki jumlah huruf paling banyak berada pada posisi awal. Sedangkan data lokasi yang memiliki huruf paling sedikit berada di posisi terakhir. Setelah itu data yang telah diurutkan tersebut akan disimpan dalam Pattern Lokasi.

43 Tabel 4.4 Daftar Nama Non Lokasi

No 1 2 3 4 5

Nama non lokasi Suara Surabaya Suara Bojonegoro Indah Se-Surabaya Walikota Surabaya Pilkada Surabaya

Data non lokasi pada penelitian ini merupakan daftar nama-nama non lokasi, misalkan nama organisasi, yang didalamnya terdapat nama lokasi. Data non lokasi digunakan agar penandaan nama lokasi pada data teks tidak perlu menandai nama-nama non lokasi yang didalamnya terdapat nama lokasi. Nama non lokasi diambil dari kata-kata yang sering muncul pada data teks dan pada konteks penelitian ini dapat dilihat pada Tabel 4.4.

Gambar 4.8 Alur Pemuatan Data Non Lokasi

Gambar 4.8 di atas menunjukkan alur pemuatan data non lokasi menjadi Pattern Non Lokasi. Proses pemuatan data lokasi diawali dengan mengidentifikasi setiap baris yang ada pada Data Non Lokasi. Setiap baris berupa teks tersebut akan dimuat pada program Java. Setelah keseluruhan baris dimuat, selanjutnya, akan dilakukan pengurutan data teks non lokasi secara descending berdasarkan panjang kata. Sehingga, data non lokasi yang memiliki jumlah huruf paling banyak berada pada posisi awal. Sedangkan data lokasi yang memiliki huruf paling sedikit berada di posisi terakhir. Setelah itu data yang telah diurutkan tersebut akan disimpan dalam Pattern Non Lokasi.

44 4.3.2.3. Perancangan Pembagian Dataset

Gambar 4.9 Pembagian Dataset

Setelah dilakukan pemuatan Data Teks maupun Data Lokasi dan Non Lokasi, tahap berikutnya adalah pembuatan file dalam format TSV (.tsv) untuk pembagian dataset. File akan dibuat dengan menggunakan program Java dan dituliskan dengan Java BufferedWriter untuk setiap file. Seperti pada Gambar 4.9, berdasarkan cross-validation dengan k-fold=5, maka dataset akan dibagi ke dalam 5 file yang berbeda. Pembagian ini akan dilakukan dengan pengurutan data teks. Sehigga, data teks ke-1 akan dimasukkan pada file ke-1, data teks ke-2 akan dimasukkan pada file ke-2, data teks ke-3 akan dimasukkan pada file ke-3 dan seterusnya. Data teks yang dimasukkan pada file tidak semata-mata dari hasil muatan dataset teks mentah. Data teks yang dimuat awalnya akan dilakukan pengacakan dengan Random Shuffle menggunakan Seed pada Java. Selain itu, training file yang dibuat akan dituliskan hasil dari praproses matching pada sub 4.3.2.4., tokenizing pada sub 4.3.2.5. serta labeling pada sub 4.3.2.6. untuk setiap data teks dengan data lokasi dan non lokasi yang berupa token dan label.

45 4.3.2.4. Perancangan Matching Lokasi dan Non Lokasi dengan Data Teks

Gambar 4.10 Alur Matching Lokasi dan Non Lokasi dengan Data Teks

Matching Lokasi dan Non Lokasi dengan Data Teks merupakan tahapan untuk menghidentifikasi bagian dari teks mana yang merupakan suatu lokasi menggunakan Java Pattern dan Java Matcher. Alur Matching Lokasi dan Non Lokasi dengan Data Teks ini ditunjukkan pada Gambar 4.10 di atas. Pada tahapan ini, terdapat 3 masukan pada program yaitu Data Teks, Pattern Lokasi, serta Pattern Non Lokasi. Pertama-tama yang perlu dilakukan pada program adalah duplikasi Data Teks menjadi Data Teks Temporary. Data Teks Temporary diperlukan untuk menandai bagian dari suatu teks yang merupakan lokasi maupun non lokasi. Proses penandaan dimulai dengan menggunakan matcher pada pattern non lokasi dengan teks. Jika dalam suatu teks terdapat kata-kata yang ada pada pattern non lokasi, data yang terdapat pada data teks temporary sesuai index yang ditemukan akan ditandai menjadi non lokasi. Setelah itu barulah digunakan matcher pada pattern lokasi dengan teks. Jika dalam suatu teks terdapat kata-kata yang ada pada pattern lokasi, data yang terdapat pada teks temporary sesuai index yang ditemukan akan ditandai menjadi lokasi.

46 4.3.2.5. Perancangan Tokenizing

Gambar 4.11 Alur Tokenizing

Tahap yang perlu dilakukan selanjutnya setelah Data Teks dan Data Teks Temporary ditandai lokasi dan lokasi adalah Tokenizing. Gambar 4.11 di atas menggambarkan alur tokenizing untuk data teks dan data teks temporary. Pada tahapan ini, tokenizing dilakukan dengan menggunakan library dari Stanford NLP Process dengan class PTBTokenizer. Tahapan Tokenizing akan membagi teks menjadi sequence token-token, yang bisa dikorespondensikan menjadi “katakata” [17]. Tokenizing ini dilakukan untuk data teks maupun data teks temporary. Sehingga, tahapan ini akan menghasilkan sequence token dari data teks serta sequence token dari data teks temporary. 4.3.2.6. Perancangan Labeling Lokasi Setelah dilakukan tokenizing, tahap berikutnya adalah penandaan lokasi sesuai dengan format yang ada pada library Stanford NER, yaitu sequence dari token teks diletakkan pada kolom ke-0 dari data, kemudian pada kolom ke-1 merupakan label yang dipisahkan menggunakan ‘tab’. File hasil entity labeling ini akan disimpan dalam format .tsv.

47 a. Labeling dengan Program

Gambar 4.12 Alur Labeling Lokasi Menggunakan Program

Gambar 4.12 di atas menunjukkan alur labeling lokasi dengan menggunakan program Java. Untuk melakukan labeling tersebut, pertama-tama, hal yang perlu dilakukan adalah membandingkan setiap sequence dengan index yang sama pada token teks dan token teks temporary. Saat dibandingkan, jika sequence yang terdapat pada token teks dan token teks temporary adalah sama (equals), maka token teks tidak akan terindikasi sebagai lokasi dan diberikan label berupa “O” dengan pemisahan berupa ‘tab’. Jika sequence yang terdapat pada token teks dan token teks temporary adalah tidak sama dan terdapat tanda non lokasi, maka token teks tidak diinfikasikan sebagai lokasi dan diberikan label berupa “O” dengan pemisahan berupa ‘tab’. Maka, indikasi terdapat lokasi dalam suatu teks adalah ketika sequence token teks temporary berbeda dengan sequence token teks dan teks temporary memiliki tanda lokasi. Selanjutnya, teks yang terindikasi sebagai lokasi akan diberikan label berupa “LOC” dengan pemisahan berupa ‘tab’. Setelah dilakukan pemberian label pada seluruh token, maka token dan label akan dituliskan pada file dalam format TSV (.tsv) untuk dapat dilakukan pemrosesan data dengan pembagian dataset yang dijelaskan pada sub 4.3.2.3.

48 b. Labeling Manual Setelah didapatkan file dari tahapan pembagian dataset hingga pemberian label dengan program, penelitian ini juga akan melakukan pemberian label lokasi yang ada pada teks secara manual. Hal ini dilakukan untuk menanggulangi namanama lokasi di luar kota Surabaya yang tidak terindikasi pada program. Selain itu, pengecekan manual juga dilakukan unutk menanggulangi nama-nama non lokasi yang seharusnya tidak terindikasi pada program. Sehingga, diharapkan, dataset yang akan digunakan pada pemrosesan data (training dan testing) akan maksimal. Pengecekan manual pada pemberian label lokasi dilakukan dengan pengecekan satu-persatu keseluruhan token yang ada pada data file. Jika terindikasi sebagai lokasi, maka akan diberikan label berupa “LOC”. Selain itu, jika terdapat token yang seharusnya bukan lokasi namun terdapat label “LOC”, maka label tersebut akan diubah menjadi “O”. Pada proses pelabelan ini, diperlukan konsistensi dalam memberikan label “LOC”. Untuk itu, perlu adanya definisi tetap mengenai apa yang dimaksudkan degan label lokasi atau “LOC”. Label lokasi (LOC) dapat diberikan pada suatu token dengan memperhatikan beberapa hal seperti pada Gambar 4.13.

Gambar 4.13 Irisan Nama Lokasi yang Diberikan Label

49 Gambar 4.13 menunjukkan hasil irisan antara beberapa hal yang perlu diperhatikan saat melakukan pemberian label lokasi antara lain nama-nama lokasi, struktur bahasa formal dan non-formal, konteks berita, serta batasan-batasan tertentu seperti yang didefinisikan sebagai berikut: 1. Token merupakan nama-nama lokasi. Dasar utama penentuan lokasi pada suatu kalimat adalah nama-nama lokasi yang ada di bawah ini:  Nama-nama negara seperti “Indonesia”, “Malaysia”.  Nama-nama provinsi seperti “Jawa Timur”  Nama-nama kota dan daerah seperti “Surabaya”, “Malang”, “Pasuruan”.  Nama daerah administratif seperti nama desa, kelurahan, kecamatan, maupun daerah pemukiman penduduk seperti perumahan. Didefinisikan sebagai lokasi jika terdapat nama daerah seperti “Benowo”.  Nama fasilitas umum seperti stasiun kereta, terminal, bandara, halte, perpustakaan, rumah sakit, puskesmas, klinik kesehatan, tempat pengisian bahan bakar, jembatan, SIM Corner, maupun laboratorium. Contoh dari fasilitas umum adalah “Puskesmas Suramadu”.  Nama jalan pembatas yang berupa jalan tol. Misalnya, “Tol Dupak”.  Nama bangunan seperti apartemen, hotel, asrama, industri, toko, gereja, masjid, candi, rumah sakit, sekolah, bank, perguruan tinggi, universitas, supermarket, mimarket, pasar, rumah makan, bangunan pemerintahan, kantor, polres, polsek, balai, maupun hall umum. Contoh dari nama bangunan misalnya “Apartemen Puri Darmo”.  Nama-nama jalan. Contoh penulisan nama jalan yang sesuai EYD adalah “Jalan Pemuda”.  Nama lokasi alam seperti nama sungai dan gunung. Contoh nama lokasi alam adalah “Kali Mas”

50 

Alamat rumah lengkap dengan nomor gang, nomor rumah, blok, nomor RT, maupun nomor RW. 2. Struktur bahasa formal dan non formal. Struktur bahasa formal yaitu struktur bahasa yang menganut Ejaan Yang Disempurnakan. Lokasi dengan struktur bahasa formal akan diberikan label. Pada penelitian ini pun juga tidak menghiraukan nama lokasi dengan struktur penulisan non formal yang umumnya tidak sesuai dengan EYD seperti berikut:  Nama-nama lokasi yang disingkat tetap diberikan label lokasi seperti “Sby” yang berarti lokasi “Surabaya”, ataupun “Ds.” yang berarti “Desa”.  Menghiraukan penulisan huruf kapital dan non kapital yang kurang tepat misal “jl kertajaya” tetap diberikan label lokasi.  Nama jalan yang mengandung singkatan seperti “JL”, “Jl”, “jl”, “jl”, “Jln.”, “Jl.”, serta penulisan nama jalan yang tidak menghiraukan tata cara penulisan huruf kapital seperti ,”jalan”, ”pemuda”, “PEMUDA” tetap diberikan label lokasi. 3. Penentuan lokasi berdasarkan konteks berita:  Memperhatikan relevansi nama lokasi dengan berita. Pada berita, jika terdapat nama suatu lokasi, tidak semata-semata dapat langsung didefinisikan sebagai lokasi. Melainkan harus dilihat relevansi nama lokasi pada berita. Lokasi pada kalimat berita umumnya merupakan sebuah Keterangan (K) pada struktur kalimat Subjek (S) – Predikat (P) – Objek (O) – Keterangan (K), yang merupakan keterangan tempat. Ciri-ciri yang merupakan sebuah lokasi pada kalimat adalah terdapat kata-kata awalan seperti kata “di”, “ke”, “dari”, “depan”, maupun “asal”.  Nama jalur jalan yang didefinisikan menggunakan kata “arah” maupun tanda “-“. Contohnya pada

51 “Warugunung - Karangpilang”, maka “Warugunung” dan “Karangpilang” merupakan sebuah lokasi. 4. Batasan nama lokasi:  Tidak termasuk nama organisasi (ORGANIZATION). Misalnya, “Polrestabes Surabaya” tidak didefinisikan sebagai lokasi jika pada konteks berita terdefinisikan sebagai organisasi.  Tidak termasuk lokasi yang menerangkan orang (PERSON). Misalnya, “Walikota Surabaya” tidak didefinisikan sebagai lokasi.  Tidak termasuk kata yang menerangkan lokasi seperti “Exit” pada “Exit Tol Waru”, kata “TL” (Traffic Light) pada “TL Demak”, mapupun kata “simpang” pada “simpang Balongsari” 4.3.3. Perancangan Feature Extractor Feature Extractor pada penelitian ini digunakan untuk mengekstraksi fitur-fitur yang digunakan dalam pemrosesan data. Penggunaan feature extractor akan dituliskan dalam file properties. Selanjutnya, file properties akan digunakan pada tahap training sehingga menghasilkan model. Pada penelitian ini pun akan dilakukan percobaan yang menguji penggunaan feature extractor mana saja yang dapat meningkatkan performa model secara optimal. feature extractor yang digunakan didapatkan dari Class NERFeatureFactory pada library Stanford NER. Terdapat 24 feature extractor yang diujicobakan pada pemrosesan data penelitian ini. 24 feature extractor tersebut terdapat pada Tabel 4.5 dengan keterangan fitur sebagai berikut. Keterangan Fitur w = word / kata g = gazette t = tag s = shape p = position (index kata n(w) = ngrams dari pada kalimat) word/kata c = class / kelas g(w) = gazette yang p = paren berisikan word/kata

52 Tabel 4.5 Daftar Feature Extractor

No 1. 2. 3. 4.

Kode A B C D

Feature Extractor wordShape useTypeSeqs useTypeSeqs2 useTypeySequences

Syarat wordShape wordShape wordShape

5. 6. 7. 8. 9.

E F G H I

MaxLeft useWord usePrev useNext useWordPairs

-

10. 11. 12. 13.

J K L M

useSymWordPairs usePosition useClassFeature useSequences

-

14.

N

usePrevSequences

-

15.

O

useDisjShape

-

16.

P

useDisjunctive

-

17.

Q

disjunctionWidth

18. 19.

R S

strictlyFirstOrder useSum

useDisjuncti ve -

Fitur s,c pw, c nw, c s,pc,c ns,pc,c ps,pc,s,c w,c pw,c nw,c pw,w,c w,nw,c pw,nw,c p,c c pc,w,c nc,c pc,nc,c pc,c pc,w,c (ps;p2s;p 3s;p4s),c; (ns;n2s;n 3s;n4s),c (pw;p2w; p3w;p4w ),c; (nw;n2w; n3w;n4w ),c -

53 20.

T

useNGrams

21. 22. 23. 24.

U V W X

maxNGramLeng noMidNGrams useGazettes cleanGazette

useNGrams useNGrams useGazettes

n(w),c n(w),s,c

g(w),c g(w),[pw ,nw,...],c

Deskripsi Feature Extractor A. WordShape Feature extractor wordShape akan mengekstraksi fitur shape atau bentuk karakter dari suatu kata, seperti bentuk huruf besar, huruf kecil, digit atau angka, maupun karakter yunani. Terdapat berbagai skema identifikasi wordShape yang terdapat pada class WordShapeClassifier.lookupShaper. B. UseTypeSeqs UseTypeSeqs merupakan Feature extractor yang digunakan untuk menangkap urutan dari wordShape yang digunakan. C. useTypeSeqs2 UseTypeSeqs2 merupakan Feature extractor yang digunakan untuk menangkap urutan pertama dan kedua dari wordShape yang digunakan. D. useTypeySequences UseTypeSeqs2 merupakan Feature extractor yang digunakan untuk menangkap urutan pertama dari pola wordShape yang digunakan dengan melihat kelas sebelum. E. MaxLeft Nilai yang digunakan untuk mendefinisikan jarak kata ke kiri atau sebelum untuk mengetahui konteks fitur kelas yang digunakan.

54 F. useWord Feature extractor useWord akan mengekstraksi fitur word atau kata itu sendiri serta kelas yang mengikutinya. G. usePrev Feature extractor usePrev merupakan ekstraktor fitur prev word atau kata sebelum serta kelas yang mengikutinya. H. useNext Feature extractor useNext merupakan ekstraktor fitur next word atau kata sesudah serta kelas yang mengikutinya. I. useWordPairs Feature extractor useWordPairs merupakan ekstraktor fitur prev word atau kata sebelum, word atau kata itu sendiri serta kelas yang mengikutinya. Fitur tersebut diekstrak bersamaan dengan fitur word atau kata itu sendiri, next word atau kata sesudah serta kelas yang mengikutinya. J. useSymWordPairs Feature extractor useWordPairs merupakan ekstraktor fitur prev word atau kata sebelum, next word atau kata sesudah, serta class yang mengikutinya. K. usePosition Feature extractor usePosition merupakan kombinasi fitur posisi kata pada kalimat serta kelas pada kata. L. useClassFeature Feature extractor akan mengekstraksi fitur kelas dengan melihat seberapa sering fitur kelas akan muncul pada data training.

55 M. useSequences useSequences merupakan feature extractor yang digunakan untuk mengekstraksi sequence atau urutan dari fitur kelas dengan memperhatikan prev class atau kelas sebelum, word atau kata itu sendiri dan kelas yang mengikutinya, serta next class atau kelas sesudah kata. N. usePrevSequences usePrevSequences akan mengekstraksi fitur yang melihat sequence atau urutan dengan memperhatikan prev class atau kelas sebelum. O. useDisjShape useDisjShape digunakan untuk mengekstraksi fitur disjungsi dari word shape atau bentuk karakter pada kata dengan jarak ke kiri (sebelum) dan ke kanan (sesudah) yang didefinisikan pada feature extractor disjunctionWidth. Ekstraksi fitur ini akan memperhatikan arah, bukan posisi kata dalam kalimat. P. useDisjunctive Feature extractor useDisjunctive akan mengekstraksi fitur disjungsi dari kata dengan jarak ke kiri (sebelum) dan ke kanan (sesudah) yang didefinisikan pada feature extractor disjunctionWidth. Ekstraksi fitur ini akan memperhatikan arah, bukan posisi kata dalam kalimat. Q. disjunctionWidth disjuctionWidth digunakan untuk mendefinisikan jarak kata yang digunakan untuk memperhatikan disjungsi dari kata saat ini. Secara default, disjunctionWidth didefinisikan dengan nilai 4. R. strictlyFirstOrder Feature extractor strictlyFirstOrder akan mengekstraksi fitur yang dapat menghilangkan seluruh fitur selain fitur kelas dan fitur clique CpC.

56 S. useSum Tidak terdapat definisi yang komprehensif mengenai feature extractor ini berdasarkan dokumentasi library. T. useNGrams useNGrams merupakan ekstraksi fitur n-grams kata. N-Gram merupakan potongan n karakter dalam suatu string atau kata tertentu. Misalnya pada kata “SURABAYA” akan didapat ngram yang dapat dilihat pada Tabel 4.6. Tabel 4.6 Karakter N-Gram

N-Gram 1-Gram (Uni-gram) 2-Gram (Bi-gram) 3-Gram (Tri-gram)

Karakter N-Gram S, U, R, A, B, A, Y, A

4-Gram (Quad-gram)

_ _ _ S, _ _ SU, _ SUR, SURA, URAB, RABA, ABAY, BAYA, AYA_, YA_ _, A_ _ _ _ _ _ _ S, _ _ _ SU, _ _ SUR, _ SURA, SURAB, URABA, RABAY, ABAYA, BAYA _, AYA_ _, YA_ _ _, A_ _ _ _

5-Gram

6-Gram

7-Gram

_S, SU, UR, RA, AB, BA, AY, YA, A_ _ _S, _SU, SUR, URA, RAB, ABA, BAY, AYA, YA_, A_ _

_ _ _ _ _ S, _ _ _ _SU, _ _ _SUR, _ _SURA, _SURAB, SURABA, URABAY, RABAYA, ABAYA_, BAYA_ _, AYA_ _ _, YA_ _ _ _, A_ _ ___ _ _ _ _ _ _ S, _ _ _ _ _ SU, _ _ _ _ SUR, _ _ _SURA, _ _SURAB, _SURABA, SURABAY, URABAYA, RABAYA_, ABAYA_ _, BAYA_ _ _, AYA_ _ _ _, YA_ _ _ _ _, A_ _ _ _ _ _

57 U. maxNGramLeng Feature extractor maxNGramLeng merupakan ekstraksi fitur yang digunakan untuk mendefinisikan nilai n-gram yang digunakan. N-Gram dengan nilai di atas maxNGramLeng tidak akan digunakan pada training untuk menghasilkan model. V. noMidNGrams Jika menggunakan feature extractor noMidNGrams, training tidak mengikutkan huruf awal dan terakhir untuk N-Gram dari suatu kata. W. useGazettes Feature extractor useGazettes akan memperhatikan gazette atau lexicon nama-nama lokasi yang pada penelitian ini didefinisikan sebagai daftar nama lokasi yang didapat dari data lokasi OSM dan Bina Marga. X. cleanGazette Jika feature extractor cleanGazzete digunakan, fitur gazette digunakan dengan memperhatikan keseluruhan gabungan kata pada gazette. Khusus pada wordShape feature extractor, library Stanford NER menyediakan beberapa pilihan wordShape dengan berbagai skema wordShape. Untuk dapat mengetahui wordShape mana yang dapat mengoptimalkan hasil performa model, maka perlu dilakukan percobaan dengan wordShape Selection. Selain itu, untuk menguji hasil performa model menggunakan suatu feature extractor serta kombinasi feature extractor, digunakan skenario forward selection dan backward elimination. 4.3.3.1. wordShape Selection Skema wordShape yang disediakan oleh library Stanford NER terdapat pada Class WordShapeClassifier. Pada penelitian ini akan dilakukan percobaan dengan 1 feature extractor wordShape untuk membandingkan dan mengetahui

58 feature extractor wordShape mana yang akan menghasilkan performa paling optimal. WordShape yang menghasilkan performa paling optimal selanjutnya akan digunakan dalam skenario percobaan forward selection maupun backward elimination. wordShape extractor yang disediakan oleh library Stanford NER terdapat pada Tabel 4.7. Tabel 4.7 Deskripsi wordShape Extractor

No wordShape Feature Extractor

1

dan1

2

chris1

3

dan2

4

dan2useLC

Deskripsi WordShape dan1 menyediakan 5 cara dasar untuk mendefinisikan shape atau betuk karakter dari suatu kata antara lain digit, huruf besar seluruhnya, huruf kecil seluruhnya, gabungan, serta karakter non alphanumeric. WordShape chris1 dapat mendefinisikan kata-kata menjadi 24 jenis kelas yang dispesifikasikan pada BBN Nymble NER. Pada wordShape extractor ini, karakter non-Latin didefinisikan sebagai karakter huruf kecil. WordShape dan2 memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama tanpa mengubah karakter tanda baca. WordShape dan2useLC merupakan wordShape dan2

59

5

dan2bio

6

dan2bioUseLC

7

jenny1

8

jenny1useLC

9

chris2

yang memperhatikan karakter lower case pada kata. WordShape dan2bio memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama tanpa mengubah karakter tanda baca. Selain itu, wordShape ini memperhatikan karakter yunani yang berguna untuk bio. WordShape dan2bioUseLC merupakan wordShape dan2bio yang memperhatikan karakter lower case pada kata. WordShape jenny1 memungkinkan pembuatan classifier yang memperhatikan huruf besar dan huruf kecil serta digit. WordShape ini akan merapatkan sequence pada shape karakter yang sama, tetapi menetapkan karakter tanda baca. Selain itu, wordShape ini juga memperhatikan karakter yunani. WordShape jenny1useLC merupakan wordShape jenny1 yang memperhatikan karakter lower case pada kata. WordShape chris2 memiliki cara yang sama seperti wordShape dan2. Namun, pada wordShape ini dibedakan antara kata yang pendek dan yang panjang. Pada kata yang panjang, diperhatikan 2

60

10

chris2useLC

11

chris3

12

chris3useLC

13

chris4

karakter awal dan 2 karakter terakhir pada suatu kata. Selanjutnya, akan dirapatkan bentuk karakter antara 2 karakter awal dan 2 karakter akhir tersebut. WordShape chris2useLC merupakan wordShape chris2 yang memperhatikan karakter lower case pada kata. WordShape chris3 merupakan wordShape chris2 yang mengabaikan kata-kata yang memiliki panjang kata kurang dari boundary (4 karakter). WordShape chris3useLC merupakan wordShape chris2useLC yang mengabaikan kata-kata yang memiliki panjang kata kurang dari boundary (4 karakter). WordShape chris4 menggunakan cara seperti wordShape dan2 tetapi menyortir kata-kata yang panjang dan mempertahankan kata-kata yang pendek dengan selalu merekam 2 karakter awal dan akhir. Dibandingkan dengan wordShape2, wordShape ini lebih diunggulkan untuk menangkap karakter-karakter Unicode.

61 4.3.3.2. maxNGramLeng Selection Feature extractor maxNGramLeng mendefinisikan nilai terpanjang n-gram yang digunakan dalam feature extractor useNGram. Adapun pada percobaan akan dilakukan dengan menggunakan perbedaan nilai maxNGramLeng, yaitu 1 hingga 7. Percobaan dilakukan untuk mencari tahu nilai maxNGramLeng mana yang akan menghasilkan performa paling optimal. Nilai maxNGramLeng dengan performa paling optimal tersebut akan digunakan pada percobaan selajutnya dalam skenario forward selection mapupun backward elimination. Setiap nilai maxNGramLeng dideskripsikan pada Tabel 4.8. Tabel 4.8 N-Gram Pada maxNGramLeng

maxNGramLeng maxNGramLeng=1 maxNGramLeng=2 maxNGramLeng=3 maxNGramLeng=4 maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7

N-Gram Uni-Gram Uni-Gram, Bi-Gram Uni-Gram, Bi-Gram, Tri-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram, 6-Gram Uni-Gram, Bi-Gram, Tri-Gram, Quad-Gram, 5-Gram, 6-Gram, 7Gram

4.3.3.3. Skenario Forward Selection Prosedur feature extractor selection dengan forward selection dapat dilakukan dengan beberapa tahapan sebagai berikut. 1. Awali dengan pemrosesan menggunakan feature extractor

data

tanpa

62 2. Lakukan pemrosesan data menggunakan seluruh kemungkinan penambahan 1 feature extractor 3. Pilih model dengan hasil performa tertinggi 4. Ulangi tahapan 2 dan 3 5. Hentikan ketika nilai performa tidak meningkat Adapun penggambaran skenario dapat dilihat pada Gambar 4.14.

Gambar 4.14 Skenario Forward Selection Feature Extractor

Skenario forward selection jika menggunakan 24 feature extractor (A-X): 1. Percobaan pertama pemrosesan dilakukan dengan menggunakan 1 feature extractor. Misal ditemukan bahwa feature extractor E dapat menghasilkan performa paling baik. 2. Percobaan selanjutnya, kombinasikan feature extractor E dengan setiap feature extractor selain E. Misal ditemukan bahwa subset feature extractor EG menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 1, maka lanjutkan. 3. Pada percobaan berikutnya, kombinasikan subset feature extractor EG dengan setiap feature extractor selain EG. Misal ditemukan bahwa subset feature extractor EGC menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 2, maka lanjutkan.

63 4. Selanjutnya, kombinasikan subset feature extractor EGC dengan setiap feature extractor selain EGC. Misal ditemukan bahwa subset feature extractor EGCH menghasilkan performa paling baik. Jika performa lebih baik daripada percobaan 3, maka lanjutkan. 5. Berikutnya, kombinasikan subset feature extractor EGCH dengan setiap feature extractor selain EGCH. Misal tidak ditemukan peningkatan performa jika dibandingkan percobaan sebelumnya, hentikan percobaan. 4.3.3.4. Skenario Backward Elimination Prosedur feature extractor selection dengan backward elimination dapat dilakukan dengan beberapa tahapan sebagai berikut. 1. Awali dengan pemrosesan data menggunakan seluruh feature extractor yang ditentukan 2. Lakukan pemrosesan data yang akan menghasilkan model dengan menggunakan seluruh kemungkinan menghilangkan setiap 1 feature extractor 3. Pilih model dengan hasil performa tertinggi 4. Ulangi tahapan 2 dan 3 5. Hentikan ketika nilai performa tidak meningkat Adapun penggambaran skenario dapat dilihat pada Gambar 4.15.

64

Gambar 4.15 Skenario Backward Elimination Feature Extractor

Skenario backward elimination jika menggunakan 24 feature extractor (A-X): 1. Percobaan pertama pemrosesan dilakukan dengan menggunakan 24 feature extractor. 2. Pada percobaan selanjutnya, lakukan seluruh kemungkinan percobaan dengan mengeliminasi setiap 1 feature extractor. Misalkan kemungkinan 1 adalah dengan mengeliminasi feature extractor kode A, maka percobaan akan dilakukan dengan menggunakan kombinasi kode feature extractor seperti BCDEFG…WX. Sehingga pada percobaan ini akan terdapat 24 kemungkinan percobaan. Misal pada percobaan ini ditemukan bahwa dengan mengeliminasi feature extractor kode C pada model akan meningkatkan performa, yaitu model dengan kombinasi feature extractor ABDEFG…WX 3. Pada percobaan berikutnya, lakukan percobaan dengan seluruh kemungkinan untuk mengeliminasi setiap 1 feature extractor kembali dari kombinasi feature extractor model yang terpilih yaitu ABDEFG...WX.

65 Misalkan pada percobaan ini ditemukan bahwa dengan mengeliminasi feature extractor kode E pada model akan meningkatkan performa, yaitu model dengan kombinasi feature extractor ABDFGH...WX. 4. Selanjutnya, lakukan hal sama yaitu melakukan percobaan dengan seluruh kemungkinan untuk mengeliminasi setiap 1 feature extractor dari kombinasi feature extractor model yang terpilih, yaitu ABDFGH...WX. Misalkan pada percobaan ini tidak ditemukan peningkatan performa pada model manapun, maka percobaan dapat dihentikan. 4.3.4. Perancangan Pemrosesan Data

Gambar 4.16 Alur Pemrosesan Data

Gambar 4.16 menunjukkan alur kerja dalam melakukan pemrosesan data. Pemrosesan data yang dilakukan menggunakan library Stanford NER pada class CRFClassifier. Dalam hal ini, pemrosesan data akan melalui tahap training yang akan menghasilkan model. Selain itu, pemrosesan data juga akan melalui tahap testing yang akan menghasilkan nilai performa model. Adapun untuk dapat memudahkan pengerjaan pemrosesan data sesuai skenario feature extractor selection, perlu adanya proses pembuatan folder sesuai skenario forward selection dan backward elimination. Folder dibuat berdasarkan pemisahan folder skenario dan model, yang akan berisikan file properties serta model yang dihasilkan pada proses training.

66 4.3.4.1. Training Setelah didapatkan 5 file data training serta file properties, tahap yang dilakukan selanjutnya adalah melakukan training data. Training data akan dilakukan dengan metode cross-validation. Dengan k-fold=5, maka pada tahap training akan menghasilkan 5 model yang berbeda dengan kombinasi file seperti berikut ini. Model 1: Training file 2,3,4,5 Model 2: Training file 1,3,4,5 Model 3: Training file 1,2,4,5 Model 4: Training file 1,2,3,5 Model 5: Training file 1,2,3,4

Gambar 4.17 Alur Proses Training

Gambar 4.17 menunjukkan alur proses pada tahap training. Proses training akan dilakukan dengan menggunakan library Stanford NER pada class CRFClassifier dengan masukan berupa training file untuk dataset training serta file properties yang berisikan feature extractor yang ingin digunakan pada percoban. Library Stanford NER ini akan mengeksekusi training dengan algoritma Conditional Random Field. Setelah itu, akan dihasilkan file model serialized yang akan digunakan pada proses testing.

67 4.3.4.2. Testing Testing pada penelitian ini diujikan pada setiap model. Model akan diuji dengan menggunakan training file yang tidak digunakan pada model tersebut. Dengan metode crossvalidation maka pembagian file untuk dilakukan testing adalah sebagai berikut: Model 1: Training file 1 Model 2: Training file 2 Model 3: Training file 3 Model 4: Training file 4 Model 5: Training file 5

Gambar 4.18 Alur Proses Testing

Gambar 4.18 menunjukkan alur proses pada tahap testing. Proses testing dilakukan dengan menggunakan library Stanford NER pada class CRFClassifier dengan masukan berupa serialized model yang dihasilkan pada proses training serta training file yang digunakan untuk menguji model berdasarkan metode cross validation. Proses testing akan menghasilkan file output hasil prediksi yang dilakukan oleh model serta nilai performa model yang dihasilkan.


BAB V IMPLEMENTASI Bab ini berisi tentang proses implementasi dalam pembuatan model. Implementasi model membahas tentang perangkat penelitian apa yang digunakan, penerapan ekstraksi data lokasi yang diambil dari berbagai sumber, penerapan praproses data, penerapan seleksi feature extractor serta penerapan pemrosesan data yang dilakukan dengan menggunakan bahasa pemrograman Java. Dalam pelaksanakan penelitian pendeteksian lokasi dari informasi publik pada media sosial Kota Surabaya berbasis Named-Entity Recognition, dibutuhkan perangkat-perangkat yang dapat mendukung proses yang ada pada setiap tahapan penelitian. Adapun perangkat-perangkat yang dibutuhkan meliputi perangkat keras dan perangkat lunak beserta spesifikasinya sebagai berikut: Perangkat keras -

CPU : Intel ® Core™ i5-2400 CPU @3.10 GHz, RAM 8.00 GB, Harddisk 160 GB SDD Monitor : 14 inch 1440x900 Keyboard dan Mouse

Perangkat Lunak -

Sistem Operasi Bahasa Pemrograman Tools

: Windows 10 Pro : Java : Netbeans IDE 8.2 Mapzen Metro Extract Ms. Excel 2016 Notepad Minitab

69

70

Data lokasi yang didapatkan dari 2 sumber perlu dilakukan ekstraksi data untuk dapat digunakan dalam proses penelitian yaitu Open Street Map dan Dinas PU Bina Marga. 5.2.1. Ekstraksi Data Lokasi Open Street Map Pada tampilan Open Street Map Kota Surabaya pada Gambar 5.1 menunjukkan berbagai lokasi yang tercatat pada website. Untuk dapat memuat data tersebut, digunakanlah tools Mapzen Metro Extract pada tanggal 19 Oktober 2016.

Gambar 5.1 Tampilan Open Street Map Kota Surabaya

Saat menggunakan Mapzen Metro Extract, pertamatama cari lokasi Kota Surabaya pada Box Search seperti pada Gambar 5.2. Tetapi karena Kota Surabaya masih jarang yang melakukan pencarian, maka diperlukan request custom extract kepada developer Mapzen.

71

Gambar 5.2 Pencarian Lokasi Mapzen Metro Extract

5.2.1.1. Custom Extract pada Mapzen Metro Extract Tahap selanjutnya adalah menentukan lokasi yang ingin diekstrak menggunakan bounding box yang mengelilingi lokasi pada peta yang tampak pada Gambar 5.3. Kemudian, klik Get Extract yang akan diteruskan untuk merequest custom extract pada Mapzen yang dilakukan penulis pada 19 Oktober 2016 05.20.

Gambar 5.3 Bounding Box Extract Lokasi

72 Selanjutnya, pada 19 Oktober 2016 12:40, penulis mendapat email bahwa custom extract. Hasil custom extract dapat dilihat pada Gambar 5.4 dibawah ini.

Gambar 5.4 Mapzen Metro Extract Kota Surabaya

Dari hasil custom extract tersebut, data yang diunduh merupakan file data lokasi dengan format GEOJSON dari Open Street Map yang dibagi berdasarkan tag Open Street Map (IMPOSM) yaitu  Administrative boundaries : admin.geojson  Aeroways : aeroways.geojson  Amenities : amenities.geojson  Barrier : barrierpoints.geojson, barrierways.geojson  Buildings : buildings.geojson, housenumbers.geojson  Land Usage : landusages.geojson  Places : places.geojson  Roads : roads.geojson, roads_gen0.geojson, roads_gen1.geojson  Transport Areas: transport_areas.geojson, transport_points.geojson  Water Areas: waterareas.geojson  Waterways : waterways.geojson ‘

73 Gambar 5.5 menunjukkan contoh format data GEOJSON yang telah dilakukan ekstraksi dengan Mapzen Extract. Data yang diambil adalah value data pada properties “name”. Misal pada Gambar 5.5 terdapat lokasi “Menanggal” serta “Monokrembangan”. { "type": "FeatureCollection", "crs": { "type": "name", "properties": { "name": "urn:ogc:def:crs:OGC:1.3:CRS84" } }, "features": [ { "type": "Feature", "properties": { "id": 1.000000, "osm_id": 1308636440.000000, "name": "Menanggal", "type": "village", "z_order": 5.000000, "population": null }, "geometry": { "type": "Point", "coordinates": [ 112.725408472176184, -7.335265945937323 ] } }, { "type": "Feature", "properties": { "id": 2.000000, "osm_id": 1308636686.000000, "name": "Morokrembangan", "type": "village", "z_order": 5.000000, "population": null }, "geometry": { "type": "Point", "coordinates": [ 112.714829672180883, -7.231329005481228 ] } } ] }

Gambar 5.5 Contoh Format Data GEOJSON OSM

5.2.1.2. Ekstraksi Data GEOJSON Pada penelitian ini, ekstraksi Data GeoJSON yang didapat dari Open Street Map dilakukan dengan menggunakan program Java dan library json-simple. JSONParser parser = new JSONParser(); try { Object obj = parser.parse( new FileReader("coba.geojson")); JSONObject jsonObject = (JSONObject) obj; ArrayList<String> list = new ArrayList<String>(); JSONArray jsonArray = (JSONArray)(JSONArray) jsonObject.get("features");

74 if (jsonArray != null) { int len = jsonArray.size(); for (int i=0;i
Kode 5.1 diatas dapat digunakan untuk melakukan parsing data GEOJSON yang didapat dari ekstraksi Open Street Map menggunakan Mapzen Extract. Parsing dilakukan dengan menggambil data nilai dari key berupa “name”. Sehingga, data yang digunakan adalah nama-nama lokasi saja. Selanjutnya nama-nama lokasi ini akan dikumpulkan ke dalam 1 file data lokasi berformat teks bernama lokasi_osm.txt.

75 5.2.2. Ekstraksi Data Lokasi Dinas PU Bina Marga Dinas PU Bina Marga memiliki Data Panjang Jalan Kota Surabaya yang dapat digunakan sebagai masukan data lokasi pada penelitian ini. Atribut yang terdapat pada Data Panjang Jalan tersebut terdapat pada Tabel 5.1. Tabel 5.1 Atribut Data Panjang Jalan

Nama Atribut Nama Jalan Nama Pangkal Ruas Jalan

Nama Ujung Ruas Jalan

Keterangan Nama jalan yang terdapat di Kota Surabaya Nama jalan yang terdapat pada pangkal ruas nama jalan yang ditunjuk Nama jalan yang terdapat pada ujung ruas nama jalan yang ditunjuk

Pada Data Panjang Jalan Kota Surabaya, terdapat beberapa bagian data yang terbagi menjadi Fasum Jalan, Sby Barat, Sby Timur, Sby Utara, Sby Selatan, Sby Pusat, Gabungan, Gabungan(2), cover seperti yang ada pada tabel 5.2 di bawah. Adapun data yang digunakan dalam penelitian ini adalah bagian data Gabungan. Tabel 5.2 Bagian Data Panjang Jalan

Bagian Data Fasum Jalan Sby Barat Sby Timur Sby Utara

Keterangan Rekapitulasi Data Fasum Jalan Kota Surabaya Rekapitulasi Data Panjang Jalan Surabaya Barat Rekapitulasi Data Panjang Jalan Surabaya Timur Rekapitulasi Data Panjang Jalan Surabaya Utara

76 Sby Selatan Sby Pusat Gabungan Gabungan(2) cover

Rekapitulasi Data Panjang Jalan Surabaya Selatan Rekapitulasi Data Panjang Jalan Surabaya Pusat Rekapitulasi Seluruh Data Panjang Jalan Surabaya Rekapitulasi Seluruh Data Panjang Jalan Surabaya Cover Rekapitulasi Data

Dari data yang didapat pada bagian data Gabungan, terdapat sebanyak 4267 nama-nama lokasi berupa nama jalan. Tabel 5.3. menunjukkan sampel data panjang jalan pada bagian data Gabungan. Tabel 5.3 Sampel Data Panjang Jalan Gabungan

Nama Jalan Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II

Nama Pangkal Nama Ujung Ruas Ruas Jalan Jalan Jl. Dharmawangsa Jl. Airlangga Jl. Kertajaya Jl. Raya Dharmawangsa Jl. Raya Dharmawangsa Jl. Dharmawangsa

Jl. Prof. Dr. Mustopo Jl. Dharmawangsa Barat Jl. Dharmawangsa Barat Jl. Gubeng Airlangga VI

Setelah itu, pada bagian data Gabungan, atribut yang dipilih untuk digunakan dalam penelitian ini adalah kolom Nama Jalan. Karena dalam penelitian ini, nama pangkal ruas jalan maupun ujung ruas jalan tidak akan digunakan untuk mendukung penelitian. Tabel 5.4 akan menunjukkan sampel data Nama Jalan yang digunakan.

77 Tabel 5.4 Sampel Data yang Digunakan

Nama Jalan Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II Selanjutnya, data-data tersebut ditambahkan pada Data Lokasi berformat teks dengan nama file lokasi_binamarga.txt. Praproses data pada penelitian ini terdiri dari beberapa tahap antara lain memuat data teks, data lokasi dan non lokasi, pembagian dataset yang telah dilakukan matching, tokenizing serta labeling menggunakan program. Selain itu juga terdapat labeling yang dilakukan secara manual. 5.3.1. Memuat Data Teks public static ArrayList<String> getTextFromDB(String uname, String pass, String db, String table, int row){ ArrayList<String> textDB = new ArrayList<>(); try { Class.forName("com.mysql.jdbc.Driver"); Connection con=DriverManager.getConnection( "jdbc:mysql://localhost:3306/"+db,uname,pass); String sqlSelect = "select fb_id, message " + "from "+table +" limit 0,"+row; Statement stmtSelect=con.createStatement(); ResultSet rs=stmtSelect.executeQuery(sqlSelect); while(rs.next()){ if(rs.getString(2)!=null) { System.out.println(rs.getString(2)); String fb_id = rs.getString(1);

78 textDB.add(rs.getString(2) .replaceAll("https?://\\S+\\s?", "") .replaceAll("\n", " ") .replaceAll(":", "")); } else { rs.next(); } } con.close(); } catch(ClassNotFoundException | SQLException e) { System.out.println(e); } return textDB; }

Kode 5.2 Fungsi getTextFromDB Untuk Pemuatan Data Teks

Kode 5.2 merupakan kode fungsi untuk pemuatan data teks. Untuk dapat memuat data teks, dibutuhkan koneksi java dengan database MySQL menggunakan mysql-connector. Dengan melakukan koneksi dengan database MySQL, akan didapatkan setiap row dari hasil query. Setelah itu, setiap kalimat yang ada pada setiap row pada database, terdapat beberapa hal yang perlu dilakukan, antara lain menghapus link atau tautan pada kalimat, menghapus baris baru, dan menghapus tanda “:” karena tokenizing dengan menggunakan library Stanford NER tidak dapat menanggulanggi tanda “:”. Kemudian setiap kalimat akan disimpan dalam kembalian ArrayList<String> textDB. int rowNum = 5000; ArrayList<String> myText = getTextFromDB("root","","fb_crawler","fb_test5" ,rowNum); Kode 5.3 Pemanggilan Fungsi getTextFromDB pada Main

79 Kode 5.3 menunjukkan pemuatan data pada Fungsi Main. Data yang dimuat sejumlah 5000 data menggunakan pemanggilan fungsi getTextFromDB dengan argument row bernilai 5000. 5.3.2. Memuat Data Lokasi dan Non Lokasi public static ArrayList<Pattern> getLocation(File myFile) throws FileNotFoundException{ ArrayList<Pattern> listLocation = new ArrayList<>(); String readString = null; try (BufferedReader br = new BufferedReader(new FileReader(myFile))) { while ((readString = br.readLine()) != null){ listLocation.add(Pattern.compile(readString, Pattern.CASE_INSENSITIVE)); } } catch(Exception e){ e.printStackTrace(); } //SORTING Collections.sort(listLocation, new Comparator<Pattern>(){ @Override public int compare(Pattern pattern1, Pattern pattern2){ if(pattern1.toString().length()!=pattern2.toSt ring().length()){ return pattern1.toString().length()pattern2.toString().length(); } return pattern1.toString().compareTo(pattern2.toString( )); } }.reversed()); return listLocation; } Kode 5.4 Fungsi getLocation Untuk Pemuatan Lokasi

80 Kode 5.4 menunjukkan fungsi getLocation yang digunakan untuk memuat data lokasi dengan format teks. Pada fungsi ini, dibuat ArrayList berupa Pattern yang digunakan untuk menyimpan nilai kembalian ketika terdapat File data lokasi. Penyimpanan berupa Pattern digunakan agar dapat langsung digunakan pada saat proses Matching pada sub 5.3.4. Kemudian, digunakanlah BufferedReader serta FileReader untuk dapat membaca setiap baris pada file data lokasi. Ketika baris lokasi dibaca, teks akan disimpan menjadi pattern menggunakan Pattern.compile(). Setelah dilakukan pembacaan, daftar lokasi yang didapatkan akan dilakukan pengurutan dengan menggunakan Comparator pembanding panjang huruf. Kemudian, akan dilakukan pembalikan untuk mendapatkan pengurutan nama lokasi terpanjang ke nama lokasi terpendek. File fileLocationOSM = new File("lokasi_osm.txt"); ArrayList<Pattern> myLocationOSM = getLocation(fileLocationOSM); File fileLocationBinaMarga = new File("lokasi_binamarga.txt"); ArrayList<Pattern> myLocationBinaMarga = getLocation(fileLocationBinaMarga); ArrayList<Pattern> myLocation = new ArrayList<>(); myLocation.addAll(myLocationOSM); myLocation.addAll(myLocationBinaMarga); Kode 5.5 Pemuatan Data Lokasi pada Main

Selanjutnya, pada fungsi main seperti nampak pada Kode 5.5, kode digunakan untuk memuat data lokasi dari 2 sumber yang berupa file dengan format teks menggunakan fungsi getLocation(). Kemudian digabungkanlah kedua sumber tersebut agar dapat digunakan pada proses Matching berikutnya.

81 public static ArrayList<Pattern> getLocation(File myFile) throws FileNotFoundException{ ArrayList<Pattern> listLocation = new ArrayList<>(); String readString = null; try (BufferedReader br = new BufferedReader(new FileReader(myFile))) { while ((readString = br.readLine()) != null){ listLocation.add(Pattern.compile(readString, Pattern.CASE_INSENSITIVE)); } } catch(Exception e){ e.printStackTrace(); } //SORTING Collections.sort(listLocation, new Comparator<Pattern>(){ @Override public int compare(Pattern pattern1, Pattern pattern2){ if(pattern1.toString().length()!=pattern2.toSt ring().length()){ return pattern1.toString().length()pattern2.toString().length(); } return pattern1.toString().compareTo(pattern2.toString( )); } }.reversed()); return listLocation; } Kode 5.6 Fungsi getNonLocation Untuk Pemuatan Data NonLokasi

Kode 5.6 menunjukkan fungsi getNonLocation yang digunakan untuk memuat data non lokasi dengan format teks. Pada fungsi ini, dibuat ArrayList berupa Pattern yang digunakan untuk menyimpan nilai kembalian ketika terdapat file data non lokasi. Penyimpanan berupa Pattern digunakan agar dapat langsung digunakan pada saat proses Matching pada sub 5.3.4.

82 Kemudian, digunakanlah BufferedReader serta FileReader untuk dapat membaca setiap baris pada file data non lokasi. Ketika baris non lokasi dibaca, teks akan disimpan menjadi pattern menggunakan Pattern.compile(). Setelah dilakukan pembacaan, daftar non lokasi yang didapatkan akan dilakukan pengurutan dengan menggunakan Comparator pembanding panjang huruf. Kemudian, akan dilakukan pembalikan untuk mendapatkan pengurutan nama non lokasi terpanjang ke nama non lokasi terpendek. File fileNonLocation = new File("nonlokasi.txt"); ArrayList<Pattern> nonLocation = getNonLocation(fileNonLocation);

Kode 5.7 Pemuatan Data Non Lokasi pada Main

Selanjutnya, pada fungsi main seperti nampak pada Kode 5.7, kode digunakan untuk memuat data non lokasi yang berupa file dengan format teks menggunakan fungsi getNonLocation(). 5.3.3. Pembagian Dataset public static void createTrainDataset(int kfold, ArrayList<String> myText, ArrayList<Pattern> myLocation, ArrayList<Pattern> nonLocation) throws IOException{ Collections.shuffle(myText, new Random(40));

Kode 5.8 Pengacakan Data Teks pada Fungsi

createTrainDataset

Tahap awal dalam melakukan pembagian dataset adalah mengubah urutan data teks secara acak. Untuk itu, dapat dilakukan dengan fungsi Collections.shuffle(). Selain itu, agar pengacakan data teks dapat dilakukan secara menetap dapat menggunakan Seed. Untuk dapat mengatur Seed tersebut dapat menggunakan new Random(Seed) Kode 5.8.

83 try{ ArrayList trainFiles = new ArrayList<>(); for(int i=0;i fileWriters = new ArrayList<>(); ArrayList<BufferedWriter> bufferedWriters = new ArrayList<>(); for (int fileIndex=0; fileIndex
Kode 5.9 Pembuatan Dataset trainFile pada Fungsi

createTrainDataset

Kode 5.9 merupakan kode yang digunakan untuk melakukan pembuatan file dataset trainFile sejumlah k-fold yang digunakan dalam penelitian, dalam hal ini yaitu 5-fold. Pembuatan file digunakan menggunakan perulangan dan dibuat menggunakan fungsi createNewFile(). Untuk dapat digunakan pada program, file yang telah dibuat perlu dibaca dengan menggunakan fungsi getAbsoluteFile(). Selain itu, dibuatlah FileWriter serta BufferedWriter untuk setiap file dataset trainFile. Sehingga, setiap trainFile yang dibuat memiliki FileWriter dan BufferedWriter masing-masing yang akan digunakan pada proses Labeling Lokasi dengan program pada sub 5.3.6.1. PreProcessing.createTrainDataset(5, myText, myLocation, nonLocation); Kode 5.10 Pemanggilan Fungsi createTrainDataset pada Main

84 Kode 5.10 di atas merupakan kode untuk membuat dataset menggunakan fungsi createTrainDataset dengan argumen jumlah k-fold, ArrayList data teks, ArrayList nama lokasi, serta ArrayList nama non lokasi. 5.3.4. Matching Lokasi dan Non Lokasi dengan Teks for (int i=0; i< myText.size(); i++){ for(int x=0;x
Kode 5.11 Matching Menggunakan Pattern Matcher pada Fungsi

createTrainDataset

Kode 5.11 di atas digunakan pada penelitian ini untuk proses matching nama lokasi dan non lokasi. Untuk setiap data teks, dibuatlah StringBuilder myTextTemp untuk

85 menduplikasi data teks. Selanjutnya, untuk setiap pattern non lokasi dan lokasi dilakukan pengecekan dan dilakukan Pattern.matcher() pada myTextTemp yang menduplikasi data teks. Kemudian, jika terdapat kata pada myTextTemp yang sama dengan kata pada pattern, simpan index awal dari kalimat data teks dengan menggunakan matcher.start() dan index akhir kata yang ditemukan dengan matcher.end(). Selanjutnya, simpan nama non lokasi maupun lokasi yang ditemukan dengan matcher.group(), kemudian replace kata tersebut dengan “n” untuk non lokasi dan “l” untuk lokasi dari index awal hingga index akhir kata yang ditemukan dalam kalimat. 5.3.5. Tokenizing public static ArrayList<String> tokenizing(String text){ ArrayList<String> token = new ArrayList<>(); PTBTokenizer ptbt = new PTBTokenizer<>( new StringReader(text), new CoreLabelTokenFactory(), ""); while (ptbt.hasNext()) { CoreLabel label = ptbt.next(); token.add(label.originalText()); } return token; } Kode 5.12 Fungsi tokenizing Untuk Proses Tokenizing Kalimat

Proses tokenizing menggunakan Kode 5.12 dibuat dengan menggunakan library Stanford NER pada class PTBTokenizer dan CoreLabel. Ketika terdapat suatu kalimat yang menjadi masukan pada fungsi tokenizing, kata-kata pada suatu kalimat akan diubah menjadi bentuk token. Kemudian token-token tersebut akan disimpan dalam kembalian bentuk ArrayList. ArrayList<String> text = tokenizing(myText.get(i)); ArrayList<String> newText = tokenizing(stringContent); Kode 5.13 Fungsi tokenizing pada createTrainDataset

86 Kode 5.13 merupakan kode pemanggilan fungsi tokenizing. Fungsi tokenizing digunakan pada Fungsi createTrainDataset untuk mengubah data teks menjadi bentuk token serta mengubah data teks terduplikasi yang telah ditandai non lokasi maupun lokasi dari proses Matching pada sub 5.3.5 menjadi bentuk token. 5.3.6. Labeling Lokasi Setelah dilakukan proses tokenizing, salah satu tahap yang penting dalam penelitian ini adalah proses pelabelan atau labeling lokasi. Pada implementasinya, labeling dilakukan dengan menggunakan program maupun secara manual. 5.3.6.1. Labeling dengan Program for (int a=0; a
Kode 5.14 Labeling pada Fungsi createTrainDataset

Labeling dengan program pada penelitian ini dilakukan dengan menggunakan kode program yang terdapat pada Kode 5.14. Proses labeling menggunakan pembandingan token teks dengan token teks yang sudah ditandai kata non lokasi maupun

87 lokasi yang didapatkan pada proses matching pada sub 5.3.4 serta proses tokenizing pada sub 5.3.5. Proses ini akan melakukan pengecekan pada setiap token teks, apakah token teks sama dengan token yang ada pada teks yang sudah ditandai. Jika token sama, maka akan ditandai label bukan lokasi yaitu “O”. Jika token tidak sama, maka akan dicek kembali apakah token merupakan tanda non lokasi. Jika benar, maka akan diberi label bukan lokasi yaitu “O”. Selain itu, jika token memliki tanda lokasi, maka akan diberikan label berupa lokasi yaitu “LOC”. 5.3.6.2. Labeling Manual Proses pelabelan atau labeling secara manual dilakukan dengan pengecekan 5 trainfile yang telah dibuat dengan program yaitu trainfileX.tsv dengan X adalah nomor file. Pengecekan dilakukan untuk memeriksa data apakah sudah pelabelan yang dibuat pada program sudah sesuai atau belum. Jika belum sesuai, pada proses ini akan dilakukan penyesuaian sehingga dataset dapat digunakan pada pemrosesan. Labeling manual dilakukan dengan menggunakan tools Ms. Excel 2016. Pada file trainfileX.tsv terdapat 2 kolom. Kolom pertama berisikan token yang didapatkan pada proses tokenizing pada sub 5.3.5. Sedangkan kolom kedua merupakan label dari token yang terdapat pada kolom pertama. Pemeriksaan dilakukan untuk memastikan bahwa label yang ada pada kolom 2 sesuai dengan token pada kolom 1. Tentunya pada penelitian ini hanya terdapat 2 label yaitu “LOC” yang merupakan label lokasi, dan “O” yang merupakan tanda bahwa token bukan lokasi.

88 Dalam melakukan pengecekan, perlu dilakukan beberapa langkah sebagai berikut: 1. Lakukan pengecekan satu-persatu pada token dan label yang mengikutinya. 2. Jika sesuai, lanjutkan pada token berikutnya. 3. Jika tidak sesuai, terdapat dua kemungkinan: - Jika terdapat lokasi tetapi labelnya “O”, maka label harus diganti dengan “LOC” - Jika token bukanlah suatu lokasi mendapat label “LOC”, maka label harus diganti dengan “O” 4. Lakukan proses di atas hingga kata terakhir pada trainfile. 5. Simpan data. Jika proses labeling manual telah selesai untuk 5 trainfile, maka dataset trainfile siap digunakan untuk pemrosesan data.

Proses seleksi feature extractor dilakukan dengan melakukan seleksi feature extractor wordShape, seleksi feature extractor maxNGramLeng, serta skenario forward selection maupun backward elimination. Untuk dapat melakukan hal tersebut, pembuatan file properties yang berisikan feature extractor yang dibutuhkan menjadi peran yang penting. Untuk itu, pada implementasinya, dibuatlah program untuk melakukan generate file properties dengan 1 feature extractor, generate file properties pada skenario forward selection dan skenario backward elimination.

89 5.4.1. Generate 1 Feature Extractor ArrayList<String> wordShapeList = new ArrayList<>(); wordShapeList.add("wordShape=dan1"); wordShapeList.add("wordShape=chris1"); wordShapeList.add("wordShape=dan1"); wordShapeList.add("wordShape=dan2useLC"); wordShapeList.add("wordShape=dan2bio"); wordShapeList.add("wordShape=dan2bioUseLC"); wordShapeList.add("wordShape=jenny1"); wordShapeList.add("wordShape=jenny1useLC"); wordShapeList.add("wordShape=chris2"); wordShapeList.add("wordShape=chris2useLC"); wordShapeList.add("wordShape=chris3"); wordShapeList.add("wordShape=chris3useLC"); wordShapeList.add("wordShape=chris4");

Kode 5.15 Daftar Feature Extractor Yang akan Di-Generate

Kode 5.15 menunjukkan contoh kode yang digunakan untuk implementasi penyimpanan daftar feature extractor yang setiapnya akan di-generate dalam 1 file properties. Pada contoh kode digunakan untuk men-generate file properties pada percobaan seleksi wordShape. Sehingga, 1 nilai wordShape akan disimpan dalam 1 file properties. FileWriter fw = null; BufferedWriter bw = null; String dir = "wordShape/"; for (int i=0; i<wordShapeList.size(); i++){ String folder = dir+(i+1)+" "+wordShapeList.get(i); File fileFolder = new File (folder); File fileProp = new File (folder+"/ner.prop"); fileFolder.mkdir(); fileProp.createNewFile(); fw = new FileWriter(folder+"/ner.prop"); bw = new BufferedWriter(fw); bw.write(wordShapeList.get(i)); bw.flush(); }

Kode 5.16 Generate File Properties 1 Feature Extractor

90 Contoh potongan kode pada Kode 5.16 digunakan untuk men-generate file properties untuk setiap feature extractor wordShape. Pada setiap feature extractor, dibuatkan directory penyimpanan file properties karena setiap file properties akan dipisahkan pada folder yang memiliki nama feature extractor. Setelah itu, akan dibuat file dengan nama ner.prop yang akan berisikan 1 feature extractor wordShape. 5.4.2. Generate Feature Extractor pada Forward Selection String fix = "P"; ArrayList<String> fixFeatures = new ArrayList<>(); fixFeatures.add("useDisjunctive=true"); Kode 5.17 Menyimpan Feature Extractor yang Pasti Dipilih

Kode 5.17 di atas digunakan untuk menyimpan feature extractor yang pasti dipilih pada saat skenario forward selection. Program menyimpan kode feature extractor yang dipilih untuk digunakan sebagai nama folder. Kemudian menambahkan feature extractor pada ArrayList fixFeatures. Untuk setiap kali proses percobaan pada skenario forward selection, variabel fix perlu disesuaikan dengan feature extractor apa yang terpilih. Misalnya, jika feature extractor terpilih memiliki kode P dan V maka variabel fix harus memiliki nilai "PV". Kemudian, ArrayList fixFeatures juga perlu disesuaikan dengan feature extractor yang terpilih pada skenario forward selection. Misalnya, jika terpilih feature extractor useDisjunctive=true dan noMidNGrams=true, maka perlu ditambahkan dengan menggunakan fungsi add() seperti yang ada pada kode.

91 ArrayList<String> combAL = new ArrayList<>( Arrays.asList("A","B","C", "E","F","G","H","I","J","K","L","M","N", "O","P","Q","R","S","T","U","V","W","X")); ArrayList<String> combFeatures = new ArrayList<>(); combFeatures.add("wordShape=jenny1"); combFeatures.add("useTypeSeqs=true"); combFeatures.add("useTypeSeqs2=true"); combFeatures.add("useTypeySequences=true"); combFeatures.add("maxLeft=1"); combFeatures.add("useWord=true"); combFeatures.add("usePrev=true"); combFeatures.add("useNext=true"); combFeatures.add("useWordPairs=true"); combFeatures.add("useSymWordPairs=true"); combFeatures.add("usePosition=true"); combFeatures.add("useClassFeature=true"); combFeatures.add("useSequences=true"); combFeatures.add("usePrevSequences=true"); combFeatures.add("useDisjShape=true"); combFeatures.add("disjunctionWidth=6"); combFeatures.add("strictlyFirstOrder=true"); combFeatures.add("useSum=true"); combFeatures.add("useNGrams=true"); combFeatures.add("maxNGramLeng=6"); combFeatures.add("noMidNGrams=true"); combFeatures.add("useGazettes=true"); combFeatures.add("cleanGazette=true"); Kode 5.18 Menyimpan Feature Extractor Tambahan

Pada Kode 5.18 ditunjukkan cara penyimpanan kode feature extractor yang akan ditambahkan pada setiap percobaan skenario forward selection. Feature extractor tambahan merupakan feature extractor yang tidak terpilih pada proses forward selection sebelumnya. Misalnya terdapat feature extractor terpilih yaitu feature extractor useDisjunctive=true dengan kode feature extractor P. Maka, feature extractor tambahan merupakan feature extractor selain feature extractor P atau useDisjunctive=true. Variabel combAL digunakan untuk menyimpan kode feature extractor tambahan. Sedangkan combFeatures

92 digunakan untuk menyimpan feature extractor tambahan. Pada saat ingin men-generate file properties percobaan, kode program haruslah disesuaikan. FileWriter fw = null; BufferedWriter bw = null; String dir = "frwexperiment/model 2/"; for (int i=0; i
Kode 5.19 digunakan untuk men-generate file properties pada skenario forward selection. Program memungkinkan pengguna untuk membuat directory file untuk

93 memisahkan setiap kombinasi feature extractor yang dilakukan pada percobaan skenario forward selection. Pada skenario forward selection, jika terdapat kode feature extractor cleanGazette=true, maka perlu ditambahkan feature extractor useGazettes=true karena merupakan syarat feature extractor. 5.4.3. Generate Elimination

Feature

Extractor

pada

Backward

ArrayList<String> allFeatures = new ArrayList<>(); allFeatures.add("wordShape=jenny1"); allFeatures.add("useTypeSeqs=true"); allFeatures.add("useTypeSeqs2=true"); allFeatures.add("useTypeySequences=true"); allFeatures.add("maxLeft=1"); allFeatures.add("useWord=true"); allFeatures.add("usePrev=true"); allFeatures.add("useNext=true"); allFeatures.add("useWordPairs=true"); allFeatures.add("useSymWordPairs=true"); allFeatures.add("usePosition=true"); allFeatures.add("useClassFeature=true"); allFeatures.add("useSequences=true"); allFeatures.add("usePrevSequences=true"); allFeatures.add("useDisjShape=true"); allFeatures.add("useDisjunctive=true"); allFeatures.add("disjunctionWidth=6"); allFeatures.add("strictlyFirstOrder=true"); allFeatures.add("useSum=true"); allFeatures.add("useNGrams=true"); allFeatures.add("maxNGramLeng=6"); allFeatures.add("noMidNGrams=true"); allFeatures.add("useGazettes=true"); allFeatures.add("cleanGazette=true");

Kode 5.20 Menyimpan Daftar Seluruh Feature Extractor

Kode 5.20 menunjukkan variabel allFeatures yang dapat digunakan untuk menyimpan daftar seluruh feature extractor pada implementasi generate file properties.

94 String fix ="VQEDKILMR"; ArrayList<String> fixNonExist = new ArrayList<>(); fixNonExist.add("noMidNGrams=true"); fixNonExist.add("disjunctionWidth=6"); fixNonExist.add("maxLeft=1"); fixNonExist.add("useTypeySequences=true"); fixNonExist.add("usePosition=true"); fixNonExist.add("useWordPairs=true"); fixNonExist.add("useClassFeature=true"); fixNonExist.add("useSequences=true"); fixNonExist.add("strictlyFirstOrder=true"); Kode 5.21 Menyimpan Daftar Feature Extractor yang Pasti Dihilangkan

Kode 5.21 digunakan untuk menyimpan daftar feature extractor yang terpilih untuk dieliminasi pada hasil proses skenario backward elimination. Pada kode ditunjukkan variabel untuk menyimpan kode feature extractor dan variabel yang menyimpan daftar feature extractor yang pasti dieliminasi. Sehingga, pada setiap proses backward elimination, varibel ini perlu disesuaikan. ArrayList<String> folderNonExist = new ArrayList<>(Arrays.asList("A" ,"B","C","F","G","H","J","N","O","P" ,"S","T","U","W","X")); ArrayList<String> nonExist = new ArrayList<>(); nonExist.add("wordShape=jenny1"); nonExist.add("useTypeSeqs=true"); nonExist.add("useTypeSeqs2=true"); nonExist.add("useWord=true"); nonExist.add("usePrev=true"); nonExist.add("useNext=true"); nonExist.add("useSymWordPairs=true"); nonExist.add("usePrevSequences=true"); nonExist.add("useDisjShape=true"); nonExist.add("useDisjunctive=true"); nonExist.add("useSum=true"); nonExist.add("useNGrams=true"); nonExist.add("maxNGramLeng=6"); nonExist.add("useGazettes=true"); nonExist.add("cleanGazette=true"); Kode 5.22 Menyimpan Daftar Feature Extractor yang Diuji Eliminasi

95 Kode 5.22 menunjukkan variabel yang menyimpan daftar feature extractor yang akan diuji untuk dieliminasi pada skenario backward elimination. Variabel akan menyimpan kode feature extractor beserta feature extractor yang akan ditambahkan untuk diuji. FileWriter fw = null; BufferedWriter bw = null; String dir = "backexperiment/model 14/"; for (int i=0; i
Kode 5.23 digunakan untuk men-generate file properties pada skenario backward elimination. Program memungkinkan untuk membuat directory file untuk memisahkan setiap kombinasi feature extractor yang dilakukan pada percobaan skenario backward elimination. Pemilihan kombinasi feature extractor dilakukan dengan pengecekan apakah feature extractor terdapat pada daftar feature extractor uji eliminasi dan daftar feature extractor yang pasti dieliminasi. Jika tidak, maka feature extractor akan dituliskan pada file properties dan dipisahkan pada diretory folder.

96

Pemrosesan data pada penelitian ini menggunakan library Stanford NER. Implementasi pemrosesan data terdiri dari implementasi training dan implementasi testing. 5.5.1. Implementasi Training void trainCrf(String serializeFile, String prop, String fileList) { Properties props = StringUtils.propFileToProperties(prop); props.setProperty("serializeTo", serializeFile); SeqClassifierFlags flags = new SeqClassifierFlags(props); flags.serializeTo=serializeFile; flags.trainFileList = fileList; flags.map = "word=0,answer=1"; flags.gazettes.add("gazette.gaz.txt"); CRFClassifier crf = new CRFClassifier<>(flags); crf.train(); crf.serializeClassifier(serializeFile); }

Kode 5.24 Fungsi trainCrf untuk Training Dataset

Kode 5.24 menunjukkan fungsi trainCrf yang digunakan untuk proses training dataset. Pada fungsi ini digunakan pemanggilan file properties, penyimpanan model dalam serializeFile, serta dataset yang digunakan pada proses training. Untuk dapat melakukan training, diperlukan fungsi train() dari class CRFClassifier dari library Stanford NER. String dir = "dataset/"; ArrayList<String> myFile = new ArrayList<>(); for (int i=0; i<5; i++){ myFile.add(dir+"trainfile"+(i+1)+".tsv"); }

Kode 5.25 Menyimpan Directory Dataset TrainFile

97 Kode 5.25 menunjukkan variabel yang digunakan untuk menunjukkan directory dimana dataset trainfile diletakkan. Selain itu juga terdapat variabel yang menyimpan nama file trainfile. ArrayList<String> myFileList = new ArrayList<>(); myFileList.add(myFile.get(1)+","+myFile.get(2)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(2)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(3)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(2)+","+myFile.get(4)); myFileList.add(myFile.get(0)+","+myFile.get(1)+","+ myFile.get(2)+","+myFile.get(3)); Kode 5.26 Membuat Kombinasi TrainFile Sesuai Cross Validation

Kode 5.26 digunakan untuk melakukan kombinasi trainfile yang sesuai dengan teori cross validation menggunakan 5-fold. ArrayList<String> folder = new ArrayList<>(); folder.add("1 PVTDGNABCOJE"); folder.add("2 PVTDGNABCOJF"); folder.add("3 PVTDGNABCOJH"); folder.add("4 PVTDGNABCOJI"); folder.add("5 PVTDGNABCOJK"); folder.add("6 PVTDGNABCOJL"); folder.add("7 PVTDGNABCOJM"); folder.add("8 PVTDGNABCOJQ"); folder.add("9 PVTDGNABCOJR"); folder.add("10 PVTDGNABCOJS"); folder.add("11 PVTDGNABCOJU"); folder.add("12 PVTDGNABCOJW"); folder.add("13 PVTDGNABCOJX"); Kode 5.27 Menyimpan Folder Kombinasi Feature Extractor

98 Kode 5.27 menunjukkan variabel yang menyimpan daftar folder percobaan sesuai dengan skenario yang ingin diuji. Sehingga, pada percobaannya, variabel ini harus disesuaikan. for(String foldername : folder){ String dirmodel = dir + "upexperiment/" + "model 12/"+foldername+"/"; ArrayList<String> serializeFileModel = new ArrayList<>(); for (int j=0; j<5; j++){ serializeFileModel.add(dirmodel+"citiviz-" + "ner-model"+(j+1)+".ser.gz"); } String prop = dirmodel+"ner.prop"; TrainNER trainModel = new TrainNER(); trainModel.trainCrf(serializeFileModel.get(0), prop, myFileList.get(0)); trainModel.trainCrf(serializeFileModel.get(1), prop, myFileList.get(1)); trainModel.trainCrf(serializeFileModel.get(2), prop, myFileList.get(2)); trainModel.trainCrf(serializeFileModel.get(3), prop, myFileList.get(3)); trainModel.trainCrf(serializeFileModel.get(4), prop, myFileList.get(4)); } Kode 5.28 Pemanggilan Fungsi trainCrf pada Main

Kode 5.28 digunakan untuk melakukan proses training dengan memanggil fungsi trainCrf. Pada kode juga tampak directory folder serta file serialized model untuk penyimpanan model.

99 5.5.2. Implementasi Testing void testCrf(String serializeFile, String testFile, String output) throws IOException, ClassCastException, ClassNotFoundException, Exception{ Properties props = new Properties(); SeqClassifierFlags flags = new SeqClassifierFlags(props); flags.testFile = testFile; CRFClassifier crf = new CRFClassifier<>(flags); crf.loadClassifier(serializeFile); DocumentReaderAndWriter readerAndWriter = crf.defaultReaderAndWriter(); PrintWriter printWriter = new PrintWriter(output); ObjectBank> documents = crf.makeObjectBankFromFile(testFile, readerAndWriter); crf.classifyAndWriteAnswers(documents, printWriter, readerAndWriter, true); }

Kode 5.29 Fungsi testCrf yang Digunakan Untuk Testing Model

Kode 5.29 menunjukkan fungsi testCrf yang digunakan untuk proses testing model yang telah dibuat pada proses training. Pada fungsi ini digunakan pemanggilan file model yang telah di serialize, file dataset yang digunakan untuk testing model, serta file output yang digunakan untuk menyimpan hasil prediksi model. Untuk dapat melakukan testing, diperlukan fungsi train() dari class CRFClassifier dari library Stanford NER.

100 for(String foldername : folder){ String dirmodel = dir + "upexperiment/" + "model 12/"+foldername+"/"; ArrayList<String> serializeFileModel = new ArrayList<>(); for (int j=0; j<5; j++){ serializeFileModel.add(dirmodel+"citiviz-" + "ner-model"+(j+1)+".ser.gz"); } ArrayList<String> myOutput = new ArrayList<>(); for (int k=0; k<5; k++){ myOutput.add(dirmodel+"output"+(k+1)); } TrainNER trainModel = new TrainNER(); trainModel.testCrf(serializeFileModel.get(0), myFile.get(0), myOutput.get(0)); trainModel.testCrf(serializeFileModel.get(1), myFile.get(1), myOutput.get(1)); trainModel.testCrf(serializeFileModel.get(2), myFile.get(2), myOutput.get(2)); trainModel.testCrf(serializeFileModel.get(3), myFile.get(3), myOutput.get(3)); trainModel.testCrf(serializeFileModel.get(4), myFile.get(4), myOutput.get(4)); }

Kode 5.30 Pemanggilan Fungsi testCrf pada Main

Kode 5.30 menunjukkan kode program untuk memanggil fungsi testCrf pada Main. Selain itu juga terdapat pembuatan file output untuk hasil prediksi pada setiap testing model.

BAB VI HASIL DAN PEMBAHASAN Pada bab ini akan dijelaskan hasil serta analisis terhadap hasil yang diperoleh dari proses implementasi yang telah dibahas pada bab sebelumnya. Setelah dilakukan ekstraksi data lokasi, berikut ini merupakan hasil ekstraksi data lokasi dari sumber Open Street Map serta Dinas PU Bina Marga. 6.1.1. Ekstrak Data Lokasi Open Street Map Dari hasil ekstraksi data lokasi Open Street Map, didapatkan nama-nama lokasi sejumlah 3462 lokasi. Pada Tabel 6.1 dapat diketahui sampel nama-nama lokasi pada data lokasi Open Street Map. Tabel 6.1 Sampel Nama-Nama Lokasi pada Data Lokasi OSM

Menanggal Morokrembangan Krembangan Selatan Sedati Agung Sawotratap Sawahan Klakah Rejo Sidodadi Gading Gubeng Berdasarkan hasil ekstraksi data lokasi Open Street Map, terdapat nama-nama lokasi yang tidak spesifik seperti “Rumah”, “Warung”, dan “Toko”. Nama-nama lokasi yang tidak spesifik tersebut menyebabkan kurang relevannya data lokasi untuk digunakan dalam penelitian ini. 101

102 6.1.2. Ekstrak Data Lokasi Dinas PU Bina Marga Dari hasil ekstraksi data lokasi dari Data Panjang Jalan Dinas PU Bina Marga Kota Surabaya, didapatkan nama-nama lokasi sejumlah 4267 lokasi. Pada Tabel 6.2 dapat diketahui sampel nama-nama lokasi pada data lokasi Dinas PU Bina Marga. Tabel 6.2 Contoh Nama-Nama Lokasi pada Data Lokasi Bina Marga

Jl. Dharmawangsa Dalam Jl. Dharmawangsa Jl. Dharmawangsa IX Jl. Gubeng Airlangga I Jl. Gubeng Airlangga II Jl. Gubeng Airlangga IV Jl. Gubeng Airlangga V Jl. Gubeng Airlangga V - A Jl. Gubeng Kertajaya V Jl. Gubeng Kertajaya V - C

6.2.1. Muatan Data Teks Data teks yang dimuat dalam penelitian ini sebanyak 5000 data. Ketika dilakukan pemuatan teks, terdapat data-data yang kosong atau NULL. Maka, data tersebut tidak akan dimasukkan dalam pemrosesan berikutnya. Data yang NULL tersebut berjumlah 14 data. Sehingga, data yang digunakan dalam tahap selanjutnya adalah sebanyak 4986 data teks.

103 6.2.2. Muatan Data Lokasi Data lokasi yang dimuat pada program didapat berdasar 2 sumber yaitu lokasi_osm.txt dan lokasi_binamarga.txt. Jumlah nama-nama lokasi yang terdaftar pada data lokasi dapat dilihat pada Tabel 6.3. Tabel 6.3 Jumlah Pemuatan Data Lokasi

Sumber lokasi_osm.txt lokasi_binamarga.txt

Jumlah 3462 4267 TOTAL = 7729

6.2.3. Hasil Matching Matching pada penelitian ini digunakan untuk melakukan penandaan pada kalimat ketika suatu kalimat memiliki kata-kata yang merupakan nama-nama lokasi yang terdapat pada data lokasi. Matching dilakukan dengan membandingkan isi data teks dengan nama-nama yang terdapat pada data lokasi. Selain itu juga dibandingkan pada data non lokasi yang berisikan nama-nama lokasi namun bukan berupa lokasi seperti “Suara Surabaya”. Jika terdapat kesamaan, data teks akan ditandai mana yang merupakan suatu lokasi maupun non lokasi. Tabel 6.4 menunjukkan skenario hasil matching pada teks “19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah Karangpilang padat. (odp-pr)”. Tabel 6.4 Skenario Matching

Skenario Matching 1

Temuan dan Perubahan 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo

104

Matching 2

Matching 3

Matching 4

Matching 5

2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah Karangpilang padat. (odp-pr) Start index: 152 End index: 164 Found: Karangpilang 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. Sepanjang arah Kletek Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 109 End index: 118 Found: Sepanjang 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah Kletek Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 124 End index: 130 Found: Kletek 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. Bambe arah llllllllllll padat. (odp-pr) Start index: 141 End index: 146 Found: Bambe 19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. lllll arah llllllllllll padat. (odp-pr)

Berdasarkan hasil matching, teks ditandai mana yang merupakan nama lokasi. Seperti contoh di atas, teks yang telah diberi tanda menjadi “19.34 4 jalur ini padat. 1. HR Muhammad arah Satelit Macet. 2. Beji Bangil arah Probolinggo 2 arah padat. 3. lllllllll arah llllll Macet. 4. lllll arah llllllllllll padat. (odp-pr)”. Hasil dari matching ini digunakan pada labeling dengan program.

105 6.2.4. Hasil Tokenizing Tokenizing digunakan untuk pengubahan kalimat dalam bentuk token agar sesuai dengan format pada library Stanford NER. Tokenizing dilakukan pada data teks asli dan data teks yang telah ditandai. Seperti contoh yang dapat dilihat pada Tabel 6.5. Tabel 6.5 Hasil Tokenizing Teks

Teks Teks Asli

Hasil Tokenizing [19.34, 4, jalur, ini, padat, ., 1, ., HR, Muhammad, arah, Satelit, Macet, ., 2, ., Beji, Bangil, arah, Probolinggo, 2, arah, padat, ., 3, ., Sepanjang, arah, Kletek, Macet, ., 4, ., Bambe, arah, Karangpilang, padat, ., -LRB-, odp-pr, -RRB-] [19.34, 4, jalur, ini, padat, ., 1, ., HR, Muhammad, Teks arah, Satelit, Macet, ., 2, ., Beji, Bangil, arah, yang Probolinggo, 2, arah, padat, ., 3, ., lllllllll, arah, Telah Ditandai llllll, Macet, ., 4, ., lllll, arah, llllllllllll, padat, ., LRB-, odp-pr, -RRB-] 6.2.5. Hasil Labeling Labeling pada penelitian ini dilakukan menggunakan Program dan Manual. Adapun hasilnya akan dijelaskan sebagai berikut. 6.2.5.1. Labeling dengan Program Labeling dengan Program dilakukan berdasarkan hasil matching serta tokenizing. Hasil labeling dengan program masih terdapat banyak kekurangan yang disebabkan karena beberapa hal seperti daftar lokasi yang kurang ataupun terdapat nama-nama organisasi yang memiliki nama lokasi sehingga terdeteksi menjadi lokasi. Beberapa kesalahan tersebut dapat dilihat pada Tabel 6.6.

106 Tabel 6.6 Kesalahan Labeling dengan Program

Kata Rumah

Kesalahan Label LOC

Solar

LOC

Berhasil, berharap, LOC terhadap, perhatikan, #PilwaliSuabaya LOC

Avanza

LOC

e100suarasurabaya LOC @gmail.com

Sekolah

LOC

Toko, pertokoan, LOC tokonya Ruko LOC

Penyebab Terdapat lokasi ‘Rumah’ pada data lokasi OSM. Terdapat lokasi ‘Solar’ pada data lokasi OSM. Terdapat lokasi ‘Erha’ pada data lokas OSM. Terdapat lokasi ‘Surabaya’ pada data lokasi OSM. Belum terdapat kata #PilwaliSurabaya pada data non lokasi Terdapat lokasi ‘Avanza’ pada data lokasi OSM. Terdapat lokasi ‘Surabaya’ pada data lokasi OSM. Belum terdapat kata e100suarasurabaya @gmail.com pada data non lokasi Terdapat lokasi ‘sekolah’ pada data lokasi OSM. Terdapat lokasi ‘toko’ pada data lokasi OSM. Terdapat lokasi ‘ruko’ pada data lokasi OSM.

107 Sawah

LOC

Sepanjang

LOC

Parkir

LOC

Sungai

LOC

Terdapat lokasi ‘sawah’ pada data lokasi OSM. Terdapat lokasi ‘Sepanjang’ pada data lokasi OSM dan perlu dilihat pada konteks. Terdapat lokasi ‘parkir’ pada data lokasi OSM. Terdapat lokasi ‘sungai’ pada data lokasi OSM.

Sehingga, pada kalimat contoh pun juga terdapat kekurangan karena kurangnya nama lokasi pada data lokasi. Seperti contoh hasil labeling di bawah, maka terdapat kata-kata yang belum berhasil diberikan label LOC yaitu kata “HR Muhammad”, “Satelit”, “Beji Bangil” serta “Probolinggo”. 19.34 O 4 O jalur O ini O padat O . O 1 O . O HR O Muhammad arah O Satelit O Macet O . O 2 O . O Beji O

O

Bangil O arah O Probolinggo 2 O arah O padat O . O 3 O . O Sepanjang arah O Kletek LOC Macet O . O 4 O . O Bambe LOC

O

LOC

108 arah O Karangpilang padat O . O

LOC

-LRB- O odp-pr O -RRB- O

Hasil yang didapat dari labeling dengan program dirasa kurang memuaskan karena penentuan kata yang merupakan sebuah lokasi atau bukan, lebih banyak mempertimbangkan konteks yang ada pada kalimat. Sehingga, pada saat labeling dengan program terdapat berbagai kesalahan yang telah disebutkan. Karena hasil labeling menggunakan program dirasa masih terdapat banyak kekurangan dengan adanya berbagai kesalahan, oleh karena itu, labeling manual menjadi peran penting dalam pembuatan corpus dataset dalam penelitian ini, meskipun harus melakukan pengecekan kembali pada label yang salah dari hasil labeling dengan program. 6.2.5.2. Labeling Manual Labeling manual pada penelitian ini merupakan salah satu hal yang penting karena untuk dapat menggunakan data pada pemrosesan selanjutnya, label dari suatu kata harus dapat dipastikan sesuai dengan token dan konsisten pada seluruh dataset. Untuk menjaga kekonsistenan tersebut, digunakanlah definisi lokasi yang terdapat pada sub 4.3.2.6 pada penelitian ini. Kata-kata yang belum memiliki label yang sesuai, diberikan perbaikan pada tahap ini. Contoh pelabelan menggunakan teks contoh adalah berikut ini. Kata “HR Muhammad”, “Satelit”, “Beji Bangil” serta “Probolinggo” yang belum memiliki label lokasi akan diberikan label lokasi yaitu “LOC”. 19.34 4 jalur ini padat

O O O O O

. O 1 O . O HR LOC Muhammad

LOC

109 arah O Satelit LOC Macet O . O 2 O . O Beji LOC Bangil LOC arah O Probolinggo 2 O arah O padat O . O 3 O . O

Sepanjang arah O Kletek LOC Macet O . O 4 O . O Bambe LOC arah O Karangpilang padat O . O -LRB- O odp-pr O -RRB- O

LOC

LOC

LOC

6.2.6. Hasil Pembagian Dataset Pembagian dataset pada penelitian ini dibagi sesuai jumlah k-fold yaitu 5-fold. Pembagian ini dilakukan berdasar pembagian acak data teks yang berupa kalimat. Hasil pembagian tersebut dapat dilihat pada Tabel 6.7. Tabel 6.7 Pembagian Dataset

Nama File trainfile1.tsv trainfile2.tsv trainfile3.tsv trainfile4.tsv trainfile5.tsv

Jumlah Token 41501 token 39184 token 40816 token 41245 token 40095 token

110

F_AVG 0.72 0.715 0.71 0.705 0.7 0.695 0.69

Gambar 6.1 Rata-Rata F-Measure wordShape

Gambar 6.1

jenny1useLC serta jenny1 memiliki standar deviasi yang lebih rendah yaitu 0.01209. Sehingga, bisa dianggap lebih stabil untuk dataset. Gambar 6.2 untuk rata-rata Time, wordShape jenny1 menunjukkan waktu lebih cepat daripada jenny1useLC.

111

T_AVG 8 7.5 7 6.5 6

Gambar 6.2 Rata-Rata Time wordShape

Meskipun hasil performa F-Measure dari jenny1 dan chris3 adalah sama, tetapi jenny1 lebih sederhana dibanding chris3 dan sesuai untuk deteksi lokasi. Oleh karena itu, rata-rata Time jenny1 menjadi lebih cepat. Cara kerja wordShape Chris3 adalah dengan melihat shape atau bentuk karakter pada 2 huruf awal dan 2 huruf akhir, serta melihat shape atau bentuk karakter diantaranya sebagai 1 kesatuan. Sedangkan wordShape jenny1 akan menangkap fenomena karakter upper case dan lower case serta digit. WordShape jenny1 akan merapatkan kumpulan karakter yang memiliki shape yang sama. Sehingga, hal ini dapat memungkingkan perhitungan fitur menjadi lebih sederhana. Hal ini sesuai dengan karakteristik nama-nama lokasi yang umumnya huruf besar (upper case) terdapat pada awal kata saja. Sedangkan karakter sisanya merupakan huruf kecil (lower case). Selain itu juga terdapat nomor yang terkait lokasi yang dapat dideteksi sebagai karakter digit.

112

F_AVG 0.765 0.76 0.755 0.75 0.745 0.74 0.735 0.73 0.725

Gambar 6.3 Rata-Rata F-Measure maxNGramLeng

Pada percobaan yang dilakukan untuk mengetahui nilai panjang N-Gram maksimum yang optimal digunakan pada pemrosesan, didapatkan bahwa hasil yang optimal adalah dengan maxNGramLeng=6. Nilai rata-rata F-Measure yang dihasilkan adalah sebesar 0.7598. Perbandingan rata-rata FMeasure yang dihasilkan dapat dilihat pada Gambar 6.3. Pada percobaan ini juga dilakukan pencatatan waktu. Penambahan panjang N-Gram ternyata akan memakan banyak waktu karena semakin panjang N-Gram semakin bertambah bobot fitur yang digunakan. Fenomena tersebut ditunjukkan pada Gambar 6.4. Selain hal tersebut, dapat diketahui juga rata-rata F-Measure berkorelasi terhadap rata-rata Time sebesar 0.8242. Namun, ketika maxNGramLeng=7 terjadi penurunan F-Measure. Sehingga, maxNGramLeng=6 dirasa lebih optimal.

113

T_AVG 120 100 80 60 40 20 0

Gambar 6.4 Rata-Rata Time maxNGramLeng

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.

Percobaan 1 Feature Extractor: P Percobaan 2 Feature Extractor: PV Percobaan 4 Feature Extractor: PVTD Percobaan 5 Feature Extractor: PVTDG Percobaan 6 Feature Extractor: PVTDGN Percobaan 7 Feature Extractor: PVTDGNA Percobaan 8 Feature Extractor: PVTDGNAB Percobaan 9 Feature Extractor: PVTDGNABC Percobaan 10 Feature Extractor: PVTDGNABCO Percobaan 11 Feature Extractor: PVTDGNABCOJ Percobaan 12 Feature Extractor: PVTDGNABCOJR

114 6.5.1. Percobaan 1 Feature Extractor

F_AVG

useDisjShape useClassFeature usePosition wordShape=jenny1 useWord useGazettes useNGrams strictlyFirstOrder usePrevSequences useTypeSeqs2 useSequences useTypeSeqs useSum maxLeft=1 cleanGazette noMidNGrams maxNGramLeng=6 useNext useSymWordPairs useTypeySequences usePrev useWordPairs disjunctionWidth=6 useDisjunctive

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Gambar 6.5 F-Measure Forward Selection 1 Feature Extractor

Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 1 feature extractor, didapatkan bahwa feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor P yaitu useDisjunctive. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.8378, 0.8558, 0.8677, 0.8445, serta 0.8229. Sehingga dapat menghasilkan nilai rata-rata F-Measure sebesar 0.84374 dengan standar deviasi sebesar 0.014234571. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.5.

115

T_AVG

useDisjShape useClassFeature usePosition wordShape=jenny1 useWord useGazettes useNGrams strictlyFirstOrder usePrevSequences useTypeSeqs2 useSequences useTypeSeqs useSum maxLeft=1 cleanGazette noMidNGrams maxNGramLeng=6 useNext useSymWordPairs useTypeySequences usePrev useWordPairs disjunctionWidth=6 useDisjunctive

40 35 30 25 20 15 10 5 0

Gambar 6.6 Time Forward Selection 1 Feature Extractor

Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.152. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor P (useDisjunctive) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 9.43, 9.15, 8.78, 9.03, serta 9.15 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 9.108 detik dengan standar deviasi sebesar 0.234989361 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.6.


F_AVG 0.9 0.88 0.86 0.84 0.82 0.8

disjunctionWidth=6 usePosition useNGrams useGazettes usePrevSequences useSum useSequences useTypeSeqs2 strictlyFirstOrder useTypeSeqs useWord maxLeft=1 cleanGazette useClassFeature useDisjShape useNext useSymWordPairs useWordPairs usePrev useTypeySequences wordShape=jenny1 maxNGramLeng=6 noMidNGrams

0.78


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 2 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode V yaitu noMidNGrams. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.8847, 0.9095, 0.8852, 0.8853, serta 0.8775. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.88844 dengan standar deviasi sebesar 0.012222438. Karena feature extractor noMidNGrams memiliki syarat feature extractor T yaitu useNGrams, maka pada percobaan berikutnya feature extractor syarat juga akan diikutkan pada penambahan feature extractor. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.7.

117

T_AVG 35

30 25 20 15 10 5

disjunctionWidth=6 usePosition useNGrams useGazettes usePrevSequences useSum useSequences useTypeSeqs2 strictlyFirstOrder useTypeSeqs useWord maxLeft=1 cleanGazette useClassFeature useDisjShape useNext useSymWordPairs useWordPairs usePrev useTypeySequences wordShape=jenny1 maxNGramLeng=6 noMidNGrams

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi sebesar 0.74. Namun bagaimanapun pemilihan feature extractor lebih diutamakan didasarkan pada rata-rata FMeasure. Untuk feature extractor V (noMidNGrams) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 19.69, 19.99, 21, 20.56, serta 19.42 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 20.132 detik dengan standar deviasi sebesar 0.644026397 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.8.


F_AVG 0.92 0.91 0.9 0.89 0.88 0.87 0.86

disjunctionWidth=6 useDisjShape useClassFeature usePosition maxNGramLeng=6 cleanGazette wordShape=jenny1 maxLeft=1 useSequences usePrevSequences useSum strictlyFirstOrder useTypeSeqs useGazettes useWord useTypeSeqs2 useSymWordPairs useNext usePrev useWordPairs useTypeySequences

0.85


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 4 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode D yaitu useTypeySequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9181, 0.9288, 0.9228, 0.9138, serta 0.8935. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.9154 dengan standar deviasi sebesar 0.01345158. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.9.

119

T_AVG 30 25 20 15 10 5

disjunctionWidth=6 useDisjShape useClassFeature usePosition maxNGramLeng=6 cleanGazette wordShape=jenny1 maxLeft=1 useSequences usePrevSequences useSum strictlyFirstOrder useTypeSeqs useGazettes useWord useTypeSeqs2 useSymWordPairs useNext usePrev useWordPairs useTypeySequences

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.211. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor D (useTypeySequences) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 22.3, 23.68, 24, 22.94, serta 22.2 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 23.024 detik dengan standar deviasi sebesar 0.80515837 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.10.


F_AVG 0.925 0.92 0.915 0.91 0.905

disjunctionWidth=6 maxNGramLeng=6 usePosition useSequences useWord useSum strictlyFirstOrder useTypeSeqs2 useGazettes usePrevSequences useTypeSeqs maxLeft=1 useDisjShape useClassFeature cleanGazette useNext wordShape=jenny1 useSymWordPairs useWordPairs usePrev

0.9


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 5 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode G yaitu usePrev. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.924, 0.9354, 0.9303, 0.924, serta 0.9051. Sehingga dapat meningkatkan nilai rata-rata FMeasure menjadi 0.92376 dengan standar deviasi sebesar 0.011473578. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.11.

121

T_AVG 35 30 25 20 15 10

5 disjunctionWidth=6 maxNGramLeng=6 usePosition useSequences useWord useSum strictlyFirstOrder useTypeSeqs2 useGazettes usePrevSequences useTypeSeqs maxLeft=1 useDisjShape useClassFeature cleanGazette useNext wordShape=jenny1 useSymWordPairs useWordPairs usePrev

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.373. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor G (usePrev) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 23.18, 26.32, 23.54, 23.46, serta 22.8 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 23.86 detik dengan standar deviasi sebesar 1.405346932 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.12.


F_AVG

disjunctionWidth=6 usePosition maxNGramLeng=6 useDisjShape maxLeft=1 useClassFeature useWord useTypeSeqs2 useGazettes strictlyFirstOrder useSequences useTypeSeqs useSum cleanGazette wordShape=jenny1 useSymWordPairs useWordPairs useNext usePrevSequences

0.935 0.93 0.925 0.92 0.915 0.91 0.905


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 6 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode N yaitu usePrevSequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9302, 0.9442, 0.9374, 0.9334, serta 0.9152. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93208 dengan standar deviasi sebesar 0.010786658. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.13.

123

T_AVG

disjunctionWidth=6 usePosition maxNGramLeng=6 useDisjShape maxLeft=1 useClassFeature useWord useTypeSeqs2 useGazettes strictlyFirstOrder useSequences useTypeSeqs useSum cleanGazette wordShape=jenny1 useSymWordPairs useWordPairs useNext usePrevSequences

40 35 30 25 20 15 10 5 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.557. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor N (usePrevSequences) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 35.01, 34.69, 39.76, 39.5, serta 40.15 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 37.822 detik dengan standar deviasi sebesar 2.725246778 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.14.


F_AVG

disjunctionWidth=6 usePosition useWordPairs useDisjShape useWord cleanGazette strictlyFirstOrder useTypeSeqs2 useSum useSequences useGazettes useTypeSeqs maxNGramLeng=6 useClassFeature useNext useSymWordPairs maxLeft=1 wordShape=jenny1

0.935 0.934 0.933 0.932 0.931 0.93 0.929 0.928 0.927 0.926


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 7 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode A yaitu wordShape=jenny1. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9314, 0.9441, 0.9408, 0.9356, serta 0.9165. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93368 dengan standar deviasi sebesar 0.010762295. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.15.

125

T_AVG 60 50 40 30 20 10

disjunctionWidth=6 usePosition useWordPairs useDisjShape useWord cleanGazette strictlyFirstOrder useTypeSeqs2 useSum useSequences useGazettes useTypeSeqs maxNGramLeng=6 useClassFeature useNext useSymWordPairs maxLeft=1 wordShape=jenny1

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah, bahkan tidak ada korelasi, yaitu dengan nilai sebesar -0.17. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada F-Measure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor A (wordShape=jenny1) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 37.34, 38.4, 38.41, 38.95, serta 45.49 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 39.718 detik dengan standar deviasi sebesar 3.279050167 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.16.


F_AVG

useTypeSeqs

cleanGazette

useSymWordPairs

useSum

useGazettes

useSequences

strictlyFirstOrder

useTypeSeqs2

useWord

maxLeft=1

useNext

useDisjShape

useWordPairs

useClassFeature

maxNGramLeng=6

usePosition

disjunctionWidth=6

0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929 0.928


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 8 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode B yaitu useTypeSeqs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9319, 0.9458, 0.944, 0.9357, serta 0.9177. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93502 dengan standar deviasi sebesar 0.011258641. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.17.

127

T_AVG

useTypeSeqs

useSymWordPairs

useGazettes

cleanGazette

useSum

strictlyFirstOrder

useSequences

useWord

useTypeSeqs2

maxLeft=1

useDisjShape

useNext

useWordPairs

useClassFeature

usePosition

maxNGramLeng=6

disjunctionWidth=6

60 50 40 30 20 10 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.249. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor B (useTypeSeqs) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 48.49, 53.84, 51.16, 47.49, serta 63.96 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 52.988 detik dengan standar deviasi sebesar 6.612720318 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.18.


F_AVG

useNext

useTypeSeqs2

useWordPairs

useSymWordPairs

maxLeft=1

useGazettes

useSequences

useSum

useWord

strictlyFirstOrder

usePosition

useClassFeature

useDisjShape

cleanGazette

maxNGramLeng=6

disjunctionWidth=6

0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 9 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode C yaitu useTypeSeqs2. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9332, 0.9479, 0.9451, 0.9364, serta 0.9167. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93586 dengan standar deviasi sebesar 0.012296463. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.19.

129

T_AVG

useTypeSeqs2

useNext

useWordPairs

useSymWordPairs

maxLeft=1

useGazettes

useSequences

useSum

strictlyFirstOrder

useWord

usePosition

useClassFeature

useDisjShape

cleanGazette

maxNGramLeng=6

disjunctionWidth=6

80 70 60 50 40 30 20 10 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.286. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor C (useTypeSeqs2) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 49.64, 55.9, 68.64, 69.02, serta 76.14 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 63.868 detik dengan standar deviasi sebesar 10.79168754 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.20.


F_AVG

useDisjShape

useWord

useGazettes

strictlyFirstOrder

useSequences

useSum

cleanGazette

usePosition

useWordPairs

useSymWordPairs

useClassFeature

useNext

maxNGramLeng=6

maxLeft=1

disjunctionWidth=6

0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 10 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode O yaitu useDisjShape. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9326, 0.9472, 0.9445, 0.9347, serta 0.9205. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.9359 dengan standar deviasi sebesar 0.012296463. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.21.

131

T_AVG 90 80 70 60 50 40 30 20

10 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.213. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor O (useDisjShape) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 70.11, 71.37, 93.98, 70.17, serta 67.44 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 74.614 detik dengan standar deviasi sebesar 10.92093082 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.22.


F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 11 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode J yaitu useSymWordPairs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93604 dengan standar deviasi sebesar 0.011218199. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.23.

133

T_AVG 120 100

80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu 0.123. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor J (useSymWordPairs) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 78.19, 84.08, 87.42, 80.54, serta 82.92 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 82.63 detik dengan standar deviasi sebesar 3.507577512 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.24.


F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931

0.93 0.929


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 12 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode R yaitu strictlyFirstOrder. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga dapat meningkatkan nilai ratarata F-Measure menjadi 0.93604 dengan standar deviasi sebesar 0.011218199. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.25.

135

T_AVG 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.03. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor R (strictlyFirstOrder) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 68.39, 77.02, 80.18, 72.49, serta 75.1292 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 74.64 detik dengan standar deviasi sebesar 4.479715393 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.26.


F_AVG 0.937 0.936 0.935 0.934 0.933 0.932 0.931 0.93 0.929


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 13 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode X yaitu cleanGazette. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.932, 0.9481, 0.9453, 0.9347, serta 0.9201. Sehingga rata-rata nilai F-Measure yang dihasilkan sama seperti percobaan 12 feature extractor yaitu 0.93604 dengan standar deviasi sebesar 0.011218199. Karena feature extractor cleanGazette memiliki syarat feature extractor W yaitu useGazettes, maka pada percobaan berikutnya feature extractor syarat juga akan diikutkan pada penambahan feature extractor. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.27.

137

T_AVG 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.103. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor X (cleanGazette) yang terpilih pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 73.47, 78.32, 82.25, 74.13, serta 79.22 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 77.478 detik dengan standar deviasi sebesar 3.667038314 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.28.


F_AVG 0.9355 0.935 0.9345 0.934 0.9335 0.933 0.9325 0.932 0.9315


Berdasarkan percobaan yang dilakukan pada skenario forward selection dengan 15 feature extractor, didapatkan bahwa penambahan feature extractor yang paling optimal untuk meningkatkan performa model adalah feature extractor kode S yaitu useSum. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9324, 0.9435, 0.9447, 0.9356, serta 0.9198. Namun penambahan feature extractor ini dapat menurunkan performa F-Measure menjadi 0.9352 dengan standar deviasi sebesar 0.010053606. Sehingga, percobaan dapat dihentikan. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.29.

139

T_AVG 120

100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang sangat rendah yaitu -0.121. Sehingga, pemilihan feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk feature extractor S (useSum) yang terpilih untuk memiliki nilai performa tertinggi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 72, 77.38, 76.69, 89.89, serta 74.28 dalam satuan detik. Sehingga pada percobaan ini, untuk feature extractor terpilih, rata-rata Time yang dihasilkan sebesar 78.048 detik dengan standar deviasi sebesar 6.951609166 detik. Hal ini menunjukkan bahwa terdapat peningkatan jumlah waktu dengan adanya penambahan feature extractor, meskipun performa F-Measure menurun. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.30.

140

1. Percobaan 24 Feature Extractor: ABCDEFGHIJKLMN OPQRSTUVWX 2. Percobaan 23 Feature Extractor: ABCDEFGHIJKLMN OPQRSTUWX 3. Percobaan 22 Feature Extractor: ABCDEFGHIJKLMN OPRSTUWX 4. Percobaan 21 Feature Extractor: ABCDFGHIJKLMN OPRSTUWX 5. Percobaan 20 Feature Extractor: ABCFGHIJKLMN OPRSTUWX 6. Percobaan 19 Feature Extractor: ABCFGHIJLMN OPRSTUWX 7. Percobaan 18 Feature Extractor: ABCFGHJLMN

141 OPRSTUWX 8. Percobaan 17 Feature Extractor: ABCFGHJMN OPRSTUWX 9. Percobaan 16 Feature Extractor: ABCFGHJN OPRSTUWX 10. Percobaan 15 Feature Extractor: ABCFGHJNOPSTUWX 11. Percobaan 14 Feature Extractor: ABCFGHJNOPTUWX 12. Percobaan 13 Feature Extractor: ABCGHJNOPTUWX 13. Percobaan 12 Feature Extractor: ABCGJNOPTUWX

6.6.1. Percobaan 24 Feature Extractor Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan seluruh feature extractor yaitu 24 feature extractor, didapatkan bahwa pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9273, 0.9427, 0.9393, 0.9283, serta 0.9142. Sehingga dapat menghasilkan nilai rata-rata F-Measure sebesar 0.93036 dengan standar deviasi sebesar 0.011257797. Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Nilai Time yang dihasilkan pada percobaan model 1 hingga 5 sebesar 60.82, 58.14, 72.96, 72.24, serta 74.6 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 67.752 detik dengan standar deviasi sebesar 7.658388865 detik.


F_AVG 0.94 0.935 0.93 0.925 0.92 0.915

useNGrams usePrevSequences usePrev useDisjunctive useTypeSeqs wordShape=jenny1 cleanGazette useGazettes useTypeySequences useWordPairs useSum useWord useSequences strictlyFirstOrder useClassFeature useSymWordPairs useDisjShape useTypeSeqs2 useNext usePosition maxLeft=1 maxNGramLeng=6 disjunctionWidth=6 noMidNGrams

0.91

Gambar 6.31 F-Measure Backward Elimination 23 Feature Extractor

Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 23 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor V yaitu noMidNGrams. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9305, 0.9473, 0.9409, 0.9357, serta 0.916. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93408 dengan standar deviasi sebesar 0.011870215. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.31.

143

T_AVG 120 100 80 60 40 20

useNGrams usePrevSequences usePrev useDisjunctive useTypeSeqs wordShape=jenny1 cleanGazette useGazettes useTypeySequences useWordPairs useSum useWord useSequences strictlyFirstOrder useClassFeature useSymWordPairs useDisjShape useTypeSeqs2 useNext usePosition maxLeft=1 maxNGramLeng=6 disjunctionWidth=6 noMidNGrams

0

Gambar 6.32 Time Backward Elimination 23 Feature Extractor

Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.435. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak mempengaruhi peningkatan waktu. Untuk model dengan feature extractor V (noMidNGrams) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 92.74,125.3, 116.88, 96.96, serta 116.7 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 109.716 detik dengan standar deviasi sebesar 14.08776348 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.32


F_AVG 0.94 0.935 0.93 0.925 0.92 0.915 0.91

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useGazettes cleanGazette useDisjShape useTypeySequences useWordPairs useSymWordPairs useClassFeature maxLeft=1 strictlyFirstOrder useSequences useSum useWord useNext usePosition useTypeSeqs2 disjunctionWidth=6

0.905


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 22 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor Q yaitu disjunctionWidth=6. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.931, 0.9458, 0.9459, 0.9365, serta 0.9175. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93534 dengan standar deviasi sebesar 0.011825523. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.33.

145

T_AVG

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useGazettes cleanGazette useDisjShape useTypeySequences useWordPairs useSymWordPairs useClassFeature maxLeft=1 strictlyFirstOrder useSequences useSum useWord useNext usePosition useTypeSeqs2 disjunctionWidth=6

140 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.633. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor Q (disjunctionWidth=6) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 112.21, 123, 122.04, 97.71, serta 98.04 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 110.6 detik dengan standar deviasi sebesar 12.36053599 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.34.


F_AVG 0.94 0.935 0.93 0.925 0.92

useNGrams maxNGramLeng=6 useDisjunctive usePrev usePrevSequences wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext usePosition useTypeySequences useClassFeature useSymWordPairs useSum useSequences strictlyFirstOrder useWord cleanGazette useGazettes useWordPairs useDisjShape maxLeft=1

0.915


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 21 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor E yaitu maxLeft=1. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9337, 0.9492, 0.9451, 0.9372, serta 0.9195. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93694 dengan standar deviasi sebesar 0.011528356. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.35.

147

T_AVG

useNGrams maxNGramLeng=6 useDisjunctive usePrev usePrevSequences wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext usePosition useTypeySequences useClassFeature useSymWordPairs useSum useSequences strictlyFirstOrder useWord cleanGazette useGazettes useWordPairs useDisjShape maxLeft=1

140 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.595. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor E (maxLeft=1) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 109.94, 139.96, 136.9, 138.06, serta 111.42 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 127.256 detik dengan standar deviasi sebesar 15.18014756 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.36.


F_AVG

maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette usePosition useSymWordPairs useClassFeature useNext useWord strictlyFirstOrder useSum useSequences useWordPairs useTypeySequences

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 20 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor D yaitu useTypeySequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9335, 0.9497, 0.9451, 0.9385, serta 0.9193. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93722 dengan standar deviasi sebesar 0.01177336. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.37.

149

T_AVG

maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette usePosition useSymWordPairs useClassFeature useNext useWord strictlyFirstOrder useSum useSequences useWordPairs useTypeySequences

140 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.627. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor E (maxLeft=1) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 126.27, 141.17, 136.9, 133.58, serta 106.42 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 128.868 detik dengan standar deviasi sebesar 13.68135118 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.38.


F_AVG

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useNext useClassFeature useSymWordPairs cleanGazette useGazettes useWordPairs strictlyFirstOrder useWord useSum useSequences usePosition

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 19 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor K yaitu usePosition. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9339, 0.9498, 0.9453, 0.9378, serta 0.9197. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.9373 dengan standar deviasi sebesar 0.010409803. Untuk perbandingan rata-rata FMeasure pada percobaan dapat dilihat pada Gambar 6.39.

151

T_AVG

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useNext useClassFeature useSymWordPairs cleanGazette useGazettes useWordPairs strictlyFirstOrder useWord useSum useSequences usePosition

140 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.647. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor K (usePosition) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 118.2, 128.03, 103, 93.81, serta 113.84 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 111.376 detik dengan standar deviasi sebesar 11.90559297 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.40.


F_AVG

maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext useDisjShape useGazettes cleanGazette useClassFeature strictlyFirstOrder useSum useWord useSequences useSymWordPairs useWordPairs

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 18 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor I yaitu useWordPairs. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9339, 0.9486, 0.9478, 0.937, serta 0.9211. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.93768 dengan standar deviasi sebesar 0.01130606. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.41.

153

T_AVG 140 120 100 80 60 40 20

maxNGramLeng=6 useNGrams usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useNext useDisjShape useGazettes cleanGazette useClassFeature strictlyFirstOrder useSum useWord useSequences useSymWordPairs useWordPairs

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang rendah yaitu 0.632. Sehingga, pengeliminasian feature extractor pada percobaan ini didasarkan pada FMeasure yang paling tinggi karena tidak terlalu mempengaruhi peningkatan waktu. Untuk model dengan feature extractor I (useWordPairs) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 76.01, 74.49, 90.88, 80.94, serta 79.92 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 80.448 detik dengan standar deviasi sebesar 6.413678352 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.42.


F_AVG

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette useSymWordPairs useNext useSequences strictlyFirstOrder useWord useSum useClassFeature

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 17 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor L yaitu useClassFeature. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga dapat meningkatkan nilai rata-rata F-Measure menjadi 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.43.

155

T_AVG 120 100 80 60 40 20

useNGrams maxNGramLeng=6 usePrev usePrevSequences useDisjunctive wordShape=jenny1 useTypeSeqs useTypeSeqs2 useDisjShape useGazettes cleanGazette useSymWordPairs useNext useSequences strictlyFirstOrder useWord useSum useClassFeature

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.702. Tetapi pengeliminasian feature extractor tetap didasarkan pada F-Measure. Untuk model dengan feature extractor L (useClassFeature) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 91.99, 113.55, 90.66, 85.66, 107.45 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 97.862 detik dengan standar deviasi sebesar 11.97164442 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.44.


F_AVG

useWord

useSum

useSequences

useNext

strictlyFirstOrder

useGazettes

cleanGazette

useDisjShape

useTypeSeqs2

useSymWordPairs

useTypeSeqs

useDisjunctive

wordShape=jenny1

usePrev

usePrevSequences

useNGrams

maxNGramLeng=6

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 16 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor F yaitu useWord. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.45.

157

T_AVG 120 100 80 60 40 20

useWord

useSequences

useSum

strictlyFirstOrder

useNext

cleanGazette

useGazettes

useDisjShape

useTypeSeqs2

useSymWordPairs

useTypeSeqs

wordShape=jenny1

useDisjunctive

usePrevSequences

usePrev

maxNGramLeng=6

useNGrams

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.657. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor M (useSequences) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 79.44, 106.38, 85.96, 81.19, serta 101.88 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 90.97 detik dengan standar deviasi sebesar 12.35096757 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.46.


F_AVG

useSum

strictlyFirstOrder

useNext

useSequences

useGazettes

cleanGazette

useDisjShape

useSymWordPairs

useTypeSeqs

useTypeSeqs2

useDisjunctive

wordShape=jenny1

usePrevSequences

usePrev

maxNGramLeng=6

useNGrams

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 15 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor R yaitu strictlyFirstOrder. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai rata-rata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.47.

159

T_AVG 120 100 80 60 40 20

useSum

strictlyFirstOrder

useSequences

useNext

useGazettes

cleanGazette

useDisjShape

useTypeSeqs2

useSymWordPairs

useTypeSeqs

wordShape=jenny1

useDisjunctive

usePrevSequences

usePrev

useNGrams

maxNGramLeng=6

0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.705. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor R (strictlyFirstOrder) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 79.59, 106.26, 84.92, 80.96, serta 103 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 90.946 detik dengan standar deviasi sebesar 12.69654599 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.48.


F_AVG

useSequences

useSum

useNext

useGazettes

cleanGazette

useDisjShape

useSymWordPairs

useTypeSeqs2

useTypeSeqs

wordShape=jenny1

useDisjunctive

usePrevSequences

usePrev

maxNGramLeng=6

useNGrams

0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 14 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor M yaitu useSequences. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374, serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.49.

161

T_AVG 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.677. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor S (useSum) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 81.83, 107.03, 85.1, 78.9, serta 103.7 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 91.312 detik dengan standar deviasi sebesar 13.06783341 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.50.


F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 13 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk meningkatkan performa model adalah dengan mengeliminasi feature extractor F yaitu useWord. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9338, 0.9494, 0.9474, 0.9374 serta 0.9205. Sehingga menghasilkan nilai ratarata F-Measure yang tetap yaitu 0.9377 dengan standar deviasi sebesar 0.011641735. Untuk perbandingan rata-rata F-Measure pada percobaan dapat dilihat pada Gambar 6.51.

163

T_AVG 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.685. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor F (useWord) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 74.24, 89.93, 77.97, 83.62, serta 108.59 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 86.87 detik dengan standar deviasi sebesar 13.5130622 detik. Pada percobaan ini tampak penurunan waktu yang cukup signifikan. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.52.


F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926 0.924 0.922 0.92 0.918


Berdasarkan percobaan yang dilakukan pada skenario backward elimination dengan 12 feature extractor, didapatkan bahwa eliminasi feature extractor yang paling optimal untuk performa model adalah dengan mengeliminasi feature extractor H yaitu useNext. Pada percobaan model 1 hingga 5 dihasilkan nilai F-Measure sebesar 0.9347,0.9492, 0.9468, 0.9382, serta 0.9191. Sehingga menghasilkan nilai rata-rata F-Measure yang turun yaitu 0.9376 dengan standar deviasi sebesar 0.01193964. Maka, percobaan dapat dihentikan. Untuk perbandingan ratarata F-Measure pada percobaan dapat dilihat pada Gambar 6.53.

165

T_AVG 120 100 80 60 40 20 0


Selain pengujian terhadap F-Measure, terdapat pula pengujian terhadap Time. Dari data yang didapatkan, korelasi rata-rata F-Measure dengan rata-rata Time menunjukkan nilai korelasi yang cukup yaitu 0.633. Kali ini, pengeliminasian juga didasarkan pada kecepatan waktu yang dijalankan. Untuk model dengan feature extractor H (useNext) yang tereliminasi pada percobaan ini memiliki nilai Time yang dihasilkan pada model 1 hingga 5 sebesar 71.79, 95.77, 77.86, 98.97, serta 92.97 dalam satuan detik. Sehingga pada percobaan ini, rata-rata Time yang dihasilkan sebesar 87.472 detik dengan standar deviasi sebesar 11.93319404 detik. Untuk perbandingan rata-rata Time pada percobaan dapat dilihat pada Gambar 6.54.

166

6.7.1. Analisa Hasil Forward Selection

F_AVG 0.95 0.9

0.85 0.8 0.75

Gambar 6.55 Rata-Rata F-Measure Skenario Forward Selection

Berdasarkan hasil percobaan dengan skenario forward selection seperti pada Gambar 6.55, model terbaik yang dipilih adalah model 12 dengan rata-rata F-Measure 0.93604 dan ratarata Time yang paling optimal sebesar 74.64. Meskipun model 11-13 memiliki performa F-Measure yang sama, tetapi rata-rata Time terendah dimiliki oleh Model 12 terlihat pada Gambar 6.56.

T_AVG 100 80 60 40 20 0

Gambar 6.56 Rata-Rata Time Skenario Forward Selection

167 6.7.2. Analisa Hasil Backward Elimination

F_AVG 0.94 0.938 0.936 0.934 0.932 0.93 0.928 0.926

Gambar 6.57 Rata-Rata F-Measure Skenario Backward Elimination

Berdasarkan hasil percobaan dengan skenario backward elimination seperti pada Gambar 6.57, model terbaik yang dipilih adalah model 13 dengan rata-rata F-Measure 0.9377 dan rata-rata Time yang paling optimal sebesar 86.87. Meskipun model 17-13 memiliki performa F-Measure yang sama, tetapi rata-rata Time terendah dimiliki oleh Model 13 terlihat pada Gambar 6.58.

T_AVG 150 100 50 0

Gambar 6.58 Rata-Rata Time Skenario Backward Elimination

168

Berdasarkan analisa hasil yang telah dilakukan, pilihan model terbaik dapat dilihat pada Tabel 6.8 yang menunjukkan performa rata-rata F-Measure, standar deviasi F-Measure, ratarata Time, serta standar deviasi Time dari model. Model yang terpilih dari analisa hasil berdasarkan metode forward selection adalah Model 12. Sedangkan model yang terpilih dari analisa hasil berdasar metode backward elimination adalah Model 13. Tabel 6.8 Model Terbaik Performa F_STDEV T_AVG

Metode Seleksi

Model Terbaik

Jumlah Fitur

F_AVG

Forward Selection Backward Elimination

Model 12

12

0.93604

0.011218

74.64

4.479715

Model 13

13

0.9377

0.011641

88.706

12.518948

T_STDEV

6.8.1. Fitur-Fitur Penting Berdasarkan hasil pemilihan model terbaik, dapat ditentukan fitur-fitur penting yang harus diperhatikan dengan melihat feature extractors apa saja yang digunakan model terbaik pada Tabel 6.9. Analisa feature extractor dilakukan dengan melihat irisan feature extractor pada kedua model, feature extractor yang terpilih hanya pada model, serta feature extractor yang tidak terpilih. Tabel 6.9 Feature Extractor Yang Digunakan Model Terbaik Forward Selection Model 12

Feature Extractor Yang Digunakan A: wordShape=jenny1 B: useTypeSeqs C: useTypeSeqs2 D: useTypeySequences G: usePrev J: useSymWordPairs N: usePrevSequences

169

Backward Elimination Model 14

O: useDisjShape P: useDisjunctive R: strictlyFirstOrder T: useNGrams V: useNGrams, noMidNGrams A: wordShape=jenny1 B: useTypeSeqs C: useTypeSeqs2 G: usePrev H: useNext J: useSymWordPairs N: usePrevSequences O: useDisjShape P: useDisjunctive T: useNGrams U: maxNGramLeng=6 W: useGazettes X: cleanGazette

6.8.1.1. Fitur yang Terpilih Pada Seluruh Metode Seleksi Terdapat 9 feature extractor yang terpilih pada seluruh metode seleksi. Dari ke-9 feature extractor yang terpilih tersebut, keseluruhan feature extractor mencirikan konteks dari nama-nama lokasi. Sedangkan kata yang merupakan sebuah lokasi itu sendiri tidak banyak mengindikasikan bahwa kata tersebut merupakan sebuah lokasi. Berikut 9 feature extractor yang terpilih pada kedua metode seleksi beserta justifikasi pentingnya feature extractor yang terpilih: 1. A : wordShape=jenny1 Feature extractor dirasa penting karena dapat menangkap fenomena shape atau bentuk karakter pada nama-nama lokasi yang memiliki ciri huruf besar (upper case) pada awal kata. 2. B : useTypeSeqs Feature extractor ini dapat mengidentifikasi shape atau bentuk karakter pada kata sebelum dengan shape atau bentuk karakter pada kata saat ini, misal terdapat kata “di Surabaya”. Kata “di”

170 teridentifikasi shape lower case dan kata “Surabaya” teridentifikasi shape upper case di awal kata dengan diikuti karakter lower case. Sehingga dapat mencirikan bahwa “Surabaya” merupakan lokasi. Selain itu, feature extractor juga dapat mengidentifikasi shape kata sesudah dengan shape kata saat ini. Jika terdapat nomor pada suatu alamat lokasi, akan teridentifikasi shape berupa digit. Sehingga dapat menangkap fenomena jika terdapat alamat yang diawali huruf besar dan diikuti dengan nomor angka, maka alamat tersebut dapat dikatakan sebagai lokasi. 3. C : useTypeSeqs2 Feature extractor mampu menangkap ciri-ciri shape lokasi dengan melihat shape kata sebelum dengan digabungkan shape kata saat ini serta kelas sebelum dan kelas saat ini. Misalkan “arah Malang” berarti dapat mencirikan dengan kata sebelum yang memiliki shape lower case dan label bukan lokasi serta shape upper case pada kata saat ini, maka mengindikasikan bahwa kata saat ini merupakan sebuah lokasi. 4. G : usePrev Feature extractor dapat menangkap fenomena ciri-ciri nama lokasi yang biasanya diawali dengan kata-kata seperti “di”, “ke”, “dari”, “depan”, maupun “asal”. 5. J : useSymWordPairs Ciri-ciri lokasi kata sebelum dan kata sesudah dapat diidentifikasi dengan feature extractor ini. Lokasi umumnya dijadikan sebagai kata keterangan. Maka, pada umumnya, katakata lokasi menjadi akhir pada suatu kalimat yang kemudian diakhiri dengan tanda baca. Tanda baca dapat dianggap sebagai sebuah token. Dengan menggunakan feature extractor ini, maka fenomena tersebut akan mudah ditangkap.

171 6. N : usePrevSequences Feature extractor ini dapat mengekstraksi fitur dengan memperhatikan kelas sebelum kata saat ini. Sehingga, dapat menangkap fenomena kata-kata lokasi yang berupa alamat yang cukup panjang. 7. O : useDisjShape Merupakan disjungsi bentuk karakter pada kata yang terdapat pada suatu kalimat dengan jarak 4 kata. Dengan adanya feature extractor ini, shape yang diperhatikan adalah shape 4 kata sebelum dan 4 kata sesudah. Fitur tersebut akan memperhatikan apakah suatu bentuk karakter dengan disjungsi sebelum dan sesudah tersebut akan mengindikasikan kelas kata saat ini. 8. P : useDisjunctive Merupakan disjungsi fitur-fitur dengan memperhatikan 4 kata sebelum dan 4 kata sesudah. Fitur tersebut akan memperhatikan apakah fitur yang terdapat pada disjungsi sebelum dan sesudah akan mengindikasikan kelas dari kata saat ini. 9. T : useNGrams Membentuk kata berdasarkan N-Gram-nya. Hal ini dapat menjadi feature extractor yang penting karena beberapa namanama lokasi terdapat kemiripan pola seperti “Stasiun Gubeng” dan “Stasiun Pasar Turi” yang memiliki nilai 2-gram yang sama yaitu “St” dari kata Stasiun. Sehingga, hal ini dapt mencirikan kata tersebut merupakan sebuah lokasi. 6.8.1.2. Fitur yang Hanya Terpilih Pada Metode Forward Selection Terdapat pula feature extractor yang hanya terpilih pada metode forward selection. Berikut justifikasi mengenai mengapa feature extractor tidak terpilih menjadi feature extractor yang dianggap paling penting:

172 1. D : useTypeySequences Feature extractor mampu menangkap shape, kelas sebelum dan kelas sesudah. Feature extractor ini sudah dapat dirangkum dengan feature extractor useTypeSeqs serta useTypeSeqs2. 2. V : noMidNGrams Feature extractor ini tidak mengikutkan huruf awal dan terakhir untuk N-Gram dari suatu kata. Padahal umumnya nama-nama lokasi memiliki kemiripan huruf pada awal kata. 3. R : strictlyFirstOrder Feature extractor memungkinkan menghapus feature extractor lain selain class fan CpC. Padahal feature extractor lain masih tetap dibutuhkan. 6.8.1.3. Fitur yang Hanya Terpilih Pada Metode Backward Elimination 1. H : useNext Penggunaan kata sesudah beserta kelas yang mengikutinya tidak terlalu dianggap penting karena label lokasi tidak cukup dengan memperhatikan kata sesudah. Kata lokasi lebih diindikasikan melalui kata sebelum. Selain itu, penggunaan kata sesudah juga sudah dirangkum pada feature extractor useSymWordPairs yang memperhatikan kata sebelum dan sesudah sekaligus. 2. U : maxNGramLeng=6 Penggunaan N-Gram yang panjang tidak dianggap menjadi feature extractor yang penting karena ciri-ciri kata lokasi yang mirip tidak sampai memiliki 6 N-Gram.

173 3. W : useGazettes Penggunaan gazette yang berisikan daftar kelas beserta kata-kata (pada penelitian ini adalah lokasi) tidak menggaransikan bahwa kata-kata pada gazette atau lexicon atau lookup-list selalu digunakan pada prediksi. Gazette tidak selalu dipilih untuk memprediksi. Gazette hanya menambah feature extractor lain pada model CRF train. Jika model yang dihasilkan memiliki weight yang lebih tinggi pada feature extractor lain, maka gazette juga tidak terlalu diperhatikan dalam melakukan prediksi. 4. X : cleanGazettes Feature extractor ini akan membuat pengecekan gazette secara utuh tidak terpisah kata satu dengan lainnya. Sedangkan pada penggunaan bahasa non formal, nama lokasi tidak disebutkan secara utuh. 6.8.1.4. Fitur yang Tidak Terpilih 1. E : maxLeft=1 Feature extractor akan membatasi jarak kata yang dilihat untuk memprediksikan sequence dengan hanya 1 left. Sedangkan default maxLeft=2 2. F : useWord Feature extractor yang menggunakan kata itu sendiri untuk mengindikasikan sebuah kelas tidak dianggap penting untuk digunakan karena terdapat kata-kata lokasi yang digunakan pada konteks bukan lokasi misalnya organisasi “Suara Surabaya”. Sehingga terkadang, kata “Surabaya” bisa berarti kata lokasi, tetapi tidak selalu. Sehingga, harus lebih banyak memperhatikan konteks kalimat di sekitarnya. Selain hal tersebut, penggunaan fitur kata saja dirasa tidak cukup karena diperlukan kombinasi fitur kata sebelum dan sesudah maupun kelas sebelum dan sesudah. Untuk itu,

174 kombinasi fitur ini sudah dirangkum dalam feature extractor usePrevSequences. 3. I : useWordPairs Penggunaan kata sebelum dan kata sesudah akan digunakan pada feature extractor, tetapi kata saat ini itu sendiri tidak banyak mencirikan bahwa ia merupakan sebuah lokasi. Sehingga cukup digunakan useSymWordPairs untuk memperhatikan kata sebelum dan sesudah serta kelas saat ini. 4. K : usePosition Posisi lokasi pada suatu kalimat tidak banyak mencirikan ia merupakan sebuah lokasi. Utamanya pada bahasa non formal, lokasi dapat diletakkan dengan tidak teratur. 5. L : useClassFeature Penggunaan fitur kelas pada suatu kata tidak terlalu diperhatikan karena sudah dirangkum pada hampir seluruh feature extractor lain. 6. M : useSequences Sequence dari kelas tidak dianggap sebagai feature extractor yang penting karena pada kasus ini kelas yang ada hanya kelas lokasi. 7. Q : disjunctionWidth=6 Jarak disjungsi kata untuk melihat shape ataupun kata itu sendiri terlampau jauh untuk mencirikan sebuah lokasi. Umumnya terdapat 3-4 kata sebelum ataupun sesudah. 8. S : useSum Tidak terdapat definisi yang komprehensif mengenai feature extractor ini berdasarkan dokumentasi library.

175 6.8.2. Kesalahan Prediksi Model Model yang dihasilkan pada kedua metode memiliki beberapa pola kesalahan prediksi. Berikut ini merupakan kesalahan yang terjadi pada prediksi oleh model: - Model tidak dapat memprediksi lokasi yang dipisahkan dengan tanda “-“ tanpa diberi white space - Model tidak dapat memprediksi kata lokasi yang diawali huruf kecil - Model tidak dapat memprediksikan lokasi yang diawali dengan kata ‘dititik’ - Kata yang diawali dengan kata ‘dan’ serta memiliki huruf kapital di awal kata diprediksikan sebagai lokasi, meskipun kata tersebut merupakan suatu organisasi - Kata-kata yang didahului dengan kata ‘di’ dan memiliki huruf kapital pada awal kata diprediksi sebagai lokasi - Tidak dapat memprediksi lokasi yang digunakan sebagai subjek Dari analisa kesalahan prediksi oleh model tersebut dapat diketahui bahwa penulisan kata lokasi yang tidak lazim lebih sulit untuk diprediksi karena prediksi didasarkan pada bobot fitur yang memperhatikan bentuk karakter kata serta konteks di sekitar kata. Selain hal tersebut, konteks penulisan nama organisasi dan orang yang mirip dengan nama lokasi dapat menyebabkan kesalahan prediksi. Untuk itu, penambahan label organisasi dan orang dapat dijadikan sebagai bahan penelitian selanjutnya. 6.8.3. Uji Statistik 2 Model Terbaik Independent Sample T-Test digunakan untuk membandingkan (membedakan) dua sampel, apakah sampel tersebut sama atau berbeda. Pada kasus ini hal yang dibandingkan adalah hasil performa model menggunakan metode forward selection dan backward elimination. Kegunaan Independent Sample T-Test ini untuk menguji kemampuan

176 generalisasi, yaitu signifikansi hasil penelitian yang berupa perbandingan dua rata-rata sampel. Sampel sendiri termasuk kategori sampel yang tidak berkorelasi alias independen. Sampel yang digunakan dalam pengujian adalah sampel pada performa F-Measure serta Time. Pada pengujian, model hasil forward selection dinyatakan sebagai model 1. Sedangkan model hasil backward elimination dinyatakan sebagai model 2. Berikut merupakan hasil pengujian T-Test. Pada performa model. 6.8.3.1. Uji Hipotesis Performa F-Measure Tabel 6.10 Nilai F-Measure Model Terbaik

MODEL (FMeasure) Model 1

METODE SELEKSI FORWARD BACKWARD SELECTION ELIMINATION 0.932 0.9338

Model 2

0.9481

0.9494

Model 3

0.9453

0.9474

Model 4

0.9347

0.9374

Model 5

0.9201

0.9205

F_AVG

0.93604

0.9377

0.011218199

0.011641735

F_STDEV

Pernyatan Hipotesis H0 : Performa F1 Model 1 = Performa F1 Model 2 HA : Performa F1 Model 1 ≠ Performa F1 Model 2 Penentuan Tingkat Signifikansi Tingkat Signifikansi merupakan probabilitas penolakan hipotesis nol ketika hipotesis tersebut benar. Pada kasus pengujian hipotesis ini dipilih tingkat signifikansi 𝛼 = 0.05

177 Pengujian Hasil pengujian dengan menggunakan tools Minitab dapat dilihat pada Gambar 6.59.

Gambar 6.59 Pengujian F-Measure 2 Sampel

Hasil pengujian menunjukkan bahwa P-Value sebesar 0.824 menghasilkan nilai lebih dari nilai α. Nilai tersebut menunjukkan bahwa tidak terdapat perbedaan nilai Mean yang signifikan antar dua sampel. Sehingga, hipotesis nol gagal tolak. 6.8.3.2. Uji Hipotesis Performa Time Tabel 6.11 Nilai Time Model Terbaik

MODEL (Time) Model 1

METODE SELEKSI FORWARD BACKWARD SELECTION ELIMINATION 68.39 74.24

Model 2

77.02

89.93

Model 3

80.18

77.97

Model 4

72.49

83.62

Model 5

75.12

108.59

T_AVG

74.64

86.87

4.479715393

13.5130622

T_STDEV

178 Pernyatan Hipotesis H0 : Performa Time Model 1 = Performa Time Model 2 HA : Performa Time Model 1 ≠ Performa Time Model 2 Penentuan Tingkat Signifikansi Tingkat Signifikansi merupakan probabilitas penolakan hipotesis nol ketika hipotesis tersebut benar. Pada kasus pengujian hipotesis ini dipilih tingkat signifikansi 𝛼 = 0.05 Pengujian Hasil pengujian dengan menggunakan tools Minitab dapat dilihat pada Gambar 6.60.

Gambar 6.60 Pengujian Time 2 Sampel

Hasil pengujian menunjukkan bahwa P-Value sebesar 0.091 menghasilkan nilai lebih dari nilai α. Nilai tersebut menunjukkan bahwa tidak terdapat perbedaan nilai Mean yang signifikan antar dua sampel. Sehingga, hipotesis nol gagal tolak.

179 6.8.3.3. Kesimpulan Pengujian Statistik 2 Sampel Hasil Pengujian Statistik 2 Sampel menunjukkan bahwa kedua pengujian menghasilkan hipotesis nol gagal tolak. Maka, dapat disimpulkan bahwa tidak terdapat perbedaan yang signifikan antara kedua model. Sehingga, untuk penggunaan model terbaik dapat dipilih di antara keduanya, mengingat bahwa tidak terdapat perbedaan yang berarti pada rata-rata hasil performa kedua model.


BAB VII KESIMPULAN DAN SARAN Pada bab ini dibahas mengenai kesimpulan dari semua proses yang telah dilakukan dan saran yang dapat diberikan untuk pengembangan yang lebih baik. Kesimpulan yang didapatkan dari proses pengerjaan tugas akhir yang telah dilakukan antara lain: 1. Penggunaan library tertentu untuk melakukan pemrosesan data dapat mempengaruhi tahapan apa saja yang perlu dilakukan pada praproses data. Berdasarkan hasil yang didapat, ditemukan bahwa terdapat tahapan praproses yang dirasa tidak banyak membantu yaitu praproses pada tahap labeling dengan program. Hasil labeling dengan program memiliki berbagai kesalahan yang menyebabkan adanya pekerjaan tambahan untuk mengecek kesalahan saat melakukan labeling manual sehingga kurang efisien. Maka, praproses yang berhubungan dengan labeling menggunakan program yaitu pemuatan data lokasi dan non lokasi serta tahap matching juga dirasa kurang penting. Adapun tahapan praproses yang dilakukan dengan pemuatan data teks, pembagian dataset, tokenizing serta labeling manual dirasa lebih penting untuk dilakukan. Dari hasil tersebut, dapat diketahui bahwa penggunaan matching kata-kata yang terdapat pada daftar nama lokasi saja tidak cukup untuk menentukan mana kata yang merupakan suatu lokasi pada suatu kalimat. Sehingga, untuk dapat menentukan kata yang merupakan suatu lokasi diperlukan modul NER yang dibuat pada penelitian ini. 2. Tahapan praproses labeling secara manual memerlukan konsistensi pelabelan karena persepsi mengenai label lokasi antar manusia bisa berbeda-beda. Oleh karena itu, pendefinisian secara komprehensif mengenai kata-kata apa saja yang perlu diberikan label berupa lokasi perlu dilakukan. 181

182 3. Gazzette atau lookup-list atau lexicon bahasa Indoensia merupakan daftar nama-nama lokasi yang dianggap dapat meningkatkan performa pengujian. Ternyata pada penelitian ini ditemukan bahwa penggunaan lexicon tidak dapat meningkatkan performa secara signifikan karena penentuan lokasi lebih banyak dilihat dari konteks yang ada di sekitar kata, bukan kata itu sendiri. Berdasarkan pemrosesan data, terdapat 2 model terbaik dari hasil 2 skenario yang berbeda. Model terbaik dari skenario forward selection menghasilkan rata-rata F-Measure sebesar 0.93604. Sedangkan model terbaik berdasarkan skenario backward elimination menghasilkan rata-rata FMeasure 0.9377. 4. Berdasarkan pemrosesan data, terdapat 2 model terbaik dari hasil 2 skenario yang berbeda. Model terbaik dari skenario forward selection menghasilkan rata-rata F-Measure sebesar 0.93604 dengan rata-rata waktu pemrosesan 74.64 detik. Sedangkan model terbaik berdasarkan skenario backward elimination menghasilkan rata-rata F-Measure 0.9377 dengan rata-rata waktu pemrosesan 88.706 detik. Dengan menggunakan uji statistik 2 sampel, hasil kedua model tidak memiliki perbedaan yang signifikan sehingga dapat dipilih diantara keduanya. 5. Terdapat fitur-fitur yang dianggap penting untuk mencirikan kata adalah suatu lokasi. Fitur-fitur tersebut diekstraksi oleh 9 feautre extractor, antara lain: a. wordShape=jenny1 b. useTypeSeqs c. useTypeSeqs2 d. usePrev e. useSymWordPairs f. usePrevSequences g. useDisjShape h. useDisjunctive i. useNGrams

183 6. Kesalahan yang dihasilkan model terbaik menunjukkan bahwa penulisan kata-kata lokasi yang tidak umum seperti penggunaan huruf kecil pada awal kata dan penggunaan tanda pemisah “-” tanpa pemberian tanda spasi, masih belum dapat diprediksi seluruhnya. Selain itu juga masih terdapat prediksi yang salah terhadap nama organisasi yang digunakan sebagai kata keterangan karena pada konteks tersebut nama organisasi memiliki ciri yang sama seperti nama lokasi.

Dari pengerjaan tugas akhir ini, adapun beberapa saran untuk pengembangan penelitian ke depan. Dalam melakukan eksplorasi fitur-fitur dengan feature extractor, masih terdapat banyak feature extractor dari library yang belum diujicobakan dalam percobaan. Untuk itu, pada pengembangan berikutnya, perlu melakukan eksplorasi kembali dengan menambah feature extractor di luar penelitian ini. Selain itu, pemilihan dataset pada penelitian ini didasarkan pada status facebook fanpage yang menggunakan kebahasaan berita radio. Pada pengembangannya, dapat diujicobakan dataset dari akun penyedia berita radio lain ataupun dataset yang diambil dari komentar pada status facebook fanpage yang dirasa lebih banyak menggunakan karakteristik kebahasaan informal dan sehari-hari. Untuk pengembangan yang lebih baik lagi, eksplorasi pelabelan lain seperti label organisasi maupun orang juga dapat dilakukan karena dirasa dapat menanggulangi kesalahan prediksi yang dilakukan oleh model dengan pelabelan lokasi saja.


DAFTAR PUSTAKA [1] Kementrian Komunikasi dan Informatika, "Kominfo : Pengguna Internet di Indonesia 63 Juta Orang," 07 11 2013. [Online]. Available: https://kominfo.go.id/. [Accessed 28 5 2016]. [2] Y. Herlanti, Blogquest+: Pemanfaatan media sosial pada pembelajaran sains berbasis isu sosiosaintifik untuk mengembangkan keterampilan berargumentasi dan literasi sains, Bandung: Pendidikan IPA SPs Universitas Pendidikan Indonesia, 2014. [3] D. Nouvel, M. Ehrmann and S. Rosset, Named Entities for Computational Linguistics, London, UK dan Hoboken, NJ, USA: John Wiley & Sons, 2016. [4] A. S. Wibawa and A. Purwarianti, "Indonesian Namedentity Recognition for 15 Classes Using," in 5th Workshop on Spoken Language Technology for Under-resourced Languages, Yogyakarta, Indonesia, 2016. [5] I. Budi, S. Bressan, G. Wahyudi and Z. A. Hasibuan, "Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach," in 8th International Conference, DS, Singapore, 2005. [6] R. A. Leonandya, B. Distiawan and N. H. Praptono, "A Semi-Supervised Algorithm for Indonesian Named Entity Recognition," in 3rd International Symposium on Computational and Business Intelligence, Bali, Indonesia, 2015. [7] L. Wake, NLP: Principles in Practice, St Albans: Ecademy Press, 2010. [8] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglo and P. Kuksa, "Natural Language 185

186

[9]

[10

[11 [12

[13

[14

[15

[16

[17

Processing (Almost) from Scratch," Machine Learning Research 12, pp. 2493-2537, 2011. Microsoft Azure, "Named Entity Recognition," 25 Desember 2015. [Online]. Available: https://msdn.microsoft.com/enus/library/azure/dn905955.aspx. [Accessed 6 Oktober 2016]. J. Lafferty, A. McCallum and F. C. Pereira, "Conditional ] Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," 18th International Conference on Machine Learning, 2001. Carnegie Mellon University, Conditional Random Fields ] for Activity Recognition, Pittsburgh: ProQuest, 2008. J. D. Kelleher, B. M. Namee and A. D'Arcy, ] Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies, London, England: MIT Press, 2015. J. Gosling, B. Joy, G. Steele, G. Bracha and A. Buckley, ] Java (R) Language Spesificaiton, California: Oracle America, 2015. The Stanford NLP Group, "About Stanford NLP Group," ] [Online]. Available: http://nlp.stanford.edu/software/CRF-NER.shtml#. [Accessed 19 Oktober 2016]. Open Street Map, "About OpenStreetMap," 31 Maret ] 2016. [Online]. Available: http://wiki.openstreetmap.org/wiki/About_OpenStre etMap. [Accessed 7 Januari 2017]. Mapzen, "Documentation Metro Extracts," [Online]. ] Available: https://mapzen.com/documentation/metro-extracts/. [Accessed 1 Januari 2017]. The Wall Street Journal (Jones, Dow), "Facebook Tops ] Billion-User Mark," 4 Oktober 2012. [Online]. [Accessed 6 Oktober 2016].

187 [18 M. Hasan Basri, "Identifikasi Topik Informasi Publik ] Media Sosial di Kota Surabaya Berdasarkan Klasterisasi Teks pada Twitter dengan Menggunakan Algoritma K-Means," Surabaya, 2016. [19 S. Priansya, Oktober 2016. ] [20 The Stanford Natural Language Processing Group, ] "About Stanford Tokenizer," [Online]. Available: http://nlp.stanford.edu/software/tokenizer.shtml. [Accessed 16 December 2016].


BIODATA PENULIS Penulis lahir di Kediri pada tanggal 17 Februari 1996. Merupakan anak ketiga dari 3 bersaudara. Penulis telah menempuh beberapa pendidikan formal yaitu; SDS Pawyatan Daha 2 Kediri, SMP Negeri 1 Kediri, dan SMA Negeri 1 Kediri. Pada tahun 2013 pasca kelulusan SMA, penulis melanjutkan pendidikan dengan jalur SBMPTN (Tulis) di Jurusan Sistem Informasi FTIf – Institut Teknologi Sepuluh Nopember (ITS) Surabaya dan terdaftar sebagai mahasiswa dengan NRP 5213100098. Selama menjadi mahasiswa, penulis mengikuti berbagai kegiatan kemahasiswaan seperti beberapa kepanitiaan serta pernah menjabat sebagai Sekretaris 2 Paduan Suara Mahasiswa ITS pada tahun kedua serta menjabat sebagai Sekretaris Eksternal Badan Eksekutif Mahasiswa Fakultas Teknologi Informasi ITS pada tahun ketiga. Selain iut, kegiatan seperti Latihan Ketrampilan Manajemen Mahasiswa pun pernah diikuti hingga Tingkat Menengah. Di bidang akademik, penulis aktif menjadi asisten dosen dan asisten praktikum pada beberapa mata kuliah seperti Desain dan Manajemen Jaringan dan Desain Basis Data. Selain itu, pada tahun 2016 penulis menjadi salah satu delegasi ITS dalam kegiatan kemahasiswaan yaitu Magang Ormawa untuk melakukan kunjungan pada Mahidol University di Thailand . Pada tahun keempat, karena penulis memiliki ketertarikan di bidang pengolahan data, maka penulis mengambil bidang minat Akuisisi Data dan Diseminasi Informasi (ADDI). Penulis dapat dihubungi melalui email di [email protected].

189


LAMPIRAN A Contoh Data Mentah Status Facebook E100 Suara Surabaya

fb_id

message

story

227268729878_ 1015388461919 4879

Muktamar NU rumuskan konsep Islam Nusantara, Islam yang Tanpa Pentungan. Inilah konsep Islam tanpa kekerasan itu. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=2rd5iab0l0skf1u7a4ru2jflp32015156524 Guyonan Gus Ipul, Pakde Karwo dan Jokowi di Muktamar NU. (odp-fk) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=2rd5iab0l0skf1u7a4ru2jflp32015156523 Sebanyak 94 TKI ilegal Dideportasi Malaysia. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515651 7

E100 with Naira Purnomo.

created _time 8/1/201 5 23:41

E100 with Naira Purnomo.

8/1/201 5 23:27

NULL

8/1/201 5 22:10

227268729878_ 1015388458973 9879 227268729878_ 1015388437259 4879

A-1

A-2 fb_id

message

story

227268729878_ 1015388437273 9879

Datang ke Muktamar, Jokowi Bagikan Kaos dan Kartu Indonesia Pintar. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515651 2 21.45 : Hindari masuk Jombang Kota! Lalu lintas MACET TOTAL. Imas kegiatan Muktamar NU. Sebaiknya gunakan jalur Ploso - Gedeg saja, Kawan. (odp-rt) Foto almarhum KH Abdurrahman Wahid alis Gus Dur sedang membuka amplop berisi uang Rp5.000 menjadi pusat perhatian pengunjung pameran foto yang digelar jelang Muktamar NU. Foto : Fatkhurrohman Taufik Reporter Suara Surabaya (odp-rt) http://m.suarasurabaya.net/fokus/detail.php?id= ik878thocermn5g8a7r6es01082015156501&fo kusid=613

NULL

227268729878_ 1015388436025 9879 227268729878_ 1015388431283 9879

created _time 8/1/201 5 21:55

NULL

8/1/201 5 21:46

E100 with Imam De Iwes and Naira Purnomo.

8/1/201 5 21:16

fb_id

message

story

227268729878_ 1015388429817 4879

21.00 : 4 Jalur MACET : 1.Simpang 3 Lakasantri; 2.Depan Stasiun Wonokromo. Imbas banyak taksi berhenti; 3.Singosari - Malang; 4.Jombang - Ploso. Imbas pembukaan muktamar NU ke 33. (odp-rt) 20.50 : Hindari masuk JL Kalidami! JL Kalidami - Unair Kampus B ada bazar. Lalu lintas MACET karena jalur yang dari arah Karang Menjangan digunakan jadi 2 lajur. (odp-rt) Masih Ada Pilkada Paslon Tunggal, Tahapan Pilkada Lanjut Terus. (odp-rt) http://m.suarasurabaya.net/politik/detail.php?id =ik878thocermn5g8a7r6esbdr72015156515 #SSinfo : Unjuk rasa ribuan karyawan Migas Blok Cepu Bojonegoro ricuh, Sabtu (1/8/2015). Nana reporter Radio Suara Bojonegoro Indah

NULL

227268729878_ 1015388428108 9879

227268729878_ 1015388425070 9879 227268729878_ 1015388423653 9879

A-3

created _time 8/1/201 5 21:04

NULL

8/1/201 5 20:51

NULL

8/1/201 5 20:34

E100 added 2 new photos.

8/1/201 5 20:22

A-4 fb_id

227268729878_ 1015388417919 9879

message melaporkan ribuan massa merusak kantor dan pos security. Empat Mobil digulingkan dan satu mobil dibakar. Unjuk rasa menuntut dibukanya kembali lima pintu utama masuk dan keluar karyawan. Saat ini, hanya satu pintu yang digunakan. Jadi karyawan harus berdesakdesakan untuk keluar,masuk dan istirahat. Tidak adanya jawaban dari pihak perusahaan memicu timbulnya kericuhan. Imbas kejadian ini, kegiatan diperusahaan diliburkan sampai batas waktu yang tidak bisa ditentukan. Foto : Dokumentasi Radio Suara Bojonegoro Indah. (odp-rt) 19.53 : Info awal : Kecelakaan di jelang FO Peterongan Jombang antara mobil dengan sepeda motor. Lalu lintas MACET. Belum ada polisi dilokasi. (odp-rt)

story

created _time

NULL

8/1/201 5 19:54

fb_id

message

story

227268729878_ 1015388412359 4879 227268729878_ 1015388408745 9879

19.38 : Jalur luar kota MACET : 1.Balong Bendo - Mojokerto; 2.Peterongan Jombang - Surabaya. (odp-rt) 19.15 : 3 Jalur MACET malam ini: 1.Jembatan Karangpilang Baru dan lama Sepanjang; 2.Kletek - Krian. Ada pick up mogok didepan SPBU Kletek; 3.Mojoagung. (odp-rt) 18.53 : Info awal : Kebakaran lahan kosong di depan Lenmarc. Api membesar. PMK sudah menuju lokasi. Foto : Enig Mia via e100. (odprt) 18.45 : Adzan Isya telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat Isya, Kawan. (Odprt)

NULL

227268729878_ 1015388404520 9879 227268729878_ 1015388404728 9879

A-5

created _time 8/1/201 5 19:40

NULL

8/1/201 5 19:15

NULL

8/1/201 5 18:54

NULL

8/1/201 5 18:46

A-6 fb_id

message

story

227268729878_ 1015388401647 9879

Suwarno, (50) seorang pemulung warga Bratang Gede, menemukan jenazah bayi di sungai Jagir, Jalan Jagir, Wonokromo, Surabaya, Sabtu (1/8/2015). (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515650 2 18.03 : 3 jalur MACET : 1.Simpang 4 Balongsari. Volume kendaraan tinggi; 2.Sukorejo - Purwosari; 3.Jombang - Nganjuk. (odp-rt) 17.52 : Hindari lewat JL Karang Menjangan! Lalu lintas MACET karena ada bazar. Gunakan jalur lain, Kawan. Foto : Aditya Surya Nata via @e100ss. (odp-rt) 17.40 : Update : Kondisi kijang innova L 1581 JV yang naik ke trotoar dan menabrak sepeda motor di JL Kendangsari - Rungkut. Kondisi

NULL

227268729878_ 1015388399882 9879

227268729878_ 1015388398192 4879 227268729878_ 1015388395866 4879

created _time 8/1/201 5 18:17

NULL

8/1/201 5 18:05

NULL

8/1/201 5 17:53

NULL

8/1/201 5 17:40

fb_id

227268729878_ 1015388395998 9879 227268729878_ 1015388394043 4879 227268729878_ 1015388388615 9879

227268729878_ 1015388384151 4879

message pengendara sepeda motor belum diketahui. Foto : Petrus Budi Riyanto via e100. (odp-rt) 17.33 : Adzan maghrib telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat maghrib Kawan. (Odp-rt) KPU RI: Penundaan Pilkada Karena Perilaku Politik Elit Parpol. (odp-rt) http://m.suarasurabaya.net/politik/detail.php?id =ik878thocermn5g8a7r6esbdr72015156504 16.46 : Info awal : Kecelakaan di JL Kendangsari depan Kantor PDIP - Rungkut. Ada Mobil honda CRV naik ke trotoar dan infonya, kendaraan juga menabrak sepeda motor. Belum ada data kendaraan dan kronologi lengkap kejadian. (odp-rt) 16.35 : Purwosari-Malang MACET. Imbas ada trailler muat kepala pesawat yang berjalan pelan. Foto : Irul via e100. (odp-rt)

A-7

story

created _time

NULL

8/1/201 5 17:33

NULL

8/1/201 5 17:17

NULL

8/1/201 5 16:47

E100 with Yoga Faris and Fatah.

8/1/201 5 16:35

A-8 fb_id

message

story

227268729878_ 1015388382656 4879

16.20 : Jalur-jalur MACET sore ini : 1.JL Mastrip-Karang Pilang MACET TOTAL. Imbas jalur Legundi ditutup; 2.Sepanjang - Kletek; 3.Brangkal - Mojokerto. Imbas jalur Bypass ditutup, diduga ada rombongan RI 1 yang menuju Jombang; 4.Beji - Pasuruan setelah Pasar Gondang MACET. (odp-rt) Seorang penjual es tebu menemukan uang segepok yang terjatuh di dekat gerobaknya saat berjualan di kawasan Jl. Demak Surabaya, Jumat (31/7/2015) siang. Hingga, siang ini pemilik uang belum ditemukan. Jika sampai waktu lama tidak juga ada yang mengambil uang itu, rencananya akan disumbangkan ke Masjid dekat rumahnya. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph

NULL

227268729878_ 1015388379961 4879

NULL

created _time 8/1/201 5 16:22

8/1/201 5 16:08

fb_id

227268729878_ 1015388377920 4879

227268729878_ 1015388375445 9879

227268729878_ 1015388373829 4879

message p?id=ik878thocermn5g8a7r6esbdr7201515650 0 15.50 : Bundaran Waru MACET TOTAL SEGALA ARAH. Imbasnya masuk dan keluar tol Waru juga terhambat. Ekor dari arah Sidoarjo sudah sampai U-turn depan RS Mitra Keluarga Waru. Foto : Denny Setiyono via e100. (odp-rt) 15.34 : Info awal :Grand Max muat karung terguling di Tol Sidoarjo - Porong KM 36, posisi dilajur kanan. Lalu lintas masih belum terdampak. Foto : Hendarto Hutama via @e100ss. (odp-rt) 15.15 : Update : Kebakaran sampah limbah plastik milik PT Philips Indonesia Rungkut. Duta Komandan Pleton 4 PMK Rungkut menjelaskan, lokasi yang terbakar adalah area terbuka dan api tidak sampai menjalar ke bangunan pabrik. 3 Unit PMK diturunkan

A-9

story

created _time

NULL

8/1/201 5 15:52

NULL

8/1/201 5 15:36

NULL

8/1/201 5 15:17

A-10 fb_id

227268729878_ 1015388372337 4879

227268729878_ 1015388371667 4879 227268729878_ 1015388370158 9879

message untuk mengatasi kebakaran ini. Api cepat dikuasai karena pabrik juga memiliki sistem hidran yang bagus. (odp-rt) Muktamar NU akan Bahas BPJS yang Kontroversi. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515649 5 14.49 : Adzan ashar telah berkumandang untuk wilayah Surabaya dan sekitarnya. Selamat menunaikan ibadah sholat ashar, Kawan. (odprt) 14.42 : Rangkuman Jalur MACET : 1.Warugunung - Karangpilang - Sepanjang. Imbas jalur Legundi-Wringin Anom ditutup. Foto : Amung Putra via e100' 2.Lidah - Wiyung; 3.HR Muhammad - Mayjend Sungkono; 4.Manukan - Lempung Tama - Balongsari;

story

created _time

NULL

8/1/201 5 15:08

NULL

8/1/201 5 15:00


8/1/201 5 14:45

fb_id

227268729878_ 1015388369040 4879

227268729878_ 1015388366736 4879

227268729878_ 1015388365816 9879

message

story

5.Sebelum Simpang 4 Karang Lo Malang. Foto : Rufinus via e100; 6.Depan Ponpes Tebu Ireng Jombang. Imbas acara Muktamar NU. Foto : Joki via e100 (odprt) Kemarau, Kebakaran Alang-Alang Terjadi di NULL Beberapa Lokasi. (odp-rt) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=ik878thocermn5g8a7r6esbdr7201515648 9 14.12: Update #kebakaran di Brebek. Bangunan NULL yang terbakar berupa Pabrik Philips, di Jl Brebek Industri 5. Api sudah mulai mengecil, asap juga sudah mulai berkurang. Sudah ada petugas PMK d lokasi. Foto: Poendra via e100. (odp-pr) 14.00: Info #kebakaran di dekat PMK Rungkut, NULL ada pabrik yang terbakar. Lokasi ada di Brebek 1 depan Tjokro dekat Philip. Sudah ada 3 unit

A-11

created _time

8/1/201 5 14:32

8/1/201 5 14:11

8/1/201 5 13:59

A-12 fb_id

227268729878_ 1015388365532 4879

227268729878_ 1015388363932 4879

227268729878_ 1015388360424 4879

message PMK yang meluncur ke lokasi. Data dan kronologi masih belum diketahui. (odp-pr) 13.57: Info awal #kecelakaan di depan RS Orthopedi Citraland. Grand Livina warna abuabu dengan Pick Up warna hitam. Posisi Pick Up melintang. Data dan kronologi belum diketahui. Info sudah diteruskan ke petugas. Foto: Donnie O via e100. (odp-pr) 13.43: 4 jalur ini padat cenderung Macet. 1. Rolak - Kalijaten padat. 2. Jembatan Sepanjang - Bukit Bambe Macet. 3. Simpang 3 TL Lakarsantri - Menganti padat. 4. Lidah Kulon - Simpang 3 Unesa Macet. (odp-pr) 13.16: Waspada #kebakaran ilalang di Tol KM 20 Waru arah Sidoarjo. Asap sedikit menganggu pendangan pengguna jalan. Info sudah diteruskan ke petugas. Foto: Anjar via e100. (odp-pr)

story

created _time

NULL

8/1/201 5 13:56

NULL

8/1/201 5 13:41

NULL

8/1/201 5 13:15

fb_id

message

story

227268729878_ 1015388359058 4879

13.04: Info awal #penemuan jenazah bayi di dekat Kali Jagir. Sudah ada Satpol PP di lokasi. Lalu lintas padat karena banyak kendaraan yg mengurangi kecepatan untuk melihat. Foto: Sumarno via e100. (odp-pr) Malam Ini, Muktamar NU Siap Dibuka Jokowi Foto: Fatkhurohman Taufik - Reporter Suara Surabaya (odp-pr) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=aaqvvpqisq9baqleg3e89lg6302015156488 12.40: Hati-hati,kawan. Di Interchange turun Tol Waru ada mobil mogok. Posisi di lajur tengah. Foto: Santoso via @e100ss. (odp-pr) 12.15: Waspadai kepadatan di jalur-jalur ini,kawan. 1. Simpang 4 Babatan masih MACET. 2. Lenmarc arah HR Muhammad padat. 3. Singosari arah Malang padat. Foto: Ghifary via @e100ss.

NULL

227268729878_ 1015388357141 9879

227268729878_ 1015388356718 9879 227268729878_ 1015388353271 4879

A-13

created _time 8/1/201 5 13:03

E100 with Naira Purnomo and Yudhistira Ar Rachman.

8/1/201 5 12:46

NULL

8/1/201 5 12:41

NULL

8/1/201 5 12:16

A-14 fb_id

227268729878_ 1015388351524 9879

227268729878_ 1015388348870 9879 227268729878_ 1015388347590 9879

message 4. Manukan arah Balongsari padat. 5. Dupak arah PGS padat. 6. Waru arah Trosobo padat. (odp-pr) 11.53: Update #kebakaran ilalang di sebelah barat Terminal Benowo. Ada 4 unit mobil PMK dari Kandangan, Pakal, dan Lakarsantri. Saat ini sedang melakukan pemadaman api yang cukup besar. Lalu lintas di sekitar lokasi padat. Foto: F Lopez via e100. (odp-pr) 11.39: Kumandang adzan Dzuhur sudah terdengar di Surabaya dan sekitarnya. Selamat menunaikan ibadah shalat Dzuhur, Kawan. (odp-pr) 11.29: Info #kecelakaan, kejadian sekitar pukul 11.15,Truk Terguling di Jl Ngagel Bagong Ginayan. Tidak ada korban. Saat ini ada forklift yang berusaha mengevakuasi Truk dibantu oleh warga. Lalu lintas Macet. Belum ada petugas di lokasi. Foto: Warkoppitulikur (odp-pr)

story

created _time

E100 with Yudhistira Ar Rachman.

8/1/201 5 11:52

NULL

8/1/201 5 11:38

NULL

8/1/201 5 11:27

fb_id

message

story

227268729878_ 1015388346603 4879

11.19: Info awal #kebakaran ilalang di sebalah barat Terminal Benowo. Api cukup besar. Di dekat ilalang yg terbakar banyak lapak milik pedagang. Info sudah diteruskan ke petugas PMK. (odp-pr) 11.08: 4 Jalur ini padat. 1. Wiyung 2 arah Macet. Foto: Priyo via e100. 2. Simpang 4 Babatan masih Macet. 3. Manukan Lor arah Margomulyo, depan Bibis 1 ada Truk Kontainer yang Mogok. Posisi Truk di lajur kiri. Lalu lintas Macet. 4. Pendem, Junrejo arah Batu Macet. (odp-pr) Gunung Manam Meletus, Bandara Merauke Ditutup (odp-pr) http://m.suarasurabaya.net/kelanakota/detail.ph p?id=aaqvvpqisq9baqleg3e89lg6302015156483 10.49: 2 Jalur ini padat. 1. Simpang 4 Babatan Macet. Dari arah Unesa,

NULL

227268729878_ 1015388345735 4879

227268729878_ 1015388344582 4879 227268729878_ 1015388343591 4879

A-15

created _time 8/1/201 5 11:18

NULL

8/1/201 5 11:09

NULL

8/1/201 5 11:03

NULL

8/1/201 5 10:49

A-16 fb_id

227268729878_ 1015388340507 4879

227268729878_ 1015388339279 4879

message ekor antrean sampai di Danau. 2. Flyover Arjosari arah Malang padat. (odp-pr) 10.23: Waspadai kepadatan di jalur-jalur ini, kawan. 1. Depan Ponpes Tebu Ireng padat. Foto: Rahman via e100. 2. Abdul Karim Rungkut arah Juanda Macet. Ekor antrean sampai di Rungkut Mapan. 3. Bundaran Aloha arah Surabaya padat. Foto: Santoso via @e100ss. 4. Segoromadu Gresik arah Surabaya ada Truk Mogok di lajur kanan. Lalu lintas padat. Antrean sampai Semen Gresik. (odp-pr) #InspirasiSolusi Ikuti talkshow Inspirasi Solusi Sabtu (1/8/2015) pukul 10.00 - 11.00 WIB dengan topik "Mengidentifikasi dan Mengatasi Resiko Usaha" bersama narasumber DR Tri Siwi - Dosen UMKM dan Kewirausahaan Prodi Manajemen FEB Unair, dipandu penyiar Isa

story

created _time


8/1/201 5 10:23

NULL

8/1/201 5 10:10

fb_id

message

story

Anshori. Kawan bisa bergabung di 0315600000. (odp-wd)

A-17

created _time

A-18 Halaman ini sengaja dikosongkan

LAMPIRAN B Contoh Dataset Hasil Praproses 17.03 Kumandang adzan Maghrib sudah terdengar di Surabaya dan sekitarnya . Selamat menunaikan ibadah shalat Maghrib , Kawan . #SStoday Pembongkaran Median Jalan di Kejapanan AKP Hendro Gunawan Kasatlantas B-1

O O O O O O O LOC O O O O O O O O O O O O O O O O LOC O O O O

B-2 Polres Kabupaten Pasuruan menjelaskan , saat ini lalu lintas dilokasi sudah lancar , ada polisi yang berjaga dilokasi . Besok Tim Polres Pasuruan akan berkoordinasi dengan Dishub untuk mengoperasikan TL sementara

O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

B-3 , Balai Besar V dan stakeholder terkait untuk penertiban pasar -LRBBakesbanglinmas , Satpol PP -RRB. Warga yang membongkar paksa pembatas jalan ini , karena mengeluh pasar disekitar lokasi sepi

O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

B-4 . 13.04 Info awal #penemuan jenazah bayi di dekat Kali Jagir . Sudah ada Satpol PP di lokasi . Lalu lintas padat karena banyak kendaraan yg mengurangi kecepatan untuk melihat .

O O O O O O O O O LOC LOC O O O O O O O O O O O O O O O O O O O O

B-5 Foto Sumarno via e100 . 15.28 2 Jalur ini padat . 1 . PGS arah Dupak , padat mulai depan Dupak Grosir . 2 . Sukorejo arah Malang masih padat imbas

O O O O O O O O O O O O O LOC O LOC O O O O LOC LOC O O O LOC O LOC O O O

B-6 dilakukannya kontraflow untuk menghindari Truk yang mengalami patah as . 7.57 Jalur Surabaya Malang 2 arah masih padat imbas Truk terguling di depan Wisma Bukit Sentul -LRBdekat SPBU -RRB-

O O O O O O O O O O O O LOC O LOC O O O O O O O O O LOC LOC LOC O O LOC O

B-7 . Saat ini Crane yang digunakan untuk mengevakuasi Truk sudah ada di lokasi .

O O O O O O O O O O O O O O

B-8 Halaman ini sengaja dikosongkan

LAMPIRAN C Hasil Percobaan A. wordShape Selection Uji F-Measure Kode WordShape

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

A1

dan1

F-Measure

0.6941

0.7222

0.6895

0.6985

0.7007

0.701

0.012605951

A2

chris1

F-Measure

0.7103

0.7366

0.7018

0.71

0.7176

0.71526

0.0131749

A10

chris2useLC

F-Measure

0.711

0.7418

0.7058

0.714

0.7199

0.7185

0.013987852

A9

chris2

F-Measure

0.711

0.7418

0.7058

0.714

0.7199

0.7185

0.013987852

A13

chris4

F-Measure

0.7119

0.7399

0.7061

0.7142

0.7205

0.71852

0.013016989

A4

dan2useLC

F-Measure

0.7146

0.738

0.7053

0.7143

0.7204

0.71852

0.012154711

A3

dan2

F-Measure

0.7146

0.738

0.7053

0.7143

0.7204

0.71852

0.012154711

A5

dan2bio

F-Measure

0.7146

0.7384

0.7054

0.7143

0.7204

0.71862

0.012288287

A6

dan2bioUseLC

F-Measure

0.7146

0.7384

0.7054

0.7143

0.7204

0.71862

0.012288287

A12

chris3useLC

F-Measure

0.7127

0.7387

0.7054

0.7148

0.7216

0.71864

0.012614397

A11

chris3

F-Measure

0.7127

0.7387

0.7054

0.7148

0.7216

0.71864

0.012614397

A8

jenny1useLC

F-Measure

0.7146

0.738

0.7055

0.7145

0.7206

0.71864

0.01209103

A7

jenny1

F-Measure

0.7146

0.738

0.7055

0.7145

0.7206

0.71864

0.01209103

C-1

C-2 Uji Time Kode

WordShape

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

A1

dan1

Time

7.64

9.25

7.83

6.78

7.3

7.76

0.923498782

A2

chris1

Time

6.77

6.81

6.89

6.62

7.09

6.836

0.172568827

A10

chris2useLC

Time

7.16

7.94

8.28

7.64

8.17

7.838

0.45135352

A9

chris2

Time

7.06

7.8

7.81

7.34

7.95

7.592

0.375992021

A13

chris4

Time

8.75

7.97

7.64

6.81

7.27

7.688

0.734043595

A4

dan2useLC

Time

7.95

6.92

7.63

7.23

7.36

7.418

0.392007653

A3

dan2

Time

7.88

6.81

7.45

6.89

6.91

7.188

0.462731023

A5

dan2bio

Time

7.38

7.08

7.38

7.16

6.75

7.15

0.260192237

A6

dan2bioUseLC

Time

7.41

7.06

7.14

7.02

6.67

7.06

0.265800677

A12

chris3useLC

Time

7.56

6.31

7.33

7.11

7.02

7.066

0.471518823

A11

chris3

Time

7.56

6.31

7.39

7.08

6.94

7.056

0.483766473

A8

jenny1useLC

Time

7.23

6.45

6.97

6.23

6.47

6.67

0.414004831

A7

jenny1

Time

7.27

6.47

6.95

6.17

6.25

6.622

0.472567456

B. maxNGramLeng Selection Uji F-Measure Kode U1 U2 U3 U4

maxNGramLeng maxNGramLeng=1 maxNGramLeng=2 maxNGramLeng=3 maxNGramLeng=4

Uji F-Measure F-Measure F-Measure F-Measure

Model 1 0.7346 0.7327 0.7421 0.7475

Model 2 0.7534 0.7558 0.7648 0.7706

Model 3 0.731 0.7378 0.7486 0.7535

Model 4 0.7326 0.7345 0.7457 0.7518

Model 5 0.7379 0.7462 0.7611 0.7622

F_AVG 0.7379 0.7414 0.75246 0.75712

F_STDEV 0.009039358 0.009574184 0.009935442 0.009239426

U5 U6 U7

maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7

F-Measure F-Measure F-Measure

0.7493 0.7515 0.7517

0.7721 0.7735 0.7734

0.7537 0.7575 0.754

0.7523 0.7516 0.7527

0.7649 0.7649 0.7651

0.75846 0.7598 0.75938

0.009644066 0.009422314 0.009510888

Uji Time Kode U1 U2

maxNGramLeng maxNGramLeng=1 maxNGramLeng=2

Uji Time Time

Model 1 16.48 21.08

Model 2 10.89 21.89

Model 3 10.17 23.06

Model 4 8.4 24.04

Model 5 8.66 22.91

T_AVG 10.92 22.596

T_STDEV 3.276240223 1.139706102

U3 U4 U5 U6 U7

maxNGramLeng=3 maxNGramLeng=4 maxNGramLeng=5 maxNGramLeng=6 maxNGramLeng=7

Time Time Time Time Time

31.17 41.12 47.6 114.34 95.72

32.69 40.74 70.11 75.3 115.56

62.87 37.81 60.3 73 103.41

32.45 38.22 62.04 92.35 122.07

30.91 41.24 64.89 63.11 98.85

38.018 39.826 60.988 83.62 107.122

13.91429912 1.669784417 8.355463482 20.14074353 11.25669889

C-3

C-4 C. Forward Selection Feature Extractor 1. Model 1 Feature Uji F-Measure Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

O

useDisjShape

F-Measure

0.6758

0.6944

0.672

0.682

0.6775

0.68034

0.008641065

L

useClassFeature

F-Measure

0.6758

0.6944

0.672

0.682

0.6775

0.68034

0.008641065

K

usePosition

F-Measure

0.6809

0.6988

0.6879

0.687

0.6897

0.68886

0.006466297

A

wordShape=jenny1

F-Measure

0.7146

0.738

0.7055

0.7145

0.7206

0.71864

0.01209103

F

useWord

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

W

useGazettes

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

T

useNGrams

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

R

strictlyFirstOrder

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

N

usePrevSequences

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

C

useTypeSeqs2

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

M

useSequences

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

B

useTypeSeqs

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

S

useSum

F-Measure

0.7346

0.7534

0.731

0.7326

0.7379

0.7379

0.009039358

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

E

maxLeft=1

F-Measure

0.735

0.7534

0.731

0.7326

0.7379

0.73798

0.009004554

X

cleanGazette

F-Measure

0.7435

0.7614

0.7379

0.7387

0.7442

0.74514

0.009511204

V

noMidNGrams

F-Measure

0.7502

0.7719

0.7523

0.7497

0.7637

0.75756

0.009835548

U

maxNGramLeng=6

F-Measure

0.7515

0.7735

0.7575

0.7516

0.7649

0.7598

0.009422314

H

useNext

F-Measure

0.7521

0.7785

0.7726

0.7557

0.7504

0.76186

0.012813782

J

useSymWordPairs

F-Measure

0.794

0.8115

0.8029

0.7944

0.7883

0.79822

0.009070116

D

useTypeySequences

F-Measure

0.7991

0.8104

0.8115

0.8032

0.7802

0.80088

0.012645434

G

usePrev

F-Measure

0.8117

0.8222

0.8164

0.8075

0.7822

0.808

0.015425466

I

useWordPairs

F-Measure

0.8041

0.8209

0.8099

0.8084

0.8014

0.80894

0.007492196

Q

disjunctionWidth=6

F-Measure

0.8269

0.8342

0.8375

0.8203

0.8001

0.8238

0.01482734

P

useDisjunctive

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

C-5

C-6 Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

O

useDisjShape

Time

7.02

7.67

7.53

7.68

8.12

7.604

0.394626406

L

useClassFeature

Time

6.53

6.79

7.41

7.26

7.51

7.1

0.421544778

K

usePosition

Time

7.17

7.89

7.57

7.92

7.04

7.518

0.403819267

A

wordShape (jenny1)

Time

7.27

6.47

6.95

6.17

6.25

6.622

0.472567456

F

useWord

Time

10.68

10.55

9.82

6.11

6.05

8.642

2.361730298

W

useGazettes

Time

10.39

6

6.42

5.4

5.5

6.742

2.080004808

T

useNGrams

Time

9.88

5.99

6.44

5.47

5.7

6.696

1.816378265

R

strictlyFirstOrder

Time

9.95

6.07

6.41

5.4

5.6

6.686

1.866984199

N

usePrevSequences

Time

9.92

5.94

6.45

5.39

5.45

6.63

1.88829288

C

useTypeSeqs2

Time

9.88

5.95

6.36

5.33

5.52

6.608

1.871996261

M

useSequences

Time

9.88

5.95

6.38

5.3

5.45

6.592

1.886894274

B

useTypeSeqs

Time

9.81

5.88

6.34

5.31

5.61

6.59

1.839415668

S

useSum

Time

9.86

5.94

6.3

5.29

5.47

6.572

1.880311144

E

maxLeft=1

Time

5.2

2.98

3.2

2.56

2.75

3.338

1.068325793

X

cleanGazette

Time

6.24

6.15

5.8

5.71

5.69

5.918

0.258205345

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

V

noMidNGrams

Time

22.72

22.83

32.37

25.93

26.28

26.026

3.919952806

U

maxNGramLeng=6

Time

34.83

35.47

35.69

36.55

35.99

35.706

0.635672872

H

useNext

Time

7.54

7.32

7.62

8.6

7.3

7.676

0.534677473

J

useSymWordPairs

Time

7.31

7.27

7.76

10.07

8.06

8.094

1.152271669

D

useTypeySequences

Time

7.74

9

6.74

9.61

8.92

8.402

1.149530339

G

usePrev

Time

7.25

7.36

7.16

6.69

7.19

7.13

0.257584937

I

useWordPairs

Time

7.91

7.36

8.48

9.07

8.92

8.348

0.713070824

Q

disjunctionWidth=6

Time

11.15

11.3

11.47

11.26

12.01

11.438

0.33980877

P

useDisjunctive

Time

9.43

9.15

8.78

9.03

9.15

9.108

0.234989361

C-7

C-8 2. Model 2 Feature Extractor Uji F-Measure Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PQ

disjunctionWidth=6

F-Measure

0.8269

0.8342

0.8375

0.8203

0.8001

0.8238

0.01482734

PK

usePosition

F-Measure

0.8289

0.851

0.8479

0.8348

0.8128

0.83508

0.01543104

PT

useNGrams

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PW

useGazettes

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PN

usePrevSequences

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PS

useSum

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PM

useSequences

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PC

useTypeSeqs2

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PR

strictlyFirstOrder

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PB

useTypeSeqs

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PF

useWord

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PE

maxLeft=1

F-Measure

0.8378

0.8558

0.8577

0.8445

0.8229

0.84374

0.014234571

PX

cleanGazette

F-Measure

0.8335

0.8535

0.8607

0.8499

0.8218

0.84388

0.01586638

PL

useClassFeature

F-Measure

0.8469

0.8543

0.8608

0.8452

0.8171

0.84486

0.016718941

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PO

useDisjShape

F-Measure

0.8483

0.8545

0.8613

0.8455

0.8162

0.84516

0.01729445

PH

useNext

F-Measure

0.8467

0.8621

0.8669

0.8503

0.8225

0.8497

0.017311846

PJ

useSymWordPairs

F-Measure

0.8449

0.8672

0.8618

0.8467

0.8295

0.85002

0.014935093

PI

useWordPairs

F-Measure

0.8465

0.8638

0.8667

0.8529

0.8296

0.8519

0.014900503

PG

usePrev

F-Measure

0.8489

0.8702

0.8675

0.8489

0.8357

0.85424

0.014416241

PD

useTypeySequences

F-Measure

0.8629

0.864

0.8808

0.8571

0.8296

0.85888

0.018596693

PA

wordShape=jenny1

F-Measure

0.8605

0.8834

0.8764

0.8648

0.8534

0.8677

0.012113216

PU

maxNGramLeng=6

F-Measure

0.8791

0.9058

0.8836

0.8807

0.8732

0.88448

0.012507878

PV

noMidNGrams

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

C-9

C-10 Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PQ

disjunctionWidth=6

Time

11.11

11.22

11.68

11.5

12.11

11.524

0.397529873

PK

usePosition

Time

11.28

10.33

10.27

11.08

11.47

10.886

0.552838132

PT

useNGrams

Time

10.03

10.39

12.46

11

10.52

10.88

0.9490785

PW

useGazettes

Time

9.42

9.35

8.9

9.4

11.29

9.672

0.929392275

PN

usePrevSequences

Time

9.44

9.67

9.45

9.78

9.92

9.652

0.208734281

PS

useSum

Time

9.41

9.54

9.42

9.74

9.89

9.6

0.209642553

PM

useSequences

Time

9.48

9.44

9.31

9.76

9.84

9.566

0.224454895

PC

useTypeSeqs2

Time

9.49

9.4

9.35

9.71

9.82

9.554

0.202805325

PR

strictlyFirstOrder

Time

9.52

9.23

8.92

9.37

9.51

9.31

0.248092725

PB

useTypeSeqs

Time

9.43

9.12

8.77

9.35

9.5

9.234

0.296192505

PF

useWord

Time

9.45

9.23

8.83

9.13

9.22

9.172

0.224543982

PE

maxLeft=1

Time

5.08

4.81

4.54

4.75

4.73

4.782

0.194858923

PX

cleanGazette

Time

9.27

8.96

9.52

9.68

9.28

9.342

0.274262648

PL

useClassFeature

Time

10.38

10.28

10.64

10.37

11.12

10.558

0.341643089

PO

useDisjShape

Time

10.15

10.77

10.41

10.7

11.28

10.662

0.424464368

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PH

useNext

Time

10.69

10.04

9.99

10.1

10.12

10.188

0.285254273

PJ

useSymWordPairs

Time

11.8

12.13

11.69

10.98

12.02

11.724

0.450810381

PI

useWordPairs

Time

12.79

14.1

13.25

12.84

13.9

13.376

0.601107312

PG

usePrev

Time

10.37

10.05

9.74

9.82

10.33

10.062

0.286827474

PD

useTypeySequences

Time

12.04

12.24

13.19

12.03

13.85

12.67

0.814585784

PA

wordShape=jenny1

Time

9.85

9.85

9.64

9.31

10.21

9.772

0.32972716

PU

maxNGramLeng=6

Time

30.88

32.16

31.04

29.91

29.36

30.67

1.083374358

PV

noMidNGrams

Time

19.69

19.99

21

20.56

19.42

20.132

0.644026397

C-11


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTQ

disjunctionWidth=6

F-Measure

0.8726

0.8947

0.8822

0.8701

0.8603

0.87598

0.013047873

PVTO

useDisjShape

F-Measure

0.8787

0.9089

0.8885

0.8861

0.8714

0.88672

0.014093687

PVTL

useClassFeature

F-Measure

0.8787

0.9078

0.8892

0.8859

0.872

0.88672

0.013529486

PVTK

usePosition

F-Measure

0.8811

0.9077

0.8858

0.8832

0.8768

0.88692

0.012074643

PVTU

maxNGramLeng=6

F-Measure

0.8802

0.9099

0.8888

0.8819

0.8767

0.8875

0.01327347

PVTX

cleanGazette

F-Measure

0.8832

0.9089

0.8856

0.8865

0.876

0.88804

0.012367821

PVTA

wordShape (jenny1)

F-Measure

0.8846

0.9075

0.886

0.8862

0.876

0.88806

0.011651524

PVTE

maxLeft=1

F-Measure

0.8845

0.9091

0.8853

0.8851

0.8775

0.8883

0.012072282

PVTM

useSequences

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTN

usePrevSequences

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTS

useSum

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTR

strictlyFirstOrder

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTB

useTypeSeqs

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTW

useGazettes

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTF

useWord

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTC

useTypeSeqs2

F-Measure

0.8847

0.9095

0.8852

0.8853

0.8775

0.88844

0.012222438

PVTJ

useSymWordPairs

F-Measure

0.8855

0.9106

0.8902

0.8872

0.8787

0.89044

0.012033412

PVTH

useNext

F-Measure

0.8844

0.9116

0.8888

0.8906

0.8782

0.89072

0.012613168

PVTG

usePrev

F-Measure

0.889

0.9084

0.898

0.8919

0.8758

0.89262

0.01198424

PVTI

useWordPairs

F-Measure

0.8909

0.9139

0.8966

0.8936

0.8838

0.89576

0.011192542

PVTD

useTypeySequences

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTQ

disjunctionWidth=6

Time

22

23

23.57

22.45

22.12

22.628

0.6538119

PVTO

useDisjShape

Time

23.4

22.64

23.36

22.75

22.35

22.9

0.462114704

PVTL

useClassFeature

Time

21.16

21.29

21.87

22.08

22.09

21.698

0.443023701

PVTK

usePosition

Time

22.18

21.84

22.93

21.67

22.51

22.226

0.509048131

PVTU

maxNGramLeng=6

Time

15.56

17.14

16.11

15.96

15.04

15.962

0.778023136

PVTX

cleanGazette

Time

21.07

23.25

21.1

20.91

21.01

21.468

0.998809291

PVTA

wordShape (jenny1)

Time

19.84

21.76

20.21

23.59

22.2

21.52

1.528348782

C-13

C-14 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTE

maxLeft=1

Time

12.91

14.6

12.85

13.57

12.58

13.302

0.811769672

PVTM

useSequences

Time

20.12

21.23

21.77

22.04

22.42

21.516

0.892597334

PVTN

usePrevSequences

Time

23.8

20.75

22.28

20.42

19.94

21.438

1.584430497

PVTS

useSum

Time

22.53

21.01

21.33

20.78

21.05

21.34

0.69332532

PVTR

strictlyFirstOrder

Time

19.91

20.97

21.64

20.42

19.66

20.52

0.80290099

PVTB

useTypeSeqs

Time

19.42

20.12

20.54

21.62

19.77

20.294

0.849635216

PVTW

useGazettes

Time

19.18

19.72

21.02

21.17

19.6

20.138

0.897897544

PVTF

useWord

Time

19.58

20.01

20.56

21.01

19.51

20.134

0.644305828

PVTC

useTypeSeqs2

Time

19.18

19.74

20.85

20.82

20.07

20.132

0.716358849

PVTJ

useSymWordPairs

Time

23.57

23.56

25.14

24.38

24.51

24.232

0.673327558

PVTH

useNext

Time

19.92

22.25

20.63

21.96

21.02

21.156

0.957355733

PVTG

usePrev

Time

19.45

20.46

21.31

21.41

20.31

20.588

0.804002488

PVTI

useWordPairs

Time

26.32

27.61

25.89

28.33

25.24

26.678

1.266360928

PVTD

useTypeySequences

Time

22.3

23.68

24

22.94

22.2

23.024

0.80515837

4. Model 5 Feature Extractor Uji F-Measure Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDQ

disjunctionWidth=6

F-Measure

0.9059

0.9245

0.913

0.9078

0.8887

0.90798

0.012982565

PVTDU

maxNGramLeng=6

F-Measure

0.916

0.9281

0.9227

0.912

0.8934

0.91444

0.013284314

PVTDK

usePosition

F-Measure

0.9173

0.9282

0.9229

0.9132

0.8922

0.91476

0.013826894

PVTDM

useSequences

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDF

useWord

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDS

useSum

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDR

strictlyFirstOrder

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDC

useTypeSeqs2

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDW

useGazettes

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDN

usePrevSequences

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDB

useTypeSeqs

F-Measure

0.9181

0.9288

0.9228

0.9138

0.8935

0.9154

0.01345158

PVTDE

maxLeft=1

F-Measure

0.9186

0.9288

0.9223

0.9136

0.8939

0.91544

0.013256055

PVTDO

useDisjShape

F-Measure

0.9182

0.9287

0.9225

0.9136

0.8943

0.91546

0.013072605

PVTDL

useClassFeature

F-Measure

0.919

0.9284

0.9231

0.9134

0.8937

0.91552

0.013379723

C-15

C-16 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDX

cleanGazette

F-Measure

0.917

0.9287

0.9237

0.9144

0.8959

0.91594

0.012531281

PVTDH

useNext

F-Measure

0.9191

0.9321

0.9251

0.9137

0.8966

0.91732

0.0134589

PVTDA

wordShape (jenny1)

F-Measure

0.9185

0.9294

0.9293

0.9144

0.8987

0.91806

0.012681995

PVTDJ

useSymWordPairs

F-Measure

0.9217

0.9315

0.9246

0.9185

0.8993

0.91912

0.012074436

PVTDI

useWordPairs

F-Measure

0.9214

0.9331

0.9251

0.92

0.8997

0.91986

0.012364991

PVTDG

usePrev

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDQ

disjunctionWidth=6

Time

22.37

23.27

22.5

23.87

23.25

23.052

0.6175921

PVTDU

maxNGramLeng=6

Time

16.51

18.04

18.89

17.72

16.81

17.594

0.9597031

PVTDK

usePosition

Time

25.91

25.45

28.71

27.28

24.96

26.462

1.5254081

PVTDM

useSequences

Time

22.84

24.58

24.74

22.69

24.46

23.862

1.0077301

PVTDF

useWord

Time

22.91

25.43

25.13

22.06

23.14

23.734

1.4713361

PVTDS

useSum

Time

22.69

25.02

25.39

22.35

22.19

23.528

1.5470359

PVTDR

strictlyFirstOrder

Time

22.87

24.18

24.92

23.15

22.44

23.512

1.0150222

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDC

useTypeSeqs2

Time

22.79

24.77

24.72

22.43

22.73

23.488

1.1556903

PVTDW

useGazettes

Time

22.64

24.61

25.15

21.91

22.58

23.378

1.4137079

PVTDN

usePrevSequences

Time

22.83

24.28

25.11

22.27

22.22

23.342

1.2918862

PVTDB

useTypeSeqs

Time

22.54

24.42

24.73

22.56

22.35

23.32

1.1537981

PVTDE

maxLeft=1

Time

15.16

15.75

15.81

15.28

14.69

15.338

0.4602934

PVTDO

useDisjShape

Time

23.55

24.58

23.69

23.61

24.09

23.904

0.4327586

PVTDL

useClassFeature

Time

22.86

26.03

22.89

25.48

24.08

24.268

1.4569043

PVTDX

cleanGazette

Time

23.08

23.73

23.23

21.57

22.28

22.778

0.8528013

PVTDH

useNext

Time

23.99

25.55

25.99

24.78

24.43

24.948

0.8158554

PVTDA

wordShape (jenny1)

Time

24.34

23.36

23.28

22.57

25.42

23.794

1.1059747

PVTDJ

useSymWordPairs

Time

28.8

29.04

30.03

27.91

31.27

29.41

1.2848152

PVTDI

useWordPairs

Time

31.74

33.47

34.06

34.24

32.48

33.198

1.0658424

PVTDG

usePrev

Time

23.18

26.32

23.54

23.46

22.8

23.86

1.4053469

C-17


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGQ

disjunctionWidth=6

F-Measure

0.9162

0.9307

0.9192

0.9181

0.8966

0.91616

0.012318807

PVTDGK

usePosition

F-Measure

0.9218

0.9333

0.9285

0.9234

0.8993

0.92126

0.013081399

PVTDGU

maxNGramLeng=6

F-Measure

0.9225

0.934

0.9303

0.9225

0.9032

0.9225

0.011890963

PVTDGO

useDisjShape

F-Measure

0.9238

0.9346

0.9281

0.9237

0.9043

0.9229

0.011306414

PVTDGE

maxLeft=1

F-Measure

0.924

0.9354

0.9291

0.9238

0.9047

0.9234

0.011474973

PVTDGL

useClassFeature

F-Measure

0.924

0.935

0.9306

0.9241

0.9041

0.92356

0.01182806

PVTDGF

useWord

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGC

useTypeSeqs2

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGW

useGazettes

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGR

strictlyFirstOrder

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGM

useSequences

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGB

useTypeSeqs

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGS

useSum

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

PVTDGX

cleanGazette

F-Measure

0.924

0.9354

0.9303

0.924

0.9051

0.92376

0.011473578

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGA

wordShape=jenny1

F-Measure

0.9232

0.9335

0.9336

0.9226

0.9096

0.9245

0.009888377

PVTDGJ

useSymWordPairs

F-Measure

0.9242

0.9367

0.9316

0.9237

0.9074

0.92472

0.011092204

PVTDGI

useWordPairs

F-Measure

0.9245

0.9377

0.931

0.9256

0.9094

0.92564

0.010478693

PVTDGH

useNext

F-Measure

0.9241

0.9406

0.931

0.9258

0.9097

0.92624

0.011260684

PVTDGN

usePrevSequences

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGQ

disjunctionWidth=6

Time

24.5

25.33

27.29

24.02

22.91

24.81

1.639435879

PVTDGK

usePosition

Time

25.56

24.5

26.78

26.01

24.98

25.566

0.88751338

PVTDGU

maxNGramLeng=6

Time

16.8

17.69

18.11

18.36

18.61

17.914

0.709387059

PVTDGO

useDisjShape

Time

24.07

24.81

24.05

26

24.61

24.708

0.795185513

PVTDGE

maxLeft=1

Time

15

16.39

15.27

16.21

14.44

15.462

0.823935677

PVTDGL

useClassFeature

Time

22.82

23.93

25.12

23.12

24.26

23.85

0.91940198

PVTDGF

useWord

Time

24.07

27.53

23.73

23.43

22.66

24.284

1.88785063

PVTDGC

useTypeSeqs2

Time

22.93

25.59

23.43

23.76

23.5

23.842

1.022335561

PVTDGW

useGazettes

Time

23.33

24.95

23.54

24.28

22.42

23.704

0.961732811

C-19

C-20 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGR

strictlyFirstOrder

Time

23.2

25.67

23.23

23.84

22.48

23.684

1.210218988

PVTDGM

useSequences

Time

23.11

24.91

23.25

24.12

22.66

23.61

0.898916014

PVTDGB

useTypeSeqs

Time

23.11

25.27

22.9

23.38

23.23

23.578

0.962013513

PVTDGS

useSum

Time

23.69

24.91

22.74

23.26

22.61

23.442

0.926644484

PVTDGX

cleanGazette

Time

22.95

24.79

23.07

23.47

22.61

23.378

0.847065523

PVTDGA

wordShape=jenny1

Time

23.37

25.56

24.49

24.48

23.56

24.292

0.875825325

PVTDGJ

useSymWordPairs

Time

29.45

30.75

32.96

29.72

28.49

30.274

1.70365196

PVTDGI

useWordPairs

Time

27.82

32.36

33.47

34.99

33.68

32.464

2.759027002

PVTDGH

useNext

Time

23.27

25.57

24.53

23.64

22.77

23.956

1.108097469

PVTDGN

usePrevSequences

Time

35.01

34.69

39.76

39.5

40.15

37.822

2.725246778


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNQ

disjunctionWidth=6

F-Measure

0.9302

0.9403

0.9362

0.9295

0.9095

0.92914

0.011846645

PVTDGNK

usePosition

F-Measure

0.9287

0.9438

0.9355

0.9338

0.9146

0.93128

0.010791061

PVTDGNI

useWordPairs

F-Measure

0.9295

0.9443

0.9359

0.9328

0.9139

0.93128

0.011162527

PVTDGNO

useDisjShape

F-Measure

0.93

0.9434

0.9376

0.9332

0.915

0.93184

0.010672769

PVTDGNF

useWord

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNX

cleanGazette

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNR

strictlyFirstOrder

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNC

useTypeSeqs2

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNS

useSum

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNM

useSequences

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNW

useGazettes

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNB

useTypeSeqs

F-Measure

0.9302

0.9442

0.9374

0.9334

0.9152

0.93208

0.010786658

PVTDGNU

maxNGramLeng=6

F-Measure

0.9301

0.9443

0.9386

0.9336

0.914

0.93212

0.011455872

PVTDGNL

useClassFeature

F-Measure

0.9299

0.944

0.938

0.9336

0.9152

0.93214

0.010829497

C-21

C-22 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNH

useNext

F-Measure

0.9306

0.945

0.938

0.933

0.9148

0.93228

0.011218378

PVTDGNJ

useSymWordPairs

F-Measure

0.9308

0.9438

0.9366

0.9338

0.9168

0.93236

0.009943239

PVTDGNE

maxLeft=1

F-Measure

0.9304

0.9442

0.9386

0.9336

0.915

0.93236

0.011021252

PVTDGNA

wordShape (jenny1)

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNQ

disjunctionWidth=6

Time

38.28

40.57

42.72

42.11

40.93

40.922

1.713788202

PVTDGNK

usePosition

Time

41.53

44.53

49.45

43.24

43.5

44.45

2.995805401

PVTDGNI

useWordPairs

Time

45.12

52.27

53.73

52.57

48.82

50.502

3.521983816

PVTDGNO

useDisjShape

Time

38.33

42.06

40.02

39.07

41.13

40.122

1.508333517

PVTDGNF

useWord

Time

40.72

40.66

42.52

41.41

40.72

41.206

0.796668061

PVTDGNX

cleanGazette

Time

37.25

39.63

44.39

40.91

40.65

40.566

2.579744173

PVTDGNR

strictlyFirstOrder

Time

37.82

40.34

41.69

40.52

41.86

40.446

1.617059059

PVTDGNC

useTypeSeqs2

Time

37.23

41.31

42.08

40.13

41.36

40.422

1.916473324

PVTDGNS

useSum

Time

38.42

39.37

42.68

40

41.46

40.386

1.69280241

PVTDGNM

useSequences

Time

38.19

39.38

41.25

40.77

40.88

40.094

1.279269323

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNW

useGazettes

Time

36.79

40.17

41.77

39.28

39.77

39.556

1.806344375

PVTDGNB

useTypeSeqs

Time

36.71

35.91

42.21

39.59

41.19

39.122

2.746182805

PVTDGNU

maxNGramLeng=6

Time

28.12

31.83

33.51

31.16

28

30.524

2.407079143

PVTDGNL

useClassFeature

Time

35.18

40.89

40.13

39.81

41.67

39.536

2.539188847

PVTDGNH

useNext

Time

39.59

41.64

42.8

41.69

40.78

41.3

1.19501046

PVTDGNJ

useSymWordPairs

Time

67.85

49.16

47.87

46.12

48.57

51.914

8.981193128

PVTDGNE

maxLeft=1

Time

30.31

33.3

37.46

32.57

33.62

33.452

2.586768254

PVTDGNA

wordShape=jenny1

Time

37.34

38.4

38.41

38.95

45.49

39.718

3.279050167

C-23


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAQ

disjunctionWidth=6

F-Measure

0.9283

0.9444

0.9391

0.9317

0.9104

0.93078

0.013010265

PVTDGNAK

usePosition

F-Measure

0.9297

0.9443

0.94

0.9353

0.917

0.93326

0.010589287

PVTDGNAU

maxNGramLeng=6

F-Measure

0.929

0.9448

0.9403

0.9351

0.9171

0.93326

0.010786705

PVTDGNAL

useClassFeature

F-Measure

0.9312

0.9443

0.9398

0.9353

0.9157

0.93326

0.010970551

PVTDGNAI

useWordPairs

F-Measure

0.9296

0.9452

0.9397

0.9355

0.9168

0.93336

0.010878097

PVTDGNAH

useNext

F-Measure

0.9306

0.9445

0.9426

0.9339

0.9159

0.9335

0.011425191

PVTDGNAO

useDisjShape

F-Measure

0.9297

0.9439

0.942

0.9327

0.9192

0.9335

0.00999975

PVTDGNAE

maxLeft=1

F-Measure

0.9314

0.9447

0.9398

0.9355

0.9165

0.93358

0.010753

PVTDGNAF

useWord

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAC

useTypeSeqs2

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAM

useSequences

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAR

strictlyFirstOrder

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAS

useSum

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAW

useGazettes

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAX

cleanGazette

F-Measure

0.9314

0.9441

0.9408

0.9356

0.9165

0.93368

0.010762295

PVTDGNAJ

useSymWordPairs

F-Measure

0.9324

0.9452

0.9391

0.9368

0.9172

0.93414

0.010535559

PVTDGNAB

useTypeSeqs

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNAQ

disjunctionWidth=6

Time

37.73

46.9

45.8

45.37

42.59

43.678

3.684748295

PVTDGNAK

usePosition

Time

45.54

62.52

62.13

48.01

48.49

53.338

8.281121301

PVTDGNAU

maxNGramLeng=6

Time

31.47

33.78

32.67

32.75

34.55

33.044

1.174044292

PVTDGNAL

useClassFeature

Time

44.03

48.69

46.53

58.45

53.32

50.204

5.73617294

PVTDGNAI

useWordPairs

Time

52.87

58.52

59.01

57.04

57.96

57.08

2.464680507

PVTDGNAH

useNext

Time

43.31

44.2

45

55.9

63.05

50.292

8.776136394

PVTDGNAO

useDisjShape

Time

47.58

50.33

63.68

47.36

46.56

51.102

7.173543058

PVTDGNAE

maxLeft=1

Time

34.42

37.46

37.66

39.36

44.39

38.658

3.665394931

PVTDGNAF

useWord

Time

43.57

45.29

47.98

47.87

52.98

47.538

3.560880509

PVTDGNAC

useTypeSeqs2

Time

39.49

45.2

46.96

46.95

53.59

46.438

5.0371887

PVTDGNAM

useSequences

Time

39.84

43.21

45.83

46.53

52.71

45.624

4.752807591

C-25

C-26 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNAR

strictlyFirstOrder

Time

37.53

42.78

43.48

44.98

50.97

43.948

4.825647107

PVTDGNAS

useSum

Time

37.68

42.21

44.92

45.17

49.47

43.89

4.336536637

PVTDGNAW

useGazettes

Time

36.27

42.53

43.81

45.09

49.95

43.53

4.935483766

PVTDGNAX

cleanGazette

Time

37.19

41.71

43.53

44.04

50.86

43.466

4.936509901

PVTDGNAJ

useSymWordPairs

Time

49.64

54.19

67.65

52.61

53.1

55.438

7.031555304

PVTDGNAB

useTypeSeqs

Time

48.49

53.84

51.16

47.49

63.96

52.988

6.612720318


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNABQ

disjunctionWidth=6

F-Measure

0.9282

0.945

0.9402

0.9323

0.915

0.93214

0.011615421

PVTDGNABU

maxNGramLeng=6

F-Measure

0.9293

0.947

0.9433

0.9355

0.9149

0.934

0.012694881

PVTDGNABX

cleanGazette

F-Measure

0.9305

0.9428

0.9436

0.9358

0.9183

0.9342

0.010384845

PVTDGNABO

useDisjShape

F-Measure

0.9312

0.9449

0.9439

0.9342

0.9198

0.9348

0.010285184

PVTDGNABL

useClassFeature

F-Measure

0.9311

0.9462

0.9434

0.9357

0.9177

0.93482

0.011300752

PVTDGNABK

usePosition

F-Measure

0.9311

0.947

0.9423

0.9363

0.9177

0.93488

0.011329254

PVTDGNABF

useWord

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

PVTDGNABR

strictlyFirstOrder

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

PVTDGNABS

useSum

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

PVTDGNABM

useSequences

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

PVTDGNABW

useGazettes

F-Measure

0.9319

0.9458

0.944

0.9357

0.9177

0.93502

0.011258641

PVTDGNABE

maxLeft=1

F-Measure

0.9319

0.9457

0.944

0.9359

0.9183

0.93516

0.011007634

PVTDGNABJ

useSymWordPairs

F-Measure

0.9317

0.9459

0.9424

0.938

0.9181

0.93522

0.010941069

PVTDGNABI

useWordPairs

F-Measure

0.93

0.9462

0.9438

0.9374

0.9188

0.93524

0.011133194

C-27

C-28 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNABH

useNext

F-Measure

0.9321

0.9476

0.9432

0.9365

0.9175

0.93538

0.011642465

PVTDGNABC

useTypeSeqs2

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.93586

0.012296463

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABQ

disjunctionWidth=6

Time

52.9

58.15

58.49

71.26

59.8

60.12

6.761438456

PVTDGNABU

maxNGramLeng=6

Time

46.84

50.2

48.7

50.7

47.59

48.806

1.649660571

PVTDGNABX

cleanGazette

Time

55.08

75.81

61.19

73.69

57.52

64.658

9.495528948

PVTDGNABO

useDisjShape

Time

73.65

65.68

63.74

65.21

62.34

66.124

4.406680156

PVTDGNABL

useClassFeature

Time

54.82

64.31

60.2

58.93

60.55

59.762

3.413673974

PVTDGNABK

usePosition

Time

61.55

79.33

64.24

64.51

64.71

66.868

7.083538664

PVTDGNABF

useWord

Time

59.26

68.31

61.64

59.58

68.72

63.502

4.668727878

PVTDGNABR

strictlyFirstOrder

Time

55.97

62.81

63.33

57.51

68.56

61.636

5.032820283

PVTDGNABS

useSum

Time

54.56

62.05

62.03

57.78

69.79

61.242

5.722252179

PVTDGNABM

useSequences

Time

54.06

62.26

62.73

56.6

68.79

60.888

5.760327248

PVTDGNABW

useGazettes

Time

54.15

61.81

61.08

56.56

70.04

60.728

6.096111055

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABE

maxLeft=1

Time

48.32

52.11

51.97

46.77

60.75

51.984

5.419167833

PVTDGNABJ

useSymWordPairs

Time

64.67

83.42

67.75

66.46

68.47

70.154

7.555159164

PVTDGNABI

useWordPairs

Time

70.5

76.23

75.92

69.22

87.58

75.89

7.251096469

PVTDGNABH

useNext

Time

55.42

59.93

62.08

77.49

61.12

63.208

8.381615

PVTDGNABC

useTypeSeqs2

Time

49.64

55.9

68.64

69.02

76.14

63.868

10.79168754

C-29


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNABCQ

disjunctionWidth=6

F-Measure

0.93

0.9419

0.9397

0.9323

0.9141

0.9316

0.010965856

PVTDGNABCE

maxLeft=1

F-Measure

0.9302

0.9458

0.9445

0.9354

0.9177

0.9347

0.01149987

PVTDGNABCU

maxNGramLeng=6

F-Measure

0.9312

0.9483

0.9428

0.9357

0.9173

0.9351

0.011894663

PVTDGNABCH

useNext

F-Measure

0.9319

0.9466

0.9441

0.9356

0.9176

0.9352

0.01151056

PVTDGNABCL

useClassFeature

F-Measure

0.9323

0.9473

0.9451

0.9354

0.9163

0.9353

0.012349575

PVTDGNABCI

useWordPairs

F-Measure

0.9321

0.9463

0.9435

0.9371

0.9186

0.9355

0.01095865

PVTDGNABCJ

useSymWordPairs

F-Measure

0.9337

0.9462

0.9439

0.9366

0.9173

0.9355

0.011409777

PVTDGNABCK

usePosition

F-Measure

0.9334

0.9481

0.9441

0.9363

0.9171

0.9358

0.01199875

PVTDGNABCX

cleanGazette

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

PVTDGNABCS

useSum

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

PVTDGNABCM

useSequences

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

PVTDGNABCR

strictlyFirstOrder

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

PVTDGNABCW

useGazettes

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNABCF

useWord

F-Measure

0.9332

0.9479

0.9451

0.9364

0.9167

0.9359

0.012296463

PVTDGNABCO

useDisjShape

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABCQ

disjunctionWidth=6

Time

57.87

79.7

67.05

79.4

62.33

69.27

9.9304305

PVTDGNABCE

maxLeft=1

Time

39.81

41.15

40.12

40.2

50.06

42.268

4.3845604

PVTDGNABCU

maxNGramLeng=6

Time

49.8

51.6

56.82

67.96

52.01

55.638

7.3617063

PVTDGNABCH

useNext

Time

57.85

82.17

70.13

65.3

67.1

68.51

8.8762013

PVTDGNABCL

useClassFeature

Time

74.98

62.64

63.59

64.59

63.35

65.83

5.1624655

PVTDGNABCI

useWordPairs

Time

90.22

75.96

76.3

89.79

71.26

80.706

8.7206582

PVTDGNABCJ

useSymWordPairs

Time

66.07

72.19

72.83

70.42

75.42

71.386

3.4712289

PVTDGNABCK

usePosition

Time

63.33

65.64

70.84

67.77

65.53

66.622

2.8329966

PVTDGNABCX

cleanGazette

Time

59.07

65.81

81.07

78.4

72.85

71.44

9.053734

PVTDGNABCS

useSum

Time

55.13

65.44

81.68

79.99

74.06

71.26

11.030397

PVTDGNABCM

useSequences

Time

56.17

67.11

81.04

77.78

72.85

70.99

9.8139314

C-31

C-32 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABCR

strictlyFirstOrder

Time

55.64

64.65

79.2

79.29

73.29

70.414

10.194892

PVTDGNABCW

useGazettes

Time

55.15

65.14

80.42

78.02

73.06

70.358

10.316997

PVTDGNABCF

useWord

Time

51.56

63.13

78.47

75.17

76.65

68.996

11.45516

PVTDGNABCO

useDisjShape

Time

70.11

71.37

93.98

70.17

67.44

74.614

10.920931


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNABCOQ

disjunctionWidth

F-Measure

0.9291

0.9427

0.9383

0.9322

0.9149

0.93144

0.010647441

PVTDGNABCOU

maxNGramLeng

F-Measure

0.9297

0.946

0.944

0.9346

0.9202

0.9349

0.010597641

PVTDGNABCOI

useWordPairs

F-Measure

0.9308

0.9448

0.9449

0.9345

0.92

0.935

0.010451555

PVTDGNABCOE

maxLeft=1

F-Measure

0.9312

0.9464

0.9442

0.934

0.9195

0.93506

0.010842878

PVTDGNABCOH

useNext

F-Measure

0.9323

0.947

0.9435

0.9335

0.9206

0.93538

0.010397452

PVTDGNABCOL

useClassFeature

F-Measure

0.9321

0.9476

0.9449

0.9339

0.9205

0.9358

0.010879338

PVTDGNABCOK

usePosition

F-Measure

0.9317

0.9479

0.9447

0.9359

0.9192

0.93588

0.011379455

PVTDGNABCOF

useWord

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOM

useSequences

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOR

strictlyFirstOrder

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOS

useSum

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOW

useGazettes

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOX

cleanGazette

F-Measure

0.9326

0.9472

0.9445

0.9347

0.9205

0.9359

0.010620028

PVTDGNABCOJ

useSymWordPairs

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

C-33

C-34 Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABCOQ

disjunctionWidth

Time

73.19

72.53

60.25

81.81

75.31

72.618

7.82691

PVTDGNABCOU

maxNGramLeng

Time

68.41

74.36

57.6

73.44

55.69

65.9

8.7729328

PVTDGNABCOI

useWordPairs

Time

82.21

109.3

86.53

107.35

100.89

97.256

12.263583

PVTDGNABCOE

maxLeft=1

Time

46.4

48.12

45.92

47.57

64.9

50.582

8.0523611

PVTDGNABCOH

useNext

Time

73.6

98.96

91.33

75.41

76.5

83.16

11.315925

PVTDGNABCOL

useClassFeature

Time

68.12

77.97

76.68

72.38

72.81

73.592

3.8963406

PVTDGNABCOK

usePosition

Time

73.08

78.79

76.87

92.86

72.91

78.902

8.1970586

PVTDGNABCOF

useWord

Time

72.51

74.09

98.5

73.66

71.88

78.128

11.422415

PVTDGNABCOM

useSequences

Time

71.95

74.52

98.82

73.32

70.74

77.87

11.79736

PVTDGNABCOR

strictlyFirstOrder

Time

69.21

69.78

93.29

70.03

68.07

74.076

10.767469

PVTDGNABCOS

useSum

Time

66.67

69.52

93.08

69.6

68.19

73.412

11.059307

PVTDGNABCOW

useGazettes

Time

64.99

69.16

93.79

69.38

68.21

73.106

11.695321

PVTDGNABCOX

cleanGazette

Time

67.07

69.68

91.9

69.13

67.69

73.094

10.565582

PVTDGNABCOJ

useSymWordPairs

Time

78.19

84.08

87.42

80.54

82.92

82.63

3.5075775


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNA BCOJQ PVTDGNA BCOJE PVTDGNA BCOJU PVTDGNA BCOJI PVTDGNA BCOJK PVTDGNA BCOJL PVTDGNA BCOJH PVTDGNA BCOJS PVTDGNA BCOJF

disjunctionWidth=6

F-Measure

0.93

0.9415

0.9387

0.9329

0.9167

0.93196

0.009669953

maxLeft=1

F-Measure

0.9317

0.9457

0.9422

0.9343

0.9192

0.93462

0.010327488

maxNGramLeng=6

F-Measure

0.9311

0.9464

0.944

0.9345

0.9193

0.93506

0.01087304

useWordPairs

F-Measure

0.9313

0.946

0.9445

0.9343

0.9194

0.9351

0.010825202

usePosition

F-Measure

0.933

0.9458

0.9445

0.936

0.9186

0.93558

0.010944953

useClassFeature

F-Measure

0.9324

0.947

0.9445

0.9353

0.9202

0.93588

0.010680215

useNext

F-Measure

0.9339

0.9468

0.9445

0.9347

0.9203

0.93604

0.010505618

useSum

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

useWord

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

C-35

C-36 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNA BCOJW PVTDGNA BCOJX PVTDGNA BCOJM PVTDGNA BCOJR

useGazettes

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

cleanGazette

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

useSequences

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

strictlyFirstOrder

F-Measure

0.932

0.9481

0.9453

0.9347

0.9201

0.93604

0.011218199

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNA BCOJQ PVTDGNA BCOJE PVTDGNA BCOJU PVTDGNA BCOJI PVTDGNA BCOJK

disjunctionWidth=6

Time

90.65

96.75

92.85

90.43

74.2

88.976

8.6413182

maxLeft=1

Time

49.87

50.88

54.67

62.43

65.42

56.654

6.9552664

maxNGramLeng=6

Time

66.33

69.97

65

64.6

66.62

66.504

2.118025

useWordPairs

Time

83.94

91.69

118.08

116.58

111.14

104.29

15.500106

usePosition

Time

93.06

103.67

100.57

83.37

99.84

96.102

8.1019732

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNA BCOJL PVTDGNA BCOJH PVTDGNA BCOJS PVTDGNA BCOJF PVTDGNA BCOJW PVTDGNA BCOJX PVTDGNA BCOJM PVTDGNA BCOJR

useClassFeature

Time

95.93

104.13

82.69

77.51

94.36

90.924

10.712128

useNext

Time

75.75

105.54

82.76

80.06

98.93

88.608

12.901859

useSum

Time

80.75

80.91

86.03

77.37

81.31

81.274

3.093102

useWord

Time

79.47

83.06

85.8

76.67

79.47

80.894

3.5587259

useGazettes

Time

73.75

81.7

84.94

77.42

81.24

79.81

4.3118905

cleanGazette

Time

74.15

80.51

84.33

76.65

80.15

79.158

3.9029374

useSequences

Time

74.04

83.84

85.59

74.48

76.65

78.92

5.4170149

strictlyFirstOrder

Time

68.39

77.02

80.18

72.49

75.12

74.64

4.4797154

C-37


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAB COJRQ PVTDGNAB COJRE PVTDGNAB COJRU PVTDGNAB COJRI PVTDGNAB COJRK PVTDGNAB COJRL PVTDGNAB COJRH PVTDGNAB COJRF PVTDGNAB COJRS

disjunctionWidth=6

F-Measure

0.93

0.942

0.939

0.933

0.917

0.93196

0.009669953

maxLeft=1

F-Measure

0.932

0.946

0.942

0.934

0.919

0.93462

0.010327488

maxNGramLeng=6

F-Measure

0.931

0.946

0.944

0.935

0.919

0.93506

0.01087304

useWordPairs

F-Measure

0.931

0.946

0.945

0.934

0.919

0.9351

0.010825202

usePosition

F-Measure

0.933

0.946

0.945

0.936

0.919

0.93558

0.010944953

useClassFeature

F-Measure

0.932

0.947

0.945

0.935

0.92

0.93588

0.010680215

useNext

F-Measure

0.934

0.947

0.945

0.935

0.92

0.93604

0.010505618

useWord

F-Measure

0.932

0.948

0.945

0.935

0.92

0.93604

0.011218199

useSum

F-Measure

0.932

0.948

0.945

0.935

0.92

0.93604

0.011218199

Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAB COJRW PVTDGNAB COJRM PVTDGNAB COJRX

useGazettes

F-Measure

0.932

0.948

0.945

0.935

0.92

0.93604

0.011218199

useSequences

F-Measure

0.932

0.948

0.945

0.935

0.92

0.93604

0.011218199

cleanGazette

F-Measure

0.932

0.948

0.945

0.935

0.92

0.93604

0.011218199

Uji Time Kode

Feature Extractor

Uji

Model 2 100.52

Model 3 96.32

Model 4 93.45

Model 5 77.82

T_AVG

T_STDEV

Time

Model 1 91.56

PVTDGNAB COJRQ PVTDGNAB COJRE PVTDGNAB COJRU PVTDGNAB COJRI PVTDGNAB COJRK PVTDGNAB

disjunctionWidth=6

91.934

8.5819508

maxLeft=1

Time

48.43

49.89

50.76

51.64

59.59

52.062

4.3718726

maxNGramLeng=6

Time

64.02

67.83

62.97

62.02

64.87

64.342

2.2261334

useWordPairs

Time

80.43

90.2

118.45

115.52

110.21

102.96

16.73824

usePosition

Time

93.23

99.27

95.55

80.63

97.34

93.204

7.3741562

useClassFeature

Time

92.21

98.5

77.79

75.36

92.67

87.306

10.141357

C-39

C-40 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

useNext

Time

73.91

103.62

79.99

77.98

96.9

86.48

12.987792

useWord

Time

72.94

79.56

83.21

75.69

79.54

78.188

3.9595543

useSum

Time

72.62

79.21

82.26

76.07

79

77.832

3.6448553

useGazettes

Time

71.08

77.39

82.52

74.89

81.89

77.554

4.8088075

useSequences

Time

73.46

78.6

82.31

74.9

78.17

77.488

3.4596199

cleanGazette

Time

73.47

78.32

82.25

74.13

79.22

77.478

3.6670383

COJRL PVTDGNAB COJRH PVTDGNAB COJRF PVTDGNAB COJRS PVTDGNAB COJRW PVTDGNAB COJRM PVTDGNAB COJRX


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAB COJRXWQ PVTDGNAB COJRXWE PVTDGNAB COJRXWI PVTDGNAB COJRXWU PVTDGNAB COJRXWH PVTDGNAB COJRXWK PVTDGNAB COJRXWL PVTDGNAB COJRXWF PVTDGNAB COJRXWM

disjunctionWidth=6

F-Measure

0.931

0.941

0.939

0.934

0.918

0.9329

0.00909148

maxLeft=1

F-Measure

0.932

0.944

0.943

0.935

0.919

0.93426

0.01022316

useWordPairs

F-Measure

0.932

0.943

0.944

0.935

0.918

0.9343

0.010313826

maxNGramLeng=6

F-Measure

0.932

0.943

0.944

0.935

0.919

0.9345

0.01008241

useNext

F-Measure

0.932

0.943

0.944

0.936

0.919

0.93484

0.010061461

usePosition

F-Measure

0.93

0.944

0.945

0.937

0.919

0.93494

0.010895091

useClassFeature

F-Measure

0.932

0.944

0.944

0.936

0.919

0.93498

0.010311014

useWord

F-Measure

0.932

0.944

0.945

0.936

0.92

0.9352

0.010053606

useSequences

F-Measure

0.932

0.944

0.945

0.936

0.92

0.9352

0.010053606

C-41

C-42 Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

PVTDGNAB COJRXWS

useSum

F-Measure

0.932

0.944

0.945

0.936

0.92

0.9352

0.010053606

Uji Time Kode

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

PVTDGNABCOJRQ

disjunctionWidth=6

Time

88.87

98.13

73.78

91.16

89.98

88.384

8.9267984

PVTDGNABCOJRE

maxLeft=1

Time

51

48.62

52.92

49.47

75.35

55.472

11.231877

PVTDGNABCOJRI

useWordPairs

Time

83.19

107.34

84.34

114.67

109.3

99.768

14.858643

PVTDGNABCOJRU

maxNGramLeng=6

Time

73.07

81.31

81.35

62.27

62.29

72.058

9.5417986

PVTDGNABCOJRH

useNext

Time

93.48

99.94

81.99

77.94

93.2

89.31

9.0605905

PVTDGNABCOJRK

usePosition

Time

88.63

79.44

99.32

78.38

95.46

88.246

9.3502182

PVTDGNABCOJRL

useClassFeature

Time

67.06

96.95

81.99

72.86

71.56

78.084

11.859217

PVTDGNABCOJRF

useWord

Time

77.41

79.04

77.57

89.5

74.82

79.668

5.7023215

PVTDGNABCOJRM

useSequences

Time

71.05

77.35

78.87

90

75.43

78.54

7.0467865

PVTDGNABCOJRS

useSum

Time

72

77.38

76.69

89.89

74.28

78.048

6.9516092

D. Backward Elimination Feature Extractor 1. Model 24 Feature Extractor Uji F-Measure Kode Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

ABCDEFGHIJKL MNOPQRSTUV WX

F-Measure

0.9273

0.9427

0.9393

0.9283

0.9142

0.9304

0.011258

Model 1 60.82

Model 2 58.14

Model 3 72.96

Uji Time Kode Feature Extractor ABCDEFGHIJKL MNOPQRSTUV WX

Uji Time

Model 4 72.24

C-43

Model 5 74.6

T_AVG

T_STDEV

67.752

7.658389

C-44 2. Model 23 Feature Extractor Uji F-Measure !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

T

useNGrams

F-Measure

0.9168

0.9294

0.9275

0.9185

0.8997

0.91838

0.011790547

N

usePrevSequences

F-Measure

0.9243

0.9388

0.9343

0.9264

0.9085

0.92646

0.011629402

G

usePrev

F-Measure

0.925

0.9384

0.9345

0.9261

0.9097

0.92674

0.011067656

P

useDisjunctive

F-Measure

0.9269

0.9412

0.9348

0.9291

0.9117

0.92874

0.011021025

B

useTypeSeqs

F-Measure

0.9259

0.94

0.9372

0.9299

0.9132

0.92924

0.010583147

A

wordShape (jenny1)

F-Measure

0.928

0.9419

0.9362

0.9293

0.911

0.92928

0.011650622

X

cleanGazette

F-Measure

0.9267

0.9418

0.9397

0.928

0.914

0.93004

0.011227333

W

useGazettes

F-Measure

0.9267

0.9418

0.9397

0.928

0.914

0.93004

0.011227333

D

useTypeySequences

F-Measure

0.9289

0.9416

0.9373

0.9303

0.9126

0.93014

0.011088417

I

useWordPairs

F-Measure

0.927

0.943

0.9376

0.9289

0.9142

0.93014

0.011028509

S

useSum

F-Measure

0.9273

0.9427

0.9393

0.9283

0.9142

0.93036

0.011257797

F

useWord

F-Measure

0.9273

0.9427

0.9393

0.9283

0.9142

0.93036

0.011257797

M

useSequences

F-Measure

0.9273

0.9427

0.9393

0.9283

0.9142

0.93036

0.011257797

R

strictlyFirstOrder

F-Measure

0.9273

0.9427

0.9393

0.9283

0.9142

0.93036

0.011257797

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

L

useClassFeature

F-Measure

0.9275

0.9429

0.9391

0.9287

0.9137

0.93038

0.01142506

J

useSymWordPairs

F-Measure

0.927

0.9433

0.939

0.9304

0.913

0.93054

0.011774889

O

useDisjShape

F-Measure

0.926

0.9448

0.9391

0.9314

0.9116

0.93058

0.012812962

C

useTypeSeqs2

F-Measure

0.9284

0.9437

0.9397

0.929

0.9135

0.93086

0.011767455

H

useNext

F-Measure

0.9277

0.9431

0.9402

0.9293

0.9144

0.93094

0.011405832

K

usePosition

F-Measure

0.9275

0.9431

0.9403

0.9295

0.9147

0.93102

0.011325723

E

maxLeft=1

F-Measure

0.9287

0.9419

0.9391

0.9321

0.9157

0.9315

0.010292716

U

maxNGramLeng=6

F-Measure

0.9301

0.9446

0.9391

0.932

0.9157

0.9323

0.010931834

Q

disjunctionWidth=6

F-Measure

0.9277

0.9446

0.944

0.9348

0.9171

0.93364

0.011593662

V

noMidNGrams

F-Measure

0.9305

0.9473

0.9409

0.9357

0.916

0.93408

0.011870215

C-45

C-46 Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

T

useNGrams

Time

59.75

69.78

68.42

69.95

86.05

70.79

9.514354944

N

usePrevSequences

Time

41.31

42.08

47.84

52.42

51.52

47.034

5.174193657

G

usePrev

Time

40.44

40.38

39.58

39.49

48.55

41.688

3.861032245

P

useDisjunctive

Time

60.13

80.29

71.86

72.69

78.19

72.632

7.849134984

B

useTypeSeqs

Time

58.51

61.46

48.43

55.38

81.83

61.122

12.5480624

A

wordShape (jenny1)

Time

38.08

37.66

38.8

34.89

38.19

37.524

1.527851433

X

cleanGazette

Time

71.09

96.48

98.83

84.13

81.25

86.356

11.42555382

W

useGazettes

Time

71.23

97.85

96.33

82.84

79.15

85.48

11.41096403

D

useTypeySequences

Time

55.54

61.49

88.62

87.65

74.07

73.474

14.96629647

I

useWordPairs

Time

59.82

70.07

60.65

62.04

80.88

66.692

8.91741947

S

useSum

Time

73.36

73.22

92.7

77.19

76.11

78.516

8.114260903

F

useWord

Time

61.86

71.21

94.95

79.25

84.2

78.294

12.58447973

M

useSequences

Time

59.5

69.79

94.37

77.87

78.03

75.912

12.80478504

R

strictlyFirstOrder

Time

61.01

58.33

77.09

71.63

76.04

68.82

8.652363839

L

useClassFeature

Time

68.68

61.8

81.32

92.41

95.42

79.926

14.60207109

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

J

useSymWordPairs

Time

57.92

67.31

86.9

67.29

65.89

69.062

10.70758469

O

useDisjShape

Time

68.8

67.84

64.17

65.31

71.63

67.55

2.94682032

C

useTypeSeqs2

Time

69.03

59.7

65.84

90.2

74.52

71.858

11.57093428

H

useNext

Time

72.83

60.2

63.76

88.29

70.03

71.022

10.86610648

K

usePosition

Time

55.72

63.82

88.9

74.45

91.54

74.886

15.52199987

E

maxLeft=1

Time

74.13

80.61

109.05

117.45

88.64

93.976

18.56906514

U

maxNGramLeng=6

Time

94.42

85.69

104.89

99.29

99.09

96.676

7.174815677

Q

disjunctionWidth=6

Time

58.49

60.69

67.24

79.38

83.07

69.774

11.01507739

V

noMidNGrams

Time

92.74

125.3

116.88

96.96

116.7

109.716

14.08776348

C-47

C-48 3. Model 22 Features Uji F-Measure !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VT

useNGrams

F-Measure

0.9168

0.9294

0.9275

0.9185

0.8997

0.91838

0.011790547

VU

maxNGramLeng=6

F-Measure

0.9168

0.9294

0.9275

0.9185

0.8997

0.91838

0.011790547

VG

usePrev

F-Measure

0.9276

0.9406

0.9384

0.9311

0.9081

0.92916

0.012903217

VN

usePrevSequences

F-Measure

0.9277

0.9414

0.9382

0.9333

0.9103

0.93018

0.012260791

VP

useDisjunctive

F-Measure

0.9289

0.9439

0.9387

0.9329

0.9126

0.9314

0.011952824

VA

wordShape (jenny1)

F-Measure

0.9301

0.946

0.9378

0.933

0.9129

0.93196

0.012237769

VB

useTypeSeqs

F-Measure

0.9269

0.9455

0.9379

0.9361

0.9142

0.93212

0.012006748

VW

useGazettes

F-Measure

0.9288

0.9471

0.941

0.9343

0.915

0.93324

0.012307031

VX

cleanGazette

F-Measure

0.9288

0.9471

0.941

0.9343

0.915

0.93324

0.012307031

VO

useDisjShape

F-Measure

0.9281

0.9488

0.9411

0.9352

0.9143

0.9335

0.013158077

VD

useTypeySequences

F-Measure

0.9315

0.9461

0.9393

0.9366

0.9142

0.93354

0.01202593

VI

useWordPairs

F-Measure

0.9305

0.9471

0.9405

0.9355

0.9151

0.93374

0.012095784

VJ

useSymWordPairs

F-Measure

0.9307

0.9465

0.9409

0.9359

0.9156

0.93392

0.011799237

VL

useClassFeature

F-Measure

0.9305

0.9471

0.9407

0.9356

0.9162

0.93402

0.01170628

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VE

maxLeft=1

F-Measure

0.9299

0.9466

0.9414

0.9353

0.9172

0.93408

0.011338298

VR

strictlyFirstOrder

F-Measure

0.9305

0.9473

0.9409

0.9357

0.916

0.93408

0.011870215

VM

useSequences

F-Measure

0.9305

0.9473

0.9409

0.9357

0.916

0.93408

0.011870215

VS

useSum

F-Measure

0.9305

0.9473

0.9409

0.9357

0.916

0.93408

0.011870215

VF

useWord

F-Measure

0.9305

0.9473

0.9409

0.9357

0.916

0.93408

0.011870215

VH

useNext

F-Measure

0.9302

0.9465

0.9414

0.9357

0.9169

0.93414

0.0114089

VK

usePosition

F-Measure

0.9302

0.9467

0.9419

0.9361

0.916

0.93418

0.011899454

VC

useTypeSeqs2

F-Measure

0.9313

0.9475

0.9414

0.9359

0.9165

0.93452

0.011755935

VQ

disjunctionWidth=6

F-Measure

0.931

0.9458

0.9459

0.9365

0.9175

0.93534

0.011825523

C-49

C-50 Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VT

useNGrams

Time

63.88

72.47

73.08

73.11

89.12

74.332

9.14408388

VU

maxNGramLeng=6

Time

61.7

74.55

73.43

72.22

88.79

74.138

9.666109352

VG

usePrev

Time

64.42

64.96

64.08

64.54

67.68

65.136

1.456530123

VN

usePrevSequences

Time

61.84

72.49

68.68

80.81

71.38

71.04

6.85347722

VP

useDisjunctive

Time

90.23

124.36

99.98

94.67

93.14

100.476

13.81302393

VA

wordShape (jenny1)

Time

54.96

57.83

56.78

66.69

71.4

61.532

7.131968172

VB

useTypeSeqs

Time

77.95

107.42

102.68

112.07

96.8

99.384

13.25206512

VW

useGazettes

Time

89.92

123.49

120.35

95.76

120.82

110.068

15.90704152

VX

cleanGazette

Time

96.8

123.41

118.82

94.84

114.15

109.604

13.02041205

VO

useDisjShape

Time

88.79

88.48

91.47

90.66

107.34

93.348

7.921506801

VD

useTypeySequences

Time

108.16

92.68

94.33

93.89

112.43

100.298

9.269707115

VI

useWordPairs

Time

80.45

89.51

83.43

105

101.27

91.932

10.81616013

VJ

useSymWordPairs

Time

88.17

109.79

96.11

89.78

83.65

93.5

10.14206586

VL

useClassFeature

Time

95.87

93.71

119.31

120.08

117.24

109.242

13.25564295

VE

maxLeft=1

Time

131.02

135.67

116.29

111.97

103.47

119.684

13.39753634

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VR

strictlyFirstOrder

Time

92.4

127.37

119.76

100.39

116

111.184

14.38816632

VM

useSequences

Time

93.68

126.87

119.86

98.78

116.73

111.184

14.25070981

VS

useSum

Time

94.97

127.41

118.26

98

115.46

110.82

13.85357535

VF

useWord

Time

91.35

126.48

121.49

100.12

113.79

110.646

14.6741688

VH

useNext

Time

106.98

121.79

113.84

94.05

110.42

109.416

10.19489725

VK

usePosition

Time

86.83

99.38

99.36

119.47

95.06

100.02

12.01795948

VC

useTypeSeqs2

Time

109.91

92.38

118.35

97.17

115.64

106.69

11.42183216

VQ

disjunctionWidth=6

Time

112.21

123

122.04

97.71

98.04

110.6

12.36053599

C-51


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQT

useNGrams

F-Measure

0.9186

0.9323

0.9327

0.9216

0.9068

0.9224

0.010753

VQU

maxNGramLeng=6

F-Measure

0.9186

0.9323

0.9327

0.9216

0.9068

0.9224

0.010753

VQP

useDisjunctive

F-Measure

0.9289

0.9439

0.9387

0.9329

0.9126

0.9314

0.011953

VQG

usePrev

F-Measure

0.9281

0.9416

0.9418

0.9339

0.9143

0.9319

0.011405

VQN

usePrevSequences

F-Measure

0.9278

0.9422

0.9419

0.9335

0.9148

0.932

0.011377

VQA

wordShape (jenny1)

F-Measure

0.934

0.9466

0.9405

0.9357

0.9135

0.9341

0.012491

VQB

useTypeSeqs

F-Measure

0.9292

0.9462

0.9426

0.9365

0.9176

0.9344

0.011404

VQC

useTypeSeqs2

F-Measure

0.9306

0.9448

0.9434

0.9372

0.9183

0.9349

0.010835

VQH

useNext

F-Measure

0.9306

0.9458

0.9451

0.9367

0.9162

0.9349

0.012189

VQK

usePosition

F-Measure

0.9306

0.945

0.9455

0.9361

0.9172

0.9349

0.0117

VQD

useTypeySequences

F-Measure

0.9305

0.9462

0.945

0.9363

0.9167

0.9349

0.012065

VQL

useClassFeature

F-Measure

0.931

0.945

0.9461

0.9361

0.9175

0.9351

0.011689

VQJ

useSymWordPairs

F-Measure

0.9308

0.9456

0.9453

0.9359

0.9186

0.9352

0.011242

VQS

useSum

F-Measure

0.931

0.9458

0.9459

0.9365

0.9175

0.9353

0.011826

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQM

useSequences

F-Measure

0.931

0.9458

0.9459

0.9365

0.9175

0.9353

0.011826

VQR

strictlyFirstOrder

F-Measure

0.931

0.9458

0.9459

0.9365

0.9175

0.9353

0.011826

VQF

useWord

F-Measure

0.931

0.9458

0.9459

0.9365

0.9175

0.9353

0.011826

VQX

cleanGazette

F-Measure

0.9314

0.9469

0.9435

0.9366

0.9185

0.9354

0.01119

VQW

useGazettes

F-Measure

0.9314

0.9469

0.9435

0.9366

0.9185

0.9354

0.01119

VQI

useWordPairs

F-Measure

0.9306

0.9462

0.9472

0.9351

0.9181

0.9354

0.012024

VQO

useDisjShape

F-Measure

0.9315

0.9473

0.9439

0.9378

0.9186

0.9358

0.01136

VQE

maxLeft=1

F-Measure

0.9337

0.9492

0.9451

0.9372

0.9195

0.9369

0.011528

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQT

useNGrams

Time

67.16

69.58

71.16

70.34

94.79

74.606

11.381686

VQU

maxNGramLeng=6

Time

66.33

71.45

72.14

71.11

89.94

74.194

9.097232

VQP

useDisjunctive

Time

88.3

120.65

96.1

93.96

90.21

97.844

13.111126

VQG

usePrev

Time

63.72

69.66

67.61

71.35

67.25

67.918

2.8713011

VQN

usePrevSequences

Time

69.35

69.48

68.57

68.43

65.41

68.248

1.6525193

VQA

wordShape (jenny1)

Time

57.07

61.26

67.44

70.41

69.67

65.17

5.7827027

C-53

C-54 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQB

useTypeSeqs

Time

98.48

102.88

85.72

80.06

103.64

94.156

10.660848

VQC

useTypeSeqs2

Time

113.5

97.76

92.93

93

116.11

102.66

11.29609

VQH

useNext

Time

117.85

94.46

95.13

93.29

89.31

98.008

11.319131

VQK

usePosition

Time

90.22

97.51

87.71

96.01

117.09

97.708

11.560866

VQD

useTypeySequences

Time

99.82

94.54

94.33

92.71

95.14

95.308

2.677792

VQL

useClassFeature

Time

120.58

114.38

97.85

97.79

91.39

104.4

12.422233

VQJ

useSymWordPairs

Time

83.34

110.56

111.99

91.21

85.46

96.512

13.790162

VQS

useSum

Time

109.01

118.82

117.3

94.5

98.52

107.63

10.908923

VQM

useSequences

Time

109.54

117.95

117.34

93.64

93.08

106.31

12.279507

VQR

strictlyFirstOrder

Time

106.62

118.03

114.6

92.76

93.54

105.11

11.679619

VQF

useWord

Time

92.26

95.48

118.87

98.02

96.74

100.27

10.613523

VQX

cleanGazette

Time

128.69

120.15

96.49

96.56

114.12

111.2

14.363519

VQW

useGazettes

Time

123.76

123.03

97.39

91.79

117.14

110.62

14.989829

VQI

useWordPairs

Time

75.21

104.79

104.55

81.87

82.79

89.842

13.848708

VQO

useDisjShape

Time

82.81

87.57

88.97

98.44

86.1

88.778

5.8659841

VQE

maxLeft=1

Time

109.94

139.96

136.9

138.06

111.42

127.26

15.180148

5. Model 20 Features Uji F-Measure !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEU

maxNGramLeng=6

F-Measure

0.923

0.9331

0.9325

0.9254

0.909

0.9246

0.009762

VQET

useNGrams

F-Measure

0.923

0.9331

0.9325

0.9254

0.909

0.9246

0.009762

VQEG

usePrev

F-Measure

0.9295

0.943

0.9409

0.9336

0.9155

0.9325

0.010955

VQEN

usePrevSequences

F-Measure

0.9284

0.9449

0.942

0.9331

0.9157

0.9328

0.01165

VQEP

useDisjunctive

F-Measure

0.9288

0.9445

0.9397

0.9356

0.9159

0.9329

0.011112

VQEA

wordShape (jenny1)

F-Measure

0.9342

0.947

0.9404

0.9351

0.9135

0.934

0.012564

VQEB

useTypeSeqs

F-Measure

0.9298

0.9466

0.943

0.9361

0.917

0.9345

0.011721

VQEC

useTypeSeqs2

F-Measure

0.9305

0.9456

0.9434

0.9372

0.918

0.9349

0.011147

VQEO

useDisjShape

F-Measure

0.9338

0.9491

0.9431

0.9369

0.9176

0.9361

0.011897

VQEW

useGazettes

F-Measure

0.933

0.9491

0.9425

0.9365

0.9199

0.9362

0.010979

VQEX

cleanGazette

F-Measure

0.933

0.9491

0.9425

0.9365

0.9199

0.9362

0.010979

VQEK

usePosition

F-Measure

0.9338

0.9473

0.944

0.9367

0.9201

0.9364

0.010596

VQEJ

useSymWordPairs

F-Measure

0.9329

0.9486

0.9442

0.9362

0.9206

0.9365

0.010858

VQEL

useClassFeature

F-Measure

0.9332

0.9488

0.944

0.9368

0.9199

0.9365

0.011114

C-55

C-56 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEH

useNext

F-Measure

0.9339

0.9486

0.9441

0.9387

0.9189

0.9368

0.011456

VQEF

useWord

F-Measure

0.9337

0.9492

0.9451

0.9372

0.9195

0.9369

0.011528

VQER

strictlyFirstOrder

F-Measure

0.9337

0.9492

0.9451

0.9372

0.9195

0.9369

0.011528

VQES

useSum

F-Measure

0.9337

0.9492

0.9451

0.9372

0.9195

0.9369

0.011528

VQEM

useSequences

F-Measure

0.9337

0.9492

0.9451

0.9372

0.9195

0.9369

0.011528

VQEI

useWordPairs

F-Measure

0.9341

0.9494

0.9445

0.9362

0.9208

0.937

0.010972

VQED

useTypeySequences

F-Measure

0.9335

0.9497

0.9451

0.9385

0.9193

0.9372

0.011773

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEU

maxNGramLeng=6

Time

75.59

81.02

83.79

91.74

107.91

88.01

12.558342

VQET

useNGrams

Time

79.34

82.03

85.72

85.48

104.25

87.364

9.8008331

VQEG

usePrev

Time

71.66

80.53

81.82

81.29

78.19

78.698

4.1717227

VQEN

usePrevSequences

Time

78.04

86.44

99.04

82.61

77.98

84.822

8.695845

VQEP

useDisjunctive

Time

106.25

114.41

117.63

110.97

108.46

111.54

4.5585173

VQEA

wordShape (jenny1)

Time

68.02

70.9

63.82

73.14

76.05

70.386

4.7074388

VQEB

useTypeSeqs

Time

106.3

115.7

94.13

87.36

109.66

102.63

11.609668

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEC

useTypeSeqs2

Time

124.38

111.35

107.41

102.25

124.29

113.94

10.026479

VQEO

useDisjShape

Time

128.3

133.52

108.38

103.32

99.61

114.63

15.299346

VQEW

useGazettes

Time

101.52

112.94

99.87

115.56

134.93

112.96

14.068253

VQEX

cleanGazette

Time

92.81

94.89

102.12

113.09

131.26

106.83

15.790191

VQEK

usePosition

Time

102.38

104.61

137.12

130.59

107.04

116.35

16.231413

VQEJ

useSymWordPairs

Time

98

100.28

127.63

98.85

95.62

104.08

13.27529

VQEL

useClassFeature

Time

99.97

113.44

116.47

105.66

124.81

112.07

9.631233

VQEH

useNext

Time

128.33

131.21

133.26

139.6

106.75

127.83

12.490582

VQEF

useWord

Time

108.28

140.14

136.61

140.91

109.56

127.1

16.681141

VQER

strictlyFirstOrder

Time

110.76

139.85

139.25

137.62

107.01

126.9

16.517075

VQES

useSum

Time

109.41

141.04

137.76

137.03

108.52

126.75

16.310358

VQEM

useSequences

Time

106.94

137.27

138.84

133.04

107.36

124.69

16.152343

VQEI

useWordPairs

Time

92.31

94.81

97.65

91.98

115.25

98.4

9.6912022

VQED

useTypeySequences

Time

126.27

141.17

136.9

133.58

106.42

128.87

13.681351

C-57


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDT

useNGrams

F-Measure

0.9222

0.934

0.9321

0.926

0.9097

0.9248

0.00865

VQEDU

maxNGramLeng=6

F-Measure

0.9222

0.934

0.9321

0.926

0.9097

0.9248

0.00865

VQEDG

usePrev

F-Measure

0.9263

0.9434

0.9376

0.9321

0.9124

0.9304

0.010626

VQEDN

usePrevSequences

F-Measure

0.9253

0.9449

0.9391

0.9334

0.914

0.9313

0.010821

VQEDP

useDisjunctive

F-Measure

0.9287

0.9435

0.9406

0.9349

0.9168

0.9329

0.009513

VQEDA

wordShape (jenny1)

F-Measure

0.9344

0.947

0.9401

0.9361

0.9147

0.9345

0.010791

VQEDB

useTypeSeqs

F-Measure

0.9297

0.9456

0.9449

0.9371

0.9164

0.9347

0.010849

VQEDC

useTypeSeqs2

F-Measure

0.9297

0.9465

0.9452

0.9386

0.9172

0.9354

0.010892

VQEDO

useDisjShape

F-Measure

0.9327

0.9495

0.9443

0.9382

0.9181

0.9366

0.010823

VQEDH

useNext

F-Measure

0.9328

0.9489

0.9468

0.9376

0.9176

0.9367

0.01124

VQEDL

useClassFeature

F-Measure

0.9326

0.9493

0.9447

0.9385

0.9191

0.9368

0.010512

VQEDJ

useSymWordPairs

F-Measure

0.9318

0.9491

0.9457

0.9376

0.9201

0.9369

0.010344

VQEDX

cleanGazette

F-Measure

0.9339

0.9489

0.9436

0.9387

0.9195

0.9369

0.010039

VQEDW

useGazettes

F-Measure

0.9339

0.9489

0.9436

0.9387

0.9195

0.9369

0.010039

VQEDI

useWordPairs

F-Measure

0.9339

0.9502

0.9451

0.9373

0.9193

0.9372

0.010609

VQEDR

strictlyFirstOrder

F-Measure

0.9335

0.9497

0.9451

0.9385

0.9193

0.9372

0.01053

VQEDF

useWord

F-Measure

0.9335

0.9497

0.9451

0.9385

0.9193

0.9372

0.01053

VQEDS

useSum

F-Measure

0.9335

0.9497

0.9451

0.9385

0.9193

0.9372

11.5221

VQEDM

useSequences

F-Measure

0.9335

0.9497

0.9451

0.9385

0.9193

0.9372

0.01053

VQEDK

usePosition

F-Measure

0.9339

0.9498

0.9453

0.9378

0.9197

0.9373

0.01041

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDT

useNGrams

Time

72.66

80.89

103.57

80.55

93.79

86.292

10.97937

VQEDU

maxNGramLeng=6

Time

69.99

80.67

103.94

81.25

94

85.97

11.773959

VQEDG

usePrev

Time

73.89

78.84

78.33

76.72

76.89

76.934

1.7259965

VQEDN

usePrevSequences

Time

75.64

83.24

80.26

79.45

79.75

79.668

2.4244043

VQEDP

useDisjunctive

Time

104.47

141.72

116.03

111.44

130.66

120.86

13.504643

VQEDA

wordShape (jenny1)

Time

62.37

65.47

67.34

69.03

98.09

72.46

13.004187

VQEDB

useTypeSeqs

Time

85.39

88.3

104.36

85.94

107.3

94.258

9.5443437

VQEDC

useTypeSeqs2

Time

125.48

101.75

99.82

126.45

119.01

114.5

11.504502

VQEDO

useDisjShape

Time

96.65

109.57

101.24

99.13

96.86

100.69

4.7451238

C-59

C-60 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDH

useNext

Time

98.62

136.52

130.73

133.53

97.78

119.44

17.437583

VQEDL

useClassFeature

Time

122.87

124.56

98.61

123.57

98.82

113.69

12.235742

VQEDJ

useSymWordPairs

Time

85.05

96.24

117.5

116.1

89.86

100.95

13.426892

VQEDX

cleanGazette

Time

138.74

105.09

135.57

108.06

107.58

119.01

14.885028

VQEDW

useGazettes

Time

133.54

110.77

133.14

108.02

105.62

118.22

12.454809

VQEDI

useWordPairs

Time

102.24

108.01

90.04

95.26

106.58

100.43

6.8298744

VQEDR

strictlyFirstOrder

Time

130.13

146.77

135.11

133.25

109.25

130.9

12.201794

VQEDF

useWord

Time

127.93

143.58

135.44

127.5

107.27

128.34

12.062223

VQEDS

useSum

Time

127.32

141.35

135.45

129.45

107.32

128.18

11.522099

VQEDM

useSequences

Time

107.62

127.75

133.72

132.23

107.86

121.84

11.676158

VQEDK

usePosition

Time

118.2

128.03

103

93.81

113.84

111.38

11.905593


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKU

maxNGramLeng=6

F-Measure

0.9233

0.9358

0.9326

0.9263

0.9102

0.92564

0.00995

VQEDKT

useNGrams

F-Measure

0.9233

0.9358

0.9326

0.9263

0.9102

0.92564

0.00995

VQEDKG

usePrev

F-Measure

0.9268

0.943

0.9389

0.9321

0.913

0.93076

0.011715

VQEDKN

usePrevSequences

F-Measure

0.9257

0.9442

0.9391

0.9331

0.9133

0.93108

0.0121

VQEDKP

useDisjunctive

F-Measure

0.9307

0.9432

0.9393

0.9349

0.9168

0.93298

0.010187

VQEDKA

wordShape (jenny1)

F-Measure

0.9328

0.9495

0.9392

0.9347

0.9146

0.93416

0.012703

VQEDKB

useTypeSeqs

F-Measure

0.929

0.9466

0.9453

0.9365

0.9164

0.93476

0.012496

VQEDKC

useTypeSeqs2

F-Measure

0.9301

0.9478

0.9473

0.9376

0.9188

0.93632

0.012244

VQEDKH

useNext

F-Measure

0.9336

0.948

0.946

0.937

0.9182

0.93656

0.011896

VQEDKO

useDisjShape

F-Measure

0.9338

0.9497

0.943

0.9375

0.9195

0.9367

0.011331

VQEDKW

useGazettes

F-Measure

0.9317

0.9499

0.944

0.9382

0.9207

0.9369

0.011298

VQEDKX

cleanGazette

F-Measure

0.9317

0.9499

0.944

0.9382

0.9207

0.9369

0.011298

VQEDKL

useClassFeature

F-Measure

0.9338

0.9489

0.9447

0.9378

0.9197

0.93698

0.011303

VQEDKR

strictlyFirstOrder

F-Measure

0.9339

0.9498

0.9453

0.9378

0.9197

0.9373

0.011639

C-61

C-62 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKS

useSum

F-Measure

0.9339

0.9498

0.9453

0.9378

0.9197

0.9373

0.011639

VQEDKF

useWord

F-Measure

0.9339

0.9498

0.9453

0.9378

0.9197

0.9373

0.011639

VQEDKM

useSequences

F-Measure

0.9339

0.9498

0.9453

0.9378

0.9197

0.9373

0.011639

VQEDKJ

useSymWordPairs

F-Measure

0.9336

0.949

0.9465

0.9376

0.9209

0.93752

0.011225

VQEDKI

useWordPairs

F-Measure

0.9339

0.9486

0.9478

0.937

0.9211

0.93768

0.011306

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKU

maxNGramLeng=6

Time

88.48

75.56

76.41

93.19

70.82

80.892

9.4707745

VQEDKT

useNGrams

Time

89.43

75.88

73.84

91.85

70.87

80.374

9.5776422

VQEDKG

usePrev

Time

67.7

71.32

67.5

68.28

70.14

68.988

1.668808

VQEDKN

usePrevSequences

Time

65.23

73.1

75.33

75.27

73.66

72.518

4.190426

VQEDKP

useDisjunctive

Time

89.13

84.75

117.67

102.05

100.82

98.884

12.860753

VQEDKA

wordShape (jenny1)

Time

60.31

58.88

57.59

63.66

68.77

61.842

4.4861531

VQEDKB

useTypeSeqs

Time

99.67

85.93

105.6

76.06

97.84

93.02

11.870352

VQEDKC

useTypeSeqs2

Time

86.12

90.8

119.84

96.83

86.35

95.988

14.025073

VQEDKH

useNext

Time

85.41

95.99

121.83

99.36

93.63

99.244

13.634753

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKO

useDisjShape

Time

85.36

99.03

123.21

91.65

87.8

97.41

15.321526

VQEDKW

useGazettes

Time

105.53

110.69

104.36

125.75

124.45

114.16

10.280685

VQEDKX

cleanGazette

Time

99.47

108.09

101.77

126.34

129.05

112.94

13.863841

VQEDKL

useClassFeature

Time

104.75

131.44

128.41

117.02

120.01

120.33

10.518

VQEDKR

strictlyFirstOrder

Time

126.11

136.51

108.65

98.31

118.96

117.71

14.86612

VQEDKS

useSum

Time

123.82

135.17

106.77

100.96

113.04

115.95

13.681976

VQEDKF

useWord

Time

119.98

132.72

101.98

98.68

114.14

113.5

13.821642

VQEDKM

useSequences

Time

119.87

128.9

103.02

95.44

113.8

112.21

13.280142

VQEDKJ

useSymWordPairs

Time

88.14

119.1

95.39

89.98

110.75

100.67

13.605391

VQEDKI

useWordPairs

Time

76.01

74.49

90.88

80.94

79.92

80.448

6.4136784

C-63


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKIT

useNGrams

F-Measure

0.9233

0.9352

0.9345

0.9258

0.9105

0.92586

0.010054501

VQEDKIU

maxNGramLeng=6

F-Measure

0.9233

0.9352

0.9345

0.9258

0.9105

0.92586

0.010054501

VQEDKIG

usePrev

F-Measure

0.9272

0.9425

0.9393

0.9314

0.9128

0.93064

0.011686873

VQEDKIN

usePrevSequences

F-Measure

0.9263

0.9433

0.9401

0.9318

0.9135

0.931

0.011864653

VQEDKIP

useDisjunctive

F-Measure

0.9296

0.9437

0.9386

0.935

0.9157

0.93252

0.010718535

VQEDKIA

wordShape (jenny1)

F-Measure

0.9336

0.9487

0.9399

0.9358

0.9134

0.93428

0.013021789

VQEDKIB

useTypeSeqs

F-Measure

0.9294

0.9473

0.9468

0.9361

0.9174

0.9354

0.012570402

VQEDKIC

useTypeSeqs2

F-Measure

0.9304

0.9474

0.9461

0.9382

0.9201

0.93644

0.011401886

VQEDKIO

useDisjShape

F-Measure

0.933

0.9488

0.9449

0.9367

0.919

0.93648

0.011623124

VQEDKIW

useGazettes

F-Measure

0.9327

0.9488

0.9449

0.9374

0.9205

0.93686

0.01109563

VQEDKIX

cleanGazette

F-Measure

0.9327

0.9488

0.9449

0.9374

0.9205

0.93686

0.01109563

VQEDKIJ

useSymWordPairs

F-Measure

0.9326

0.9497

0.9463

0.9361

0.9205

0.93704

0.011621015

VQEDKIH

useNext

F-Measure

0.9349

0.949

0.947

0.9375

0.9191

0.9375

0.011914487

VQEDKIM

useSequences

F-Measure

0.9339

0.9486

0.9478

0.937

0.9211

0.93768

0.01130606

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKIR

strictlyFirstOrder

F-Measure

0.9339

0.9486

0.9478

0.937

0.9211

0.93768

0.01130606

VQEDKIF

useWord

F-Measure

0.9339

0.9486

0.9478

0.937

0.9211

0.93768

0.01130606

VQEDKIS

useSum

F-Measure

0.9339

0.9486

0.9478

0.937

0.9211

0.93768

0.01130606

VQEDKIL

useClassFeature

F-Measure

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.011641735

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKIT

useNGrams

Time

56.26

61.33

79.15

66.04

59.61

64.478

8.928189626

VQEDKIU

maxNGramLeng=6

Time

50.58

58.27

75.03

62.28

58.46

60.924

8.957278046

VQEDKIG

usePrev

Time

51.66

59.32

58.38

59.66

51.62

56.128

4.12372647

VQEDKIN

usePrevSequences

Time

56.86

59.83

62.94

61.49

60.97

60.418

2.281418418

VQEDKIP

useDisjunctive

Time

86.38

118.92

119.51

92.25

87.66

100.944

16.82255421

VQEDKIA

wordShape (jenny1)

Time

49.2

52.4

51.14

50.08

52.2

51.004

1.369846707

VQEDKIB

useTypeSeqs

Time

83.34

89.63

89.92

72.68

63.2

79.754

11.59545946

VQEDKIC

useTypeSeqs2

Time

88.26

82.22

86.65

104.06

78.42

87.922

9.810301728

VQEDKIO

useDisjShape

Time

77.35

81.22

83.93

82.21

80.41

81.024

2.437474102

VQEDKIW

useGazettes

Time

79.39

90.13

90.66

88.41

82.18

86.154

5.068197905

C-65

C-66 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKIX

cleanGazette

Time

79.8

91.77

88.79

88.54

81.03

85.986

5.259955323

VQEDKIJ

useSymWordPairs

Time

94.41

102.15

89.3

83.11

82.3

90.254

8.276474491

VQEDKIH

useNext

Time

97.07

105.06

106.01

82.44

101.58

98.432

9.602935489

VQEDKIM

useSequences

Time

81.08

91.44

111.55

87.46

84.68

91.242

11.96958312

VQEDKIR

strictlyFirstOrder

Time

79.19

89.28

111.56

86.2

85.55

90.356

12.40782938

VQEDKIF

useWord

Time

78.24

89.05

112.62

87.79

83.88

90.316

13.15963259

VQEDKIS

useSum

Time

77.93

87.57

111.96

87.15

83.27

89.576

13.09912134

VQEDKIL

useClassFeature

Time

91.99

113.55

90.66

85.66

107.45

97.862

11.97164442


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILT

useNGrams

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILU

maxNGramLeng=6

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILG

usePrev

0.9264

0.9415

0.9397

0.9298

0.9157

0.93062

0.01051

VQEDKILN

usePrevSequences

0.9257

0.9412

0.9399

0.9317

0.916

0.9309

0.01045

VQEDKILP

useDisjunctive

0.9286

0.9446

0.9378

0.9353

0.9159

0.93244

0.01088

VQEDKILA

wordShape=jenny1

0.934

0.9482

0.9401

0.9358

0.914

0.93442

0.01266

VQEDKILB

useTypeSeqs

0.9296

0.9472

0.9445

0.9369

0.9168

0.935

0.01228

VQEDKILC

useTypeSeqs2

0.9304

0.9472

0.947

0.9371

0.9185

0.93604

0.0121

VQEDKILJ

useSymWordPairs

FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure

0.9332

0.9485

0.9461

0.9357

0.9207

0.93684

0.01114

C-67

C-68 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILO

useDisjShape

0.9339

0.9486

0.9455

0.9373

0.9195

0.93696

0.01143

VQEDKILW

useGazettes

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILX

cleanGazette

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILH

useNext

0.9347

0.9492

0.9468

0.9382

0.9191

0.9376

0.01194

VQEDKILR

strictlyFirstOrder

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

VQEDKILS

useSum

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

VQEDKILM

useSequences

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

VQEDKILF

useWord

FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure FMeasure

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILT

useNGrams

Time

59.58

61

80.18

62.27

79.66

68.54

10.435397

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILU

maxNGramLeng=6

Time

56.2

60.52

79.97

61.23

80.06

67.6

11.499258

VQEDKILG

usePrev

Time

48.72

55.67

57.36

56.49

51.56

53.96

3.6777235

VQEDKILN

usePrevSequences

Time

54

57.08

63.53

57.83

59.35

58.36

3.4870432

VQEDKILP

useDisjunctive

Time

88.47

120.47

94.73

93.01

88.11

96.96

13.450819

VQEDKILA

wordShape=jenny1

Time

48.53

51.66

53.44

47.55

47.44

49.72

2.6891132

VQEDKILB

useTypeSeqs

Time

56.92

88.68

69.61

80.16

62.1

71.49

12.987074

VQEDKILC

useTypeSeqs2

Time

71.25

99.05

101.69

93.43

93.82

91.85

12.035394

VQEDKILJ

useSymWordPairs

Time

64.72

94.6

96.46

79.62

73.85

81.85

13.586983

VQEDKILO

useDisjShape

Time

101.19

102.8

87.48

84.81

78.21

90.9

10.692459

VQEDKILW

useGazettes

Time

99.71

107.87

92.37

86.97

104.24

98.23

8.5493754

VQEDKILX

cleanGazette

Time

101.71

107.1

89.53

84

101.36

96.74

9.5873171

VQEDKILH

useNext

Time

77.39

100.88

81.57

103.35

99.82

92.6

12.13728

VQEDKILR

strictlyFirstOrder

Time

91.31

116.83

94.32

88.15

108.93

99.91

12.360749

VQEDKILS

useSum

Time

85.98

119.99

93.63

86.2

109.73

99.11

15.148054

VQEDKILM

useSequences

Time

81.69

107.65

87.96

81.97

105.88

93.03

12.801279

VQEDKILF

useWord

Time

79.44

106.38

85.96

81.19

101.88

90.97

12.350968

C-69

C-70


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFT

useNGrams

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFU

maxNGramLeng=6

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFG

usePrev

0.9264

0.9415

0.9397

0.9298

0.9157

0.93062

0.01051

VQEDKILFN

usePrevSequences

0.9257

0.9412

0.9399

0.9317

0.916

0.9309

0.01045

VQEDKILFP

useDisjunctive

0.9286

0.9446

0.9378

0.9353

0.9159

0.93244

0.01088

VQEDKILFA

wordShape=jenny1

0.934

0.9482

0.9401

0.9358

0.914

0.93442

0.01266

VQEDKILFB

useTypeSeqs

0.9296

0.9472

0.9445

0.9369

0.9168

0.935

0.01228

VQEDKILFC

useTypeSeqs2


0.9304

0.9472

0.947

0.9371

0.9185

0.93604

0.0121

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFJ

useSymWordPairs

0.9332

0.9485

0.9461

0.9357

0.9207

0.93684

0.01114

VQEDKILFO

useDisjShape

0.9339

0.9486

0.9455

0.9373

0.9195

0.93696

0.01143

VQEDKILFX

cleanGazette

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFW

useGazettes

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFH

useNext

0.9347

0.9492

0.9468

0.9382

0.9191

0.9376

0.01194

VQEDKILFM

useSequences

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

VQEDKILFS

useSum

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

VQEDKILFR

strictlyFirstOrder


0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFT

useNGrams

Time

51.07

57.59

76.29

58.28

75.19

63.68

11.366093

C-71

C-72 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFU

maxNGramLeng=6

Time

51.89

57.97

75.93

56.55

75.08

63.48

11.205752

VQEDKILFG

usePrev

Time

50.42

53.81

57.26

57.57

50.83

53.98

3.4011572

VQEDKILFN

usePrevSequences

Time

53.12

58.73

58.38

56.77

54.24

56.25

2.4897128

VQEDKILFP

useDisjunctive

Time

78.51

112.63

88.83

88.1

84.52

90.52

13.017341

VQEDKILFA

wordShape=jenny1

Time

51.86

51.44

53.82

49.48

47.99

50.92

2.2484706

VQEDKILFB

useTypeSeqs

Time

59.12

88.47

68

80.45

62.15

71.64

12.459184

VQEDKILFC

useTypeSeqs2

Time

72.88

98.61

103.02

93.45

93.98

92.39

11.575589

VQEDKILFJ

useSymWordPairs

Time

66.05

95.91

98.11

79.99

73.83

82.78

13.921075

VQEDKILFO

useDisjShape

Time

90.15

97.78

81.94

77.58

72.43

83.98

10.087528

VQEDKILFX

cleanGazette

Time

99.72

105.9

89.28

86.37

102.6

96.77

8.5192183

VQEDKILFW

useGazettes

Time

95.97

106

88.12

83.56

99.1

94.55

8.8874406

VQEDKILFH

useNext

Time

74.36

97.93

80.15

103.43

97.77

90.73

12.674826

VQEDKILFM

useSequences

Time

81.2

105.93

86.43

79.6

102.62

91.16

12.295248

VQEDKILFS

useSum

Time

79.02

109.22

86.02

79.65

100.93

90.97

13.488064

VQEDKILFR

strictlyFirstOrder

Time

79.59

106.26

84.92

80.96

103

90.95

12.696546


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFRT

useNGrams

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRU

maxNGramLeng=6

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRG

usePrev

F-Measure

0.9264

0.9415

0.9397

0.9298

0.9157

0.93062

0.01051

VQEDKILFRN

usePrevSequences

F-Measure

0.9257

0.9412

0.9399

0.9317

0.916

0.9309

0.01045

VQEDKILFRP

useDisjunctive

F-Measure

0.9286

0.9446

0.9378

0.9353

0.9159

0.93244

0.01088

VQEDKILFRA

wordShape=jenny1

F-Measure

0.934

0.9482

0.9401

0.9358

0.914

0.93442

0.01266

VQEDKILFRB

useTypeSeqs

F-Measure

0.9296

0.9472

0.9445

0.9369

0.9168

0.935

0.01228

VQEDKILFRC

useTypeSeqs2

F-Measure

0.9304

0.9472

0.947

0.9371

0.9185

0.93604

0.0121

VQEDKILFRJ

useSymWordPairs

F-Measure

0.9332

0.9485

0.9461

0.9357

0.9207

0.93684

0.01114

VQEDKILFRO

useDisjShape

F-Measure

0.9339

0.9486

0.9455

0.9373

0.9195

0.93696

0.01143

VQEDKILFRX

cleanGazette

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRW

useGazettes

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRH

useNext

F-Measure

0.9347

0.9492

0.9468

0.9382

0.9191

0.9376

0.01194

VQEDKILFRS

useSum

F-Measure

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

C-73

C-74 !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFRM

useSequences

F-Measure

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFRT

useNGrams

Time

53.4

58.53

76.76

58.36

76.54

64.72

11.085825

VQEDKILFRU

maxNGramLeng=6

Time

52.73

57.04

76.97

58.91

76.3

64.39

11.402993

VQEDKILFRG

usePrev

Time

51.83

53.81

56.42

57.34

50.54

53.99

2.9037855

VQEDKILFRN

usePrevSequences

Time

54.26

58.79

61.69

57.76

55.65

57.63

2.8776466

VQEDKILFRP

useDisjunctive

Time

81.22

115.77

88.91

89.14

84.17

91.84

13.785256

VQEDKILFRA

wordShape=jenny1

Time

49.31

50.89

53.46

49.57

48.8

50.41

1.8735341

VQEDKILFRB

useTypeSeqs

Time

60.26

88.35

68.63

79.98

61.02

71.65

12.248758

VQEDKILFRC

useTypeSeqs2

Time

71.63

100.02

102.93

94.35

92.98

92.38

12.293042

VQEDKILFRJ

useSymWordPairs

Time

66.18

94.1

95.33

80.2

74.18

82

12.636887

VQEDKILFRO

useDisjShape

Time

93.21

97.43

83.64

78.86

74.53

85.53

9.6131852

VQEDKILFRX

cleanGazette

Time

98.97

106.96

91.45

86.97

102.79

97.43

8.1715066

VQEDKILFRW

useGazettes

Time

99.56

104.6

87.85

83.65

103.24

95.78

9.4571957

!exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFRH

useNext

Time

75.75

101

81.96

104.89

98.39

92.4

12.767696

VQEDKILFRS

useSum

Time

82.73

106.56

85.22

80.21

103.13

91.57

12.307024

VQEDKILFRM

useSequences

Time

81.83

107.03

85.1

78.9

103.7

91.31

13.067833

C-75


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFRMT

useNGrams

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRMU

maxNGramLeng=6

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRMG

usePrev

F-Measure

0.9264

0.9415

0.9397

0.9298

0.9157

0.93062

0.01051

VQEDKILFRMN

usePrevSequences

F-Measure

0.9257

0.9412

0.9399

0.9317

0.916

0.9309

0.01045

VQEDKILFRMP

useDisjunctive

F-Measure

0.9286

0.9446

0.9378

0.9353

0.9159

0.93244

0.01088

VQEDKILFRMA

wordShape=jenny1

F-Measure

0.934

0.9482

0.9401

0.9358

0.914

0.93442

0.01266

VQEDKILFRMB

useTypeSeqs

F-Measure

0.9296

0.9472

0.9445

0.9369

0.9168

0.935

0.01228

VQEDKILFRMC

useTypeSeqs2

F-Measure

0.9304

0.9472

0.947

0.9371

0.9185

0.93604

0.0121

VQEDKILFRMJ

useSymWordPairs

F-Measure

0.9332

0.9485

0.9461

0.9357

0.9207

0.93684

0.01114

VQEDKILFRMO

useDisjShape

F-Measure

0.9339

0.9486

0.9455

0.9373

0.9195

0.93696

0.01143

VQEDKILFRMX

cleanGazette

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRMW

useGazettes

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRMH

useNext

F-Measure

0.9347

0.9492

0.9468

0.9382

0.9191

0.9376

0.01194

VQEDKILFRMS

useSum

F-Measure

0.9338

0.9494

0.9474

0.9374

0.9205

0.9377

0.01164

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFRT

useNGrams

Time

52.76

57.36

76.77

59.21

76.74

64.57

11.370342

VQEDKILFRU

maxNGramLeng=6

Time

53.52

57.59

76.2

59

75.96

64.45

10.802425

VQEDKILFRG

usePrev

Time

49.11

57.48

56.84

56.46

54.67

54.91

3.4069737

VQEDKILFRN

usePrevSequences

Time

54.31

60.38

60.91

57.16

54.62

57.48

3.1026489

VQEDKILFRP

useDisjunctive

Time

79.19

112.8

90.37

90.08

83.7

91.23

12.932415

VQEDKILFRA

wordShape=jenny1

Time

49.5

50.39

53.38

49.3

47.59

50.03

2.1283491

VQEDKILFRB

useTypeSeqs

Time

58.66

90.59

69.81

80.06

61.57

72.14

13.247576

VQEDKILFRC

useTypeSeqs2

Time

70.69

99.19

102.51

93.48

92.38

91.65

12.429749

VQEDKILFRJ

useSymWordPairs

Time

68.17

95.62

97.09

78.84

74.91

82.93

12.849589

VQEDKILFRO

useDisjShape

Time

93.04

100.19

84.37

80.25

74.07

86.38

10.346796

VQEDKILFRX

cleanGazette

Time

99.29

106.91

91.66

84.95

101.31

96.82

8.5963876

VQEDKILFRW

useGazettes

Time

98.71

104.64

87.33

83.52

99.87

94.81

8.9562397

VQEDKILFRH

useNext

Time

76.1

101.77

81.76

103.3

100.05

92.6

12.686971

VQEDKILFRS

useSum

Time

74.24

89.93

77.97

83.62

108.59

86.87

13.513062

C-77


Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

F_AVG

F_STDEV

VQEDKILFRMST

useNGrams

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRMSU

maxNGramLeng=6

F-Measure

0.9231

0.9354

0.935

0.9256

0.9102

0.92586

0.01034

VQEDKILFRMSG

usePrev

F-Measure

0.9264

0.9415

0.9397

0.9298

0.9157

0.93062

0.01051

VQEDKILFRMSN

usePrevSequences

F-Measure

0.9257

0.9412

0.9399

0.9317

0.916

0.9309

0.01045

VQEDKILFRMSP

useDisjunctive

F-Measure

0.9286

0.9446

0.9378

0.9353

0.9159

0.93244

0.01088

VQEDKILFRMSA

wordShape=jenny1

F-Measure

0.934

0.9482

0.9401

0.9358

0.914

0.93442

0.01266

VQEDKILFRMSB

useTypeSeqs

F-Measure

0.9296

0.9472

0.9445

0.9369

0.9168

0.935

0.01228

VQEDKILFRMSC

useTypeSeqs2

F-Measure

0.9304

0.9472

0.947

0.9371

0.9185

0.93604

0.0121

VQEDKILFRMSJ

useSymWordPairs

F-Measure

0.9332

0.9485

0.9461

0.9357

0.9207

0.93684

0.01114

VQEDKILFRMSO

useDisjShape

F-Measure

0.9339

0.9486

0.9455

0.9373

0.9195

0.93696

0.01143

VQEDKILFRMSW

useGazettes

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRMSX

cleanGazette

F-Measure

0.9336

0.9482

0.9455

0.9374

0.9203

0.937

0.01105

VQEDKILFRMSH

useNext

F-Measure

0.9347

0.9492

0.9468

0.9382

0.9191

0.9376

0.01194

Uji Time !exist FE

Feature Extractor

Uji

Model 1

Model 2

Model 3

Model 4

Model 5

T_AVG

T_STDEV

VQEDKILFRT

useNGrams

Time

55.79

61.59

80.53

61.64

80.68

68.05

11.708912

VQEDKILFRU

maxNGramLeng=6

Time

56.65

60.41

80.37

61.83

79.63

67.78

11.319528

VQEDKILFRG

usePrev

Time

46.84

54.41

55.2

53.57

46.84

51.37

4.1770887

VQEDKILFRN

usePrevSequences

Time

51.15

58.03

72.09

70.05

65.49

63.36

8.7034315

VQEDKILFRP

useDisjunctive

Time

97.14

130.1

94.81

92.86

86.79

100.3

17.073601

VQEDKILFRA

wordShape=jenny1

Time

56.07

68.89

83.89

74.42

59.24

68.5

11.317057

VQEDKILFRB

useTypeSeqs

Time

65.2

95.77

70.3

78.67

60.96

74.18

13.754557

VQEDKILFRC

useTypeSeqs2

Time

66.5

97.09

100.06

88.54

89.86

88.41

13.164653

VQEDKILFRJ

useSymWordPairs

Time

58.98

89.26

93.88

75.11

70.66

77.58

14.160329

VQEDKILFRO

useDisjShape

Time

112.36

112.08

96.84

94.33

85.21

100.2

11.826243

VQEDKILFRW

useGazettes

Time

103.02

108.66

90.87

92.95

107.8

100.7

8.3041767

VQEDKILFRX

cleanGazette

Time

106.37

109.6

91.66

89.12

105.11

100.4

9.3017079

VQEDKILFRH

useNext

Time

71.79

95.77

77.86

98.97

92.97

87.47

11.933194

C-79

C-80 Halaman ini sengaja dikosongkan

PENDETEKSIAN NAMA LOKASI DARI INFORMASI PUBLIK PADA MEDIA SOSIAL KOTA SURABAYA BERBASIS NAMED-ENTITY RECOGNITION

Recommend Documents