PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER
TUGAS AKHIR
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Oleh: Mar’ie Saniy 201210370311172
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG Juli 2016
i
ii
iii
KATA PENGANTAR Assalamu’alaikum Wr. Wb. Puji syukur ke hadirat Allah SWT yang telah memberi kekuatan dan petunjuk serta melimpahkan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Pembuatan Model Named Entity Recognition Untuk Twitter Bahasa Indonesia Dengan Menggunakan Stanford NER”, dimana tugas akhir ini adalah persyaratan untuk menyelesaikan studi di Jurusan Teknik Informatika jenjang Strata-1 Universitas Muhammadiyah Malang. Dengan segala kerendahan hati, penulis menyadari bahwa dalam menyelesaikan tugas akhir ini tidak lepas dari peran berbagai pihak yang telah banyak memberikan bantuan, bimbingan dan dukungan. Dalam kesempatan ini penulis ingin mengucapkan terima kasih yang tak terhingga kepada: 1. Bapak Yuda Munarko, S.Kom., M.Sc selaku Ketua Jurusan Teknik Informatika dan dosen pembimbing I yang telah memberikan pengarahan, bimbingan, serta masukan selama pelaksanaan tugas akhir dan penelitian serta penulisan laporan. 2. Bapak Ilyas Nuryasin, S.Kom., M.Kom selaku dosen pembimbing II yang telah
memberikan
pengarahan,
bimbingan,
serta
masukan
selama
pelaksanaan tugas akhir dan penelitian serta penulisan laporan. 3. Ayah dan Ibuku tercinta dan tersayang yang telah banyak memberikan cinta, kasih, sayangnya dan tak pernah berhenti kiriman doanya kepada penulis, hingga penulis mampu menyelesaikan skripsi ini, serta untuk dua adikku tersayang terima kasih buat doa, dorongan semangat dan keceriaan yang diberikan kepada penulis. 4. Sahabat–sahabat dan teman–teman di Universitas Muhammadiyah Malang, khususnya teman-teman di jurusan Teknik Informatika angkatan 2012 dan teman-teman KKN kelompok 116 tahun 2015. 5. Serta semua pihak yang mungkin belum saya sebutkan dan sahabat-sahabat yang telah membantu penulis hingga terselesaikannya tugas akhir ini, semoga Allah SWT memberikan balasan yang sesuai atas jasa dan bantuan yang telah diberikan.
vi
Penulis menyadari sepenuhnya bahwa sebagai manusia biasa tentunya tidak akan luput dari kekurangan dan keterbatasan. Maka dengan segenap kerendahan hati, penulis mengharapkan saran dan kritik yang dapat menyempurnakan penulisan ini sehingga dapat bermanfaat dan berguna untuk pengembangan ilmu pengetahuan.
Malang, Juli 2016
Penulis
vii
DAFTAR ISI Halaman Judul Lembar Persetujuan .............................................................................................i Lembar Pengesahan ............................................................................................ii Lembar Pernyataan..............................................................................................iii Abstrak ................................................................................................................iv Abstract ...............................................................................................................v Kata Pengantar ....................................................................................................vi Daftar Isi..............................................................................................................viii Daftar Gambar .....................................................................................................x Daftar Tabel ........................................................................................................xii
BAB I PENDAHULUAN ...................................................................................1 1.1. Latar Belakang ....................................................................................1 1.2. Rumusan Masalah ...............................................................................2 1.3. Tujuan .................................................................................................2 1.4. Batasan Masalah .................................................................................2 1.5. Sistematika Penulisan .........................................................................3
BAB II LANDASAN TEORI .............................................................................4 2.1. Twitter.................................................................................................4 2.2. Bahasa Indonesia Formal ....................................................................7 2.3. Bahasa Indonesia Informal .................................................................8 2.4. Conditional Random Field .................................................................9 2.5. Natural Language Processing ............................................................9 2.6. Named Entity Recognition ..................................................................10 2.7. Stanford NER ......................................................................................11 2.8 Teknik Pengujian .................................................................................12 2.8.1. Recall ........................................................................................12 2.8.2. Presisi .......................................................................................12
viii
BAB III ANALISA DAN PERANCANGAN SISTEM .....................................13 3.1. Analisa Tweet......................................................................................13 3.1.1. Tweet Bahasa Indonesia Formal ...............................................13 3.1.2. Tweet Bahasa Indonesia Informal.............................................14 3.2. Analisa Kebutuhan Hardware ............................................................14 3.3. Analisa Kebutuhan Software ..............................................................15 3.4. Perancangan Sistem ............................................................................15 3.4.1. Pengumpulan Data ....................................................................15 3.4.2. Pengelompokan Data ................................................................16 3.4.3. Tagging Data ............................................................................17 3.4.4. Training Data Dengan Stanford NER .......................................18
BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM.................................28 4.1. Implementasi Model pada Stanford NER ...........................................28 4.1.1. Model Formal ...........................................................................28 4.1.2. Model Informal .........................................................................30 4.1.3. Model Umum............................................................................32 4.2. Perhitungan Nilai Recall dan Presisi ..................................................34 4.3. Hasil Perhitungan................................................................................35 4.3.1. Pengujian Model Formal ..........................................................35 4.3.2. Pengujian Model Informal ........................................................38 4.3.3. Pengujian Model Umum...........................................................41 4.4. Pengujian Cross Validation ................................................................45 4.5. Kesimpulan Hasil Perhitungan ...........................................................47
BAB V PENUTUP ..............................................................................................48 5.1. Kesimpulan .........................................................................................48 5.2. Saran ...................................................................................................48
DAFTAR PUSTAKA .........................................................................................49
ix
DAFTAR GAMBAR Gambar 2.1. Lambang Twitter .............................................................................. 4 Gambar 2.2. Contoh Tweet.................................................................................... 5 Gambar 2.3. Contoh Penggunaan Hashtag ........................................................... 5 Gambar 2.4. Contoh Trending Topic .................................................................... 6 Gambar 2.5. Contoh Re Tweet .............................................................................. 7 Gambar 2.6. Contoh Reply .................................................................................... 7 Gambar 2.7. Contoh Implementasi CRF ............................................................... 9 Gambar 2.8. Stanford NER.................................................................................... 11 Gambar 2.9. Alur Pembuatan Model pada Stanford NER .................................... 12 Gambar 3.1. Arsitektur Sistem .............................................................................. 15 Gambar 3.2. Kode Program PHP Untuk Pencarian Sesuai Kata Kunci................ 16 Gambar 3.3. Kode Program PHP Untuk Pencarian Sesuai Username ................. 16 Gambar 3.4. Dataset Tweet Bahasa Indonesia Formal.......................................... 17 Gambar 3.5. Dataset Tweet Bahasa Indoensia Informal ....................................... 17 Gambar 3.6. Data yang sudah ditandai ................................................................. 18 Gambar 3.7. Flowchart Pembuatan Model ........................................................... 19 Gambar 3.8. Hasil Tokenisasi Data Formal .......................................................... 20 Gambar 3.9. Hasil Penghilangan Tanda Slash Data Formal ................................. 20 Gambar 3.10. File Prop Formal............................................................................. 21 Gambar 3.11. File Model Formal .......................................................................... 22 Gambar 3.12. Hasil Tokenisasi Data Informal...................................................... 22 Gambar 3.13. Hasil Penghilangan Tanda Slash Data Informal ............................ 23 Gambar 3.14. File Prop Informal .......................................................................... 23 Gambar 3.15. File Model Informal ....................................................................... 24 Gambar 3.16. Hasil Tokenisasi Data Umum ........................................................ 25 Gambar 3.17. Hasil Penghilangan Tanda Slash Data Umum ............................... 25 Gambar 3.18. File Prop Umum ............................................................................. 26 Gambar 3.19. File Model Umum .......................................................................... 27 Gambar 4.1. Membuka Tweet Formal................................................................... 28 Gambar 4.2. Membuka Model Formal .................................................................. 29
x
Gambar 4.3. Hasil Tag Model Formal .................................................................. 29 Gambar 4.4. Membuka Tweet Informal ................................................................ 30 Gambar 4.5. Membuka Model Informal ............................................................... 31 Gambar 4.6. Hasil Tag Model Informal ................................................................ 31 Gambar 4.7. Membuka Tweet Umum ................................................................... 32 Gambar 4.8. Membuka Model Umum .................................................................. 33 Gambar 4.9. Hasil Tag Model Umum ................................................................... 33 Gambar 4.10. Perbandingan Kalimat Formal dan Kalimat Informal .................... 34 Gambar 4.11. Grafik Perbandingan Rata-rata Nilai Recall Model Formal........... 37 Gambar 4.12. Grafik Perbandingan Rata-rata Nilai Presisi Model Formal .......... 38 Gambar 4.13. Grafik Perbandingan Rata-rata Hasil Pengujian Model Formal .... 38 Gambar 4.14. Grafik Perbandingan Rata-rata Nilai Recall Model Informal ........ 40 Gambar 4.15. Grafik Perbandingan Rata-rata Nilai Presisi Model Informal ........ 41 Gambar 4.16. Grafik Perbandingan Rata-rata Hasil Pengujian Model Informal .. 41 Gambar 4.17. Grafik Perbandingan Rata-rata Nilai Recall Model Umum ........... 43 Gambar 4.18. Grafik Perbandingan Rata-rata Nilai Presisi Model Umum........... 44 Gambar 4.19. Grafik Perbandingan Rata-rata Hasil Pengujian Model Umum ..... 44 Gambar 4.20 Grafik Perbandingan Rata-rata Hasil Pengujian Cross Validation . 47
xi
DAFTAR TABEL Tabel 3.1. Tabel Pengelompokan Data ................................................................. 17 Tabel 3.2. Aturan (Tagset) .................................................................................... 17 Tabel 4.1. Hasil Pengujian Model Formal + Data Tes Formal ............................. 35 Tabel 4.2. Hasil Recall dan Presisi Model Formal + Data Tes Formal ................ 36 Tabel 4.3. Hasil Pengujian Model Formal + Data Tes Informal ........................... 36 Tabel 4.4. Hasil Recall dan Presisi Model Formal + Data Tes Informal .............. 36 Tabel 4.5. Hasil Pengujian Model Formal + Data Tes Umum ............................. 37 Tabel 4.6. Hasil Recall dan Presisi Model Formal + Data Tes Umum ................. 37 Tabel 4.7. Hasil Pengujian Model Informal + Data Tes Informal ........................ 38 Tabel 4.8. Hasil Recall dan Presisi Model Informal + Data Tes Informal............ 39 Tabel 4.9. Hasil Pengujian Model Informal + Data Tes Formal ........................... 39 Tabel 4.10. Hasil Recall dan Presisi Model Informal + Data Tes Formal ............ 39 Tabel 4.11. Hasil Pengujian Model Informal + Data Tes Umum ......................... 40 Tabel 4.12. Hasil Recall dan Presisi Model Informal + Data Tes Umum ............ 40 Tabel 4.13. Hasil Pengujian Model Umum + Data Tes Umum ............................ 41 Tabel 4.14. Hasil Recall dan Presisi Model Umum + Data Tes Umum ............... 42 Tabel 4.15. Hasil Pengujian Model Umum + Data Tes Formal............................ 42 Tabel 4.16. Hasil Recall dan Presisi Model Umum + Data Tes Formal ............... 42 Tabel 4.17. Hasil Pengujian Model Umum + Data Tes Informal ......................... 43 Tabel 4.18. Hasil Recall dan Presisi Model Umum + Data Tes Informal ............ 43 Tabel 4.19. Hasil Recall dan Presisi Model Formal + 1.000 Data Tes Formal .... 45 Tabel 4.20. Hasil Recall dan Presisi Model Formal + 500 Data Tes Formal ....... 45 Tabel 4.21. Pembagian Data Untuk Pengujian Cross Validation ......................... 46 Tabel 4.22. Hasil Rata-rata Pengujian Cross Validation ...................................... 46
xii
DAFTAR PUSTAKA [1] H. Kwak, C. Lee, H. Park, and S. Moon, “What is Twitter, a Social Network or a News Media ? Categories and Subject Descriptors,” Www 2010, pp. 591–600, 2010. [2] Lukman, Enricko. 2014., Twitter-close-20-million-active-users-indonesia. https://www.techinasia.com/ . Diakses pada 16 Juni 2016. [3] Jurafsky, D. and Martin, J. “Speech and language processing”, Prentice Hall, 2008. [4] The
Stanford
Natural
Natural
Language
Processing
Group.
http://nlp.stanford.edu/ . Diakses pada 26 Januari 2016. [5] Budi, I. et al., 2005. Named Entity Recognition for the Indonesian language: Combining contextual, morphological and part-of-speech features into a knowledge engineering approach. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 3735 LNAI, pp.57–69. [6] _____
.
2015.
Mengenal
Kode
dan
Istilah
Twitter.
http://strukturkode.blogspot.co.id/ . Diakses pada 16 Juni 2016. [7] Fitria, Ayu Mirza ___. Bahasa Indonesia Baku dan Tidak Baku. https://violet06.wordpress.com/ . Diakses pada 16 Juni 2016. [8] _____
.
2014.
Definisi,
Fungsi
dan
Ciri-ciri
Bahasa
Baku.
http://www.ebahasaindonesia.com/ . Diakses pada 16 Juni 2016. [9] Lim, R., Wibowo, A., Sutjiadi, R., & Oktian, Y. E. (2012). Pengembangan Paper Citation Extraction Bahasa Indonesia Berbasis Parscit. Seminar Nasional Teknologi Informasi SNTI 2012. [10] Lafferty, J., McCallum, A., Pereira, F., 1999, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data", Computer, pp. 282-289. [11] Mozict.
2013.,
Natural
Language
Processing.
http://mozictapps.blogspot.co.id/ . Diakses pada 16 Juni 2016. [12] Twitter. http://www.twitter.com/ . Diakses pada 16 Juni 2016.
49
[13] J. Ling and T. B. Oka, “ANALISIS SENTIMEN MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER DENGAN SELEKSI FITUR CHI SQUARE,” vol. 3, no. 3, pp. 92–99, 2014. [14] D. Benikova, S. Muhie, Y. Prabhakaran, and S. Chris, “GermaNER : Free Open German Named Entity Recognition Tool,” vol. 1, no. 1, 2010. [15] _____ . 2014. Kalimat Baku dan Tidak Baku: Ciri, Syarat, dan Contohnya. http://www.prbahasaindonesia.com/ . Diakses pada 2 Juli 2016.
50