KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER
TUGAS AKHIR
Disusun Oleh : HANUM MASAYU PURNAMASARI NIM : 09560281
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2013
KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : HANUM MASAYU PURNAMASARI NIM : 09560281
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2013
LEMBAR PERSETUJUAN
KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER
TUGAS AKHIR
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Mengetahui/Menyetujui
Dosen Pembimbing I
(Yuda Munarko, S.Kom, M.Sc)
Dosen Pembimbing II
( Ali Sofyan Kholimi, S.Kom )
LEMBAR PENGESAHAN
KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Disusun Oleh : HANUM MASAYU PURNAMASARI 09560281 Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada tanggal 25 Oktober 2013 Mengetahui/Menyetujui Penguji I
Penguji II
(Wahyu Andhyka Kusuma, M.Kom)
(Zamah Sari, ST, MT)
Mengtahui Ketua Jurusan Teknik Informatika
( Eko Budi Cahyono, S.Kom, MT )
KATA PENGANTAR Alhamdulillah, segala puji bagi Allah SWT yang telah memberi petunjuk dan serta melancarkan jalan sehingga penulis dapat menyelesaikan tugas akhir yang berjudul : ”KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER” Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi perancangan preprocessing, pembuatan aplikasi mechine learning, implementasi klasifikasi dokumen menggunakan algoritma SVM, serta pengujian aplikasi yang sudah dibuat. Penulis menyadari bahwa penelitian ini masih jauh dari kesempurnaan. Oleh karena itu penulis mengaharapkan saran dan kritik yang membangun agar tulisan ini dapat bermanfaat bagi pengembangan ilmu pengetahuan kedepan. Perangkat lunak ini juga masih membutuhkan pengembangan lebih lanjut sehingga dapat lebih bermanfaat. Akhir kata penulis mengucapkan terima kasih kepada semua pihak yang telah membantu hingga tugas akhir ini terselesaikan.
Malang, 1 Oktober 2013
Penulis
LEMBAR PERSEMBAHAN Alhamdulilllahirabbil’alamin. Segala puji syukur saya ucapkan hanya kepada Allah SWT, yang telah memberikan segala nikmat, rezeki, kekuatan, keikhlasan dan kesabaran kepada penulis. Tiada tuhan selain Allah tempat hambamu ini bersujud, memohon, dan berpasrah. Saya selalu memohon kepadaMu agar memberikan berkah, ridho, dan lindungan kepada hambaMu dan orang-orang yang tercinta. Shalawat serta salam selalu tercurahkan untuk junjungan Nabi Muhammad SAW. Penulis menyadari pembuatan skripsi ini dapat terselesaikan dengan baik berkat dengan adanya dukungan semangat, motivasi, dan doa dari orang-orang terdekat. Oleh karena itu, pada kesempatan ini penulis ingin mengucapkan terimakasih yang sebesar-sebesarnya kepada: 1. Ayah, Ibu, Dek Ina, Dek Syahrul dan keluarga besar tercinta yang selalu memberikan dorongan semangat, motivasi dalam menempuh pendidikan, kasih sayang dan perhatian serta doa. 2. Bapak Yuda Munarko, S.Kom, M.Sc dan Bapak Ali Sofyan Kholimi, S.Kom selaku pembimbing skripsi yang telah berkenan meluangkan waktu untuk membimbing penulis dengan penuh kesabaran dan arahan yang diberikan. Terimakasih atas segala kritikan dan saran yang diberikan sehingga skripsi saya ini dapat terselesaikan. 3. Terimakasih untuk Bapak Murjani dan Ibu Astuti dan sebagai orang tua kedua saya yang selalu memberikan doanya, terimakasih untuk dek Dhani atas dukungan dan doanya. Terimakasih juga untuk Asmuransyah yang juga selalu memberikan semangat, doa, dan motivasi yang di berikan. 4. Terimakasih untuk teman-teman Teknik Informatika kelas F angkatan 2009, khususnya : Nuril, Udin, Andi (Jhon), Mien (Mince), Farin , Neny, Putri, Maya, Lusi, Luky, Andik, dan teman-teman yg tidak bisa saya sebutkan satu-persatu. Terimakasih atas semua dukungan serta doanya teman-teman semua. 5. Terimakasih untuk teman-teman kost 86C khususnya : Putri, Hilwa, Luluk, Rahma, Tiyas, Ninik, Riska, Dini, Helvy, dan Yuli.
DAFTAR ISI LEMBAR PERSETUJUAN..................................................................................... i LEMBAR PENGESAHAN ..................................................................................... ii LEMBAR PERNYATAAN ..................................................................................... iii ABSTRAKSI ........................................................................................................... iv ABSTRACT ............................................................................................................. v KATA PENGANTAR ............................................................................................. vi LEMBAR PERSEMBAHAN .................................................................................. vii DAFTAR ISI ............................................................................................................ viii DAFTAR GAMBAR ............................................................................................... x DAFTAR TABEL .................................................................................................... xii BAB I PENDAHULUAN 1.1. Latar Belakang ........................................................................................... 1 1.2. Rumusan Masalah...................................................................................... 2 1.3. Batasan Masalah ........................................................................................ 2 1.4. Tujuan ........................................................................................................ 2 1.5. Metodelogi ................................................................................................. 2 1.6. Sistematika Penulisan ................................................................................ 4 BAB II LANDASAN TEORI .................................................................................. 6 2.1. Document Preprocessing ........................................................................... 6 2.1.1. Document Input ............................................................................... 6 2.1.2. Tokenizing....................................................................................... 6 2.1.3. Stopword ......................................................................................... 7 2.1.4. Stemming ........................................................................................ 8 2.1.5. Metode TF-IDF/ Pembobotan ......................................................... 8 2.2. Klasifikasi Dokumen ................................................................................. 9 2.3. Support Vector Machine (SVM) ............................................................... 11 2.3.1. SVM pada Linearly Separable Data ................................................ 12 2.3.2. SVM pada Nonlinear Separable Data ............................................. 15
2.3.3. Karakteristik Support Vector Machine ........................................... 18 2.3.4. Kelebihan SVM ............................................................................... 18 2.3.5. Kekurangan SVM............................................................................ 19 2.4. Evaluasi ..................................................................................................... 19 2.4.1. Confusion Matrix ............................................................................ 20 2.4.2. Akurasi ............................................................................................ 21 2.4.3. Precion (Ketepatan) ......................................................................... 21 2.4.4. Recall (Perolehan) ........................................................................... 23 2.4.5. F.measure ........................................................................................ 24 BAB III ANALISA DAN PERANCANGAN........................................................ 25 3.1. Analisa Data .............................................................................................. 25 3.2. Preprocessing ............................................................................................. 25 3.2.1. Tahap Proses Tokenization ............................................................. 27 3.2.2. Tahap Proses Stopword ................................................................... 27 3.2.3. Stemming ........................................................................................ 28 2.2.4. Pembobotan ..................................................................................... 31 3.3. Klasifikasi .................................................................................................. 32 3.3. Rancangan Algoritma Support Vector Mechine (SVM) ........................... 32 BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM .................................... 34 4.1. Spesifikasi Kebutuhan Hardware dan Software ........................................ 34 4.2. Implementasi Sistem ................................................................................. 34 4.2.1. Implementasi Preprocessing ........................................................... 34 4.2.1.1. Menu Data Berita............................................................... 35 4.2.1.2. Penerapan dan Hasil Tokenizing ....................................... 35 4.2.1.3. Penerapan dan Hasil Stopword dengan stemming ............ 36 4.2.1.4. Penerapan dan Hasil Pembobotan ..................................... 37 4.2.2. Penerapan dan Hasil Klasifikasi SVM ............................................ 38 4.2.3. Hasil Evaluasi.................................................................................. 42
BAB V KESIMPULAN DAN SARAN ................................................................... 49 5.1. Kesimpulan ................................................................................................ 49 5.2. Saran .......................................................................................................... 49 DAFTAR PUSTAKA .............................................................................................. 50
DAFTAR GAMBAR Gambar 2.1. Contoh Kalimat Input ......................................................................... 6 Gambar 2.6. Proses Klasifikasi dengan Masukan Nilai Antribut x ke dalam kelas label y ....................................................................................................................... 10 Gambar 2.10 Alternatif bidang pemisah (kiri) dan bidang pemisah terbaik dengan margin (m) terbesar (kanan) ..................................................................................... 13 Gambar 2.11 Soft margin hyperplane ...................................................................... 16 Gambar 2.12. Contoh SVM pada Non Linearly Separable Data ............................. 17 Gambar 2.13 Contoh Trasformasi Untuk Data Yang Tidak Dapat Dipisahkan Secara Linear ............................................................................................................ 17 Gambar 3.1. Alur Klasifikasi Dokumen Berita Berbahasa Indonesia ..................... 25 Gambar 3.2 Alir/ Flowchat Preprocessing ............................................................... 26 Gambar 3.3 Contoh Kalimat Input ........................................................................... 26 Gambar 3.4. Flowchat Tokenizing ........................................................................... 27 Gambar 3.5. Flowchat Stopword ............................................................................. 27 Gambar 3.6. Flowchat Stemming ............................................................................ 30 Gambar 3.7. Flowchat Pembobotan ......................................................................... 31 Gambar 3.8. Flowchat Klasifikasi ............................................................................ 32 Gambar 3.9. Flowchat Support Vector Mechine ..................................................... 33 Gambar 4.1. Contoh Data Berita .............................................................................. 35 Gambar 4.2. Hasil Tokenizing. ................................................................................ 36 Gambar 4.3 Hasil Stopword dan Stemming............................................................. 36 Gambar 4.4. Hasil Term Frequensi (TF) .................................................................. 37 Gambar 4.5. Hasil Document Frequensi (DF) ......................................................... 37 Gambar 4.6. Hasil Pembobotan (W) ........................................................................ 38 Gambar 4.7. Hasil Perhitungan Vector x dan y ....................................................... 39 Gambar 4.8. Hasil Perhitungan Kernel Radial ......................................................... 39 Gambar 4.9. Hasil Perhitungan Vector Terpisah ..................................................... 39
Gambar 4.10. Hasil Klasifikasi ................................................................................ 40 Gambar 4.19. Hasil Evaluas Precision ..................................................................... 47 Gambar 4.20. Hasil Evaluasi Recall ....................................................................... 47 Gambar 4.21. Hasil Evaluas F-Masuare .................................................................. 48
DAFTAR TABEL Tabel 2.2. Contoh Tokenizing ................................................................................. 7 Tabel 2.3. Contoh Hasil Penghapusan Stopword ..................................................... 7 Tabel 2.4. Contoh Hasil Stemmning ........................................................................ 8 Tabel 2.5. Contoh Perhitungan TF/ IDF .................................................................. 9 Tabel 2.13. Confusion Matrix .................................................................................. 20 Tabel 2.14. Contoh hitungan penentuan recall dan precision .................................. 22 Tabel 4.11. Jumlah Pengelompokan Data Sesuai Dengan Kategori ........................ 41 Tabel 4.12. Hasil Keseluruhan Klasifikasi ............................................................... 42 Tabel 4.13. Hasil Evaluasi Confusion Matrix Kelas Olahraga. ............................... 43 Tabel 4.14. Hasil Evaluasi Confusion Matrix Kelas Bisnis .................................... 43 Tabel 4.15. Hasil Evaluasi Confusion Matrix Kelas Kriminal ................................ 44 Tabel 4.16. Hasil Evaluasi Confusion Matrix Kelas Gaya Hidup .......................... 45 Tabel 4.17. Hasil Evaluasi Confusion Matrix Hiburan ............................................ 46 Tabel 4.18. Hasil Evaluasi Confusion Matrix Kelas Politik .................................... 46
DAFTAR PUSTAKA [1]
Abdur, Agus, Diana, 2011. “Klasifikasi Dokumen Teks Berbahasa Arab menggunakan algoritma Naïve Bayes”. Fakultas Teknologi Informasi. Institut Teknologi Sepuluh Nopember.
[2]
Anto Satriyo Nugroho, Arief Budi Witarto, Dwi Handoko, 2003. Support VectorMachine. (online). http://asnugroho.net/papers/ikcsvm.pdf. (diakses 26 Mei 2013).
[3]
Budy,
2012.
“Stemming
Potter
Bahasa
Indonesia”.
(online).
http://budyblog9.wordpress.com/2012/. (diakses 26 Mei 2013). tf [4]
Ensiklopedia,
2010.
“Support
Vector
Machine
(SVM)”.
(online).
http://digilib.ittelkom.ac.id/index.php?view=article&catid=15%3Apemrosesa nsinyal&id=687%3Asvm&tmpl=component&print=1&page=&option=com_c ontent&Itemid=14. (diakses 1 April 2013). [5]
Hermoza, Tya, 2011. “Evaluating Accuracy”. Falkutas matematika dan Ilmu Pengetahuan Alam. Universitas Gadjah Mada.
[6]
Hardi, Wishnu, 2006. “Mengukur Kinerja search Engine : Sebuah Eksperimentasi Penilaian precision dan recall untuk Informasi ilmiah bidang Ilmu Perpustakaan dan Informasi”. Peneliti pada Veritas Document Management, Jakarta.
[7]
Jananto, Arief, 2010. “Perbandingan Performansi Algoritma Nearest Neighbor dan SLIQ untuk Prediksi Kinerja Akademik Mahasiswa Baru”. Fakultas Teknologi Informasi. Universitas Stikubank Semarang.
[8]
Melli , Gabor Settimio, 2010. “Supervised Ontology To Dokument Interlinking”. School of Computing Science. Simon Fraser University.
[9]
Mulyana, Iyan, 2010
“Penerapan Term Frequency - Invers Document
Frequency Pada Sistem Peringkasan Teks Otomatis dokumen tunggal berbahasa Indonesia” Jurusan Ilmu Komputer. Universitas pakuan. [10]
Putri, Yosi Amelia, 2009. “Stemming Untuk Tesk Berbahasa Indonesia dan Pengaruhnya Dalam Kategori”. Falkutas informatika, Institut Teknologi Telkom.
[11]
Sembiring, Krisantus, 2007. “Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan”. Jurusan Teknik Informatika. Institut Teknologi Bandung.
[12]
Susanto, Sylvia, 2006. “Pengklasifikasian Artikel Berita Berbahasa Indonesia Secara Otomatis Menggunakan Naïve Bayes Classifier”. Falkutas Ilmu Computer, Universitas Indonesia.
[13]
Tan,
Steinbach,
Kumar,
2006.
“Data
Mining
Classification: Basic Concepts, Decision Trees, and Model Evaluation”. (online). http://www-users.cs.umn.edu/~kumar/dmbook/index.php (diakses 20 Mei 2013).