KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
Universitas Sumatera Utara
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
Universitas Sumatera Utara
ii
PERSETUJUAN
Judul Kategori Nama Nomor Induk Mahasiswa Program Studi Fakultas
: KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF : SKRIPSI : RUDYANTO BUDIMAN P : 091402084 : SARJANA (S1) TEKNOLOGI INFORMASI : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, Juni 2015
Komisi Pembimbing : Pembimbing 2
Pembimbing 1
Baihaqi Siregar, S.Si.,M.T M.Sc.IT NIP. 197902082010121002
Mohammad Fadly Syahputra, B.Sc, NIP. 198301292009121003
Diketahui / Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar, S.T., M.M.I.T. NIP. 198001102008011010
Universitas Sumatera Utara
iii
PERNYATAAN
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2015
RUDYANTO BUDIMAN P 091402084
Universitas Sumatera Utara
iv
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada: 1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan. 2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis. 3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis. 4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT. 5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi 6. Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang, Akhir kata, penulis ucapkan terimakasih kepada semua pihak yang telah membantu menyelesaian skripsi ini yang tidak bisa penulis sebutkan satu persatu. Semoga Tuhan Yang Maha Esa membalas kebaikan kalian semua.
Universitas Sumatera Utara
v
ABSTRAK
Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masingmasing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%. Kata kunci : Klasifikasi, Novel, Text Mining , TF-IDF
Universitas Sumatera Utara
vi
NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF ABSTRACT
Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TFIDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data resource. The system testing collects randomly 100 synopsis from electronic novel and the result is 75% accuracy rate from the testing.
Keywords: Classification, Novel, Text Mining, TF-IDF
Universitas Sumatera Utara
vii
DAFTAR ISI
Hal
Persetujuan
ii
Pernyataan
iii
Ucapan Terima Kasih
iv
Abstrak
v
Abstract
vi
Daftar Isi
vii
Daftar Tabel
x
Daftar Gambar
xi
Bab 1 PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Rumusan Masalah
3
1.3
Batasan Masalah
3
1.4
Tujuan Penelitian
4
1.5
Manfaat Penelitian
4
1.6
Metodologi Penelitian
4
1.7
Sistematika Penulisan
5
Bab 2 LANDASAN TEORI 2.1
Text Mining
7
2.1.1
Tahapan Text mining
7
2.2
Algoritma Nazief & Adriani
9
2.3
Term Frequency-Inverse Document Frequency (TF-IDF)
12
Universitas Sumatera Utara
viii
2.4
Novel
13
2.5
Tesaurus Bahasa Indonesia
14
2.6
Penelitian Terdahulu
15
Bab 3 ANALISIS DAN PERANCANGAN 3.1
3.2
Analisis Data
17
3.1.1
Novel
17
3.1.2
Data Resource
18
Analisis Sistem
19
3.2.1
Data Set
20
3.2.2
Proses Persiapan dan seleksi dokumen
21
3.3.2.1 Tokenisasi
21
3.3.2.2 Pembuangan Stopword
23
3.3.2.3 Stemming
27
Pembobotan Kata dengan TF-IDF
30
3.3.3 3.3
Perancangan Tampilan Antarmuka
35
3.3.1
Rancangan Tampilan Halaman Utama
35
3.3.2
Rancangan Tampilan Halaman Data Resource
36
3.3.3
Rancangan Tampilan Halaman About
36
3.3.4
Rancangan Tampilan Halaman Proses
37
Bab 4 IMPLEMENTASI DAN PENGUJIAN 4.1
4.2
Implementasi Sistem
39
4.1.1
Spesifikasi perangkat keras dan perangkat lunak
39
4.1.2
Tampilan Halaman Utama
40
4.1.3
Tampilan Halaman Data Resource
40
4.1.4
Tampilan Halaman About
41
4.1.5
Tampilan Halaman Proses
42
Hasil Pengujian Sistem
44
Bab 5 KESIMPULAN DAN SARAN 5.1
Kesimpulan
52
Universitas Sumatera Utara
ix
5.2
Saran
54
DATAR PUSTAKA
55
Universitas Sumatera Utara
x
DAFTAR TABEL
Hal Tabel 2.1
Tabel kombinasi awalan akhiran yang tidak diijinkan
10
Tabel 2.2
Tabel aturan peluruhan kata dasar
10
Tabel 2.3
Tabel Penelitian Terdahulu
16
Tabel 3.1
Tabel Data Resource
18
Tabel 3.2
Tabel Tokenisasi
22
Tabel 3.3
Stopword list
24
Tabel 3.4
Hasil Filtering Proses Stopword
26
Tabel 3.5
Tahapan Hasil Stemming
30
Tabel 3.6
Hasil Pembobotan Kata
31
Tabel 3.7
Hasil Pengklasifikasian Genre Novel
33
Tabel 4.1
Pengujian Sistem
44
Universitas Sumatera Utara
xi
DAFTAR GAMBAR
Halaman Gambar 3.1
Arsitektur Umum
20
Gambar 3.2
Input Sinopsis Novel
20
Gambar 3.3
Flowchart Proses Tokenisasi
21
Gambar 3.4
Flowchart Proses Stopword
24
Gambar 3.5
Flowchart Proses Steeming
27
Gambar 3.6
Rancangan Tampilan Halaman Utama
35
Gambar 3.7
Rancangan Tampilan Data Resource
36
Gambar 3.8
Rancangan Tampilan Halaman About
36
Gambar 3.9
Rancangan Tampilan Halaman Proses
37
Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses
38
Gambar 3.11 Rancangan Tampilan Halaman Detail Proses
38
Gambar 4.1
Tampilan halaman utama
40
Gambar 4.2
Tampilan Halaman Data Resource
41
Gambar 4.3
Tampilan halaman about
41
Gambar 4.4
Tampilan halaman proses
42
Gambar 4.5
Tampilan halaman hasil proses
43
Gambar 4.6
Tampilan Halaman detail hasil proses
43
Universitas Sumatera Utara