IMPLEMENTASI TEXT MINING UNTUK MENDUKUNG PENCARIAN TOPIK PADA E-LIBRARY MENGGUNAKAN MOBILE DEVICE
SKRIPSI
Oleh : MUH. ANAS FAISHOL NIM. 06550084
JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI (UIN) MAULANA MALIK IBRAHIM MALANG 2011
1
IMPLEMENTASI TEXT MINING UNTUK MENDUKUNG PENCARIAN TOPIK PADA E-LIBRARY MENGGUNAKAN MOBILE DEVICE
SKRIPSI
Diajukan Kepada: Fakultas Sains dan Teknologi Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang Untuk Memenuhi Salah Satu Persyaratan Dalam Memperoleh Gelar Sarjana Komputer (S.Kom)
Oleh : MUH. ANAS FAISHOL NIM. 06550084
JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI (UIN) MAULANA MALIK IBRAHIM MALANG 2011
2
3
4
5
PERSEMBAHAN Ku tundukkan kepalaku untuk bersujud kepada-Mu Ya, Allah SWT. Kulinangkan air mataku dalam sajadah taqwa atas segala nikmat dan anugerah yang telah Engkau berikan kepadaku. Taburan cinta kasih dan sayang-Mu telah memberikanku kekuatan, membekaliku dengan ilmu serta membimbingku dengan jalan cinta. Atas kehendak-Mu akhirnya skripsi ini bisa terseleikan. Serta sholawat dan salam kepada junjunganku Rasululloh Muhammad SAW yang telah membawaku dan keluargaku ke zaman terang benderang. Kupersembahkan karya tulis ini untuk
Ayahanda M. Amin dan Ibunda Mudrikah tercinta Yang setiap saat selalu bersujud dan memanjatkan berdoa kepada Allah SWT, serta senantiasa mendukung dan memberiku kekuatan untuk terus berjuang dalam mengarungi lautan hidup hingga sekarang. Ibu dan Bapak maafkan segala kesalahanku dan kelalaianku selama ini……. Anakmu hanya bisa memberikan secarik karya yang sederhana ini….
Kakakku Misbahuddin dan Adikku Ifatahul ‘Ula Yang telah memberikan hidupku lebih berwarna lewat canda tawa kalian, walaupun kadang rasa jengkel menghiasi diantara kita namun semua itu menjadi sebuah warna yang indah dalam persaudaraan kita Terima Kasih atas semua dukungan dan doa yang telah dipanjatkan selama ini agar diri ini sanggup menyelesaikan kuliah untuk tholabul ‘ilm
6
MOTTO
“Hidup adalah perjuangan, dan harus diperjuangkan” <----------------------------------------->
“Wahai orang-orang yang beriman, kenapakah kamu mengatakan sesuatu yang tidak kamu kerjakan? Amat besar kebencian di sisi Allah bahwa kamu mengatakan apa-apa yang tidak kamu kerjakan” (Q.S. Ash-Shoff : 2-3)
7
KATA PENGANTAR
Dengan menyebut Asma Allah yang Maha Pengasih dan Maha Penyayang Puji syukur kita panjatkan kehadirat Allah SWT. yang telah melimpahkan rahmat serta hidayah-Nya sehingga skripsi ini dapat terselesaikan dengan judul: “Implementasi Text Mining Untuk Mendukung Pencarian Topik Pada ELibrary Menggunakan Mobile Device”. Sholawat serta salam semoga tetap terlimpahkan
kepada Nabi
Muhammad SAW, keluarga beliau, para sahabat beliau dan orang-orang yang mengikuti ajaran beliau sampai akhir zaman nanti. Terselesaikannya skripsi ini dengan baik berkat dukungan, motivasi, petunjuk dan bimbingan dari berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih kepada : 1.
Prof. Dr. Imam Suprayogo, selaku Rektor Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang
2.
Prof. Dr. Sutiman Bambang Sumitro, S.U., D. Sc selaku Dekan Fakultas Sains dan Teknologi Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang.
3.
Ririen Kusumawati, M.Kom, selaku Ketua Jurusan Teknik Informatika Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang.
4.
Ayah dan Ibu, yang selalu memberikan dorongan moral, spiritual, dan material sehingga penulisan skripsi ini dapat terselesaikan dengan baik.
5.
Kakak dan adikku yang di rumah, yang selalu menungguku untuk menjadi orang yang engkau berdua banggakan.
i
6.
Semua Bapak dan Ibu Dosen Teknik Informatika UIN Malang yang telah mengajarkan dan memberikan banyak ilmu dengan tulus. Semoga Ilmu yang di berikan dapat bermanfaat di dunia dan akhirat.
7.
Koordinator dan Asisten laboratorium Teknik Informatika UIN Malang.
8.
Sahabat-sahabat PMII, khususnya Rayon “Pencerahan” GALILEO yang telah memberikan warna selama hidup di kampus UIN Malang.
9.
Para seluruh teman seperjuanganku dalam DPMF Saintek Periode 2007 dan 2008, serta HMJ Teknik Informatika 2009, yang telah memberikan banyak pelajaran bagiku dalam berorganisasi.
10. Teman-teman Karang Taruna Perum Istana Gajayana dan masyarakat Istana Gajayana, yang telah memberikan aku pemahaman arti hidup bermasyarakat yang tidak mungkin aku temukan di tempat lain. 11. Teman-teman FUN JAVA, yang telah memberikan warna kehidupan akademis bagiku. 12. Semua pihak yang tak bisa disebutkan satu persatu, yang telah menjadi motivator demi terselesaikannya penyusunan skripsi ini. Penulis sadar bahwa tidak ada sesuatu pun yang sempurna kecuali Allah SWT. Oleh karena itu, dengan senang hati penulis menerima kritik dan saran yang bersifat membangun. Semoga skripsi ini bermanfaat bagi penulis khususnya dan juga bagi pembaca umumnya. Amin. Malang, April 2011 Penulis
Muh. Anas Faishol ii
DAFTAR ISI KATA PENGANTAR ..................................................................................... i DAFTAR ISI .................................................................................................. iii DAFTAR GAMBAR .......................................................................................v DAFTAR TABEL ........................................................................................ vii DAFTAR LAMPIRAN ............................................................................... viii ABSTRAK ..................................................................................................... ix BAB I PENDAHULUAN ..........................................................................1 1.1 Latar Belakang Masalah .................................................................1 1.2 Rumusan Masalah ...........................................................................6 1.3 Tujuan Penelitian .............................................................................6 1.4 Batasan Masalah ..............................................................................6 1.5 Manfaat Peneletian ..........................................................................7 1.6 Metode Penelitian ............................................................................7 1.7 Sistematika Penulisan Skripsi .........................................................8 BAB II TINJAUAN PUSTAKA ..............................................................10 2.1 Perpustakaan ..................................................................................10 2.2 Perpustakaan Digital .....................................................................11 2.3 Text Mining ...................................................................................12 2.4 Ekstraksi Dokumen .......................................................................13 2.5 WAP (Wireless Application Protocol) ..........................................22 2.6 Pemrograman PHP ........................................................................22 2.7 MySQL Server ..............................................................................23 2.8 XHTML MP ..................................................................................23 2.9 Ilmu Pengetahuan dan Penyampaian Kebenaran dalam Kajian Islam ...................................................................................24 BAB III DESAIN DAN PERANCANGAN SISTEM ..............................29 3.1 Analisis Sistem ..............................................................................29 3.1.1 Analisa Data .........................................................................29 3.1.2 Spesifikasi Sistem .................................................................30 3.1.3 Spesifikasi Pengguna ............................................................30 3.1.4 Lingkungan Operasi .............................................................31 3.1.5 Deskripsi Sistem ...................................................................31 3.2 Perancangan Sistem.......................................................................34 3.2.1 Ekstraksi Dokumen...............................................................34 3.2.1.1 Case Folding ...............................................................34 3.2.1.2 Tokenizing....................................................................35 3.2.1.3 Filtering .......................................................................35 3.2.1.4 Stemming .....................................................................36 3.2.2 Analisa ..................................................................................38 3.2.2.1 Algoritma TF/IDF (Term Frequency – Inversed Document Frequency) ...............................................38
iii
3.2.2.2 Cosine Similarity .......................................................40 3.2.3 Contoh Perhitungan Manual Text Mining ............................41 3.2.4 Perancangan Aplikasi Web ...................................................50 3.2.5 Konteks Diagram ..................................................................51 3.2.6 Data Flow Diagram (DFD) ..................................................52 3.2.7 Entity Relationship Diagram (ERD) ....................................53 3.2.8 Desain Database ...................................................................54 3.2.9 Perancangan Antar Muka .....................................................60 3.2.9.1 Website berbasis HTML ...........................................60 3.2.9.2 Website berbasis XHTML MP..................................65 3.3 Perancangan Uji Coba ...................................................................66 3.3.1 Tujuan Uji Coba ...................................................................67 3.3.2 Skenario Uji Coba ................................................................67 BAB IV HASIL DAN IMPLEMENTASI ................................................68 4.1 Implementasi .................................................................................68 4.1.1 Ruang Lingkup Perangkat Keras ..........................................68 4.1.2 Ruang Lingkup Perangkat Lunak .........................................68 4.1.3 Implementasi Desain Interface .............................................69 4.1.3.1 Web berbasis HTML .................................................69 4.3.1.2 Web berbasis WAP 2.0 .............................................83 4.1.4 Impementasi Sistem ..............................................................86 4.1.4.1 Preprocessing ............................................................86 4.1.4.1.1 Case Folding.................................................86 4.1.4.1.2 Tokenizing .....................................................87 4.1.4.1.3 Filtering ........................................................88 4.1.4.1.4 Stemming.......................................................89 4.1.4.2 Analisa ......................................................................94 4.1.4.2.1 Algoritma TF/IDF.........................................95 4.1.4.2.2 Vector Space Model ......................................96 4.2 Hasil Uji Coba ...............................................................................98 4.2.1 Precission dan Recall ...........................................................98 4.2.2. Time Processing ................................................................103 4.2.3 Uji Coba di Perangkat Mobile ............................................104 4.3 Analisa Uji Coba .........................................................................106 4.3.1 Precission dan Recall .........................................................106 4.3.2. Time Processing ................................................................107 4.3.3. Analisa di Perangkat Mobile..............................................108 4.4 Hubungan Penelitian dengan Kaidah Islam ................................109 BAB V PENUTUP ..................................................................................114 5.1 Kesimpulan..................................................................................114 5.2 Saran ............................................................................................114 DAFTAR PUSTAKA ..................................................................................114 LAMPIRAN .................................................................................................117
iv
DAFTAR GAMBAR
Gambar 2.1 Proses Pre-Proccesing Text .........................................................14 Gambar 2.2 Proses Case folding dan tokenizing ............................................14 Gambar 2.3 Proses Filtering ...........................................................................15 Gambar 2.4 Proses Stemming..........................................................................16 Gambar 2.5 Ilustrasi Text mining ....................................................................19 Gambar 2.6 Gambar matriks term-document untuk database dengan n dokumen dan t term .....................................................21 Gambar 2.7 Gambar Formula VSM ............................................................................ 21
Gambar 3.1 Proses Preprocessing ..................................................................32 Gambar 3.2 Diagram alir analisa konten.........................................................33 Gambar 3.3 Proses Case folding dan Tokenizing ............................................35 Gambar 3.4 Diagram Alir filtering..................................................................36 Gambar 3.5 Proses Algoritma Porter ..............................................................37 Gambar 3.6 Diagram Alir Pembobotan TF/IDF .............................................38 Gambar 3.7 Diagram Alir Pembobotan TF/IDF .............................................39 Gambar 3.8 Gambar analisa TF/IDF ...............................................................40 Gambar 3.9 Vector Space Model ....................................................................41 Gambar 3.10 Konteks Diagram.......................................................................51 Gambar 3.11 DFD Level 1 ..............................................................................52 Gambar 3.12 DFD Level 2 Digital Library berbasis web ...............................53 Gambar 3.13 DFD Level 2 Digital Library berbasis XHTML MP.................53 Gambar 3.14 ERD ...........................................................................................54 Gambar3.15 Halaman Utama .........................................................................60 Gambar 3.16 Modul Pencarian .......................................................................61 Gambar 3.17 Formulir Login ..........................................................................62 Gambar 3.18 Halaman utama admin ...............................................................63 Gambar 3.19 input data buku ..........................................................................64 Gambar 3.20 input data tugas akhir ................................................................65 Gambar 3.21 halaman utama web mobile .......................................................66 Gambar 3.22 Formulir Pencarian ....................................................................66 Gambar 4.1 Tampilan Utama ..........................................................................70 Gambar 4.2. Formulir Penelusuran .................................................................70 Gambar 4.3 Hasil Penelusuran ........................................................................71 Gambar 4.4 Detail Buku .................................................................................71 Gambar 4.5 Formulir Login ............................................................................72 Gambar 4.6 Tampilan Utama Menu Adminstrator .........................................73 Gambar 4.7 Formulir Manajemen Modul .......................................................73 Gambar 4.8 Formulir Tambah Modul .............................................................74 Gambar 4.9 Formulir Penelusuran Buku ........................................................74 Gambar 4.10 Formulir Masukan Buku ...........................................................75 Gambar 4.11 Formulir Perbarui Buku ............................................................75 Gambar 4.12 Formulir Penelusuran Tugas Akhir ...........................................76
v
Gambar 4.13 Formulir Masukan Tugas Akhir ................................................76 Gambar 4.14 Formulir Perbarui Data Tugas Akhir ........................................77 Gambar 4.15 Formulir Manajemen Pengguna ................................................77 Gambar 4.16 Formulir Tambah User ..............................................................78 Gambar 4.17 Formulir Profil ..........................................................................78 Gambar 4.18 Formulir Berita Terkini .............................................................79 Gambar 4.19 Formulir Tambah Berita ............................................................79 Gambar 4.20 Formulir Modul Welcome.........................................................80 Gambar 4.21 Formulir Pengumuman ..............................................................80 Gambar 4.22 Formulir Tambah Pengumuman ...............................................81 Gambar 4.23 Formulir Contact Us ..................................................................81 Gambar 4.24 Formulir Agenda .......................................................................82 Gambar 4.25 Formulir Banner ........................................................................82 Gambar 4.26 Halaman Utama Web Mobile ....................................................83 Gambar 4.27 Hasil Penelusuran Tugas Akhir .................................................84 Gambar 4.28 Tampilan Abstrak Lengkap .......................................................84 Gambar 4.29 Profil Lembaga ..........................................................................85 Gambar 4.30 Halaman Berita ..........................................................................85 Gambar 4.31 Halaman Kontak ........................................................................86 Gambar 4.32 Tampilan pada HP LG GW300 ...............................................105 Gambar 4.33 Tampilan pada HP Nokia 3250 ...............................................105 Gambar 4.34 Tampilan pada HP Nokia Express Music ...............................105 Gambar 4.35 Grafik rata-rata waktu proses ..................................................108
vi
DAFTAR TABEL
Tabel 2.1 Aturan untuk Inflection Particle ......................................................17 Tabel 2.2 Aturan untuk Inflection Possesive Pronoun ....................................18 Tabel 2.3 Aturan untuk First Order Derivational Prefix .................................18 Tabel 2.4 Aturan untuk Second Order Derivational Prefix.............................18 Tabel 2.5 Aturan untuk Derivation Suffix ......................................................18 Tabel 3.1 Tabel data uji ...................................................................................30 Tabel 3.2 Tabel Tokenizing ............................................................................43 Tabel 3.3. Tabel Hasil Filtering ......................................................................44 Tabel 3.4 Tabel proses stemming ....................................................................45 Tabel 3.5 Tabel Perhitungan TF/IDF ..............................................................47 Tabel 3.6 Tabel Perhitungan Vector Space Model .........................................49 Tabel 3.7 Tabel Rangking Dokumen ..............................................................50 Tabel 3.8 Struktur Tabel Stoplist ...................................................................54 Tabel 3.9 Struktur Tabel buku .......................................................................55 Tabel 3.10 Struktur Tabel Preprocessing_buku..............................................55 Tabel 3.11 Struktur Tabel agenda ...................................................................55 Tabel 3.12 Struktur Tabel artikel ....................................................................56 Tabel 3.13 Struktur Tabel banner....................................................................56 Tabel 3.14 Struktur Tabel berita .....................................................................57 Tabel 3.15 Struktur Tabel buku_tamu ............................................................57 Tabel 3.16 Struktur Tabel hubungi .................................................................57 Tabel 3.17 Struktur Tabel kategori .................................................................58 Tabel 3.18 Struktur Tabel modul ....................................................................58 Tabel 3.19 Struktur Tabel pengumuman .........................................................58 Tabel 3.20 Struktur Tabel user ........................................................................59 Tabel 3.21 Struktur tugas akhir .......................................................................59 Tabel 3.22 Struktur Tabel preprocessing_tugasakhir......................................59 Tabel 4.1 Hasil Perhitungan Cosine Similarity dengan kata kunci “teknologi” (sains) ..........................................................................99 Tabel 4.2 Hasil Perhitungan Cosine Similarity dengan kata kunci “pemrograman komputer" (ilmu komputer) .................................100 Tabel 4.3 Hasil Perhitungan Cosine Similarity dengan kata kunci “senyawa karbon" (kimiawi) ........................................................101 Tabel 4.4 Hasil Perhitungan Cosine Similarity dengan kata kunci “hukum" (syariah) ........................................................................102 Tabel 4.5 Hasil Perhitungan Cosine Similarity dengan kata kunci “pasar modal" (perekonomian) .....................................................102 Tabel 4.6 Pengujian dengan jumlah data 100 buah.......................................104 Tabel 4.7 Pengujian dengan jumlah data 200 buah.......................................104 Tabel 4.8 Pengujian dengan jumlah data 300 buah.......................................104 Tabel 4.9 Waktu proses pada perangkat mobile............................................106 Tabel 4.10 Perhitungan Precission dan Recall .............................................106
vii
DAFTAR LAMPIRAN
Lampiran 1 Stoplist .......................................................................................117
viii
ABSTRAK Faishol, Muh. Anas. Implementasi Text Mining Untuk Mendukung Pencarian Topik Pada e-library Menggunakan Mobile Device. Skripsi, Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri (UIN) Malang. Zainal Abidin, M. Kom Kata kunci: e-library, text mining, cosine similarity, page rank Perkembangan perpustakaan tidak pernah lepas dari perkembangan ilmu pengetahuan dan teknologi informasi. Hal ini dikarenakan perpustakaan sangat berkaitan erat dengan ilmu pengetahuan dan teknologi informasi. Dengan adanya perkembangan teknologi internet dan piranti bergerak, maka dibangunlah sebuah e-library (perpustakaan digital) yang diakses lewat handphone. Dengan adanya elibrary ini akan membantu para pencari informasi buku untuk memudahkan mengakses sebuah koleksi perpustakaan hanya melalui perangkat telepon genggam mereka. Penelitian ini menggunakan metode text mining yang mengimplementasikan algoritma cosine similarity untuk peringkatan dokumen (page rank). Hal ini diperlukan karena adanya jumlah koleksi dokumen yang begitu besar yang dimiliki oleh sebuah perpustakaan, maka dibutuhkan sebuah metode untuk peringkatan dokumen tersebut saat dicari. Dalam text mining ada beberapa proses yang penting, yaitu case folding, tokenizing, filtering, stemming dan analisa. Stemming yang digunakan adalah algoritma Porter untuk teks berbahasa Indonesia sedangkan analisa dalam pembobotan dokumen digunakan algoritma TF/IDF dan cosine similarity (Vector Space Model). Data uji coba diperoleh dari perpustakaan pusat Universitas Islam Negeri Malang yaitu berupa abstraksi tugas akhir. Dari hasil pengujian didapat bahwa dokumen relevan yang diterima oleh pengguna mencapai 100% dan akurasi data relevan terhadap data yang diterima pengguna mencapai rata-rata 78,2%.
ix
ABSTRACT Faishol, Muh. Anas. Implementation of Text Mining to Support Search Topics In e-library Using a Mobile Device. Thesis, Department of Informatics, Faculty of Science and Technology, State Islamic University of Malang. Zainal Abidin, M. Kom Keywords: e-library, text mining, cosine similarity, page rank The development library is never separated from the development of science and information technology. This is because libraries are so closely related to science and technology information. With the development of internet technology and mobile devices, then built an e-library (digital library) that is accessed via mobile phones. With the e-library will help the seekers of information books for easy access to a library collection is only through their mobile devices. This study uses text mining method that implements the cosine similarity algorithm for page rank. This is necessary because of the amount of such a large collection of documents owned by a library, it takes a method for ranking documents are now searchable. In text mining there are several important processes, namely case folding, tokenizing, filtering, stemming and analysis. Stemming algorithm used is the Porter to Indonesian-language text while the analysis of documents used in the weighting algorithm TF / IDF and cosine similarity (Vector Space Model). Trial data obtained from the central library of the State Islamic University of Malang in the form of abstraction final test. From the sample that relevant documents are received by users reached 100% and accuracy of data relevant to the data received by users at an average of 78.2%.
x