PENERAPAN ALGORITME PREFIXSPAN DAN GSP UNTUK MENCARI POLA SEKUENSIAL PADA DATA PEMINJAMAN BUKU DI PERPUSTAKAAN IPB
ARINA PRAMUDITA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi yang berjudul Penerapan Algoritme Prefixspan dan GSP untuk Mencari Pola Sekuensial Pada Data Peminjaman Buku di Perpustakaan IPB adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2014 Arina Pramudita NIM G64114022
ABSTRAK ARINA PRAMUDITA. Penerapan Algoritme Prefixspan dan GSP untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan BADOLLAHI MUSTAFA Perpustakaan IPB sebagai unit penunjang belajar bagi mahasiswa memiliki peranan yang penting salah satunya memberikan layanan dalam peminjaman buku. Data yang diperoleh dari transaksi sirkulasi peminjaman akan menghasilkan pola peminjaman buku oleh pengguna perpustakaan. Penelitian ini menerapkan algoritme prefixspan dan generalized sequential pattern (GSP) yang bertujuan untuk memperoleh pola sekuensial. Dataset yang digunakan adalah data dengan jumlah 50 hingga 4104 dengan minimum support dari 5% sampai 20%. Hasil penelitian menunjukan bahwa algoritme GSP bekerja lebih baik pada minimum support yang tinggi sedangkan algoritme prefixspan bekerja lebih baik pada minimum support yang rendah. Pola sekuensial yang dihasilkan dari kedua algoritme menunjukan keterkaitan antar item yaitu kode buku 820 (sastra) dengan kode buku 027 (perpustakaan umum), kode buku 631 (pertanian secara umum) dengan kode buku 658 (manajemen, administrasi, organisasi komersial), dan kode buku 631 dengan kode buku 636 (bidang peternakan). Buku yang paling sering dipinjam dari seluruh dataset adalah buku dengan kode 658 Kata kunci: generalized sequential pattern (GSP), pola sekuensial, prefixspan
ABSTRACT ARINA PRAMUDITA. Application of Prefixspan and GSP Algorithms to Find the Sequential Patterns on Loan Data Book in IPB’s Library. Supervised by IMAS SUKAESIH SITANGGANG and BADOLLAHI MUSTAFA. IPB's library as a learning support unit for student has an important role such as book lending service. The data obtained from the circulation transaction will generate a certain pattern of books that are being borrowed by library user. This research applies the prefixspan algorithm and generalized sequential pattern (GSP) algorithm to obtain a sequential pattern. The amount of data used ranges from 50 to 4104 with the value of minimum support ranges from 5% to 20%. The results show that the GSP algorithm works better on high minimum support while prefixspan algorithm works better in low minimum support. The sequential patterns generated from the two algorithms show the relationships between item: book code 820 (literature) with 027 (general), book code 631 (agriculture) with 658 (management, administration, commercial organizations), and book code 631 with 636 (husbandry). The most frequently borrowed book from the entire dataset is the book code 658. Keywords: generalized sequential patterns (GSP), sequential pattern, prefixspan
PENERAPAN ALGORITME PREFIXSPAN DAN GSP UNTUK MENCARI POLA SEKUENSIAL PADA DATA PEMINJAMAN BUKU DI PERPUSTAKAAN IPB
ARINA PRAMUDITA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Penguji : Hari Agung Adrianto, SKom MSi
Judul Skripsi : Penerapan Algoritme Prefixspan dan GSP untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB Nama : Arina Pramudita NIM : G64114022
Disetujui oleh
Dr Imas S Sitanggang, SSi MKom Pembimbing I
Drs Badollahi Mustafa, MLib Pembimbing II
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
Judul Skripsi: Penerapan Algoritme Prefix span dan GSP untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB Nama : Arina Pramudita NIM : G64114022
Disetujui oleh
\)~lA~
.
Dr Imas S Sltanggang, SSi MKom Pembimbing I
Tanggal Lulus:
2 8 JAN lUlf
\-/
Drs Badollahi Mustafa, MLib . Pembimbing II
PRAKATA Alhamdulillahi rabbil' alamin, puji syukur penulis panjatkan ke hadirat Allah subhanahu wa Ta'ala atas berkat, rahmat, taufik, dan hidayah-Nya, penyusunan skripsi yang berjudul Penerapan Algoritme Prefixspan dan GSP untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB dapat diselesaikan dengan baik. Sholawat serta salam semoga selalu tercurahkan kepada Nabi Muhammad shalallahu 'alaihi wassalam beserta keluarga, sahabat, dan para pengikutnya yang telah memberikan contoh dalam meraih kebahagiaan di dunia dan akhirat. Penulis menyadari bahwa keberhasilan penulisan skripsi ini tidak terlepas dari bantuan berbagai pihak. Untuk itu penulis menyampaikan ucapan terima kasih dan penghargaan kepada Ibu Dr Imas S Sitanggang, SSi Mkom selaku pembimbing I dan Bapak Drs Badollahi Mustafa, MLib selaku pembimbing II yang telah membantu penulis dalam menyusun tugas akhir ini. Selanjutnya ucapan terima kasih penulis sampaikan pula kepada: 1 Pak Hari Agung Adrianto, SKom MSi selaku moderator sekaligus penguji dalam tugas akhir 2 Pak Fery selaku staf Perpustakaan IPB yang telah membantu penulis untuk memperoleh data peminjaman buku IPB 3 Agus Anang, SKom yang telah banyak membantu dalam pengolahan data perpustakaan 4 Phillippe Fournier-Viger selaku associate professor Ilmu Komputer University of Moncton, Canada yang telah banyak memberikan saran dan membuka pandangan mengenai kinerja kedua algoritme yang digunakan dalam penelitian ini 5 Devi Meisita Khairunnisa selaku partner skripsi atas kerjasama dan dukungan motifasinya 6 Ayahanda John Daniel dan Ibunda Wati Ningsih atas semua doa, kasih sayang, semangat, harapan, dan dukungan kepada penulis 7 Adiku Ega Haricandra yang selalu menjadi motifasi bagi penulis 8 Seluruh staf dan dosen Departemen Ilmu Komputer IPB atas segala bimbingan dan kemudahan layanan 9 Seluruh teman-teman Ilkom 6 atas kebersamaan dan semangatnya 10 Semua pihak lain yang telah membantu penulis, dan tidak dapat disebutkan satu persatu, jazakumullah khairan.
Bogor, Januari 2014 Arina Pramudita
DAFTAR ISI DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE PENELITIAN
2
Data Peminjaman Buku Perpustakaan IPB
2
Spesifikasi Kebutuhan Perangkat Sistem
3
Tahapan Penelitian
4
Praproses
4
Perbandingan Kinerja Kedua Algoritme
7
Analisis Pola Sekuensial
7
HASIL DAN PEMBAHASAN Praproses
7 7
Transformasi Data
7
Seleksi Data
7
Pembersihan Data
8
Pembuatan Pola Sekuensial
8
Penentuan Pola Sekuensial
9
Pola sekuensial
9
Itemset dan Dataset
9
Minimum support
9
Waktu eksekusi
9
Penggunaan Algoritme Prefixspan dan GSP pada Data Peminjaman Buku di Perpustakaan IPB 9 Pemilihan Minimum support
9
Pemilihan Dataset
9
Perbandingan Kinerja Algoritme Prefixspan dan GSP
10
Analisis Pola Sekuensial
15
Perbedaan Urutan Hasil Pola Sekuensial
15
Item Buku yang Dipinjam
16
vi SIMPULAN DAN SARAN
18
Simpulan
18
Saran
19
DAFTAR PUSTAKA
19
LAMPIRAN
20
RIWAYAT HIDUP
22
DAFTAR TABEL 1 2 3 4 5 6 7 8
Field dalam data sirkulasi IPB Kelas utama UDC Contoh hierarki peminjaman buku perpustakaan Prefix dan suffix dalam prefixspan Contoh peminjaman buku setelah diubah ke dalam bentuk sekuensial Contoh data transaksi perpustakaan IPB dengan format input SPMF Data hasil eksekusi algoritme prefixspan dan GSP menggunakan SPMF Perbedaan urutan pola sekuensial kedua algoritme
3 3 3 7 8 8 11 16
DAFTAR GAMBAR 1 2 3 4
Tahapan penelitian Tahapan praproses Proses algoritme GSP menghasilkan pola sekuensial Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 50 5 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 100 6 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 500 7 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 1000 8 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 2000 9 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 4104 10 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 5% 11 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 6% 12 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 8% 13 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 10% 14 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 15% 15 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 20%
4 5 6 12 13 13 13 13 14 14 14 14 15 15 15
DAFTAR LAMPIRAN 1 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 50 2 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 100 3 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 500 4 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 1000 5 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 2000 6 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 4104
20 20 20 20 21 21
1
PENDAHULUAN Latar Belakang Perpustakaan IPB sebagai salah satu unit penyedia penunjang kebutuhan belajar bagi mahasiswa mencatat data transaksi peminjaman buku yang banyak setiap hari. Transaksi tersebut menghasilkan kumpulan data yang besar. Tercatat sebanyak 18.669 transaksi peminjaman buku periode tahun 2003-2013. Angka tersebut diperoleh dari basisdata perpustakaan IPB yang sebelumnya sudah diseleksi dengan membuang beberapa data yang sudah tidak diperlukan agar dapat menghemat memori. Data tersebut akan menghasilkan informasi yang penting sebagai penunjang pengambilan keputusan bila dianalisis lebih lanjut. Salah satu informasi yang berguna adalah dapat memberikan rekomendasi kepada mahasiswa mengenai keterkaitan antar buku yang dipinjam Analisis terhadap data sirkulasi pemninjaman buku lebih lanjut dapat dilakukan dengan menerapkan data mining. Data mining merupakan proses ekstraksi informasi atau pola yang penting dalam basis data berukuran besar (Han dan Kamber 2006). Penerapan data mining pada peminjaman buku di perpustakaan IPB diharapkan dapat digunakan sebagai penunjang pengambilan keputusan dengan cara melihat pola peminjaman buku. Metode data mining yang akan digunakan pada penelitian ini adalah metode sequential pattern mining. Sequential pattern mining pertama kali diperkenalkan oleh (Agrawal dan Srikant 1995) yang ditujukan untuk mencari inter-transaction pattern yaitu kemunculan item yang diikuti oleh item lain yang terurut berdasarkan waktu transaksi. Sebagai contoh, seseorang meminjam buku “Pengenalan Dasar Ilmu Komputer” pada dua bulan yang lalu mungkin juga akan meminjam “Pemrograman dengan PHP ” pada bulan berikutnya. Algoritme yang digunakan dalam penelitian ini adalah algoritme prefixspan dan generalized sequential pattern (GSP). Prefixspan menggunakan basisdata yang diproyeksikan, sehingga dalam menentukan pola peminjaman buku tidak diperlukan pembangkitan kandidat, sehingga dapat menghemat waktu eksekusi. Hal ini berbeda dengan GSP dalam menghasilkan pola peminjaman yang memerlukan pembangkitan kandidat, sehingga memerlukan waktu eksekusi yang lebih lama. Tujuan Penelitian Tujuan dari penelitian ini adalah sebagai berikut: 1 Menentukan pola sekuensial dari data peminjaman buku pada Perpustakaan IPB dengan dua algoritme yaitu prefixspan dan GSP. 2 Membandingkan kinerja prefixspan dan GSP dalam memperoleh pola sekuensial pada data peminjaman buku Perpustakaan IPB. 3 Menganalisis pola sekuensial dan waktu eksekusi yang dihasilkan oleh prefixspan dan GSP.
2
Manfaat Penelitian Penelitian ini diharapkan memberi manfaat sebagai berikut: 1 Memberikan gambaran alur kerja prefixspan dan GSP dalam mengolah data peminjaman buku di Perpustakaan IPB. 2 Mengetahui pola peminjaman buku di Perpustakaan IPB. 3 Memudahkan pihak perpustakaan untuk mengambil keputusan dalam manejemen stok buku. 4 Menemukan kode buku tertentu yang memiliki keterkaitan paling kuat. 5 Memberikan rekomendasi peminjaman buku kepada mahasiswa dengan cara melihat hubungan buku yang dipinjam dengan buku lainnya.
Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah sebagai berikut: 1 Penelitian ini membandingan dua metode sequential pattern mining yaitu prefixspan dan GSP. 2 Penelitian ini menggunakan data transaksi peminjaman buku mulai tahun 2003-2013. 3 Penelitian ini menggunakan perangkat lunak bantu yaitu SPMF (Viger 2013) untuk memperoleh pola sekuensial.
METODE PENELITIAN Data Peminjaman Buku Perpustakaan IPB Data yang digunakan dalam penelitian ini adalah data transaksi peminjaman (sirkulasi) buku pada Perpustakaan IPB periode tahun 2003-2013. Data tersebut diperoleh dalam format CDS/ISIS (circ.mst) yang terdiri atas 18.669 record dan 14 field yang sebelumnya telah diseleksi oleh pihak perpustakaan dengan membuang beberapa record yang sudah tidak diperlukan lagi, guna menghemat memory. Deskripsi field data transaksi peminjaman buku di Perpustakaan IPB dapat dilihat pada Tabel 1. Perpustakaan IPB mengklasifikasikan buku berdasarkan Universal Decimal Classification (UDC) dari system Dewey Decimal Classification (DDC). UDC adalah sistem klasifikasi bahan perpustakaan yang dikembangkan oleh pakar biliografi Belgia, Paul Otlet dan Henri La Fontaine. Sistem klasifikasi UDC menggunakan tanda-tanda baca tertentu yang membagi ilmu pengetahuan ke dalam sepuluh kelompok. Ke-sepuluh kelompok tersebut dapat dilihat pada Tabel 2. Pada data peminjaman buku Perpustakaan IPB setiap buku memiliki tiga kelas. KLS1 yang bersifat umum, KLS2 menengah, KLS3 khusus. Sebagai Contoh, Peminjam dengan Id C14102019 meminjam buku dengan KLS1=500, KLS2=570, KLS3=574. Maka hirarki untuk peminjam dengan Id C14102019 dapat dilihat pada Tabel 3.
3
Tabel 1 Field dalam data Sirkulasi IPB Nama field Tipe data No.identitas peminjam Alphanumeric Kategori peminjam Alphanumeric No. Registrasi buku Alphanumeric Judul buku Alphanumeric Kelas buku yang dipinjam Alphanumeric Kondisi buku yang dipinjam Alphanumeric Tanggal peminjaman Alphanumeric Kode tanggal peminjaman Alphanumeric Tanggal buku harus kembali Alphanumeric Tanggal buku dikembalikan Alphanumeric Jenis peminjaman Alphanumeric Operator transaksi buku Alphanumeric Nama peminjam Alphanumeric Jenis koleksi Alphanumeric
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Tabel 2 Kelas utama UDC Kelas utama Keterangan UDC 0 Sains dan pengetahuan. Organisasi. Ilmu komputer. Dokumentasi. Kepustakawanan. Lembaga. Publikasi 1 Filsafat. Psikologi 2 Agama.Teologi 3 Ilmu Sosial 4 (Tidak digunakan) 5 Matematika. Ilmu Alam 6 Applied Science. Kedokteran.Teknologi 7 Seni. Rekreasi. Entertainment. Olahraga 8 Bahasa. Linguistik. Literatur 9 Geografi. Biografi. Sejarah Sumber: http://www.udcc.org/udcsummary/php/index.php
Tabel 3 Contoh hierarki peminjaman buku perpustakaan Kode kelas 500 570 574
Kelas buku yang dipinjam Matematika. Ilmu Alam Ilmu-ilmu hayati pada umumnya Ekologi dan biodiversitas umum Spesifikasi Kebutuhan Perangkat Sistem
Implementasi sistem menggunakan komputer personal yang memiliki spesifikasi perangkat keras dan perangkat lunak sebagai berikut: Perangkat keras Processor Intel Core i3-2367M CPU @ 1.40Hz RAM 4 GB
4
Sistem operasi: Windows 7 Ultimate 32-bit Harddisk 500 GB Keyboard dan mouse Monitor Perangkat lunak Microsoft Excel 2010 sebagai lembar kerja (worksheet) dalam pengolahan data Java Platform SE 7 U21 versi 7.0.210.11 PostgreSQL sebagai sistem manajemen basis data SPMF versi 0.94 sebagai perangkat lunak yang digunakan untuk menghasilkan pola sekuensial dari data peminjaman buku perpustakaan IPB Tahapan Penelitian
Prefixspan dan GSP adalah dua metode dalam data mining yang dapat digunakan untuk memperoleh pola sekuensial dengan berbagai tahapan. Tahapan tersebut dapat dilihat pada Gambar 1.
Gambar 1 Tahapan penelitian Praproses Data harus melalui praproses terlebih dahulu sebelum diproses lebih lanjut. Tahapan tersebut meliputi transformasi data, seleksi data dan pembersihan data. Praproses penting dilakukan agar dapat menghasilkan data yang valid, lengkap dan sesuai dengan input yang diperlukan. Tahapan praproses dapat dilihat pada Gambar 2.
5
Gambar 2 Tahapan praproses Transformasi Data Transformasi data merupakan tahap untuk mengubah format data dalam format yang sesuai agar data dapat diproses. Format koleksi data dari perpustakaan dikonversi dari format CDS/ISIS (circ.mst) menjadi format Microsoft Excel (.xlxs) kemudian dikonversi kembali ke format data sekuensial dalam (.txt) agar dapat dibaca oleh software SPMF. Seleksi Data Seleksi data merupakan proses untuk menentukan data yang akan diproses lebih lanjut untuk dianalisis. Pada tahapan ini juga akan dipilih field atau atribut yang dibutuhkan sebagai input untuk masing-masing algoritme. Data yang digunakan meliputi No. Identitas Peminjam, Tanggal peminjaman, dan Kelas buku yang dipinjam. Data peminjaman buku Perpustakaan IPB memiliki 3 kelas buku. Dalam penelitian ini digunakan hanya kelas 3 saja untuk memperoleh pola sekuensial. Pembersihan Data Pembersihan data merupakan tahap pembersihan data dari noise, nilai kosong, dan data yang tidak konsisten dari koleksi data yang akan diproses. Pembuatan Pola Sekuensial Tahap ini merupakan proses utama dalam penelitian. Data yang telah diproses pada tahap sebelumnya akan di-mining dengan menggunakan dua algoritme sequential pattern yaitu prefixspan dan GSP untuk memperoleh pola sekuensial dari data peminjaman buku di Perpustakaan IPB.
6
Pencarian Pola Sekuensial Pola sekuensial adalah suatu pola yang menunjukan urutan transaksi dalam suatu periode. Pola ini dapat digunakan untuk menganalisis hubungan antar item. Dalam penelitian ini item yang dimaksud adalah buku. a Pencarian Pola Sekuensial dengan GSP Generalized sequential pattern (GSP) merupakan salah satu algoritme untuk penyelesaian masalah sequential pattern. GSP didesain untuk data transaksi, dimana setiap pola merupakan kumpulan dari transaksi setiap waktu dan setiap transaksi berupa item (Ahola 2001). Algoritme ini bekerja menemukan pola sekuensial dengan cara membangkitkan candidates yang sesuai dengan minimum support yang ditentukan. GSP memeriksa semua basisdata untuk menghitung single item (1sequences). Item yang frequent akan membentuk dua item (2-sequences). Item yang frequent pada 2-sequences akan digunakan untuk men-generate candidate dari 3 item (3-sequences). Proses ini akan berhenti sampai tidak ada frequent item yang ditemukan (Zaki 1997). Proses algoritme GSP dalam membangkitkan candidate dapat dilihat pada Gambar 3.
Gambar 3 Proses algoritme GSP menghasilkan pola sekuensial b Pencarian Pola Sekuensial dengan Prefixspan "Prefixspan memproyeksikan basis data dengan membentuk prefix dari sequence" (Pei et al. 2004). Prefix-projected sequential pattern mining biasa disebut dengan prefixspan merupakan suatu metode dengan memproyeksi sequence basisdata berdasarkan hanya pada awalan yang sering muncul frequent prefixes karena setiap frequent subsequence dapat ditemukan dengan menumbuhkan sebuah frequent prefix. Prefixspan berbeda dengan GSP dimana prefixspan tidak membangkitkan candidate baru, oleh sebab itu prefixspan lebih menghemat waktu dalam membuat pola sekuensial. Tabel 4 menunjukan cara kerja prefixspan dalam menghasilkan pola sekuensial dengan menghasilkan prefix dan suffix pada setiap sekuennya.
7
Tabel 4 Prefix dan suffix dalam prefixspan Prefix Suffix (prefix-based-projection)
<(abc)(ac)d(cf)> <(_bc)(ac)d(cf)> <(_c)(ac)d(cf)>
Perbandingan Kinerja Kedua Algoritme Pada tahap ini akan ditampilkan hasil kinerja kedua algoritme dalam memperoleh pola sekuensial dari berbagai minimum support dan dataset. Hasil dari kinerja algoritme akan dicatat dalam tabel untuk kemudian dianalisis lebih lanjut. Analisis Pola Sekuensial Pada tahap ini akan dilakukan analisis hasil pola sekuensial yang dihasilkan oleh kedua algoritme baik dari pola sekuensial yang diperoleh maupun waktu eksekusi yang dibutuhkan pada setiap minimum support dan dataset.
HASIL DAN PEMBAHASAN Praproses Data peminjaman buku Perpustakaan IPB harus melalui tahapan praproses terlebih dahulu untuk dapat menghasilkan pola sekuensial. Praproses ini dilakukan agar data masukan (input) valid dan sesuai denga format input perangkat lunak yang digunakan. Tahapan praproses dapat dilihat pada Gambar 1. Transformasi Data Data peminjaman buku Perpustakaan IPB yang diperoleh dari basisdata CDS/ISIS memiliki format CIRC (.mst). Data tersebut dapat diolah lebih lanjut dengan cara mentransformasikan format yang semula (.mst) ke dalam format (.xlxs). Data kemudian diseleksi dan dibersihkan agar terbebas dari noise. Proses transformasi data dilakukan dengan dua tahap a Data dikonversi ke dalam bentuk XML. b Data yang telah ditransformasikan dalam format xml, kemudian kembali ditransformasikan ke dalam format .xlxs. Seleksi Data Data masukan yang dibutuhkan berupa data sekuensial yang dibentuk dari tiga atribut, yaitu no identitas, kelas buku yang dipinjam dan tanggal peminjaman. Kelas buku sendiri, terdiri dari tiga tingkatan kelas yaitu KLS1 yang besifat umum, KLS2 yang bersifat menengah dan KLS3 yang bersifat khusus. Semakin dalam kelasnya maka kategori buku semakin spesifik. Dalam penelitian ini dipilih KLS3 sebagai atribut kelas. Hal ini dilakukan agar keluaran yang dihasilkan memiliki variasi yang lebih banyak dan terbentuk pola yang lebih spesifik dari setiap jenis buku dalam transaksi peminjaman.
8
Pembersihan Data Proses seleksi data menghasilkan tiga atribut. Atribut ini kemudian dimasukan ke dalam DBMS PostgreSQL untuk dibersihkan. Pada pembersihan data awal ditemukan ada 3000 data yang tidak memenuhi standar UDC karena mengandung noise (tanda selain angka seperti . (titik), ‘ (kutip), dan – (strip)). Proses ini melibatkan query dimana noise diasumsikan sebagai angka ‘0’. Pembersihan data selanjutnya dilakukan dengan menukar kelas yang salah dalam klasifikasi. Misalnya KLS1 bernilai 631 dan KLS3 bernilai 630 maka tukar kedua kelas tersebut sehingga KLS1 bernilai 630 dan KLS3 bernilai 631. Pembersihan data selanjutnya dilakukan dengan mencocokan data yang ketiga kelasnya bersifat umum secara manual dengan mencocokan kelas dan judul buku pada format pengklasifikasian UDC. Pembuatan Pola Sekuensial Untuk menentukan pola sekuensial dengan metode prefixspan dan GSP dilakukan dengan bantuan perangkat lunak (SPMF). Perangkat lunak ini membaca input berupa data dalam bentuk sekuensial. Pada awalnya data peminjaman buku perpustakaan IPB masih dalam format .xlxs dimana No. identitas peminjam masih diperlukan. Format data dalam bentuk sekuensial dapat dilihat pada Tabel 5. Tabel 5 Contoh peminjaman buku setelah diubah ke dalam bentuk sekuensial Identitas peminjam Pola sekuensial D14202024 <(637 664 637) 664> A151050241 <658> Setiap tanda kurung menggambarkan buku yang dipinjam bersamaan pada waktu yang sama sedangkan kode yang tidak ditulis dalam tanda kurung menggambarkan kode buku yang dipinjam pada waktu yang berbeda. Untuk setiap kode buku yang sama dan dipinjam secara bersamaan pada waktu yang sama cukup ditulis satu kali. SPMF tidak membaca karakter ‘(’ (kurung buka) ‘)’ (kurung tutup) ‘<’ (lebih kecil) ’>’ (lebih besar), maka karakter harus diubah. Untuk setiap perbedaan waktu transaksi dipisahkan dengan tanda ‘-1’ dan diakhiri dengan tanda ‘-1 -2’. Pola transaksi pada Tabel 5 akan diubah ke dalam format yang dapat dibaca oleh SPMF. Perubahan bentuk sekuensial diperlihatkan pada Tabel 6. Tabel 6 Contoh data transaksi Perpustakaan IPB dengan format input SPMF Identitas peminjam Pola sekuensial D14202024 637 664 637 -1 664 -1 -2 A151050241 658 -1 -2 Pembuatan data sekuensial ini dilakukan dengan menggunakan bahasa pemrograman PHP yang kemudian menghasilkan data sekuensial sebanyak 4104 baris dalam format teks (.txt).
9
Penentuan Pola Sekuensial Metode data mining yang digunakan pada penelitian ini adalah metode sequential pattern mining dengan menggunakan algoritme prefixspan dan GSP. Beberapa istilah digunakan dalam metode sequential pattern mining. Istilah tersebut di antaranya: 1 Pola sekuensial Pola sekuansial yang dimaksud adalah pola yang dibentuk dari kode buku berdasarkan urutan transaksi peminjaman buku. No id peminjam menjadi atribut unik untuk mengelompokan kode-kode buku yang dipinjam dalam satu transaksi. Kemudian transaksi tersebut diurutkan berdasarkan waktu dari yang paling lama hingga yang terbaru. Semakin panjang pola sekuensial dihasilkan maka semakin banyak transaksi peminjaman yang dilakukan. 2 Itemset dan Dataset Itemset adalah sekumpulam Item dalam satu transaksi. Item dalam penelitian ini adalah kode buku perpustakaan yang sudah diklasifikasikan berdasarkan standar UDC dimana beberapa judul buku bisa diklasifikasikan dalam satu kode UDC. Item ini digunakan sebagai input pada perangkat lunak SPMF. Dataset adalah kumpulan dari itemset. Dataset mengandung informasi peminjaman yang dikelompokan berdasarkan kriteria tertentu. 3 Minimum support Minimum support adalah jumlah minimum yang dicapai suatu itemset yang frequent. Semakin tinggi minimum support maka semakin erat keterkaitan antar item. 4 Waktu eksekusi Waktu eksekusi adalah waktu yang diperlukan oleh suatu algoritme dalam membentuk pola sekuensial. Waktu ini akan dibandingkan untuk memperoleh kesimpulan kinerja kedua algoritme dalam menghasilkan pola sekuensial. Penggunaan Algoritme Prefixspan dan GSP pada Data Peminjaman Buku di Perpustakaan IPB Pemilihan minimum support Minimum support yang digunakan dalam penelitian ini adalah 5%, 6%, 8%, 10%, 15% dan 20%. Ke-enam minimum support tersebut dipilih agar mudah mengamati perbedaan kedua algoritme dalam menghasilkan pola sekuensial. Di atas 20% sudah tidak diperoleh pola sekuensial yang frequent. Pemilihan dataset Data yang telah melalui tahap praproses akan diproses lebih lanjut untuk menghasilkan pola sekuensial. Dalam penelitian ini keseluruhan data transaksi peminjaman buku perpustakaan dibagi ke dalam enam dataset berdasarkan jumlahnya yaitu 50, 100, 500, 1000, 2000 dan 4104 yang diurutkan berdasarkan id peminjam dan diurutkan kembali berdasarkan tanggal paling lama hingga paling baru dari id peminjam. Selisih dataset yang digunakan cukup jauh agar mudah menganalisis kinerja kedua algoritme pada ukuran dataset yang berbeda.
10
Perbandingan Kinerja Algoritme Prefixspan dan GSP Perbedaan alur kerja dari prefixspan dan GSP dalam menghasilkan pola sekuensial akan mempengaruhi jumlah pola sekuensial yang dihasilkan dan waktu eksekusi yang diperlukan. Hasil eksekusi kedua algoritme dengan SPMF dapat dilihat pada Tabel 7. Data peminjaman buku Perpustakaan IPB dengan masing-masing minimum support dan dataset di uji sebanyak tiga kali. Hal ini dilakukan karena masingmasing algoritme menghasilkan waktu eksekusi yang berbeda pada setiap pengulangan pengujian. Menurut Viger (2013) hal ini disebabkan oleh hal-hal sebagai berikut: 1 Waktu eksekusi yang dihasilkan oleh algoritme GSP adalah waktu eksekusi untuk menulis file output saja. Waktu eksekusi untuk membaca file input dan mengidentifikasi single frequent item tidak dihitung sedangkan waktu eksekusi algoritme prefixspan adalah waktu eksekusi untuk menulis file output dan lainlain. Waktu eksekusi untuk membaca file input tidak dihitung. 2 Kinerja komputer saat program dijalankan (dalam kasus ini hanya dijalankan SPMF saja). Data dari tiga kali pengulangan kemudian dirata-ratakan dan dicatat hasilnya pada Tabel 7 sementara data lengkap dari tiga percobaan per dataset disajikan pada Lampiran 1 sampai Lampiran 6. Beberapa informasi yang diperoleh dari Tabel 7 adalah sebagai berikut: 1 Berdasarkan jumlah pola sekuensial yang dihasilkan Prefixspan dan GSP menghasilkan jumlah pola sekuensial yang sama pada setiap dataset dan minimum support. 2 Berdasarkan waktu eksekusi Terdapat 18 data yang menyatakan bahwa GSP bekerja lebih cepat dari prefixspan yang diberi tanda (**), 2 data yang menyatakan GSP bekerja sama cepatnya dengan prefixspan yang diberi tanda (#), 16 data yang menyatakan GSP bekerja lebih lambat dari prefixspan yang diberi tanda (*). Gambar 4 sampai Gambar 9 merupakan perbandingan antara minimum support dan waktu eksekusi yang dikelompokan berdasarkan dataset. Gambar tersebut menunjukan pada setiap dataset, prefixspan memiliki waktu eksekusi yang lebih cepat pada minimum support yang rendah sedangkan GSP memiliki waktu eksekusi yang cepat pada minimum support yang tinggi. Beberapa alasan terkait hal tersebut diantaranya: 1 Kondisi data yang seragam GSP menghasilkan pola sekuensial dengan cara membangkitkan kandidat. Masalah yang ditimbulkan dalam algoritme GSP adalah pembangkitan kandidat yang ternyata tidak ada di basisdata, hal ini yang menyebabkan GSP memerlukan waktu yang lama dalam memperoleh pola sekuensial. Pada data perpustakaan diperoleh data dengan item yang sedikit namun pola yang panjang seperti 027 -1 820 -1 027 -1 027 -1 027 -1 027 -1 027 -1 027 -1 2. Kode ‘027’ muncul beberapa kali. Hal tersebut menggambarkan transaksi dilakukan dengan meminjam kode buku yang sama pada waktu yang berbeda beberapa kali. Bila item yang dihasilkan sedikit maka pembangkitan kandidat tidak akan lama. Hal inilah yang menyebabkan GSP bekerja lebih cepat.
11
Tabel 7 Data hasil eksekusi algoritme prefixspan dan GSP menggunakan SPMF Min support (%)
No
1
5
2
4
5
*
53.56 37.00 62.00 78.00 151.00 270.67
15 6 12 10 9 5
14.67 * 15.00 # 52.00 * 47.00 * 36.67 * 57.00
15 6 12 10 9 5
6 4 9 4 3 3
*
8
50 100 500 1000 2000 4104
10.00 15.67# * 41.67 36.67 42.00 62.67
6 4 9 4 3 3
4 4 6 2 1 2
15.33 16.00 41.67 36.00 21.00 57.67
*
4 4 6 2 1 2
18.44
10
50 100 500 1000 2000 4104 50 100 500 1000 2000 4104
1 2 2 1 1 0
5.33 15.67 * 31.00 31.33 25.67 31.00
1 2 2 1 1 0
0.00 21.00 31.67
50 100 500 1000 2000 4104
0 1 1 0 0 0
3.00 15.67 15.33 20.67 15.67 36.33
0 1 1 0 0 0
15
6
50 100 500 1000 2000 4104
Jumlah pola sekuensial 48 10 13 11 12 11
GSP Waktu eksekusi (ms)
50 100 500 1000 2000 4104
6
3
Jumlah data
Prefixspan Jumlah Waktu eksekusi pola (ms) sekuensial * 48 27.33 * 10 15.00 * 13 41.67 * 11 47.00 * 12 46.67 * 11 62.67
20
*
Keterangan: * data yang menyatakan GSP bekerja lebih lambat dari prefixspan ** data yang menyatakan GSP bekerja lebih cepat dari prefixspan # data yang menyatakan GSP bekerja sama cepatnya dengan prefixspan
36.56 15.67 #
52.00 67.33 78.33 77.67
15.44 15.67# 47.00 **
20.67 ** 31.00 ** 36.00 **
15.33 ** 36.33 ** 15.33 ** 15.00 ** 31.00 **
**
0.00 ** 16.00 ** 0.00 **
1.00 ** 0.00 ** 3.00 ** 0.00 ** 0.00 ** 0.00
12
Di sisi lain prefixspan bekerja dengan proyeksi ke basisdata. Untuk menghasilkan pola sekuensial pada setiap length, prefixspan harus melakukan scan terhadap basisdata terus menerus. Hal ini yang menyebabkan prefixspan bekerja lebih lambat pada kasus diatas. 2 Minimum support yang diterapkan Penentuan minimum support akan mempengaruhi waktu eksekusi dari kedua algoritme. Semakin tinggi minimum support maka candidate yang dihasilkan oleh GSP semakin sedikit. Hal inilah yang menyebabkan GSP bekerja lebih cepat pada minimum support yang tinggi. Di sisi lain prefixspan bekerja dengan melakukan scan terhadap basisdata. Pada minimum support yang rendah prefixspan bekerja lebih cepat dibandingkan GSP yang akan membangkitkan kandidat semakin banyak.
Waktu Ekseskusi (ms)
Analisis akan dilanjutkan dengan membandingkan kinerja kedua algoritme berdasarkan minimum support. Gambar 10 sampai Gambar 15 merupakan perbandingan antara waktu eksekusi dan dataset yang dikelompokan berdasarkan minimum support. Dari Gambar 10 sampai Gambar 15 dapat diperoleh informasi bahwa prefixspan bekerja lebih cepat pada minimum support yang lebih kecil (5% dan 6%). Semakin rendah minimum support yang digunakan dan semakin besar dataset, prefixspan bekerja lebih cepat. GSP bekerja lebih cepat pada minimum support yang tinggi. Semakin tinggi minimum support yang diterapkan, GSP akan semakin sedikit dalam membangkitkan kandidat dalam setiap dataset, hal inilah yang menyebabkan GSP bekerja lebih cepat pada minimum support yang tinggi. Pada minimum support 5%, 6%, 8% dengan dataset 50, prefixspan bekerja lebih cepat dari GSP namun ketika minimum support dinaikan menjadi 10% kinerja prefixspan menurun sehingga memiliki waktu eksekusi yang sama dengan GSP. Ketika minimum support dinaikan kembali menjadi 15% dan 20% prefixspan bekerja lebih lambat dari GSP. Penentuan minimum support ini sangat mempengaruhi waktu eksekusi kedua algoritme untuk menghasilkan pola sekuensial. 60
Prefixspan
GSP
40 20 0 5
6
8 10 Minimum support
15
20
Gambar 4 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 50
Waktu Ekseskusi (ms)
13
40
Prefixspan
GSP
30 20 10 0 5
6
8 10 Minimum support
15
20
Waktu eksekusi (ms)
Gambar 5 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 100 80
Prefixspan
GSP
60 40 20 0 5
6
8 10 15 Minimum support
20
Waktu Eksekusi (ms)
Gambar 6 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 500 100 Prefixspan
80
GSP
60 40 20 0 5
6
8 10 15 Minimum support
20
Waktu Eksekusi (ms)
Gambar 7 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 1000 200 Prefixspan
150
GSP
100 50 0
5
6
8 10 15 Minimum support
20
Gambar 8 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 2000
Waktu Eksekusi (ms)
14
400
Prefixspan
GSP
300 200 100 0 5
6
8 10 15 Minimum support
20
Waktu Eksekusi (ms)
Gambar 9 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan dataset 4104 Prefixspan
300 250 200 150 100 50 0 50
GSP
100 500 1000 Jumlah Dataset
2000
4110
Waktu Eksekusi (ms)
Gambar 10 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 5% 100
Prefixspan
GSP
80 60 40 20 0 50
100
500 1000 2000 Jumlah Dataset
4110
Waktu eksekusi (ms)
Gambar 11 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 6% 80 prefixspan
GSP
60 40 20 0 50
100 500 1000 Jumlah Dataset
2000
4110
Gambar 12 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 8%
15
Waktu Eksekusi (ms)
80
prefixspan
GSP
60 40 20 0
50
100
500 1000 2000 Jumlah Dataset
4110
Waktu eksekusi (ms)
Gambar 13 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 10% 40
prefixspan
GSP
30 20 10 0 50
100
500 1000 Jumlah Dataset
2000
4110
Waktu Eksekusi (ms)
Gambar 14 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 15% Prefixspan
40
GSP
30 20 10 0 50
100
500 1000 Jumlah Dataset
2000
4110
Gambar 15 Perbandingan waktu eksekusi prefixspan dan GSP berdasarkan minimum support 20%
Analisis Pola Sekuensial Perbedaan Urutan Hasil Pola Sekuensial Kedua algoritme pada penelitian ini menghasilkan pola sekuensial yang sama, baik panjang polanya maupun jumlah pola sekuensial yang dihasilkan. Namun dalam pemrosesannya, kedua algoritme ini mempunyai alur yang berbeda sehingga akan menghasilkan urutan pola sekuensial yang berbeda. Tabel 8 memperlihatkan perbedaan urutan pola sekuensial yang dihasilkan kedua algoritme. Tabel 8 merupakan hasil pola sekuensial pada dataset 50 dengan minimum support 6%, artinya sekurang-kurangnya ada 3 transaksi peminjaman pada setiap
16
kode buku yang diperoleh dari 50 dataset. Perbedaan terlihat pada cara kedua algoritme tersebut menampilkan output. GSP bekerja dengan cara membangkitkan kandidat. Terlihat pada Tabel 8, GSP menyelesaikan terlebih dahulu setiap itemset per-length. GSP tidak dapat menghasilkan length-2 sequential pattern bila length-1 sequential pattern belum selesai di-buat begitupun seterusnya hingga tidak diperoleh lagi pola yang memenuhi minimum support. Prefixspan bekerja dengan menggunakan proyeksi basisdata. Dapat dilihat pada Tabel 8 bahwa prefixspan bekerja per-prefix. Artinya prefixspan dapat membuat length-n per-prefix tanpa harus menyelesaikan semua sesuai urutan, seperti pada GSP. Contohnya dapat dilihat pada Tabel 8, kode buku 658 memenuhi minimum support pada length-1, pada kode tersebut prefixspan dapat langsung mencari hingga length-n tanpa harus mencari kandidat yang lain. Tabel 8 Perbedaan urutan pola sekuensial kedua algoritme GSP Prefixspan 027 -1 #SUP: 4 820 -1 #SUP: 5 159 -1 #SUP: 3 681 -1 #SUP: 3 316 -1 #SUP: 3 159 -1 #SUP: 3 338 -1 #SUP: 3 027 -1 #SUP: 4 519 -1 #SUP: 3 027 -1 027 -1 #SUP: 3 631 -1 #SUP: 5 519 -1 #SUP: 3 635 -1 #SUP: 3 316 -1 #SUP: 3 636 -1 #SUP: 5 664 -1 #SUP: 3 639 -1 #SUP: 4 658 -1 #SUP: 9 658 -1 #SUP: 9 658 -1 658 -1 #SUP: 3 664 -1 #SUP: 3 338 -1 #SUP: 3 681 -1 #SUP: 3 631 -1 #SUP: 5 820 -1 #SUP: 5 635 -1 #SUP: 3 027 -1 027 -1 #SUP: 3 639 -1 #SUP: 4 658 -1 658 -1 #SUP: 3 636 -1 #SUP: 5 Item Buku yang Dipinjam Tabel 8 menunjukan kode ‘658’ muncul sebanyak 9 kali pada length-1 artinya buku dengan kode ‘658’ banyak dipinjam tanpa meminjam buku yang lain. Tabel 8 juga memberi hasil keterkaitan antar kode buku sampai peminjaman 2 item , yaitu ada sebanyak tiga kali transaksi peminjaman pada kode buku ‘027’ yang dipinjam berurutan dengan kode buku ‘027’ pada waktu yang berbeda dan kode buku ‘658’ yang dipinjam berurutan dengan kode buku ‘658’ pada waktu yang berbeda juga. Artinya diperoleh keterkaitan antara 2 item dengan kode buku yang sama (027 dengan 027) dan (658 dengan 658). Hal ini menunjukan bahwa pada minimum support 6% dan dataset 50 sekurang-kurangnya ada tiga kali transaksi yang dilakukan oleh mahasiswa yang meminjam buku dengan topik yang sama.
17
Pola yang Dihasilkan dari Data Peminjaman Buku Perpustakaan IPB Terdapat beberapa pola yang dapat dianalisis pada beberapa dataset. Pola tersebut menggambarkan kode buku yang sering dipinjam dan kode buku yang saling terkait satu dengan yang lain. 1 Dataset 50 Pada dataset 50 diperoleh pola menarik yaitu pada minimum support 5% artinya ada sekurang-kurangnya 2 dari 50 transaksi peminjaman. Pola tersebut adalah sebagai berikut. 820 -1 027 -1 #SUP: 2 027 -1 820 -1 #SUP: 2 027 820 -1 #SUP: 2 631 658 -1 #SUP: 2 631 636 -1 #SUP: 2 Pada pola diatas diperoleh pola terpanjang yang masing-masing dipinjam sebanyak dua kali yaitu pada length-2 ( pola yang memiliki keterkaitan sampai dua item) yaitu item <820 027>, <027 820>, <(027 820)>,<(631 658)>,<(631 636)> dimana ada dua dari 50 data transaksi yang menggambarkan seseorang akan meminjam buku dengan kode 820 (sastra) kemudian 027 (perpustakaan umum) secara terpisah pada waktu yang berbeda, begitu juga sebaliknya, selain itu ada juga yang meminjam kode buku 027 dan 820 secara bersamaan di waktu yang sama. Keterkaitan kuat lainnya adalah ketika seseorang meminjam buku dengan kode buku 631 (pertanian secara umum) dan 658 (Manajemen, administrasi bisnis. Organisasi komersial) yang dipinjam bersamaan, dan 631 dan 636 ( peternakan dan pengembangbiakan ternak secara umum. Pemeliharaan ternak. Pembibitan hewan domestik) yang dipinjam bersamaan. 2 Dataset 100 Pada dataset 100 diperoleh pola yang menunjukan keterkaitan kode buku yang sama yaitu pada minimum support 10%, polanya adalah sebagai berikut. 658 -1 #SUP: 11 631 -1 #SUP: 34 631 -1 631 -1 #SUP: 16 631 -1 631 -1 631 -1 #SUP: 12 Pola diatas menjelaskan bahwa dari 100 orang yang meminjaman buku 11 diantaranya meminjam buku dengan kode 658 (Manajemen, administrasi bisnis. Organisasi komersial). 34 diantaranya meminjam buku dengan kode 631, 16 diantaranya meminjam kode buku 631(pertanian secara umum) sebanyak dua kali pada waktu yang berbeda. 12 diantaranya meminjam kode buku 631 sebanyak tiga kali pada waktu yang berbeda. Dapat diambil kesimpulan dari 4 pola yang dihasilkan pada 100 dataset selalu diperoleh kode 631. Artinya buku dengan kode 631(pertanian secara umum) selalu dipinjam hampir pada setiap transaksi pada 100 dataset.
18
3 Dataset 4104 (seluruh data peminjaman buku periode 2003-2013) Pada dataset 4104 (seluruh data transaksi peminjaman buku) diperoleh pola yang menunjukan keterkaitan kode buku yang sama yaitu pada minimum 10%, pola tersebut adalah sebagai berikut. 631 -1 #SUP: 435 658 -1 #SUP: 458 Pola diatas menjelaskan dari 4104 peminjam buku, 435 diantaranya meminjam buku dengan kode 631 (pertanian secara umum) dan 458 diantaranya meminjam buku dengan kode 658 (Manajemen, administrasi bisnis. Organisasi komersial). Dari pola diatas dapat diambil kesimpulan bahwa dari seluruh transaksi peminjaman buku pada Perpustakaan IPB kode buku yang paling banyak dipinjam adalah 658 (Manajemen, administrasi bisnis. Organisasi komersial).
SIMPULAN DAN SARAN Simpulan Dari hasil analisis yang telah dilakukan diperoleh beberapa kesimpulan terkait kinerja kedua algoritme dalam menghasilkan pola sekuensial pada data Peminjaman Buku Perpustakaan IPB periode 2003-2013. 1 Prefixspan dan GSP menghasilkan pola sekuensial yang sama baik panjang polanya maupun jumlah pola sekuensial yang dihasilkan meskipun alur kerja algoritme ini berbeda. Pada dataset 50 dengan minimum support 5% diperoleh transaksi peminjaman yang menarik dengan pola <820 027> dimana buku dengan kode 820 (sastra) akan dipinjam berurutan pada waktu yang berbeda dengan kode buku 027 (perpustakaan umum) begitupun sebaliknya, <(027 820)> dimana kode buku 027 akan dipinjam bersamaan dengan kode buku 820, <(631 658)> dimana kode buku 631 (pertanian secara umum) akan dipinjam bersamaan dengan kode buku 658 (Manajemen, administrasi bisnis. Organisasi komersial), <(631 636)> dimana kode buku 631 akan dipinjam bersamaan dengan kode buku 636 ( peternakan dan pengembangbiakan ternak secara umum. Pemeliharaan ternak. Pembibitan hewan domestik). Pada seluruh dataset yang merupakan seluruh transaksi peminjaman buku diperoleh kesimpulan bahwa buku dengan kode 658 dipinjam sebanyak 458 kali. Hal ini berarti bahwa buku yang paling sering dipinjam di Perpustakaan IPB adalah buku dengan kode 658 (Manajemen, administrasi bisnis. Organisasi komersial). 2 GSP bekerja lebih cepat pada minimum support yang tinggi karena akan mengurangi waktu eksekusinya dalam pembangkitan kandidat. Prefixspan bekerja lebih cepat pada minimum support yang rendah karena pola-pola panjang akan ditemukan, prefixspan bekerja lebih baik daripada GSP pada pola-pola yang panjang. Dari hasil penelitian dapat dilihat pada minimum support 5% dan 6% prefixspan bekerja dengan waktu eksekusi yang lebih cepat daripada GSP. Sedangkan pada minimum support 8%, 10%, 15% dan 20% GSP bekerja lebih cepat. Sehingga diperoleh kesimpulan untuk seluruh
19
minimum support dan dataset yang digunakan GSP bekerja lebih cepat pada data peminjaman buku Perpustakaan IPB periode 2003-2013. Saran Penelitian selanjutnya diharapkan dapat menghasilkan korelasi yang kuat dan pola sekuensial yang lebih baik pada minimum support yang tinggi serta dapat mengelompokan data berdasarkan fakultas atau departemen agar bisa melihat pola peminjaman buku pada setiap fakultas atau departemen.
DAFTAR PUSTAKA Ahola J. 2001. Mining sequential pattern (version 1.0) [Internet]. [diunduh 2013 Okt 31]. Tersedia pada: http://www.vtt.fi/inf/julkaisut/muut /2001. Agrawal R, Srikant R. 1995. Mining sequential pattern. Di dalam International Conference on Data Engineering; 1995 Mar; Taipei, Taiwan. hlm 3-14. Han J, Kamber M. 2006. Data Mining Concepts and Techniques. Ed ke-2. San Fransisco (US): Morgan Kaufmann. Pei J, Han J, Mortazawi-Asl B, Wang J, Pinto H, Chen Q, Dayal U, Hsu M. 2004. Mining sequential patterns by pattern-growth: the prefixspan approach. IEEE Transactions on Knowledge and Data Engineering. 16(11):1424-1440. Zaki MJ. 1997. Fast mining of sequential patterns in very large databases [technical report]. NewYork (US): University of Rochester. Viger PF. 2013. Sequential pattern mining framework (SPMF) versi 0.94 [internet]. [diunduh 2013 Agu 6]. Tersedia pada:http://www.philippefournier-viger.com/spmf.
20
LAMPIRAN Lampiran 1 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 50 Minsup
5 6 8 10 15 20
Jml sekuen 48 15 6 4 1 0
Waktu Eksekusi Prefixspan (ms) I1 47.00 14.00 15.00 15.00 0.00 3.00
I2 31.00 18.00 0.00 15.00 16.00 3.00
I3
Rataan
4.00 12.00 15.00 16.00 0.00 3.00
27.33 14.67 10.00 15.33 5.33 3.00
Waktu Eksekusi GSP (ms) I1
I2
62.00 35.00 15.00 15.00 0.00 1.00
47.00 39.00 16.00 25.00 0.00 1.00
I3 51.67 35.67 15.33 15.33 0.00 1.00
Rataan 53.56 36.56 15.44 18.44 0.00 1.00
Lampiran 2 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 100 Minsup
5 6 8 10 15 20
Jml sekuen 10 6 4 4 2 1
Waktu Eksekusi Prefixspan (ms) I1 15.00 15.00 16.00 16.00 16.00 16.00
I2 15.00 15.00 16.00 16.00 16.00 15.00
I3 15.00 15.00 15.00 16.00 15.00 16.00
Rataan 15.00 15.00 15.67 16.00 15.67 15.67
Waktu Eksekusi GSP (ms) I1 47.00 16.00 16.00 16.00 15.00 0.00
I2
I3
32.00 16.00 15.00 15.00 32.00 0.00
32.00 15.00 16.00 15.00 16.00 0.00
Rataan 37.00 15.67 15.67 15.33 21.00 0.00
Lampiran 3 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 500 Minsup
5 6 8 10 15 20
Jml sekuen 13 12 9 6 2 1
Waktu Eksekusi Prefixspan (ms) I1 31.00 47.00 31.00 47.00 31.00 15.00
I2 47.00 62.00 47.00 31.00 31.00 15.00
I3 47.00 47.00 47.00 47.00 31.00 16.00
Rataan 41.67 52.00 41.67 41.67 31.00 15.33
Waktu Eksekusi GSP (ms) I1 62.00 47.00 47.00 47.00 31.00 0.00
I2
I3
62.00 47.00 47.00 31.00 32.00 0.00
62.00 62.00 47.00 31.00 32.00 10.00
Rataan 62.00 52.00 47.00 36.33 31.67 3.00
Lampiran 4 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 1000 Minsup
5 6 8 10 15 20
Jml sekuen 11 10 4 2 1 0
Waktu Eksekusi Prefixspan (ms) I1 47.00 62.00 31.00 31.00 31.00 16.00
I2 47.00 32.00 47.00 46.00 31.00 31.00
I3 47.00 47.00 32.00 31.00 32.00 15.00
Rataan 47.00 47.00 36.67 36.00 31.33 20.67
Waktu Eksekusi GSP (ms) I1 78.00 62.00 31.00 15.00 0.00 0.00
I2
I3
78.00 62.00 15.00 16.00 0.00 0.00
78.00 78.00 16.00 15.00 0.00 0.00
Rataan 78.00 67.33 20.67 15.33 0.00 0.00
21
Lampiran 5 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 2000 Minsup
5 6 8 10 15 20
Jml sekuen 12 9 3 1 1 0
Waktu Eksekusi Prefixspan (ms) I1
I2
47.00 31.00 32.00 16.00 31.00 16.00
I3 47.00 32.00 47.00 16.00 31.00 15.00
46.00 47.00 47.00 31.00 15.00 16.00
Rataan I1
Waktu Eksekusi GSP (ms) I2
46.67 156.00 156.00 36.67 94.00 63.00 42.00 31.00 31.00 21.00 15.00 15.00 25.67 16.00 16.00 15.67 0.00 0.00
I3 141.00 78.00 31.00 15.00 16.00 0.00
Rataan 151.00 78.33 31.00 15.00 16.00 0.00
Lampiran 6 Data perolehan jumlah sekuen dan waktu eksekusi pada tiga pengulangan pada dataset 4104 Minsup
5 6 8 10 15 20
Jml sekuen 11 5 3 2 0 0
Waktu Eksekusi Prefixspan (ms) I1 62.00 62.00 47.00 63.00 31.00 31.00
I2 63.00 62.00 78.00 47.00 31.00 31.00
I3
Rataan I1 63.00 47.00 63.00 63.00 31.00 47.00
Waktu Eksekusi GSP (ms) I2
62.67 266.00 265.00 57.00 62.00 93.00 62.67 31.00 31.00 57.67 31.00 31.00 31.00 0.00 0.00 36.33 0.00 0.00
I3 281.00 78.00 46.00 31.00 0.00 0.00
Rataan 270.67 77.67 36.00 31.00 0.00 0.00
22
RIWAYAT HIDUP Penulis lahir di Yogyakarta 31 Desember 1989, anak pertama dari dua bersaudara. Putri dari Bapak John Daniel dan Ibu Wati ningsih. Penulis menyelesaikan Sekolah Menengah Atas (SMA) di SMA Negeri 4 Bogor lalu kemudian diterima sebagai mahasiswa USMI Diploma IPB jurusan Manajemen Informatika. Penulis Menyelesaikan study di diploma IPB lalu kemudian lulus dan melanjutkan study pada Ilmu Komputer IPB untuk meraih gelar Sarjana Komputer. Pada masa sekolah hingga menjadi mahasiswa penulis aktif dalam kegiatan kemahasiswaan seperti terlibat dalam beberapa kepanitian (OMDI, MPKMB). Penulis juga sering mengikuti seminar-seminar yang dapat menambah pengetahuan dan rekan kerja. Selain kuliah, penulis menjadi salah satu karyawati di LPPM-IPB yaitu PKHT (Pusat Kajian Hortikultura Tropika) sebagai web administrator.