PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN )
HANDAYANI RETNO SUMINAR
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN )
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh: HANDAYANI RETNO SUMINAR G64103032
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
ABSTRAK HANDAYANI RETNO SUMINAR. Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining (Studi Kasus: Data Transaksi Pasar Swalayan). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan ANNISA. Seringkali kita mendeskripsikan kalender menggunakan kata-kata yang tidak pasti, seperti awal bulan untuk kondisi keuangan yang baik, atau tengah dan akhir bulan untuk kondisi keuangan yang menipis. Kata-kata seperti awal, tengah, dan akhir dapat diadopsi ke dalam bentuk fuzzy calendar. Dengan mengadopsi fungsi-fungsi pada fuzzy calendar, akan dilihat kecenderungan pembelian barang oleh pembeli dalam kurun waktu tertentu. Sebagai contoh, pembeli biasa membeli kebutuhan pokok (sembako) di awal bulan, karena sebagian besar mendapatkan gaji pada periode tersebut. Penelitian ini bertujuan untuk mencari pola-pola dari basis data menggunakan fuzzy temporal association rule mining, sehingga akan terlihat keterkaitan jenis barang yang dibeli oleh pembeli pada waktu-waktu tertentu. Hal ini dapat dimanfaatkan oleh pemilik swalayan dalam pengambilan keputusan terkait dengan penjualan barang pada periode waktu tertentu. Data yang digunakan pada penelitian ini adalah data transaksi pembelian pada periode 1 Maret sampai dengan 21 Mei 2004 dan dibagi menjadi 3 contoh transaksi, yaitu 50, 100, dan 150 transaksi. Untuk melihat keefektifan fuzzy temporal association rule mining digunakan support threshold sebesar 20%, 30%, dan 40%, dan confidence threshold sebesar 65%, 70%, dan 75% dengan fuzzy calendar yang digunakan, yaitu awal minggu or awal tahun. Penggunaan support threshold dan confidence threshold tertinggi, yaitu 40% dan 75%, menghasilkan aturan asosiasi 30 (susu) → 80 (snack) dan 70 (minuman) → 80 (snack) untuk jumlah transaksi sebesar 50 dan 100, namun untuk jumlah transaksi sebesar 150 tidak dihasilkan aturan asosiasi. Aturan asosiasi 70→80 dengan fuzzy calendar awal minggu or awal tahun memiliki makna bahwa “JIKA pembeli membeli barang dengan ID 70 (minuman) pada awal bulan or awal tahun, MAKA dia juga akan membeli barang dengan ID 80 (snack)”. Operator fuzzy calendar yang digunakan, antara lain and, or, xor, sub, dan complement, sedangkan time granularity yang digunakan adalah minggu, bulan, dan tahun. Dari hasil percobaan, penggunaan satu atau dua jenis fuzzy calendar pada minggu keempat Maret dan minggu kedua April tidak mempengaruhi aturan asosiasi yang dihasilkan. Kata kunci: Data Mining, Fuzzy Calendar, Fuzzy Temporal Association Rule Mining.
Judul Nama NRP
: Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining (Studi Kasus : Data Transaksi Pasar Swalayan) : Handayani Retno Suminar : G64103032
Menyetujui: Pembimbing I,
Pembimbing II,
Imas S. Sitanggang, S.Si., M.Kom. NIP 132206235
Annisa, S.Kom. NIP 132311930
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, M.S. NIP 131473999
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan pada tanggal 06 Januari 1985 di Jakarta. Penulis adalah anak kedua dari dua bersaudara pasangan Ranto dan Sumini. Pada tahun 2003, penulis lulus pendidikan SMU di SMU Negeri 21 Jakarta Timur. Pada tahun yang sama, penulis diterima sebagai mahasiswa di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis melakukan praktek kerja lapang di Lembaga Riset Perkebunan Indonesia yang berlokasi di Bogor, Jawa Barat, pada tanggal 3 Juli 2006 sampai 26 Agustus 2006 dengan bidang kajian Sistem Informasi Agribisnis Perkebunan (SIAP).
PRAKATA Alhamdulillaahirabbil ‘aalamiin, puji dan syukur penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan karya ilmiah dengan judul Pengembangan Aplikasi Data Mining Menggunakan Fuzzy Temporal Association Rules. Shalawat serta salam juga penulis sampaikan kepada junjungan Nabi Muhammad SAW beserta seluruh sahabat dan umatnya hingga akhir zaman. Penulis menyadari bahwa keberhasilan penulisan karya ilmiah ini tidak terlepas dari pihakpihak yang telah banyak membantu. Oleh karena itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada : 1.
2.
3. 4. 5.
6.
Ibu dan Bapak yang telah membantu dalam memberikan dorongan baik material maupun doa selama proses pembuatan skripsi ini. Tak lupa kakakku, Galih Purnomo Fitrianto, yang juga selalu memberikan dukungan, dan nasihat seputar dunia kuliah, serta dorongan baik material dan doa. Ibu Imas S. Sitanggang, S.Si., M.Kom sebagai dosen Pembimbing I dan Ibu Annisa, S.Kom sebagai dosen Pembimbing II yang telah bersedia meluangkan waktu serta memberikan saran dan bimbingannya selama penelitian dan penulisan karya ilmiah ini. Bapak Hari Agung Adrianto, S.Kom., M.Si yang telah bersedia menjadi moderator dalam seminar dan penguji penulis. Gosfenry Aksamulian yang selalu mendengarkan keluh kesahku selama ini, dan dengan sabar menemaniku, walaupun jarak kita berjauhan. Terima kasih atas dukunganmu selama ini. Teman-teman seperjuanganku di Ilkom, Atik, Hida, Thessi, dan Yustin, yang selalu ada untuk memberikan dukungan, maupun saran dalam pengerjaan skripsi ini, serta seluruh teman-teman Ilkom 40 atas segala dukungan, nasihat, keceriaan, dan persahabatan yang selama ini diberikan. Semua pihak lain yang telah membantu penulis, dan mohon maaf tidak dapat disebutkan satu persatu.
Penulis menyadari bahwa masih banyak kekurangan dalam pembuatan karya ilmiah ini. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan demi perbaikan di masa mendatang. Penulis berharap hasil dari penelitian ini dapat bermanfaat bagi seluruh pihak, serta dapat menjadi acuan bagi penelitian-penelitian berikutnya.
Bogor, Juni 2007
Penulis
v
DAFTAR ISI Halaman DAFTAR TABEL ......................................................................................................................vi DAFTAR GAMBAR ..................................................................................................................vi DAFTAR LAMPIRAN...............................................................................................................vi PENDAHULUAN Latar Belakang........................................................................................................................1 Tujuan Penelitian ....................................................................................................................1 Ruang Lingkup Penelitian ....................................................................................... 1 Manfaat Penelitian ..................................................................................................................1 TINJAUAN PUSTAKA Basis Data...............................................................................................................................1 Basis Data Transaksional.........................................................................................................1 Populasi dan Contoh................................................................................................................2 Knowledge Discovery in Database (KDD)...............................................................................2 Himpunan Fuzzy .....................................................................................................................2 Association Rules Mining ........................................................................................................2 Fuzzy Calendar Algebra..........................................................................................................3 Mining Fuzzy Temporal Association Rule ................................................................................4 METODE PENELITIAN Proses Dasar Sistem ................................................................................................................6 Lingkungan Pengembangan Sistem .........................................................................................7 HASIL DAN PEMBAHASAN Transformasi Data...................................................................................................................7 Pembersihan Data ...................................................................................................................7 Seleksi Data ............................................................................................................................7 Data Mining............................................................................................................................8 Pembentukan Frequent Itemset ...........................................................................................8 Pembentukan Aturan Asosiasi...........................................................................................10 Pengunaan Fuzzy Calendar ...............................................................................................10 Representasi Pengetahuan .....................................................................................................12 KESIMPULAN DAN SARAN Kesimpulan...........................................................................................................................13 Saran ....................................................................................................................................13 DAFTAR PUSTAKA ................................................................................................................14 LAMPIRAN..............................................................................................................................15
vi
DAFTAR TABEL Halaman Fuzzy calendar dan fungsi keanggotaannya ( ) .....................................................................4 Jumlah frequent itemset untuk 50, 100, dan 150 transaksi ........................................................9 Frequent itemset yang dihasilkan untuk 50, 100, dan 150 transaksi ........................................9 Jumlah aturan asosiasi untuk 50, 100, dan 150 transaksi.........................................................10 Waktu eksekusi (dalam detik) untuk pembentukan aturan asosiasi pada 50, 100, dan 150 transaksi................................................................................................................................10 6 Aturan asosiasi dengan support dan confidence threshold tertinggi, yaitu 40% dan 75% pada minggu keempat Maret dan minggu kedua April dengan jumlah transaksi sebesar 50 .............11 7 Aturan asosiasi dengan confidence threshold tertinggi, yaitu 75% ..........................................12
1 2 3 4 5
DAFTAR GAMBAR Halaman 1 Tahapan dalam KDD (Han & Kamber 2001) ...........................................................................2 2 Basic fuzzy calendar berasosiasi dengan time granularity dari (a) minggu (week), (b) bulan (month), dan (c) tahun (year) (Lee & Lee 2004).......................................................................3 3 Sebaran items dari (a) keseluruhan transaksi, (b) 50 transaksi per minggu, (c) 100 transaksi per minggu, (d) 150 transaksi per minggu ......................................................................................8
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6 7 8 9 10 11
Diagram alir proses data mining...........................................................................................16 Proses pembersihan data.......................................................................................................17 Proses transformasi data.......................................................................................................18 Sebaran items untuk 50 transaksi ..........................................................................................20 Sebaran items untuk 100 transaksi ........................................................................................24 Sebaran items untuk 150 transaksi ........................................................................................28 Jumlah frequent itemset (L) untuk dataset 50, 100, dan 150 transaksi....................................32 Frequent itemset (L) untuk dataset 50, 100, dan 150 transaksi ..............................................33 Jumlah aturan asosiasi (association rules).............................................................................35 Rata-rata waktu eksekusi pembentukan aturan asosiasi (detik) ..............................................38 Aturan asosiasi dengan confidence threshold tertinggi, yaitu 75% .........................................39
1
PENDAHULUAN Latar Belakang Dewasa ini, banyak sekali kegiatan yang dilakukan secara terkomputerisasi, sehingga menghasilkan data dalam jumlah besar. Dengan ketersediaan data yang semakin melimpah dari berbagai sumber, penemuan pengetahuan yang berguna dari basis data yang besar semakin populer dan menarik perhatian. Penemuan pengetahuan yang berguna tersebut dapat dilakukan menggunakan teknik data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2001). Salah satu teknik data mining adalah metode association rule mining yang berguna untuk menemukan aturan asosiasi pada basis data. Seringkali kita mengekspresikan tanggal menggunakan sesuatu yang tidak pasti, seperti penggunaan kata awal bulan untuk menggambarkan kondisi keuangan yang baik, serta kata tengah dan akhir bulan untuk menggambarkan kondisi keuangan yang menipis. Kata awal, tengah, dan akhir bulan tersebut dapat diadopsi ke dalam suatu bentuk kalender, yang dinamakan fuzzy calendar. Fuzzy calendar ini dapat memberikan keleluasaan kepada pengguna untuk mendefinisikan waktu sesuai dengan keinginan mereka, sehingga pengguna tidak perlu mengetahui batasan waktu secara pasti. Dari basis data transaksi, khususnya transaksi supermarket, dapat ditemukan aturan asosiasi untuk mengetahui keterkaitan antarbarang. Dengan mengadopsi fungsifungsi pada fuzzy calendar, akan dilihat kecenderungan pembelian barang oleh pembeli dalam kurun waktu tertentu. Sebagai contoh, pembeli biasa membeli kebutuhan pokok (sembako) di awal bulan, karena sebagian besar mendapatkan gaji pada periode tersebut. Kejadian seperti ini sebenarnya terekam dalam basis data, hanya saja belum tergali informasi tentang itu. Dengan mencari pola-pola dari basis data menggunakan fuzzy temporal association rules, akan terlihat keterkaitan jenis barang yang dibeli oleh pembeli pada waktu-waktu tertentu (Lee & Lee 2004). Hal ini dapat dimanfaatkan oleh pemilik swalayan dalam pengambilan keputusan terkait dengan penjualan barang pada periode waktu tertentu.
Tujuan Penelitian Penelitian ini bertujuan untuk mengembangkan aplikasi data mining dengan metode fuzzy temporal association rule mining untuk mengetahui keterkaitan antara beberapa item pada basis data khususnya data transaksi pembelian pada periode tertentu. Ruang Lingkup Penelitian Ruang lingkup untuk penelitian ini dibatasi pada penerapan metode fuzzy temporal association rule mining pada basis data khususnya data transaksi pembelian di Sinar Mart Swalayan selama 11 minggu (1 Maret 2004 - 21 Mei 2004). Percobaan dilakukan dengan membagi data menjadi 3 jenis contoh transaksi, yaitu 50, 100, dan 150 transaksi. Pembentukan himpunan fuzzy pada penelitian ini menggunakan fuzzy calendar algebra dengan batasan 1 operator saja. Penelitian ini akan menghasilkan aplikasi fuzzy temporal association rule mining. Manfaat Penelitian Aplikasi yang dihasilkan pada penelitian ini diharapkan dapat digunakan untuk mengetahui keterkaitan antaritem data pada data transaksi supermarket. Keterkaitan tersebut dapat digunakan salah satunya sebagai bahan pertimbangan dalam pengambilan keputusan yang berhubungan dengan penjualan barang pada periode tertentu. TINJAUAN PUSTAKA Basis Data Basis data merupakan sekumpulan data atau entitas (beserta deskripsinya) yang berhubungan secara logika, dibuat untuk memenuhi kebutuhan informasi suatu organisasi. Sistem Manajemen Basis Data (Database Management System) adalah sistem perangkat lunak yang memungkinkan pengguna mendefinisikan, menciptakan, dan mengelola suatu basis data, serta menyediakan akses kontrol terhadap basis data tersebut (Connoly & Begg 2002). Basis Data Transaksional Basis data transaksional terdiri dari sebuah file di mana setiap record merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan
2
identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang membuat transaksi (seperti item yang dibeli dalam sebuah toko). Basis data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID number dari sales person dan dari kantor cabang (branch) di mana penjualan terjadi (Han & Kamber 2001). Populasi dan Contoh Populasi adalah keseluruhan pengamatan yang menjadi perhatian, sedangkan contoh adalah suatu himpunan bagian dari populasi. Peluang suatu kejadian A adalah jumlah peluang semua titik contoh dalam A. Bila suatu percobaan mempunyai N hasil percobaan yang berbeda, dan masingmasing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat n di antara hasil percobaan itu menyusun kejadian A, maka peluang kejadian A adalah P ( A)
n . N
(1)
Suatu contoh acak sederhana n pengamatan adalah suatu contoh yang dipilih sedemikian rupa sehingga setiap himpunan bagian yang berukuran n dari populasi mempunyai peluang terpilih yang sama (Walpole 1995). Knowledge Discovery in Database (KDD) Knowledge discovery in Database merupakan suatu proses menemukan pengetahuan dari suatu basis data yang terdiri atas urutan langkah– langkah seperti diilustrasikan pada Gambar 1 (Han & Kamber 2001).
Gambar 1 Tahapan dalam KDD (Han & Kamber 2001). Tahapan – tahapan pada KDD adalah sebagai berikut:
1
2 3 4
5
6
7
Pembersihan data: data dibersihkan untuk menghilangkan noise dan data yang tidak konsisten. Pengintegrasian data: data digabungkan dari berbagai sumber. Seleksi data: data yang relevan dengan proses analisis diambil dari basis data. Transformasi data: data ditransformasikan atau digabungkan ke dalam bentuk yang sesuai untuk dimining dengan cara dilakukan peringkasan atau operasi agregasi. Pada beberapa kasus, transformasi data dilakukan sebagai langkah praproses sebelum pembersihan data dan pengintegrasian data di mana data yang dihasilkan dari langkah praproses tersebut disimpan dalam data warehouse. Data mining: merupakan proses yang penting dalam KDD di mana metode metode cerdas diaplikasikan untuk mengekstrak pola – pola dari kumpulan data. Evaluasi pola: mengidentifikasikan pola–pola yang menarik yang merepresentasikan pengetahuan berdasarkan suatu ukuran kemenarikan. Representasi pengetahuan : pengetahuan yang telah digali divisualisasikan kepada pengguna
Himpunan Fuzzy Sebuah himpunan fuzzy berbeda dengan himpunan crisp ataupun Boolean. Himpunan fuzzy memiliki fungsi keanggotaan, yaitu fungsi yang menjelaskan hubungan antara nilai dari himpunan dan derajat keanggotaannya. Pada himpunan fuzzy terdapat membran semipermeable, yang mana anggotanya dibagi menjadi 3, yaitu bukan anggota, anggota penuh, dan anggota sebagian dari himpunan (Cox 2005). Association Rules Mining Association rule mining berguna untuk menemukan aturan asosiasi pada basis data. Pada dasarnya aturan asosiasi digunakan untuk menggambarkan keterkaitan antaritem pada sekumpulan data. Penggalian aturan asosiasi di antara record yang jumlahnya sangat banyak dapat membantu proses pengambilan keputusan (Han & Kamber 2001). Association rules menggunakan bentuk “Jika Antecedent, maka Consequent”. Ukuran kekuatan dari aturan asosiasi adalah support dan confidence dengan definisi: