PEMBUATAN MODUL DELETE PADA APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING UNTUK DATA TRANSAKSI
ZISSALWA HAFSARI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
i
PEMBUATAN MODUL DELETE PADA APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING UNTUK DATA TRANSAKSI
ZISSALWA HAFSARI
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
ii
ABSTRACT ZISSALWA HAFSARI. Developing Deletion Module in Temporal Association Rule Mining Application for Transaction Data. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI. Transaction activities in supermarket produce large transaction data. It requires data mining techniques including association rule mining to extract patterns from the data. This research aims to implement the incremental updating technique to create association rules from expired data using fuzzy calendar on temporal database. The result is a deletion module which can find association rules without scanning the original entire database. The output are frequent itemsets and association rules in which some partitions are deleted from the original data set. The data used in this research are transaction data in a supermarket on period 1 March until 21 May 2004. The experiment was executed using support threshold values 20%, 30%, 40% and confidence threshold values 65%, 70%, 75% with early week or early year as the fuzzy calendar. By applying the deletion module the research obtains results that association rules generation are effective and efficient which means the process can produce interesting association rules in a relatively short time. For five partitions deleted data with support threshold 30% and confidence threshold 70%, one frequent itemset is generated and there is one association rule: 30(snack) → 80(milk). The execution time to generate association rules with deletion module is 13.984 seconds and the execution time without deletion module is 40.891 seconds with support threshold 40% and confidence threshold 75% based on the assumption in deletion module that frequent itemsets generated from the original data set are already provided. Keyword: fuzzy temporal association rule mining, incremental updating, deletion, fuzzy calendar.
iii
Judul : Pembuatan Modul Delete pada Aplikasi Fuzzy Temporal Association Rule Mining untuk Data Transaksi Nama : Zissalwa Hafsari NIM : G64052948
Menyetujui :
Pembimbing I,
Pembimbing II,
Imas Sukaesih Sitanggang, S.Si, M.Kom NIP 197501301998022001
Endang Purnama Giri, S.Kom, M.Kom NIP 198210102006041027
Mengetahui : Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Drh. Hasim, DEA NIP 196103281986011002
Tanggal Lulus:
iv
PRAKATA Puji syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Pembuatan Modul Delete pada Aplikasi Fuzzy Temporal Association Rule Mining untuk Data Transaksi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB. Dalam kesempatan ini penulis ucapkan terima kasih kepada pihak-pihak yang telah turut membantu penulis dalam penyelesaian tugas akhir ini, yaitu: 1 Orang tua penulis atas doa, motivasi, dan kasih sayang yang tak pernah henti. Tak lupa untuk kakak-kakakku, Khairiah, Syaiful Amri, Zunnasyit, Alfiah, Alfis Suhaili, dan Endang Surapati Nasitah yang selalu memberikan dukungan dan nasihat selama penulis jauh dari mereka. 2 Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing I dan Bapak Endang Purnama Giri, S.Kom, M.Kom selaku pembimbing II atas kesediaannya meluangkan waktu untuk memberikan saran dan bimbingannya selama penelitian dan penulisan tugas akhir ini. 3 Bapak Sony Hartono Wijaya S.Kom, M.Kom selaku moderator dan dosen penguji. 4 Seluruh dosen pengajar yang telah mendidik, membina dan membangun wawasan serta kepribadian penulis selama menuntut ilmu di Mayor Ilmu Komputer. 5 Anindra Ageng Jihado atas doa, semangat, dan keceriaan yang senantiasa mengisi hari-hari penulis. 6 Sahabat-sahabat V_Zone, Nty, Uni, Ninon, Vera, dan Karin (tanpa urutan) yang selalu ada untuk
memberikan semangat, keceriaan, dan mengisi hari-hari penulis selama kuliah di Mayor Ilmu Komputer. 7 Teman-teman satu bimbingan, Prita, Lena, dan Fuad. 8 Sahabat-sahabat AK C, Dimas, Rafdi, Fathoni, Uud, Nelly, Cira, Ninon, dan Arifka. 9 Mega atas bantuannya terutama pada saat persiapan seminar dan sidang. 10 Ike dan Ifah atas semangat yang selalu diberikan. 11 Indah, Cira, Novi, dan semua teman-teman seperjuanganku Ilkomerz 42 atas kebersamaan dan
persahabatan yang tidak akan terlupakan. 12 Teman-teman Wisma Harmony 1, Endah, Alda, Roisah, Resty, Prima, Mba Gita, Punky, Nida, dan Niken serta semua pihak yang telah banyak membantu penulis dalam penyelesaian tugas akhir ini. Akhir kata, semoga karya ilmiah ini bermanfaat.
Bogor, Juni 2009
Zissalwa Hafsari
v
RIWAYAT HIDUP Penulis lahir di Bengkalis, Riau pada tanggal 25 April 1987 dari Bapak H. Subari dan Ibu Hafsah. Tahun 2005 penulis lulus dari SMAN 1 Bengkalis dan pada tahun yang sama penulis lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis diterima di Mayor Ilmu Komputer sebagai pilihan pertama dalam seleksi Sistem Mayor Minor IPB dengan Minor Manajemen Fungsional. Selama menjalani perkuliahan, penulis pernah bergabung dalam beberapa organisasi ekstra kampus diantaranya Unit Kegiatan Mahasiswa Koperasi Mahasiswa (UKM KOPMA) pada tahun 2005 sampai dengan 2007, kepengurusan Rumpun Keluarga Pelajar Mahasiswa Bengkalis Bogor (RKPMB) sebagai ketua pada divisi sosial dan kebudayaan pada tahun 2006 sampai dengan 2007, kepengurusan Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun 2006 sampai dengan 2007 sebagai staf divisi Database. Pada tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di SEAMEO BIOTROP selama 35 hari. Selain itu, penulis pernah menjadi asisten praktikum pada mata kuliah Data Mining Mayor Ilmu Komputer IPB mulai bulan Februari 2009 sampai dengan bulan April 2009.
vi
DAFTAR ISI Halaman DAFTAR TABEL.................................................................................................................... v DAFTAR GAMBAR ...............................................................................................................
v
DAFTAR LAMPIRAN ............................................................................................................
v
PENDAHULUAN Latar Belakang ................................................................................................................... Tujuan Penelitian ................................................................................................................ Ruang Lingkup Penelitian ................................................................................................... Manfaat Penelitian ..............................................................................................................
1 1 1 1
TINJAUAN PUSTAKA Himpunan Fuzzy ................................................................................................................. Association Rules Mining.................................................................................................... Fuzzy Calendar Algebra ..................................................................................................... Mining Fuzzy Temporal Association Rule............................................................................ Incremental Updating .........................................................................................................
2 2 2 4 4
METODE PENELITIAN Proses Dasar Sistem............................................................................................................ Lingkungan Pengembangan Sistem .....................................................................................
5 6
HASIL DAN PEMBAHASAN Pembentukan Aturan Asosiasi Baru ....................................................................................
7 8
KESIMPULAN DAN SARAN................................................................................................. Kesimpulan ........................................................................................................................ Saran ..................................................................................................................................
10 10
DAFTAR PUSTAKA ..............................................................................................................
11
LAMPIRAN ............................................................................................................................
12
Pembentukan Frequent Itemset Baru .................................................................................................
iv
DAFTAR TABEL Halaman 1 2 3 4 5
Fuzzy calendar dan fungsi keanggotaannya (µ) .................................................................. Ilustrasi data transaksi untuk perhitungan modul delete ....................................................... Banyaknya frequent itemset untuk data lama, data update (delete) dan data hapus................ Frequent itemset untuk data lama, data update (delete) dan data hapus ................................ Banyaknya aturan asosiasi dengan support threshold 20% untuk data lama, data update (delete) dan data hapus........................................................................................................ 6 Aturan asosiasi dengan support threshold 20% untuk data lama, data update (delete) dan data hapus .......................................................................................................................... 7 Waktu eksekusi (detik) untuk data update dan data hapus pada tiga kombinasi threshold dengan jumlah partisi yang dihapus=1.................................................................................
4 6 7 7 8 9 9
DAFTAR GAMBAR Halaman 1 Basic fuzzy calendar berasosiasi dengan time granularity dari (a) minggu (week), (b) bulan (month), dan (c) tahun (year) (Lee & Lee 2004) .................................................................. 2 Diagram alir proses deletion................................................................................................ 3 Waktu eksekusi (detik) untuk data update dan data hapus ....................................................
3 5 10
DAFTAR LAMPIRAN Halaman 1 Ilustrasi proses tahapan pada modul delete sesuai dengan metode penelitian ........................ 2 Kode item barang yang ada pada data transaksi ................................................................... 3 Banyaknya frequent itemset baru (L’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6.......................................................... 4 Frequent Itemset dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 ........................................................................................ 5 Banyaknya aturan asosiasi (AR’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 ..................................................................... 6 Aturan asosiasi baru (AR’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 ............................................................................... 7 Waktu eksekusi aturan asosiasi dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 ..................................................................... 8 Grafik waktu eksekusi untuk data update dan hapus ............................................................
13 15 16 16 18 19 20 21
v
PENDAHULUAN Latar Belakang Kegiatan transaksi pembelian di supermarket menghasilkan data transaksi dengan cepat karena perhitungan pembelian dapat dilakukan dengan bantuan komputer. Data terus disimpan setiap hari secara periodik seiring dengan terus berlangsungnya transaksi pembelian. Akibatnya terdapat data transaksi yang dianggap kadaluarsa dan harus dihapus dari tempat penyimpanan. Akan tetapi, mungkin saja data tersebut masih mengandung pola-pola menarik yang berguna. Sehingga pihak pengelola data harus cermat dalam menentukan data yang dianggap kadaluarsa. Semakin besarnya jumlah data transaksi yang tersedia dari berbagai sumber penyimpanan menyebabkan teknik penemuan pengetahuan secara automatis dari basis data yang besar menjadi sangat populer. Seperti banyak industri pada saat ini yang tertarik menggunakan assocition rule mining untuk menemukan hubungan antaritem dari basis data yang terkoleksi. Association rule mining adalah salah satu teknik penemuan pengetahuan dalam bidang data mining. Data mining sendiri merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2006). Teknik association rule mining yang digunakan dalam penelitian ini adalah fuzzy temporal association rule mining. Dalam penelitian ini dilakukan pembuatan modul delete pada aplikasi fuzzy temporal assosiacion rule mining yang telah ada sebelumnya (Suminar 2007 & Wijayanti 2008). Modul ini merupakan bagian dari teknik incremental updating untuk menghasilkan aturan asosiasi dengan menggunakan fuzzy calendar pada data transaksi pembelian barang di supermaket. Fuzzy calendar mempermudah pengguna untuk mendefinisikan waktu sesuai dengan keinginan mereka tanpa perlu mengetahui batasan waktu secara pasti. Misalnya pengguna ingin mengetahui pola yang menarik dari data awal minggu atau awal tahun. Awal minggu atau awal tahun merupakan interval waktu yang dapat didefinisikan berbeda-beda pada setiap pengguna.
transaksi yang dihapus. Tidak perlu dilakukan penelusuran berulang-ulang terhadap basis data awal untuk menghasilkan pola-pola baru karena menggunakan informasi yang tersedia sebelumnya. Tujuan Penelitian Tujuan penelitian ini adalah : 1 Membuat modul delete pada aplikasi fuzzy temporal association rule mining yang telah dibangun pada penelitian sebelumnya (Suminar 2007 & Wijayanti 2008). Modul delete digunakan ketika ingin melihat frequent itemset dan association rule pada data yang telah di-update. 2 Membandingkan hasil yang diperoleh yaitu frequent itemset dan association rule serta waktu eksekusi dengan implementasi modul delete dan tanpa menggunakan modul delete (data dihapus secara langsung). Ruang Lingkup Penelitian Ruang lingkup penelitian ini dibatasi pada: 1 Menerapkan modul delete pada aplikasi fuzzy temporal temporal association rule mining yang telah ada sebelumnya sehingga menghasilkan frequent itemset dan association rule baru. 2 Melakukan percobaan terhadap data transaksi yang dihapus setiap partisi satu persatu secara langsung untuk melihat frequent itemset dan association rule yang dihasilkan. 3 Data transaksi kadaluarsa dalam penelitian ini adalah data yang ingin dihapus mulai dari partisi-partisi awal pada setiap minggu. 4 Modul delete ini diterapkan pada data transaksi pembelian selama 11 minggu (1 Maret 2004 – 21 Mei 2004) di Sinar Mart Swalayan. Data ini telah melewati tahap praproses yang telah dilakukan pada penelitian sebelumnya (Suminar 2007). Manfaat Penelitian Hasil penelitian ini diharapkan dapat membantu menemukan keterkaitan antaritem secara cepat jika terdapat data transaksi yang dihapus sehingga tidak perlu melakukan penghapusan secara langsung terhadap data transaksi karena menggunakan informasi yang diperoleh pada pengolahan data awal.
Modul ini dapat membantu kita menemukan pola baru ketika terdapat data
1
TINJAUAN PUSTAKA Himpunan Fuzzy Himpunan fuzzy berbeda dengan himpunan crisp atau boolean. Himpunan fuzzy memiliki fungsi keanggotaan yaitu himpunan yang menjelaskan hubungan antara anggota himpunan dengan derajat keanggotaannya yang berkisar antara nol sampai satu. Himpunan fuzzy memiliki membran semipermeable yang anggotanya dibagi menjadi tiga, yaitu bukan anggota himpunan, anggota penuh dari himpunan, dan anggota sebagian dari himpunan (Cox 2004). Association Rule Mining Association rule mining merupakan teknik data mining yang berguna untuk mengungkap aturan menarik yang tersembunyi dalam basis data besar (Tan et al 2006). Penggalian aturan asosiasi di antara record yang jumlahnya sangat banyak dapat membantu proses pengambilan keputusan (Han & Kamber 2006). Association rule adalah ekspresi implikasi yang dinyatakan dalam bentuk X→Y, dimana X dan Y adalah itemset terpisah (disjoint) yaitu (Tan et al 2006). Kekuatan dari aturan asosiasi dapat diukur dengan support dan confidence. Support menentukan seberapa sering aturan tersebut diterapkan dalam dataset, sedangkan confidence menentukan frekuensi item dalam Y muncul dalam transaksi yang mengandung X (Tan et al 2006). Support Definisi formal dari support adalah sebagai berikut (Tan et al 2006): (1) dengan itemset transaksi.
adalalah support count dari N adalah total jumlah
dan
Confidence Definisi formal dari confidence adalah sebagai berikut (Tan et al 2006): (2) dengan dan masing-masing adalalah support count untuk itemset dan X. Sebagai contoh, terdapat aturan asosiasi {Milk, Diapers}→Beer. Support dan confidence dari aturan tersebut dapat dihitung
jika diketahui jumlah total transaksi dan jumlah transaksi yang mengandung itemset {Milk, Diapers} secara bersamaan. Misalnya, suatu supermarket memiliki 5 transaksi pembelian. Pembelian itemset {Milk, Diapers, Beer} terjadi secara bersamaan pada 2 transaksi pembelian. Artinya support count untuk itemset {Milk, Diapers, Beer} adalah 2, sedangkan support untuk itemset tersebut adalah 2/5=0.4. Confidence dari aturan asosiasi tersebut diperoleh dengan membagi support count dari {Milk, Diapers, Beer} dengan support count dari { Milk, Diapers } yaitu 2/3=0.67. Strategi yang sering diambil untuk menyelesaikan permasalahan association rule adalah dengan memecah masalah tersebut ke dalam dua pekerjaan utama (Tan et al 2006), yaitu Pembangkitan frequent itemset yang bertujuan mencari semua itemset yang memenuhi nilai ambang support threshold. Pembangkitan aturan, bertujuan mengekstrak seluruh aturan yang memiliki confidence tinggi dari frequent itemset yang telah ditemukan pada pekerjaan sebelumnya. Fuzzy Calendar Algebra Secara umum, kalender adalah koleksi terstruktur dari interval waktu (Lee & Lee 2004). Biasanya kita mendeskripsikan waktu dalam kalender dengan istilah awal minggu, akhir minggu, awal tahun, akhir tahun dan sebagainya yang bersifat fuzzy. Untuk merumuskan pemikiran manusia tersebut ke dalam proses penemuan pengetahuan, teori fuzzy diadopsi untuk mengkonstruksi kalender (Lee & Lee 2004). Konsep dan operasi fuzzy diperkenalkan untuk membantu pengguna mengekspresikan kalender secara baik dan mudah. Dalam praktiknya, pengguna akan memilih sendiri fuzzy calendar yang digunakan untuk menemukan aturan asosiasi. Menurut Lee & Lee (2004), fuzzy calendar memiliki tiga definisi yaitu sebagai berikut. Definisi 1: Sebuah basic fuzzy calendar, A, mencirikan sebuah proposisi fuzzy tentang koleksi dari interval waktu pada sebuah time granularity U, dideskripsikan sebagai fungsi keanggotaan , dengan untuk setiap interval waktu fungsi menyatakan
. Nilai derajat
2
keanggotaan Ti dalam A. Contoh dari fuzzy calendar ditunjukkan pada Gambar 1.
Definisi 3: A dan B adalah fuzzy calendar dengan fungsi keanggotaan µA dan µB dengan penjelasan sebagai berikut: 1 A and B dinotasikan dengan dengan fungsi keanggotaan didefinisikan oleh
,
(3) dengan t adalah salah satu kelas dari operator-operator fuzzy intersection. 2 A or B dinotasikan dengan , dengan fungsi keanggotaan didefinisikan oleh (4) dengan s adalah salah satu kelas dari operator-operator fuzzy union. 3 not A dinotasikan dengan komplemen dari A, dengan fungsi keanggotaan didefinisikan oleh (5) dengan c adalah salah satu kelas dari operator komplemen fuzzy. 4 A xor B dinotasikan dengan perbedaan simetris dari A dan B, A B , dengan fungsi keanggotaan didefinisikan oleh (6) 5 A sub B dinotasikan dengan pengurangan kalender A dari B, A – B, dan ≡ (7) adalah hasil fungsi keanggotaan. Gambar 1 Basic fuzzy calendar berasosiasi dengan time granularity dari (a) minggu (week), (b) bulan (month), dan (c) tahun (year) (Lee & Lee 2004). Definisi 2: Sebuah fuzzy didefinisikan sebagai berikut:
calendar
1 Sebuah basic fuzzy calendar adalah fuzzy calendar. 2 Jika A dan B adalah dua buah fuzzy calendar, maka operasi A and B, A or B, not A, A xor B, dan A sub B juga merupakan fuzzy calendar. Penjelasan operasi dalam Definisi 2 diuraikan pada Definisi 3.
Dari persamaan 3 hingga persamaan 7 didapatkan rumus-rumus yang digunakan untuk mencari bobot pada tiap partisi pada data transaksi yang dibedakan berdasarkan pada tanggal. Rumus-rumus tersebut adalah (Lee & Lee 2004): (8) (9) (10) (11) (12) Tabel 1 menunjukkan fuzzy calendar beserta fungsi keanggotaannya (µ) sesuai Gambar 1.
3
Tabel 1 Fuzzy calendar keanggotaannya (µ) No 1 2 3 4 5 6 7 8 9
dan
fungsi
Fuzzy Calendar Beginning of the week (bw) Middle of the week (mw) End of the week (ew) Beginning of the month (bm) Middle of the month (mm) End of the month (em) Beginning of the year (by) Middle of the year (my) End of the year (ey)
µ
Sebagai contoh fuzzy calendar c1 dengan operasi (in the middle of a month or at the beginning of a year) dapat dijelaskan menggunakan fungsi derajat keanggotaan: )
(13)
Mining Fuzzy Temporal Association Rule Menurut Lee & Lee (2004), mining fuzzy temporal association rule adalah pembangkitan aturan asosiasi dari basis data temporal dengan mengadopsi konsep fuzzy calendar. Mining fuzzy temporal association rule dibagi menjadi dua kasus. Kasus yang pertama adalah menentukan frequent itemset pada basis data tunggal. Kasus ini telah dilakukan pada penelitian sebelumnya untuk data transaksi (Suminar 2007). Sedangkan kasus yang kedua adalah incremental updating yang terdiri atas modul delete dan add. Penelitian mengenai pembuatan modul add telah dilakukan pada data transaksi (Wijayanti 2008). Sedangkan penelitian ini akan fokus pada pembuatan modul delete dari kasus kedua. Perhitungan untuk modul delete secara umum menggunakan perhitungan sama seperti pada penelitian sebelumnya. Akan tetapi terdapat perbedaan dalam tahapan penemuan candidate 2-itemset baru (C2_baru), weighted count ketika menentukan frequent itemset dan weighted count yang digunakan dalam penemuan association rule.
masing adalah data yang akan ditambahkan dan dihapus dari data D. Penelitian ini menentukan frequent itemset yang dihasilkan dengan melakukan penghapusan transaksi (delete) secara bertahap untuk D-∆- dengan D-∆- adalah basis data D yang telah dikurangi transaksinya sebanyak ∆-. Semua transaksi dalam ∆dikeluarkan dari basis data D sehingga dihasilkan basis data baru D-∆-. Dalam penghapusan ∆- dari D, diasumsikan bahwa ∆berisi partisi sebanyak h, P1, P2,…, Ph. Dalam hal ini partisi adalah tanggal transaksi. Penghapusan partisi tersebut dilakukan secara terurut. Dalam perhitungan, dibutuhkan informasi mengenai weighted count suatu itemset (σPi(I)) dan cumulative weigthed count (V). σPi(I) adalah hasil kali bobot dengan jumlah transaksi yang mengandung itemset I pada partisi ke-i. Sedangkan cumulative weigthed count (V) adalah jumlah σPi(I) dari seluruh partisi (Lee & Lee 2004). Cumulative weighted count threshold (M(h+1)n) adalah jumlah dari σPi(I) yang dikali dengan support threshold (Lee & Lee 2004). (14) (15) Ketika menghapus Pi dari D, dilakukan pengecekan itemset C2. Untuk setiap itemset I dalam C2 kita dapatkan V, jika V- σPi(I) ≥ M(h+1)n
(16)
maka I termasuk dalam candidate 2-itemset (C2). Sedangkan jika lebih kecil dari M(h+1)n maka I dihapus dari C2 dan semua baris yang mengandung informasi tentang I juga dihapus. Kemudian dilakukan update terhadap weighted count dari setiap itemset dalam frequent itemset (L). Update weighted count untuk basis data yang dikurangi transaksinya (σD’(I)) dalam dapat dihitung dengan rumus (Lee & Lee 2004):
Incremental Updating
(I)
(17)
Incremental updating merupakan suatu proses penambahan data (add) dan proses pengurangan data (delete) pada basis data D yang telah ada tanpa harus memeriksa basis data berulang-ulang. Basis data dibagi-bagi ke dalam beberapa partisi misalnya sebanyak n partisi. Dalam hal ini ∆+ dan ∆- masing-
’(I)
(18)
dimana |Pk| adalah jumlah transaksi pada partisi Pk dan wk adalah bobot pada partisi k. Itemset dalam C2 digunakan untuk mendapatkan candidate k-itemset Ck sehingga candidate itemset, C, dari D adalah gabungan dari semua candidate k-itemset, ,
4
Support threshold, confidence threshold, dan fuzzy calendar serta operator fuzzy
Jumlah partisi yang ingin dihapus
Hasil aturan asosiasi yang terpilih
Pengguna
Mencari Candidate 2Ket: candidate 2itemset baru itemset dari data yang akan C2_baru dihapus Transakasi
Ket : V-σPi(I)>=M(i+1)n
Mencari frequent itemset (L) dan association rule (AR) dari data awal Menggabungkan C2_baru dengan L menjadi C2'
L2
L'
Weighted AR’ dan weighted confidence >= confidence Menampilkan confidence Membandingkan terbaru Mencari weighted hasil asosiasi threshold kemungkinan confidence dengan baru yang AR’ dari confidence terpilih kombinasi L’ threshold Ket: σD’(X U Y)/σD’(X) >= confidence threshold
Weighted confidence < confidence threshold Menghapus hasil aturan asosiasi yang tidak terpilih
C2'
L'
Scan basis data sekali lagi untuk mendapatkan frequent itemset terbaru (L’)
C’
Mencari candidate frequent itemset terbaru (C’)
Ket: C=Uk≥2 Ck
Ket: σD’(I)>=M(i+1)n L=Uk≥2Lk
Gambar 2 Diagram alir proses deletion. (19). Kemudian untuk menentukan frequent itemset dari C dilakukan scan basis data D kembali. Frequent itemset yang diperoleh merupakan gabungan dari semua frequent itemset (20). METODE PENELITIAN Proses Dasar Sistem Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database (KDD). Proses tersebut diuraikan sebagai berikut. 1 Praproses Data
diberikan pada Gambar 2. Sedangkan penjelasan mengenai tahap-tahapnya adalah sebagai berikut. Pertama: Mencari candidate 2 itemset (C2) dari data yang akan dihapus (∆-) dimana ∆- dibagi menjadi h partisi awal pada D’. Perhitungan ini berbeda dari metode penemuan C2 pada penelitian sebelumnya (Wijayanti 2008). Perhitungan V dan σPi (I) sama seperti pada penelitian sebelumnya (Suminar 2007). Sedangkan M(h+1)n adalah weighted count threshold yang dimulai dari partisi h+1. Kedua:
Menggabungkan antara C2_baru dengan frequent 2-itemset (L2) dari data awal sebelum dihapus sehingga menghasilkan candidate 2-itemset terbaru (C2’). Candidate 2 item terbaru merupakan data baru (D’) yang akan digunakan untuk mencari frequent itemset baru (L’) dan aturan asosiasi baru (AR’).
Ketiga:
Mencari candidate frequent itemset baru (C’) yang didapat dari perluasan dari C2’ sehingga menjadi C3’, C4’, sampai Ck’. Dalam hal ini, cumulative weighted count threshold (σD’ (I)) dari setiap item
Praproses data meliputi tahap pembersihan data, transformasi data, dan seleksi data. Penelitian ini menggunakan data yang telah melalui tahap praproses data yang dilakukan dalam penelitian sebelumnya (Suminar 2007). 2 Data Mining Tahap ini merupakan inti dari penelitian yaitu pembuatan modul delete. Tahap ini menggunakan fuzzy temporal association rule dengan pengurangan data transaksi yang diajukan oleh Wan Jui Lee dan Shie Jue Lee (2004). Bagan dari tahapan data mining ini
5
pada Ck’ juga ter-update seperti Persamaan 18 yaitu ’(I)
sehingga langkah-langkahnya adalah sebagai berikut:
. Jika σD’(I) ≥ M(h+1)n maka Ck’ dapat menjadi anggota frequent itemset baru (L’).
1 Menghitung M(h+1)n menggunakan persamaan (14) M(1+1)3=M23=1.447 dimana i adalah jumlah partisi yang akan dihapus.
Keempat: Mencari semua kemungkinan aturan asosiasi terbaru berdasarkan pada L’ yang didapat serta menghitung weighted confidence kemudian hasil confidence yang didapat akan dibandingkan dengan confidence threshold yang telah didefinisikan oleh pengguna. Jika weighted confidence lebih besar atau sama dengan confidence threshold maka aturan asosiasi tersebut dapat menjadi aturan asosiasi yang kuat (strongrule). Tabel 2 menyajikan contoh data transaksi pada modul delete. D adalah basis data awal, sedangkan ∆- adalah data yang akan dihapus. Tabel 2 Contoh data transaksi untuk perhitungan modul delete ∆-
Tanggal 15/09/2003
16/09/2003 D 17/09/2003
TID 1 2 3 4 5 6
Items CDEF BDF ADE ABDEF ABCEF BF
7
ADEF
8
ABDF
9
ADF
Ilustrasi secara lengkap mengenai perhitungan untuk mendapatkan aturan asosiasi disajikan pada Lampiran 1. Berikut ini adalah contoh perhitungan untuk menghasilkan C2_baru. Tanggal merepresentasikan partisi, misalnya tanggal 15/09/2003 adalah Partisi 1, 16/09/2003 adalah Partisi 2, dan 17/09/2003 adalah Partisi 3. Misalkan diketahui support threshold=40% dan confidence threshold=75% serta fuzzy calendar yang dipilih adalah [(tengah bulan dan akhir tahun) or (akhir minggu dan awal tahun)]. Sedangkan informasi mengenai frequent 2itemset (L2) yang dihitung dari basis data awal adalah AD, AE, AF, BF, DE, DF, dan EF. Fungsi keanggotaan dari ketiga partisi tersebut secara terurut adalah w1=0.67, w2=0.67, dan w3=0.536. Misalkan dalam hal ini data yang akan dihapus adalah Partisi 1,
2 Memeriksa C2 yang pertama kali dihasilkan oleh partisi yang akan dihapus (Partisi 1). Jika V- σPi (I) ≥ M(h+1)n maka I dimasukkan ke dalam C2_baru. Dalam contoh ini AD, AE, DE, dan DF adalah C2 yang dihasilkan oleh Partisi 1. Masingmasing C2 memiliki V- σPi (I) yaitu 2.278, 1.876, 1.20, dan 2.278, sehingga DE tidak dimasukkan ke dalam C2_baru karena VσP1(DE) < M23. Lingkungan Pengembangan Sistem a Perangkat keras pada komputer personal: Processor: AMD Athlon 64, 3000+ Memory: 1.2 GB Harddisk 80 GB Keyboard, mouse, dan monitor b Perangkat lunak yang digunakan: Sistem operasi: Microsoft® Windows XP Professional MATLAB 7.0.1 sebagai bahasa pemrograman Microsoft® Excel 2007 sebagai pengolah data. HASIL DAN PEMBAHASAN Dalam penelitian ini dilakukan pembangkitan fuzzy temporal association rule dengan adanya proses delete terhadap data transaksi. Secara umum, proses ini dibagi ke dalam 2 tahap, yaitu tahap pembangkitan frequent itemset dan tahap pembangkitan association rule. Tahap ini akan memperbaharui cumulative weighted count (V) dari partisi yang dihapus. Selain itu juga memperbaharui weighted count di setiap frequent itemset (L). Percobaan dilakukan dengan menggunakan data lama yang diperoleh dari penelitian sebelumnya berupa data minggu pertama Maret 2004 yang mengandung 7 partisi dan fuzzy calendar yang digunakan berupa awal minggu or awal tahun. Pemilihan kombinasi fuzzy calendar berdasarkan pada data yang digunakan yaitu minggu pertama Maret yang berada pada awal tahun. Selain itu, penelitian sebelumnya juga menggunakan kombinasi fuzzy calendar yang sama. Sedangkan mengenai data kode
6
item barang yang ada pada data transaksi disajikan pada Lampiran 2. Penghapusan partisi dilakukan dengan memasukkan jumlah partisi yang akan dihapus. Selain itu percobaan ini menggunakan ketentuan yang sama pada penelitian sebelumnya yaitu penggunaan support (20%, 30%, dan 40%) dan confidence threshold (65%, 70%, dan 75%). Dengan menggunakan ketentuan yang sama diharapkan dapat memudahkan pihak lain untuk membandingkan hasil dari percobaan penelitian ini dengan penelitian sebelumnya. Pembentukan Frequent Itemset Baru Dalam percobaan, pembangkitan frequent itemset dan association rule dari data lama juga dilakukan. Hal ini dikarenakan dalam pembangkitan frequent itemset dan association rule baru membutuhkan informasi dari pemrosesan data lama yaitu candidate 2-itemset (C2) dan frequent 2itemset (L2). Akan tetapi, dalam pembahasan selanjutnya hanya fokus pada perhitungan frequent itemset dan association rule baru (modul delete) karena diasumsikan informasi dari data lama telah dihitung dan disimpan dalam suatu ruang penyimpanan seperti file .xls, sehingga tidak perlu memproses data lama. Tabel 3 menunjukkan banyaknya frequent itemset yang terbentuk dari data lama (tidak ada partisi yang dihapus), data update (modul delete), dan data hapus (partisi dihapus langsung dari awal) untuk support threshold 20%, 30%, dan 40%. Tabel 3 Banyaknya frequent itemset untuk data lama, data update (delete) dan data hapus Data Data update hapus (delete) Jumlah partisi yang dihapus=1 20% 2 2 2 30% 1 1 1 40% 0 0 0 Jumlah partisi yang dihapus=2 20% 2 2 3 30% 1 1 1 40% 0 0 0 Jumlah partisi yang dihapus=3 20% 2 3 3 30% 1 1 1 40% 0 0 0 Jumlah partisi yang dihapus=4 20% 2 3 3
Support threshold
Data lama
Data Data update hapus (delete) 30% 1 1 1 40% 0 0 0 Jumlah partisi yang dihapus=5 20% 2 4 2 30% 1 1 2 40% 0 0 1 Jumlah partisi yang dihapus=6 20% 2 0 0 30% 1 0 0 40% 0 0 0
Support threshold
Data lama
Informasi yang dihasilkan dari pemrosesan data lama dapat digunakan berulang-ulang dalam modul delete. Dari Tabel 3 terlihat bahwa data update dan data hapus mengalami peningkatan jumlah frequent itemset. Hal ini disebabkan oleh semakin meningkatnya nilai weighted count itemset (σD’(I)) seiring dengan meningkatnya jumlah partisi yang dihapus sehingga semakin banyak itemset yang lolos menjadi L’. Lampiran 3 menyajikan banyaknya frequent itemset untuk semua minggu dan semua jumlah partisi yang dihapus. Tabel 4 Frequent itemset untuk data lama, data update (delete) dan data hapus Data Data update hapus (delete) Jumlah partisi yang dihapus=1 20% 3080, 3080, 3080, 6080 6080 6080 30% 3080 3080 3080 40% Jumlah partisi yang dihapus=2 20% 3080, 3080, 3080, 6080 6080 8014, 6080 30% 3080 3080 3080 40% Jumlah partisi yang dihapus=3 20% 3080, 6080, 3080, 1080, 3080, 6080 6080 1080 30% 3080 3080 3080 40% Jumlah partisi yang dihapus=4 20% 3080, 3080, 1080, 6080 1080, 3080, 6080 6080 30% 3080 3080 3080 40% Jumlah partisi yang dihapus=5 20% 3080, 7080, 6080, Support threshold
Data lama
7
Support threshold
Data lama 6080
30%
3080
Data update (delete) 3080, 1080, 6080 3080
Data hapus 3080
6080, 3080 40% 3080 Jumlah partisi yang dihapus=6 20% 3080, 6080 30% 3080 40% Tabel 4 menyajikan frequent itemset atau barang-barang yang sering dibeli pada waktu tertentu (minggu pertama Maret 2004). Barang-barang tersebut adalah barang dengan ID 10 (mie instant), 14 (sabun), 30 (susu), 60 (permen), 70 (minuman), dan 80 (snack). Frequent itemset yang dihasilkan terdiri atas 2 item untuk data lama, data update, dan data hapus. Pada support threshold 40%, hampir pada setiap jumlah partisi yang dihapus, data update dan data hapus tidak menghasilkan L baru. Karena candidate itemset yang dihasilkan tidak memiliki nilai cumulative weighted count di atas weighted count threshold. Hanya saja pada jumlah partisi yang dihapus= 5, pada data hapus terbentuk 1 frequent itemset yaitu 3080. Artinya susu (30) dan snack (80) muncul secara bersamaan pada waktu tersebut. Lampiran 4 menyajikan frequent itemset untuk semua minggu dan semua jumlah partisi yang dihapus. Pembentukan Aturan Asosiasi Baru Pembentukan aturan asosiasi baru membutuhkan informasi mengenai frequent itemset yang telah dibangkitkan pada tahap sebelumnya. Perhitungan untuk menemukan aturan asosiasi ini hampir sama dengan penelitian sebelumnya, yang berbeda adalah pada data yang diproses, yaitu data yang telah melewati proses update (delete). Dari frequent itemset yang ada, dibangkitkan semua kemungkinan kombinasi aturan asosiasi. Kemudian dihitung weighted confidence dari setiap kombinasi tersebut. Seperti yang telah digambarkan pada sub bab sebelumnya bahwa aturan asosiasi yang memiliki weighted confidence di atas confidence threshold merupakan strongrule, dan sisanya dibuang. Beberapa percobaan dengan menggunakan confidence threshold 65%, 70%, dan 75%
telah dilakukan. Pada Tabel 5 dapat dilihat banyaknya aturan asosiasi yang terbentuk pada support threshold terendah yaitu 20% untuk data lama, data update (modul delete), dan data hapus (data yang telah dihapus beberapa partisi dari file .xls). Lampiran 5 menyajikan banyaknya aturan asosiasi untuk semua minggu dan semua jumlah partisi yang dihapus. Aturan asosiasi yang dihasilkan dengan modul delete memiliki jumlah dan kode item yang hampir sama dengan aturan asosiasi yang dihasilkan dari data yang diproses tanpa menggunakan modul delete. Tabel 5 Banyaknya aturan asosiasi dengan support threshold 20% untuk data lama, data update, dan data hapus Confidence threshold
Data lama
Data update
Data hapus
Jumlah partisi yang dihapus=1 65% 70% 75%
2 1 0
2 1 0
2 1 0
Jumlah partisi yang dihapus=2 65% 70% 75%
2 1 0
2 1 0
2 1 0
Jumlah partisi yang dihapus=3 65% 2 2 2 70% 1 1 1 75% 0 0 0 Jumlah partisi yang dihapus=4 65% 2 2 2 70% 1 1 1 75% 0 0 0 Jumlah partisi yang dihapus=5 65% 2 3 2 70% 1 1 2 75% 0 0 1 Jumlah partisi yang dihapus=6 65% 2 0 0 70% 0 0 0 75% 0 0 0 Dari Tabel 5, terlihat bahwa jumlah aturan asosiasi pada data update dan data hapus memiliki jumlah dan peningkatan aturan asosiasi yang sama sampai 4 partisi yang dihapus. Sedangkan pada jumlah partisi yang dihapus=5, jumlah dan peningkatan aturan asosiasi pada kedua jenis data tersebut berbeda. Hal ini disebabkan oleh semakin besar jumlah partisi yang dihapus maka nilai pembagi pada perhitungan weighted counfidence semakin kecil. Sehingga weighted
8
confidence semakin besar dan semakin banyak aturan asosiasi yang lolos dari confidence threshold. Lain halnya dengan jumlah partisi yang dihapus=6, yaitu tidak dihasilkan aturan asosiasi baik pada data update, maupun data hapus. Hal ini disebabkan oleh tidak dihasilkannya frequent itemset pada perhitungan sebelumnya sehingga tidak ada kombinasi aturan asosiasi. Lampiran 6 menyajikan aturan asosiasi untuk semua minggu dan semua jumlah partisi yang dihapus.
confidence threshold 75%, pemrosesan data update tidak menghasilkan aturan asosiasi apapun. Pada data update, aturan asosiasi 30→80 muncul hampir pada setiap perhitungan jumlah partisi yang dihapus.
Tabel 6 Aturan asosiasi dengan support threshold 20% untuk data lama, data update dan data hapus
Support Threshold
Confidence threshold
s=20%
Confidence Data Data Data thrshold lama update hapus Jumlah partisi yang dihapus=1 65% 30→80 30→80 30→80 60→80 60→80 60→80 70% 30→80 30→80 30→80 75% Jumlah partisi yang dihapus=2 65% 30→80 30→80 30→80 60→80 60→80 60→80 70% 30→80 30→80 30→80 75% Jumlah partisi yang dihapus=3 65% 70% 75%
30→80 60→80 30→80 -
30→80 60→80 30→80 -
60→80 30→80 30→80 -
Jumlah partisi yang dihapus=4 65% 70% 75% 65%
70% 75% 65% 70% 75%
30→80, 30→80 30→80, 60→80 60→80 60→80 30→80 30→80 30→80 Jumlah partisi yang dihapus=5 30→80 70→80 60→80 60→80 30→80 30→80 60→80 30→80 30→80 60→80 30→80 30→80 Jumlah partisi yang dihapus=6 30→80, 60→80 30→80 -
Tabel 7 Waktu eksekusi (detik) untuk data update dan data hapus pada tiga kombinasi threshold dengan jumlah partisi yang dihapus=1 Waktu eksekusi (detik) Data update (delete)
Data hapus
c=65%
13.984
54.293
s=30%
c=70%
12.875
44.5
s=40%
c=75%
3.157
40.891
Tabel 7 menampilkan waktu eksekusi (detik) pemrosesan data update dan data hapus sampai menghasilkan aturan asosiasi pada tiga kombinasi threshold. Waktu eksekusi tercepat terjadi pada data update dengan support dan confidence threshold masing-masing 40% dan 75% yaitu 3.157 detik. Pada threshold yang sama, waktu eksekusi untuk data hapus menghabiskan waktu 40.891 detik. Lampiran 7 menyajikan waktu eksekusi untuk semua minggu dan semua jumlah partisi yang dihapus. Gambar 3 menyajikan grafik waktu eksekusi (detik) untuk pembentukan aturan asosiasi untuk data update dan data hapus yang diperoleh dari penjumlahan waktu eksekusi pembangkitan frequent itemset dan aturan asosiasi. Gambar tersebut merupakan salah satu contoh waktu eksekusi yaitu diambil dari waktu eksekusi untuk jumlah partisi yang dihapus=1. Sedangkan untuk jumlah partisi yang dihapus=2 sampai dengan 6, disajikan pada Lampiran 8. Dari Gambar 3 dapat dilihat bahwa waktu eksekusi pada kedua jenis data semakin cepat seiring dengan meningkatnya support dan confidence threshold. Hal ini disebabkan semakin sedikitnya frequent itemset yang lolos dari batas support threshold.
Berdasarkan pada Tabel 6 aturan-aturan asosiasi yang terbentuk pada data update dan data hapus hanya terdiri atas 2 item. Pada jumlah partisi yang dihapus=5 dengan
9
Berdasarkan pada hasil penelitian yang telah dilakukan terhadap data transakasi Sinar Mart Swalayan dengan menggunakan modul delete dan tanpa menggunakan modul delete diperoleh kesimpulan sebagai berikut: 1 Frequent itemset yang dihasilkan dengan menggunakan modul delete tidak jauh berbeda jumlahnya dengan jumlah frequent itemset yang dihasilkan tanpa menggunakan modul delete. Pembangkitan frequent itemset dengan modul delete maupun tanpa modul delete sama-sama hanya menghasilkan 2 kombinasi item. Gambar 3 Waktu eksekusi (detik) untuk data update dan data hapus. Perbedaan waktu eksekusi antara data update dan data hapus sangat signifikan. Seperti yang diperlihatkan pada Gambar 3, bahwa waktu eksekusi untuk data update lebih cepat dibandingkan dengan waktu eksekusi data hapus untuk semua kombinasi threshold. Lampiran 8 menyajikan grafik waktu eksekusi untuk semua minggu dan semua jumlah partisi yang dihapus. Hal ini disebabkan oleh perbedaan proses perhitungan kedua jenis data tersebut. Perhitungan data update semakin cepat karena tidak membaca basis data secara keseluruhan (dari awal), tetapi hanya dengan menggunakan informasi yang telah dihasilkan oleh pemrosesan data awal (data asli sebelum ada modul delete). Dalam pembahasan ini diasumsikan frequent itemset dari data lama sudah tersedia. Sehingga pada saat ingin menggunakan modul delete tidak perlu lagi memproses data lama. Sedangkan perhitungan data hapus dilakukan dengan membaca basis data dari awal, dan membangkitkan semua kombinasi candidate itemset dari data tersebut sampai menghasilkan aturan asosiasi. Sehingga dapat dikatakan bahwa penemuan aturan asosiasi dengan modul delete jauh lebih cepat dibandingkan dengan penemuan aturan asosiasi jika data yang kadaluarsa dihapus langsung dari data transaksi awal.
2 Jumlah aturan asosiasi hampir sama yang dihasilkan dengan modul delete dan tanpa modul delete. Aturan asosiasi semakin cepat terbentuk seiring dengan meningkatnya support dan confidence threshold. 3 Waktu eksekusi yang dibutuhkan membangkitkan aturan asosiasi penghapusan data lebih menggunakan modul delete dari tanpa menggunakan modul delete.
untuk untuk cepat pada
Saran Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki selanjutnya, yaitu: 1 Operasi fuzzy pada penelitian ini masih menggunakan satu operasi, sehingga dapat diperbaiki dengan menambahkan operasi fuzzy lebih dari satu operasi. 2 Penambahan jenis fuzzy calendar berdasarkan pada pembagian jam dalam satu hari, seperti pagi, siang, sore, dan malam hari.
KESIMPULAN DAN SARAN Kesimpulan Modul delete yang ditambahkan pada aplikasi fuzzy temporal association rule mampu menghasilkan aturan asosiasi dengan cara yang efektif dan efisien ketika terdapat data transaksi yang ingin dihapus dari data transaksi.
10
DAFTAR PUSTAKA Cox E. 2004. Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Elseiver Inc. San Francisco, USA. Han J, Kamber M. 2006. Data Mining: Concepts and Techniques. San Diego, USA: Morgan-Kauffman. Lee WJ, Lee SJ. 2004. Discovery of Fuzzy Temporal Association Rules. IEEE Transactions On Systems, Man, and Cybernetics, Vol. 34, No. 6. Suminar HR. 2007. Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining (Studi Kasus : Data Transaksi Pasar Swalayan) [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor. Tan, P.N., Steinbach, M., & Umar, V.K. 2006. Introduction to Data Mining. Boston : Pearson Education, Inc. Wijayanti TE. 2008. Incremental Updating pada Aplikasi Fuzzy Temporal Association Rule Mining pada Data Transaksi [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor.
11
LAMPIRAN
12
Lampiran 1 Ilustrasi proses tahapan pada modul delete sesuai dengan metode penelitian Informasi yang diketahui dari data yang lalu yaitu: a Data transaksi awal (sebelum dihapus): Partisi P1
Tanggal 15/19/2003
P2
16/19/2003
P3
17/09/2003
TID 1 2 3 4 5 6 7 8 9
Item ACDEF BDF ADE ABDEF ABCEF BF ADEF ABDF ADF
b Support threshold=40% dan Confidence threshold=75 % c w1=0.67 w2=0.67 w3=0.536 d C2=AB, AD, AE, AF, BF, DE, DF, EF e L2=AD, AE, AF, BF, DE, DF, EF f
Fuzzy calendar yang dipilih adalah [(tengah bulan dan akhir tahun) or (akhir minggu dan awal tahun)].
Langkah-langkah untuk melakukan update frequent itemset L’ dan aturan asosiasi yang baru yaitu: Pertama: Mencari candidate 2-itemset dari data yang akan dihapus (∆-). Langkah 1: Menghitung M(h+1)n=1.447 mi
wi
M ii
mi
M ij
Mi
Pi
s%
∆j 1
Partisi P1
Tanggal 15/19/2003
mj
TID 1 2 3
Items CDEF BDF ADE
Langkah 2: Memeriksa C2 yang dihasilkan dari data awal yang partisi awalnya adalah P1. C2 dari data lalu yang partisi awalnya P1adalah AD, AE, DE, DF. Sehingga didapatkan C2 yang memiliki V- σPi(I) ≥ M(h+1)n yaitu AD, AE, dan DF. Diperoleh C2_baru yaitu AB, AD, AE, AF, BF, DF, EF. Kedua:
Menggabungkan C2_baru dengan L2 dari hasil penelitian sebelumnya menjadi C2’. C2’= C2_baru L2 = {AB, AD, AE, AF, BF, DE, DF, EF}.
Ketiga:
Mencari candidate frequent itemset terbaru (C’) dari perluasan C2’. C3’= C2’* C2’={ABF, ADE, ADF, AEF, DEF} C4’= C3’*C3’={ADEF} C’ = { AB, AD, AE, AF, BF, DE, DF, EF, ABF, ADE, ADF, AEF, DEF, ADEF }
Keempat: Menentukan C’ yang dapat menjadi frequent itemset karena cumulative weighted count- nya lebih besar dari weighted count threshold(M(h+1)n). Sehingga, itemset yang frequent adalah sebagai berikut: , , , AF, BF, DF, EF, ABF, ADF, AEF. Pengecekan tersebut diilustrasikan sebagai berikut. C' AB AD
Cumulative weighted count baru 1.876 2.278
13
Lampiran 1 Lanjutan C' AE AF BF DE DF EF ABF ADE ADF AEF DEF ADEF Kelima:
AR A→B B→A A→D D→A A→E E→A A→F F→A B→F F→B D→F F→D E→F F→E AB→F AF→B
Cumulative weighted count baru 1.876 2.948 2.546 1.206 2.278 1.876 1.876 1.206 2.278 1.876 1.206 1.206
< dari 1.447
< dari 1.447
< dari 1.447
Mencari association rule dari L’ tersebut dengan menghitung weighted confidence untuk setiap kombinasi aturan asosiasi. Weighted Confidence 0.64 0.74 0.77 1 0.64 1 1 0.81 0.86 0.7 1 0.63 1 0.52 1 0.63
AR BF→A A→BF B→AF F→AB AD→F AF→D DF→A A→DF D→AF F→AD AE→F AF→E EF→A A→EF E→AF F→AE
Weighted Confidence 0.74 0.63 0.74 0.52 1 0.77 1 0.77 1 0.63 1 0.64 1 0.64 1 0.52
Sehingga aturan asosiasi yang memenuhi confidence threshold adalah sebagai berikut. No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
AR A→D D→A E→A A→F F→A B→F D→F E→F AB→F AD→F AF→D DF→A A→DF D→AF AE→F EF→A E→AF
Weighted Confidence 0.77 1 1 1 0.81 0.86 1 1 1 1 0.77 1 0.77 1 1 1 1
14
Lampiran 2 Kode item barang yang ada pada data transaksi Kode 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 40 50 60 70 80 90
Nama mie instant saus kecap makanan kaleng lotion sabun shampo obat nyamuk pengharum ruangan bumbu dapur tepung minyak goreng susu bayi rokok baterai eskrim sosis perlengkapan komputer obat pasta gigi multivitamin susu perlengkapan bayi handuk perlengkapan dapur tissue sandal korek pembersih lantai pencuci piring kopi makanan pokok permen minuman snack pelengkap roti
15
Lampiran 3 Banyaknya frequent itemset baru (L’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 No
Minggu/Bulan
1 2 3 4 5 6 7 8 9 10 11
Minggu 1 Maret Minggu 2 Maret Minggu 3 Maret Minggu 4 Maret Minggu 1 April Minggu 2 April Minggu 3 April Minggu 4 April Minggu 1 Mei Minggu 2 Mei Minggu 3 Mei
20% 2 4 2 2 6 4 3 3 5 3 2
Partisi 1 30% 40% 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0
20% 2 4 2 2 6 5 4 2 5 3 2
Partisi 2 30% 40% 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 0 0
20% 3 4 2 2 6 5 3 3 4 3 2
Partisi 3 30% 40% 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 2 0 0 0
20% 3 4 5 2 6 5 3 4 5 3 5
Partisi 4 30% 40% 1 0 1 0 2 0 1 0 0 0 1 0 1 0 0 0 0 0 2 0 0 0
20% 4 4 6 3 7 5 3 2 0 7 1
Partisi 5 30% 40% 1 0 1 0 2 0 0 0 2 0 0 0 0 0 0 0 0 0 1 0 0 0
20% 0 0 0 0 0 0 0 0 0 0 3
Partisi 6 30% 40% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Lampiran 4 Frequent Itemset dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 No
Minggu/Bulan
1
Minggu 1 Maret
2
Minggu 2 Maret
3
Minggu 3 Maret
20% 3080 6080
1080 3080 6080 8014 3080 7080
Partisi 1 30% 40% 3080 -
3080
-
-
20% 3080 6080
1080 3080 6080 8014 3080 7080
Partisi 2 30% 40% 3080 -
3080
-
-
20% 3080 1080 6080 1080 3080 6080 8014 3080 7080
Partisi 3 30% 40% 3080 -
3080
-
-
-
20% 3080 1080 6080 1080 3080 6080 8014 1080 3080 7080 8014
Partisi 4 30% 40% 3080 -
3080
-
3080 7080
-
20% 7080 3080 1080 6080 1080 3080 6080 8014 1080 3080 7080 3014
Partisi 5 30% 40% 3080 -
20% -
Partisi 6 30% 40% -
3080
-
-
-
-
3080 7080
-
-
-
-
16
Lampiran 4 Lanjutan Partisi 1 30% 40%
Partisi 2 30% 40%
Partisi 3 30% 40%
Partisi 4 30% 40%
No
Minggu/Bulan
4
Minggu 4 Maret
3080 7080
-
-
3080 7080
7080
-
3080 7080
7080 3080
-
3080 7080
-
-
5
Minggu 1 April
1080 7080 3080 3070 6080 8014
-
-
1080 7080 3080 3070 6080 8014
3080
-
1080 7080 3080 6080 8014 1014
-
-
1080 7080 3080 6080 8014 1014
-
-
6
Minggu 2 April
1080 3070 3080 7080
3080
-
3080
-
-
-
7080 3080 8014
7080
-
7080
-
7080
-
1080 3070 3080 7080 8014 7080 3080 8014
-
Minggu 3 April
1080 3070 3080 7080 8014 7080 3080 8014
3080
7
7080
-
8
Minggu 4 April
3080 7080
-
-
1080 3070 3080 7080 8014 7080 3080 8014 1080 3080 7080
7080
-
3080 7080
7080
-
3080 7080
3080
-
9
Minggu 1 Mei
-
-
-
3080 7080 8014 1080
-
-
3080
-
3080
-
3080
3080
-
3080 7080 8014 1080 6080 3080
-
Minggu 2 Mei
3080 7080 8014 1080 6080 3080
-
10
3080 7080 8014 1080 6080 3080
3080
20%
20%
20%
20%
20% 3080 3070 7080 1080 6070 7080 3080 6080 8014 1014 1080 3070 3080 7080 8014 7080 3080 8014
Partisi 5 30% 40%
20%
Partisi 6 30% 40%
-
-
-
-
-
7080 3080
-
-
-
-
-
-
-
-
-
7080
-
-
-
-
-
-
-
-
-
-
3080 3070 7080 -
-
-
-
-
-
-
3080
7080
-
3080
-
-
17
Lampiran 4 Lanjutan No
11
Minggu/Bulan
Minggu 3 Mei
20%
Partisi 1 30% 40%
20%
Partisi 2 30% 40%
20%
Partisi 3 30% 40%
20%
Partisi 4 30% 40%
7080 3070
-
-
7080 3070
-
-
7080 3070
7080
-
7080 3070
7080
-
3080 7080
-
-
3080 7080
-
-
3080 7080
-
-
3080 8014 1014 4014 5014
-
-
20% 7080 3070 8014 6070 1070 7014 3080
Partisi 5 30% 40%
20%
Partisi 6 30% 40%
-
-
7080 8014
-
-
-
-
-
-
-
Lampiran 5 Banyaknya aturan asosiasi (AR’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 No
Minggu/Bulan
1 2 3 4 5 6 7 8 9 10 11
Minggu 1 Maret Minggu 2 Maret Minggu 3 Maret Minggu 4 Maret Minggu 1 April Minggu 2 April Minggu 3 April Minggu 4 April Minggu 1 Mei Minggu 2 Mei Minggu 3 Mei
20% 2 3 1 2 3 2 3 2 4 1 1
Partisi 1 30% 1 1 0 0 0 1 1 0 0 0 0
40% 0 0 0 0 0 0 0 0 0 0 0
Partisi 2 20% 30% 2 1 4 1 0 0 2 1 3 1 2 1 4 1 2 0 4 0 1 0 0 0
20% 1 4 4 2 4 1 2 3 4 1 3
Partisi 4 30% 40% 1 0 1 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0
20% 1 4 4 3 5 2 3 2 0 2 1
Partisi 5 30% 40% 1 0 1 0 2 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0
20% 0 0 0 0 0 0 0 0 0 0 0
Partisi 6 30% 40% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18
Lampiran 6 Aturan asosiasi baru (AR’) dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 No
Minggu/Bulan
1
Minggu 1 Maret
2
Minggu 2 Maaret
3
Minggu 3 Maret
4
20% 30 80 60→80 10→80 30→80 60→80
Partisi 1 30% 30→80
40% -
30→80
-
70→80
-
-
Minggu 4 Maret
30→80 70→80
-
-
5
Minggu 1 April
70→80 30→80 60→80
-
6
Minggu 2 April
7
Minggu 3 April
30→80 70→80 70→80 30→80 14→80
8
Minggu 4 April
9
Minggu 1 Mei
20% 30→80 60→80 10→80 30→80 60→80 14→80 -
Partisi 2 30% 30→80
40% -
20% 30→80 60→80 10→80 30→80 60→80 14→80 70→80
Partisi 3 30% 30→80
40% -
20% 30→80
30→80
-
-
-
10→80 30→80 60→80 14→80 10→80 30→80 70→80 14→80 30→80 70→80
Partisi 4 30% 30→80
40% -
20% 30→80
30→80
-
70→80
-
-
-
10→80 30→80 60→80 14→80 10→80 30→80 70→80 14→80 30→80 70→80 80→70 10→80 70→80 30→80 60→80 10→14 30→80 14→80 70→80 30→80 14→80
Partisi 5 30% 30→80
Partisi 6 30% 40% -
40% -
20% -
30→80
-
-
-
-
30→80 70→80
-
-
-
-
-
-
-
-
-
70→80 30→80
-
-
-
-
-
-
-
-
-
70→80
-
-
-
-
30→80
-
-
-
30→80 70→80
70→80
-
30→80 70→80
70→80 30→80
-
-
70→80 30→80 60→80
30→80
-
70→80 30→80 60→80 10→14
-
-
70→80 30→80 60→80 10→14
-
-
30→80
-
30→80
-
-
30→80
30→80
-
-
70→80
-
30→80 70→80 70→80 30→80 14→80
30→80
70→80
70→80
-
70→80 30→80
70→80
-
30→80 60→80
-
-
30→80 70→80 70→80 30→80 14→80 10→80 30→80 60→80
-
-
30→80 60→80
-
-
-
-
30→80 60→80
-
-
-
-
-
30→80 70→80
-
-
30→80 70→80
-
-
30→80 70→80
-
-
30→80 70→80 60→80 30→80 70→80
-
-
-
-
-
-
-
-
19
Lampiran 6 Lanjutan No
Minggu/Bulan
20%
Partisi 1 30% 40%
10→80 60→80
20%
Partisi 2 30% 40%
10→80 60→80
20%
Partisi 3 30% 40%
10→80
20%
Partisi 4 30% 40%
20%
Partisi 5 30% 40%
20%
Partisi 6 30% 40%
10→80 60→80
10
Minggu 2 Mei
70→80
-
-
70→80
-
-
70→80
-
-
70→80
-
-
60→70 10→70
-
-
-
-
-
11
Minggu 3 Mei
30→80
-
-
-
-
-
-
-
-
10→14 40→14 50→14
-
-
-
-
-
-
-
-
Lampiran 7 Waktu eksekusi (dalam detik) unutk mendapatkan aturan asosiasi dengan penghapusan data setiap minggu untuk jumlah partisi yang dihapus adalah 1, 2, 3, 4, 5, dan 6 Support Threshold
Confidence threshold
s=20% s=30% s=40%
c=65% c=70% c=75%
Partisi 1 Data Data update hapus 13,984 54,293 12,875 44,5 3,157 40,891
Partisi 2 Data Data update hapus 14,078 42,155 13,203 37,813 4,031 36,031
Partisi 3 Data Data update hapus 14 41,969 13,125 38,453 3,719 28,062
Partisi 4 Data Data update hapus 14,484 27,438 13,281 25,578 3,672 19,484
Partisi 5 Data Data update hapus 14,64 19,703 12,969 21,422 3,547 18,812
Partisi 6 Data Data update hapus 0 3,593 0 3,469 3,563 3,61
20
Lampiran 8 Grafik waktu eksekusi untuk data update dan data hapus a
Jumlah partisi yang dihapus adalah 1
b
Jumlah partisi yang dihapus adalah 2
21
Lampiran 8 Lanjutan c
Jumlah partisi yang dihapus adalah 3
d
Jumlah partisi yang dihapus adalah 4
22
Lampiran 8 Lanjutan e
Jumlah partisi yang dihapus adalah 5
f
Jumlah partisi yang dihapus adalah 6
23