Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
PEMBANGKITAN KAIDAH ASOSIASI DARI TOP-K FREQUENT CLOSED ITEMSET YANG DIDASARKAN PADA STRUKTUR DATA BERBASIS LATTICE Dian Puspita Hapsari dan Arif Djunaidy Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS) Email:
[email protected]
ABSTRAK Dari penelitian sebelumnya yang menggunakan algoritma CHARM, untuk mendapatkan frequent closed itemset yang didasarkan pada struktur data lattice, terdapat kendala dalam menentukan batasan minimum support (min_sup) yang sesuai. Nilai batasan minimum support yang terlalu kecil, akan membangkitkan ribuan itemset, sedangkan bila terlalu besar sering tidak menghasilkan jawaban (itemset–itemset yang sesuai dengan batasan minimum support). Dari permasalahan ini, kami mencoba memodififikasi algoritma penggalian frequent closed itemset berbasis struktur data lattice dengan menggunakan Top-K dari derajat kemunculan sebuah itemset. Metode modifikasi ini disatu sisi, dimaksudkan untuk memudahkan pengguna dalam menentukan batasan yang diinginkan untuk mendapatkan pola yang menarik, sedangkan sisi lainnya, penggunaan struktur lattice akan sangat berguna dalam pembangkitan kaidah asosiasi. Secara umum didalam analisis asosiasi, pengukuran tingkat kemenarikan (Interestingness) sebuah kaidah asosiasi selalu dibatasi dengan beberapa parameter, yang dapat dikendalikan oleh pengguna – user defined. Berdasarkan penelitian sebelumnya, sebuah pengukuran obyektif tingkat kemenarikan sebuah kaidah asosiasi secara umum hanya menggunakan analisis nilai support-confidence. Pada formulasi pembangkitan kaidah asosiasi yang ada, ukuran support–confidence dipakai untuk menghilangkan pola–pola yang tidak menarik (uninteresting pattern). Namun analisis ini memiliki kelemahan, mengakibatkan pola–pola menarik yang potensial menjadi hilang akibat penetapan nilai support–confidence tersebut. Untuk memperbaikinya ditambahkan sebuah nilai pengukuran dengan menggunakan analisis korelasi sehingga menghasilkan kaidah asosiasi yang kuat atau disebut sebagai positive association rule. Metode ini diimplementasikan dengan melakukan uji coba serta analisis untuk mengetahui karakteristik algoritma dengan berbagai parameter seperti support, confidence serta korelasi. Penelitian ini menghasilkan sebuah algoritma yang efisien untuk pengalian top-k frequent closed itemset berbasis struktur data lattice dan pembangkitan kaidah asosiasi dari top-k frequent closed itemset yang ditemukan. Hasil analisa menunjukkan bahwa top-k frequent closed itemset berbasis struktur data lattice mampu memvisualisasikan hasil top-k frequent closed itemset, dengan waktu komputasi yang relatif cepat dan penambahan nilai pengukuran dengan menggunakan analisis korelasi mampu menghasilkan positive association rule atau kaidah asosiasi yang kuat. Kata kunci: top-k closed itemset yang sering muncul, closed itemset lattice, kaidah asosiasi, data mining.
PENDAHULUAN Pada tahap pertama dalam algoritma pencarian kaidah asosiasi, yaitu pencarian itemset-itemset yang sering muncul pada umumnya menggunakan sebuah batasan nilai minsup untuk menghasilkan kumpulan itemset–itemset yang sering muncul secara
Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
lengkap dan benar. Hal tersebut didasari oleh algoritma yang sangat populer, yaitu algoritma Apriori (Agrawal, 1996). Keunggulan algoritma Apriori adalah mampu mengurangi ruang pencarian atau search space dari itemset-itemset yang sering muncul (frequent itemset) dengan Downward Closure Property, (bahwa setiap subpola dari sebuah pola yang sering muncul pasti bersifat sering muncul pula). Namun algoritma Apriori akan mengalami penurunan performa pada dataset yang rapat (yaitu dataset yang memiliki transaksi dan field yang banyak). Kelemahan algoritma Apriori diperbaiki pada algoritma CHARM-L (Zaki, Hsiao, 2005) yang mampu menghasilkan frequent closed itemset lattice. Pencarian itemset-itemset yang sering muncul dengan menggunakan frequent closed itemset akan membantu dalam pembangkitan set-set kaidah-kaidah yang tidak berulang atau nonredundant rules sets. Dan dengan menggunakan lattice akan meningkatkan efisiensi waktu pencarian itemset-itemset yang sering muncul dan memudahkan pengguna untuk mengetahui hubungan subset-superset yang sangat berguna dalam melakukan proses selanjutnya yaitu tahap pembangkitan kaidah asosiasi. Namun algoritma CHARM-L juga memiliki kendala dalam menentukan batasan minimum_support (minsup) yang sesuai. Dalam menentukannya dibutuhkan pengetahuan yang rinci tentang mining query dan tugas spesifikasi data, serta kemampuan untuk estimasi, tanpa harus melakukan pencarian kaidah asosiasi. Dalam menentukan nilai batasan minimum_support pada pencarian frequent itemset, bila ditetapkan terlalu kecil akan membawa pada pembangkitan ribuan itemset–itemset, dan bila terlalu besar sering tidak menghasilkan jawaban (itemset–itemset yang sesuai dengan batasan minimum_support). Untuk mengatasi kendala tersebut beberapa peneliti mengusulkan sebuah model pencarian dengan Top-k yang digunakan untuk menentukan ruang pencarian dengan derajat tertentu (nilai derajat k, yang ditentukan oleh pengguna. Dimana k adalah sejumlah angka yang menentukan derajat kemunculan dari frequent itemset yang paling dicari atau yang diinginkan oleh pengguna). Dalam hal ini, menentukan nilai k dianggap lebih mudah dilakukan dibandingkan dengan menentukan batasan minimum_support. (Wang, Han, Lu and Tzvetkov, 2005). Perumusan Masalah Berdasarkan latar belakang yang telah dijelaskan sebelumnya, maka perumusan masalah dalam penelitian ini berkaitan dengan upaya untuk mengembangkan algoritma pembangkitan kaidah asosiasi dari top-k frequent closed itemset lattice. Pada algoritma yang akan dikembangkan ini, diharapkan akan memberi solusi terhadap kendala yang ada pada algoritma CHARM_L. Kendala-kendala tersebut sebagai berikut; Sulitnya menentukan nilai batasan minsup yang tepat bagi pengguna pada pencarian itemset-itemset yang sering muncul, digantikan dengan menentukan nilai k untuk Top-k yang dinginkan oleh pengguna. Keterbatasan nilai confidence sebagai Interestingness measure yang digunakan untuk mengurangi jumlah pola-pola yang kurang menarik pada tahap Rule Generation digantikan dengan nilai korelasi sebagai salah satu pengukuran obyektif yang digunakan untuk mengevaluasi kualitas pola-pola asosiasi. Berdasar pada kendala-kendala tersebut maka dapat dirumuskan sebuah masalah bagaimana mengembangkan algoritma pembangkitan kaidah asosiasi dari Top-k frequent closed itemset lattice. Tujuan Tujuan penelitian ini adalah untuk membuat algoritma pembangkitan kaidah asosiasi dari Top-k Frequent Closed Itemset yang didasarkan pada struktur data lattice.
ISBN : 978-979-99735-6-6 C-21-2
Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
Batasan Penelitian Berdasarkan perumusan masalah yang ada dalam penelitian ini, maka ditentukan batasan penelitian sebagai berikut; a. Dataset yang digunakan berupa data transaksi dengan format orizontal untuk pencarian top-k frequent closed itemset lattice. b. Pembentukan struktur data dari data set yang ada dalam database akan disesuaikan dengan besar memory yang tersedia. Kontribusi dan Manfaat Penelitian Kontribusi penelitian ini adalah tersedianya algoritma yang efisien untuk pembangkitan kaidah asosiasi dari top-k frequent closed itemset yang didasarkan pada struktur data berbasis lattice yang dapat menghasilkan kaidah asosiasi yang kuat. Manfaat penelitian ini adalah tersedianya aplikasi analisis asosiasi yang mampu menghasilkan kaidah asosiasi yang kuat. PENCARIAN KAIDAH ASOSIASI SECARA UMUM Analisis kaidah asosiasi atau association analysis merupakan salah satu teknik dalam data mining, digunakan untuk mengungkapkan hubungan yang menarik (interesting relationship), yang tersembunyi dalam sekelompok data transaksional dalam jumlah yang sangat besar. Sebuah hubungan yang belum terungkap dapat direpresentasikan dengan sebuah kaidah asosiasi atau sekelompok itemset yang sering muncul. Analisis kaidah asosiasi dipelajari secara intensif untuk banyak kegunaan seperti, dibidang system rekomender, data bioinformatik, diaknosa pendukung keputusan, telekomunikasi, deteksi instruksi, web mining untuk analisis dokumen dan pengungkapan hubungan asosiasi pada data dalam jumlah besar juga berguna dalam bidang pemasaran. Dengan pengungkapan hubungan asosiasi yang menarik pada record transaksi bisnis, dapat membantu dalam realisasi desain katalog, promosi pemasaran, manajemen gudang, analisa keputusan dan manajemen bisnis. Sebagai contoh yang paling sederhana pada kegiatan analisis kaidah asosiasi adalah analisis keranjang belanja atau market basket analysis, yang mempelajari kebiasaan-kebiasaan pembelian dari konsumen, dengan cara mencari kelompokkelompok barang yang sering dibeli dalam sekali transaksi belanja. Sebagai contoh; {Mie instan}→{Telur}, yang memiliki hubungan implikasi yang kuat antara penjualan mie instan dan telur. Yang mempunyai arti, banyak pelanggan yang membeli mie instan juga membeli telur. Informasi tersebut dapat meningkatkan penjualan bagi pihak penjual antara lain dengan strategi tata letak barang dalam supermarket atau strategi pemasaran silang produk dan kombinasi barang yang akan dikenakan potongan harga. Analisis kaidah asosiasi sendiri dapat diklasifikasikan kedalam beberapa kategori berdasarkan pada kriteria yang berbeda. Berdasarkan pada tipe dari nilai yang dikandung dari sebuah kaidah, asosiasi dapat diklasifikasikan kedalam asosiasi boolean dan asosiasi quantitative. Sebuah asosiasi boolean dapat menunjukkan hubungan antara obyek-obyek yang bersifat kategorikal atau diskrit. Sebagai contoh; {Komputer}→{Software}, dan sebuah asosiasi quantitative merupakan sebuah asosiasi multidimensional yang melibatkan atribut-atribut numerik yang didiskritkan secara dinamis (pada contoh, umur dan pendapatan) dan dimungkinkan juga melibatkan atribut-atribut kategorikal. Sebagai contoh; umur{X, ”30-34”} ∩ pendapatan{X.”5jt10jt”} → membeli{X, “LCD TV”}. Dalam analisis asosiasi, akan dilakukan pencarian kaidah asosiasi atau
ISBN : 978-979-99735-6-6 C-21-3
Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
association rule mining yang terdiri dari dua aktifitas utama. Yang pertama yaitu, menemukan frequent itemset, mencari kelompok-kelompok barang atau disebut dengan itemset yang sering muncul dan memenuhi sebuah batasan minimum_support untuk seluruh transaksi-transaksi belanja yang terjadi. Dan aktifitas yang kedua, akan dicari sebuah kaidah asosiasi yang kuat (strong rule) dan memenuhi batasan minimum_confidence. DESAIN PEMBANGKITAN KAIDAH ASOSIASI DARI TOP-K FREQUENT CLOSED ITEMSET BERBASIS STRUKTUR DATA LATTICE Pada bagian ini akan dijelaskan desain utama dari Pembangkitan Kaidah Asosiasi dari Top-k Frequent Closed Itemset Berbasis Struktur Data Lattice. Pada analisis kaidah asosiasi pada penggalian data atau data mining terdapat strategi umum yang terdiri dari dua tahapan, sebagai berikut; (1) Pembangkitan itemset yang sering muncul atau Frequent Itemset Generation, merupakan strategi yang secara obyektif mencari semua itemset – itemset yang tepat dengan menggunakan batasan minimum support. Itemset ini disebut dengan frequent itemset atau itemset yang sering muncul. Kemudian diikuti tahap yang ke-(2) Pembangkitan Kaidah Asosiasi atau Rule Generation, merupakan strategi yang secara obyektif mengekstrak semua rule yang memiliki nilai confidence yang tinggi dari itemset - itemset yang sering muncul, yang ditemukan pada tahap sebelumnya. Maka tahap ini akan menghasilkan sebuah kaidah asosiasi dan kaidah ini disebut dengan kaidah yang kuat atau strong rules. Dari penjelasan tersebut akan menjadi dasar desain utama Pembangkitan Kaidah Asosiasi berdasarkan Top-k Frequent Closed Itemset Berbasis Struktur Data Lattice. Desain Utama Pembangkitan Kaidah Asosiasi berdasarkan Top-k Frequent Closed Itemset Berbasis Struktur Data Lattice yang ditunjukkan berikut ini. Dari blok diagram dapat terlihat dengan jelas proses-proses utama yang ada pada Desain Utama Pembangkitan Kaidah Asosiasi dari Top-k Frequent Closed Itemset Berbasis Struktur Data Lattice.
Gambar 1. Desain Utama Pembangkitan Kaidah Asosiasi dari Top-k Frequent Closed Itemset Berbasis Struktur Data Lattice.
ISBN : 978-979-99735-6-6 C-21-4
Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
HASIL DAN ANALISIS UJI COBA Lingkungan Uji Coba Pada sub bab ini akan dijelaskan tentang mengenai lingkungan uji coba aplikasi pembangkitan kaidah asosiasi dari top-k frequent closed itemset berdasarkan struktur data lattice, yang diimplementasikan dengan menggunakan bahasa pemrograman C. Serta menggunakan komputer dengan processor Intel Celeron 1.8 GHz, RAM 1 GB, dan sistem operasi Windows XP Pro. Data Uji Coba Dataset yang digunakan pada penelitian ini adalah dataset nyata, yang memiliki karakteristik sangat rapat (terdiri dari banyak itemset yang sering muncul meskipun dikenakan nilai support yang tinggi). Dalam uji coba ini terdapat dua dataset nyata yang digunakan adalah dataset gazelle dan connect. Dataset gazelle digunakan untuk mewakili sparse database atau basis data yang renggang dan dataset connect digunakan dalam ujicoba ini untuk mewakili dense database atau basis data yang rapat. Grafik run Time 12,000
Runtime(sec)
10,000 8,000 TFP
6,000
Tlattice
4,000 2,000 0,000 1000
2000
3000
4000
5000
6000
7000
8000
9000 10000
Nilai Top-k
Gambar 2 .Grafik Perbandingan Waktu Proses pada Dataset Pumsb Grafik Run Time 6,000
Runtime (sec)
5,500 5,000 4,500
TFP
4,000
Tlattice
3,500 3,000 2,500 2,000 1000
2000
3000
4000
5000
6000
7000
8000
9000 10000
Nilai Top-k
Gambar 3. Grafik Perbandingan Waktu Proses pada Dataset Connect
KESIMPULAN Berdasarkan hasil uji coba pembangkitan kaidah asosiasi dari top-k frequent closed itemset berdasarkan struktur data lattice yang telah dilakukan yaitu algoritma pengembangan ini memudahkan pengguna dalam melakukan analisis asosiasi dengan cara, pengguna hanya memberikan nilai masukan sederhana yaitu nilai k untuk menentukan Top-k yang disesuaikan dengan keinginan pengguna. Untuk hasil perbandingan kecepatan waktu proses algoritma pengembangan Tlattice ini sedikit lebih lambat dibandingkan dengan algoritma pembandingnya algoritma TFP, terutama untuk dataset-dataset yang bersifat rapat dengan pola-pola yang panjang. Namun algoritma pengembangan ini memiliki kelebihan dalam struktur data yang berbentuk lattice yang
ISBN : 978-979-99735-6-6 C-21-5
Prosiding Seminar Nasional Manajemen Teknologi VIII Program Studi MMT-ITS, Surabaya 2 Agustus 2008
akan memudahkan penentuan hubungan subset dan superset yang akan berguna dalam proses pembangkitan kaidah untuk analisis keranjang belanja. SARAN Dalam penelitian yang telah dilakukan, pada tahap pembangkitan Top-k frequent closed itemset lattice membutuhkan waktu yang lebih lama dibandingkan dengan TFP, dikarenakan proses pembentukan struktur lattice. Hal ini memberikan peluang untuk dilakukan pengembangan lebih lanjut untuk Algoritma Tlattice yang lebih fokus pada kecepatan prosesnya. DAFTAR PUSTAKA Agrawal, R., Imielinski, T., Swami, A. (1993) “Mining association rules between sets of items in large databases”. In: Proc. of SIGMOD. 207–216. Brin, S., Motwani, R., Silverstein, C. (1997) “Beyond market basket: Generalizing association rules to correlations”. In: Proc. of SIGMOD. 265–276. Han J., J. Pei, and Y. Yin, (2000) “Mining Frequent Patterns without Candidate Generation,” Proc. 2000 ACM-SIGMOD Int’l Conf. Management of Data (SIGMOD ’00), pp. 1-12. Han J., Kamber M., (2000) “Data Mining: Concepts and Techniques”. Morgan Kaufmann Publishers. Lu Ying, and Tzvetkov Petre, Han J., (2005) “TFP: An Efficient Algorithm for Mining Top-K Frequent Closed Itemsets”. Proc. Sixth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining. Maria-Luiza, Antonie Osmar R. (2005) “Mining Positive and Negative Association Rules: An Approach for Confined Rules”. Department of Computing Science, University of Alberta Edmonton, Alberta, Canada. N. Pasquier, Y. Bastide, R. Taouil, and L. Lakhal, (1999) “Discovering Frequent Closed Itemsets for Association Rules,” Proc. Seventh Int’l Conf. Database Theory. S. Brin, R. Motwani, and C. Silverstein, (1997) “Beyond Market Basket: Generalizing Association Rules to Correlations,” Proc. 1997 ACMSIGMOD Int’l Conf. Management of Data (SIGMOD ’97), pp. 265-276. Tan Pan–Ning., Kumar V. and Steinbach M.(2005) “Introduction to Data Mining”. Addison Wesley, USA. Tan, Pan-Ning., Kumar, V. (2000) “Interestingness measures for association patterns: A perspective”. In: Proc. of Workshop on Postprocessing in Machine Learning and Data Mining. Zaki, M,J. (2000) “Generating Non-Redundant Association Rules,” Proc. Sixth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining. Zaki M.J. and Hsiao C.-J., 2005, “Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure”. Technical Report 99-10, Computer Science Dept., Rensselaer Polytechnic Inst.
ISBN : 978-979-99735-6-6 C-21-6