BAB 2
TINJAUAN PUSTAKA
Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat.
2.1 Basis Data (Database)
Database adalah koleksi data item yang saling terkait terkelola sebagai satu unit. Beberapa defenisi lain tentang database yaitu sebagai berikut: 1. Suatu pengorganisasian sekumpulan data yang saling berhubungan sehingga memudahkan aktivitas untuk memperoleh informasi [12]. 2. Menurut Connolly dan Begg (2005), Database merupakan data yang saling terhubung dan deskripsi dari data yang dirancang untuk kebutuhan organisasi [10]. 3. Sedangkan menurut Date, database adalah record yang terkomputerisasi yang bertujuan menyediakan informasi ketika dibutuhkan [9].
Penerapan database dalam sistem informasi disebut database system. Dari teoriteori tersebut dapat disimpulkan bahwa database adalah sekumpulan data yang terorganisasi dan saling terhubung untuk menyediakan informasi yang diperlukan.
Basis data (database), atau sering pula dieja basis data, adalah kumpulan informasi yang disimpan di dalam komputer secara sistematik sehingga dapat diperiksa menggunakan suatu program komputer untuk memperoleh informasi dari basis data tersebut. Perangkat lunak yang digunakan untuk mengelola dan memanggil kueri (query) basis data disebut sistem manajemen basis data (Database Management System, DBMS) [12].
Universitas Sumatera Utara
Sistem basis data (database system) didefinisikan sebagai sekumpulan subsistem yang terdiri atas basis data dengan para pemakai yang menggunakan basis data secara bersama-sama, personal-personal yang merancang dan mengelola basis data, teknikteknik untuk merancang dan mengelola basis data, serta sistem komputer untuk mendukungnya [9]. Menurut McLeod dan Schell, database system adalah sistem penyimpanan informasi yang terorganisasi dengan suatu cara sehingga memudahkan untuk proses pengolahan data [10].
2.1.1
DBMS (Database Management System)
Menurut Connolly dan Begg (2005), DBMS adalah sebuah sistem perangkat lunak yang mengizinkan pengguna untuk mendefinisikan, membuat, memelihara, dan mengatur akses ke database. Sedangkan menurut McLeod dan Schell, DBMS adalah aplikasi perangkat lunak yang menyimpan struktur database, hubungan antardata dalam database, serta berbagai formulir laporan yang berkaitan dengan database tersebut [10].
2.2
Konsep dasar pengambilan keputusan
Pengambilan keputusan adalah memilih satu atau lebih diantara sekian banyak alternatif keputusan yang mungkin. Alternatif keputusan meliputi keputusan ada kepastian, keputusan berisiko, keputusan ketidakpastian dan keputusan dalam konflik.
2.2.1 Tahapan Pengambilan Keputusan
Simon tahun 1960 memperkenalkan empat aktivitas dalam proses pengambilan keputusan [13]: 1. Intelligence: Pengumpulan informasi untuk mengidentifikasikan permasalahan. Proses yang terjadi pada fase ini adalah : 1. Menemukan masalah
Universitas Sumatera Utara
2. Klasifikasi masalah 3. Penguraian masalah 4. Kepemilikan masalah
2. Design: Tahap ini meliputi pembuatan, pengembangan, dan analisis hal-hal yang mungkin untuk dilakukan. Termasuk juga disini pemahaman masalah dan pengecekan solusi yang layak. Tugas-tugas yang ada pada tahap ini merupakan kombinasi dari seni dan pengetahuan, yaitu: 1.
Komponen-komponen model
2.
Struktur model
3.
Seleksi prinsip-prinsip pemilihan (kriteria evaluasi)
4.
Pengembangan (penyediaan) alternatif
5.
Prediksi hasil
6.
Pengukuran hasil
7.
Skenario
3. Choice: Tahap memilih solusi dari alternatif-alternatif yang disediakan. Ada dua pendekatan dalam pencarian pilihan (choice) yaitu : 1. Teknis analitis: Menggunakan perumusan matematis 2. Algoritma: Langkah demi langkah proses.
4. Implementation: Tahap melaksanakan keputusan dan melaporkan hasilnya. Keuntungan pada tahapan ini adalah dalam memberikan ketajaman dan detil dari analisis dan output yang dihasilkan.
2.3
Data Mining
Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database. Secara lengkap, Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data dengan melakukan penggalian
Universitas Sumatera Utara
pola-pola dari tumpukan data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga [8].
Menurut Berry dan Linoff (2004): “Data mining adalah mengeksplorasi dan menganalisis data dalam jumlah besar untuk menemukan pola dan rule yang berarti” [1]. Sedangkan menurut Han dan Kamber (2001): “Data mining adalah proses menambang (mining) pengetahuan dari sekumpulan data yang sangat besar”. Data mining merupakan suatu langkah dalam Knowledge Discovery in Database (KDD) [6]. Jadi, dengan semakin berkembangnya kebutuhan akan informasi-informasi, semakin banyak pula bidang-bidang yang rnenerapkan konsep data mining.
2.3.1 Tahapan Data Mining
Dalam aplikasinya, data mining sebenarnya merupakan bagian dari Knowledge Discovery in Database (KDD), bukan sebagai teknologi yang utuh berdiri sendiri. Data mining merupakan suatu bagian langkah yang penting dalam KDD terutama berkaitan dengan ekstraksi dan perhitungan pola-pola dari data yang ditelah. Seperti yang ditunjukkan pada gambar 2.1 dibawah ini [6]:
Gambar 2.1 Tahapan Data Mining
Universitas Sumatera Utara
Dari gambar 2.1 dapat dijelaskan proses dari data mining dari setiap tahap yaitu berikut ini:
1. Data cleaning Tahapan ini dilakukan untuk menghilangkan data noise dan data yang tidak konsisten atau relevan dengan tujuan akhir dari proses data mining.
2. Data integration Tahapan ini dilakukan untuk menggabungkan atau mengkombinasikan dari multiple data source.
3. Data selection Yang dilakukan pada tahapan ini adalah memilih atau menyeleksi data apa saja yang relevan dan diperlukan dari database.
4. Data transformation Untuk mentransformasikan data ke dalam bentuk yang lebih sesuai untuk di mining.
5. Data mining Proses terpenting dimana metode tertentu diterapkan dalam database untuk menghasilkan data pattern.
6. Pattern evaluation Untuk mengidentifikasi apakah interesting patterns yang didapatkan sudah cukup mewakili knowledge berdasarkan perhitungan tertentu.
7. Knowledge presentation Untuk mempresentasikan knowledge yang sudah didapatkan dari user
Universitas Sumatera Utara
2.3.2 Arsitektur Data Mining
Pada umumnya sistem data mining terdiri dari komponen - komponen berikut ini [6]: 1. Database, data warehouse, dan media penyimpanan informasi. Media pada komponen ini dapat berupa database, data warehouse, spreadsheet, atau jenis media penampung lainnya. Data cleaning dan data integration dapat dilakukan pada data tersebut.
2. Database atau data warehouse server. Database atau data warehouse server bertanggung jawab untuk menyediakan data yang relevan berdasarkan permintaan dari user pengguna data mining.
3. Basis Pengetahuan (knowledge base) Merupakan basis pengetahuan yang digunakan sebagai panduan dalam pencarian pola.
4. Data mining engine Yaitu bagian dari software yang menjalankan program berdasarkan algoritma yang ada.
5. Pattern evaluation module Yaitu bagian dari software yang berfungsi untuk menemukan pattern atau polapola yang terdapat di dalam database yang diolah sehingga nantinya proses data mining dapat menemukan knowledge yang sesuai.
6. Graphical user interface Bagian ini merupakan sarana antara
user
dan sistem
data mining
untuk
berkomunikasi, dimana user dapat berinteraksi dengan sistem melalui data mining query, untuk menyediakan informasi yang dapat membantu dalam pencarian knowledge. Lebih jauh lagi, bagian ini mengijinkan user untuk melakukan browsing pada database dan data warehouse, mengevaluasi pattern yang telah dihasilkan, dan menampilkan pattern tersebut dengan tampilan yang berbeda-
Universitas Sumatera Utara
beda. Gambar 2.2 di bawah ini menunjukkan arsitektur data mining yang telah dijelaskan di atas :
Gambar 2.2 Arsitektur Data Mining
2.4
Aturan Asosiasi (Association Rule)
Aturan asosiasi (association rule) adalah metode data mining untuk mencari suatu hubungan yang menunjukkan kondisi di dalam satu set data, yang beberapa nilai atribut akan muncul secara bersamaan [6]. Aturan asosiasi (association rules) atau analisis afinitas (affinity analysis) berkenaan dengan studi tentang ‘apa bersama apa’. Ini bisa berupa studi transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga membeli sabun mandi. Di sini berarti susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari studi tentang database transaksi konsumen untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis [1].
Universitas Sumatera Utara
Tujuan dari Market Basket Analysis ini adalah untuk menentukan produkproduk apa saja yang cenderung sering dibeli oleh para konsumen. Gambaran mengenai market basket analysis dapat dilihat dalam gambar berikut [1]:
Gambar 2.3 Market Basket Analysis
Pada Gambar 2.3 dijelaskan bahwa sebuah keranjang diisi dengan berbagai produk yang dibeli oleh seseorang di supermarket. Keranjang ini berisi berbagai macam produk yaitu jus jeruk, pisang, soda, pembersih jendela, dan deterjen yang memberitahu apa yang pelanggan beli pada satu perjalanan. Satu keranjang menceritakan tentang salah satu pelanggan, tetapi semua pembelian yang dilakukan oleh semua pelanggan memiliki informasi lebih banyak. Pelanggan tidak semua sama. Setiap pelanggan membeli satu set produk yang berbeda, dalam jumlah yang berbeda, pada waktu yang berbeda setiap hari. Analisa keranjang pasar memberikan wawasan ke dalam produk dagangan dengan menceritakan produk yang cenderung sering dibeli secara bersama-sama.
Universitas Sumatera Utara
2.4.1 Bentuk Umum Aturan Asosiasi (Association Rule)
Bentuk umum dari Aturan asosiasi yaitu: “IF Antecedent ELSE Consequence” atau “X Y” dibaca “Jika A, maka B” [3]. Berikut ini menunjukkan istilah-istilah yang digunakan untuk mempresentasikan setiap bagian dari association rules :
{roti tawar}
{selai}
1
2
(support=30%,
confidence=60%)
3
4
Gambar 2.4 Bentuk Umum Aturan Asosiasi
Association Rules di atas dapat dibaca secara sederhana menjadi “jika x membeli roti tawar, maka x kemungkinan 30% juga membeli selai. Aturan ini cukup signifikan karena mewakili 60% dari catatan transaksi yang ada” Dapat juga diartikan : “Seorang konsumen yang membeli roti memiliki kemungkinan sebesar 30% untuk juga membeli selai. Dan juga memiliki 60% tingkat kepercayaan bahwa roti akan dibeli bersama dengan selai.”
Keterangan istilah : 1.
Antecedent, left-hand side (LHS), body
2.
Consequence, right-hand side (RHS), head
3.
Support, frequency (besar bagian data pada left-hand side dan right-hand side muncul secara bersamaan)
4.
Confidence, strength (jika left-hand side muncul, seberapa besar right-hand side muncul).
Universitas Sumatera Utara
2.5 Algoritma Apriori
Algoritma apriori adalah sebuah algoritma pencarian pola yang sangat populer dalam teknik penambangan data (data mining). Algoritma ini ditujukan untuk mencari kombinasi itemset yang mempunyai suatu nilai keseringan tertentu sesuai kriteria atau filter yang diinginkan. Algoritma ini diajukan oleh R. Agrawal dan R. Srikant tahun 1994.
Hasil dari algoritma apriori dapat digunakan untuk membantu dalam pengambilan keputusan pihak manajemen. Algoritma apriori melakukan pendekatan iteratif yang dikenal dengan pencarian level-wise, dimana k-itemset digunakan untuk mengeksplorasi atau menemukan (k+1)-itemset. Oleh karena itu, algoritma apriori dibagi menjadi beberapa tahap yang disebut iterasi. Tiap iterasi menghasilkan pola frekuensi tinggi (frequent itemset).
2.5.1
Analisis Asosiasi dengan Algoritma Apriori
Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Contoh dari aturan asosiatif dari analisis pembelian di suatu pasar swalayan adalah mengetahui besarnya kemungkinan seorang pelanggan untuk membeli roti bersamaan dengan keju. Dengan pengetahuan tersebut, pemilik pasar swalayan bisa mengatur penempatan produknya atau merancang kampanye pemasaran menggunakan kupon diskon untuk kombinasi produk tertentu [1].
Analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisis isi keranjang belanjaan di pasar swalayan. Analisis asosiasi juga sering disebut dengan istilah market basket analysis. Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Khususnya, salah satu tahap dari analisis asosiasi yang disebut analisis pola frekuensi tinggi (frequent pattern mining) yang menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien.
Universitas Sumatera Utara
Dalam menentukan suatu association rule, terdapat suatu interestingness measure (ukuran ketertarikan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya ada dua ukuran [6], yaitu: 1. Support (nilai penunjang/pendukung): suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Ukuran ini menentukan apakah suatu item/itemset layak untuk dicari confidence-nya (misal, dari keseluruhan transaksi yang ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli bersamaan). 2. Confidence (nilai kepastian/keyakinan): suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal, seberapa sering item B dibeli jika orang membeli item A).
Kedua ukuran ini nantinya berguna dalam menentukan interesting association rules, yaitu untuk dibandingkan dengan batasan (threshold) yang ditentukan oleh user. Batasan tersebut umumnya terdiri dari min_support dan min_confidence, dimana hal tersebut ditempuh dengan cara sebagai berikut [5]: 1. Mencari semua frequent itemset yaitu itemset dengan nilai support ≥ minimum support yang merupakan ambang batas yang diberikan oleh user. Dimana itemset itu merupakan himpunan item yaitu kombinasi produk yang dibeli. 2. Mencari aturan asosiasi yang confidence dari frequent itemset yang didapat. 3. Sedangkan tahap selanjutnya adalah mencari rule-rule yang sesuai dengan target user yang didapat dari proses association rule mining sebelumnya. Rule-rule yang didapat mendeskripsikan kombinasi itemset yang dijadikan pertimbangan di dalam membuat kesimpulan.
Secara terperinci, berikut adalah langkah-langkah proses pembentukan Association Rule dengan algoritma apriori [6]: 1. Di iterasi pertama ini, support dari setiap item dihitung dengan men-scan database. Support disini artinya jumlah transaksi dalam database yang mengandung satu item dalam C1. Setelah support dari setiap item didapat, Kemudian nilai support tersebut dibandingkan dengan minimum support yang telah ditentukan, jika nilainya lebih besar atau sama dengan minimum support maka itemset tersebut termasuk dalam large itemset. Item yang memiliki support
Universitas Sumatera Utara
di atas minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disebut Large 1-itemset atau disingkat L1. 2. Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. sistem akan menggabungkan dengan cara, kandidat 2-itemset atau disingkat C2 dengan mengkombinasikan semua candidat 1-itemset (C1). Lalu untuk tiap item pada C2 ini dihitung kembali masing-masing support-nya. Setelah support dari semua C2 didapatkan, Kemudian dibandingkan dengan minimum support. C2 yang memenuhi syarat minimum support dapat ditetapkan sebagai frequent itemset dengan panjang 2 atau Large 2-itemset (L2). 3. Itemset yang tidak termasuk dalam large itemset atau yang tidak memenuhi nilai minimum support tidak diikutkan dalam iterasi selanjutnya (di prune). 4. Setelah itu dari hasil frequent itemset atau termasuk dalam Large 2-itemset tersebut, dibentuk aturan asosiasi (association rule) yang memenuhi nilai minimum support dan confidence yang telah ditentukan.
2.5.2
Metodologi Dasar Analisis Asosiasi
Metodologi dasar analisis asosiasi terbagi menjadi dua tahap [6] : 1. Analisis Pola Frekuensi Tinggi Tahapan ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai support sebuah item diperoleh dengan rumus berikut:
Support (A) =
𝐽𝑇(𝐴) 𝑇
𝑥 100%
Keterangan : JT(A)
= Jumlah transaksi yang mengandung A
T
= Total Transaksi
Sedangkan nilai support dari 2 item diperoleh dari rumus 2 berikut:
Universitas Sumatera Utara
Support (A, B) = P (A B) =
𝐽𝑇 (𝐴B) 𝑇
𝑥 100%
Keterangan : JT (AB) = Jumlah transaksi yang mengandung A dan B T
= Total Transaksi
2. Pembentukan aturan assosiatif
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A B. Nilai confidence dari aturan A B diperoleh dari rumus berikut:
Confidence (A,B) = P (A B) =
𝐽𝑇 (𝐴B) 𝐽𝑇(𝐴)
𝑥 100%
Keterangan : JT (AB) = Jumlah transaksi yang mengandung A dan B JT
= Jumlah transaksi yang mengandung A
Universitas Sumatera Utara
Sebagai contoh ambil suatu data transaksi seperti pada tabel 2.1 berikut:
Table 2.1 Contoh Daftar Transaksi ID Transaksi
Item yang dibeli
1
Tissue bayi, popok, bedak bayi, roti, payung
2
Popok, bedak bayi
3
Tissue bayi, popok, susu
4
Popok, Tissue bayi, Deterjen
5
Tissue bayi, susu, Coca cola
Berdasarkan Tabel 2.1, terdapat definisi-definisi dari association rule yaitu [8]: 1. I adalah himpunan yang tengah dibicarakan Contoh: {Bedak bayi, Coca cola, Deterjen, …., Tissue bayi} 2. D adalah Himpunan seluruh transaksi yang tengah dibicarakan Contoh: {Transaksi 1, transaksi 2, …, transaksi 5} 3. Itemset adalah Himpunan item atau item-item di I Contoh: Ada suatu himpunan X ={A,B,C} Itemset nya adalah {A};{B}:{C};{A,B};{A,C};{B,C};{A,B,C} 4. k- itemset adalah Itemset yang terdiri dari k buah item yang ada pada I. Intinya k itu adalah jumlah unsur yang terdapat pada suatu Himpunan Contoh: 3-itemset adalah yang bersifat 3 unsur 5. Frequent itemset adalah itemset yang muncul sekurang-kurangnya “sekian” kali di D. Kata “sekian” biasanya di simbolkan dengan Ф. Ф merupakan batas minimum dalam suatu transaksi Contoh:
Universitas Sumatera Utara
Pertama tentukan Ф = 3, karena jika tidak ditentukan maka frequent itemset tidak dapat di hitung. Jika Ф = 3 untuk {Tissue bayi, Popok} apakah frequent Itemset? Jika dihitung maka jumlah transaksi yang membeli tissue bayi sekaligus membeli popok adalah 3. Karena 3 >= 3 maka {Tissue bayi, Popok} merupakan frequent Itemset. 6. Fk adalah Himpunan semua frequent itemset yang terdiri dari k-item.
2.6 Penelitian lain Menggunakan Association Rule dengan Algoritma Apriori
Adapun penelitian lain yang menggunakan teknik association rule dengan algoritma apriori yaitu penelitian yang telah dilakukan oleh Wahyu (2008) yaitu dengan meneliti daerah penangkapan ikan dan potensi sumberdaya ikan di suatu perairan dengan tujuan untuk mengatasi masalah dalam pemasaran produk perikanan. Analisa dilakukan terhadap pola data hasil tangkapan ikan di setiap daerah penangkapan ikan, sehingga dapat diketahui pada bulan tertentu ikan apa yang banyak dihasilkan oleh nelayan di masing-masing daerah penangkapan ikan. Penelitian ini dilakukan dengan metode association rule (aturan asosiasi) yang merupakan salah satu teknik utama dalam data mining. Dalam penelitian ini dilakukan pengujian pada data tangkapan ikan dengan atribut nama daerah, jenis ikan, jumlah ikan, dan waktu penangkapan [14].
Selain itu, pada penelitian yang telah dilakukan oleh Dhanabhakyam dan Punithavalli (2011) yang membahas survei tentang algoritma data mining yang ada untuk analisis keranjang pasar (market basket analysis). Penelitian ini memberikan beberapa algoritma data mining yang ada untuk analisis keranjang pasar yaitu salah satunya adalah algoritma apriori. Analisis algoritma yang ada menunjukkan bahwa penggunaan algoritma association rule mining untuk analisis keranjang pasar akan membantu dalam klasifikasi yang lebih baik dari sejumlah besar data. Hasil survei menyimpulkan tentang aturan asosiasi sangat efisien dalam mengungkapkan semua hubungan yang menarik dalam database yang relatif besar [4].
Universitas Sumatera Utara