II. TINJAUAN PUSTAKA 2.1 Sistem Informasi Manajemen Mcleod R dan Schell G, (2004) membagi sumber daya menjadi dua bagian yaitu sumberdaya fisikal dan sumberdaya konseptual. Sumber daya fisikal terdiri atas personil, mesin, bahan dan materiil, sedangkan Sumberdaya konseptual terdiri atas modal dan informasi. Suatu informasi merupakan suatu unsur kunci yang penting di dalam suatu sistem konseptual, informasi dapat bersifat manual ataupun dapat berupa komputer elektronik atau mekanik. Informasi dapat dilihat sebagai data penuh arti di mana data telah diubah jadi suatu konteks yang bermanfaat untuk membantu keputusan manajemen (Mutch, 1996). Sistem informasi dibagi menjadi dua bagian yaitu sistem pendukung operasi dan sistem pendukung manajemen. Sistem pendukung operasi dapat berupa sistem proses transaksi, sistem proses kontrol, sistem kolaborasi perusahaan. Bagian dari sistem pendukung manajemen antara lain sistem informasi manajemen, sistem pendukung keputusan, dan sistem informasi eksekutif (Mcleod dan Schell, 2004). Sistem Informasi Manajemen adalah manajemen dari suatu sistem dan merupakan
suatu
proses
menciptakan,
memperoleh,
mengorganisir,
menyimpan, mendistribusikan, dan menggunakan informasi. Tujuan dari Sistem Informasi Manajemen adalah membantu orang dan organisasi untuk akses informasi secara efektif dan efisien. Sehingga sistem informasi manajemen dapat membantu organisasi untuk beroperasi secara kompetitif dan strategis, serta membantu manajemen untuk lebih mudah dalam menjalani tugas dan mendapatkan data yang lebih baik (Detlor, 2009).
Gambar.1 Proses Sistem Informasi Manajemen (Mcleod dan Schell, 2004)
6
2.2 Data Mining Data Mining merupakan istilah dari menambang atau mengektraksi suatu informasi dari sebuah data. Ekstraksi informasi yang berguna dari suatu penyimpan data besar menjadi pekerjaan yang cukup menantang, seringkali alat dan teknik analisis data tradisional tidak dapat digunakan dalam mengekstrak informasi dari data berukuran besar. Data mining adalah teknologi yang merupakan campuran metode-metode analisis data dengan algoritma-algoritma untuk memproses data berukuran besar (Giudici dan Figini, 2009). Data mining merupakan salah satu tahapan Knowledge discovery in database yang merupakan proses untuk menemukan informasi yang berguna serta pola-pola yang ada dalam data (Goharian dan Grossman, 2003). Langkah kerja Knowledge discovery in database yaitu : 1.
Pembersihan Data : tahapan untuk menghilangkan data yang tidak konsisten dan terdapat noise
2.
Mengintegrasikan data : di mana beberapa sumber data yang dapat dikombinasikan
3.
Menyeleksi data : Mengambil data yang relevan yang dapat digunakan untuk proses analisis
4.
Transformasi data : Mentrasformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk ditambang dengan cara melakukan peringkasan atau operasi agregrasi
5.
Data Mining : Merupakan proses penting, dimana metode-metode cerdas diaplikasikan untuk mengekstraksi pola-pola yang menarik dalam data.
6.
Evaluasi Pola : Evaluasi Pola diperlukan untuk mengidentifikasi polapola yang menarik dalam merepresentasikan pengetahuan.
7.
Presentasi Pengetahuan
:
Penggunaan
visualisasi dan
teknik
representasi untuk menyajiakan pengetahuan hasil data mining kepada pengguna
7
Gambar. 2 Alur Proses KDD (Knowledge discovery in database)
Data mining merupakan proses analisa data yang terdiri dari rangkaian aktivitas mulai dari mendefinisikan tujuan analisis, analisis data sampai kepada interpretasi dan evaluasi hasil (Giudici dan Figini, 2009). Disamping itu diperlukan juga restrukturisasi data yang beragam pada pusat informasi yang besar yaitu data warehouse (Connoly dan Begg, 2002) Proses data mining menurut Han dan Kamber (2006) dapat dibedakan menjadi dua tujuan utama : a. Descriptive data mining : Deskripsi konsep atau task relevan data dalam bentuk yang ringkas, informatif dan diskriminatif. b. Predictive data mining : Berdasarkan analisis data dibuat model untuk kemudian dijadikan sebagai alat prediksi trend dan data yang tidak diketahui nilainya.
8
Pencarian pola secara otomatis terhadap data dalam jumlah besar dalam data mining menggunakan beberapa tehnik seperti klasifikasi, penggugusan (clustering), deskripsi konsep, prediksi dan association rule (Han dan Kamber, 2006). Untuk membuat pengguna dapat berkomunikasi dengan sistem data mining, diperlukan data mining primitive yang dirancang untuk memfasilitasi penemuan pengetahuan secara efisien. Data mining primitive menurut Riyanti (2005) meliputi : Pengkoleksian data; digunakan untuk menspesifikasikan data yang akan di-mining karena pengguna pada umumnya hanya tertarik pada subset tertentu pada basis data. Analisis relevansi dimensi yaitu hirarki konsep yang merupakan informasi tentang domain yang akan di-mining yang dapat bermanfaat untuk proses penemuan pengetahuan. Konsep hierarki dapat didefinisikan serangkaian pemetaan dari konsep ber-level rendah menjadi level yang lebih tinggi Perhitungan nilai kemenarikan diperlukan karena tidak semua hasil dari data mining merupakan pengetahuan sehingga diperlukan nilai tertentu yang dapat ditetapkan oleh pengguna sebagai batas. Presentasi dan visualisasi pola yang ditemukan. Sistem data mining yang efektif harus mampu menampilkan pola-pola yang ditemukan dalam bermacam-macam bentuk seperti aturan, tabel, tabel silang, grafik, pohon keputusan, cube, atau visualisasi lain sehingga pengguna dari latar belakang yang berbeda dapat mengidentifikasi pola dan dapat beriteraksi dengan sistem. 2.3. Association Rule Mining Association Rule Mining digunakan untuk mencari hubungan menarik di antara items dalam suatu himpunan data (Han dan Kamber 2006). Di dalam data mining tehnik Association Rule Mining merupakan format yang paling sering digunakan pada penelusuran pola pada sistem data yang tidak dapat terlihat (Kantardzic, 2003).
9
Dengan Association Rule hubungan dapat diimplementasikan dengan Format X→ Ij, dimana X adalah suatu itemset yang terpisah dari Ij tetapi masih dalam suatu database (Agarwal et al, 1993), berdasarkan hubungan yang terbentuk dari beberapa item data tersebut dapat diambil kesimpulan item yang dapat digunakan untuk informasi (Kona dan Chakravarthy, 2003). Ukuran objektif yang dapat digunakan untuk menemukan aturan asosiasi
adalah
dengan
menggunakan
dua
ukuran
kepercayaan
(interestingness measure) (Srikant dan Agrawal, 1996) yaitu : a.
Support adalah suatu ukuran yang menunjukkan presentase banyaknya kejadian kombinasi item A dalam basis data. Support = jika asosiasi X → Y =
b.
Confidence
adalah
...(1)
presentase
menunjukkan
keakuratan
dari
hubungan antar 2 item atau lebih dalam aturan asosiasi (Han dan Kamber 2006). Confidence= jika asosiasi X → Y=
..(2)
Batasan nilai support dan confidence ditentukan oleh user, sehingga akan terjadi maximum support, minimum suport, maximum confidence, dan minimum confidence. Keterangan confidence versus support dapat dilihat dalam Tabel. 1 Tabel.1 Confidence versus Support (Tanjung,2005)
maximum suport minimum support
minimum confidence
maximum confidence
Aturan asosiasi jarang bernilai benar, tetapi dapat sering terjadi Aturan asosiasi jarang bernilai benar, tetapi dapat jarang terjadi
Aturan asosiasi sering bernilai benar, tetapi dapat sering terjadi Aturan asosiasi sering bernilai benar, tetapi dapat jarang terjadi
Aturan asosiasi yang memenuhi minimum support dan minimum confidence terkadang bisa menjadi aturan asosiasi yang menyesatkan bagi pengguna. Aturan Asosiasi X → Y bisa menyesatkan jika ternyata pembelian item X tidak diikuti pembelian item Y. Pembelian item X adalah independent terhadap pembelian item Y jika P(X
Y) = P(X)P(Y), jika (X
Y)
10
P(X)P(Y) maka item X dan Y bersifat dependent dan saling berhubungan (Han dan Kamber, 2006). Untuk itu perlu paramater penting selain support dan confidence yaitu adanya Lift Ratio. Lift Ratio merupakan nilai yang menunjukkan kevalidan proses transaksi dan memberikan informasi apakah benar produk X dibeli bersamaan dengan produk Y. Lift Ratio dapat ditulis sebagai: Lift Ratio X→Y =
…. (3)
Sebuah transaksi dikatakan valid jika mempunyai nilai Lift Ratio lebih dari 1 (satu), yang berarti bahwa dalam transaksi tersebut produk X dan Y benar-benar terdapat hubungan korelasi. Selain Lift Ratio juga terdapat nilai Laverage yaitu nilai dari jumlah kekurangan ataupun kelebihan support untuk memenuhi syarat. Nilai leverage dapat mengartikan jika suatu aturan memiliki nilai leverage positif maka hubungan antara kedua item adalah positif, sebaliknya jika nilai leverage negatif maka hubungan kedua item tersebut juga negatif. Leverage dapat ditulis dengan rumus: Leverage =
…(4)
2.4 Market Basket Analysis Market basket analysis merupakan fungsi dari Association Rule Mining yang biasanya digunakan untuk mempelajari kebiasaan konsumen dengan mencari frekuensi itemset yang sering dibeli dan item yang dibeli secara bersamaan (Han dan Kamber 2006). Market basket analysis merupakan teknik matematis yang biasanya digunakan profesional marketing untuk mencari hubungan produk individual ataupun group (Redlon,2008). Istilah analisis ini sendiri datang dari kejadian yang sudah sangat umum terjadi di dalam supermarket, yaitu pengambilan barang secara bersamaan oleh pelanggan saat mengunjungi supermarket (Cavique , 2007). Tujuan dari market basket analysis untuk mengidentifikasi produk, atau kelompok produk yang cenderung terdapat korelasi bersamaan (Giudici dan Figini, 2009). Market basket analysis adalah alat yang ampuh untuk
11
diterapkan didalam strategi cross-selling (Cavique, 2007). Hasil dari analisis ini dapat digunakan untuk mengorganisir tata ruang, mengorganisir produk yang sering menjual bersama-sama, serta dapat juga digunakan untuk meningkatkan efisiensi promosi produk (Factpoint Group, 2008). Terdapat dua riset utama dalam Market basket analysis, yaitu bersifat penyelidikan dan bersifat menjelaskan model. Pendekatan penyelidikan terbatas kepada tugas dalam menemukan cross-category yaitu hubungan timbal balik dasarkan pada pola dasar yang diamati dari kategori produk atau konsumen. Pendekatan penyelidikan juga dikenal sebagai gaya gabung atau analisa hubungan dekat. Analisa ini mengarahkan suatu ukuran asosiasi symmetric dan memasangkan sehingga memperoleh pola dari cross-tabulation berbagai faktor (Boztug , 2008). 2.5. Algoritma Apriori Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola frekuensi tinggi yang digunakan untuk menghasilkan aturan asosiasi dengan pola “if condition –then result”(Hochreiter, 2006). Pola frekuensi tinggi adalah pola-pola item di dalam suatu database yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan istilah minimum support. Pola frekuensi tinggi ini digunakan untuk menyusun aturan assosiatif dan juga beberapa teknik data mining lainnya. Menurut Srikant dan Agrawal (1996) Algoritma Apriori menggunakan pendekatan iteratif yang dikenal dengan level-wise search yang dibagi menjadi beberapa tahap, dimana k-kelompok produk digunakan untuk mengeksplorasi (k+1)-kelompok produk atau (k+1)-itemset. Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari fase pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Dalam iterasi pertama ini, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support diatas minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item.
12
Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2. Selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian : 1.
Pembentukan kandidat itemset. Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam pola frekuensi tinggi dengan panjang k-1.
2.
Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat
k-itemset
didapat
dengan
men-scan
database
untuk
menghitung jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tersebut. Ini adalah ciri dari algoritma apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak kitemset terpanjang. 3.
Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari minimum support.
4.
Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan. Bila tidak, maka k ditambah satu dan kembali ke bagian 1.
13
Ada dua proses utama yang dilakukan algoritma apriori (Srikant dan Agrawal, 1996) , yaitu: 1.
Join (penggabungan): untuk menemukan Lk, Ck dibangkitkan dengan melakukan proses join Lk-1 dengan dirinya sendiri, Ck=Lk-1*Lk-1, lalu anggota Ck diambil hanya yang terdapat didalam Lk-1.
2.
Prune (pemangkasan): menghilangkan anggota Ck yang memiliki support count lebih kecil dari minimum support agar tidak dimasukkan ke dalam Lk.
..(5)
Gambar 3. Pseudocode dari Pembentukan Kandidat Itemset Bersama Pemangkasannya Beberapa istilah yang digunakan dalam algoritma apriori antara lain: a.
Support (dukungan): probabilitas pelanggan membeli beberapa produk secara bersamaan dari seluruh transaksi. Support untuk aturan “X=>Y” adalah probabilitas atribut atau kumpulan atribut X dan Y yang terjadi bersamaan.
b.
Confidence (tingkat kepercayaan): probabilitas kejadian beberapa produk dibeli bersamaan dimana salah satu produk sudah pasti dibeli. Contoh: jika ada n transaksi dimana X dibeli, dan ada m transaksi dimana X dan Y dibeli bersamaan, maka confidence dari aturan if X then Y adalah m/n.
c.
Minimum support: parameter yang digunakan sebagai batasan frekuensi
14
d.
kejadian atau support count yang harus dipenuhi suatu kelompok data untuk dapat dijadikan aturan.
e.
Minimum confidence: parameter yang mendefinisikan minimum level dari confidence yang harus dipenuhi oleh aturan yang berkualitas.
f.
Itemset: kelompok produk.
g.
Support count: frekuensi kejadian untuk sebuah kelompok produk atau itemset dari seluruh transaksi.
h.
Kandidat itemset: itemset-itemset yang akan dihitung support count-nya.
i.
Large itemset: itemset yang sering terjadi, atau itemset-itemset yang sudah melewati batas minimum support yang telah diberikan.
2.6. Kompetensi Akademik Kompetensi akademik adalah nilai atau ukuran yang diperoleh seseorang dalam kelembagaan pendidikan. Nilai tersebut didasarkan menurut standar atau kriteria tertentu dan merupakan fungsi dari faktor-faktor sekolah dan faktor-faktor lainnya (Indriyanto, 2005). Kompetensi akademik yang diperoleh di pendidikan menengah, diharuskan dapat memenuhi standar kompetensi lulusan yaitu dapat meningkatkan kecerdasan, pengetahuan, kepribadian, akhlak mulia, serta keterampilan untuk hidup mandiri dan mengikuti pendidikan lebih lanjut (permendiknas, 2006). Salah satu ketetapan yang menjadi standar adalah menguasai pengetahuan yang diperlukan untuk mengikuti pendidikan tinggi. 2.7. Penelitian Terdahulu Penelitian terdahulu dilakukan oleh Agarwal dan Srikant, 1996 yang meneliti database dari transaksi penjualan di supermarket dengan melihat ID pelanggan, untuk melihat pola-pola pembelian pelanggan. Penelitian oleh Erdani, (2007) Departemen Ilmu Komputer FMIPA IPB dengan judul pengembangan aplikasi Data Mining menggunakan metode Induksi Beroreantasi Atribut ( studi kasus : Data PPMB IPB) , Dalam Penelitiannya Erdani membuat sistem data mining yang menganalisis pemilihan fakultas dengan atribut pulau asal pelamar, dalam analisisnya menggunakan aplikasi data mining tetapi dengan metode yang berbeda yaitu induksi atribut yang