BAB II
LANDASAN TEORI
Di dalam landasan teori ini, akan dibahas tentang teori – teori dan konsep dasar yang mendukung pembahasan dari sistem yang akan dibuat.
2.1 Basis Data (Database)
Basis data diperlukan dalam pembuatan sebuah sistem sebagai inti dari sistem tersebut. Beberapa definisi lain tentang basis data adalah sebagai berikut:
1. Basis data adalah sebuah model dari beberapa aspek realitas pada sebuah organisasi (Kent, 1978). 2. Menurut Connolly dan Begg (2002), basis data adalah kumpulan dari data yang sering digunakan oleh sebuah sistem pada suatu organisasi. 3. Basis data menurut Sutanta (2004) adalah pengorganisasian sebuah kumpulan data yang saling terkait atau berhubungan sehingga memudahkan memperoleh informasi. 4. Database adalah sebuah struktur repositori dari suatu data.
Basis data diciptakan untuk mengoperasikan infomasi dalam skala besar. Fungsi dari basis data seperti memasukkan data, menyimpan data, mengambil data dan mengelola data tersebut. Dari definisi yang telah dijabarkan, maka dapat disimpulkan bahwa Pengertian dari database adalah koleksi dari berbagai macam data yang terorganisir di dalam satu unit atau tempat.
Universitas Sumatera Utara
2.1.1
Database Management System (DBMS)
Database management system (DBMS) adalah sebuah set dari fasilitas yang terorganisir untuk mengakses dan mempertahankan satu atau banyak basis data. Penggunaan DBMS dilakukan di dalam integrasi dari suatu sistem yang menggunakan data tersebut dalam sebuah perangkat lunak (Beynon-Davies, 2004). Menurut Beynon-Davies, DBMS dibagi atas 4 jenis yaitu:
1. Data definition : fungsinya yaitu pendefinisian struktur data baru yang masuk ke dalam sebuah database, menghapus struktur data dasi sebuah basis data dan memodifikasi struktur dari data yang sudah ada. 2. Data maintenance : fungsinya yaitu menyisipkan data baru, memperbaharui data dan menghapus data pada sebuah data struktur yang telah ada. 3. Data retrival : fungsinya yaitu, melakukan query pada data yang telah ada dan mengambil data untuk digunakan pada sebuah sistem. 4. Data Control : fungsinya yaitu, menciptakan dan memonitoring user dari basis data, membatasi akses data, dan memonitoring performa database.
2.2 Sistem Rekomendasi (Recommender System) Ada beberapa macam definisi dari sistem rekomendasi. Menurut Mahmood dan Ricci, Sistem Rekomendasi adalah peralatan perangkat lunak dan teknik yang menyediakan saran untuk items yang bisa digunakan oleh user. Secara general sistem rekomendasi didefinisikan sebagai sistem pendukung yang membantu user untuk
mencari
informasi, produk dan servis (buku, film, music dll) dengan menggabungkan dan menganalisa saran dari user lain, yang berarti meninjau dari beberapa pihak dan user atribut (Frias-Martinex, 2006).
Sistem rekomendasi menjadi sebuah penelitian bidang yang penting sejak munculnya makalah pertama tentang collaborative-filtering pada pertengahan 1990an (Herlocker, 2001). Tujuan dari sistem rekomendasi adalah menghasilkan rekomendasi yang berguna kepada user untuk items atau produk yang paling menguntukan bagi
Universitas Sumatera Utara
user (Melville dan Sindhwani, 2010). Sistem Rekomendasi menurut Melville dan Sindhwani, terbagi atas 3 jenis, yaitu:
1. Content-based Filtering 2. Collaborative Filtering 3. Hybrid-based Filtering
2.2.1
Content Based Filtering
Content-based filtering adalah sistem yang belajar untuk memberikan rekomendasi item yang sama kepada user baru dengan membandingkan user yang terdahulu (Mahmod dan Ricci, 2009). Yang dimaksud dengan user yang baru dan user yang lama di sini adalah user baru sebagai data yang baru masuk dan user lama sebagai data yang telah masukkan dan sudah tersimpan di dalam database. Teknik – teknik yang digunakan dalam content-based seperti Bayesian Classifiers, Cluster analysis, decision trees dan artificial neural networks. Teknik – teknik tersebut dapat mengestimasi probabilitas perbandingan data lama dengan data baru.
2.2.2
Collaborative Filtering
Implementasi termudah dan original dari pendekatan rekomendasi ini untuk user aktif yang mempunyai kesamaan dengan user yang terdahulu (Schafer dkk, 2007). Kesamaan data pada 2 user dikalkulasi berdasarkan kesamaan history dari user. Metode ini membandingkan koleksi data yang sama ataupun tidak sama dengan data yang baru dan kemudian dikalkulasi agar dapat diberikannya rekomendasi kepada user. Teknik – teknik yang sering dipakai dalam metode ini adalah teknik tf-idf, nearest neighbor dan pearson Correlation.
2.2.3
Hybrid Based Filtering
Sistem rekomendasi ini berdasarkan oleh kombinasi dari content-based filtering dan collaborative
filtering
(Mahmod
dan
Ricci,
2009).
Sistem
hybrid
yang
Universitas Sumatera Utara
menggabungkan metode content-based filtering dengan collaborative filtering mencoba menggunakan keunggulan dari content-based filtering untuk mengatasi masalah dari kekurangan collaborative filtering ataupun sebaliknya. Contohnya seperti pada metode content-based filtering hanya dapat mengklasifikasikan data. Tetapi sistem ingin memberikan rangking kepada user untuk rekomendasi item.
Maka dari itu sistem menggunakan metode collaborative filtering untuk mendapatkan perhitungan agar menghasilkan sebuah rangking rekomendasi yang dapat diberikan kepada user. Sehingga dengan menggabungkan dua metode tersebut, sistem akan memberikan hasil yang lebih baik dan lebih memuaskan kepada user.
2.3 Metode Nearest Neighbor Metode nearest neighbor langsung mengeksploitasi jarak antara data sampel untuk melakukan klasifikasi. Nearest neighbor secara independen mengevaluasi jarak antara data yang satu dengan data yang lain (Xu, Y. 2012). Rules nearest neighbor mengidentifikasi katagori dari data poin yang baru (kasus baru) berdasarkan nearest neighbor dari data (kasus lama) yang telah diketahui nilainya (Vaidehi dan Vasuhi, 2008).
Rule ini digunakan pada sistem pengenalan pattern (pattern recognition), pengkatagorian text (text catagorization), model rangking, pengenalan objek (object recognition) dan event recognition (Bhatia dan Vandana, 2010).
Universitas Sumatera Utara
Gambar 2.1 Kedekatan kasus Pada gambar 2.1 dapat dilihat bahwa terdapat dua kasus lama, yaitu kasus A dan kasus B. Pada saat kasus baru muncul, solusi yang digunakan untuk memcahkan kasus baru tersebut adalah dengan kasus lama A dikarenakan jarak 1 yaitu kasus baru dengan kasus A lebih dekat dibandingkan jarak 2 yaitu jarak kasus baru dengan kasus B. Maka diambil kesimpulan bahwa kasus baru dipecahkan oleh kasus A.
Untuk memperoleh rangking pada nearest neighbor, sistem melakukan perhitungan kedekatan (similarity) antara 2 kasus. Berikut adalah rumus dari yang digunakan di dalam metode nearest neighbor.
Dimana : T : Kasus baru S : Kasus yang ada dalam memori/basisdata (kasus lama) n : Jumlah atribut dalam setiap kasus i : atribut variabel antara 1 s/d n f : fungsi similarity atribut i antara kasus T dan kasus S w : bobot yang diberikan pada atribut ke-i Penentuan kedekatan biasanya berada pada nilai antara 0 s/d 1. Nilai 0 berarti bahwa kedua kasus mutlak tidak memiliki kesamaan, sebaliknya untuk nilai 1, berarti kasus tersebut mutlak memiliki kesamaan.
2.4 Metode Decision Tree
Universitas Sumatera Utara
Klasifikasi data bisa dideskripsikan sebagai pengawas dari sebuah learning algoritm di dalam proses mesin pembelajaran. Decision tree adalah sebuah representasi dari prosedur keputusan untuk menentukan kelas dan dikonstruksikan menjadi algoritma non-incremental tree-induction atau algoritma incremental tree-induction (Utgoff, 1989).
dalam sistem pengambilan keputusan dan proses pembelajaran sistem yang menggunakan teknik prediksi modeling yang digunakan di dalam klasifikasi. Decision tree menggunakan teknik divide-conquer untuk memisahkan masalah menjadi bagian – bagian.
Struktur dari Decision tree dibuat dari node awal (root), pilihan (internal) dan node hasil (leaf nodes). Struktur pohon ini digunakan untuk mengklasifikasikan data yang belum diketahui record-nya. Pada gambar 2.2 berikut, akan digambarkan struktur pohon keputusan yang akan digunakan pada skripsi ini.
Universitas Sumatera Utara
Gambar 2.2 Decision Tree
2.5 Penelitian terdahulu
Di bagian ini akan dijabarkan beberapa penelitian terdahulu. Sistem rekomendasi telah banyak digunakan pada penelitian terdahulu. Seperti sistem rekomendasi pada bursa telepon genggam (2008) yang menggunakan content-based filtering dan sistem rekomendasi untuk sistem informasi toko film digital (2007) menggunakan metode user item.
Universitas Sumatera Utara
Untuk metode Hybrid-based filtering telah digunakan oleh (2010) pada sistem rekomendasi berita berbahasa indonesia yang menggunakan gabungan metode clustering dan algoritma tf-dif. Kemudian digunakan juga oleh (2012) untuk memperoleh rekomendasi minat bakat siswa yang menggunakan metode Association Rule dan algoritma Apriori. Untuk lebih jelasnya, pada tabel 2.1 Berikut akan dijelaskan penelitian – penelitian yang telah dibuat sebelumnya.
Tabel 2.1 Penelitian terdahulu No.
Judul
Tahun
Metode yang
Keterangan
digunakan 1
Pembangunan
2008
Perangkat Lunak Sistem
content-based
Kelemahan :
filtering
ketidakmampuan sistem
Rekomendasi Bursa
memberikan rekomendasi
Elektronis Telepon
suatu informasi yang baru
Genggam.
karena rekomendasi berdasarkan data yang lalu.
2
knowledge-
Berdasarkan kepuasan
Rekomendasi Pada
based, utility
pelanggan (user
Sistem Rekomendasi
based
satisfaction) pemodelan
Metode Analisis
2009
user-based
(Contoh kasus
collaborative
Pemanfaatan pada biro
filtering, item-
wisata)
based collaborative filtering, dan
sistem rekomendasi memiliki domain dan wilayahnya masing-masing dalam penyelesaian masalah penentuan rekomendasi
association rules
Tabel 2.1 Penelitian terdahulu (lanjutan) No.
Judul
Tahun
Metode yang
Keterangan
digunakan 3
Model Sistem Informasi
2007
Collaborative
Keuntungan : dinamis dan
Toko Film Digital
Filtering
sederhana dalam
Dengan Recommender
metode user
perhitungan rekomendasi
System
item
Kelemahan : masalah skalabilitas dan sparsity
Universitas Sumatera Utara
akibat terlalu banyak item. 4
Studi Multi Criteria
2008
Multi Criterian
Kelebihan : metode
Decision Making
Decision
sederhana dan sesuai,
(MCDM) untuk
Making
permasalahan pemilihan
Recommender System
(MCDM)
alternatif yang jumlahnya
Bursa Tenaga Kerja
terbatas dan telah diketahui sebelumnya.
5
Implementasi Sistem
2010
Algoritma
Algoritma clustering
Rekomendasi Berita
clustering dan
digunakan untuk klasifikasi
Berbahasa Indonesia
algoritma tf-dif
berita
Berbasis Pilihan
Keuntungan tf-dif :
Personal Menggunakan
pemberian bobot pada term
Algoritma Hybrid
sehingga dapat mengetahui
Filtering
term yang sering muncul dalam dokumen secara individu, namum jarang dijumpai pada dokumen lain
6
Sistem Rekomendasi
2012
metode
Aturan yang telah diinput
Bidang Minat
Association
sebelumnya menjadi acuan
Mahasiswa
Rule dan
rekomendasi terhadap minat
menggunakan Metode
algoritma
user sehingga sistem dapat
Association Rule dan
Apriori
memberika rekomendasi
Algoritma Apriori
Tabel 2.1 Penelitian terdahulu (lanjutan) No.
Judul
Tahun
Metode yang
Keterangan
digunakan 7
Perancangan Sistem
2010
Metode
Kelemahan ID3 :
Pendukung Keputusan
Decision tree
ketidakstabilan dalam
(SPK) untuk
menggunakan
melakukan klasifikasi data
menentukan
algoritma ID3
apabila terjadi sedikit
Universitas Sumatera Utara
Kelaiklautan Kapal.
perubahan pada data. Kelebihan : dapat menganalisa fungsi target yang bernilai diskrit
8
Penerapan Data Mining
2011
Algoritma
ID3 merupakan algoritma
untuk menganalisa
Decision tree
dasar dalam decision tree
kemungkinan
menggunakan
sehingga algoritma tersebut
pengunduran diri calon
algoritma ID3
lebih mudah dimengerti dan
mahasiswa bar 9
10
Metode HYBRID (Content dan Collaborative based) Nearest Neighbour untuk sistem rekomendasi pariwisata
digunakan Algoritma
Menanggulangi kelemahan
Nearest
dari motede hybrid(content
Neighbor dan
dan collaborative) dengan
algoritma
pendekatan baru yaitu
Euclidean
Algoritma Nearest Neighbor
metode Neuro-
Penggabungan fuzzy logic
pembelian mobil
Fuzzy
dengan neural network
berbasis metode Neuro-
Classification
untuk menanggulangi
Sistem rekomendasi
2011
-
kekurangan dari rule fuzzy
Fuzzy Classification
logic 11
Perbandingan metode
2009
Algoritma
Algoritma Nearest
Nearest neigbor dan
Nearest
Neighbor: tidak lebih akurat
algoritma C.45 untuk
Neighbor dan
dari C.45 tetapi pada saat
menganalisis
algoritma C4.5
pengklasifikasian data
kemungkinan
algoritma C.45
pengunduran diri calon
membutuhkan waktu yang
mahasiswa di STMIK
lebih lama dan proses yang
Yogyakarta
lebih panjang
Universitas Sumatera Utara