BAB II DASAR TEORI
2.1.
Database Database (basis data) dapat didefinisikan dalam sejumlah sudut pandang
seperti (Fathansyah, 1999): Himpunan kelompok data (arsip) yang saling berhubungan yang diorganisasi sedemikian rupa agar kelak dapat dimanfaatkan kembali dengan cepat dan mudah. Kumpulan data yang saling berhubungan yang disimpan secara bersama sedemikian rupa dan tanpa pengulangan (redundansasi) yang tidak perlu, untuk memenuhi berbagai kebutuhan. Kumpulan file/table/arsip yang saling berhubungan yang disimpan dalam media penyimpanan elektronis.
2.2.
Data Warehouse Data warehouse adalah kumpulan macam-macam data yang subject
oriented, integrated, time variant, dan nonvolatile dalam mendukung proses pembuatan keputusan. (Inmon and Hackathorn, 1994). Data warehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS.
9
Arsitektur data warehouse adalah bagaimana data warehouse dibangun, tergantung situasi dan kondisi. Arsitektur data warehouse akan berpengaruh pada penggunaan dan pemeliharaan. Lapisan-lapisan arsitektur data warehouse : 1. Operational database layer / Lapisan basis data operasional a. Sumber data (source) untuk datawarehouse b. Data lengkap, Data hari ke hari c. Mempunyai nilai saat ini/ data berarti. d. Tingkat kemungkinan data besar. 2. Data Access Layer/ Lapisan Akses Data a. Tools untuk mengekstrak, mengubah dan mengambil data. b. Meliputi karakteristik datawarehouse. 3. Metadata Layer / Lapisan Metadata a. File data tersimpan / Direktori b. Lebih detil dari direktori data sistem, maksudnya lebih mendalam dari file data yang tersedia sebelumnya. c. Ada pentunjuk untuk keseluruhan warehouse dan ada petunjuk data yang dapat diakses report khusus untuk di analisis. 4. Informational Access Layer / Lapisan Akses Informasi a. Akses data dan juga tool untuk laporan dan analisis. b. Tools Business Intelligence masuk ke tahap ini.
10
2.3.
Data Mining
2.3.1. Definisi Definisi data mining menurut beberapa pakar diantaranya (Kusrini, Luthfi, 2009): Data mining adalah suatu istilah yang di gunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar (Turban, dkk. 2005). Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2005). Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2006). "Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar." (Larose, 2005)
11
2.3.2. Tahap-Tahap Data Mining Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat dibagi menjadi beberapa tahap : 1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) 2. Integrasi data (penggabungan data dari beberapa sumber) 3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk dimining) 4. Aplikasi teknik Data Mining 5. Evaluasi
pola
yang
ditemukan
(untuk
menemukan
yang
menarik/bernilai) 6. Presentasi pengetahuan (dengan teknik visualisasi)
2.3.3. Tugas Data Mining Tugas data mining dibagi menjadi dua metode yaitu: 1. Metoda prediksi Menggunakan beberapa variable untuk memperkirakan suatu nilai yang tidak diketahui dari variable yang lain. 2. Metoda deskripsi Mencari suatu pola yang dapat ditafsirkan manusia sehingga data dapat digambarkan atau diuraikan.
12
Jenis-jenis tugas/ teknik data mining : 1. Classification [Predictive], yaitu proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. 2. Clustering [Descriptive], yaitu proses untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster 3. Association Rule Discovery [Descriptive], yaitu proses untuk menemukan aturan assosiatif antara suatu kombinasi item. 4. Regression [Predictive] 5. Deviation Detection [Predictive]
2.3.4. Klasifikasi Teknik klasifikasi dalam data mining dikelompokkan ke dalam teknik pohon keputusan, Bayesian (Naïve Bayesian dan Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan aturan-aturan asosiasi, dan teknik lain (k-Nearest Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy.) (Lihat Gambar 2.1.)
13
Gambar 2.1 Pengelompokan Teknik Klasifikasi Proses klasifikasi dapat dilakukan dalam dua tahap, yaitu proses belajar dari data pelatihan dan klasifikasi kasus baru. Pada proses belajar, algoritma klasifikasi mengolah data pelatihan untuk menghasilkan sebuah model. Setelah model diuji dan dapat diterima, pada tahap klasifikasi, model tersebut digunakan untuk memprediksi kelas dari kasus baru untuk membantu proses pengambilan keputusan (Han et al.,2001; Quinlan, 1993). Kelas yang dapat diprediksi adalah kelas-kelas yang sudah terdefinisi pada data pelatihan. Karena proses klasifikasi kasus baru cukup sederhana, penelitian lebih banyak ditujukan untuk memperbaiki teknikteknik pada proses belajar.
2.3.5. Pohon Keputusan Pohon dalam analisis pemecahan masalah pengambilan keputusan adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat diambil dari masalah tersebut. Pohon tersebut juga memperlihatkan
14
faktor-faktor
kemungkinan/probablitas
yang
akan
mempengaruhi
alternatif-alternatif keputusan tersebut, disertai dengan estimasi hasil akhir yang akan didapat bila kita mengambil alternatif keputusan tersebut. Pohon keputusan adalah salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia. Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Manfaat utama dari penggunaan pohon keputusan adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Kelebihan dari metode pohon keputusan adalah:
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu.
15
Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional.
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan criteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.
Beberapa contoh algoritma pada kelompok algoritma pohon keputusan adalah C4.5, CART, S-Plus Tree, FACT, QUEST dan LMDT (Lim et al, 1998). Dalam membangun model yang berupa pohon keputusan, C4.5 menggunakan pendekatan teori informasi information gain. CART menggunakan Gini Index (Berry et al., 1997). S-Plus Tree adalah pengembangan dari CART yang menambahkan ukuran probabilitas pada pohon. FACT memanfaatkan uji hipotesis statistik, sedangkan QUEST merupakan pengembangan FACT dengan perbaikan pada teknik konstruksi pohon. LMDT bekerja berdasarkan ukuran statistik multivariat.
16
Di antara algoritma-algoritma tersebut, algoritma C4.5 (Quinlan, 1993) termasuk yang populer (Berry et al., 1997; Han et al., 2001). Dibandingkan dengan algoritman yang lain, algoritma C4.5 memiliki kelebihan utama karena dapat menghasilkan model berupa pohon atau aturan yang mudah diinterpretasikan dan dikonversi ke aturan-aturan SQL, memiliki tingkat akurasi yang dapat diterima, dapat menangani atribut bertipe diskret dan numerik, serta efisien dalam menangani atribut bertipe diskret (Han et al., 2001; Lim et al., 1998).
2.3.6. Algoritma C4.5 Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon keputusan yang terkenal dan disukai karena memiliki kelebihankelebihan. Kelebihan ini misalnya: dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan tercepat di antara algoritma-algoritma yang menggunakan memori utama di komputer (Quinlan, 1993; Han et al., 2001; Berry et al., 1997; Ruggieri, 2001). Pada algoritma C4.5, model yang dihasilkan oleh proses “belajar” dari data pelatihan berupa sebuah pohon keputusan. Pohon keputusan ini kemudian dapat dimanfaatkan untuk memprediksi kelas dari kasus yang baru. Untuk mengkonstruksi pohon, algoritma C4.5 membaca seluruh sampel data pelatihan dari storage dan memuatnya ke memori. Pada komputasinya, algoritma C4.5 menelaah sampel demi sampel di memori
17
untuk mengkonstruksi pohon (prinsip kerja C4.5 adalah memory based approach). (Pemuatan sampel ke memori dimaksudkan untuk menghindari pembacaan sampel ke storage yang berulang-ulang, yang dapat mengakibatkan tingginya akses ke input-output dan memperburuk waktu eksekusi algoritma.) Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut: 1. Pilih atribut sebagai akar 2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang 4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1.
(1) Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i
18
|S| : jumlah kasus dalam S Sedangkan perhitungan nilai entropy dapat dilihat pada persamaan 2 berikut: (2) Keterangan : S : himpunan kasus n : jumlah partisi S pi : proporsi dari Si terhadap S
2.4.
Tool Perancangan
2.5.1. Diagram Alir Diagram alir atau penulisan grafik dari sebuah algoritma merupakan sebuah diagram skematik yang menggunakan simbol-simbol standar, diletakkan secara bertahap dengan baik, skema langkah logika untuk menyelesaikan suatu masalah, apakah suatu masalah yang diselesaikan pada komputer digital atau dengan teknik lain. 2.5.2. Context Diagram Adalah diagram tingkat atas yang tidak detail dari sebuah sistem informasi yang menggambarkan aliran-aliran data ke dalam dan ke luar entitas eksternal. Dalam hal ini aliran data yang keluar disebut terminator, dapat berupa sistem lain, suatu perangkat keras, orang atau organisasi.
19
2.5.3. Data Flow Diagram(DFD) Merupakan diagram yang di presentasikan dengan lambanglambang tertentu. Dan suatu sistem yang menunjukan proses, aliran data, entitas dan aliran data yang terdapat pada sistem tersebut. Berikut adalah perbedaan symbol DFD yang digunakan oleh beberapa orang ahli perancangan system. 2.5.4. Entity Relationship Diagram (ERD) Merupakan komponen-komponen dari himpunan entitas dan himpunan relasi yang masing-masing dilengkapi dengan kunci relasi yang berguna untuk menghubungkan entitas dengan relasi. Berikut adalah simbol yang digunakan dalam ERD. Relasi antar 2 tabel atau 2 file dapat dikategorikan/dibedakan menjadi 3 macam yaitu : 1. One To One Relationship berarti, entitas pada himpunan entitas A berhubungan paling banyak dengan 1 entitas B, dan begitu juga sebaliknya setiap entitas pada himpunan B berhubungan paling banyak 1 dengan entitas pada himpunan entitas B. 2. One To Many Relationship berarti, entitas pada himpunan entitas A berhubungan dengan banyak pada himpunan entitas B, tetapi tidak sebaliknya setiap entitas pada himpunan entitas B, hubungan paling banyak dengan satu entitas pada himpunan entitas A.
20
3. Many To Many Relationship berarti, entitas pada himpunan entitas A berhubungan dengan banyak pada himpunan entitas B dan begitu juga sebaliknya, setiap entitas pada himpunan entitas B berhubungan banyak dengan himpunan entitas B. Dalam beberapa literatur akan dapat dijumpai penggambaran diagram E-R yang berbeda. Tabel 2.1 ERD versi Chen dan versi James Martin Dasar
Arti
2.5.5. Kamus Data Merupakan katalog fakta tentang data dalam kebutuha-kebutuhan informasi dari suatu sistem informasi. Arus data dibuat berdasarkan arus data dari Data Flow Diagram (DFD).
21
2.5.
Tool Perangkat Lunak
2.5.1. Delphi 7 Borland Delphi merupakan suatu bahasa pemrograman yang memberikan berbagai fasilitas pembuatan aplikasi visual. Keunggulan bahasa
pemrograman
ini
terletak
pada
produktivitas,
kualitas,
pengembangan perangkat lunak, kecepatan kompilasi, pola desain yang menarik serta diperkuat dengan pemrogramannya yang terstruktur. Keunggulan lain dari Delphi adalah dapat digunakan untuk merancang program aplikasi yang memiliki tampilan seperti program aplikasi lain yang berbasis Windows. Khusus
untuk
pemrograman
database,
Borland
Delphi
menyediakan fasilitas obyek yang kuat dan lengkap yang memudahkan programmer dalam membuat program. Forrnat database yang dimiliki Delphi adalah format database Paradox, dBase, MS. Access, ODBC, SyBASE, Oracle dan lain-lain.
2.5.2. Interbase Interbase adalah sebuah relational database management system (RDBMS) yang mampu melakukan pemrosesan transaksi dengan cepat dan menggunakan data secara bersama baik dalam lingkungan singel user ataupun multi user. Interbase menggunakan sebuah data definition language (DDL) untuk mendefinisikan berbagai objek database yang berisi informasi
22
mengenai struktur database beserta datanya. Objek-objek ini sering juga disebut sebagai “metadata”. Beberapa Keuntungan Interbase Pemeliharaan yang sangat minim. Kinerja yang tinggi. Backup secara online. Crash Recovery secara otomatis. Instalasi yang mudah. Biaya kepemilikan total yang murah. Dukungan untuk multiproses secara simetris. Servis yang dapat diprogram untuk menangani dan memonitor database. Skalabilitas dari permintaan single-user embedded sampai permintaan enterprise. Sesuai untuk lingkungan produksi yang beragam. Mendukung beragam pasar industri vertikal. Unicode, kumpulan karakter universal, ditambah kumpulan karakter internasioal lainnya. Fungsi user-defined untuk perluasan dukungan query; Blob, subtypes, dan filter untuk menangkap data besar yang tidak terstruktur. dll