BAB II LANDASAN TEORI
2.1 Pengertian Data Warehouse Data warehouse merupakan tempat penampungan data perusahaan atau intitusi yang disusun sedemikian rupa sehingga mengandung makna dan untuk analisis dan pelaporan. Sehingga sebuah data warehouse merupakan sumber informasi yang datanya diperoleh dari Online Transaction Processing (OLTP). Biasanya data warehouse ini menyimpan data yang bersifat historis. Seperti yang dikatakan oleh Turban,Aronson and Ting (2006, p305), data warehouse adalah sebuah basisdata komprehensif yang mendukung semua analisis keputusan yang diperlukan oleh suatu organisasi dengan menyediakan ringkasan dan rincian informasi. Sedangkan menurut Connolly dan Begg (2005, p1047), data warehouse adalah suatu kumpulan data yang bersifat subject-oriented, integrated, time-variant, dan non-volatile dalam mendukung proses pengambilan keputusan.
2.2 Struktur Data Warehouse Metadata merupakan suatu bentuk informasi yang berisi data yang akan digunakan, tipe data, panjang datanya serta sumber datanya yang akan digunakan dalam data warehouse. Seperti apa yang dikatakan oleh Inmon (2002, p393), metadata adalah data mengenai data atau deskripsi dari struktur, isi, kunci, indeks, dan lain-lain mengenai data. Sedangkan Mallach (2002, p474) mengatakan metadata adalah data tentang data yang berguna sebagai pusat penyimpanan informasi untuk menjelaskan
6 http://digilib.mercubuana.ac.id/
7
kepada user tentang apakah data warehouse itu, dari mana asalnya dan siapa yang bertanggung jawab atas hal tersebut dan sebagainya. Menurut Connolly (2005, p1055), Metadata digunakan untuk berbagai tujuan meliputi :
Proses ekstraksi dan loading. Metadata digunakan untuk memetakan sumber data ke dalam pandangan umum dari data dalam warehouse.
Proses manajemen warehouse. Metadata digunakan untuk mengotomatiskan pembuatan tabel ringkasan.
Sebagai bagian dari proses manajemen query. Metadata digunakan untuk menghubungkan suatu query dengan sumber data yang tepat.
Dalam penyusunan metadata, tidaklah dilakukan dengan semaunya, tetapi harus memenuhi syarat-syarat yang berlaku. Syarat-syarat dalam pembuatan metadata menurut Inmon (2005, p102) :
Struktur data yang dikenal programmer
Struktur data yang dikenal analis DSS
Sumber data yang membantu data warehouse
Transformasi data ketika dilewatkan ke data warehouse
Model data
Hubungan antara model data dan data warehouse
History dari extracts Metadata dalam data warehouse dibagi menjadi 3 kategori (Ponniah, 2001,
p36), yaitu :
Metadata operasional, berisi mengenai informasi tentang sumber data operasional yang memiliki
struktur data yang berbeda, ukuran field yang berbeda, dan tipe data yang berbeda.
http://digilib.mercubuana.ac.id/
8
Metadata ekstraksi dan transformasi, berisi mengenai data ekstraksi dari sumber data, penamaan,
frekuensi ekstraksi, metode ekstraksi, dan peraturan untuk ekstraksi.
Metadata pengguna akhir, adalah sebuah peta navigasi dari data warehouse. Ini memampukan pengguna akhir untuk menemukan informasi dari data warehouse. Berdasarkan Kimball seperti yang dikutip oleh Connolly dan Begg (2005,
p1083), terdapat 9 tahap metodologi dalam membangun data warehouse yang dikenal dengan nine-step methodology yang terdiri dari Choosing the process, Choosing the grain, Identifying and conforming the dimensions, Choosing the facts,Storing precalculations in the fact table, Rounding out the dimension tables, Choosing the duration of the database, Tracking slowly changing dimensions and Deciding the query priorities and the query modes. Untuk pemodelan data warehouse, lebih digunakan teknik pemodelan dimensional. Dengan teknik ini, dapat dibuat tabel fakta, tabel dimensi, dan membangun relasi antara masing-masing tabel dimensi dan tabel fakta. Ada beberapa hasil pemodelan tersebut, antara lain : a. Skema Bintang (Star Schema) Menurut Ponniah (2001, pp210-216), skema bintang (star schema) adalah teknik dasar perancangan data untuk data warehouse. Struktur skema bintang adalah suatu struktur yang dapat dengan mudah dipahami dan digunakan oleh pengguna. Struktur tersebut mencerminkan bagaimana pengguna biasanya memandang ukuranukuran kritis mengikuti dimensi-dimensi bisnis yang ada. Dalam skema bintang tergambar dua jenis table, yaitu table dimensi dan table fakta. Kedua table tersebut mempunyai karakteristik sebagai berikut; 1. Table Dimensi
http://digilib.mercubuana.ac.id/
9
Key tabel dimensi, merupakan primary key dari tabel dimensi yang mengidentifikasi setiap baris dalam tabel secara unik.
Merupakan tabel yang lebar. Tabel dimensi memiliki jumlah kolom atau atribut yang banyak, oleh karena itu tabel dimensi bersifat lebar.
Atribut berupa teks. Dalam tabel dimensi, jarang ditemukan nilai numerik untuk perhitungan, atribut umumnya berupa teks yang merepresentasikan deskripsi tekstual dari komponen-komponen dalam dimensi bisnis.
Atribut-atribut tidak berhubungan secara langsung.
Tidak dinormalisasi. Untuk kinerja query yang efektif, paling baik jika query mengambil dari tabel dimensi dan langsung ke tabel fakta tanpa melalui tabel perantara yang akan terbentuk jika tabel dimensi dinormalisasi.
Kemampuan drill-down dan roll-up. Atribut-atribut dalam tabel dimensi menyediakan kemampuan untuk mendapatkan detail dari tingkat tinggi agregasi sampai tingkat detail yang rendah.
Terdapat
beberapa
hirarki.
Berbagai
bagian
perusahaan
dapat
mengelompokkan dimensi dengan cara yang berbeda, sehingga terbentuk lebih dari 1 hirarki.
Jumlah record yang lebih sedikit. Tabel dimensi umumnya memiliki jumlah record atau baris yang lebih sedikit dari tabel fakta.
2. Tabel fakta
Concatenated key. Baris dalam tabel fakta diidentifikasi dengan menggunakan primary key dari tabel-tabel dimensi, maka primary key dari tabel fakta merupakan gabungan primary key dari semua tabel dimensi.
Data grain, merupakan tingkat detail untuk pengukuran. Sebagai contoh, jumlah pemesanan berhubungan dengan jumlah produk tertentu pada suatu pesanan, tanggal tertentu, untuk pelanggan spesifik dan diperoleh oleh seorang perwakilan penjualan spesifik tertentu. Jika jumlah pesanan dilihat sebagai
http://digilib.mercubuana.ac.id/
10
jumlah untuk suatu produk perbulan, maka data grain-nya berbeda dan pada tingkat yang lebih tinggi.
Fully additive measures. Agregasi dari fully additive measures dilaksanakan dengan penjumlahan sederhana nilai-nilai atribut tersebut.
Semiadditive measures. Semiadditive measures merupakan nilai yang tidak dapat langsung dijumlahkan, sebagai contoh persentase keuntungan.
Tabel besar, tidak lebar. Tabel fakta umumnya memiliki lebih sedikit atribut daripada tabel dimensi, namun memiliki jumlah record yang lebih banyak.
Sparse data. Tabel fakta tidak perlu menyimpan record yang nilainya null. Maka tabel fakta dapat memiliki gap.
Degenerate dimensions. Terdapat elemen-elemen data dari sistem operasional yang bukan merupakan fakta ataupun dimensi, seperti nomor pesanan, nomor tagihan, dan lain-lain. Namun atribut-atribut tersebut dapat berguna dalam jenis analisis tertentu. Sebagai contoh, mencari rata-rata jumlah produk per pesanan, maka produk harus dihubungkan ke nomor pesanan untuk mendapatkan nilai rata-rata.Atribut-atribut tersebut disebut degenerate dimension dan disimpan sebagai atribut dari tabel fakta.
2.3 ETL (Extract,Transform, Load) ETL merupakan proses yang sangat penting dalam data warehouse, dengan ETL inilah data dari operational dapat dimasukkan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya (Untuk lebih jelasnya dapat dilihat pada Gambar 1 diatas). Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan proses analisis.
http://digilib.mercubuana.ac.id/
11
1. Extract Langkah pertama pada proses ETL adalah mengekstrak data dari sumbersumber data. Kebanyakan proyek data warehouse menggabungkan data dari sumbersumber yang berbeda. Sistem-sistem yang terpisah sangat mungkin menggunakan format data yang berbeda. Ektraksi adalah mengubah data ke dalam suatu format yang berguna untuk proses transformasi. 2. Transform Tahapan transformasi menggunakan serangkaian aturan atau fungsi untuk mengekstrak data dari sumber dan selanjutnya akan dimasukkan ke data warehouse. Berikut adalah hal-hal yang dapat dilakukan dalam tahapan transformasi: a. Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse. b. Menterjemahkan nilai-nilai yang berupa kode. c. Mengkodekan nilai-nilai ke dalam bentuk bebas (Contohnya memetakan “Pria” dengan “P” dan “Wanita” ke dalam “W”). d. Melakukan perhitungan nilai-nilai baru (Contohnya nilai = qty * harga_satuan). e. Menggabungkan data secara bersama-sama dari berbagai sumber. f. Membuat ringkasan dari sekumpulan baris data. g. Men-generate nilai surrogate key. h. Transposing atau pivoting (Mengubah sekumpulan kolom menjadi sekumpulan baris atau sebaliknya). i. Memisahkan sebuah kolom menjadi berbagai kolom. j. Menggunakan berbagai bentuk validasi data baik yang sederhana maupun kompleks. 3. Load Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yang biasanya ke dalam suatu data warehouse. Jangka waktu proses ini
http://digilib.mercubuana.ac.id/
12
tergantung pada kebutuhan organisasi. Beberapa data warehouse dapat setiap minggu mengisi keseluruhan informasi yang ada secara kumulatif, data diubah, sementara data warehouse yang lain (atau bagian lain dari data warehouse yang sama) dapat menambahkan data baru dalam suatu bentuk yang historikal, contohnya setiap jam. Waktu dan jangkauan untuk mengganti atau menambah data tergantung dari perancangan data warehouse pada waktu menganalisis keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu me-load data (Contohnya uniqueness, referential integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL. Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya sangat bervariasi diantaranya: a. Platform mesin dan sistem operasi yang berlainan. b. Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan zaman. c. Kualitas data yang berbeda-beda. d. Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal yang sulit dimengerti.
2.4 Arsitektur Data Warehouse
http://digilib.mercubuana.ac.id/
13
Gambar 2.1 : Arsitektur Data Warehouse Arsitektur data warehouse (lihat gambar 1 Diatas) terdiri dari Sumber data, ETL, data mart dan cube. Sumber data, merupakan data operational yang disimpan dalam database, yang akan diproses (ETL) dan diintegrasikan kedalam data warehouse. Sedangkan data mart dan cube berisi data-data yang mendukung fungsi bisnis, seperti yang dikatakan oleh Inmon (2005, p321) data mart adalah sub-set dari data warehouse yang umumnya terdiri dari sebuah subjek tunggal. Jadi, data mart merupakan serangkaian data yang hanya menjelaskan satu fungsi dari operasi perusahaan. 2.5 KONSEP DASAR BASIS DATA 2.5.1
Pengertian Basis Data Basis data didefinisikan sebagai kumpulan terorganisasi dari data-data yang
berhubungan sedemikian rupa sehingga mudah disimpan, dimanipulasi serta dipanggil oleh pengguna [Nugroho, 2010].
2.5.2
Sistem Basis Data Sistem basis data dapat terbagi dalam beberapa komponen penting, yakni:
http://digilib.mercubuana.ac.id/
14
1. Data Merupakan informasi yang disimpan dalam suatu struktur tertentu yang terintegrasi. 2. Hardware Merupakan perangkat keras berupa komputer dengan media penyimpanan sekunder yang digunakan untuk menyimpan data karena pada umumnya basis data memiliki ukuran yang besar. 3. Sistem Operasi (Software) Program yang mengaktifkan/memfungsikan sistem komputer, mengendalikan seluruh sumber daya dalam komputer dan melakukan operasi-operasi dasar dalam komputer yang meliputi operasi input-output (IO), pengelolaan file dan sebagainya. 4. Basis Data Basis data sebagai inti dari sistem basis data. Basis data menyimpan data serta struktur sistem basis data baik untuk entitas maupun objek-objeknya secara detail. 5. Database Management System (DBMS) Merupakan perangkat lunak yang digunakan untuk melakukan pengelolaan basis data. 6. User Merupakan pengguna yang menggunakan data yang tersimpan dan terkelola. 7. Aplikasi Lain Program yang dibuat untuk memberikan interface kepada user sehingga lebih mudah dan terkontrol dalam mengakses basis data.
http://digilib.mercubuana.ac.id/
15
2.5.3
Konsep Dasar Sistem Basis Data Basis data merupakan sekumpulan data yang disusun secara logis dan
dikendalikan secara sentral. Basis data memiliki bagian-bagian yang penting, yaitu : 1. Karakter-karakter Karakter merupakan bagian data yang terkecil, dapat berupa karakter numeric, huruf ataupun karakter-karakter khusus yang membentuk suatu item data. 2. Field Suatu field menggambarkan suatu atribut dari record yang menunjukkan suatu item dari data, seperti misalnya nama, alamat dan lain sebagianya. Kumpulan dari field membentuk suatu record. 3. Record Kumpulan dari field membentuk suatu record. Record menggambarkan suatu unit data individu tertentu. Kumpulan dari record membentuk suatu file. Misalnya file personalia, tiap-tiap record dapat mewakili data tiap-tiap karyawan. 4. File File terdiri dari record-record yang menggambarkan satu kesatuan data yang sejenis. Misalnya file matakuliah berisi data tentang semua mata kuliah yang ada. 5. Database Kumpulan dari file membentuk suatu database.
http://digilib.mercubuana.ac.id/
16
2.5.4
Perancangan Basis Data Perancangan basis data merupakan tahap merancang spesifikasi basis data yang
akan diterapkan oleh sistem. Aktifitas perancangan basis data akan mentrasformasikan spesifikasi kebutuhan untuk tempat penyimpanan data yang akan dikembangkan selama analisis basis data ke dalam spesifikasi terstuktur untuk memandu implementasi langsung basis data. Ada tiga tahapan atau bentuk spesifikasi perancangan basis data, yakni : 1. Perancangan basis data konseptual Merupakan upaya untuk membuat model yang masih bersifat konsep. Perancangan basis data secara konseptual terdiri dari tiga langkah, yaitu: a. Penentuan entitas pada basis data b. Pendefinisian hubungan antar entitas c. Penerjemahan hubungan ke dalam entitas 2. Perancangan basis data secara logika 3. Sasaran perancangan basis data secara logika untuk menterjemahkan perancangan konseptual (mencerminkan kebutuhan data pada organisasi yang kita analisis di tahap-tahap sebelumnya) ke perancangan basis data logika yang dapat langung di implementasikan pada sistem basis data yag dipilih. 4. Perancangan basis data secara fisik Merupakan tahapan untuk menuangkan basis data yang bersifat logis menjadi basis data fisik yang tersimpan pada media penyimpanan eksternal. Sasaran utama perancangan basis data secara fisik adalah meningkatkan efisiensi dalam pemrosesan basis data. Perancangan basis data secara fisik membutuhkan beberapa pilihan kritis yang akan berimbas pada integritas dan kinerja dari aplikasi termasuk
http://digilib.mercubuana.ac.id/
17
diantaranya pemilihan DBMS yang spesifik. Kunci-kunci untuk melakukan pilihan-pilihan mencangkup :
Pemilihan format penyimpanan (dinamakan tipe data) untuk tiap atribut dari model data logika. Format dipilih untuk meminimalisasi dan mengoptimalkan penggunaan ruang fisik dan untuk memaksimalkan integritas data.
Pengelompokan atribut-atribut dari model data logika ke-rekaman fisik.
Perancangan rekaman-rekaman pada memori sekunder (terutama hardisk) sehingga rekaman-rekaman secara individual maupun kelompok rekaman (kita namakan pengorganisasian berkas) dapat disimpan, dipanggil kembali serta diperbaharui dengan cepat.
Memilih struktur (dinamakan indeks dan arsitektur basis data) untuk menyimpan
dan
menghubungkan
berkas-berkas
(file)
sehingga
pemanggilan data berlangsung dengan cara yang efisien.
Menyiapkan strategi-strategi untuk menangani query pada basis data dengan tujuan mengoptimalisasikan kinerja basis data dalam menangani query.
2.5.5
Kamus Data Kamus data biasanya merupakan bagian dari katalog sistem (system catalog)
yang dibentuk untuk setiap basis data. Katalog sistem mendeskripsikan semua objek basis data, termasuk data tentang tabel-tabel seperti nama tabel, pembuat tabel, pengguna yang berhak menggunakanya, nama dan tipe data, kunci tamu (foreign key) dan kunci primer (primary key), berkas indeks dan sebagainya. Katalog sistem diciptakan oleh DBMS dan informasinya disimpan di tabel sistem, yang padanya dapat
http://digilib.mercubuana.ac.id/
18
dilakukan permohonan seperti tabel data biasa, jika pengguna memiliki hak yang memadai [Nugroho, 2010]. Tabel 2.1 Notasi Struktur Data
Notasi
Keterangan
=
Terdiri dari
+
Dan ( and )
()
Pilihan ( ya atau tidak )
{}
Pengulangan proses/ Iterasi
[]
Pilih salah satu jawaban
I
Pemisah pilihan didalam [ ]
*
Keterangan atau catatan
@
Petunjuk (key field)
Tabel 2.2 Contoh Struktur Data [www.w3schools.com]
NNo 11
Nama Arus
Struktur Data
Data Customer
= customer_code + customer_name +
Dimension
address + city + zip
http://digilib.mercubuana.ac.id/
19
22
33
Product Dimension
= product_code + product_name + category + price = customer_code + empoyee_name +
Employee
supervisor + departement + region +
Dimension
territory
44
Time Dimension
55
Fact Table
= order_date + year + quarter+ month = trans_code + total + quantity + freight + discount
2.6 PENGENALAN MYSQL MySQL merupakan bahasa komputer standar yang digunakan untuk berkomunikasi dengan sistem manajemen basi data relational (RDBMS). MySQL adalah database multiuser yang menggunakan bahasa Structured Query Language (SQL). MySQL merupakan software sistem manajemen database (Database Management System – DBMS) yang sangat populer di kalangan pemrogram web, terutama di lingkungan Linux. Dengan menggunakan script PHP dan PERL Software database ini dapat berfungsi atau berjalan pada semua platform sistem operasi yag biasa digunakan (Windows, Linux, OS/2, berbagai varian Unix). Sama halnya dengan PHP, MySQL merupakan jenis software yang termasuk open source. Database ini tersedia bebas dan siapa saja dapat mengembangkan software ini, tanpa biaya [Anhar, 2010]. Dalam menggunakan query, ada beberapa hal yang harus diketahui yang menjadi aturan dalam SQL, diantaranya adalah: 1. In-casesenitive Artinya huruf besar dan huruf kecil tidak dibedakan. 2. Penulisan Query
http://digilib.mercubuana.ac.id/
20
Query bisa ditulis satu baris penuh atau dipisah perbari (untuk query yang panjang).
Kata kunci dalam SQL a. Keyword (Reserved Word) Merupakan kata-kata yang sudah dipakai oleh sistem seperti CREATE. Pada umumnya dalam penulisannya, keyword dalam SQL biasanya ditulis dengan huruf kapital semua. Namun, ini bukan aturan, hanya tergantung dari kesepakatan. b. Identifier (Pengenal) Merupakan nama-nama varibel ataupun identifier lainnya. Pada umumnya identifier ditulis dengan menggunakan campuran antara huruf besar dan huruf kecil misalnya Mahasiswa, Nillai dan sebagainya. Sekali lagi ditegaskan bahwa aturan ini bukanlah aturan baku dalam penulisan identifier, hanya tergantung kesepakatan. Perintah atau statement dalam SQL secara umum dapat dibagi menjadi tiga
kategori atau sub bahasa, yakni : 1. Data Definition Language (DDL) Bagian dari SQL ini mengandung definisi suatu tabel seperti pembuatan, penghapusan dan pemodifikasian definisi tabel dan view. DDL juga dapat memberikan batasan akses ke suatu tabel atau view. 2. Data Manipulation Languange (DML) DML merupakan bagian dari SQL yang memungkinkan pengguna untuk melakukan suatu proses atau manipulasi suatu basis data seperti melakukan query INSERT, UPDATE dan DELETE.
http://digilib.mercubuana.ac.id/
21
3. Retrieving Data Retrievieng data merupakan bagian dari SQL yang bertugas menampilkan data, pada umumnya pengguna menggunakan query atau perintah SQL, yaitu SELECT untuk menampilkan data.
Gambar 2.3 Contoh Query MySQL [www.w3schools.com]
http://digilib.mercubuana.ac.id/