BAB II LANDASAN TEORI
2.1
Data Warehouse Mohammed (2014) mengatakan bahwa data warehouse merupakan
database relasional yang dirancang untuk melakukan query dan analisis. Data warehouse biasanya berisi data historis yang berasal dari data transaksi, tetapi juga dapat berisi data dari sumber lain. Sethi (2012) menambahkan bahwa data warehouse merupakan kumpulan teknologi pendukung keputusan yang bertujuan untuk membantu eksekutif, manajer, dan analis untuk membuat keputusan yang lebih baik dan lebih cepat. Data warehouse menggunakan model data yang didasarkan pada model data multidimensi yang dikenal sebagai data cube. Data cube memungkinkan data dimodelkan dan dilihat dalam berbagai dimensi (Mohammed, 2014). Ilustrasi data cube dapat dilihat pada Gambar 2.1.
Gambar 2.1 Ilustrasi Data Cube (Vaisman & Zimányi, 2014, p55)
7
8
2.1.1 Karakteristik Data Warehouse Data warehouse memiliki karakteristik sebagai berikut. a. Subject oriented Data warehouse diatur berdasarkan subjek utama, seperti pelanggan, pemasok, produk, dan penjualan. Data warehouse menyediakan gambaran sederhana dan ringkas seputar masalah subjek tertentu dalam proses pengambilan keputusan (Sethi, 2012). b. Integrated Sebuah data warehouse mengintegrasikan data dari berbagai sumber data yang beragam (Sethi, 2012). c. Time variant Data warehouse menyimpan data historis, seperti data 3 bulan, 6 bulan, 12 bulan, atau bahkan lebih dari 12 bulan (Kour, 2015). d. Non volatile Data warehouse memiliki penyimpanan yang terpisah secara fisik dengan lingkungan operasional dan hanya memerlukan 2 operasi, yaitu initial loading of data dan access of data (Sethi, 2012). Data tidak akan berubah hingga data dimuat ke data warehouse (Velicanu & Matei, 2007).
2.1.2 Skema Data Warehouse Skema data warehouse terletak pada 2 jenis elemen, yaitu fakta dan dimensi. Fakta digunakan untuk menyimpan sebuah measure dan dimensi digunakan untuk menganalisis measure melalui operasi aggregation, seperti COUNT, SUM, dan AVERAGE (Mohammed, 2014). Masing-masing fakta dan
9
dimensi memiliki tabel yang bernama tabel fakta dan tabel dimensi. Tabel fakta berisi data seputar topik tertentu yang biasanya berhubungan dengan nilai numerik (dapat diukur) yang dikenal dengan measure (Paskarina & Ayub, 2010) dan memiliki 2 atau lebih foreign key yang terhubung ke primary key pada tabel dimensi (Kimball & Ross, 2013, p12). Tabel dimensi berisi data perspektif mengenai suatu entitas (Paskarina & Ayub, 2010) dan didefinisikan oleh sebuah primary key tunggal (Kimball & Ross, 2013, p13). Skema data warehouse (Paskarina & Ayub, 2010) merupakan suatu pemodelan yang digunakan untuk data multidimensi dan menggambarkan hubungan antara tabel dimensi dengan tabel fakta dan measure yang digunakan. Terdapat 3 jenis skema data warehouse, yaitu: 1. Star schema Star schema merupakan pemodelan yang umum digunakan. Star schema menggambarkan 1 tabel fakta sebagai tabel pusat dan beberapa tabel dimensi yang mengelilinginya, seperti yang terlihat pada Gambar 2.2.
Gambar 2.2 Contoh Star Schema (Vaisman & Zimányi, 2014, p123)
10
2. Snowflake schema Snowflake schema merupakan variasi dari star schema. Perbedaannya terletak
pada
adanya
normalisasi
tabel
dimensi
sehingga
tidak
berhubungan langsung dengan tabel fakta, namun berhubungan dengan tabel dimensi yang lain, seperti yang terlihat pada Gambar 2.3.
Gambar 2.3 Contoh Snowflake Schema (Vaisman & Zimányi, 2014, p124)
3. Fact constellation schema Fact constellation schema terdiri dari beberapa tabel fakta yang menggunakan satu atau beberapa tabel dimensi secara bersamaan. Contoh fact constellation schema pada Gambar 2.4 memperlihatkan bahwa terdapat 2 tabel fakta (tabel Sales dan Purchases) yang menggunakan tabel dimensi yang sama (tabel Time dan Product).
11
Gambar 2.4 Contoh Fact Constellation Schema (Vaisman & Zimányi, 2014, p125)
2.1.3 Extract, Transform, and Load (ETL) Data warehouse mengintegrasikan data dari beberapa sumber informasi yang beragam dan mentransformasikan ke dalam representasi multidimensi untuk aplikasi pendukung keputusan (Gothwal, 2014). Karena itu, perlu dilakukan proses Extract, Transform, and Load (ETL) dalam membangun sebuah data warehouse (El-Sappagh, Hendawi, & Bastawissy, 2011). Proses ETL memiliki 3 langkah utama, yaitu: 1. Extract Langkah pertama dalam membangun data warehouse adalah mengekstrak data dari beberapa sumber data yang akan digunakan di dalam data warehouse.
12
2. Transform Setelah proses ekstraksi data dilakukan, langkah selanjutnya adalah melakukan transformasi data. Proses dalam transformasi data melibatkan proses data cleansing untuk mendapatkan data yang akurat, benar, lengkap, konsisten, dan tidak ambigu. Proses transformasi data (Prihatin, 2013) juga dilakukan dengan menggabungkan data yang berasal dari sumber yang berbeda. 3. Load Langkah terakhir dari proses ETL adalah memuat data yang telah diekstrak dan ditransformasi ke tabel dimensi dan tabel fakta pada data warehouse.
2.1.4 Data Warehouse sebagai Sarana Sistem Pendukung Pengambilan Keputusan Sistem pendukung pengambilan keputusan (dikenal dengan Decision Support System atau DSS) merupakan sebuah sistem yang membantu pengambil keputusan dalam memanfaatkan data untuk tujuan analisis dan prediksi, sehingga dapat membantu dalam pengambilan keputusan (Rupnik & Kukar, 2007). Selama dekade terakhir, telah terjadi transisi untuk pendukung keputusan dengan menggunakan data warehouse karena lebih dapat diandalkan untuk mendukung keputusan (Deshmukh & Shelke, 2013). Data warehouse mendukung analisis bisnis dan pengambilan keputusan dengan mengubah data menjadi informasi yang bermakna, sehingga memungkinkan pengguna untuk melakukan analisis yang lebih substantif, akurat dan konsisten (Pathak, Singh, & Oberoi, 2013).
13
2.2
Online Analytical Processing (OLAP) Perangkat dari data warehouse yang bernama OLAP (Online Analytical
Processing) dapat digunakan untuk menganalisis data dan menyediakan informasi yang dibangun berdasarkan model data multidimensi (Paskarina & Ayub, 2010). OLAP dapat mengatur dan menyajikan data dalam berbagai format sesuai kebutuhan dari pengguna (Parekh, 2013). OLAP mengelola data historis dalam jumlah besar dengan fasilitas untuk summarization dan aggregation, sehingga membuat data lebih mudah untuk digunakan dalam pengambilan keputusan. OLAP menggunakan model star schema atau snowflake schema, menangani informasi yang berasal dari organisasi yang berbeda, dan mengintegrasikan informasi dari beberapa data store (Sethi, 2012). Kavitha & Babu (2013) mengatakan bahwa OLAP menyediakan data ringkasan dan menghasilkan perhitungan yang kaya. Sebagai contoh, OLAP dapat menjawab pertanyaan-pertanyaan seperti “How do sales of mutual funds in North America for this quarter compare with sales a year ago? What can we calculate for sales next quarter? What is the trend as exact by percent change?” OLAP dapat menganalisis data dengan menggunakan beberapa operasi berikut (Paskarina & Ayub, 2010). a. Roll up Operasi roll up digunakan untuk melihat data secara keseluruhan melalui pengelompokan data. Gambar 2.5 merupakan contoh operasi roll up untuk melihat data secara keseluruhan yang dikelompokkan berdasarkan negara (country) dari masing-masing kota (city).
14
Gambar 2.5 Operasi Roll Up City ke Country (Vaisman & Zimányi, 2014, p60)
b. Drill down Operasi drill down digunakan untuk menjabarkan data lebih detail sehingga informasi yang diperoleh menjadi lebih rinci. Gambar 2.6 merupakan contoh operasi drill down untuk menjabarkan data lebih detail, yaitu data setiap kuartal (quarter) dijabarkan menjadi data bulanan (month).
Gambar 2.6 Operasi Drill Down Quarter ke Month (Vaisman & Zimányi, 2014, p60)
15
c. Slice Operasi slice digunakan untuk membagi data terhadap suatu dimensi tertentu sehingga dapat berfokus pada perspektif yang diinginkan. Gambar 2.7 merupakan contoh operasi slice untuk membagi data terhadap dimensi customer dimana kota (city) yang dipilih adalah Paris.
Gambar 2.7 Operasi Slice City = ‘Paris’ (Vaisman & Zimányi, 2014, pp 60-61)
d. Dice Operasi dice digunakan untuk membagi data terhadap 2 dimensi atau lebih sehingga dapat memfokuskan perspektif dalam bentuk 3 dimensi. Gambar 2.8 merupakan contoh operasi dice untuk membagi data terhadap dimensi customer dan dimensi time, dengan kota (city) yang dipilih adalah Paris atau Lyon dan kuartal (quarter) yang dipilih adalah Q1 atau Q2.
16
Gambar 2.8 Operasi Dice City = ‘Paris’ atau ‘Lyon’ dan Quarter = ‘Q1’ atau ‘Q2’ (Vaisman & Zimányi, 2014, pp 60-61)
e. Pivot Operasi pivot digunakan untuk merotasi data sehingga dapat memberikan alternatif penyajian data, seperti yang terlihat pada Gambar 2.9.
Gambar 2.9 Operasi Pivot (Vaisman & Zimányi, 2014, p60)
17
2.3
Metodologi Pengembangan Data Warehouse Kimball & Ross (2010, pp 210-215) mengatakan terdapat 9 langkah dalam
membangun sebuah data warehouse, yang dikenal dengan nine-step design methodology. Jika langkah-langkah dalam nine-step design methodology dilakukan secara sistematis, maka dapat membangun sebuah data warehouse yang baik. Kesembilan langkah tersebut adalah: 1. Choose the process Proses yang dipilih mengacu pada subjek masalah dari proses bisnis tertentu dan dapat menjawab pertanyaan permasalahan bisnis yang penting. 2. Choose the grain Pemilihan grain berarti menentukan apa yang direpresentasikan pada sebuah record pada tabel fakta. Grain (Kimball & Ross, 2013, p71) menyampaikan tingkat detail yang berhubungan dengan measure pada tabel fakta dan memberikan jawaban atas pertanyaan “Bagaimana menggambarkan 1 baris tunggal dalam tabel fakta?” Setelah memilih grain, maka dimensi-dimensi yang terkait dengan proses bisnis dapat didiskusikan. Contoh dari grain adalah: a. Satu baris per scan produk pada transaksi penjualan pelanggan b. Satu baris per item pada tagihan dari dokter c. Satu baris per boarding pass yang dipindai di gerbang bandara d. Satu baris per snapshot harian dari persediaan untuk setiap item di gudang e. Satu baris per rekening bank setiap bulan
18
3. Identify and conform the dimensions Dimensi sebaiknya dipilih sesuai dengan kebutuhan data warehouse. Jika dimensi digunakan pada lebih dari 1 proses bisnis, maka atribut dalam dimensi harus disesuaikan (conformed) agar dimensi tersebut dapat digunakan bersama. Kebutuhan untuk menyesuaikan dimensi untuk beberapa proses bisnis sangat kuat, sehingga harus berhati-hati dalam menentukan dimensi yang diperlukan. Jika tugas ini dilakukan dengan benar, maka proses bisnis dapat dibangun pada waktu dan oleh tim yang berbeda, serta dapat digabungkan menjadi data warehouse secara keseluruhan. 4. Choose the facts Grain dari tabel fakta menentukan fakta apa yang akan digunakan untuk masing-masing proses bisnis. Fakta dapat ditambahkan ke tabel fakta kapan pun selama grain konsisten dengan tabel fakta. 5. Store pre-calculations in the fact table Setelah tabel fakta dipilih, masing-masing tabel fakta sebaiknya diperiksa ulang apakah masih ada peluang untuk melakukan perhitungan awal. Jika masih ada peluang untuk melakukan perhitungan awal, maka perhitungan awal tersebut disimpan ke dalam tabel fakta. Sebagai contoh, kebutuhan untuk menyimpan perhitungan awal terjadi ketika fakta terdiri dari laporan laba rugi. Situasi ini akan sering muncul ketika tabel fakta didasarkan pada tagihan pelanggan seperti pada Gambar 2.10. Nilai extended net price diperoleh dengan melakukan perhitungan awal (extended list price dikurangi dengan allowances dan discount) dan disimpan ke tabel fakta.
19
Gambar 2.10 Ilustrasi Perhitungan Awal pada Tabel Fakta (Kimball & Ross, 2010, p214)
6. Round out the dimension tables Pada tahap ini, tabel fakta telah selesai dibuat dan teks deskripsi yang mudah dimengerti ditambahkan pada tabel dimensi, seperti menambahkan deskripsi atribut dari tabel dimensi. 7. Choose the duration of the database Pemilihan durasi database disesuaikan dengan kebutuhan informasi historis yang diperlukan. Durasi yang dipilih bervariasi, seperti 1 tahun sebelumnya, 2 tahun sebelumnya, 3 tahun sebelumnya, atau bahkan lebih dari 3 tahun sebelumnya. 8. Determine the need to track slowly changing dimensions Kebutuhan untuk dapat melacak perubahan pada dimensi (slowly changing dimension) perlu ditentukan karena perubahan atribut pada dimensi dapat terjadi seiring dengan waktu. Terdapat 3 jenis tipe penanganan slowly changing dimension, yaitu:
20
a. Tipe 1 Penanganan slowly changing dimension tipe 1 akan menimpa (overwrite) atribut dari dimensi yang berubah. Ilustrasi slowly changing dimension tipe 1 dapat dilihat pada Gambar 2.11.
Gambar 2.11 Ilustrasi Slowly Changing Dimension Tipe 1 (Kimball & Caserta, 2004, p183)
b. Tipe 2 Penanganan slowly changing dimension tipe 2 akan membuat sebuah record yang baru pada tabel dimensi jika terjadi perubahan pada atribut dimensi dan histori data akan tersimpan dengan primary key yang berbeda. Ilustrasi slowly changing dimension tipe 2 dapat dilihat pada Gambar 2.12.
Gambar 2.12 Ilustrasi Slowly Changing Dimension Tipe 2 (Kimball & Caserta, 2004, p186)
21
c. Tipe 3 Penanganan slowly changing dimension tipe 3 akan membuat sebuah field (kolom) yang baru ketika terjadi perubahan pada atribut dimensi, mengisi field baru tersebut dengan nilai yang lama, dan nilai yang baru akan menggantikan nilai yang lama. Ilustrasi slowly changing dimension tipe 3 dapat dilihat pada Gambar 2.13.
Gambar 2.13 Ilustrasi Slowly Changing Dimension Tipe 3 (Kimball & Caserta, 2004, p192)
9. Decide the physical design Pada tahap ini, masalah-masalah dalam physical design yang meliputi prosedur administrasi, backup, dan keamanan pada data warehouse akan dibahas atau ditentukan.
2.4
Hasil Penelitian Terkait Berdasarkan sebuah penelitian yang berjudul “The Study on Data
Warehouse Design and Usage” (Mankad & Dholakia, 2013), data warehouse dapat memberikan keunggulan kompetitif dengan menyajikan informasi yang
22
relevan
dan
dapat
meningkatkan
produktivitas
bisnis
karena
mampu
mengumpulkan informasi yang akurat dengan cepat dan efisien. Data warehouse memfasilitasi manajemen hubungan dengan pelanggan karena memberikan pandangan yang konsisten dari pelanggan dan barang di semua lini bisnis, departemen, dan pasar. Data warehouse dapat memberikan pengurangan biaya dalam melacak tren dan pola dalam waktu yang lama. Selain itu, data warehouse dapat diterapkan di berbagai bidang dan memberikan berbagai manfaat bagi perusahaan seperti yang disajikan pada Tabel 2.1.
Tabel 2.1 Penelitian Penerapan Data Warehouse Sebelumnya Penelitian Paskarina & Ayub (2010)
Organisasi/Perusahaan Departemen Kesehatan PT. Ateja Multi Industri
Darudiato (2010)
Cemerlang Skin Care
Oktavia (2011)
PT. Atlas Transindo Raya
Prihatin (2013)
Politeknik Negeri Lhokseumawe
Manfaat Menghasilkan informasi kesehatan yang dibutuhkan untuk pengambilan keputusan dalam hal peningkatan pelayanan kesehatan karyawan, pemantauan kuota jaminan kesehatan karyawan, dan pemantauan kesehatan serta kinerja karyawan dalam suatu departemen Menjadikan data yang tersebar di berbagai cabang terintegrasi dan dalam bentuk yang lebih ringkas, sehingga pihak eksekutif dapat menganalisis dan mengambil keputusan dengan lebih cepat Membantu pihak eksekutif perusahaan dalam kegiatan analisis laporan yang dihasilkan dari berbagai dimensi dan digunakan sebagai alat untuk menganalisis tren atau kecenderungan yang terjadi pada jasa pengiriman melalui penggunaan dashboard Pimpinan dapat melihat tren di dalam penerimaan calon mahasiswa baru dan dijadikan sebagai sarana pengambilan keputusan