Data Warehouse Methodology (I) Yudi Agusta, PhD Data Warehouse and Data Mining, Lecture 5 Copyright © Yudi Agusta, PhD 2006
Lecture’s Structure
Teknik Data Warehouse
Pengidentifikasian Keperluan Pengambilan, Transformasi dan Penyimpanan Data Arsitektur Warehouse (Overview)
Teknologi dan Alatnya Belakangan
Perancangan Database secara Fisik Policy untuk operasional
Metode data warehousing (Kuliah selanjutnya)
Mengimplementasikan teknik melalui life-cycle
Bagaimana Strukturnya
1
Bagaimana Strukturnya
Bagaimana Strukturnya
Bagaimana Strukturnya
2
Bagaimana Strukturnya
Bagaimana Strukturnya
Pengidentifikasian Keperluan
Suatu hal yang sangat sulit
Keperluan pengguna Ketersediaan data
Laporan yang sudah ada dapat ditiru Wawancara dengan pengguna Pekerjaan menerka secara intelligent oleh analis yang berilmu Sekali sistem dibangun maka semua jenis keperluan akan muncul
Feedback sangat diperlukan
3
Pengambilan, Transformasi dan Penyimpanan Data
Sebagian besar usaha, waktu dan biaya muncul di sini Tool ETL untuk pengambilan, transformasi dan penyimpanan sudah dipasarkan tapi sedikit yang memakai Untuk ETL yang dirancang sendiri, secara rata-rata untuk setiap data warehouse (menurut survey):
Pengambilan – 16 program/875 baris per program Transformasi – 12 program/741 baris per program Pengecekan integritas – 9 program/522 baris per program
Mengidentifikasikan data yang berubah sangat sulit
Disebut dengan Changed Data Capture (CDC) Banyak yang melakukan refresh lengkap
Pengambilan Data Produksi
Pengambilan utama
Memerlukan data dengan format yang sudah ada
Mengidentifikasikan records baru dan yang sudah berubah Mengeneralisasikan kunci untuk mengubah dimensi Mentransformasikan ke load record image Migrasi dari sistem yang sudah ada ke sistem data warehouse
Pengambilan Data Produksi
Melakukan sorting dan membangun agregat Mengeneralisasikan kunci untuk agregat Menyimpan dan melakukan indexing Perkecualian proses
Menjamin integritas keterkaitan
Jaminan kualitas Mempublikasikan
4
Pengambilan Data Utama
Memerlukan koneksi fisik untuk sistem sumber
Keamanan
FTP
Manajemen pergerakan volume data dalam jumlah besar
Memerlukan definisi format yang sudah ada dan pengertian bagaimana sistem tersebut bekerja
Contoh Produk ETL
Ardent (Informix) DataStage SAS Warehouse Administrator Microsoft DTS Services Systemfabrik’s Warehouse Workbench DataJunction
Fasilitas Pada Produk ETL Umum
Manajemen Meta Data Akses ke sumber data dengan jenis yang berbeda Konfigurasi/tool perancangan yang berorientasi grafik
Objek umum untuk SQL, proses, keputusan, sumber data, target data, error, laporan pengecualian
Fasilitas perencanaan kerja Sebagian besar berbasis server dengan range menengah (NT/200, Unix/Linux, Solaris dll)
5
Metode untuk Change Data Capture (CDC)
Membaca database transaction logs Modifikasi aplikasi untuk menulis perubahan dan untuk mengubah file Melakukan scanning database untuk memberikan waktu Membandingkan potret database Penduplikasian data
Arsitektur Warehouse
Opsi Utama: Data Warehouse Perusahaan Data Mart yang mempunyai ketergantungan Data Mart yang berdiri sendiri
Arsitektur ‘Bis’
Data Warehouse Perusahaan
Sumber data terpusat Besar dalam hal scope dan terkadang ukuran Mengoptimalkan proses pengambilan Memaksimalkan keuntungan pengintegrasian Cara pandang pengguna Sulit untuk memenuhi keperluan kelompok pengguna yang berbeda Proyek sering gagal
6
Data Warehouse Perusahaan
Data Mart Yang Tergantung
Sebagian dari data diambil dari data warehouse perusahaan dan diorganisasikan untuk memenuhi keperluan bisnis dan aplikasi Umumnya data warehouse perusahaan dalam bentuk 3NF Data Mart di-de-normalisasikan
OLAP sebagai contohnya
Dalam kenyataannya, sulit untuk mendapatkan semua data yang diperlukan dari penyimpan data perusahaan Pendekatan paling umum (secara teori)
Data Mart Yang Tergantung
7
Data Mart Yang Berdiri Sendiri
Banyak data warehouse kecil di berbagai tempat Umumnya mengikuti pendekatan berdimensi Kurang integrasi
Duplikasi sumber data
Tapi bisa digunakan
Tidak konsisten Hal yang paling menyulitkan Masalahnya adalah dalam jangka waktu menengah maupun panjang
Data Mart Yang Berdiri Sendiri
Data Mart Federal
Seperti data mart yang berdiri sendiri, mereka ada di berbagai tempat, tetapi… Mempunyai area untuk data staging yang bisa dishare
Manajemen yang lebih bagus untuk proses ETL
Kuncinya adalah manajemen meta data Ini adalah rekomendasi Kimball
Arsitektur ‘Bis’
8
Data Mart Federal
Rancangan Database Fisik
Perlu untuk dipikirkan:
Standar Lokasi file secara fisik Volume data
Index, agregat, dan detail data
Kelangkaan data Konfigurasi disk Pola penggunaan Jumlah dan distribusi pengguna Frekuensi update Kemampuan pengembangan
Data, penggunaan dan query
Aspek Untuk Rancangan Fisik
Manajemen buffer Keparalelan
Pemrosesan data load Pemrosesan query SMP, MMP, NUMA
Partisi Indexing
B-Tree Bitmapped Hash Index
9
Partisi
Tidak didukung oleh semua RDBMS Kimball merekomendasikan partisi berdasarkan tanggal (Kimball et al (1998) p.599) Maintenance penanggulangan karena hanya data yang terkini yang perlu untuk diload dan aktif Membantu performance karena segmen tabel yang lebih kecil yang diakses saat menjalankan query Dapat menyebabkan masalah saat menjalankan query lintas partisi (tidak direkomendasikan oleh semua)
B-Tree Index
Tipe index yang paling banyak digunakan dalam sistem RDBM Item ditambahkan ke index tree satu persatu Cocok untuk pengambilan satu item (seperti dalam lingkungan transaksi) Di dalam data warehouse, sistem ini cocok untuk item yang merupaka item utama seperti product_key atau custormer_key Memerlukan banyak space dan waktu untuk membuat
Bitmapped Index
Sekumpulan bits mewakili setiap nilai yang memungkinkan dalam sebuah kolom Melihat dengan membandingkan bit-wise vector
Sangat cepat
Hanya diimplementasikan pada produk RDBMS utama belakangan ini Sebenarnya sudah berumur lama
Cocok untuk data yang bukan merupakan item utama
Jenis kelamin (M/F/Tidak Diketahui) – 3 bits Laki-laki 100, Wanita 010, Tidak Diketahui 001
10
Contoh Index
Policy Operasional
Manajemen dengan ritme harian untuk data load dan query
Policies untuk semua hal yang berbeda yang dapat menjadi masalah dalam proses data load Data warehouse sebagai sistem yang amburadul
Manajemen untuk performance query
Mengatur indes, agregat, partisi dll untuk memastikan waktu respon yang baik
11