6 BAB 2 LANDASAN TEORI
2.1
Data Menurut Hoffer (2009, p46), dikemukakan bahwa data adalah gambaran objek dan event yang disimpan yang mana memiliki arti dan kepentingan dalam lingkungan user. Menurut wremble (2007, ix), data yang datang dari multiple external data source (EDS) yang di ekstrak, di-filter, merged, dan disimpan dalam repository pusat sehingga menghasilkan data warehouse. Data juga diperkaya oleh informasi yang terdahulu (history) dan summary.
2.2
Database Menurut Connoly (2005, p19), database merupakan kumpulan dari logical data yang berhubungan dan deskripsi data tersebut yang dirancang untuk kebutuhan informasi suatu organisasi. Menurut Inmon (2002, p388), database adalah sebuah kumpulan dari data yang saling berhubungan yang disimpan (biasanya dengan redundan yang terkontrol dan terbatas) berdasarkan suatu skema. Menurut wremble(2007, ix), data warehouse berasal dari database besar yang memiliki ukuran beberapa ratus GB hingga lusinan TB.
2.3
OLTP (Online Transaction Processing) Menurut Vincent (2008, p2), OLTP adalah sebuah sistem yang tujuan utamanya adalah untuk mengambil dan menyimpan transaksi bisnis.
7 Menurut Connolly (2005, p1153), OLTP dioptimalkan untuk sejumlah besar transaksi yang dapat diprediksi, repetitif, dan secara intensif diupdate. Data OLTP diorganisasikan berdasarkan kebutuhan transaksi yang dihubungkan dengan aplikasi bisnis dan mendukung keputusan operasional pengguna yang terjadi bersama-sama hari per hari. Menurut Vincent (2008, p2), Sistem sumber adalah sistem OLTP yang berisi data yang ingin dimuat ke dalam data warehouse. Data yang berada dalam sistem sumber diperiksa menggunakan data profiler untuk memahami karakteristik data. Data profiler memiliki kemampuan untuk menganalisa data. Menurut Connolly (2005, p1182), penciptaan utama data warehouse adalah untuk mendukung keperluan perusahaan. Kumpulan keperluan dan tahap analisis proyek data warehouse melibatkan wawancara kepada anggota staf yang sesuai untuk memungkinkan identifikasi prioritas seperangkat keperluan untuk perusahaan yang mana data warehouse harus penuhi. Pada saat yang sama, wawancara dilakukan dengan anggota staf yang bertanggung jawab untuk sistem OLTP untuk mengidentifikasi, sumber data yang bersih, valid, dan konsisten yang akan tetap mendukung selama beberapa tahun kedepan. Wawancara memberikan informasi yang diperlukan untuk top-down view (kebutuhan pengguna) dan bottom-up view (sumber data yang tersedia) dari database data warehouse.
2.4
OLAP (Online Analytical Processing) Menurut Hoffer (2005, p480), OLAP adalah penggunan seperangkat alat yang berbasis grafis yang disedikan bagi pengguna dengan pandangan multidimensi pada data dan memungkinkan pengguna untuk menganalisis data menggunakan simple windowing techniques.
8 Menurut Connolly (2005, p1205), OLAP merupakan sistem sintesis dinamik, analisi, dan konsolidasi pada volume besar dari data multi-dimensi. OLAP merupakan istilah yang menggambarkan suatu teknologi yang menggunakan tampilan multidimensional dari data yang saling terkait untuk menyediakan akses yang cepat untuk informasi strategis untuk tujuan analisis. OLAP memungkinkan user memperoleh pemahaman dan pengetahuan yang lebih mendalam tentang berbagai aspek data perusahaan. Menurut Vincent (2008, p14), OLAP adalah kegiatan transaksi bisnis secara interaktif menganalisis data yang tersimpan dalam dimensi data warehouse untuk membuat keputusan bisnis taktis dan strategis. Tipikal orang yang melakukan pekerjaan OLAP adalah analisis bisnis, manajer bisnis, dan eksekutif. Fungsionalitas khas OLAP termasuk yang berjumlah (total), drilling down (mendapatkan rincian), dan slicing and dicing (memotong kubus dan menjumlahkan nilai-nilai dalam sel). Fungsi OLAP dapat disampaikan dengan menggunakan database relasional atau menggunakan sebuah database multidimensi Menurut Erickson (2009, p62), data warehouse dan OLAP bertujuan, misalnya, untuk menganalisis perilaku pelanggan, produk-produk, atau perusahaan, dan dapat membantu pemantauan satu atau beberapa aktivitas. Khususnya, data warehouse dan OLAP membantu menganalisis kegiatan-kegiatan tersebut dalam bentuk data numerik. Data warehouse mendukung aplikasi OLAP dengan menyimpan dan memelihara data dalam format mltidimensi.
9 2.5
Data warehouse
2.5.1 Data warehouse Menurut Vincent (2008, p1), data warehouse adalah sistem yang mengambil dan menggabungkan data secara berkala dari sistem sumber ke dalam sebuah dimensi atau normalized data store. Hal ini biasanya diperbarui dalam batch, tidak setiap kali transaksi yang terjadi dalam sumber sistem. Menurut Connolly (2005, p1151), data warehouse adalah kumpulan data berorientasi subjek, terintegrasi, time-variant, dan non-volatile yang mendukung proses pembuatan keputusan manajemen. Menurut http://arxiv.org/PS_cache/arxiv/pdf/0906/0906.3245v1.pdf, penyelarasan system requirement data warehouse dengan tujuan bisnis tidak cukup untuk menjamin produk data warehouse yang lebih baik; pengukuran dan tehnik juga dibutuhkan untuk menjamin kualitas data warehouse. Pada tahap ini, kerangka berorientasi tujuan terbukti sesuai. Alasan fakta ini ada dua: 1.
Kerangka goal-oriented ini menyediakan konstruksi untuk memodelkan konteks besar organisasi, yang merupakan kesamaan dalam data warehouse.
2.
Mereka menyesuaikan cara di mana pembuat keputusan mengekspresikan diri mereka. Bagaimanapun, dimasukkannya tujuan, meskipun perlu, mungkin tidak cukup
untuk menjamin kualitas sistem data warehouse. Memang, meskipun metodologi yang baik dengan definisi tujuan yang akurat mungkin memimpin kebaikkan dan kesesuaian model data warehouse, banyak faktor lain yang mempengaruhi kualitas mereka, seperti keputusan manusia. Ini dengan demikian diperlukan untuk melengkapi metodologi data warehouse dengan pengukuran dan tehnik untuk penilaian kualitas produk.
10 2.5.2 Karakteristik Data warehouse Beberapa karakteristik data warehouse menurut Inmon (2002, p31) antara lain: a.
Subject Oriented Data warehouse disusun berdasarkan subjek-subjek utama suatu perusahaan (seperti pelanggan, produk, penjualan) dimana setiap area fisik subjek diimplementasikan sebagai kumpulan dari tabel yang berhubungan dalam data warehouse dan tidak berorientasi pada proses atau fungsi aplikasi tertentu. Orientasi subjek ini berbeda dengan Online Transaction Processing (OLTP).
b.
Integrated Dari semua aspek data warehouse, integrasi adalah yang paling penting. Data diambil dari banyak sumber ke suatu data warehouse. Data tersebut diubah, diformat ulang, disusun ulang, diringkas, dan seterusnya. Hasilnya, ketika data tersebut sampai di data warehouse, data tersebut mempunyai satu gambaran fisik tunggal.
c.
Non Volatile Data di-update pada lingkungan operasional, tetapi data pada data warehouse mempunyai karakteristik yang berbeda. Data pada data warehouse di-load dan diakses oleh user yang bersangkutan, tetapi tidak dapat dan tidak boleh di-update. Sebagai gantinya, ketika data pada data warehouse di-load, data tersebut di-load dalam format statis. Nantinya, ketika suatu perubahan terjadi, record statis baru akan disimpan sehingga record lampau dari data tersebut tetap tersimpan di data warehouse.
11 d.
Time Variant Data warehouse menggunakan time stamp untuk merepresentasikan data historis. Dimensi waktu sangat kritis untuk mengidentifikasikan trend, memprediksi operasi-operasi mendatang, dan mengatur sasaran-sasaran yang beroperasi. data warehouse terdiri dari serangkaian snapshot, masing-masing merepresentasikan data operasional yang diambil pada suatu waktu tertentu.
2.5.3 Struktur data warehouse 2.5.3.1 Current Detail Data Berisi data yang mencerminkan keadaan sekarang yang sedang berjalan saat ini yang diperoleh dari database operasional. Data tersebut mempunyai ukuran sangat besar karena merupakan level terendah dan menyimpan semua informasi dan data yang ada dalam perusahaan. Current Detail Data selalu menjadi perhatian utama. Hal ini disebabkan karena: a.
Jumlah datanya sangat banyak dan disimpan pada tingkat penyimpanan terendah.
b.
Merefleksikan kejadian yang sedang berlangsung dalam sebuah perusahaan.
c.
Digunakan untuk merekapitulasi data, sehingga current detail data harus akurat.
d.
Disimpan dalam media penyimpana agar cepat diakses, tapi membutuhkan biaya yang mahal dan pengaturannya kompleks.
12 2.5.3.2 Older Detail Data Merupakan history dari data perusahaan yang merupakan hasil backup yang disimpan dalam media penyimpanan yang terpisah dan dapat diakses kembali pada saat tertentu. Older detail data biasanya disimpan pada media tape disk karena pengaksesannya relatif jarang dan penyusunan direktorinya mencerminkan umur data sehingga memudahkan dalam pengaksesannya. Data ini digunakan untuk membantu analisa trend menjadi lebih mungkin.
2.5.3.3 Lightly Summarized Data Adalah ringkasan dari data detail pada level menengah tapi belum bersifat total summary. Biasanya data ini pada media disk. Data-data ini memiliki tingkat detail yang lebih tinggi dan mendukung kebutuhan data warehouse pada tingkat departemen. Tingkatan data ini diebut juga data mart. Akses terhadap data jenis ini banyak digunakan untuk view dari kondisi yang sedang maupun sudah berjalan.
2.5.3.4 Highly Summarized Data Adalah data yang telah diringkas secara menyeluruh sehingga menjadi mudah digunakan untuk mengambil keputusan. Hal ini sangat menguntungkan karena pengambil keputusan tidak memakan banyak waktu untuk menganalisa data yang telah diringkas secara menyeluruh tersebut.
13
Gambar 2.1 Struktur data warehouse (Inmon, 2002, p36)
2.5.4 Metadata Mempunyai peran yang penting dalam data warehouse. Metadata dapat mempermudah para pengguna data warehouse karena berfungsi seperti index sehingga dapat mempermudah pengambilan dan pencarian data. Metadata ini mengandung informasi mengenai isi dari suatu data yang dipakai untuk keperluan manajemen data itu nantinya dalam suatu database. Menurut http://arxiv.org/PS_cache/cs/pdf/0110/0110020v1.pdf, metadata didefinisikan sebagai informasi deskriptif mengenai sturktur dan pengertian pada data dari aplikasi dan proses yang memanipulasi data. Metadata secara tradisional diklasifikasikan
ke
dalam
metadata
teknik
dan
bisnis. Metadata
teknik
mespesifikasikan bagaimana data dengan tepat distruktur dan disimpan ke dalam file atau database. Metadata ini mengizinkan aplikasi dan tools mengakses dan
14 memanipulasi data. Metadata bisnis seperti data lainnya, berubah mengikuti waktu dikarenakan perubahan misi, tujuan, struktur, kebijakan, dan proses suatu organisasi. Metadata digunakan untuk beberapa tujuan, antara lain: a.
Proses extracting dan loading Yaitu untuk memetakan sumber data ke common view dari data pada data warehouse.
b.
Proses warehouse management Yaitu untuk mengautomatisasi produksi dari summary tabel.
c.
Sebagai bagian dari proses query management Yaitu untuk mengarahkan query ke sumber data yang paling tepat.
Karakteristik dari metadata menurut http://arxiv.org/PS_cache/cs/pdf/0110/0110020v1.pdf, yaitu: 1.
Perubahan Metadata: Metadata bisnis memiliki interval waktu dan dapat berubah dari waktu ke waktu. Interval ini ditentukan sebagai permulaan dari waktu tertentu dan berakhir di lain waktu.Pengguna bisnis harus menyadari perubahan ini karena perubahan dapat mengubah konsistensi dan keterbandingan data dari waktu ke waktu. Arti konsep bisnis mungkin berubah, atau mungkin ada perubahan kebijakan, tujuan, dan proses. Ketika menganalisa data dalam warehouse, data harus dibuat konsisten dan sebanding, jika mungkin, dan pengguna harus secara proaktif menyadari perubahan metadata.
2.
Tingkatan-tingkatan abstraksi metadata: Jumlah metadata yang ditetapkan untuk suatu organisasi dapat meluas, bahkan jika diasumsikan latar belakang domain antara pengguna. Seringkali, metadata
15 tidak tersedia. Selain itu, dalam banyak kasus, pengguna bisnis tidak membutuhkan konsep-konsep primitif, maupun rincian perhitungan dan pengolahan. Ringkasan spesifikasi sering memadai. Spesifikasi yang terperinci dapat ditemukan, jika diperlukan, dalam sumber kode dari beberapa aplikasi. Metadata bisnis dapat menyediakan “drill-down” ke dalam kode aplikasi untuk perincian proses. 3.
Integrated Evolution: Kebutuhan bisnis berubah, sistem aplikasi perlu berevolusi. Perubahan mungkin mempengaruhi perancangan database serta pengolahan logika. Perubahan kebutuhan secara alami merupakan konsekuensi perubahan dalam kebijakan, tujuan, proses, aturan. Metadata repository juga harus mengandung semua versi metadata dengan validasi yang tepat. Untuk meminimalkan gangguan dan ketidak konsistensi, organisasi harus merencanakan evolusi terintegrasi dari metadata repository dan sistem aplikasi. Siklus evolusi dimulai dengan perubahan metadata bisnis, modifikasi aplikasi, dan diakhiri dengan menangkap pembaharuan pada metadata teknis.
4.
Navigation across metadata and data : Sebuah sistem terpadu yang harus didukung sebuah akses fleksibel ke metadata dan data. Contohnya seperti lingkungan di mana sistem menghasilkan query data warehouse sewaktu menavigasikan dalam metadata bisnis. Menurut Connolly (2005, p1159), Metadata digunakan untuk berbagai tujuan
meliputi: a. The extraction and loading processes -
metadata digunakan untuk
memetakan sumber data hingga tampilan umum dari data dalam warehouse.
16 b. The warehouse management process – metadata digunakan untuk mengautomatiskan produksi summary tabels. c. Sebagai bagian dari tools management query- metadata digunakan untuk mengarahkan query ke sumber data yang tepat. Menurut connolly (2005, p1169), tujuan utama metadata adalah untuk menampilkan “pathway back (jalan kembali)” dimana data dimulai, sehingga warehouse administrator mengetahui history dari beberapa item dalam warehouse.
2.5.5
Arsitektur Data warehouse Arsitektur data warehouse merupakan suatu kerangka yang dirancang dengan cara memahami bagaimana data dipindahkan di dalam sistem. Karakteristik arsitektur dari data warehouse adalah: a.
Data diambil dari sistem informasi yang telah ada, database, dan file.
b.
Data tersebut diintegrasikan dan ditransformasikan sebelum disimpan ke dalam data warehouse.
c.
Data warehouse adalah read-only database yang diciptakan untuk mengambil keputusan.
d.
User mengakses data warehouse melalui front-end tool atau aplikasi.
17
Gambar 2.2 Arsitektur Data warehouse (Connolly, 2005, p1157) Komponen utama data warehouse menurut Connolly (2005, p1156) adalah: a. Operational Data: Sumber data untuk data warehouse di suplai dari: 1. Mainframe operational data yang dipegang dalam hierarki generasi pertama dan network databases. Hal ini diestimasi bahwa mayoritas operasional data perusahaan dipegang dalam sistem ini. 2. Departmental data dipegang dalam proprietary file systems seperti VSAM, RMS, dan relational DBMS seperti Informix dan Oracle. 3. Private data yang dipegang pada workstations dan private servers. 4. External systems seperti Internet. b. Operational Data Store (ODS), tempat penyimpanan data operasional yang sedang terjadi dan yang terintegrasi dimana digunakan untuk analisa. ODS
18 sering diciptakan ketika system operational legal yang ditemukan tidak sanggup mencapai kebutuhan laporan. ODS menyediakan user dengan kemudahan penggunaan sebuah database relasional untuk mendukung keputusan dalam data warehouse. Pembangunan sebuah ODS dapat membantu membangun sebuah data warehouse karena sebuah ODS dapat menyuplai data yang sudah diekstraksi dari system sumber dan telah dibersihkan. c. Load Manager (sering juga disebut komponen front-end), menampilkan semua operasi yang diasosiasikan dengan data yang telah diekstrak dan diload ke dalam warehouse. d. Warehouse Manager, menampilkan semua operasi yang diasosiasikan dengan manajemen data dalam warehouse. Komponen ini dibangun menggunakan tools data management vendor dan custom-built prgrams. Operasi-operasi ang dilakukan oleh warehouse manager meliputi : menganalisa data untuk menjamin konsistensi, transformasi dan merging sumber data dari temporary storage ke dalam tabel data warehouse, menciptakan indeks dan tampilan berdasar table, generasi denormalisasi (jika dibutuhkan), back up dan mengarsipkan data. e. Query Manager (disebut juga dengan komponen back-end), menampilkan semua operasi yang diasosiasikan dengan manajemen dari user queries. f. Detailed Data, Meta-data, Lightly and Hightly Summarized Data, untuk komponen ini sudah dijelaskan pada bagian struktur data warehouse. Komponen ini dibangun menggunakan vendor end-user data access tools, data warehouse monitoring tools, database facilities, and custom-built
19 program.
Operasi-operasi
dilakukan
oleh
komponen
ini
meliputi
mengarahkan query ke table yang tepat dan penjadwalan eksekusi query. g. Archive/ Backup Data, area warehouse yang menyimpan detailed dan summarized data yang bertujuan sebagai arsip dan backup data. h. Metadata, area warehouse yang menyimpan semua definisi-definisi metadata yang digunakan oleh semua proses dalam warehouse. i. End-User Access Tools, dapat dikategorikan menjadi lima grup utama: 1. reporting and query tools: meliputi produksi alat pelaporan dan penulis laporan. Produksi alat pelaporan digunakan untuk menghasilkan laporan operational regular atau mendukung high-volume batch jobs, seperti customer orders/invoices and staff pay cheques. Penulis laporan, merupakan inexpensive desktop tools yang dirancang untuk end-users. 2. Application development tools: kebutuhan dari end-user seddemikian rupa sehingga membangun kemampuan pelaporan dan query tools yang built-in
memadai karena analisis
kebutuhan tidak dapat dilakukan atau karena interaksi user membutuhkan tingkat keahlian oleh user. Dalam situasi ini, akses user mungkin membutuhkan perkembangan dari in-house applications menggunakan tools akses data grafik yang dirancang untuk lingkunagn client-server. 3. Executive information systems (EIS) tools: dikembangkan dengan mendukung pembuatan keputusan strategis tingkat tinggi. EIS tools dihubungkan dengan mainframe yang memungkinkan user untuk memungkinkan user untuk
20 membangun aplikasi yang customized, dan mendukung keputusan grafik untuk menyediakan tinjauan dari data organisasi dan mengakses ke sumber data eksternal. 4. online analytical processing (OLAP) tools: didasaarkan pada konsep
multi-dimensional
database
dan
mengizinkan
sophisticated user untuk menganalisa data menggunakan tampilan yang kompleks dan multi-dimensi. 5. Data mining tools: merupakan proses menemukan korelasi, pola, dan tren baru yang berarti dengan menambang sejumlah besar data menggunakan teknik statistik, matematik, dan artificial intelligence (AI).
2.5.6 Aliran Data pada Data warehouse Data warehouse memfokuskan pada manajemen dari lima aliran data utama yaitu inflow, upflow, downflow, outflow, dan meta-flow. Proses yang berasosiasi dengan setiap aliran data (Connolly, 2005, p1161), yaitu: a. Inflow: Proses yang berhubungan dengan pengekstrakan (extraction), pembersihan (cleansing), dan pemuatan (loading) data dari sistem-sistem sumber ke dalam data warehouse. Berfokus pada mengambil data dari sistem sumber untuk load ke dalam data warehouse. Secara alternatif. Data mungkin pertama kali diload ke dalam ODS sebelum ditransfer ke data warehouse. Karena sumber data dihasilkan oleh sistem OLTP, data harus direkonstruksi untuk tujuan data warehouse. b. Upflow: Proses yang berhubungan dengan penambahan nilai dari data dalam data warehouse melalui:
21 1. peringkasan
(summarizing)
memproyeksikan,
bergabung,
data dan
dengan
memilih,
pengelompokkan
data
relasional ke dalam pandangan yang lebih nyaman dan berguna bagi pengguna. Meringkas melampaui operasi relasional sederhana untuk melibatkan analisis statistik yang canggih termasuk mengidentifikasi tren, clustering, dan sampling data. 2. Pengemasan (packaging) data dengan merubah data yang telah dirinci atau diringkas ke dalam format yang lebih berguna, seperti spreadsheet, dokumen teks, grafik, grafik presentasi lainnya, private database, dan animasi. 3. Pendistribusian
data
ke
kelompok
yang
tepat
untuk
meningkatkan ketersediaan dan aksesibilitas. c. Downflow: Proses yang berhubungan dengan pengarsipan (archiving) dan pembuatan cadangan (back-up) data dalam data warehouse. Pencapaian data lama memainkan peran yang penting dalam memelihara kefektifan dan performa dari data warehouse dengan mentransfer data yang lebih lama dengan nilai yang terbatas ke temapt penyimpanan seperti amgnetic tape atau optical disk. Downflow data meliputi proses-proses untuk memastikan bahwa keadaan saat sekarang pada data warehouse dapat dibangun kembali data yang hilang, atau kegagalan software/hardware. Data yang telah dicapai disimpan dalam cara yang mengizinkan pembanguna kembali data dalam warehouse, ketika dibutuhkan. d. Outflow: Proses yang berhubungan dengan pengadaan data agar tersedia bagi end-user
22 e. Meta-flow: Proses yang berhubungan dengan manajemen dari metadata. Proses yang terkait dengan membuat data teredia bagi pengguna akhir. Outflow di mana nilai asli dari warehouse direalisasikan oleh organisasi. Dua kunci utama aktivitas dalam outflow meliputi: 1. Accesing: yang mana dikonsentrasikan dengan memuaskan permintaan end user untuk data yang mereka butuhkan. Isu utama adalah untuk menciptakan suatu lingkungan sehingga user dapat secara efketif menggunakan query tools untuk mengakses sumber data yang tepat. 2. Delivering : yang mana berkonsentrasi dengan dengan proaktif memberikan informasi kepada pengguna akhir workstation dan disebut sebagai jenis proses ‘publish dan subscribe’
Gambar 2.3 Aliran Data warehouse (Connolly, 2005, p1162)
23 2.5.7 Keuntungan Data warehouse Berdasarkan Connolly (2005, p1152), pengimplementasian yang sukses dari sebuah data warehouse dapat memberikan keuntungan besar bagi perusahaan, yaitu: a. Keuntungan potensial yang besar dalam investasi. Suatu organisasi harus memiliki sumber daya dalam jumlah besar untuk kesuksesan pengimplementasian data warehouse dan jumlah biaya yang dikeluarkan bervariasi besarnya tergantung dari solusi teknis yang tersedia. Tetapi investasi dalam data warehouse dapat memberikan keuntungan yang besar setelah pengimplementasiannya. b. Keuntungan yang kompetitif. Keuntungan
kompetitif
didapatkan
dengan
memperbolehkan
para
pengambil keputusan untuk mengakses data yang dapat mengungkapkan data-data yang sebelumnya tidak tersedia, tidak diketahui dan informasi yang tidak tercatat. c. Meningkatnya produktivitas dari pengambil keputusan perusahaan Dengan mentransformasikan data menjadi informasi yang berarti, data warehouse memungkinkan para manajer bisnis melakukan analisa yang lebih konsisten, akurat dan substantive sehingga terjadi peningkatan produktivitas dari pengambilan keputusan perusahaan.
2.5.8 Teori pemodelan Data warehouse 2.5.8.1 Skema Bintang Menurut Connolly (2005, p1183), Skema bintang adalah struktur logical yang memiliki tabel fakta berisi data faktual di pusatnya, dan dikelilingi oleh tabel dimensi berisi data referensi. Skema bintang dapat digunakan untuk meningkatkan
24 performa dengan denormalisasi informasi referensi ke dalam tabel tunggal dimensi. Denormalisasi tepat ketika terdapat sejumlah entitas terhubung dengan tabel dimensi yang sering diakses. Menurut Hoffer (2009, p467), Skema bintang adalah rancangan database sederhana yang mana data dimensi terpisah dari data fakta. Skema bintang berisi dua tipe tabel: tabel fakta dan tabel dimensi. Tabel fakta berisi data faktual atau kuantitatif tentang suatu bisnis. Tabel dimensi menyimpan data deskriptif tentang subjek bisnis.
Gambar 2.4 Komponen Skema Bintang (Hoffer, 2005, p457)
Gambar 2.5 Contoh Skema Bintang (Hoffer, 2005, 457)
25
Gambar 2.6 Contoh Skema Bintang dengan Sample Data (Hoffer, 2005, 458)
2.5.8.2
Skema Snowflake Snowflake merupakan variasi lain dari skema bintang yang mana mengizinkan dimensi memiliki dimensi (Connolly, 2005, p1184). Snowflake adalah jenis sumber yang digunakan untuk skema pemodelan dimensi. Sederhananya, mendasarkan sebuah dimensi pada lebih dari satu sumber tabel relasional. Kasus yang paling umum adalah menggunakan dua tabel sumber. Namun, jika terdapat lebih dari dua tabel yang digunakan sebagai dasar dari suatu kepingan snowflake, harus ada hubungan kunci antara masing-masing tabel yang berisi informasi dimensi (Langit, 2007, 36).
26
Gambar 2.7 Contoh Skema Snowflake (Rabunal, 2008, p426)
2.5.8.3
Skema Starflake Skema database yang paling tepat menggunakan gabungan denormalisasi skema bintang dan denormalisasi skema snowflake. Kombinasi skema bintang dan skema snowflake disebut skema starflake (Connolly, 2005, p1185). Hal ini digunakan dalam situasi bila sulit untuk menata kembali semua entitas menjadi satu set dimensi yang berbeda. Hal ini memungkinkan suatu tingkat perpaduan antara dimensi untuk menjawab pertanyaan yang berbeda (Rabunal, 2008, p424)
Gambar 2.8 Contoh Skema Starflake (Rabunal, 2008, p427)
27 2.5.9 Teori fact-finding Menurut (connolly, p314), Fact-Finding adalah Proses formal yang menggunakan
teknik-teknik
seperti
wawancara
dan
kuesioner
untuk
mengumpulkan fakta-fakta mengenai sistem, persyaratan dan preferensi. Ada 5 metode umum yang digunakan fact finding: 1.
Memeriksa dokumentasi Memeriksa dokumentasi dapat berguna ketika kita sedang mencoba untuk mendapatkan beberapa pemahaman tentang bagaimana perlunya database muncul. kita juga dapat menemukan dokumentasi yang dapat membantu untuk memberikan informasi tentang bagian dari perusahaan terkait dengan masalah. jika masalah ini terkait dengan sistem yang sekarang, harus ada dokumentasi yang terkait dengan sistem itu. dengan memeriksa dokumen, formulir, laporan, dan file yang terkait dengan sistem yang sekarang, kita dapat dengan cepat memperoleh beberapa pemahaman tentang system.
Gambar 2.9 Tujuan Dokumentasi (Connolly,2005, p318)
28 2.
Wawancara Wawancara adalah yang paling sering digunakan, dan biasanya paling berguna, teknik pencarian fakta. kita dapat wawancara untuk mengumpulkan informasi dari individu melalui tatap muka. ada beberapa tujuan dapat menggunakan wawancara, seperti mencari tahu fakta, memverifikasi fakta, mengklarifikasi fakta, menghasilkan antusiasme, mendapatkan pengguna akhir yang terlibat, mengidentifikasi kebutuhan, dan mengumpulkan ide-ide dan pendapat. Namun, dengan menggunakan teknik wawancara membutuhkan keterampilan komunikasi yang baik untuk berurusan secara efektif dengan orang-orang yang memiliki nilai yang berbeda, prioritas, opini, motivasi, dan kepribadian. seperti fakta lain teknik, wawancara tidak selalu merupakan metode terbaik untuk semua situasi. Terdapat dua macam tipe interview: tidak terstruktur dan terstruktur. tidak terstruktur dilakukan hanya dengan tujuan umum dalam pikiran dan dengan sedikit, jika ada, pertanyaan-pertanyaan spesifik. pewawancara menghitung pada orang yang diwawancara untuk menyediakan kerangka kerja dan arah untuk wawancara. wawancara jenis ini sering kehilangan fokus, karena alasan ini, sering kali tidak berfungsi dengan baik untuk analisis dan desain database. Dalam wawancara terstruktur, pewawancara memiliki serangkaian pertanyaan khusus untuk meminta diwawancarai. tergantung pada respon orang yang diwawancara, pewawancara akan langsung menambah pertanyaanpertanyaan untuk mendapatkan klarifikasi atau ekspansi. Untuk memastikan kesuksesan wawancara meliputi memilih individu yang sesuai untuk
29 wawancara, mempersiapkan secara ekstensif untuk wawancara, dan melakukan wawancara yang efisien dan efektif.
Gambar 2.10 Keuntungan dan Kerugian Wawancara (Connolly, 2005,p318)
3.
Mengamati perusahaan beroperasi Pengamatan adalah salah satu yang paling efektif teknik pencarian fakta untuk memahami sebuah sistem. dengan teknik ini, mungkin baik untuk berpartisipasi , atau menonton, orang yang melakukan kegiatan untuk belajar tentang sistem. teknik ini terutama bermanfaat bila validitas data yang dikumpulkan melalui metode lain yang terkait atau ketika kompleksitas aspekaspek tertentu dari sistem mencegah penjelasan yang jelas oleh pengguna akhir. Seperti dengan fakta lain teknik, pengamatan yang sukses membutuhkan persiapan. untuk memastikan bahwa pengamatan berhasil, sangat penting untuk mengetahui sebanyak mungkin tentang individu dan kegiatan yang harus diperhatikan mungkin.
30
Gambar 2.11 Keuntungan dan Kerugian Pengamatan (Connolly,2005,p319)
4.
Penelitian Teknik penemuan fakta yang berguna adalah penelitian aplikasi dan masalah. jurnal perdagangan komputer, referensi buku, dan internet (termasuk kelompok pengguna dan bulletin board) yang sumber informasi yang baik. mereka dapat memberikan informasi tentang bagaimana orang lain telah memecahkan masalah yang sama, plus apakah paket perangkat lunak ada atau tidak ada untuk memecahkan atau bahkan sebagian memecahkan masalah.
Gambar 2.12 Keuntungan dan Kerugian Penelitian (Connolly,2005, p320)
5.
Kuesioner Fakta lain teknik adalah melakukan survei melalui kuesioner. kuesioner adalah
dokumen
dengan
tujuan
khusus
yang
memungkinkan
fakta
31 dikumpulkan dari sejumlah besar orang sambil mempertahankan kontrol atas tanggapan mereka. ketika berhadapan dengan audiens yang besar, tidak ada fakta lain teknik tabulasi dapat fakta-fakta yang sama secara efisien. ada dua jenis pertanyaan yang dapat ditanyakan dalam kuesioner, yaitu format bebas dan fixed-format. free-format menawarkan responden kebebasan yang lebih besar dalam memberikan jawaban. pertanyaan yang ditanyakan dan mencatat jawaban responden di tempat yang disediakan setelah pertanyaan. fixed-format membutuhkan tanggapan tertentu dari individu-individu. diberi pertanyaan, responden harus memilih dari jawaban yang tersedia. ini membuat hasilnya lebih mudah untuk tabulasi. di sisi lain, responden tidak dapat memberikan informasi tambahan yang mungkin membuktikan berharga.
Gambar 2.13 Keuntungan dan Kerugian Kuesioner (Connolly,2005, p320)
2.5.10
Teori Perancangan Data warehouse Menurut Connolly (2005, 1187), perancangan database digambarkan dalam
“Nine-Step
Methodology”
oleh
Kimball.
Metodologi
ini
menspesifikasikan langkah-langkah yang dibutuhkan untuk perancangan data mart. Metodologi tersebut antara lain:
32 1.
Memilih Proses. Tahap ini menentukan proses apa yang akan digunakan pada data warehouse. Subjek tentang proses tersebut merupakan bagian dari sebuah data mart. Pilihan yang terbaik dalam data mart tersebut salah satunya berhubungan dengan penjualan. Tahap ini akan menjadi sumber dari penentuan measurement.
2.
Memilih Grain. Pada tahap ini akan ditentukan tingkat detail data yang bisa didapatkan dari model dimensional. Memilih grain berarti memutuskan apa yang akan ditampilkan dalam sebuah fact tabel. Hanya ketika grain telah ditentukan, dapat diidentifikasikan untuk fact tabel tersebut.
3.
Mengidentifikasi dan menyesuaikan dimensi. Dimensi harus menggambarkan sejelas mungkin dan dapat memperkuat grain. Tabel dimensi berisi data yang menggambarkan dimensi dari bisnis. Pada model measurement
diwakili
dalam
tabel
dimensional, hubungan dari dimensi.
measurement juga dapat berupa karakteristik
Hubungan
dari
seperti siapa, apa, di
mana, kapan, dan bagaimana measurement tersebut. Dimension attribute adalah kolom yang lain di dalam tabel dimensi. Pada dimensi lokasi, atributnya dapat berupa Kode Lokasi, Kota, Negara, Kode Pos. Secara umum, atribut dimensi digunakan dalam label laporan dan batasan dalam query.
33 4.
Memilih fakta. Pada tahap ini akan diidentifikasi apakah measurement diperlukan, haruskah berupa angka dan harus memperkuat grain yang ditetapkan pada tahap dua. Pada model dimensional, tabel fakta berisi measurement atau fakta dari proses bisnis. Sebagai tambahan pada measurement, hal lain yang dimuat di dalam tabel fakta adalah foreign key untuk tabel dimensi.
5.
Menyimpan pre-calculation dalam tabel fakta. Pada saat fakta-fakta telah dipilih, setiap fakta harus diperiksa ulang
untuk
menentukan
apakah
terdapat
kesempatan
dalam
menggunakan pre-calculation.
6.
Rounding out the dimension tabels Pada tahap ini kembali ke tabel dimensi dan menambahkan deskripsi teks sebanyak mungkin ke dimensi. Deskripsi teks harus dapat dimengerti oleh user.
7.
Memilih durasi database. Durasi mengukur jangka waktu dari tabel fakta. Pada banyak perusahaan, terdapat persyaratan dalam melihat periode waktu yang sama dalam setahun. Untuk perusahaan lain seperti perusahaan asuransi, kemungkinan terdapat persyaratan yang
legal dalam
menyimpan data dalam jangka waktu lima tahun atau lebih.
34 8.
Mengawasi perubahan dimensi Terdapat 3 tipe dasar dari perubahan dimensi, yaitu tipe 1 dimana atribut dari dimensi yang telah dirubah overwritten. Tipe 2 dimana atribut dari dimensi yang telah dirubah menyebabkan munculnya record dimensi baru. Tipe 3 dimana atribut dari dimensi yang telah dirubah menyebabkan munculnya atribut alternatif, sehingga nilai lama dan baru dari atribut itu diakses secara terus-menerus pada record dimensi yang sama.
9.
Memutuskan prioritas dan mode Query Tahap ini merupakan tahap yang mempertimbangkan masalah perancangan fisik. Masalah perancangan fisik yang paling kritis dan mempengaruhi persepsi end-user terhadap data mart adalah pesanan fisik dari tabel fakta di disk dan kehadiran dari ringkasan atau agregasi pre-stored. Di luar masalah ini terdapat masalah perancangan fisikal tambahan
yang
menyebabkan
administrasi
backup,
indexing
performance, dan security.
2.5.11 ETL (Extract, Transform, Loading) Menurut Pareek (2007,p65) ETL :Extract, Transform, dan Load adalah proses pergudangan data yang melibatkan ekstraksi data dari sumber luar, mengubahnya agar sesuai dengan kebutuhan bisnis, dan akhirnya load ke gudang data. ETL penting, karena itu adalah cara data sebenarnya di load ke dalam warehouse. Istilah ETL mengacu pada sebuah proses yang me-load beberapa database.
35
Gambar 2.14 Extract, Transfor, and Load (Silvers,2008, p152)
a. Extract: Bagian pertama dari sebuah proses ETL adalah untuk mengekstrak data dari sistem sumber. sebagian besar proyek data warehouse mengkonsolidasi data dari sumber sistem yang berbeda. masing sistem terpisah dapat juga menggunakan data organisasi atau format yang berbeda. Format sumber data yang umum adalah relasional database dan flat file, tetapi mungkin mencakup struktur database nonrelational seperti IMS atau struktur data lain seperti VSAM atau ISAM. ekstraksi mengkonversi data ke format untuk proses transformasi.
b. Transform: Fase transformasi menerapkan serangkaian aturan atau fungsi kepada data yang diekstrak untuk mendapatkan data yang akan dimuat/load. beberapa sumber data akan memerlukan sangat sedikit manipulasi data.
c. Load : Fase Load me-load data ke data warehouse. tergantung pada kebutuhan organisasi, proses ini secara luas rentang. beberapa data warehouse hanya menimpa /overwrite informasi lama dengan data baru. sistem yang lebih
36 kompleks dapat mempertahankan sejarah dan jejak audit dari semua perubahan data
2.6 Penjualan Menurut Robert (2005, p8), penjualan adalah proses saat seseorang membantu orang lain mengambil keputusan pembelian. Menurut Mcleod (2008, p251), dalam suatu basis data, seluruh data mengenai subjek tertentu disimpan bersama dalam satu lokasi yang biasanya berbentuk sebuah tabel. Data tersebut meliputi data pengidentifikasi (seperti nomor pelanggan), data deskriptif (seperti nama pelanggan), dan data kuantitatif (seperti data penjualan bulan tertentu). Dalam tempat penyimpanan data warehouse, terdapat dua jenis tabel yang disimpan dalam tabel2 terpisah. Tabel data akan digabung untuk menghasilkan suatu paket informasi. 1. Tabel Dimensi : data pengidentifikasi dan deskriptif akan disimpan dalam tabel dimensi. Istilah dimensi mengartikan bahwa data tersebut dapat menjadi basis untuk melihat data dari berbagai sudut pandang , atau berbagai dimensi.
Gambar 2.15 Contoh Tabel Dimensi Pelanggan(Mcleod ,2008, p251)
37 Gambar ini mengilustarikan sebuah tabel dimensi untuk entitas pelanggan. Dengan dimensi2 contoh di dalam gambar tersebut, apra pengguna dapat memperoleh analisis menurut pelanggan, menurut wilayah pelanggan, menurut kode industri standar, menurut kode pos, dan seterusnya.
2. Tabel fakta : tabel2 terpisah yang disebut tabel fakta berisi ukuran2 kuantitatif sebuah entitas, objek, atau aktivitas. Satu contoh tabel fakta diberikan dalam gamabr berikut.
Gambar 2.16 Contoh Tabel Fakta Penjualan (Mcleod ,2008, p252) Dalam contoh ini, tabel fakta memuat data mengenai satu aktivitas tertentu-penjualan komersial. Semua fakta yang terdapat di dalam figur tersebut adalah ukuran dari aktivitas. Beberapa dinyatakan dalam unit, seperti unit penjualan aktual dan unit penjualan anggaran. Sisanya dinyatakan dalam dolar. Dengan tersedianya jenis-jenis fakta ini untuk penjualan komersial, para pengguna dapat memproduksi analisis-analisis kuantitatif seperti unit penjualan aktual versus unit penjualan anggaran, rata-rata dolar penjualan per unit, komisi penjualan sebagai persentase dari penjualan aktual, dan bonus penjualan sebagai persentase dari komisi penjualan.
38 Jika digabungkan dengan data tabel dimensi, kita dapat membuat berbagai macam analisis, sperti penjualan bersih menurut wilayah pelanggan, pajak penjualan menurut kode pos, dan komisi penjualan menurut kode kredit. Pengguna dapt meminta informasi yang melibatkan semua kombinasi dari dimensi dan fakta.Dua jenis data tersebut akan digabungkan untuk membentuk suatu paket informasi. Paket informasi mengidentifikasi semua dimensi yang akan digunakan dalam analisis suatu aktivitas tertentu.
Gambar 2.17 Format Paket Informasi (Mcleod ,2008, p252)
Dalam format gambar di atas, empat dimensi (kolom-kolom vertikal) dihubungkan dengan fakta-fakta (baris di bagian bawah). Dimensi dapat berapa pun jumlahnya.
39
Gambar 2.18 Contoh Paket Informasi (Mcleod ,2008, p253)
Dalam contoh gambar ini, paket meliputi empat dimensi yang dapat digunakan untuk menganalisis penjualan komersial menurut waktu, tenaga penjual, pelanggan, dan produk. Masing-masing dimensi dalam paket informasi memiliki satu kunci dan satu dimensi tambahan atau lebih. Sebagai contoh, kunci pelanggan adalah nomor pelanggan. Bayangkan dimensi sebagai atribut, atau variabel deskriptor. Masing2 atribut disusun dalam hierarki yg dimulai dari kenaikan terkecil di bagian atas hingga terbesar di bagian bawah. Sebagai contoh, ukuran waktu yang terkecil adalah jam dan terbesar adalah tahun. Untuk tenaga penjual, hierarki
tersebut
akan
menyajikan
bagaimana
tenaga
penjual
dapt
dikelompokkan ke dalam cabang, ke dalam wilayah yang lebih luas, dan ke dalam anak-anak perusahaan. Pada contoh ini digunakan skema bintang. Setiap dimensi akan ada satu kunci yang mengidentifikasikan dimensi dan menciptakan hubungan ke paket informasi.
40
Gambar 2.19 Contoh Skema Bintang (Mcleod .2008, p254)
Gambar ini merupakan contoh dengan menggunakan empat tabel dimensipelanggan, waktu, tenaga penjual, dan prduk. Sturktur yang digunakan adalah skema bintang. Skema bintang ini memungkinkan diperolehnya informasi seperti: •
unit penjualan aktual menurut kode pos pada satu bulan tertentu.
•
Perbandingan jumlah komisi penjualan menurut wilayah penjualan selama dua kuartal terakhir.
•
penjualan produk berdasarkan pelanggan untuk tahun berjalan sampai dengan saat ini.
Skema ini berfokus pada penjualan komersial dilihat darisegi pelanggan, tenaga penjual, produk, dan waktu.