NAMA
: MUCHAMAD PARTA SUWANDHA
NBI
: 451103363
KELAS
:B
Data Warehouse Sebuah( gudang data)adalah sistem yang mengambil dan mengkonsolidasikan data yang secara periodik dari sistem sumber ke dalam dimensi atau dinormalisasi menyimpan data. Biasanya Setiap tahun ada pertanyaan untuk para pelaku intelijen bisnis atau aktifitas analitis lainnya. Hal ini biasanya diperbaharui dalam beberapa kelompok. tidak setiap kali transaksi terjadi di sistem
sumber.
Sebuah Diagram dari sistem data warehouse Pengertian maksud diagram diatas seperti Sistem sumber adalah sistem OLTP yang berisi data yang ingin Anda load ke data gudang Pengolahan Transaksi online (OLTP) adalah sistem yang tujuan utamanya adalah untuk menangkap dan menyimpan transaksi bisnis. Data Sumber sistem 'diperiksa menggunakan data profiler untuk memahami karakteristik data. S
ebuah profiler data adalah alat yang memiliki kemampuan untuk menganalisis data, seperti mencari tahu berapa banyak baris dalam setiap tabel, berapa banyak baris mengandung nilai NULL, dan sebagainya. ETL (extract, transform, and load) maksudnya membawa data dari berbagai sumber sistem ke area staging. ETL adalah sistem yang memiliki kemampuan untuk terhubung ke sumber sistem, membaca data, mengubah data, dan beban ke sistem target (sistem target tidak harus menjadi gudang data). Sistem ETL kemudian mengintegrasikan, mengubah, dan load data ke dalam menyimpan data dimensi (DDS). Sebuah DDS adalah database yang menyimpan data. data warehouse dalam format yang berbeda dari OLTP. Meta Data yang berisi informasi tentang struktur data, arti data, penggunaan data, data aturan kualitas, dan informasi lainnya tentang data Sistem audit log operasi sistem dan penggunaan ke database metadata. sistem audit merupakan bagian dari sistem ETL yang memonitor kegiatan operasional ETL proses dan log statistik operasional mereka. Hal ini digunakan untuk memahami apa yang terjadi selama proses ETL. Pengguna menggunakan berbagai alat seperti spreadsheet, tabel pivot, alat pelaporan, dan Alat query SQL untuk mengambil dan menganalisis data dalam DDS Beberapa aplikasi beroperasi pada format database multidimensi. Untuk aplikasi ini, data di DDS dimuat ke database multidimensi (MDB), yang juga dikenal sebagai kubus, Database Multidimensi adalah suatu bentuk database di mana data disimpan dalam sel dan posisi masing-masing sel ditentukan oleh sejumlah variabel yang disebut sel dimension. Masing-masing merupakan event dan nilai-nilai dimensi menunjukkan kkapan dan dimana peristiwa ini terjadi. Ada pendekatan alternative lain untuk ETL. Dalam pendekatan ini, data dimuat ke dalam gudang data pertama dalam format baku. itu transformasi, pencarian, dan sebagainya, yang dilakukan di dalam data warehouse. Berbeda dengan pendekatan ETL, pendekatan ELT tidak perlu server ETL. pendekatan ini biasanya diimplementasikan untuk mengambil keuntungan dari mesin database data warehouse yang kuat seperti processing asmassively paralel (MPP) sistem. Saya akan membahas lebih lanjut tentang ELT
Consolidates Data menurut laporan dapat memiliki banyak sistem transaksional. Sebagai contoh, bank dapat menggunakan 15 berbeda aplikasi untuk layanan, satu untuk, satu untuk layanan pelanggan pemrosesan pinjaman, satu untuk teller dan lain-lain. Sebuah Data Warehouse mengkosolidasikan banyak system transaksional Konsepnya :
Data Availability
:
Ketika mengkonsolidasikan data dari sistem sumber yang berbeda, adalah mungkin bahwa masing-masing data tersedia dalam satu sistem, tetapi tidak dalam sistem
lainnya. Misalnya, system Mungkin memiliki tujuh bidang alamat (address1, address2, address3, kota, kabupaten, ZIP, dan negara), tetapi sistem B tidak memiliki lapangan address3 dan bidang negara. Dalam sistem A, Agar dapat memiliki dua tingkat-order header dan baris pesanan. Namun, dalam sistem B, perintah memiliki empat tingkat-order header, agar bundel, item baris pesanan, dan komponen keuangan.
Time Ranges : bagian yang sama dari data yang ada dalam sistem yang berbeda, tetapi mereka memiliki berbeda periode waktu. Anda perlu berhati-hati ketika mengkonsolidasikan mereka. Anda selalu perlu untuk memeriksa apa jangka waktu berlaku yang data sebelum Anda mengkonsolidasikan data. Jika tidak, Anda berisiko memiliki data yang tidak akurat di gudang karena Anda dicampur periode waktu yang berbeda. Misalnya, dalam sistem A rata-rata pemasok biaya overhead dihitung mingguan, tetapi dalam sistem B itu dihitung bulanan hal ini tidak bisa hanya mengkonsolidasikan mereka. Dalam contoh ini,
Definisi: Kadang-kadang data yang sama mungkin berisi hal yang berbeda. Dalam sistem A, kolom yang disebut "Jumlah Pesanan Nilai" mungkin berisi pajak, diskon, tagihan kartu kredit, dan biaya pengiriman, sedangkan dalam sistem B tidak mengandung biaya pengiriman. Dalam sistem A, lalu lintas jangka mingguan bisa merujuk kepada pengunjung situs web yang unik, sedangkan dalam sistem B itu berarti nonunique pengunjung situs web.
Convertion
:
Konversi: Ketika mengkonsolidasikan data di sistem sumber yang berbeda, kadangkadang Anda perlu melakukan konversi karena data dalam sistem sumber dalam unit yang berbeda ukuran. Jika Anda menambahkan mereka tanpa mengubahnya terlebih dahulu, maka Anda akan memiliki data yang salah dalam gudang. Dalam beberapa kasus, tingkat konversi tetap (selalu nilai yang sama), tetapi dalam kasus lain perubahan tingkat konversi dari waktu ke waktu. Jika perubahan dari waktu ke waktu, Anda perlu tahu apa waktu periode untuk digunakan saat mengkonversi. Misalnya, konversi antara waktu di satu negara ke negara lain dipengaruhi oleh daylight savings time, sehingga Anda perlu tahu tanggal untuk dapat melakukan konversi
Matching: Pencocokan adalah proses penentuan apakah bagian data dalam satu sistem sama dengan data dalam sistem lain. Pencocokan ini penting karena jika Anda cocok dengan data yang salah, Anda akan memiliki data akurat dalam data warehouse.
Periodically.
Pengambilan data dan konsolidasi tidak terjadi hanya sekali, mereka terjadi berkali-kali dan biasanya secara berkala, misalnya setiap hari atau beberapa kali sehari. Jika pengambilan data terjadi hanya sekali, maka data akan menjadi usang, dan setelah beberapa waktu tidak akan berguna.
Dimensional Data Store Sebuah Data Warehouse adalah sistem yang mengambil data dari sistem sumber dan meletakkannya ke dalam dimensi menyimpan data atau menyimpan data dinormalisasi. beberapa Data Warehouse dalam format dimensi , tetapi beberapa Data Warehouse dalam format normal. format dan perbedaan antara mereka .ADDS adalah satu atau beberapa database yang berisi kumpulan data mart dimensi . A Data mart dimensi adalah sekelompok tabel fakta terkait dan dimensi yang berhubungan tabel yang berisi pengukuran dari kegiatan bisnis dikategorikan oleh dimensi mereka .Data Adimensional storeis denormalized , dan dimensi yang sesuai . Dimensi sesuai berarti baik mereka persis tabel dimensi yang sama atau satu adalah subset dari yang lain .
Normalized Data Store Jenis lain dari data warehouse adalah menempatkan data tidak dalam menyimpan data dimensi tetapi dalam menyimpan data dinormalisasi. Maksud dari menyimpan data dinormalisasi adalah satu atau lebih database relasional dengan sedikit atau tanpa redundansi data. Sebuah database relasional adalah database yang terdiri dari tabel entitas dengan hubungan parent child antara mereka. Normalizationis suatu proses menghilangkan redundansi data dengan menerapkan normalisasiaturan.
Sebuah Dimensi penyimpanan data adalah format yang lebih baik untuk menyimpan data dalam gudang untuk tujuan query dan menganalisa data dari Penyimpanan data normal. Hal ini karena lebih sederhana (satu tingkat jauh di semua arah dalam skema bintang) dan memberikan kinerja query yang lebih baik. Normalisasi penyimpanan data adalah format yang lebih baik untuk mengintegrasikan data dari berbagai sistem sumber, terutama di ketiga bentuk normal dan lebih tinggi. Hal ini karena hanya ada satu tempat untuk memperbarui tanpa redundansi data seperti dalam menyimpan data dimensi.
Beberapa aplikasi dijalankan pada DDS, yaitu, database relasional yang terdiri dari tabel dengan baris dan kolom
History Salah satu perbedaan utama antara sistem transaksional dan sistem data warehouse adalah kemampuan dan kapasitas untuk menyimpan History. Kebanyakan sistem transaksional menyimpan beberapa History,
Query Query adalah proses mendapatkan data dari data store, yang memenuhi kriteria tertentu. di sini adalah contoh queri sederhana: "Berapa banyak pelanggan yang Anda miliki sekarang" Salah satu Berikut adalah contoh query yang kompleks: "Tunjukkan nama dan pendapatan dari semua lini produk yang memiliki 10 kerugian persen atau lebih di Q3 TA 2006, dikategorikan oleh stopkontak. " Sebuah data warehouse dibangun untuk bertanya. Itu adalah nomor satu tujuan keberadaannya. Pengguna tidak diperbolehkan untuk memperbarui data warehouse. Pengguna hanya bisa query data warehouse. Hanya sistem ETL diperbolehkan untuk
memperbarui data warehouse. Ini adalah salah satu kunci perbedaan antara data warehouse dan sistem transaksi.
Bussiness Inteliegence merupakan kumpulan kegiatan untuk memahami situasi bisnis dengan melakukan berbagai jenis analisis data perusahaan serta data eksternal dari ketiga pihak untuk membantu membuat keputusan bisnis strategis, taktis, dan operasional dan mengambil tindakan yang diperlukan untuk meningkatkan kinerja bisnis. Hal ini mencakup mengumpulkan, menganalisis, pemahaman, dan pengelolaan data tentang kinerja operasi, pelanggan dan pemasok kegiatan, kinerja keuangan, pergerakan pasar, persaingan, kepatuhan terhadap peraturan, dan kontrol kualitas Contoh-contohnya : Business performance management, termasuk menghasilkan indikator kinerja utama seperti penjualan sehari-hari, pemanfaatan sumber daya, dan biaya operasional utama untuk masing-masing daerah, lini produk, dan jangka waktu, serta agregat mereka, untuk memungkinkan orang untuk mengambil tindakan taktis untuk mendapatkan kinerja operasional pada trek yang diinginkan. Customer profitability analysis, yaitu, untuk memahami mana pelanggan yang menguntungkan dan layak disimpan dan yang kehilangan uang dan karena itu perlu ditindaklanjuti. Kunci untuk latihan ini mengalokasikan biaya seakurat mungkin sampai yang terkecil unit transaksi bisnis, yang mirip dengan kegiatan berbasis biaya. Statistical analysis seperti pembelian kemungkinan atau analisis keranjang. Analisis keranjang adalah Proses analisis data penjualan untuk menentukan produk mana yang kemungkinan akan dibeli atau memerintahkan bersama-sama. Kemungkinan ini dinyatakan dalam ukuran statistik seperti tingkat kepercayaan supportand. Itis terutama berlaku untuk ritel dan manufaktur industri tetapi juga untuk tingkat tertentu untuk industri jasa keuangan. analisis prediktif seperti peramalan penjualan, pendapatan, dan angka biaya untuk tujuan perencanaan anggaran tahun depan dan mempertimbangkan faktor-faktor lain seperti pertumbuhan organik, situasi ekonomi, dan arah masa depan perusahaan
Report Dalam konteks data warehousing , sebuah reportis program yang mengambil data dari data warehouse dan menyajikan kepada pengguna di layar atau di atas kertas . Pengguna juga dapat berlangganan ini laporan sehingga mereka dapat dikirim ke pengguna secara otomatis melalui e-mail pada waktu tertentu ( harian atau mingguan , misalnya) atau dalam menanggapi peristiwa .Laporan yang dibangun sesuai dengan spesifikasi fungsional . Mereka menampilkan DDS data yang dibutuhkan oleh pengguna bisnis untuk menganalisis dan memahami situasi bisnis .
yang paling bentuk umum dari laporan adalah bentuk tabel yang berisi kolom sederhana . Ada bentuk lain dari Laporan yang dikenal sebagai laporan lintas tabor matrix.These seperti Excel pivot tabel , di mana satu data yang atribut menjadi baris , data atribut lain menjadi kolom , dan setiap sel pada Laporan berisi nilai yang sesuai dengan atribut baris dan kolom Laporan data warehouse digunakan untuk menyajikan data bisnis kepada pengguna , tetapi mereka juga digunakan untuk keperluan administrasi data warehouse . Mereka digunakan untuk memantau kualitas data, untuk memantau penggunaan aplikasi data warehouse , dan untuk memantau kegiatan ETL
Online Analytical Processing ( OLAP ) OLAP adalah kegiatan interaktif menganalisis data transaksi bisnis yang disimpan dalam gudang data dimensi untuk membuat keputusan bisnis yang taktis dan strategis . Orang biasa yang melakukan pekerjaan OLAP adalah analis bisnis , manajer bisnis , dan eksekutif . fungsi khas di OLAP termasuk menggabungkan ( total ) , pengeboran bawah ( mendapatkan rincian ) , dan mengiris dan dicing ( memotong kubus dan menjumlahkan nilai-nilai dalam sel ) . Fungsi OLAP dapat disampaikan dengan menggunakan database relasional atau menggunakan database multidimensi . OLAP yang menggunakan database relasional dikenal sebagai relasional pengolahan analisis online ( ROLAP ) . OLAP yang menggunakan database multidimensi dikenal sebagai multidimensi pengolahan analisis online( MOLAP ) .Contoh dari OLAP adalah menganalisis efektivitas dari inisiatif kampanye pemasaran pada produk tertentu dengan mengukur pertumbuhan penjualan selama periode tertentu . Contoh lain adalah untuk menganalisis dampak kenaikan harga terhadap penjualan produk di berbagai daerah dan kelompok produk pada periode waktu yang sama
Data Mining Data mining adalah proses untuk mengeksplorasi data untuk menemukan pola dan hubungan yang menggambarkan data dan untuk memprediksi nilai-nilai yang tidak diketahui atau masa depan data. Nilai kunci dalam data mining adalah kemampuan untuk memahami mengapa beberapa hal terjadi di masa lalu dan untuk memprediksi apa akan terjadi di masa depan. Ketika data mining digunakan untuk menjelaskan situasi saat ini atau masa lalu, itu disebut analytics.When deskriptif data mining digunakan untuk memprediksi masa depan, hal itu disebut analisis prediktif.
Other Analytical Activities Selain untuk intelijen bisnis, data warehouse juga digunakan untuk kegiatan analisis di tujuan non-bisnis, seperti kantor penelitian ilmiah, departemen pemerintah (statistik, kantor cuaca, analisis ekonomi, dan prediksi), intelijen militer, darurat dan penanggulangan bencana, organisasi amal, monitoring kinerja server, dan jaringan analisis lalu lintas. Data warehouse juga digunakan untuk manajemen hubungan pelanggan (CRM). CRM adalah serangkaian kegiatan yang dilakukan oleh organisasi (bisnis dan non-bisnis) untuk mengelola dan melakukan analisis tentang pelanggan
mereka, untuk tetap berhubungan dan berkomunikasi dengan pelanggan mereka, untuk menarik dan memenangkan pelanggan baru, produk dan jasa kepada pelanggan mereka, untuk melakukan transaksi dengan pelanggan mereka (kedua transaksi non-bisnis bisnis dan), untuk layanan dan dukungan pelanggan mereka, dan menciptakan ide-ide baru dan produk atau jasa baru bagi para pelanggan mereka. Data warehouse juga digunakan dalam analisis analytics.Web web adalah kegiatan memahami perilaku dan karakteristik lalu lintas situs web. Ini termasuk mengetahui jumlah kunjungan, pengunjung, dan pengunjung unik pada setiap halaman untuk setiap hari / minggu / bulan; pengarah situs, rute khas yang mengambil pengunjung dalam situs; karakteristik teknis dari pengunjung 'browser, domain dan analisis geografis, jenis robot mengunjungi, tingkat keluar setiap halaman, dan tingkat konversi pada proses checkout. Web analytics terutama penting untuk bisnis online
Updated in Batches Sebuah gudang data biasanya read-only system , yaitu , pengguna tidak dapat memperbarui ataumenghapus data di gudang data. Data warehouse data diperbarui menggunakan mekanisme standar yang disebut ETL pada waktu tertentu dengan membawa data dari sistem sumber operasional . ini berbeda dari sistem transaksional atau OLTP di mana pengguna dapat memperbarui system setiap saat . Alasan untuk tidak memungkinkan pengguna untuk memperbarui atau menghapus data di gudang data adalah untuk menjaga konsistensi data sehingga Anda dapat menjamin bahwa data dalam data warehouse akan konsisten dengan sistem sumber operasional , seperti jika data warehouse adalah mengambil data yang dari dua sistem sumber , A dan B. Sistem A berisi 11 juta nasabah , sistem B berisi8million pelanggan , dan ada 2 juta pelanggan yang ada di kedua sistem . Data gudang akan berisi 17 juta pelanggan . Jika pengguna meng-update data di gudang data ( misalnya , menghapus 1 juta pelanggan ) , maka tidak akan konsisten dengan sistem sumber . Juga, ketika update berikutnya datang dari ETL , Alasan kedua untuk memperbarui data warehouse dalam batch daripada secara real time adalah kinerja sistem sumber. Memperbarui data warehouse secara real time berarti bahwa saat ada pembaruan dalam sistem sumber, Anda memperbarui data warehouse segera, yaitu, dalam beberapa detik. Untuk melakukan ini, Anda perlu : • menginstal database memicu pada setiap meja dalam sistem sumber atau • memodifikasi aplikasi sistem sumber untuk menulis ke dalam gudang data segera setelah menulis ke database sistem sumber
Master Data Management (MDM) data master adalah pertama. Dalam sistem OLTP, ada dua kategori data: data transaksi dan data master. Data Transaksi terdiri dari badan usaha dalam sistem OLTP bahwa transaksi bisnis rekaman terdiri dari identitas,
nilai, dan kolom atribut. Data master terdiri dari badan usaha dalam sistem OLTP yang menggambarkan transaksi bisnis yang terdiri dari identitas dan atribut kolom. Data transaksi terkait dengan master data sehingga data master menggambarkan transaksi bisnis. Untuk memahami mana entitas adalah data transaksi dan yang entitas adalah data master, Anda perlu model proses bisnis. Acara bisnis adalah data transaksi. Dalam online contoh toko musik, acara bisnis adalah bahwa pelanggan membeli lagu. Masterdata terdiri dari entitas yang menggambarkan acara bisnis. Guru data terdiri dari jawaban dari siapa, apa, dan di mana pertanyaan tentang transaksi bisnis. Dalam contoh sebelumnya, data master pelanggan, produk, dan merek. Contoh data master adalah pemasok, cabang, kantor, karyawan, warga negara, wajib pajak, aset, persediaan, toko, tenaga penjualan, properti, peralatan, waktu, produk, peralatan, jalan, pelanggan, Server, switch, akun, kode layanan, tujuan , kontrak, tanaman (seperti di bidang manufaktur atau minyak kilang), mesin, kendaraan, dan sebagainya. Ada dua jenis data master yang Anda mungkin tidak ingin menyertakan ketika menerapkan sistem MDM: 1. Anda mungkin ingin mengecualikan tanggal dan waktu. Sebuah tanggal menjelaskan acara bisnis, sehingga menurut definisi adalah data master. Tanggal A memiliki atribut seperti nama bulan, tetapi atribut yang statis. Nama bulan 01/11/2007 adalah November dan akan selalu November. Hal ini statis. Tidak perlu dipertahankan, diperbarui, dan diterbitkan. Atribut acustomer seperti alamat, di sisi lain, terus berubah dan perlu dipertahankan. Tapi atribut tanggal yang statis. 2. Anda mungkin ingin mengecualikan data master dengan sejumlah kecil anggota. Misalnya, jika bisnis Anda adalah e-commerce dan Anda hanya memiliki satu toko online, maka mungkin tidak layak untuk mempertahankan menyimpan data menggunakan MDM. Pertimbangan apakah akan mengecualikan atau menyertakan badan usaha kecil sebagai data master atau tidak adalah jumlah anggota dan frekuensi perubahan. Jika jumlah anggota kurang dari sepuluh dan frekuensi perubahan kurang dari sekali setahun, Anda ingin mempertimbangkan termasuk dari sistem MDM Anda. Sebuah sistem MDM mengambil data dari berbagai sistem OLTP dan mendapatkan data produk . Jika ada duplikat produk , sistem MDM mengintegrasikan dua catatan . Sistem MDM mengintegrasikan dua catatan dengan membandingkan atribut umum untuk mengidentifikasi apakah kedua catatan yang cocok . Jika mereka cocok , aturan ketahanan hidup mendikte yang merekam menang dan yang merekam kehilangan . The rekor kemenangan disimpan , dan rekor kalah dibuang dan diarsipkan . Sistem MDM memiliki fasilitas pelaporan yang menampilkan struktur data, aturan kesintasan, aturan pencocokan, dan duplikat catatan dari sistem OLTP bersama dengan yang aturan diaplikasikan dan yang merekam disimpan sebagai data
master. Fasilitas pelaporan juga menunjukkan aturan yang dieksekusi dan ketika mereka dieksekusi.
Customer Data Integration Pelanggan integrasi data (CDI) adalah MDM untuk data pelanggan. CDI adalah proses mengambil, membersihkan, menyimpan, memelihara, dan mendistribusikan data pelanggan. Sebuah sistem CDI mengambil data pelanggan dari sistem OLTP, membersihkannya, menyimpannya dalam customer store data master, memelihara data pelanggan, terus up-to-date, dan mendistribusikan data pelanggan ke sistem lain. Sebuah sistem CDI memungkinkan Anda untuk memiliki lebih bersih, tunggal, versi handal dari data pelanggan aplikasi lain dalam perusahaan dapat menggunakan. Hal ini pada gilirannya dapat memberikan manfaat bisnis seperti meningkatkan kepuasan pelanggan dan analisis bisnis yang lebih baik, dan mengurangi kompleksitas proses yang menggunakan data pelanggan. Dari semua berbagai jenis manajemen data master, CDI adalah yang paling banyak digunakan karena setiap organisasi memiliki pelanggan. CDI menyediakan data terpadu yang bersih untuk manajemen hubungan pelanggan.
Future Trends in Data Warehousing Beberapa tren masa depan dalam data warehousing saat ini adalah data yang tidak terstruktur, pencarian, arsitektur serviceoriented, dan real-time data warehousing.
Unstructured Data Data yang ada di database yang terstruktur, melainkan diatur dalam baris dan kolom. Saya telah berbicara panjang besar di bagian sebelumnya tentang data warehousing menggunakan data terstruktur, yaitu, sistem sumber database. Hal ini dapat menjadi database relasional (tabel, baris, dan kolom), dan mungkin database berorientasi objek (kelas dan jenis) atau database hirarki (struktur seperti pohon). Namun, mereka semua memiliki struktur data. Data tidak terstruktur, di sisi lain, tidak memiliki struktur data seperti baris dan kolom, struktur seperti pohon, atau kelas dan jenis. Contoh data terstruktur adalah dokumen, gambar (foto, diagram, dan gambar), audio (lagu, pidato, dan suara), video (film, animasi), streaming data, teks, e-mail, dan situs web internet. Diperdebatkan, beberapa orang mengatakan semacam ini adalah data semiterstruktur, dengan argumen bahwa ada beberapa struktur, sehingga memiliki atribut. Sebagai contoh, sebuah e-mail memiliki atribut seperti dari, untuk, tanggal dikirim, tanggal dibuat, tanggal penerimaan, subyek, dan tubuh; dokumen memiliki atribut seperti judul, subjek, penulis, jumlah halaman, jumlah kata, tanggal pembuatan, dan tanggal modifikasi terakhir. Setiap jenis data terstruktur memiliki atribut fisik dan isi yang berbeda. Atribut ini dapat disimpan dalam database relasional atau multidimensional untuk memungkinkan pengguna untuk dengan mudahmenemukan bagian tertentu dari
data tidak terstruktur. Isi dari data tidak terstruktur itu sendiri dapat dianalisis, diekstrak, dikategorikan, dan disimpan untuk membantu pencarian informasi. Sebagai contoh, katakanlah Anda memiliki 1 juta e-mail sebagai data terstruktur Anda. Mereka memiliki atribut, seperti dari, untuk, cc, bcc, subjek, tanggal dibuat, tanggal dikirim, lampiran, jumlah kata-kata dalam tubuh, alamat host, alamat originator, alamat penerima, dan sebagainya. Anda kemudian menyimpan atributatribut ini dalam tabel arelational, dan e-mail akan disimpan sebagai file dengan nama file dan lokasi yang disimpan dalam tabel.
Search
Bagian ini menjawab pertanyaan kedua, bagaimana Anda mendapatkan informasi keluar? Jawabannya adalah dengan mencari. Untuk mendapatkan informasi dari data terstruktur, asalkan Anda tahu struktur, Anda dapat melakukan query pilih, apakah menggunakan laporan statis atau interaktif query pengguna ad hoc. Jika Anda menggunakan aplikasi BI, aplikasi dapat pergi melalui metadata dan menampilkan struktur data dan kemudian membantu Anda dalam menavigasi melalui data untuk mengambil informasi yang Anda butuhkan. Untuk mendapatkan informasi dari data yang tidak terstruktur, terutama data teks seperti dokumen, e-mail, dan halaman web, Anda melakukan pencarian. Seperti di Internet, mesin pencari telah merangkak data warehouse dan diindeks data tidak terstruktur. Mesin pencari telah dikategorikan terstruktur data berdasarkan jenis dan sifat mereka dan, dalam kasus halaman web, link mereka.
Service-Oriented Architecture (SOA) SOA adalah sebuah metode membangun aplikasi yang menggunakan sejumlah kecil, komponen independen yang berbicara satu sama lain dengan menawarkan dan memakan layanan mereka. Komponen-komponen ini dapat didistribusikan, bahkan, mereka dapat berada di sisi yang berbeda dari dunia. Hampir setiap aplikasi besar bisa mendapatkan keuntungan dari pendekatan SOA. Anda tidak membangun satu aplikasi raksasa lagi. Sebaliknya, Anda membangun banyak potongan-potongan kecil yang berbicara satu sama lain. itu adalah sifat dari industri TI bahwa aplikasi akan perlu diganti setiap beberapa tahun (saya akan mengatakan setiap 4-8 tahun). Bisa jadi karena teknologi usang atau karena fungsi tersebut. Kepailitan, merger, dan pengambilalihan juga pembalap lain untuk ini.
Real-Time Data Warehouse Sebuah gudang data, beberapa tahun yang lalu, biasanya diperbarui setiap hari atau setiap minggu. Dalam dua sampai tiga tahun terakhir, telah terjadi lebih banyak dan lebih banyak permintaan untuk meningkatkan frekuensi update. Para pengguna ingin melihat data dalam gudang data diperbarui setiap dua menit atau bahkan secara real time. Sebuah data warehouse real-time adalah gudang data yang diperbarui (dengan ETL) yang saat transaksi terjadi dalam sistem sumber.
Summary Bab ini memperkenalkan data warehousing. Saya menunjukkan banyak contoh, dengan harapan bahwa mereka akan membuat konsep lebih mudah dipahami dan akan memperkaya pengalaman Anda. Saya membahas sedikit situasi saat ini sehingga Anda tahu bagaimana sekarang, dan sedikit tren masa depan sehingga Anda tahu apa yang akan terjadi. Dalam bab berikutnya, saya akan membahas arsitektur