Materi 1. 2. 3. 4. 5. 6.
Era Informasi Strategi dan Peluang Yang Kompetitif Database dan Database Warehouse Desain Database Sistem Pendukung Keputusan dan Sistem Cerdas E-Commerce
DATABASE DAN DATA WAREHOUSE Pertemuan 06
2 SKS
Data dalam SPK • Data merupakan elemen penting dalam menentukan kualitas suatu SPK. • Data yang buruk atau tidak lengkap menyebabkan SPK tidak mencapai hasil yang optimal/bagus.
Preprocessing Data • Data Warehouse : – Tempat kumpulan data yang digunakan untuk pengambilan keputusan, dikumpulkan dari berbagai sumber dan biasanya terpisah dari database organisasi/perusahaan.
• Data Mining : – Memilih data berdasarkan pola tertentu sehingga diperoleh relasi antar variabel dan memiliki tingkat informasi yang lebih tinggi.
Tingkatan Data • Data: – Kumpulan sesuatu, kejadian, aktivitas, transaksi yang direkam, diklasifikasikan dan disimpan namun tidak diorganisasikan untuk memberikan arti tertentu.
• Informasi: – Data yang telah diorganisasikan sedemikian sehingga memberikan arti bagi penerimanya.
• Knowledge: – Data/informasi yang memberikan pemahaman, pengalaman, pelajaran, keahlian yang berguna untuk pemecahan masalah.
Macam-macam Sumber Data • Internal (dari dalam organisasi) • Eksternal (dari luar organisasi) • Personal (dari tenaga ahli yang berupa pendapat subjektif)
Data Warehouse • Definisi : – “A data warehouse is a copy of transaction data specifically structured for querying and reporting” (Ralph Kimball) • Suatu database untuk pendukung keputusan yang disimpan terpisah dari database operasional suatu organisasi • Mendukung pemrosesan informasi dengan menyediakan platform data yang historical dan consolidated untuk analisis.
Data Warehousing • Data warehousing: Proses konstruksi dan penggunaan data warehouses • Data Warehousing berupaya mengumpulkan data-data dari berbagai sumber data sehingga mempunyai kualitas data yang bagus. • Kualitas data yang bagus sangat mempengaruhi hasil keputusan.
Kualitas Data (Data Quality) • Kualitas data (DQ) dapat dilihat dari 4 katergori: – Contextual DQ: Relevansi, nilai tambah, timeliness, kelengkapan dan jumlah data. – Intrinsic DQ: akurasi, objektivitas, keterpercayan, reputasi. – Accessibility DQ: aksesibilitas, keamanan akses. – Representation DQ: interpretabilitas, kemudahan untuk dimengerti, representasi yang ringkas dan konsisten.
Arsitektur Data Warehouse Application Server
Database Server
Client
Arsitektur Data Warehouse 3-tier
Application & Database Server
Client
Arsitektur Data Warehouse 2-tier
Organisasi dan Struktur Database dalam Data Warehouse • Relational Databases. Berbentuk tabel. • Hierarchical Databases. Berbentuk pohon atau bagan organisasi. • Network Databases. Berbentuk jaringan kompleks. • Struktur Lain: objec-oriented, multimedia-based, documen-based, intelligent databases.
Karakteristik Data Warehousing (1) • Subject-oriented. Data diorganisasi berdasarkan subyeknya. Mis: pelanggan • Integrated. Data dari berbagai sumber disimpan dalam format yang sama. Mis: jenis kelamin : ‘L’ dan ‘P’. Maka data yang masuk mengalami konversi. • Time-variant.Menyediakan data dari masa lampau hingga masa kini.
Karakteristik Data Warehousing (2) • Nonvolatile. Tidak berubah/hilang. Data dalam data warehouse tidak boleh diupdate. • Summarized. Data operasional dapat digabungkan ke dalam ringkasan. • Not normalized. Tidak ternormalisasi. • Metadata. Metadata (data tentang data) disertakan antara lain deskripsi struktur, istilah dan definisi, kepemilikan data, dsb.
Data Warehouse vs. Operational DBMS • OLTP (on-line transaction processing) – Major task of traditional relational DBMS – Day-to-day operations: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, etc.
• OLAP (on-line analytical processing) – Major task of data warehouse system – Data analysis and decision making
• Distinct features (OLTP vs. OLAP): – User and system orientation: customer vs. market – Data contents: current, detailed vs. historical, consolidated – Database design: ER + application vs. star + subject – View: current, local vs. evolutionary, integrated – Access patterns: update vs. read-only but complex queries
OLTP vs. OLAP OLTP
OLAP
users
clerk, IT professional
knowledge worker
function
day to day operations
decision support
DB design
application-oriented
subject-oriented
data
current, up-to-date detailed, flat relational isolated repetitive
historical, summarized, multidimensional integrated, consolidated ad-hoc lots of scans
unit of work
read/write index/hash on prim. key short, simple transaction
# records accessed
tens
millions
#users
thousands
hundreds
DB size
100MB-GB
100GB-TB
metric
transaction throughput
query throughput, response
usage access
complex query
Mengapa Memisahkan Datawarehouse • High performance for both systems – DBMS— tuned for OLTP: access methods, indexing, concurrency control, recovery – Warehouse—tuned for OLAP: complex OLAP queries, multidimensional view, consolidation.
• Different functions and different data: – missing data: Decision support requires historical data which operational DBs do not typically maintain – data consolidation: DS requires consolidation (aggregation, summarization) of data from heterogeneous sources – data quality: different sources typically use inconsistent data representations, codes and formats which have to be reconciled
Model Konseptual dari Datawarehouse • Modeling data warehouses: dimensions & measures – Star schema: A fact table in the middle connected to a set of dimension tables – Snowflake schema: A refinement of star schema where some dimensional hierarchy is normalized into a set of smaller dimension tables, forming a shape similar to snowflake – Fact constellations: Multiple fact tables share dimension tables, viewed as a collection of stars, therefore called galaxy schema or fact constellation
Contoh dari Star Schema time
item
time_key day day_of_the_week month quarter year
Sales Fact Table time_key item_key
item_key item_name brand type supplier_type
branch_key location
branch
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
location_key street city province_or_street country
Contoh Snow Flake Schema time time_key day day_of_the_week month quarter year
item Sales Fact Table time_key item_key
item_key item_name brand type supplier_key
supplier supplier_key supplier_type
branch_key location
branch
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
location_key street city_key
city city_key city province_or_street country
Contoh Fact Constellation time time_key day day_of_the_week month quarter year
item Sales Fact Table time_key
item_key item_name brand type supplier_type
item_key
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
time_key item_key shipper_key from_location
branch_key branch
Shipping Fact Table
location
to_location
location_key street city province_or_street country
dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type
Tiga Model Data Warehouse • Enterprise warehouse – Mengumpulkan semua informasi tentang subjek-subjek yang menjangkau seluruh organisasi • Data Mart – Sebuah subset dari corporate-wide data yang berguna untuk kelompok pengguna tertentu. Ruang lingkupnya lebih spesifik seperti marketing data mart • Independent vs. dependent (directly from warehouse) data mart
• Virtual warehouse – Sekumpulan view atas database-databases operational – Hanya beberapa dari view yang mungkin yang dapat diwujudkan
Penggunaan Data Warehouse • Pemrosesan informasi – supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs • Analytical processing – multidimensional analysis of data warehouse data – supports basic OLAP operations, slice-dice, drilling, pivoting • Data mining – knowledge discovery dari pola-pola tersembunyi – supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools.
Dari OLAP ke OLAM (OnLine Analytical Mining) • Why online analytical mining? – High quality of data in data warehouses • DW contains integrated, consistent, cleaned data – Available information processing structure surrounding data warehouses • ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools – OLAP-based exploratory data analysis • mining with drilling, dicing, pivoting, etc. – On-line selection of data mining functions • integration and swapping of multiple mining functions, algorithms, and tasks.
• Architecture of OLAM
Contoh Arsitektur OLAM Mining query
Mining result
Layer4 User Interface
User GUI API
OLAM Engine
OLAP Engine
Layer3 OLAP/OLAM
Data Cube API Layer2
MDDB
MDDB Meta Data
Filtering&Integration
Database API
Filtering
Layer1 Data cleaning
Databases
Data integration
Data Warehouse
Data Repository
Data Mining • Istilah Data mining digunakan untuk mendeskripsikan penemuan pengetahuan (knowledge) dalam database. • Data mining merupakan proses yang menggunakan teknik, statistik, matematik, kecerdasan buatan dan machine-learning untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan dari database yang besar.
Kovergensi dari Tiga Teknologi
Metode Data Mining (1) • Data mining mencoba menemukan pola dalam data. • Ada tiga jenis metode yang digunakan untuk indentifikasi pola tersebut: – Simple models (SQL, OLAP, keputusan manusia). – Intermediate models (regresi, decision trees, clustering). – Complex models (neural network, dsb)
Metode Data Mining (2), Complex Model • Text Mining: – Library database, e-mails, book stores, Web pages.
• Spatial Data Mining: – Geographic information systems, medical image database.
• Multimedia Mining: – Image and video/audio databases.
• Web Mining: – Unstructured and semi-structured data – Web access pattern analysis
Metode Data Mining (3) • Metode data mining dapat pula dikategorikan ke dalam 2 kategori: – Hypotesis-driven. Data mining dimulai dari pernyataan yang kemudian diuji. Mis: “Apakah penjualan DVD player berkaitan dengan penjualan televisi?” – Discovery-driven. Data mining mencari pola, asosiasi, dan hubungan antar data yang akhirnya dapat memberikan informasi lebih.
Tingkatan Model • Beberapa model lebih baik dari model lainnya – Accuracy – Understandability
• Model-model tersebut bervarias dari “easy to understand” ke tidak dapat dipahami – Decision trees – Rule induction – Regression models – Neural Networks
Lebih mudah
Lebih sulit
Langkah-langkah Data Mining • Seleksi. Memilih data. • Preprocessing. Mengatasi masalah data rusak atau hilang. • Transformasi. Menyeragamkan format data. • Data mining. Menerapkan algoritma data mining. • Interpretasi/evaluasi. Evaluasi hasil.
Fungsionalitas Data Mining (1) • Karakterisasi (Characterization): Summarization of general features of objects in a target class. ( Concept description) Ex: Characterize grad students in Science
• Diskriminasi (Discrimination): Comparison of general features of objects between a target class and a contrasting class. (Concept comparison) Ex: Compare students in Science and students in Arts
Fungsionalitas Data Mining (2) • Asosiasi (Association): Studies the frequency of items occurring together in transactional databases. Ex: buys(x, bread) buys(x, milk).
• Prediksi (Prediction): Predicts some unknown or missing attribute values based on other information. Ex: Forecast the sale value for next week based on available data.
Fungsionalitas Data Mining (3) • Klasifikasi: – Organizes data in given classes based on attribute values. (supervised classification) – Ex: Labeling celestial objects, medical diagnostic, …
• Clustering: – Organizes data in classes based on attribute values. (unsupervised classification) – Ex: group crime locations to find distribution patterns. – Minimize inter-class similarity and maximize intraclass similarity Similarity or dissimilarity-function ( distance)
• Outlier analysis: – Identifies and explains exceptions (surprises) – Ex: fraud detection, rare event analysis
Contoh Aplikasi Data Mining • Marketing: mensegmentasi pelanggan secara demografis. • Polisi: melacak pola kriminal, lokasi, perilaku kriminal dan sebagainya untuk membatu memecahkan kasus kriminal. • Pabrikasi/Produksi: memperkirakan waktu kegagalan mesin, menemukan faktor-faktor penentu yang mengontrol optimisasi kapasitas pabrikasi.