Správa dat v podniku
MI-DSP – 2013/14 RNDr. Ondřej Zýka,
[email protected]
Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku – Něco z historie – Řízení dat na úrovni podniku – Data management a kategorizace dat
Historie o Relační model – Edgar Frank Codd – 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks – Relační model – matematický model pro ukládání a správu dat – Tří hodnotová logika • True, False, Unknown
o SQL – 1970 - Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh – 1979 – první komerční implementace Oracle V2 (Relation software)
Historie 1969 – Codd - Relační model 1970 – Chamberlin, Boyce – SQL 1979 – Oracle 2, basic SQL, no transaction Založení Teradata 1980 – HW - První gigabajtový disk, váha 250 kg, cena $40,000 1981 – HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 – Oracle 3 - transaction 1984 – Oracle 4 – read-consistency 1984 – Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 1985 – Oracle 5 – networking, client-server 1986 – HW - Standartizace SCSI 1988 – Oracle 6 – PL/SQL, row level locking, hot backup 1987 – Sybase - formally released the SYBASE, Client-server, Transact SQL,
Historie 1988 – Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku 86) Teradata ve spolupráci NCR uvádí databázový počítač 1991 – HW – 2.5" 100MB disk 1992 – Oracle 7 – referencial integrity, triggers 1993 – Microsoft – Win NT 4.21 1993 – Sybase/Microsoft – ukončení smlouvy 1995 – Microsoft SQL Server 6.0 1998 – Sybase 11.9.2 – row-lewel locking 1998 – Microsoft SQL Server 7.0 1999 – Oracle 8i – java Teradata- největší zákaznická produkční databáze 130 TB 1999 – HW – IBM 170MB a 340MB disky 2000 – Microsoft SQL Server 2000 2001 – Oracle 9i – XML, RAC
2001 – Sybase 12.5 – XML, EJB 2003 – Oracle 10 – grid computing, flash back 2003 – Windows Server 2003 - 64-bit system - překročení 2GB RAM 2005 – Sybase 15 – new query-optimalizator, Cluster edition 2005 – Microsoft SQL Server 2005 2005 – HW 500GB disk (Hitachi GST) 2007 – Oracle 11 – Exadata 2007 – HW – 1TB disk (Hitachi GST) 2008 – SQL Server 2008 2009 – HW – SSD – nyní 64 GB 300MB/sec (3000MB/sec.) 2010 – Microsoft SQL Server 2008R2 Oracle kupuje SUN SAP kupuje Sybase EMC kupuje Greenplum IBM kupuje Netezza
Diskové kapacity (Wikipedia)
Historie o Další vlivy na vývoj – – – – –
Operační systémy a jejich unifikace Procesory – zejména IBM, SUN, HP Diskové pole – RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém
Data v organizaci o Desítky (stovky) systémů – Každý systém pracuje s daty – Většina systémů má data v databázi (relační) – Většina systémů vyměňuje data s jinými systémy
o Data jsou cenným majetkem organizace – Jako budovy, stroje, lidé, … – Vyžadují správu – Data managament
Velikost dat
10
Různorodost dat
11
Rychlost změny
12
Zákazníci a uživatelé
ODS Operační data
Datová kvalita
MDM
Integra ce
DWH Jednotný model Kompletní historie Integrovaná data
Byznys, technologická a provozní metadata Governance – pravidla, organizační struktura, procesy
Prostředí datově orientovaného systému Etapy životního cyklu
Komponenty
Skupiny uživatelů
Vlastníci aplikace
Plánování
Aplikační programy
Vývoj
Interface
Testování
DBMS
Provozování
Data
Udržování
Hardware
Ukončení používání
Architekti (IT, Aplikační, …) Datový architekt Vývojáři Administrátoři databází Systémoví administrátoři Koncoví uživatelé
Data management Data Management International www.dama.org
Data management o Pravidla – – – – – – –
Zodpovědnosti Pravidla pro vývoj Jmenné konvence Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla
o Procesy – – – –
Plánovací Řídící Vývoj Provoz
o Technologie – – – –
Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí
Kategorizace dat o Organizační struktury – – – – – – –
Vlastníci dat (Data owner) Data Stewardship Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři
o Kultura organizace o Plán vývoje a údržby – IT architektura – Datová architektura
Information Capability Framework Gartner, www.gartner.com
Malcolm Chisholm: The 6 Layers of Data
Podle struktury o Strukturovaná – Data s přesně definovanou strukturou – Uložená v databázích (relačních)
o Semistrukturovaná – – – –
Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message
o Nestrukturovaná data – Dokumenty Smlouvy Objednávky Předpisy – Email – Obsah webů – Prezentace
DAMA – DMBOK Guide
Hierarchie moudrosti o Russell Ackoff (1989) – Data – Informace Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? Pochopení vztahů – Znalosti Porozumění jak? Pochopení vzorců – Moudrost Porozumět proč? Pochopení principů
Co si zapamatovat o Co to je data management o Z jakých oblastí se skládá řízení dat o Co to "Information Capability Framework" a které základní schopnosti jsou nutné pro správu a využití dat o Jaké dělení dat v organizaci se používají o Jaký je rozdíl mezi daty, informacemi a znalostmi
www.profinit.eu
Diskuse