Správa dat v podniku RNDr. Ondřej Zýka
1
Obsah • Důležité oblasti pro správu, uchovávání a využívání dat v podniku • • • • • •
Něco z historie Řízení dat na úrovni podniku Data management a kategorizace dat Datová kvalita Datové toky Metadata
2
Historie • Relační model • Edgar Frank Codd • 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks • Relační model – matematický model pro ukládání a správu dat • Tří hodnotová logika • True, False, Unknown
• SQL • 1970 - Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh • 1979 – první komerční implementace Oracle V2 (Relation software)
3
Historie 1969 – Codd - Relační model 1970 – Chamberlin, Boyce – SQL 1979 – Oracle 2, basic SQL, no transaction 1980 – HW - První gigabajtový disk, váha 250 kg, cena $40,000 1981 – HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 – Oracle 3 - transaction 1984 – Oracle 4 – read-consistency 1984 – Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 4
Historie 1985 – Oracle 5 – networking, client-server 1986 – HW - Standartizace SCSI 1988 – Oracle 6 – PL/SQL, row level locking, hot backup 1987 – Sybase - formally released the SYBASE, Client-server, Transact SQL, 1988 – Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku 86) 1991 – HW – 2.5" 100MB disk 1992 – Oracle 7 – referencial integrity, triggers 1993 – Microsoft – Win NT 4.21 1993 – Sybase/Microsoft – ukončení smlouvy 5
Historie 1995 – Microsoft SQL Server 6.0 1998 – Sybase 11.9.2 – row-lewel locking 1998 – Microsoft SQL Server 7.0 1999 – Oracle 8i – java 1999 – HW – IBM 170MB a 340MB disky 2000 – Microsoft SQL Server 2000 2001 – Oracle 9i – XML, RAC 2001 – Sybase 12.5 – XML, EJB 2003 – Oracle 10 – grid computing, flash back
6
Historie 2003 – Windows Server 2003 - 64-bit system překročení 2GB hranice RAM 2005 – Sybase 15 – new query-optimalizator, Cluster edition 2005 – Microsoft SQL Server 2005 2005 – HW 500GB disk (Hitachi GST) 2007 – Oracle 11 – Exadata 2007 – HW – 1TB disk (Hitachi GST) 2008 – SQL Server 2008 2009 – HW – SSD – nyní 64 GB 300MB/sec (3000MB/sec.) 2010 – Microsoft SQL Server 2008R2 7
Diskové kapacity (Wikipedia)
8
Historie • Další vlivy na vývoj • • • • •
Operační systémy a jejich unifikace Procesory – zejména IBM, SUN, HP Diskové pole – RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém
9
Data v organizaci • Desítky (stovky) systémů • Každý systém pracuje s daty • Většina systémů má data v databázi (relační) • Většina systémů vyměňuje data s jinými systémy
• Data jsou cenným majetkem organizace • Jako budovy, stroje, lidé, … • Vyžadují správu – Data managament
10
Data management • Pravidla • •
Zodpovědnosti Pravidla pro vývoj •
• • • •
Jmenné konvence
Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla
• Procesy • • • •
Plánovací Řídící Vývoj Provoz
• Technologie • • • •
Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí
11
Kategorizace dat • Organizační struktury • • • • • •
Vlastníci dat (Data steward) Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři
• Kultura organizace • Plán vývoje a údržby • IT architektura • Datová architektura
12
Hierarchie moudrosti • Russell Ackoff (1989) • Data • Informace • Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? • Pochopení vztahů
• Znalosti • Porozumění jak? • Pochopení vzorců
• Moudrost • Porozumět proč? • Pochopení principů
13
DAMA – DMBOK Guide
14
Podle struktury • Strukturovaná • Data s přesně definovanou strukturou • Uložená v databázích (relačních)
• Semistrukturovaná • • • •
Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message
• Nestrukturovaná data • Dokumenty • Smlouvy • Objednávky • Předpisy
• Email • Obsah webů • Prezentace
15
Malcolm Chisholm: The 6 Layers of Data
16
Datová kvalita • Vlastnost dat, která není daná jejich strukturou nebo uložením • Podstatná vlastnost pro hodnotu dat • Malá vypovídací hodnota • Chybné výsledky
• Může se měnit časem bez zásahu do dat • Deset let starý telefonní seznam má malou datovou kvalitu
17
Datová kvalita
“Data are of high quality if those who use them say so.” “Data quality is not a concept that makes sense „in the average‟.”
Thomas C. Redman: Data quality: the field guide
18
Datová kvalita • Co má vyšší kvalitu, VW Brouk nebo Cadillac? • • • •
VW má méně závad Cadillac je luxusnější, lépe se řídí VW potřebuje menší prostor na zaparkování Cadillac je pohodlnější, vejde se do něho více zavazadel • Brouk má menší spotřebu • Různí uživatelé mají různé požadavky. • Kvalita je ovlivněna osobním pohledem. Poměrně málo lidí se obtěžuje analýzou publikovaných statistik. 19
Datová kvalita • Dodavatelé dat obecně nemají moc důvodů produkovat bezchybná data. • Nekvalitní data vytváří nesmírnou frustraci uživatelů dat. • Kvalita dat se nedá dosáhnout pouze prostředky IT systémů. •
[email protected] • Rodné číslo
20
Jak vyčistit jezero • 1. přístup • Ignorujte znečištění • Potrestejte každého, kdo onemocní po užití vody z jezera
• Přeneste problém na uživatele.
21
Jak vyčistit jezero? • 2. přístup
• 3. přístiup
• Přefiltrujte vodu • Odstraňte nečistoty • Vraťte vodu do jezera
• Filtrujte malé množství vody každý den • Filtrujte přitékající vodu • Filtrujte vodu kterou budete používat
• Jednorázové vyčištění
• Použití pouze aktuálních dat • Nasazení nástrojů 22
Jak vyčistit jezero? • 4. přístup • Najděte znečišťovatele • Odstraňte je nebo je upravte tak aby neprodukovali znečištění
• Předcházení budoucích chyb
23
Datová kvalita • Závěr • • • • •
Neexistuje jednoduché řešení Nutná spolupráce IT i uživatelů IT procesy (integrace) často „znečišťují“ data Je nutné „měřit“ kvalitu dat Je nutné mít popsaná data (existence metadat) • Data nevypadají tak, jak jsem očekával
24
Metadata • Metadata jsou data popisující data. Mohou být reprezentovány jednoduchým popisem, ale také složitou strukturou. • Metadata jsou strukturované informace, které nám umožňují najít informace o datech, spravovat je, kontrolovat je a porozumět jim. • Příklady • Informace o datových entitách v databázi • Informace o jednotlivých záznamech • Dokumenty – autor, abstrakt, obsah, klíčová slova, dostupnost, platnost, … • Fotografie – místo pořízení, velikost, formát uložení, …
• Informace o datových fragmentech • Tagy v XML
25
Chybějící metadata
26
Informace o datových entitách •
Popisná metadata •
•
Definiční role metadat
Administrativní metadata • • •
Jak často se mění, Jak moc jsou důležitá, Kdo je za data zodpovědný • • •
vlastník, bezpečnost, zálohování, …
• Strukturální metadata • • • •
Datové typy, Datové konvence, Vazby mezi entitami, Validační pravidla, …
• Technická metadata • • • • • •
Databáze, Schema, Synonyma, Přístupová práva, Partitioning, Fyzické parametry uložení 27
Informace o datových entitách • Aplikační metadata • Vazba na aplikace, • • • •
Název polí ve formulářích, Požadavky na zobrazení, Validační pravidla na úrovni aplikací, Které reporty data používají, • Definice reportů, • Další vlastnosti reportů
• Vazby mezi aplikacemi • Jak se data předávají mezi aplikacemi • ETL procesy • Vazby mezi jednotlivými entitami • Statické • Dynamické
28
Práce s metadaty • Shromažďování • Automatické • Ruční
• Integrace a ukládání • Metadata management systems
• Analýza • Prezentace • Definice • Modely • Transformace
29
Metadata - analýza • Historie • Kdo a kdy naposledy upravil proceduru procedure_name tak, že nepoužívá tabulku table_name?
• Data Lineage • Upstream • Které aplikace používají centrálních číselník měn?
• Downstream • Která všechna data se podílejí na ohodnocení spolehlivosti dodavatele?
• Inpact analysis • Které všechny tabulky a aplikace se budou muset upravit, když přejdeme z kódování ISO88592 na kódování UTF8? • Pokud místo Y/N začneme používat A/N, co všechno musíme zkontrolovat?
30
Metadata - analýza • Lineage analýza
• Katalóg
Where – used analýza
31
Literatura • Ackoff, Russell (1989). "From Data to Wisdom". Journal of Applied Systems Analysis 16: 3–9. • http://www.dama.org • http://www.datagovernance.com/ • http://www.dqguide.com/ • Thomas C. Redman: Data quality: the field guide
32