Dimenze datové kvality a nástroje a metody pro její zlepšování v podniku Martin Vacek Katedra Informačních Technologií VŠE v Praze, nám. W. Churchilla 4, 130 67 Praha 3 e-mail:
[email protected] Abstrakt: Datová kvalita je stále jedním z opomíjených faktorů, které mají vliv na efketivitu firemních procesů. Tento článek blíže popisuje problematiku a úskalí datové kvality a možnosti jejího zlepšování v prostředí firem. V textu je nejprve definována oblast datové kvality, dále pak její jednotlivé dimenze. V další části jsou uvedeny nástroje a postupy, které tyto dimenze ovlivňují a s kterými přišel autor do styku. Několik postupů je vybráno a blíže popsáno. Opatření vycházejí z odborných článků a odborných zkušeností autora. Poslední kapitola pak podává souhrnné doporučení na základě zjištění plynoucích z textu. Klíčová slova: datová kvalita, podniková informatika, dimenze, řízení podnikové informatiky Abstract: Data quality is still being one of the overlooked factors that have impact on business process efficiency. This article closely describes the topic and difficulties of data quality and its management in enterprise environment. Firstly the data quality subject area is defined as well as its dimensions. Following are tools and procedures that affect these dimensions and that author has previous experience with. Some of measures are picked and closely described. These measures are based on various journal articles and author's own professional experience.The last chapter gives a summary of recommendations based on the findings of the text. Keywords: data quality, business informatics, dimensions, management of business informatics
1. Datová kvalita Datová kvalita je termín popisován řadou významově velmi podobných, avšak různě komplexních a úplných definic. Jako příklad lze uvést definici dle (FRANCALANCI, Ch. and Pernici, B., 2004) "Datová kvalita je multi-dimenzionální koncept a každá dimenze datové kvality je specificky vztažena k určitému aspektu dat, jako jsou datové pohledy, hodnoty dat a reprezentace dat". Datová kvalita popisuje vhodnost použití dat pro daný účel. Též lze říci, že se jedná o "metriku, kterou lze měřit hodnotu dat pro podnik" (DATA FOR DEVELOPMENT, INC, 2011). Důležitost datové kvality si v dnešní době uvědomují i CEO velkých společností (REDMAN, T., 2001), kde tento pojem již neznamená velkou neznámou, kterou se zabývají IT odborníci, ale stále více je do jejího řízení zapojován business.
1.1 Dimenze datové kvality Dle (MONICA SCANNAPIECO, Paolo Missier, Carlo Batini, 2005) lze rozlišovat následující dimenze datové kvality:
44
SYSTÉMOVÁ INTEGRACE 3/2013
Dimenze datové kvality a nástroje a metody pro její zlepšování v podniku
1. Přesnost(Accuracy) 2. Úplnost (Completeness) 3. Konzistence (Consistency) 4. Včasnost (Timeliness) 5. Aktuálnost (Currency) 6. Nestálost (Volatility) Přesnost určuje, do jaké míry data správně odráží skutenčost. U problémů s daty v této dimenzi se pak rozlišuje: Syntaktická nepřesnost (např. překlepy, vynechaná písmena) Semantická nepřesnost (např. prohození jména a příjmení, nebo zcela jiné příjmení) Úplnost dle (WANG, R. Y. and Madnick, S., 1989) znamená "míru, v rámci které mají data dostatečnou šířku, hloubku a rozsah za účelem daného úkolu". Lze tedy říci, že data jsou úplná relativně v závislosti na účelu, pro jaký mají být v dané situaci využita. Její míra se proto může měnit nejen v závislosti na změnách dat, ale i na změnách požadavků na ně. Konzistence, jak uvádí (BUSS, Christine, 2009) je "úroveň, do které data napříč různými zdroji odpovídají stejným definicím, kódům a formátům". Významově velmi podobnou definici uvádí (PETKOV, P. and Helfert, M., 2012): "Hodnoty dat přetrvávají mezi datovým elementem jednoho datového zdroje a datovým elementem druhého datového zdroje". Jinými slovy lze konzistenci v kontextu datové kvality definovat jako neměnnost formy a obsahu dat popisujících stejný objekt reality napříč jednotlivými datovými zdroji. Včasnost je dimenze, která sleduje, zda business uživatelé vybraná data získají včas pro splnění jejich úkolu (BATINI, C. and Scannapieca, M., 2006). V praxi se může jednat o možnost koupi výhodných akcií v případě, že obchodník dostane včas informace o jejich ceně. Aktuálnost určuje, jak často jsou data aktualizována, resp. jak dlouho trvá, než se změna v reálném světě odrazí v uložených datech (AMERICAN Health Information Management Association, 2012). Příkladem může být aktualizace počtu dílů knižní ságy v databázi knih po vydání nového dílu. Nestálost je dána frekvencí, jak často se data mění v čase. Dle (MONICA SCANNAPIECO, Paolo Missier, Carlo Batini, 2005) se hodnoty jako např. rodné číslo nemění skoro vůbec až nikdy v rámci životního cyklu záznamu v databázi, a tudíž mají úroveň nestálosti nízkou. Opakem jsou data o pohybu kurzů akcií, která je třeba sledovat prakticky v reálném čase. Jednotlivé dimenze datové kvality jsou vzájemně propojeny. Pokud budeme některou z nich opomíjet, nebo naopak nadměrně prosazovat, může to mít negativní dopad na některou, případně i všechny ostatní.
1.2 Další dimenze datové kvality Dimenze zmíněné v kapitole 1.1 jsou obecně použitelné pro podniková data. Řada autorů a přístupů však dále definuje dodatečné dimenze použitelné pro specifické sektory, systémy, tematické oblasti aj. předmětné oblasti dat. Přehled takových SYSTÉMOVÁ INTEGRACE 3/2013
45
Martin Vacek
dimenzí od uznávaných autorů lze nalézt např. v Tab. 1 - Přehled rozšířených dimenzí datové kvality, zdroj (MONICA SCANNAPIECO, Paolo Missier, Carlo Batini, 2005), kde jednotlivé řádky reprezentují dimenze a sloupce autory spolu s ročníkem. Tab. 1 - Přehled rozšířených dimenzí datové kvality, zdroj (MONICA SCANNAPIECO, Paolo Missier, Carlo Batini, 2005)
Přesnost Úplnost Konzistence Časově orientované dimenze Interpretovatelnost Pochopitelnost Spolehlivost Kredibilita Uvěřitelnost Reputace Objektivita Relevantnost Přístupnost Bezpečnost Přiadaná hodnota Stručná reprezentace Množství Dostupnost Portabilita Čas odezvy
WandWang 1996 X X X X
WangStrong 1996 X X X X
X X
Redman 1996 X X X X
Jarke 1999 X X X X
X
X X X X X X X X X X
Bovee 2001 X X X X
X
X
X X
X
X X X
X X
X X
X X X
2. Metody a nástroje zvyšování datové kvality První čtyři výše uvedené dimenze v kapitole 1.1 patří, jak uvádí (BLAKE, R. and Mangiameli, P., 2011), mezi nejdůležitější dimenze pro uživatele dat a to jak z pohledu transakčních systémů, tak z pohledu užití těchto dat v datových skladech. Jak je lze pak ovlivnit metodami a nástroji, je uvedeno v této kapitole.
2.1 Přesnost Úroveň syntaktické přesnosti lze v některých případech zvýšit využitím slovníků spolu s profilací dat. Data v jednotlivých sloupcích jsou porovnávána se seznamem možných hodnot a odchylky jsou reportovány. Nejedná se o metodu se stoprocentní účinností, 46
SYSTÉMOVÁ INTEGRACE 3/2013
Dimenze datové kvality a nástroje a metody pro její zlepšování v podniku
nicméně, lze ji provést bez zvláštního software s pomocí SQL příkazu. Číselník možných údajů je nahrán do separátní tabulky, na kterou se pomocí klauzule JOIN napojí kontrolovaná tabulka. Tento proces lze provést i mimo databázi, například pomocí funkcí jako je VLOOKUP (SVYHLEDAT) v programu MS Excel. Výsledkem správně formulovaného dotazu mohou vzniknout množiny dat, které: Se podařilo napárovat Se nepodařilo napárovat K tomuto účelu lze použít i některé aplikace určené pro analýzu kvality a profilaci dat, které jsou zmíněny v dalších kapitolách. Identifikované problémy lze pak manuálně, případně automaticky opravit. Kontrola semantické přesnosti dat je náročnější, protože mj. vyžaduje, aby specialista provádějící kontrolu data znal, tzn. chápal jejich význam v prostředí podniku. Tento proces lze těžko automatizovat, protože je zde potřeba provést srovnání s daty, u kterých se má za to, že jsou správná, nebo která mají větší důvěryhodnost. Může se jednat např. o srovnání dat o obchodních smlouvách proti jejich papírové formě (originálu), případně lze srovnávat odpovídající záznamy mezi systémy. Tuto metodu lze využít i ke kontrole konzistence.
2.2 Úplnost Jednou ze základních možností, jak zajistit určitou minimální úroveň úplnosti, je proaktivní nastavení vybraných položek jako povinných. Toto opatření je však dvojsečné, protože v situacích, kdy údaj není dostupný, jsou uživatelé nuceni zadávat falešné, nebo tzv. "dummy" hodnoty. Pokud byla provedena správná analýza systému při nastavování povinnosti, byla tato situace identifikována jako možná a měl být navrhnut a komunikován postup, jak ji řešit. Často to bývá právě určení jedné přípustné dummy hodnoty, která danou situaci zastupuje a vysvětluje. Jako příklad lze uvést hodnotu "+999 999 999 999" u kolonky telefonního čísla, která může mít význam "není k dispozici". Pokud takový postup není uživateli znám, může se v systému začít hromadit řada individuálně volených hodnot, což sice povede k větší vyplněnosti, avšak razantně se tím sníží semantická přesnost a obecně použitelnost dat. Reaktivně lze takové hodnoty relativně snadno identifikovat opět za použití SQL a klauzulí count a group by, nebo nasadit některý z nástrojů profilace dat. Profilací lze identifikovat mj. často se opakující údaje. Jedním takovým nástrojem je DQ Analyzer společnosti Ataccama. Příklad výstupu analýzy datové kvality lze vidět na Obr. 1 Výstup analýzy datové kvality aplikace Ataccama DQ Analyzer. Zdroj (ATACCAMA CORPORATION, 2013), kde je zobrazena graficky i tabulkou četnost a poměr na celku nevyplněných, jedinečných a duplicitních hodnot. Zobrazený report umožňuje identifikovat problémy hned v rámci několika dimenzí.
SYSTÉMOVÁ INTEGRACE 3/2013
47
Martin Vacek
Obr. 1 - Výstup analýzy datové kvality aplikace Ataccama DQ Analyzer. Zdroj (ATACCAMA CORPORATION, 2013)
2.3 Konzistence K dosažení konzistence dat slouží řada metod pracujících s daty na různých úrovních celkové architektury IS podniku. Prakticky se jedná o centralizaci vybraných typů dat (klientská data, číselníky, metadata apod.). K takovým přístupům patří např. master data management a datová integrace. Tyto dva termíny mohou být a jsou v řadě případů v praxi zaměňovány. Vhodným způsobem je rozlišuje (BROMLEY, Andy, 2012), kde se uvádí, že datová integrace znamená přenesení dat z jednoho systému do druhého, případně jejich centralizace, čímž se stává součástí master data management procesu, který sestává z dalších kroků (čištění dat, deduplikace, konsolidace, obohacení (angl. Enrichment)). Jako nástroj pro podporu a zvyšování úrovně konzistence dat v podniku lze opět uvést produkt společnosti Ataccama, kterým je Master Data Center. Tento nástroj obsahuje několik předdefinovaných modelů řízení dat a jeho architektura umožňuje pracovat při vysoké zátěži, kterou dokáže transakční prostředí generovat (ATACCAMA CORPORATION, 2013). Alternativou může být některý z produktů společnosti Informatica.
2.4 Včasnost V otázce včasnosti se může na první dojem zdát, že se jedná o hardware. Dnešní vybavení a parametry cenově dostupných infrastrukturních řešení dřívější handicap v trvání zpracování dat značně snížil, naopak se ve velkých korporacích zvyšují rizika v procesech a řízení workflow. I kdyby původem nedostatečné míry včasnosti byl problém hardware, lze tento řešit koupí nového. V případě procesů se může jednat o časově i pracně náročnější řešení. V takových případech je třeba určit osoby a jejich role v organizaci, informace a data, která potřebují, stejně tak jako míru jejich potřeby a v neposlední řadě též prioritu. 48
SYSTÉMOVÁ INTEGRACE 3/2013
Dimenze datové kvality a nástroje a metody pro její zlepšování v podniku
2.5 Řízení datové kvality V praxi (především ve velkých společnostech) je řízení datové kvality již nějakou formou zaintegrováno do organizační struktury podniků - ať již jako rámec řízení postupně budovaný od samého počátku, nebo jako převzatý set metod a nástrojů, které vyvinuly, nebo dodaly, externí společnosti a odborníci. Ať už se jedná o jakékoliv řešení, v zásedě jde vždy mj. o identifikaci objektů datové kvality (databáze, tabulky/entity, číselníky, oblasti datového modelu, aplikace a další) a určení k nim odpovědných osob. Často se liší pojmenování těchto rolí, ale v zásadě na nejvyšší úrovni řízení je jedna, či více osob, které mají rozhodovací pravomoce různého rozsahu napříč všemi zmíněnými objekty. Může to být Data QualtyManager (TAYI, G.K. & Ballou, 1998). Tuto roli může též na určité vyšší úrovni zastávat tzv. data Governance Committee, která je složena z odpovědných zástupců jednotlivých oddělení.
3. Závěr Není pochyb o tom, že datová kvalita má vliv na chod společností. Tento pojem lze považovat za stav dat v informačním systému podniku i metriku, kterou se zjišťuje jeho míra. Jako pojem nepředstavuje však v problematice podnikové informatiky konečný článek. Pro řešení problémů spojených s ní i pro jejich předcházení je třeba užívat dle konkrétních podmínek v podniku vhodné metody a nástroje, které ovlivňují individuálně, nebo v synergii jednu i více jejích tzv. dimenzí. Mezi významné dimenze, na kterých se shodnou přední světoví autoři věnující se této problematice, patří přesnost, úplnost, konzistence, včasnost a aktuálnost. Ke zlepšení stavu těchto dimenzí se užívá široká škala nástrojů a metod (např. prosté SQL příkazy, aplikace pro profilaci a čištění dat, stanovení týmů nebo oddělení pro datovou a informační kvalitu). Jejich rozsah a frekvence nasazení by měly odrážet reálné potřeby společnosti a měly by mj. být přiměřené finančním možnostem, potenciálním přínosům, velikosti podniku, počtu systémů. Stejně tak by cíle takových zásahů měly podporovat obchodní a IT strategii. Před zaváděním jakýchkoliv opatření je proto třeba provést odpovídající analýzu současného stavu, aby se předešlo neadekvátně dimenzovaným opatřením. Příkladem nepřiměřeného řešení je vybudování kompetenčního oddělení a koupě komplexní aplikace pro datovou kvalitu v malém podniku, který využívá pouze dvě klíčové aplikace a čítá do 20 zaměstnanců. V databázi podniku jsou uloženy objemy dat v řádu stovek MB s měsíčním přírůstkem řádově desítek MB. Takový přístup by byl velmi předimenzovaný, míra přínosů by se zdaleka nerovnala nákladům spojených s pořízením aplikace a mezd celého oddělení odborníků na datovou kvalitu. Čím více roste objem dat ve společnosti, počet klíčových systémů, provozovaných platforem a uživatelů, tím více je třeba vyhrazovat prostředky specificky za účelem řešení oblasti kvality dat.
SYSTÉMOVÁ INTEGRACE 3/2013
49
Martin Vacek
Literatura a zdroje AMERICAN Health Information Management Association. 2012. Data Quality Management Model (Updated). Journal of AHIMA. 83(7), pp.62-71 ATACCAMA CORPORATION. 2013. DQ Analyzer Overview. [online]. [Accessed 11 Květen 2013]. Available from World Wide Web:
ATACCAMA CORPORATION. 2013. MDC Overview. [online]. [Accessed 25 Květen 2013]. Available from World Wide Web: Batini, C., Scannapieca, M. 2006. Data Quality. New York: Springer Blake, R., Mangiameli, P. 2011. The Effects and Interactions of Data Quality and Problem Complexity on Classification. Data and Information Quality. 2, p.28. Bromley, A. 2012. The Cloud Master Data Management Blog from Informatica formerly Data Scout. [online]. [Accessed červen 2013]. Available from World Wide Web: < http://info.data-scout.com/blog/bid/133369/The-difference-between-Data-Integrationand-Master-Data-Management > Buss, Christine. 2009. Ensuring Metrics Data Quality and Consistency. [online]. [Accessed květen 2013]. Available from World Wide Web: DATA FOR DEVELOPMENT, INC. 2011. What is Data Quality?. [online]. [Accessed duben 2013]. Available from World Wide Web: < http://www.dfdi.com/whatisdq.htm > Francalanci, Ch., Pernici, B. 2004. Data quality assessment from the user's perspective. In: Proceedings of the 2004 international workshop on Information quality in information systems. New York, pp.68-73 Scannapieco, M., Missier, P., Batini, C. 2005. Data Quality at a Glance. DatenbankSpektrum, pp.7-10 Petkov, P., Helfert, M. 2012. Data oriented challenges of Service Architectures. In: CompSysTech. Ruse, Bulharsko: International Conference on Computer Systems and Technologies, pp.163-170 Redman, T. 2001. Data Quality: The Field Guide. Woburn: Digital Press. Tayi, G.K. & Ballou, D.P. 1998. Examining data quality. Communications of the ACM, pp.54-57. Wang, R. Y., Madnick, S. 1989. The Inter-database Instance Identification Problem in Integrating Autonomous Systems. In: 5th International Conference on Data Engineering. Los Angeles, Kalifornie, USA JEL Classification: L15, M15
50
SYSTÉMOVÁ INTEGRACE 3/2013