Návrh ROLAP databáze v zemědělském podniku: Transformace ekonometrického modelu do konceptuálního modelu dat 1
2
Tyrychtr Jan , Buchtela David , Havlíček Zdeněk
3
Česká zemědělská univerzita, Provozně ekonomická fakulta 1, 3 Katedra informačních technologií 2 Katedra informačního inženýrství E-mail:
[email protected],
[email protected],
[email protected] Abstrakt: Návrh datového skladu je složitý proces vyžadující znalost nejen technologií pro ukládání dat, ale i podnikových procesů, porozumění strukturám a chování systémových konceptuálních modelů. Vhodnost stávajících metod návrhu datových skladů v zemědělství je diskutabilní. V příspěvku je představena metoda pro transformaci ekonometrického modelu do konceptuálního modelu dat (TEM-KM) prostřednictvím snowflake schématu. Tato metoda umožní automatizovat proces převodu produkční funkce v zemědělství na konceptuální model dat a přispět tak k efektivnějšímu návrhu OLAP v zemědělských podnicích. Klíčová slova: TEM-KM, OLAP, ROLAP, produkční funkce, konceptuální návrh, ekonometrický model, snowflake schéma, databáze v zemědělství. Abstract: Design of a data warehouse is a complex process requiring knowledge of not only data storage technologies, but also business processes, understanding the behaviour of the system structures and conceptual models. The suitability of existing data warehouse design methods in agriculture is questionable. The paper presents a method for transforming an econometric model to a conceptual data model (TEM-KM) through a snowflake schema. This method allows automating the conversion process in the production function of agriculture on the conceptual data model and thus contributing to the efficient design of OLAP on farms. Keywords: TEM-KM, OLAP, ROLAP, production function, conceptual design, econometric model, snowflake schema, database in agriculture.
1. Úvod Interdisciplinární pojetí zemědělství vyžaduje velmi vysoké standardy pro správu dat. Zvláštní pozornost je nutné věnovat tvorbě provozních a analytických podkladů pro použití OLAP (Online Analytical Processing). OLAP popisuje přístup pro podporu rozhodování, jehož cílem je získat znalosti z datového skladu, nebo přesněji, z datových tržišť. [1] V současnosti existuje několik přístupů pro uložení analytických dat. Mezi nejvýznamnější patří tzv. multidimenzionální, relační, hybridní anebo desktop OLAP (více o této problematice pojednává publikace [2]). V tomto příspěvku je představena metoda TEM-KM pro uložení dat v relační OLAP (ROLAP). ROLAP je právě vhodná pro zemědělský podnik díky svojí flexibilitě ve vytváření ad-hoc dotazů a pro svoji schopnost pracovat s provozní databází, namísto vytváření datových skladů, a to i za cenu degrese účinnosti aplikace. V přístupu ROLAP, jsou data uložena v relační databázi pomocí speciálního schématu namísto tradičního relačního SYSTÉMOVÁ INTEGRACE 2/2012
51
Tyrychtr Jan, Buchtela David, Havlíček Zdeněk
schématu. Právě tento přístup je rozdílný oproti modelování OLTP (Online Transaction Processing) databází. OLTP je technologie uložení dat v tzv. provozní databázi, která podporuje operativní úroveň podniku. Na konceptuální a logické úrovni lze návrh ROLAP vymezit třemi základními činnostmi [1]: dimenzionální analýza a modelování, modelování datového skladu, a řešení změn v dimenzích. Multidimenzionální modelování [2], [3], [4], [5] je základem návrhu ROLAP řešení. V zemědělském podniku jsou ROLAP databáze spíše výjimkou. Přesto je v současnosti možné najít literaturu, která se tématem návrhu ROLAP databází v zemědělství zabývá. Příkladem je příspěvek [6] a [7], kteří popsali návrh OLAP databáze v odlišném aplikačním kontextu. Autoři zabývající se problematikou návrhu ROLAP databází neuvažují návrh v kontextu produkční (popř. nákladové) funkce. Autoři tohoto příspěvku považují za podnětné uvažovat v návrhu ROLAP databáze produkční funkci zemědělského podniku. Produkční funkce představuje vztah mezi velikostí vstupů (výrobních faktorů) a velikostí výstupů, které zemědělský podnik produkuje. Na základě identifikované produkční funkce je možné vytvořit multidimenzionální databázi pro sběr relevantních a objektivních dat. Ovšem pro tvorbu takové databáze je nutné transformovat produkční funkci na konceptuální model dat. Důvod výběru produkční funkce v řešení ROLAP je, že zemědělský podnik může provádět analytické zpracování sumarizovaných a agregovaných dat a pomoci odpovědět například na otázky: Jak velká byla celková produkce [v tis. Kč] zemědělského podniku v roce 2011? Jak velká byla produkce mléka [v kg] v zemědělském podniku v roce 2011? Jak velká byla produkce mléka [v kg] u holštýnského skotu v měsíci březnu roku 2011? Znalost produkční funkce v rámci Business Intelligence může zemědělským podnikům pomoci i v otázkách: O kolik se změní produkce při změně pracovní síly o jednotku? O kolik se změní produkce při změně výměry obhospodařované půdy o jednotku? Všechny tyto otázky mohou být zemědělským podnikem řešeny efektivně za pomocí ROLAP technologií. V procesu zavádění OLAP v zemědělském podniku je přesto nutné neopomenout fakt, že „přidaná hodnota ve využití IS/ICT a fungováním organizace je měřena jako míra inovace podnikových procesů a funkcí, kterou přináší zavedení IS/ICT“ [8]. U většiny databázových řešení je model dat nutné postupně formulovat (obrázek č. 1), tedy nejdříve vymezit jeho strukturu obecně. Obecným úkolem návrhu databáze je zmapovat daný reálný svět aplikace do formálního datového modelu daného systému pro správu databází [9]. Návrh databáze je proces, který produkuje sérii databázových schémat pro určitou aplikaci [10].
52
SYSTÉMOVÁ INTEGRACE 2/2012
Návrh ROLAP databáze v zemědělském podniku
Obrázek č. 1: Proces databázového návrhu [9]. Multidimenzionální modelování je proces modelování dat v universu diskursu pomocí modelovacích konstrukcí zajišťující vícerozměrný datový model. Stručně řečeno, MD modely kategorizují data, buď jako fakta asociovaná s numerickou mírou, nebo jako dimenze, která charakterizují fakta a jsou většinou textové (obrázek č. 2). Fakta jsou objekty, které představují předmět požadované analýzy, který má být analyzován pro lepší pochopení jeho chování. [11] MD modely v současné době nejčastěji vycházejí z relačního modelu dat, popřípadě jsou založeny na MD kostce. [12]
Obrázek č. 1 - Příklad datové kostky SYSTÉMOVÁ INTEGRACE 2/2012
53
Tyrychtr Jan, Buchtela David, Havlíček Zdeněk
MD model dat vycházející z relačního modelu odlišuje dva základní typy relací, které se nazývají tabulky dimenzí a tabulky faktů. Oba typy tabulek jsou databázové relace s určitými specifiky, které zohledňují cíl, pro který jsou určeny. Mohou vytvářet hvězdicové struktury (star schema), různé formy sněhových vloček (snowflake schema) a souhvězdí (constellation schema). [12] Problematika výběru vhodné struktury je řešena v příspěvku Leveneho [13].
2. Cíl a metodika příspěvku Cílem příspěvku je navrhnout novou metodu TEM-KM, která umožní transformovat ekonometrický model v zemědělství do konceptuálního modelu dat v procesu návrhu ROLAP databáze. V příspěvku je nejprve popsán formální zápis ekonometrického modelu a snowflake schématu prostřednictvím matematického aparátu. Následně je navržena nová metoda TEM-KM prostřednictvím formálních pravidel. V závěru příspěvku je nová metoda TEM-KM demonstrována na příkladu aplikace jednotlivých pravidel. Nakonec jsou formulovány závěry příspěvku a možnosti dalšího výzkumu návrhu ROLAP v zemědělském podniku.
3. Teoretická východiska 3.1 Formální reprezentace ekonometrického modelu Ekonometrický model (EKM) představuje matematický model, který je matematickostatistickou formulací ekonomické hypotézy. Vyjadřuje závislost ekonomických veličin na veličinách, které je podle hypotézy vysvětlují. Nejčastěji je v odborné literatuře využívána Cobb-Douglesova produkční funkce, kterou lze charakterizovat konstantní elasticitou výrobních faktorů, konstantní elasticitou substituce výrobních faktorů, neměnností výnosů z rozsahu mezi jednotlivými podniky ve zkoumaném souboru a konvexností izokvantové funkce směrem k počátku. [15] Cobb-Douglesova produkční funkce má následující obecný tvar [16], [15]: , kde
(1)
… množství výstupu, … množství l-tého, p-tého a k-tého vstupu, … parametry produkční funkce. V zemědělském prostředí je EKM velmi často tvořen více jak jednou rovnicí. V takovém modelu se vyskytují stochastické rovnice s náhodnou proměnnou a rovnice definiční (identitní). Jestliže máme EKM v symbolickém tvaru: [16]
, pak
54
(2)
SYSTÉMOVÁ INTEGRACE 2/2012
Návrh ROLAP databáze v zemědělském podniku
je endogenní proměnná s-tého druhu a její hodnota v období (1, 2, … g), t = (1, …, n).
, index s =
je r-tá exogenní proměnná s hodnotou v období
, kde počet exogenních proměnných je roven k, pak r = (1, 2, … k). Endogenní proměnné zpožděné vyjadřují působení proměnných z období z = (1, 2, …, t
z).
, kde
je náhodná proměnná v s-té rovnici vysvětlované endogenní
proměnné v období t.
je strukturní parametr v i-té rovnici modelu s-té nezpožděné
endogenní proměnné a
v i-té rovnici modelu r-té predeterminované proměnné.
Tedy mějme množiny Y a X, kde je konečná množina všech endogenních proměnných v modelu. je konečná množina všech exogenních proměnných v modelu. je množina strukturálních relací.
3.2 Formální reprezentace snowflake schématu Multidimenzionální model dat se může skládat z jednoho nebo více snowflake schémat. Schéma Snowflake je určeno pěticí (Ent, Key, Att, Ass, getKey), kde: Ent je konečná neprázdná množina entit modelu dat, Key je konečná neprázdná množina klíčů modelu dat, Att je konečná neprázdná množina atributů modelu dat, Fact
Ent je konečná množina samostatných entit bez snowflake schématu
Dim
Ent je konečná množina dimenzí entit
Každá entita e
Ent je popsána kolekcí klíčů a atributů, tj. platí:
getKey je funkce, která vrací klíče entit ve schématu snowflake, tj. platí:
Ass
(Dim
Fact) je konečná množina vztahů entit.
4. Návrh metody TEM – KM Fáze 1: Vytvoření základního snowflake schématu. Pravidlo 1.1: Vytvoření tabulky faktů do prázdného snowflake schématu pro každou endogenní proměnnou v ekonometrickém modelu. a Pravidlo 1.2: Vytvoření dimenzí do snowflake schématu pro každou exogenní proměnnou v ekonometrickém modelu. a SYSTÉMOVÁ INTEGRACE 2/2012
55
Tyrychtr Jan, Buchtela David, Havlíček Zdeněk
Pravidlo 1.3: Pokud existuje časová proměnná v ekonometrickém modelu, pak se vytvoří dimenze času. Fáze 2: Vytvoření vztahů mezi entitami v konceptuálním modelu. Pravidlo 2.1: Pokud existuje vztah mezi exogenní proměnnou x a endogenní proměnnou y a funkce getKey, která vrací množinu klíčů těchto proměnných, pak se vytvoří asociace mezi tabulkou faktů a dimenzí, pro kterou platí:
5. Aplikace pravidel TEM-KM Mějme EKM (2) a k němu zjednodušený významový příklad: … hrubá produkce rostlinné výroby v období t, … hrubá produkce živočišné výroby v období t, … hrubá produkce zemědělská v období t, … výše dotací (podpory), … základní výrobní fondy v rostlinné výrobě, … množství práce v rostlinné výrobě, … klimatické podmínky, … stavy hospodářských zvířat, … náhodná složka v období t, Uvedený příklad představuje situaci, kdy celková produkce zemědělského podniku je závislá na rostlinné produkci a živočišné produkci a pro každou z těchto tří produkcí je vhodné sledovat diferentní míry (ukazatele). Výsledek aplikace TEM-KM a jeho jednotlivých formalizovaných pravidel je demonstrován na ekonometrickém modelu (2) v příloze tohoto příspěvku. V prvním fázi je vytvořena tabulka faktů do prázdného snowflake schématu pro hrubou produkci zemědělskou, hrubou produkci rostlinné a živočišné výroby (pravidlo 1.1). Následně jsou podle pravidla 1.2 vytvořeny dimenze do snowflake schématu pro každou exogenní proměnnou v ekonometrickém modelu (výše dotací, základní výrobní fondy v rostlinné výrobě, množství práce v rostlinné výrobě, klimatické podmínky, stavy hospodářských zvířat). Jelikož model (2) obsahuje časovou proměnnou t, pak je vytvořena dimenze času. V poslední fázi (pravidlo 2.1) je vytvořena asociace mezi tabulkou faktů a dimenzí prostřednictví vygenerovaných klíčů. Tedy například rovnice vyjadřuje, že výše dotací a stavy hospodářských zvířat mají relaci s hrubou produkcí živočišné výroby (tedy tabulkou faktů ). Náhodné složky (popř. jiné proměnné, které nejsou uvedeny v pravidlech TEM-KM) nejsou v konceptuálním schématu znázorněny. V aplikačním kontextu je rovnice vyjádřená například ve tvaru:
56
SYSTÉMOVÁ INTEGRACE 2/2012
Návrh ROLAP databáze v zemědělském podniku
,36. Tedy náhodné složky
a parametry
,
jsou již vyjádřeny číselně.
6. Závěr V příspěvku byla autory představena metoda TEM-KM pro transformaci ekonometrického modelu do konceptuálního modelu dat prostřednictvím snowflake schématu. Metoda TEM-KM představuje formalizovaná pravidla, umožňující v budoucnu automatizovat proces návrhu konceptuálního modelu a zefektivnit tak celkový návrh ROLAP řešení. Technologie ROLAP je právě vhodná pro zemědělský podnik díky svojí flexibilitě ve vytváření ad-hoc dotazů a pro svoji schopnost pracovat s OLTP databází, namísto vytváření datových skladů, a to i za cenu degrese účinnosti aplikace. Autoři práce se domnívají, že výběr ROLAP bude mít za následek výrazné snížení pořizovacích nákladů na OLAP řešení, které je pro řadu zemědělských podniků zásadní. Takový to přístup umožňuje využít stávající provozní databázi realizovanou například prostřednictví open source databázových systémů (MySQL, PostgreSQL, a dalších). Dalším významným důvodem zvolení ROLAP technologie je především fakt, že ROLAP technologie umožňuje propojit mezi s sebou „datové kostky“. Příkladem může být situace kdy celková produkce zemědělského podniku je závislá na rostlinné produkci a živočišné produkci a pro každou z těchto tří produkcí je vhodné sledovat diferentní míry (více tabulek faktů). Tedy řešit vztahy typu . Metoda TEM-KM poskytuje formalizovaná pravidla pro konceptuální návrh modelu analytický dat v zemědělském podniku. Metoda TEM-KM je vhodná pro návrh ROLAP řešení. TEM-KM představuje v rámci celého procesu návrhu ROLAP databáze pouze dílčí metodu. V návaznosti na vytvořenou metodu TEM – KM bude v dalším výzkumu vytvořen algoritmus pro počítačové zpracování navržené metody, tak aby bylo možné v budoucnu konceptuální návrh automatizovat. Diskutabilní zůstávají také současné metody pro návrh logického a fyzického schématu, které budou součástí dalších výzkumů. Snahou autorů je zefektivnit a zjednodušit proces návrhu OLAP pro zemědělské podniky, především s ohledem na současné vysoké náklady na investici do OLAP technologií.
SYSTÉMOVÁ INTEGRACE 2/2012
57
Tyrychtr Jan, Buchtela David, Havlíček Zdeněk
Příloha - Dílčí fáze transformace EKM Pravidlo 1.1:
Pravidlo 1.2:
58
SYSTÉMOVÁ INTEGRACE 2/2012
Návrh ROLAP databáze v zemědělském podniku
Pravidlo 1.3:
Pravidlo 2.1:
SYSTÉMOVÁ INTEGRACE 2/2012
59
Tyrychtr Jan, Buchtela David, Havlíček Zdeněk
Citovaná literatura [1]
[2]
[3] [4]
[5] [6]
[7]
[8]
[9]
[10]
[11]
[12]
[13] [14] [15]
60
Abelló, Alberto and Romero, Oskar, 2009. On-Line Analytical Processing. [ed.] Ling Liu and M. Tamer Özsu. Encyclopedia of Database Systems. s.l. : Springer, pp. 1949-1954. 978-0-387-39940-9 Burstein, F. and Holsapple, C.W., 2008. Handbook on Decision Support Systems. International Handbooks on Information Systems. s.l. : Springer,. Vol. 1. 9783540487128 Novotný, Ota, Pour, Jan a Slánský, David, 2005. Business Intelligence. Praha : Grada Publishing, a.s.,. 80-247-1094-3. Datta, Anindya and Thomas, Helen,1999. The cube data model: a conceptual model and algebra for on-line analytical processing in data warehouses. Decision Support Systems., 27 (3), pp. 298-301. Codd, E. F., Codd, S. B. and Salley, C. T.,1993. Providing OLAP (On-line Analytical Processing). San Jose : Codd & Date, Inc,. Pardillo, Jesús, Mazon, Jose-Norberto and Trujillo, Juan, 2010. Extending OCL for OLAP querying on conceptual multidimensional models of data warehouses. Information Sciences, 180(5), pp. 584-601. 0020-0255. Schulze, Ch., Spilke, J. and Lehner, W., 2007. Data modeling for Precision Dairy Farming within the competitive field of operational and analytical tasks. Computers and Electronics in Agriculture. s.l. : Elsevier, Vol. 59, pp. 39–55. Rai, A., et al., et al. 2008. Design and development of data mart for animal resources. Computers and electronics in agriculture. s.l. : Elsevier,.Vol. 64, pp. 111-119. Šilerová, E. and Kučírková, L., 2010. Information and Comunication Technologies and their Influence and the Management. Economy&Business. Bulgaria : s.n., Vol. 4, pp. 224-229. ISSN 1313-2555. Fahrner, C. and Vossen, G., 1995. A survey of database design transformations based on the Entity-Relationship model. Data and Knowledge Engineering., Vol. 15, 3, pp. 213-250. Mylopoulos, John, 2009. Database Design. [ed.] Ling Liu and M. Tamer Özsu. Encyclopedia of Database Systems. s.l. Springer US,. pp. 708-710. 978-0-387-35544-3. Pedersen, T.B., 2009. Multidimensional Modeling. [ed.] Ling Liu and M. Tamer Özsu. Encyclopedia of Database Systems. s.l. : Springer US,. pp. 1777-1784. 978-0-387-39940-9. Zádová, Vladimíra, 2009. Multidimenzionální modelování v rámci analýzy a návrhu IS/ICT. Systémová Integrace.,16 (4), stránky 66-76. Levene, Mark and Loizou, George, 2003. Why is the snowflake schema a good data warehouse design? Information Systems., Vol. 28, pp. 225–240. Kroupová, Zdeňka, 2010. Produkční schopnost a technická efektivnost ekologického zemědělství České republiky. Disertační práce na Provozně ekonomické fakultě České zemědělské univerzity na katedře ekonomiky. Vedoucí disertační práce Doc. Ing. Eva Rosochatecká, CSc..
SYSTÉMOVÁ INTEGRACE 2/2012
Návrh ROLAP databáze v zemědělském podniku
[16] [17]
Filipe, J. and Adams, G., 2005. The Estimation of the Cobb Douglas Function. Eastern Economic Journal. Vol. 31, 3, pp. 427–445. Tvrdoň, Jiří, 2006. Ekonometrie. Praha : Česká zemědělská univerzita v Praze,. 80-213-0819-2.
JEL: C51, M15
SYSTÉMOVÁ INTEGRACE 2/2012
61