Data v informačních systémech
Vladimíra Zádová, KIN 6. 5. 2015
•
Obsah přednášky • • • • •
informační systémy (IS) vztah dat a informačních systémů databáze, databázový systém základní dělení IS, trendy pojmy (terminologie) v oblasti IS
– Souvislost s předchozími přednáškami • vztah dat, informací, znalostí • Semiotické pojetí informace, Shanonovo pojetí informace… • Programové prostředky PC, klasifikace, licence, způsoby pořizování, využití
Informatika II: Data v informačních systémech
Systém • Množina prvků a vazeb mezi nimi, která je účelově definovaná na vymezeném reálném objektu z hlediska reálného cíle • Důležité pojmy – hledisko (účel), rozlišovací úroveň struktura • prvky systému - vnitřní, vnější • prvky podstatného okolí
synergie • v důsledku vazby mezi prvky má celek vlastnosti nové (tj. novou kvalitu) synergický efekt
chování systému
reakce na určité podněty
Informatika II: Data v informačních systémech
Informační systémy definice
IS
jsou systémy tj. soubory prvků ve vzájemných informačních a procesních vztazích (informační procesy), které zpracovávají data a zabezpečují komunikaci informací mezi prvky. Informační systémy se často člení na systém zpracování dat a komunikační systém. (Prof. Pokorný) IS rozumíme soubor lidí, prostředků (HW, komunikační technika, SW), metod zabezpečující sběr, přenos, uchování, zpracování dat za účelem tvorby a prezentace informací pro potřeby uživatelů činných v systémech řízení. (Prof. Molnár)
Informatika II: Data v informačních systémech
Informační systémy IS x IS/ICT ( IS/IT) IS/ICT – programové vybavení ( software, SW) • aplikační programové vybavení (ASW) • programové vybavení pro vývoj a implementaci ASW Informační (a komunikační) technologie zahrnuje všechny prostředky pro: • pořízení • uchování • zpracování • přenos • prezentaci dat/informací? Informatika II: Data v informačních systémech
IS, IS/ICT organizací – východisko globální strategie, součástí je informační strategie – integrace jednotlivých aplikací
Informace nebo data v IS? Jak vypadá aplikace? Informatika II: Data v informačních systémech
Informace nebo data v IS?
Moudrost
Znalosti
Informace
Data
IS pracují s daty, ty jsou zdrojem informací Informatika II: Data v informačních systémech
Aplikace myšlena programová aplikace (aplikační SW) • vzájemně provázané programy – program je část aplikace, která se spouští na jednom počítači (jedním příkazem či volbou jedné položky menu)
• je složena ze tří základních oblastí: – prezentační – aplikační – datové
Informatika II: Data v informačních systémech
Aplikace PRAVIDLA
DATA
Data
PROCESY
Datová oblast Aplikační logika (business logika) Prezentační oblast
APLIKACE
Informatika II: Data v informačních systémech
uživatel
Aplikace • Prezentační vrstva – zprostředkovává uživateli formulář, zprávu o úspěšném/neúspěšném průběhu akce (př. uložení dat- přijetí objednávky) v požadovaném formátu
• Aplikační logika – přebírá došlá data, kontroluje jejich správnost (konzistence dat, integrita dat) a provádí další požadované zpracování ( např. porovnává požadované množství a aktuální stav) – v případě neúspěšnosti (zadaná data nejsou konzistentní, či vstupní data neodpovídají obsaženým pravidlům) vrací řízení prezentační oblasti s informací o chybě, jinak předává řízení datové oblasti
Informatika II: Data v informačních systémech
Aplikace • Datová oblast – připraví data do požadované struktury datového úložiště (databáze) – provede záznam dat – předává řízení prezentační oblasti (ta zajistí předání zprávy o proběhnuté akci)
Informatika II: Data v informačních systémech
Rozhraní aplikace • API – aplikační programové rozhraní; Application Programming Interface – prostřednictvím API probíhá komunikace • mezi aplikacemi a mezi oblastmi uvnitř aplikací • mezi daty a oblastí dat
• UI – – – –
uživatelské rozhraní; User Interface mezi prezentační vrstvou a uživatelem zajišťuje příjem uživatelských požadavků je grafické (ikony, menu), nebo příkazově orientované Informatika II: Data v informačních systémech
• organizace dat • manipulace s daty
Informatika II: Data v informačních systémech
Organizace dat • • • • •
bit /byte znak – písmena, číslice atribut /položka/údaj/pole záznam/věta soubor – kolekce vzájemně souvisejících dat
• databáze • kolekce vzájemně souvisejících souborů
Informatika II: Data v informačních systémech
Databázový systém • Na nejhrubší úrovni:
IS
SŘBD
DB
DBS = DB + SŘBD IS ….. ………. informační systém DBS…………..databázový systém DB …………...databáze SŘBD ………..systém řízení báze dat Informatika II: Data v informačních systémech
DBS
Informační systém data z databáze: – využívá přímo – zpracovává dalšími aplikačními programy
Databáze – obsahuje data, obvykle uložena na vnějších paměťových mediích – je strukturovaná množina dat – základním požadavkem na data • perzistence, paralelní přístup (sdílení dat ), spolehlivost dat, neredundance, nezávislost Informatika II: Data v informačních systémech
Databáze - požadavky na data • perzistence dat – přetrvávání dat po ukončení procesu, který s nimi pracuje – možnost znovupoužití dat v dalších procesech
• paralelní přístup - sdílení dat – častý přístup více uživatelů ve stejnou dobu – aktualizace menšího objemu dat – požadavky na transakční zpracování
• spolehlivost dat = integrity + security – integrity - zajištění integrity, konzistence databáze – security - autorizace, ochrana před neoprávněným přístupem Informatika II: Data v informačních systémech
Databáze - požadavky na data • neredundance – neopakování prvků dat
• nezávislost – programy přistupující k datům jsou nezávislé na tom, kde jsou data uložena
Informatika II: Data v informačních systémech
Databáze DATA , KATALOG DAT katalog dat (slovník dat, data dictionary, systémový katalog) – popis dat, uložených v databázi vytváří schéma databáze (= databázové schéma); katalog dat je vlastně metadatabáze, která je potřebná jak z hlediska uživatele, tak z hlediska SŘBD
databáze – konkrétní data, které je třeba shromažďovat (je třeba ukládat jen ta data, která vedou k informaci) – data jsou ukládána ve struktuře, která je popsána v katalogu dat Informatika II: Data v informačních systémech
SŘBD • Database Management System (zkratka DBMS) • SŘBD umožňuje definovat a udržovat data v databázi mimo programy, které tato data využívají
• SW • SŘBD realizuje 3 funkce: – – –
1.definice databáze 2.konstrukce databáze 3.manipulace s databází Informatika II: Data v informačních systémech
Ukládání dat • založeno na databázových modelech – databázový model je prostředek pro modelování, nikoli cíl (výsledek) – hierarchický – síťový – relační – objektový – objektově-relační Informatika II: Data v informačních systémech
Relační databázové systémy – Oracle (Oracle), Access, MS SQL Server (Microsoft), DB2 (IBM), Progress, Sybase – open source: MySQL, PostgreSQL
Informatika II: Data v informačních systémech
Relační model dat – vychází z toho, že objekty a vztahy v reálném světě se dají modelovat pomocí dvourozměrných tabulek (relací)
Rozdíl relationship x relation • vztah mezi tabulkami = relationship • relace (relation) = tabulka dat
Informatika II: Data v informačních systémech
Základní pojmy – relace • vychází z matematické relace – zjednodušeně relace = tabulka – rozdíl proti tabulce: • redukce tabulky na jednoduchou tabulku, kde sloupce určují strukturu, řádky pak záznamy • nemohou být vloženy dva totožné záznamy • každý sloupec je určen názvem a doménou • záznam je uložen teprve tehdy, když hodnoty všech atributů odpovídají definici Informatika II: Data v informačních systémech
Terminologie • Atribut (pole, údaj) je dán názvem a doménou; názvy atributů jsou v rámci relace jedinečné • Doména = množina hodnot, kterou může atribut nabývat – př. text, celočíselný údaj, jen výčet hodnot (př. město: pouze Liberec, Jablonec, Aš), povinnost/nepovinnost (NULL/NOT NULL)
• Primární klíč (PK) – je dán minimální množinou atributů, která zajistí jedinečnost záznamu (řádku) tabulky • Schéma relace (= struktura tabulky) je dáno množinou atributů • Prvek relace (=záznam) Informatika II: Data v informačních systémech
Databáze • většinou obsahuje více relací (i když může mít jen jednu) – pomocí relací jsou modelovány objekty reálného světa a vztahy mezi nimi (jsou zdrojem informací o stavu procesů, činností v reálném světě)
• v relačním modelu tabulky reprezentují entity reálného světa i vztahy mezi nimi, někdy jen část entity • Př. objednávka: hlavička objednávky a položky objednávky jsou uloženy ve 2 tabulkách Informatika II: Data v informačních systémech
Vztahy mezi relacemi • zajištěny pomocí cizího klíče (Foreign Key, FK) – rozlišuje se tabulka nadřazená a podřízená (master-detail), vztahy mezi nimi 1:N, může být 1:1 • Př. zákazník-objednávka
– PK nadřazené tabulky = FK podřízené tabulky • ve správně navržené databázi jsou to jediné atributy, které se v rámci databáze opakují ve více tabulkách
• referenční integrita – konzistence mezi tabulkami – řeší přidání záznamů do podřízené tabulky a rušení záznamů v nadřazené tabulce, PK (3 základní typy řešení)
Informatika II: Data v informačních systémech
Integritní omezení • Integritní omezení jsou přídavná tvrzení o objektech, která se po dobu existence konkrétní databázové aplikace nemění. doménová integrita (vztah k atributům) entitní integrita (PK ; každá relace má jen jeden PK, kandidátů může mít více) referenční integrita (FK) další omezení Informatika II: Data v informačních systémech
Dobře navržená databáze – má každý údaj zaznamenán jen jednou, údaje se neopakují • s jedinou výjimkou PK-FK
– řeší se normalizace, funkční závislosti…
Informatika II: Data v informačních systémech
• Základní manipulace s daty • vkládání nového záznamu (INSERT) • aktualizace jednotlivých údajů v záznamech (UPDATE) • rušení záznamu (DELETE)
SELECT výběr informací z dat Informatika II: Data v informačních systémech
• Dotazovací jazyky SQL (Structured Query Language) QBE (Query By Example)
Informatika II: Data v informačních systémech
MS ACCESS •
dotazy se zadávají v QBE –
vkládáním požadavků do tabulky
•
lze však zadat dotaz i v SQL
•
každý zadaný dotaz v QBE lze zobrazit v SQL
Informatika II: Data v informačních systémech
SQL • Structured Query Language
• navržen počátkem 70. let 20. století a používá se dodnes
– 1974-75 - IBM - 1.prototyp - SEQUEL – od 1979 - do praxe - ORACLE (1979) IBM - SQL/DS (1981), DB/2 (1983)
• postupně přijímán jako standard pro přístup k datům v relačních databázích Informatika II: Data v informačních systémech
SQL - normy • SQL 86 - DDL, DML, DCL 1986 - schválena ANSI norma SQL, základem dialekt DB2, 1987 - přijato mezinárodní standardizační organizací ISO • SQL 89 - revize - 1989 rozšíření o specifikaci IO • SQL2 - r. 1992 revize, SQL3 Informatika II: Data v informačních systémech
Prostředí Microsoft Access
Informatika II: Data v informačních systémech
KNIHOVNA • Zadání: sledování výpujčky knih – může být více exemplářů jedné knihy – může si vypůjčit více knih najednou (5) – potřebuji evidovat všechny výpujčky po dobu 3 let – Tabulka v Excelu – Access Informatika II: Data v informačních systémech
Tvorba databáze v aplikaci Microsoft Office Access • návrh tabulek (relací) a vztahů mezi nimi • tvorba dotazů, formulářů a sestav
Informatika II: Data v informačních systémech
Objekty databáze Microsoft Office Access
Informatika II: Data v informačních systémech
Příklad návrhu tabulky v aplikaci Microsoft Office Access
Návrhové zobrazení
Informatika II: Data v informačních systémech
Příklad návrhu tabulky v aplikaci Microsoft Office Access
Zobrazení datového listu
Informatika II: Data v informačních systémech
Vztahy mezi relacemi
Informatika II: Data v informačních systémech
Typy aplikací, ukládání dat
Informatika II: Data v informačních systémech
• OLTP aplikace – On-line Transaction Processing; transakční aplikace
• Business Intelligence: – OLAP (On-line Analytical Processing), dolování dat (Data Mining), datové sklady
Informatika II: Data v informačních systémech
Obecná koncepce architektury BI
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Informatika II: Data v informačních systémech
DW - definice • je subjektově orientovaná , integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů B. Inmon
• subjektová orientace – DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) – reflektuje potřeby uložení dat pro rozhodování – v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) • integrovaná – do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty – integrací těchto dat - prezentace unifikovaného pohledu Informatika II: Data v informačních systémech
DW • časově variantní
– data v DW jsou platná a přesná jen v bodech, ne intervalech času – uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..)
•v DW vždy dimenze času • stálá –data v DW nevznikají, nedají se žádnými nástroji měnit –aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků Informatika II: Data v informačních systémech
Vztahy v rámci IS/ICT z hlediska dat a procesů
Informatika II: Data v informačních systémech
IS/ICT - vztahy mezi daty a procesy
OLTP
Operativní data
ETL
OLAP, DM, Datové sklady
OLAM, EIS
DATAWAREHOUSING
Informatika II: Data v informačních systémech
Současné trendy
Informatika II: Data v informačních systémech
Podíl zdrojů informací – 80% nestrukturovaných – 20 % strukturovaných – 80% vnitřní informační zdroje – 20% vnější informační zdroje
Informatika II: Data v informačních systémech
Současný stav Business Intelligence
Procesy: dolování dat (Data Mining) OLAP (On-line Analytical Processing) reporting
Úložiště dat: datové sklady (Data Warehouse) datová tržiště (Data Mart)
Informatika II: Data v informačních systémech
BI 1.0
Business Intelligence z hlediska zdrojů informací • převážně strukturované • aktualizace zdrojových aplikací na základě konkrétních událostí, které nejsou příliš časté (jedná se tedy o nespojitou manipulaci s daty)
Informatika II: Data v informačních systémech
Požadavky a trendy BI – ve struktuře zdrojů informací • nestrukturované, semistrukturované • dynamická data
– v orientaci v organizaci/analýze • zaměření na pravidla, jejich aktualizaci, řízení až k procesům • využití řízení pravidel v oblasti IS na podporu rozhodování – Business Rules přístup Informatika II: Data v informačních systémech
Nestrukturované a semistrukturované zdroje informací
– Požadavek vybudovat sklad dokumentů (Document Warehouse) – Procesy vyhledání a dolování textu Propojení s BI 1.0 Informatika II: Data v informačních systémech
Dynamická data
proudy dat, proudy událostí Charakteristika: – strukturovaná – odlišnosti proti datům v klasických databázích • přicházejí neustále (on-line) • mají obecně neomezenou velikost • nelze předpokládat nic o pořadí dat, může být více proudů souběžně • nelze je jednoduchým způsobem opětovně získat • může se měnit jejich struktura (topologie) Informatika II: Data v informačních systémech
• Příklady – data z bezpečnostních kamer, telefonní hovory, vývoj cen na burze, bankovní operace
• Požadavky na Business Intelligence – dolování dat nad proudy dat – modifikace klasicky používaných metod dolování dat jako jsou shlukování, analýza časových řad – na základě stanovených hodnot klíčových indikátorů výkonu (KPI) a dosahovaných hodnot optimalizovat business procesy
Informatika II: Data v informačních systémech