Současné trendy
Podíl zdrojů informací – 80% nestrukturovaných – (10 -) 20 % strukturovaných – 80% vnitřní informační zdroje – 20% vnější informační zdroje
Současné trendy
Současný stav Business Intelligence
Procesy: dolování dat (Data Mining) OLAP (On-line Analytical Processing) reporting
BI 1.0
Úložiště dat: datové sklady (Data Warehouse) datová tržiště (Data Mart)
Současné trendy
Business Intelligence z hlediska zdrojů
• převážně strukturované • aktualizace zdrojových aplikací na základě konkrétních událostí, které nejsou příliš časté (jedná se tedy o nespojitou manipulaci s daty)
Současné trendy
Požadavky a trendy BI – ve struktuře zdrojů informací • nestrukturované, semistrukturované • dynamická data
– pro orientaci v organizaci/analýze • zaměření na pravidla, jejich aktualizaci, řízení až k business procesům • využití řízení pravidel v oblasti IS na podporu rozhodování – Business Rules přístup
Současné trendy
Nestrukturované a semistrukturované zdroje informací
– Požadavek vybudovat sklad dokumentů (Document Warehouse) – Procesy vyhledání a dolování textu Propojení s BI 1.0
Současné trendy
Dynamická data proudy dat, proudy událostí Charakteristika: – Strukturovaná – Odlišnosti proti datům v klasických databázích • přicházejí neustále (on-line) • mají obecně neomezenou velikost • nelze předpokládat nic o pořadí dat, může být více proudů souběžně • nelze je jednoduchým způsobem opětovně získat • může se měnit jejich struktura (topologie)
Současné trendy
•
Příklady – data z bezpečnostních kamer, telefonní hovory, vývoj cen na burze, bankovní operace
•
Požadavky na Business Intelligence – dolování dat nad proudy dat – modifikace klasicky používaných metod dolování dat jako jsou shlukování, analýza časových řad – na základě stanovených hodnot klíčových indikátorů výkonu (KPI) a dosahovaných hodnot optimalizovat business procesy
Současné trendy
Trendy BI Integrace jednotlivých částí do BI Začleňování dalších oblastí dat a jejich zpracování
Současné trendy
Big data
„Big data is generally defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making “ (Gartner, 2013)
Současné trendy
Big data V charakteristiky • •
•
Volume data s proměnlivým rozsahem - velikost od TB do PB a více Velocity jak rychle jsou data produkována a jak rychle musí být zpracována pro analýzu na požádání (př. proudy dat) Variability - různorodost dat; různé významy/kontexty spojené s množinou dat – senzor, internet, sociální sítě
• •
Variety data v mnoha formátech/mediích – strukturovaná, nestrukturovaná, semistrukturovaná,.. Veracity – věrohodnost (spolehlivost, pravdivost) a predikabilita dat, která jsou ze své podstaty většinou nepřesná.
Současné trendy
Big data Charakteristika
•
• •
Value hodnotná a cenná data pro byznys (vytváření sociální a ekonomické přidané hodnoty – tzv. informační ekonomie) Visualization - vizuální reprezentace dat pro provádění rozhodnutí Volatility jak dlouho jsou data validní a jak dlouho by měla být uložena (kdy už data nejsou relevantní pro prováděnou analýzu)
Současné trendy
Big Data Zdroje - velké kolekce dat v tradičních DW nebo databázích, - podniková data z velkých newebových společností, které pracují s internetovými transakcemi, - data z velkých webových společností poskytujících soc. sítě a média, - data z mobilních zařízení, - proudy dat generované vzdálenými senzory a dalším IT hardwarem, - datové archivy z e-science ( bioinformatika, astronomie…), - současný rozvoj Internetu věcí vede k velkému zatížení sítí a následnému zvýšení nároků na ukládání odpovídajících dat Problémy: složitost dat, rychlost jejich vzniku heterogenní kolekce dat, problém s integrací
Současné trendy
Big Analytics – z hlediska uživatele je nejdůležitější zpracování Big Dat – mění informace ve znalosti pomocí kombinace stávajících a nových přístupů
Současné trendy
Big Analytics zahrnuje – interaktivní zpracování – zpracování dat v klidu (data at rest) pro podporu rozhodování – zpracování dat v pohybu (data in motion) v reálném čase • obvykle pomocí systémů řízení proudů dat • vždy je dimenze čas – analytik nemůže data poté, co proud proběhl, znovu analyzovat • hodnota analýzy (a často i dat) se snižuje s časem • pokud je potřeba více průchodů proudu, údaje musí být vloženy do DW pro provedení dalších analýz – nebo jsou uložena a zpracována např pomocí. NoSQL databáze. .
Současné trendy
•
Hadoop, NoSQL, NewSQL
Současné trendy
NoSQL databáze = not only SQL • •
v širším smyslu zahrnuje XML db., db. dokumentů, obj. db. vznik iniciovaly webové společnosti koncem 90.let – x RDB – jednodušší škálovatelnost, vyšší výkon
•
různé datové modely
Současné trendy
•
slabě konzistentní databáze – nejsou realizovány vlastnosti ACID v plném rozsahu x RDB transakční zpracování založeno na vlastnostech ACID – tj. silná konzistence – CAP teorém • zohledňuje požadavky potřebné při návrhu webových služeb • C (consistency,konzistence) –
bez ohledu na zapsání dat, vždy bude zobrazena posledníé verze dat » Ve srovnání s konzistenci v ACID je menší
• A (availibility, dostupnost) – každá operace obdržená nechybujícím uzlem musí vést k obdržení výsledku (nebo chyby). • P (partitioning tolerance, odolnost vůči rozdělení sítě) – do db. se může zapisovat, číst z ní i když jsou její části zcela nepřístupné
Současné trendy
NoSQL Nástroje NoSQL: – mají malou nebo žádnou podporu pro modelování dat •
(nevytvářen logický datový model),
– návrh databáze je spíš řízený dotazem, – data nejsou omezena integritními omezeními, – v různých aplikacích mají rozdílné chování, – absence standardního dotazovacího jazyka, – různá vyspělost nástrojů
Současné trendy
NewSQL databáze – efektivní škálování (jako NoSQL db) – garance konzistence transakcí (viz RDBS) – konzistence s SQL – vhodnośt pro analýzu v reálném čase – (přístup in-memory)
Současné trendy
NewSQL databáze - jsou škálovatelné horizontálně, - rozdělení dat je transparentní, - poskytují záruku ACID, - interakce aplikací s databází je primárně pomocí SQL (včetně operace spojení), - pro řízení souběžného zpracování nepoužívají zámky, - poskytují vyšší výkon než tradiční systémy. NewSQL SŘBD poskytují podstatně vyšší výkon a škálovatelnost ve srovnání s tradičními SŘBD či Hadoop. Současné trendy
Současné trendy
Vlastnosti ACID a transakce A = (atomicity) atomicita transakce transakce je jeden celek - musí proběhnout celá či vůbec ne
C = (Consistency) konzistence transakce transformuje databázi z jednoho konzistentního stavu databáze do jiného konzistentního stavu I = (Isolation) nezávislost transakce transakce jsou nezávislé, dílčí efekty transakce nejsou viditelné jiným transakcím (nezávislost požaduje aby transakce měla vždy konzistentní databázi t.j. – výsledky transakce viditelné pro ostatní transakce až pro potvrzení)
D =(Durability) trvanlivost (perzistence) úspěšně ukončené transakce (potvrzené) jsou uloženy do databáze Údržba atomicity transakce se nazývá zotavení z chyb vlastnosti ACID jsou základním principem transakčního zpracování
pozn. doplnit strukturu objektů i strukturu z članku 42/96 vlastnosti ACID
Současné trendy