38
4
Big data a datamining
Klíčová slova: Big data, data mining, petabyt, ETL, Fast data, datové sklady, NoSQL a NewSQL.
4.1 Big Data aneb Když běžné databázi dochází dech V big datech se hovoří o objemech dat v petabytech. Petabyte je 1 000 000 000 000 000 bytů, tedy 1015 bytů. Termín Big Data není jen prostým vyjádřením zpracování většího objemu dat, ale důležité jsou i jejich další charakteristiky. V literatuře je pro popis charakteru velkých dat používán pojem 3V z počátečních písmen anglických slov Volume, Velocity a Variety. Někdy je přidáváno i čtvrté V jako označení pro Veracity, tedy věrohodnost.
3V
Volume (objem) – Moderní technologie jsou schopny analyzovat exponenciálně rostoucí objem dat. Velocity (rychlost) – Důležitá je rychlost zpracování dat, aby informace z nich získané mohly být využity bezprostředně. Objevují se také úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Variety (různorodost, variabilnost) – Pro Big Data je typické, že kromě obvyklých strukturovaných dat dochází ke zpracování nestrukturovaných textů, ale i různých typů multimediálních dat. Veracity (věrohodnost) – Pro některé scénáře je charakteristická také nejistá věrohodnost dat v důsledku jejich nekonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích. Poradenská firma Gartner za big data označuje soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky s využitím standardních statistických metod v rozumném čase. A protože z big dat potřebujeme „vydolovat informace“, proto je v datových skladech ukládáme, potřebujeme na to nástroj, který má název dataminig. O tom v následujících článcích.
Definice big data.
39 Text [40]: Velké objemy dat jsou obvykle ukládány v datových skladech. Datové sklady jsou budovány tak, aby obsahovaly tematicky uspořádaná data určená pro analytické zpracování. Vstupní data pro datové sklady jsou získávána z primárních (provozních) systémů, kde nejsou uspořádána tematicky a poskytují popis jednotlivých transakcí, tedy nic, co by bylo přímo použitelné pro analýzu. Z výše uvedeného vyplývá, že pro uložení dat v datovém skladu je potřeba udělat něco více než data jen zkopírovat, a k tomu právě slouží procesy ETL - Extraction, Transformation, Loading. O tom, jak klíčové je ETL pro úspěch celého projektu, svědčí statistiky. Například Gartner Group uvádí , že celých 45% času při budování Data Warehouse je věnováno právě ETL. Z primárních systémů je potřeba vyextrahovat potřebná data. Transakční systém obsahuje spoustu dat, která nemusí být nutně zajímavá pro analýzu, jako například adresa bankovního terminálu apod. Extrakční procesy vybírají z datového zdroje pouze ta data, kterých je pro další zpracování třeba.
Big data vyžadují rozsáhlé datové sklary.
Před uložením nestrukturovaných dat do datového skladu je musíme „normovat“ – jde o proceduru ETL.
Fáze ETL:
Extrakce Ze zdroje at je třeba před uložením z dat extraovat jen ty informace, které budeme jednou ootřebovat.
Extrakce také zahrnuje načítání dat z nejrůznějších zdrojů, nejen z databází. Například z textových souborů, XML dokumentů apod. Během ETL procesů se transformují data z primárních systémů na ukazatele (metriky), uložené v tabulkách faktů, a na atributy popisující kategorie, podle nichž se ukazatele analyzují, uložené v tabulkách dimenzí. Prvky dimenzí vytvářejí hierarchie (například den - týden - rok, prodejna - obec/město- region), které zachycují obchodní hlediska používaná při analýze ukazatelů. Vedle obecných dimenzí, jako je čas, se vytváří mj. dimenze zákazníků, dimenze dodavatelů apod., v nichž jsou kromě analyticky významných hierarchií uloženy i další popisné atributy jako například adresa sídla nebo trvalého pobytu, věk, počet zaměstnanců apod. Data z primárních transakčních systémů mohou mít (a také mají) velmi různorodou kvalitu. Při procesu čištění se snažíme kvalitu dat zvýšit tak, aby výsledky zjištěné při jejich analýze nebyly zatíženy příliš velkými chybami. Příčinou špatné kvality dat je primárně člověk. Člověk zkresluje informace, které předává ústně, člověk chybuje v písemném záznamu informací, člověk je líný vyplnit všechna pole formuláře. Předmětem čištění mohou být prakticky všechny atributy datových objektů, které nemají povahu ukazatele. V datech o zákaznících firmy je
Transformace Data se transformují do potřebné striuktury.
Čistění dat. Snaha o elimenaci chyb v datech.
40 obvykle potřeba prověřit a vyčistit identifikační údaje a adresy. Další chyby se nacházejí v atributech transakcí, jako jsou kódy zboží a podobně. Současné datové sklady obecně nemají inteligenci a pružnost lidského myšlení, takže se špatnou kvalitou dat způsobenou člověkem se musí vyrovnat pomocí sofistikovaných algoritmů a knihoven dat z reálného světa, která nahrazují životní zkušenosti běžného člověka. [43] Po technologické stránce je s pojmem Big Dat spojeno mnoho technologií, které se za posledních deset let objevily na výsluní a často z něj opět sešly. Ještě před dvěma lety bychom všichni vsadili na to, že nás zachrání noSQL databáze. Dnes je již téměř jisté, že své místo v IT světě datových platforem získal na další dekádu Hadoop.
Technologie
Hadoop zpracovává úlohu paralelně ve více úhlech.
Hadoop je kompletní open-source ekosystém pro zachycení, uložení, zpracování a publikaci dat nejrůznějších formátů využívající cluster komoditních serverů. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System. Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně odistribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Hadoop je rozvíjen v rámci opensourceového softwaru. V jeho vývoji se angažuje organizace Apache Software Foundation. Volné komponenty Hadoopu jsou dostupné na stránkách hadoop.apache.org. [41]
4.2 Zapomeňte na Big Data, přichází Fast Data Text [42]: Big Data dávají firmám k dispozici obrovské množství informací, které mohou využít ve svůj prospěch. Data skládající se z nepřeberného množství různě relevantních a strukturovaných informací však sama o sobě žádnému manažerovi nepomohou. K tomu potřebuje porozumět, co se děje a jak toho může využít pro svou firmu. K dispozici je celá řada nástrojů pro jejich analýzu, které Big Data rozeberou a přehledně vizualizují důležité trendy. Manažer pak na jejich základě učiní rozhodnutí a upraví některé procesy ve firmě. Ty vyvolají změny v nově sbíraných datech a celá smyčka se opakuje. V principu vše funguje stále stejně dobře, ale s neustále se zvyšující rychlostí.
Vydolování souvislostí z big dat je hlavním cílem manažera.
41 Od roku 2000 se prudce zvyšuje objem a rychlost, s jakou jsou data generována. Lidský analytik dat tak začíná být hlavní brzdou celého procesu, a proto jeho roli přebírají automatizované systémy. Už není čas sedět v cestovní kanceláři osobně s každým klientem, probírat jeho neurčité představy a pomalu listovat v tlustých katalozích. Inteligentní systémy zpracovávají v reálném čase data o volných kapacitách z celého světa, místním počasí, komentáře na sociálních sítích, nabídky konkurence i minulé chování jednotlivých zákazníků, aby každému zájemci vytvořili na jeden klik tu nejlepší nabídku šitou na míru. Nejen, že stále přibývá záznamů o aktivitách lidí v podobě jejich nákupů, zalogování do systémů, kreditních informací nebo komunikace na sociálních sítích, ale ještě rychleji roste objem dat generovaných chytrými zařízeními, tzv. internet věcí. Pro příklad moderní dopravní letoun má až 5 000 senzorů, které neustále zaznamenávají vše od chování motorů přes odchylky od letového plánu až po okolní počasí. To představuje terabyty dat generované stovkami letadel, které musí být v reálném čase vyhodnocovány a na jejichž základě je v reálném čase upravován provoz letového parku. Taková data už tak nejsou jen Big, ale hlavně Fast. Základem pro využití rychlých dat je jejich zpracování tak, jak přicházejí. Pokud je musíte zpracovávat po dávkách, ztrácíte čas a tím i hodnotu informace, kterou vám přinášejí. Řešením jsou in-memory výpočty a nové druhy databází typu NoSQL a NewSQL. Systémy typu Kafka nebo Storm umožňují zpracovat desítky tisíc až miliony událostí každou vteřinu. Na ně navazují samoučící systémy a umělá inteligence. Možná si říkáte, že pro váš business je něco takového zbytečné a nejspíš budete mít pravdu. Důležité je si uvědomit, jak moc se zvyšuje rychlost i objem dat využitelných ve firemní praxi a také to, že se jedná o klíč k úspěchu na trhu. Mnoha společnostem dnes stačí přejít z Excelu na některé Business Intelligence řešení a pro ty, co už ho používají, začít postupy co nejvíce automatizovat. Rychlost a objem dat se bude stále zvyšovat a ti, kdo tohoto trendu nevyužijí, o své místo na trhu přijdou.
Příklady generování využívání big dat
IoT zásadně využívá objem generovaných dat.
a
42
4.3
Zajímavé využití big dat
Big data: Malé chyby, velký problém [27] Google v roce 2008 zveřejnil svoji předpověď šíření epidemie chřipky založenou na frekvenci hledání výrazů spojených s jejími příznaky a radami jak ji „léčit“. Rychlostí i přesností s jakou Google zachytil nástup a předpověděl rozsah chřipkové epidemie, významně předčil standardní statistické metody založené na zpětném sběru diagnóz stanovených lékaři. Tento úžasný výsledek přitom nebyl výsledkem systematické vědecké práce na teorii šíření infekčních chorob, ale pouhým pohledem statistického stroje na miliony vyhledávaných výrazů. Data promluvila, svět poslouchal.
První praktickou aplikaci využití big dat využil Google již v roce 2008.
Pro další příklady úspěšného dolování informací z Big dat nemusíme chodit daleko. Amazon dokáže z dat o nákupním chování uživatelů vytáhnout veškeré souvislosti, takže lze jen s velmi malou nadsázkou říci, že ví o přání svých zákazníků dříve, než jim přijdou na mysl. Sklady Amazonu se tak plní v předstihu zbožím, o které bude dle jeho předpovědi v dané lokalitě největší zájem během následujících týdnů, čímž se ušetří miliony dolarů na logistice.
Další příklady využití big dat
Podívejte se, jak lze využít veřejně dostupná data o vyhledávání na Google k zjištění délky oběžné doby Měsíce okolo Země. Zapomeňte na chvíli na znalosti ze základní školy i na to, že si můžete najít heslo Měsíc ve Wikipedii a soustřeďte se čistě na vyhledávaná slova. Otevřete si službu Google Trends, vyhledejte frekvenci hledání klíčové fráze „Full moon“, anglicky „úplněk“, a změňte si časové období na posledních 90 dní.
Další zajímavá aplikace
Obr. č. 11: Frekvence slov „Full Moon“ na Google Zdroj: [27]
Příklad Amazon
43 Vrcholy frekvence vyhledávání klíčové fráze jsou od sebe vzdáleny v průměru 30 dní, což je logické, protože vyhledávání souvisí s pozorováním okolních jevů. Bez jediného pohledu na oblohu a znalostí nebeské mechaniky jsme tak zjistili střední délku oběžné doby Měsíce okolo Země. Ze všech nástrah, které na nás při zkoumání dat čekají, se blíže podívejme na tu vůbec nejčastější záměnu kauzality a korelace. Kauzalita znamená, že „A“ vede k „B“, tedy v podstatě, že nějaká příčina má jasný následek. Naproti tomu korelace znamená, že „A“ a „B“ se často vyskytuje pohromadě, tedy, že se nějaké jevy či hodnoty vyskytují často spolu. To, že při analýze jakéhokoliv množství dat korelují (objevují se často spolu) nějaké hodnoty ovšem neznamená, že spolu souvisí.
Při zpracování big dat je třeba dát pozor na záměnu kauzality a korelace.
Příkladem jednoduché záměny korelace za kauzalitu je skutečně pozorovaná a novináři zveřejněná „závislost“ spotřeby zmrzliny a počtu násilných trestných činů. Tvrzení, že zakoupením zmrzliny způsobujete zvýšení pravděpodobnosti, že vás nebo vaše blízké někdo zavraždí, je však chybné.
4.4
Dataminig
Viděli jsme, že pokud máme v datovém skladu uložena big data, potřebujeme z nich získávat potřebné informace a souvislosti. Tento proces nazýváme datamining. Datamining ([dejta majnyn], angl. dolování z dat či vytěžování dat) je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat.
Co to je Data mining.
Datamining se používá v komerční sféře (například v marketingu při rozhodování, které klienty oslovit dopisem s nabídkou produktu), ve vědeckém výzkumu (například při analýze genetické informace) i v jiných oblastech (například při monitorování aktivit na internetu s cílem odhalit činnost potenciálních škůdců a teroristů).
Použití dataminingu v komerční sféře.
Datamining je tedy matematická disciplína z oblasti statistiky, která má desítky různých aplikací. Datamining – nebo také dobývání dat – je matematická metoda, jak získávat skryté, ale užitečné informace z obrovského množství údajů. Dobývání dat se používá v mnoha oblastech a nastoupilo s rozvojem počítačové techniky, která zpracování obrovských databází umožnila.
Definice dataminingu
V následujícím článku autor příjemným způsobem popisuje tyto technologie.
44
TEXT [37]: Už jste někdy nakupovali zboží přes internet? Máte konto u banky, účet u spořitelny? Používáte mobilní telefon? Nakupujete v supermarketu? Pak byste měli vědět, co je „data mining“ – dolování dat. Předmětem jeho zájmu jsme totiž téměř neustále … Datamining je velmi propracovaná metoda, která pomocí matematických funkcí analyzuje velké objemy dat a hledá v nich skryté souvislosti. Nejčastěji se používá v marketingu a její výsledky slouží velkým pojišťovnám, supermarketům nebo mobilním operátorům. Příklady použití: Tak třeba nákup knihy. Tereza si vybrala titul. Systém prohledal záznamy z nákupů milionů svých zákazníků a zjistil, jakou další knihu si zároveň zákazníci nejčastěji objednali. Tereza tak získala další cennou informaci. Na začátku 20. století bylo na světě jen málo firem, které měly desítky tisíc klientů. Dnes není neobvyklé, že firma má desítky milionů klientů. A pokud každého z nich chce oslovovat s nabídkou šitou na míru, musí pracovat s obrovským množstvím dat. Právě proto se Data mining rozvíjí nejintenzivněji v obchodování. Datamining slouží velkým obchodním řetězcům. Z dat pocházejících z pokladen nebo ze zákaznických karet lze vyčíst, kdo, jaké zboží a v jaké kombinaci nejčastěji kupuje a jaká nabízená kombinace by se setkala s velkým ohlasem. Jak využívá Vodafone datamining pro snížení odchodu klientů? Datamineři Vodafone neustále sledují databáze klientů mobilního operátora a na základě informací o hovorech zkoumají, jaké chování vykazoval klient půl roku před svým odchodem k jinému operátorovi. Analytici pak mezi současnými klienty vytipují ty, kteří se chovají podobně a kteří tedy mají tendenci odejít. Operátoři pak klienty s touto tendencí mohou oslovit se speciální nabídkou. Důležité je tedy uchovávat i provozní data klientů, kteří od operátora odešli.
Globalizovaný trh významně zvyšuje počty klientů firem.
Vodafone používá Big data na udržení klientů
45
5 Smart City (chytré město) Klíčová slova: Primárním cílem Smart City je nalézt koncept, který bude schopný městům zajistit trvale udržitelný model rozvoje, vynikající kvalitu život, bezpečnost a maximální efektivitu využití energie. To vše za přispění využití nejmodernějších technologií. Projekt chytrého města je unikátní v tom, že zahrnuje spolupráci mezi mnoha na první pohled odlišnými obory, které by se v rámci Smart City měly propojit do jednoho komplexního celku. Toto je dáno faktem, že město je složitá entita, která se skládá z lidí, budov, dopravní infrastruktury, IT infrastruktury, ekonomiky, apod.Při projektování Smart City se nejedná pouze o technický obor, jak si mnozí lidé myslí. [47] U Smart City mluvíme o šesti oblastech [47]: Chytrá ekonomika – veřejné výdaje na výzkum a vývoj, výdaje na vzdělávání, HDP na hlavu obyvatele, míra nezaměstnanosti. Chytrá mobilita – místní dostupnost, (mezi)národní dostupnost, dostupnost ICT infrastruktury, počet kilometrů cyklostezek, možnost sdílení kol, smrtelné úrazy a emise uhlíku. Chytré životní prostředí – produkce emisí CO2, efektivita využití elektrické energie, efektivita využívání vody, plocha zastoupená zelenými plochami (parky), intenzita emisí skleníkových plynů z energetické spotřeby, rozrůstání a udržitelnosti města, podíl recyklovaného odpadu. Chytří lidé – účast na celoživotním vzdělávání, přihlášky vynálezů na obyvatele, procento obyvatel s vysokoškolským vzděláním. Chytré bydlení – podíl plochy pro rekreační sporty a volný čas, počet veřejných knihoven, celková výše úvěrů, návštěvy muzeí, divadel a kin. Chytrá správa a řízení města – počet univerzit a výzkumných center ve městě, on-line dostupnost informací, procento domácností s přístupem k internetu, kriminalita. Smart City není jen idea. Evropa, Amerika i Asie začínají taková města projektovat a ověřovat v pilotních projektech, jak ukazuje následující článek. Smart City není jen krásná idea. Evropa, Amerika i Asie začínají taková města projektovat a ověřovat v piltoních projektech, jak ukazují následující články.
Co je cílem Smart City?
V polovině 21. Století budou města budována na nové filozofii.
Šest hlavních kategorií Smart City
Smart City mění století užívaný model města.