Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.
Obsah příspěvku • Charakteristiky Big Data • Výzvy a úskalí z perspektivy statistiky • Výzvy z perspektivy computing (výpočetní metody, teorie a algoritmy) • Příklady možných aplikací ve statistice • Závěr
Charakteristiky Big Data • Populární termín užívaný k popisu exponenciálního růstu dat a jejich dostupnosti; nový pohled na vypovídací schopnost dat • Velký rozsah, velká rychlost a velká různorodost informací vyžadují nové formy zpracování, ale i porozumění datům • Kombinování velkých objemů dat umožňuje inovace • Nerespektují hranice států • Multidisciplinární charakter
Charakteristiky Big Data pokrač. • Šum roste rychleji než signál • Účel, k němuž jsou sbírána; některá využití jen vedlejší produkt • Často jde o všudypřítomnost dat, nikoliv big data jako taková • Big data neznamená kvalitnější data než menší vzorek
Rysy související s rozsahem • Velký rozsah dnes již nepředstavuje problém pro uchovávání • Nový problém, jak určit relevantnost, reprezentativnost a jak používat analytiku • Rozsáhlé možnosti modelování • Často velmi detailní data
Rysy související s rychlostí • Příval dat v téměř reálném čase • Nutnost rychle zpracovávat (statistikové zvyklí na rezervoáry, nikoliv nepřetržité toky dat)
Rysy související s různorodostí • Všechny druhy formátů • Obtížné sjednocování a zpracování • Nejdůležitější krok – identifikace, klasifikace a pochopení proměnných – vytvoření datové mapy
Hodnota Big Data • Sběr je levný (nová snaha zpeněžit) • Ne všechna mají hodnotu; nutnost identifikovat ta významná • Řízení dat může být dlouhodobě nákladné (časové řady) • Mylné přesvědčení, že obrovské množství dat poskytne správnou odpověď, ale Big Data jsou často • Složena z relativně malých podsouborů dat, které spolu obtížně souvisejí (Bradley Efron) • Nereprezentativní (systematická chyba)
• Algoritmy umožňují hledat vzájemné vazby mezi daty -‐ prediktivní modely
Big Data z perspektivy oficiální statistiky
Atributy oficiální statistiky • Veřejný statek • Mandát sbírat data od respondentů • Povinnost respondentů poskytovat data • Základní principy státní statistické služby (profesionální nezávislost, nestrannost, objektivita, ochrana důvěrnosti dat, využití dat pouze pro statistické účely)
Motivace využívat Big Data • Včasnost dat • Úspora nákladů • Snížení zátěže respondentů • Nadnárodní rozměr dat
Výzvy a úskalí • Možná nedorozumění – rozsáhlý objem dat eliminuje potřebu teorie a vědecké metody, ale • • • •
Čísla nemluví sama za sebe Odpovídají zejména na otázky co a kdo, nikoliv proč Potřeba kombinovat s tradičními zjišťováními Interpretace
• Při každé aplikaci jde o průnik mezi statistikou, computing a vlastní aplikační doménou – nutná spolupráce • Problémy ochrany a vlastnictví dat
Výzvy a úskalí pokrač. • Kultura a reputace statistických úřadů • Důvěra veřejnosti ve statistiku • Význam ochrany soukromí v nové situaci • Obavy, že Big Data znamená Big Brother • Ne všechna data shromažďována se souhlasem subjektů • Mnohdy data užívána pro jiný účel, než za jakým byla shromážděna
Výzkumné výzvy • Simultánní testování hypotéz v řádu tisíců a kombinace klasických (četnostních) a Bayesovských přístupů (chybí teorie) • Zacházení se šumem a čištění dat • Sumarizace a vizualizace rozsáhlých a komplexních souborů • Analýza heterogenních dat • Automatizace modelování, testování a výběru modelů • Stanovení kvality a komunikace kvality ve vztahu k uživatelům (relevance, přesnost, včasnost, srovnatelnost, koherence, srozumitelnost)
Výzvy pro computing • Rozsah dat často neumožňuje jejich uchovávání v 1 databázi • Zpracování může trvat příliš dlouho pro rozhodování v reálném čase • Zpracování heterogenních druhů datových souborů • Uchovávání/zpracování v cloudu představuje specifický problém • SOA –zpracování by mělo být přesunuto k datům, nikoliv data ke zpracovatelským programům
Společná výzkumná výzva • Jak řídit, podporovat, aktualizovat, dokumentovat a archivovat data a umožňovat k nim přístup • Partnerství • Společenství odborníků propojujících různé relevantní dovednosti
Příklady možného využití Rozsáhlé aplikace v komerční sféře (viz program konference). Statistika -‐ zatím ve fázi ověřování (existující, nové statistiky) • Mobilní telefony -‐ statistika turismu, dopravy • Kreditní karty – náklady na cestování a geografická distribuce • Čárové kódy -‐ cenová statistika • Sociální sítě – subjektivní statistiky blahobytu, podnikatelský sentiment, ale např. i míra nezaměstnanosti
Závěry • Řada výzev a úskalí, ale obrovské příležitosti • Práce s daty se stává kreativní činností • Potřeba rozvíjet mix znalostí a dovedností – „data talent“ • Rýsuje se nová profese „data scientist“ • Organizační a legislativní předpoklady • Big Data jako doplněk konvenčních zdrojů dat