1
Studijní materiál k vzdělávacímu kurzu „K2/KV3 Analytická kreativita - jak statistiku a zpracování data jednoduchou formou prezentovat cílovým skupinám (pedagogové, studenti, žáci, veřejnost)“ pro odborné pracovníky a další vybrané popularizátory vědy byl vytvořena v rámci projektu „Poznej tajemství vědy“. Projekt s reg. č.CZ.1.07/2.3.00/45.0019je financován z Evropského sociálního fondu a státního rozpočtu České republiky. Vzdělávací kurzy představují nástroj pro vzdělávání cílové skupiny odborných pracovníků a popularizátorů vědy. Pro cílovou skupinu budou vytvořeny 2 - denní interaktivní kurzy ve dvou mutacích – pro junior a senior experty. Tyto verze se od sebe liší mírou podrobnosti výkladu (tím i rozsahem výukového materiálu). Každá verze kurzu bude realizována v počtu minimálně 5 běhů pro minimálně 20 osob. Pro tyto vzdělávací aktivity bude vytvořena studijní opora - výukový materiál v tištěné/knižní i elektronické podobě obsahující: 1. Učební texty pro popularizátory vědy Učební texty vycházejí z potřeby rozvíjet kreativní a analytický přístup při řešení problémů, tvorbě strategií, vyhodnocení situací v transformující se společnosti zaměřené na včasné identifikování rizik. 2. Aktivity pro popularizátory vědy k praktickému uplatnění V rámci popularizace vědy ve výuce je pro účastníky připraven přehled vizualizačních technik pro zobrazování dat (grafické i textové), náhled na moderní metody zpracování dat pomocí fuzzy teorie a data mining. Dále se účastníci seznámí s geoinformačními technologiemi a zpracování dat s prostorovou složkou popisu dat. Materiál vytvořil expertní tým společnosti: ACCENDO – Centrum pro vědu a výzkum, o.p.s. Švabinského 1749/19, 702 00 Moravská Ostrava, IČ: 28614950, Tel.: +420 596 112 649, Web: http://accendo.cz, E-mail:
[email protected]. Společnost ACCENDO je vědecko-výzkumná organizace schválená poradním orgánem vlády – Radou pro výzkum, vývoj a inovace v ČR, za účelem podpory vědeckého výzkumu v regionálních vědách. Svou činností se významně podílí na objevování a mapování procesů ve společnosti, které vedou k trvalému rozvoji. Pracuje na celém území ČR, rozvíjí evropskou výzkumnou spolupráci a podílí se na mezinárodních projektech v návaznosti na nové směry a předpisy Evropských společenství.
Garant: Ing. Lubor Hruška, Ph.D. Autoři: Mgr. Lukáš Dědič, Mgr. Ondřej Jirásek, Mgr. Martina Baranová Publikace neprošla jazykovou korekturou. Zpracováno ke dni 14. 4. 2014.
© ACCENDO-Centrum pro vědu a výzkum, o.p.s., 2014
2
CÍL VZDĚLÁVACÍHO KURZU Cílem analytické kreativity je poskytnutí informací široké veřejnosti za účelem rozšíření povědomí o základech statistiky a možnosti vizualizace vytvořených výsledků, dále pak představení geoinformačních technologií a zpracování prostorových dat a také rozšíření obzoru o moderní metody zpracování dat, například fuzzy přístup či data mining. Analytická kreativita je způsobem jak uchopit neznámá data, prozkoumat je a vyextrahovat z nich skutečně kvalitní a smysluplnou informaci, která nemusí být na první pohled zřejmá. Důležitou složkou je samozřejmě prezentace, takto získaných dat. Tento materiál má ukázat, že statistické metody nejsou srozumitelné a dostupné pouze úzkému kruhu odborníků, nýbrž si je může vyzkoušet a aplikovat téměř každý. Účastníci Analytické kreativity se seznámí s následujícími okruhy: Základní pojmy ze statistiky Přehled vizualizačních technik pro zobrazování dat (grafické i textové) Znalosti Představení geoinformačních technologií a zpracování dat s prostorovou složkou popisu dat Náhled na moderní metody zpracování dat pomocí fuzzy teorie a data miningu
Zvýšení znalostí ze statistiky, možnost vizualizovat data několika způsoby, základní informace o GIS technologiích a způsobech Dovednosti zpracování objemných dat
KLÍČOVÁ SLOVA kreativita, analýza dat, statistika, gis, klasifikace, data mining
3
Obsah Úvod ........................................................................................................................................................ 5 1
Statistické minimum ........................................................................................................................ 6 1.1
Základní pojmy ........................................................................................................................ 6
1.2
Měření a organizace dat .......................................................................................................... 7
1.2.1
Kvalita měření.................................................................................................................. 7
1.2.2
Organizace dat ................................................................................................................. 8
1.2.3
Typy proměnných ............................................................................................................ 8
1.3
2
3
4
Popisná statistika ..................................................................................................................... 8
1.3.1
Rozložení četností............................................................................................................ 9
1.3.2
Statistické charakteristiky četností .................................................................................. 9
Zásady statistické vizualizace ........................................................................................................ 11 2.1
Tabulky a textový popis ......................................................................................................... 11
2.2
Grafy ...................................................................................................................................... 11
2.3
Kartogramy a kartodiagramy................................................................................................. 12
Informační technologie a GIS ........................................................................................................ 13 3.1
Geografické informační systémy ........................................................................................... 13
3.2
Prostorové analýzy ................................................................................................................ 14
3.2.1
Shlukové analýzy ........................................................................................................... 14
3.2.2
Síťové analýzy ................................................................................................................ 14
3.2.3
Mapová algebra ............................................................................................................. 14
Moderní metody zpracování dat ................................................................................................... 15 4.1
Fuzzy přístup.......................................................................................................................... 15
4.2
DataMining ............................................................................................................................ 16
4
Úvod Co je to analytická kreativita? Kreativita (z lat. creatus tj. tvořit, plodit) je schopnost nutná pro uměleckou, vědeckou nebo jinou tvůrčí činnost. Kreativní lidé mají schopnosti vytvořit něco nového, použít zatím neznámého postupu, který posouvá věci do širšího kontextu řešení daného děje a tím vyřešit problém zcela nestandartním způsobem, který je zvláště potřebný v této době prudkých změn. Ač někteří filozofové úspěšně zpochybňují existenci originální tvorby, lze v kreativitě spatřit projev schopnosti lidského ducha poznat základní formy ve stvoření, odkud se odvíjí tzv. zdravý selský pohled ústící do všech odborných forem. Od první třídy se učíme matematiku, ale ve své životní praxi ji nejsme schopni použít, leda v obchodě když kontrolujeme, kolik peněz nám mají vrátit. Matematická znalost není jen o počítání, ale především o celkovém přístupu k věci. Existují experti na světové úrovni, kteří se nenaučili počítat, ale jsou schopni řešit nejsložitější problémy, např. převést řešení do jiné dimenze, tam problém vyřešit a pak výsledek transformovat nazpět. Matematika je abstraktní vědecká disciplína, která má velice blízko k hudbě. Je známo, že matematici a hudebníci jsou stejnorodí, a několik významných matematiků se rozhodovalo mezi kariérou hudebníka nebo matematika. Mnoho klasických děl, například díla Johanna Sebastiána Bacha, mají dokonalou matematickou formu, která se projevuje v harmonii nejen z pohledu daného taktu, ale i z pohledu dalších motivů, které se navzájem prolínají v kompozici. Klíčovou schopností experta je: 1. 2. 3. 4. 5.
vidět vnitřní podstaty věcí, schopnost rozlišovat vnitřní a vnější analogie, strukturovat děj, chápat kauzalitu vývoje objektů včetně extrémů provést klasifikaci objektů.
Znalost jednotlivosti neumožňuje získat nadhled a pochopit celek. Na dokreslení je možno použit následující analogii: Když v naprosté mlze nahmatám ocas slona, asi nebudu schopen ho celého popsat, a když kolega zase nahmatá jeho chobot, budeme si myslet, že se jedná o zcela odlišné zvíře. Věci dostávají svůj význam až v celkovém kontextu. Při současné záplavě informací a dat musíme chápat a třídit tyto informace dle významu a tím je přeměnit ve znalost, která je základem pro provedení úspěšné akce daného záměru s minimálním rizikem.
5
1 Statistické minimum Základním kameny analytické kreativity je statistika, které by nám měla pomoc rozpoznat pravidelnosti v hromadných jevech a nalézt tak zákonitosti procesů, které zkoumáme. Nesmíme její význam přeceňovat ani podceňovat. Všechno změřit, kvantifikovat nejde, vždy je zde prosto pro experta, který musí mít výše zmíněné schopnosti. Expert musí ovládat3 P, tj. znát pojmy, ovládat postupy a umět použít prostředek. 1. Pojmy – nutné pro pochopení kontextu, konceptu, 2. Postupy – vzorce pro interpretaci nebo algoritmy pro výpočet 3. Prostředek – pomocí kterého pracujeme: od zvýrazňovačů, přes kalkulačky k dnešním počítačům včetně softwarového vybavení. Klíčovým pojmem je různorodost neboli proměnlivost (variabilita). Zdroje variability – neurčitosti 1. variabilita světa (entropie) 2. neurčitost metody – rozdíl mezi daty a skutečností o chyba měření o výběrová chyba 3. subjektivita – jakým způsobem přistupujme k riziku Přístup variabilitě ve statistice 1. deskripce – zjištění rozmanitost sledovaného jevu, možnost chyby špatně položenou otázkou 2. explanace – vysvětlení variability 3. predikce o prognóza - poznání dopředu o diagnóza - poznání skrz
1.1 Základní pojmy Statistika vzniká na základě potřeby správy státu a to jak pro jeho financování, tak i pro vojenskou potřebu. Statistické šetření spočívá tedy ve zjištění stavu na daném území především ve stavu obyvatel nebo obytných domů. Například 1967 byla v českých zemích stanovena daň z komínů. Statistické šetření je: 1. úplné 2. výběrové Základní soubor (populace) – přesně vymezené objekty tj. časově, územně i typově, např. populace osob starších 18 let s trvalým pobytem na území města. Výběrový soubor (sampl) – podsoubor základního souboru, který je vybrán na základě výběrové metody. Statistické charakteristiky tohoto souboru jsou jen odhady skutečných charakteristik základního souboru. Výběrová chyba je přímo úměrná variabilitě sledovaných jevů a nepřímo úměrná velikostí výběrového souboru.
6
Reprezentativita – vlastnost výběrového souboru, ukazuje na to, zda lze výsledky analýz výběrového souboru zobecnit na základní soubor. Metody výběru 1. Reprezentativní metody 1.1. Náhodný pravděpodobnostní výběr (prostý náhodný výběr) 1.2. Vícestupňový náhodný výběr 1.3. Kvótní výběr 1.4. Stratifikovaný výběr 2. Nereprezentativní metody 2.1. Metoda základního masivu 2.2. Úsudkový výběr (expertní výběr) 2.3. Samovolný výběr / Anketa 2.4. "Snowball" technika Specifickou výběrovou metodou je panel, kdy výzkum opakujeme u stejných respondentů. V případě, že někteří respondenti odmítnou provést rozhovor nebo vyplnit dotazník jsou nahrazeni. Tento typ výběru se používá například při pravidelném výběrovém šetření pracovních sil realizované čtvrtletně Českým statistickým úřadem. Statistiku lze rozdělit na: 1. získání empirických dat – teorie měření a škálování; pořízení, organizaci a uspořádání dat 2. popisnou statistiku (deskriptivní) – zaměřenou na základní popis empirických dat prostřednictvím statistický charakteristik (např. průměr), tabulek, grafů 3. statistickou indukci (inferenci, usuzování) – řešící problém zobecňování výsledků nebo vztahů z výběrového souboru na základní soubor (tj. bodový odhad, intervalový odhad a testování hypotéz), zde je nutno provést zhodnocení, jak jsou závěry spolehlivé.
1.2 Měření a organizace dat 1.2.1 Kvalita měření Před zkoumáním určitého problému analýzou dat, musíme zaručit, že dokážeme odhadnout vliv kvality měřicích metod na naše výsledky. Aspekty, kterými posuzujeme kvalitu měření:
Objektivita měření – stupeň toho, jak jsou výsledky nezávislé na výzkumníkovi nebo měřeném jedinci Spolehlivost (reliabilita) – znamená stupeň shody (konzistence) výsledků měření jedné osoby nebo jednoho objektu provedeného za stejných podmínek. Postupy k určení spolehlivosti (reliability) měření: o Opakovaná měření o Měření paralelních testů o Půlení testu Validita – platnost měření tj. do jaké míry se měří to, co se měřit má.
7
1.2.2 Organizace dat Kódování – přiřazujeme určitým hodnotám proměnných vhodné symboly, většinou čísla. Kontrola dat – všechna data obsahují chyby (i když si myslíme, že chybu nemáme). Proto je potřeba data pečlivě zkontrolovat s přihlédnutím k tomu, že je vhodné odlišit, zda-li se chyba stala při měření, anebo při zpracování dat. Scházející hodnoty (MissingValues) – některé údaje se prostě nepodaří získat. Lze je v souboru buď nahradit, nebo tento problém zahrnout do analýzy, ale jde o složitější procedury, které není třeba nyní zmiňovat. 1.2.3 Typy proměnných Proměnné nebo znaky jsou charakteristiky prvků základního souboru, jež mohou nabývat více hodnot a existuje pro ně předpis, jak tyto hodnoty zjistíme. (Věk, pohlaví, velikost, počet, typ.) Data tvoří aktuální hodnoty proměnných. Proměnné lze různě kategorizovat. Jejich třídění popíšeme podle úlohy, jakou hraje daná proměnná ve studii, podle typu použitého měřítka a podle toho, kolik nabývá hodnot. Závislé a nezávislé proměnné, rušivé proměnné Změna nezávislé proměnné způsobuje změnu závislé proměnné bez ohledu na přítomnost jiných proměnných. Např. závislost prospěchu (závislá proměnná) na pohlaví žáka (nezávislá proměnná) v dané věkové kategorii (nezávislá proměnná). Rušivá (matoucí) proměnná má vztah s cílovou proměnnou a její působení zkresluje uvažování o vztahu závislé a nezávislé proměnné. Někdy nazýváno také problém třetí proměnné. Proměnné podle typu použitého měřítka Nominální – znamenají přiřazení, pouze vyjadřují, že lze rozlišit jednotlivé hodnoty. Příklady: pohlaví, barvy, kraje apod. Ordinální – kromě rozlišení tříd ještě vyjadřuje nějaký systém řazení podle intenzity nebo pořadí. Data s ordinálním měřítkem lze uspořádat. Příklady: Vzdělání, pořadí atd. Intervalové – předpokládá navíc, že může být definovaná velikost rozdílu Příklady: Věk, mzda, IQ atp. Diskrétní a spojité proměnné Spojitá proměnná může teoreticky nabývat libovolných hodnot z určitého intervalu reálných čísel. Diskrétní proměnné neboli kategoriální proměnné nabývají naopak pouze konečného počtu hodnot.
1.3 Popisná statistika Jako nejčastější zobrazovací prostředky nominálních a ordinálních dat se používají tabulky s četnostmi a procenty, sloupcové a výsečové grafy. Tabulka četnostní, relativních četností a kumulativních četností je základní numerické zobrazení, při kterém se v souboru přítomné hodnoty kvantitativní proměnné setřídí a pro každou hodnotu se zjistí její absolutní i relativní četnost, dále absolutní a relativní kumulativní četnost. 8
Typy četností absolutní četnost – počet jednotek v kategoriích relativní četnost – podíl kategorie na celém souboru relativní četnost z validních dat – podíl kategorie na souboru validních dat (tj. dat po redukci těch jednotek, jejichž údaj chybí, je chybně zapsán, respondent neodpověděl – deklarujeme jako „missingvalues“. procento z celého souboru i validních dat kumulativní absolutní i relativní četnost z validních dat – aplikujeme jen pro ordinální a nominální data 1.3.1 Rozložení četností Vlastnosti rozložení dat v kategoriích (souboru četností) se hodnotí v závislosti na typu znaku: 1. Poloha četností – Kde se soustřeďují jednotky? Ve které kategorii/kategoriích? Na které části škály? 2. Rozptýlení v kategoriích a podle škály – Jak se jednotky soustřeďují do jedné kategorie? Jak se polarizují na ordinální škále? Je rozložení rovnoměrné v kategoriích nebo se soustřeďuje do (kolem) jedné kategorie? 3. Symetrie rozložení na preferenční nebo znaménkové škále – Převažují preference jedné strany škály proti druhé?? Pro analýzu rozložení četnosti u nominálních a ordinálních dat používají statistici sloupcový graf a u intervalových dat je základním grafem histogram. 1.3.2 Statistické charakteristiky četností MÍRY CENTRÁLNÍ TENDENCE Modus – nejčetnější kategorie (např. při sledování počtu členů vybraných domácností by byla módem kategorie 3 v případě, že ve zkoumaných domácnostech žijí nejčastěji 3 členové). Modus lze použít jak u všech typů proměnných, tj. intervalové, ordinální i nominální. Modus je vhodný pro rozložení četnosti s více vrcholy. Modální interval – mluvíme o něm u skupinového rozdělení četností (např. ve vybraných domácnostech by se nejčastěji vyskytovala skupina obyvatel s příjmy mezi 12000 – 15000Kč, proto by modálním intervalem byl interval pro 12000 – 15000Kč). Medián – kategorie, v níž kumulativní četnost dosáhne 50%. Medián je ukazatel středu rozložení souboru, přičemž není ovlivněn krajními hodnotami, na rozdíl od průměru. Medián lze použít, jestliže proměnné jsou ordinálního nebo intervalového typu nebo jestli chceme znát střed rozdělení dat. Medián je vhodný pokud data obsahují odlehlé nebo extrémní hodnoty nebo pokud je rozložení dat silně zešikmené. Průměr – součet hodnot dělený jejich počtem. Je silně ovlivněn extrémními hodnotami. Aritmetický průměr lze použít, jestliže typ proměnných je intervalový (tzn. průměr nelze použít ordinálních a nominálních proměnných). Aritmetický průměr je nejvhodnější centrální
9
charakteristika u intervalových dat, které mají symetrické rozložení a nejsou ovlivněné extrémy. Vážený průměr – pokud máme několik průměrů spočítaných z různých podmnožin dat a známe příslušné počty měření ni , lze vypočítat celkový průměr ze všech dat jako vážený průměr. MÍRY VARIABILITY Minimum, resp. maximum – Nejnižší, resp. nejvyšší hodnota intervalové proměnné. Variační rozpětí – rozdíl mezi nejnižší a nejvyšší hodnotou intervalové proměnné. Rozptyl – ukazuje rozptyl dat kolem průměru. Je definován jako průměrná kvadratická odchylka měření od aritmetického průměru. Přičemž dělíme stupni volnosti (n 1) : Směrodatná odchylka – je odmocninou z rozptylu. Ukazuje, jak jsou data rozptýlena okolo průměru, je-li průměr vhodnou mírou střední hodnoty. Je silně ovlivněna extrémními hodnotami. Při normální distribuci leží 68% hodnot v jedné směrodatné odchylce od průměru a 95% všech hodnot ve dvojnásobku směrodatných odchylek. Percentily – Hodnoty kvantitativní proměnné, které rozdělí ordinální data do skupin tak, že od určitého procenta je vše vyšší a naopak. V případě kvantilů (25., 50. a 75. percentil) je sledovaný soubor rozdělen na čtyři stejné části. Lze jej ale rozdělit libovolný počet částí stejného rozměru. Směrodatná chyba průměru – je vyjádřením variability průměrů v opakovaných výběrech téže velikosti z téhož základního souboru. MÍRY ŠPIČATOSTI A ŠIKMOSTI Hodnotíme jimi mj. také to, jak se rozdělení dat podobá normální (Gaussově) křivce. K výpočtu těchto charakteristik se přistupuje různě. Nejčastěji se využívají tzv. centrální momenty třetího a čtvrtého stupně. Centrální moment k-tého stupně mk je obecně definován Koeficient šikmosti – měří zešikmenost, resp. nesymetrii dat a vypočítá se pomocí druhého a třetího momentu. Koeficient špičatosti – měří odchylku špičatosti zkoumaného rozdělení od normálního rozdělení.
10
2 Zásady statistické vizualizace Vizualizace (visualization) je obecně postup, při němž vyjadřujeme určité hodnoty nebo vztahy mezi hodnotami pomocí obrazů. Lidský mozek je uspořádán tak, aby dokázal velmi rychle analyzovat scénu, kterou získá pomocí zraku, a umožnil tak rychlé přizpůsobení se novým podmínkám. V užším smyslu můžeme vizualizaci chápat jako sadu nástrojů a postupů (algoritmů), které slouží k vizuální analýze dat. Jde tedy o proces zkoumání dat a vztahů mezi daty po jejich (někdy pouze částečném) převedení do grafické podoby. Cílem vizualizace je pochopení zkoumaných jevů a jejich vnitřních stavů.
2.1 Tabulky a textový popis Pro přesné výpočty se hodí přímo výsledky numerické analýzy nebo řízené simulace, zobrazené ve formě tabulek nebo textového popisu. Textový popis se hodí při prezentaci malého počtu hodnot (max. 5), pro větší počty hodnot je vhodnější využít tabulky. Ta je schopna srozumitelně reprezentovat větší počet numerických informací než text. Tabulka by měla být navržena a využita tak, aby měla tzv. „samovysvětlovací“ schopnost, tedy aby z ní jasně vyplývaly základní charakteristiky zkoumaného jevu. Nejvhodnější je kombinace popisu formou tabulek i slovním vyjádřením, které shrne pouze základní trendy a nejvýraznější charakteristiky jevu.
2.2 Grafy Diagramy neboli grafy, jsou grafickým a schématickým znázorněním vztahů, závislostí, postupů či statistických údajů. Na rozdíl od textového či tabulkového vyjádření prezentují komplexní popis jevů. Diagramy mohou být založeny na různých principech.
Sloupcové grafy - hodí se zejména pro znázornění změn dat za časové období nebo pro znázornění porovnání položek. Spojnicové grafy - umožňují zobrazení souvislých dat v čase a jejich srovnání se společnou stupnicí a jsou proto ideální pro zobrazení trendů v datech ve stejných intervalech. XY bodové grafy - zobrazují vztahy mezi číselnými hodnotami v několika datových řadách nebo vykreslují dvě skupiny čísel jako jednu řadu souřadnic XY. Vynesené hodnoty jsou zkombinovány do jednotlivých datových bodů a zobrazeny v nerovnoměrných intervalech nebo shlucích. Výsečové grafy - velikosti položek se zobrazují jedné v poměru k součtu položek. Plošné grafy - zvýrazňují velikost změny v průběhu času a lze je použít k upoutání pozornosti na celkovou hodnotu v trendu. Paprskové grafy - porovnávají úhrnné hodnoty počtu datových řad.
11
2.3 Kartogramy a kartodiagramy Kartodiagramy a kartogramy se používají pro vyjádření kvantitativních jevů v prostoru. Dále je důležité, jestli jsou zobrazována data absolutní, či relativní. Absolutní hodnota velikosti jevu je chápána jako počet nebo množství (objem produkce, počet obyvatel). Pro znázornění se volí metoda kartodiagramu, metoda izolinií či metoda dasymetrická. Široké uplatnění má tento způsob znázornění např. v ekonomii, demografii či humánní geografii. Relativní hodnota je vždy převedena na srovnatelnou jednotku, která zaručuje objektivnější srovnání všech hodnot (výnos obilí v tunách na jeden hektar, počet narozených na 1000 obyvatel). Je nutné je správně graficky (barvou nebo rastrem) interpretovat, jinak nemusí dojít k objektivnímu srovnání. Pro znázornění relativních hodnot se volí metoda kartogramu nebo metoda teček. Relativní hodnoty se nejčastěji zobrazují formou kartogramu, který nabízí velice rychlé a elegantní srovnání dílčích území (podmínkou je však správný přepočet na stejnou jednotku). Nejčastější území, v nichž jsou graficky znázorněny intenzity jevů, jsou administrativní jednotky používané pro sběr statistických dat. Rozlišujeme více druhů kartogramů, nejčastěji se však používá kartogram jednoduchý, kde je každý dílčí areál označen barvou dle předem stanovené stupnice. V moderním výzkumu se pro vytváření kartogramů a kartodiagramů využívají geografické informační systémy, které budou popsány v následujících kapitolách.
12
3 Informační technologie a GIS Není náhodou, že současná doba se nazývá dobou informační. S vývojem lepších počítačů, trendem převodu všech jevů do digitálního zpracování, roste potřeba zvětšení kapacity úložišť pro velmi obsáhlé databáze. Lze očekávat, že tento trend bude stále více narůstat a bude potřeba řešit efektivnější ukládání a zálohování dat. Například data od telefonních operátorů, policejní záznamy o uskutečněných přestupcích či záznamy z hypermarketu o jednotlivých nákupech jsou databáze s miliardami záznamů, které je nutno nějakým způsobem uchovávat a ještě lépe zpracovat a výsledné informace prakticky využít v různých aplikacích. Pokud tyto data mají navíc prostorovou složku, pak se dají velice efektivně zpracovat a využít v geoinformačních systémech, což přináší další nemalé možnosti jejich zpracování a následné využití v běžném životě.
3.1 Geografické informační systémy Znalost umístění a vzájemných prostorových souvislostí mezi objekty je velmi významná a může sehrát důležitou roli v řadě oborů lidské činnosti. K této znalosti je důležité disponovat daty obsahujícími jak vlastní údaje o objektu (tzv. atributy), tak údaje o jeho geografické poloze. Tato data nazýváme geografická (prostorová) data. Geografický informační systém (GIS) je počítačově založený informační systém pro sběr, spravování, analýzu a vizualizaci geografických dat. Geografický informační systém umožňuje vytvářet modely části zemského povrchu pomocí dostupných softwarových a hardwarových prostředků. GIS se běžně užívá k vizualizaci a analýzám prostorového rozložení jevů. Díky GIS je možné například modelovat a analyzovat sítě (kanalizační, dopravní, hledání optimálních tras), predikovat šíření jevů a lokalizaci zdrojů (nákazy, požáry), provádět analýzy lokace a alokace (spádovost oblastí, vytyčení optimálního rozmístění poboček), multikriteriální analýzy prostorových dat (vytyčení nejvhodnějšího území pro výstavbu průmyslové zóny) a využívat mnoho dalších analytických nástrojů vhodných pro podporu prostorového plánování. Nejvyužívanějším geografickým softwarovým balíkem je ArcGIS od společnosti ESRI. Systém tvoří řada škálovatelných produktů. Součástí ArcGIS jsou desktopové, serverové i vývojářské produkty, nechybí ani řešení pro mobilní zařízení a specializované nadstavby. Nejdůležitější součástí tohoto systému, pro analýzu a základní vizualizaci prostorových dat, je program ArcMap. Výhody:
Schopnost analyzovat a vizualizovat prostorová data
Nevýhody
Vysoké pořizovací náklady Nutná odborná znalost uživatele Náročnost na výkon počítače 13
3.2 Prostorové analýzy 3.2.1
Shlukové analýzy
Shlukové analýzy se obecně používají pro identifikaci jevů, jejich rozmístění a zhodnocení jejich hustoty a kumulace. Snaží se o sdružování dat s podobnými vlastnostmi do jednotlivých shluků. Metoda analýzy Hot spot slouží k identifikaci rozmístění prostorových shluků vysokých hodnot (Hot Spots) a prostorových shluků nízkých hodnot (Cold Spots). Jedná se o shlukovou metodu, která umožňuje řešit shlukování hodnot v území. Porovnává objekty a jejich hodnoty vzhledem k sousedním objektům a jejich hodnotám. Tuto metodu lze využít například pro mapování a hodnocení prostorové diferenciace obyvatelstva či zjišťování ohnisek nákazy. Metoda jádrových odhadů (Kernel) je velmi podobná metodě hot spot analýzy a její využití je téměř totožné. Na rozdíl od ní, však počítá hustotu prvků v předem definované šířce pásma od jejich okolí. Mezi možné využití patří zjištění hustoty domů, trestných činů, hustoty silnic a inženýrských sítí ovlivňujících město, atd. (Horák, 2011). 3.2.2
Síťové analýzy
Model sítě, jako objektu reálného světa, lze vytvořit na základě teorie grafu s využitím topologie. Geometrická síť se skládá z uzlů a hran sítě a v této podobě pak může být jednoduchým modelem konkrétní reálné sítě, kterou lze vytvořit v prostředí GIS. Na modelech sítí lze realizovat síťové analýzy, jako je hledání optimální trasy, identifikace nejbližšího zařízení, identifikace obslužných zón, analýzy lokace a alokace či problém „obchodního cestujícího“, tedy nalezení nejkratší možné cesty procházející všemi zadanými body na mapě. 3.2.3
Mapová algebra
U rastrových reprezentací se místo topologického překrytí používá nástroj zvaný mapová algebra. Ten je určen výhradně pro ně a umožňuje kombinovat rastrové vrstvy pomocí různých matematických operací. Tyto matematické operace se vykonávají buď na jedné, nebo na dvou (i více) vrstvách a jejich výstupem je vždy nová vrstva, kterou je samozřejmě možné používat v dalších analýzách. To vytváří z mapové algebry mocný prostředek pro prostorové modelování a analyzování. Klasickou aplikací mapové algebry je vyhledávání míst, která vyhovují určitému souboru kritérií. Příkladem může být vyhledání vhodných lokalit pro výsadbu dřevin ve městě, svahů pro zakládání vinic, oblasti náchylných k sesuvům, zemědělské půdy pro pěstování vybraných plodin atd.
14
4 Moderní metody zpracování dat S postupným vývojem programového vybavení, zlepšováním databázových systémů, internetových zdrojů a datových zdrojů, roste potřeba adekvátně zpracovávat všechny tyto informace rychle, efektivně a kvalitně. Pro toto zpracování se vyvíjí stále modernější metody, mezi něž patří například Data Mining, neuronové sítě či fuzzy přístup. Všechny tyto metody upřesňují reprezentaci reálných dat v počítačovém prostředí (nebo naopak reprezentaci počítačových dat v realitě), případně zlepšují možnosti extrakce kvalitních informací. Pro správné provedení analýz je potřeba znát tyto metody detailně, aby byl výsledek kvalitativně i kvantitativně korektní. Fuzzy přístup zavádí do prostorových dat pojem neurčitost, protože nic se nedá naprosto přesně změřit, či popsat (vždy lze dojít k neurčitosti). Data Mining označuje dolování informací z dat, které nelze na první pohled z dat vyčíst. Neuronové sítě se snaží napodobit lidské myšlení tak, aby byli schopny se učit sami a řešit problémy s minimálním zásahem lidského faktoru.
4.1 Fuzzy přístup „Čím lépe matematické zákony popisují realitu, tím jsou méně přesné, a čím jsou přesnější, tím hůře popisují realitu.“ - Albert Einstein Fuzzy = chlupatý, rozmazaný, neostrý, neurčitý, opilý Vědci žili dlouho v přesvědčení, že přesné změření jakékoliv veličiny je jen otázkou nákladů a úsilí. Tímto přesvědčením otřásl objev Heisenbergova principu neurčitosti, který tvrdí, že dvě veličiny jsou navzájem vázány tak, že čím přesněji změříme jednu, tím méně víme o té druhé. Ukazuje, že existují určité meze kvantitativního přístupu. Slovní popis dějů však v sobě nese jistou neurčitost, která odporuje klasické výrokové logice (Aristotelovská logika). Aristotelovská logika rozlišuje pouze 2 hodnoty, pravdu a nepravdu. To je velmi vhodné pro matematiku a výpočetní techniku, v reálném světě však neexistují ostré hranice dějů a jejich vlastností a s využitím Aristotelovské logiky dochází k logickým paradoxům. Jedná se o soudy, kdy nelze určit pravdivost výroku. Asi nejznámějším paradoxem je paradox hromady: “Ubírejme z hromady písku jednozrnko po druhém. Ve kterém okamžiku přestane existovat hromada a zůstane jen pár kamenů? Uvažme, že 10 000 zrnek písku tvoří hromadu. 1 zrnko písku není hromada. Jestliže 1 zrnko písku není hromada, pak ani 2 zrnka písku nejsou hromada. Jestliže 2 zrnka písku nejsou hromada, pak ani 3 zrnka písku nejsou hromada. … Jestliže 99999 zrnek písku není hromada, pak ani 100000 zrnek písku není hromada.“ Pro zmíněný paradox platí, že si navzájem protiřečí. Pokud bychom tuto skutečnost nebrali v úvahu a přiřadili bychom pravdivostní hodnotě „pravda“ hodnotu 1, kdežto pravdivostní hodnotě „nepravda“ hodnotu 0, tak v průměru dostáváme na první pohled nesmyslný výsledek 0,5, tedy „polopravda“.
15
Takovýto výrok vylučuje použití Aristotelovské logiky, kde má výrok pravdivostní hodnotu z množiny {0,1}, lze ho však popsat pomocí Fuzzy logiky, kde má výrok pravdivostní hodnotu z intervalu <0,1>. Fuzzy logika tak umožňuje matematicky vyjádřit pojmy jako „trochu“, „dost“ nebo „hodně“ nebo například slovní vyjádření teploty vody, viz níže. Přesněji, umožňuje vyjádřit částečnou příslušnost k množině. Díky tomu fuzzy přístup není jen jakýsi nový přístup k vyjádření neurčitosti, ale staví na hlavu způsob uvažování používaný v západní civilizaci od dob antiky. Výhody
Umožňují věrněji modelovat realitu než „tvrdá data“
Nevýhody
Vyšší výpočtová náročnost Složitější transformace dat
4.2 DataMining Data Mining, nebo-li dolování z dat, je speciální pojem obsahující širokou škálu technik používaných v řadě odvětví. Obzvláště v dnešní době velké konkurence a snadného přístupu k velkému množství dat je tento proces pro firmy nezbytný k udržení se na trhu. Díky skutečnosti, že data jsou dostupná ve velké míře volně a exponenciálně jejich počet narůstá, je nutné extrahovat z velkého množství dat pouze data relevantní a podstatná, a to efektivně a rychle. Tato data jsou však často skryta v záplavě nepotřebných dat. V průběhu času, především s rozvojem statistických metod a databázových aplikací, se dolování z dat rozšířilo mezi velký počet oborů, například bankovnictví, pojišťovnictví, veřejné služby, telekomunikace, energetika, cestovní ruch, maloobchod, zábava a mnoho dalších. Data Mining umožňuje pomocí speciálních učících se algoritmů automaticky objevovat v obsahu dat strategické informace. Jedná se především o odvozování prediktivních informací, nikoliv pouze popisných. Odhalují se např. skryté faktory pro podnikání či nenápadné korelace mezi jevy. Data Mining tedy slouží především pro podporu v rozhodování, předpovědi budoucího vývoje, identifikaci mimořádných událostí či diagnózy. Dolování z dat zahrnuje několik dílčích fází, jež jsou společné pro libovolnou metodologii (mezi zavedené metodiky patří SEMMA či CRISP-DM):
Porozumění problému a datům Příprava dat (čištění, integrace, výběr, agregace, transformace) Dolování informací (statistické modely, učící se algoritmy, genetické programování, testování hypotéz) Zhodnocení modelu (crossvalidace, chybová matice, matice záměn) Reprezentace výstupů
Pokud správně nerozumíme problému, nevíme, co chceme extrahovat a nevyznáme se v datech, je nemožné dostat správný výsledek analýzy. Klíčovým prvkem jsou samozřejmě 16
data. Různých typů vstupních dat může být poměrně široké spektrum. Počínaje datovou maticí, přes grafy, digitální obrazové data a konče např. časovými řadami. Obecně lze říci, že formátů pro reprezentaci dat je nekonečně mnoho. Nejčastěji používaným je formát CSV. Je využíván především díky své jednoduchosti a srozumitelnosti. Je také velmi lehce převoditelný do téměř libovolného formátu. Nevýhodou je však nemožnost nastavit parametry atributů (uvádí pouze hodnoty). Při přípravě dat pro analýzu může docházet k velkému počtu úprav či problémů. Prvním problémem může být již zmíněné sladění formátů. Dále se řeší velikost trénovacích dat (Kdy je dostatek vzorových dat?; Není jich až moc?), spojování souborů (stejné názvy proměnných, shoda datových formátů, otázka primárních a cizích klíčů), přidání vah k jednotlivým kategoriím a mnoho dalších. Technik používaných pro dolování znalostí je několik, mezi nejčastější patří:
Rozhodovací stromy Klasifikační pravidla Rozšíření lineárních modelů Učení na příkladech (neuronové sítě) Shluková analýza Regresní analýza Analýza rozptylu (ANOVA)
Při reprezentaci vzniklých informací si musíme dát pozor na to, jak výsledky prezentujeme a jestli dávají logický význam. Je nutné si uvědomit, že data zpracováváme statistickými metodami, tedy výsledek musí být zatížen statistickou chybou. Nelze na základě takto získaných dat tvrdit, že toto je varianta, která platí se 100% jistotou. Nejvíce se Data Mining využívá v marketingu pro segmentaci zákazníků, zvyšování efektivity reklamních kampaní, sledování rizika odchodu ke konkurenci nebo známé analýzy nákupního košíku. Tuto analýzu lze provádět jak u kamenných obchodů z jednotlivých účtenek, tak u elektronických obchodů z objednávek. Elektronické obchody mají navíc tu výhodu, že mohou sledovat, co si zákazník prohlíží. Výsledky ukazují pravděpodobnost nákupu jednoho typu zboží spolu s jiným výrobkem. V kamenných obchodech jsou tyto analýzy využívány k umístění jednotlivých výrobků na prodejně, v elektronickém obchodě například pro doručení typu „ostatní zákazníci si ke zvolenému výrobku také objednali“. S touto metodou souvisí také asociační pravidla popisující vztahy mezi jednotlivými výrobky. Výhody Data Miningu
Ekonomický zisk kvalitních informací Podpora v rozhodování Možnost získat data pro predikci jevů
Nevýhody Data Miningu
Vysoké odborné nároky na zpracovatele Vysoké nároky na skladování objemných datových zdrojů 17