METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE
SE JIŽ OD
60.
20.
ST. S ROZVOJEM
VÝBĚRU,
PROHLEDÁVÁNÍ
LET
POČÍTAČOVÉ TECHNIKY
DEFINICE
–
PROCES
A MODELOVÁNÍ VE VELKÝCH OBJEMECH DAT SLOUŽÍCÍ K ODHALENÍ DŘÍVE NEZNÁMÝCH VZTAHŮ MEZI DATY ZA ÚČELEM ZÍSKÁNÍ OBCHODNÍ VÝHODY
VSTUPNÍ DATA JSOU ZÍSKÁVÁNA V
Z DATOVÝCH SKLADŮ
PROCESU DOLOVÁNÍ JE VELMI DŮLEŽITÁ KVALITA
VSTUPNÍCH
DAT
–
ČIŠTĚNÍ
FORMÁTŮ, AKTUALIZACE DAT
OD
CHYB,
SJEDNOCENÍ
OBECNÉ METODY DOLOVÁNÍ DAT PREDIKTIVNÍ
–
MODELOVÁNÍ
NA
ZÁKLADĚ
ZNÁMÉ
MNOŽINY VSTUPNÍCH HODNOT A TOMU ODPOVÍDAJÍCÍCH ZNÁMÝCH
HODNOT
VÝSTUPNÍCH
SE
HLEDÁ
NEJPRAVDĚPODOBNĚJŠÍ HODNOTA VÝSTUPU PRO PŘEDEM NEZNÁMÉ KOMBINACE VSTUPNÍCH HODNOT
KLASIFIKACE –
METODA ROZDĚLOVÁNÍ DAT DO SKUPIN
DLE JISTÝCH KRITÉRIÍ.
DĚLÍME
JI NA ŘÍZENOU
(ALESPOŇ
PRO VZOREK DAT JSOU KRITÉRIA ZNÁMÁ) A NEŘÍZENOU
(KRITÉRIA NEJSOU PŘEDEM ZNÁMÁ A ÚLOHOU KLASIFIKACE JE JEJICH NALEZENÍ)
OBECNÉ METODY DOLOVÁNÍ DAT ANALÝZA ASOCIACÍ – NEJČASTĚJŠÍM PŘÍKLADEM ANALÝZY ASOCIACÍ JE ANALÝZA NÁKUPNÍHO KOŠÍKU ZABÝVAJÍCÍ SE HLEDÁNÍM KOMBINACÍ PRODUKTŮ, KTERÉ SE VE VSTUPNÍCH DATECH
(KOŠÍKU)
VYSKYTUJÍ VÝZNAMNĚ ČASTĚJI SPOLU.
CÍLEM JE NALÉZT PRAVIDLA TYPU: PŘI NÁKUPU ZBOŽÍ A A C SPOTŘEBITELÉ VÝRAZNĚ ČASTĚJI NAKUPUJÍ I ZBOŽÍ D A B
OBECNÉ METODY DOLOVÁNÍ DAT VZORKOVÁNÍ ZE
–
VÝBĚR
OMEZENÉ
SOUBORU.
ZÁKLADNÍHO
MNOŽINY
DAT
NEJJEDNODUŠŠÍM
VZORKOVÁNÍM JE NÁHODNÝ VÝBĚR (SLOUŽÍ KE ZMENŠENÍ
OBJEMU ZPRACOVÁVANÝCH DAT).
SLOŽITĚJŠÍ
METODOU
JE NAPŘ. VÝBĚR STEJNÉHO POČTU ZÁZNAMŮ DANÉHO TYPU
(REDUKCE
PŘI
MNOŽSTVÍ
SOUČASNÉ
VÝSLEDKU
ZÁRUCE
ZPRACOVÁVANÝCH POŽADOVANÉ
DAT
PŘESNOSTI
METODY DOLOVÁNÍ DAT V GIS SHLUKOVÁ ANALÝZA UMĚLÉ NEURONOVÉ SÍTĚ GENETICKÉ ALGORITMY
SHLUKOVÁ ANALÝZA ROZDĚLENÍ
VSTUPNÍ
MNOŽINY
DAT
DO
NĚKOLIKA
STEJNORODÝCH NAVZÁJEM DISJUNKTNÍCH SHLUKŮ
SNAHOU
JE, ABY OBJEKTY UVNITŘ JEDNOHO SHLUKU SI
BYLY CO NEJVÍCE PODOBNÉ A ZÁROVEŇ SE CO MOŽNÁ NEJVÍCE ODLIŠOVALY OD OBJEKTŮ JINÝCH SHLUKŮ
POČET SHLUKŮ JE, ČI NENÍ ZADÁN POUŽÍVANÉ
ALGORITMY:
AGLOMERATIVNÍ
POSTUP
-
VYCHÁZÍ Z N SHLUKŮ, KDY KAŽDÝ
OBSAHUJE POUZE JEDEN OBJEKT, V KAŽDÉM KROKU SE SHLUKY
SPOJUJÍ VE SHLUKY VYŠŠÍ ÚROVNĚ NA ZÁKLADĚ VZDÁLENOSTI ČI PODOBNOSTI OBJEKTŮ
SHLUKOVÁ ANALÝZA DIVIZNÍ POSTUP - VYCHÁZÍ Z JEDNOHO SHLUKU, KTERÝ JE KAŽDÉM DALŠÍM KROKU ROZŠTĚPEN NA DVA, NA KONCI PROCESU OBDRŽÍME N SHLUKŮ
UMĚLÉ NEURONOVÉ SÍTĚ (UNS) • CÍLEM
JE SNAHA PŘIBLÍŽIT SE V TECHNICKÉ PRAXI ŽIVÝM
ORGANISMŮM,
VYCHÁZEJÍ
Z
ANALOGIE
S
LIDSKÝM
MOZKEM
• PODOBNĚ JAKO MOZEK JSOU TVOŘENY MNOŽSTVÍM NAVZÁJEM PROPOJENÝCH ELEMENTŮ (NEURONŮ)
UMĚLÉ NEURONOVÉ SÍTĚ (UNS) V UNS
JE NEURON CHÁPÁN JAKO BUŇKA, KTERÁ PŘIJÍMÁ
PODNĚTY PŘIPOJENY
OD
JINÝCH
„NA
NEURONŮ,
VSTUPU“.
POKUD
KTERÉ
JSOU
K
NÍ
SOUHRNNÝ ÚČINEK
TĚCHTO VSTUPNÍCH PODNĚTŮ PŘEKROČÍ URČITÝ PRÁH, NEURON SE AKTIVUJE A SÁM ZAČNE SVÝM VÝSTUPEM PŮSOBIT NA DALŠÍ NEURONY
DŮLEŽITÁ Z PŘÍKLADŮ
JE
SCHOPNOST
TĚCHTO
MODELŮ
UČIT
SE
UMĚLÉ NEURONOVÉ SÍTĚ (UNS) Schopnost učit se Zvýšení spolehlivosti (při poruše mohou funkční bloky nahradit funkci bloků poškozených) Schopnost generalizace
Obtížná identifikace procesů v UNS Příliš velký počet stupňů volnosti Velký počet variant uspořádání UNS
GENETICKÉ ALGORITMY PŘEDSTAVUJÍ PRAVDĚPODOBNOSTNÍ PROHLEDÁVACÍ METODU, KTERÁ JE ZALOŽENA NA PŘÍRODNÍM VÝBĚRU (SELEKCI) A JE INSPIROVÁNA PŘÍRODNÍMI GENETICKÝMI PRINCIPY (DĚDIČNOST, MUTACE, KŘÍŽENÍ) OBECNÉ SCHÉMA ALGORITMU: Vytvoření nulté populace Výpočet zdatnosti nových jedinců
Výběr zdatných jedinců Konec cyklu (není-li splněna zastavovací podmínka)
Z vybraných jedinců vygeneruj nové (křížení, reprodukce) Konec algoritmu
Výstupem je jedinec s nejvyšší zdatností
GENETICKÉ ALGORITMY
Nevyžadují znalosti o cílové funkci Odolné proti sklouznutí do lokálního optima Využití při optimalizaci
Problémy s nalezením přesného optima Implementace není vždy přímočará
VYUŽITÍ TECHNIK DOLOVÁNÍ DAT ANALÝZA ÚVĚROVÉHO
RIZIKA
VYHODNOCENÍ MARKETINGOVÝCH KAMPANÍ SEGMENTACE ZÁKAZNÍKŮ DETEKCE PODVODŮ ANALÝZA PRODUKTŮ ANALÝZA CHOVÁNÍ ZÁKAZNÍKŮ
DATOVÉ SKLADY (DATA WAREHOUSE) Jsou zdrojem dolování dat
dat
pro
proces
DATA ULOŽENÁ VE STRUKTUŘE UMOŽŇUJÍCÍ EFEKTIVNÍ ANALÝZU A DOTAZOVÁNÍ
DATA JSOU DO SKLADŮ ČERPÁNA Z PRIMÁRNÍCH INFORMAČNÍCH ZDROJŮ
SKLÁDÁ SE ZE TŘÍ VRSTEV: SPODNÍ (DATOVÝ SKLAD S RELAČNÍ DB) PROSTŘEDNÍ (OLAP) VRCHNÍ (=KLIENT)
DATOVÉ SKLADY
(DATA WAREHOUSE) OLTP (ON-LINE TRANSACTION PROCESSING, „VÝROBA DAT“) – PERIODICKÁ AGREGACE (SUMARIZACE) DAT A JEJICH NÁSLEDNÉ ULOŽENÍ DO SKLADU
OLAP (ON-LINE ANALYTICAL PROCESSING, „PREZENTACE, PRODEJ DAT“) – OKAMŽITÉ ZPRACOVÁNÍ DAT, CO NEJRYCHLEJŠÍ POSKYTNUTÍ POŽADOVANÝCH AGREGOVANÝCH DAT ZE SKLADU UŽIVATELI
DĚKUJI ZA POZORNOST