Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326
Možnosti analýzy validity a prezentace získaných dat z informačních databází. 1. Získávání (dobývání) znalostí z dat 2. Validace dat v rozhodovacím procesu 3. Vytěžování dat - Data Mining -Text Mining 4. Kontrolní otázky a úkoly samostudia
Cíle přednášky 1. Předat studentům informace k získávání znalostí z dat. 2. Uvést možnosti validace dat v rozhodovacím procesu. 3. Objasnit vytěžování dat - Data Mining, Text Mining.
Získávání znalostí z databází Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Je obecně známo, že až osmdesát procent uložených dat v databázích po celém světě má podobu textu, tedy nestrukturovaných dat. [1] Teprve počátkem 90. let 20. století vznikl nápad využít především údajů z počítačových databází, původně určených jen k evidenčním účelům, také jako zdroj automatizovaného získávání (dobývání) znalostí. [2] Hlavním impulsem pro rozvoj nového oboru byl zájem firem zpracovávat svá data za účelem získání lepších informací o fungování firmy a umět tak lépe a rychleji reagovat na potřeby trhu, být konkurenceschopnější. [3]
Kvalita rozhodovacího procesu
„Kvalita rozhodovacího procesu závisí na rozsahu a kvalitě disponibilních informací a znalostí.“
Základní pojmy
Informace je sdělitelný poznatek pro příjemce, který má smysl a snižuje míru neurčitosti při jeho rozhodování. Data jsou zakódované informace v podobě srozumitelné příjemci.
Znalosti jsou strukturovaný souhrn vzájemně souvisejících poznatků a zkušeností z určité oblasti nebo k nějakému účelu. Získávají se zejména praxí nebo studiem. Databáze (neboli datová základna) je určitá uspořádaná množina informací (dat), Copyright©©2011 2011Václav VáclavRansdorf Ransdorf Copyright uložená na paměťovém médiu. „Po obsahové obsahovéstránce stránce lze lze uvedené uvedenépojmy pojmy definovat definovat „Po stejnýmzpůsobem způsobem––jako jakoodraz odraz(reprezentaci) (reprezentaci)reálného reálného stejným světa.“ světa.“
Získávání (dobývání) znalostí z dat
Dobývání znalostí z databází je chápáno jako multioborová disciplina především proto, že náročný proces vyžaduje podíl řady vědních oborů. „Získávání(dobývání) (dobývání)znalostí znalostízzdat datnazýváme nazývámeproces proces „Získávání netriviálníhozískávání získáváníimplicitní, implicitní,dříve dříveneznámé neznámé netriviálního potencionálněužitečné užitečnéaaplatné platné(validní) (validní)informace informacezzdat.“ dat.“ aa potencionálně
[3] [3]
Validace dat v rozhodovacím procesu Při získávání dat z různých zdrojů, stejně jako při statistickém hodnocení technologických procesů (například dodržení předepsaných standardů), je důležité zkoumat validitu, to jest platnost získaných výsledků vzhledem ke skutečnosti. Proces zajištění validity se potom nazývá validace, například validace testu. Kvalitativní nebo nezávislá kvantitativní validace je důležitá zejména tam, kde zkoumaný jev nelze úplně oddělit od dalších vlivů a kde je interpretace výsledků složitá.
„Validace se se používá používá při při kvantitativním kvantitativním ii kvalitativním kvalitativním „Validace výzkumu, existují existují různé různé postupy postupy jejího jejího zajištění.“ zajištění.“ výzkumu,
Validace dat v rozhodovacím procesu Data jsou stále rozsáhlejší, vyvodit z nich užitečné závěry je stále složitější: Náročné rozhodovací procesy s využitím IKT. Miliony finančních transakcí. Miliony hovorů denně u telekomunikačních operátorů. … je ddát uloženým datům význam „„Smyslem Smyslem je át ulo ženým dat ům význam vytěžit databáze nové informace.“ aa vyt ěžit zz datab áze nov é informace. “
Validace dat v rozhodovacím procesu Data jsou stále rozsáhlejší,
vyvodit z nich užitečné závěry je stále složitější: Hledání skrytých závislostí v datech.
Porovnávání vzorců chování. Predikce za pomocí segmentačních metod, neuronových sítí, apod. Hledání příležitostí, predikce rizik. …
metodologie získávání získávánínetriviálních netriviálních skrytých skrytých „„AAnalytická nalytická metodologie
potenciálněužitečných užitečnýchinformací informacízzdat datse senazývá nazývá --Data Data aa potenciálně Mining([dejta ([dejtamajnyn], majnyn],angl. angl.dolování dolovánízzdat datčiči vytěžování vytěžovánídat).“ dat).“ Mining Zavedení pojmu:1991 1991––William WilliamClement ClementFrawley Frawley Zaveden í pojmu:
Co je to Data Mining?
Kdo to to pot potřebuje? Kdo řebuje? Exekutiva aa management. management. Exekutiva Co realizuje? realizuje? Co Informace oo jednotlivých jednotlivých Informace objektech aa transakc transakcích. objektech ích.
slouží? KK ččemu emu slou ží? podpoře KK podpo ře řřízení. ízení. Jak to to realizovat? realizovat? Jak Pomocí databázových Pomoc í datab ázových systémů. syst émů.
poznatky zz nněkolika oborů „„Zahrnuje Zahrnuje poznatky ěkolika obor ů matematiky aa informatiky. informatiky.“ matematiky “
[2] [2]
Vytěžování dat - Data Mining Data Mining ([dejta majnyn], angl. dolování z dat či vytěžování dat, DM) se někdy chápe jako analytická součást dobývání znalostí z databází (Knowledge Discovery in Databases, KDD). Prohledávání stávajících databází, kdy na základě speciálních metod se vyhledávají nové znalosti. Hledání hodnotných informací ve velkých objemech dat. Proces zjišťování platných, neznámých, potencionálně užitečných a snadno pochopitelných znalostí z dat (např. náchylnost ke koupi, k podvodu apod.). [2]
„Tato dvě označení se mají stejný význam.“
K čemu je Data Mining? Stále větší množství dat uložených v databázích: Neustále generujeme data Obchodní a bankovní transakce Komunikační, biologická, astronomická, systémová data atd…
Ukládáme stále více dat Databázové technologie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími daty Netriviální hledání skrytých závislostí mezi daty (např. náchylnost ke koupi, k podvodu, apod.) [5]
Kde se Data Maning využívá Časté aplikace jsou především v oblastech: finančnictví (např. odhadování rizika, hledání podvodů), přímého marketingu (výběr klientů pro oslovení), telekomunikací (segmentace klientů, prodej programů, ...), monitorování aktivit na Internetu s cílem odhalit činnost potenciálních škůdců a teroristů, internetového prodeje (analýza přechodů mezi stránkami, efektivity a poskytování reklamy, …). [4]
Příklady úloh řešených metodami Data Miningu navrhování a sledování účinnosti marketingových kampaní, navrhování bezpečnostních opatření u složitých průmyslových provozů a strojů, analýza provozu a optimalizace serverových řešení, zkoumání zákonitostí změn klimatu podle dlouhých časových řad meteorologických měření, vytváření různých sociologických prognóz, plánování burzovních a měnových spekulací. [2]
Proces získávání znalostí z dat Výsledné vzory (pravidla)
í án
Výběr dat Vstupní data
at íd ) án ing lov Min Do ata (D
dodavatelé zákazníci
ov ra c zp ed dat Př
faktury
DB (Datový sklad)
e ac ní ret oce erp dn Int yho av
Stanovení cílů
Prezentace znalostí Pochopení
ZNALOST [2] [2]
Proces získávání znalostí z dat Stanovení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme zobrazit výsledky získávání znalostí? Jsou naše data vhodná pro danou metodu?
Proces získávání znalostí z dat Výběr zdrojů dat Typy databází z hlediska obsahu Zákaznické databáze – údaje o zákazníkovi, případně o jeho aktivitách Databáze transakcí – údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek – databáze o oslovování zákazníků kampaněmi Externí data - WWW
Techniky Data Miningu
[5] [5] Technikje jeřada řadaaajsou jsouvelmi velmisofistikované. sofistikované. Technik
Metody Data Miningu Text Mining Mining Text Text Mining obecně spadá pod soubor dataminingových metod - ty však pracují s čísly, případně s nominálními či ordinálními proměnnými, jako jsou názvy kategorií apod. Text Mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěžení cenné informace z textu, tato metoda však může pomoci i při samotné dataminingové analýze. [1] [1]
Metody Data Miningu Extrakce významu významu sd sdělení Extrakce ělení nestrukturovaného textu zz nestrukturovan ého textu Podle počtu a struktury slov lze identifikovat téma a smysl čteného dokumentu, přitom nemusí jít pouze o mnohastránkovou ročenku nebo diplomovou práci, ale například o webovou stránku. Zajímavější možností je potom definice konkrétních hledaných slov nebo spojení (termy daného jazyka). může prohledávat obsah webových webových „„Nástroj Nástroj m ůže prohled ávat obsah stránek nacházet ty ss kl klíčovým sdělením.“ str ánek aa nach ázet ty íčovým sd ělením.“
[1] [1]
Metody Data Miningu Extrakce významu významu sd sdělení Extrakce ělení nestrukturovaného textu zz nestrukturovan ého textu
[1] [1]
Hledáme objekty v textu, čímž rozumíme jednotlivá slova nebo důležitá spojení – termy (eskontní úvěr, cystická fibróza, gotické památky), například slovo traumacentrum indikuje vyšší pojistné plnění, neboť klient byl pravděpodobně vážně zraněn. Termy se pak zobrazí v matici slov, která je vytvořena na základě frekvenční analýzy (četnosti výskytu).
Text Mining Mining kvantifikuje kvantifikuje jednotliv jednotlivé „„Nástroj Nástroj Text é [1] objekty zz textu textu -- termy, termy, obvykle obvykle do do tabulky tabulky.“ objekty .“ [1]
Metody Data Miningu Automatické textů Automatick é ttřídění řídění text ů Ještě zajímavější vlastností textminingových nástrojů je potom identifikace specifických či podobných textových záznamů na základě shlukové analýzy. Textové záznamy jsou klasifikovány a tříděny do shluků podle podobnosti. [1] [1]
Metody Data Miningu Automatické textů Automatick é ttřídění řídění text ů Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny shlukové analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim analytické oddělení mělo věnovat pozornost. pozornost [1] [1]
Metody Data Miningu Prezentace Prezentace výsledků analýz výsledk ů analýz
[1] [1]
Prezentace výstupů tzv. vizualizace sice nepřináší již nic nového, ale zobrazení dat a výsledky analýz může výrazně ulehčit jejich pochopení a následnou interpretaci. Výsledky výpočtů nad daty mohou mít různou formu. formu Nejjednodušší forma numerická, uspořádaná do sestav, tabulek apod., obvykle znamená i pro odborníka ještě další práci. Mnohem názornější jsou doplňující výstupy do grafů, při dodržení obecných pravidel jejich správné konstrukce.
„Nové zobrazení zobrazení výsledků výsledků může může výrazně výrazně ulehčit ulehčit „Nové jejich pochopení pochopení aa následnou následnou interpretaci.“ interpretaci.“ [3] jejich [3]
Metody Data Miningu
využití PPříklad říklad vyu žití Automatické textů -- Automatick é ttřídění řídění text ů
Autor:dmblog.fico.com dmblog.fico.com Autor:
Fraud management ([frůd…], angl. podvod řízení) neboli detekce podvodů je oblast, která se zaměřuje na včasné odhalení podvodného jednání. Text Mining jako nástroj v této oblasti slouží pro potřeby interní kontroly. Automaticky čte e-maily zaměstnanců, pokud detekuje určité slovo nebo spojení, které ukazuje na podvodné jednání, je e-mail označen a příslušné oddělení mu potom věnuje pozornost. Stejným způsobem textminingový nástroj analyzuje také elektronické žádosti, objednávky přes internet apod., které do firmy přicházejí z vnějšku. Vstupy jsou tříděny do smysluplných shluků, [1] lze tak odhalit například podezřelou objednávku apod. [1]
Metody Data Miningu Závěr Závěr Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Kvalitativní nebo nezávislá kvantitativní validace je důležitá tam, kde je interpretace výsledků složitá. Získávání (dobývání) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. Data Miningové metody pracují s čísly, případně s nominálními či ordinálními proměnnými, jako jsou názvy kategorií apod. Text mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěžení cenné informace z textu, metoda může pomoci i při samotné dataminingové analýze.
Úkoly pro samostatnou práci Nalézt na Internetu a doplnit si informace k: získávání znalostí z dat, validaci dat v rozhodovacím procesu, vytěžování dat - Data Mining, Text Mining.
Zdroje – doplňující studijní literatura: 1.
2.
3.
4.
5.
ULDRICHT, Miloš. Text mining aneb Kladivo na nestrukturovaná data. [online]. [cit. 2013-10-29] č.12/2011, IT SYSTEMS: Business Intelligence Dostupné z: http://www.systemonline.cz/clanky/text-mining-kladivo-nanestrukturovana-data.htm Datové sklady: Data mining. [online]. [cit. 2013-10-23]. Dostupné z: http://kix.fsv.cvut.cz/~vanicek/vyuka_l13/sklady.ppt#295,28,Shlukování – některé metody ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/ BERKA, Petr. Aplikace systémů dobývání znalostí pro analýzu medicínských dat. [online]. 24. 10. 2002 [cit. 2013-10-24]. Dostupné z: http://euromise.vse.cz/kdd/index.php?page=uvod Data mining. ORACLE [online]. [cit. 2013-10-27]. Dostupné z: http://www.oracle.com/technetwork/database/options/advancedanalytics/odm/odm-techniques-algorithms-097163.html