Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví
Biomedical Data Processing G r o u p
Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace z dat. Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - např. pomocí nástrojů strojového učení Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů
Biomedical Data Processing G r o u p
Získávání znalostí z dat (ZZD)
Biomedical Data Processing G r o u p
ZZD - Příklady aplikací Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů).
Predikce vývoje kursů akcií. Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony). Segmentace a klasifikace klientů pojišťovny. Analýza nákupního košíku (Market Basket Analysis). Predikce spotřeby elektrické energie, plynu, … Analýza příčin poruch v telekomunikačních sítích. Rozbor databáze pacientů v nemocnici. Charakterizace karcinogenních látek. Mapování lidského genomu. Veřejné mínění a sčítání lidu. Biomedical Data Processing G r o u p
ZZD - Terminologie
Koncept ♦ oblast zájmu – co chceme ♦ předpověď počasí
Objekt (třída) ♦ obecný (abstraktní) prvek konceptu ♦ den předpovědi počasí
Atributy ♦ jednotlivé vlastnosti objektu ♦ teplota, tlak, množství srážek
Instance ♦ Kokrétní případ objektu - jednotlivá data ♦ data o počasí jednoho konkrétního dne Biomedical Data Processing G r o u p
ZZD - Typy atributů Nominální ♦ 2 hodnoty - muž/žena => binární ♦ více hodnot – barva (červená, modrá, zelená)
Binární ♦ boolean (True/False)
Ordinální ♦ celá čísla, reálná čísla – jakou přesnost ♦ dají se řadit
Kategoriální ♦ nabývají diskrétních hodnot, avšak nelze je řadit
Řady ♦ veličin, které pravidelně měřeny zaznamenávány ♦ vždy vztaženy k jediné monotónní veličině, která slouží jako index
Biomedical Data Processing G r o u p
ZZD - Typy úloh Klasifikace ♦ přiřazení třídy objektu Predikce ♦ předpověď chování objektu v čase Asociace ♦ hledání vazeb mezi objekty Shluková analýza ♦ seskupování podobných objektů
Biomedical Data Processing G r o u p
Klasifikace / Predikce Cílem je nalézt znalosti použitelné pro klasifikaci nových případů Požadujeme, aby získané znalosti co nejlépe odpovídaly danému konceptu Dáváme přednost přesnosti pokrytí na úkor jednoduchosti - připouštíme větší množství méně srozumitelných dílčích znalostí. Rozdíl mezi klasifikací a predikcí spočívá v roli času Predikce = ze starších hodnot nějaké veličiny se pokoušíme odhadnout její vývoj v budoucnosti.
Biomedical Data Processing G r o u p
Asociace / Shluková analýza Asociace ♦ žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace ♦ asociace je proces hledaní „všech zajímavých“ vztahů (implikace, ekvivalence) mezi hodnotami různých atributů. ♦ Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytu událostí v datech
Shluková analýza ♦ vícerozměrná statistická metoda, která se používá ke klasifikaci objektů ♦ slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých
Biomedical Data Processing G r o u p
ZZD - Typy úloh predikce klasifikace regrese shlukování modelování asociační závislostí pravidla vztahy v modelování databázích detekce kauzalit odchylek SQO pravidla highlighting sumarizace deskripce
Biomedical Data Processing G r o u p
Metodiky ZZD Metodika SEMMA ♦ Podle metodologie SEMMA spočívá proces dobývání v těchto krocích: ♦ Sample - vybírání vhodných objektů ♦ Explore - vizuální explorace a redukce dat ♦ Modify - seskupování objektů a hodnot atributů, datové transformace ♦ Model - analýza dat ♦ Assess - porovnání modelů a interpretace
Metodika 5A ♦ Assess - posouzení potřeb projektu ♦ Access - shromáždění potřebných dat ♦ Analyze - provedení analýz ♦ Act - přeměna znalostí na akční znalosti ♦ Automate - převedení výsledků analýzy do praxe
Biomedical Data Processing G r o u p
Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining) Vznikla vrámci výzkumného projektu Evropské komise. Cílem projektu je navrhnout univerzální postup použitelný v nejrůznějších aplikacích. Na projektu spolupracují firmy ♦ ♦ ♦ ♦
NCR (přední dodavatel datových skladů) DaimlerChrysler Integral Solutions (tvůrce systému Clementine) OHRA (velká holandská pojišťovna).
Biomedical Data Processing G r o u p
Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining)
1. Zadání
2. Porozumění datům
5. Vyhodnocení
3. Příprava dat
4. Modelování
6. Použití Biomedical Data Processing G r o u p
Zadání / porozumění cílům Pochopení cílů úlohy ♦ Co klient chce ♦ Manažerský náhled, např. Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou?
Hodnocení situace ♦ Seznam zdrojů (personál, data) ♦ Požadavky (srozumitelnost, přesnost) ♦ Omezení (bezpečnostní otázky, anonimizace) ♦ Terminologie ♦ Analýza náklady / přínos
Biomedical Data Processing G r o u p
Zadání / porozumění cílům Vymezení cílů ZZD ♦ Příklad odlišnosti terminologií ♦ Cíl obchodníka: Rozšířit katalog prodeje pro existující zákazníky. ♦ Cíl informatika: Predikovat jak mnoho věcí bude zákazník kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci.
Vytvoření projektového plánu ♦ Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi. ♦ Výběr možných nástrojů pro řešení
Biomedical Data Processing G r o u p
Porozumění datům Shromáždění dat ♦ Počáteční předzpracování dat
Popis dat ♦ Formát dat ♦ Množství
Prozkoumání dat ♦ Descriptivní charakteristiky dat Rozložení klíčových atributů, jednoduché statistiky, Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé hodnoty (outliers).
♦ Použití vizualizačních technik
Ověření dat ♦ Jsou kompletní (popisují celou oblast) ♦ Složitost formy uložení dat ♦ Šum, chybějící a špatné údaje Biomedical Data Processing G r o u p
Problém reálných dat Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy. Nevyplněné údaje.
U některých atributů se stává, že vyplnění údaje je skoro výjimkou – mluvíme pak o řídce (sparse) obsazených atributech. Data jsou popsána pomocí příliš mnoha atributů – není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů. Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení. Biomedical Data Processing G r o u p
Úkoly předzpracování dat Množina vlastností (atributů nebo příznaků) ♦ Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěch použití technik strojového učení. ♦ S dimenzí exponenciálně rostou i nároky na počet trénovacích příkladů.
Příprava dat pro modelování ♦ Čištění dat ♦ Normalizace dat ♦ Převod typů dat, formátování a kódování ♦ Transformace dat do jedné tabulky ♦ Úpravy dimenze
Biomedical Data Processing G r o u p
Předzpracování dat Zpráva o stavu proměnných ♦ typ (spojitá X diskrétní) ♦ rozsah definičního oboru (počet hodnot) ♦ rozsah a frekvence výskytů (histogram) ♦ typ rozdělení a jeho statistické charakteristiky ♦ osamělé mimořádné hodnoty (outliers) ♦ téměř konstantní atributy (možné vynechat) ♦ nevyplněná datová pole ♦ znečištění dat data neodpovídají deklarovanému formátu hodnoty neodpovídají deklarované množině
Biomedical Data Processing G r o u p
Předzpracování dat Čištění dat (chybějící a špatné údaje) ♦ Nedělat nic některým algoritmům chybějící hodnoty nevadí
♦ Ignorovat celou instanci ideální pro data s minimem chybějících hodnot pozor u časových řad na porušení vzorkování
♦ Náhrada nejčetnější hodnotou průměrem, mediánem nalezení nejbližšího souseda využití algoritmu pro modelování
♦ Náhrada hodnotou „nevím“
Biomedical Data Processing G r o u p
Předzpracování dat Čištění dat (čištění signálů) ♦ Korekce resp. odstranění šumu - tento proces se nazývá filtrace. ♦ Většinou velmi podstatné pro získání příznaků ze signálu ♦ Ignorování šumu
Čištění dat (monotónní atributy) ♦ Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu. ♦ Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.
Biomedical Data Processing G r o u p
Předzpracování dat
Normalizace dat
♦ Převod numerických hodnot do intervalu <0,1>
vi - Avg ( vi ) vi − min( vi ) nebo ai = ai = StDev ( vi ) max( vi ) − min( vi ) ♦ Úprava rozsahu hodnot atributů pomocí logistické transformace 1
0 .8
g(x)
0 .6
0 .4
0 .2
0 -6
-4
-2
0
2
4
6
x a=0, b=1
a=0, b=2
a=0, b=4
Biomedical Data Processing G r o u p
Převod formátování a kódování Datum ♦ volba přesnosti – např. roky, měsíce, dny, hodin, … ♦ reprezentace reálným číslem
Nominální hodnoty ♦ 2 hodnoty – 0,1 ♦ výběr nejfrekventovanějších hodnot ♦ spojení do větších přirozených celků (město,kraj)
Při sloučení atributů ♦ Častokrát nutné nové kódování
Numerické hodnoty ♦ některé analytické algoritmy vyžadují pouze kategoriální data ♦ diskretizace dat – volba intervalů Biomedical Data Processing G r o u p
Diskretizace Neinformované metody ♦ ekvidistantní intervaly
♦ ekvifrekvenční intervaly
Biomedical Data Processing G r o u p
Diskretizace Informované metody ♦ využití znalosti o příslušnosti objekt -> třída ♦ strategie rozdělování nebo spojování intervalů
Fayyadův a Iraniho algoritmus (Entropy Based Discretization) ♦ Metoda založená na použití informací o třídách přítomných v datech ♦ kritérium – entropie ♦ objekty mezi, kterými se mění třída ♦ výběr nejlepšího dělicího bodu ♦ Jde o hledání místa s maximálním informačním ziskem ♦ Fayyad, Irani : Multi-interval discretization of continuous-valued attributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44
Biomedical Data Processing G r o u p
Transformace dat do jedné tabulky 1:1 ♦ prakticky pouze doplnění tabulky o nové atributy
1:N ♦ vytvoření agregovaných hodnot ♦ součet, min, max, průměr, regresní křivka ♦ majoritní hodnota, počet různých hodnot, výskyt konkrétní hodnoty ♦ do této skupiny patří časové řady
M:N ♦ nutná volba úlohy, zda chceme 1:N nebo 1:M
Biomedical Data Processing G r o u p
Úpravy dimenze Snížení dimenze ♦ Vynecháním konstantních atributů atributů řídce obsazených atributů s duplicitní informací (rok narození X věk, apod.)
♦ Sloučením atributů řídce obsazených – z několika řídce obsazených atributů je možné zřetězením vytvořit jeden nový (PVP present value pattern)
Biomedical Data Processing G r o u p
Úpravy dimenze Zvýšení dimenze ♦ Obohacení doplněním údajů z jiných zdrojů (např. meteorologická měření, demografické údaje, apod.)
♦ Rozšíření přidání odvozených atributů např. pohlaví z rodného čísla Body Mass Index (BMI)
BMI =
váha [kg] výška 2 [m]
„otočení“ dat (reverse pivoting) - nový atribut an+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí an+1(i) = an(i+1).
Biomedical Data Processing G r o u p
Úpravy dimenze Selekce atributů ♦ hledáme k správnému výsledku nejvíce přispívající atributy ♦ metoda filtru spočteme charakteristiku vyjadřující vhodnost atributu chi-kvadrát, entropie, informační míra závislosti vychází z kontingenční tabulky nevýhoda: posuzujeme každý atribut samostatně – ne množiny atributů
♦ metoda obálky použití metod strojového učení
♦ Analýza hlavních komponent (PCA) Nové atributy nelze interpretovat
Biomedical Data Processing G r o u p
Úprava množin pro modelování Hlavní zásada ♦ každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru.
Vytvoření trénovacích a testovacích dat Vzorkování dat ♦ obrovský počet instancí redukce počtu dat tvorba modelů na základě podmnožin a jejich následná kombinace pro algoritmy pracující v dávkovém režimu nutnost
♦ nevyvážená data např třída A 95%, třída B 5%
různé ceny chybného rozhodnutí výběr dat pro různé třídy s různou pravděpodobností
Biomedical Data Processing G r o u p
Modelování Výběr techniky modelování ♦ s ohledem na data, pochopitelnosti, budoucímu použití a omezením ♦ rozhodovací stromy, asociační pravidla, neuronové sítě, regresní analýza, shluková analýza ♦ Kombinace více modelů
Návrh testování ♦ Technika validace techniky (trenovací/testovací množina), scóre, atd.
Vytvoření modelu ♦ Ladění parametrů, následné zpracování vygenerovaných pravidel
Ohodnocení modelu ♦ Splnění požadovaných testovacích kriterií. ♦ Přesnost a obecnost vytvořeného modelu Biomedical Data Processing G r o u p
Vyhodnocení Úspěšné dosažení zadavatelových cílů ♦ Výsledek je kombinace Modelu a Závěry ♦ Závěry nemusí být srozumitelné vzhledem k zadavatelovým cílům – nutné převézt do zadavatelovy terminologie
Hodnocední výsledků ♦ Rozdílné stupně než u ohodnocení modelu ♦ Jestliže je to možné test na reálné aplikaci
Revizní proces ♦ Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy
Určení dalších kroků ♦ Rozhodnutí o možném vylepšení
Biomedical Data Processing G r o u p
Použití Plán použití ♦ Shrnutí použitelných výsledků ♦ Rozhodnutí o způsobu předání (nasazení) získaných znalostí a informací uživateli. ♦ Rozhodnutí jak bude vytvořený model nebo software použit v rámci exitujících systémů. ♦ Odhalení možných problémů při nasazení výsledků ZZD
Plán monitorování a podpory ♦ Je důležité vyhnout se dlouhým obdobím nesprávného užívání
Vytvoření závěrečné zprávy (dokumentace)
Biomedical Data Processing G r o u p
Časové nároky v ZZD 0
20
40
60
Formulace problému Volba typu řešení Předpokládané využití Posouzení dat
Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %)
Příprava dat Modelování
Biomedical Data Processing G r o u p
Vizualizace dat Omezení vnímání na 3D Vizualizace 1-D, 2-D a 3-D ♦ standard ♦ grafy, matematika, statistika
Vizualizace n-D ♦ nutná pro ZZD (Data mining)
Biomedical Data Processing G r o u p
Vizualizace dat Grafy ♦ sloupcové grafy ♦ koláčové grafy ♦ grafy X-Y – časové řady, trendy
Biomedical Data Processing G r o u p
Vizualizace dat 3D vizualizace
Biomedical Data Processing G r o u p
Vizualizace dat Statistické grafy
Biomedical Data Processing G r o u p
Iris data
sepal sepal length width 5.1 3.5
Iris setosa
petal petal length width 1.4 0.2
4.9
3
1.4
0.2
...
...
...
...
5.9
3
5.1
1.8
Iris versicolor
Iris virginica Biomedical Data Processing G r o u p
Vizualizace dat Zobrazení matice rozptylů
Biomedical Data Processing G r o u p
Parallel coordinates
Biomedical Data Processing G r o u p
RadViz
Biomedical Data Processing G r o u p
Dobrá příprava dat je klíčem k vytvoření platného a spolehlivého modelu
Konec ? Ne! Začátek! Biomedical Data Processing G r o u p