VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Název tématického celku:
Dobývání znalostí z databází Cíl: Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných oblastí databází, statistiky a strojového učení. Tématický celek je rozdělen do těchto dílčích témat: 1. Základní pojmy z oblasti dobývání znalostí 2. Zdroje dobývání znalostí 1. dílčí téma: Základní pojmy z oblasti dobývání znalostí K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • dobývání znalostí z databází, • analýza nákupního košíku
2. Pochopit • rozdíl mezi procesem dobývání znalostí a krokem „data mining“
3. Znát • základní typy úloh dobývání znalostí z databází • základní kroky metodiky CRISP-DM
2. dílčí téma: Východiska dobývání znalostí K druhému dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli:
1
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
1. Vysvětlit pojmy • OLAP, • datový sklad, • mutidimenzionální krychle, • roll-up, drill-down, • kontingenční tabulka, • shluková analýza, • objekt, atribut, • učení na základě podobnosti, • prostor kombinací (modelů), • učení jako prohledávání, • učení jako aproximace, • gradientní metoda 2. Pochopit • rozdíl mezi MOLAP a ROLAP • rozdíl mezi databázovým schématem hvězda a sněhová vločka • rozdíl mezi diskriminační a regresní analýzou • rozdíl mezi hierarchickým shlukováním a shlukováním metodo k-středů • rozdíl mezi učením s učitelem a učením bez učitele • rozdíl mezi aproximací a interpolací 3. Znát • způsob převodu datové tabulky do podoby mutidimenzionální krychle • princip χ2 testu • typy atributů • formální vyjádření úlohy učení s učitelem • základní způsoby prohledávání prostoru kombinací (modelů)
Zakončení: Předmět je ukončen písemnou zkouškou.
2
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 2 Název tématického celku:
Symbolické metody dobývání znalostí Cíl: Cílem tohoto tematického celku je vysvětlení základních principů algoritmů pro tvorbu rozhodovacích stromů, rozhodovacích a asociačních pravidel a algoritmů pro učení založeném na instancích.
K tématickému celku si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • rozhodovací strom, • prořezávání stromů, • rozhodovací pravidlo, • asociační pravidlo, • pokrývání množin, • implikace, dvojitá implikace, ekvivalence, • centroid (etalon) 2. Pochopit • rozdíl mezi rozhodovacími a regresními stromy • rozdíl mezi rozhodovacími a asociačními pravidly 3. Znát • základní kritéria používaná pro větvení rozhodovacího stromu • základní podobu algoritmu pro tvorbu rozhodovacích stromů • základní kvantitativní charakteristiky asociačních pravidel • základní podobu algoritmu pro tvorbu rozhodovacích pravidel • základní metriky pro měření vzdálenosti mezi příklady • základní podobu algoritmu učení založeném na instancích
Zakončení: Předmět je ukončen písemnou zkouškou.
3
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 3 Název tématického celku:
Subsymbolické metody dobývání znalostí
Cíl: Cílem tohoto tematického celku je vysvětlení základních principů neuronových sítí, genetických algoritmů a bayesovských klasifikátorů.
K tématickému celku si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • lineární neuron, • vícevrstvá neuronová síť, • Kohonenova mapa, • selekce, křížení a mutace, • naivní bayesovský klasifikátor, • bayesovská síť 2. Pochopit • rozdíl mezi různými modely jednoho neuronu • rozdíl mezi naivním bayesovským klasifikátorem a bayesovskou sítí • problém uváznutí v lokálním optimu a způsoby jeho řešení 3. Znát • geometrickou interpretaci činnosti lineárního neuronu • základní princip algoritmů pro učení neuronových sítí • základní princip metody SVM • základní podobu genetického algoritmu
Zakončení: Předmět je ukončen písemnou zkouškou.
4
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 4 Název tématického celku:
Další kroky procesu dobývání znalostí Cíl: Cílem tohoto tematického celku je vysvětlení základních způsobů hodnocení kvality nalezených znalostí i základních metod předzpracování dat. Tématický celek je rozdělen do těchto dílčích témat: 1. Vyhodnocení výsledků 2. Příprava dat 1. dílčí téma: Vyhodnocení výsledků K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • matic záměn, • přesnost a úplnost, • ROC křivka, • kombinování modelů • meta-učení 2. Pochopit • rozdíl mezi hodnocením správnosti klasifikace a numerické predikce • vizualizací klasifikací a vizualizací modelů • rozdíl mezi metodami bagging, boosting a stacking 3. Znát • metody testování modelů • metody porovnávání modelů
2. dílčí téma: Příprava dat K druhému dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003.
5
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • diskretizace, • selekce atributů, • 2. Pochopit • rozdíl mezi ostrou a fuzzy diskretizací • rozdíl mezi diskretizací bez využití a s využitím informací o rozdělení objektů do tříd • rozdíl mezi redukcí počtu atributů metodami transformace a metodami selekce • 3. Znát • způsob převodu časové řady na datovou tabulku • způsob převodu relační databáze na jednu datovou tabulku • kritéria pro selekci atributů metodou filtru • způsob hodnocení kvality diskretizace z hlediska klasifikační úlohy
Zakončení: Předmět je ukončen písemnou zkouškou.
6
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 5 Název tématického celku:
Nové trendy dobývání znalostí Cíl: Cílem tohoto tematického celku je vysvětlení základních způsobů dobývání znalostí z textů a z webu.. Tématický celek je rozdělen do těchto dílčích témat: 1. Dobývání znalostí z textů 2. Dobývání znalostí z webu 2. dílčí téma: Dobývání znalostí z textů K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli: 1. Vysvětlit pojmy • TFIDF, • booleovský model, • vektorový model, • přesnost a úplnost 2. Pochopit • rozdíl mezi vyhledáváním informací a extrakcí informací
3. Znát • způsoby reprezentování textových dokumentů pro úlohy dobývání znalostí • způsoby měření podobnosti dokumentů
2. dílčí téma: Dobývání znalostí z webu K druhému dílčímu tématu si přečtěte příslušné kapitoly v: BERKA, P: Dobývání znalostí z databází, 1. vydání. Praha: Academia 2003. Po prostudování uvedené doporučené literatury byste měli:
7
VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s.
1. Vysvětlit pojmy • web content mining, • web structure mining, • web usage mining, • kolaborativní filtrování, • rozcestník (hub) a autorita, • web server log 2. Pochopit • rozdíl mezi vyhledáváním a meta-vyhledáváním
Zakončení: Předmět je ukončen písemnou zkouškou.
8