Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního učení? induktivní (vzor -> obecné závěry) trenovani pomoci prikladu, možnost objevovat znalost na základě zobecnění omezeného množství vzorů deduktivní (obecné -> konkrétní fakta) vyvozování konkrétních poznatků z obecných principů, premis a závěrů (opak induktivního učení) 2. Jak mohou umělé neurony aproximovat nelineární funkce? Pro modelování nelineárních funkcí se perceptron s linearni prenosouvou funkci nehodí, ten lze použít pro nalezení hranice mezi lineárně oddělitelnými třídami, jinak však pracuje s (velkou) chybou. Majíli perceptrony aproximovat neznámou nelineární funkci, musí být jejich přenosová funkce také nelineární, protože (i síťová) kombinace lineárních funkcí může vytvořit zase jenom funkci lineární. 3. Co je to entropie (vzorec)? H (X) = ∑n p n log2 p n suma součinů psti jevu a logaritmu teto psti o základu 2, vynasobena 1 (logaritmy z hodnot pravděpodobností jsou záporné) 4. Co je to entropie a její vztah k rozhodovacím stromům? veličina udávající "míru neurčitosti" zkoumaného systému Při konstrukci rozhodovacího stromu se hledají testy v uzlech tak, aby odpověď na test poskytla co nevíce informace (maximalizace informačního zisku), tj. aby byla co nejmenší entropie. Počáteční heterogenní množina trénovacích instancí je na základě odpovědí na test rozdělena na homogennější podmnožiny, snižuje se neuspořádanost (“chaos”). Je nutno vyzkoušet všechny uvažované atributy, tj. zjistit, jakou poskytují entropii, a pak vybrat atribut s nejnižší entropií. Vznikne nová úroveň stromu (kořenem je počáteční množina trénovacích instancí), kterou lze rekursivně dále testovat. Konec generování stromu je dán nemožností dosažení nižší entropie (listy). 5. Jaké jsou kroky u RBF? Trénování probíhá obdobně, cílem je najít hodnoty vah:
– v prvním kroku je nutné stanovit počet zvonů a jejich umístění (pozice středů křivek, m). – druhý krok opakovanými průchody trénovací množinou snižuje klasifikační chybu iterativní úpravou hodnot vah. pomocí RBF lze aproximovat každou funkci s libovolně malou chybou, a to za předpokladu, že je k dispozici dostatečně velký počet RBF (zvonů) a že pro každý zvon lze individuálně stanovit s (rozptyl kolem m) 1. Architektura skryté vrstvy: počet k zvonů a jejich tvar (šíře) se obvykle určí pomocí zvolené shlukovací metody, velmi často se používá algoritmus kmeans (k středů pro dané k, což je požadovaný počet zvonů). Lze použít i shlukovacích metod jako EM (expectation minimization), které najdou i vhodné k. Zvony by neměly být příliš úzké (velmi specifické), ani příliš široké (velmi obecné) z hlediska pokrývané množiny hodnot. Také by se neměly příliš překrývat. Lze je i definovat přímo. 2. Minimalizace chyby výstupu sítě (rozdílu mezi hodnotami aproximační funkce a neznámé skutečné) se provádí gradientním sestupem na základě rozdílu mezi hodnotou známou (z trénovacích dat) a hodnotou poskytovanou sítí v jednotlivých krocích tréninku. Aktualizace vah probíhá stejně, jako u zmiňované metody backpropagation. 6. Co je to RBF? Kde se používá a jeho vlastnosti RBF (Radial Basis Function) Radiální bázové funkce, použité k přenosu signálu, jsou podstatou určité skupiny hojně používanch sítí. Základem je radiální funkce, obvykle zvonovitá křivka (“Gaussova”, která však nemá nic společného s křivkou normálního rozdělení, kromě obecného tvaru!). “Radiální” je proto, že poskytuje ze svého středu pohled “dokola”, přičemž s narůstající vzdáleností vidí stále slaběji, “krátkozraká funkce”. Tato vlastnost ji předurčuje k silně lokální působnosti – vzdálenější vstupní hodnoty poskytují menší hodnoty výstupní, a to např. na rozdíl od sigmoidy, která monotónně narůstá od −∞ do +∞, jejíž nevýhodou je její “nasycení” od určité hodnoty vstupu, což však oproti radiální funkci zase umožňuje lepší případnou extrapolaci. 7. jaké jsou funkční rozdíly mezi neurony s Skřivkou a RBF? RBF i BP sítě mají velké množství úspěšných aplikací v oblasti aproximace neznámých nelineárních funkcí a klasifikace. Ve srovnání s BP dosahují RBF na velmi obtížných problémech zcela srovnatelných výsledků, avšak trénovací čas je o mnoho řádů nižší. RBF však vyžadují typicky až desetinásobek potřebných dat pro trénování k dosažení téže přesnosti jako BP. Jeli dost dat a RBF jednotek v síti, pak RBF obvykle dosahují lepších klasifikačních výsledků.
Kratší doba tréninku je u RBF dána tím, že na konkrétní vstupní vektor x reaguje obvykle jen malá část jednotek ve skryté vrstvě. Topologie RBF je hybridní v tom smyslu, že výstupní vrstva je složena z „klasických“ neuronů, zatímco skrytá vrstva z jednotek RBF, takže odpadá pomalé zpětné šíření chyb od výstupní vrstvy ke skryté. Pro aproximaci funkcí vyžaduje RBF síť mnoho trénovacích příkladů. U BP sítí probíhá aproximace v globálním smyslu, zatímco u RBF sítí v lokálním, což vede u BP sítí k lepší generalizaci. BP sítě potřebují nižší počet neuronů ve skryté vrstvě, protože využívají své stupně volnosti efektivněji. Pro extrapolaci jsou vhodnější BP sítě kvůli rozdílu v průběhu sigmoidy (“S” křivky) a zvonovité křivky. Z téhož důvodu však RBF sítě obvykle fungují lépe jako klasifikátory. RBF sítě se obecně hodí lépe pro online trénování. 8. Co je to metrika a jaké jsou její 4 obecné vlastnosti? metric trees (metrické stromy). Metrika [vzdálenost D (a,b) mezi bodem a a b] má obecně tyto čtyři vlastnosti: D (a,b) ≥ 0 (vzdálenost je vždy kladná), D (a,b) = 0 jedině tehdy, když a = b (reflexivita), D (a,b) = D (b,a) (symetrie) D (a,b) + D (b,c) ≥ D (a,c) (trojúhelníková nerovnost). Lze snadno dokázat, že např. Eukleidova i Manhattanská vzdálenost je metrika v mrozměrném prostoru. Metrické stromy o Metric trees, balls trees o Platí vlastnosti jako reflexivita, symetrie, vzdálenost je vždy kladná, trojúhelníková nerovnost, Uzly neobsahují ve skutečnosti počty náležejících bodů, ale středy a poloměry příslušných hyperkruhů. Platí to i pro listy stromu. Počítají se vzdálenosti mezi středy kruhů a neznámým vzorkem, berou se do úvahy kruhy stejné na stejné úrovni ve stromu. Pokud je poloměr v uzlu menší jak vzdálenostmezi středem a klasifikovaným 9. Vysvětit princip KNN (k-nejbližších sousedů) Tréninkové příklady jsou uloženy do databáze. Každý příklad je popsán atributy, jejichž hodnoty jsou považovány za souřadnice v prostoru, v němž tedy určují polohu příkladu jako vícerozměrného bodu (resp. vektoru). Příklady mají své zařazení do tříd známé. Objevíli se případ, jehož příslušnost do některé ze tříd není známá, hledá se jeho nejbližší, “nejpodobnější” soused (nebo k sousedů), a neznámý případ se zařadí
do stejné třídy. Pokud je k >1, tj. neznámý případ se porovnává s více než jedním sousedem, pak rozhoduje o zařazení do příslušné třídy většina. Blízkost je zde ekvivalentní podobnosti, takže se vlastně hledá k nejpodobnějších případů. Kolik sousedů se má použít, to nelze předem říci, optimální počet se hledá experimentálně. Jeli počet sousedů velký, pak jsou asi příklady značně ovlivněny šumem. kNN je algoritmus citlivý na šum, irelevantní atributy a výjimky. 10. Jak se chová neuronová síť, když jsou funkce nelineární? 13. Co je Post a Pre prořezávání? Kde? A k čemu to je? Znalost je zobecněná informace, a strom je jednou z možných reprezentací znalosti. Proto by měl být dostatečně obecný. Ukazuje se, že k lepším výsledkům na testovacích datech přispívá tzv. prořezávání po celkovém vytvoření stromu. Strom se nenechá tak “rozkošatět”. Obsahujíli tréninkové příklady šum, pak jednoprvkové množiny v listech mohou vést k chybné klasifikaci řízené spíše šumem než zobecněním souboru hodnot relevantních atributů. U stromů lze zabránit takovému přetrénování prořezáváním. Shora dolů (prepruning) Prepruning zastaví růst větve, když začne poskytovat nespolehlivou informaci. Zdola nahoru (postpruning) Postpruning nechá strom zcela vyrůst a rozkošatět, a pak zpět směrem od listů ruší nespolehlivé části. Pracuje tak, že napřed nechá strom zcela vyrůst, čímž jsou zachyceny i kombinace mezi atributy. Poté hledá, zda lze nějaké podstromy nahradit listem. V praxi se dává přednost metodě postpruning (zdola nahoru), protože prepruning mívá tendenci zastavit růst větve příliš brzo. Prepruning je ale výpočetně rychlejší metoda než postpruning. 14. Jsou data obecně strukturována? Proč ano / proč ne Data jsou nejčastěji uspořádána formou tabulky, kde řádky představují instance (příklady, vzorky, ...) a sloupce atributy (dimenze, parametry, proměnné, vlastnosti,...) 15. RBF: co to je, funkce neuronu ve skryté vrstvě. Podmínky aproximace u nelineární funkce s ohledem na chybu
16. Co je to umělá neuronová síť. Jaké jsou typy vrstev a jak se dá použít pro modelování funkcí. Umělé neuronové sítě simulují činnost biologického mozku (centrální nervové soustavy) propojením velkého množství jednotek zvaných neuron (perceptron) do síťové struktury. Neuron představuje přenosovou funkci, která na základě kombinace hodnot vstupních proměnných x1, x2 , x3 ,..., xn předává na výstupu odpovídající hodnotu y: y = f (x1, x2 , x3 ,..., xn) Základní jednotka perceptron přiřazuje každému vstupu hodnot odpovídající výstup, který je v nejjednodušším případě dán váhovaným součtem vstupů. Pokud váhovaný součet překročí nějakou stanovenou hranici, perceptron předá výstupní nenulovou hodnotu. Vstupy mohou pocházet z libovolných zdrojů (senzorů) a mohou být tvořeny i výstupy z jiných perceptronů dle konkrétní architektury sítě. Nejjednodušší perceptron představuje lineární funkci. Pro modelování nelineárních funkcí se nehodí, tj. lze jej použít pro nalezení hranice mezi lineárně oddělitelnými třídami, jinak však pracuje s (velkou) chybou. Při trénování sítě jako klasifikátoru jsou známy vstupy, výstupy, přenosové funkce perceptronů (např. skoková, sigmoida, hyperbolický tangens), stanoví se architektura sítě (počty vrstev a počty neuronů v jednotlivých vrstvách), a iterativně se hledají váhy propojení jednotek mezi vrstvami (na začátku jsou náhodně nastaveny na velmi malé hodnoty v oboru reálných čísel). Trénování je obecně časově náročné. Kromě sítí s dopředným šířením signálu (feedforward ) existují i sítě se zpětnou vazbou (feedback). 17. Co je to diskretizace. Převést data buď ze spojitého universa na diskrétní, resp. naopak. Diskretizaci lze provést mnoha různými metodami, včetně zcela automatické (unsupervised) nebo řízené (supervised). Diskretizace musí rozdělit číselný interval, považovaný za spojitý, na soubor podintervalů. Každý vzniklý podinterval pak hraje roli nominální hodnoty. Některé z možných a používaných metod diskretizace: a) Rozdělení na určitý počet podintervalů stejné délky (nevýhoda může být ve velmi různém počtu hodnot v každém intervalu). b) Rozdělení na podintervaly, kde každý obsahuje (přibližně) stejný počet hodnot (v praxi se osvědčuje – jako heuristika se pro stanovení počtu intervalů často používá druhá odmocnina z celkového počtu hodnot daného atributu; intervaly ovšem mohou mít velmi různou délku).
c) Rozdělení na podintervaly pomocí entropie, kde každý podinterval obsahuje (pokud možno) pouze hodnoty patřící do jediné třídy (diskretizace řízená tréninkovými daty). První krok diskretizace spočívá v seřazení hodnot. V dalším kroku se jednou z možných metod hledají dělící body mezi hodnotami, tj. hranice podintervalů. Další možné diskretizační metody: ● Nikoliv “shora dolů”, jak ukázáno, ale naopak “zdola nahoru”, tj. napřed každá jednotlivá instance je oddělena a pak se hledá, zda ji lze spojit se sousední. ● Počítání chyb, ke kterým dojde při predikci pro různé diskretizace (hrozí degenerace, že každá instance bude prohlášena za interval; je nutno předem omezit počet intervalů). ● Metoda “hrubou silou” vyzkoušet všechny možnosti je exponenciálně náročná (počet intervalů k je v exponentu). ● Dynamické programování (způsob optimalizace) rozdělí N instancí do k intervalů v čase úměrném kN^2. 19. Popsat skrytou vrstvu RBF a jaké mají být podmínky, pokud chci aproximovat nějakou nelineární funkci Majíli perceptrony aproximovat neznámou nelineární funkci, musí být jejich přenosová funkce také nelineární, protože (i síťová) kombinace lineárních funkcí může vytvořit zase jenom funkci lineární. Množství skrytých vrstev ovlivňuje možnosti modelování nelineárních funkcí (diferencovatelné, hladké, nespojité,nediferencovatelné, ...). Skrytá vrstva počítá váhované výstupy jednotlivých RBF a výstupní vrstva lineární kombinace těchto hodnot (může být více než 1 výstupní neuron). 20. Co je to IBL a jaké jsou jeho úrovně? Existuje oblast, zvaná Instance Based Learning (IBL), která je obecnější (a zahrnuje popsaný K-NN) a která obsahuje modifikace nejbližšího souseda odstraňující řadu nedostatků. Verze existují IB1, IB2, IB3, IB4. Jednoduchou modifikací lze snížit jeho vysokou paměťovou náročnost, je-li k dispozici dostatečné množství trénovačích příkladů (IB2)… Rodina učících algoritmů, které místo provedení generalizace porovnávají nové instance s těmi již známými z trénování, které jsou uložené v paměti 21. Co je to atribut + druhy v tabulce s daty predstavovan sloupcem atributy:dimenze, parametry, proměnné, vlastnosti, … numerick, nominalni, binarni Spojité a diskrétní atributy
Atributy popisující objekty mají velmi často číselný charakter (nejen binární či nominální). Obecně mohou být numerické atributy definovány na spojité reálné ose. Některé algoritmy jsou schopny zcela přirozeně pracovat i s číselnými atributy, část z nich pouze s numerickými hodnotami (např. metoda nejbližšího souseda k–NN využívající Eukleidovy vzdálenosti, nebo algoritmy založené na regresních technikách, např. regresní strom M5P, kde i klasifikační třída je numerická). V takových případech je nutno převést data buď ze spojitého universa na diskrétní, resp. naopak. 22. Proč RBF používají umělých neuronu. Výhody a nevýhody. 23. K čemu je normalizace u kNN? U kNN může nastat potíž tehdy, jsouli měřítka na osách různá; např. výška v mm a váha v kg. Problém se řeší normalizací do intervalu (0.0, 1.0) 24. Hierarchické postavení: data, informace, znalosti 1) Z reálného světa získáváme data, která obsahují šum 2) Filtrací šumu z dat získáme samotná data 3) Filtrací nerelevantních dat (zajímavých pro řešený problém) získáme informace 4) Generalizací informací dosáhneme primárního cíle, čímž je získání znalostí z informací 5) Získání metaznalosti (znalost o znalosti) 25. Co to je lokální váhová funkce? Pokud jsou perceptrony propojeny do sítě, pak každý z nich představuje lokální funkci svých váhovaných vstupů. 26. Vícevrstevná síť, typy vrstev, jak lze použít k modelování funkcí Síťové propojení poskytuje libovolný počet různých struktur v závislosti na počtu perceptronů a způsobu jejich propojení. Nejobvyklejší je vytváření tzv. vícevrstvých sítí, kde jsou perceptrony strukturovány do jednotlivých vrstev, které jsou mezi sebou propojeny. Tyto sítě jsou tvořeny vrstvou vstupní, libovolným počtem vrstev skrytých, a vrstvou výstupní. Množství skrytých vrstev ovlivňuje možnosti modelování nelineárních funkcí (diferencovatelné, hladké, nespojité, nediferencovatelné, ...). 27. Co lze provést s chybějícími daty u atributu Instance s chybějícími hodnotami přinášejí méně informace do zpracování, takže výsledek klasifikace má obecně vyšší chybovost. Při dostatečném množství trénovacích instancí lze ty neúplné ze zpracování vyřadit; jinak je nutno chybějící hodnoty nahradit pomocí např. pravděpodobnostního výpočtu. Lze také zavést umělou hodnotu missing a strom pak ukáže, kam vede větev při výskytu
chybějící hodnoty určitého atributu, což může napovědět, do jaké míry chybějící hodnoty ovlivňují výsledek. Někdy lze atribut s chybějícími hodnotami vyřadit jako irelevantní i za cenu zvýšení chyby klasifikace. 28. Bayesovské učení Založena na použití teorie pravděpodobnosti. Základ je bayesův teorém: P(h) je apriorní pravděpodobnost platnosti hypotézy hpřed tím, než byla získána trénovací data D, P(D) je pravděpodobnost pozorování dat D bez jakéhokoliv vztahu k nějaké hypotéze h, P(D|h) pravděpodobnost zpozorování dat D ve světě, kde platí hypotéza h, a P(h|D) je aposteriorní pravděpodobnost hypotézy h za předpokladu pozorování dat D. 29. Bootstrap Bootstrap je statistická metoda založená na výběru s vracením. Vzniklá sada příkladů tak může obsahovat některé příklady vícekrát (nelze hovořit o množině). Některé příklady jsou náhodně vybrány vícekrát, jiné nejsou vybrány nikdy – právě tyto nevybrané příklady pak vytvoří testovací množinu. 30. Pojmy dolování Dolování z dat je zaměřeno na odkrytí znalosti v datech ukryté: data ® informace ® znalost. Dolování z dat využívá veškeré vhodné technologie, zejména strojové učení, umělou inteligenci, logiku a matematiku. Popsat data -> informace -> znalost 31. Business Inteligence a strojové učení. Strojové učení je moderní, rychle a neustále se rozvíjející technologie pro získávání (“dolování”) znalosti z dat. Umělá inteligence se zabývá technologiemi prohledávání libovolných (reálných a abstraktních) prostorů; cílem je nalezení optima (globálního maxima), což je nejlepší řešení nějakého zadaného problému. Dolování z dat je zaměřeno na odkrytí znalosti v datech ukryté: data ® informace ® znalost. Dolování z dat využívá veškeré vhodné technologie, zejména strojové učení, umělou inteligenci, logiku a matematiku.
32. Rozdíly NBK a OBK + použití Libovolný systém, který používá pro klasifikaci nových příkladů vztah pro Bayesův optimální klasifikátor, se nazývá optimální Bayesovský učící se systém (OBK). Tato metoda maximalizuje pravděpodobnost, že nové instance budou klasifikovány korektně za předpokladu, že jsou k dispozici určitá data pro natrénování (tj. stanovení aposteriorních pravděpodobností), prostor hypotéz a apriorní pravděpodobnosti nad těmito hypotézami. Naivní Bayesovský klasifikátor (NBK), je jednou z vysoce praktických metod strojového učení. Vychází z popsaného optimálního Bayesova klasifikátoru (OBK) a umožňuje snížit výpočetní složitost za předpokladu určitého, teoreticky ne zcela korektního zjednodušení – cenou je možné snížení přesnosti, ale pragmatický přínos je velmi výrazný pro úlohy popsané mnoha atributy (desítky a mnohem více). NBK může dosáhnout i stejné přesnosti jako OBK, nebo se výsledkům OBK dostatečně přiblížit, jak ukazují výsledky tisíců aplikací v reálném světě, protože praktická realita většinou do značné míry vyhovuje teoretickým požadavkům. Samozřejmě, že výsledky NBK mohou být špatné, pokud je odchylka od teoretického předpokladu velká; pak nelze NBK použít. 33. Metriky 34. Vrstvy umělé neuronové sítě (jak lze využít pro modelování funkcí) 35. Jak automaticky vygenerovat rozhodovací strom Rozhodovací strom – model vytvořený minimalizací entropie na základě pozorování určitých reálných situací zachycených formou dat. Forma obecné znalosti co se může aplikovat na případy v budoucnosti. 36. Ockhamova břitva a vztah k dolování z dat Není zřejmé, jakou architekturu má síť mít. Lze zkusit různé architektury (pouze počet vstupních a výstupních jednotek je dán úlohou). Jako výsledek se vybere dle Occamova (resp. Ockhamova) pravidla architektura nejjednodušší, dává-li stejně dobré výsledky jako architektury složitější (tzv. Occamova břitva) 37. Jaké znáte učící algoritmy? k-NN – nejbližší sousedé SVM – algoritmy podpůrných vektorů Stanovuje lineární i nelineární hranici mezi dvěma třídami. Řeší problém, jak v prostoru umístit hyperrovinu tak, aby optimálně od sebe oddělovala body patřící do dvou různých kategorií. Existuje-li takové možné oddělení, pak obvykle není jediné, ale je jich nekonečně mnoho.
Například v rovině lze vést mezi dvěma disjunktními množinami libovolný počet přímek, z nichž každá dokonale odděluje od sebe prvky obou množin – jednou z metod, jak takovouto hranici najít, je např. metoda nejmenších čtverců. … 48. Pojmy černá skříňka, šedá skříňka, bílá skříňka: Natrénované algoritmy lze rozdělit podle typu poskytované znalosti, která se aplikuje na případy v budoucnosti: Reálný svět -> trénovací příklady -> černá skříňka (nesrozumitelná znalost) Reálný svět -> trénovací příklady -> šedá skříňka (částečně srozumitelná znalost) Reálný svět -> trénovací příklady -> bílá skříňka (srozumitelná znalost) 39. Co je trénování a testování? (vztah, rozdíl) Pojmy v rámci strojového učení s učitelem probíhající na algoritmech: Trénování – slouží k naučení algoritmu a definici klasifikátoru - Typ indukovaného učení z příkladu Cross validace – rozšířená metoda pro trénink. Rozdělí data na pokud možno stejně velké části např. 10. Pak proběhne 10 tréninků tak, že v každém z nich se použije 9 podmnožin jako trénovací a 1 jako testovací. Každý trénink používá pro testování různou z podmnožin, takže postupně všechna data jsou využita na trénování a testování. Každé testování zjistí chybu klasifikátoru, a výsledná očekávaná chyba je průměrem. Výsledný klasifikátor se pak natrénuje pomocí všech příkladů. Extrémem je rozdělení trénovací množiny na počet podmnožin odpovídající počtu trénovacích příkladů n. Pak se jedná o tzv. krosvalidaci 1-z-n, která má výhodu v trénování téměř všemi instancemi v každém z n trénovacích kroků. Nevýhodou je úplná ztráta rozložení hodnot [které je při obyčejné krosvalidaci (náhodným výběrem) do určité míry v podmnožinách zachováno]. Testování – slouží k určení chyby klasifikátoru - Data buď vyčleněná z tréningu, nebo část tréninkových dat 40. Co je to Voroného diagram? K čemu slouží + konstrukce Znázorňuje rozhodovací prostor indukovaný algoritmem 1-NN. Slouží k identifikaci nejbližší oblasti zkoumaného případu. Jde o konvexní polygon kolem každé trénovací instance, který indikuje jí nejbližší oblast. Navrhování skupin klasifikátorů: Bagging, Boosting Metoda bagging (“rozdělování do sáčků”) patří k nejjednodušším postupům. Název je odvozen ze slov bootstrap aggregation (“svépomocné nahromadění”), kde se využívá více trénovacích množin, z nichž každá je vytvořena výběrem n’ < n příkladů ze základní trénovací množiny D, která obsahuje n příkladů. Každá z takto vzniklých podmnožin di Ì D je použita k natrénování jednoho z více klasifikátorů.
Výsledná klasifikace neznámého datového vzorku je pak určena “hlasováním” všech takto vytvořených klasifikátorů, tj. vzorek je zařazen do třídy určené většinou. Cílem metody boosting (“posilování”) je zlepšení klasifikační přesnosti libovolného algoritmu strojového učení. I zde je základem vytvoření více klasifikátorů pomocí výběru vzorků ze základní trénovací množiny D. Boosting vychází z vytvoření prvního klasifikátoru, jehož klasifikační přesnost je lepší než 50 %. Dále jsou přidávány další klasifikátory mající stejnou klasifikační vlastnost, takže je vygenerován soubor klasifikátorů, jehož celková klasifikační přesnost je libovolně vysoká vzhledem ke vzorkům v trénovací množině – klasifikace byla posílena (boosted). Bayesovské sítě Bayesovské sítě (Bayesian networks) patří do skupiny algoritmů zvaných grafické modely. Tyto modely představují vzájemné působení (interakce) mezi proměnnými v grafické formě, visuálně. Jejich velkou výhodou je, že pro velký počet proměnných, popisujících zkoumané případy, umožňují rozložit problém na soubor lokálních výpočtů s malým počtem proměnných. Využívá se k tomu podmíněná nezávislost.