Strojové učení Marta Vomlelová
[email protected] KTIML, S303
Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web)
nebo Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning with Applications in R (2013)
Some of the figures in this presentation are taken from "An Introduction to Statistical Learning, with applications in R" (Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R. Tibshirani
Doplňková literatura I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999. P. Berka.Dobývání znalostí z databází. Academia, 2003. T. Mitchell. Machine Learning. McGraw Hill, New York, 1997. S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.
Příklad statistického učení ●
●
Vytořit z dat model, který dokáže predikovat prodej produktu v závislosti na nákladech na reklamu v TV, radiu a novinách.
Modelovat příjem v závislosti na počtu let vzdělání.
Typický scénář „zadání“ ●
●
Máme danou cílovou veličinu ●
kvantivativní Y – cena akcií, nebo
●
kategoriální G – infarkt ano/ne.
Chceme její hodnotu predikovat na základě vstupních veličin = příznaků (features) X ●
●
klinická měření, stravování.
Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny.
●
Na základě těchto dat tvoříme model f.
●
Dobrý model predikuje cíl s malou chybou.
Užití modelu 1: Predikce ●
stačí černá skříňka, nepotřebujeme rozumět f.
●
Zajímá nás přesnost (accuracy) odhadu Y.
●
Dva typy chyby: ● ●
reducibilní chyba – lze zlepšit ireducibilní chyba – ϵ – vliv neměřených veličin, náhody, nelze zlepšit zlepšením odhadu f –
●
(detaily konkrétního exempláře, aktuální nálada pacienta)
Očekávaná hodnota E, rozptyl Var.
Užití modelu 2: Porozumění Chceme vědět např.: ●
Které vstupní proměnné mají vliv na výstupní?
●
Jaké jsou vztahy vstupů a výstupu?
●
Lze vztah reprezentovat lineárně?
●
Např.: která média přispívají k zvýšení obchodu? Které nejvíc?
Jak odhadujeme f? ●
parametrické metody ●
spočteme koeficienty=parametry modelu – –
●
pro nový příklad predikujeme na základě modelu –
●
(pevné X,Y trénovacích dat, mění se β) např. lineární regrese
pevné β, na základě nových X predikujeme Y.
neparametrické metody ●
variabilnější model –
velmi dobře se můžeme přizpůsobit datům
Přesnost x srozumitelnost modelu ●
Složitý model je často přesnější* ale méně srozumitelný.
*Pokud nedojde k přeučení.
Učení s učitelem / bez učitele ●
●
Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data – např. klastrováním či určením závislostí. (unsupervised learning)
Ohodnocení správnosti modelu Accuracy – správnost, precision – přesnost, pokusím se český výraz nezaměňovat, ale často se to děje. ●
Střední kvadratická chyba MSE
●
na nová, dosud nepozorovaná data.
●
Tj. data rozdělíme na trénovací a testovací.
Přeučení Přílišné přizpůsobení trénovacím datům může zvýšit chybu na nových, nepozorovaných, testovacích datech.
FIGURE 2.9. Left: Data simulated from f, shown in black. Three estimates of f are shown: the linear regression line (orange curve), and two smoothing spline fits (blue and green curves). Right: Training MSE (grey curve), test MSE (red curve), and minimum possible test MSE over all methods (dashed line). Squares represent the training and test MSEs for the three fits shown in the left-hand panel.
Bias – Variance Trade-Off (vychýlení a rozptyl)
očekávaná chyba na testovacích datech= rozptyl odhadu+vychýlení2+ireducibilní chyba.
FIGURE 2.12. Squared bias (blue curve), variance (orange curve), Var() (dashed line), and test MSE (red curve) for the three data sets in Figures 2.9–2.11. The vertical dotted line indicates the flexibility level corresponding to the smallest test MSE.
Klasifikace ●
cílová proměnná je diskrétní, málo hodnotová, nejčastěji dvouhodnotová –
často se značí G (group).
●
Trochu jiné modely, hlavně už jiná míra chyby:
●
tj. na testovacích datech:
Příklad: Klasifikace e-mailu. ●
●
Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný e-mail. Známe cílovou třídu spam/email a frekvence 57 nejčastějších slov či znaků.
●
Příklad modelu:
●
V tomto příkladu je nestejná cena chyby.
Bayesovský klasifikátor ●
●
●
●
každému pozorování přiřazuje nejpravděpodobnější třídu. nelze dosáhnout nižší chyby než bayesovský klasifikátor založený na znalosti pravdivé pravděpodobnosti cílových tříd, tzv. bayes rate FIGURE 2.13. A simulated data set consisting of 100 observations in each of two groups, indicated in blue and in orange. The purple dashed line represents the Bayes decision boundary. The orange background grid indicates the region in which a test observation will be assigned to the orange class, and the blue background grid indicates the region in which a test observation will be assigned to the blue class.
bayes. rozhodovací hranice dělící čára kde jsou obě cílové kategorie stejně pravděpodobné
K nejbližších sousedů ●
Pro X=x0 predikujeme j s maximální pravděpod. N0 je K nejbližších sousedů x0.
●
K=3
Různá K
Opět učící křivka
Přibližný obsah přednášky Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese
Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus, .. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě
Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele
Typické otázky u zkoušky ●
Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina, ...
●
Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM, ...
●
Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli.
Prokletí dimenzionality ●
Nejbližší sousedé jsou při velké dimenzi hodně daleko.
Proč vadí vzdálený nejbližší soused
Druhý příklad
Weka ●
●
nástroj pro Data mining, umožňuje učit mnoho modelů. http://www.cs.waikato.ac.nz/ml/weka/