Strojové učení Marta Vomlelová
[email protected] KTIML, S303
Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web). 2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.
Doplňující literatura P. Berka.Dobývání znalostí z databází. Academia, 2003. T. Mitchell. Machine Learning. McGraw Hill, New York, 1997. S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.
Příklady statistického učení Vytořit z dat model, který dokáže: ● ●
● ●
Určit polohu robota z minulé pozice a senzorů . U pacienta hospitalizovaného s infarktem predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi. Rozpoznání spamu od e-mailu. Predikovat cenu akcií za 6 měsíců z aktuální výkonnosti společnosti a ekonomických dat.
Typický scénář „zadání“ ●
●
Máme danou cílovou veličinu ●
kvantivativní Y – cena akcií, nebo
●
kategoriální G – infarkt ano/ne.
Chceme její hodnotu predikovat na základě příznaků (features) X ●
●
klinická měření, stravování.
Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny.
●
Na základě těchto dat tvoříme model ̂f , ĝ .
●
Dobrý model predikuje cíl s malou chybou.
Učení s učitelem / bez učitele ●
●
Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data – např. klastrováním či určením závislostí. (unsupervised learning)
Příklad: Klasifikace e-mailu. ●
●
Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný e-mail. Známe cílovou třídu spam/email a frekvence 57 nejčastějších slov či znaků.
●
Příklad modelu:
●
V tomto příkladu je nestejná cena chyby.
Příklad: rakovina prostaty ●
●
Cílem je predikovat logaritmus prostate specific antigen (lpsa) z množiny příznaků. Predikujeme spojitou veličinu.
●
Bodový graf, XY graf (scatter plot)
Obsah Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese
Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus, .. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě
Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele
Typické otázky u zkoušky ●
Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina, ...
●
Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM, ...
●
Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli.
Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)
Přehled základních pojmů ●
vstupní veličiny (=features), cílová veličina
●
numerické, kategoriální, uspořádané veličiny
●
regrese (=predikce numerické veličiny)
●
klasifikace (=predikce kategoriální veličiny)
●
binární veličiny – kódujeme 0/1 nebo -1/1
●
uspořádané – často pomocí dummy variables (pomocné proměnné)
●
vstupní veličiny značíme X, výstup Y resp. G.
●
X je matice Nxp, predikce značíme střechou
.
Lineární regrese p
p
p
p
Lin. regrese 2
p
Lin. regrese - výsledek
●
Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.
Maskování U lineární regrese pro víc tříd může dojít k maskování:
modrá třída není nikdy predikovaná.
Lin. regrese vs. nejbližší sousedé ●
●
Lineární regrese ●
je hladká, stabilní
●
výrazně závisí na předpokladu linearity hranice
●
má malý rozptyl, potenciálně velké vychýlení (bias).
k-NN ● ●
●
se přizpůsobí libovolné (spojité..) hranici predikce záleží na pozici a hodnotách pár okolních bodů, proto je nestabilní velký rozptyl, malé vychýlení (bias).
Přeučení (overfitting) ●
Přeučením se nazývá přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech. Tj. růst oranžové křivky při klesající modré vpravo v grafu.
Optimální bayeskovská hranice ●
●
Pokud víme, jakým procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby). Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).
Prokletí dimenzionality ●
Nejbližší sousedé jsou při velké dimenzi hodně daleko.
Proč vadí vzdálený nejbližší soused
Druhý příklad
Weka ●
●
nástroj pro Data mining, umožňuje učit mnoho modelů. http://www.cs.waikato.ac.nz/ml/weka/