1. Data mining. Strojové uˇcení. Základní úlohy. Uˇcení s uˇcitelem a bez uˇcitele. Petr Pošík Katedra kybernetiky ˇ CVUT FEL
c 2010 P. Pošík
Aplikace umˇelé inteligence – 1 / 36
Obsah Návaznosti Data mining Strojové uˇcení
Návaznosti Data mining
Flexibilita a složitost modelu
Strojové uˇcení
Závˇer
Flexibilita a složitost modelu Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 2 / 36
Návaznosti Co bylo v ZUI? Co bude v AUI? Data mining Strojové uˇcení Flexibilita a složitost modelu Závˇer
Návaznosti
c 2010 P. Pošík
Aplikace umˇelé inteligence – 3 / 36
Co bylo v ZUI? ✔ Prohledávání st. prostoru ✘ konstruktivní neinformované a
informované metody
✘ generativní metody, deterministické a
stochastické
✔ Strojové uˇcení, uˇcení z pˇríkladu ˚ ✘ Induktivní uˇcení popisu konceptu v
predikátové logice
✔ Posilované uˇcení ✔ Plánování
✔ Splnování ˇ omezujících podmínek ✔ Evoluˇcní algoritmy ✘ Reprezentace, fitness, kˇrížení, mutace,
selekce
✘ Plánování jako prohledávání stavového
prostoru
✘ popis úloh v jazyce STRIPS ✘ partially ordered plans
✘ Aplikace
✔ Neuronové sítˇe ✔ Znalosti, reprezentace, výroková logika ✔ Predikátová logika, Prolog ✔ Neurˇcitost, pravdˇepodobnost, Bayesovské
sítˇe
✘ Typy NN, úlohy pro NN (s uˇcitelem, bez
uˇcitele)
✘ Trénovací, validaˇcní, testovací ✘ Uˇcení NN, error backpropagation ✔ Aplikace
c 2010 P. Pošík
Aplikace umˇelé inteligence – 4 / 36
Co bude v AUI? Návaznosti Co bylo v ZUI? Co bude v AUI? Data mining Strojové uˇcení Flexibilita a složitost modelu Závˇer
Pˇredbˇežný plán pˇrednášek: 1. 2. 3. 4. 5. 6. 7. 8. 9.
Strojové uˇcení, základní úlohy, uˇcení s uˇcitelem a bez uˇcitele Lineární diskriminaˇcní funkce, perceptronový algoritmus, rozšíˇrení báze Optimální rozdˇelující nadplocha, SVM Neuronové sítˇe, zpˇetné šíˇrení chyby Uˇcení bez uˇcitele, hierarchické shlukování, k-means a EM algoritmus. Neuronové sítˇe - RBF, Kohonenova sít’, autoasociativní sít’ Generativní metody prohledávání stavového prostoru, EA s reálnou reprezentací Alternativní pˇrírodou inspirované techniky – ACO, PSO Základní techniky UI pro plánování
10. Úvod do multiagentních systému˚ a agentních technologií 11. Plánování ve výrobˇe a v logistice (ukázky systému) 12. Simulace, diagnostika a inteligentní robotika (ukázky systému)
c 2010 P. Pošík
Aplikace umˇelé inteligence – 5 / 36
Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu
Data mining
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 6 / 36
Definice Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu Závˇer
„Data mining je netriviální dobývání skrytých, pˇredem neznámých a potenciálnˇe užiteˇcných informací z dat.“ Pˇri jejich objevování se využívají expertní systémy, metody umˇelé inteligence a strojového uˇcení, statistické, grafické a vizualizaˇcní techniky a prezentují se zpusobem ˚ srozumitelným lidem. [FSM92] ˇ Ceský pˇreklad ✔ Dolování dat ✔ Vytˇežování dat ✔ Dobývání znalostí z databází (pˇreklad KDD - knowledge discovery in databases)
Co má data mining spoleˇcného s aplikacemi umˇelé inteligence? ✔ DM: obsáhlý proces zahrnující mnoho fází orientovaný na praktický pˇrínos, na aplikace ✔ Metody umˇelé inteligence, strojového uˇcení a rozpoznávání se uplatnují ˇ ✘ pˇredevším ve fázi modelování, ale také ✘ v nˇekolika dalších fázích procesu DM.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 7 / 36
Rozdílné pohledy na data Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM
Exploratorní analýza dat ✔ Pruzkum ˚ dat, první seznámení s daty, formulujeme hypotézy. ✔ Hojnˇe se využívají grafické techniky.
Strojové uˇcení Flexibilita a složitost modelu Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 8 / 36
Rozdílné pohledy na data Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu
Exploratorní analýza dat ✔ Pruzkum ˚ dat, první seznámení s daty, formulujeme hypotézy. ✔ Hojnˇe se využívají grafické techniky.
Konfirmatorní analýza dat ✔ Máme hypotézy, data slouží jako prostˇredek pro jejich ovˇerˇ ení. ✔ Využívají se statistické metody (ANOVA, regrese, χ-kvadrát testy, . . . )
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 8 / 36
Rozdílné pohledy na data Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu
Exploratorní analýza dat ✔ Pruzkum ˚ dat, první seznámení s daty, formulujeme hypotézy. ✔ Hojnˇe se využívají grafické techniky.
Konfirmatorní analýza dat ✔ Máme hypotézy, data slouží jako prostˇredek pro jejich ovˇerˇ ení. ✔ Využívají se statistické metody (ANOVA, regrese, χ-kvadrát testy, . . . )
Závˇer
Data mining ✔ Máme data a chceme vytvoˇrit modely, které fungují a jsou použitelné pro
predikce.1
✔ Využití metod umˇelé inteligence, strojového uˇcení, . . .
1 V obchodních a marketingových aplikacích bývá druhoˇradé, zda tyto modely popisují skuteˇcné závislosti a dˇeje.
Pˇri aplikaci metod strojového uˇcení napˇr. na biologické a medicinské aplikace je správnost modelu vyžadována mnohem více. c 2010 P. Pošík
Aplikace umˇelé inteligence – 8 / 36
Úˇcel DM Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM
✔ DM je orientován na praktickou využitelnost výsledku, ˚ hlavnˇe ve formˇe predikcí
(exploratorní analýza dat naproti tomu slouží spíše k popisu dat, výzkumníky pˇri ní napadají souvislosti, které stojí za ovˇerˇ ení)
✔ Jde hlavnˇe o vytvoˇrení modelu, který pˇrináší užitek, tj. modelu, jehož prognózy
budou trefné, klasifikace použitelné (a zisky a úspory z nˇej plynoucí znatelné)
✔ Pˇríklady otázek, na nˇež DM umí dát (pˇribližnou) odpovˇed’:
Strojové uˇcení Flexibilita a složitost modelu Závˇer
✘ Kolik cˇ lovˇekohodin bude tˇreba pˇríští mˇesíc odpracovat na ARO? ✘ Kolik asi bude stát pozemek 20 km severnˇe od Prahy? ✘ Odpoví konkrétní cˇ lovˇek z naší databáze na nabídku, kterou bychom mu
zaslali?
✘ Které produkty se prodávají spoleˇcnˇe? Které produkty si lidé kupují poté, co si
koupili jiné?
c 2010 P. Pošík
Aplikace umˇelé inteligence – 9 / 36
Zdroje DM Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 10 / 36
Typy úloh rˇešených pomocí DM Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM Strojové uˇcení Flexibilita a složitost modelu
✔ Popis dat ✘ Vizualizace ✘ Sumarizace ✔ Hledání „nugetu“ ˚ ✘ Dominantní struktury, asociaˇcní pravidla ✘ Segmentace, shluková analýza, popis rozdˇelení dat
Závˇer
✔ Predikce ✘ Klasifikace (predikce kategoriální promˇenné) ✘ Regrese (predikce spojité promˇenné)
ˇ ✘ Casové rˇ ady (predikce závislé na cˇ ase)
c 2010 P. Pošík
Aplikace umˇelé inteligence – 11 / 36
DM jako proces: CRISP-DM Návaznosti Data mining Definice Rozdílné pohledy na data Úˇcel DM Zdroje DM Úlohy pro DM CRISP-DM
Cross-Industry Standard Process for Data Mining
Strojové uˇcení Flexibilita a složitost modelu Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 12 / 36
Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu
Strojové uˇcení
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 13 / 36
AI, ML, PR Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh
Umˇelá inteligence (Artificial Intelligence, AI) [McC04]: „Vˇeda o sestavování inteligentních stroju.“ ˚ ✔ AI studuje: inteligentní chování, uˇcení, adaptaci ve strojích a poˇcítaˇcích ✔ AI zahrnuje: rˇ ízení, plánování a rozhodování, expertní systémy, rozpoznávání
ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ ...
Flexibilita a složitost modelu Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 14 / 36
AI, ML, PR Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Umˇelá inteligence (Artificial Intelligence, AI) [McC04]: „Vˇeda o sestavování inteligentních stroju.“ ˚ ✔ AI studuje: inteligentní chování, uˇcení, adaptaci ve strojích a poˇcítaˇcích ✔ AI zahrnuje: rˇ ízení, plánování a rozhodování, expertní systémy, rozpoznávání
ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ ...
Strojové uˇcení (Machine Learning, ML) studuje algoritmy umožnující ˇ strojum ˚ „uˇcit se“. ✔ ML zahrnuje: syntaktické rozpoznávání, diagnostické systémy, bioinformatika,
detekce zneužití kreditních karet, analýza akciového trhu, klasifikace DNA sekvencí, rozpoznávání ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ navigace robota, . . .
c 2010 P. Pošík
Aplikace umˇelé inteligence – 14 / 36
AI, ML, PR Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Umˇelá inteligence (Artificial Intelligence, AI) [McC04]: „Vˇeda o sestavování inteligentních stroju.“ ˚ ✔ AI studuje: inteligentní chování, uˇcení, adaptaci ve strojích a poˇcítaˇcích ✔ AI zahrnuje: rˇ ízení, plánování a rozhodování, expertní systémy, rozpoznávání
ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ ...
Strojové uˇcení (Machine Learning, ML) studuje algoritmy umožnující ˇ strojum ˚ „uˇcit se“. ✔ ML zahrnuje: syntaktické rozpoznávání, diagnostické systémy, bioinformatika,
detekce zneužití kreditních karet, analýza akciového trhu, klasifikace DNA sekvencí, rozpoznávání ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ navigace robota, . . .
Rozpoznávání (Pattern Recognition, PR) je proces, na jehož vstupu jsou „surová“ data a na výstupu je nˇejaká akce závislá na kategorii pozorovaných dat. Klasifikace dat založená na apriorních znalostech nebo na statistických informacích extrahovaných z dat. ✔ PR zahrnuje: syntaktické rozpoznávání, detekce zneužití kreditních karet, analýza
akciového trhu, klasifikace DNA sekvencí, rozpoznávání ruˇcnˇe psaných znaku, ˚ pˇrirozeného jazyka, mluvené rˇ eˇci, obliˇceju, ˚ navigace robota, . . .
c 2010 P. Pošík
Aplikace umˇelé inteligence – 14 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Kval.
Nominální
Možné operace
Pˇríklady
Ordinální Kvant.
Intervalová Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Kval.
Nominální
Popsat pˇríslušnost
Pˇríklady
Ordinální Kvant.
Intervalová Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální Kvant.
Intervalová Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Kvant.
Intervalová Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Popis velikosti (S,M,L,XL,XXL), vzdˇelání (ZŠ, SŠ, VŠ)
Kvant.
Intervalová Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Popis velikosti (S,M,L,XL,XXL), vzdˇelání (ZŠ, SŠ, VŠ)
Intervalová
Porovnat vzdálenosti
Kvant.
Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Popis velikosti (S,M,L,XL,XXL), vzdˇelání (ZŠ, SŠ, VŠ)
Intervalová
Porovnat vzdálenosti
Kalendáˇrní datum, teplota, úhel, vzrust ˚ zadlužení státu
Kvant.
Pomˇerová
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Popis velikosti (S,M,L,XL,XXL), vzdˇelání (ZŠ, SŠ, VŠ)
Intervalová
Porovnat vzdálenosti
Kalendáˇrní datum, teplota, úhel, vzrust ˚ zadlužení státu
Pomˇerová
Porovnat velikosti
Kvant.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Rozpoznávání Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Rozpoznávání: ✔ Statistické, pˇríznakové — usuzování podle spojitých cˇ i diskrétních znaku ˚
mˇerˇ ených na objektu
✔ Strukturální — usuzování podle vztahu ˚ mezi jednotlivými prvky objektu
(ˇcasto: struktura objektu → odvozené pˇríznaky → pˇríznakové rozpoznávání)
Druhy veliˇcin (pro pˇríznakové rozpoznávání): ✔ Spojité vs. diskrétní ✔ Nezávislé (vstupy) vs. závislé (výstupy)
Znak
Škála
Možné operace
Pˇríklady
Kval.
Nominální
Popsat pˇríslušnost
Barva oˇcí, národnost, pohlaví, místo narození
Ordinální
Seˇradit
Popis velikosti (S,M,L,XL,XXL), vzdˇelání (ZŠ, SŠ, VŠ)
Intervalová
Porovnat vzdálenosti
Kalendáˇrní datum, teplota, úhel, vzrust ˚ zadlužení státu
Pomˇerová
Porovnat velikosti
Objem prodeje, prumˇ ˚ er hˇrídele, hmotnost, pH
Kvant.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 15 / 36
Uˇcení jako indukce modelu Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu
Dvˇe fáze: 1. Uˇcení modelu z pˇríkladu˚ (trénovací data) ✔ uˇcícímu algoritmu jsou pˇredkládány pˇríklady (a protipˇríklady) konceptu,
který se má nauˇcit rozpoznávat
2. Vybavování modelu, rozpoznávání (testovací data) ✔ nauˇcenému modelu jsou pˇredkládány neznámé pˇríklady k ohodnocení
Závˇer
(a) Model se uˇcí. Trénovací data (dvojice x, y) jsou pˇredkládány algoritmu uˇcení, který tvoˇrí strukturu modelu a ladí jeho parametry.
(b) Model si vybavuje. Testovací data (objekty x) „procházejí“ nauˇceným modelem, který poskytuje odhady hodnot závislého znaku y.
Pˇredpoklad (bˇežný ve strojovém uˇcení): ✔ trénovací a testovací data jsou nezávislá a pocházejí ze stejného
pravdˇepodobnostního rozdˇelení (IID: Independent and Identically Distributed)
c 2010 P. Pošík
Aplikace umˇelé inteligence – 16 / 36
Uˇcení s uˇcitelem a bez uˇcitele Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
✔ Objekty jsou popsány vektorem pˇríznaku ˚x ✔ Uˇcení bez uˇcitele ✘ žádné další informace nejsou známy ✘ snaží se najít v datech pˇrirozenou strukturu (a zakódovat ji v modelu) ✔ Uˇcení s uˇcitelem ✘ každý objekt má pˇriˇrazen i „štítek“ y (informaci od uˇcitele) ✘ snaží se nauˇcit relaci x → y (zakódovat ji v modelu)
c 2010 P. Pošík
Aplikace umˇelé inteligence – 17 / 36
Druhy úloh Návaznosti Data mining Strojové uˇcení AI, ML, PR Rozpoznávání Uˇcení jako indukce modelu Uˇcení s uˇcitelem a bez uˇcitele Druhy úloh Flexibilita a složitost modelu Závˇer
Klasifikace „štítek“ je kategoriální promˇenná Regrese „štítek“ je spojitá promˇenná ˇ Casové rˇady významným vstupem modelu (nˇekdy i jediným) je cˇ as Shlukování „štítek“ není dán
Predikce ✔ je výrok o jisté události v budoucnosti (pˇredpovˇed’, cˇ asové rˇ ady).
V ML se hojnˇe používá i ve smyslu ✔ aplikace nauˇceného modelu na nová data, nebo ✔ hodnoty poskytnuté modelem pro nová data.
Další cˇ asto rˇ ešenou úlohou je analýza nákupního koše, která dala vzniknout asociaˇcním a sekvenˇcním pravidlum. ˚
c 2010 P. Pošík
Aplikace umˇelé inteligence – 18 / 36
Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
Flexibilita a složitost modelu
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 19 / 36
Existuje dokonalý model? Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Závˇer
Dokonalý model, ✔ jehož struktura by umožnovala ˇ popsat jakýkoli koncept, jakoukoli relaci, ..., ✔ neexistuje.
Je možné hledat správný model v prostoru všech možných myslitelných modelu? ˚ ✔ Velikost prostoru modelu ˚ roste exponenciálnˇe, cˇ asto je nekoneˇcný — výpoˇcetnˇe
neúnosné. ✔ Obrovské nároky na poˇcet trénovacích dat. Obvyklý pˇrístup:
✔ Zvolíme omezenou tˇrídu modelu ˚ (omezený prostor hypotéz). ✔ V této tˇrídˇe hledáme nejlepší model. ✔ Tento model je ale už z principu zaujatý (inductive bias).
Co je nejlepší model? Dvˇe (obvykle protichudná) ˚ kritéria: ✔ správnost (pˇresnost, minimální chyba) a ✔ jednoduchost.
Jak je vyvážit???
c 2010 P. Pošík
Aplikace umˇelé inteligence – 20 / 36
Základní otázka Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Závˇer
Co je dobrým ukazatelem „kvality“ modelu z hlediska DM? ✔ Pˇri regresních úlohách se cˇ asto aplikuje tzv. stˇrední kvadratická chyba (mean squared
error):
1 MSE = N
N
∑ (yi − f (xi ))
2
,
(1)
i =1
kde f je pro nás modelem, f ( xi ) je predikce modelu pro i. objekt x (zde reálné cˇ íslo). ✔ Je tato veliˇcina (mˇerˇ ená na datech, která máme k dispozici — na trénovacích
datech) dobrým ukazatelem kvality modelu?
c 2010 P. Pošík
Aplikace umˇelé inteligence – 21 / 36
Který model je lepší? Návaznosti Data mining
3
Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2.5
f(x) = x f(x) = x3−3x2+3x
2 1.5 1
Závˇer
0.5 0 −0.5 −1 −0.5
c 2010 P. Pošík
0
0.5
1
1.5
2
2.5
Aplikace umˇelé inteligence – 22 / 36
Který model je lepší? Návaznosti Data mining
3
Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2.5
f(x) = x f(x) = x3−3x2+3x
2 1.5 1
Závˇer
0.5 0 −0.5 −1 −0.5
0
0.5
1
1.5
2
2.5
Z hlediska MSE jsou oba modely ekvivalentní!!! Je tedy jedno, který použijeme?
c 2010 P. Pošík
Aplikace umˇelé inteligence – 22 / 36
Který model je lepší? Návaznosti Data mining
3
Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2.5
f(x) = x f(x) = x3−3x2+3x
2 1.5 1
Závˇer
0.5 0 −0.5 −1 −0.5
0
0.5
1
1.5
2
2.5
Z hlediska MSE jsou oba modely ekvivalentní!!! Je tedy jedno, který použijeme? Lineární model je jednodušší!
c 2010 P. Pošík
Aplikace umˇelé inteligence – 22 / 36
Který model je lepší? Návaznosti Data mining
2.5
Strojové uˇcení
f(x) = −0.09 + 0.99x f(x) = 0.00 + (−0.31x) + (1.67x2) + (−0.51x3)
Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2
1.5
1
Závˇer
0.5
0
−0.5 −0.5
c 2010 P. Pošík
0
0.5
1
1.5
2
2.5
Aplikace umˇelé inteligence – 23 / 36
Který model je lepší? Návaznosti Data mining
2.5
Strojové uˇcení
f(x) = −0.09 + 0.99x f(x) = 0.00 + (−0.31x) + (1.67x2) + (−0.51x3)
Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2
1.5
1
Závˇer
0.5
0
−0.5 −0.5
0
0.5
1
1.5
2
2.5
Z hlediska MSE je kubický model lepší než lineární!!!
c 2010 P. Pošík
Aplikace umˇelé inteligence – 23 / 36
Který model je lepší? Návaznosti Data mining
2.5
Strojové uˇcení
f(x) = −0.09 + 0.99x f(x) = 0.00 + (−0.31x) + (1.67x2) + (−0.51x3)
Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
2
1.5
1
Závˇer
0.5
0
−0.5 −0.5
0
0.5
1
1.5
2
2.5
Z hlediska MSE je kubický model lepší než lineární!!! Pˇresto muže ˚ být lepší použít jednodušší lineární model. Máme ovšem málo dat, tˇežko soudit.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 23 / 36
Požadavky na model z hlediska ML Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
✔ Specifika procesu uˇcení s ohledem na využití ML modelu, napˇr. v DM: ✘ Model musí být užiteˇcný pˇri predikci ✘ Schopnost generalizace: model musí nalézt obecnˇe platné závislosti v datech ✘ Nesmí být pˇreuˇcený: nesmí se nauˇcit na zdánlivé závislosti v datech nebo na šum ✔ Základní metodou pro omezení pˇreuˇcení je ovˇerˇ ení modelu na nezávislých, tzv.
testovacích datech
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 24 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 0−teho stupne 60 50
Trenovaci MSE: 131.87 Testovaci MSE: 426.96
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 25 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 1−teho stupne 60 50
Trenovaci MSE: 77.23 Testovaci MSE: 150.94
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 26 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 2−teho stupne 60 50
Trenovaci MSE: 28.71 Testovaci MSE: 57.45
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 27 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 3−teho stupne 60 50
Trenovaci MSE: 27.83 Testovaci MSE: 67.91
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 28 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 4−teho stupne 60 50
Trenovaci MSE: 27.74 Testovaci MSE: 64.53
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 29 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 5−teho stupne 60 50
Trenovaci MSE: 27.31 Testovaci MSE: 61.54
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 30 / 36
Testovací data Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
X Y
∼ ∼
U (0, 10)
( X − 3)2 + N (0, 62 ) Polynom 6−teho stupne 60 50
Trenovaci MSE: 26.99 Testovaci MSE: 72.28
40
Závˇer
30 20 10 0 −10 −20
c 2010 P. Pošík
0
2
4
6
8
10
Aplikace umˇelé inteligence – 31 / 36
Chyba na trénovacích a testovacích datech Návaznosti Data mining
3
10
Strojové uˇcení
MSE
Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí
Trenovaci MSE Testovaci MSE
2
10
Závˇer
1
10
0
1
2
3 4 Slozitost modelu
5
6
✔ Chyba na trénovacích datech se snižuje se vzrustající ˚ flexibilitou modelu ✔ Chyba na testovacích datech je pro urˇcitou flexibilitu modelu minimální
c 2010 P. Pošík
Aplikace umˇelé inteligence – 32 / 36
Shrnutí Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Existuje dokonalý model? Základní otázka Požadavky na model z hlediska ML Testovací data Chyba na trénovacích a testovacích datech Shrnutí Závˇer
✔ Dva extrémy flexibility modelu
1. Málo flexibilní model (jednoduchý model) ✘ Model je silnˇe vychýlen, zaujat (biased) ✘ Model je stabilní (vzhledem ke zmˇenˇe trénovací množiny)
2. Moc flexibilní model (složitý model) ✘ Velice pˇresný model (trénovacích dat) ✘ Model je velice citlivý (na zmˇenu trénovací množiny) ✔ Model, který je „nejblíž skuteˇcnosti“, se nachází nˇekde mezi nimi ✔ Chybu, kterou model bude dˇelat na nových neznámých datech (pocházejících ze
stejného zdroje), lze odhadnout chybou na testovacích datech
✔ Chybu na testovacích datech lze využít i pro volbu vhodné struktury modelu
c 2010 P. Pošík
Aplikace umˇelé inteligence – 33 / 36
Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Závˇer Shrnutí Reference
Závˇer
c 2010 P. Pošík
Aplikace umˇelé inteligence – 34 / 36
Shrnutí Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Závˇer Shrnutí Reference
✔ DM (ˇci KDD) se dá chápat jako mnohastupnový ˇ proces tvorby modelu˚ strojového
uˇcení a jejich nasazování do praxe.
✔ Umˇelá inteligence se zabývá tvorbou umˇelých entit s inteligentním chováním. ✔ Strojové uˇcení je podobor umˇelé inteligence, který studuje algoritmy umožnující ˇ
strojum ˚ uˇcit se.
✔ Rozpoznávání je podoblast strojového uˇcení, kde se studují modely umožnující ˇ
rozeznat urˇcitou situaci nebo jev a zareagovat na ni.
✔ Mezi hlavní úlohy rˇ ešené v rámci strojového uˇcení patˇrí klasifikace, regrese,
shlukování a odhad pravdˇepodobnostního rozdˇelení.
✔ Základní metodou pro zajištˇení kvality nauˇceného modelu je ovˇerˇ ení jeho funkce
na nových, tzv. testovacích datech.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 35 / 36
Reference Návaznosti Data mining Strojové uˇcení Flexibilita a složitost modelu Závˇer Shrnutí Reference
[FSM92] W. J. Frawley, Piatetsky G. Shapiro, and C. J. Matheus. Knowledge discovery in databases - an overview. AI Magazine, 13:57–70, 1992. [McC04] John McCarthy. What is Artificial Intelligence. http://www-formal.stanford.edu/jmc/whatisai/whatisai.html, 2004.
c 2010 P. Pošík
Aplikace umˇelé inteligence – 36 / 36