Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec
Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Cvičení 9: Učení neuronových sítí BI-VZD, 09/2011 MI-POA
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
1/16
Osnova cvičení • Práce s MLP v Rapidmineru • Nominální atributy • Learning rate a počet iterací
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
2/16
MLP v Rapidmineru
MLP v Rapidmineru • Načteme si iris data
• Přidáme operátor NeuralNet • Zapojíme
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
3/16
MLP v Rapidmineru
• Prohlédneme si strukturu sítě
• Síť má 3 neurony ve výstupní vrstvě (klasifikace do 3 tříd) • 4 neurony ve vstupní vrstvě (data mají 4 atributy) + 1 Threshold node (výstupem je vždy 1) • V defaultním nastavení má síť jednu skrytou vrstvu počet neuronů ve skryté vrstvě se určí automaticky z počtu atributů a výstupních tříd Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
4/16
MLP v Rapidmineru
• Zkusíme upravit parametry operátoru: • přidáme 2 skryté vrstvy s 5 neurony
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
5/16
MLP v Rapidmineru
X - Validace • Zapojíme hodnocení klasifikace cross validací • Přidáme X-Validation Building block • Edit -> New Buidling Block -> Nominal XValidation
• Vyměníme operátor Decision tree za NeuralNet
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
6/16
MLP v Rapidmineru
• Zapojíme
• a prohlédneme si výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
7/16
Nominální atributy
Nominální atributy • Nyní zkusíme použít jiná data: o Labor-Negotiations
• Data obsahují nominální atributy a chybějící hodnoty
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
8/16
Nominální atributy
• Neuronové sítě pracují pouze s numerickými atributy • Nominální atributy musíme převést na numerické
• Zkuste dva způsoby převodu atributů na numerické a porovnejte úspěšnost klasifikace x-validací • Operátor Nominal to Numerical zakóduje každou možnou hodnotu atributu unikátním integerem
• Operátor Nominal to Binomial + Nominal to numerical pro každou možnou hodnotu atributu vytvoří nový booleovský atribut
• Který je lepší a proč?
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
9/16
Nominální atributy
Výsledky • Nominal to Numerical
• Nominal to Binomial
• Správné zakódování vstupů je důležité Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
10/16
Learning rate a počet iterací
Learning rate a počet iterací • Pomocí operátorů Loop parameters a Log zobrazte závislost trénovací a testovací chyby na počtu iterací
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
11/16
Learning rate a počet iterací
• Začneme s Iris daty • Přidáme operátor Loop parameters
• Do něj přidáme X-Validaci, hodnocení modelu a Log
• A do X-Validace Neuronovou síť
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
12/16
Learning rate a počet iterací
• Nastavíme parametry u Loop parameters:
• a Log:
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
13/16
Learning rate a počet iterací
• u Performance nastavíme, že nás zajímá classification error
• spustíme • pro zobrazení použijeme graf Series • poznámka: pokud jediným výsledkem procesu je záznam v logu, tak musíme sami překliknout workspace na výsledky Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
14/16
Výsledek • Learning rate a počet iterací
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
15/16
Learning rate a počet iterací
• Pozorujte, jak se změní graf při různých nastaveních learning rate u neuronové sítě • zkuste např learning rate 0,9 a 0,1
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 9
16/16