Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Cvičení 6: Rozhodovací stromy BI-VZD, 09/2011 MI-POA
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
1/18
Rozhodovací stromy
Hra Ano/Ne 1. Stáhněte data o pasažérech Titanicu z Eduxu. 2. Student si náhodně vybere řádek z datasetu a ostatní se ho tážou: o Jsi muž? / Jsi žena? o Dospělý / Dítě? o Patříš mezi posádku? / Jsi pasažér 1. třídy? /… 3. Úkolem je co nejpřesněji uhádnout, zda přežil.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
2/18
Rozhodovací stromy
Rozhodovací strom • Sestavte zapojení dle schématu:
Naimportujte dataset pomocí Import Configuration Wizard. Poslední atribut nastavte na label.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
3/18
Rozhodovací stromy
Výsledek
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
4/18
Rozhodovací stromy
Vliv velikosti učícího vzorku • Přidejte blok Sample a nastavte ho na relativní velikost:
• Sledujte vliv velikosti vzorku na velikost stromu o Je tam jedna hraniční velikosti, jaká?
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
5/18
Rozhodovací stromy
Vliv velikosti učícího vzorku • Pro 0..0.16 je strom povětšinou jednoduchý, rozlišuje jen muž/žena. • Pro 0.16..1 je strom povětšinou dvouúrovňový, rozlišuje muž/žena a příslušnst ke třídě.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
6/18
Vliv velikosti učícího vzorku • Nyní pomocí „Loop Parameters“ a „X-validation“ zjistěte přesnost klasifikace při „Sample Ratio“ 0..1
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
7/18
Vliv velikosti učícího vzorku
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
8/18
Vliv velikosti učícího vzorku
• Je velikost datasetu dostatečná, abychom mohli natrénovat strom? Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
9/18
Vliv velikosti učícího vzorku • Na začátku je přesnost klasifikace s vysokým rozptylem, protože se někdy vyberou snadno klasifikovatelné vzorky, jindy zase těžko klasifikovatelné vzorky. • Nicméně od 0.16 je rozptyl nižší a přesnost se nezvyšuje – rozhodovací strom dosáhl svých mezí.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
10/18
Rozhodovací stromy
Má smysl předpovídat přežití pasažérů Titanicu?
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
11/18
Rozhodovací stromy
Houby 1/7 • Stáhněte si z Eduxu dataset „houby.zip“. Budete určovat, zda je houba jedlá (edible), či nikoliv (poisonous).
• Poznámka: Tahle úloha je náročná na operační paměť. Pokud chcete změnit limit přidělené paměti, zkonfigurujte spouštěcí skripty RapidMineru (RapidMinerGUI/RapidMinerGUI.bat). Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
12/18
Rozhodovací stromy
Houby 2/7 • Natrénujte rozhodovací strom (DecisionTree). • Vložte do Wordu/Writeru obrázek vygenerovaného rozhodovacího stromu. Upravte ho ale tak, aby se dal přečíst bez přiblížení.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
13/18
Rozhodovací stromy
Houby 3/7 • Použijte křížovou validaci (X-validation) a určete spolehlivost klasifikace.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
14/18
Rozhodovací stromy
Houby 4/7 • Použijte další míry pro dělení stromu (informationgane, gini index, accuracy). • Jak se liší přesnost klasifikace? • Jak se liší stromy?
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
15/18
Rozhodovací stromy
Houby 5/7 • Použijte nejlepší model na klasifikaci hub z „nezname houby.txt“. • Jsou všechny houby jedlé?
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
16/18
Rozhodovací stromy
Houby 6/7 (2 body) • Místo rozhodovacího stromu použijte les (RandomForest). Nakolik jste si jistí správnou klasifikací hub z „nezname houby.txt“? Vypočítejte s přesností na 1%.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
17/18
Rozhodovací stromy
Houby 7/7 (další 2 body) • Vyneste graf přesnosti klasifikace v závislosti na počtu atributů. Použijte 0-6 rozhodovacích atributů, kde 0 atributů znamená, že klasifikujete dle majoritní třídy. Pozorování okomentujte. • Úlohy mohou mít celkem maximálně rozsah 1×A4. Formát pdf.
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 6
18/18