Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec
Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Cvičení 10: Shlukování BI-VZD, 09/2011 MI-POA
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
1/21
Osnova cvičení • K-means • Hierarchické shlukování
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
2/21
K-Means
K-Means • Načteme si Iris data
• Vložíme K-means operátor • Nastavíme K=2
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
3/21
K-Means
• Zapojíme a prohlédneme si výsledky shlukování
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
4/21
K-Means
• Pro zobrazení dat a jejich příslišnosti do clusterů použijeme graf Scatter 3D color • Osy budou atributy a1,a3,a4 a barva hodnota atributu cluster • Porovnáme hodnoty získané shlukováním s atributem label • Vyzkoušíme pro různé hodnoty k: 2,3,4,5
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
5/21
K-Means
• K=2
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
6/21
K-Means
• K=3
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
7/21
K-Means
• K=4
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
8/21
K-Means
Zhodnocení shlukování • Pomocí operátoru Cluster Distance Performance spočítáme průměrnou vzdálenost bodu k centroidu a Davies – Bouldin index
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
9/21
K-Means
Úkol •
Použijte data vygenerovaná operátorem Generate Data s následujícími parametry:
•
Spočítejte within cluster distance (WCD) a Davies Bouldin index (DBI) pro všechny hodnoty K od 2 do 15 Zobrazte graf hodnot WCD a DBI v závislosti na K Jaká je nejlepší hodnota K?
• •
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
10/21
K-Means
Nápověda • Použijte operátory Loop parameters, Log a Cluster Distance Performance • Pro zobrazení dat z logu použijte typ grafu Series Multiple
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
11/21
K-Means
Výsledek • Zapojení
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
12/21
K-Means
Výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
13/21
K-Means
Výsledek
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
14/21
Hierarchické shlukování
Hierarchické shlukování • Načteme Iris data • Přidáme operátor Aglomerative Clustering
• Zobrazíme dendrogram:
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
15/21
Hierarchické shlukování
• Vybereme počet shluků a data rozdělíme podle výsledného hierarchického shlukování • To odpovídá „říznutí“ dendrogramu v určité hloubce • K tomu slouží operátor Flatten Clustering
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
16/21
Hierarchické shlukování
• Postupně nastavíme parametr mode operátoru Aglomerative Clustering na: • Single Link
• Complete Link
• Average Link
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
17/21
Hierarchické shlukování
• Jak se změní dendrogramy? • Jak se změní výsledné shlukování pro K=3? Zobrazte jako Scatter 3D Color plot
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
18/21
Single link • Hierarchické shlukování
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
19/21
Complete link • Hierarchické shlukování
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
20/21
Average link • Hierarchické shlukování
Pavel Kordík, Josef Borkovec (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 10
21/21