SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze http://nb.vse.cz/~rezanka Analýza dat 2007/II
1
Obsah Metody shlukové analýzy Shlukování objektů Shlukování proměnných Shlukování binárních dat Shlukování kategorií Možnosti programových systémů
Analýza dat 2007/II
2
Metody shlukové analýzy Literatura – knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 2007, 196 s. Řezanková, H. Analýza dat z dotazníkových šetření. 1. vyd. Professional Publishing, Praha 2007, 212 s. – vyjde 3. 12. 2007 Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha 2007. 272 s. Analýza dat 2007/II
3
Metody shlukové analýzy Literatura – sborníky: Řezanková, H.: Klasifikace pomocí shlukové analýzy. Sborník přednášek ze semináře Analýza dat 2003/II, TriloByte Statistical Software, Pardubice 2004, s. 119-135. Řezanková, H.: Shlukování a velké soubory dat. Sborník přednášek ze semináře Analýza dat 2004/II, TriloByte Statistical Software, Pardubice 2005, s. 7-19. Analýza dat 2007/II
4
Metody shlukové analýzy Shluková analýza je postup formulovaný jako procedura, pomocí níž objektivně seskupujeme jedince do skupin na základě jejich podobnosti a odlišnosti (zkráceně R. C. Tryon, 1939). Cílem shlukové analýzy je nalézt skupiny objektů (v širším smyslu) tak, aby dva objekty z téže skupiny si byly podobnější než dva objekty z různých skupin. Analýza dat 2007/II
5
Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (partitioning) pro disjunktní shluky (se zadaným počtem shluků) iterativní relokační (přemísťovací) algoritmy metody matematického programování grafické zobrazování pomocí minimální kostry hybridní klasifikace metody založené na hustotě
metody pro překrývající se shluky Analýza dat 2007/II
6
Metody shlukové analýzy Klasifikace tradičních metod:
Analýza dat 2007/II
7
Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu
pevné shlukování
shluky
1
0
0
0
0
1
1
0
0
…
…
…
objekty 0,4
0,3
0,3
0,2
0,3
0,5
0,8
0,1
0,1
…
…
…
0,4
0,3
0,3
0,2
0,3
0,5
1
0
0
…
…
…
fuzzy shlukování částečné fuzzy shlukování Analýza dat 2007/II
8
Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické – divizivní (S-PLUS) polytetické aglomerativní divizivní (S-PLUS)
modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using linKs) Analýza dat 2007/II
9
Metody shlukové analýzy Vstupní data: m-rozměrná pozorování (matice vzorů – pattern matrix) matice X, prvky xil matice vzdáleností/podobností
(matice blízkostí - proximity matrix)
kontingenční tabulka
(tabulka četností)
X
/
m proměnných (znaků) 1. znak
2. znak
1. objekt
2. objekt
1. objekt 2. objekt …
1. objekt 2. objekt …
Y
1. kategorie
2. kategorie
…
1. kategorie 2. kategorie …
Analýza dat 2007/II
10
Metody shlukové analýzy Měření podobnosti u kategoriálních dat Kategoriální proměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit pořadí) vícekategoriální ordinální (záleží na pořadí) kvantitativní (lze počítat vzdálenost, není třeba zvláštní postup) Analýza dat 2007/II
11
Metody shlukové analýzy Měření podobnosti u dichotomických dat obvykle binární data (hodnoty jsou 0 a 1) symetrické asymetrické (jedna hodnota důležitější, obvykle 1) Postup: běžné míry (pro symetrické) speciální míry (zaměřené na určitý typ) Analýza dat 2007/II
12
Metody shlukové analýzy Měření podobnosti u nominálních dat m
jediná míra pro podobnost objektů
S ij =
∑ Sijl l =1
m (koeficient prosté shody) různé míry pro podobnost proměnných (viz dále)
převedení na binární data
Analýza dat 2007/II
Škola
P1 P2 P3
OA
1
0
0
SPŠ
0
1
0
SOU
0
0
1
13
Metody shlukové analýzy Měření podobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ‹0; 1› Odezva převedení na binární data
P1
P2
P3
žádná
0
0
0
slabá
1
0
0
střední
1
1
0
silná
1
1
1
různé míry pro podobnost proměnných (viz dále)
Analýza dat 2007/II
14
Shlukování objektů Dichotomické proměnné speciální míry + hierarchická shluková analýza (stejné jako pro shlukování proměnných) speciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 2005.
Algoritmus MONA (MONothetic Analysis) Analýza dat 2007/II
15
Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku xk 1 0
Kategorie znaku xl 1 0 akl bkl ckl dkl
qkl = a kl d kl − bkl ckl
k = 1, 2, ..., m
ql = ∑ qkl
l = 1, 2, ..., m
k ≠l
rozdělení objektů podle proměnné, pro níž maxl(ql). Analýza dat 2007/II
16
Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Maps. Biological Cybernetics, 61, 1989, 241–254. Zvíře holub slepice kachna husa sova jestřáb orel liška pes vlk kočka tygr lev kůň zebra kráva
malé 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0
střední 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0
velké 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
2_nohy 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
4_nohy 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
srst 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
kopyta 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
Analýza dat 2007/II
hříva 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0
peří 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
loví 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0
běhá 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0
létá 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0
plave 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 17
Shlukování objektů Algoritmus MONA (MONothetic Analysis)
Analýza dat 2007/II
18
Shlukování objektů Nominální proměnné inspirace v třídícím algoritmu (Hartigan): pro každou proměnnou stanovena prahová hodnota shluky jsou vymezeny políčky vícerozměrné kontingenční tabulky mezi všemi proměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 1975.
Analýza dat 2007/II
19
Shlukování objektů Nominální proměnné koeficient prosté shody (STATISTICA) Sijl =1 ⇔ xil = xjl a Sijl = 0 jinak
převedení na binární data
m
S ij =
speciální metody k-modů, k-histogramů, ROCK, CACTUS
∑ Sijl l =1
m
další postupy (jiné míry v nových metodách) míra věrohodnostního typu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) Analýza dat 2007/II
20
Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-průměrů, obecně k-centroidů. Centroid je definován jako vektor, pro který platí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (použije-li se euklidovská vzdálenost, pak je centroidem vektor průměrů a jde o metodu k-průměrů). DE ( x i , x j ) =
m
∑ ( xil − x jl ) 2 l =1
Analýza dat 2007/II
= xi − x j
21
Shlukování objektů Metody k-modů, k-histogramů Každá l-tá proměnná nabývá hodnot vlu (u = 1, 2, ..., Kl). Každý shluk je reprezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastoupené) kategorie jednotlivých proměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých proměnných (v metodě k-histogramů). Používají se přitom speciální míry nepodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 1998, 283-304. Analýza dat 2007/II
22
Shlukování objektů Metoda ROCK (RObust Clustering using linKs)
založena na principu hierarchického shlukování nejdříve se provede náhodný výběr objektů, které se shlukují do požadovaného počtu shluků, po čemž následuje přiřazení zbylých objektů (jako v CURE) využívá koncept grafu, pojmy sousedi a vazby Jaccardův koeficient podobnosti pro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2000, 345-366. Analýza dat 2007/II
23
Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries)
patří k metodám založeným na mřížce založena na myšlence společného výskytu určitých kategorií různých proměnných zda je počet výskytů kategorií vkt a vlu dvou různých proměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS – Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 1999, 73-83. Analýza dat 2007/II
24
Shlukování objektů Dvoukroková shluková analýza (sytém SPSS)
shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního typu (log-likelihood) variabilita ve shlucích se zjišťuje pomocí entropie Kl
n glu
u =1
ng
H gl = − ∑
ln
n glu ng
Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 1996, 103-114. Analýza dat 2007/II
25
Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Repository of machine learning databases. Irvine, CA: University of California, 1998 [http://www.ics.uci.edu/~mlearn/MLRepository. html].
Analýza dat 2007/II
26
Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) v5
Cluster Distribution
Cluster
1 2 3 4 5 Combined
Total
N 1737 1635 1296 1728 1728 8124 8124
% of Combined 21,4% 20,1% 16,0% 21,3% 21,3% 100,0%
f
% of Total 21,4% 20,1% 16,0% 21,3% 21,3% 100,0% 100,0%
Cluster
Frequency 1433 291 1296 1728 0 4748
1 2 3 4 5 Combined
t Percent 30,2% 6,1% 27,3% 36,4% ,0% 100,0%
Frequency 304 1344 0 0 1728 3376
Percent 9,0% 39,8% ,0% ,0% 51,2% 100,0%
v3 f Cluster
1 2 3 4 5 Combined
Frequency 568 240 648 0 864 2320
g Percent 24,5% 10,3% 27,9% ,0% 37,2% 100,0%
Frequency 4 0 0 0 0 4
s Percent 100,0% ,0% ,0% ,0% ,0% 100,0%
Frequency 876 816 0 864 0 2556
Analýza dat 2007/II
y Percent 34,3% 31,9% ,0% 33,8% ,0% 100,0%
Frequency 289 579 648 864 864 3244
Percent 8,9% 17,8% 20,0% 26,6% 26,6% 100,0%
27
Shlukování objektů Ordinální proměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ‹0; 1› převést na binární data použít speciální metody k-mediánů
Analýza dat 2007/II
28
Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, pro který platí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, pak je centroidem vektor mediánů a jde o metodu k-mediánů). m
D B ( x i , x j ) = ∑ | xil − x jl | =| x i − x j | l =1
Analýza dat 2007/II
29
Shlukování proměnných Nominální proměnné n
koeficient prosté shody Skli = 1 ⇔ xik = xil a Skli = 0 jinak Skl =
∑ Skli i =1
n
koeficient neshody Dkl = 1 – Skl speciální míry podobnosti převedení na binární data
Analýza dat 2007/II
30
Shlukování proměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Repository of machine learning databases. Irvine, CA: University of California, 1998 [http://www.ics.uci.edu/~mlearn/MLRepository. html].
Analýza dat 2007/II
31
Shlukování proměnných Nominální proměnné – koeficient neshody Stromový diagram pro 20 proměnných Úplné spojení Procentuální neshoda cap-shape spore-print-color cap-color odor habitat population gill-color cap-surface gill-size bruises ring-type stalk-shape gill-attachment veil-color ring-number gill-spacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring 0,0
0,2
0,4
0,6
0,8
1,0
Vzdálenost spojení
Analýza dat 2007/II
32
Shlukování proměnných Speciální míry podobnosti – vycházejí z kontingenční tabulky Znak Y Znak X 1. kategorie ... i-tá kategorie ... R-tá kategorie Celkem
1. kategorie
...
j-tá kategorie
...
S-tá kategorie
Celkem
n11
...
n1j
...
n1S
n1+
...
...
...
...
...
...
ni1
...
nij
...
niS
ni+
...
...
...
...
...
...
nR1
...
nRj
...
nRS
nR+
n+1
...
n+j
...
n+S
n
Analýza dat 2007/II
33
Shlukování proměnných Speciální míry podobnosti – vycházejí z kontingenční tabulky Znak Y Znak X 1. kategorie ... i-tá kategorie ... R-tá kategorie Celkem
1. kategorie
...
j-tá kategorie
...
S-tá kategorie
Celkem
p11
...
p1j
...
p1S
p1+
...
...
...
...
...
...
pi1
...
pij
...
piS
pi+
...
...
...
...
...
...
pR1
...
pR
...
pRS
pR+
p+1
...
p+j
...
p+S
1
Analýza dat 2007/II
34
Shlukování proměnných Speciální míry podobnosti pro nominální proměnné – vycházejí z principu analýzy rozptylu a poměru determinace SY
X
var (Y , X ) var (Y ) − var (Y X ) = = var (Y ) var (Y ) R
SY
X
=
var (Y ) − ∑ pi + var (Y xi )
var (Y ) = var (Y , X ) + var (Y X )
i =1
var (Y ) Analýza dat 2007/II
35
Shlukování proměnných Měření variability nominálních proměnných Četnost Znak X
absolutní
relativní
kumulativní relativní
x1
n1
p1
P1
...
...
...
...
xi
ni
pi
Pi
...
...
...
...
xK
nK
pK
1
Celkem
n
1
x
Analýza dat 2007/II
36
Shlukování proměnných Měření variability nominálních proměnných variační poměr
v = 1 – p Mo = 1 – n Mo /n
nominální rozptyl nomvar (Giniho koeficient) K
1− ∑
entropie
i =1
pi2
K
= ∑ ( pi (1 − pi )) i =1
K
H = − ∑ pi ln pi i =1
Analýza dat 2007/II
37
Shlukování proměnných Míry závislosti nominálních proměnných variační poměr R
λY
X
=
v (Y ) − ∑ pi + v (Y xi ) i =1
v (Y )
v = 1 – p Mo = 1 – n Mo /n ⎛ p ⎞ 1 − p + Mo − ∑ pi + ⎜⎜1 − iMo ⎟⎟ pi + ⎠ i =1 ⎝ = = 1 − p + Mo
R ⎛ ⎞ 1 − p + Mo − ⎜⎜1 − ∑ piMo ⎟⎟ ⎝ i =1 ⎠= = 1 − p + Mo
R
R
∑ piMo − p+ Mo
Goodmanova-Kruskalova λ
i =1
1 − p + Mo
Analýza dat 2007/II
38
Shlukování proměnných Míry podobnosti nominálních proměnných P{1} = (1 – p+Mo) P{2} = (1 – ΣpiMo)
P{1} - P{2} PRE = P{1}
S ⎞ 1 ⎛⎜ R P{2} = 1 − ⎜ ∑ piMo + ∑ p Moj ⎟⎟ 2 ⎝ i =1 j =1 ⎠
1 P{1} = 1 − ( p + Mo + p Mo + ) 2
λ sym =
Goodmanova-Kruskalova λ
R
S
i =1
j =1
∑ piMo + ∑ p Moj − p+ Mo − p Mo+ 2 − p + Mo − p Mo+
Analýza dat 2007/II
39
Shlukování proměnných Míry závislosti nominálních proměnných K
H = − ∑ pi ln pi
entropie
i =1
⎛ S pij pij ⎞ ⎟ ln H (Y ) − ∑ pi + H (Y xi ) − ∑ p + j ln p + j − ∑ pi + ⎜⎜ − ∑ ⎟ p p j =1 i + j =1 i =1 i+ ⎠ ⎝ i =1 = = = S H (Y ) − ∑ p + j ln p + j S
R
UY
X
R
j =1
UY
X
=
R
S
i =1
j =1 S
R
(koeficient nejistoty)
S
− ∑ pi + ln pi + − ∑ p + j ln p + j + ∑∑ pij ln pij − ∑ p + j ln p + j
informační koeficient
i =1 j =1
=
H ( X ) + H (Y ) − H ( XY ) H (Y )
j =1
Analýza dat 2007/II
40
Shlukování proměnných Míry podobnosti nominálních proměnných U sym =
=
2 H (Y ) H(X ) + H ( X ) + H (Y ) − H ( XY ) H ( X ) + H (Y ) − H ( XY )
2(H ( X ) + H (Y ) − H ( XY ) ) H ( X ) + H (Y )
Analýza dat 2007/II
=
informační koeficient (koeficient nejistoty)
41
Shlukování proměnných Míry podobnosti ordinálních proměnných n 6 ⋅ ∑ ( xl − yl ) 2 Spearmanův koeficient pořadové korelace
rS = 1 −
l =1
n( n 2 − 1)
Míry založené na počtech konkordantních a diskordantních párů
Analýza dat 2007/II
42
Shlukování proměnných Míry podobnosti ordinálních proměnných Míry založené na počtech konkordantních a diskordantních párů C – počet konkordantních párů D – počet diskordantních párů TX – počet párů, které obsahují stejnou hodnotu
proměnné X, ale různou hodnotu Y TY – počet párů, které obsahují stejnou hodnotu proměnné Y, ale různou hodnotu X Analýza dat 2007/II
43
Shlukování proměnných Míry podobnosti ordinálních proměnných γ=
Goodmanova-Kruskalova γ
τb =
Kendallovo τb Kendallovo τc Stuartovo τc
τc =
2 q (C − D ) n 2 ( q − 1)
Analýza dat 2007/II
C−D C+D
C−D (C + D + TX )(C + D + TY )
q = min{R, S}
44
Shlukování proměnných Míry podobnosti ordinálních proměnných Somersovo d d sym =
dY
X
2 C + D + TY C + D + T X − C−D C−D
=
C−D C + D + TY
=
2 ⋅ (C − D ) 2 ⋅ (C + D ) + T X + TY
Analýza dat 2007/II
45
Shlukování proměnných Hodnoty Kendallova τb pro dvojice proměnných Blues
Musicals Classical
Jazz
Rap
Heavy Metal
Blues or R & B Music
1,00
0,17
0,15
0,49
0,16
0,12
Broadway Musicals
0,17
1,00
0,41
0,22
0,03
-0,10
Classical Music
0,15
0,41
1,00
0,23
0,01
-0,01
Jazz Music
0,49
0,22
0,23
1,00
0,16
0,10
Rap Music
0,16
0,03
0,01
0,16
1,00
0,35
Heavy Metal Music
0,12
-0,10
-0,01
0,10
0,35
1,00
Analýza dat 2007/II
46
Shlukování proměnných Ordinální proměnné – koeficient τb Stromový diagram pro 6 proměnných Úplné spojení Odlišnosti z matice
Blues
Jazz
Musicals
Classical
Rap
Heavy Metal
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
Vzdálenost spojení
Analýza dat 2007/II
47
Shlukování binárních dat Stejné míry podobnosti (nepodobnosti) pro objekty i proměnné Kategorie objektu xj Kategorie objektu xi
1
0
1
a
b
0
c
d
Analýza dat 2007/II
48
Shlukování binárních dat míry pro symetrické a asymetrické proměnné míry podobnosti, nepodobnosti a vzdálenosti koeficienty shody, podmíněné pravděpodobnosti míry pro hodnocení předpovědí a ostatní
míry, které jsou funkcemi poměru šancí, míry,
které jsou funkcemi korelačního koeficientu, a ostatní
Analýza dat 2007/II
49
Shlukování binárních dat Koeficient souhlasu (pro symetrická binární data)
a+d a+b+c+d
Jaccardův koeficient (pro asymetrická binární data)
a a+b+c
Diceův (Czekanowského) koeficient (pro asymetrická binární data)
2a 2a + b + c
Russelův a Raoův – RR (pro asymetrická binární data) Analýza dat 2007/II
a a+b+c+d 50
Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn
2( a + d ) 2( a + d ) + b + c
Rogersův a Tanimotoův koef., RT
a+d a + d + 2(b + c)
Analýza dat 2007/II
51
Shlukování binárních dat Funkce poměru šancí Poměr šancí Yuleovo Q
ψ=
ad bc
ad − bc ad / bc − 1 ψ − 1 Q= = = ad + bc ad / bc + 1 ψ + 1
Yuleův koeficient vazby
Y =
Analýza dat 2007/II
ad − bc ad + bc
=
ψ −1 ψ +1
52
Shlukování binárních dat Míry pro hodnocení předpovědí Goodmanova-Kruskalova λ – Anderbergovo D
t1 − t2 2( a + b + c + d ) − t 2
t1 − t2 2( a + b + c + d )
t1 = max(a, b) + max(c, d) + max(a, c) + max(b, d) t2 = max(a + c, b + d) + max(a + b, c + d)
Analýza dat 2007/II
53
Shlukování binárních dat Míry pro ordinální proměnné Goodmanova-Kruskalova γ Kendallovo τb τb =
C − D ad − bc γ= = =Q C + D ad + bc
C−D = (C + D + TY )(C + D + TX )
ad − bc = ( ad + bc + ab + cd )( ad + bc + ac + bd )
Analýza dat 2007/II
54
Shlukování binárních dat Míry pro kvantitativní proměnné ad − bc Koeficient asociace rXY = (korelační koeficient) ( a + b)( a + c )(b + d )( c + d )
τb = rXY
Analýza dat 2007/II
55
Shlukování binárních dat Míry vzdálenosti a nepodobnosti Euklidovská vzdálenost
b+c
Binární čtvercová euklidovská vzdálenost = Hammingova vzdálenost
b+c
Binární Lanceova a Williamsova nemetrická míra nepodobnosti Analýza dat 2007/II
b+c 2a + b + c 56
Shlukování binárních dat Dendrogram – polytetické aglomerativní shlukování Stromový diagram pro 16 případů Úplné spojení Euklidovská vzdálenost holub slepice kachna husa sova jestřáb orel liška vlk pes kočka tygr lev kůň zebra kráva 0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Vzdálenost spojení
Analýza dat 2007/II
57
Shlukování binárních dat Banner plot – polytetické divizivní shlukování
Analýza dat 2007/II
58
Shlukování binárních dat Vícerozměrné škálování Bodový graf 2D Konečná konfigurace, dimenze 1 vs. dimenze 2 0,8 KRÁVA
0,6
ZEBRA KŮN
KACHNA 0,4 HUSA Dimenze 2
0,2
SLEPICE
HOLUB
LEV
0,0
KOČKA
JESTŘÁB SOVA
TYGR
-0,2 -0,4
PES LIŠKA
OREL
VLK
-0,6 -0,8 -1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
Dimenze 1
Analýza dat 2007/II
59
Shlukování kategorií Míry nepodobnosti kategorií Pearsonova chí-kvadrát statistika χ2 =
S
( nij − mij ) 2
j =1
mij
∑
Koeficient φ
ϕ=
S
( ni′j − mi′j ) 2
j =1
mi′j
+∑
mij =
mi′j =
ni + ⋅ ( nij + ni′j ) n i + + n i ′+
ni′+ ⋅ ( nij + ni′j ) n i + + n i ′+
χ2 n i + + n i ′+
Analýza dat 2007/II
60
Shlukování kategorií Matice nepodobností (chí-kvadrát míra) pro oblasti interview na základě úrovně vzdělání Region
1
2
3
4
5
6
7
8
9
1:New England
0,00
2,80
3,32
2,65
3,33
4,76
1,90
1,95
2,16
2:Middle Atlantic
2,80
0,00
1,55
1,03
1,09
3,82
1,32
2,02
1,56
3:E. Nor Central
3,32
1,55
0,00
0,44
2,62
5,06
1,62
2,48
2,25
4:W. Nor Central
2,65
1,03
0,44
0,00
1,56
3,66
1,23
1,88
1,60
5:South Atlantic
3,33
1,09
2,62
1,56
0,00
3,16
2,18
2,42
2,53
6:E. Sou Central
4,76
3,82
5,06
3,66
3,16
0,00
4,39
3,54
4,61
7:W. Sou Central
1,90
1,32
1,62
1,23
2,18
4,39
0,00
1,31
0,81
8:Mountain
1,95
2,02
2,48
1,88
2,42
3,54
1,31
0,00
1,51
9:Pacifik
2,16
1,56
2,25
1,60
2,53
4,61
0,81
1,51
0,00
Analýza dat 2007/II
61
Shlukování kategorií Dendrogram – polytetické aglomerativní shlukování Stromový diagram pro 9 objektů Úplné spojení Odlišnosti z matice
NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C 0
1
2
3
4
5
6
Vzdálenost spojení
Analýza dat 2007/II
62
Shlukování kategorií Jiné metody (grafické zobrazování) Korespondenční analýza Vícerozměrné škálování
Analýza dat 2007/II
63
Shlukování kategorií Výsledky průzkumu cestovní kanceláře Count
Typ zájezdu
Celkem
hory pobyt s výlety poznávací zájezd turistika
apartman 6 89 11 6 112
Optimální ubytování bungalov hotel 9 5 28 203 13 28 18 8 68 244
stan 59 33 66 27 185
Celkem 79 353 118 59 609
Matice nepodobností (míra chí-kvadrát) Proximity Matrix Chi-square between Sets of Frequencies 2:pobyt 3:poznávací Case 1:hory 4:turistika s výlety zájezd 1:hory ,000 13,211 3,368 3,602 2:pobyt s výlety 13,211 ,000 11,107 9,650 3:poznávací zájezd 3,368 11,107 ,000 3,367 4:turistika 3,602 9,650 3,367 ,000 This is a dissimilarity matrix
Analýza dat 2007/II
64
Shlukování kategorií Matice nepodobností (míra chí-kvadrát) Proximity Matrix Chi-square between Sets of Frequencies 2:pobyt 3:poznávací Case 1:hory 4:turistika s výlety zájezd 1:hory ,000 13,211 3,368 3,602 2:pobyt s výlety 13,211 ,000 11,107 9,650 3:poznávací zájezd 3,368 11,107 ,000 3,367 4:turistika 3,602 9,650 3,367 ,000 This is a dissimilarity matrix
Postup při shlukování (jednoduché spojení) Agglomeration Schedule
Stage 1 2 3
Cluster Combined Cluster 1 Cluster 2 3 4 1 3 1 2
Coefficients 3,367 3,368 9,650
Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 1 2 0
Analýza dat 2007/II
Next Stage 2 3 0
65
Shlukování kategorií Výsledky průzkumu cestovní kanceláře Count
Typ zájezdu
hory pobyt s výlety poznávací zájezd turistika
Celkem
apartman 6 89 11 6 112
Optimální ubytování bungalov hotel 9 5 28 203 13 28 18 8 68 244
stan 59 33 66 27 185
Celkem 79 353 118 59 609
Matice nepodobností (míra chí-kvadrát) Proximity Matrix Case apartman bungalov hotel stan
apartman ,000 5,439 1,971 10,502
Matrix File Input bungalov hotel 5,439 1,971 ,000 8,012 8,012 ,000 5,097 13,754
stan 10,502 5,097 13,754 ,000
Analýza dat 2007/II
66
Shlukování kategorií Matice nepodobností (míra chí-kvadrát) Proximity Matrix Case apartman bungalov hotel stan
apartman ,000 5,439 1,971 10,502
Matrix File Input bungalov hotel 5,439 1,971 ,000 8,012 8,012 ,000 5,097 13,754
stan 10,502 5,097 13,754 ,000
Postup při shlukování (průměrné spojení) Agglomeration Schedule
Stage 1 2 3
Cluster Combined Cluster 1 Cluster 2 1 3 2 4 1 2
Coefficients 1,971 5,097 9,427
Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 1 2
Analýza dat 2007/II
Next Stage 3 3 0
67
Shlukování kategorií Vícerozměrné škálování
0,2 0,1 0,0 -0,1 -0,2 -0,3
hory
turistika
Common Space
pobyt_s_výlety
poznávací_zájezd
Dimension 2
Dimension 2
Common Space
stan
hotel
0,2 0,1
apartman
0,0 -0,1
bungalov
-0,2 -0,3 -0,4
-0,5
0,0
0,5
-1,0
1,0
-0,5
0,0
0,5
1,0
Dimension 1
Dimension 1
Analýza dat 2007/II
68
Shlukování kategorií Korespondenční analýza Symmetrical Normalization Optimální ubytování Typ zájezdu
1,5
turistika bungalov
Dimension 2
1,0
0,5
apartman
0,0
pobyt s výlety
stan hory
poznávací zájezd
hotel
-0,5 -1,5
-1,0
-0,5
0,0
0,5
1,0
Dimension 1 Analýza dat 2007/II
69
Možnosti programových systémů Speciální míry pro hierarchickou shlukovou analýzu, resp. k-shlukování (průměry, mediány) Koef. neshody (STATISTICA, SYSTAT pro HSA) Míra pro ordinální proměnné pro HSA a k-shluk. SYSTAT (gama) Míry pro binární data pro HSA SPSS (26 měr) STATISTICA (korelační koeficient = koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama = Yulovo Q, korel. koeficient) Analýza dat 2007/II
70
Možnosti programových systémů Míry pro různé typy proměnných (včetně
nominálních) ve speciální metodě
Míra věrohodnostního typu ve dvoukrokové shlukové analýze (SPSS)
Míry pro shlukování kategorií pro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i pro k-shlukování, tj. k-průměrů a k-mediánů)
Speciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 2007/II
71
Možnosti programových systémů Vytvoření matice podobností (nepodobností) SPSS: Pearsonův a Spearmanův korelační
koeficient, Kendallovo τb SYSTAT: koef. fí, Cramérovo V, kontingenční
koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Spearmanův korelační koeficient, Kendallovo τb, Stuartovo τc, GoodmanovaKruskalova γ, 13 měr pro dichotomická data Analýza dat 2007/II
72
Děkuji Vám za pozornost
Analýza dat 2007/II
73