Shluková analýza – příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných:
Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový obsah dané látky a vypočítán aritmetický průměr. Tím pak byla dělena každá hodnota příslušné proměnné.
Procedura v SGP: Describe – Multivariate Methods – Cluster Analysis ... Použitá metoda: Metoda nejvzdálenějšího souseda (Kritériem pro spojování shluků je maximum z celkového počtu možných mezishlukových vzdáleností objektů.) Míra vzdálenosti: čtverec euklidovské vzdálenosti
Cluster Analysis Data variables: Na (kationty sodne) K (kationty draselne) Mg (kationty horecnate) Ca (kationty vapenate) Cl (anionty chloridove) SO4 (anionty siranove) HCO3 (anionty hydrogenuhlicitanove) Number of complete cases: 13 Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean Clustering: observations Standardized: yes Cluster Summary Cluster Members 1 13 Centroids Cluster Na 1 1,0
Percent 100,00
K 1,00077
Mg 1,00077
Ca 1,00077
Cl 1,0
SO4 0,999231
HCO3 1,0
Centroids – průměrná hodnota pro každou proměnnou v každém shluku.
Agglomeration Schedule Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean
Stage 1 2 3 4 5 6 7 8 9 10 11 12
Combined Cluster 1 3 2 5 1 2 1 8 1 5 1 4 1
Combined Cluster 2 10 11 6 3 12 7 9 2 13 5 8 4
Previous Stage Cluster 1 0 0 0 0 2 4 0 6 3 8 0 10
Distance 0,141088 0,289719 0,483247 0,693114 1,25072 1,86357 2,70437 3,33252 3,90763 10,0024 17,2127 48,2397
Previous Stage Cluster 2 0 0 0 1 0 0 0 5 0 9 7 11
Next Stage 4 5 9 6 8 8 11 10 10 12 12 0
Tato tabulka ukazuje, která pozorování byla spojena v každém stupni seskupovacího procesu. Např. v prvním stupni bylo spojeno 3. pozorování s 10., tj. byly seskupeny vody Evian a Rajec. Vzdálenost mezi skupinami byla 0,141088. Poslední sloupec tabulky ukazuje, že další stupeň, ve kterém tato sloučená skupina byla dále sloučena s dalším objektem, je 4. stupeň.
Dendrogram Furthest Neighbor Method,Squared Euclidean 50
Distance
40
30
20
10
Podebradka PL
Podebradka
Hanacka kyselka
Vittel
Mattoni
Korunni
Valvert
Toma Natura
Dobra voda
Ondrasovka
Rajec
Evian
Bonaqua
0
Výstupy z předcházející tabulky jsou graficky znázorněny na výše uvedeném dendrogramu. Ukazuje se zde sloučení všech pozorování až do podoby jednoho shluku. Z výše uvedené tabulky a grafu plyne, že nejprve byly spojeny vody Evian a Rajec, potom Dobrá voda a Toma Natura, ve 3. stupni Korunní a Mattoni, ve 4. stupni byla do shluku, ve kterém je Evian přidána Bonaqua atd.
Podle uvedených hodnot by se mohlo zdát, že by bylo vhodné vytvořit 2 shluky. Agglomeration Schedule Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean
Stage 1 2 3 4 5 6 7 8 9 10 11
Combined Cluster 1 3 2 5 1 2 1 8 1 5 1 4
Combined Cluster 2 10 11 6 3 12 7 9 2 13 5 8
Previous Stage Cluster 1 0 0 0 0 2 4 0 6 3 8 0
Distance 0,141088 0,289719 0,483247 0,693114 1,25072 1,86357 2,70437 3,33252 3,90763 10,0024 17,2127
Previous Stage Cluster 2 0 0 0 1 0 0 0 5 0 9 7
Next Stage 4 5 9 6 8 8 11 10 10 0 0
Dendrogram Furthest Neighbor Method,Squared Euclidean 18 15
Distance
12 9 6 3
Membership Table Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean Row 1 2 3 4 5 6 7 8 9 10 11 12 13
Label Bonaqua Dobra voda Evian Hanacka kyselka Korunni Mattoni Ondrasovka Podebradka Podebradka PL Rajec Toma Natura Valvert Vittel
Cluster 1 1 1 2 1 1 1 2 2 1 1 1 1
Podebradka PL
Podebradka
Hanacka kyselka
Vittel
Mattoni
Korunni
Valvert
Toma Natura
Dobra voda
Ondrasovka
Rajec
Evian
Bonaqua
0
Je zřejmé, že první shluk je tvořen vodami Bonaqua, Evian, Rajec, Ondrášovka, Dobrá voda, Toma Natura, Valvert, Korunní, Mattoni a Vittel. Druhý shluk obsahuje vody Hanácká kyselka, Poděbradka a Poděbradka ProLinie. Podíváme-li se na původní hodnoty všech proměnných u jednotlivých vod, vidíme, že vody ve druhém shluku se oproti ostatním výrazně odlišují v hodnotách všech ukazatelů jejich složení. Jiná možnost řešení: Pokud projdeme různé možnosti řešení a podrobně prostudujeme složení vod, dojdeme k závěru, že ideální počet shluků je 5.
Cluster Analysis Data variables: Na (kationty sodne) K (kationty draselne) Mg (kationty horecnate) Ca (kationty vapenate) Cl (anionty chloridove) SO4 (anionty siranove) HCO3 (anionty hydrogenuhlicitanove) Number of complete cases: 13 Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean Clustering: observations Standardized: yes Cluster Summary Cluster Members 1 7 2 1 3 2 4 2 5 1 Centroids Cluster 1 2 3 4 5
Na 0,0685714 2,68 0,88 4,005 0,07
Percent 53,85 7,69 15,38 15,38 7,69
K 0,152857 1,14 1,475 3,755 0,34
Mg 0,601429 2,39 0,93 1,94 0,67
Ca 0,511429 3,02 0,975 1,72 1,02
Cl 0,0428571 2,26 0,135 5,06 0,05
SO4 0,328571 0,01 1,505 2,34 2,99
HCO3 0,507143 2,84 1,04 2,04 0,45
Previous Stage Cluster 2 0 0 0 1 0 0 0 5
Next Stage 4 5 0 6 8 8 0 0
= Podmíněné průměry pro jednotlivé proměnné. Agglomeration Schedule Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean
Stage 1 2 3 4 5 6 7 8
Combined Cluster 1 3 2 5 1 2 1 8 1
Combined Cluster 2 10 11 6 3 12 7 9 2
Distance 0,141088 0,289719 0,483247 0,693114 1,25072 1,86357 2,70437 3,33252
Previous Stage Cluster 1 0 0 0 0 2 4 0 6
Dendrogram Furthest Neighbor Method,Squared Euclidean 4
Distance
3
2
1
Vittel
Podebradka PL
Podebradka
Mattoni
Korunni
Hanacka kyselka
Valvert
Toma Natura
Dobra voda
Ondrasovka
Rajec
Evian
Bonaqua
0
Membership Table Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Squared Euclidean Row 1 2 3 4 5 6 7 8 9 10 11 12 13
Label Bonaqua Dobra voda Evian Hanacka kyselka Korunni Mattoni Ondrasovka Podebradka Podebradka PL Rajec Toma Natura Valvert Vittel
Cluster 1 1 1 2 3 3 1 4 4 1 1 1 5
1. shluk: Bonaqua, Dobrá voda, Evian, Ondrášovka, Rajec, Toma Natura, Valvert. 2. shluk: Hanácká kyselka. 3. shluk: Korunní a Mattoni. 4. shluk: Poděbradka a Poděbradka ProLinie. 5. shluk: Vittel. Při pohledu na tabulku s podmíněnými průměry pro jednotlivé proměnné (Centroids), kterými jsou jednotlivé shluky charakterizovány, vidíme, že u prvního shluku jsou typické podprůměrné hodnoty všech zjišťovaných proměnných, u látek Na a Cl jsou hodnoty dokonce velmi nízké. Doplňme, že průměr získaný na základě všech objektů je roven 1. U druhého shluku je hodnota SO42- hodně nízká, hodnota K je blízká průměru a ostatní hodnoty jsou výrazně nadprůměrné.
Třetí shluk vykazuje nízkou hodnotu Cl, mírně nadprůměrné hodnoty u látek K a SO42-, hodnoty zbývajících 4 látek se pohybují kolem průměrné hodnoty. Pro čtvrtý shluk je charakteristické, že hodnoty všech sledovaných látek jsou výrazně nadprůměrné. Pátý shluk se vyznačuje nízkými hodnotami u proměnných Na a Cl a výrazně nadprůměrnou hodnotou proměnné SO42-.