Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze
Cíle klasifikace a shlukové analýzy
Cílem klasifikace je zařadit buď některé z objektů nebo všechny objekty do skupin. Shlukování: nemáme žádné informace o existenci skupin a chceme klasifikovat všechny sledované objekty (chceme vytvořit shluky). Shluková analýza je postup formulovaný jako procedura, pomocí níž objektivně seskupujeme jedince do skupin na základě jejich podobnosti a odlišnosti (zkráceně R. C. Tryon, 1939). 2
Statistické metody pro shlukování
Shluková analýza Faktorová analýza Optimální škálování (kategoriální data) Vícerozměrné škálování Korespondenční analýza
3
Shluková analýza – nejvýznamnější literatura
JARDINE, N., SIBSON, R.: Mathematical Taxonomy. John Wiley & Sons, New York 1971. SNEATH, P. H. A., SOKAL, R. R.: Numerical Taxonomy. W. H. Freeman & Company, San Francisco, 1973. HARTIGAN, J.A.: Clustering Algorithms. John Wiley & Sons, New York, 1975. GORDON, A. D.: Classification, 2nd ed. Chapman & Hall/CRC, London, 1999. 4
Shluková analýza – česká literatura
LUKASOVÁ, A., ŠARMANOVÁ, M.: Metody shlukové analýzy. SNTL, Praha 1985. HEBÁK, P., HUSTOPECKÝ J.:
Vícerozměrné statistické metody s aplikacemi, SNTL/ALFA, Praha, 1987. KAHOUNOVÁ, J.: Měření podobnosti struktur. Skripta. VŠE, Praha, 1994.
5
Struktura dat pro statistickou analýzu (1) Příklad vstupní datové matice o rozsahu n x p (objekty x proměnné) Termy
abnormalita
pacient
tlak
D1
3
5
0
D2
0
2
4
Dokumenty
…
…
6
Metody shlukové analýzy – předměty shlukování:
objekty (dokumenty), proměnné (termy), objekty i proměnné současně, kategorie určité proměnné na základě
dvourozměrné tabulky četností, kategorie dvou proměnných současně.
7
Struktura dat pro statistickou analýzu (2) Příklad dvourozměrné tabulky četností o rozsahu r xc Počet bodů Typ školy
0–24
25–49
50–74
75–100
gymnázium
10
15
20
25
obchodní akademie
14
18
20
12
SPŠ
12
20
18
14
SOU
20
15
15
10
8
Struktura dat pro statistickou analýzu (3) Příklad matice podobností proměnných o rozsahu p x p (obdobně: matice nepodobností (odlišností) objektů o rozsahu n x n, matice podobností objektů o rozsahu n x n, matice nepodobností kategorií o rozsahu r x r nebo c x c). Termy
abnormalita
pacient
tlak
1
0,2
0,5
pacient
0,2
1
0,3
tlak
0,5
0,3
1
Termy abnormalita
…
… 9
Metody shlukové analýzy – klasifikace:
hierarchický přístup: • • • •
aglomerativní polytetický přístup, divizivní monotetický přístup, divizivní polytetický přístup, dvourozměrné aglomerativní shlukování;
nehierarchický přístup: • algoritmus k–průměrů (iterativní relokační), •
fuzzy shluková analýza. 10
Typy výstupů shlukové analýzy
Grafické (např. dendrogram), číselné (přiřazení čísla shluku každému
objektu), a to jako • •
•
text (číslo objektu a číslo shluku) nebo nový sloupec v datovém editoru se vstupními údaji (pouze pro objekty), příp. hodnoty ve speciálním tabulkovém editoru.
11
Zjišťování podobností a odlišností (1) Volba míry (ne)podobnosti závisí na typu proměnných, rozlišujeme proměnné nominální (profese, typ školy), ordinální (hodnocení výrobku), poměrové (počet členů domácnosti), intervalové (teplota ve oC), binární (symetrické a asymetrické). 12
Zjišťování podobností a odlišností (2) Klasifikace proměnných
13
Zjišťování podobností a odlišností (3) Míry podobnosti, nepodobnosti a vzdálenosti; pro vzdálenosti mezi objekty xi , xj , xm platí: dij ≥ 0 dii = 0 dij = dji dij + djm ≥ dim i, j, m ∈ <1; n>. 14
Vzdálenosti mezi objekty (1)
15
Vzdálenosti mezi objekty (2)
16
Míry vzdálenosti (pro kvantitativní data) p
2 ( x x ) ∑ il jl
Euclidean(xi, xj):
l =1 p
Power(xi, xj, q, r):
r
∑ xil - x jl
q
l =1
Minkowského metrika (r = q), Hemmingova vzdálenost (r = q = 1), euklidovská vzdálenost (r = q = 2), Čebyševova vzdálenost (r = q → ∞). 17
Míry vzdálenosti x2
obvod vnitřního čtverce – Hemmingova vzdálenost (manhattanská metrika, m. městských bloků), kružnice – euklidovská vzdálenost, obvod vnějšího čtverce – Čebyševova vzdálenost. x1 18
Míry podobnosti pro kvantitativní data (1) Korelační koeficient (podobnost proměnných) rkl = skl = slk ; sll = 1
∑i =1 ( xik − xk )( xil − xl ) n n 2 2 ( x − x ) ( x − x ) ∑i =1 ik k ∑i =1 il l n
∑l =1 xil x jl p p 2 2 ( ) ( ) x x ∑l =1 il ∑l =1 jl p
Kosinová míra (podobnost objektů)
Využívána např. pro zjišťování podobnosti dokumentů D1 = [0 0 1 0 0 ] D2 = [0 1 0 0 0 ] 19
Kosinová míra – grafické znázornění
20
Míry podobnosti pro kvantitativní data (2) p
Jaccardův koeficient
∑ xil x jl p
l =1 p
p
∑ (xil ) + ∑ (x jl ) − ∑ xil x jl 2
l =1
2
l =1
l =1
p
Diceův koeficient
2∑ xil x jl l =1
p
l =1
Czekanowského koeficient
p
∑ (xil ) + ∑ (x jl )2 2
l =1
2 ∑ l =1 min( x il , x jl ) p
∑ l =1 ( xil + x jl ) p
21
Převod měr podobnosti na míry nepodobnosti
Pro korelační koeficient dva přístupy (podle interpretace hodnoty –1): • jestliže hodnota –1 reprezentuje maximální nesouhlas, platí vztah dkl = 1 – rkl ; • pokud jsou hodnoty –1 a 1 uvažovány ekvivalentně 2 jako maximální souhlas, pak dkl = 1 – rkl , případně dkl = 1 – rkl . Podle první varianty můžeme převést kosinovou míru sledující podobnost dvou objektů, tj. dij = 1 – Cosine(xi , xj), stejně jako Jaccardův, Diceův či Czekanowského koeficient. 22
Standardizace dat xil - xl zil = sl
Z-skóry
xil zil = sl
xil zil = maxi ( xil ) − mini ( xil )
xil zil = maxi ( xil )
xil - mini ( xil ) zil = maxi ( xil ) − mini ( xil )
zil =
xil
∑
n
i =1
xil
23
Míry podobnosti pro binární data (1) Označení četností v kontingenční (asociační) tabulce pro dva objekty Kategorie objektu xj Kat. objektu xi 1
1 a
0 b
0
c
d
24
Míry podobnosti pro binární data (2)
míry pro symetrické a asymetrické proměnné, míry podobnosti, nepodobnosti a vzdálenosti, koeficienty shody, podmíněné pravděpodobnosti, míry pro hodnocení předpovědí a ostatní, míry, které jsou funkcemi poměru šancí, míry, které jsou funkcemi korelačního koeficientu, a ostatní. 25
Míry podobnosti pro binární data (3) Koeficient souhlasu (pro symetrická binární data)
a+d a+b+c+d
Jaccardův koeficient (pro asymetrická binární data)
a a+b+c
Diceův (Czekanowského) koeficient (pro asymetrická binární data)
2a 2a + b + c
26
Míry podobnosti pro binární data (4) – funkce poměru šancí Poměr šancí
ad a / b αkl = = bc c / d
Odvození:
a /( a + b) b /( a + b) ad : = c /(c + d ) d /(a + b) bc
Yuleovo Q
ad − bc ad / bc − 1 α kl − 1 = = Qkl = ad + bc ad / bc + 1 α kl + 1
Yuleův koeficient vazby
Ykl =
ad − bc = ad + bc
α kl − 1 α kl + 1 27
Míry podobnosti pro binární data (5) – míra pro hodnocení předpovědí Goodmanova a Kruskalova lambda
t1 − t 2 2( a + b + c + d ) − t 2 t1 = max(a, b) + max(c, d) + max(a, c) + max(b, d) t2 = max(a + c, b + d) + max(a + b, c + d)
28
Míry podobnosti pro binární data (6) – odvození koeficientu lambda Kategorie objektu xl Kat. objektu xk
1
0
1
a
b
a+b
0
c
d
c+d
a+c
b+d
n=a+b+c+d
2 možné případy: (i) xl je statisticky nezávislá na xk nebo (ii) xl je funkcí xk – obdobně pro závislost xk na xl , (iii) a (iv) λlk = ((n – max(a+c, b+d)) – (n – (max(a, b) + max(c, d)))) / (n – max(a+c, b+d)) = (max(a, b) + max(c, d) – max(a+c, b+d)) / (n – max(a+c, b+d)) λkl = ((n – max(a+b, c+d)) – (n – (max(a, c) + max(b, d)))) / (n – max(a+b, c+d)) = (max(a, c) + max(b, d) – max(a+b, c+d)) / (n – max(a+b, c+d)) 29
Míry podobnosti pro binární data (7) – funkce měr pro ordinální proměnné Sledování dvou proměnných u všech dvojic objektů: a) u 1. objektu obě hodnoty větší než u 2. objektu – konkordantní pár b) u 1. objektu jedna hodnota větší a jedna menší – diskordantní pár c) hodnoty u první proměnné stejné, u druhé různé – vázaný pár ke k-té proměnné d) hodnoty u první proměnné různé, u druhé stejné – vázaný pár k l-té proměnné
Symbol Význam
P Q Tk Tl
počet konkordantních párů počet diskordantních párů počet párů vázaných ke k počet párů vázaných k l
Výpočet pro 2 x 2
ad bc ab + cd ac + bd 30
Míry podobnosti pro binární data (8) – funkce měr pro ordinální proměnné xk
xl
1 1 0 0
1 0 1 0
nij a b c d
31
Míry podobnosti pro binární data (9) – funkce měr pro ordinální proměnné Goodman-Kruskalova gama
γ kl =
P − Q ad − bc = = Qkl P + Q ad + bc
Kendallovo tau-b τ b − kl =
P −Q = ( P + Q + Tk )( P + Q + Tl )
Koeficient asociace (korelační koeficient)
ad − bc ( ad + bc + ab + cd )( ad + bc + ac + bd )
rkl =
ad − bc ( a + b)( a + c )(b + d )( c + d )
τ b−kl = rkl 32
Míry nepodobnosti a vzdálenosti pro binární data Binární Lanceova a Williamsova nemetrická míra nepodobnosti
b+c 2a + b + c
Euklidovská vzdálenost
b+c
Binární čtvercová euklidovská vzdálenost = Hammingova vzdálenost
b+c
33
Míra podobnosti pro nominální data g ∑ l =1 ijl = p
Koeficient souhlasu
sij
p
gijl =1 ⇔ xil = xjl a gijl = 0 v ostatních případech Koeficient nesouhlasu (míra nepodobnosti)
dij = 1 – sij
34
Převedení nominálních a ordinálních proměnných na skupinu pomocných binárních proměnných Škola
P1
P2
P3
OA
1
0
0
SPŠ
0
1
0
SOU
0
0
1
Odezva
P1
P2
P3
žádná
0
0
0
slabá
1
0
0
střední
1
1
0
silná
1
1
1 35
Míry pro data různých typů w d ∑ l =1 ijl ijl d ij = p ∑l =1 wijl p
Váha wijl nabývá hodnot 0 (jestliže hodnota xil nebo xjl chybí nebo jsou obě tyto hodnoty rovny nule a l-tá proměnná je
asymetrická binární) nebo 1 (jinak). Míra nepodobnosti dijl závisí na typu l-té proměnné: xl je binární nebo nominální: dijl = 0 ⇔ xil = xjl dijl = 1 v ostatních případech; xl je měřena na intervalové škále, pak je absolutní hodnota z rozdílu hodnot dělena variačním rozpětím l-té proměnné; xl je ordinální nebo je měřena na poměrové škále, pak jsou hodnoty nahrazeny pořadím, které je převedeno do <0;1>. 36 36
Analýza v případě výskytu chybějících údajů
Vynechání páru hodnot (je třeba použít váhy, viz předchozí snímek pro data různých typů), vynechání řádku, kde chybí údaj, nahrazení chybějícího údaje aritmetickým průměrem (v případě kvantitativních dat), vypočítaným nejlépe z blízkých objektů. 37
Míry nepodobnosti kódů kategoriální proměnné 2 ( nac − E ( nac )) 2 m ( nbc − E ( nbc )) + ∑ c =1 d ( a , b ) = ∑ c =1 E ( nac ) E ( nbc )
Chí-kvadrát míra
E ( nac
Koeficient fí
( ∑ )=
m
m
n c =1 ac m n c =1 ac
∑
)⋅ (n
ac + nbc m n c =1 bc
)
E ( nbc
+∑
( ∑ )=
m
n c =1 bc m n c =1 ac
∑
)⋅ (n
ac + nbc m n c =1 bc
)
+∑
φ = d ( a, b) / ( ∑c =1 nac + ∑c =1 nbc ) m
m
38
Monotetická shluková analýza (1) ( akl d kl − bkl ckl )2 (akl + bkl + ckl + d kl ) = (akl + bkl )(ckl + d kl )(akl + ckl )(bkl + d kl )
Míra asociace
χkl2
Pro l-tou proměnnou:
2 χl2 = χl21 + χl22 + ... + χl2,l −1 + χl2,l +1 + ... + χlp
Jestliže
max χl2 ≥ χ02,95 ( p − 1) l
pak podle proměnné, pro níž je hodnota největší, rozdělíme skupinu objektů do dvou podskupin.
39
Monotetická shluková analýza (2) Termy M1 abnormalities 0 age 1 behavior 0 blood 0 close 0 culture 1 depressed 1 discharged 1 disease 0 fast 0 generation 0 oestrogen 0 patients 1 pressure 0 rats 0 respect 0 rise 0 study 1
M2 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0
M3 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1
M4 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 0
M5 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
M6 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
M7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
M8 1 0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 0
M9 M10 M11 M12 M13 M14 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0
x.j 2 2 2 2 2 4 4 3 2 4 2 2 4 2 2 2 2 3
40
Monotetická shluková analýza (3) – graf ze systému S-PLUS M1
age
M2
discharged
M8
abnormalities
M9
culture
M3
patients
M4
behavior
M5
depressed
M6
close
M7
blood
M11
fast
M10
abnormalities
M12
rats
M13
generation
M14 0
1
2
3
4
5
Separation step
41
Aglomerativní hierarchická shluková analýza Aglomerativní algoritmy pro zjišťování (ne)podobností mezi shluky (v každém kroku se spojují 2 shluky, které jsou nejpodobnější):
metoda průměrné vazby pro mezishlukové vzdálenosti, metoda průměrné vazby pro vnitroshlukové vzdálenosti , metoda nejbližšího souseda (prosté vazby), metoda nejvzdálenějšího souseda (úplné vazby), centroidní metoda, mediánová metoda (vážená centroidní), Wardova metoda (spojují se shluky, u nichž je přírůstek celkového vnitroskupinového součtu čtverců odchylek jednotlivých hodnot od shlukového průměru minimální).
42
Aglomerativní hierarchická shluková analýza Metoda nejbližšího souseda:
v 1. kroku: d(Ci, Cj) = dij ve 2. a dalších krocích: d(Ci U Cj, Cm) = min(d(Ci, Cm), d(Cj, Cm)) 43
Hierarchická shluková analýza Objekt 2 3 4 5 6 7 Objekt
757 325 305 725 634 1250 1
292 1138 1796 785 565 2
290 640 149 305 3
98 181 801 4
293 1025 5
232 6
Převzato: A.D.Gordon, Classification.
44
Hierarchická shluková analýza – podobnost objektů (dokumentů)
Dendrogram (systém STATISTICA)
45
Hierarchická shluková analýza – podobnost kategorií Počet bodů Typ školy
0–24
25–49
50–74
75–100
gymnázium
10
15
20
25
obchodní akademie
14
18
20
12
SPŠ
12
20
18
14
SOU
20
15
15
10
46
Hierarchická shluková analýza – podobnost kategorií
Dendrogram (výstup z programového systému SPSS) 47
Metoda k-průměrů
Objekty jsou rozděleny do k shluků (k nutno zadat) – náhodně nebo na základě nějaké další informace, pro každý shluk je vypočítán centroid, zkoumají se postupně všechny objekty: pokud má zkoumaný objekt nejblíže k vlastnímu centroidu, je ponechán v původním shluku, v opačném případě je přemístěn do shluku, k jehož centroidu má nejblíže, pro nově vytvořené shluky opět vypočítáme centroidy, celý postup je opakován tak dlouho, dokud dochází k přesunům.
48
Metoda k-průměrů – graf ze systému STATGRAPHICS
49
Fuzzy shluková analýza
Metoda vychází z matice nepodobností, pro každý objekt xi a shluk v je počítána míra uiv. Míra příslušnosti musí vyhovovat následujícím podmínkám: 1. uiv ≥ 0 pro všechna i = 1, …, n a všechna v = 1, …, k, 2.
∑v =1 uiv = 1 k
pro všechna i = 1, …, n ,
Míry uiv definovány pomocí minimalizace účelové funkce f: 2 2 u ∑i, j =1 ivu jv dij n
f = ∑v =1 k
2∑ j =1 u 2jv n
50
Fuzzy shluková analýza – ukázka výstupu ze systému S-PLUS Membership coefficients:
[,1] [,2] 1 0.83777261 0.04861079 2 0.36617240 0.18189442 3 0.12949812 0.49138528 4 0.70340032 0.08802592 0.17163648 5 0.30500155 6 0.20651331 0.17442615 7 0.10322511 0.54440036 8 0.06246509 0.12382456 0.18685795 9 0.35271162 10 0.05342565 0.05781222 0.25803546 11 0.17760270 12 0.07451083 0.68611755 13 0.07726509 0.11577146 14 0.06748244 0.06621351 15 0.11213541 0.15677724 16 0.78325272 0.06547168 0.37094200 17 0.13857560 0.36006945 18 0.09865274
[,3] 0.05251518 0.12710071 0.14977931 0.10422263
[,4] 0.06110141
0.32483246
0.22933729 0.10435114 0.37491543 0.14844654 0.10217046 0.51689008 0.10963195 0.24274258 0.04514178 0.76856856 0.29150471 0.16892572 0.84769237 0.04106976 0.40407748 0.16028437 0.09357512 0.14579649 0.05076239 0.75620106 0.81756495 0.04873909 0.63010407 0.10098329 0.06543273 0.08584288 0.32385376 0.16662864 0.08654006 0.45473775 51
Fuzzy shluková analýza – interpretace výstupu
Group 1: abnormalities, age, blood, close,
disease, respect Group 2: behavior, depressed, generation, oestrogen, rise, study Group 3: close, disease, fast, generation, pressure, rats, rise Group 4: age, culture, discharged, patients, study 52
Dvourozměrná shluková analýza
Příklad: tři proměnné, přičemž dvě z nich jsou kategoriální. Pro každou kombinaci jejich kódů známe pouze jednu hodnotu třetí proměnné, jejíž hodnoty jsou pouze 0 a 1. Vychází se z toho, že na počátku je každý řádek i každý sloupec samostatným shlukem. Nejprve je pro každý pár řádků vypočítána vzdálenost (b + c) / (a + b + c + d), obdobně pro sloupce. Je spojen pár nejpodobnějších řádků nebo sloupců. Proces pokračuje do stavu, kdy je výsledkem pouze jeden řádek a jeden sloupec. Matice musí být uspořádána tak, aby shluky byly reprezentovány jako spojité bloky. 53
Dvourozměrná shluková analýza – graf ze systému STATISTICA Výsledky dvojrozměrného spojování
BLOOD AGE BEHAVIOR DISEASE FAST RISE CULTURE DEPRESSE PATIENTS M1
M4
M3
M2
M8
M5
M6
M10 M12
M7
M11 M13 M14
M9
54
Příklad 1. (1) Podobnost objektů (dokumentů)
55
Příklad 1. (2) Podobnost objektů (dokumentů) Vícerozměrné škálování (systém STATISTICA)
56
Příklad 2. (1) Shlukování binárních proměnných Datový soubor tv-survey.sav (systém SPSS)
Name any bored critics peers writers director cast
Label Any reason There are no other popular shows on at that time The critics still give the show good reviews Other people still watch the show The original screen writers stay with the show The original directors stay with the show The original cast stays with the show 57
Příklad 2. (2) Použití faktorové analýzy (SPSS) Rotated Component Matrixa
Component 1
2
Any reason
0,899303
0,204718
There are no other popular shows on at that time
0,908244
0,211501
The critics still give the show good reviews
0,893847
0,257246
Other people still watch the show
0,877289
0,261878
The original screenwriters stay with the show
0,274888
0,823797
The original directors stay with the show
0,290610
0,804388
The original cast stays with the show
0,117079
0,870635
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a
Rotation converged in 3 iterations. 58
Příklad 2. (3) Použití shlukové analýzy (SPSS) Míra podobnosti = korelační koeficient
59
Příklad 2. (4) Použití shlukové analýzy (SPSS) Míra podobnosti = Lance-and-Williams Nonmetric Measure
60
Příklad 2. (5) Použití vícerozměrného škálování (1)
61
Příklad 2. (6) Použití vícerozměrného škálování (2)
62
Příklad 3. (1) Shlukování proměnných Datový soubor GSS93 subset.sav (systém SPSS)
Proměnná
Význam
Rap Hvymetal
Rap Music Heavy Metal Music
Bigband Blugrass Country Blues Musicals Classicl Folk Jazz Opera
Bigband Music Bluegrass Music Country Western Music Blues or R & B Music Broadway Musicals Classical Music Folk Music Jazz Music Opera
63
Příklad 3. (2) Shluková analýza (STATISTICA)
64
Příklad 3. (3) Vícerozměrné škálování (SPSS)
65
Příklad 3. (4) Vícerozměrné škálování (SPSS)
66
Příklad 3. (5) – Kategoriální analýza hlavních komponent (SPSS)
67
Příklad 3. (6) Korespondenční analýza (SPSS)
68
Příklad 4. (1) Údaje o dokumentech (Berry) Termy M1 abnormalities 0 age 1 behavior 0 blood 0 close 0 culture 1 depressed 1 discharged 1 disease 0 fast 0 generation 0 oestrogen 0 patients 1 pressure 0 rats 0 respect 0 rise 0 study 1
M2 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0
M3 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1
M4 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 0
M5 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
M6 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
M7 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
M8 1 0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 0
M9 M10 M11 M12 M13 M14 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0
x.j 2 2 2 2 2 4 4 3 2 4 2 2 4 2 2 2 2 3
69
Příklad 4. (2) – výsledek faktorové analýzy
70
Příklad 4. (3) Fuzzy shluková analýza (S-PLUS) Membership coefficients:
[,1] [,2] 1 0.83777261 0.04861079 2 0.36617240 0.18189442 3 0.12949812 0.49138528 4 0.70340032 0.08802592 0.17163648 5 0.30500155 6 0.20651331 0.17442615 7 0.10322511 0.54440036 8 0.06246509 0.12382456 0.18685795 9 0.35271162 10 0.05342565 0.05781222 0.25803546 11 0.17760270 12 0.07451083 0.68611755 13 0.07726509 0.11577146 14 0.06748244 0.06621351 15 0.11213541 0.15677724 16 0.78325272 0.06547168 0.37094200 17 0.13857560 0.36006945 18 0.09865274
[,3] 0.05251518 0.12710071 0.14977931 0.10422263
[,4] 0.06110141
0.32483246
0.22933729 0.10435114 0.37491543 0.14844654 0.10217046 0.51689008 0.10963195 0.24274258 0.04514178 0.76856856 0.29150471 0.16892572 0.84769237 0.04106976 0.40407748 0.16028437 0.09357512 0.14579649 0.05076239 0.75620106 0.81756495 0.04873909 0.63010407 0.10098329 0.06543273 0.08584288 0.32385376 0.16662864 0.08654006 0.45473775 71
Příklad 4. (4) Fuzzy shluková analýza (S-PLUS)
Group 1: abnormalities, age, blood, close,
disease, respect Group 2: behavior, depressed, generation, oestrogen, rise, study Group 3: close, disease, fast, generation, pressure, rats, rise Group 4: age, culture, discharged, patients, study 72
Příklad 4. (5) Vícerozměrné škálování (STATISTICA) Bodový graf 2D Konečná konfigurace, dimenze 1 vs. dimenze 2 1,6 STUDY
1,4 1,2
DISEASE
1,0 0,8 0,6 Dimenze 2
PATIENTS CULTURE
OESTROGE
0,4
DEPRESSE
GENERATI
DISCHARG
0,2 0,0 -0,2
AGE RISE
FAST RATS
-0,4
RESPECT
BLOOD
-0,6 -0,8
ABNORMAL
PRESSURE CLOSE
-1,0
BEHAVIOR
-1,2 -1,4 -2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Dimenze 1
73