Fakulta chemicko – technologická Katedra analytické chemie Licenční studium statistické zpracování dat
Analýza vícerozměrných dat
Ing. Pavel Valášek
Školní rok 2002 – 03
0
OBSAH 1
ÚVOD
2
2
DATA
2
3
EDA – EXPLORATORNÍ ANALÝZA
2
4
PCA – ANALÝZA HLAVNÍCH KOMPONENT
8
4.1 Určení počtu hlavních komponent 4.1.1 Porovnání metod SVD a NIPALS 4.1.2 Tabulka hodnot hlavních komponent (SVD)
8 12 13
4.2
13
5 5.1
Závěr
FA – FAKTOROVÁ ANALÝZA
14
Tabulka Komunalit pro zvolený počet faktorů
14
5.2 Závěr 5.2.1 Tabulka komponentních vah pro dva faktory 5.2.2 Tabulka komponentních vah pro tři faktory
6
ANALÝZA SHLUKŮ
15 15 15
15
6.1
Tabulka rozhodčích kritérií
18
6.2
Závěr
18
1
1
Úvod
PRECHEZA a.s. je výrobcem termických železitých pigmentů, které se vyrábí přímou kalcinací monohydrátu síranu železnatého. Ve výstupní analytické kontrole se sleduje a analyticky stanovuje celá řada vlastností (proměnných), jejichž stanovení může být časově a pravděpodobně i ekonomicky a finančně náročné. Statistickou analýzou vícerozměrných dat je možné posoudit, které sledované vlastnosti jsou si podobné či které spolu korelují a na základě těchto závěrů lze počet měřených vlastností snížit. Pro statistickou analýzu byla použita metoda PCA (hlavních komponent) a FA (faktorová analýza), které jsou dominantními metodami této analýzy. Pro provedení této statistické analýzy byly požity programy: MINITAB 12.1, SCAN, NCSS, OPGM. 2 Data Vzhledem k rozsáhlosti hodnot (13-proměnných a 209 objektů) zde nejsou uvedeny, ale soubor s těmito daty je součástí této práce . Pro vlastní zpracování dat bylo použito pouze 11 proměnných, protože proměnná C* (sytost pigmentu) je matematickou kombinací odstínových parametrů a* a b*. 3 EDA – Exploratorní analýza Exploratorní analýza těchto vícerozměrných dat provedena nebyla, protože výběr je příliš rozsáhlý, a obrázkové grafy (hvězdičky) se pro 13 proměnných stávají nepřehledné. Pro základní pohled na zpracovávané hodnoty byly pro jednotlivé proměnné vyčísleny základní parametry jako jsou průměr, medián, příslušné intervaly, atd.
Descriptive Statistics Variable: vlhkost [%] Anderson-Darling Normality Test A-Squared: P-Value:
0.14
0.18
0.22
0.26
0.30
0.34
0.38
95% Confidence Interval for Mu
2.468 0.000
Mean StDev Variance Skewness Kurtosis N
0.241722 0.048347 2.34E-03 0.866511 0.897924 209
Minimum 1st Quartile Median 3rd Quartile Maximum
0.140000 0.200000 0.240000 0.270000 0.400000
95% Confidence Interval for Mu 0.235130 0.23
0.24
0.25
0.248315
95% Confidence Interval for Sigma 0.044114
0.053486
95% Confidence Interval for Median 95% Confidence Interval for Median
0.230000
Obr. 3-1 (MINITAB) Základní statistika pro vlhkost (%)
2
0.250000
Descriptive Statistics Variable: vod. soli [% Anderson-Darling Normality Test A-Squared: P-Value:
0.05
0.09
0.13
0.17
0.21
0.25
95% Confidence Interval for Mu
1.337 0.002
Mean StDev Variance Skewness Kurtosis N
0.136699 0.034988 1.22E-03 0.383568 0.187172 209
Minimum 1st Quartile Median 3rd Quartile Maximum
0.040000 0.110000 0.130000 0.160000 0.250000
95% Confidence Interval for Mu 0.131927 0.130
0.135
0.140
0.141470
95% Confidence Interval for Sigma 0.031924
0.038707
95% Confidence Interval for Median 95% Confidence Interval for Median
0.130000
0.140000
Obr. 3-2 (MINITAB) Základní statistika pro vodosoli (%)
Descriptive Statistics Variable: vodivost Anderson-Darling Normality Test A-Squared: P-Value:
120
160
200
240
280
320
360
Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum
95% Confidence Interval for Mu
2.108 0.000 218.565 38.641 1493.12 0.746097 0.990794 209 120.000 190.000 210.000 240.000 360.000
95% Confidence Interval for Mu 213.295 210
215
220
225
223.834
95% Confidence Interval for Sigma 35.258
42.748
95% Confidence Interval for Median 95% Confidence Interval for Median
210.000
Obr. 3-3 (MINITAB) Základní statistika pro vodivost (µS/cm)
3
220.000
Descriptive Statistics Variable: pH Anderson-Darling Normality Test A-Squared: P-Value:
4.7
5.1
5.5
5.9
6.3
6.7
7.1
Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum
95% Confidence Interval for Mu
1.281 0.002 6.17990 0.51336 0.263537 -2.9E-01 -2.9E-01 209 4.60000 5.80000 6.20000 6.60000 7.00000
95% Confidence Interval for Mu 6.10990 6.1
6.2
6.3
6.24991
95% Confidence Interval for Sigma 0.46841
0.56792
95% Confidence Interval for Median 95% Confidence Interval for Median
6.10000
6.30000
Obr. 3-4 (MINITAB) Základní statistika pro pH
Descriptive Statistics Variable: zbytek A Anderson-Darling Normality Test A-Squared: P-Value:
0.004
0.010
0.016
0.022
0.028
0.034
0.040
95% Confidence Interval for Mu
5.884 0.000
Mean StDev Variance Skewness Kurtosis N
1.62E-02 9.01E-03 8.12E-05 1.01351 0.379680 209
Minimum 1st Quartile Median 3rd Quartile Maximum
3.00E-03 9.00E-03 1.40E-02 2.10E-02 4.00E-02
95% Confidence Interval for Mu 1.50E-02 0.012
0.013
0.014
0.015
0.016
0.017
0.018
1.74E-02
95% Confidence Interval for Sigma 8.22E-03
9.97E-03
95% Confidence Interval for Median 95% Confidence Interval for Median
1.20E-02
Obr. 3-5 (MINITAB) Základní statistika pro Zbytek A (%)
4
1.50E-02
Descriptive Statistics Variable: spot. ol. Anderson-Darling Normality Test A-Squared: P-Value:
19.9
20.5
21.1
21.7
22.3
22.9
Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum
95% Confidence Interval for Mu
5.208 0.000 20.8766 0.5562 0.309400 1.11824 2.48873 209 19.6000 20.6000 20.8000 21.1000 22.9000
95% Confidence Interval for Mu 20.8007 20.80
20.85
20.90
20.95
20.9524
95% Confidence Interval for Sigma 0.5075
0.6154
95% Confidence Interval for Median 95% Confidence Interval for Median
20.8000
20.9000
Obr. 3-6 (MINITAB) Základní statistika pro spotřeba oleje (g/100g)
Descriptive Statistics Variable: disperg. Anderson-Darling Normality Test A-Squared: P-Value:
11
12
13
14
15
16
17
95% Confidence Interval for Mu
5.501 0.000
Mean StDev Variance Skewness Kurtosis N
13.5694 1.2846 1.65021 -4.3E-03 -6.2E-01 209
Minimum 1st Quartile Median 3rd Quartile Maximum
11.0000 13.0000 14.0000 15.0000 17.0000
95% Confidence Interval for Mu 13.3942 13.0
13.5
14.0
13.7446
95% Confidence Interval for Sigma 1.1721
1.4211
95% Confidence Interval for Median 95% Confidence Interval for Median
13.0000
Obr. 3-7 (MINITAB) Základní statistika pro dispergaci (RD 60 µm)
5
14.0000
Descriptive Statistics Variable: castice Anderson-Darling Normality Test A-Squared: P-Value:
89.5
90.5
91.5
92.5
93.5
94.5
95.5
95% Confidence Interval for Mu
0.401 0.358
Mean StDev Variance Skewness Kurtosis N
92.6632 1.2770 1.63061 0.115155 -4.1E-01 209
Minimum 1st Quartile Median 3rd Quartile Maximum
89.6000 91.8000 92.6000 93.6000 96.0000
95% Confidence Interval for Mu 92.4890 92.25
92.35
92.45
92.55
92.65
92.75
92.85
92.95
92.8373
95% Confidence Interval for Sigma 1.1651
1.4127
95% Confidence Interval for Median 95% Confidence Interval for Median
92.3000
92.9000
Obr. 3-8 (MINITAB) Základní statistika pro velkost částic pod 1 µm(%)
Descriptive Statistics Variable: L* Anderson-Darling Normality Test A-Squared: P-Value:
49.05
49.20
49.35
49.50
49.65
49.80
Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum
95% Confidence Interval for Mu
0.433 0.301 49.3921 0.1301 1.69E-02 -1.5E-01 0.600404 209 49.0000 49.3100 49.4000 49.4700 49.8400
95% Confidence Interval for Mu 49.3743 49.365
49.375
49.385
49.395
49.405
49.415
49.425
49.4098
95% Confidence Interval for Sigma 0.1187
0.1439
95% Confidence Interval for Median 95% Confidence Interval for Median
49.3700
Obr. 3-9 (MINITAB) Základní statistika pro L* - jasová složka
6
49.4200
Descriptive Statistics Variable: DEcmc Anderson-Darling Normality Test A-Squared: P-Value:
0.2
0.8
1.4
2.0
2.6
Mean StDev Variance Skewness Kurtosis N
3.2
Minimum 1st Quartile Median 3rd Quartile Maximum
95% Confidence Interval for Mu
34.923 0.000 0.448373 0.558639 0.312077 4.08827 17.1909 209 0.02000 0.22000 0.32000 0.46000 3.70000
95% Confidence Interval for Mu 0.37219 0.3
0.4
0.5
0.52455
95% Confidence Interval for Sigma 0.50973
0.61802
95% Confidence Interval for Median 95% Confidence Interval for Median
0.28852
0.35000
Obr. 3-10 (MINITAB) Základní statistika pro DEcmc – celková barevná diference
Descriptive Statistics Variable: C* Anderson-Darling Normality Test A-Squared: P-Value:
9.5
11.0
12.5
14.0
15.5
17.0
18.5
95% Confidence Interval for Mu
42.886 0.000
Mean StDev Variance Skewness Kurtosis N
17.5696 1.6815 2.82736 -4.22461 17.1907 209
Minimum 1st Quartile Median 3rd Quartile Maximum
9.1500 17.5900 17.8600 18.1600 18.8500
95% Confidence Interval for Mu 17.3403 17.3
17.4
17.5
17.6
17.7
17.8
17.9
18.0
17.7989
95% Confidence Interval for Sigma 1.5342
1.8602
95% Confidence Interval for Median 95% Confidence Interval for Median
17.8200
Obr. 3-11 (MINITAB) Základní statistika pro C* – sytost pigmentu
7
17.9500
Z diagnostik pro DEcmc, C* a Spotř.oleje je možné vypozorovat, že pigment, který byl vyráběn termickým způsobem na kalcinační lince není zcela stejných vlastností. 4
PCA – Analýza hlavních komponent
4.1 Určení počtu hlavních komponent Pomocí grafických znázornění lze určit ty proměnné, které je třeba vyšetřovat. Tyto grafy také ukazují tzv. redundantní (nadbytečné) proměnné,které by bylo možno ze stanovovaných parametrů vypustit, a tím by mohlo pravděpodobně dojít i k zlevnění analytické části. Je možné i detekovat různé shluky objektů navzájem si podobných vlastností.
8
Principal Components Eigenvalue (Scree) Plot
Principal Components Eigenvalue (Scree) Plot
4 3
eigenvalues
eigenvalues
3
2
2
1
1
0
0 2
4
6
8
10
1
2
3
components
4
5
6
7
8
components
Obr. 4-1 (SVD) Indexový graf počtu (11-ti) hlavních komponent
Obr. 4-2 (SVD) Indexový graf počtu (8-mi) hlavních komponent Principal Components Eigenvalue (Scree) Plot
Principal Components Eigenvalue (Scree) Plot 3
2
eigenvalues
eigenvalues
2
1
1
0
0 1
2
3
4
5
1
6
components
2
3
4
5
components
Obr. 4-3 (SVD) Indexový graf počtu (6-ti) hlavních komponent
Obr. 4-4 (SVD) Indexový graf počtu (5-ti) hlavních komponent
9
Principal Components Loading Plot 0.3
vlhkost
castice
0.6 vodivost
DEcmc
0.5 pH
0.1 0.0 spot. ol disperg.
-0.1 -0.2
C* L* pH
zbytek A castice
-0.3
second component
second component
0.2
Principal Components Loading Plot
0.4
spot. ol 0.2 C* 0.1 0.0
-0.4
disperg.
0.3
DEcmc
-0.1
vodivost vod. sol
vlhkost
-0.5
-0.2 -0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
-0.5
0.0
first component
0.5
first component
Obr. 4-5 (SVD) Graf komponentních vah (11–ti) proměnných
Obr. 4-6 (SVD) Graf komponentních vah (8–mi) proměnných
Principal Components Loading Plot
Principal Components Loading Plot 0.2
vlhkost 0.2
vlhkost C*
C*
spot. ol vodivost
-0.3
second component
second component
DEcmc
DEcmc
-0.3 vodivost
-0.8
castice
-0.8
-0.5
0.0
castice
0.5
-0.5
Obr. 4-7 (SVD) Graf komponentních vah (6–ti) proměnných
0.0
0.5
first component
first component
Obr. 4-8 (SVD) Graf komponentních vah (5–ti) proměnných
10
Principal Components Biplot
4
3
3
2
2
second component
second component
Principal Components Biplot
1 vlhkost DEcmc spot.disperg. ol L* pH zbytek A castice vodivost vod. sol
0
C*
-1
1 vodivost spot.disperg. ol DEcmc vlhkost
0
castice pH C*
-1
-2
-2 -3
-3
-10
-5
-8
0
-3
Obr. 4-9 (SVD) Dvojný graf (11–ti) proměnných a 209 objektů
Obr. 4-10 (SVD) Dvojný graf (8–mi) proměnných a 209 objektů
Principal Components Biplot
Principal Components Biplot
3
3
2
2
second component
tn e n o p m o c d n o c e s
2
first component
first component
1 vlhkost DEcmc spot. ol vodivost
0
C* castice
-1
1 vlhkost DEcmc vodivost
C*
0
castice -1
-2 -2
-8
-3
2
-2
first component
Obr. 4-11 (SVD) Dvojný graf (6–ti) proměnných a 209 objektů
3
8
first component
Obr. 4-12 (SVD) Dvojný graf (5–ti) proměnných a 209 objektů
11
4.1.1
Porovnání metod SVD a NIPALS
Principal Components Biplot 3
second component
2
1 vlhkost DEcmc vodivost
C*
0
castice -1
-2
-2
3
8
f irst component
Obr. 4-13 (SVD) Dvojný graf (5–ti) proměnných a 209 objektů
NIPALS Biplot
second component
2
1
castice vodivost DEcmc vlhkost
0
C*
-1
-2
-3 -8
-3
2
first component
Obr. 4-14 (NIPALS) Dvojný graf (5–ti) proměnných a 209 objektů
12
4.1.2
Tabulka hodnot hlavních komponent (SVD)
V tabulce jsou vhledem ke snížení dimenzionality uvedeny vždy první dvě hlavní komponenty, které lze proti sobě lehce graficky zobrazit. (viz Obr. 4-9 až 4-12). Pro 11 komponent Pro 8 komponent Pro 6 komponent Pro 5 komponent PCA1 PCA2 PCA1 PCA2 PCA1 PCA2 PCA1 PCA2 Proporčně 0.345 0.147 0.414 0.137 0.514 0.175 0.526 0.195 Kumulativně 0.345 0.493 0.414 0.551 0.514 0.689 0.526 0.721 vlhkost -0.340 0.254 -0.378 -0.175 -0.404 0.228 0.456 0.140 vod. sol -0.360 -0.488 vodivost -0.370 -0.471 -0.321 0.516 -0.340 -0.385 0.346 -0.431 pH 0.154 -0.289 0.202 0.436 zbytek A 0.053 -0.315 spot. Ol. -0.372 -0.075 -0.404 0.219 -0.425 -0.315 disperg -0.214 -0.114 -0.228 0.294 castice 0.122 -0.345 0.145 0.600 0.153 -0.833 -0.207 -0.882 L* 0.165 -0.276 DEcmc -0.443 0.166 -0.500 -0.048 -0.523 0.013 0.571 -0.109 C* 0.412 -0.227 0.476 0.118 0.493 -0.078 -0.551 0.063 4.2 Závěr Pro PCA (metodu hlavních komponent) byly použita metoda SVD , která počítá všechny komponenty dohromady, zatím co NIPALS počítá v daném čase vždy jednu komponentu. Vzhledem k této skutečnosti by bylo pro tohle hodnocení pravděpodobně vhodnější použít metodu NIPALS, ale metoda SVD poskytuje zcela shodné výsledky jako metoda NIPALS, ale s rozdílnými znaménky u jednotlivých hodnot příslušných komponent. Z porovnání, které je uvedeno v tabulce hodnot (4.1.2) vyplívá, že se postupnou redukcí proměnný podařilo pomocí dvou latentních proměnných dosáhnout 72,1 % vysvětlené variability v datech. Latentní proměnné pak mají tvar: y1 = 0.456*vlhkost + 0.346*vodivost - 0.207*obsah částic pod 1µ + 0.571*DEcmc – 0.551*sytost* y2 = 0.140*vlhkost – 0.431*vodivost – 0.882* obsah částic pod 1µ - 0.109*DEcmc + 0.063*sytost Z dvojných grafů (Obr. 4-9 až 4-14) je možné objekty rozdělit na dvě od sebe velmi dobře odlišné skupiny. Největší skupinu objektů je možno rozdělit ještě na tři skupiny.Pokud bychom se snažily o fyzikální vysvětlení latentních proměnných, tak y1 vzhledem k velikosti koeficientů u DEcmc a C* souvisí s barevnými vlastnostmi a y2 pak s tvarem a velikostí částic pigmentu.
13
5 FA – Faktorová analýza Vzhledem k tomu, že mohu latentním proměnným y1 a y2, které jsem získal metodou PCA přiřadit fyzikální smysl, nejedná se už o latentní proměnné, ale o faktory. Při faktorové analýze byla použita metoda EQUIMAX, která spojuje kritéria metod VARIMAX a QUARTIMAX, což znamená, že při rotaci je maximalizován rozptyl čtverců faktorových vah a zároveň je maximalizován součet čtvrtých mocnin faktorových zátěží. Výpočet byl proveden pro tři faktory. 5.1
Tabulka Komunalit pro zvolený počet faktorů Počet faktorů 1 2 0.546 0.565 0.314 0.496 0.113 0.874 0.858 0.87 0.799 0.803 Vysvětlený rozptyl (%) 52.6 72.1
vlhkost vodivost částice DEcmc C* -
3 0.595 0.996 0.986 0.897 0.867 86.8
Factor Analysis Score Plot Rotated Factors
3
3
2
2
second factor
second factor
Unrotated Factors
1 0 -1
1 0 -1 -2
-2 -1
0
1
2
3
4
5
-1
first factor
0
1
2
first factor
Obr. 5-1 – Rozptylový diagram komponentního skóre před a po rotaci
14
3
4
5
5.2 Závěr Z tohoto souboru dat se nepodařilo separovat faktorově čisté proměnné. Pro popis hodnocených dat je možno použít dvou (72,1% vysvětlené variability) nebo tří (86,8 vysvětlené variability) faktorů. Po rotaci EQUIMAX byly získány pro dva faktory následující komponentní váhy: 5.2.1
Tabulka komponentních vah pro dva faktory Faktor 1 Faktor 2 vlhkost 0.281 0.141 vodivost 0.213 -0.436 částice -0.128 -0.893 Decmc 0.352 -0.111 C* -0.34 0.063
5.2.2
Tabulka komponentních vah pro tři faktory Faktor 1 Faktor 2 Faktor 3 vlhkost 0.355 -0.132 0.108 vodivost -0.264 1.046 0.012 částice 0.145 -0.017 -1 DEcmc 0.421 0.019 -0.096 C* -0.467 0.103 0.102
6 Analýza shluků Analýza shluků patří do metod, které se zabývají podobností objektů, respektive proměnných. Postupy jsou založeny na postupném spojování objektů nebo proměnných do tzv. dendorogramů. Pro měření vzdálenosti mezi objekty byly použita euklidovská metrika, která je přirozeným zobecněním běžného pojmu vzdálenosti. Jako shlukovací procedury (metody) byly použity: metoda průměrová (Average), mediánová (Median), těžiště (Centroid), nejbližšího souseda (Single), nejvzdálenějšího souseda (Complete), Wardova metoda (Ward).
15
Similarity
Similarity
55.96
68.02
70.64
78.68
85.32
89.34
100.00
100.00
Observations
Observations
Obr. 6-1 Dendrogram pro 209 objektů, metoda - Average
Obr. 6-2 Dendrogram pro 209 objektů, metoda - Centroid
Similarity
Similarity
0.00
87.47
33.33
91.65
66.67
95.82
100.00
100.00
Observations
Obr. 6-3 Dendrogram pro 209 objektů, metoda -Complete
Observations
Obr. 6-4 Dendrogram pro 209 objektů, metoda - Single
16
Similarity
Similarity
-1277.14
45.75
-818.09
63.84
-359.05
81.92
100.00
100.00
Observations
Observations
Obr. 6-5 Dendrogram pro 209 objektů, metoda – Ward
Obr. 6-6 Dendrogram pro 209 objektů, metoda - Median
Dendrogram proměnných
Dendrogram proměnných Similarity
Similarity 41.21
-50.51
60.81
-0.34
80.40
49.83
100.00
100.00 yte zb
kA c
e ti c as
pH
L* di
s
. rg pe
vo
s d.
ol vo
os div
t vlh
s ko
t s
t po
.o
l D
m Ec
c
C*
pH
Variables
Obr. 6-7 Dendrogram proměnných, metoda – Centroid
er sp di
g.
kA yte zb
st ca
ic e
L*
s d. vo
ol
os div vo
t vlh
s ko
t
.o ot sp
l
Variables
Obr. 6-8 Dendrogram proměnných, metoda - Ward
17
D
m Ec
c
C*
6.1 Tabulka rozhodčích kritérií Metoda Ward CC 0,7049 Delta(0.5) 0,9398 Delta(1.0) 0,9411 Metoda Centroid CC 0,8439 Delta(0.5) 0,9049 Delta(1.0) 0,8007 6.2
Singl 0,7845 1,0183 1,1397 Median 0,7699 0,5441 0,6202
Complet 0,7037 0,4388 0,4611 Average 0,8342 0,1603 0,1960
Závěr
Z dendrogramů objektů (obr. 6-1 až 6-6) je patrné, že soubor hodnocených dat, lze rozdělit na celkem tři skupiny výrobků, které jsou od sebe dobře rozlišitelné. Lze z toho usuzovat, že pigment, který byl vyroben na termické lince v 1.pololetí 2003 je možno rozdělit do tří skupin, ve kterých je vyprodukovaný pigment podobných vlastností. Z hodnot kofenetických korelačních koeficientů „CC“, a delty vyplívá, že nejlepší shlukovací metodou je metoda průměrová (Average) a těžiště (Centroid). Vhledem k zobrazení dendrogramů proměnných (obr. 6-7, 6-8) lze ze souboru prováděných analýz vynechat měrnou vodivost nebo obsah vodosolí, které jsou spolu ve vzájemné silné korelaci a tudíž oba tyto parametry nesou stejnou informaci o výrobku. Mezi velmi podobné proměnné lze také zařadit hodnotu DEcmc a C* (sytosti), ale u těchto parametrů se podobnost dala očekávat, protože tyto parametry vyjadřují polohu „barvy“ v barevnám prostoru.
18