ˇ ıdk´e hlavn´ı bilance R´ K. Hron1
C. Mert2
P. Filzmoser2
1 Katedra matematick´ e anal´ yzy a aplikac´ı matematiky Pˇr´ırodovˇ edeck´ a fakulta, Univerzita Palack´ eho, Olomouc 2 Department
of Statistics and Probability Theory Vienna University of Technology, Austria
Robust 2014, 19. - 24. ledna 2014, Jetˇrichovice
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Obsah 1
Kompoziˇcn´ı data
2
Motivace
3
Metody pro redukci dimenze
4
ˇ ıdk´e hlavn´ı bilance R´
5
Pˇr´ıklady
6
Shrnut´ı
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Definice Data popisuj´ıc´ı koncentrace sloˇzek jsou kompoziˇ cn´ı data: D-sloˇzkov´a kompozice x = (x1 , . . . , xD )t je prvkem simplexu jako v´ybˇerov´eho prostoru (reprezentac´ı) kompoziˇcn´ıch dat, S D = {(x1 , . . . , xD )t | xi > 0,
D X
xi = κ},
i=1
kde κ je vhodnˇe zvolen´a konstanta, napˇr. 1 nebo 100. Definice: Kompoziˇ cn´ı data jsou re´aln´e vektory x = (x1 , . . . , xD )t s D kladn´ymi sloˇzkami popisuj´ıc´ımi kvantitativnˇe relativn´ı pˇr´ıspˇevky ˇc´ast´ı na celku (Aitchison, 1986). Kompoziˇcn´ı data se ˇr´ıd´ı Aitchisonovou geometri´ı na simplexu (a nikoli standardn´ı euklidovskou geometri´ı). K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Logratio souˇradnice (transformace) ze simplexu do euklidovsk´eho re´aln´eho prostoru: alr (aditivn´ı logratio) souˇradnice: nejsou ortonorm´aln´ı, dˇel´ıme j-tou sloˇzkou j ∈ {1, . . . , D}: xj−1 xj+1 x1 xD t (j) x = ln , . . . , ln , ln , . . . , ln xj xj xj xj clr (centrovan´e logratio) souˇradnice: singul´arn´ı varianˇcn´ı matice, izometrie s Aitchisonovou geom.: t x1 xD , yt 1 = 0 y = ln qQ , . . . , ln qQ D D D D i=1 xi i=1 xi ilr (izometrick´e logratio) souˇradnice: volbou ortonorm´aln´ı b´aze v clr-prostoru =⇒ komplexn´ı interpretace (absence kanonick´e b´aze na simplexu) K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
C´ıle
Objekty: vysoce-dimenzion´aln´ı kompoziˇcn´ı data Oblasti: chemometrie, proteomika, genomika, metabolomika C´ıl: redukce dimenze maximalizace vysvˇetlen´e variability zjednoduˇsen´ı interpretace nov´ych souˇradnic (smˇer˚ u)
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Probl´emy
Souˇcasn´e metody ˇcasto selh´avaj´ı pˇri ˇreˇsen´ı n´asleduj´ıc´ıch probl´em˚ u: nov´e smˇery jsou obt´ıˇznˇe interpretovateln´e velk´a ztr´ata informace (vysvˇetlen´e variability) metody nejsou pouˇziteln´e pro vysoce-dimenzion´aln´ı kompoziˇcn´ı data
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
NMR metabolomick´a spektra
NMR metabolomick´a spektra vzork˚ u moˇci od 18 myˇs´ı kaˇzd´e spektrum m´a 189 spektr´aln´ıch p´ık˚ u data jsou mˇeˇrena v ppm (CoDa) detailn´ı popis dat v Nyamundanda a kol. (2010)
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
0
20
40
Intensity
60
80
100
NMR metabolomick´a spectra
0
50
100
150
Number of spectral bin
Obr´azek: P˚ uvodn´ı data (vzorky moˇci) se 189 spektr´aln´ımi p´ıky. K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Methods Metoda hlavn´ıch komponent (PCA) redukce dat pˇri maximalizaci vysvˇetlen´e variability nov´e smˇery jsou line´arn´ı kombinace vˇsech promˇenn´ych: obt´ıˇzn´a interpretovatelnost
Bilance charakterizuj´ı rovnov´ahu mezi disjunktn´ımi skupinami kompoziˇcn´ıch sloˇzek pˇredstavuj´ı souˇradnice vzhledem k ortonorm´aln´ı b´azi na simplexu bez ohledu na maximalizaci vysvˇetlen´e variability bilance jsou konstruov´any uˇzit´ım postupn´eho bin´arn´ıho dˇelen´ı
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Bilance Uˇzit´ı postupn´ eho bin´ arn´ıho dˇ elen´ı pro vytvoˇren´ı disjunktn´ıch skupin kompoziˇcn´ıch sloˇzek (Egozcue a Pawlowsky-Glahn, 2005). Napˇr´ıklad pro D = 5 1 2 3 4
x1 +1 +1 0 0
x2 +1 −1 0 0
x3 −1 0 +1 0
x4 −1 0 −1 +1
x5 −1 0 −1 −1
ˇ adek 1: G1 = {x1 , x2 } a G2 = {x3 , x4 , x5 } R´ ˇ R´adek 2: rozdˇelit G1 na {x1 } a {x2 } atd. Znam´enka v D − 1 ˇr´adc´ıch jsou pouˇzita ke kontrukci ilr b´aze V . K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Obecnˇe, ortonorm´ aln´ı b´ aze na simplexu m˚ uˇze b´yt definov´ana vektory (sloupce D × (D − 1) matice V ) t
vi = a+ , . . . , a+ , a− , . . . , a− , 0, . . . , 0 | {z } | {z } | {z } r sloˇ zek
s sloˇ zek
pro i = 1, . . . , D − 1, kde √ s a+ = p r (r + s)
and
D−r −s sloˇ zek
√ − r a− = p s(r + s)
r je poˇcet kladn´ ych a s poˇcet z´ aporn´ ych prvk˚ u v tabulce postupn´eho bin´arn´ıho dˇelen´ı (Egozcue a Pawlowsky-Glahn, 2005). K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Hlavn´ı bilance (PB) pˇredstavuj´ı co nejlepˇs´ı aproximaci hlavn´ıch komponent pokus splnit oba poˇzadavky: maximalizace vysvˇetlen´e variability a jednoduch´a interpretovatelnost obt´ıˇznˇe pouˇziteln´e pro vysoce-dimenzion´aln´ı kompoziˇcn´ı data Algoritmy pro konstrukci hlavn´ıch bilanc´ı: u ´hlov´e pˇribl´ıˇzen´ı k hlavn´ım komponent´am (AV) hierarchick´e shlukov´an´ı sloˇzek (HC) hierarchick´e bilance s maxim´aln´ı vysvˇetlenou variabilitou (MV) podrobn´y popis viz Pawlowsky-Glahn a kol. (2011)
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
ˇ ıdk´e hlavn´ı bilance (SPB) R´
ˇr´ıdk´e hlavn´ı bilance pˇredstavuj´ıc´ı kompromis mezi maximalizac´ı vysvˇetlen´e variability a poˇctem zahrnut´ych kompoziˇcn´ıch sloˇzek obsahuj´ı informaci pouze o nˇekolika m´alo kompoziˇcn´ıch sloˇzk´ach s nulov´ym pˇr´ıspˇevkem (vˇetˇsiny) ostatn´ıch sloˇzek obdoba c´ıl˚ u ˇr´ıdk´e PCA uˇzijeme algoritmus z Witten a kol. (2012) zaloˇzen´y na ˇr´ıdk´em singul´arn´ım rozkladu (SVD)
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Algoritmus pro konstrukci ˇr´ıdk´ych hlavn´ıch bilanc´ı (SPB)
aplikujeme ˇr´ıdkou PCA na clr-transformovanou datovou matici zvol´ıme k-komponent matice z´atˇeˇz´ı V m´a rozmˇery D × k s mnoha nulami V = [vij ] vyˇzaduje dalˇs´ı modifikaci dosaˇzen´ı nepˇrekr´yvaj´ıc´ıho se efektu nenulov´ych prvk˚ u matice - garance ortogonality hlavn´ıch smˇer˚ u - zjednoduˇsen´ı intepretace
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Algoritmus pro konstrukci ˇr´ıdk´ych hlavn´ıch bilanc´ı (SPB)
najdeme nejmenˇs´ı j pro kter´e vij 6= 0, a poloˇz´ıme vˇsechny prvky vil , l > j rovny nule (v pˇr´ıpadˇe, ˇze jsou nenulov´e) vl∗ : d ≤ D nenulov´ych prvk˚ u v kaˇzd´em sloupci modifikovan´e matice V projektujeme vl∗ na nadrovinou clr transformovan´ych dat uˇzijeme modifikovanou matici ke konstrukci bilanc´ı
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Algoritmus pro konstrukci ˇr´ıdk´ych hlavn´ıch bilanc´ı (SPB) 1 2 3 4 5 6 7 8 9 10
1 -0.62 0.00 0.00 0.00 -0.26 0.00 0.00 0.22 0.68 0.00
2 -0.11 0.42 0.00 0.00 0.00 0.81 0.00 0.00 -0.13 0.00
3 0.00 0.72 0.00 0.00 0.00 0.00 -0.48 -0.45 0.00 0.14 1 2 3 4 5 6 7 8 9 10
4 0.25 0.00 -0.36 0.85 0.00 -0.09 0.00 0.06 0.20 0.20 1 -0.62 0.00 0.00 0.00 -0.26 0.00 0.00 0.21 0.68 0.00
5 0.12 -0.06 -0.01 0.05 0.18 -0.03 -0.73 0.62 -0.18 0.04 2 0.00 -0.19 0.00 0.00 0.00 0.19 0.00 0.00 0.00 0.00
K. Hron
1 2 3 4 5 6 7 8 9 10 3 0.00 0.00 0.00 0.00 0.00 0.00 -0.31 0.00 0.00 0.31
1 -0.62 0.00 0.00 0.00 -0.26 0.00 0.00 0.22 0.68 0.00 4 0.00 0.00 -0.60 0.60 0.00 0.00 0.00 0.00 0.00 0.00
2 0.00 0.42 0.00 0.00 0.00 0.81 0.00 0.00 0.00 0.00 5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
ˇ ıdk´ R´ e hlavn´ı bilance
3 0.00 0.00 0.00 0.00 0.00 0.00 -0.48 0.00 0.00 0.14
4 0.00 0.00 -0.36 0.85 0.00 0.00 0.00 0.00 0.00 0.00
5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
20
HC SPB
15
Time in seconds
60
0
0
20
5
40
Time in seconds
80
AV HC MV SPB
10
100
Porovn´an´ı ˇcasov´e n´aroˇcnosti
10
20
30
40
50
0
Number of parts
500
1000
1500
2000
Number of parts
Obr´azek:
Porovn´ an´ı doby potˇrebn´ e k v´ ypoˇ ctu prvn´ı bilance pomoc´ı algoritm˚ u AV (´ uhlov´ e pˇribl´ıˇzen´ı k hlavn´ım komponent´ am), HC (hierarchick´ e shlukov´ an´ı sloˇzek), MV (hierarchick´ e bilance s maxim´ aln´ı vysvˇ etlenou variabilitou) a SPB (ˇr´ıdk´ e hlavn´ı bilance).
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
2.0
● ● ● ●
1.5
● ●
1.0
● ● ● ● ● ● ●
● ● ●
● ● ● ● ●
● ●
●
D=10
Obr´azek:
●
●
●
0.5
Cumulative variance SPB/HC
V´ysledky simulac´ı
D=50
D=100
D=500
D=1000 D=2000
Kumulativn´ı vysvˇ etlen´ a variabilita pro k = 2 komponent. Zobrazen´ y je pod´ıl mezi SPB a HC.
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
V´ysledky pro re´aln´y pˇr´ıklad
Tabulka: Kumulativn´ı vysvˇetlen´a variabilita pro CoDa-PCA, hierarchick´e shlukov´an´ı sloˇzek (HC) a ˇr´ıdk´e hlavn´ı bilance (SPB) pro datov´ych soubor moˇcov´ych vzork˚ u.
metoda CoDa-PCA HC SPB
Kumulativn´ı vysvˇetlen´a variabilita [%] jedna komponenta dvˇe komponenty 28.1 38.5 8.9 16.7 13.9 15.6
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
V´ysledky pro re´aln´y pˇr´ıklad
0
20
Intensity 40 60
80
HC − first balance
0
50
100 Number of spectral bin
150
0
20
Intensity 40 60
80
HC − second balance
0
50
100 Number of spectral bin
150
Obr´azek:
Prvn´ı dvˇ e bilance z HC aplikovan´ e na re´ aln´ a data (vzorky moˇ c´ı). Zobrazena jsou p˚ uvodn´ı data (ˇ cern´ a), a d´ ale pozice kladn´ ych (zelen´ e vertik´ aly) a z´ aporn´ ych (modr´ e vertik´ aly) znam´ enek bilanc´ı.
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
V´ysledky pro re´aln´y pˇr´ıklad
0
Intensity 20 40 60 80
SPB − first balance
0
50
100 Number of spectral bin
150
0
Intensity 20 40 60 80
SPB − second balance
0
50
100 Number of spectral bin
150
Obr´azek:
Prvn´ı dvˇ e ˇr´ıdk´ e hlavn´ı bilance aplikovan´ e na re´ aln´ a data (vzorky moˇ c´ı). Zobrazena jsou p˚ uvodn´ı data (ˇ cern´ a), a d´ ale pozice kladn´ ych (zelen´ e vertik´ aly) a z´ aporn´ ych (modr´ e vertik´ aly) znam´ enek bilanc´ı.
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Z´avˇer
ˇ ıdk´e hlavn´ı bilance jsou aplikovateln´e pro vysoceR´ dimenzion´aln´ı kompoziˇcn´ı data s moˇznost´ı rychl´eho v´ypoˇctu Umoˇzn ˇuj´ı dos´ahnout vysok´e u ´rovnˇe vysvˇetlen´e variability (v´ıce neˇz hlavn´ı bilance) V´ysledky jsou jednoduˇse interpretovateln´e
K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance
Kompoziˇ cn´ı data Motivace Metody pro redukci dimenze ˇ ıdk´ R´ e hlavn´ı bilance Pˇr´ıklady Shrnut´ı
Literatura Aitchison, J., 1986. The Statistical Analysis of Compositional Data. Chapman & Hall, London. Egozcue, J., Pawlowsky-Glahn, V., 2005. Groups of parts and their balances in compositional data analysis. Mathematical Geology 37, 795–820. Mert, C., Filzmoser, P., Hron, K., 2014. Sparse principal balances. Statistical Modelling, pˇrijato k tisku. Nyamundanda, G., Brennan, L., Gormley, I., 2010. Probabilistic principal component analysis for metabolomic data. BMC Bioinformatics 11, 1–11. Pawlowsky-Glahn, V., Egozcue, J., Tolosana-Delgado, R., 2011. Principal balances, in: Egozcue, J., Tolosana-Delgado, R., Ortego, M. (Eds.), Proceedings of the 4th International Workshop on Compositional Data Analysis, Girona, Spain. pp. 1–10. Witten, D., Tibshirani, R., Hastie, T., 2009. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis. Biostatistics 10, 515–534. K. Hron
ˇ ıdk´ R´ e hlavn´ı bilance