PCA BIPLOT – ŠKÁLOVÁNÍ OS (1) 1 (sites) o zaměření na odlišnosti mezi lokalitami
1.0
• zachovány euklidovské vzdálenosti mezi vzorky • úhly mezi šipkami neodpovídají kovariancím (korelacím) proměnných • variance skóre lokalit na osách odpovídá eigenvalues os (množství zachycené variability) pH
-0.5
0.0
PC2
0.5
redox
- „focus on distances among cases“ v CANOCO - scale = "sites" (nebo 1) v R
-1.5
-1.0
-0.5 PC1
0.0
0.5
1
PCA BIPLOT – ŠKÁLOVÁNÍ OS (2) 2 (species) o zaměření na vztahy mezi proměnnými
1.0
• úhly mezi šipkami odpovídají kovariancím (korelacím) mezi proměnnými • vzdálenosti mezi vzorky neodpovídají euklidovským vzdálenostem • variance skóre lokalit na osách rovna 1
0.0
0.5
- „focus on correlation among response variables“ v CANOCO - scale = „species" (nebo 2) v R
-1.5
-1.0
-0.5
PC2
pH
redox
-2
-1
0 PC1
1
2
KORESPONDENČNÍ ANALÝZA CORRESPONDENCE ANALYSIS (CA) o založena na konceptu niky (Hutchinson 1957) • druhy vykazují unimodální odpověď na ekologické gradienty, optima druhů stejně jako jejich niky se vzájemně liší • CA hledá takové gradienty, na nichž se niky druhů maximálně separují
o zachovává Χ2 (chi kvadrát) vzdálenosti • • • •
odráží rozdíly v relativním zasoupení druhů vážené celkovou početností nezohledňuje dvojité absence (double zeros) možné použít na přímá data početností nesmí být negativní hodnoty V ekologii CA zavedena Markem Hillem v roce 1973 pod názvem reciprocal averaging.
3
CA – RECIPROCAL AVERAGING ALGORITMUS o stejný princip jako indikační hodnoty • Ellenberg 1948, Zelinka & Marvan 1961, Sládeček 1986 • indikační hodnoty – vážené průměry rychlost proudu [ms-1]
Microtendipes chloris
Tvetenia calvescens
loc1
0,2
20
0
loc2
0,4
9
1
loc3
0,6
1
5
loc4
0,8
0
24
loc5
1,0
0
10
IVloc1
0.27333 * 20 0.815 * 0 0.27333
IVloc3
IVMicr
0.2 * 20 0.4 * 9 0.6 *1 0.8 * 0 1.0 * 0 0.27333
IVTvet
0.2 * 0 0.4 *1 0.6 * 5 0.8 * 24 1.0 *10 0.815
20 0
0.27333 *1 0.815 * 5 0.725 1 5
20 9 1 0 0
0 1 5 24 10
4
CA – RECIPROCAL AVERAGING ALGORITMUS 1. 2.
3.
4. 5.
začni s arbitrárním (náhodným) skóre vzorků (xi) vypočti nové skóre pro jednotlivé druhy (species score, yi) jako průměr skóre vzorků xi vážený abundancí druhu ve vzorcích vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako průměr skóre druhů yi vážený abundancí druhů ve vzorku standardizuj skóre jednotlivých vzorků (natáhni osu) pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2
Takto získáme skóre pro první osu. Pro další osy stejný postup, jen je přidán krok, který zajistí lineární nezávislost (ortogonalitu) os.
5
CA – RECIPROCAL AVERAGING ALGORITMUS
Lepš & Šmilauer (2003) Multivariate analysis of ...
6
CA – RECIPROCAL AVERAGING ALGORITMUS
Lepš & Šmilauer (2003) Multivariate analysis of ...
7
CA – RECIPROCAL AVERAGING ALGORITMUS
Lepš & Šmilauer (2003) Multivariate analysis of ...
8
CA – RECIPROCAL AVERAGING ALGORITMUS
Lepš & Šmilauer (2003) Multivariate analysis of ...
9
CA – RECIPROCAL AVERAGING ALGORITMUS
Lepš & Šmilauer (2003) Multivariate analysis of ...
10
CA – VIZUALIZACE
11
12
13
CA ŠKÁLOVÁNÍ o stejně jako u PCA 2 častá škálování • 1 – zaměřeno na vzorky, umístění vzorků odpovídá váženému průměru druhů, vzorky zachovává X2 vzdálenosti mezi vzorky • 2 – zaměřeno na druhy, umístění druhů odpovídá váženému průměru vzorků, zachovává X2 vzdálenosti mezi druhy
14
SIMULOVANÁ DATA JEDEN EKOLOGICKÝ GRADIENT
o simulovaný gradient dlouhý 5000 jednotek o 300 druhů s unimodální odpovědí, různými šířkami nik o 500 vzorků náhodně rozmístěných podél gradientu
15
SIMULOVANÁ DATA ARTEFAKTY
PCA - podkova
CA - oblouk
o vzorky + druhy 16
ARTEFAKTY V ORDINACÍCH PŘÍČINY o důsledek algoritmu (lineární nezávislost všech os) o důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor)
17
ORDINAČNÍ DIAGRAMY
lineární metoda
unimodální metoda 18
ARTEFAKTY V ORDINACÍCH MOŽNOSTI ŘEŠENÍ o odstranění trendu z ordinačních os (detrending) • • •
detrendovaná korespondenční analýza, Detrended Correspondence Analysis (DCA, Hill & Gauch 1980) detrending by segments (nejčastější) detrending by polynomials (pokud v analýze používám kovariáty a je to stále potřeba)
o použití takových ordinačních technik, které umožňují ordinaci vzorků v prostoru pomocí jiných metrik než je Euklidovská distance (PCA) nebo chikvadrát distance (CA) • •
analýza hlavních koordinát, Principal Coordinate Analysis (PCoA) nemetrické mnohorozměrné škálování, Non-metric Multidimensional Scaling (NMDS)
19
DCA – ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 1 – rozdělení první osy na několik segmentů
Krok 2 – vycentrování druhé osy každého segmentu kolem nuly
20
DCA – ODSTRANĚNÍ TRENDU (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 3 – nelineární přeškálování první osy
http://ordination.okstate.edu
Výsledek škálování: • osy naškálované v jednotkách směrodatné odchylky (SD) • celé druhové složení se obmění na 4 SD 21
DCA – ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU DETRENDOVACÍCH SEGMENTŮ 5 segmentů
16 segmentů DCA, # segments = 15
0
DCA2
-1
0 -2
-2
-1
DCA2
1
1
2
2
3
DCA, # segments = 5
-2
-1
0
1
2
3
-2
-1
0
DCA1
2
3
2
3
40 segmentů
26 segmentů
DCA, # segments = 40
-2
0 -2
-1
-1
0
DCA2
1
1
2
2
DCA, # segments = 26
DCA2
1 DCA1
-2
-1
0
1 DCA1
2
3
-2
-1
0
1 DCA1
22
DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT)
o vzorky + druhy
23
VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ? Pokud je délka 1. osy DCA o menší než 3 SD – homogenní data - lineární metoda o větší než 4 SD – heterogenní data - unimodální metoda o v rozmezí 3-4 SD – obě techniky pracují rozumně Platí jen pro detrendování po segmentech a délku první osy!
24
VZÁCNÉ DRUHY o názor, že mají příliš velký vliv na výslednou ordinaci (Legendre and Gallagher 2001) o Greenacre (2013) naopak demonstruje, že příspěvek vzácných druhů k X2 vzdálenostem je malý o downweighting rare species v CANOCO • (nepříliš) sníží početnosti „vzácných“ druhů • vzácnost stanovena pomocí inverzního Simpsonova indexu
o další možné řešení je postupně odstraňovat vzácné druhy a porovnat ordinace, eigenvalues a total inertia
25
PCOA – PRINCIPAL COORDINATE ANALYSIS (analýza hlavních koordinát) o metoda založená na distancích mezi vzorky o vstupní data – matice nepodobností mezi vzorky • pokud zvolím Euklidovskou vzdálenost -> identické s PCA • pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA
o umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi – skóre vzorků na osách) o použití nemetrických distancí může způsobit výskyt os se zápornou hodnotou eigenvalue o synonymum MDS – (metric) MultiDimensional Scaling
26
PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY
Vzdálenosti mezi městy (km) ...
3313
0
Hamburg
...
Brussels
2963
1318
0
...
Calais
3175
1326
204
...
Cherbourg
3339
1294
583
...
Cologne
2762
1498
206
...
Copenhagen
3276
2218
966
...
Geneva
2610
803
677
...
Gibraltar
4485
1172
2256
...
Hamburg
2977
2018
597
...
...
...
...
...
...
Copenhagen
1000
0
Hook of Holland Calais Cologne Brussels Cherbourg Paris 0
Barcelona
Brussels
PCoA2
Athens
Barcelona
Lisbon Lyons Geneva Marseilles Milan
Madrid Gibraltar
Munich Vienna
Barcelona
-1000
Athens
Stockholm
Rome
Athens -2000
-1000
0
1000
2000
PCoA1
27
NMDS - NON-METRIC MULTIDIMENSIONAL SCALING) NEMETRICKÉ VÍCEROZMĚRNÉ ŠKÁLOVÁNÍ
o nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím) o vstupní data – matice nepodobností mezi vzorky o výpočet matice nepodobností – jakýkoliv index nepodobnosti o iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima) o nutno určit počet dimenzí, se kterými bude metoda pracovat o při větším množství dat časově náročná o na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě – tři) dimenzí
28
NMDS – SHEPARDŮV DIAGRAM
Pro stress-value přibližně platí: vzdálenost mezi vzorky v ordinačním diagramu
< 0.05 – vynikající < 0.1 – výborný < 0.2 – dobrý > 0.3 – špatný (Clarke & Warwick 2001)
nepodobnost mezi vzorky
29
POROVNÁNÍ METOD DCA A NMDS DCA
při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt)
NMDS
tradiční algoritmus má tendenci jakákoliv data zobrazit jako kouli
30
100 50 0
Abundance
150
SIMULOVANÝ GRADIENT
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
pH
31
DCA, 20 segments
3
4
SIMULOVANÝ GRADIENT
-1
0
1
100 99 98
DCA2
1
92 403942 45 95 3844 47 93 414353 48 88 94 54 49 51 55 3137 46 52 34 5058 56 9196 59 85 36 3335 61 97 57 28 62 32 86 67 87 27 29 60 25 30 84 65 23 19 10 13 12 16 15 522 20 69 818 17 21 2426 711 2 3 4 69 68 114 64 89 63 66 72 8090 74 81 77 70 73 76 798382 78 7175
-1 -2 -3
0.0 -1.0 -0.5 -1.5
-2
-4
-2
0
2
4
DCA1 2
DCA, 50 segments
CA1
0 -1 -2
82 89 55 5961 48 56 8390 35 41 45 54 57 36 3942 43 453 47 651 2 3 4 114 15 69 711 818 13 12 19 522 10 20 17 16 21 2426 25 30 29 23 228 32 73334 31 38 40 37 49 552 058 6064 44 76 6768 62 69 71 77 65 7273 79 87 96 81 66 78 8084 63 70 75 97 93 74 86 91 94 8588 100 99 95 92 98
-3
DCA2
82 35 89 1 5 23 83 75 29 4 14 21 30 79 78 707176 77 81 90 16 17 20 18 73 74 24 8084 9796 26 63 67 12 15 27 87 93 66 1922 25 72 13 6864 33 3637 911 69 94 9186 85 65 28 10 31 60 100 2 34 8895 98 99 38 41 62 56 59 57 92 54 48 58 50 61 46 39 49 52 3 8 32 40 42 45 43 4751 55 67 44 53
-4
-2
-1
0
1
1
2
2
3
NMDS
NMDS2
CA2
0.5
1.0
51 55 47 48 43 45 54 53 42 49 52 59 46 50 56 58 44 57 61 67 40 39 41 62 60 38 65 68 69 31 64 37 34 66 36 72 35 63 70 33 73 32 71 28 27 25 26 29 75 30 78 76 77 23 74 79 81 22 21 24 19 16 20 10 13 12 17 18 11 5 80 15 83 9 14 7 6 8 1 4 3 2 85 84 90 89 87 82 86 91 97 88 93 94 92 95 96 98 99 100
0
1.5
2
CA
-2
0
2
4
DCA1
-3
-2
-1
0 NMDS1
1
2
3
32