ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV
David Zelený
OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy
Ekologická podobnost
alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction
Design ekologických experimentů
funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh
Indexy druhové bohatosti
hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená
Použití druhových atributů v analýzách
lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie
Klasifikace
indexy podobnosti a vzdálenosti mezi vzorky
Ordinace
typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA
Zpracování dat v ekologii společenstev
David Zelený
manipulativní experimenty vs. přírodní experimenty (pozorování)
Případové studie na použití jednotlivých metod
2
LITERATURA
David Zelený
Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály)
Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat
Zpracování dat v ekologii společenstev
v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO (v roce 2014 vyšlo druhé vydání pro CANOCO 5)
Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení
Pro fajnšmekry
Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates.
Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.
Palmer M. – Ordination methods for ecologists, website
http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf http://ordination.okstate.edu/
Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier.
3
SOFTWARE
PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů
STATISTICA 12 – korelace, ANOVA, regresní analýzy, klasifikace, ordinace
Zpracování dat v ekologii společenstev
CANOCO 5 – ordinační analýzy, kreslení ordinačních diagramů a odpovědních křivek druhů
David Zelený
Kde co sehnat:
CANOCO 5 a PC-ORD 5 – instalace z webových stránek předmětu (http://bit.ly/ZpraDat, záložka Software) STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software
4
DALŠÍ INFORMACE Webové stránky předmětu: www.bit.ly/ZpraDat
Cvičení
probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550)
Domácí úkol
přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení
Zpracování dat v ekologii společenstev
David Zelený
zadání bude sděleno v průběhu semestru
Zkouška
vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky možné dělat zároveň se zkouškou z předmětu Bi7550
5
David Zelený
Zpracování dat v ekologii společenstev
TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY
DATA V EKOLOGII SPOLEČENSTEV
popisují společenstvo, případně i jeho prostředí
ekologická data obsahují více proměnných (multivariate data) a dají se vyjádřit maticí dat (data matrix)
společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů)
složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh
prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů
Zpracování dat v ekologii společenstev
David Zelený
Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007)
7
TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční)
Ordinální (semikvantitativní) např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké
Zpracování dat v ekologii společenstev
např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit
David Zelený
Kvantitativní diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) relativní stupnice (relative-scale) x intervalová stupnice (interval-scale)
0
30
0 8
relativní stupnice (relative scale) – nula znamená, že charakteristika chybí
intervalová stupnice (interval scale) – nula je stanovena arbitrárně
TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ
binární (dvoustavový, presence-absence)
přítomnost nebo absence druhu
Zpracování dat v ekologii společenstev
Příklady
David Zelený
Typ proměnné
mnohostavový neseřazený
geologický substrát
seřazený semikvantitativní (ordinální)
stupnice pokryvností druhy
kvantitativní (měření) diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy 9 Legendre & Legendre 1998
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
10
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
11
Zadávání primárních dat
spreadsheet, metadata
Zpracování dat v ekologii společenstev
David Zelený
http://www.cggveritas.com/data//1/rec_i mgs/5152_Tapes-small.jpg
PRIMÁRNÍ DATA
Uchování a zpřístupnění primárních dat
problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) 12
Programátorka Madeleine Carey s 60.000 děrnými štítky, na kterých byl uložen program využívaný americkou leteckou obranou. Zdroj: Science 2013
PRIMÁRNÍ DATA
David Zelený
Kontrola a čištění dat chyby (errors)
někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data z analýzy odstranit
Zpracování dat v ekologii společenstev
chybějící data (missing data, NA)
možnosti jejich nahrazení (interpolace, model) vyloučení proměnné nebo vzorku který má hodně chybějících hodnot
odlehlé body (outliers)
jejich detekce (outlier analysis) EDA – exploratory data analysis
další úpravy:
sloučení taxonomické nomenklatury někdy i vyloučení vzácných druhů (odstranění šumu v datech)
13
KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science)
David Zelený
Konfirmační analýza dat (confirmatory data analysis, CDA) testuje hypotézy a generuje odhady parametrů
např. regrese, ANOVA, testy signifikance
Zpracování dat v ekologii společenstev
Explorační analýza dat (exploratory data analysis, EDA)
průzkum dat a hledání hypotéz, které stojí za to testovat
slouží také k tzv. „vytěžování“ dat (data mining, data dredging)
grafická EDA slouží k
odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace
John Tukey (1915-2000)
14
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ
– BOX-PLOT & HISTOGRAM
David Zelený
XERSSW
potenciálně chybná hodnota
-6
-4
-2
0
2
4
Zpracování dat v ekologii společenstev
-8
Median 25%-75% Range Outliers
50
Frequency
40
30
20
10
0
-8
-7
-6
-5
-4
-3
-2
-1
0
XERSSW (head index)
1
2
3
4
15
DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT)
David Zelený
Klasický boxplot (střední hodnota = medián)
Definice odlehlých bodů a extrémů (STATISTICA)
Zpracování dat v ekologii společenstev
maximální hodnota Q3 – horní kvartil Q2 - medián Q1 – spodní kvartil
minimální hodnota
16
outlier (hodnota nižší než spodní kvartil + 1.5 x interkvartilový rozsah)
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT
David Zelený
3 2
-1 -2 -3 -4 -5 -6 -7 -3
-2
-1
0
1
2
3
4
5
3.0
6
XERSW 2.5
2.0
1.5
XERSSW
XERSSW
0
Zpracování dat v ekologii společenstev
příliš vlivný vzorek
1
1.0
0.5
0.0
-0.5
17
-1.0 -3
-2
-1
0
1
XERSW
2
3
4
5
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace dat
Zpracování dat v ekologii společenstev
mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce
Proč data transformovat?
protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné
protože (některé) statistické testy vyžadují, aby residuály měly
deset prstů => používání desítkové soustavy
přibližně normální rozložení (normal distribution) homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah)
protože lineární vztahy se interpretují lépe než vztahy nelineární
18
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body
abychom při komentování výsledků používali netransformované hodnoty proměnných
Zpracování dat v ekologii společenstev
Typy transformace
lineární
přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita
nelineární
log transformace, odmocninová transformace atd. může změnit výsledky statistického testování
19
600 500 400 0
100
200
200
300
symetrické (symetrical)
2
4
6
8
10
12
negativně (doleva) zešikmené (left skewed)
0
0
50
50
100
100
150
200
150
0
-8
-3
-2
-1
0
1
2
-6
-4
-2
0
2
3
* ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku
20
Zpracování dat v ekologii společenstev
pozitivně (doprava) zešikmené* (right skewed)
David Zelený
700
ROZDĚLENÍ DAT (DATA DISTRIBUTION)
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení)
Zpracování dat v ekologii společenstev
Y* = log (Y), případně Y* = log (a*Y + c) zdroj: wikipedia.org
na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a >1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická
21
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Odmocninová transformace (square-root transformation)
Zpracování dat v ekologii společenstev
vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = √ Y, případně Y* = √ (Y + c)
konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325)
třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami)
Mocninná transformace (power transformation)
vhodná pro data negativně (doleva) sešikmená (left skewed) Y* = Yp
pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.)
22
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
odmocninová
logaritmická
Legendre & Legendre (1998)
23
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
24 Münch. Med. Wschr. 124, 1982
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace pomocí arcsin (angular transformation)
vhodná pro procentické hodnoty (a obecně podíly)
Zpracování dat v ekologii společenstev
Y* = arcsin Y nebo Y* = arcsin √ Y
použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech
Reciproká transformace (reciprocal transformation)
vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y
25
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Box-Cox transformace (zobecněná mocniná transformace)
Zpracování dat v ekologii společenstev
zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít
Neparametrické metody transformace
např. metoda Omnibus pro ordinální data
26 Legendre & Legendre 1998
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA
Q-Q diagram (Quantile-Quantile plot)
35
Zpracování dat v ekologii společenstev
3
30
2
Oček. normál. hodnoty
Počet pozorování
David Zelený
Histogram s křivkou normálního rozdělení
25
20
15
10
5
1
0
-1
-2
0 -10
0
10
20
30
40
50
60
70
-3 -10
80
Soil depth
vizuální zhodnocení normality dat
Kolmogorovův-Smirnovův test
0
10
20
30
40
50
60
70
Pozorovaný kvantil
porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných
jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení – rankitový diagram)
na stejném principu pracuje Shapiro-Wilk test
27
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA
-1
0
1
2
3
150 100
Frequency
0
0
-2
50
100 200 300 400 500
Frequency
150 100 50 0
Frequency
600
200
200
negativně zešikmené
Zpracování dat v ekologii společenstev
-3
David Zelený
pozitivně zešikmené
normální rozdělení
0
2
4
8
10
12
-8
-6
-4
variable
-2
0
2
variable
-2
-1
0
1
Sample quantiles
2
3
2 1 0 -1
Theoretical quantiles
-3
0 -3
-2
2 1 0 -1 -3
-2
Theoretical quantiles
2 1 0 -1 -2 -3
Theoretical quantiles
3
3
3
variable
6
5
10
15
Sample quantiles
20
-5
-4
-3
-2
-1
Sample quantiles
0
1
28
BIMODÁLNÍ DATA
David Zelený
20 15 0
5
10
Frequency
15 10
Frequency
5 0
6.0
6.5
7.0
7.5
8.0
6.0
6.5
7.0
7.5
8.0
Soil pH
7.0
29
6.0
6.5
6.5
7.0
Soil pH
7.5
7.5
8.0
8.0
Soil pH
Soil pH
Zpracování dat v ekologii společenstev
20
transformace nepomůže, možnost rozdělit na dva podsoubory
6.0
600
650
700
750
800
850
Annual precipitation [mm]
900
950
600
650
700
750
800
850
Annual precipitation [mm]
900
950
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE JEDNOTLIVÝCH PROMĚNNÝCH
David Zelený
Centrování (centring)
výsledná proměnná má průměr roven nule
Zpracování dat v ekologii společenstev
Yi* = Yi – průměr (Y)
Standardizace v úzkém slova smyslu
výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné
„synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y)
Změna rozsahu hodnot (ranging)
výsledná proměnná je v rozsahu [0, 1]
(a) Yi* = Yi / Ymax nebo
(b) Yi* = (Yi – Ymin) / (Ymax – Ymin) 30
a - proměnná na relativní škále (začíná nulou), b - obecná proměnná
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
Standardizace v případě matice společenstva (vzorky x druhy)
standardizace po druzích (standardization by species)
Zpracování dat v ekologii společenstev
dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu – bude velmi odlišný od ostatních)
standardizace po vzorcích (standardization by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů)
31
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
původní matice Druhy druh 1
druh 2
druh 3
vzorek 1
1
3
5
vzorek 2
2
6
10
vzorek 3
10
30
50
standardizace po druzích
standardizace po vzorcích
Druhy
Druhy
Vzorky
druh 1
druh 2
druh 3
Vzorky
druh 1
druh 2
druh 3
vzorek 1
-0.68
-0.68
-0.68
vzorek 1
-1
0
1
vzorek 2
-0.47
-0.47
-0.47
vzorek 2
-1
0
1
vzorek 3
1.15
1.15
1.15
vzorek 3
-1
0
1 32
Zpracování dat v ekologii společenstev
Vzorky
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent)
nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu
STANDARDIZACE
mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent)
nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků
ve své podstatě je to další typ transformace
Zpracování dat v ekologii společenstev
David Zelený
TRANSFORMACE
33
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
Dummy variables
Zpracování dat v ekologii společenstev
metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních)
dummy proměnné hodnoty
KAMB
kambizem
1
litozem
LITO
RANK
FLUVI
0
0
0
0
1
0
0
ranker
0
0
1
0
fluvizem
0
0
0
1
34
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
např. nahrazení kódů u alfa-numerických stupnic, např. BraunBlanquetovy stupnice dominance-abundance
Braun-Blanquetova stupnice: ordinální hodnoty*: střední hodnoty procent**:
Zpracování dat v ekologii společenstev
r + 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 13 38 63 88
*) van der Maarel (2007), Table 1 **) Turboveg for Windows 2
35
SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII) dva možné významy nuly: 1.
hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) hodnota je skutečná nula – například absence druhu
Zpracování dat v ekologii společenstev
2.
David Zelený
data obsahující „pravé nuly“ obsahují dva typy informace: 1. 2.
druh chybí nebo je přítomen? pokud je druh přítomen, jaká je jeho abundance?
v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu
problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) 36
99.0 98.5 98.0 97.5
Zpracování dat v ekologii společenstev
více než 90% hodnot tvoří nuly, u velkých souborů až 99%
David Zelený
(SPARSE MATRIX, ŘÍDKÁ MATICE)
97.0
EKOLOGII SPOLEČENSTEV
Zastoupení nul v matici [%]
MATICE „VZORKY × DRUHY“ V
100
2000
4000
6000
8000
vzorky
Počet vegetačních snímků v matici
37
druhy
David Zelený
(ECOLOGICAL RESEMBLANCE)
Zpracování dat v ekologii společenstev
EKOLOGICKÁ PODOBNOST
EKOLOGICKÁ PODOBNOST
David Zelený
jedinec společenstvo
Zpracování dat v ekologii společenstev
jedinci stejného druhu
39
EKOLOGICKÁ PODOBNOST
David Zelený Zpracování dat v ekologii společenstev
40
EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA
David Zelený
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza
vztahy mezi vzorky Q analýza
41
Zpracování dat v ekologii společenstev
Druhy
PODOBNOSTI
X VZDÁLENOSTI (Q ANALÝZA)
David Zelený
Indexy podobnosti (similarity coefficients) slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace)
nejnižší hodnota 0 – vzorky nesdílejí žádný druh
nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické
Zpracování dat v ekologii společenstev
Vzdálenosti mezi vzorky (distance coefficients)
slouží k umístění vzorků v mnohorozměrném prostoru
nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci)
hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 42
INDEXY PODOBNOSTI (SIMILARITY COEFFICIENTS)
David Zelený
kvalitativní vs kvantitativní kvalitativní – pro presenčně-absenční data
kvantitativní – pro data vyjadřující abundance, počty aj.
Zpracování dat v ekologii společenstev
symetrické vs asymetrické
dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích
symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají
asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii
43
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
David Zelený
Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu
Zpracování dat v ekologii společenstev
nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné)
vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože
se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty)
44
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ
vlhkomilný druh 2
mezický druh 1
mezický druh 2
suchomilný druh 1
suchomilný druh 2
1
1
0
0
0
0
vzorek 2
0
1
1
1
1
0
vzorek 3
0
0
0
0
1
1
vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je nejvlhčí, vzorek 3 nejsušší
vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý
symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3
asymetrické indexy: dvojité nepřítomnosti budou ignorovány
Zpracování dat v ekologii společenstev
vzorek 1
David Zelený
vlhkomilný druh 1
(DOUBLE-ZEROS PROBLEM)
45
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
ve vzorku č. 2
David Zelený
ve vzorku č. 1
druh je
a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednom vzorku d – počet druhů, které chybí v obou vzorcích („double zeros“)
Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu
c
a
b 46
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient
J = a / (a + b + c)
Sørensenův koeficient
S = 2a / (2a + b + c)
přítomnosti druhu v obou vzorcích (frakce [a]) přisuzuje dvojnásobnou váhu na rozdíl od Jaccarda je semimetrický
Simpsonův koeficient
Zpracování dat v ekologii společenstev
David Zelený
Si = a / [a + min (b,c)]
vhodný pro vzorky velmi odlišné počtem druhů
c
a
b
47
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA
David Zelený
zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity)
Zpracování dat v ekologii společenstev
PS = [2 Σ min (xi, yi)] / Σ (xi + yi) xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS
48
VZDÁLENOSTI MEZI VZORKY (DISTANCE COEFFICIENTS)
David Zelený
všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance
Zpracování dat v ekologii společenstev
D = 1 – S, nebo D = √ (1 – S) kde D je vzdálenost (distance) a S je podobnost (similarity)
odmocninový převod se používá například pro Sørensenův koeficient
neplatí obráceně - ne všechny vzdálenosti se dají převést na podobnosti (např. Euklidovská vzdálenost)
49
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES) Euklidovská vzdálenost (Euclidean distance)
David Zelený
ED = √ Σ (xi – yi)2
tětivová vzdálenost (chord distance, relativized Euclidean distance)
Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh)
Hellingerova vzdálenost (Hellinger distance)
rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data symetrická míra vzdálenosti – trpí problémem dvojitých nul
Zpracování dat v ekologii společenstev
možno vypočíst jako Euklidovská vzdálenost aplikovaná na data po aplikaci Hellingerovy standardizace netrpí problémem dvojitých nul
Chi-kvadrát vzdálenost (chi-square distance)
málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA)
50
EUKLIDOVSKÁ VZDÁLENOST PARADOX PŘI POUŽITÍ ABUNDANČNÍCH DAT
David Zelený
Druhy Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
1,732 4,243
Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732
Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243 51
Zpracování dat v ekologii společenstev
při použití abundančních dat se může stát, že dva vzorky, které sdílí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2)
INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je ...
Diceův index
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
druh č. 2
David Zelený
druh č. 1
Dice = 2a / (2a + b + c)
stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948)
Pearsonův korelační koeficient r
není vhodný pro data s velkým počtem nul, ani po transformaci
52
MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY)
diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností)
1 2 3 4 5 6 7 8 9 10
1 0 12.37 11.70 17.92 13.86 10.58 11.92 10.54 13.82 15.59
2 12.37 0 11.14 13.34 16.58 13.96 9.64 13.56 13.64 13.42
3 11.70 11.14 0 14.42 16.16 11.53 10.34 13.71 14.90 13.78
4 17.92 13.34 14.42 0 18.36 15.78 9.64 17.03 14.42 7.48
5 13.86 16.58 16.16 18.36 0 13.71 14.49 9.00 14.04 15.46
6 10.58 13.96 11.53 15.78 13.71 0 11.31 11.87 10.54 12.85
7 11.92 9.64 10.34 9.64 14.49 11.31 0 13.82 12.77 9.43
8 10.54 13.56 13.71 17.03 9.00 11.87 13.82 0 10.95 14.35
matice Euklidovských vzdáleností mezi 10 vzorky
9 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 0 10.39
Zpracování dat v ekologii společenstev
je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem)
David Zelený
10 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35 10.39 0
53
David Zelený
Zpracování dat v ekologii společenstev
ORDINAČNÍ ANALÝZA
KONCEPCE MNOHOROZMĚRNÉHO PROSTORU
David Zelený
Prostor může být definován:
Zpracování dat v ekologii společenstev
druhy (species space)
vzorky (sample space)
55 Zuur et al. (2007)
ORDINACE RŮZNÉ FORMULACE PROBLÉMU najdi skryté gradienty v druhovém složení (ordinační osy)
2)
rozmísti vzorky v zobrazitelném prostoru (ordinační prostor)
David Zelený
1)
Zpracování dat v ekologii společenstev
56 http://ordination.okstate.edu/
NEPŘÍMÁ VS PŘÍMÁ ORDINACE UNCONSTRAINED VS CONSTRAINED ORD.
ordinační osy – směry největší variability dat
popisu dat a generování hypotéz
ordinační osy – variabilita dat vztažená k daným proměnným
testování hypotéz
vzorky
druhová matice a matice proměnných prostředí
proměnné prostředí
druhy
Přímá ordinace
druhová matice
druhová matice
+
vzorky
Zpracování dat v ekologii společenstev
pouze druhová matice
vzorky
Nepřímá ordinace
David Zelený
druhy
matice proměnných prostředí
57
MODELY ODPOVĚDI DRUHŮ NA GRADIENT PROSTŘEDÍ
David Zelený
unimodální
Zpracování dat v ekologii společenstev
abundance
1.5 1.0
abundance
2.0
lineární
0.0
0.2
0.4
0.6
gradient
0.8
gradient 58
LINEÁRNÍ MODEL ODPOVĚDI DRUHU JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU
David Zelený
abundance druhu
abundance druhu
dlouhý ekologický gradient
Zpracování dat v ekologii společenstev
krátký ekologický gradient
gradient prostředí (pH, nadm. výška)
gradient prostředí (pH, nadm. výška)
59 Lepš & Šmilauer (2003) Multivariate analysis of ...
PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na transformovaných primárních datech)
CA, DCA
tb-PCA
distancebased (založené na distanční matici)
(analýza hlavních koordinát)
PCoA unconstrained (nepřímé)
constrained (přímé)
PCA (analýza hlavních komponent)
RDA (redundanční analýza)
(korespondenční a detrendovaná korespondenční analýza)
(analýza hlavních komponent na transformovaných primárních datech)
NMDS (nemetrické mnohorozměrné škálování)
CCA
tb-RDA
db-RDA
(kanonická korespondenční analýza)
(redundanční analýza na transformovaných primárních datech)
(redundanční analýza založená na distanční matici)
62
David Zelený
Zpracování dat v ekologii společenstev
NEPŘÍMÁ ORDINAČNÍ ANALÝZA
PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na transformovaných primárních datech)
CA, DCA
tb-PCA
distancebased (založené na distanční matici)
(analýza hlavních koordinát)
PCoA unconstrained (nepřímé)
constrained (přímé)
PCA (analýza hlavních komponent)
RDA (redundanční analýza)
(korespondenční a detrendovaná korespondenční analýza)
(analýza hlavních komponent na transformovaných primárních datech)
NMDS (nemetrické mnohorozměrné škálování)
CCA
tb-RDA
db-RDA
(kanonická korespondenční analýza)
(redundanční analýza na transformovaných primárních datech)
(redundanční analýza založená na distanční matici)
64
NEPŘÍMÁ ORDINACE PRINCIP
první ordinační osa (ordination axis) a skóre vzorků na této ordinační ose (sample scores)
odhad optima (odpovědi) jednotlivých druhů na této ose (species scores)
druhá a vyšší ordinační osy – musejí být lineárně nezávislé na všech nižších ordinačních osách
Zpracování dat v ekologii společenstev
hledání skryté proměnné (gradientu), který nejlépe reprezentuje chování všech druhů podél tohoto gradientu
David Zelený
65
PCA – PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent)
2
1
samp2
3
4
samp3
5
0
samp4
7
6
samp5
9
2
samp4
sp2
samp1
Zpracování dat v ekologii společenstev
sp2
David Zelený
sp1
samp2
samp5 samp1 samp3
sp1 a)
b) c) d)
rozmístění vzorků v prostoru definovaném druhy výpočet těžiště shluku centrování os rotace os 66 Legendre & Legendre (1998)
PCA – PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent)
David Zelený
Zpracování dat v ekologii společenstev
3D
2D 67 http://cnx.org
Příklad: rozeznávání písmen v analýze obrazu pomocí PCA
David Zelený
Zpracování dat v ekologii společenstev
A B C D E F . . . X Y Z
a11 a12 a13 a14 a15 a21 a22 a23 a24 a25 a31 a32 a33 a34 a35 a41 a42 a43 a44 a45 a51 a52 a53 a54 a55 0 1 1 1 0 1 0 0 0 1 1 1 1 1 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 0 0 1 1 1 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 1 1 1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1
68 Inspired by work of François Labelle (http://www.cs.mcgill.ca/~sqrt/dimr/dimreduction.html)
David Zelený
PCA1 (O-X)
PCA2 (H-I)
Zpracování dat v ekologii společenstev
vztah proměnných A11 a A12
výsledek PCA (1. a 2. PCA osa)
69
David Zelený
PCA1 (O-X)
PCA2 (H-I)
Zpracování dat v ekologii společenstev
vztah proměnných A11 a A12
výsledek PCA (1. a 2. PCA osa)
70
KTERÉ OSY PCA JSOU DŮLEŽITÉ?
David Zelený
Summary Table: Statistic Eigenvalues Explained variation (cumulative)
Axis 1 0.242 24.2
Axis 2 0.2002 44.22
Axis 3 0.1608 60.3
Axis 4 0.0843 68.73
Axis 5 0.0608 74.81
Axis 6 0.0501 79.82
Axis 7 0.0389 83.71
Axis 8 0.0369 87.4
... ... ...
Axis 23 0.0002 99.99
Axis 24 0.0001 100
Zpracování dat v ekologii společenstev
25
% eigenvalue Broken stick model
15
10
5
PC24
PC23
PC22
PC21
PC20
PC19
PC18
PC17
PC16
PC15
PC14
PC13
PC12
PC11
PC10
PC9
PC8
PC7
PC6
PC5
PC4
PC3
PC2
0
PC1
% variation
20
71
PODSTATA MODELU „ZLOMENÉ HOLE“ (BROKEN-STICK MODEL)
David Zelený
10
20
30
40
Zpracování dat v ekologii společenstev
0
hůl
hůl se po pádu na zem rozpadne na 6 různě dlouhých částí
72
PCA: circle of equilibrium contribution (kruh rovnovážného příspěvku proměnné) poloměr = 𝑑/𝑝 kde d = počet os v zobrazení, p = počet všech os v PCA (rovno počtu deskriptorů)
vektory = deskriptory
body = vzorky
Legendre P. & Legendre L. (2012) Numerical Ecology, p. 447
Interpretace: deskriptory (druhy n. jiné proměnné) s vektory delšími než poloměr kruhu výrazně přispívají k interpretaci daných ordinačních os (v tomto případě první a druhé) 73
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
5 výpočetních kroků 1.
3.
Zpracování dat v ekologii společenstev
2.
začni s arbitrárním (náhodným) skóre vzorků (xi) vypočti nové skóre pro jednotlivé druhy (species score, yi) jako průměr skóre vzorků xi vážený abundancí druhu ve vzorcích
vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako průměr skóre druhů yi vážený abundancí druhů ve vzorku
4.
standardizuj skóre jednotlivých vzorků (natáhni osu)
5.
pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2
74
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
75 Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
76 Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
77 Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
78 Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
79 Lepš & Šmilauer (2003) Multivariate analysis of ...
CA2
CA2
CA1
pravidelné rozložení bodů na konci procesu
CA2
CA2
Zpracování dat v ekologii společenstev
CA1
David Zelený
náhodné rozložení bodů na začátku iterativního procesu
80 CA1
CA1
SIMULOVANÁ DATA JEDEN EKOLOGICKÝ GRADIENT
300 druhů s unimodální odpovědí, různými šířkami nik
500 vzorků náhodně rozmístěných podél gradientu
Zpracování dat v ekologii společenstev
simulovaný gradient dlouhý 5000 jednotek
David Zelený
81
SIMULOVANÁ DATA ARTEFAKTY
David Zelený
PCA - podkova
CA - oblouk
Zpracování dat v ekologii společenstev
o vzorky + druhy
82
ARTEFAKTY V ORDINACÍCH PŘÍČINY důsledek algoritmu (lineární nezávislost všech os)
důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor)
David Zelený
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
83
ORDINAČNÍ DIAGRAMY
David Zelený
Zpracování dat v ekologii společenstev
lineární metoda
unimodální metoda
84
DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU
David Zelený
(Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 1 – rozdělení první osy na několik segmentů
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
Krok 2 – vycentrování druhé osy každého segmentu kolem nuly
86
DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU
David Zelený
(Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 3 – nelineární přeškálování první osy
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
Výsledek škálování: • osy naškálované v jednotkách směrodatné odchylky (SD) • celé druhové složení se obmění na 4 SD
87
ROZDÍL MEZI CA A DCA NA STEJNÝCH DATECH
David Zelený
CA CA 1
DCA DCA
0
-4
-2
-3
-1
-2
CA2
DCA2
-1
1
0
2
Zpracování dat v ekologii společenstev
-1
0
1 CA1
2
3
4
-2
-1
0
1
2
3
DCA1
Animace: http://youtu.be/OHMf42Sy6KM
88
DCA – ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU DETRENDOVACÍCH SEGMENTŮ
David Zelený
5 segmentů
16 segmentů DCA, # segments = 15
0
DCA2
-1
0
-2
-1 -2
-2
-1
0
1
2
3
-2
-1
0
DCA1
1
2
3
DCA1
40 segmentů
26 segmentů
DCA, # segments = 40
-1 -2
0
-1 -2
0
DCA2
1
1
2
2
DCA, # segments = 26
DCA2
Zpracování dat v ekologii společenstev
DCA2
1
1
2
2
3
DCA, # segments = 5
89 -2
-1
0
1 DCA1
2
3
-2
-1
0
1 DCA1
2
3
DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT)
David Zelený
Zpracování dat v ekologii společenstev
o vzorky + druhy
90
VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ?
David Zelený
Pokud je délka 1. osy DCA
menší než 3 SD – homogenní data - lineární metoda
větší než 4 SD – heterogenní data - unimodální metoda
v rozmezí 3-4 SD – obě techniky pracují rozumně
Zpracování dat v ekologii společenstev
Platí jen pro detrendování po segmentech a délku první osy!
91
David Zelený Zpracování dat v ekologii společenstev
92
TŘI ALTERNATIVNÍ PŘÍSTUPY K NEPŘÍMÉ ORDINAČNÍ ANALÝZE
David Zelený
(a) Klasický přístup
Zpracování dat v ekologii společenstev
(b) Transformace dat (např. Hellingerova) (tb-PCA)
(c) Přes matici nepodobností (PCoA, NMDS)
93 Legendre & Legendre (2012)
PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na transformovaných primárních datech)
CA, DCA
tb-PCA
distancebased (založené na distanční matici)
(analýza hlavních koordinát)
PCoA unconstrained (nepřímé)
constrained (přímé)
PCA (analýza hlavních komponent)
RDA (redundanční analýza)
(korespondenční a detrendovaná korespondenční analýza)
(analýza hlavních komponent na transformovaných primárních datech)
NMDS (nemetrické mnohorozměrné škálování)
CCA
tb-RDA
db-RDA
(kanonická korespondenční analýza)
(redundanční analýza na transformovaných primárních datech)
(redundanční analýza založená na distanční matici)
94
PCOA – PRINCIPAL COORDINATE ANALYSIS (analýza hlavních koordinát) metoda založená na distancích mezi vzorky
vstupní data – matice nepodobností mezi vzorky
pokud zvolím Euklidovskou vzdálenost -> identické s PCA pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA
umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi – skóre vzorků na osách)
použití nemetrických distancí může způsobit výskyt os ze zápornou hodnotou eigenvalue
synonymum MDS – Metric Dimensional Scaling
Zpracování dat v ekologii společenstev
David Zelený
95
PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY
Brussels
2963
1318
0
...
Calais
3175
1326
204
...
Cherbourg
3339
1294
583
...
Cologne
2762
1498
206
...
Copenhagen
3276
2218
966
...
Geneva
2610
803
677
...
Gibraltar
4485
1172
2256
...
Hamburg
2977
2018
597
...
...
...
...
...
...
Hamburg
...
0
Hook of Holland Calais Cologne Brussels Cherbourg Paris 0
3313
Copenhagen
1000
0
Lisbon Lyons Geneva Marseilles Milan
Madrid Gibraltar
Munich Vienna
Barcelona
-1000
Barcelona
...
PCoA2
Athens
Barcelona Brussels
Stockholm
Zpracování dat v ekologii společenstev
Athens
David Zelený
Vzdálenosti mezi městy (km)
Rome
Athens -2000
-1000
0
1000
2000
PCoA1
96
PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY
David Zelený
Stockholm
Zpracování dat v ekologii společenstev
1000
Copenhagen
0
Lisbon Lyons Geneva Marseilles Milan
Madrid Gibraltar
Munich Vienna
Barcelona
-1000
PCoA2
Hamburg Hook of Holland Calais Cologne Brussels Cherbourg Paris
Rome
Athens -2000
-1000
0
1000
2000
PCoA1
97
NMDS - NON-METRIC MULTIDIMENSIONAL SCALING) ORDINACE ZALOŽENÁ NA DISTANCÍCH
vstupní data – matice nepodobností mezi vzorky
výpočet matice nepodobností – jakýkoliv index nepodobnosti
iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima)
nutno určit počet dimenzí, se kterými bude metoda pracovat
při větším množství dat VELMI časově náročná
na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě – tři) dimenzí
Zpracování dat v ekologii společenstev
nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím)
David Zelený
98
NMDS NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
Zpracování dat v ekologii společenstev
náhodné rozmístění vzorků v prostoru
rozmístění vzorků v prostoru respektuje jejich nepodobnost
99
Ukázka datového souboru (kódy A,B,C,D,E):
Rothkopfův experiment s morseovkou
-.-.
-..
.
0
167
169
159
180
167
0
96
79
163
169
96
0
141
166
159
79
141
0
172
180
163
166
172
0
Zpracování dat v ekologii společenstev
50
100
. -
--
NMDS2 0
-. .. -50
•
598 účastníkům byly přehrány všechny dvojice kódů a pokaždé měli rozhodnout, jestli jsou shodné nebo jiné matice nepodobností = počet odpovědí „různé“
-...
David Zelený
•
.-... -.-. -.. .
.-
-100
.-
----.----.---.-----.----.. -.--.. .--. .-..---.-.-.---... .-. -.. .-.. -... -.....-..-. -.... ..- .... ...- ....... ..... --. ---
-50
0 NMDS1
50
100
NMDS – SHEPARDŮV DIAGRAM
David Zelený
stress-value = 0.18
vzdálenost mezi vzorky v ordinačním diagramu
Zpracování dat v ekologii společenstev
Pro stress-value přibližně platí: < 0.05 – vynikající < 0.1 – výborný < 0.2 – dobrý > 0.3 – špatný (Clarke & Warwick 2001)
nepodobnost mezi vzorky
101
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
102 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
103 při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt)
má tendenci jakákoliv data zobrazit jako kouli
POROVNÁNÍ METOD DCA A NMDS SIMULOVANÁ DATA (JEDEN GRADIENT)
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
o vzorky + druhy
104
SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
Gradient 2 (kratší)
Zpracování dat v ekologii společenstev
Gradient 1 (delší) 105
SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY NMDS
Zpracování dat v ekologii společenstev
PCA
David Zelený
DCA
CA
106
SIMULOVANÁ DATA DVA STEJNĚ DLOUHÉ GRADIENTY NMDS
Zpracování dat v ekologii společenstev
PCA
David Zelený
DCA
CA
107
SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
krátké gradienty
dlouhé gradienty
Zpracování dat v ekologii společenstev
108
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI DVA ALTERNATIVNÍ POSTUPY
vzorky
ordinační osy
korelace, regrese
proměnné prostředí
přímé srovnání
oba přístupy jsou relevantní a navzájem se doplňují!
vzorky
vzorky
matice: Y – druhové složení X – proměnné prostředí
přímá ordinace
109 Legendre & Legendre (1998)
Zpracování dat v ekologii společenstev
nepřímé srovnání
druhy
vzorky
David Zelený
proměnné prostředí
druhy
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI
David Zelený
Zpracování dat v ekologii společenstev
110
Korelace proměnných prostředí s ordinačními osami v nepřímé ordinaci (PCA) skóre vzorků na první a druhé ose PCA
...
sam2
...
sam2
sam2
sam3
...
sam3
sam3
sam4
...
sam4
sam4
...
...
...
...
...
sam1
...
...
...
sam1
...
...
SOILDPT
korelace
sam1
PH
PCA
PCA 2
PCA 1
...
spe4
spe3
spe2
spe1
matice druhových dat
proměnné prostředí
r1
ordinační diagram PCA
vztah proměnných prostředí (vektory) a ordinačních os
SOILDPT
PCA2
r2
PH
PCA1
PCA 1
r1
r3
PCA 2
r2
r4
korelace proměnných prostředí a ordinačních os
111
Náhodně generované proměnné (rand 1 až rand 9) pasivně promítnuté do ordinačního diagramu:
David Zelený
náhodné proměnné
reálné proměnné
Zpracování dat v ekologii společenstev
Data o druhovém složení: vegetace údolí Vltavy Analýza: NMDS s Bray-Curtis distancí rand 1 – rand 9: náhodně generované proměnné ELEVATION, SOILDPT, … - reálně měřené proměnné prostředí
112
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI
David Zelený
Korelace mezi proměnnou prostředí a skóre vzorků na ordinačních osách pouze v ordinacích kde jsou skóre vzorků standardizované na jednotkovou varianci (PCA)
v ostatních ordinacích, kde se variance os od sebe liší, je třeba použít (váženou) mnohonásobnou regresi:
Zpracování dat v ekologii společenstev
env ~ b0 + b1 * score1 + b2 * score2 b0 = 0 (všechny proměnné jsou centrované) b1, b2 – regresní koeficienty
113
Možnost otestovat signifikanci vztahu proměnných prostředí k ordinačním osám
1 2 3 4 5 6 7 8 9
NMDS1 0.29292 0.77245 0.20627 -0.45286 -0.35271 -0.99408 -0.78399 -0.83597 0.13868
NMDS2 0.95614 0.63508 -0.97850 -0.89158 -0.93573 0.10869 -0.62078 -0.54878 -0.99034
r2 Pr(>r) 0.0166 0.453 0.0116 0.545 0.0092 0.641 0.0096 0.605 0.0554 0.057 . 0.0194 0.402 0.0318 0.230 0.0005 0.968 0.0044 0.817
reálné proměnné
ELEVATION SLOPE ASPSSW HEAT.LOAD SURFSL SURFIS FLUVISOL SOILDPT pH
NMDS1 -0.64612 -0.99803 -0.69422 -0.75226 -0.99376 -0.97546 0.81033 0.99979 0.55652
NMDS2 0.76324 0.06275 -0.71976 -0.65887 0.11158 -0.22018 -0.58597 -0.02036 -0.83084
r2 Pr(>r) 0.2626 0.001 *** 0.1682 0.001 *** 0.4065 0.001 *** 0.1668 0.003 ** 0.3744 0.001 *** 0.0610 0.053 . 0.4202 0.001 *** 0.3322 0.001 *** 0.4769 0.001 ***
(výstup z funkce envfit v knihovně vegan, testující regresi ordinačních os na proměnné prostředí)
Zpracování dat v ekologii společenstev
rand rand rand rand rand rand rand rand rand
David Zelený
náhodné proměnné
114
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – NELINEÁRNÍ VZTAH ZOBRAZENÝ JAKO VRSTEVNICE
David Zelený
Zpracování dat v ekologii společenstev
Data o druhovém složení: vegetace údolí Vltavy Analýza: DCA na log transformovaných datech pH – měřené půdní pH vrstevnice jsou výsledkem GAM modelu
115
David Zelený
Zpracování dat v ekologii společenstev
PŘÍMÁ ORDINAČNÍ ANALÝZA
PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na transformovaných primárních datech)
CA, DCA
tb-PCA
distancebased (založené na distanční matici)
(analýza hlavních koordinát)
PCoA unconstrained (nepřímé)
constrained (přímé)
PCA (analýza hlavních komponent)
RDA (redundanční analýza)
(korespondenční a detrendovaná korespondenční analýza)
(analýza hlavních komponent na transformovaných primárních datech)
NMDS (nemetrické mnohorozměrné škálování)
CCA
tb-RDA
db-RDA
(kanonická korespondenční analýza)
(redundanční analýza na transformovaných primárních datech)
(redundanční analýza založená na distanční matici)
117
10
60
5
15
20
25
30
sam 7
20
10
15 gradient
sam 3
25
30
sam 2 sam 3 sam 4 sam 5
-20
sam 4
20
0
5
species 1 (residual)
0
residuály
20
40
sam 1
sam 2
sam 6
sam 5 sam 6 sam 7
spe 3
sam 6
gradient
0
env 2
env 1 sam 1
spe 3
sam 5
40
species 1
sam 7
spe 2
sam 4
0
sam 6
spe 2
sam 5
spe 1
40
sam 3
80
sam 4
sam 2
60
80
100
sam 3
species 1 (predicted)
sam 2
sam 1
20
regrese abundance druhu na proměnné prostředí
sam 1
predikované hodnoty
0
spe 3
spe 2
spe 1
100
matice vzorky × druhy
spe 1
PRINCIP PŘÍMÉ ORDINAČNÍ ANALÝZY (RDA)
matice s vysvětlujícími proměnnými
sam 7 0
5
10
15 gradient
20
25
30
Princip přímé ordinační analýzy - pokračování ordinační osy s omezením (constrained axes)
spe 3
spe 2
spe 1
matice predikovaných hodnot
počet ordinačních os s omezením = počet vysvětlujících proměnných
sam 2
PCA ordinace
sam 3
RDA2
sam 1
sam 4 sam 5 sam 6 sam 7
spe 3
spe 2
spe 1
RDA1
(pokud je vysvětlující proměnná kategoriální, počet os je roven počtu kategorií minus 1)
sam 2 sam 3
PCA ordinace
PCA2
sam 1
sam 4 sam 5 sam 6 sam 7
matice residuálů
PCA1
ordinační osy bez omezení (unconstrained axes)
119
Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger)
Total variation is 55.45736, supplementary variables account for (adjusted explained variation is 5.8%)
Axis 1 0.1149 11.49 0.4470
Axis 2 0.0871 20.20 0.5316
7.8%
Axis 3 0.0672 26.92 0.2164
Axis 4 0.0455 31.48 0.1728
Zpracování dat v ekologii společenstev
Summary Table: Statistic Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation (suppl.)
David Zelený
Method: PCA with supplementary variables
(modře označená pole v PCA se objeví jen pokud jsou do analýzy přidány pasivní proměnné prostředí a ukazují, kolik by tyto proměnné vysvětlily v přímé ordinační analýze)
Method: RDA Total variation is 55.45736, explanatory variables account for (adjusted explained variation is 5.8%) Summary Table: Statistic Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation Explained fitted variation (cumulative)
Axis 1 0.0470 4.70 0.7638 60.39
Permutation Test Results: On All Axes pseudo-F=4.0, P=0.002
Axis 2 0.0308 7.79 0.6880 100.00
7.8%
Axis 3 0.0983 17.61 0.0000
Axis 4 0.0716 24.77 0.0000
121
KOEFICIENT DETERMINACE V REGRESI
David Zelený
celková suma čtverců
residuální suma čtverců
Zpracování dat v ekologii společenstev
122 http://en.wikipedia.org/wiki/Coefficient_of_determination
David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA (R2) ● R2 ○ R2Adj
Zpracování dat v ekologii společenstev
počet vysvětlujících proměnných
počet vzorků v datovém souboru
vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru
platí pro přímou (kanonickou) ordinační analýzu i mnohonásobnou regresi Peres-Neto et al. (2006) Ecology
123
● R2 ○ R2Adj
Zpracování dat v ekologii společenstev
počet vysvětlujících proměnných
David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA (R2) A ADJUSTOVANÝ R2
počet vzorků v datovém souboru
adjustovaný R2 se nemění s počtem vysvětlujících proměnných a počtem vzorků v souboru 124 Peres-Neto et al. (2006) Ecology
Výpočet adjustovaného R2 pomocí Ezekielovy formule (RDA) n ... počet vzorků p ... počet vysvětlujících proměnných R2Y|X ... vysvětlená variabilita bez adjustace
Výpočet adjustovaného R2 permutačním modelem (RDA, CCA)
2 𝑅perm
variabilita vysvětlená proměnnými prostředí po jejich znáhodnění
R2
variabilita vysvětlená proměnnými prostředí
𝑅2
𝑅 2 adj
o kolik variability vysvětlí proměnné prostředí víc než by vysvětlily náhodné proměnné? 2 𝑅adj = 1−
1 1 − 𝑅2 2 1 − 𝑅perm
125
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2
i náhodná proměnná vysvětlí nenulové množství variability (při následném testování signifikance ale bude neprůkazná)
množství vysvětlené variability stoupá s počtem vysvětlujících proměnných (i když tyto jsou třeba úplně náhodné)
nelze srovnávat variabilitu vysvětlenou modelem s různým počtem vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené variability)
možné řešení – použití tzv. adjustovaného R2, tzn. vysvětlené variability ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných proměnných
adjustovaný R2 je možné spočítat pro lineární ordinační metody, pro unimodální je třeba použít metody založené na permutacích
CANOCO umí adjR2 pro lineární i unimodální metody (CCA i RDA), eRko (vegan) jen pro lineární (RDA)
Zpracování dat v ekologii společenstev
nelze srovnávat vysvětlenou variabilitu v analýzách založených na různém počtu vzorků a druhů
David Zelený
126
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
test první kanonické osy – vliv jen jedné kvantitativní proměnné
test všech kanonických os – vliv všech proměnných, nebo vliv jedné kategoriální proměnné s více kategoriemi (počet os = počet kategorií – 1)
testová statistika – Fdata (pseudo-F)
Zpracování dat v ekologii společenstev
testuje nulovou hypotézu, že druhové složení je nezávislé na jedné nebo více vysvětlujících proměnných
David Zelený
P – hladina signifikance nx – počet permutací, kde Fperm >= Fdata N – celkový počet permutací
127
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
128 Herben & Münzbergová (2001)
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
randomizace ploch bez omezení (unrestricted randomization)
randomizace ploch v blocích (randomization within blocks defined by covariables)
129
Herben & Münzbergová 2001
POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH FORWARD SELECTION
v každém kroku testuje zvlášť vliv jednotlivých proměnných (MonteCarlo permutační test)
vybere tu proměnnou, která vysvětlí nejvíce variability a zároveň je signifikantní; tuto proměnnou pak do modelu zahrne jako kovariátu
v dalším kroku znovu testuje vliv jednotlivých proměnných na druhová data (s odstraněním vlivu kovariát) a opakuje předchozí kroky
testy signifikance jsou zatíženy mnohonásobným porovnáním, a jsou proto poměrně liberální (počet signifikantních proměnných je často nerealisticky vysoký a vyžaduje např. Bonferroniho korekci)
Zpracování dat v ekologii společenstev
ze souboru vysvětlujících proměnných umožňuje vybrat jen ty, které mají průkazný vliv
David Zelený
130
PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ
David Zelený
Simulace: 25 náhodně vygenerovaných proměnných
otestování průkaznosti korelace každé proměnné s každou (čtvercová matice)
průkazné korelace (p < 0.05) jsou označeny červeně
dohromady 300 analýz, z nich je 16 průkazných
Zpracování dat v ekologii společenstev
131
PARCIÁLNÍ ORDINACE PARTIAL ORDINATION
následně se přímou nebo nepřímou ordinací analyzuje zbytková variabilita
„nezajímavé“ proměnné se definují jako kovariáty
pokud následuje přímá ordinace – ordinační osy představují čistý vliv ostatních vysvětlujících proměnných bez vlivu kovariát
pokud následuje nepřímá ordinace – ordinační osy zachycují zbytkovou variabilitu v druhových datech po odstranění vlivu kovariát
Zpracování dat v ekologii společenstev
odstraňuje část variability vysvětlené proměnnými, které jsou pro nás nezajímavé (například vliv umístění ploch do bloků)
David Zelený
132
ROZKLAD VARIANCE VARIANCE PARTITIONING
Zpracování dat v ekologii společenstev
vysvětlená variabilita sdílená proměnnou 1 a proměnnou 2
David Zelený
variabilita vysvětlená proměnnou 1 variabilita vysvětlená proměnnou 2
Borcard et al. 1992, Ecology 73: 1045–1055
zbytková variabilita
133
ROZKLAD VARIANCE VARIANCE PARTITIONING
vysvětlená variabilita
1a2
není
[a]+[b]+[c]
1
2
[a]
2
1
[c]
[d]
[a]
proměnná 1
[b]
Zpracování dat v ekologii společenstev
kovariáta
David Zelený
vysvětlující proměnná
[c]
proměnná 2
sdílená variabilita [b] = ([a]+[b]+[c]) – [a] – [c] nevysvětlená variabilita [d] = Total inertia – ([a]+[b]+[c]) [a]+[b] – celkový (marginal) vliv proměnné 1 [a] – čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2) Borcard et al. 1992, Ecology 73: 1045–1055
134
NEVYSVĚTLENÁ VARIABILITA [d]
variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje variabilitu, která by mohla být vysvětlena některou z proměnných, pokud by se data chovala podle teoretického modelu
varianci nevysvětlenou modelem tedy nelze interpretovat jen jako zbytkovou variabilitu, která je dána šumem v datech a tím, že ne všechny proměnné prostředí byly měřeny
Total inertia proto není měřítkem celkové variability v druhových datech, ale variability, kterou je možné zachytit pomocí zvoleného modelu (lineárního nebo unimodálního)
variabilita vysvětlená danou proměnnou prostředí a vypočtená jako eigenvalue / total inertia je proto podhodnocená
vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte také relativní množství variability, kterou daná proměnná vysvětlí z celkové variability vysvětlené všemi proměnnými prostředí
135
Zpracování dat v ekologii společenstev
David Zelený
ordinační metody jsou založené na modelu (lineární nebo unimodální) odpovědi druhu na gradient prostředí, který je velkým zjednodušením skutečnosti
Økland (1999) J. Veg.Sci. 10: 131-136
PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH
pH Ca cond Mg Na …
Zpracování dat v ekologii společenstev
Otázka: Je druhové složení společenstev měkkýšů na slatiništích ovlivněno více druhovým složením vegetace, nebo stanovištními podmínkami?
David Zelený
druhové složení společenstev měkkýšů
druhové složení slatiništní vegetace
měřené proměnné prostředí (ve vodě)
137
Horsák M. & Hájek M. (2003)
PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH
druhové složení vegetace –> DCA (krátký gradient) -> PCA
postupný výběr proměnných (RDA) na měkkýších
Zpracování dat v ekologii společenstev
druhové složení měkkýšů (Hellingerova transformace) -> RDA
David Zelený
mezi PCA osami reprezentujícími vegetaci mezi proměnnými prostředí reprezentujícími stanovištní podmínky
výsledek
z vegetačních dat nejlépe vysvětlí měkkýše první dvě osy PCA z proměnných prostředí je nejlepší obsah vápníku a konduktivita slatiništní vody
rozklad variance mezi vegetaci a proměnné prostředí
test marginálních a parciálních frakcí vysvětlené variability
138
PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH
David Zelený
6% p < 0.01
proměnné prostředí [Ca + conduct]
20%
Zpracování dat v ekologii společenstev
vegetace [PC1 + PC2]
2% p = 0.072
[d] = 72% 139
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
140
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
141
PCNM (PRINCIPAL COORDINATES OF NEIGHBOUR MATRICES)
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
143
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
144
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? procento variability vysvětlené hlavními osami
CANOCO: cummulative percentage variance of species data vypočte se také jako eigenvalue / total variance ukazuje, jak úspěšný byl celý proces ordinace čím více jsou jednotlivé druhy korelované, tím více variability bude vysvětleno několika málo hlavními osami má smysl srovnávat vysvětlenou variabilitu hlavních os různými ordinačními technikami na stejných datech nemá smysl srovnávat vysvětlenou variabilitu hlavních os stejnými ordinačními technikami na různých datech (eigenvalues jsou závislé na počtu hráčů ve hře – druhů, vzorků)
Zpracování dat v ekologii společenstev
David Zelený
skóre (souřadnice) závisle proměnných (druhů) na osách
u lineárních technik skóre = regresní koeficient, v ordinačních diagramech zobrazeny jako šipky u unimodálních technik skóre = optimum druhu, v ordinačních diagramech zobrazeny jako body 145
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? skóry vzorků (snímků) na osách
skóry nezávislých (vysvětlujících proměnných) *
v ordinačních diagramech vzorky zobrazeny jako body (lineární i unimodální techniky) vzdálenost mezi body v ordinačním prostoru odpovídá nepodobnosti mezi vzorky (ne ale nepodobnosti celého floristického složení, ale jenom té části, která je vyjádřena zobrazenými ordinačními osami)
Zpracování dat v ekologii společenstev
David Zelený
regresní koeficienty, důležitá jsou jejich znaménka
test signifikance (Monte-Carlo permutační test) *
ukazuje na statistickou významnost použitých vysvětlujících proměnných
146
* jen přímé ordinační techniky
JEDNOTLIVÉ PROMĚNNÉ TERMINOLOGIE vysvětlované / závislé proměnné
vysvětlující / nezávislé proměnné, prediktory *
CANOCO: proměnné prostředí (environmental variables) měřené nebo odhadované proměnné
vzorky, objekty, případy (cases)
CANOCO: druhy (species)
Zpracování dat v ekologii společenstev
David Zelený
CANOCO: snímky (samples)
kovariáty, nezajímavé vysvětlující / nezávislé proměnné *
CANOCO: kovariáty (covariables) proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy odstranit
147
* jen přímé ordinační techniky
Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger)
RDA s vysvětlujícími proměnnými prostředí
David Zelený
PCA s pasivně promítnutými proměnnými prostředí
Zpracování dat v ekologii společenstev
149
ORDINAČNÍ DIAGRAMY KONVENCE
-> body
zobrazení druhů -> šipky (lineární metody) -> body, centroidy (unimodální metody)
zobrazení ordinačních os
zobrazení proměnných prostředí
vodorovná bývá osa vyššího řádu (např. první) orientace os je arbitrární
šipky (kvantitativní proměnné) centroidy (kategoriální proměnné)
typ ordinačního diagramu:
scatterplot - 1 typ dat (vzorky nebo druhy) biplot - 2 typy dat (např. vzorky a druhy) triplot - 3 typy dat (např. vzorky, druhy a proměnné prostředí)
150
Zpracování dat v ekologii společenstev
David Zelený
zobrazení vzorků
Lepš & Šmilauer (2003) Multivariate analysis of ...
ORDINAČNÍ DIAGRAMY
David Zelený Zpracování dat v ekologii společenstev
přímá ordinace
151 Lepš & Šmilauer (2003) Multivariate analysis of ...
nepřímá ordinace
unimodální metoda lineární metoda
HISTORICKÉ ORDINAČNÍ DIAGRAMY BRAY & CURTIS 1957 - NEPŘÍMÁ GRADIENTOVÁ ANALÝZA
David Zelený
Zpracování dat v ekologii společenstev
152
Bray & Curtis (1957): An ordination of the upland forest communities of Southern Wisconsin. Ecological Monographs 27: 326-349
MODERNÍ ANALOGIE (DCA V KNIHOVNĚ VEGAN)
153
TŘI ALTERNATIVNÍ PŘÍSTUPY K PŘÍMÉ ORDINAČNÍ ANALÝZE
David Zelený
(a) Klasický přístup: RDA zachovává euklidovské distance, CCA chi-kvadrát distance
Zpracování dat v ekologii společenstev
(b) Transformace dat (tb-RDA): používá distance vzniklé transformací dat (např. Hellingerova distance)
(c) Přes matici nepodobností (db-RDA): zachovává distance použité ve vstupní distanční matici
154 Legendre & Legendre (2012) podle Legendre & Gallagher (2001)
PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na transformovaných primárních datech)
CA, DCA
tb-PCA
distancebased (založené na distanční matici)
(analýza hlavních koordinát)
PCoA unconstrained (nepřímé)
constrained (přímé)
PCA (analýza hlavních komponent)
RDA (redundanční analýza)
(korespondenční a detrendovaná korespondenční analýza)
(analýza hlavních komponent na transformovaných primárních datech)
NMDS (nemetrické mnohorozměrné škálování)
CCA
tb-RDA
db-RDA
(kanonická korespondenční analýza)
(redundanční analýza na transformovaných primárních datech)
(redundanční analýza založená na distanční matici)
155
MANTEL TEST KORELACE MEZI MATICEMI NEPODOBNOSTÍ
David Zelený
Zpracování dat v ekologii společenstev
156 Legendre & Legendre 1998
MANTEL TEST
David Zelený
De
proměnná prostředí 1
0
1
4.5
2
0.4
0
2
4.1
3
0.3
0.1
0
3
4.2
4
0.7
0.4
0.3
0
4
3.8
1
2
3
4
druhová data
Dsp
sp1
sp2
1
0
1
0
3
2
1.41
0
2
1
2
3
0.3
0.1
0
3
1
2
4
0.7
0.4
0.3
0
4
2
1
1
2
3
4
(eucl.)
De
Dsp
0.4
1.41
0.3
1.41
0.1
0
0.7
2.5
0.4
1.41
0.3
1.41
Zpracování dat v ekologii společenstev
pH
r = 0.965 p = 0.015 157
SHRNUTÍ
David Zelený Zpracování dat v ekologii společenstev
158 Legendre & Legendre 1998
POUŽÍVÁNÍ ORDINAČNÍCH METOD A SOFTWARE (VEGETAČNÍ STUDIE)
David Zelený
Zpracování dat v ekologii společenstev
159 von Wehrden et al. (2009) JVS
PCA – PŘÍKLAD TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH
David Zelený
Zpracování dat v ekologii společenstev
160
Nobis & Wohlgemuth (2004) Oikos
David Zelený Zpracování dat v ekologii společenstev
161
Nobis & Wohlgemuth (2004) Oikos
DCA – PŘÍKLAD FLORISTICKÁ DATA Z
NP PODYJÍ
David Zelený
Zpracování dat v ekologii společenstev
skóre pro jednotlivé kvadráty z 1. a 2. osy DCA (na základě jejich floristického složení) byly promítnuty do síťové mapy
162
Chytrý et al. (1999) Preslia
PCA – PŘÍKLAD
Zpracování dat v ekologii společenstev
Výrazný úbytek druhové bohatosti bylinného (E1) a keřového (E2) patra v posledních 50ti letech. Data jsou založená na zopakování fytocenologických snímků na plochách snímkovaných Jaroslavem Horákem v šedesátých letech.
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH DUBOHABŘIN (R. HEDL 2005, DISERTAČNÍ PRÁCE)
Změna v druhovém složení vegetace v průběhu 50ti let samovolné sukcese (PCA diagram).
163
NMDS PŘÍKLAD VLIV SUCHA NA SLOŽENÍ SPOLEČENSTEV V EXPERIMENTÁLNÍ
David Zelený
STUDII
Zpracování dat v ekologii společenstev
164 Chase (2007) PNAS
NMDS PŘÍKLAD ZOBRAZENÍ ZMĚN V DRUHOVÉM SLOŽENÍ V PROSTORU NA
David Zelený
PŘÍKLADU TRVALÝCH PLOCH V TROPICKÉM LESE
Zpracování dat v ekologii společenstev
Skóre ploch v 3D NMDS ordinačním diagramu vyjádřené pomocí RGB barev Baldeck et al. (2013)
166
CCA – PŘÍKLAD ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY
David Zelený
Zpracování dat v ekologii společenstev
Vojta (2007) Preslia
169
CCA – PŘÍKLAD
STANOVENÍ EKOLOGICKÉHO OPTIMA JEDNOTLIVÝCH
David Zelený
DRUHŮ MĚKKÝŠŮ PODÉL EKOLOGICKÝCH GRADIENTŮ
Zpracování dat v ekologii společenstev
170
Horsák et al. (2007) Acta Oecologica