ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV
David Zelený
OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy
Zpracování dat v ekologii společenstev
kalibrace
Indexy druhové bohatosti
zobecněné lineární modely, regresní a klasifikační stromy
Ellenbergovy indikační hodnoty
lineární vs unimodální, přímá vs nepřímá
Regrese
hierarchická vs nehierarchická, aglomerativní vs divisivní
Ordinace
indexy podobnosti a vzdálenosti mezi vzorky
Klasifikace
kategoriální vs kvantitativní, pokryvnosti, frekvence
Ekologická podobnost
manipulativní experimenty vs přírodní experimenty (pozorování)
Typy sbíraných dat
čištění dat, odlehlé body, transformace, standardizace, EDA
Design ekologických experimentů
David Zelený
alfa, beta a gamma diverzita, akumulační druhová křivka, rarefaction
Případové studie na použití jednotlivých metod
2
LITERATURA
David Zelený
Doporučená
Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat
Zpracování dat v ekologii společenstev
v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO http://regent.jcu.cz/skripta.pdf
Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení
ftp://botany.natur.cuni.cz/skripta/zpracovani_geobot_dat/multivar.pdf
Pro fajnšmekry
Wildi O. (2010) Data Analysis in Vegetation Ecology. Wiley-Blackwell.
Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates.
Palmer M. – Ordination methods for ecologists, website
Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.
http://ordination.okstate.edu/
http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf
Legendre P. & Legendre L. (1998) Numerical Ecology (Second English Edition). Elsevier.
3
SOFTWARE
CanoDraw for Windows 4.0 – kreslení ordinačních diagramů a odpovědních křivek druhů
PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů
STATISTICA 9.0 – regrese, regresní a klasifikační stromy
Zpracování dat v ekologii společenstev
CANOCO for Windows 4.5 – ordinační analýzy
David Zelený
Kde co sehnat: CANOCO, CanoDraw a PC-ORD – instalace z AVRUMELu nebo webových stránek předmětu (záložka Software) STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software
4
DALŠÍ INFORMACE Webové stránky předmětu: www.bit.ly/zpradat
Cvičení
přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení
Zpracování dat v ekologii společenstev
David Zelený
probíhat bude v Bohunicích v druhé půlce semestru a zaměřené bude na analýzu dat v programu CANOCO a jejich vizualizaci v programu CanoDraw tři čtyřhodinové bloky
Zkouška
vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) vlastní zkouška představuje asi půlhodinovou diskuzi nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky
5
David Zelený
Zpracování dat v ekologii společenstev
TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY
DATA O EKOLOGII SPOLEČENSTEV
David Zelený
popisují společenstvo, případně i jeho prostředí společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. v pastech (v případě mobilních živočichů) složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se přitom vyskytuje většinou více než jeden druh prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů
ekologická data jsou ve své podstatě mnohorozměrná a dají se vyjádřit maticí dat (data matrix)
ekologická data vždy obsahují řadu zkreslení (bias)
Zpracování dat v ekologii společenstev
např. sampling bias – přehlédnutí některých druhů 7
TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční)
Ordinální (semikvantitativní)
např. geologický substrát, půdní typy, binární proměnné (přítomnostabsence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit
Zpracování dat v ekologii společenstev
David Zelený
např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké
Kvantitativní
diskrétní (počty, měření s malou přesností) x kontinuální (přesná měření) poměrová stupnice (ratio scale) x rozdílová stupnice (interval scale)
8
0
100
0
TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ
binární (dvoustavový, presence-absence)
přítomnost nebo absence druhu
Zpracování dat v ekologii společenstev
Příklady
David Zelený
Typ proměnné
mnohostavový neseřazený
geologický substrát
seřazený semikvantitativní (ordinální)
stupnice pokryvností druhy
kvantitativní (měření) diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy 9 Legendre & Legendre 1998
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
10
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
11
Zadávání primárních dat
Uchování a zpřístupnění primárních dat
Zpracování dat v ekologii společenstev
spreadsheet, metadata
David Zelený
http://www.cggveritas.com/data//1/rec_i mgs/5152_Tapes-small.jpg
PRIMÁRNÍ DATA
problematika dlouhodobé archivace a nosičů dat zpřístupnění primárních dat
Kontrola a čištění dat
sloučení taxonomické nomenklatury chyby a chybějící data (možnosti nahrazení chybějících dat) analýza odlehlých bodů (outlier analysis) někdy i vyloučení vzácných druhů (odstranění šumu v datech) EDA – exploratory data analysis
12
EDA – EXPLORATORY DATA ANALYSIS
David Zelený
obecně: metoda pro odhalení různých vlastností dat (description of pattern in data)
slouží např. k „vytěžování“ dat (data mining, data dredging – moderní, ale problematická metoda zpracování dat)
grafická EDA:
Zpracování dat v ekologii společenstev
John Tukey (1915-2000)
odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace box-plot (krabicový graf) a histogram pro jednorozměrná data scatterplot (bodový graf) pro dvou a vícerozměrná data
13
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ
– BOX-PLOT & HISTOGRAM
David Zelený
XERSSW
-6
-4
-2
0
2
4
Zpracování dat v ekologii společenstev
-8
Median 25%-75% Range Outliers
50
Frequency
40
30
20
10
0
-8
-7
-6
-5
-4
-3
-2
-1
0
XERSSW (head index)
1
2
3
4
14
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT
David Zelený
3 2 1
Zpracování dat v ekologii společenstev
-1 -2 -3 -4 -5 -6 -7 -3
-2
-1
0
1
2
3
4
5
3.0
6
XERSW 2.5
2.0
1.5
XERSSW
XERSSW
0
1.0
0.5
0.0
-0.5
15
-1.0 -3
-2
-1
0
1
XERSW
2
3
4
5
DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT)
David Zelený
Klasický boxplot (střední hodnota = medián)
Definice odlehlých bodů a extrémů (STATISTICA)
Zpracování dat v ekologii společenstev
maximální hodnota Q3 – horní kvartil Q2 - medián Q1 – spodní kvartil
minimální hodnota
16
outlier
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace dat
Zpracování dat v ekologii společenstev
mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce
Proč data transformovat?
protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné
protože (některé) statistické testy vyžadují, aby data
deset prstů => používání desítkové soustavy
byla normálně rozložená (normal distribution) měla homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah)
protože lineární vztahy se interpretují lépe než vztahy nelineární
17
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body
abychom při komentování výsledků používali netransformované hodnoty proměnných
Zpracování dat v ekologii společenstev
Typy transformace
lineární
přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita
nelineární
log transformace, odmocninová transformace atd. může změnit výsledky statistického testování
18
600 500 400 0
100
200
200
300
symetrické (symetrical)
2
4
6
8
10
12
negativně (doleva) zešikmené (left skewed)
0
0
50
50
100
100
150
200
150
0
-8
-3
-2
-1
0
1
2
-6
-4
-2
0
2
3
* ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku
19
Zpracování dat v ekologii společenstev
pozitivně (doprava) zešikmené* (right skewed)
David Zelený
700
ROZDĚLENÍ DAT (DATA DISTRIBUTION)
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Logaritmická transformace (log transformation)
Zpracování dat v ekologii společenstev
pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení)
Y* = log (Y), případně Y* = log (a*Y + c)
zdroj: wikipedia.org
na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a > 1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická
20
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Odmocninová transformace (square-root transformation)
Zpracování dat v ekologii společenstev
vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = √ Y, případně Y* = √ (Y + c)
konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325)
třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami)
Mocninná transformace (power transformation)
vhodná pro data negativně (doleva) sešikmená (left skewed)
Y* = Yp
pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.)
21
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
odmocninová
logaritmická
Legendre & Legendre (1998)
22
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
23 Münch. Med. Wschr. 124, 1982
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace pomocí arcsin (angular transformation)
vhodná pro procentické hodnoty (a obecně podíly)
Zpracování dat v ekologii společenstev
Y* = arcsin Y nebo Y* = arcsin √ Y použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech
Reciproká transformace (reciprocal transformation)
vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y 24
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Box-Cox transformace (zobecněná mocniná transformace) zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít
Zpracování dat v ekologii společenstev
Neparametrické metody transformace
např. metoda Omnibus pro ordinální data
25 Legendre & Legendre 1998
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA Q-Q diagram (Quantile-Quantile plot)
35
Zpracování dat v ekologii společenstev
3
30
2
Oček. normál. hodnoty
Počet pozorování
David Zelený
Histogram s křivkou normálního rozdělení
25
20
15
10
5
1
0
-1
-2
0 -10
0
10
20
30
40
50
60
70
-3 -10
80
Soil depth
vizuální zhodnocení normality dat
možno otestovat Kolmogorov-Smirnov testem
0
10
20
30
40
50
60
70
Pozorovaný kvantil
porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných
jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení, kdy se vychází z kumulativní distribuční funkce)
na stejném principu pracuje Shapiro-Wilk test
26
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA
-1
0
1
2
3
150 100
Frequency
0
0
-2
50
100 200 300 400 500
Frequency
150 100 50 0
Frequency
600
200
200
negativně zešikmené
Zpracování dat v ekologii společenstev
-3
David Zelený
pozitivně zešikmené
normální rozdělení
0
2
4
8
10
12
-8
-6
-4
variable
-2
0
2
variable
-2
-1
0
1
Sample quantiles
2
3
2 1 0 -1
Theoretical quantiles
-3
0 -3
-2
2 1 0 -1 -3
-2
Theoretical quantiles
2 1 0 -1 -2 -3
Theoretical quantiles
3
3
3
variable
6
5
10
15
Sample quantiles
20
-5
-4
-3
-2
-1
Sample quantiles
0
1
27
BIMODÁLNÍ DATA
David Zelený
20 15 0
5
10
Frequency
15 10
Frequency
5 0
6.0
6.5
7.0
7.5
8.0
6.0
6.5
7.0
7.5
8.0
Soil pH
7.0
28
6.0
6.5
6.5
7.0
Soil pH
7.5
7.5
8.0
8.0
Soil pH
Soil pH
Zpracování dat v ekologii společenstev
20
transformace nepomůže, možnost rozdělit na dva podsoubory
6.0
600
650
700
750
800
850
Annual precipitation [mm]
900
950
600
650
700
750
800
850
Annual precipitation [mm]
900
950
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE PROMĚNNÝCH
David Zelený
Centrování
výsledná proměnná má průměr roven nule
Zpracování dat v ekologii společenstev
Yi* = Yi – průměr (Y)
Standardizace v úzkém slova smyslu
výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné
„synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y)
Změna rozsahu hodnot (ranging)
výsledná proměnná je v rozsahu 0 až 1 Yi* = Yi / Ymax nebo
Yi* = (Yi – Ymin) / (Ymax – Ymin)
29
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
Standardizace v případě matice společenstva (vzorky x druhy)
standardizace po druzích (by species)
Zpracování dat v ekologii společenstev
dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu)
standardizace po vzorcích (by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše nebo počet pastí)
30
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent)
nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu
STANDARDIZACE
mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent)
nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků
ve své podstatě je to další typ transformace
Zpracování dat v ekologii společenstev
David Zelený
TRANSFORMACE
31
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance r 1 1
+ 2 2
Zpracování dat v ekologii společenstev
Br.-Bl.: ordinální hodnoty: střední hodnoty procent:
1 2 3 4 5 3 4 5 6 7 3 15 38 63 88
32
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
Dummy variables metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních)
Zpracování dat v ekologii společenstev
dummy proměnné hodnoty
KAMB
kambizem
1
litozem
LITO
RANK
FLUVI
0
0
0
0
1
0
0
ranker
0
0
1
0
fluvizem
0
0
0
1
33
SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII)
David Zelený
dva možné významy nuly: hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) 2. hodnota je skutečná nula – například absence druhu 1.
Zpracování dat v ekologii společenstev
data obsahující „pravé nuly“ obsahují dva typy informace: druh chybí nebo je přítomen? 2. pokud je druh přítomen, jaká je jeho abundance? 1.
v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu
problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence)
34
David Zelený
EKOLOGICKÝCH EXPERIMENTŮ “To call in the statistician after the experiment is done may be no more than asking him to perform a post mortem examination: he may be able to say what the experiment died of.” Sir Ronald Fisher, Indian Statistical Congress, Sankhya 1939
Zpracování dat v ekologii společenstev
DESIGN
ZÁKLADNÍ OTÁZKA: CO CHCI EXPERIMENTEM ZJISTIT? Jaká je variabilita proměnné Y v čase nebo prostoru?
Má faktor X vliv na proměnnou Y?
hypothesis testing, otázka pro manipulativní experiment může platit i pro některé přírodní experimenty, ale výsledky těchto testů jsou podstatně slabší (nemáme kontrolu nad vlivem ostatních faktorů, které mohou výsledky ovlivnit)
Chová se proměnná Y tak, jak předpovídá hypotéza H?
pattern description nejčastější otázka v ekologických observačních studiích
Zpracování dat v ekologii společenstev
David Zelený
klasická konfrontace mezi teorií a reálnými daty platí pro data získaná jak manipulativním tak přírodním experimentem ne vždy je snadné najít správnou hypotézu
Jaký model nejlépe vystihuje vztah mezi faktorem X a proměnnou Y?
experimentem sbíráme podklady pro matematické modelování
36
MANIPULATIVNÍ VS PŘÍRODNÍ EXPERIMENTY
David Zelený
Manipulativní experimenty uměle manipulujeme vysvětlující proměnnou (X) a sledujeme reakci vysvětlované proměnné (Y) umožňuje přímé testování hypotéz známe směr vztahu mezi příčinou a důsledkem - kauzalita
Zpracování dat v ekologii společenstev
Přírodní experimenty (pozorování, observační studie) vysvětlující proměnnou „manipuluje“ sama příroda slouží spíše ke generování než testování hypotéz neznáme směr vztahu mezi příčinou a důsledkem - korelace
37
MANIPULATIVNÍ VS PŘÍRODNÍ EXPERIMENTY SROVNÁNÍ TESTOVANÝCH HYPOTÉZ
David Zelený
Příklad: na ostrovech v Karibiku sledujeme vztah mezi počtem ještěrek na určité ploše a počtem pavouků (Gotelli & Ellison 2004)
Zpracování dat v ekologii společenstev
Manipulativní experiment
Provedení:
Nulová hypotéza:
v jednotlivých plochách (klecích) je uměle ovlivněn počet ještěrek a sledováno množství pavouků počet ještěrek nemá vliv na počet pavouků v klecích
Alternativní hypotéza:
se vzrůstající hustotou ještěrek klesá počet pavouků (ještěrky žerou pavouky)
38
MANIPULATIVNÍ VS PŘÍRODNÍ EXPERIMENTY SROVNÁNÍ TESTOVANÝCH HYPOTÉZ
David Zelený
Přírodní experiment (pozorování, observační studie)
Provedení:
Zpracování dat v ekologii společenstev
na vybraných plochách je sledován počet ještěrek a počet pavouků
Možné hypotézy: 1. 2. 3. 4.
počet ještěrek (negativně) ovlivňuje počet pavouků (ještěrky žerou pavouky) počet pavouků má vliv na počet ještěrek (draví pavouci napadají mláďata ještěrek) počet ještěrek i pavouků je ovlivňován neměřeným faktorem prostředí (třeba vlhkostí) některý faktor prostředí ovlivňuje sílu vztahu mezi ještěrkami a pavouky (třeba zase vlhkost) 39
MANIPULATIVNÍ EXPERIMENT „PRESS“ VS „PULSE“ EXPERIMENT „Press“ experiment (experiment „pod stálým tlakem“)
zásah je proveden jen jednou, obvykle na začátku experimentu měří resilienci systému – jak pružně je systém (společenstvo) schopné reagovat na experimentální zásah
závisle proměnná
čas
závisle proměnná
„Pulse“ experiment (pulzní experiment, „jednou a dost“)
Zpracování dat v ekologii společenstev
zásah je proveden na začátku experimentu a pak znovu v pravidelných intervalech měří resistenci systému na experimentální zásah – jak je systém (společenstvo) schopné odolávat, případně se přizpůsobit změnám v podmínkách prostředí
David Zelený
40 čas
PŘÍRODNÍ EXPERIMENT (POZOROVÁNÍ) „SNAPSHOT“ VS „TRAJECTORY“ EXPERIMENT
David Zelený
„Snapshot“ experiment (momentka) opakuje se v prostoru, ale ne v čase sběr vzorků provedu na několika (mnoha) lokalitách v relativně krátkém čase (týden, sezóna, dva roky sběru dat pro diplomku ...) představuje většinu přírodních experimentů v ekologii zahrnuje i sukcesní studie, kdy sledujeme zároveň různá sukcesní stadia
Zpracování dat v ekologii společenstev
„Trajectory“ experiment (sledujeme trajektorii procesu v čase) opakuje se v čase (a případně i v prostoru) sběr vzorků se na daných (většinou pevně vymezených plochách) opakuje několikrát za sebou sukcesní studie prováděné několik let, trvalé plochy v lesních porostech opakovaně měřené jednou za x let
41
MANIPULATIVNÍ EXPERIMENT ZÁKLADNÍ TYPY ROZMÍSTĚNÍ PLOCH
David Zelený
kompletně znáhodněný design nebere v úvahu heterogenitu prostředí ne vždy je nejvhodnější
Zpracování dat v ekologii společenstev
znáhodněné bloky vlastní bloky jsou vnitřně homogenní (pokud možno) počet bloků = počet opakování bloky jsou umístěné podle gradientu prostředí v každém bloku je právě jedna replikace každého zásahu
42 gradient prostředí
MANIPULATIVNÍ EXPERIMENT ZÁKLADNÍ TYPY ROZMÍSTĚNÍ PLOCH
David Zelený
latinský čtverec předpokládá přítomnost dvou gradientů v prostředí každý sloupec a každý řádek obsahuje právě jednu variantu zásahu možno použít i několik latinských čtverců
Zpracování dat v ekologii společenstev
gradient 2
gradient 1
43
MANIPULATIVNÍ EXPERIMENT NEJČASTĚJŠÍ CHYBY
David Zelený
pseudoreplikace testovat lze jen rozdíly v průměrech jednotlivých bloků plochy se stejným zásahem jsou umístěny blízko sebe, a mají proto větší pravděpodobnost, že si budou podobné i bez vlivu vlastního zásahu
Zpracování dat v ekologii společenstev
gradient prostředí
neúplně znáhodněný design
v podstatě pseudoreplikace, jen méně zřejmá gradient prostředí
44
MANIPULATIVNÍ EXPERIMENT NEJČASTĚJŠÍ CHYBY
David Zelený
správně
gradient prostředí
Zpracování dat v ekologii společenstev
gradient prostředí
design se znáhodněnými bloky – špatná orientace bloků
gradient prostředí
špatně
špatně
45
MANIPULATIVNÍ EXPERIMENT S VÍCE NEŽ JEDNÍM TYPEM ZÁSAHU
David Zelený
faktoriální design každá hladina prvního faktoru je kombinovaná s každou hladinou druhého faktoru (případně třetího atd.) například kombinace
Zpracování dat v ekologii společenstev
koseno vs nekoseno hnojeno vs nehnojeno
jednotlivé kombinace mohou být rozmístěny v prostoru např. v rámci latinského čtverce ano
ne
koseno 46
hnojeno
MANIPULATIVNÍ EXPERIMENT S VÍCE NEŽ JEDNÍM TYPEM ZÁSAHU
David Zelený
split-plot design faktory jsou strukturovány hierarchicky (nested) například plochy hnojené různými hnojivy (C, N, P) v rámci bloků umístěných na vápenci (modrá) a žule (červená barva)
C
C N
P
P P
C N
C
N C
P
N
N P
Zpracování dat v ekologii společenstev
N
P
C 47
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE
plán zásahů
letecký pohled
Zpracování dat v ekologii společenstev
Silvertown et al. (2006) J.Ecol.
David Zelený
ROTHAMSTED (ENGLAND) – PARK GRASSLAND EXPERIMENT (ZALOŽEN 1843)
48
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE ROTHAMSTED (ENGLAND) – PARK GRASSLAND EXP.
David Zelený
Zpracování dat v ekologii společenstev
49
Třídění bylinné biomasy do druhů (kolem roku 1930) (http://www.rothamsted.ac.uk)
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE KOMPETICE O SVĚTLO V EXPERIMENTÁLNÍM PROSTŘEDÍ
David Zelený
Zpracování dat v ekologii společenstev
Při vyšším přísunu živin rostou rostliny rychleji a začnou si konkurovat o světlo – tak proč jim trochu nepřisvítit? 50
Hautier et al. (2009) Science 324: 636-638
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE STANOVENÍ POTENCIÁLNÍ STANOVIŠTNÍ PRODUKTIVITY V
David Zelený
DOUBRAVÁCH PĚSTOVÁNÍM ŘEDKVIČEK VE SKLENÍKU
Zpracování dat v ekologii společenstev
51 Veselá et. al (2008): Bioassay experiment for assessment of site productivity in oak forests. - 17th International Workshop European Vegetation Survey, Brno, Czech Republic, 1-4. 5. 2008.
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE VLIV HERBIVORNÍCH RYB NA DRUHOVÉ SLOŽENÍ
David Zelený
KORÁLOVÝCH ÚTESŮ
na začátku experimentu ...
řídká klec – zabrání jen velkým rybám
... a po čtyřech měsících pod klecí
Atol Agatti (Lakedivy, Indie) 52
Autor: Nicole Černohorská (v rámci vypracování její disertační práce na zoologii)
Zpracování dat v ekologii společenstev
hustá klec – zabrání všem rybám
detailní pohled na korálový útes s nárostem řas (autor: Nicole Černohorská)
David Zelený
Zpracování dat v ekologii společenstev
53
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Preferenční
Zpracování dat v ekologii společenstev
54
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Systematické rozmístění v síti (lattice)
Zpracování dat v ekologii společenstev
55
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Systematické rozmístění v síti (grid)
Zpracování dat v ekologii společenstev
56
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Systematické rozmístění na transektu
Zpracování dat v ekologii společenstev
57
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Náhodné rozmístění
Zpracování dat v ekologii společenstev
58
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Preferenční rozmístění statistické hledisko: snímky nejsou náhodným výběrem, což limituje jejich použití při statistických analýzách (Lajer 2007, Folia Geobotanica) hledisko vegetačního ekologa: popisují maximální variabilitu vegetace praktické důsledky: snímky bývají druhově bohatší, obsahují větší počet diagnostických nebo vzácných druhů
Zpracování dat v ekologii společenstev
Náhodné (a systematické) rozmístění
statistické hledisko: snímky jsou náhodným výběrem v reálném prostoru (ne ale v ekologickém hyperprostoru) hledisko veg. ekologa: nezachytí celou variabilitu vegetace chybí maloplošné a vzácné vegetační typy, převládají velkoplošné a běžné typy, zahrnují řadu špatně klasifikovatelných vegetačních přechodů praktické důsledky: snímky odrážejí reálnou strukturu a bohatost vegetace v krajině, ale metoda je neúměrně pracná
59
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE) ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený
Stratifikované náhodné rozmístění
Zpracování dat v ekologii společenstev
60
STRATIFIKACE KRAJINY V GIS
Teplota
David Zelený
Srážky
Zpracování dat v ekologii společenstev
Půdní typy
Stratifikované jednotky
61
Austin et al. 2000
PROSTOROVÁ AUTOKORELACE
David Zelený
bližší plochy jsou si podobnější
Zpracování dat v ekologii společenstev
62
PROSTOROVÁ AUTOKORELACE
běžná vlastnost prakticky všech reálných ekologických dat – příroda se nechová podle zákonů statistiky
může být pozitivní (bližší vzorky jsou si podobnější než by odpovídalo jejich náhodnému výběru) nebo negativní (sousední vzorky jsou si méně podobné než kdyby byly vybrány náhodou)
Zpracování dat v ekologii společenstev
vlastnosti určitého pozorování (vzorku) mohou být do určité míry odvozeny z pozorování v jeho okolí – jednotlivá pozorování na sobě nejsou nezávislá
David Zelený
„Vše souvisí se vším, ale bližší věci spolu souvisejí více než ty vzdálené“ Waldo Tobler (1969), První zákon geografie
63
PROSTOROVÁ AUTOKORELACE
David Zelený
Co způsobuje prostorovou autokorelaci biologických dat? omezené možnosti disperze, genetický tok nebo klonální růst – sousedé jsou si podobnější
organismy jsou omezeny ekologickými faktory (například vlhkost nebo teplota), které jsou samy o sobě prostorově autokorelovány
Zpracování dat v ekologii společenstev
Jak se prostorová autokorelace projevuje při analýze dat?
pozitivní PA zvyšuje pravděpodobnost chyby prvního druhy (Type 1 error), totiž že zamítneme nulovou hypotézu, která platí (statistické testy vycházejí průkazněji než by měly)
negativní PA způsobuje opačný efekt
problém je v počtu stupňů volnosti (degrees of freedom): pokud si stupně volnosti představíme jako množství informace, kterou každý nový vzorek přináší, pak každý nový nezávislý vzorek přináší jeden stupeň volnosti, ale prostorově autokorelovaný vzorek přináší méně
64
PROSTOROVÁ AUTOKORELACE
David Zelený
Příklad: Vliv nadmořské výšky na vegetaci, studovaný pomocí transektů vedených podél nadmořské výšky prostorově autokorelované transekty (paralelně vedle sebe na jedné hoře)
× 65
Zpracování dat v ekologii společenstev
prostorově neautokorelované transekty (každý transekt na různé hoře)
PROBLÉM PROSTOROVÉ ŠKÁLY (SCALE OF THE STUDY)
rozsah (extent) – velikost studovaného území
interval – vzdálenost mezi vzorkovanými plochami
Legendre & Legendre (1998)
67
Zpracování dat v ekologii společenstev
zrno (grain size) – velikost nejmenší studované jednotky, zpravidla vzorkované plochy
David Zelený
PROBLÉM PROSTOROVÉ ŠKÁLY (SCALE OF THE STUDY)
David Zelený
Legendre & Legendre (1998)
68
Zpracování dat v ekologii společenstev
velikost zrna (plochy, vzorku) je dána vlastnostmi a velikostí studovaných objektů různý prostorový rozsah – zachycení různých ekologických procesů, vliv různých ekologických faktorů platí pravidlo, že studie malého rozsahu jsou hůře zobecnitelné
TVAR PLOCHY
David Zelený
obdélníková
kruhová
čtverec
obdélník
kruh
celková plocha
100 m2
100 m2
100 m2
rozměr tvaru
10 × 10 m
20 × 5 m
poloměr ≈ 5,64 m
obvod
40 m
50 m
Zpracování dat v ekologii společenstev
čtvercová
~ 35 m
69
TVAR PLOCHY
David Zelený
Whittaker
Zpracování dat v ekologii společenstev
Stohlgren
Keeley & Fotheringham (2005) J.Veg.Sci.
Kunin 70
VLIV TVARU A ORIENTACE PLOCHY NA ZAZNAMENANOU DRUHOVOU BOHATOST
David Zelený
obdélníkové plochy mohou mít vyšší druhovou bohatost než čtvercové plochy (o stejné ploše)
gradient prostředí
Zpracování dat v ekologii společenstev
71 Stohlgren et al. (1995) Vegetatio 117:113-121; Condit et al. (1996) J.Ecol. 84: 549-562; Keeley & Fotheringham (2005) J.Veg.Sci. 16: 249-256.
VELIKOST PLOCHY STUDIUM VEGETACE NA VÍCE MĚŘÍTCÍCH SOUČASNĚ
David Zelený
Zpracování dat v ekologii společenstev
72
VELIKOST PLOCHY STUDIUM VEGETACE NA VÍCE MĚŘÍTCÍCH SOUČASNĚ
David Zelený
Vztah mezi velikostí snímku a počtem druhů ve snímku – bělokarpatské louky ve srovnání s jinými typy travinné vegetace
Zpracování dat v ekologii společenstev
Jongepierová [ed.](2008): Louky Bílých Karpat.
73
David Zelený
(ECOLOGICAL RESEMBLANCE)
Zpracování dat v ekologii společenstev
EKOLOGICKÁ PODOBNOST
EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA
David Zelený
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza
vztahy mezi vzorky Q analýza
76
Zpracování dat v ekologii společenstev
Druhy
PODOBNOSTI
X VZDÁLENOSTI
(Q ANALÝZA)
David Zelený
Indexy podobnosti slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace)
nejnižší hodnota 0 – vzorky nesdílejí žádný druh
nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické
Zpracování dat v ekologii společenstev
Vzdálenosti mezi vzorky
slouží k umístění vzorků v mnohorozměrném prostoru
nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci)
hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 77
INDEXY PODOBNOSTI
David Zelený
kvalitativní vs kvantitativní kvalitativní – pro presenčně-absenční data
kvantitativní – pro data vyjadřující abundance, počty aj.
Zpracování dat v ekologii společenstev
symetrické vs asymetrické
dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích
symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají
asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii
78
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
David Zelený
Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu
Zpracování dat v ekologii společenstev
nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné)
vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty)
79
vlhkomilný druh 2
mezický druh 1
mezický druh 2
suchomilný druh 1
suchomilný druh 2
1
1
0
0
0
0
snímek 2
0
1
1
1
1
0
snímek 3
0
0
0
0
1
1
snímky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – snímek 1 je nejvlhčí, snímek 3 nejsušší
snímek 1 a 3 neobsahují ani jeden mezický druh – snímek 1 je pro tyto druhy příliš vlhký, snímek 3 příliš suchý
symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost snímků 1 a 3
asymetrické indexy: dvojité nepřítomnosti budou ignorovány
Zpracování dat v ekologii společenstev
snímek 1
David Zelený
vlhkomilný druh 1
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
80
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
ve vzorku č. 2
David Zelený
ve vzorku č. 1
druh je
a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednom vzorku d – počet druhů, které chybí v obou vzorcích („double zeros“)
Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu
c
a
b 81
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient
J = a / (a + b + c)
Sørensenův koeficient
S = 2a / (2a + b + c)
přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou váhu
Simpsonův koeficient
Zpracování dat v ekologii společenstev
David Zelený
Si = a / [a + min (b,c)]
vhodný pro vzorky velmi odlišné počtem druhů
c
a
b
82
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA
David Zelený
např. zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity)
Zpracování dat v ekologii společenstev
PS = [2 Σ min (xi, yi)] / Σ (xi + yi)
xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS
83
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES)
David Zelený
všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance
Zpracování dat v ekologii společenstev
D = 1 – S, nebo D = √ (1 – S) kde D je vzdálenost (distance) a S je podobnost (similarity) odmocninový převod se používá například pro Sørensenův koeficient neplatí obráceně (ne všechny vzdálenosti se dají převést na podobnosti – např. Euklidovská vzdálenost)
84
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES)
David Zelený
Euklidovská vzdálenost (Euclidean distance) ED = √ Σ (xi – yi)2
tětivová vzdálenost (chord distance, relativized Euclidean distance)
rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data
Zpracování dat v ekologii společenstev
Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh)
Chi-kvadrát vzdálenost (chi-square distance)
málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA)
85
EUKLIDOVSKÁ VZDÁLENOST PARADOX
David Zelený
Druhy Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
1,732 4,243
Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732 Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243
86
Zpracování dat v ekologii společenstev
může se stát, že dva vzorky, které sdílejí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2)
INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je ...
Diceův index
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
druh č. 2
David Zelený
druh č. 1
Dice = 2a / (2a + b + c)
stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948)
Pearsonův korelační koeficient r
není vhodný pro data s velkým počtem nul, ani po transformaci
87
MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY)
diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností)
1 2 3 4 5 6 7 8 9 10
1 0 12.37 11.70 17.92 13.86 10.58 11.92 10.54 13.82 15.59
2 12.37 0 11.14 13.34 16.58 13.96 9.64 13.56 13.64 13.42
3 11.70 11.14 0 14.42 16.16 11.53 10.34 13.71 14.90 13.78
4 17.92 13.34 14.42 0 18.36 15.78 9.64 17.03 14.42 7.48
5 13.86 16.58 16.16 18.36 0 13.71 14.49 9.00 14.04 15.46
6 10.58 13.96 11.53 15.78 13.71 0 11.31 11.87 10.54 12.85
7 11.92 9.64 10.34 9.64 14.49 11.31 0 13.82 12.77 9.43
8 10.54 13.56 13.71 17.03 9.00 11.87 13.82 0 10.95 14.35
matice Euklidovských vzdáleností mezi 10 vzorky
9 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 0 10.39
Zpracování dat v ekologii společenstev
je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem)
David Zelený
10 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35 10.39 0
88
99.0 98.5 98.0 97.5
Zpracování dat v ekologii společenstev
více než 90% hodnot tvoří nuly, u velkých souborů až 99%
97.0
(SPARSE MATRIX, ŘÍDKÁ MATICE)
David Zelený
V EKOLOGII SPOLEČENSTEV
Zastoupení nul v matici [%]
MATICE „VZORKY × DRUHY“
100
2000
4000
6000
8000
vzorky
Počet vegetačních snímků v matici
89
druhy
David Zelený
Zpracování dat v ekologii společenstev
NUMERICKÁ KLASIFIKACE
PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
Zpracování dat v ekologii společenstev
http://wfc3.gsfc.nasa.gov
David Zelený
vlnová délka (~ ekologický gradient)
91
PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
Zpracování dat v ekologii společenstev
http://wfc3.gsfc.nasa.gov
David Zelený
vlnová délka (~ ekologický gradient)
92
KLASIFIKACE
David Zelený
O klasifikaci obecně platí: smyslem je najít diskontinuity v jinak kontinuální realitě, které můžeme pojmenovat – například proto, abychom si usnadnili komunikaci
cílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře popsatelné a zároveň dobře odlišitelné od ostatních skupin
Zpracování dat v ekologii společenstev
O klasifikaci ekologických dat platí:
pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná stanoviště)
pokud analyzuji druhy – daná skupina obsahuje druhy s podobným ekologickým chováním
93
VYUŽITÍ KLASIFIKACE V PRAXI KNIHY A KNIHOVNA
David Zelený
Zpracování dat v ekologii společenstev
94 http://nd05.jxs.cz/
VYUŽITÍ KLASIFIKACE V PRAXI VYHLEDÁVAČ GOOGLE
David Zelený Zpracování dat v ekologii společenstev
95
KLASIFIKACE OBECNÉ ROZDĚLENÍ
David Zelený
neřízená (unsupervised, bez učitele) cílem je vytvořit novou klasifikaci pomocí datového souboru výslednou klasifikaci můžeme ovlivnit pouze výběrem metody (kombinace klasifikačního algoritmu a míry podobnosti), případně požadovaného počtu shluků numerické metody klasifikace (cluster analysis, TWINSPAN)
Zpracování dat v ekologii společenstev
řízená (supervised, s učitelem) cílem je aplikovat již existující klasifikaci („danou učitelem“) na datový soubor klasifikační systém musíme nejdříve naučit, jak má vypadat výsledná klasifikace (training), a systém ji pak reprodukuje na dalších vzorcích ANN – artificial neural networks, klasifikační stromy, náhodné lesy (random forests), COCKTAIL
96
KLASIFIKACE OBECNÉ ROZDĚLENÍ
David Zelený
subjektivní vs objektivní v době rozkvětu metod numerické klasifikace se věřilo, že numerické metody přinášejí klasifikaci založenou na objektivních kritériích, tedy tu která „skutečně existuje“ (narozdíl od té subjektivní, která je „výmyslem badatele“) všechny klasifikace jsou ale z principu subjektivní – v případě, že Bůh není, pak není nikdo, kdo by řekl, která klasifikace je jediná správná
Zpracování dat v ekologii společenstev
neformalizovaná vs formalizovaná
formalizovaná klasifikace je taková, která je provedena na základě jasných kritérií a díky tomu je možné ji znovu reprodukovat – opakem je klasifikace založená na neformálních kritériích (například pocitu), kterou pak není snadné zopakovat 97
OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT
David Zelený
Pro jaký účel klasifikaci dělám? chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce) chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit knihovnický systém kategorizace knih, používaný i v jiných knihovnách)
Zpracování dat v ekologii společenstev
Podle jakých kritérií budu objekty klasifikovat? kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu třídit podle obsahové podobnosti nebo např. podle velikosti) odpovídá výběru indexu podobnosti mezi vzorky
Jak stanovím hranice mezi jednotlivými skupinami?
odpovídá výběru klasifikačního algoritmu
98
KLASIFIKACE
hierarchické
divisivní
monotetické (asociační analýza)
Zpracování dat v ekologii společenstev
nehierarchické (K-means clustering)
David Zelený
klasifikační metody
aglomerativní (klasická cluster analysis)
polytetické (TWINSPAN) 99
KLASIFIKACE
hierarchické
divisivní
monotetické (asociační analýza)
Zpracování dat v ekologii společenstev
nehierarchické (K-means clustering)
David Zelený
klasifikační metody
aglomerativní (klasická cluster analysis)
polytetické (TWINSPAN) 100
KLASIFIKACE HIERARCHICKÁ A AGLOMERATIVNÍ
David Zelený
Shluková analýza (cluster analysis )
hierarchická metoda
shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním jednotlivých vzorků do větších skupin
základní volby:
shluky jsou hierarchicky uspořádány
aglomerativní metoda
Zpracování dat v ekologii společenstev
míra nepodobnosti mezi vzorky (distance measure) shlukovací (klastrovací) algoritmus (clustering algorithm)
pozor – NEJDE O OBJEKTIVNÍ metodu klasifikace (ta neexistuje), protože výsledná podoba klasifikace je ovlivněna řadou našich SUBJEKTIVNÍCH rozhodnutí
101
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
David Zelený
Zpracování dat v ekologii společenstev
Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme na různých úrovních zpracování dat výsledná klasifikace matice nepodobností primární data
sběr dat
• transformace • strandardizace • míra nepodobnosti (Euklidovská, Bray-Curtis atd.)
• volba důležitostní hodnoty (pokryvnost, početnost)
• výběr klastrovacího algoritmu (single linkage, complete linkage atd.)
102
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY páry vzorků seřazené podle podobností
103
výsledný dendrogram
Zpracování dat v ekologii společenstev
Legendre & Legendre 1998
matice podobností
David Zelený
Metoda jednospojná (single linkage)
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY
David Zelený
Metoda jednospojná (single linkage, nearest neighbour) vzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek
přidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický
Zpracování dat v ekologii společenstev
Metoda všespojná (complete linkage, farthest neighbour)
vzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky
přidám se ke skupině ve které je ten, kdo je mi nejmíň nesympatický
single linkage
complete linkage
104
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) DENDROGRAM
nezáleží na tom, který vzorek (skupina) je vpravo a který vlevo
9
8
3
4
12
13
20
15
16
14
19
17
18
11
10
2
7
6
5
1
0.0 0.5 1.0 1.5 2.0 2.5
Zpracování dat v ekologii společenstev
distance
záleží na tom, které vzorky jsou spojeny na které úrovni
David Zelený
105
METODA JEDNOSPOJNÁ VS VŠESPOJNÁ
David Zelený
Bray-Curtis distance / Complete linkage
Zpracování dat v ekologii společenstev
metoda jednospojná se výrazně řetězí
14 15 20
6 7
4 3
8 9
13 12 2 10 5
11 18
16
8 9 5 6 7
4 3
10
2
15 20
11 18
16
13 12
14
19
1
1
17
17 19
Bray-Curtis distance / Single linkage
106
METODA JEDNOSPOJNÁ VLIV TRANSFORMACE DRUHOVÝCH DAT
David Zelený
Single linkage / Euclidean distance / LOG transformation
Zpracování dat v ekologii společenstev
1
8
19
2 9 3
5
15 20
11 18
16
6 7
15 20
7
10 6 5
18
11
13 12 10
4
16 14
2
14
12
17 19 13
8 3
17
4
9
1
Single linkage / Euclidean distance / no transformation
transformace dat (např. logaritmická) může výrazně ovlivnit výsledný dendrogram – v případě euklidovských vzdáleností a jednospojné metody obzvlášť
107
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY
16
8 3
13 12
9
14
4
1
15 20
přidám se ke skupině, ve které jsou mi všichni v průměru nejvíc sympatičtí
11 18
2 10 17 19
UPGMA (unweighted pair-group method using arithmetic averages) – vzorek se připojí ke shluku, ke kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky
6
5 7
zahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější
Euclidean distance / UPGMA
Zpracování dat v ekologii společenstev
David Zelený
Average linkage (např. UPGMA)
108
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY
4 9 8 3
16 15 20 13 12
14
1
neměla by se kombinovat se Sørensenovým (Bray-Curtis) indexem podobnosti 11 18
2 10 6 5 7 17 19
ke shluku se připojí vzorek, jehož vzdálenost od centroidu shluku je nejmenší (počítáno přes čtverce vzdáleností mezi vzorky a centroidy shluků)
Euclidean distance / Ward's method
Zpracování dat v ekologii společenstev
David Zelený
Wardova metoda (Ward’s minimum variance method)
109
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY
nejvíc se řetězí pro β ~ 1, nejméně pro β = -1
optimální reprezentace vzdáleností mezi vzorky je při β = -0,25
Zpracování dat v ekologii společenstev
nastavení parametru β ovlivňuje řetězení dendrogramu
David Zelený
Legendre & Legendre 1998
Flexible clustering (beta flexible)
110
KLASIFIKACE
hierarchické
divisivní
monotetické (asociační analýza)
Zpracování dat v ekologii společenstev
nehierarchické (K-means clustering)
David Zelený
klasifikační metody
aglomerativní (klasická cluster analysis)
polytetické (TWINSPAN) 111
KLASIFIKACE HIERARCHICKÁ A DIVISIVNÍ
David Zelený
TWINSPAN (Two Way INdicator Species ANalysis)
divisivní metoda
začíná dělením celého souboru vzorků a postupuje směrem dolů
polytetická metoda
Zpracování dat v ekologii společenstev
každé dělení závisí na několika (indikačních) druzích (x monotetická metoda – dělení ovlivňuje jediný druh)
metoda velmi oblíbená mezi vegetačními ekology
ale – algoritmus je poměrně složitý, s řadou arbitrárních kroků, a proto má také řadu zarytých odpůrců
vzorky jsou uspořádány podle první osy korespondenční analýzy (CA, DCA) a podle ní jsou rozděleny do dvou shluků (vzorky s pozitivním skóre a negativním skóre)
metoda ošetří vzorky, které leží blízko středu osy, a které tak mají velkou pravděpodobnost, že budou špatně klasifikovány
112
KLASIFIKACE HIERARCHICKÁ A DIVISIVNÍ
David Zelený
TWINSPAN (Two Way INdicator Species ANalysis)
pseudospecies
Zpracování dat v ekologii společenstev
metoda primárně funguje pro kvalitativní data kvantitativní informace se dodává rozdělením druhů na pseudospecies podle abundance (cut levels)
výsledkem je (mimo jiné) tabulka podobná fytocenologické
snímky z určitých klastrů a druhy s vysokou fidelitou k dané skupině jsou seskupeny dohromady
metoda vhodná v případě, že jsou data strukturovaná podle jednoho výrazného gradientu
vhodné na hledání (několika málo) ekologicky interpretovatelných skupin v datech
PC-ORD, JUICE
113
TWINSPAN
David Zelený Zpracování dat v ekologii společenstev
114
MODIFIKOVANÝ TWINSPAN
(ROLEČEK ET AL. 2009)
algoritmus se po každém dělení na dvě skupiny rozhoduje, kterou ze skupin bude dále dělit – vybere tu, která je více „heterogenní“ na základě její betadiverzity
míru betadiverzity je nutné zvolit (např. Jaccardův index podobnosti)
JUICE
Zpracování dat v ekologii společenstev
na rozdíl od původního algoritmu (a) umožňuje modifikovaný TWINSPAN (b) dopředu stanovit cílový počet skupin
David Zelený
115
KLASIFIKACE
hierarchické
divisivní
monotetické (asociační analýza)
Zpracování dat v ekologii společenstev
nehierarchické (K-means clustering)
David Zelený
klasifikační metody
aglomerativní (klasická cluster analysis)
polytetické (TWINSPAN) 116
NEHIERARCHICKÁ
(shlukování metodou K-průměrů) nehierarchická metoda – všechny shluky jsou si rovny
minimalizuje sumy čtverců vzdáleností mezi vzorky uvnitř shluků
na začátku uživatel zvolí počet shluků
iterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi shluky a hledá optimální řešení
výsledek do určité míry záleží na počátečním rozmístění shluků do vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení)
STATISTICA, SYN-TAX 2000
Zpracování dat v ekologii společenstev
David Zelený
K-means clustering
Legendre & Legendre 1998
KLASIFIKACE
117
STANOVENÍ DRUHŮ TYPICKÝCH PRO JEDNOTLIVÉ SHLUKY
David Zelený
Analýza indikačních druhů (Dufrêne & Legendre 1997) - IndVal
Zpracování dat v ekologii společenstev
relativní abundance a frekvence druhu uvnitř a mimo shluk možnost testování signifikance Monte-Carlo permutačním testem
Fidelita (věrnost) druhu ke vzorku (Chytrý et al. 2002)
Phi koeficient asociace (analogie Pearsonova korelačního koeficientu r) ϕ = (ad – bc) / √ (a + b)(c + d)(a + c)(b + d)
rozsah <-1, 1>, 0 při shodné frekvenci uvnitř a vně shluku v JUICE možnost standardizace na velikost skupiny exaktní Fisherův test pro testování signifikance Počet vzorků
ve shluku A
mimo shluk A
obsahující daný druh
a
b
neobsahující daný druh
c
d
122
David Zelený
Zpracování dat v ekologii společenstev
ORDINAČNÍ ANALÝZA
KONCEPCE MNOHOROZMĚRNÉHO PROSTORU
David Zelený
Prostor může být definován 1)
druhy (species space )
2)
vzorky (sample space)
3)
druhy jsou osami mnohorozměrného prostoru vzorky jsou body v tomto prostoru zobrazení původní matice druhy-vzorky
Zpracování dat v ekologii společenstev
vzorky jsou osami mnohorozměrného prostoru druhy jsou body v tomto prostoru zobrazení původní matice druhy-vzorky
ekologickými gradienty (ecological space)
osami jsou ekologické gradienty jako body do něj lze zobrazit druhy i vzorky
134 Zuur et al. (2007)
ORDINACE OPODSTATNĚNÍ
David Zelený
Zpracování dat v ekologii společenstev
jeden gradient prostředí většinou ovlivňuje chování (abundanci) několika druhů najednou – základní chování společenstev druhová data jsou redundantní – pokud znám chování (abundanci) jednoho druhu, můžu do určité míry odhadnout chování i některých dalších druhů díky této redundanci je možné (a hlavně smysluplné) zredukovat mnohorozměrný prostor, ve kterém jsou druhy/vzorky rozmístěny (prostory 1 a 2), na několik málo dimenzí ekologického prostoru (prostor 3)
pokud by chování druhů bylo na sobě úplně nezávislé, existovala by celá řada ekvivalentních možností, jak mnohorozměrný prostor zredukovat, a ani jedna by nepřinesla nic nového
135
ORDINACE RŮZNÉ FORMULACE PROBLÉMU hledání skrytých proměnných (ordinačních os)
najdi několik proměnných (ordinačních os), které nejlépe vystihují vliv všech druhů eigenvalue based methods
Zpracování dat v ekologii společenstev
2)
David Zelený
1)
rozmístění vzorků v ordinačním prostoru
najdi takové rozmístění vzorků v redukovaném ordinačním prostoru, aby vzdálenost mezi vzorky co nejvěrněji odrážela jejich nepodobnost vypočtenou z druhového složení jednotlivých vzorků distance based methods
136 http://ordination.okstate.edu/
NEPŘÍMÁ VS PŘÍMÁ ORDINACE UNCONSTRAINED VS CONSTRAINED ORD.
David Zelený
Nepřímá ordinace vychází pouze z matice vzorky × druhy
hledá proměnné (ordinační osy), které nejlépe reprezentují variabilitu v druhových datech
slouží k popisu mnohorozměrných dat (pattern description) a generování hypotéz, ne k testování hypotéz
Zpracování dat v ekologii společenstev
Přímá ordinace
vychází ze dvou matic: vzorky × druhy a vzorky × proměnné prostředí
ordinační osy představují směr největší variability v druhových datech, která může být vysvětlena na základě a priori známých proměnných prostředí
slouží spíše k testování hypotéz o vlivu proměnných prostředí na druhová data, neslouží k popisu dat
137
MODELY ODPOVĚDI DRUHŮ NA GRADIENT PROSTŘEDÍ
David Zelený
unimodální
Zpracování dat v ekologii společenstev
abundance
1.5 1.0
abundance
2.0
lineární
0.0
0.2
0.4
0.6
gradient
0.8
gradient 138
LINEÁRNÍ MODEL ODPOVĚDI DRUHU JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU
David Zelený
abundance druhu
abundance druhu
dlouhý ekologický gradient
Zpracování dat v ekologii společenstev
krátký ekologický gradient
gradient prostředí (pH, nadm. výška)
gradient prostředí (pH, nadm. výška)
139 Lepš & Šmilauer (2003) Multivariate analysis of ...
ZÁKLADNÍ TYPY ORDINAČNÍCH TECHNIK (ZALOŽENÝCH NA VÝPOČTU EIGENVALUES)
nepřímá ordinace (unconstrained)
PCA (Principal Component Analysis, analýza hlavních komponent)
CA (Correspondence Analysis, korespondenční analýza) DCA (Detrended Correspondence analysis, detrendovaná korespondenční analýza)
přímá ordinace (constrained)
RDA (Redundancy Analysis, redundanční analýza)
CCA (Canonical Correspondence Analysis, kanonická korespondenční analýza)
Zpracování dat v ekologii společenstev
unimodální odpověď druhů
David Zelený
lineární odpověď druhů
140
NEPŘÍMÁ ORDINACE PRINCIP
první ordinační osa (ordination axis) a skóre vzorků na této ordinační ose (sample scores)
odhad optima (odpovědi) jednotlivých druhů na této ose (species scores)
druhá a vyšší ordinační osy – musejí být lineárně nezávislé na všech nižších ordinačních osách
Zpracování dat v ekologii společenstev
hledání skryté proměnné (gradientu), který nejlépe reprezentuje chování všech druhů podél tohoto gradientu
David Zelený
141
NEPŘÍMÁ ORDINACE PRINCIP (PCA) 2
1
samp2
3
4
samp3
5
0
samp4
7
6
samp5
9
2
samp4
sp2
samp1
Zpracování dat v ekologii společenstev
sp2
David Zelený
sp1
samp2
samp5 samp1 samp3
sp1 a)
b) c) d)
rozmístění vzorků v prostoru definovaném druhy výpočet těžiště shluku centrování os rotace os 142 Legendre & Legendre (1998)
NEPŘÍMÁ ORDINACE ALGORITMUS (CA)
David Zelený
5 výpočetních kroků 1.
3.
Zpracování dat v ekologii společenstev
2.
začni s arbitrárním (náhodným) skóre vzorků (xi) vypočti nové skóre pro jednotlivé druhy (species score, yi) jako průměr skóre vzorků xi vážený abundancí druhu ve vzorcích vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako průměr skóre druhů yi vážený abundancí druhů ve vzorku
4.
standardizuj skóre jednotlivých vzorků (natáhni osu)
5.
pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2
143
NEPŘÍMÁ ORDINACE CA – UNIMODÁLNÍ METODA
David Zelený
Zpracování dat v ekologii společenstev
144 Lepš & Šmilauer (2003) Multivariate analysis of ...
NEPŘÍMÁ ORDINACE CA – UNIMODÁLNÍ METODA
David Zelený
Zpracování dat v ekologii společenstev
145 Lepš & Šmilauer (2003) Multivariate analysis of ...
NEPŘÍMÁ ORDINACE CA – UNIMODÁLNÍ METODA
David Zelený
Zpracování dat v ekologii společenstev
146 Lepš & Šmilauer (2003) Multivariate analysis of ...
NEPŘÍMÁ ORDINACE CA – UNIMODÁLNÍ METODA
David Zelený
Zpracování dat v ekologii společenstev
147 Lepš & Šmilauer (2003) Multivariate analysis of ...
NEPŘÍMÁ ORDINACE CA – UNIMODÁLNÍ METODA
David Zelený
Zpracování dat v ekologii společenstev
148 Lepš & Šmilauer (2003) Multivariate analysis of ...
ORDINAČNÍ DIAGRAMY
David Zelený Zpracování dat v ekologii společenstev
přímá ordinace
149 Lepš & Šmilauer (2003) Multivariate analysis of ...
nepřímá ordinace
unimodální metoda lineární metoda
ORDINAČNÍ DIAGRAMY KONVENCE -> body
zobrazení druhů -> šipky (lineární metody) -> body, centroidy (unimodální metody)
zobrazení ordinačních os
zobrazení proměnných prostředí
vodorovná bývá osa vyššího řádu (např. první) orientace os je arbitrární šipky (kvantitativní proměnné) centroidy (kategoriální proměnné)
typ ordinačního diagramu:
scatterplot - 1 typ dat (vzorky nebo druhy) biplot - 2 typy dat (např. vzorky a druhy) triplot - 3 typy dat (např. vzorky, druhy a proměnné prostředí)
150
Zpracování dat v ekologii společenstev
David Zelený
zobrazení vzorků
Lepš & Šmilauer (2003) Multivariate analysis of ...
ARTEFAKTY V ORDINACÍCH
151
Zpracování dat v ekologii společenstev
Oblouk (Arch effect ) CA pořadí vzorků podél první osy stále odráží jejich nepodobnost druhá osa je nelineární kombinací první osy
David Zelený
http://ordination.okstate.edu
Podkova (Horseshoe effect ) PCA pořadí vzorků podél první osy neodráží jejich skutečnou nepodobnost v extrémním případě se mohou okraje přiblížit nebo dokonce překřížit
ARTEFAKTY V ORDINACÍCH
David Zelený
Podkova a oblouk (Horseshoe and arch effect)
důsledek projekce - nelineární vztahy mezi druhy a gradienty prostředí se promítají do lineárního prostoru definovaného Euklidovskými vzdálenostmi
152
Zpracování dat v ekologii společenstev
důsledek algoritmu - každá následující osa musí být lineárně nezávislá na předchozích osách, ale neuvažuje se nelineární závislost
http://ordination.okstate.edu
SIMULOVANÁ DATA POUZE JEDEN EKOLOGICKÝ GRADIENT
300 druhů s unimodální odpovědí, různými šířkami nik
500 vzorků náhodně rozmístěných podél gradientu
Zpracování dat v ekologii společenstev
simulovaný gradient dlouhý 5000 jednotek
David Zelený
153
SIMULOVANÁ DATA ARTEFAKTY
David Zelený
PCA - podkova
CA - oblouk
Zpracování dat v ekologii společenstev
o vzorky + druhy
154
ARTEFAKTY V ORDINACÍCH MOŽNOSTI ŘEŠENÍ
David Zelený
odstranění trendu z ordinačních os (detrending) detrendovaná korespondenční analýza, Detrended Correspondence Analysis (DCA, Hill & Gauch 1980) detrending by segments (nejčastější) detrending by polynomials (pokud v analýze používám kovariáty)
Zpracování dat v ekologii společenstev
použití takových ordinačních technik, které umožňují ordinaci vzorků v prostoru pomocí jiných metrik než je Euklidovská distance (PCA) nebo chi-kvadrát distance (CA) analýza hlavních koordinát, Principal Coordinate Analysis (PCoA) nemetrické mnohorozměrné škálování, Non-metric Multidimensional Scaling (NMDS)
155
DETRENDED CORRESPONDENCE ANALYSIS PROCES ODSTRANĚNÍ TRENDU
David Zelený
Krok 1 – rozdělení první osy na několik segmentů
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
Krok 2 – vycentrování druhé osy každého segmentu kolem nuly
156
DETRENDED CORRESPONDENCE ANALYSIS PROCES ODSTRANĚNÍ TRENDU
David Zelený
-> výsledný ordinační diagram má osy naškálované v jednotkách směrodatné odchylky (SD)
Zpracování dat v ekologii společenstev
ter Braak (1987)
Krok 3 – nelineární přeškálování první osy, které odstraňuje nahloučení vzorků na koncích gradientů
-> platí, že druhové složení se změní o polovinu na gradientu o délce 1-1,4 SD (half-change in species composition), celé druhové složení se obmění na 4 SD
157
http://ordination.okstate.edu
DETRENDED CORRESPONDENCE ANALYSIS VÝHODY A NEVÝHODY
David Zelený
Zpracování dat v ekologii společenstev
neelegantní metoda, která je někdy přirovnávána k použití kladiva na data (hlavně část týkající se rozdělení osy na segmenty a jejich centrování) výsledek je silně ovlivněn arbitrárním rozhodnutím o počtu segmentů (doporučuje se vyzkoušet více možností) pokud jsou v datech dva nebo více hlavních gradientů (ordinačních os), DCA si s nimi neporadí (detrending do určité míry poškodí druhou a vyšší ordinační osy) i kladivo, pokud je v rukou odborníka, může být použito efektivně - metoda často dává ekologicky dobře interpretovatelné výsledky
osy DCA jsou v jednotkách SD, které umožňují zjistit, jak dlouhý gradient naše data pokrývají
158
SIMULOVANÁ DATA (JEDEN EKOLOGICKÝ GRADIENT) DCA
David Zelený
Zpracování dat v ekologii společenstev
o vzorky + druhy
159
VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ?
kuchařka alá Lepš & Šmilauer (2003) - zjištění délky gradientu (heterogenity dat) pomocí metody DCA, detrending by segments
pokud je délka 1. osy DCA
Zpracování dat v ekologii společenstev
lineární metody vyžadují homogenní data, unimodální jsou vhodná i pro data heterogenní
David Zelený
menší než 3 SD – použiji lineární techniku větší než 4 SD – použiji unimodální techniku v rozmezí 3-4 SD – obě techniky pracují rozumně
alternativní doporučení (Legendre & Gallagher 2001) – na data aplikovat Hellingerovu transformaci a dále je zpracovávat pomocí lineárních metod, které jsou robustnější
160
PCOA (PRINCIPAL COORDINATE ANALYSIS) ORDINACE ZALOŽENÁ NA DISTANCÍCH
alternativní metoda nepřímé ordinace
vstupní data – matice nepodobností mezi vzorky
výpočet matice nepodobností – jakýkoliv index nepodobnosti
Zpracování dat v ekologii společenstev
syn. MDS – Metric Dimensional Scaling
David Zelený
pokud zvolím Euklidovskou vzdálenost -> identické s PCA pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA
v CANOCO se počítá programem PrCoord
161
NMDS (NON-METRIC MULTIDIMENSIONAL SCALING) ORDINACE ZALOŽENÁ NA DISTANCÍCH
vstupní data – matice nepodobností mezi vzorky
výpočet matice nepodobností – jakýkoliv index nepodobnosti
výsledek je značně ovlivněn výběrem indexu nepodobnosti
iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima)
na začátku je nutno určit počet dimenzí, se kterými bude metoda pracovat (obvykle k = 2 nebo 3)
při větším množství dat VELMI časově náročná
v CANOCO se počítá programem WinKyst, který je ke stažení zde: http://www.canodraw.com/winkyst.htm
Zpracování dat v ekologii společenstev
další alternativa nepřímých ordinací, nemetrická varianta PCoA
David Zelený
162
NMDS NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
Zpracování dat v ekologii společenstev
náhodné rozmístění vzorků v prostoru
rozmístění vzorků v prostoru respektuje jejich nepodobnost
163
NMDS NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
stress = 7.47
vzdálenost mezi vzorky v ordinačním diagramu
Zpracování dat v ekologii společenstev
nepodobnost v druhovém složení mezi vzorky
164
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
165 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
166 při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt)
má tendenci jakákoliv data zobrazit jako kouli
POROVNÁNÍ METOD DCA A NMDS SIMULOVANÁ DATA (JEDEN GRADIENT)
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
o vzorky + druhy
167
SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
Gradient 2
Zpracování dat v ekologii společenstev
168
Gradient 1
SIMULOVANÁ DATA
DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený Zpracování dat v ekologii společenstev
169
SIMULOVANÁ DATA
DVA STEJNĚ DLOUHÉ GRADIENTY
David Zelený Zpracování dat v ekologii společenstev
170
SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
krátké gradienty
dlouhé gradienty
Zpracování dat v ekologii společenstev
171
POROVNÁNÍ METOD ZALOŽENÝCH NA VÝPOČTU EIGENVALUES A DISTANCÍ
David Zelený
Eigenvalue-based ordination methods DCA, PCA a CA a jejich omezené (constrained) varianty DCCA, RDA a CCA
vstupní data = matice vzorky x druhy, ze kterých se extrahují hlavní ordinační osy (eigenvectors)
interpretace zaměřena na směry variability v datech, vysvětlené jednotlivými ordinačními osami
Zpracování dat v ekologii společenstev
Distance-based ordination methods
NMDS a PCoA
vstupní data = matice nepodobností
interpretace zaměřena se na vzdálenosti mezi vzorky v redukovaném ordinačním prostoru
172
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI DVA ALTERNATIVNÍ POSTUPY
oba přístupy jsou relevantní a navzájem se doplňují!
173 Legendre & Legendre (1998)
Zpracování dat v ekologii společenstev
X – samples × environmental factors matrix
David Zelený
Y – samples × species matrix
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI DVA ALTERNATIVNÍ POSTUPY nepřímá ordinace + korelace
získám skóre vzorků na hlavních ordinačních osách skóre vzorků koreluji s jednotlivými proměnnými prostředí
Zpracování dat v ekologii společenstev
+ ‒ 2.
David Zelený
1.
určitě zachytím hlavní gradienty v druhovém složení nemusím zachytit tu část variability v druhovém složení, která je vztažená k jednotlivým proměnným prostředí
přímá ordinace
+ ‒
proměnné prostředí vstupují přímo jako vysvětlující proměnné do ordinace skóre vzorků na osách je ovlivněno vztahem k těmto proměnným prostředí určitě zachytím variabilitu v datech, která se vztahuje k jednotlivým proměnným prostředím nemusím zachytit část variability v druhových datech, která není vysvětlena žádnou proměnnou prostředí
174
10
60
5
15
20
25
30
sam 7
20
10
15 gradient
sam 3
25
30
sam 2 sam 3 sam 4 sam 5
-20
sam 4
20
0
5
species 1 (residual)
0
residuály
20
40
sam 1
sam 2
sam 6
sam 5 sam 6 sam 7
spe 3
sam 6
gradient
0
env 2
env 1 sam 1
spe 3
sam 5
40
species 1
sam 7
spe 2
sam 4
0
sam 6
spe 2
sam 5
spe 1
40
sam 3
80
sam 4
sam 2
60
80
100
sam 3
species 1 (predicted)
sam 2
sam 1
20
regrese abundance druhu na proměnné prostředí
sam 1
predikované hodnoty
0
spe 3
spe 2
spe 1
100
matice vzorky × druhy
spe 1
PŘÍMÁ ORDINAČNÍ ANALÝZA
matice s vysvětlujícími proměnnými
sam 7 0
5
10
15 gradient
20
25
30
ordinační osy s omezením (constrained axes)
spe 3
spe 2
spe 1
matice predikovaných hodnot
počet ordinačních os s omezením = počet vysvětlujících proměnných
sam 1 sam 2
ordinace
sam 3 sam 4
(pokud je vysvětlující proměnná kategoriální, počet os je roven počtu kategorií minus 1)
sam 5 sam 6
spe 3
spe 2
spe 1
sam 7
sam 1 sam 2
ordinace
sam 3 sam 4 sam 5 sam 6 sam 7
176 matice residuálů
ordinační osy bez omezení (unconstrained axes)
PŘÍMÁ ORDINACE INTERPRETACE VÝSLEDKŮ
David Zelený
RDA
Zpracování dat v ekologii společenstev
CCA
177
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
test první kanonické osy – vliv jen jedné kvantitativní proměnné
test všech kanonických os – vliv všech proměnných, nebo vliv jedné kategoriální proměnné s více kategoriemi (počet os = počet kategorií – 1)
testová statistika – Fdata (pseudo-F)
Zpracování dat v ekologii společenstev
testuje nulovou hypotézu, že druhové složení je nezávislé na vysvětlující proměnné
David Zelený
P – hladina signifikance nx – počet permutací, kde Fperm >= Fdata N – celkový počet permutací
178
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
179 Herben & Münzbergová 2001
PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
randomizace ploch bez omezení (unrestricted randomization)
randomizace ploch v blocích (randomization within blocks defined by covariables)
180
Herben & Münzbergová 2001
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? procento variability vysvětlené hlavními osami
CANOCO: cummulative percentage variance of species data vypočte se také jako eigenvalue / total variance ukazuje, jak úspěšný byl celý proces ordinace čím více jsou jednotlivé druhy korelované, tím více variability bude vysvětleno několika málo hlavními osami má smysl srovnávat vysvětlenou variabilitu hlavních os různými ordinačními technikami na stejných datech nemá smysl srovnávat vysvětlenou variabilitu hlavních os stejnými ordinačními technikami na různých datech (eigenvalues jsou závislé na počtu hráčů ve hře – druhů, vzorků)
Zpracování dat v ekologii společenstev
David Zelený
skóre (souřadnice) závisle proměnných (druhů) na osách u lineárních technik skóre = regresní koeficient, v ordinačních diagramech zobrazeny jako šipky u unimodálních technik skóre = optimum druhu, v ordinačních diagramech zobrazeny jako body
181
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD?
David Zelený
skóry vzorků (snímků) na osách v ordinačních diagramech vzorky zobrazeny jako body (lineární i unimodální techniky) vzdálenost mezi body v ordinačním prostoru odpovídá nepodobnosti mezi vzorky (ne ale nepodobnosti celého floristického složení, ale jenom té části, která je vyjádřena zobrazenými ordinačními osami)
skóry nezávislých (vysvětlujících proměnných) *
Zpracování dat v ekologii společenstev
regresní koeficienty, důležitá jsou jejich znaménka
test signifikance (Monte-Carlo permutační test) *
ukazuje na statistickou významnost použitých vysvětlujících proměnných 182
* jen přímé ordinační techniky
JEDNOTLIVÉ PROMĚNNÉ TERMINOLOGIE vysvětlované / závislé proměnné
CANOCO: druhy (species)
Zpracování dat v ekologii společenstev
David Zelený
vysvětlující / nezávislé proměnné, prediktory * CANOCO: proměnné prostředí (environmental variables) měřené nebo odhadované proměnné
vzorky, objekty, případy (cases)
CANOCO: snímky (samples)
kovariáty, nezajímavé vysvětlující / nezávislé proměnné * CANOCO: kovariáty (covariables) proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy odstranit
183
* jen přímé ordinační techniky
POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH FORWARD SELECTION
v každém kroku testuje zvlášť vliv jednotlivých proměnných (Monte-Carlo permutační test)
vybere tu proměnnou, která vysvětlí nejvíce variability a zároveň je signifikantní; tuto proměnnou pak do modelu zahrne jako kovariátu
v dalším kroku znovu testuje vliv jednotlivých proměnných na druhová data (s odstraněním vlivu kovariát) a opakuje předchozí kroky
testy signifikance jsou zatíženy mnohonásobným porovnáním, a jsou proto poměrně liberální (počet signifikantních proměnných je často nerealisticky vysoký a vyžaduje např. Bonferroniho korekci)
Zpracování dat v ekologii společenstev
ze souboru vysvětlujících proměnných umožňuje vybrat jen ty, které mají průkazný vliv
David Zelený
184
PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ
David Zelený
Simulace: 25 náhodně vygenerovaných proměnných
otestování průkaznosti korelace každé proměnné s každou (čtvercová matice)
průkazné korelace (p < 0.05) jsou označeny červeně
dohromady 300 analýz, z nich je 16 průkazných
Zpracování dat v ekologii společenstev
185
PARCIÁLNÍ ORDINACE PARTIAL ORDINATION
následně se přímou nebo nepřímou ordinací analyzuje zbytková variabilita
„nezajímavé“ proměnné se definují jako kovariáty
pokud následuje přímá ordinace – ordinační osy představují čistý vliv ostatních vysvětlujících proměnných bez vlivu kovariát
pokud následuje nepřímá ordinace – ordinační osy zachycují zbytkovou variabilitu v druhových datech po odstranění vlivu kovariát
Zpracování dat v ekologii společenstev
odstraňuje část variability vysvětlené proměnnými, které jsou pro nás nezajímavé (například vliv umístění ploch do bloků)
David Zelený
186
ROZKLAD VARIANCE VARIANCE PARTITIONING
Zpracování dat v ekologii společenstev
vysvětlená variabilita sdílená proměnnou 1 a proměnnou 2
David Zelený
variabilita vysvětlená proměnnou 1 variabilita vysvětlená proměnnou 2
Borcard et al. 1992, Ecology 73: 1045–1055
zbytková variabilita
187
ROZKLAD VARIANCE VARIANCE PARTITIONING vysvětlená variabilita
1a2
není
[a]+[b]+[c]
1
není
[a]+[b]
2
není
[b]+[c]
1
2
[a]
2
1
[c]
[d]
[a]
proměnná 1
[b]
Zpracování dat v ekologii společenstev
kovariáta
David Zelený
vysvětlující proměnná
[c]
proměnná 2
sdílená variabilita [b] = (([a]+[b]) + ([b]+[c]) – ([a]+[b]+[c])) nevysvětlená variabilita [d] = Total inertia – ([a]+[b]+[c]) [a]+[b] – celkový (marginal) vliv proměnné 1 [a] – čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2) Borcard et al. 1992, Ecology 73: 1045–1055
188
David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2 ● R2 ○ R2Adj
Zpracování dat v ekologii společenstev
počet vysvětlujících proměnných
počet vzorků v datovém souboru
vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru, adjustovaný R2 se nemění
platí pro přímou (kanonickou) ordinační analýzu i mnohonásobnou regresi Peres-Neto et al. (2006) Ecology
189
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2
i náhodná proměnná vysvětlí nenulové množství variability (při následném testování signifikance ale bude neprůkazná)
množství vysvětlené variability stoupá s počtem vysvětlujících proměnných (i když tyto jsou třeba úplně náhodné)
nelze srovnávat variabilitu vysvětlenou modelem s různým počtem vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené variability)
možné řešení – použití tzv. adjustovaného R2, tzn. vysvětlené variability ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných proměnných
adjustovaný R2 je možné spočítat pro lineární ordinační metody, pro unimodální je třeba použít metody založené na permutacích
Zpracování dat v ekologii společenstev
nelze srovnávat vysvětlenou variabilitu v analýzách založených na různém počtu vzorků a druhů
David Zelený
190
NEVYSVĚTLENÁ VARIABILITA [d]
variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje variabilitu, která by mohla být vysvětlena některou z proměnných, pokud by se data chovala podle teoretického modelu
varianci nevysvětlenou modelem tedy nelze interpretovat jen jako zbytkovou variabilitu, která je dána šumem v datech a tím, že ne všechny proměnné prostředí byly měřeny
Total inertia proto není měřítkem celkové variability v druhových datech, ale variability, kterou je možné zachytit pomocí zvoleného modelu (lineárního nebo unimodálního)
variabilita vysvětlená danou proměnnou prostředí a vypočtená jako eigenvalue / total inertia je proto podhodnocená
vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte také relativní množství variability, kterou daná proměnná vysvětlí z celkové variability vysvětlené všemi proměnnými prostředí
191
Zpracování dat v ekologii společenstev
David Zelený
ordinační metody jsou založené na modelu (lineární nebo unimodální) odpovědi druhu na gradient prostředí, který je velkým zjednodušením skutečnosti
Økland (1999) J. Veg.Sci. 10: 131-136
MANTEL TEST KORELACE MEZI MATICEMI NEPODOBNOSTÍ
David Zelený
Zpracování dat v ekologii společenstev
193 Legendre & Legendre 1998
MANTEL TEST
David Zelený
De
proměnná prostředí 1
0
1
4.5
2
0.4
0
2
4.1
3
0.3
0.1
0
3
4.2
4
0.7
0.4
0.3
0
4
3.8
1
2
3
4
druhová data
Dsp
sp1
sp2
1
0
1
0
3
2
1.41
0
2
1
2
3
0.3
0.1
0
3
1
2
4
0.7
0.4
0.3
0
4
2
1
1
2
3
4
(eucl.)
De
Dsp
0.4
1.41
0.3
1.41
0.1
0
0.7
2.5
0.4
1.41
0.3
1.41
Zpracování dat v ekologii společenstev
pH
r = 0.965 p = 0.015 194
SHRNUTÍ
David Zelený Zpracování dat v ekologii společenstev
195 Legendre & Legendre 1998
PCA – PŘÍKLAD TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH
David Zelený
Zpracování dat v ekologii společenstev
199
Nobis & Wohlgemuth (2004) Oikos
David Zelený Zpracování dat v ekologii společenstev
200
Nobis & Wohlgemuth (2004) Oikos
DCA – PŘÍKLAD FLORISTICKÁ DATA Z
NP PODYJÍ
David Zelený
Zpracování dat v ekologii společenstev
skóry pro jednotlivé kvadráty z 1. a 2. osy DCA (na základě jejich floristického složení) byly promítnuty do síťové mapy
201
Chytrý et al. (1999) Preslia
PCA – PŘÍKLAD
Zpracování dat v ekologii společenstev
Výrazný úbytek druhové bohatosti bylinného (E1) a keřového (E2) patra v posledních 50ti letech. Data jsou založená na zopakování fytocenologických snímků na plochách snímkovaných Jaroslavem Horákem v šedesátých letech.
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH DUBOHABŘIN (R. HEDL 2005, DISERTAČNÍ PRÁCE)
Změna v druhovém složení vegetace v průběhu 50ti let samovolné sukcese (PCA diagram).
202
NMDS PŘÍKLAD
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ KORÁLOVÝCH ÚTESŮ ZASAŽENÝCH DISTURBANCÍ EL NINO
Zpracování dat v ekologii společenstev
203 Anderson et al. (2011) Ecology Letters
RDA – PŘÍKLAD VLIV ZÁSAHU NA KLÍČENÍ SEMENÁČŮ
David Zelený
RDA: počet semenáčů jednotlivých druhů v ploškách 10×10 cm jako závislá proměnná, zásah jako vysvětlující proměnná; eig. 1. osy: 0,046, eig. 4. osy: 0,331, MC test 1. osy: p < 0,01
Zpracování dat v ekologii společenstev
204 Špačková et al.(1998) Folia Geobotanica
CCA – PŘÍKLAD ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY
David Zelený
Zpracování dat v ekologii společenstev
Vojta (2007) Preslia
205
CCA – PŘÍKLAD STANOVENÍ EKOLOGICKÉHO OPTIMA JEDNOTLIVÝCH
David Zelený
DRUHŮ MĚKKÝŠŮ PODÉL EKOLOGICKÝC GRADIENTŮ
Zpracování dat v ekologii společenstev
206
Horsák et al. (2007) Acta Oecologica
David Zelený
ELLENBERGOVY INDIKAČNÍ HODNOTY
Zpracování dat v ekologii společenstev
2 5 3 2 6 6
ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH)
hodnoty na ordinální škále (1-9, případně 1-12 pro vlhkost)
optima stanovená na základě terénních pozorování, v některých případech upřesněna experimentálně
hodnoty tabelované původně pro Německo, ale používané i v okolních zemích, pro vzdálenější státy (Anglie, Itálie, Řecko) byly tyto hodnoty překalibrovány, jinde (Maďarsko, Švýcarsko) se používají alternativní hodnoty od jiných autorů (Borhidi, resp. Landolt)
tabulky obsahují pouze údaje o druhových optimech, ne o šířkách druhové niky
v případě, že nemám měřená data o proměnných prostředí, průměrné EIH nabízejí ekologicky intuitivní odhad stanovištních podmínek
Zpracování dat v ekologii společenstev
optima druhů rostlin na gradientu živin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se ve Střední Evropě nepoužívá)
David Zelený
209
ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) POUŽITÍ PRO KALIBRACI
David Zelený
1
2
3
6 7 7 4 7 5 3 2 1 2 3
1 0 1 0 1 0 1 0 1 0 0
0 1 0 1 1 0 1 1 1 0 1
0 1 1 0 0 1 0 1 0 1 0
Zpracování dat v ekologii společenstev
Mycelis muralis Moehringia trinervia Mercurialis perennis Lathyrus vernus Myosotis sylvatica Milium effusum Melica nutans Melampyrum pratense Myosotis ramosissima Lychnis viscaria Melittis melissophyllum
EIV pro půdní reakci
4.8
průměr
210
ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) POUŽITÍ PRO KALIBRACI
David Zelený
1
2
3
6 7 7 4 7 5 3 2 1 2 3
1 0 1 0 1 0 1 0 1 0 0
0 1 0 1 1 0 1 1 1 0 1
0 1 1 0 0 1 0 1 0 1 0
průměrná hodnota:
4.8
3.9
4.6
Zpracování dat v ekologii společenstev
Mycelis muralis Moehringia trinervia Mercurialis perennis Lathyrus vernus Myosotis sylvatica Milium effusum Melica nutans Melampyrum pratense Myosotis ramosissima Lychnis viscaria Melittis melissophyllum
EIV pro půdní reakci
211
PROČ SE EIH TVÁŘÍ JAKO LEPŠÍ PROMĚNNÉ NEŽ MĚŘENÉ FAKTORY PROSTŘEDÍ? díky způsobu jak jsou počítány, obsahují průměrné EIH informaci o podobnosti v druhovém složení mezi vegetačními snímky
průměrná EIH pro daný vegetační snímek obsahuje dvojí informaci: 1.
2.
vegetační snímky s úplně stejným druhovým složením budou mít přesně stejné průměrné EIH – pro měřené faktory toto ale neplatí malý rozdíl v druhovém složení mezi vegetačními snímky povede jen k malému rozdílu v jejich průměrných EIH
Zpracování dat v ekologii společenstev
David Zelený
ekologicky relevantní informaci o charakteru stanoviště, a to díky použití tabelovaných druhových EIH, které jsou založeny na empirických pozorování ekologických nároků druhů v terénu informaci o podobnosti druhového složení daného snímku k ostatním snímkům v datovém souboru, která je v nich „uložena“ díky způsobu, jak jsou průměrné EIH počítány
měřené faktory prostředí obsahují jen informaci o ekologickém charakteru stanoviště, ne o podobnosti v druhovém složení
212
VÝPOČET PRŮMĚRNÝCH EIH
David Zelený
Empirická zkušenost s ekologií druhů
průměrné Ellenbergovy indikační hodnoty
Zpracování dat v ekologii společenstev
H. Ellenberg
Data o druhovém složení
průměrná EIH pro daný vegetační snímek obsahuje dvojí informaci: 1.
2.
ekologicky relevantní informaci o charakteru stanoviště, a to díky použití tabelovaných druhových EIH, které jsou založeny na empirických pozorování ekologických nároků druhů v terénu informaci o podobnosti druhového složení daného snímku k ostatním snímkům v datovém souboru, která je v nich „uložena“ díky způsobu, jak jsou průměrné EIH počítány
213
VÝPOČET PRŮMĚRNÝCH EIH
David Zelený
Empirická zkušenost s ekologií druhů
průměrné Ellenbergovy indikační hodnoty
Zpracování dat v ekologii společenstev
H. Ellenberg
Data o druhovém složení
díky způsobu jak jsou počítány, obsahují průměrné EIH informaci o podobnosti v druhovém složení mezi vegetačními snímky vegetační snímky s úplně stejným druhovým složením budou mít přesně stejné průměrné EIH – pro měřené faktory toto ale neplatí malý rozdíl v druhovém složení mezi vegetačními snímky povede jen k malému rozdílu v jejich průměrných EIH
214
VÝPOČET PRŮMĚRNÝCH EIH
David Zelený
Empirická zkušenost s ekologií druhů
průměrné Ellenbergovy indikační hodnoty
Zpracování dat v ekologii společenstev
H. Ellenberg
Data o druhovém složení
‼
problém nastává v okamžiku, kdy jsou průměrné EIH analyzovány současně s daty o druhovém složení, ze kterých jsou vypočteny
215
VYTVOŘENÍ PRŮMĚRNÝCH EIH, KTERÉ NEOBSAHUJÍ EKOLOGICKOU INFORMACI
David Zelený
Zpracování dat v ekologii společenstev
průměrné reálné EIH pro půdní reakci:
průměrné znáhodněné EIH pro půdní reakci:
průměrné reálné EIH – obsahují ekologicky relevantní informaci a informaci o podobnosti v druhovém složení
průměrné znáhodněné EIH – obsahují pouze informaci o podobnosti v druhovém složení (ekologicky relevantní informace byla zničena promícháním druhových EIH mezi druhy)
216
KORELACE PRŮMĚRNÝCH EIH SE SKÓRY SNÍMKŮ NA OSÁCH DCA
David Zelený
Počet signifikantních korelací mezí osami DCA a průměrnými znáhodněnými EIH (šedé sloupečky) nebo náhodnými čísly (bílé sloupečky) – 1000 opakování
Zpracování dat v ekologii společenstev
průměrná EIH bude s velkou pravděpodobností signifikantně korelovaná s DCA, i když neobsahuje ekologickou informaci!
217
PRŮMĚRNÉ EIH V NEPŘÍMÉ ORDINACI
David Zelený
DCA2
R2
Porig
Pmodif
Světlo
0,477
0,879
0,600
< 0,001
0,004
Teplota
0,350
0,937
0,471
< 0,001
0,011
Kontinentalita
0,726
0,688
0,148
0,004
0,452
Vlhkost
-0,925
0,381
0,897
< 0,001
< 0,001
Živiny
-0,998
0,066
0,831
< 0,001
< 0,001
Půdní reakce
-0,653
0,757
0,429
< 0,001
0,032
Zpracování dat v ekologii společenstev
DCA1
218
+
+ + + +
+
+ + + +
3 +
+
4
3
2
1
+
2
+
3.5
náhodná čísla
5
++ + + + + + ++ ++ + ++ + + + ++ + + +++ + ++ + ++ + + ++ + + + + + + + + + + + + + + ++ + + + + + + + + + + ++ + + ++
+
průměrné znáhodnéné EIH
+ +
++
průměrné reálné EIH
6
+
náhodná čísla
+ +
měřené pH
+ ++
[%] Explained variability variabilita vysvětlená [%]
Ellenberg Mean půdní reakci proreaction EIH průměrná
Zpracování dat v ekologii společenstev
5
7
4
David Zelený
POROVNÁNÍ MĚŘENÉHO PŮDNÍHO PH A VYPOČTENÉ PRŮMĚRNÉ EIH PRO PŮDNÍ REAKCI VYSVĚTLUJÍCÍ PROMĚNNÉ V CCA
0 4.0
4.5
měřené pH
Measured soil pH
5.0
real pH měřené pH
Ellenberg reaction
EIH pro půdní reakci
Průměrná EIH pro půdní reakci vysvětlí víc variability než měřené pH, i když obě proměnné jsou spolu těsně korelované
219
PRŮMĚRNÉ ELLENBERGOVY INDIKAČNÍ HODNOTY PRAVIDLA POUŽITÍ
pokud jsou k dispozici relevantní měřené faktory prostředí, není třeba používat zároveň i průměrné EIH jen proto, že je tak snadné je vypočíst
průkaznost jejich vztahu s jinými proměnnými, které jsou odvozeny ze stejných druhových dat, by měla být testována modifikovaným permutačním testem, který bere v potaz skutečnost, že testované proměnné na sobě nejsou nezávislé
průměrné EIH by neměly být bez dalšího statistického ošetření srovnávány s analogickými měřenými faktory prostředí, protože se oproti nim mohou neoprávněně jevit lepšími, než ve skutečnosti jsou (například tím, že jsou lépe korelované nebo častěji a více průkazné)
Zpracování dat v ekologii společenstev
použití průměrných EIH v analýze spolu s jinými proměnnými vypočtenými z těchto dat může vést k závěrům, které jsou optimističtější, než by ve skutečnosti měly být
David Zelený
221
PŘÍKLADY NA POUŽÍTÍ PRŮMĚRNÝCH EIH
David Zelený
Zpracování dat v ekologii společenstev
Použití na floristická data z NP Podyjí – ekologické gradienty v krajině (Chytrý et al. 1999, Preslia)
222
David Zelený
Zpracování dat v ekologii společenstev
Ekologická kalibrace vegetačních jednotek v přehledu Vegetace ČR (Chytrý [ed.] 2007)
223
David Zelený Zpracování dat v ekologii společenstev
ZOBECNĚNÉ LINEÁRNÍ MODELY REGRESNÍ A KLASIFIKAČNÍ STROMY
REGRESE × KORELACE
David Zelený
Korelace popis závislosti mezi dvěma proměnnými, bez znalosti kauzálního vztahu
počítám: korelační koeficient (r), případně signifikanci korelačního koeficientu (t-test)
Zpracování dat v ekologii společenstev
Regrese
předpokládá kauzální vztah mezi vysvětlující (x) a vysvětlovanou (y) proměnnou
jedná se o typ modelu – výběr nejlepší vysvětlující proměnné, nejlepšího modelu, predikce vysvětlované proměnné
počítám: regresní koeficient (b = sklon regresní přímky), koeficient determinace (R2), signifikanci regrese (t-test, ANOVA, Monte-Carlo permutační test)
225
REGRESE × KORELACE
David Zelený
Ale:
Zpracování dat v ekologii společenstev
většinou platí, že i když počítám korelaci, předpokládám (možná jen podvědomě), že mezi proměnnými existuje nějaký kauzální vztah – a tím se rozdíl mezi korelací a regresí stírají
Dvě situace:
vysvětlující proměnná (x) je měřená bez chyby (většinou proto, že je kontrolovaná experimentálním designem)
použijeme regresi (korelace v tomto případě nemá smysl)
obě proměnné (x a y) jsou měřené s chybou (případ jak dat z experimentů, tak z empirických pozorování)
záleží na tom, co od analýzy očekáváme pokud je cílem vytvoření modelu nebo testování hypotéz, pak použijeme regresi pokud ne – použijeme korelaci
226
LINEÁRNÍ REGRESE PŘEDPOKLADY lineární model správně popisuje funkční vztah mezi vysvětlující a vysvětlovanou proměnnou
vysvětlující proměnná je měřená přesně (bez náhodné složky)
3.
metoda nejmenších čtverců ale funguje i v případě, že vysvětlující proměnná je měřená s chybou
každá hodnota vysvětlované proměnné (y) je nezávislá na ostatních hodnotách y, náhodná složka vysvětlované proměnné má normální rozdělení
4.
pokud je vztah nelineární a nepomůže transformace, je třeba použít nelineární regresní model nebo zobecněný lineární model
Zpracování dat v ekologii společenstev
2.
David Zelený
1.
zvláště pro data z observačních studií často neplatí pravidlo o nezávislosti (a většinou ani nevíme, jak moc toto pravidlo neplatí)
variance vysvětlující proměnné je konstantní podél celé regresní přímky (homoskedasticita)
transformace dat málokdy řeší oba problémy najednou – ztransformovaná proměnná bude mít normální rozdělení, ale ne konstantní varianci, a naopak toto řeší metoda zobecněných lineárních modelů (GLM)
227
REGRESE
David Zelený
lineární model yi = β0 + β1 xi + εi
yi ... hodnota vysvětlované (závislé) proměnné pro i-té pozorování xi ... hodnota vysvětlující (nezávislé) proměnné pro i-té pozorování β0 ... regresní koeficient, posun regresní přímky (intercept), udává souřadnici průsečíku regresní přímky s osou y β1 ... regresní koeficient, sklon regresní přímky (slope) εi ... chyba
Zpracování dat v ekologii společenstev
mnohonásobná regrese
regrese jedné vysvětlované proměnné na několika (j) vysvětlujících proměnných
yi = β0 + Σj βj xij + εi
228
REGRESE ZOBECNĚNÉ LINEÁRNÍ MODELY
umožňují modelovat vysvětlované proměnné s jiným než normálním (Gaussovým) rozložením náhodné složky
počty jedinců – Poissonovo rozložení presence/absence – binomické rozložení
Zpracování dat v ekologii společenstev
David Zelený
(GLM)
zavádí tzv. link-funkci (η, theta), která překládá rozsah hodnot vysvětlujících proměnných (pravá strana rovnice) na rozsah hodnot vysvětlované proměnné (levá strana rovnice) ηi = b0 + Σj bj xij
ηi ... lineární prediktor
yi = ŷi + εi
ŷi ... hodnota vysvětlované proměnné yi predikovaná modelem
-> platí g (ŷi) = ηi
g ... link funkce Poissonovo rozložení – log link: η = log (ŷi) Binomické rozložení – logit link: η = log [ŷi / (1–ŷi)] Gaussovo rozložení – identity link: η = ŷi
229
REGRESNÍ A KLASIFIKAČNÍ STROMY REGRESSION AND CLASSIFICATION TREES,
David Zelený
CART
metoda podobná mnohonásobné regresi
jedna vysvětlovaná a několik vysvětlujících proměnných
má minimální předpoklady na charakter (rozložení) dat
explorativní analýza – slouží k popisu dat, ne k testování hypotéz
vysvětlující proměnné mohou být kategoriální i kvantitativní
vysvětlovaná proměnná:
Zpracování dat v ekologii společenstev
pokud je kategoriální – klasifikační strom pokud je kvantitativní – regresní strom
230
REGRESNÍ A KLASIFIKAČNÍ STROMY REGRESSION AND CLASSIFICATION TREES,
CART
David Zelený
FLUVISOL <> a 31.2 ; 71 obs; 35.8%
pH.H <> 4.23 28.63 ; 59 obs; 9.3%
COVERE32 <> 67.5 30.18 ; 17 obs; 3.4%
COVERE32 <> 87.5 33.65 ; 17 obs; 6.5%
pH.H <> 3.755 24.16 ; 25 obs; 2.8%
1
2
3
26.38 8 obs
33.56 9 obs
18.8 5 obs
6
7
39.57 7 obs
29.5 10 obs
8
9
49.17 6 obs
38.5 6 obs
Zpracování dat v ekologii společenstev
ELEVATION <> 467.5 26.6 ; 42 obs; 5.7%
SOILDPT <> 36.585 43.83 ; 12 obs; 5.3%
SURFIS <> -0.5 25.5 ; 20 obs; 1.6%
4
5
21.6 5 obs
26.8 15 obs
Total deviance explained = 70.4 %
231 data o druhové bohatosti lesů na Vltavě v závislosti na měřených faktorech prostředí (Zelený, nepubl.)
David Zelený
Zpracování dat v ekologii společenstev
INDEXY DIVERZITY
ALFA, BETA A GAMA DIVERZITA Alfa diverzita
Beta diverzita (species turnover) změna v druhovém složení mezi vzorky
Zpracování dat v ekologii společenstev
druhová bohatost vzorku
Gama diverzita
celková druhová bohatost regionu
Jurasinski et al. (2009)
David Zelený
Robert Harding Whittaker (1920-1980)
234
David Zelený Zpracování dat v ekologii společenstev
http://ordination.okstate.edu/
ALFA, BETA A GAMA DIVERZITA
235
MÍRY ALFA DIVERZITY DRUHOVÁ BOHATOST VS VYROVNANOST
vyrovnanost (evenness) vyjadřuje relativní zastoupení jednotlivých druhů ve vzorku (nejvyšších hodnot dosahuje při rovnoměrném relativním zastoupením všech druhů)
jednotlivé indexy alfa diverzity (např. Shannonův nebo Simpsonův) se liší právě tím, jestli kladou větší důraz na bohatost nebo vyrovnanost
alfa a gama diverzita se někdy označují jako inventární diverzita (inventory diversity) – podstata je pro obě míry stejná (vyjádřené počty druhů, případně indexem diverzity), liší se ale škálou (alfa je diverzita na lokální škále, gama na regionální)
beta diverzita je výrazně odlišný koncept – jiná filozofie, jiné jednotky
Zpracování dat v ekologii společenstev
druhová bohatost (species richness) vyjadřuje počet druhů ve vzorku
David Zelený
236
MÍRY ALFA DIVERZITY SHANNONŮV INDEX
David Zelený
H’ = - ∑ pi ln (pi) pi ... relativní abundance druhu i označovaný také jako Shannon-Wiener index (nesprávně jako ShannonWiever)
odvozen z informační teorie (entropie systému)
vyjadřuje nejistotu, se kterou jsem schopen předpovědět, jakého druhu bude náhodně vybraný jedinec ze vzorku; nejistota klesá s klesajícím počtem druhů a s klesající vyrovnaností (málo dominantních druhů)
hodnoty v ekologických datech většinou v rozmezí 1,5 – 3,5
maximální velikost indexu pro počet druhů S nastane, pokud mají všechny druhy stejnou relativní abundanci: H’max = ln (S)
počet druhů, které by se ve snímku vyskytovaly, pokud by se všechny druhy vyskytovaly se stejnou frekvencí: eH‘
vyrovnanost odvozená ze Shannonova indexu (Shannon’s evenness)
J = H’ / H’max = H’ / ln (S)
Zpracování dat v ekologii společenstev
237
MÍRY ALFA DIVERZITY SIMPSONŮV INDEX (YULE INDEX)
David Zelený
D = ∑ pi2 SD = 1 – D nebo SD = 1/D pi ... relativní abundance druhu i
vyjadřuje pravděpodobnost, že dva náhodně vybraní jedinci budou patřit ke stejnému druhu
jeden z nejlepších (z hlediska interpretace) indexů diverzity
se zvyšující se diverzitou hodnota indexu klesá – proto se častěji používá komplementární nebo reciproká forma indexu (SD)
zdůrazňuje dominanci druhu (při počtu druhů > 10 záleží jeho velikost prakticky už jen na dominanci druhů)
efektivní počet druhů: 1/(1-SD)
vyrovnanost odvozená ze Simpsona (Simpson’s evenness): E = (1/D) / S
Zpracování dat v ekologii společenstev
238
PŘÍKLAD – EFEKTIVNÍ POČET DRUHŮ Simpson
efektivní
druhů
index
počet druhů
1122334455
5
0,81)
5,03)
Spol. 2:
1111112345
5
0,62)
2,54)
Zpracování dat v ekologii společenstev
Spol. 1:
David Zelený
počet
Výpočet: 1)
1 – ∑ p2 = 1 - 5*(2/10) 2 = 1 – 5*0,04 = 1 – 0,2 = 0,8
2)
1 – ∑ p2 = 1 – ((6/10)2 + 4*(1/10)2) = 1 – (0,36 + 0,04) = 0,6
3)
1/(1-SD) = 1/(1-0,8) = 5
4)
1/(1-SD) = 1/(1-0,6) = 2,5
239
MÍRY ALFA DIVERZITY
David Zelený
ad hoc doporučení: nemá smysl počítat velké množství indexů alfa diverzity a všechny je používat – vhodnější je rozhodnout se hned na začátku, který z aspektů alfa diverzity (bohatost nebo vyrovnanost) mě zajímá, a podle toho vybrat index nejjednodušší volba je použítí druhové bohatosti (počtu druhů) Simpsonův index je intuitivně interpretovatelný, naopak interpretace Shannonova indexu je obtížná a je lépe ho nepoužívat (i když je populární)
Zpracování dat v ekologii společenstev
kde spočítat: EstimateS (R. Colwell, http://viceroy.eeb.uconn.edu/estimates) BioDiversityPro (Neil McAleece, http://www.sams.ac.uk/research/software/research/software/bdpro.zip)
240
MÍRY BETA DIVERZITY
David Zelený
popisuje rozdílnost v druhovém složení mezi vzorky
Zpracování dat v ekologii společenstev
Dva základní typy beta diverzity: turnover (obrat druhů podél ekologického, prostorového nebo časového gradientu)
1.
Kolik nových druhů přibude a kolik jich ubude, když se pohybuji podél gradientu?
variation (variabilita v druhovém složení mezi vzorky, bez ohledu na směr nějakého gradientu)
2.
Opakují se v různých vzorcích pořád ty samé druhy? Jak moc celkový počet druhů v regionu přesahuje průměrnou druhovou bohatost vzorku? 241 Anderson et al. (2011)
MÍRY BETA DIVERZITY KLASICKÉ INDEXY
Whittakerova beta diverzita (multiplikativní míra):
Zpracování dat v ekologii společenstev
klasické indexy neberou v potaz druhové složení, ale jen počty druhů na lokální (alfa) a regionální (beta) úrovni
David Zelený
βw = (γ / α’) - 1 α’ ... průměrná druhová bohatost vzorků kolikrát bohatost regionu přesahuje průměrnou bohatost vzorku
Additivní míra beta diverzity: βAdd = γ – α‘ průměrný počet druhů, které chybí v jednom náhodně vybraném vzorku/ploše výhodou je, že jednotkami jsou počty druhů
Multiplikativní míra, která bere v potaz vyrovnanost: βShannon = Hγ / Hα místo počtu druhů používá Shannonův index diverzity vypočtený pro regionální a lokální druhovou bohatost
242
MÍRY BETA DIVERZITY MNOHOROZMĚRNÉ INDEXY
používá indexy podobnosti (případně nepodobnosti) v druhovém složení mezi páry vzorků/ploch
Zpracování dat v ekologii společenstev
mnohorozměrné indexy pracují přímo s druhovým složením a hledají rozdíly v druhovém složení dvou a více vzorků/ploch
David Zelený
Bray-Curtis, Jaccard, Sorensen, Euclidovská vzdálenost atd. beta diverzita skupiny vzorků/ploch se spočte jako průměrná hodnota těchto podobností
délka první osy DCA také vyjadřuje beta diverzitu (v jednotkách s.d.)
243
MÍRY BETA DIVERZITY MNOHOROZMĚRNÉ INDEXY
David Zelený
Rozdíly v interpretaci beta diverzity založené na Bray-Curtis indexu nepodobnosti a Euklidovské vzdálenosti na příkladu rozdílu v druhovém složení korálových útesů (Indonésie) v letech 1981, 1983 a 1985 (zásah El Nino v roce 1982) NMDS ordinace Anderson et al. (2011)
Zpracování dat v ekologii společenstev
244
David Zelený Zpracování dat v ekologii společenstev
Roleček et al. (2009) J. Veg. Sci.
MÍRY BETA DIVERZITY MNOHOROZMĚRNÉ INDEXY
245
INDEXY FUNKČNÍ DIVERZITY
druhová bohatost se často považuje za odhad funkční diverzity, ale nepřesný – dva různé druhy mohou ve společenstvu plnit stejnou funkci (mít stejnou kombinací funkčních typů)
Rao index (Lepš et al. 2006 Preslia)
Zpracování dat v ekologii společenstev
funkční diverzita – zohledňuje diverzitu funkčních typů (functional traits), které se ve vzorku vyskytují
David Zelený
FD = ∑i ∑j dij pi pj dij ... nepodobnost mezi druhem i a j pi, pj ... relativní abundance druhu i a j
246
AKUMULAČNÍ DRUHOVÁ KŘIVKA SPECIES ACCUMULATION CURVE
zvláštním typem je species-area curve (ale jen v případě, že plocha narůstá v rámci určitého území, neplatí pro ostrovy)
čte se zlevo doprava
může být extrapolována (zvýší intenzita průzkumu celkový počet nalezených druhů?)
Zpracování dat v ekologii společenstev
vynáší kumulativní počet druhů (S) v závislosti na intenzitě vzorkování (n – počet jedinců, počet ploch, čas)
David Zelený
247
RAREFAKČNÍ KŘIVKA RAREFACTION CURVE
porovnání druhové bohatosti mezi společenstvy s různým počtem jedinců/vzorků
čte se zprava doleva
rozdíl mezi sample based a individual based rarefaction
Zpracování dat v ekologii společenstev
cílem je zjistit, jaká by byla druhová bohatost, pokud bychom v daném společenstvu nasbírali menší počet jedinců/vzorků (to rarefy – rozředit)
David Zelený
248 Michalcová et al. (2011) Journal of Vegetation Science
SOFTWARE (MIMO R, VE KTERÉM SPOČTETE VŠECHNO)
David Zelený
indexy alfa diverzity (Shannon, Simpson atd.) a beta diverzity Biodiversity Pro (Neil McAleece, http://www.sams.ac.uk/research/software) EstimateS (Robert Colwell, http://viceroy.eeb.uconn.edu/estimates) PC-ORD 5 JUICE
Zpracování dat v ekologii společenstev
species accumulation curve a rarefaction PC-ORD 5 EstimateS (Robert Colwell,
http://viceroy.eeb.uconn.edu/estimates)
249