ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV
David Zelený
OSNOVA PŘEDNÁŠKY Typy sbíraných dat
Zpracování dat v ekologii společenstev
alfa, beta a gamma diverzita, akumulační druhová křivka, rarefaction
Design ekologických experimentů
lineární regrese, Ellenbergovy indikační hodnoty
Indexy druhové bohatosti
hierarchická vs nehierarchická, aglomerativní vs divisivní
Regrese, kalibrace
lineární vs unimodální, přímá vs nepřímá
Klasifikace
indexy podobnosti a vzdálenosti mezi vzorky
Ordinace
čištění dat, odlehlé body, transformace, standardizace, EDA
Ekologická podobnost
kategoriální vs kvantitativní, pokryvnosti, frekvence
Příprava dat pro numerické analýzy
David Zelený
manipulativní experimenty vs přírodní experimenty (pozorování)
Případové studie na použití jednotlivých metod
2
LITERATURA
David Zelený
Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály)
Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat
Zpracování dat v ekologii společenstev
v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO
Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení
Pro fajnšmekry
Wildi O. (2010) Data Analysis in Vegetation Ecology. Wiley-Blackwell.
Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates.
Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.
Palmer M. – Ordination methods for ecologists, website
http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf http://ordination.okstate.edu/
Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier.
3
SOFTWARE
PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů
STATISTICA 12 – regresní analýzy, klasifikace, ordinace
Zpracování dat v ekologii společenstev
CANOCO 5 – ordinační analýzy, kreslení ordinačních diagramů a odpovědních křivek druhů
David Zelený
Kde co sehnat:
CANOCO 5 a PC-ORD – instalace z webových stránek předmětu (http://bit.ly/zpradat, záložka Software) STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software
4
DALŠÍ INFORMACE Webové stránky předmětu: www.bit.ly/zpradat
Cvičení
probíhat bude v počítačové učebně v druhé půlce semestru a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550)
Domácí úkol
přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení
Zpracování dat v ekologii společenstev
David Zelený
dobrovolný, zadání bude sděleno v průběhu semestru
Zkouška
vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky možné dělat zároveň se zkouškou z předmětu Bi7550
5
David Zelený
Zpracování dat v ekologii společenstev
TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY
DATA V EKOLOGII SPOLEČENSTEV
popisují společenstvo, případně i jeho prostředí
ekologická data obsahují více proměnných (multivariate data) a dají se vyjádřit maticí dat (data matrix)
společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů)
složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh
prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů
Zpracování dat v ekologii společenstev
David Zelený
Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007)
7
TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční)
Ordinální (semikvantitativní)
např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit
Zpracování dat v ekologii společenstev
David Zelený
např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké
Kvantitativní
0
diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) relativní stupnice (relative-scale) x intervalová stupnice (interval-scale)
30
0 8
relativní stupnice – nula znamená, že charakteristika chybí
intervalová stupnice – nula je stanovena arbitrárně
TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ
binární (dvoustavový, presence-absence)
přítomnost nebo absence druhu
Zpracování dat v ekologii společenstev
Příklady
David Zelený
Typ proměnné
mnohostavový neseřazený
geologický substrát
seřazený semikvantitativní (ordinální)
stupnice pokryvností druhy
kvantitativní (měření) diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy 9 Legendre & Legendre 1998
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
10
PRIMÁRNÍ DATA
David Zelený Zpracování dat v ekologii společenstev
11
Zadávání primárních dat
Uchování a zpřístupnění primárních dat
Zpracování dat v ekologii společenstev
spreadsheet, metadata
David Zelený
http://www.cggveritas.com/data//1/rec_i mgs/5152_Tapes-small.jpg
PRIMÁRNÍ DATA
problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze)
Kontrola a čištění dat
sloučení taxonomické nomenklatury chyby a chybějící data (možnosti nahrazení chybějících dat) analýza odlehlých bodů (outlier analysis) někdy i vyloučení vzácných druhů (odstranění šumu v datech) EDA – exploratory data analysis
12
David Zelený
Zpracování dat v ekologii společenstev
Programátorka Madeleine Carey s 60.000 děrnými štítky, na kterých byl uložen program využívaný americkou leteckou obranou. 13
Zdroj: Failures to Compute, Science 342 (6160) 800-801
KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science)
David Zelený
Konfirmační analýza dat (confirmatory data analysis, CDA) testuje hypotézy a generuje odhady parametrů
např. regrese, ANOVA, testy signifikance
Zpracování dat v ekologii společenstev
Explorační analýza dat (exploratory data analysis, EDA)
průzkum dat a hledání hypotéz, které stojí za to testovat
slouží také k tzv. „vytěžování“ dat (data mining, data dredging)
grafická EDA slouží k
odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace
John Tukey (1915-2000)
14
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ
– BOX-PLOT & HISTOGRAM
David Zelený
XERSSW
-6
-4
-2
0
2
4
Zpracování dat v ekologii společenstev
-8
Median 25%-75% Range Outliers
50
Frequency
40
30
20
10
0
-8
-7
-6
-5
-4
-3
-2
-1
0
XERSSW (head index)
1
2
3
4
15
EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT
David Zelený
3 2 1
Zpracování dat v ekologii společenstev
-1 -2 -3 -4 -5 -6 -7 -3
-2
-1
0
1
2
3
4
5
3.0
6
XERSW 2.5
2.0
1.5
XERSSW
XERSSW
0
1.0
0.5
0.0
-0.5
16
-1.0 -3
-2
-1
0
1
XERSW
2
3
4
5
DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT)
David Zelený
Klasický boxplot (střední hodnota = medián)
Definice odlehlých bodů a extrémů (STATISTICA)
Zpracování dat v ekologii společenstev
maximální hodnota Q3 – horní kvartil Q2 - medián Q1 – spodní kvartil
minimální hodnota
17
outlier (hodnota nižší než spodní kvartil a interkvartilový rozsah)
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace dat
Zpracování dat v ekologii společenstev
mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce
Proč data transformovat?
protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné
protože (některé) statistické testy vyžadují, aby data
deset prstů => používání desítkové soustavy
byla normálně rozložená (normal distribution) měla homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah)
protože lineární vztahy se interpretují lépe než vztahy nelineární
18
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body
abychom při komentování výsledků používali netransformované hodnoty proměnných
Zpracování dat v ekologii společenstev
Typy transformace
lineární
přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita
nelineární
log transformace, odmocninová transformace atd. může změnit výsledky statistického testování
19
600 500 400 0
100
200
200
300
symetrické (symetrical)
2
4
6
8
10
12
negativně (doleva) zešikmené (left skewed)
0
0
50
50
100
100
150
200
150
0
-8
-3
-2
-1
0
1
2
-6
-4
-2
0
2
3
* ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku
20
Zpracování dat v ekologii společenstev
pozitivně (doprava) zešikmené* (right skewed)
David Zelený
700
ROZDĚLENÍ DAT (DATA DISTRIBUTION)
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení)
Zpracování dat v ekologii společenstev
Y* = log (Y), případně Y* = log (a*Y + c) zdroj: wikipedia.org
na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a >1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická
21
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Odmocninová transformace (square-root transformation)
Zpracování dat v ekologii společenstev
vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = √ Y, případně Y* = √ (Y + c)
konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325)
třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami)
Mocninná transformace (power transformation)
vhodná pro data negativně (doleva) sešikmená (left skewed) Y* = Yp
pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.)
22
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
odmocninová
logaritmická
Legendre & Legendre (1998)
23
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
24 Münch. Med. Wschr. 124, 1982
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Transformace pomocí arcsin (angular transformation)
vhodná pro procentické hodnoty (a obecně podíly)
Zpracování dat v ekologii společenstev
Y* = arcsin Y nebo Y* = arcsin √ Y
použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech
Reciproká transformace (reciprocal transformation)
vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y
25
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE
David Zelený
Box-Cox transformace (zobecněná mocniná transformace)
Zpracování dat v ekologii společenstev
zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít
Neparametrické metody transformace
např. metoda Omnibus pro ordinální data
26 Legendre & Legendre 1998
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA
Q-Q diagram (Quantile-Quantile plot)
35
Zpracování dat v ekologii společenstev
3
30
2
Oček. normál. hodnoty
Počet pozorování
David Zelený
Histogram s křivkou normálního rozdělení
25
20
15
10
5
1
0
-1
-2
0 -10
0
10
20
30
40
50
60
70
-3 -10
80
Soil depth
vizuální zhodnocení normality dat
Kolmogorovův-Smirnovův test
0
10
20
30
40
50
60
70
Pozorovaný kvantil
porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných
jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení – rankitový diagram)
na stejném principu pracuje Shapiro-Wilk test
27
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA
-1
0
1
2
3
150 100
Frequency
0
0
-2
50
100 200 300 400 500
Frequency
150 100 50 0
Frequency
600
200
200
negativně zešikmené
Zpracování dat v ekologii společenstev
-3
David Zelený
pozitivně zešikmené
normální rozdělení
0
2
4
8
10
12
-8
-6
-4
variable
-2
0
2
variable
-2
-1
0
1
Sample quantiles
2
3
2 1 0 -1
Theoretical quantiles
-3
0 -3
-2
2 1 0 -1 -3
-2
Theoretical quantiles
2 1 0 -1 -2 -3
Theoretical quantiles
3
3
3
variable
6
5
10
15
Sample quantiles
20
-5
-4
-3
-2
-1
Sample quantiles
0
1
28
BIMODÁLNÍ DATA
David Zelený
20 15 0
5
10
Frequency
15 10
Frequency
5 0
6.0
6.5
7.0
7.5
8.0
6.0
6.5
7.0
7.5
8.0
Soil pH
7.0
29
6.0
6.5
6.5
7.0
Soil pH
7.5
7.5
8.0
8.0
Soil pH
Soil pH
Zpracování dat v ekologii společenstev
20
transformace nepomůže, možnost rozdělit na dva podsoubory
6.0
600
650
700
750
800
850
Annual precipitation [mm]
900
950
600
650
700
750
800
850
Annual precipitation [mm]
900
950
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE PROMĚNNÝCH
David Zelený
Centrování
výsledná proměnná má průměr roven nule
Zpracování dat v ekologii společenstev
Yi* = Yi – průměr (Y)
Standardizace v úzkém slova smyslu
výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné
„synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y)
Změna rozsahu hodnot (ranging)
výsledná proměnná je v rozsahu 0 až 1 Yi* = Yi / Ymax nebo
Yi* = (Yi – Ymin) / (Ymax – Ymin)
30
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
Standardizace v případě matice společenstva (vzorky x druhy)
standardizace po druzích (by species)
dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu)
Zpracování dat v ekologii společenstev
standardizace po vzorcích (by samples)
pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše nebo počet pastí)
31
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
původní matice Druhy druh 1
druh 2
druh 3
vzorek 1
1
3
5
vzorek 2
2
6
10
vzorek 3
10
30
50
standardizace po druzích
standardizace po vzorcích
Druhy
Druhy
Vzorky
druh 1
druh 2
druh 3
Vzorky
druh 1
druh 2
druh 3
vzorek 1
-0.68
-0.68
-0.68
vzorek 1
-1
0
1
vzorek 2
-0.47
-0.47
-0.47
vzorek 2
-1
0
1
vzorek 3
1.15
1.15
1.15
vzorek 3
-1
0
1 32
Zpracování dat v ekologii společenstev
Vzorky
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent)
nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu
STANDARDIZACE
mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent)
nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků
ve své podstatě je to další typ transformace
Zpracování dat v ekologii společenstev
David Zelený
TRANSFORMACE
33
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
Dummy variables
Zpracování dat v ekologii společenstev
metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních)
dummy proměnné hodnoty
KAMB
kambizem
1
litozem
LITO
RANK
FLUVI
0
0
0
0
1
0
0
ranker
0
0
1
0
fluvizem
0
0
0
1
34
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING)
David Zelený
např. nahrazení kódů u alfa-numerických stupnic, např. BraunBlanquetovy stupnice dominance-abundance
Br.-Bl.: ordinální hodnoty: střední hodnoty procent:
Zpracování dat v ekologii společenstev
r + 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 15 38 63 88
35
SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII) dva možné významy nuly: 1.
hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) hodnota je skutečná nula – například absence druhu
Zpracování dat v ekologii společenstev
2.
David Zelený
data obsahující „pravé nuly“ obsahují dva typy informace: 1. 2.
druh chybí nebo je přítomen? pokud je druh přítomen, jaká je jeho abundance?
v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu
problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) 36
99.0 98.5 98.0 97.5
Zpracování dat v ekologii společenstev
více než 90% hodnot tvoří nuly, u velkých souborů až 99%
David Zelený
(SPARSE MATRIX, ŘÍDKÁ MATICE)
97.0
EKOLOGII SPOLEČENSTEV
Zastoupení nul v matici [%]
MATICE „VZORKY × DRUHY“ V
100
2000
4000
6000
8000
vzorky
Počet vegetačních snímků v matici
37
druhy
David Zelený
(ECOLOGICAL RESEMBLANCE)
Zpracování dat v ekologii společenstev
EKOLOGICKÁ PODOBNOST
EKOLOGICKÁ PODOBNOST
David Zelený
jedinec společenstvo
Zpracování dat v ekologii společenstev
jedinci stejného druhu
39
EKOLOGICKÁ PODOBNOST
David Zelený Zpracování dat v ekologii společenstev
40
EKOLOGICKÁ PODOBNOST
David Zelený Zpracování dat v ekologii společenstev
41
EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA
David Zelený
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza
vztahy mezi vzorky Q analýza
42
Zpracování dat v ekologii společenstev
Druhy
PODOBNOSTI
X VZDÁLENOSTI (Q ANALÝZA)
David Zelený
Indexy podobnosti slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace)
nejnižší hodnota 0 – vzorky nesdílejí žádný druh
nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické
Zpracování dat v ekologii společenstev
Vzdálenosti mezi vzorky
slouží k umístění vzorků v mnohorozměrném prostoru
nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci)
hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 43
INDEXY PODOBNOSTI
David Zelený
kvalitativní vs kvantitativní kvalitativní – pro presenčně-absenční data
kvantitativní – pro data vyjadřující abundance, počty aj.
Zpracování dat v ekologii společenstev
symetrické vs asymetrické
dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích
symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají
asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii
44
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
David Zelený
Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu
Zpracování dat v ekologii společenstev
nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné)
vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože
se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty)
45
vlhkomilný druh 2
mezický druh 1
mezický druh 2
suchomilný druh 1
suchomilný druh 2
1
1
0
0
0
0
vzorek 2
0
1
1
1
1
0
vzorek 3
0
0
0
0
1
1
vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je nejvlhčí, vzorek 3 nejsušší
vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý
symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3
asymetrické indexy: dvojité nepřítomnosti budou ignorovány
Zpracování dat v ekologii společenstev
vzorek 1
David Zelený
vlhkomilný druh 1
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
46
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
ve vzorku č. 2
David Zelený
ve vzorku č. 1
druh je
a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednom vzorku d – počet druhů, které chybí v obou vzorcích („double zeros“)
Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu
c
a
b 47
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient
Sørensenův koeficient S = 2a / (2a + b + c)
J = a / (a + b + c)
přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou váhu
Simpsonův koeficient
Zpracování dat v ekologii společenstev
David Zelený
Si = a / [a + min (b,c)]
vhodný pro vzorky velmi odlišné počtem druhů
c
a
b
48
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA
David Zelený
zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity)
Zpracování dat v ekologii společenstev
PS = [2 Σ min (xi, yi)] / Σ (xi + yi) xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS
49
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES)
David Zelený
všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance
Zpracování dat v ekologii společenstev
D = 1 – S, nebo D = √ (1 – S) kde D je vzdálenost (distance) a S je podobnost (similarity) odmocninový převod se používá například pro Sørensenův koeficient neplatí obráceně (ne všechny vzdálenosti se dají převést na podobnosti – např. Euklidovská vzdálenost)
50
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES)
David Zelený
Euklidovská vzdálenost (Euclidean distance) ED = √ Σ (xi – yi)2
tětivová vzdálenost (chord distance, relativized Euclidean distance)
rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data
Zpracování dat v ekologii společenstev
Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh)
Chi-kvadrát vzdálenost (chi-square distance)
málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA)
51
EUKLIDOVSKÁ VZDÁLENOST PARADOX
David Zelený
Druhy Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
1,732 4,243
Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732
Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243 52
Zpracování dat v ekologii společenstev
může se stát, že dva vzorky, které sdílí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2)
INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je ...
Diceův index
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
druh č. 2
David Zelený
druh č. 1
Dice = 2a / (2a + b + c)
stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948)
Pearsonův korelační koeficient r
není vhodný pro data s velkým počtem nul, ani po transformaci
53
MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY)
diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností)
1 2 3 4 5 6 7 8 9 10
1 0 12.37 11.70 17.92 13.86 10.58 11.92 10.54 13.82 15.59
2 12.37 0 11.14 13.34 16.58 13.96 9.64 13.56 13.64 13.42
3 11.70 11.14 0 14.42 16.16 11.53 10.34 13.71 14.90 13.78
4 17.92 13.34 14.42 0 18.36 15.78 9.64 17.03 14.42 7.48
5 13.86 16.58 16.16 18.36 0 13.71 14.49 9.00 14.04 15.46
6 10.58 13.96 11.53 15.78 13.71 0 11.31 11.87 10.54 12.85
7 11.92 9.64 10.34 9.64 14.49 11.31 0 13.82 12.77 9.43
8 10.54 13.56 13.71 17.03 9.00 11.87 13.82 0 10.95 14.35
matice Euklidovských vzdáleností mezi 10 vzorky
9 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 0 10.39
Zpracování dat v ekologii společenstev
je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem)
David Zelený
10 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35 10.39 0
54