TRANSFORMACE – CO TO JE? o matematická funkce použitá na všechny původní hodnoty: Y* = f(Y) •
f() – kontinuální, monotónická, většinou jednoduchá funkce
o nemění pořadí hodnot o mění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení o pořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy) o např. odmocnina, logaritmus
4
6 x2
8
10
2 1 0 -1 -2 -3 -4
x^0.5 2
ln(x)
80 x^2
60 40 20 0 0
ln(x)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
x^0.5
100
x^2
0
2
4
6 x2
8
10
0
2
4
6 x2
8
10
1
TRANSFORMACE – PROČ? o „vyžaduje to statistika“ • • •
nenormálně rozložená data heterogenní variance (heteroscedasticity) ne vždy zcela objektivní, ale v literatuře běžný důvod -
některé testy jsou platné jen při splnění předpokladů, že residua jsou normálně rozložena a mají homogenní varianci (variance nezávisí na průměru)
o přítomnost odlehlých hodnot o linearizace vztahů •
lineární vztahy se lépe modelují a interpretují
25 20
Počet druhů
25
15
20 15
Počet druhů
30
30
o škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné
0
500
1000
1500
Počet jedinců
2000
2500
4
5
6 ln(Počet jedinců)
7
8
2
TRANSFORMACE
500
1000
1500
2000
2500
4
6
7
8
8
5
0
2
4
Frequency
6
15 10 5 0
Frequency
20
0
0
0
500
500
1000
1000
1500
2000
1500
Počet jedinců
2000
2500
2500
3000
4
4
5
5
6
6 ln(Počet jedinců)
7
7
8
8
3
NORMALITA DAT o mnohé testy hypotéz platné jen při splnění některých předpokladů o jeden z nich je normalita rozložení residuí o mylné a bezdůvodné testování normality prediktorů o ideální prediktor má rozložení uniformní • četnost měření se nemění podél gradientu prediktoru
Zuur et al. 2007
4
12
Fitované hodnoty
11
Průměr vysvětlované proměnné
Residuum
10
Vysvětlovaná proměnná (response)
13
RESIDUA LINEÁRNÍHO MODELU
Pozorované hodnoty
2
3
4
5
6
Vysvětlující proměnná (explanatory)
7 5
VÝBĚR TRANSFORMACE o tvar rozložení (sešikmenost – skeweness) o vztah proměnných o rozsah hodnot (zahrnují nulu nebo negativní hodnoty?)
Negativně (doleva) sešikmené rozložení (left-skewed)
Symetrické
pozitivně (doprava) sešikmené rozložení (right-skewed) 6
násobením sady nezávislých faktorů získáme lognormálně rozloženou proměnnou
80 60 0
-
40
•
pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed) lognormální rozložení – běžné v ekologii
20
•
Tvetenia discoloripes
o Logaritmická transformace (log transformation)
120
ČASTÉ TRANSFORMACE
Y* = log (Y), případně Y* = log (a*Y + c)
•
0.2
0.3
0.4
0.5
2
3
4
Froudeho číslo
1
•
0.1
0
•
na základě logaritmu nezáleží (10, 2, e) konstanta a zabrání negativním hodnotám, pokud proměnná obsahuje = 1; pokud je Y z intervalu <0;1>, potom a > 1 pokud proměnná obsahuje nuly, musíme přičíst konstantu c c by měla být stejného řádu jako měřené hodnoty (např. 0,01 při hodnotách od 0,00 do 0,09), u abundancí to odpovídá 1 na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická
log(Tvetenia discoloripes + 1)
• •
0.0
0.0
0.1
0.2
0.3
0.4
Froudeho číslo
0.5
7
LOGNORMÁLNÍ ROZLOŽENÍ x 0.4
0.6
0.8
1.0
1.2
1.4
x 0.4
0.6
0.8
1.0
1.2
x 0.4
0.6
0.8
1.0
x 0.2
0.4
0.6
0.8
1.0
1.2
x 0.4
0.6
0.8
1.0
1.2
x 0.4
0.6
0.8
0.10
1.2
x 0.2
0.4 0.6 0.8 1.0 1.2
0.20
0.4 0.6 0.8 1.0 1.2 1.4
=
x 0.4
0.6
0.8
Product
0.00
1.0
x
1.0
1.2
0.4
0.6
0.8
1.0
log(Product)
0.30
-4
-3
-2
-1
8
4 3 0
o třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) o vysoká odmocnina se blíží logaritmu
15
20
15
20
15
20
4
Y
3
pokud jsou v datech nuly, je někdy vhodné přidat konstantu c c např. 0,5 (Sokal & Rohlf, 1995) nebo 3/8 (0,375) (Anscombe 1948)
10
2
Y * (Y c) (Y c)
5
1
• •
případně
0
1 2
sqrt(Y + 3/8)
Y* Y Y
1 2
1
Odmocnina (square root) o na doprava sešikmené rozložení o slabší efekt než logaritmus
2
sqrt(Y)
ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE
0
5
10 Y
p = 2, 3 pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.)
3 2 1
• •
sqrt(Y + 0.5)
Y* Y 2
4
Mocninná transformace (power transformation) o vhodná pro data negativně (doleva) sešikmená (left skewed)
0
5
10 Y
9
PŘEHLED MOCNINNÝCH TRANSFORMACÍ „Experience and experiment must guide the student“ (Abbott 1940)
Y* Y p p = -1 – převrácená hodnota (reciprocal) 0 – (výsledkem je 1), logaritmus je limitou funkce, pokud se p blíží 0 1/3 – třetí odmocnina (cubic root) 1/2 – druhá odmocnina (square root) 1 – shodná hodnota 2 – druhá mocnina (square) 3 – třetí mocnina (cube) 4 – čtvrtá mocnina ... Box-Cox transformace • pokud není a priori důvod pro jednu ze standardních transformací
Y * (Y 1) /
(pro λ ≠ 0)
Y * log e (Y )
(pro λ = 0)
λ (lambda) je zjištěna iterativně maximalizací log věrohodnostní funkce 10
1.4 1.0 0.6
• použitelná pro hodnoty v intervalu <-1; 1> • jemně roztahuje hodnoty blízké 0 a 1
0.4
0.6
0.8
1.0
0.6
0.8
1.0
0.6
0.8
1.0
4 2 0 -2 -4
0.0
0.2
0.4
0
5
10
15
20
Y
1 Y
Reciproká transformace (reciprocal transformation) o vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) • roztahuje hodnoty blízké nule 1 Y* • otáčí interpretaci Y
0.2
Y
1 Y
Logit o vhodná pro podíly stejně jako arcsin Y • hodnoty od 0 do 1 Y * log • roztahuje hodnoty blízké 0 a 1 1 Y
0.0
log Y
Y * arcsin Y
0.2
arcsin (angular transformation) o vhodná pro procentické hodnoty (a obecně podíly)
arcsin Y
DALŠÍ TRANSFORMACE
0.0
0.2
0.4 Y
11
STANDARDIZACE PROMĚNNÝCH (LINEÁRNÍ TRANSFORMACE) Centrování (centring) • výsledná proměnná má průměr roven nule
Yi* Yi Y
n
s
(Y Y ) i 1
2
i
n 1 Standardizace v úzkém slova smyslu • dává vzniknout bezrozměrným Z-skóre Yi Y * Yi • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné s • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích
0
2
4
6 Y
8
10
• výsledná proměnná je v rozsahu [0, 1]
0.8
a) relativní škála (poměry mezi hodnotami
0.4
zachované), b) obecná proměnná
0.0
Y minY
0.4 0.0
Y maxY
0.8
maxY minY
Změna rozsahu hodnot (ranging) Yi Yi min(Y ) Yi* Yi* a) b) max( Y ) max( Y ) min(Y )
0
2
4
6 Y
8
10
12
STANDARDIZACE DRUHOVÉ MATICE o standardizace po druzích (standardization by species) • • •
dává stejnou váhu všem druhům – zvýší váhu vzácných druhů a sníží váhu hojných ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu – bude velmi odlišný od ostatních) vhodná zejména při analýze proměnných prostředí (odstraní se rozdíly v magnitudě a rozptylu proměnných)
sp1 vzorek 1 vzorek 2 vzorek 3 průměr sd
1 2 10 4.333 4.933
sp2
sp1
sp3
3 4 6 8 30 40 13 17.33 14.8 19.73
Yij Y j
sp2
sp3
vzorek 1
-3.33
-10
-13.33
vzorek 2
-2.33
-7
-9.333
vzorek 3
5.667
17
22.667
Yij s j sp1
sp2
sp3
vzorek 1
-0.68
-0.68
-0.68
vzorek 2
-0.47
-0.47
-0.47
vzorek 3
1.149
1.149
1.149
13
STANDARDIZACE PROMĚNNÝCH • vzdálenosti mezi vzorky ovládnou proměnné s velkou variancí • po standardizaci mají všechny proměnné varianci shodnou Po standardizaci
-2
-1
0
Proměnná 2
10 0 -20 -10
Proměnná 2
1
20
2
30
Před standardizací
40
50
60
70
80
Proměnná 1
90 100
-2
-1
0
1
Proměnná 1
2 14
STANDARDIZACE DRUHOVÉ MATICE o standardizace po vzorcích (standardization by samples) • •
pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné také v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů) Původní hodnoty sp1
sp2
sp3
průměr sd
vzorek 1
1
3
4
2.666 1.528
vzorek 2
2
6
8
5.333 3.055
vzorek 3
10
30
40
26.66 15.28
Hodnoty standardizované po vzorcích Výpočet hodnot v prvním sloupci
(1 - 2.666)/1.528 -1.09 (2 - 5.333)/3.055 -1.09 (10 - 26.66)/15.28 -1.09
sp1
sp2
sp3
vzorek 1
-1.09
0.218
0.873
vzorek 2
-1.09
0.218
0.873
vzorek 3
-1.09
0.218
0.873 15
DALŠÍ STANDARDIZACE (PŘES VZORKY) o Species profile •
relativní podíly abundancí
y'ij
yij yi
o Hellingerova transformace • •
modifikovaný species profile, lepší statistické vlastnosti Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k Hellingerově vzdálenosti (viz další část)
y'ij
yij
yi
o Tětivová transformace (chord transformation)
p
y j 1
2 ij
0.5
yij
0.0
y 'ij
1.0
Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k tětivové vzdálenosti (viz další část) Species 2
•
0.0
0.5
1.0
1.5 Species 1
2.0
2.5
3.0
16
TRANSFORMACE o matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) o nejčastější důvod je změnit tvar rozložení proměnné a zajistit homoskedasticitu
STANDARDIZACE o mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) o nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) proměnných, druhů nebo vzorků o ve své podstatě je to další typ transformace
17
DUMMY VARIABLES • převod kvalitativní (kategoriální) proměnné na kvantitativní (binární) • pokud má kategoriální proměnná n stavů (kategorií), pro její vyjádření stačí n-1 dummy proměnných
o potřeba v CANOCO 4.5 (v CANOCO 5 už ne)
Sample
bahno
písek
vegetace
další proměnné
1
1
0
0
.....
2
0
1
0
.....
3
1
0
0
.....
4
0
0
1
.....
5
0
0
1
.....
6
1
0
0
.....
Sample
Substrát
další proměnné
1
bahno
.....
2
písek
.....
3
bahno
.....
4
vegetace
.....
5
vegetace
.....
6
bahno
.....
18
KÓDOVÁNÍ DAT (DATA CODING) o např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance
• • •
Braun-Blanquetova stupnice: ordinální hodnoty*: střední hodnoty procent**:
r + 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 13 38 63 88
*) van der Maarel (2007), Table 1 **) Turboveg for Windows 2
19
METADATA
o zaznamenat veškeré transformace, standardizace, kódování do metadat!
20