TRANSFORMACE CO TO JE?

TRANSFORMACE – CO TO JE? o matematická funkce použitá na všechny původní hodnoty: Y* = f(Y) •

f() – kontinuální, monotónická, většinou jednoduchá funkce

o nemění pořadí hodnot o mění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení o pořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy) o např. odmocnina, logaritmus

4

6 x2

8

10

2 1 0 -1 -2 -3 -4

x^0.5 2

ln(x)

80 x^2

60 40 20 0 0

ln(x)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

x^0.5

100

x^2

0

2

4

6 x2

8

10

0

2

4

6 x2

8

10

1

TRANSFORMACE – PROČ? o „vyžaduje to statistika“ • • •

nenormálně rozložená data heterogenní variance (heteroscedasticity) ne vždy zcela objektivní, ale v literatuře běžný důvod -

některé testy jsou platné jen při splnění předpokladů, že residua jsou normálně rozložena a mají homogenní varianci (variance nezávisí na průměru)

o přítomnost odlehlých hodnot o linearizace vztahů •

lineární vztahy se lépe modelují a interpretují

25 20

Počet druhů

25

15

20 15

Počet druhů

30

30

o škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné

0

500

1000

1500

Počet jedinců

2000

2500

4

5

6 ln(Počet jedinců)

7

8

2

TRANSFORMACE

500

1000

1500

2000

2500

4

6

7

8

8

5

0

2

4

Frequency

6

15 10 5 0

Frequency

20

0

0

0

500

500

1000

1000

1500

2000

1500

Počet jedinců

2000

2500

2500

3000

4

4

5

5

6

6 ln(Počet jedinců)

7

7

8

8

3

NORMALITA DAT o mnohé testy hypotéz platné jen při splnění některých předpokladů o jeden z nich je normalita rozložení residuí o mylné a bezdůvodné testování normality prediktorů o ideální prediktor má rozložení uniformní • četnost měření se nemění podél gradientu prediktoru

Zuur et al. 2007

4

12

Fitované hodnoty

11

Průměr vysvětlované proměnné

Residuum

10

Vysvětlovaná proměnná (response)

13

RESIDUA LINEÁRNÍHO MODELU

Pozorované hodnoty

2

3

4

5

6

Vysvětlující proměnná (explanatory)

7 5

VÝBĚR TRANSFORMACE o tvar rozložení (sešikmenost – skeweness) o vztah proměnných o rozsah hodnot (zahrnují nulu nebo negativní hodnoty?)

Negativně (doleva) sešikmené rozložení (left-skewed)

Symetrické

pozitivně (doprava) sešikmené rozložení (right-skewed) 6

násobením sady nezávislých faktorů získáme lognormálně rozloženou proměnnou

80 60 0

-

40

•

pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed) lognormální rozložení – běžné v ekologii

20

•

Tvetenia discoloripes

o Logaritmická transformace (log transformation)

120

ČASTÉ TRANSFORMACE

Y* = log (Y), případně Y* = log (a*Y + c)

•

0.2

0.3

0.4

0.5

2

3

4

Froudeho číslo

1

•

0.1

0

•

na základě logaritmu nezáleží (10, 2, e) konstanta a zabrání negativním hodnotám, pokud proměnná obsahuje = 1; pokud je Y z intervalu <0;1>, potom a > 1 pokud proměnná obsahuje nuly, musíme přičíst konstantu c c by měla být stejného řádu jako měřené hodnoty (např. 0,01 při hodnotách od 0,00 do 0,09), u abundancí to odpovídá 1 na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická

log(Tvetenia discoloripes + 1)

• •

0.0

0.0

0.1

0.2

0.3

0.4

Froudeho číslo

0.5

7

LOGNORMÁLNÍ ROZLOŽENÍ x 0.4

0.6

0.8

1.0

1.2

1.4

x 0.4

0.6

0.8

1.0

1.2

x 0.4

0.6

0.8

1.0

x 0.2

0.4

0.6

0.8

1.0

1.2

x 0.4

0.6

0.8

1.0

1.2

x 0.4

0.6

0.8

0.10

1.2

x 0.2

0.4 0.6 0.8 1.0 1.2

0.20

0.4 0.6 0.8 1.0 1.2 1.4

=

x 0.4

0.6

0.8

Product

0.00

1.0

x

1.0

1.2

0.4

0.6

0.8

1.0

log(Product)

0.30

-4

-3

-2

-1

8

4 3 0

o třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) o vysoká odmocnina se blíží logaritmu

15

20

15

20

15

20

4

Y

3

pokud jsou v datech nuly, je někdy vhodné přidat konstantu c c např. 0,5 (Sokal & Rohlf, 1995) nebo 3/8 (0,375) (Anscombe 1948)

10

2

Y *  (Y  c)  (Y  c)

5

1

• •

případně

0

1 2

sqrt(Y + 3/8)

Y*  Y Y

1 2

1

Odmocnina (square root) o na doprava sešikmené rozložení o slabší efekt než logaritmus

2

sqrt(Y)

ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE

0

5

10 Y

p = 2, 3 pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.)

3 2 1

• •

sqrt(Y + 0.5)

Y*  Y 2

4

Mocninná transformace (power transformation) o vhodná pro data negativně (doleva) sešikmená (left skewed)

0

5

10 Y

9

PŘEHLED MOCNINNÝCH TRANSFORMACÍ „Experience and experiment must guide the student“ (Abbott 1940)

Y*  Y p p = -1 – převrácená hodnota (reciprocal) 0 – (výsledkem je 1), logaritmus je limitou funkce, pokud se p blíží 0 1/3 – třetí odmocnina (cubic root) 1/2 – druhá odmocnina (square root) 1 – shodná hodnota 2 – druhá mocnina (square) 3 – třetí mocnina (cube) 4 – čtvrtá mocnina ... Box-Cox transformace • pokud není a priori důvod pro jednu ze standardních transformací

Y *  (Y   1) / 

(pro λ ≠ 0)

Y *  log e (Y )

(pro λ = 0)

λ (lambda) je zjištěna iterativně maximalizací log věrohodnostní funkce 10

1.4 1.0 0.6

• použitelná pro hodnoty v intervalu <-1; 1> • jemně roztahuje hodnoty blízké 0 a 1

0.4

0.6

0.8

1.0

0.6

0.8

1.0

0.6

0.8

1.0

4 2 0 -2 -4

0.0

0.2

0.4

0

5

10

15

20

Y

1 Y

Reciproká transformace (reciprocal transformation) o vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) • roztahuje hodnoty blízké nule 1 Y*  • otáčí interpretaci Y

0.2

Y

1 Y

Logit o vhodná pro podíly stejně jako arcsin  Y  • hodnoty od 0 do 1 Y *  log  • roztahuje hodnoty blízké 0 a 1 1 Y 

0.0

log Y

Y *  arcsin Y

0.2

arcsin (angular transformation) o vhodná pro procentické hodnoty (a obecně podíly)

arcsin Y

DALŠÍ TRANSFORMACE

0.0

0.2

0.4 Y

11

STANDARDIZACE PROMĚNNÝCH (LINEÁRNÍ TRANSFORMACE) Centrování (centring) • výsledná proměnná má průměr roven nule

Yi*  Yi  Y

n

s

 (Y  Y ) i 1

2

i

n 1 Standardizace v úzkém slova smyslu • dává vzniknout bezrozměrným Z-skóre Yi  Y * Yi  • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné s • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích

0

2

4

6 Y

8

10

• výsledná proměnná je v rozsahu [0, 1]

0.8

a) relativní škála (poměry mezi hodnotami

0.4

zachované), b) obecná proměnná

0.0

Y minY

0.4 0.0

Y maxY

0.8

maxY minY

Změna rozsahu hodnot (ranging) Yi Yi  min(Y ) Yi*  Yi*  a) b) max( Y ) max( Y )  min(Y )

0

2

4

6 Y

8

10

12

STANDARDIZACE DRUHOVÉ MATICE o standardizace po druzích (standardization by species) • • •

dává stejnou váhu všem druhům – zvýší váhu vzácných druhů a sníží váhu hojných ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu – bude velmi odlišný od ostatních) vhodná zejména při analýze proměnných prostředí (odstraní se rozdíly v magnitudě a rozptylu proměnných)

sp1 vzorek 1 vzorek 2 vzorek 3 průměr sd

1 2 10 4.333 4.933

sp2

sp1

sp3

3 4 6 8 30 40 13 17.33 14.8 19.73

Yij  Y j

sp2

sp3

vzorek 1

-3.33

-10

-13.33

vzorek 2

-2.33

-7

-9.333

vzorek 3

5.667

17

22.667

Yij s j sp1

sp2

sp3

vzorek 1

-0.68

-0.68

-0.68

vzorek 2

-0.47

-0.47

-0.47

vzorek 3

1.149

1.149

1.149

13

STANDARDIZACE PROMĚNNÝCH • vzdálenosti mezi vzorky ovládnou proměnné s velkou variancí • po standardizaci mají všechny proměnné varianci shodnou Po standardizaci

-2

-1

0

Proměnná 2

10 0 -20 -10

Proměnná 2

1

20

2

30

Před standardizací

40

50

60

70

80

Proměnná 1

90 100

-2

-1

0

1

Proměnná 1

2 14

STANDARDIZACE DRUHOVÉ MATICE o standardizace po vzorcích (standardization by samples) • •

pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné také v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů) Původní hodnoty sp1

sp2

sp3

průměr sd

vzorek 1

1

3

4

2.666 1.528

vzorek 2

2

6

8

5.333 3.055

vzorek 3

10

30

40

26.66 15.28

Hodnoty standardizované po vzorcích Výpočet hodnot v prvním sloupci

(1 - 2.666)/1.528  -1.09 (2 - 5.333)/3.055  -1.09 (10 - 26.66)/15.28  -1.09

sp1

sp2

sp3

vzorek 1

-1.09

0.218

0.873

vzorek 2

-1.09

0.218

0.873

vzorek 3

-1.09

0.218

0.873 15

DALŠÍ STANDARDIZACE (PŘES VZORKY) o Species profile •

relativní podíly abundancí

y'ij 

yij yi 

o Hellingerova transformace • •

modifikovaný species profile, lepší statistické vlastnosti Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k Hellingerově vzdálenosti (viz další část)

y'ij 

yij

yi 

o Tětivová transformace (chord transformation)

p

y j 1

2 ij

0.5

yij

0.0

y 'ij 

1.0

Euklidovské vzdálenosti vypočítané na transformovaných datech vedou k tětivové vzdálenosti (viz další část) Species 2

•

0.0

0.5

1.0

1.5 Species 1

2.0

2.5

3.0

16

TRANSFORMACE o matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) o nejčastější důvod je změnit tvar rozložení proměnné a zajistit homoskedasticitu

STANDARDIZACE o mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) o nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) proměnných, druhů nebo vzorků o ve své podstatě je to další typ transformace

17

DUMMY VARIABLES • převod kvalitativní (kategoriální) proměnné na kvantitativní (binární) • pokud má kategoriální proměnná n stavů (kategorií), pro její vyjádření stačí n-1 dummy proměnných

o potřeba v CANOCO 4.5 (v CANOCO 5 už ne)

Sample

bahno

písek

vegetace

další proměnné

1

1

0

0

.....

2

0

1

0

.....

3

1

0

0

.....

4

0

0

1

.....

5

0

0

1

.....

6

1

0

0

.....

Sample

Substrát

další proměnné

1

bahno

.....

2

písek

.....

3

bahno

.....

4

vegetace

.....

5

vegetace

.....

6

bahno

.....

18

KÓDOVÁNÍ DAT (DATA CODING) o např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance

• • •

Braun-Blanquetova stupnice: ordinální hodnoty*: střední hodnoty procent**:

r + 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 13 38 63 88

*) van der Maarel (2007), Table 1 **) Turboveg for Windows 2

19

METADATA

o zaznamenat veškeré transformace, standardizace, kódování do metadat!

20

TRANSFORMACE CO TO JE?

Recommend Documents