Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie
STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT Seminární práce 4 2.4. Tvorba grafů v programu ORIGIN 3.3. Tvorba nelineárních regresních modelů v analýze dat
květen 2016 Mgr. Kateřina Neudertová Hellebrandová, Ph.D Výzkumný ústav lesního hospodářství a myslivosti, v.v.i
Obsah
Obsah 2.4. Tvorba grafů v programu ORIGIN .................................................................................................... 3
Úloha 1. Využití předdefinovaných témat při úpravě grafu ........................................................... 4 Úloha 2. Nelineární modely - nelineární prokládání v Origin ........................................................ 5 Úloha 3. Lineární regrese v Origin ................................................................................................ 9 Úloha 4. Vytvořte vícevrstvový graf s propojenými osami .......................................................... 13 Úloha 5. Grafy exploratorní analýzy ....................................................................................... 15 5.1 Krabicový graf ........................................................................................................................ 15 5.2 Diagram rozptýlení ................................................................................................................. 16 5.3 Maticový graf ......................................................................................................................... 17
3.3. Tvorba nelineárních regresních modelů v analýze dat ............................................................... 18
Úloha 1. Nalezení vhodného růstového modelu ......................................................................... 19 1.1. Zadání ................................................................................................................................... 19 1.2. Řešeni ................................................................................................................................... 20 1.2.1. Návrh modelu........................................................................................................ 20 1.2.2. Odhady parametrů ................................................................................................ 20 1.2.3. Graf regresní křivky .............................................................................................. 21 1.2.4. Základní statistické charakteristiky regrese .......................................................... 24 1.2.5. Numerická analýza reziduí ................................................................................... 24 1.2.5. Konstrukce zpřesněného modelu ......................................................................... 25 1.3.Závěr ...................................................................................................................................... 27 Úloha 2. Nalezení parametrů alometrické funkce ....................................................................... 28 2.1. Zadání ................................................................................................................................... 28 2.2. Řešeni ................................................................................................................................... 29 2.2.1. Návrh modelu........................................................................................................ 29 2.2.2. Odhady parametrů ................................................................................................ 29 2.2.3. Graf regresní křivky .............................................................................................. 30 2.2.4. Základní statistické charakteristiky regrese .......................................................... 32 2.2.5. Analýza reziduí ..................................................................................................... 32 2.2.5. Konstrukce zpřesněného modelu ......................................................................... 34 2.3. Závěr ..................................................................................................................................... 36
2.4. Tvorba grafů v programu ORIGIN
2.4. Tvorba grafů v programu ORIGIN
3
2.4. Tvorba grafů v programu ORIGIN
Úloha 1
Úloha 1. Pomocí Import Wizard naimportujte data Origin8/Samples/Import and Export/F2.dat. Z načtených dat vytvořte bodový graf tak, aby měl body velikosti 8 a prázdná kolečka, chybové úsečky tvořené sloupcem C, všechny 4 osy, pouze dolní X a levá Y budou popsány, všechny záseky Tick uvnitř, popisky grafu písmem Time New Roman, černé pozadí grafu. Využijte k tomu předdefinovaná témata a specifikujte, která jste použili. Řešení: Graf byl vytvořen dle zadání, následně byla použita tato předdefinovaná témata: Night Sky, Times New Roman font. Oposite lines, Ticks All in. Výsledný graf je zobrazen na obrázku 1.
Obr. 1. Graf vytvoření pomocí předdefinovaných témat
4
2.4. Tvorba grafů v programu ORIGIN
Úloha 2
Úloha 2. Načtěte data Origin8/Samples/Import and Export/S15 -125 -03.dat a vytvořte z nich bodový graf tak, aby na levé ose Y byla data Magnetic Field a na pravé ose Y data Position. Jednotlivé grafy od sebe barevně rozlište, body utvořte z prázdných koleček velikosti 5. Nelineárním prokládáním se pokuste nalézt alespoň dva nelineární modely pro každou křivku a uveďte, který z nich je lepší a vysvětlete také proč. Řešení: Graf obou křivek byl vytvořen pomocí příkazů Plot – Multi Curve – Double Y (obr. 2.1.).
Obr. 2.1. Graf se dvěma osami Y
Následně byly pomocí dialogového okna NonLinear Curve Fit vyhledány vhodné nelineární modely pro každou křivku z předdefinovaných funkcí. První křivka (Magnetic Field) byla proložena předefinovanými nelinárními funkcemi Boltzmann, Logistic a Slogistic1. Proložení je znázorněno na obrázku. 2.2.
5
2.4. Tvorba grafů v programu ORIGIN
Úloha 2
Obr. 2.2. Nelineární modely pro data Magnetic Field
Statistické charakteristiky a hodnota parametrů jsou pro všechny tři modely uvedeny v tabulce 2.1. U Logistického modelu a modelu Slogistic1 jsou všechny parametry statisticky významné. U Boltzmanova modelu byl parametr A1 označen jako statisticky nevýznamný (P=0,78). Jeho hodnota je -115670,84277 a směrodatná odchylka 414467,405. U zbývající dvou modelů (Logistic a Slogistic 1) překračuje regresní rabat 99%. Hodnota sumy reziduálního součtu čtverců i směrodatné odchylky je výrazně nižší u modelu Slogistic1. Tabulka 2.1. Statistické charakteristiky a parametry modelů pro data Magnetic Field Logistic Boltzman Slogistic 1 y=A2+(A1-A2)/(1+(x/x0)^p) y=A2+(A1-A2)/(1 + exp((x-x0)/dx)) y = a/(1 + exp(-k*(x-xc))) Statistické charakteristiky modelu: R2
0,99605
0,99999
0,9986
s(e)
0,41193
0,02042
0,24501
RSC
169,00627
0,41527
0,9993
Chi-sq
0,16969
4,16942E-4
0,06003
Parametry modelu: A
99,92515 (0,00878)
A1
63,99881 (0,125)
-115670,84277 (414467,405)
A2
100,45201 (0,021)
100,00286 (7,778E-4)
x0
0,49593 (0,003)
-4,95379 (2,229)
p
1,84721 (0,012)
dx
0,62153 (3,741E-4)
xc
-0,25216 (0,00168)
k
1,97251 (0,00485)
6
2.4. Tvorba grafů v programu ORIGIN
Úloha 2
Druhá křivka (Position) byla proložena předefinovanými nelinárními funkcem Gauss, Pearson VII a Bigaussian (obr. 2.3.)
Obr. 2.3. Nelineární modely pro data Position Tabulka 2.2. Statistické charakteristiky a parametry modelů pro data Position Gauss PearsonVII Bigaussian y=y0+ y = y0+ A * 2 * if (x < xc) (A/(w*sqrt(PI/2)))*exp(gamma(m)*sqrt(2^(1./m)-1) / ( y = y0 + H*exp(-(x 2*((x-xc)/w)^2) sqrt(PI) * w * gamma(m - 0.5) ) * ( xc)^2/(2*w1^2)); 1. + 4. * (2^(1./m)-1) / w^2 * (x else xc)^2 )^(-m) y = y0 + H*exp(-(x xc)^2/(2*w2^2)); Statistické charakteristiky modelu: R2
99,964
99,964
99,965
s(e)
0,5775
0,57871
0,57669
RSC
332,17455
333,22681
330,9086
Chi-sq
0,33351
0,3349
0,33257
Parametry modelu: y0
100,94887 (0,02305)
100,94252 (0,02511)
100,94882 (0,02304)
xc
3,99931 (5,13431E-4)
3,99931 (5,15308E-4)
4,00168 (0,00131)
w
1,40123 (0,00112)
1,64915 (0,00168)
A
175,63329 (0,14072)
175,69684 (0,17194)
m
170 (107,22224)
w1
100,0088 (0,06542)
w2
0,70271 (0,00119)
H
0,69852 (0,00122)
7
2.4. Tvorba grafů v programu ORIGIN
Úloha 2
Statistické charakteristiky a hodnota parametrů jsou pro všechny tři modely uvedeny v tabulce 2.2. U všech tří modelů jsou všechny parametry statisticky významné. Regresní rabat všech tří modelů překračuje 99%. Statistické charakteristiky modelu Bigaussian ukazují, že tento model má o něco lepší těsnost proložení, než dva zbývající. Závěr: Na základě porovnání statistických charakteristik modelů byl pro data Magnetic Field vybrán z testovaných modelů jako nejlepší model Slogistic 1, pro data Position model Bigaussian.
8
2.4. Tvorba grafů v programu ORIGIN
Úloha 3
Úloha 3. Užitím příkladu E4.20 z Kompendia vytvořte 6 -ti vrstvý graf závislostí jednotlivých znaků cigaret. Pomocí lineární regrese pak rozhodněte, které znaky spolu korelují a proč. Nacházejí se v datech nějaké odlehlé hodnoty? Jak bude vypadat závislost po jejich odstranění (do stejného grafu)? Vysvětlete obdržené výsledky. Řešení: Šestivrstvý graf závislostí jednotlivých znaků cigaret byl vytvořen pomocí dialogového okna Multiple Panels by Lable. Následně byly jednotlivé vrstvy proloženy lineární funkcí (obr. 3.1.) V tabulce 3.1. jsou uvedeny parametry a statistiky lineárních modelů jednotlivých dvojic sledovaných znaků. Již z grafického znázornění na obrázku 3.1. je patrné, že spolu korelují následující dvojice znaků: TAR-NICOTINE, TAR-CO, NICOTINE-CO. To potvrzují také výsledky lineární regrese. Hodnoty Pearsonova korelačního koeficientu se u těchto tří modelů pohybují od 0,93 do 0,98, modely vysvětlují více než 85% variability v datech. Tabulka 3.1. Parametry a statistiky jednotlivých lineárních modelů Znaky Statistické Všechna data charakteristiy modelu Value St. Error Model a) TARResidual Sum of Squares 0,1391 Významný NICOTINE Pearson's r 0,9766
b) TAR-WEIGHT
c) TAR-CO
Bez odlehlých hodnot Value
St.Error
Významný
0,1275 0,9599
Adj. R-Square
0,9518
Intercept
0,1309
0,0376
Slope
0,0610
0,0028
Residual Sum of Squares
0,1402
Pearson's r
0,4908
Adj. R-Square
0,2078
Intercept
0,8775
0,0377
0,9036
0,0451
Slope
0,0076
0,0028
0,0051
0,0037
Residual Sum of Squares
44,869
Pearson's r
0,9575 0,9131 6 2,7433
Adj. R-Square Intercept Slope
0,9178
Významný
0,1653
0,0441
0,0577
0,0036
0,1335
Nevýznamný
0,2835 0,0386
Významný
Významný
27,530 0,9662 0,9304
0,6752
1,4129
0,6482
0,0503
0,9281
0,0528
Pearson's r
0,801 0,1384 8 0,5002
Adj. R-Square
0,2176
Intercept
0,8617
0,0422
0,8913
0,0531
Slope
0,1240
0,0447
0,0860
0,0611
e) NICOTINE-CO Residual Sum of Squares
76,895
d) NICOTINEWEIGHT
f) WEIGHT-CO
Residual Sum of Squares
Model
Významný
0,1333
Nevýznamný
0,2861 0,0401
Významný
Významný
55,508
Pearson's r
0,9260
0,9305
Adj. R-Square
0,8512
0,8597
Intercept
1,6647
0,9936
-0,238
1,0827
Slope
12,395
1,0542
14,860
1,2471
Residual Sum of Squares
423,09
Pearson's r
0,4640
0,3102
Adj. R-Square
0,1811
0,0551
Intercept
-11,795
9,7216
-3,862
10,445
Slope
25,068
9,9803
16,559
10,820
Významný
9
373,94
Nevýznamný
2.4. Tvorba grafů v programu ORIGIN
Úloha 3
Obr. 3.1. Graf vzájemné závislosti jednotlivých znaků cigaret – a) TAR-NICOTINE, b) TAR-WEIGHT, c) TARCO, d) NICOTINE-WEIGHT, e) NICOTINE-CO, f) WEIGHT-CO
10
2.4. Tvorba grafů v programu ORIGIN
Úloha 3
Obr. 3.2. Graf vzájemné závislosti jednotlivých znaků cigaret po odstranění vlivného bodu z dat– a) TARNICOTINE, b) TAR-WEIGHT, c) TAR-CO, d) NICOTINE-WEIGHT, e) NICOTINE-CO, f) WEIGHT-CO
11
2.4. Tvorba grafů v programu ORIGIN
Úloha 3
U zbývající tři dvojice znaků - TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO je již z grafů patrné, že korelace mezi nimi nebude významná, body v grafu tvoří neuspořádaný mrak. Regresní modely vysvětlují 18 – 22% variability v datech, hodnoty Pearsonova korelačního koeficientu se pohybují od 0,46 do 0,50. Směrnice regresních přímek a regresní modely jsou však statisticky významné u všech šesti dvojic znaků. Každý graf však obsahuje jeden vlivný bod (extrém). Po jeho vyloučení se průběh regresní přímky u dvojic znaků TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO významně změní (obr 3.2.), sníží se hodnota koeficientu determinace a směrnice nové přímky není statisticky významně odlišná od nuly (tabulka 3.1.) Je tedy možné konstatovat, že korelace těchto znaků je výrazně ovlivněna touto jednou extrémní hodnotu v datech. Závěr: znaky TAR-NICOTINE, TAR-CO, NICOTINE-CO jsou spolu významně korelovány. Korelace znaů TAR-WEIGHT, NICOTINE-WEIGHT, WEIGHT-CO je silně ovlivněna jednou extrémní hodnotou v datech, po vypuštění tohoto odlehlého bodu není korelaci v těchto případech statisticky významná.
12
2.4. Tvorba grafů v programu ORIGIN
Úloha 4
Úloha 4. Vytvořte vícevrstvový graf s propojenými osami. Zadání: V lesních horských povodích Malá Ráztoka, U vodárny a Červík je dlouhodobě sledován chemismus vody odtékající z povodí. Vytvořte graf, znázorňující koncentrace látek, které se podílejí na acidifikaci lesních ekosystémů (N-NH4+, N-NO3-, a S-SO42-) v uzávěrovém profilu povodí v letech 2003 – 2009. Řešení: Do programu Origin byla importována data ze sešitu programu excel, obsahující hodnoty koncentrací sledovaných látek v uzávěrovém profilu všech tří povodí. Následně bylo vytvořeno 9 grafů, které byly pomocí dialogového okna Merge graphs windows spojeny do jednoho devítivrstvého grafu s propojenými osami. U jednotlivých vrstev grafu bylo měněno formátování, formáty byly do dalších vrstev přenášeny pomocí příkazů Copy – Past format. Výsledný graf je zobrazen na obrázku 4.
13
Obr. 4. Devítivrstvý graf s propojenými osami – Koncentrace látek, způsobujících acidifikaci lesních ekosystémů v povrchových vodách malých lesních povodí – a) Málá Ráztoka, b) Jeseník, c) Červík
2.4. Tvorba grafů v programu ORIGIN
Úloha 5
Úloha 5. Grafy exploratorní analýzy Grafy exploratorní analýzy byly vytvořeny z hydrologických a hydrochemických dat experimentálního povodí Želivka. 5.1. Krabicový graf Krabicový graf představuje změny odtokového režimu na uzávěrovém profilu experimentálního povodí Želivka v jednotlivých měsících hydrologického roku na základě souhrnných měsíčních průtoků, měřených v letech 1975 – 2008. V grafu jsou krabicemi znázorněny percentily (25 a 75), průměr a medián, vousy pak odlehlé body. U každé krabice jsou zobrazena experimentální data proložená křivkou normálního rozdělení (obr. 5.1.).
Obr. 5.1. Odtok na uzávěrovém profilu experimentálního povodí Želivka v jednotlivých měsících hydrologického roku
15
2.4. Tvorba grafů v programu ORIGIN
Úloha 5
5.2. Diagram rozptýlení Diagram rozptýlení představuje průměrnou koncentraci látek rozpuštěných ve vodě na uzávěrovém profilu experimentálního povodí Želivka v roce 2005 (obr. 5.2.).
Obr. 5.2. Průměrná koncentraci látek rozpuštěných ve vodě na uzávěrovém profilu experimentálního povodí Želivka v roce 2005
16
2.4. Tvorba grafů v programu ORIGIN
Úloha 5
5.3. Maticový graf V maticovém grafu jsou znázorněny vztahy mezi koncentracemi bazických kationtů ve vzorcích vody odebíraných v experimentálním povodí Želivka v letech 2000 – 2005 ve formě povrchové vody (stream), podkorunových srážek (troughfall) a srážek na volné ploše (bulk). Na diagonále maticového grafu jsou umístěny histogramy jednotlivých bazických kationtů.
Obr. 5.3. Vztahy mezi koncentracemi bazických kationtů ve vzorcích vody odebíraných v experimentálním povodí Želivka v letech 2000 – 2005
17
3.3. Tvorba nelineárních regresních modelů v analýze dat
3.3. Tvorba nelineárních regresních modelů v analýze dat
18
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 1
Úloha 1. Nalezení vhodného růstového modelu 1.1. Zadání Růstová funkce je matematickým vyjádřením růstu stromu v čase (závislost růstové veličiny y na čase (věku) t). Jejím grafickým obrazem je růstová křivka, která má typický průběh. V rámci projektu zaměřeného na výzkum výživy smrkových porostů byla v lokalitě Čachnov provedena úplná kmenová analýza šesti vzorníků. Po skácení stromu a odstranění větví byly kmeny vzorníkových stromů po změření celkové výšky stromu rozřezány na sekce o předem stanovené délce. Z každé sekce byl vyříznut kotouč pro další analýzu. Na základě počtu letokruhů na začátku a na konci každé sekce byla interpolací stanovena výška stromu v pětiletých intervalech pro celé období jeho růstu. Pro nalezení vhodného růstového modelu byly použity průměrné výšky pro jednotlivé věkové intervaly. Jaký růstový model nejlépe vystihuje růst smrku na lokalitě Čachnov? Tabulka 1.1. Vstupní data průměr
vzorník 1
2
3
věk
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
4
5
6
Výška (m)
0.25 0.76 1.30 2.26 3.26 4.62 6.01 7.31 8.34 9.30 10.50 11.79 13.29 15.42 17.67 19.80 22.26 24.39 25.45 26.54 27.51 28.57 29.87
0.25 1.31 2.42 3.83 5.89 7.95 9.43 10.77 12.01 13.09 14.17 15.52 16.92 18.40 19.71 21.15 22.72 24.65 25.86 26.94 27.86 28.84 29.72
0.25 0.62 1.11 2.22 3.78 5.51 6.69 7.76 8.87 10.23 12.62 14.63 16.29 18.13 19.58 21.25 23.12 25.06 26.66 27.66 28.60 29.74 30.88
0.25 1.33 3.43 5.86 7.33 10.09 12.23 14.33 16.02 18.12 19.67 21.29 22.87 24.27 25.64 27.00 28.14 29.06 29.80 30.35 31.20 32.08 33.00 34.03
0.25 1.70 3.44 5.18 7.17 9.04 10.61 12.21 14.23 15.72 18.12 19.13 20.03 21.91 23.72 25.08 26.12 27.03 27.83 28.63 29.22 29.84 30.43
19
0.25 0.90 2.05 3.68 5.00 6.77 8.68 10.35 11.81 13.55 15.32 17.02 18.48 19.59 20.91 22.65 24.42 25.98 27.06 28.07 28.93 29.77 30.60 31.40
0.2500 1.1051 2.2909 3.8380 5.4038 7.3320 8.9418 10.4550 11.8805 13.3351 15.0661 16.5627 17.9816 19.6192 21.2052 22.8196 24.4626 26.0270 27.1074 28.0310 28.8848 29.8069 30.7517 32.7165
3.3. Tvorba nelineárních regresních modelů v analýze dat
Obr. 1.1. Vstupní data
1.2. Řešení Použitý software: ORIGIN 1.2.1. Návrh modelu Byly testovány následující růstové funkce, běžně užívané v lesnictví: Gompertzova: 𝑦 = 𝐴𝑒 −𝑏𝑒
−𝑐𝑡
𝑘
Michailovova: 𝑦 = 𝐴𝑒 − 𝑡
𝑐
Mitscherlichova: 𝑦 = 𝐴(1 − 𝑒 −𝑡 )𝑚 Logistická: 𝑦 = 𝐴(1 + 𝑐𝑒 −𝑏𝑡 ) 1
Chapmann-Richardsova: 𝑦 = 𝐴(1 − 𝑒 −(1−𝑛)𝑏𝑡 )1−𝑛 𝑘
Korfova: 𝑦 = 𝐴𝑒 (1−𝑛)𝑡𝑛−1
20
Úloha 1
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 1
1.2.2. Odhadování parametrů
dolní mez
horní mez
P
t - kritérium
směrodatn á odchylka
bodový odhad
funkce
parametr
Tabulka 1.2: Odhad parametrů regeresních modelů
Gompertzova:
A c
28,2941 0,06177
1,08898 0,00217
25,98218 28,45208
0 26,03569 0 0,05727
30,55251 0,06627
Michailovova:
A k
54,67782 67,79043
1,84996 2,70947
29,55617 25,01977
0 50,84123 0 62,17133
58,51441 73,40954
Mitscherlichova:
A c m
49,6128 0,0124 1,68027
2,25908 9,85772E-4 0,06752
21,96149 12,57554 24,88462
44,91478 0,01035 0 1,53985
54,31082 0,01445 1,82069
Logistická:
A b c
33,19267 0,04533 15,66817
0,94686 0,00264 1,77725
35,05547 17,14187 8,81595
7,99361E-14 1,67737E-8
0 31,22357 0,03983 11,97217
35,16178 0,05082 19,36417
A n
49,61171 0,40487
2,24544 0,02396
22,09448 16,89808
4,44089E-16 1,05915E-13
44,94208 0,35504
54,28135 0,4547
b
0,02083
0,00248
8,41184
3,64867E-8
0,01568
0,02598
A
267,45638
70,65746
3,78525
0,00108
120,51615
414,39661
k
-5,43795
0,78828
-6,89853
8,1212E-7
-7,07725
-3,79864
n
0,60687
0,03704
16,38441
1,93845E-13
0,52985
0,6839
ChapmannRichardsova:
Korfova:
6,66134E-16 3,05449E-11
Všechny parametry testovaných modelů splňují Sillenovo pravidlo - odhad parametru je větší než trojnásobek jeho směrodatné odchylky. Žádný z parametrů neobsahuje nulu v intervalu spolehlivosti. Všechny parametry jsou významné (tabulka 1.2) Je však třeba se zamyslet nad fyzikálním smyslem odhadnutých parametrů. Parametr A představuje v růstových funkcích asymptotu a ve fyzikálním smyslu je tedy možné jej hodnotit jako maximální dosaženou možnou výšku dřeviny. Jako maximální dosažitelná výška pro smrk se ve středoevropských podmínkách uvádí 40 – 55 m. Z tohoto pohledu se nejreálnější jeví výsledky Mitscherlichova a Chapmann – Richardsova modelu. 1.2.3. Graf regresní křivky Pro grafické posouzení vhodnosti modelů byl použit graf proložení experimentálních dat regresním modelem (obr. 1.2.) a grafy studentizovaných reziduí vynesených v závislosti na predikovaných hodnotách (obr. 1.3.).
21
3.3. Tvorba nelineárních regresních modelů v analýze dat
Obr. 1.2. Proložení experimentálních dat testovanými modely
22
Úloha 1
3.3. Tvorba nelineárních regresních modelů v analýze dat
Obr. 1.3. Studentizovaná rezidua vs. predikce
23
Úloha 1
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 1
Gompertzůva funkce dává v mladším věku příliš nízké hodnoty oproti experimentálním datům. I v literatuře se uvádí, že je vhodné ji používat pro popis růstu stromu a porostu až od věku 40 – 50 let, což odpovídá průniku regresní křivky s experimentálními daty na obrázku 1.2. Nízké hodnoty se však objevují i ve starším věku. Mnohem těsnější proložení experimentálními daty přináší funkce Michailovova, která však pro mladší věk rovněž dává nízké hodnoty. Logistický model naopak v mladším věku růst nadhodnocuje. U Mitscherlichova, Chapmann – Richardsova a Korfova modelu vypadá průběh regresní křivky obdobně. Na základě grafického zhodnocení se zdá, že průběh horního konce křivky těchto tří modelů je ovlivněn jedním vlivným bodem a tak nedochází k určitému zpolštění křivky, které by odpovídalo pomalejšímu růstu stromů ve vyšším věku. Tento vlivný bod je patrný i v grafech reziduí. 1.2.4. Základní statistické charakteristiky regrese
Tabulka 1.3: Statistické charakteristiky regresních modelů funkce Gompertzova: Michailovova: Mitscherlichova: Logistická: Chapmann-Richardsova: Korfova:
RSC
R2
s(e)
180,64691 25,17639 2,04022 20,08341 2,04022 2,39427
0,92668 0,98978 0,99917 0,99185 0,99917 0,99903
2,86552 1,06976 0,31169 0,97793 0,31169 0,33766
|𝒆̅| 0.29810375 0.2509825 -0.041081667 -0.118850833 -0.041081667 0.02110125
Dle hodnot statistických charakteristik popisují experimentální data nejlépe Mitscherlichova a ChapmannRichardsova funkce (jejichž statistiky jsou shodné) a dále funkce Korfova. Mají nejvyšší regresní rabat (99,99%, nejnižší směrodatnou odchylku i reziduální součet čtverců. Střední hodnota reziduí se blíží nule (tabulka 1.3.) 1.2.5. Numerická analýza reziduí Numerická analýza reziduí byla provedena v programu Excel z hodnot studentizovaných reziduí (tab 1.4.) Aby mohla být potvrzena normalita reziduí, měla by se hodnota šikmosti blížit nule a hodnota špičatosti hodnotě tři. Normální rozdělení nevykazují rezidua žádné z testovaných funkcí. Tabulka 1.4: Výsledky numerické analýzy reziduí Směr. funkce odchylka Špičatost Šikmost Gompertzova: 0.969635094 -1.177890403 0.00296117 Michailovova: 0.984235054 -1.043076974 0.170919878 Mitscherlichova: 1.041020755 -0.784335411 0.387285254 Logistická: 1.01543283 0.38660643 -0.222307465 Chapmann-Richardsova: 1.040973023 -0.784646507 0.38724583 Korf: 1.022855907 0.287072417 0.081986443
24
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 1
1.2.6. Konstrukce zpřesněného modelu Z dat byl vyloučen vlivný bod č. č. 24 a byly odhadnuty parametry zpřesněných modelů. Odhady parametrů zpřesněného modelu
Gompertzova:
dolní mez
horní mez
P
t - kritérium
směrodatn á odchylka
bodový odhad
funkce
parametr
Tabulka 1.5: Odhad parametrů zpřesněných regeresních modelů
A c A k
27,42262 0,06309 53,3147 66,22847
1,0738 0,00223 1,84483 2,67026
25,5379 28,34867 28,89948 24,8023
0 0 0 0
25,18952 0,05847 49,47816 60,67537
29,65571 0,06772 57,15124 71,78157
Mitscherlichova:
A c m
47,58469 0,01319 1,72205
2,13026 0,00103 0,06972
22,33752 12,82491 24,69906
1,33227E-15 4,16285E-11 2,22045E-16
43,14105 0,01105 1,57662
52,02834 0,01534 1,86749
Logistická:
A b c
32,07861 0,04731 16,13311
0,90431 0,0027 1,80398
35,4729 17,52593 8,94307
0 1,32117E-13 1,99932E-8
30,19225 0,04168 12,37008
33,96498 0,05294 19,89614
A n b
47,58697 0,41927 0,02272
2,11772 0,02358 0,00268
22,47082 17,78051 8,49272
1,11022E-15 1,00808E-13 4,57383E-8
43,16947 0,37008 0,01714
52,00446 0,46846 0,0283
A k
251,53158 -5,6144
70,07323 0,87851
3,58955 -6,3908
0,00183 3,10147E-6
105,36138 -7,44695
397,70178 -3,78185
n
0,5986
0,04026
14,86948
2,82707E-12
0,51463
0,68258
Michailovova:
ChapmannRichardsova:
Korfova:
Základní statistické charakteristiky zpřesněného modelu Tabulka 1.6: Statistické charakteristiky regresních modelů funkce Gompertzova: Michailovova: Mitscherlichova: Logistická: Chapmann-Richardsova: Korf:
RSC
R2
s(e)
154,84032 21,86491 1,73162 16,28585 1,73162 2,35299
0,92971 0,99008 0,99921 0,99261 0,99921 0,99893
2,71539 1,02039 0,29425 0,90238 0,29425 0,343
Po odstranění bodu č. 24 došlo k mírnému zlepšení sledovaných statistických charakteristik u všech modelů, výjimku tvoří R2 u Korfova modelu. Nové proložení experimentálních dat regresními funkcemi je znázorněno na obrázku 1.4.
25
3.3. Tvorba nelineárních regresních modelů v analýze dat
Obr. 1.4. Proložení experimentálních dat testovanými modely po odstranění vlivného bodu
26
Úloha 1
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 1
1.3. Závěr Závěr: nejlepší proložení dat bylo dosaženo Mitscherlichovou a Chapmann-Richardsovou funkcí Zpřesněný model má tvar Mitscherlichova funkce:
𝑦 = 47,58469(±2,13026) (1 − 𝑒 −
0,01319(±0,00103) 1,72205(±0,06972 ) 𝑡
)
Chapmann-Richardsova funkce: 1
𝑦 = 47,58697(±2,11772) (1 − 𝑒 −(1−0,41927(±0,02358))0,02272(±0,00268)𝑡 )1−𝑛1−0,41927(±0,02358)
27
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
Úloha 2. Nalezení parametrů alometrické funkce 2.1. Zadání Pro výpočet nadzemní biomasy dřevin se používají tzv. alometrické rovnice, vytvořené na základě destruktivní analýzy dřevin. Jejich nejběžnější matematické formulace mají regresní formu nelineární exponenciální funkce nebo lineární funkce. Nejčastěji se v biometrických studiích používá exponenciální rovnice o dvou parametrech ( 0 , 1) vyjadřující závislost pouze na výčetní tloušťce D. Nalezněte parametry alometrické funkce na základě nezávislého souboru empirických dat z 81 vzorníků buku pocházejících z 10 oblastí České republiky. Porovnejte řešení pomocí různého softwaru.
47,7 62,1 31,4 29,9 31,8 24,7 25,8 26,5 11,2 11,2 11,5 30,3 35,3 40,3 5,7 8,1 15,0 26,2 26,5 29,3
1634,4 3116,2 922,7 801,3 969,2 475,9 492,2 494,6 55,3 55,5 57,7 526,1 787,8 1121,6 6,6 26,4 92,6 525,1 609,9 642,0
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
28
30,7 34,5 34,7 39,4 34,0 32,5 33,0 29,5 26,4 26,1 7,5 7,5 7,4 39,6 41,2 39,1 23,2 22,5 22,5 8,7
709,0 1024,6 1004,7 1368,3 688,6 693,1 627,4 555,7 393,1 491,5 20,6 21,1 21,8 1025,1 1166,1 947,6 341,6 367,0 344,6 21,6
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81
8,7 8,1 8,9 8,3 16,2 18,5 16 11,9 12 11,9 11,4 11,7 56,5 45,7 53,3 32,3 27,2 25,3 12,1 12,7 12,9
nadzemní biomasa celkem
výčetní tloušťka
vzorník
nadzemní biomasa celkem
výčetní tloušťka
vzorník
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
nadzemní biomasa celkem
289,176 277,038 248,155 272,382 254,238 79,170 98,919 62,216 88,884 51,109 40,439 41,116 51,455 18,916 25,306 627,3 953,7 1404,7 1261,4 1743,5
výčetní tloušťka
vzorník
22,000 20,100 19,900 19,800 21,200 12,100 12,600 12,300 12,600 11,300 9,300 9,800 10,400 8,000 7,300 30,9 39,5 40,7 41,4 46,2
nadzemní biomasa celkem
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
výčetní tloušťka
vzorník
Tabulka 2.1: Vstupní data
28,9 23,5 25,0 19,9 158,6 199,6 138,5 56,5 44,3 57,9 45,6 48,4 3098,3 2275,9 2595,1 390,7 361,5 355,5 57,3 64,8 60,5
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
Obr. 2.1. Vstupní data
2.2. Řešení Použitý software: ORIGIN, ADSTAT, QC.EXPERT 2.2.1. Návrh modelu Základní alometrická rovnice: 𝑦 = 𝐴𝐷𝑏 2.2.2. Odhadování parametrů
ORIGIN
a b
0,22016 2,33919
0,0541 0,06266
ADSTAT
a b
0,21971 2,3397
0,05509 0,065404
QC.EXPERT
a b
0,22063 2,3386
0,05543 0,06555
horní mez
dolní mez
směrodatn á odchylka
bodový odhad
parametr
software
Tabulka 2.2: Odhad parametrů regeresního modelu
0,11247 2,21446
0,32785 2,46391
0,11029 2,20813
0,33097 2,46909
29
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
Nalezené parametry modelů splňují Sillenovo pravidlo, tedy že odhad parametru je větší než trojnásobek jeho směrodatné odchylky. Žádný z parametrů neobsahuje nulu v intervalu spolehlivosti. Nalezené parametry jsou významné (tabulka 2.2) 2.2.3. Graf regresní křivky Pro grafické posouzení vhodnosti modelů byl použit graf proložení experimentálních dat regresním modelem (obr. 2.2.) a grafy klasických reziduí vynesených v závislosti na predikovaných hodnotách (obr. 2.3.).
Obr. 2.2. Proložení experimentálních dat alometrickou funkcí v programu Origin, ADStat a QC.Expert
30
3.3. Tvorba nelineárních regresních modelů v analýze dat
Obr 2.3. Rezidua vs. Predikce v programu Origin, ADStat a QC.Expert
31
Úloha 2
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
2.2.4. Základní statistické charakteristiky regrese
tabulka 2.3: Statistické charakteristiky regresních modelů software ORIGIN ADSTAT QC.EXPERT
RSC 1,37E+06 1,37E+06 1,37E+06
R2 0,96213 0,96219 0,96213
s(e)
AIC
131,7083 792,5 131,61 131,7086 792,6
MEP 22464 22486
Dle hodnot statistických charakteristik regrese se výsledky získaných z jednotlivých programů nepatrně liší. 2.2.5. Analýza reziduí Numerická analýza reziduí Aby mohla být potvrzena normalita reziduí, měla by se hodnota šikmosti blížit nule a hodnota špičatosti hodnotě tři. Předpoklad normality však rezidua nesplňují. tabulka 2.4: Výsledky numerické analýzy reziduí Směr. software odchylka Špičatost ORIGIN 1,055214 5,766902 ADSTAT 8,2685 QC.EXPERT 8,1609
Šikmost 0,728274 0,97434 0,832269
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : 86,11904523 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0 Závěr : Rezidua vykazují heteroskedasticitu! Jarque-Berrův test normality Hodnota kritéria JB : 101,1241518 Kvantil Chi^2(1-alfa,2) : 5,991464547 Pravděpodobnost : 0 Závěr : Rezidua nemají normální rozdělení! Waldův test autokorelace Hodnota kritéria WA : 14,2453444 Kvantil Chi^2(1-alfa,1) : 3,841458829 Pravděpodobnost : 0 Závěr : Autokorelace je významná Znaménkový test reziduí Hodnota kritéria Sg : 3,100948149 Kvantil N(1-alfa/2) : 1,959963999 Pravděpodobnost : 0,001929020662 Závěr : V reziduích je trend! Závěry testů z programu QC.Expert potvrzují, že rezidua nemají normální rozdělení, vykazují heteroskedasticitu a autokorelace v datech je významná.
32
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
Grafická analýza reziduí
Obr. 2.4. – Grafická analýza reziduí
Na základě analýzy reziduí byly v datech identifikovány vlivné body 21,22,73,74,75 a 76, které byly pro konstrukci zpřesněného modelu odstraněny.
33
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
2.2.6. Konstrukce zpřesněného modelu Odhady parametrů zpřesněného modelu
ORIGIN
a b
0,33122 2,21918
0,09956 0,08212
ADSTAT
a b
0,331 2,2194
0,10127 0,08528
QC.EXPERT
a b
0,3307 2,2196
0,10128 0,08538
horní mez
dolní mez
směrodatn á odchylka
bodový odhad
parametr
software
Tabulka 2.5: Odhad parametrů zpřesněného modelu
0,13281 2,05552
0,52964 2,38285
0,1288384223 2,049464698
0,532548037 2,389815021
Základní statistické charakteristiky zpřesněného modelu Tabulka 2.6: Statistické charakteristiky zpřesněného modelu RSC R2 RSC R2 s(e) software nové nové 556740 0,96213 0,9575 131,71 ORIGIN 1,37E+06 556740 0,96219 0,9575 131,61 ADSTAT 1,37E+06 QC.EXPERT 1,37E+06
556742 0,96213
0,9575 131,71
s(e)nové 87,33 87,33 87,33
AIC 792,5 792,6
AIC nové
MEP
672,4 22464 672,4 22486
MEP nové 8227,2 8227,1
Odhady parametrů i jejich směrodatné odchylky se opět u všech tří softwarů liší. I statistické charakteristiky regrese vykazují drobné odchylky. Po odstranění vlivných bodů z dat došlo k výraznému zlepšení hodnoty kritérií MEP i AIC, která považujeme za jedny z rozhodujících kritérií při posuzování kvality modelu. U všech tří programů došlo ke zhoršení hodnoty regresního rabatu. Nové proložení experimentálních dat regresní funkcí je znázorněno na obrázku 2.5.
34
3.3. Tvorba nelineárních regresních modelů v analýze dat
Úloha 2
Obr. 2.5. Proložení experimentálních dat alometrickou funkcí - zpřesněný model
Vzhledem k tomu, že experimentální data svým charakterem nesplňují předpoklady pro regresi ani po odstranění vlivných bodů (rezidua vykazují heteroskedasticitu a nemají normální rozdělení) byly hodnoty nadzemní biomasy v dalším kroku převedeny na přirozený logaritmus (byl odstraněn ještě vlivný bod č. 35) a znovu testovány v programu QC.Expert. Nové odhady parametrů a statistické charakteristiky regrese pro zlogaritmovaná data jsou uvedeny v tabulce 2.7. a 2.8
QC.EXPERT QC.EXPERT (ln y)
a b a b
0,3307 2,2196 1,259518824 0,4763207995
0,10128 0,08538 0,0438323789 0,01076853169
horní mez
dolní mez
směrodatn á odchylka
bodový odhad
parametr
software
Tabulka 2.7: Odhad parametrů zpřesněného modelu pro zlogaritmovaná data
0,1288384223 2,049464698 1,172140574 0,4548541239
0,532548037 2,389815021 1,346897074 0,4977874751
Tabulka 2.8: Statistické charakteristiky zpřesněného modelu pro zlogaritmovaná data RSC R2 s(e) AIC MEP software QC.EXPERT 556742 0,9575 87,33 672,4 8227,1 QC.EXPERT(ln y 4,4041 0,9696 0,2473 -205 0,0631
Došlo k výraznému zlepšení všech statistických charakteristik regrese, rezidua mají nyní normální rozdělení a vykazují homoskedasticitu.
35
3.3. Tvorba nelineárních regresních modelů v analýze dat Výsledné grafické vyjádření regresního modelu je na obrázku 2.6.
Obr. 2.6. Proložení zlogaritmovaných experimentálních dat alometrickou funkcí
2.3. Závěr Nejlepší proložení dat bylo dosaženo po zlogaritmování hmotnosti nadzemní biomasy Zpřesněný model má tvar
ln 𝑦 = 1,259518824(±0,043832) ∗ 𝐷0,47632(±0,010768)
36
Úloha 2