XXVI. ASR '2001 Seminar, Instruments and Control, Ostrava, April 26 - 27, 2001
Paper 45
Identifikace vícerozměrného nelineárního statického systému pomocí statistické analýzy a neuronových sítí MORÁVKA, Jan1, DVOŘÁK, Jaroslav2 1
Ing., Ph.D., Staré Město,
2
Ing., R.T.S. cs., spol. s.r.o., Novinářská 3, 709 00 Ostrava, http://www.rtscs.cz
Třinecký inženýring, a.s., Středisko projekce, Frýdecká 126, 739 61 Třinec–
[email protected], http://www.inzenyr.trz.cz
[email protected],
Abstrakt: V praxi analýzy a (sub)optimálního řízení složitých hutnických procesů se řešitelé potýkají s velice náročným problémem identifikace vícerozměrných nelineárních dynamických systémů. Pro kvalitní řízení těchto složitých systémů je nutná nejprve jejich strukturální a parametrická identifikace, následovaná syntézou se zohledněním autonomnosti, invariantnosti a stability řídicích obvodů. V příspěvku jsou na příkladu jednoduchého vícerozměrného nelineárního statického systému MIMO(4,1) ≡ MISO(4) ukázány možnosti i srovnání jeho identifikace a odhadu (estimace, predikce) výstupu pomocí statistické regresní analýzy a neuronových sítí. Klíčová slova: identifikace, estimace (predikce), vícerozměrný systém, statistická analýza, neuronové sítě
1 Úvod Hutnické procesy patří mezi složité fyzikálně-chemické procesy teoreticky popsatelné pomocí vícerozměrných obecně nelineárních dynamických systémů s různými dopravními zpožděními v jejich struktuře. Konkrétně mezi tyto procesy patří např. proces aglomerační včetně sledování jeho ekologie [MORÁVKA, J. 1999], proces vysokopecní, proces ohřevu větru, proces kontinuálního (plynulého) odlévání oceli [MORÁVKA, J. 2000a,b,c,d] apod. Před realizací praxí požadované úlohy (sub)optimálního řízení těchto systémů je potřebné provést jejich strukturální a parametrickou identifikaci. Jelikož jde o procesy velmi složité a komplexní, nejsou doposud známé všechny exaktní vztahy pro jejich matematický popis. Problém identifikace vícerozměrných systémů je i teoreticky ještě nedostatečně rozpracovaný, což souvisí s principem neurčitosti jejich vnitřní struktury, tzn. s nejednoznačností jejich stavových popisů a kanonických tvarů [KUBÍK, S. AJ. 1982]. Některé hutní (sub)systémy jsou zatím prakticky nepopsané (jsou typu tzv.černá skřínka), další popsané pouze částečně (tzv.šedá skřínka) – a těchto je nejvíc – zatímco jen velice málo z nich je popsaných (téměř) úplně (tzv. bílá skřínka). Zjišťování vnitřní struktury (typu vazeb mezi vstupními, stavovými a výstupními veličinami, tj. identifikace) nedostatečně popsaných systémů se děje prostřednictvím fyzikálního (podobnostního) modelování, prostřednictvím měření důležitých veličin a následně pomocí statistické analýzy (SA), či neuronových sítí (NS) aplikovaných na měřená data. Při identifikaci systémů pomocí metod statistické analýzy je určitá šance dopátrat se jejich vhodné (přijatelné) vnitřní struktury (tj. přejít od černé skřínky k šedé, či od šedé k bílé), i -1-
když tento přístup je velice náročný na znalosti a čas. Identifikace pomocí neuronových sítí umožňuje spíše vnější popis systémů (tj. vytvoření empirických modelů černých skřínek), kdy dostáváme přijatelnou shodu mezi skutečnými a modelovanými výstupy. Tento přístup je tedy vhodnější spíše k řízení, než k samotné identifikaci. V literatuře je často uváděné konstatování, že u složitých vícerozměrných nelineárních systémů dávají neuronové sítě přesnější výsledky než regresní analýza (s analytickými a empirickými modely) - viz např. [JANČÍKOVÁ, Z. AJ. 2000]. Cílem příspěvku bylo (na jednoduchém vícerozměrném nelineárním modelu) ověřit následující otázky: • poskytují skutečně modely NS nejpřesnější odhady výstupů systémů? • jsou tyto odhady taky správné? • umožňují NS správnou strukturální a parametrickou identifikaci (tj.odpovídá vnitřní struktura modelu NS struktuře analyzovaného systému)? • nejsou horší výsledky SA ve srovnání s NS způsobené pouze nesprávnou volbou regresního modelu, která může být způsobena: • nedostatečnou znalostí struktury systému, • nedostatečnými znalostmi teorie a moderních metod matematické statistiky, • či nepoužitím kvalitních statistických programů?
2 Analyzovaný model systému Pro zjednodušené srovnání obou přístupů byl vytvořen poměrně jednoduchý vícerozměrný model systému typu MIMO(4,1) ≡ MISO(4) s aditivní poruchou na výstupu (obr.1) s vlastnostmi: • model je statický (čili charakterizuje dynamický systém ustálený, po odeznění přechodových dějů) • model je nelineární se smíšenou aditivně-multiplikativní nelineární strukturou s dyadickou interakcí některých veličin. Vnější schéma modelu (ve dvou variantách) je uvedeno na obr.1: v MIMO(4,1) = MISO(4) u
+
+
u1
v y
u2 u3 u4
Obr. 1. Schéma analyzovaného modelu nelineární soustavy Vnitřní struktura modelu je zřejmá z obr.2:
-2-
y
v u1
k1
u2
k2
x
k'3 u3
k3
u4
k4
Σ
+ +
y
Obr. 2. Vnitřní struktura analyzovaného modelu Strukturu modelu lze na základě zobrazení popsat pomocí rovnice: y = k 1 u1 + k 2 u 2 k ' 3 u 3 + k 3 u 3 + k 4 u 4 + v ,
(1)
nebo jednodušeji po úpravě ve tvaru: y = k1u1 + k 23 u 2 u 3 + k 3 u 3 + k 4 u 4 + v,
k 23 = k 2 k ' 3 ,
(2)
přičemž této rovnici už odpovídá modifikovaný model systému s poněkud odlišnou vnitřní strukturou – obr. 3: v u1
k1
u2
x
u3
k3
u4
k4
k23
Σ
+ +
y
Obr. 3. Vnitřní struktura modifikovaného analyzovaného modelu Parametry vstupních signálů a přenosových konstant jsou uvedeny v tab.1, přičemž všechny vstupní signály jsou typu Gaussovský náhodný šum: ui ∼ N(mi, si) se střední hodnotou mi a směrodatnou odchylkou si a byly získány z generátoru pseudonáhodných posloupností s počtem prvků n = 100 (perioda vzorkování Tvz = 5 s, doba simulace Tf = 495 s), s násadou seed = 13571. Modifikovaný model byl vytvořen a simulován v prostředí programu MATLAB 4.2c.1 (data byly uloženy a transformovány do souborů se jmény M41.*).
-3-
Tab.1. Parametry modelu Skupina Parametry u1 u2 vstupní u3 signály u4 v k1 k2 koeficienty k3 k’3 k4
si 0.4 0.8 0.6 1.4 0.1 -
mi 3 4 7 5 0 2 1 0.3 3 0
Poznámka
aditivní porucha
k23 = k2.k’3 =3 nulová hodnota
Modifikovanou strukturu modelu systému s konkrétními hodnotami koeficientů lze potom popsat pomocí rovnice: y = 2u1 + 0.3u 3 + 3u 2 u 3 + v .
(3)
Průběhy vstupních a výstupního signálu generovaného modelu jsou uvedeny na obr. 4: 1 0 u 2
u 1
1 0 5 0
0
2 0 0
5 0
4 0 0
5 0
0
2 0 0
4 0 0
0
2 0 0
4 0 0
0
2 0 0
4 0 0
1 0 u 4
u 3
1 0
0
2 0 0
5 0
4 0 0
1 0 0
0 - 0 .5
y
v
0 .5
5 0 0
2 0 0
0
4 0 0
Obr. 4. Časové průběhy proměnných (veličin, I/O signálů) modelu Pouze expertním odhadem na základě posouzení grafických průběhů signálů nelze odhadnout vnitřní strukturu modelu – snad lze učinit jenom dohad, že v proměnné y se nejvíce odráží vliv proměnné u2. V dalším budou rozebrány přístupy i výsledky strukturální a parametrické identifikace analyzovaného systému pomocí statistické regresní analýzy a neuronových sítí. Hodnocení kvality identifikace bude posuzováno prostřednictvím statistických vlastností odchylek (eM) výstupů systému (y) a modelů (yM) – obr. 5:
-4-
v
SYSTÉM
+
+
y +
u
eM
_
MODEL
+ yM
+ ε
Obr. 5. Srovnání výstupů systému a jeho modelů Jak je zřejmé z obrázku, pro vztah odchylek (eM), reziduí modelů (ε) a aditivního výstupního šumu systému (v) platí: eM = y − y M → 0 ⇒ ε → v ,
(4)
co znamená, že kvalitní model bude mít rezidua ε typu Gaussovský náhodný šum se statistickými parametry (přibližně) stejnými jako má šum v.
3 Statistická regresní analýza 3.1. Regresní modely Pro zjištění použitelnosti statistické analýzy ke strukturální a parametrické identifikaci modifikovaného modelu soustavy ověříme a srovnáme vícerozměrné regresní modely (ve variantách s absolutním členem i bez něj): • aditivní (A: v praxi nejčastěji a téměř zásadně používané) • smíšené aditivně-multiplikativní (S) • generované (G: odpovídající struktuře modelu generování dat). Aditivní modely jsou přitom lineární, zatímco modely smíšené a generované jsou nelineární v proměnných, ale lineární v parametrech (čili linearizované/linearizovatelné). Uvažované analyzované regresní modely byly charakterizovány pomocí následujících rovnic a označení (kde číslo za označením typu modelu znamená počet regresorů, tj.vysvětlujících proměnných, ε ~ N(0, σε) je náhodný šum, chyba odhadu, reziduum): 4
~ y = b 0 + ∑ bi u i + ε , ~ y=
i =1 4
∑b u i
i
(A5)
+ε,
(A4)
i =1 4
~ y = b0 + ∑ bi u i +
3, 4
∏b u u
j
+ε ,
(S11)
j
+ε ,
(S10)
~ y = b0 + b1u1 + b23 u 2 u 3 + b3 u 3 + ε , ~ y= b1u1 + b23 u 2 u 3 + b3 u 3 + ε ,
(G4) (G3)
i =1
~ y=
4
∑ bi u i + i =1
ij i =1, j = i +1
i
3, 4
∏b u u
ij i =1, j = i +1
i
-5-
Je zřejmé, že uvedené pořadí regresních modelů by přibližně mělo odpovídat jejich zvyšující se adekvátnosti vzhledem ke generovaným datům. 3.2. Základní výsledky regresní analýzy Přehledné srovnání skupin kvantitativních ukazatelů kvality regresních modelů (získaných z programů QC Expert - QCE, Statgraphics - SG a EasyReg - ER) je uvedeno v tab.2,3,4,5 s následnými dílčími závěry a hodnoceními. Tab.2. Regresní koeficienty Koef. → b0 b1 Modely ↓ A5 -82.1 2.18 A A4 -4.8 S11 -0.13 1.91 S S10 1.88 G4 -0.07 1.99 G G3 1.99
b2
b3
20.8 19.0 0.11 0.09 -
12.1 4.8 0.34 0.32 0.31 0.31
b4
b12
b13
b14
b23
b24
b34
-0.02 -0.48 -0.04 -0.02 0.007 0.026 2.995 -.001 -.005 -0.04 -0.02 0.01 0.027 2.996 -.001 -.005 3.000 3.000
Pozn.: Statisticky významné a nevýznamné hodnoty jsou označeny tučným/normálním písmem a kurzívou. Závěry: • aditivní (A) modely poskytují nesprávné odhady koeficientů, co do jejich velikosti i znaménka. Jediným správným výsledkem je statistická nevýznamnost koeficientu b4 • smíšené (S) a generované (G) modely produkují správné odhady i významnosti koeficientů, přičemž menší odchylky hodnot koeficientů od jejich generovaných hodnot dávají (což je samozřejmé) generované modely (vliv uvažování absolutního členu se zde na výsledcích prakticky neprojevil) • koeficient b4 je statisticky nevýznamný u všech modelů, koeficient b2 je nevýznamný u Smodelů, statisticky významné u S-modelů jsou pouze koeficienty b1, b3 a b23 Tab.3. Příznaky multikolinearity regresorů (VIF) Koef. → b0 b1 b2 b3 b4 Modely ↓ A5 1 1.01 1.01 1.03 1.02 A A4 1.01 1.01 1.03 1.02 S11 1 213 245 79 166 S S10 213 245 79 166 G4 1 1.01 1.22 G G3 1.01 1.22 -
b12
b13
b14
b23
b24
b34
127 127 -
185 185 -
68 68 -
178 178 1.22 1.22
58 58 -
207 207 -
Pozn.: VIF ... Variance Inflation Factor – užitečné kritérium multikolinearity vysvětlujících proměnných (regresorů), hodnota VIF>10 indikuje multikolinearitu [HEBÁK, P. & HUSTOPECKÝ, J. 1987], [MELOUN, M. & MILITKÝ, J. 1994]. VIF je počítáno jen v některých statistických programech např. v QCE, ADSTAT, JMP IN (SAS). Závěr: • u smíšených (S) modelů se vyskytla multikolinearita (VIF) všech regresorů (s výjimkou absolutního členu), což znamená že tento model je přeurčen – má zbytečně mnoho vzájemně závislých vysvětlujících proměnných. Tento závěr se projevil také v hodnotách Scottova kritéria přeurčenosti a multikolinearity celých regresních S-modelů – viz tab. 4 -6-
Tab.4. Regresní modely Test, Vlastnost kritérium Scott Přeurčenost AIC MEP Významnos F-test t RSS SE Kvalita, 2 přiléhavost R [%] Ra2 [%]
A
S
G
A5 -0.02 95.31 2.8
A4 0.077 358.3 36.2
S11 0.99 -453.46 0.0109
S10 0.99 -455.45 0.0107
G4 0.24 -462.92 0.0098
G3 0.10 -464.62 0.0095
3609
314
370 946
416 736
1.3.106
1.9.106
235 1.57 99.35 99.32
3323 5.88 90.74 90.45
0.861 0.0984 99.998 99.9973
0.861 0.0978 99.998 99.9974
0.901 0.0969 99.998 99.9974
0.904 0.0965 99.998 99.9974
Pozn.: Tučně jsou označena vhodná kritéria a minima/maxima určující nejlepší model, kurzívou maximum/minimum některých ukazatelů. Scott ... Scottovo kritérium přeurčenosti a multikolinearity modelu, AIC ... Akaikeho informační kritérium, MEP ... střední kvadratická chyba predikce, RSS ... reziduální součet čtverců (Residual Sum of Squares), SE ... standardní chyba odhadu modelu (Standard Error), Ra2 ... adjungovaný, korigovaný koeficient determinace na (n-p) stupňů volnosti, kde n – počet hodnot, p – počet regresorů. Ukazatele (testy a kritéria) hodnocení regresních modelů jsou také uvedeny na obr. 6,7: M 41 : u ka z a te le vh o d n o sti m o d e lů
1.E + 04
1.2 1
1.E + 03
0.8 1.E + 02
S c ott
0.6
R2 RS S
0.4
1.E + 01 1.E + 00
0.2 0
1.E -01 A5
A4
S 11
S 10
G4
G3
Obr. 6. Ukazatele vhodnosti modelů: Scottovo kritérium, R2 a RSS
-7-
M41 : ukazatele vhodnosti modelů
M41 : ukazatele vhodnosti modelů
1.E+07
100 MEP
F-test
1.E+06
500 SE
10
300
AIC 1.E+05
1
1.E+04
0.1
-100
1.E+03
0.01
-300
1.E+02
0.001
-500
100 A5
A5
A4
S11
S10
G4
A4
S11
S10
G4
G3
G3
Obr. 7. Objektivní ukazatele vhodnosti modelů: F-test, MEP, SE a AIC Závěry: • u smíšených modelů signalizuje Scottovo kritérium správně přeurčenost a multikolinearitu těchto modelů, což také odpovídá vysokým hodnotám faktorů VIF • koeficient determinace R2 je vhodnou mírou pouze u lineárních (aditivních) modelů, u modelů nelineárních podává zkreslené výsledky. U modelu A4 správně indikuje nejhorší kvalitu, zatímco modely S a G nedokáže rozlišit a signalizuje jejich stejnou a velice vysokou kvalitu • adjungovaný koeficient determinace Ra2 má stejné vlastnosti jako jeho základní varianta. Jak lze vidět z výsledků v tabulce, při větším počtu dat se korekce (zohlednění) na počet stupňů volnosti (počet regresních koeficientů) prakticky neprojeví • RSS (reziduální součet čtverců odchylek) jako základní a přirozené kritérium kvality má nevýhodu v tom, že je závislé na počtu regresorů a proto za nejlepší označuje modely typu S. Zde tkví také slabost při jeho použití v jiných přístupech, než je statistický (např. v neuronových sítích), či v metodách GLM – za nejlepší označí RSS nejsložitější model (obsahující největší počet parametrů), bez ohledu na jeho vnitřní strukturu [HEBÁK, P. & HUSTOPECKÝ, J. 1987] • mezi ukazatele správně a uspořádaně hodnotící celkovou kvalitu a vhodnost modelů patří: AIC, MEP, F-test a SE, které správně označily za nejhorší model A4 a za nejlepší G3. Nejplynulejší a nejlépe rozlišitelný průběh má F-test. Uvedené ukazatele výrazně odlišují nekvalitní (nevhodné) A-modely od modelů S a G. Tab.5. Rezidua Vlastnost Autokorelace Trend Normalita Heteroskedasticita
Test, ukazatel DW Waldův znaménkový JB std.asymetrie std.exces CW BP
A A5 1.92 0.045 -0.06 124.2 5.7 10.3 6.41 9.81
S A4 2.25 2.08 1.06 12.0 2.9 2.2 6.16 -
S11 1.94 0.045 1.146 12.3 2.26 2.98 0.30 19.6
G S10 1.94 0.052 1.146 11.9 2.24 2.93 0.30 -
G4 1.90 0.190 0.704 4.02 1.32 1.74 0.07 2.56
G3 1.90 0.225 0.339 4.23 1.44 1.76 0.10 -
Pozn.: DW ... Durbin-Watsonovo kritérium autokorelace, JB ... Jarque-Berrauvo kritérium normality, CW/BP ... Cook-Weisbergovo/Breusch-Paganovo kritérium heteroskedasticity. -8-
Závěry: • u všech modelů typu A i S došlo k narušení předpokladu normality reziduí, přičemž jako nejhorší model z tohoto pohledu se jeví A5. Standardizovaná asymetrie (šikmost) i exces (špičatost), jako i kombinovaný Jarque-Berraův test se tedy jeví jako vhodné a citlivé indikátory jak narušení normality reziduí, tak i nesprávného modelu • narušení předpokladu homoskedascity reziduí bylo indikováno univerzálnějším CookWeisbergovým testem pouze u A-modelů, zatímco Breusch-Paganův test (který je použitelný pouze pro modely s absolutním členem) hlásil narušení u modelů A i S • je logické, že u G-modelů měly rezidua všechny předpoklady splněné. Grafické průběhy reziduí všech modelů jsou znázorněna na indexových grafech v obr.8: Rezidua A-modelů
Rezidua S-modelů
Rezidua G-modelů
0.4
25 20
e_A5
15
e_A4
0.4 e_S11
0.3
e_S10
0.2
0.2
5
0.1
0.1
0
0
0
10
-5 1
-0.1
-10
1
e_G4
0.3
-0.1
-15
-0.2
-0.2
-20
-0.3
-0.3
e_G3
1
Obr. 8. Indexové grafy reziduí modelů typu A, S a G Korelační a lineární regresní závislosti mezi reziduy modelů a aditivním výstupním šumem (v) jsou viditelné na obr. 9,10 a 11: Korelace : rezidua modelu A4 - v
25 20
e_A4
Korelace : rezidua modelu A5 - v
8
y = 2.0627x - 0.349 R2 = 0.0012
6
15 10 v
-0.1 -5 0 -10
R2 = 0.0012
2
0 -0.2
y = 0.5577x + 0.0073
4
5 -0.3
e_A5
0.1
0.2
0.3
0.4
v
0 -0.3
-15 -20
-0.2
-0.1
-2
0
0.1
0.2
-4
Obr. 9. Korelace a regrese mezi reziduy A-modelů a šumem na výstupu
-9-
0.3
0.4
Korelace : rezidua modelu S10 - v
0.4
Korelace : rezidua modelu S11 - v
0.4
e_S10
0.3
0.3
0.2
0.2
0.1
0.1
v
0 -0.3
-0.2
-0.1
-0.1
e_S11
v
0 0
0.1
-0.2
0.2
0.3
0.4 -0.3
-0.2
-0.1
0
0.1
-0.2
y = 0.9495x + 0.0124 2
R = 0.9495
-0.3
-0.1
0.2
0.3
0.4
y = 0.9494x + 0.0124 R2 = 0.9494
-0.3
Obr. 10. Korelace a regrese mezi reziduy S-modelů a šumem na výstupu Korelace : rezidua modelu G3 - v
0.4
Korelace : rezidua modelu G4 - v
0.4
e_G3
0.3
0.3
0.2
0.2
0.1
0.1
v
-0.2
-0.1
-0.1 -0.2 -0.3
v
0
0 -0.3
e_G4
0
0.1
0.2
0.3
0.4 -0.3
y = 0.996x + 0.0126 2
R = 0.9955
-0.2
-0.1
-0.1 -0.2 -0.3
0
0.1
0.2
0.3
0.4
y = 0.9935x + 0.013 R2 = 0.9935
Obr. 11. Korelace a regrese mezi reziduy G-modelů a šumem na výstupu Závěry: • na základě grafických průběhů reziduí nelze expertně vypozorovat jejich nenormalitu a heteroskedasticitu - číselné charakteristiky naopak tyto deformace citlivě a dobře indikují. Z indexových grafů reziduí lze pouze konstatovat, že jejich hodnoty pro A-modely jsou asi o 1-2 řády větší než u modelů typu S a G (pro které mají prakticky stejný rozsah hodnot) • u A-modelů se prakticky neprojevila statisticky významná korelace mezi reziduy těchto modelů a poruchovou veličinou • nejtěsnější shoda (korelace) mezi reziduy a aditivní poruchou na výstupu modelů se logicky projevila u modelu G3 – směrnice lineární regresní přímky je téměř 1, absolutní člen je téměř rovný nule, v regresi zůstalo nevysvětleno pouze 0,45% rozptylu • nejhoršími modely po všech hodnocených stránkách jsou lineární A-modely. 3.3. Grafické diagnostické hodnocení výsledků regresní analýzy Na základě poznatků z literatury [MELOUN, M. & MILITKÝ, J. 1994], [OLEHLA, M AJ. 1982] je možné konstatovat, že pro určení vhodnosti regresního modelu a detekci narušení předpokladů regresní analýzy jsou použitelné následující speciální tzv. diagnostické grafy: • graf reziduí versus predikce • graf reziduí versus jednotlivé vysvětlující proměnné - 10 -
• graf reziduí versus index • parciální reziduální grafy • parciální regresní grafy. Ne všechny diagnostické grafy mají stejnou „sílu” pro indikaci různých narušení. V dalším jsou uvedeny pouze nejvhodnější typy grafů pro analyzované A i S modely. A. Aditivní vícerozměrný lineární regresní model s absolutním členem je obecně nejčastěji a téměř „bezmyšlenkovitě” používaným modelem. Je známo, že absolutní člen b0 obsahuje nezahrnuté aditivní vlivy dalších neuvažovaných vysvětlujících veličin – viz obr.12: ε Σu? =1
b0
u1
b1
u2
b2
u3
b3
u4
b4
Σ
+ +
y
Obr. 12. Struktura aditivního lineárního modelu s absolutním členem V předchozí části číselně signalizovaná nenormalita a heteroskedasticita reziduí A-modelů je viditelná také na diagnostických grafech (uvedených pro model A5): na Q-Q grafu reziduí (obr.13), grafu reziduí versus predikce (obr.14), grafu heteroskedasticity reziduí (obr.15) a na grafu reziduí versus jednotlivé vysvětlující proměnné (obr.16): Q-rezidua
Q-Q graf reziduí - M41 : ADITIVNÍ model s abs.členem
8 6 4 2 0 -2 Q-teor
-4 -3
-2
-1
0
1
2
Obr. 13. Q-Q graf reziduí modelu A5 (QCE)
- 11 -
3
Rezidua - predikce - M41 : ADITIVNÍ model s abs.členem
E 7 6 5 4 3 2 1 0 -1 -2 -3
Predikce
-4 40
20
60
80
100
120
140
Obr. 14. Graf reziduí (E) versus predikce modelu A5 (QCE) Heteroskedasticita - M41 : ADITIVNÍ model s abs.členem
Y 5 4 3 2 1 0 -1 -2 -3
X 30
40
50
60
70
80
90
100
110
120
130
6
6
4
4
2
2
e _A5
e _A5
Obr. 15. Graf heteroskedasticity reziduí modelu A5 (QCE)
0 -2
2.0
2.5
3.0
3.5
4.0
0 -2
-4
1.5
2.5
5.5
u2
6
6
4
4
2
2
e _A5
e _A5
4.5
-4 u1
0 -2
3.5
5.5
6.5
7.5
8.5
0 -2
-4
0
2
4
-4 u3
u4
Obr. 16. Graf reziduí versus proměnné modelu A5 (Excel) - 12 -
6
8
Zobrazené grafy pro analyzovaná data aproximovaná aditivním modelem A5 a jejich rezidua, umožňují vyslovit závěry: • Q-Q graf má tvar konkávně-konvexní, který charakterizuje data s vyšší špičatostí než odpovídá normálnímu rozdělení, tedy s vysokou koncentrací dat kolem střední hodnoty (které má např. Laplaceovo rozdělení). V uvažovaném případě se zřejmě projevil vliv regresní metody nejmenších čtverců • nelineární (kvadratický) průběh hodnot na grafu reziduí versus predikce indikuje nesprávně navržený model, kdy předpoklad aditivity jednotlivých vysvětlujících proměnných není splněn (projevuje se zde nelinearita, multiplicita) – do modelu je třeba buď zařadit součiny těchto (některých) proměnných, nebo je transformovat např. pomocí logaritmické funkce • graf heteroskedasticity signalizuje přítomnost interaktivních (multiplikativních) dvojčlenů proměnných v modelu, které však přirozeně nebyly zahrnuty do aditivního lineárního modelu • nelineární (kvadratický) průběh hodnot na grafu reziduí versus proměnné indikuje u proměnných u2, u3 nesprávně navržený model – uvedené proměnné zřejmě společně vystupují v nelineárním (multiplikativním) vztahu. B. Smíšené nelineární regresní modely lze také analyzovat graficky s ohledem na normalitu a heteroskedasticitu reziduí (grafy uvedeny pro model S11) - obr.17,18: Q-Q graf reziduí - M41 : SMÍŠENÝ model s abs.členem
Q-rezidua 0.40 0.30 0.20 0.10 -0.00 -0.10 -0.20 -0.30
Q-teor -3
-2
-1
0
1
2
3
Obr. 17. Q-Q graf reziduí modelu S11 (QCE) Heteroskedasticita - M41 : SMÍŠENÝ model s abs.členem
Y 4 3 2 1 0 -1 -2
X
-3 10
20
30
40
50
60
70
80
90
100
110
120
Obr. 18. Graf heteroskedasticity reziduí modelu S11 (QCE) - 13 -
Z obrázků lze vidět, že rezidua jsou téměř normálně rozdělena (prakticky se kryjí s přímkou normálního rozdělení) a jsou homoskedasticitní (tvoří „mrak”), čili Jarque-Berraův a BreuschPaganův test se zdají být trochu přecitlivělé – tomuto konstatování odpovídají i pouze mírně nad kritickou hodnotu zvýšené hodnoty standardizované asymetrie (šikmosti) i excesu (špičatosti) a také výsledek Cook-Weisbergova testu. Závěry statistické analýzy: • pro kvalitní regresní analýzu je nutné použít speciální statistické programy umožňující testovat korektnost modelu a hlavně analýzu reziduí (QC Expert, ADSTAT, EasyReg, SAS), tj. narušení předpokladů jejich nezávislosti, normality a homoskedasticity (konstantnosti rozptylu) – v číselné i grafické formě • analýza reziduí spolehlivě odhaluje nesprávnou strukturu regresního modelu • speciální diagnostické grafy umožňují blíže specifikovat jak nesprávnou strukturu modelu, tak i jeho možnou nápravu • statistická analýza identifikovala jako jediný vhodný, korektní a správný model G3.
4 Analýza modelu pomocí neuronových sítí Pro analýzu modelu pomocí metody neuronových sítí byl vybrán program NeurOn-Line Studio (dále jen NOLS) firmy Gensym (USA). Program NOLS slouží především pro přípravu modelu neuronových sítí do NeurOn-Line (NOL), který jako jedna z aplikací (znalostní báze) pracuje v prostředí G2, což je prázdný expertní systém interpretačního typu pracující pod operačními systémy W/NT, Unix a VMS. Systém NOLS (na rozdíl např. od programů NEUREX, či Neural Network Toolbox MATLABu) byl použit z následujících důvodů: • NOLS byl a je používán v průmyslové praxi pro off/on-line analýzu dat v reálném čase např. u ohřívačů větru vysoké pece, či u chladicí věže [ADAM, R. & ŠEDINA, M. 2000], [MARCINIAK, T. & DVOŘÁK, J. 2000] • umožňuje automaticky optimálně vybrat počet vrstev a počet neuronů ve skrytých (vnitřních vrstvách) neuronové sítě. NOLS standardně poskytuje 5 neuronových sítí, přičemž výsledné hodnoty aproximovaného výstupu modelu jsou mediánem výstupů pěti nejlepších submodelů (na základě kritéria MSE – Mean Squared Error) – obr. 19:
- 14 -
Obr. 19. Model vytvořený v NOLS a vyexportovaný do G2 s NeurOn-Line Jediným parametrem trénování je doba trénování (nelze zadat počet iterací, ani mezní MSE), která byla zadána na 5 minut. Po této době systém poskytl následující výsledky: • počet trénovaných modelů (od nejjednodušších až po optimální): 485 • MSE (střední kvadratická chyba): 5.265.10-4 • korelační koeficient a RMSE trénované sítě: 0.9998, 0.4621 • korelační koeficient a RMSE testované sítě: 0.9997, 0.4191 • z grafického znázornění míry ovlivňování výstupu jednotlivými vstupy bylo vidět, že proměnná u2 má na výstup největší vliv, pak následuje vliv u3 a u1 a zřejmě zcela nepatrný vliv měla proměnná u4. Odpovídající normalizované vlivnosti proměnných byly: u1:0.81, u2:17.3, u3: 7.3, u4: 0.12 • NOLS vybral pět vhodných 4-vrstvých neuronových sítí s počty neuronů ve vrstvách (viz i obr. 19): (4, 4, 5, 1), (4, 4, 2, 1), (4, 4, 13, 1), (4, 4, 6, 1) a (4, 4, 6, 1), přičemž ve výstupech uvádí i váhy (přenosové funkce) jednotlivých synapsí. Poskytované výsledky svědčí na první (povrchní) pohled o tom, že natrénovaný model se velice blížil předloženému neznámému modelu (zadanému v 1.fázi jako „černá skřínka”). Pro lepší srovnání byly ještě (ve 2.fázi při „zešedání skřínky”) v systému NOL natrénovány (2000 iterací) další modely – třívrstvé (Nxyz) a jeden čtyřvrstvý (N4v = N4_15_8_1) s nejmenší směrodatnou odchylkou chyb (reziduí).
- 15 -
Obecně je zřejmé, že kvalitu modelů neuronových sítí lze nejlépe vzájemně srovnat a posoudit až pomocí analýzy reziduí. V tab.6 jsou uvedeny směrodatné odchylky šumu i reziduí neuronových modelů a koeficient determinace mezi nimi a šumem: Tab.6. Směrodatné odchylky a koeficienty determinace Model v NOLS N421 N431 N441 sm.odchylka 0,096 0.36 0.36 0.13 0.099 R2 (1,00) 0.06 0.07 0.29 0.68
N451 0.10 0.66
N461 0.094 0.74
N4v 0.035 0.14
Je logické, že nejlepší neuronový model by měl mít rezidua s vlastnostmi: • jejich směrodatná odchylka by měla být přibližně rovna směrodatné odchylce šumu (v) • koeficient determinace by měl být největší. Uvedené vlastnosti splňuje nejlépe model N461, tj. model se třemi vrstvami (což také odpovídá struktuře generovaného modelu) s počtem neuronů 4, 6 a 1. Model se čtyřmi vrstvami N4v, tj. N4_15_8_1 má: • sice nejmenší směrodatnou odchylku chyby, ale ta neodpovídá hodnotě šumu (je více než 2x menší – tj. neuronová síť už modeluje i šum výstupu), • velice malý koeficient determinace mezi reziduy a šumem • zbytečně velký počet vrstev (model je překombinovaný). Na obr.20 je znázorněn průběh reziduí modelu N461 a jejich korelace s aditivním šumem na výstupu v: Re z id u a m o d e lu N461
Ko re la ce : re z id u a m o d e lu N 461 - v
0.4
0.4 0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
-0.1
e _N461
e_N461
1
-0.3
-0.2
-0.1
-0.1
-0.2
-0.2
-0.3
-0.3
v
0.0
0.1
0.2
0.3
y = 0.8472x + 0.0115 R 2 = 0.7386
Obr. 20. Graf průběhu reziduí modelu N461 a jejich korelace s poruchou v Na základě grafů a údajů v tabulce je možné pro estimaci (odhad) výstupu (predikci o nula kroků – v technologické praxi se užívá spíše pojmu predikce) a identifikaci systému pomocí přístupu neuronových sítí vyslovit následující závěry: • NS mají tendenci volit přeurčené modely (co se týče počtu vrstev a neuronů) s cílem minimalizovat chybu výstupu, přičemž však už modelují i výstupní aditivní šum, což je nežádoucí a v podstatě nesprávné • určená struktura a váhové koeficienty modelu s největší přesností (tj. s nejmenší odchylkou výstupů) neodpovídají struktuře generovaného modelu • pomocí NS není tedy možné provést spolehlivou a správnou strukturální a parametrickou identifikaci systémů • přístup NS umožňuje pouze poměrně dobrý odhad výstupu zkoumaného modelu, což pro řízení složitého systému může do jisté míry postačovat. - 16 -
5 Srovnání výsledků obou přístupů V tab.7. jsou pro srovnání uvedeny statistiky a charakterizace výstupního šumu a reziduí statistických modelů bez absolutního členu a nejlepšího (s ohledem na směrodatnou odchylku a koeficient determinace) modelu neuronové sítě: Tab.7. Statistiky šumu a reziduí vybraných modelů Rezidua → e_A4 e_S10 v statistiky ↓ průměr -0,013 -0,38 -0,000009 směrodatná odchylka 0,096 5,78 0,093 R2 (1,00) 0,001 0,9495 standardizovaná 1,48 2,87 2,24 šikmost standardizovaná 1,86 2,24 2,93 špičatost typ procesu GBŠ BŠ BŠ (ACF/PACF)
e_G3
e_N461
-0,0004 0,096 0,9955
0,0004 0,094 0,74
1,44
1,78
1,76
1,84
GBŠ
GBŠ
Pozn.: Kurzívou jsou označeny hodnoty statistik, kde došlo k výrazné odchylce, nebo k narušení předpokladů o reziduích. Z předchozí statistické analýzy vyplynulo, že nejcitlivěji nesprávné analyzované modely identifikovaly testy normality a proto jsou v tabulce uvedeny parametry standardizované šikmosti (asymetrie) a špičatosti (excesu). U těchto statistik je kritickou hodnotou kvantil normovaného normálního rozdělení pro oboustranný test na hladině významnosti α = 0,05, tj. u(1-α/2) = u(0,975) = 1,96. ACF/PACF ... autokorelační/parciální autokorelační funkce (použité pro identifikaci náhodného procesu pomocí Box-Jenkinsovy metodologie), GBŠ ... tzv. gaussovský „bílý” šum, BŠ ... „bílý” šum s rozdělením pravděpodobnosti jiným než normálním (gaussovským). Na obr. 21 jsou přehledně znázorněny směrodatné odchylky šumu a reziduí všech uvažovaných statistických i neuronových modelů, jako i koeficienty determinace závislostí mezi jejich reziduí a šumem na výstupu: 10
sm .o d ch ylky
R2
1 0.9
s m ěr.odchylk y R^2
0.8 0.7
e_N 4v
e_N 461
e_N 451
e_N 441
e_N 431
e_N 421
e_N O LS
e_G 3
e_G 4
e_S 10
e_S 11
e_A 4
e_A 5
v
1
0.6 0.5 0.4
0.1
0.3 0.2 0.1
0.01
0
Obr. 21. Graf průběhu směrodatných odchylek šumu i reziduí všech modelů a R
- 17 -
2
Už z předchozích úvah a na základě údajů v tabulce je jasné, že nejlepší model bude mít rezidua s vlastnostmi: • směrodatná odchylka je přibližně rovna směrodatné odchylce šumu • koeficient determinace mezi reziduy a šumem je největší a blízký hodnotě 1,0 • rozdělení reziduí je normální (standardizovaná šikmost a špičatost jsou mimo kritickou oblast). Uvedené vlastnosti nejlépe splňuje model G3 (což je samozřejmé a logické), celkem dobrými se jeví i S-modely (rezidua však nemají normální rozdělení) a modely třívrstvých neuronových sítí N441-N461. Na základě srovnání přístupů statistické analýzy a neuronových sítí při estimaci (predikci) výstupu a identifikaci zadaného jednoduchého vícerozměrného nelineárního statického systému je možné sestavit jednoduchou tabulku (tab.8): Tab. 8. Srovnání přístupů SA a NS při analýze systému MISO(4) Metoda → Statistická analýza Neuronové sítě Možnost použití ↓ Estimace (predikce) výstupu správná nejpřesnější, ale nesprávná Identifikace správná nesprávná (přeurčená) (strukturální a parametrická) Slovně lze výsledky komentovat následovně: • moderní statistická analýza umožnila uskutečnit jak správný odhad výstupu systému, tak i kvalitní a věrohodnou (avšak pracnou a náročnou) strukturální a parametrickou identifikaci analyzovaného systémů MISO(4). Podmínkou je však alespoň částečná znalost vnitřní struktury systému (tj. systém je znám/zadán jako šedá skřínka) • neuronové sítě poskytly sice nejpřesnější odhad výstupu systému (který může být zadán jako černá skřínka), avšak nebyl to odhad správný. NS poskytly pro model s nejpřesnějším odhadem přeurčenou a nesprávnou strukturu systému, čili neumožnily správnou identifikaci. Uvedené skutečnosti napovídají, že NS jsou použitelné spíše pro řízení analyzovaného systému, než pro jeho identifikaci. S ohledem na použitou symboliku označení modelů v principu platí nerovnosti: A < NS < S < G : pro identifikaci A < S < G < NS : pro estimaci (predikci) výstupu. Trochu obecnější hypotetické srovnání obou přístupů z hlediska možností použití, pracnosti a nároků v jednotlivých oblastech je uvedeno v tab.9 (první slovní hodnocení se týká jednodušších vícerozměrných nelineárních systémů, druhé systémů složitějších): Tab. 9. Srovnání přístupů SA a NS při analýze vícerozměrných nelineárních systémů Metoda → Statistická Neuronové analýza sítě Možnost použití ↓ potřebná-nutná Znalost vnitřní struktury nepotřebná („black box”) („grey/white box”) Identifikace nesprávná, přeurčená, výborná-omezená (strukturální a parametrická) nevhodná Modelování a simulace výborné-omezené vhodné Estimace (predikce) výstupu výborná-omezená nejpřesnější, ale nesprávná Řízení (a regulace) výborné-omezené dobré, použitelné Pracnost veliká malá Nároky na znalosti veliké malé, menší - 18 -
Je přitom zřejmé, že obtížnost identifikace systémů bude růst s jejich složitostí danou: • počtem vstupů a výstupů • typem a počtem nelineárních vazeb mezi vstupy a výstupy (od lineárních přes částečně nelineární s interaktivními efekty až po všechny vazby silně nelineární) • typem dynamiky (od ideálních proporcionálních přes setrvačné a integrační až po dynamické s různými dopravními zpožděními v jednotlivých vazbách).
6 Závěr Analyzovaný příklad jednoduchého nelineárního vícerozměrného statického systému umožňuje odpovědět na otázky vyslovené v úvodu příspěvku: Neuronové sítě • model NS poskytl skutečně nejpřesnější odhad výstupu systému • tento odhad je však nesprávný (modeluje i aditivní šum výstupu) • NS neumožnily správnou strukturální a parametrickou identifikaci systému, který však může být zadán jako černá skřínka. Statistická analýza • SA poskytla správný odhad výstupu i správnou identifikaci systému, ovšem za předpokladů: • určité znalosti struktury systému (musí být zadán jako šedá, či bílá skřínka) • dostatečných znalostí teorie a moderních metod matematické statistiky • použití kvalitních statistických programů.
7 Literatura ADAM, R. 2000. Tvorba predikčních a optimalizačních modelů pomocí neuronových sítí. Automatizace, 43 (2000), č.3, s.194-195. ADAM, R. & ŠEDINA, M. 2000. Optimalizace práce chladicího okruhu s využitím modelu chladicí věže. In Sborník přednášek 5.ročníku konference „Inteligentní systémy pro praxi” (Fuzzy logika, neuronové sítě, pravidlové expertní systémy), Luhačovice. Ostrava : AD&M, 2000, s.31-40. ISBN 80-238-6140-9. HEBÁK, P. & HUSTOPECKÝ, J. 1987. Vícerozměrné statistické metody s aplikacemi. 1.vyd. Praha : SNTL/ALFA, 1987. 456 s. ISBN 80-01-01076-7. KUBÍK, S. AJ. 1982. Teorie automatického řízení I. Lineární a nelineární systémy. 1.vyd. Praha : SNTL, 1982. 528 s. JANČÍKOVÁ, Z. AJ. 2000. Neuronové sítě a jejich možnosti využití v metalurgii. In Sborník mezinárodní vědecké konference FS, sekce 4, příspěvek č.14. Ostrava : KATŘ-352 FS VŠB-TUO, 2000. 9 s. ISBN 80-7078-798-8. MARCINIAK, T. & DVOŘÁK, J. 2000. Řízení a regulace obtížně definovatelných soustav. Prezentace systémů MES, PI, GenSym – NeurOn-Line (Studio) na semináři „Regulace a regulátory”. Ostrava-Vítkovice : AD&M, 28.11.2000. MELOUN, M. & MILITKÝ, J. 1994. Statistické zpracování experimentálních dat. 1.vyd. Praha : PLUS, 1994. 839 s. ISBN 80-85297-56-6. MORÁVKA, J. 1999. Ekologická optimalizace provozu A2 SP4. (Analytická studie projektu č. 5098030). Třinec : TŽi a.s. SA - Středisko automatizace, červen-září 1999. 46 s. MORÁVKA, J. 2000a. Základní rozbor možností statistického zpracování technologických dat ZPO 1. Úvodní studie projektu. Třinec : SPPČ TŽi, a.s., březen 2000. 15 s. MORÁVKA, J. 2000b. Zpracování dat opotřebení a konicity krystalizátorů. Studie 2.etapy projektu. Třinec : SEMA TŽi, a.s., červen 2000. 46 s. MORÁVKA, J. 2000c. Zpracování dat z protiprůvalového systému. Studie 3.etapy projektu. Třinec : SEMA TŽi, a.s., září 2000. 20 s. MORÁVKA, J. 2000d. Analýza dostupných dat z výroby předlitků na ZPO 1. Závěrečná zpráva a studie 4.etapy projektu. Třinec : SEMA Ti, a.s., prosinec 2000. 17 s. - 19 -