Közeli infravörös spektroszkópiában (NIR) alkalmazott kalibrációs modellek összehasonlítása növényolajok minőségi jellemzőinek meghatározására Comparison of calibration models based on near infrared spectroscopy data for the determination of plant oil properties
Fülöp András, Hancsók Jenő Pannon Egyetem Vegyészmérnöki és Folyamatmérnöki Intézet Ásványolaj és Széntechnológia Intézeti Tanszék 8201 Veszprém, Pf.: 158. Summary The near infrared spectroscopy (NIR) is an analytical method based on the absorption of electromagnetic energy in the wavenumber region of 12000-4000 cm-1. The absorption bands in this region are ascribed to the overtones and combinations of C-H, N-H, O-H bonds, which exist in most organic compounds. This type of technique allows multi-component analysis in a fast and non-destructive way, without requiring complex sample pre-treatments. In the NIR region a component typically absorbs electromagnetic radiation at more than one wavenumber, and the absorbance at a given wavenumber is usually caused by more than one component. That’s why the establishment of a suitable mathematical calibration model is very difficult. In our research work, four calibration model approaches were compared on the basis of the capability to predict the concentration of oleic acid of vegetable oils. These approaches were: partial least squares regression (PLS), principal component analysis-multiple linear regression (PCA-MLR), principal component analysis-artificial neural network (PCA-ANN) and genetic algorithm-artificial neural network (GA-ANN). The PCA and GA wavenumber selection methods were applied to extract relevant information from lots of spectral data. In order to improve the correlation between the spectral data, and the analytical reference data spectral pre-processing methods were also applied. The best spectra pre-processing method, and the calibration model parameters were found in respect of each model type and the prediction efficiencies were compared using external validation. In the course of external validation the established calibration models were tested with samples having known oleic acid content and they were not included in the calibration set. The comparison of the different calibration models was based on the accuracy of the prediction. The results of the external validation show that the accuracies of the different models at the optimal calibration parameters differ significantly. The best approximation was found using GA-ANN model type, however, this approach was very time consuming because of the complexity of the method.
1
Bevezetés A közeli infravörös spektroszkópia (NIR) egy jól kidolgozott analitikai módszer, amely az anyagok elektromágneses-sugárzás abszorpcióján alapul a 12000-4000 cm-1 hullámszám tartományban. Ez a módszer alkalmas összetett, többkomponensű rendszerek (motorbenzinek, dízelgázolajok, növényolajok, stb) fizikai és kémiai tulajdonságainak gyors, roncsolásmentes meghatározására különösebb mintaelőkészítés alkalmazása nélkül. A módszer nehézségét az okozza, hogy a NIR spektrum tartományában egy komponensnek jellemzően több hullámszám értéknél van abszorbanciája, valamint egy hullámszám értéknél a vizsgált minta több komponensének is van elnyelése. Ezért a spektrális adatok információtartalmának kinyerése, valamint a minták spektrumai és referencia adatai közötti korreláció felderítése és modellezése rendkívül bonyolult feladat. Az abszorbancia spektrumok adatmátrixából a növényolaj tulajdonságokkal korrelációban lévő hullámszám régiók meghatározását a PCA (főkomponens analízis) és GA (genetikus algoritmus) hullámszám kiválasztási módszerek alkalmazásával végeztük. A regressziót, a kiválasztott hullámszám régiók alkalmazásával, az MLR (lineáris regresszió) és ANN (mesterséges neurális hálózat) modell típusokkal végeztük el. Ezen kívül a kemometriában legelterjedtebben alkalmazott regressziós módszerrel, a PLS (részleges legkisebb négyzetek módszere) módszerrel is elvégeztük a kísérleteket. Felhasznált anyagok és módszerek Növényolaj minták A kísérletek során 144 különböző típusú Magyarországról származó repce- és napraforgóolajat vizsgáltunk. A 144 mintából 102 mintát a kalibrációhoz, 42 mintát a külső validáláshoz használtunk fel. A minták olajsav-tartalmát az EN 14103 szabvány szerint határoztuk meg.
Spektrumok felvétele A NIR méréshez egy, a BRUKER cég által gyártott MPA típusú közeli infravörös spektrométert használtunk, amely az OPUS vezérlő és kiértékelő szoftvert tartalmazza. Minden minta abszorbancia spektrumát 12000 - 4000 cm-1 hullámszám tartományban 2 cm-1-es felbontással vettük fel transzmissziós módban (1. Ábra) [6]. Ezt követően a spektrális adatokat egy adatfájlba mentettük és ezt használtuk a további kísérletekhez.
1. Ábra A minták nyers spektrumai A modellek optimalizálása során megállapítottuk, hogy jobb közelítést érhetünk el, ha a teljes tartományt leszűkítjük. Így a kísérletekhez a teljes tartománynak csak a 5730 - 4570 cm-1-es részét használtuk fel. Alkalmazott szoftverek és programok A kísérletekhez a MATLAB 7.0.1 szoftvercsomag alkalmazásait és általunk írt programokat használtunk fel. Kalibráció A kalibrációhoz 102 különböző olajsav-tartalmú növényolaj mintát használtunk. A modellek kalibrációját keresztvalidálás alkalmazásával végeztük úgy, hogy minden kalibrációs körben egy mintát hagytunk ki. Így az adott modell pontossága a keresztvalidálás során számított hibanégyzet átlagának négyzetgyökével (RMSECV = root mean
2
squared error of cross validation) fejezhető ki. A kísérletek során az RMSECV értékek alapján határoztuk meg az optimális modellparamétereket [1]. Modelloptimalizálás Egy adott modelltípus esetében többféle paraméter létezik, amelyek nagymértékben befolyásolják az adott modell teljesítményét. Az optimalizálás során minden modell típusnál megkerestük azt a paraméterkombinációt, amely alkalmazásával a modell a legjobb közelítést adja. Az optimalizálást keresztvalidálás alkalmazásával végeztük. Az optimalizálás során az egyes modell típusoknál változtatott paraméterek és azok értékei az 1. táblázatban láthatók. Modelltípus PCA-MLR PLS PCA-ANN GA-ANN
Paraméter Főkomponensek száma Látens változók száma Főkomponensek száma Változók száma Az egyedek száma egy populáción belül Generációk száma
Érték 1-20 1-20 1-20 1-20 1-30 1-10
1. Táblázat Az optimalizálás során változtatott paraméterek Az ANN regressziós módszerek esetében a rejtett rétegben 5 neuront használtunk minden esetben, és ezt a paramétert a kísérletek során nem változtattuk. Ennek oka, hogy a kísérletek során a neuronok száma nem befolyásolta jelentősen a modellek teljesítményét. Az optimalizálás során az egyes modellek esetében a fent említett paraméterek mellett különböző típusú spektrumkezelési módszereket is változtattuk. Ezek a módszerek a következők voltak: átlag-eltolás (mean-centering), skálázás (autoscale), első derivált (differentiation), második derivált (double differentiation) [3]. Külső validálás A külső validálás során az optimalizálás után kapott kalibrációs modelleket a kalibrációs sorban nem szereplő, ismert tulajdonságú növényolaj
mintákkal teszteltük. Ehhez 42 különböző olajsav tartalmú növényolaj mintát használtunk fel. A kísérlet eredményeként a modellel számított és a tényleges olajsav-tartalom összehasonlításával számítottuk ki az egyes modelleknél a számítás hibaértékét (RMSEP= root mean squared error of prediction), és ez alapján hasonlítottuk össze az egyes modellek hatékonyságát. Eredmények PCA-MLR modell A PCA-MLR módszer a legegyszerűbb kalibrációs modelltípus, amely a PCA hullámszám kiválasztási módszer és az MLR regressziós módszer kombinációja. A módszert a szakirodalomban PCRnek (principal component regression), azaz főkomponens regressziónak is rövidítik. A PCA a mérnöki gyakorlatban is széles körben alkalmazott többváltozós statisztikai módszer, amely nagyméretű adatmátrixokban lévő változók számának a csökkentésére alkalmas. A közeli infravörös spektroszkópiában a PCA algoritmus a spektrális adatmátrixot néhány ortogonális vektorral (főkomponenssel) helyettesíti, úgy, hogy az első vektor (első főkomponens) reprezentálja az eredeti adatmátrix varianciájának a legnagyobb százalékát, a második vektor (második főkomponens) reprezentálja az adatmátrix varianciájának második legnagyobb százalékát, és így tovább. Így a PCA az eredeti spektrális adatmátrixból kinyeri azokat a hullámszám tartományokat, ahol az adott komponens abszorbanciája a legvalószínűbb. A PCR módszernél kapott főkomponenseket használjuk a lineáris regresszió (MLR) független változóiként. Így a módszer alkalmassá válik az adott komponens koncentrációjának becslésére [3]. A PCA-MLR optimális modellparaméterei a 2. táblázatban láthatók. Az olajsav koncentrációjának meghatározásánál a külső validálás során kapott eredményeket a 2. ábra mutatja. Az ábrán a koncentráció kalibrációs modell által számított értékeket ábrázoltuk a tényleges adatok
3
Paraméter Spektrumkezelési módszer Főkomponensek száma
Érték átlag-eltolás 16
2. Táblázat A PCA-MLR modell optimális paraméterei
Olajsav tényleges koncentrációja, %
2. Ábra A külső validálás eredményei a PCA-MLR modell esetében PLS modell A részleges legkisebb négyzetek módszere a kemometriában legszélesebb körben alkalmazott modelltípus. A PLS regresszió a PCR továbbfejlesztett formája, amely a mátrix dimenzió csökkentését és a regressziót szimultán hajtja végre. A legnagyobb előnye a PCR-el szemben, hogy a PLS a látens változók számításánál figyelembe veszi a spektrális adatok és a kalibrációs minták koncentrációi közötti korrelációt is. Így a látens változók közvetlenül a kérdéses komponensre utalnak nemcsak annak valószínűségére [3]. A PLS modell optimális modellparamétereit a 3. táblázat tartalmazza, a külső validálás eredményét pedig a 3. ábra szemlélteti. A PLS modell alkalmazásával a külső validálásnál elérhető legjobb közelítésnél a modellhiba értéke 1,65 volt.
Paraméter Spektrumkezelési módszer Látens változók száma
Érték skálázás 12
3. Táblázat A PLS modell optimális paraméterei
Olajsav számított koncentrációja, %
függvényében. A modell jóságát az mutatja, hogy számított értékek (pontok) mennyire közelítik a tényleges értékeket (egyenes vonal). A kísérlet során az optimális modellparaméterek mellett elért legkisebb modellhiba értéke 3,89 volt.
3. Ábra A külső validálás eredményei a PLS modell esetében PCA-ANN modell Ez a modelltípus a PCA hullámszám kiválasztási módszernek és az ANN (mesterséges neurális hálózat) regressziós módszernek a kombinációja. A mesterséges neurális hálózatokat széles körben használják a műszaki tudományok különböző területein, de csak az utóbbi időben kezdték alkalmazni a kemometriában. Ez a módszer többváltozós lineáris és nemlineáris rendszerek modellezésére (interpoláció, extrapoláció) alkalmas. Kísérleteinkben egy előrecsatolásos MLP (Multilayer Perceptron) típusú neurális hálozatot használtunk a levenberg-marquard tanulási algoritmus alkalmazásával. A hálózat egy rejtett rétegből állt, amelyben a neuronok számát 5-nek választottuk, és a kísérletek során ezt nem is változtattuk. A hálózat betanítása során 200 iterációt alkalmaztunk. Aktiválási függvényként lineáris átviteli függvényeket használtunk mind a rejtett, mind pedig a kimeneti réteg neuronjainál, mert alapvetően azt feltételeztük, hogy lineáris kapcsolat áll fenn a kalibrációs minták koncentráció értékei és azok
4
Paraméter Spektrumkezelési módszer Látens változók száma
Érték skálázás 8
Olajsav számított koncentrációja, %
4. Táblázat A PCA-ANN modell optimális paraméterei
4. Ábra A külső validálás eredményei a PCA-ANN modell esetében GA-ANN modell Ez a modelltípus a GA (genetikus algoritmus) hullámszám kiválasztási módszert és az ANN regressziós modellt alkalmazza. A genetikus algoritmus egy többváltozós adaptív szélsőérték kereső algoritmus, amelynek mechanizmusa a természetes génállomány öröklődésének és a természetes kiválasztódásnak az elvén alapul. Az algoritmus egy véletlenszerűen összeállított populáció generálásával indul. A populáció minden egyes egyede az ANN modell egy lehetséges megoldását reprezentálja. Esetünkben egy egyed annyi hullámszám értékből áll, ahány változót szeretnénk használni. Az algoritmus a megfelelőségi vizsgálat során a populáció minden egyes egyedét alkalmazza a
modellen, és minden egyedre kiszámítja a modellhiba értékét. Ezután a legkisebb modellhibát adó egyedek kombinálásával genetikus operátorok segítségével létrehozza a következő generációt. Ezek a genetikus operátorok a szelekció, a keresztezés és a mutáció. Az algoritmus előrehaladtával az egyes populációk egyedeire kapott modellhiba egyre kisebb lesz, és végül a genetikus algoritmus kiválasztja azokat a hullámszám értékeket, ahol az ANN modell hibája a legkisebb. A külső validálás során a genetikus algoritmus által kiválasztott hullámszám értékeket alkalmazzuk az olajsav koncentrációjának meghatározására [4, 5]. Az optimális GA-ANN modell paramétereit az 5. táblázatban foglaltam össze, a külső validálás eredményét pedig az 5. ábra mutatja. A vizsgált négy modell közül a GA-ANN modell alkalmazásával értük el a legkisebb modellhibát, amelynek értéke 0,89 volt. Paraméter Spektrumkezelési módszer Változók száma Az egyedek száma egy populációban Generációk száma
Érték 1. derivált 7 30 8
5. Táblázat A GA-ANN modell optimális paraméterei
Olajsav számított koncentrációja, %
abszorbancia spektrumai között. A bemeneti rétegben átviteli függvényt nem alkalmaztunk [3, 4]. Az optimális PCA-ANN modellparaméterek a 4. táblázatban láthatók, a külső validálás során nyert eredményeket pedig a 4. ábra mutatja. A külső validálás során a PCA-ANN modell modellhiba értéke 1,15 volt.
5. Ábra A külső validálás eredményei a GA-ANN modell esetében
5
Összefoglalás Az optimális modell-paraméterek mellett a külső validálás során kapott RMSEP értékek alapján összehasonlítva az egyes módszerek predikciós hatékonyságát, azt találtuk, hogy a legjobb közelítést a GA-ANN modell, a legrosszabb közelítést a PCAMLR modell alkalmazásával lehet elérni (6. táblázat). Modell típus PCA-MLR PLS PCA-ANN GA-ANN
RMSEP 3,89 1,65 1,15 0,89
6. Táblázat Az egyes modelleknél kapott RMSEP értékek Meg kell jegyeznünk azonban, hogy a négy vizsgált modelltípus közül a GA-ANN módszer algoritmusa volt legösszetettebb és ebből adódóan a kalibráció és optimalizálás itt volt a legidőigényesebb. Ehhez még hozzájárult a modellparaméterek nagy száma is, amelyeket az optimalizálás során változtatni kellett. REFERENCES [1] Kim, K.S., Park, S.H., Choung, M.G., Jang, Y.S., Journal of Crop Science and Biotechnology, 10, 1520, (2007) [2] Felizardo, P., Baptista, P., Menezes, J.C., J. Neiva Correia, J., Analytica Chimica Acta, 595, 107-113 (2007) [3] Balabin, R.M., Safieva, R.Z., Lomakina, E.I., Chemometrics and Intelligent Laboratory Systems, 88, 183–188, (2007) [4] Nan, Q., Lihua, W., Mingchao, Z., Ying, D., Yulin, R., Chemometrics and Intelligent Laboratory Systems, 90, 145–152, (2008) [5] Yibin, Y., Yande, L., Journal of Food Engineering, 84, 206–213, (2008) [6] Fülöp, A., Magyar, Sz., Krár, M., Hancsók, J., Proceedings of 43rd International Petroleum Conference, Pozsony, 7, (2007)
6