Univerzita Pardubice fakulta chemickotechnologická katedra analytické chemie
Statistická interpretace výsledků v analytické chemii se zaměřením na řízení jakosti v technologické praxi
Disertační práce
Pardubice 2004
Autor: Ing. Karel Kupka Vedoucí práce: Prof. RNDr. Milan Meloun, DrSc.
2
University of Pardubice Faculty of Chemical Technology Department of Analytical Chemistry
Statistical interpretation of results in analytical chemistry with quality control in technology
Thesis
Author: Ing. Karel Kupka Supervisor: Prof. RNDr. Milan Meloun, DrSc.
Pardubice 2004
3
Poděkování.
Děkuji svému školiteli Prof. RNDr. Milanu Melounovi, DrSc. za pomoc, poskytnuté rady a cenné připomínky.
Prohlašuji, že jsem tuto práci vypracoval samostatně. Veškeré literární prameny a informace, které jsem v práci využil, jsou uvedeny v seznamu použité literatury. Souhlasím s tím, aby byla práce prezenčně zpřístupněna v Univerzitní knihovně Univerzity Pardubice
V Pardubicích, dne 1.9. 2004 Ing. Karel Kupka
Obsah Souhrn, Summary 1
Úvod.............................................................................................................................................................. 11 1.1 Námět a aktuálnost disertace................................................................................................................. 11 1.2 Literární přehled statistického software pro analytické laboratoře........................................................ 12 1.2.1 Program BMDP, verze Pro2.0....................................................................................................... 12 1.2.2 Program Statgraphics, verze 5 Plus............................................................................................... 13 1.2.3 Program Statistica, verze 6............................................................................................................ 14 1.2.4 Program Stata, verze 7 .................................................................................................................. 15 1.2.5 Program Minitab, verze 13............................................................................................................ 16 1.2.6 Program NCSS 2000 ..................................................................................................................... 17 1.2.7 Program Unistat 5.1 ...................................................................................................................... 18 1.2.8 Program Unscrambler 9 ................................................................................................................ 19 1.3 Vytyčení cílů disertace.......................................................................................................................... 19 2 Teoretická část .............................................................................................................................................. 23 2.1 Propagace chyb v měření analytických veličin ..................................................................................... 23 2.1.1 Metoda Taylorova rozvoje ............................................................................................................ 23 2.1.2 Metoda Monte Carlo ..................................................................................................................... 24 2.2 Kalibrace a zpřesněný kalibrační model ............................................................................................... 24 2.2.1 Kalibrační model s nekonstantní chybou měření .......................................................................... 25 2.2.2 Interval spolehlivosti stanovené koncentrace ................................................................................ 27 2.2.3 Kvalitativní a kvantitativní možnosti kalibračního modelu, kalibrační meze ............................... 29 2.2.4 Zpřesnění odhadu neznámé koncentrace....................................................................................... 31 2.3 Stanovení bodu ekvivalence v instrumentálních titracích ..................................................................... 33 2.4 Robustní regrese v dvojúrovňové analýze rozptylu .............................................................................. 37 2.5 Statistické řízení jakosti ........................................................................................................................ 41 2.5.1 Variabilita a kvalita ....................................................................................................................... 41 2.5.2 Způsobilost procesu ...................................................................................................................... 43 2.5.3 Shewhartův model......................................................................................................................... 45 2.5.4 Regulační diagramy pro asymetricky rozdělená data.................................................................... 54 2.5.5 Autoregresní model ....................................................................................................................... 57 2.6 Vícerozměrný Hotellingův diagram...................................................................................................... 65 2.7 Obecné indexy způsobilosti .................................................................................................................. 67 2.8 Robustní regresní postupy..................................................................................................................... 70 3 Experimentální část....................................................................................................................................... 77 3.1 Referenční algoritmy v jazyce S (S-Plus) ............................................................................................. 77 3.1.1 Analýza jednorozměrných výběrů, exploratorní grafická analýza dat (EDA) .............................. 78 Vstup: vektor x .............................................................................................................................................. 78 Výstup: jednotlivé exploratorní grafy ........................................................................................................... 78 3.1.2 Analýza autokorelace .................................................................................................................... 78 Vstup: vektor x, hladina významnosti alfa, maximální řád autokorelace maxrad ........................................ 78 Výstup: Graf autokorelace, graf predikce, autokorelační koeficienty ........................................................... 78 3.1.3 Transformace dat........................................................................................................................... 79 Vstup: vektor x .............................................................................................................................................. 79 Výstup: Graf transformace, exploratorní grafy, optimální parametr r .......................................................... 79 3.1.4 Optimalizace kvadratické responsní plochy.................................................................................. 79 Vstup: matice nezávisle proměnných x, vektor závisle proměnné y ............................................................. 79 Výstup: odhady parametrů, analýza optima a regresní diagnostika .............................................................. 79 3.1.5 Lineární regrese............................................................................................................................. 79 Vstup: matice nezávisle proměnných x, vektor závisle proměnné y ............................................................. 79 Výstup: odhady parametrů, regresní diagnostika .......................................................................................... 79 3.1.6 Nelineární regrese ......................................................................................................................... 80 Vstup: matice nezávisle proměnných x, vektor závisle proměnné y, regresní model rov ............................. 80 Výstup: odhady parametrů, regresní diagnostika .......................................................................................... 80 3.1.7 Vícerozměrná analýza ................................................................................................................... 81 Vstup: matice x.............................................................................................................................................. 81 Výstup: Hlavní komponenty, zátěže, skóry, Mahalanobisovy vzdálenosti, exploratorní grafy .................... 81 3.2 Programový systém QC-Expert ............................................................................................................ 81 4 Výsledky a jejich diskuse.............................................................................................................................. 85
Nepřímé měření, kalibrace, zpřesněný kalibrační model ...................................................................... 85 4.1 4.1.1 Metody stanovení kalibračních mezí............................................................................................. 85 4.1.2 Kalibrační závislost pro stanovení Cd v rozsahu 0 – 43 ppb se 4 opakovanými měřeními 6 standardů metodou AAS (Perkin Elmer 5500).............................................................................................. 89 4.1.3 Kalibrační závislost pro stanovení Cu v rozsahu 0 – 0.7% s 5 opakovanými měřeními 11 standardů metodou emisní spektroskopie (kvantometr)................................................................................ 90 4.1.4 Výstavba kalibračního modelu pomocí regresní diagnostiky........................................................ 92 4.2 Určení bodu ekvivalence z titrační křivky ............................................................................................ 98 4.3 Využití robustní regrese pro dvojúrovňovou analýzu rozptylu ........................................................... 101 4.3.1 Rušivé vlivy stanovení mědi ve vzorku odlitku .......................................................................... 101 4.3.2 Vliv vzorkování na výtěžnost...................................................................................................... 105 4.4 Autoregresní model v chemické analýze............................................................................................. 109 4.5 Robustní Hotellingovy statistiky......................................................................................................... 111 4.5.1 Sledování chemického složení slinku před vypálením v cementárně.......................................... 111 4.5.2 Model a stabilita procesu výroby tablet ve farmaceutické technologii ....................................... 111 4.6 Technologické aplikace, indexy způsobilosti...................................................................................... 115 5 Závěry ......................................................................................................................................................... 119 6 Přílohy......................................................................................................................................................... 123 6.1 Zdrojové texty v S-Plus....................................................................................................................... 123 6.1.1 Analýza jednorozměrných výběrů............................................................................................... 123 6.1.2 Analýza autokorelace .................................................................................................................. 131 6.1.3 Transformace dat......................................................................................................................... 132 6.1.4 Optimalizace kvadratické responsní plochy................................................................................ 134 6.1.5 Lineární regrese........................................................................................................................... 138 6.1.6 Nelineární regrese ....................................................................................................................... 160 6.1.7 Vícerozměrná analýza s robustní Mahalanobisovou vzdáleností ................................................ 174 6.2 Programový systém QC-Expert .......................................................................................................... 183 6.2.1 Tabulkové výstupy modulů programu QC-Expert ...................................................................... 183 6.2.2 Ilustrace uživatelského prostředí systému QC-Expert................................................................. 202 6.3 Validace výpočtů systému QCExpert.................................................................................................. 208 6.3.1 Certifikační protokol statistického systému QC Expert 2.7 ........................................................ 208 6.3.2 Certifikované hodnoty a numerické výsledky výpočtů ............................................................... 208 7 Seznam literatury a citace ........................................................................................................................... 229 7.1 Použitá literatura ................................................................................................................................. 229 7.2 Přehled autorových technických zpráv o statistické analýze systémem QC-Expert pro různá průmyslová pracoviště do roku 2004 .............................................................................................................. 239 7.3 Pracoviště používající autorovu metodologii a software QC-Expert v ČR a SR do roku 2004 .......... 241
8
Souhrn Data v analytické laboratoři a chemické technologii mají často specifické vlastnosti a chování jako významná šikmost, nebo nenormalita, autokorelace, heteroskedasticita, nelinearita, nehomogenita a výskyt vybočujících měření. Z tohoto důvodu velmi často selhávají klasické metody a postupy široce používané v analyické laboratoři a při řízení procesů chemické technologie. V této disertaci jsou uvedeny nové algoritmy a metody vyvinuté autorem na základě potřeb a požadavků analytických a průmysových laboratoří a pracovišť. Tyto metody byly úspěšně použity k řešení reálných problémů a postupně implementovány v softwarovém systému QC-Expert. Tento systém obsahuje 18 statistických modulů, mezi nimiž jsou popisná a jednorozměrná statistika, analýza rozptylu, transformace rozdělení, korelace, vícerozměrná analýza, regulační diagramy, statistická přejímky, lineární a nelineární regrese, kalibrace, dvouvýběrová analýza a validace. Hlavní oblasti řešené autorem jsou:
kalibrace,
detekce
bodu
ekvivalence
při
titraci,
analýza
asymetrických
a
autokorelovaných dat v procesech chemické technologie, robustní metody ve vícerozměrné analýze a analýze rozptylu. Metody a techniky uvedené v této práci umožňují analytickým chemikům spolehlivěji analyzovat data a získat lépe interpretovatelné výsledky. V současné době se využívají autorem vyvinuté a implementované metody ve více než 100 podnicích a institucích České a Slovenské republiky.
Summary Data in analytical laboratory and chemical technology have often specific properties and behaviour as significant skewness or non-normality, autocorrelation, heteroscedasticity, non-linearity, non-homogeneity and ocurrence of outliers. For this reason, classical statistical methods and methodics widely used in analytical laboratories and proces control in chemical industry very often fail to analyse and interpret the data correctly. In this doctoral thesis new algorithms and methods were developed by the autor on demand or need of many research and industrial analytical laboratories. These methods were successfuly tested on real-world problems and implemented in a computer software QC-Expert. QC-Expert consists of 18 statistical modules including descriptive and univariate statistics, ANOVA, transformation, correlation, multivariate analysis, control charts, acceptance sampling, linear and nonlinear
regression, calibration, two sample analysis and validation. The main topics solved by the author are: Calibration, end-point detection in titration, analysis of skewed and autocorrelated data in chemical technology processes and robust methods in multivariate analysis and analysis of variance. Methods and techniques described in this work enabled analytical chemists to treat real-world data in a more reliable way and to obtain more interpretable results. Presently, over 100 companies and institutions, half of which are analytical and other chemical laboratories, have implemented the presented methods.
10
1 Úvod
1.1
Námět a aktuálnost disertace
Statistické zpracování dat je stále více samozřejmostí při vyhodnocení laboratorních měření a analýz, ale také při sledování měřitelných parametrů technologických procesů. V obou případech je hlavním cílem statistického zpracování určit, sledovat, či popsat kvalitu. Klíčovou úlohu zde hraje náhodná, nevysvětlená variabilita, vyjádřená obvykle jako rozptyl. Míra kvality je pak vyjadřována jako převrácená hodnota rozptylu. Ačkoliv v praxi i literatuře je určitá nejednotnost v názvosloví a interpretaci pojmů jako jsou přesnost, správnost, shodnost, stabilita, variabilita, apod., lze většinu úloh z oblasti hodnocení kvality shrnout do hledání matematicko – statistického modelu
y = g ( f ( x ), ε ) , kde stochastická složka ε pochází z nějakého náhodného rozdělení, deterministická složka f(x) závisí na deterministických proměnných procesu x, případně dalších parametrech a funkce g definuje vztah deterministické a náhodné složky, nejčastěji aditivní, nebo multiplikativní. Volba modelů a metody výpočtu jejich parametrů závisí na apriorních vědomostech o chování procesu a předpokladech. Klasické postupy, založené na lineárních modelech, aproximacích, metodě nejmenších čtverců a normálním rozdělení obvykle dobře vyhovují popisu zmíněných mechanických rozměrových veličin. V případě vícerozměrných dat bývají navíc často porušeny předpoklady linearity. Aplikace klasických metod na data, která nesplňují předpoklady vede k nesprávným výsledkům a chybným interpretacím. Důsledkem je pak nedůvěra a formální vztah ke statistické analýze experimentálních dat, s čímž jsme se setkali u podstatné části laboratoří. Příčinou je špatná dostupnost pokročilejších metod a jejich praktická absence v normativních předpisech, a doporučeních pro odpovědné pracovníky v technologii, metrologii a kontrolních analytických laboratořích. V této práci je věnována pozornost především oblasti analytické laboratorní praxe, kde je použití klasických „kalkulačkových“ postupů většinou nemožné, neboť se zde vyhodnocují veličiny, které svou povahou vylučují použití nejjednodušších předpokladů a mechanické interpretace.
1.2
Literární přehled statistického software pro analytické laboratoře
Aplikace statistických metod při analýze naměřených dat ve výrobní a laboratorní praxi se začíná široce prosazovat již od třicátých let 20. století. Analýzy se v průmyslu prováděly především ve strojírenství při měření lineárních rozměrů. Vzhledem k omezeným výpočetním nástrojům se používalo nejjednodušších modelů a metod, které jsou dnes často označovány jako klasické. V práci bude uveden přehled statistického software používaného v analytické a technologické praxi se stručnou charakteristikou z hlediska vhodnosti k řešení problémů analýzy dat diskutovaných a řešených v této práci. V přehledu jsou uvedeny pouze vzájemně srovnatelné systémy. Nejsou uvedeny tři největší statistické systémy, S-Plus, SAS a SPSS, jejichž rozsah a cena neodpovídá zde diskutovanému použití. Tyto systémy neumožňují bez dalšího programování a náročné obsluhy jednoduché zpracování analytických dat. Dále neuvádíme řadu dalších programů typu freeware/shareware, nebo doplňkových systémů pro Excel jako např. Xlstat, které nejsou samostatnými systémy, nebo jde o amatérské programy bez uživatelské podpory. 1.2.1
Program BMDP, verze Pro2.0
Výrobce: Statistical Solutions, Stonehill Corporate Center, 999 Broadway, Saugus, MA, USA Všeobecný statistický systém, určený původně pro biomedicínu, (BioMedical Data Processing), obsahuje následující moduly a statistické techniky (http://www.statsol.ie): Descriptive Statistics Frequency Tables Log-linear Modeling Correspondence Analysis Regression Regression on principal components Ridge regression All possible subsets regression Non-Linear Regression Derivative-free non-linear regression Stepwise logistic regression Polychotomous logistic regression Nonparametric Statistics Maximum Likelihood Estimation Analysis of Variance
12
ANCOVA with repeated measures Multivariate Analysis Factor analysis Stepwise discriminate function analysis Cluster analysis of cases Survival Analysis Survival analysis with covariate Missing Values Correlation's with missing data Description and estimation of missing data Time Series Uni- and bivariate spectral analysis Software vychází ze software ze 60. let BMDP pro mainframe počítače, posléze pro osobní počítače v systému DOS. Jedná se o syntézu menšího softwarového balíku BMDP NewSystem a sbírku původních statistických knihoven BMDP Dynamic, které se musejí volat uživatelsky nepříjemným konzolovým dávkovým způsobem v režimu DOS, data pro analýzu musí být předem připravena ve zvláštním binárním formátu na disku, při práci nelze používat prostředků Windows, program se ovládá výhradně z klávesnice. Nabídka metod je rozsáhlá, výstupy jsou však nekomentované, chudá EDA. V základním systému pro Windows je obsaženo jen několik základních výpočtů jako regresní přímka, primitivní lineární regrese, histogram, jednoduchá ANOVA a t-testy. Výstupy jsou velice omezené a v laboratoři obtížně použitelné. 1.2.2
Program Statgraphics, verze 5 Plus
Výrobce: Manugistics, Inc., 2115 East Jefferson Street, Rockville, MD, 20852, U.S.A Všeobecný statistický systém rozšířený v ČR a SR díky kdysi populární verzi 2.6 a 4.2 pro DOS. Systém obsahuje následující moduly a statistické techniky (http://www.statgraphics.com/): Descriptive Statistics Power Transformation Sample Size Time-Series Analyses Smoothing Multivariate Methods Analyses
13
Factor Analysis Principal Components Groupings in Your Data Canonical Correlation Regression Analyses Differences Between Groups Nonlinear Regression Logistic Regression Calibration, Indirect Measurement Pareto Analysis Shewhart Control Charts Attributes Control Charts Time-Weighted Control Charts Multivariate Control Chart Gage R&R Experimental Design Výstupy software jako výsledky testů jsou nekomentované, i když obsahují obvykle vysvětlující odstavec související s použitou statistickou technikou nazývaný Stat-Advisor. Program sice nabízí modul Kalibrace, ten však používá pouze přímkový model a prostou metodu nejmenších čtverců a nebere navíc vůbec v úvahu rozptyl opakovaného měření neznámé koncentrace, což činí tento modul prakticky bezcenným. Modelování asymetrického rozdělení je možné pouze jádrovým odhadem, což neumožňuje výpočet střední hodnoty ani kvantilů. Box-Coxova transformace vypočítá pouze optimální exponent, avšak neposkytuje žádné retransformované hodnoty. Regresní modul poskytuje základní lineární model bez možnosti snadné transformace proměnných, výpočtu polynomů a nenabízí robustní metody. 1.2.3
Program Statistica, verze 6
Výrobce: StatSoft, Inc., 2300 East 14th Street, Tulsa, OK 74104, USA. Obsahuje následující moduly a statistické techniky (http://www.statsoft.com): Descriptive statistics Exploratory data analysis Interactive Probability Calculator Frequency Tables Crosstabulation Tables
14
Multiple Regression Methods Nonparametric Statistics ANOVA/MANOVA Distribution Fitting Variance Components and Mixed Model ANOVA/ANCOVA Survival/Failure Time Analysis General Nonlinear Estimation Log-Linear Analysis of Frequency Tables Time Series Analysis/Forecasting General Linear Models (GLM) General Regression Models (GRM) Cluster Analysis Techniques Factor Analysis Principal Components & Classification Analysis Canonical Correlation Analysis Reliability/Item Analysis Classification Trees Correspondence Analysis Multidimensional Scaling Discriminant Analysis General Discriminant Analysis Models (GDA) Software s bohatou nabídkou grafů a výstupů s poměrně malou vypovídací hodnotou, většinou ve formě matic a sloupečků čísel bez komentářů. Chudá lineární regrese a regresní diagnostika, neobsahuje modul kalibrace. Neumožňuje také snadné použití polynomické regrese nebo jiné modelů. Nepočítá intervaly spolehlivosti parametrů. Omezená možnost analýzy asymetrických dat, neobsahuje transformaci, je zde však možnost nalezení pravděpodobnostního modelu. Výstupy jsou organizovány do velkého množství oken, která mohou komplikovat orientaci. 1.2.4
Program Stata, verze 7
Výrobce: Stata Corporation, 4905 Lakeway Drive, College Station, Texas 77845, USA Obsahuje následující moduly a statistické techniky (http://www.stata.com): Basic statistics Linear models: ANOVA, regression, robust estimates, quantile regression
15
Generalized linear models Binary, count, and limited dependent variables Nonparametric methods Multivariate methods: factor analysis, principal components, multivariate regression Cluster analysis Resampling and simulation methods: bootstrapping, jackknife Model testing and post-estimation support Maximum likelihood methods Survival analysis Tools for epidemiologists Time series: ARIMA, ARCH/GARCH Box–Cox, power transforms Software nemá uživatelské menu, ovládá se příkazy z klávesnice, které musí uživatel zvládnout včetně poměrně náročné syntaxe. Komplikovaný je také vstup dat do programu. Obsahuje řadu robustních metod, Box-Coxovu transformaci, umožňuje psaní maker a využití velkého množství kvalitních statistických funkcí. Neobsahuje kalibraci. Výstupy jsou však velmi chudé a pro uživatele v laboratoři neinformativní. Systém se však dobře hodí pro studijní práci a výuku speciálních statistických metod. 1.2.5
Program Minitab, verze 13
Výrobce: Minitab Inc., 3081 Enterprise Drive, State College, PA 16801-3008, U.S.A. Obsahuje následující moduly a statistické techniky (http://www.minitab.com): Descriptive statistics Confidence intervals, one- and two-sample t-tests, paired t-tests Correlation and covariance Linear regression Logistic regression Stepwise and best subsets ANOVA MANOVA Pareto chart Control charts Box-Cox transformation Process capability: normal, non-normal, attribute and batch
16
Factorial designs Response surface designs Power and Sample Size Principal component analysis Discriminant analysis Cluster analysis Factor analysis Time Series and Forecasting ARIMA analysis Sign test Correspondence analysis Contingency tables Simulation and Distributions Random number generator Tento software je určen především pro výuku na vysokých školách. Regresní analýza je poměrně chudá, grafické výstupy obsahují pouze graf a histogram reziduí, výstupy jsou chudé, neobsahují ani intervaly spolehlivosti parametrů. Nenabízí robustní regresní postupy. Neobsahuje kalibraci. Neumožňuje analýzu asymetrických rozdělení. Interaktivní, ale chudé grafické a diagnostické výstupy a EDA. 1.2.6
Program NCSS 2000
Výrobce: NCSS, 329 North 1000 East, Kaysville, Utah 84037, U.S.A. Software obsahuje následující moduly a statistické techniky (http://www.ncss.com): Analysis of Variance Charts and Graphs Cross Tabulation Curve Fitting Nonlinear Regression Descriptive Statistics Design of Experiments Forecasting General Linear Models Multivariate Methods Discriminant Analysis
17
Cluster Algorithms Factor and Principal Component Analysis MANOVA Correspondence Analysis Multidimensional Scaling Quality Control Regression Analysis Reliability Analysis Repeated Measures Survival Analysis Time Series Analysis T-Tests Rozsahem menší statistický balík, v němž jsou však zastoupeny všechny moduly nejčastěji používané v analytické a výzkumné praxi. Výstupy analýz jsou poměrně obsáhlé, jedná se však pouze statické texty a statické obrázky bez možnosti dalšího interaktivního zpracování. Chybí možnost tvorby a použití kalibračních modelů, interaktivního použití grafů, obecných modelů v regresi (polynomy, transformace proměnných). Program rovněž neposkytuje možnost práce s asymetrickým rozdělením. 1.2.7
Program Unistat 5.1
Výrobce: Unistat Ltd., 4 Shirland Mews, Maida Vale, London W9 3DY, England Software obsahuje následující moduly a statistické techniky (http://www.unistat.cz): Popisná statistika Testy dobré shody Parametrické i neparametrické testy Regresní analýza ANOVA Analýza časových řad ARIMA modelování Shluková analýza Diskriminační analýza Kontrola jakosti Analýza přežití Faktorová analýza
18
Popisné a vícerozměrné grafy Software je určen hlavně pro výzkum a výuku statistiky. Program nabízí řadu statistických metod s relativně bohatým statickým výstupem v textovém formátu a znakovou grafikou doplněným statickými grafy. Grafické výstupy jsou však poměrně chudé, chybí regresní diagnostika, exploratorní grafy, a interaktivnost. Kalibrační úlohy nelze tímto programem zpracovat. Software není vhodný ani pro zpracování dat s asymetrickým rozdělením a tvorbu regulačních diagramů pro autokorelovaná data. 1.2.8
Program Unscrambler 9
Výrobce: Camo Processes AS, Nedre Vollgate 8, N-0158 OSLO, NORWAY Software obsahuje následující moduly a statistické techniky (http://www.camo.no): Exploratorní analýza (deskriptivní statistika, PCA) Regresní analýza (PLS1, PLS2, PCR, MLR, 3-Way PLS) Validace modelu Predikce Klasifikace (SIMCA, PLS-DA) Posuzování nejistoty Předzpracování dat Návrh experimentu (částečné a faktoriální návrhy, Placket Burmann, Box Behnken, Centrální kompozitní, D-optimální plány) ANOVA analýzu responsního povrchu Software Unscrambler je zaměřen explicitně na vízerozměrné metody pro vyhodnocování analytických měření, především metody založené na hlavních komponentách, jako parciální nejmenší čtverce, regresi na hlavních komponentách, PCA. Dále má rozsáhlejší modul návrhu experimentu. Je to software poněkud jednostranný, nenabízí jen velmi málo, nebo vůbec žádné nástroje pro jednorozměrnou statistiku, neparametrické metody, testování, nelineární regresi, řízení jakosti, pravděpodobnostní modely a nejedná se přes jeho vysokou cenu o obecně použitelný statistický software.
1.3
Vytyčení cílů disertace
Každá činnost technologického charakteru je provázena neurčitostí a chybami. V současných technologiích je hlavním kritériem jakosti dosažení a udržení stanovených
19
hodnot parametrů produktu. Jev, který tomuto cíli brání je variabilita. Je proto zřejmé, že snahy zlepšit kvalitu produktů a také vlastních technologických procesů a operací se budou z velké části soustředit právě na popis a pochopení variability. V posledních letech velmi intenzivně vzrůstají požadavky na používání a interpretaci statistických metod jednak ze strany předpisů a doporučení (normy ISO 9000, 11000, 14000 a jejich interpretace z hlediska použití statistických metod jako např. ISO/TR 10017, ISO 11462-1, dále QS9000, VDA, DIN 45000, metodiky jako GLP, TQM, metrologické normy, zavedení nejistot, metodiky statistických přejímek, způsobilosti, SPC, QC/QA, normy pro lineární kalibraci jako např. ISO 11843-2, atd.), jednak ze strany odběratelů analýz a produktů, kteří se tím snaží co nejpřesněji definovat a poznat technologické a ekonomické podmínky. Na rozdíl od první poloviny 20. století jsou však nyní statistické metody zaváděny ve všech odvětvích technologie, měření a analýz. Povaha většiny procesů, a tedy i statistická povaha naměřených dat, čili hodnot procesních parametrů, se však nedá popsat jednoduchými modely, které postačovaly pro popis mechanických délkových měření. Omezíme-li se na jednorozměrná data, je hlavním důvodem nepoužitelnosti klasických metod porušení jednoho nebo více základních předpokladů o výběru: normální rozdělení prvků výběru, jejich nezávislost, jejich konstantní střední hodnota a rozptyl, jejich homogenita, a koneční i velikost výběru. Výkonnost výpočetní techniky již dlouho umožňuje implementovat netriviální nelineární, robustní, simulační, iterační a jiné techniky pro analýzu reálných dat z chemickoanalytické i technologické praxe. Jak vyplývá z odstavce 1.2, neposkytují ani renomované statistické systémy dosti flexibilní a použitelné specializované nástroje potřebné pro tento účel, i když v některých případech lze moduly do jisté míry použít. Cílem práce je proto vývoj, úprava a algoritmizace metod a postupů a jejich aplikace při analýze a interpretaci dat z analytických laboratoří. Tyto metody jsou součástí programového systému interaktivní statistické analýzy dat v moderním pojetí na základě současných poznatků statistické analýzy. Předkládané originální algoritmy v jazyce S-Plus a statistický systém QCExpert jsou použity k analýze dat v analytické laboratoři tak, jak byly publikovány ve vědeckých časopisech a dalších odborných publikacích v posledních pěti letech. Předkládaný statistický systém tvoří významnou pomůcku analytického chemika při vyhodnocení instrumentálních dat. Je zaměřen především na tolik požadovanou statistickou kontrolu kvality v průmyslové praxi. V disertaci je vedle uceleného statistického systému QCExpert předloženo i několik nových originálních řešení vybraných častých problémů analytické chemie, které budou v teoretické části vysvětleny a ve výsledkové části
20
dokumentovány na konkrétních příkladech analytické praxe.Tyto problémy byly většinou námětem samostatných sdělení a lze je nalézt v přiložených separátech přílohy.
21
2 Teoretická část Původní
metodika
řešení
problémů
analytické
chemie
je
detailněji
uvedena
v následujících odstavcích. 2.1
Propagace chyb v měření analytických veličin
2.1.1
Metoda Taylorova rozvoje
Výpočty propagace chyb spočívají v odhadu statistického chování náhodné veličiny y, která je funkcí jiných náhodných veličin xi, jejichž statistický model je znám. V praxi se jedná především o jednorozměrné veličiny, které odpovídají naměřeným hodnotám nějaké chemické nebo fyzikální veličiny, y = f(x). V případě, kdy xi ~ N(µi, σi2) a funkce f(x) je lineární, tedy f(x) = ∑αi xi, platí, že y ~ N(µy, σy2), kde µy = (1/∑α i) . ∑αi µi a σy2 = ∑αi σi2. V případě, kdy funkce f(x) je nelineární vzhledem k xi, používá se aproximace µy a σy2 pomocí Taylorova rozvoje prvého řádu, podle něhož je odhad střední hodnoty µyT
µˆ yT
∂2 f ( x) m −1 m ∂ 2 f ( x ) 2 cov ( xi , x j ) σ i + 2∑ ∑ ≈ f ( µx ) + ∑ 2 ∂ ∂ x x x i =1 i =1 j =i +1 i xi = µˆ i i j xi = µˆi , x j = µˆ j m
( 1)
a pro odhad rozptylu platí
σ
2 yT
2 m −1 m ∂f ( x ) 2 ∂f ( x ) ∂f ( x ) s x 2 ≈ ∑ + ( ) cov ( xi , x j ) ∑ ∑ i i =1 ∂xi i =1 j = i +1 ∂xi ∂x j m
( 2)
Známe-li korelační matici cor(x) a vektor směrodatných odchylek σ(x) = (σx1, σx2,
σx3), které lze obvykle odhadnout z předchozích pozorování, získáme potřebnou kovarianční matici cov(x) podle vztahu cov(x)=diag(σ(x)) . cor(x) . diag(σ(x))
( 3)
Vliv xi na variabilitu y lze vyjádřit pomocí absolutní citlivosti y na malou změnu xi
di =
bg
∂f x ∂ xi
= x= µ
∂y ∂ xi
( 4) x= µ
nebo jako citlivost na relativní změnu směrodatné odchylky σ(xi)
d Ri =
b g sb x g = ∂ y sb x g ∂x
∂f x ∂ xi
i
x= µ
i
i x= µ
( 5)
2.1.2
Metoda Monte Carlo
Aproximativní metoda Monte Carlo poskytuje možnost a posoudit průběh rozdělení y především s ohledem na šikmost a kvantily. Navíc umožňuje porovnat a ověřit správnost odhadu střední hodnoty pomocí analytické metody Taylorova rozvoje. Její účinnost však rozhodujícím způsobem závisí na počtu simulací, který by měl být alespoň řádu tisíců a na kvalitě generátoru náhodných čísel. Některé generátory mohou výsledek simulace značně znehodnotit. Jádrový odhad na ilustračním příkladě na Obr. 1 (čárkovaně) byl získán z 1000 simulací a odhaluje asymetrii rozdělení ve srovnání s normálním rozdělením (plná čára). Hodnoty použité v příkladu jsou: x = x1, x2, x3; y = f(x) = (x1 . x2) / x3. Střední hodnoty měřených veličin jsou µx1 = 45.3; µx2 = 0.32; resp. µx3 = 0.94. Směrodatné odchylky jsou σx1 = 1.9; σx2 = 0.067; resp. σx3 = 0.24, korelační koeficienty ρx1,x2 = −0.8; ρx1,x3 = 0.5; resp. ρx2,x3 = −0.7. Hustota pravděpodobnosti ze simulovaných dat odráží reálnou skutečnost, že hodnota f(x) má asymetrické rozdělení s kladnou šikmostí, což nelze popsat normálním rozdělením. Simulace tak umožňuje reálný výpočet střední hodnoty a kvantilů v intervalu ±3σ. y
Hustota pravděpodobnosti
0.070 0.060 0.050 0.040 0.030 0.020 0.010
x
0.000 -10
0
10
20
30
40
50
Obr. 1 Hustota pravděpodobnosti výsledné veličiny (čárkovaně) ve srovnání s normálním rozdělením
2.2
Kalibrace a zpřesněný kalibrační model Klasická metoda nejmenších čtverců (Ordinary Least Squares, OLS) se ukazuje jako
nevhodná pro kalibrační modely, kdy odezva analytického přístroje vykazuje nekonstantní rozptyl čili heteroskedasticitu, která je obvykle podmíněná velkým rozsahem hodnot koncentrace. Závislost rozptylu absolutní odezvy na koncentraci byla vyčíslena pomocí neparametrických jádrových funkcí a predikce rozptylu s2(c) bylo využito ke konstrukci odhadu parametrů kalibračního modelu metodou iterativně vážené metody nejmenších
24
čtverců. Touto metodou získané intervaly spolehlivosti predikce kalibračního modelu pak byly využity ke konstrukci intervalu spolehlivosti zpětného odhadu kocentrace. Tyto intervaly odrážejí lépe přesnost analytické metody a jsou obvykle podstatně užší v oblasti nízkých koncentrací. Je uvedena výhoda této metody ve srovnání s běžně používanou logaritmizací, popř. lineárními a kvadratickými vahami. 2.2.1
Kalibrační model s nekonstantní chybou měření
Konstantní absolutní chyba měření odezvy y při kalibraci analytické metody je jeden ze základních předpokladů použití klasické metody nejmenších čtverců. Je-li γ(x) funkce popisující skutečnou závislost odezvy y na stanovovanou veličinu x (obvykle koncentraci) a vektor y s prvky yi (i = 1, ... , n) obsahuje jednotlivé naměřené hodnoty odezvy při známých hodnotách x (xi), pak hodnoty εi = yi – γ(xi) představují náhodný výběr z rozdělení chyb naměřené odezvy. Skutečný průběh závislosti však zpravidla není znám a často není znám ani teoretický model závislosti. Kalibrační závislost se proto nahrazuje přímkovou nebo polynomickou závislostí m
g ( x ) = ∑ ai x i i =0
( 6)
kde m je stupeň polynomu. Obyčejně se volí nižší stupeň 1 ≤ m ≤ 4. Chyby εi se pak nahradí reziduálními odchylkami (rezidui) ei = yi – g(xi). Jsou-li splněny základní předpoklady metody nejmenších čtverců, především ε ∼ N(0, σ2), cov(εi, εj) = 0 pro i ≠ j, lze pro odhad parametrů modelu ( 6) použít metody nejmenších čtverců
(
)
−1
a = XT X XT y
( 7)
kde matice X(n×m) je tvořena prvky xij a vektor y prvky yi. Kovarianční matice parametrů a je pak C = σ 2 ( XT X )
−1
( 8)
a kovarianční matice chyb S je diagonální matice (n×n) s prvky sij = σ2 pro i=j a sij = 0 pro i≠j. Při kalibraci přístroje nebo metody pro stanovení koncentrací v rozsahu několika řádů nelze většinou očekávat splnění podmínky konstatntního rozptylu reziduí. V praxi se ukazuje [ 13], [ 26], [ 15], [ 44], [ 34], [ 49], [ 50], že chyba měření je neklesající funkcí měřené odezvy y, což někdy odpovídá empirickému pravidlu, že měření dané veličiny jednou metodou má přibližně konstantní relativní přesnost související např. s jemností dílků analogového měřidla s přepínáním rozsahů, nebo počtem platných číslic digitálního měřidla. Tato jednoduchá představa vyjádřená modelem
25
( 9)
y = a0 + a1 xeτ
kde τ∼N(0, στ2). Tento model se běžně používá, jeho zásadní nevýhodou však je, že implikuje nulovou chybu při nulové koncentraci analytu, x=0, což neumožňuje určení meze detekce. Metoda klasických nejmenších poskytuje v tomto případě neefektivní, popř. vychýlené odhady. Heteroskedasticita chyb se dá vyjádřit kovarianční maticí chyb Ce, kterou lze odhadnout jako σ2(E – H), kde En je jednotková matice a H = X(XTX)–1XT. Jsou-li měření nezávislá, je Ce diagonální matice, na jejíž diagonále jsou rozptyly jednotlivých měření. Pro odhad parametrů pak platí a = ( XT Ce X ) XT Ce y −1
( 10)
Pro odhad diagonálních prvků matice Ce se dá využít neparametrický odhad t(x) závislosti ei2 na xi. Pak lze matici Ce vyjádřit jako Ce = diag(t(xi)) (i = 1, ..., n). Výpočet parametrů a podle ( 10) je pak nutno iterativně opakovat dokud není změna a v jednotlivém kroku zanedbatelná, resp. menší než zvolený vektor d = a.δ, kde δ je malé kladné číslo, např. 10–7. Tento postup je nazýván iterativně váženými nejmenšími čtverci (IRWLS). Protože nejlepší odhad střední hodnoty ei2 je aritmetický průměr, lze pro odhad neparametrické závislosti t(x) použít metodu klasických nejmenších čtverců. Použijeme-li pro vyjádření t(x) jádrový odhad, lze snadno ukázat, že t(x) > 0 je-li ei ≠ 0 alespoň pro jedno i. Tento fakt odpovídá známé skutečnosti, že var(y(x = 0)) > 0, to jest, že ani při nulovém x neměříme s nulovou chybou. Tento postup zobecňuje používané smíšené modely chyb popsané např. v [ 34]. Použitím postupů IRWLS se zabývají publikace [ 39], [ 44], [ 34], [ 46], [ 48], [ 50], obecněji problémem heteroskedasticity publikace [ 36], [ 39], [ 13], [ 26], [ 15], [ 44], [ 34], [ 49], [ 50], [ 48].
y = a0 + a1 xeτ + ε
( 11)
kde τ∼N(0, στ2) a ε∼N(0, σε2). Použitelnost modelu chyb ( 11) je dokumentována pro analytické metody jako GC/MS, AAS, HPLC a je někdy označován jako Horwitzova
trumpeta [ 47], podle tvaru závislosti intervalu ±2σ na x, viz Obr. 2. Na odhad parametrů kalibračního modelu a analýzu jeho statistických vlastností má rozhodující vliv určení vah, které jsou dány čtvercem odhadnutých chyb jednotlivých měření. Použití uvedeného modelu chování chyb nebyl vhodný pro kalibrační data v tomto sdělení, jejichž chyby nevykazovaly lineární závislost na x. Proto se jako model závislosti ei2 na xi použil jádrový odhad s Gaussovým jádrem e2 ∼ K(x), který splňuje požadavek E(e2) = E(K(x)) a K(x) > 0 je-li ei ≠ 0 alespoň pro jedno i. Diagonální prvky matice Ce v rovnici ( 10) lze pak získat jako K(xi).
26
Chyba 8 6 4 2 0 -2 -4 -6 0
10
20
30
40
50
Koncentrace Obr. 2 Závislost chyby měření na koncentraci (obdoba Horwitzovy trumpety) v případě heteroskedastického modelu
2.2.2
Interval spolehlivosti stanovené koncentrace
Vyčíslení intervalu spolehlivosti zpětného odhadu na hladině významnosti α je geometricky dán průsečíkem přímky y = yk + t(K, 1−α/2)σk se spodní mezí konfidenční oblasti predikce kalibračního modelu a přímky y = yk − t(K, 1−α/2)σk s horní mezí konfidenční oblasti predikce kalibračního modelu. Odvozením a použitím intervalu spolehlivosti zpětného odhadu se zabývá řada prací, např. [ 3], [ 23], [ 27], [ 43], [ 20], [ 28], [ 8], [ 1], [ 24], [ 13], [ 26], [ 15], [ 41], [ 7], [ 10], [ 35], [ 4], [ 5], [ 48]. Nejčastěji používaný vztah pro výpočet odhadu neznámé koncentrace z naměřené odezvy je takzvaný přímý odhad [ 1]: n
xˆ I = x + ( yI − y )
∑ ( x − x )( y − y ) i
i =1
i
n
∑( y − y )
2
i
i =1
( 12)
který je však vychýlený, proto se doporučuje spíše korigovaný Naszodiho odhad
xˆ I = x
b ( yI − y ) s2 b2 + n 2 ∑ ( xi − x )
( 13)
i =1
kde b je odhad směrnice kalibrační přímky a s2 je odhad reziduálního rozptylu kalibrační závislosti, který se zároveň považuje za rozptyl naměřené odezvy yI pro neznámou
27
koncentraci xI. Interval spolehlivosti odhadu xI. je za předpokladu normality chyb, linearity modelu a konstantního rozptylu chyb dán výzrazem IS ( xˆI ) = xˆI ∓ t1−α / 2 ( n − 2 )
s b
1 1 + + n k
( yI − y ) b
2
2
n
∑(x − x ) i =1
( 14)
2
i
kde k je počet opakování měření odezvy pro neznámou koncentraci, viz Obr. 3. V případě nekonstantního rozptylu je nutno dosadit za b a s odpovídající hodnoty vypočítané váženou regresí podle (5). Ve většině případů se použitím vážené regrese pro model s nekonstantními chybami dosáhne dramatického zúžení intervalu spolehlivosti odhadu neznámé koncentrace pro nízké hodnoty x ale naopak rovněž rozšíření tohoto intervalu pro vysoké hodnoty x. Tato skutečnost má za následek snížení meze detekce analytické metody a významné rozšíření oblasti jejího použití pro stanovení, resp. prokázání přítomnosti nízkých koncentrací analytu ve vzorku. Y průměr y ij
interval spolehlivosti průměru y ij
Změřené y ij (5 opakování)
X 0
x 0.025
xi
x 0.975
Obr. 3 Interval spolehlivosti zpětného odhadu pro kalibrační přímku
Dalšího možného zpřesnění odhadu xI je podle některých autorů [ 23], [ 43], [ 8], [ 32], [ 6], [ 21], [ 22], [ 42], [ 48], možné dosáhnout využitím předchozích (apriorních) expertních informací o obvyklých nebo předpokládaných hodnotách neznámé koncentrace. Tyto informace mají formu hustoty pravděpodobnosti a lze je získat například z předchozích analýz obdobných vzorků. Za předpokladu konzistence, že stanovovaný vzorek se příliš neodlišuje od předchozích vzorkům, lze dosáhnout významného zpřesnění odhadu xI použitím Bayessovských odhadů. Bayesovské odhady vycházejí ze vztahu p ( x | y1 ,ν 2 , y2 ) ∝ p ( x | y1 ) f (ν 2 , y2 | x, y1 )
( 15)
a umožňují přibližný výpočet hustoty pravděpodobnosti zpětného odhadu xI. Tento výpočet je však třeba provádět numericky a předpoklad konzistence vzorků vždy nemusí platit. Otázkou je rovněž volba apriorního rozdělení p(x | y1), viz odst. 2.2.4.
28
2.2.3
Kvalitativní a kvantitativní možnosti kalibračního modelu, kalibrační meze
Jedno z hlavních kritérií posouzení daného analytického postupu je jeho schopnost detekovat a stanovit malá množství či koncentrace analytu. Tato schopnost se dá kvantitativně definovat pomocí kalibračního modelu, který ke stanovení používáme. Protože jde pouze o model, je třeba vzít v úvahu, že tento model může být dobrý, nebo špatný. Jak bylo ukázáno jinde [ 50] může mít volba neadekvátního kalibračního modelu za následek mnohonásobné zhoršení výsledku analytické metody v podobě rozšíření intervalu spolehlivosti zpětného odhadu a tím i kalibračních mezí. Volbě modelu pro kalibraci je věnována pozornost např. v pracech [ 26], [ 15], [ 37], [ 48], [ 50]. S modelem souvisí rovněž metoda použitá pro výpočet statistických parametrů modelu, z nichž nejdůležitější jsou odhady parametrů a jejich statistické vlastnosti, interval spolehlivosti predikce a odhad chyb, popřípadě jejich závislosti na koncentraci. Je nutno zdůraznit, že vypočítaná kritická úroveň, limita detekce a limita stanovení, resp. kvantifikace dle IUPAC jsou parametry modelu a mají reálný smysl jen v případě, že model i metoda výpočtu jsou zvoleny správně. Proto se doporučuje použít při tvorbě kalibračního modelu některou z metodik popsaných v [ 26], [ 48], založených na testování a analýze regresního tripletu data – model – metoda, nazývané někdy regresní triplet. Různými postupy výpočtu kalibračních mezí se zabývají práce [ 12], [ 27], [ 2], [ 30], [ 18], [ 40], [ 16], [ 29], [ 44], [ 17], [ 46], [ 48], [ 50]. V tomto příspěvku byly použity vztahy převzaté z ISO normy [ 46] a definice z [ 30]. Kritická úroveň yC je definována jako úroveň signálu ( y − aˆ ) , která je statisticky významná na hladině významnosti α. yC = t p (ν ) sa2 + s y2
( 16)
kde sa je směrodatná odchylka absolutního členu a sy je směrodatná odchylka signálu při x = 0. Podle [ 46] je doporučován vztah yC = aˆ + t p (ν ) s
1 1 x2 + + K I ∑ ( xi − x )2
( 17)
kde s je odhad reziduální směrodatné odchylky z regrese. Pro kritickou koncentraci, resp. množství pak platí xC = t p (ν )
s bˆ
1 1 x2 + + K I ∑ ( xi − x )2
( 18)
ν = n – m je počet stupňů volnosti pro n bodů a m parametrů, pro přímku je m = 2, K je počet standardů a I počet opakování, n = I.K, ν = I.K – 2
29
Mez detekce xD je minimální množství (koncentrace) analytu, které lze detekovat na hladině p = 1-α vztahem xD = 2
yC b
ra ,b
sa s t p (ν ) b sy b
s 1 − t (ν ) b b
2
2 p
( 19)
kde ra,b je korelační koeficient parametrů regresní přímky a sb je směrodatná odchylka směrnice b. tp(ν) je p-kvantil studentova rozdělení s ν stupni volnosti. Počet stupňů volnosti je zde ν = n – 2 a n je počet naměřených bodů kalibrační závislosti. V praxi se často používá jako meze detekce dvojnásobek kritické úrovně xD = 2xC, což je rovněž zjednodušené doporučení normy [ 46] v případě ν > 3 a konstantní směrodatné odchylky. Mez kvantifikace yQ je úroveň signálu, která zaručuje dostatečně přesné stanovení neznámé koncentrace nebo množství. Tato veličina může záviset na subjektivním posouzení minimální požadované přesnosti s ohledem na účel analýzy (rutinní, akreditace, legální analýzy, apod). Je tedy mez kvantifikace do jisté míry subjektivní veličina, přesto je v různých doporučeních, (např. [ 2], [ 12], [ 40], [ 49]) nejčastěji doporučována hodnota
yC = aˆ + k ⋅ sb
( 20)
kde konstanta k je rovna 9 nebo 10. Použití metody IRWLS má za důsledek reálné zúžení intervalu spolehlivosti kalibrační závislosti v okolí nulové koncentrace v případě rostoucí závislosti chyby na koncentraci, jak je ilustrováno na příkladu na Obr.
4 se simulovanými daty. V tomto případě došlo až
k desetinásobnému snížení meze detekce.
Y
Y
Kalibrační přímka metoda nejmenších čtverců
10
Kalibrační křivka, vážená MNČ
10
Rezidua:
9
Rezidua:
8
8 7
6
6 2.0
4
DETAIL:
Y
5
DETAIL
1.0
4 2
3 2
0.0
0
0.0
2.0
1
Koncentrace [ppm] 0
1
2
3
4
5
6
7
8
9
0.0
X
0.0
X
0
-2
0
10
1
2
3
4
5
6
7
8
9
Obr. 4a,b Vliv vážené metody IRWLS na snížení meze detekce kalibračního modelu
30
10
1.0
2.2.4
Zpřesnění odhadu neznámé koncentrace
Použití klasického přístupu ke stanovení konfidenčního intervalu pro nízké koncentrace analytu pomocí regresního kalibračního modelu, který předpokládá normální rozdělení chyby zpětného odhadu, může vést k záporné spodní hranici intervalu spolehlivosti neznámé koncentrace. Ke zpřesnění tohoto konfidenčního intervalu byla v práci použita apriorní informace, že koncentrace nemůže být záporná. Tento předpoklad vede na nejčastěji používaný lognormální model. Je-li však navíc známé obvyklé rozdělení koncentrací v určitých druzích vzorků, šarží a podobně na základě předchozích měření či informací, lze této informace využít ke konstrukci apriorního rozdělení pravděpodobnosti. Při vhodné volbě modelu lze pak tohoto rozdělení použít pro zpřesnění odhadu neznámé koncentrace a odhadu přirozeného intervalu spolehlivosti s vyloučením záporných hodnot koncentrace. K tomuto účelu jsme zde použili empirického bi-lognormálního rozdělení pravděpodobnosti ( 21) definovaného na intervalu (0,1) [ln (2 x ) − θ 1 ]2 1 pro x < S exp − θ2 2 f bl ( x ) = 2 S exp [ln (2 − 2 x ) − θ 1 ] pro x ≥ 1 2 θ2
( 21)
kde 1 0.5 [ln (2 x ) − θ1 ]2 [ln (2 − 2 x ) − θ1 ]2 d x + ∫ exp d x S = ∫ exp − θ2 θ2 0.5 0
−1
( 22)
je normalizující konstanta, která se vypočítá numericky. Parametry θ1, θ2 lze odhadnout metodou maximální věrohodnosti z předchozích dat. Toto rozdělení je unimodální, je definováno na intervalu (0, 1) a přechází na normální rozdělení, je-li 0 << θ1 << 1 a θ2 → 0, na rovnoměrné rozdělení, je-li 0 << θ1 << 1 a θ2 → ∞, a na lognormální rozdělení, je-li {θ1 → 0 or θ1 → 1} and θ2 → 0. Příklady hustot vypočítaných metodou maximální věrohodnosti pro typická laboratorní data jsou uvedeny na Obr. 5 až Obr. 8. Vztah ( 21) zajišťuje, že Fbl = 0 pro x < 0 a Fbl = 1 pro x > 1, kde Fbl je distribuční funkce rozdělení ( 21), Fbl = ∫
x
−∞
f bl ( x )d x = ∫ f bl ( x )d x . x
0
31
2.5
3.0
2.0
1.0
1.5
yy1/inte
2.0
1.5 1.0
yy1/inte
0.5
0.5
0.0
0.0 0.0
0.2
0.4
0.6
0.8
1.0
0.96
xx
0.97
0.98
0.99
1.00
xx
Obr. 5 Apriorní rozdělení pro široký
Obr. 7 Rozdělení pro koncentrace blízké jedné
1.5 yy1/inte
1.0
1.5 0.0
0.0
0.5
0.5
1.0
yy1/inte
2.0
2.5
2.0
koncentrační rozsah
0.32 0.0
0.01
0.02
0.03
0.04
0.05
0.34
0.36
0.38
0.40
0.42
0.44
xx
xx
Obr. 8 Téměř normální rozdělení pro
Obr. 6 Téměř lognormální rozdělení pro
symetrické rozdělení koncentrací
koncentrace blízké nule
Rozdělení fs(x) měřené neznámé koncentrace získané výpočtem z kalibračního modelu metodou nejmenších čtverců je typicky normální. Kombinací tohoto rozdělení s apriorním rozdělením získáme zpřesněné posteriorní rozdělení na základě vztahu fp(x) = Sp fs(x|X) fbl(x), kde x je neznámá koncentrace a Sp je kostanta zajišťující, že fp(x) je hustota pravděpodobnosti, Sp =
1
∫
∞
−∞
f s ( x ) f bl ( x )d x
( 23)
Tento nový přístup vždy zpřesňuje výsledný odhad koncentrace a zajišťuje, aby meze intervalu spolehlivosti byly v kladné a menší než 1. Zpřesnění odhadu je patrné z Obr. 9, hustoty odhadů jsou úmyslně proporcionálně zmenšeny, aby se vešly do grafu.
32
Hustota
Apriorní rozdělení
3
2
Zpřesněný odhad neznámé koncentrace Klasický odhad neznámé koncentrace 1
0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Koncentrace
Obr. 9 Zpřesněná hustota pravděpodobnosti (hustoty jsou úmyslně zmenšeny, aby se vešly do obrázku)
2.3
Stanovení bodu ekvivalence v instrumentálních titracích I. Titrační křivky se dvěmi větvemi se často používají v instrumentální analytické
chemii, zvláště ve fotometrii, ampérometrii a konduktometrii. Měřenou analytickou veličinou (polarografický proud, absorbance, vodivost apod.) budeme nazývat závisle proměnnou, y. Nezávisle proměnná, přidaný objem, bude označována x. Výsledkem titrace je n párů naměřených dat, (xi, yi). Obvykle se větve titrační křivky považují za lineární. V tom případě lze křivku popsat modelem
a + b x pro x ≤ p Q ( x, p ) = 1 1 a2 + b2 x pro x > p
( 24)
kde p=(p, a1, a2, b1)T a p (neznámé) je hodnota x v ekvivalenci. Pak lze zapsat podmíněný regresní model se 4 neznámými parametry:
a + b x + ε pro x ≤ p y= 1 1 a2 + b2 x + ε pro x > p kde p, a1, a2, a b1 jsou neznámé parametry, a b2=(a1-a2)/p+b1, což je důsledek a1+b1p=a2+b2p.
33
( 25)
Regresní model ( 25) je nelineární v parametru p. Má-li ε normální rozdělení, ε~N(0,σ2) s konstantním rozptylem, můžeme pro odhad parametrů p=(p, a1, a2, b1)T použít metodu nelineárních nejmenších čtverců, která minimalizuje sumu čtverců reziduí n
S (p) = ∑ ( yi − Q ( xi , p )
2
( 26)
i =1
aby nalezla nejlepší odhady p*. Označme r počet parametrů (zde r = 4). Z kovarianční matice C(rxr) parametrů p a odhadnutého reziduálního rozptylu s2, můžeme získat také odhady
rozptylů parametrů: var(p)=s2*diag(C).
( 27)
kde diag(C) je vektor diagonálních prvků matice C. Reziduální rozptyl získáme podle vztahu
1 n s = ∑ ( yi − Q( xi , p) ) n − r i =1
2
2
( 28)
Kovarianční matici C lze získat inverzí matice druhých parciálních derivací účelové funkce S(p) podle jednotlivých parametrů (Hessiánu H), C=H-1,
( 29) H ij =
∂2 S (p ) ∂pi ∂pi
( 30)
Matice H se obvykle počítá z Jacobiánu J(nxr), viz např. [ 51] J ij
∂ Q ( xi , p ) ∂p j
( 31)
H ≈ JTJ
( 32)
Všechny uvedené hodnoty C, s2, var(p) jsou obyčejně součástí výstupu dobrých regresních programů a není třeba je počítat ručně. Rozptyl odhadu bodu ekvivalence p, s2p, zde je to první element var(p), může být využit k odhadu 100(1-α)% konfidenčního intervalu parametru p: p* − sp.t(1−α, n−4) < p < p* + sp.t(1−α, n−4) zde p* je odhad p, t(α, n) je α-kvantil t-rozdělení s n – 4 stupni volnosti. II. Často je sporné, jsou-li obě větve titrační křiky lineární. Zakřivený tvar jedné nebo
obou větví titrační křivky může být důsledkem teoretického chemického modelu, jenž je ve skutečnosti více nebo méně komplikovanou logaritmickou či exponenciální závislostí. Jako
34
( 33)
lineární se větev jeví jen např. v případě velkých rozdílů disociačních konstant a pod. Nelinearita může být na druhé straně rovněž důsledkem neideálního chování roztoků o vyšších koncentracích nebo přítomností nestálých sloučenin a příslušných kinetik. Většinou je však zbytečné využívat pro stanovení bodu ekvivalence komplikovaných matematických mocelů, které jsou navíc jen zřídka přesně známy. Na druhé straně vede použití lineárního proložení nelineárních větví závislosti k nesprávným a pochybným výsledkům. Podobně pominutí zakřivené části větve vede ke ztrátě přesnosti a informace. Velmi efektivní a dostačující se ukazuje použití paraboly k aproximaci zakřivené větve titrační závislosti,
a1 + b1 x + c1 x 2 Q ( x, p ) = 2 a2 + b2 x + c2 x
pro x ≤ p pro x ≤ p
( 34)
kde p=(p, a1, a2, b1, c1, c2) a b2=1/p.(a1-a2)+b1+(c1-c2).p Avšak, použití ( 34) k proložení lineární závislosti vede ke zbytečnému zvětšení rozptylu p díky nižšímu počtu stupňů volnosti (n-6 místo n-4) a silnější multikolinearitě. K rozhodnutí zda se jedná o lineární či nelineární větev je využito testu významnosti kvadratického členu v modelu ( 34) na hladině významnosti (1 – α). Regresní parametr pi je významný, je-li abs(pi*) > spi t(1-α, n-r)
( 35)
K výpočtu byl v této práci použit následující algoritmus: (1) Nalezení p v modelu ( 34) a vektor rozptylů var(p) pomocí nelineárních nejmenších čtverců. (2) Test významnosti parametrů c1, c2 v ( 34) na hladině α pomocí ( 35). (3) Vypuštění nevýznamných kvadratických členů z ( 34) a přepočítání regresního modelu. (4) Výpočet konfidenčního intervalu parametru p pomocí ( 33). Výsledkem stanovení koncentrace v chemické analýze jsou často pouze bodové odhady bez informace o přesnosti stanovení. Pro posouzení kvality stanovení je však nutné uvést informaci o jeho přesnosti či nejistotě. Užitečným se jeví 100(1-α)% interval spolehlivosti. Je-li α=0.05, lze tento interval interpretovat jako interval v němž se bude nacházet průměrně 19 ze 20 opakovaných stanovení v témže vzorku za stejných podmínek. Častěji je tento interval interpretován jako interval v němž se s 95% pravděpodobností nachází skutečná hodnota. Nejsou-li k dispozici dodatečné expertní informace, odhaduje se tento interval pouze pomocí opakování celého stanovení. Popisovaná technika umožňuje
35
stanovení intervalu spolehlivosti z jediné titrace, při níž mohou být větve titrační křivky lineární nebo nelineární, přičemž nelinearita se detekuje automaticky a aproximuje parabolou. Ukázalo se, že použití kvadratického modelu na lineární závislost má za následek rozšíření intervalu spolehlivosti bodu ekvivalence, zatímco proložení nelineárního průběhu přímkou vede k vychýleným odhadům a obvykle rovněž k rozšíření intervalu spolehlivosti. Pro většinu testovaných dat (viz Obr. 10) dává postup s automatickou diskriminací modelu dobré výsledky. Není vhodné používat této metody pro data s rozsahem více než jeden řád. V takových případech jsou data obyčejně heteroskedastická a použití metody klasických nejmenších čtverců vede k odhadům s velkou variancí. V tomto případě je vhodnější použít vážené regrese. V případě výskytu odlehlých měření je možné použít i robustních metod jako L1, uřezané čtverce, M-odhady, LMS. Stanovit interval spolehlivosti bodu ekvivalence stanoveného z jediné titrační křivky je obtížným úkolem klasické analytické chemie. Nelineární regresní metody jsou známou technikou pro odhad rozptylu regresních parametrů a jejich intervalů spolehlivosti a tato metoda může být proto využita i k výpočtu intervalu spolehlivosti bodu ekvivalence. Popsaná technika byla využita k nalezení intervalového odhadu bodu ekvivalence fotometrických titrací. Uvedenou metodou mohou být analyzovány i titrace s nelineárními větvemi. Dobrých výsledků bylo dosaženo automatickým rozpoznáním linearity jednotlivých větví a jejich proložení přímkou nebo parabolou. Bylo ukázáno, že proložení lineární větve parabolou vede ke zbytečnému rozšíření intervalu spolehlivosti, naopak proložení nelineární větve přímkou vede ke zkreslení bodového odhadu. Nedoporučuje se použití tohoto postupu pro data přesahující na některé souřadnici několik řádů z důvodu předpokládané heteroskedasticity. Doporučuje se vždy vizuální kontrola dat a posouzení odlehlých hodnot, či možných problémů v datech. V přítomnosti odlehlých bodů je možno použít robustních nelineárních metod, které jsou však obyčejně náročné na výpočet. Mnoho typických titrací je popsáno teoretickými nelineárními modely, avšak všeobecně se nejlépe osvědčuje linearizace a prokládání přímkami [ 55], [ 56], [ 59]. Přímkový tvar je obvyklý například pro nejčastěji používanou Granovu metodu linearizace [ 56], [ 57], [ 58], [ 60]. Popsaná metoda byla ověřena na řadě úloh z praxe a literatury ve fotometrické, konduktometrické a ampérometrické titraci. Automatický výběr modelu založený na t-testech zajišťuje nejužší interval intervalu spolehlivosti bodu ekvivalence a zabraňuje chybnému vyhodnocení skoro lineárních větví, k čemuž často docházelo při vizuálním posouzení.
36
Správný výsledek výpočtu závisí na kvalitě optimalizačního algoritmu nelineární regrese a na zadání počátečního odhadu parametrů. Výpočty uváděné v této publikaci jsou provedeny softwarem S-Plus 4.6 a systémem QC-Expert. Algoritmus v S-Plus [ 154] generuje počáteční odhady parametrů automaticky z koncových částí větví.
Obr. 10 Proložení typické titrační křivky: (a) Proložená titrační křivka (24) a (25) s analyticky spočítanými asymptotami; data viz [ 62]; Bodový odhad bodu ekvivalence: 977.3 µl, 95% interval spolehlivosti LL = 966.0 µl a LU = 988.6µl. (b) Hustota pravděpodobnosti generovaná metodou Monte Carlo (přerušovaně) byla použita k odhadu intervalu spolehlivosti bodu detekce s použitím zákona propagace chyb [ 68]; byla použita experimentální data z [ 62].
2.4
Robustní regrese v dvojúrovňové analýze rozptylu
Dvojúrovňová vícefaktorová analýza rozptylu (ANOVA) je často využívána v analytické laboratoři k posouzení vlivu přítomnosti či nepřítomnosti nějakého efektu na výsledek experimentu nebo analýzy. Analytický postup, který je jen málo ovlivněn úrovní těchto faktorů, se někdy označuje jako robustní, což ovšem má jen málo společného s vlastní robustností statistických metod. Snahou je vyvíjet a používat robustní analytické postupy, které nejsou příliš ovlivněny možnými rušivými vlivy, jako způsob odběru nebo homogenizace vzorku, přítomnost či nepřítomnost pufru, přítomnost rušivých iontů, druh aparatury, typ elektrody, a pod. Pro řešení těchto úloh se používá nejčastěji klasická analýza rozptylu, viz např. [ 196], [ 199], [ 95], [ 186], založená na metodě nejmenších čtverců. Pro tyto úlohy je typický malý počet dat, neúplné faktoriální plány a často přítomnost jednoho nebo více vybočujících měření. Ukazuje se [ 188], že při malém počtu dat může už přítomnost
37
jednoho nebo dvou mírně vybočujících měření zcela znehodnotit výsledky klasické analýzy rozptylu. Ilustrativní příklad: Pro reprezentaci 2-úrovňového faktorového experimentu lze k vyšetření vlivu faktorů x1, x2, x3 s výhodou použít lineární regresní model. Úrovně faktorů x1, x2, x3 se vyjádří pomocí numerických prediktorů s hodnotami –1 a 1 Faktor x1 Faktor x2 Faktor x3 Odezva y -1 -1 -1 27 -1 -1 1 46 -1 1 -1 35 1 -1 1 52 1 1 -1 39 1 1 1 58 a regresního modelu ve tvaru Y = a0 + a1x1 + a2x2 + a3x3
( 36)
Analýza rozptylu vede na základě F-testu k závěru, že vliv faktorů je statisticky významný na zvolené hladině α = 0.05 Průměr y :
42.83
Zdroj
Součet čtverců
Průměrný čtverec Rozptyl
Celková variabilita
650.8
108.4
130.1
Variabilita vysvětlená modelem
649.5
108.25
129.9
Reziduální variabilita
1.333
0.222
0.266
Hodnota kritéria F :
324.75
Kvantil F (1-α, m-1, n-m) :
19.16
Pravděpodobnost :
0.00307
Závěr :
Model je významný
Odhady parametrů jsou na základě t-testu statisticky významné na hladině α = 0.05. Proměnná
Odhad
Směr.Odch.
Závěr
Pravděpodobnost
Spodní mez
Horní mez
Abs
42.833
0.333
Významný
6.05E-005
41.39
44.26
Faktor x1
2.5
0.408
Významný
0.0256
0.743
4.256
Faktor x2
3.5
0.408
Významný
0.0133
1.743
5.256
Faktor x3
9.5
0.408
Významný
0.00184
7.743
11.25
Tento model ovšem nezahrnuje interakce, které lze formulovat Taylorovými smíšenými členy xi xj, i ≠ j:
38
Y = a0 + a1.x1 + a2.x2 + a3.x3 + a4.x1 x2 + a5.x1 x3 + a6.x2 x3
( 37)
Parametry a4, a5, a6 odpovídají interakcím. Je však nutno zvýšit počet experimentů tak, aby byl vždy větší než počet parametrů modelu. Výhodou uvedeného regresního modelu ANOVA je možnost predikce odezvy pro kombinace úrovní, které nebyly vyšetřovány, včetně intervalu spolehlivosti predikce: x1
x2
x3
Predikované y
Spodní mez
Horní mez
-1
1
1
53.33
44.08
62.58
1
-1
-1
32.33
23.08
41.58
Tato predikce je založena na předpokladu platnosti navrženého a použitého modelu. K ověření tohoto předpokladu je nutno využít prostředky regresní diagnostiky a případně použít vhodnější model, tzn. vypustit nevýznamné faktory, zahrnout interakce, atd. Model bez interakce odpovídá regresní (nad-) rovině, model s interakcí odpovídá kvadratické ploše. Pro případ faktoriálního plánu bez opakování vede takový výpočet k „přesnému“ výsledku s nekonečnou chybou, je tedy nutné buď experimenty opakovat nebo oželet část interakcí. B. Model s interakcemi
A. Model bez interakce
Obr. 11 Grafické znázornění modelu bez interakce a s interakcemi
Přítomnost interakce znamená, že působení některých faktorů závisí na úrovni jiných faktorů. Je-li interakce silná, může dojít až k opačnému vlivu některých faktorů. Jednoduchý (často však nedostatečný) nástroj k vyšetřování přítomnosti interakce je graf interakce. Separované změny faktoru vs. faktoriální návrh - pouze faktoriální návrh umožňuje stanovení interakce. Zanedbání významné interakce vede k chybným zavěrům.
39
ODEZVA
ODEZVA 7
7
6
6
5
5
4
4
3
3
2
2
1
1
NE
Faktor A
ANO
NE
Faktor B
ANO
Obr. 12 Separované změny neodhalují skutečné působení faktorů
ODEZVA
ODEZVA 7
7
6
6
5
5
4
4
3
3
2
2
1
1
NE
Faktor A
NE
ANO
Faktor B
ANO
Obr. 13 Faktoriální návrh – odhaluje zřejmé interakce. Typ čáry označuje různé úrovně druhého faktoru
Faktoriální návrh vyžaduje NQ experimentů (Q je počet faktorů, N počet úrovní každého faktoru). Umožňuje vypočítat všechny interakce, nemůže však poskytnout informaci o případném lokálním maximu, jako například analýza responsních povrchů. Nevýhodou klasických regresních postupů je však jejich značná citlivost na vybočující měření. Při obvyklém malém počtu dat může jediné vybočující měření zcela znehodnotit výsledek. Vylučování nespolehlivých a vybočujících měření je často nemožné, neboť se jednak nemusí vědět, která to jsou, jednak jejich vyloučení často vede k zápornému počtu stupňů volnosti a tedy k neřešitelnosti úlohy pro příliš malý počet dat. Řešení se nabízí v kombinaci regresního přístupu k ANOVA a robustních regresních postupů, které eliminují vliv odlehlých pozorování, aniž by bylo nutné tato data předem hledat a vylučovat. Robustní regresní postupy jsou obvykle založeny na nalezení takových parametrů regresního modelu, které minimalizují jiné kritérium, než součet čtverců odchylek. Názorně je význam robustnosti zřejmý z Obr. 14, kde první přímka byla získána nerobustní
40
metodou nejmenších čtverců a druhá robustní metodou M-odhadu. Dvouúrovňová multifaktoriální analýza rozptylu je často využívána v analytické i technologické praxi a regresní analýza je na těchto pracovištích obvykle dostupná. V kombinaci s robustními metodami, které se běžně v analýze rozptylu nepoužívají, může regresní postup poskytnout efektivnější zpracovní dat a interpretaci výsledků.
Obr. 14 Nerobustní (A) a robustní (B) vyšetření významnosti faktoru v přítomnosti vybočujících měření
2.5
Statistické řízení jakosti
V současných technologiích je hlavním kritériem jakosti dosažení a udržení stanovených hodnot parametrů produktu. Motivy snahy zabývat se systematicky kvalitou jsou zhruba tři. 1. Více či méně přesně specifikované požadavky odběratele, 2. zájem subjektu o akreditaci typu ISO9000 apod. a požadavky pracovníka akreditační komise, 3. snaha samotného subjektu vypracovat vlastní systém hodnocení kvality ve svém podniku pomocí vlastních školených odborníků, jehož cílem je popis a využití statistických modelů jednotlivých dílčích procesů k zlepšení kvality produktu. 2.5.1
Variabilita a kvalita
Zlepšování jakosti je jedním z hlavních úkolů pracoviště jakosti. Variabilitu procesu lze chápat jako míru jakosti. Jsme-li pak schopni statisticky doložit snížení variability některé procesně významné veličiny (např. F-testem, nebo porovnáním intervalů spolehlivosti indexů způsobilosti), je to doklad o zlepšení jakosti. Za zlepšení jakosti se dá tedy považovat každé snížení variability nějaké veličiny, která má vliv na výslednou kvalitu, nebo alespoň přiřazení části variability nějaké příčině s následnou snahou tuto příčinu eliminovat.
41
Z Taguchiho modelu ztráty v důsledku nekvality tj. z odchylek od očekávaných hodnot T parametrů produktu plyne, že ztráta L je obecně přímo úměrná čtverci odchylky procesu X od T, L = k ( X − T ) , kde k je konstanta úměrnosti. Je dobré si povšimnout, že 2
pokud je střední hodnota procesu rovna T, je pak ztráta vlastně přímo úměrná základní statistické veličině – rozptylu.
L = k ( X −T ) ∝ 2
1 n 1 n 2 2 2 x − T + x − T = ( ) ( ) ( xi − x ) ∑ ∑ i n − 1 i =1 n − 1 i =1
( 38)
Jedním z užitečných nástrojů pro hledání možných zdrojů variability je tzv. diagram příčin a následků, nazývaný také podle autora Ishikavy (angl. fishbone diagram, nebo causeand-effect diagram). Tento diagram slouží k ujasnění možných nebo prokázných souvislostí. Účinná konstrukce tohoto diagramu není obvykle práce na jeden den, měla by zahrnovat důkladnou analýzu procesů a dlouhodobé zkušenosti, viz Obr. 15. Z hlediska statistické analýzy je zajímavé využití tohoto diagramu k návrhu korelačních a regresních modelů. Jednoduchý lineární regresní model k diagramu by mohl být formulován jako (kvalita výrobku) = e.(koncentrace C) + f.(čistota suroviny) + g.(viskozita B) + ...
Na základě statistické významnosti parametrů e, f, g je pak možné kvantitativně plánovat změnu kvality meziproduktu C pomocí změn příslušných technologických veličin.
čistota látky A
čistota suroviny
stáří katalyzátoru
viskozita látky B
KVALITA VÝROBKU
% aditiv
koncentrace meziproduktu C
rychlost míchání reakční teplota
Laborant druh měřicího přístroje
analytická chyba
Obr. 15 Diagram příčin a následků
42
Výhodným měřítkem kvality může být také ztráta, případně přímo odhad rozptylu σ2. Pak nám může významnost regresních parametrů napovědět, u kterých veličin stojí za to usilovat o snížení jejich variability. 2.5.2
Způsobilost procesu
Mezi základní pojmy, které se nejčastěji používají v souvislosti se způsobilostí procesu patří Cílová hodnota T, což je hodnota, k níž se má proces přiblížit, čili požadovaná střední hodnota procesu. Specifikační meze LSL a USL, meze určené pro znak jakosti s ohledem na požadovanou variabilitu. Specifikační meze však nejsou toleranční, ani regulační meze. Na určení specifikačních mezí závisí rozhodujícím způsobem hodnota indexu způsobilosti. Hodnoty LSL a USL lze chápat jako T ± 3σ0, kde σ0 je nejhorší (největší) přípustná směrodatná odchylka pomylsného procesu s normálním rozdělením N(T, σ0). Nevyhovující výrobek je zde výrobek, jehož znak jakosti leží mimo specifikační meze. Pzmet je podíl zmetků, čili nevyhovujících výrobků. Pzmet je zároveň pravděpodobnost výskytu nevyhovujícího výrobku. Uvádí se v relativní hodnotě (0 – 1), v procentech (počet zmetků na 100 ks) nebo v ppm (počet zmetků na 1.000.000 ks). Podíl zmetků je jedním z kritérií při posuzování způsobilosti. Jeho odhad silně závisí na modelu rozdělení skutečného procesu a na výskytu vybočujících hodnot ve vzorku dat. ARL je střední doba mezi výskytem nevyhovujících výrobků, popř. překročení regulační meze, ARL = 1/Pzmet. ARL je tedy alternativní hodnota při posuzování pravděpodobnosti výskytu zmetků se shodnou vypovídací schopností. Vzhledem ke složitosti procesu obvykle nemůže jediné číslo říci objektivně vše o jeho průběhu, trendech a vlastnostech. Různí výrobci a dodavatelé uvádějí různé druhy indexů způsobilosti (cp, cpk, cpm, cpmk), které nejsou vzájemně srovnatelné. Protože jsou indexy způsobilosti statistiky - tedy náhodné veličiny, je třeba vždy vyžadovat jejich intervaly spolehlivosti. Proto budou v následujícím textu uvedeny vztahy pro výpočet odhadů nejpoužívanějších indexů způsobilosti s vyjádřením jejich intervalů spolehlivosti na hladině významnosti α. Nejjednodušší index způsobilosti cp, bývá někdy označován jako index potenciální způsobilosti. cp =
USL − LSL 6σ
( 39)
Meze intervalu spolehlivosti cp na hladině významnosti α lze odhadnout pomocí rozdělení χ2:
43
R| χ bn − 1g S|c ⋅ bn − 1g ; c ⋅ T
b g U|V bn − 1g |W
χ b21−α / 2 g n − 1
2
α /2
p
p
( 40)
kde χ2α(n) je α-kvantil χ2 rozdělení s n stupni volnosti a n je počet dat, z nichž byla vypočítána směrodatná odchylka. Protože nejsme schopni určit skutečnou hodnotu cp, jsme povinni počítat s tím, že může mít libovolnou hodnotu mezi spodní a horní hranicí intervalu. To znamená, že nemáme argument proti tvrzení, že náš index cp je roven spodní mezi intervalu spolehlivosti a musíme tedy tento pesimistický závěr považovat za oprávněný. Chceme-li tedy být korektní a vyhnout se sporům, musíme uvádět spodní mez intervalu spolehlivosti cp. Vyjde-li tedy cp = 1.16 s intervalem spolehlivosti (0.89; 1.43), musíme prohlásit, že proces je nezpůsobilý (přesněji: nemůžeme prokázat, že je způsobilý, což je však v případě sporu prakticky totéž). Šířku intervalu spolehlivosti cp lze však značně ovlivnit počtem dat n, kterých použijeme k výpočtu směrodatné odchylky. Šířka intervalu je nepřímo úměrná √(n − 1). Podobně lze vypočítat intervaly spolehlivosti i pro ostatní druhy indexů způsobilosti [ 75]. Index cpk cˆ pk =
min (USL − x , x − LSL ) 3s
( 41)
Interval spolehlivosti:
b
c pk ± z 1 − α / 2
g 9nnbn−−13g + c 2bn1− 3g FGH1 + n 6− 1IJK 2 pk
( 42)
případně jednodušší aproximace spodní meze intervalu spolehlivosti
LM zb1 − α / 2g OP N 2n − 2 Q
c pk 1 ±
( 43)
Index cpm c pm =
USL − LSL
b
6 ⋅ s2 + x − T
g
2
( 44)
Interval spolehlivosti:
R| S|c T
pm ⋅
b
bg
χ b21−α / 2 g f χ α2 / 2 f ; c pm ⋅ f f
o b gt kde f = s os + 2b x − T g t n s2 + x − T 2
g U|V |W
2 2 2
2
44
( 45)
Index cpmk
c pmk =
2.5.3
b
min x − LSL; USL − x
b
6 ⋅ s2 + x − T
g
g
2
( 46)
Shewhartův model
Při analýzách v oblasti řízení jakosti se setkáme v kontrolních analytických laboratořích s potřebou využít prakticky všech používaných obecných statistických metod od odhadů v jednorozměrných výběrech, přes korelační analýzu, analýzu rozptylu, návrhu experimentu, lineární regrese, až ke složitějším vícerozměrným modelům a časovým řadám. O některých nejvíce používaných byla řeč v předcházejících kapitolách. V následujícím textu budou vyjmenovány nejčastěji používané postupy. Kromě této podmínky srovnatelnosti a komunikovatelnosti se zde však ještě uplatňuje příkaz neustálého zlepšování jakosti, hledání rezerv a nedostatků současného stavu. Tato druhá, neméně důležitá - i když navenek méně viditelná - část úkolů pracovníků řízení jakosti se ovšem neobejde bez pochopení a správného používání jmenovaných obecných metod. Konstrukce a použití regulačních diagramů je nejlépe známou statistickou technikou řízení jakosti. Přes velké rozšíření regulačních diagramů se často setkáváme s jejich nesprávným použitím způsobeným nerespektováním některých zásad, anebo zanedbáním základních předpokladů o datech jako normalita, nezávislost, stabilita. Důsledkem je nesprávná interpretace diagramů, nedůvěra ke statistickým metodám, upouštění od statistické regulace, někdy i zkreslování výsledků a nedovolená manipulace s daty. Na příkladech ukážeme nejčastější situace, které vedou k problémům při používání regulačních diagramů. V řešení příkladů naznačíme postupy, které mohou tyto potíže zmírnit nebo vyřešit. Většina příkladů je z oblastí, v nichž se problémy nejčastěji vyskytují, což jsou především odvětví chemie, metalurgie, polymerů a plastů, farmacie a klinické medicíny, potravinářství, mechanické zkušebny, monitoring životního prostředí, geologie.
Pojem regulační diagram (anglicky control chart) byl zaveden Shewhartem [ 71] pracujícím v Bellových laboratořích AT&T v letech 1924 - 1931. Regulační diagram má obecně sloužit jako diagnostický nástroj k posouzení, zda se sledovaný proces (představovaný nějakou měřenou veličinou nebo veličinami, které jej charakterizují) chová tak, jak očekáváme. Zvláště pak, nedošlo-li k nečekané změně procesu. Došlo-li k takové změně, je třeba ji interpretovat - vysvětlit a případně přistoupit k nějakému zásahu. Příkladem měřených
45
veličin jsou spojité veličiny jako pevnost, koncentrace, rozměr, elektrický odpor nebo diskrétní veličiny jako podíl zmetků na 1000 výrobků, počet povrchových vad na laku nebo počet uzlíků na 1m2 tkaniny. Kromě samotné hodnoty je nutno v případě spojité veličiny sledovat také její variabilitu (míru kolísání či rozptylu), která je pro posouzení procesu stejně důležitá. Proto Shewhartův diagram musí vždy obsahovat informace jak o sledované hodnotě samotné, tak o její variabilitě. Základní postup při konstrukci Shewhartova regulačního diagramu je následující: a) Zvolí se taková část procesu, která odpovídá naší představě, předpisu, nebo zkušenosti a
připraví se příslušná procesní data; b) Na základě těchto dat se stanoví jejich statistický model představovaný odhadem střední
hodnoty (aritmetickým průměrem) a směrodatnou odchylkou a ověří se platnost statistických předpokladů Shewhartova diagramu; c) Z těchto dvou parametrů se zkonstruuje vlastní regulační diagram, který má podobu
základní linie ZL (angl. central line, CL) a horní a spodní regulační meze LCL a UCL (angl. lower control level a upper control level); d) Do regulačního diagramu se pak vynášejí další data z procesu a sleduje se výskyt
‘zvláštních případů’ signalizujících nečekanou změnu chování procesu, z nichž základní je překročení regulační meze, další uvádí Tab. 2; e) Výskyt zvlástních případů se eviduje a hledá se tzv. přiřaditelná příčina, která je způsobila,
ke každému výskytu zvláštního případu by se měla zapsat přiřaditelná příčina (pokud se ji podaří identifikovat) a opatření, které bylo přijato. Základní předpoklady pro Shewhartův regulační diagramu měřením jsou normalita rozdělení dat, symetrie rozdělení, konstantní střední hodnota procesu, konstantní rozptyl (směrodatná odchylka) dat, nezávislost, nekorelovanost dat, nepřítomnost vybočujících hodnot. Tyto předpoklady je nutno testovat před konstrukcí regulačního diagramu postupy pro analýzu jednorozměrného výběru. Pokud se nepodaří ověřit předpoklady pro použití diagramu, je nutno zdroje porušení předpokladů ověřit. V případě, že je zdroj náhodný a není předpoklad, že by se měl opakovat, je možné ‘problematická data’ (např. vybočující hodnoty) ze souboru vyloučit a diagram konstruovat bez nich. Pokud je ale porušení předpokladů systematické, je inherentní vlastností procesu, nebo se jej nepodaří uspokojivě vysvětlit, není možné příslušná data vylučovat. Pak je třeba uvažovat o jiném typu regulačních diagramů.
46
1. Regulační diagram pro průměry a směrodatné odchylky (x-průměr a S)
Při konstrukci tohoto diagramu se vychází z průměrů a směrodatných odchylek tzv. logických podskupin. Aby bylo možné sledovat jak úroveň procesu, tak i průběh jeho variability, je nutné používat dva diagramy. První je založen na průměrech (diagram xprůměr), druhý na směrodatných odchylkách (diagram S). Typickou strukturu dat uvádí Tab. 1. Ze vzorku představujícího jeden bod regulačního diagramu se vypočítá aritmetický průměr a směrodatná odchylka. x1
x2
x3
...
xn Průměr Směr. odch.
x11 x21 x31
... xn1
x1
s1
x12 x22 x32
... xn2
x2
s2
x13 x23 x33
... xn3
x3
s3
...
...
...
...
...
x1m x2m x3m ...
...
xm
...
x
s
...
...
Tab. 1 Data pro konstrukci diagramu x-průměr a S
Základní linie a regulační meze diagramu x-průměr se určí ze vztahů
UCL = x + 3
σ n
CL = x LCL = x − 3
σ
( 47)
n
Nestranný odhad směrodatné odchylky σ se získá z průměru směrodatných odchylek (Tab. 1) pomocí ( 48).
σ = s c4 c4
F 2 IJ =G H n − 1K
12
b g b g
Γn2 Γ n −1 2
( 48)
Vztah ( 47) je aplikací pravidla 3σ. Hodnoty LCL a UCL zde představují 0.135% a 99.865% kvantily. Interval (LCL, UCL) tak vymezuje 99.73% očekávaných naměřených dat. Pravděpodobnost překročení regulačních mezí je tak malá (0.27%), že považujeme překročení za indikaci poruchy procesu. Základní linie a regulační meze diagramu S lze určit pomocí vztahů ( 49).
47
b g
χ 20.00135 n − 1
LCL = s
n −1
ZL = s
( 49)
b g
χ 20.99865 n − 1
UCL = s
n −1
Při výpočtu regulačních mezí pro směrodatnou odchylku jsme využili kvantilů, které odpovídají pravidlu 3σ. Symbol χ2α(ν) označuje α-kvantil rozdělení chí-kvadrát s ν stupni volnosti. Následující příklad ilustruje konstrukci obou diagramů. Regulační diagram x=průměr a S x-průměr
x-prům ěr 4.28E+01 4.26E+01 4.24E+01 4.22E+01 4.20E+01 4.18E+01 4.16E+01 4.14E+01 1
3
5
7
9
11
13
15
17
19
13
15
17
19
Číslo v zorku
Diagram S
Sm .Odch. 9.44E-01 7.44E-01 5.44E-01 3.44E-01 1.44E-01 -5.64E-02 1
3
5
7
9
11
Číslo v zorku
Obr. 16 Regulační diagram x-průměr a S
2. Diagram R
Diagram R pro rozpětí (angl. range) lze použít jako alternativu diagramu S. Rozpětí podskupiny je rozdíl největší a nejmenší hodnoty v podskupině, Ri = xmax,i − xmin,i. S omezenou přesností lze R použít pro výpočet odhadu směrodatné odchylky,
σ=
R d2
Pro data naměřená lze pak konstruovat diagramy x-průměr a R s podobnými vlastnostmi jako mají diagramy x-průměr a S. Pro diagram x-průměr bude základní linie a regulační meze
48
( 50)
UCL = x + 3
R
= x + A2 R
d2 n
CL = x LCL = x − 3
( 51)
R
= x − A2 R
d2 n
Pro diagram R se používá vztahů ( 51) založených na odhadu směrodatné odchylky rozpětí.
σ R = d3
R d2
UCL = R + 3σ R = D4 R CL = R
( 52)
LCL = R − 3σ R = D3 R
d2, d3, D3, D4 a A2 jsou tabelované koeficienty. Diagramy používající rozpětí místo směrodatné odchylky jsou méně efektivní (zvláště pro větší podskupiny), neboť využívají informace pouze o dvou hodnotách z celé podskupiny. Pro n = 10 je efektivita (přesnost) odhadu R jen 85% ve srovnání se směrodatnou odchylkou s. V případě n = 2 je efektivita R stejná jako s. Má tedy diagram R opodstatnění v případě diagramu pro individuální hodnoty, viz odst. 0. Rozpětí má výhodu jednoduchého výpočtu ve srovnání se směrodatnou odchylkou, což může mít význam, není-li možno použít počítače. Racionální podskupina je pojem, který má zásadní význam pro správnou funkci diagramu x-
průměr. Nevhodná volba podskupiny může mít za následek vážné problémy až selhání Shewhartova diagramu. Podskupina je obvykle opakované měření procesní veličiny odpovídající jednomu časovému okamžiku. Pravidla pro určování zvláštních případů.
Zvláštní případy rozšiřují diagnostické možnosti Shewhartova diagramu a umožňují detekci poruch a změn, které se neprojeví překročením regulačních mezí, nebo by se projevily se zpožděním. Jedná se o osm nejpoužívanějších a ustálených situací, jejichž pravděpodobnost pro ideální data je srovnatelná s pravděpodobností překročení mezí. Pravděpodobnost výskytu následujících případů v normálně rozdělených nezávislých datech byla zjištěna simulacemi a je přibližně 0.25%. V těchto osmi případech je nutno uvažovat o regulačním zásahu. V případě jiného než normálního rozdělení může být tato pravděpodobnost o něco větší. Každý z těchto případů ukazuje na poruchu určitého druhu a lze jej použít jako užitečné vodítko při hledání přiřaditelné příčiny. Povahu možné poruchy uvádíme u jednotlivých případů. Grafické znázornění je na Obr. 17.
49
Pravidlo 1.
Pravidlo 2. Pravidlo 3. Pravidlo 4. Pravidlo 5. Pravidlo 6. Pravidlo 7. Pravidlo 8.
Jedna hodnota je mimo regulační meze. Lokální porucha procesu, chybné měření, výpadek. Chybně stanovené regulační meze, malá variabilita uvnitř podskupiny při konstrukci diagramu. Opakuje-li se na téže straně, může jít o posunutí střední hodnoty nebo o asymetrické rozdělení dat. Opakuje-li se na obou stranách, může jít o zvýšení nestability nebo rozptylu dat. 9 hodnot je na téže straně od centrální linie. Pravděpodobné posunutí střední hodnoty, snížení variability mezi podskupinami, asymetrie dat, příliš široké nebo neodpovídající regulační meze. 6 hodnot monotónně roste či klesá. Autokorelovaný proces, závislá měření. Lineární trend způsobený opotřebením nebo výpadkem. Příliš široké regulační meze. Odstraněním přiřaditelné příčiny lze někdy zvýšit cp. 14 alternujících hodnot. Přeregulovaný nebo nestabilní proces. Autokorelovaná měření se záporným ρ. Odstraněním přiřaditelné příčiny lze někdy zvýšit cp. Podvádění operátorem, vymyšlená čísla. 2 ze 3 hodnot je mimo interval ±2σ. Varování před možným překročením regulačních mezí. 4 z 5 hodnot mimo interval ±σ na téže straně centrální linie. Pravděpodobné posunutí střední hodnoty. Varování před možným překročením regulačních mezí. 15 hodnot je uvnitř intervalu ±σ. Snížení variability mezi podskupinami. Při opakování uvažovat o nových regulačních mezích. Nesprávná volba regulačních mezí. Podvádění operátorem, vymyšlená čísla. 8 hodnot je mimo interval ±σ. na obou stranách centrální linie. Zvýšení variability mezi podskupinami. Varování před překročením regulačních mezí. Porucha procesu.
Tab. 2 Pravidla pro určování zvláštních případů v diagramu x-průměr a x-individual (podle ISO 8258)
Zvláštní případy v Shewhartově diagramu
σ 1.
3σ
5. 6.
2σ
3.
7.
1σ 0σ -1 σ
8. 2. 4.
-2 σ -3 σ
Obr. 17 Pravidla pro určování zvláštních případů
50
Regulační diagram pro jednotlivé hodnoty
V případech, kdy z nějakého důvodu není účelné stanovování podskupin, lze použít Shewhartův diagram pro jednotlivé hodnoty, x-individual. Místo průměrů podskupin se se pracuje přímo s naměřenými hodnotami xi. Jako příslušný diagram pro variabilitu se používá diagram R popsaný v předchozím odstavci. Místo rozpětí podskupiny se však použijí rozpětí mezi po sobě následujícími hodnotami. Tato hodnota se nazývá klouzavé rozpětí a označuje se MR (angl. moving range) MRi = xi − xi −1
( 53)
První hodnota MR1 se nedefinuje. Statistické vlastnosti klouzavého rozpětí jsou stejné jako u rozpětí podskupiny pro n = 2. Koeficient d2 má hodnotu 1.128. Pro základní linii a regulační meze diagramu Xi se použijí vztahy UCL = x + 3
MR d2
CL = x MR LCL = x − 3 d2
( 54)
a pro diagram MR bude
UCL = D4 MR
( 55)
CL = R LCL = 0 Koeficient D4 je zde 3.269. Potíž diagramu MR je v tom, že vztahy ( 54) platí pro nezávislé hodnoty R. Klouzavá rozpětí však nezávislá nejsou, pro výpočet MRi a MRi−1 se použila společná hodnota xi−1. Pro normálně rozdělené x je autokorelační koeficient ρMR ≈ 0.22. Z tohoto důvodu jej někteří autoři nedoporučují konstruovat.
51
R eg u la čn í d ia g r a m x -in d ivid u a l a R x -in d iv id u a l
X 4 .3 5 E + 0 1 4 .3 0 E + 0 1 4 .2 5 E + 0 1 4 .2 0 E + 0 1 4 .1 5 E + 0 1 4 .1 0 E + 0 1 4 .0 5 E + 0 1 1
6
11
16
21
16
21
Č ís lo v z o rk u
M R d ia g ra m MR 1 .8 3 E + 0 0 1 .3 3 E + 0 0 8 .3 2 E -0 1 3 .3 2 E -0 1
1
6
11 Č ís lo v z o rk u
Obr. 18 Regulační diagram x-individual a MR
Regulační diagram pro individuální hodnoty je na různá porušení předpokladů o datech obvykle citlivější, nez ostatní Shewhartovy diagramy. Především to platí o normalitě dat. V praxi se často setkáváme s procesy a procesními veličinami, které nejsou nezávislé, nemají konstantní střední hodnotu nebo rozptyl, nejsou normálně rozdělené atd. Ze zkušeností víme, že statisticky „dobré“ chování většinou vykazují strojírenské procesy, kde jsou měřenými veličinami rozměry nebo hmotnosti. V případě měření dalších fyzikálních veličin, jako pevnost, viskozita se setkáme s asymetrickým rozdělením. při sledování spojitých procesů v chemii, farmacii, potravinářstní, metalurgii vykazují data často silnou závislost. Těžko ovlivnitelná jakost suroviny (např. horniny) může mít za následek kolísání nebo nekonstantnost střední hodnoty. Při sledování emisí a stopových koncentrací nečistot se setkáme s lognormálním, asymetrickým rozdělením, atd. Ve všech těchto případech se jedná o vlastnost procesu, která se buď nedá ovlivnit, nebo se s ní v technologii počítá. Konstrukce Shewhartových diagramů může však v těchto případech selhat. V Tab. 3 jsou shrnuty zkušenosti s typickými daty z různých odvětví a technologií. na základě dat získaných z různých odborných a technických pracovišť. Kroužkem je označeno převažující splnění předpokladu, křížkem jeho porušení.
52
Odvětví / technologie / veličina
Normalita
Nezávislost
Konstantnost
Homogenita,
střední hodnoty
vybočující body
o
o
o
o
x
o
o
x
o
x
x
x
o
x
x
x
x
x
x
x
Elektrické veličiny, součástky
o
o
o
x
Energetika
x
x
x
x
Plasty, polymery, textil, fyzikálně-
x
o
x
o
Biochemie, farmacie, potravinářství
x
x
o
o
Vnitropodnikové ekonomické a
x
x
x
o
x
x
x
x
Mechanické strojírenství, automobilový průmysl (rozměry) Mechanické zkušebny (pevnost, pružnost, ...) Chemie, metalurgie, hutnictví (koncentrace, obsahy) Chemie, metalurgie, hutnictví (ostatní fyzikální parametry) Životní prostředí, hygiena (nízké koncentrace)
mechanické veličiny
finanční ukazatele
Sociologie, lidské zdroje
Tab. 3 Typická porušení předpokladů v různých technologiích (o=převážně vyhovuje, x=převážně nevyhovuje)
Tato tabulka naznačuje, že ve většině případů je na místě určitý pesimismus vzhledem k jednoduchému mechanickému použití klasických regulačních diagramů. Je nutné mít k dispozici a používat takové typy a techniky konstrukce regulačního diagramu, které odpovídají reálným datům a povaze procesu či technologie. V opačném případě může vést použití regulačních diagramů ke kontraproduktivitě, desinterpretaci až znechucení a nedůvěře k technikám SPC. Na Obr. 19 je schematicky uveden postup při volbě vhodného regulačního diagramu na základě chování dat, které se diagnostikují metodami popisné statistiky a EDA.
53
Sleduje se více znaků současně? Ano
Ne
Jsou znaky vzájemně korelované? Ano
Jsou data autokorelovaná?
Ne
Ano
Ne
Hotellingův diagram
Měření nebo počty?
Kolísá průměr výrazně?
Hotellingův diagram Počty
Měření Normalita/symetrie Ano
Typ dat Defekty
Zmetky
Ne Normalizující transformace
Citlivost
Citlivost Velká
Malá
Velká
Malá
Podskupina
Citlivost
x-průměr, S x-průměr,R
Cusum, EWMA
Cusum, EWMA pro c,u
c,u
Citlivost Velká
Malá
Cusum, EWMA pro p
p, np
n=1
n>1
Ano
Ne Velká
Malá x-individual, MR
Klasické diagramy pro rezidua vyhlazených dat
Cusum, EWMA pro c,u
Cusum, EWMA
Dynamický diagram EWMA, postupy časových řad
Obr. 19 Pravidla pro výběr regulačního diagramu
2.5.4
Regulační diagramy pro asymetricky rozdělená data
Asymetrie rozdělení je běžným jevem při měření kvantit blízkých mezi detekce přístroje, některých velmi malých veličin jako stopové koncentrace, znečištění, úroveň hluku, životnost přístrojů, velikosti malých částic, některých fyzikálních veličin determinovaných mezními vlastnostmi materiálu jako pevnost, tvrdost, a podobně. Při vyhodnocení takových dat nelze použít postupů založených na předpokladu normálního rozdělení, jako aritmetický průměr, pravidlo 3 sigma, Shewhartovy regulační diagramy, nebo metoda nejmenších čtverců.
0.8 0.6
2.5% kvantil normálního ro zd.
průměr
A B
97.5% kvantil normálního rozd.
medián
0.4 hustota 0.2
modus
0.0
• • • • • • •• •••• •• • ••• • • • • •
• • •• ••
•
•
• •
••
•
•
• •
- 0.2 0
1
2
3
veličina X
Obr. 20 Gaussovo rozdělení (plná křivka) a jádrový odhad (přerušovaně) pro asymetrické rozdělení dat
54
Jednoduchá technika nelineární transformace dat umožní i pro asymetricky rozdělená data použít klasických metod. Cílem transformace je nalézt funkci x’ původních hodnot x, která zajistí minimální šikmost, případně maximální věrohodnost transformovaných dat vzhledem k normálnímu rozdělení. Takovou funkcí může být například exponenciála, která se osvědčila při konstrukci kvantilů jednorozměrných rozdělení pro nepříliš sešikmená rozdělení
log(rx + 1) pro r < 0 a x < 0 nebo r > 0 a x > 0 r exp(− rx ) − 1 x' = pro r < 0 a x > 0 nebo r > 0 a x < 0 r x' =
a která se aplikuje na standardizovaná data dle vztahu xis =
( 56)
xi − x . Hodnota r = 0 odpovídá sx
funkci x‘ = x, k níž vztah ( 56) limituje pro r → 0, tedy bez transformace. Parametr r se zvolí tak, aby se rozdělení transformovaných dat co nejvíce blížilo symetrickému, resp. normálnímu. Jako kritérium se volí šikmost nebo věrohodnost. Pro data s kladnou, případně zápornou šikmostí je tvar transformační funkce znázorněn na dvou následujících obrázcích. 4
4 Transformovana data
Transformovana data
2
2
0
0
-2
-2
-4
-4
-2
0 Puvodni data, kladná šikmost
2
-4
4
-2
0
2
Puvodni data, záporná šikmost
tt
-2
0
2
4
Obr. 21 Tvar transformační funkce pro kladnou (vlevo) a zápornou (vpravo) šikmost
-4
-4
-4
-2
0
2
4
xx
Obr. 22 Průběhy transformační funkce pro různá r, r = 0 odpovídá přímka y = x
55
4
0. 4 hustot a 0. 3 0. 2 0. 1 0. 0
0
1
2
3
4
x
Obr. 23 Retransformovaná hustota pravděpodobnosti s vyznačeným retransformovaným průměrem s intervalem spolehlivosti (plná čára) a retransformovanými kvantily ±3σ (přerušovaná čára)
Následující regulační diagramy ilustrují použití transformace pro asymetrická data v mezioperační kontrole koncentrace nečistot v mazacích tekutinách. Protože nebyly k dispozici předepsané regulační meze, bylo nutno je vypočítat z typických dat. V prvním případě byl použit klasický Shewhartův regulační diagram x-individual, Obr. 24. Občasný výskyt vyšších hodnot není diagramem respektován, což způsobilo neoprávněné poplachy při překročení horní regulační meze. Spodní regulační mez vyšla záporně (-0.95), což je fyzikálně nesmysl. Takový regulační diagram není v praxi použitelný. diagram x-individual - Sheet1 - Y
Xi 7 6 5 4 3 2 1 0
Č. vzorku
-1 0
10
20
30
40
50
60
70
80
Obr. 24 Shewhartův regulační diagram pro sešikmené rozdělení
Ve druhém případě byly regulační meze vypočteny pomocí exponenciální transformace, Obr. 25. Vysoká horní regulační mez reflektuje výskyty vyšších hodnot při
56
běžném provozu. Spodní mez (0.14) má fyzikální smysl a odhalila jednu chybnou (nepravděpodobnou) hodnotu (č. 32), kdy došlo k chybnému připsání nuly (0.055 místo 0.55). diagram x-individual - Sheet1 - Y
Xi 10 9 8 7 6 5 4 3 2 1
Č. vzorku
0 0
10
20
30
40
50
60
70
80
Obr. 25 Shewhartův regulační diagram s použitím exponenciální transformace dat
2.5.5
Autoregresní model
Variabilita procesů a dějů v chemické technologii a analýze je důležitým a intenzivně sledovaným ukazatelem. Odvozují se z ní například indexy způsobilosti, parametry regulačního diagramu, nebo mez detekce a navíc je snížení variability považováno podle Deminga za zlepšení jakosti. Je proto sledování variability procesu jedním z nejdůležitějších úkolů pracovišť jakosti se zvláštním důrazem na snahu o její snížení. Následující ukázky mají naznačit možnosti snížení variability použitím správného modelu procesu. Jako míra variability se běžně používá odhad rozptylu, s2, popř. jeho odmocnina, s. V případě stacionárního procesu a nezávislých dat s normálním rozdělením iid N(µ, σ2), viz Obr. 26 pak odpovídají násobky směrodatné odchylky kvantilům rozdělení dat, např. v intervalu o šířce 4s (±2s) kolem střední hodnoty očekáváme výskyt hodnoty s pravděpodobností asi 95%. "Neurčitost" procesu je směrodatnou odchylkou dobře popsána. Nelze říci, v které části intervalu se následující hodnota vyskytne, nemůžeme tedy proces, či další, navazující procesy lépe nastavit, na okamžitý stav.
57
A
Nezávislá data
2
1
2σ
0
2σ
-1
-2
Index
-3 0
20
40
60
80
100
120
140
160
Obr. 26 Proces s normálním rozdělením, nezávislá data A
A
Závislá data
B
3
2
2σ 1
0
2σ -1
-2
Index
-3 0
20
40
60
80
100
120
140
160
Obr. 27 Proces s normálním rozdělením, autokorelovaná data, r=0.8
Zkušenosti však dokazují, že v laboratorní praxi a dalších příbuzných odvětví nezávislá data, resp. procesy prakticky neexistují. V případě závislých dat lze sice také numericky vyčíslit směrodatnou odchylku podle známého vztahu, avšak již nebude platit, že v intervalu o šířce ±2s kolem střední hodnoty očekáváme výskyt hodnoty s pravděpodobností asi 95%. Ve vyšrafované oblasti A na Obr. 27 neočekáváme vůbec výskyt hodnot v horní polovině intervalu, v oblasti B zase nečekáme výskyt hodnot v dolní polovině intervalu. Horní mez intervalu v oblasti A a spodní mez intervalu v oblasti B postrádají smysl. Následkem toho nelze mimo jiné použít žádný z klasických Shewhartových diagramů, případně diagramů CUSUM. Pokud toto chování procesu v oblasti A, resp. B známe, můžeme eventuálně technologii na tento stav (výskyt spíše nižších, resp. vyšších hodnot) připravit a snížit případnou variabilitu výstupu procesu. Tento potenciál snížení variability lze vyjádřit v případě, že proces lze popsat autokorelačním modelem 1. řádu, podílem
s = 1− r2 s0
( 57)
58
kde s0 je směrodatná odchylka vypočítaná podle klasického vztahu, s je minimální směrodatná odchylka, kterou bychom docílili využitím znalosti modelu procesu (tedy znalostí r) a r je odhad autokorelačního koeficientu 1. řádu. V případě výše uvedeného příkladu závislých dat, kde je r = 0.8, bychom dostali s0/s = 0.6, což odpovídá zvýšení Cp o 40% a snížení Taguchiho ztráty o 64%. Následující příklad ilustruje na Obr.
28 až Obr.
30 možnost použití
regulačního tzv. dynamického EWMA diagramu, který bere závislost dat v úvahu. Diagramy jsou konstruovány pro 168 dat z hutní technologie s autokorelací 0.6. Záleží na pořadí dat. diagram x-individual - Sheet34 - Y1
Xi 10 9
83 MIMO
8 7 6 5 4 3 Č. vzorku
2 0
20
40
60
80
100
120
140
160
180
Obr. 28 Regulační diagram x-individual, autokorelovaná data, r = 0.62 s grafem autokorelační funkce a hustotou pravděpodobnosti diagram x-individual - Process_A06 - Y1-randomized
Xi 10
0 MIMO
9 8 7 6 5 4 3 2
Č. vzorku
1 0
20
40
60
80
100
120
140
160
180
Obr. 29 Regulační diagram x-individual, stejná data, r = 0.62 znáhodněné pořadí s grafem autokorelační funkce
59
EWMA,dynamický diagram - Process_A06
X 14
8 MIMO
12 10 8 6 4 2 0 -2
Č. vzorku
-4 0
20
40
60
80
100
120
140
160
180
Obr. 30 Regulační diagram EWMA-Dyn(0.5,0.5), autokorelovaná data, r = 0.62
Protože regulační meze v Shewhartově diagramu se počítají z klouzavých rozpětí, je důležité zachování pořadí dat, jinak dojde k porušení struktury závislosti a regulační diagram nereflektuje chování procesu, jak ilustrují Obr. 28 a Obr. 29, které se liší jen v tom, že na druhém obrázku bylo pořadí dat znáhodněno generátorem náhodných čísel. Žádný z těchto dvou postupů nemůže dát přijatelný výsledek. Řešením je zde pouze pokus o nalezení statistického modelu procesu a jeho respektování, což je možné použitím zmíněného dynamického diagramu EWMA, viz Obr.
30, který je zmíněn v odst. 0. Obecnějším
postupem je konstrukce modelů MA a AR, jak uvádíme dále. Použití klouzavého průměru MA(p)
Proces MA(p) je definován jako
xi = µ + ε i − b1ε i −1 − b2 ε i − 2 − … − b p ε i − p
( 58)
a klouzavý průměr řádu p:
1 yi = p
i
∑x
( 59) j
j = i − p +1
Predikovaná hodnota za předpokladu µ = konst je
1 yi +1 = p
i
∑x
j = i − p +1
Ilustrace takto získaného průběhu je na Obr. 31.
60
( 60) j
60
40
x 20
p=5
0
0
10
20
30
40
Index
Obr. 31 Model MA(5)
Predikovanou klouzavou směrodatnou odchylku lze získat ze vztahu si +1 =
i 1 ∑ x j − yi p − 1 j =i − p +1
2
( 61)
Je-li µ = konst a εi ~ N(µ, σ2), bude xi+1 s pravděpodobností 99.73% ležet v intervalu yi ± 3si+1 a yi+1 bude s pravděpodobností 99.73% ležet v intervalu yi ± 3si+1/√p. Toho lze využít pro konstrukci dynamických regulačních mezí se stejnou vypovídací schopností jako regulační meze klasického Shewhartova diagramu pro data z N(µ, σ2), dle Obr. 32 a Obr. 33.
3.0
2.5
x 2.0
p=8
1.5
0
50
100
150
Index
Obr. 32 MA(8) regulační diagram s regulačními mezemi
61
200
400000
300000
200000 x 100000
p=8 0
10
20
30
40
50
Index
Obr. 33 MA(8) regulační diagram s regulačními mezemi, 2. příklad
Protože reziduum lze zapsat vztahem ei = xi −yi
( 62)
pro chyba predikce (error of prediction, EOP) pak platí EOP = xi+1 −yi
( 63)
Pro nalezení optimálního řádu p klouzavého průměru lze použít kritéria průměrného čtverce EOP. Optimální bude takový řád p>1, pro nějž bude EOP minimální. Použití kritéria EOP pro stanovení optimálního řádu MA je patrný z následujících ilustrací. V některých případech nemá závislost EOP na p minimum, pak je možné použít další modely, jako AR (autoregrese), případně komlexnější modely časových řad ARMA a ARIMA.
62
log(eop[-1]) 7.95
7.90
Závislost EOP na řádu MA(p)
7.85
p opt = 8
7.80
7.75
7.70
7.65 5
10
15
20
Index
-1.45
Obr. 34 Nalezení optimálního řádu MA z hlediska EOP
-1.50
2.0
-1.55
1.9
1.7
-1.65
log(eop[-1])
-1.60
log(eop[-1])
1.8
-1.70
1.6
-1.75
1.5
1.4 5
10
15
20
5
10
15
20
Index
Index
Obr. 35 Závislost EOP na řádu MA, v prvním případě nelze nalézt optimální řád, ve druhém případě je p=11
0.1
0.1
0.0
0.0
-0.1
-0.1 x
x -0.2
-0.2
-0.3
-0.3
p=5
-0.4
0
50
p = 11
-0.4
100
150
200
0
50
100
150
Index
Index
Obr. 36 Regulační diagramy MA pro p=5 a p=11, data stejná jako v Obr. 35
63
200
Autoregrese
Častěji než klouzavý průměr je u procesních dat výhodné použití modelu autoregresního (AR). Autoregresní proces řádu r lze zapsat jako
xi = a0 + a1 xi −1 + a2 xi − 2 + … + ar xi − r + ε i = r
= a0 + ∑ a j xi − j + ε i = x T a + ε i
( 64)
j =1
takže např. autoregresní proces řádu 1 bude dán vztahem
xi = a0 + a1 xi −1 + ε i
( 65)
Následující obrázek ilustruje použití autoregresního regulačního diagramu čtvrtého řádu pro odhalení vybočujících bodů. Regulační meze jsou konstruovány z intervalu spolehlivosti predikce. Na Obr. 37 jsou zvýrazněny čtyři body, které jsou mimo 95% interval spolehlivosti predikce, a jsou považovány za porušující tento statistický model. Následující schéma pak ilustruje možnost výpočtu autoregresních koeficientů. 3.0
r=4
x
T
x .a
2.8
x4 2.6
2.4
2.2
0
5
10
Index
15
Obr. 37 Autoregresní regulační diagram AR(4)
Pro určení řádu AR lze opět využít EOP. EOP 0.32
0.30
ropt = 5
0.28
0.26 5
10
15
20
25
Index
Obr. 38 Využití chyby predikce jako kritéria pro nalezení řádu AR modelu
64
Diagram EWMA s jednokrokovou predikcí
Tato metoda, někdy nazývaná dynamický diagram EWMA, nebo MCEWMA (moving center-line EWMA) je modifikací klasické metody EWMA, kterou doporučil v roce 1959 S.W. Roberts [ 141]. Metoda EWMA (exponenciálně vážené klouzavé průměry – Exponentially Weighted Moving Averages), která je definována jako Zt = λXt + (1 – λ)Zt – 1,
( 66)
kde λ se obvykle volí z intervalu (0.05, 0.25). K nalezení optimálního λ lze použít analogického postupu pro minimální chybu predikce. Centrální linie je dána procesním průměrem a kontrolní meze
λ CL = X ± Kσ 2−λ
12
( 67)
Má-li proces charakter ARIMA(0,1,1), tedy IMA(1,1), je Zt nejlepší predikcí Xt+1. Nezávislým odhadem chyby et je Xt – Zt–1. Z tohoto odhadu lze konstruovat predikovanou střední hodnotu i predikovaný interval odpovídající ±3s.
2.6
Vícerozměrný Hotellingův diagram
Klasický přístup Regulační diagram pro více proměnných (anglicky Hotelling Chart) umožňuje konstruovat jediný regulační diagram pro několik měřených veličin současně, tedy pro vícerozměrnou veličinu x. Je založen na předpokladu vícerozměrného normálního rozdělení veličiny x. Toto rozdělení je určeno vektorem středních hodnot µ (obdoba střední hodnoty u normálního rozdělení) a kovarianční maticí C (obdoba rozptylu u normálního rozdělení). Hotellingova statistika pro vícerozměrnou náhodnou proměnnou x je jednorozměrná veličina T2 definovaná pomocí vektoru očekávaných hodnot µ0 a kovarianční matice C0: Ti 2 = ( xi − µ0 ) C0−1 ( xi − µ 0 ) T
( 68)
Vztah ( 68) v podstatě představuje analogii normování náhodné veličiny. Rozdělení Ti2 je asymetrické, Ti2 > 0, a platí pro něj přibližný vztah ( 69), kde N je počet dat, q je počet rozměrů odpovídající odhadům µ0 a C0 a Fα(q, N − q) je α-kvantil Fisherova F-rozdělení s q a N − q stupni volnosti,
65
T 2 ( N , q) ≈
q ( N − 1)( N + 1) Fα ( q, N − q ) ; α = 0.00135* 2q N 2 − qN
( 69)
Horní α-kvantil se použije jako regulační mez. Hodnota α = 2 × 0.00135 znamená, že pravděpodobnost překročení této meze je 0.27%, což odpovídá mezím ±3σ v Shewhartově diagramu. Regulační diagram se konstruuje také pomocí χ2 aproximace: LCL = 0, UCL = χ20.9975(q) pro velká N. Hotellingův diagram • 30
20 T2 10 • 0
•
•
• 2
•
•
4
•
6
8
Index
Obr. 39 Hotellingův diagram
Hotellingova statistika je úměrná čtverci tzv. Mahalanobisovy vzdálenosti T2, z čehož plyne její použitelnost pro korelovaná data na rozdíl od Shewhartových diagramů, jejichž použití v takovém případě je nesprávné. K pochopení tohoto závěru použijeme grafické interpretace, viz Obr. 40. Korelovaná data U C Lx
LC L x
12
D
A
Y
U C Ly
B
11
C 10
µ
9
8
LC L y 3
4
5
6
X
7
Obr. 40 Podstata Hotellingovy statistiky pro korelovaná data
66
Obr. 40 představuje dvourozměrná data X a Y (plné body), která jsou poměrně silně korelována. Hodnoty UCL a LCL představují regulační meze Shewhartových diagramů, které by se konstruovaly zvlášť pro X a pro Y. Předpokládáme-li, že data představují výběr z dvourozměrného normálního rozdělení, pak lze určit eliptickou oblast odpovídající 99.73% intervalu dat, tedy oblast, jejíž překročení má pravděpodobnost 0.27% což odpovídá regulačním mezím regulačního diagramu. Bod B se nachází uvnitř této elipsy i uvnitř mezí LCL a UCL. Bod A je však daleko mimo přípustnou oblast dat, je tedy krajně nepravděpodobný a v Hotellingově diagramu vyvolá výrazné překročení horní meze. Kdybychom však bod A zaznamenali v obou Shewhartových diagramu, nacházel by se uvnitř mezí a tato výrazná porucha by byla ignorována. Proto je použití izolovaných Shewhartových diagramů pro korelovaná data nepřípustné. Robustní přístup V případě výskytu vybočujících dat je silně ovlivněn odhad vektoru středních hodnot a kovarianční matice S, což značně snižuje schopnost Hotellingova diagramu detekovat poruchy procesu. V těchto případech byl použit robustní postup odhadu µ a S pomocí iterativního M-odhadu s Huberovými vahami. Použití tohoto postupu vedlo například k odhalení periodických výskytů významných odchylek v chemickém složení suroviny pro výrobu cementu, jak ilustruje Obr.
90 v odst. 4.5.1. Nerobustní postup tyto odchylky
neodhalil z důvodu posunutí střední hodnoty a nadhodnocených kovariancí získaných klasickým postupem.
2.7
Obecné indexy způsobilosti
Indexy způsobilosti jsou všeobecně používané statistiky pro vyjádření schopnosti procesu vyhovět požadavkům, které jsou vyjádřené obvykle pomocí cílové hodnoty T (target) a specifikačních mezí USL, LSL. Procesní statistiky standardně používané pro výpočet indexu způsobilosti jsou odhad směrodatné odchylky a střední hodnoty (aritmetický průměr). Při uvádění hodnoty indexu způsobilosti se zřídka uvádí interval spolehlivosti této hodnoty, ačkoliv se jedná o statistiku s konečným rozptylem. Chceme-li však, aby uváděné hodnoty odrážely realisticky skutečnost, musíme brát v úvahu spodní mez intervalu spolehlivosti daného indexu způsobilosti, místo jeho střední hodnoty. V příspěvku jsou uvedeny doporučené vztahy pro výpočet těchto intervalů. V další části je na příkladech naznačeno
67
alternativní obecné a konzistentní pojetí indexů cp a cpk na základě pravděpodobnosti překročení mezí a pravděpodobnostního modelu procesu, které umožňuje výpočet indexů i pro asymetrická rozdělení a procesy s jednou specifikační mezí [ 142]. Úkolem indexu způsobilosti je jednoduše vyjářit vztah mezi hodnotami T, LSL, USL a skutečným procesem. za pomocí nějaké varianty porovnání teoretické (předepsané) směrodatné odchylky σ* a skutečné směrodatné odchylky procesu σ, která se odhaduje ze vzorku naměřených dat, cp = σ*/σ, kde σ* se obvykle vyjadřuje jako (USL – LSL)/6. Indexy způsobilosti mají úzkou souvislost se zlepšováním jakosti, které se mnohde stává vyžadovaným imperativem. Ke hlavním cílům zlepšovaní jakosti a zvyšování způsobilosti patří snížit (nevysvětlenou) variabilitu a zajistit µ = T. Pravděpodobnostní interpretace indexů spolehlivosti
Hodnota indexu způsobilosti úzce souvisí s podílem vadných výrobků, resp. s ARL. Za předpokladu normálního rozdělení X, X ~ N(µ, σ2) můžeme cp zapsat jako
cp =
USL − LSL 6σ * 6σ * = = 6σ 6σ z0.0013 − z0.9987
( 70)
kde zα je α-kvantil normálního rozdělení, takže při cp = 1 a průměru rovném T bude frekvence zmetků = 1/370 = 1/ARL (což odpovídá ppm = 2700)
c p <1
0 .4
LS L
USL
LSL
0 .3
0 .3
0 .2
c p >1
0 .4
USL
0 .2
T
T
0 .1
0 .1
0 .0
0 .0
6
8
10
12
6
14
8
10
12
14
Z nak jakosti
Znak jakosti
41 Procesy s indexem způsobilosti menším resp. větším než 1
Podobně, při cp = 1.33 a průměru = T bude frekvence zmetků Pzmet = 6.33×10–5, ARL= 15 787 (ppm = 63), případně hodnotě cp = 1.66 a průměru = T odpovídá frekvence zmetků = 5.73×10–7, ARL= 1 744 277 (ppm = 0.57). S použitím distribuční funkce normálního rozdělení FN (x), resp. kvantilové funkce FN−1(α) můžeme psát
µ = T ⇒ Pzmet = 2.FN (− 3 c p ); c p = − FN−1 (Pzmet 2) 1 3
( 71)
Předpokládáme-li odchylku od cílové hodnoty, x ≠ T, je nutno použít index cpk, případně cpm.
68
c pk =
min{USL − x ; x − LSL} 3σ
( 72)
cp = 1, cpk < 1 0.4
LSL
0.3
USL T
0.2
0.1
0.0
6
8
10
12
14
Znak jakosti
Obr. 42 Požadované (přerušovaně) a skutečné (plná čára) rozdělení dat z procesu, posun střední hodnoty
Obdobně jako v předchozím případě dostaneme Pzmet ≅ FN(−3cpk); cpk ≅ −1/3.FN−1(Pzmet)
( 73)
Někdy se uvádí hodnota Z-skóre, což je vzdálenost SL od půměru v násobcích σ. Z-skóre lze přímo využít pro výpočet pravděpodobnosti překročení specifikačních mezí a ARL. ZscoreL , H = min{( x − LSL ) / s; (USL − x ) / s} pro LSL < x < USL Pzmet =FN(− ZscoreL) + FN(− ZscoreH), ARL = 1/Pzmet
( 74)
Alternativní definice: Způsobilý je proces, jehož Pzmet je menší než dohodnutá hranice.
Pravidlu ±3σ odpovídá hodnota Pzmet = 0.27%. Tato definice umožňuje obecné a konzistentní pojetí indexů cp a cpk na základě pravděpodobnosti překročení mezí a pravděpodobnostního modelu procesu a výpočet indexů i pro asymetrická rozdělení, procesy s jednou specifikační mezí a procesy s neměřitelnými charakteristikami hodnocené pouze počtem výskytů nevyhovujících výrobků [ 167]. Protože vztahy pro indexy způsobilosti jsou sestaveny za předpokladu normálního rozdělení, je x − 3σ = F −1 (0.001349898)
( 75)
Bude-li USL − x > x − LSL , můžeme pravděpodobnost P(x > USL) většinou zanedbat a vztah pro cpk zapsat jako
cˆ pk =
F −1 (Pzmet ) F −1 (Pzmet ) 1 −1 x − LSL ≈ −1 = = F (1 / ARL ) 3s F (0.00135 ) 3 3
( 76)
kde F–1(α) je α-kvantil normovaného normálního rozdělení. Je tedy index způsobilosti určen pouze pravděpodobností překročení specifikační meze, kterou lze chápat jako relativní četnost
69
výskytu zmetků Pzmet. Převrácená hodnota 1/Pzmet se nazývá střední délka mezi poruchami ARL (average run length). Tato situace je znázorněna na následujícím Obr. 43.
Obr. 43 Pravděpodobnostní interpretace indexu cpk
Podobně lze získat přesné vztahy pro další indexy. Termín “způsobilost” zde pro cpk získává skutečný smysl míry schopnosti procesu produkovat výrobky beze zmetků. Velkou výhodou této naznačené interpretace je nezávislost na rozdělení. Hodnota ARL, případně pzmet může být získána empiricky z většího množství dat, nebo získána pomocí libovolného vhodného rozdělení, nebo s použitím transformace dat.
2.8
Robustní regresní postupy
Na několika místech textu disertace bylo využito robustních metod (např. odst. 2.4, odst 2.5.4, odst. 2.6). V tomto odstavci se zmíníme o nejpoužívanějších robustních metodách, které byly použity při řešení některých problémů. Lp-aproximace
Kritérium:
min:
∑
n i =1
p
ei
1≤ p < 2
pro p = 1 odpovídá nejmenším absolutním odchylkám a Laplaceovu rozdělení chyb (L1aproximace).
pro p = 2 odpovídá nejmenším čtvercům a normálnímu rozdělení chyb. pro p ≥ 2 není robustní, p → ∞ odpovídá minimalizaci maximální chyby (minimax) a rovnoměrnému, obdélníkovému rozdělení chyb. Literatura: [ 199], [ 196]. Uřezané nejmenší čtverce (Trimmed least squares)
70
min:
Kritérium:
∑
q i =1
e(i ) 2
q
obvykle q ~ n/2, bere v úvahu pouze q nejmenších reziduí. Při výpočtu se používají iterativní optimalizační algoritmy. Literatura: [ 193], [ 194]. Nejmenší medián čtverců (Least median of squares, LMS), Rousseeuw, Leroy, 1987
min: med e
Kritérium:
Tato metoda má silně robustní vlastnosti a vysoký bod zvratu. Pro obtížnou optimalizace parametrů
je obvykle třeba použít genetický algoritmus, simulované žíhání a podobné
heuristické metody. Je značně necitlivá na vlivné body a poskytuje možnost výpočtu vah pro váženou MNČ. Literatura: [ 211], [ 210], [ 199]. M-odhady
Další rodinou robustních odhadů jsou M-odhady (Huber, 1973). Používají se opět především k odhadům střední hodnoty a definují se buď pomocí tzv. funkce Ψ.
F x − µ IJ → min σ K
∑ ΨGH N
i =1
i
( 77)
M
nebo váhové funkce w, která je její derivací, získanou při minimalizaci vztahu ( 77). Počáteční odhad střední hodnoty se vypočítá prostou metodou nejmenších čtverců. Literatura: [ 193], [ 194], [ 196], [ 198].
Váhová funkce pro nejmenší čtverce
Váhová funkce pro medián
1.0
2.5
0.8
2.0
W
W 0.6
1.5
0.4
1.0
0.2
0.5
0.0 -10
-5
0
5
10
-10
x-µ
-5
0 x-µ
5
10
Obr. 44 Tvar váhové funkce pro nejmenší čtverce a medián (L1 aproximace)
71
N
µM =
∑w x
i i
i =1 N
∑w
, kde wi = W
i
FG x − µ IJ , W bzg = ∂Ψbzg H σ K ∂z i
( 78)
M
i =1
Protože w je funkcí µM, musí se výpočet provést iterativně, startovní hodnotou může být aritmetický průměr. Vztah ( 78) je vlastně vážený průměr s vahami wi. Podle rovnice ( 70) zjistíme že pro Ψ(x) = x2 dostaneme metodu nejmenších čtverců. Té odpovídá váhová funkce wi = 1. Mediánu odpovídá Ψ(x) = |x| a w(z) = 1/z. Některé další tvary váhových funkcí jsou znázorněny na Obr. 45.
Váhová funkce Andrews
w
0.6
Váhová funkce Bisquare
w
0.0
0.8
0.6
w 0.2
0.0 -10
-5
0
5
10
-10
-5
(x- µ)/σ
0
5
10
-10
w
-5
0
5
w 0.4 -10
-5
(x- µ)/σ
0
5
10
w 0.2
0.6
0 (x- µ)/σ
5
10
0
5
10
Váhová funkce Welsch
w
0.0 -5
-5
(x- µ)/σ
Váhová funkce Talworth
0.8 w
-10
-10
(x- µ)/σ
Váhová funkce Logistic
10
0.8
0.6
10
5
Váhová funkce Huber
0.0
0.0
0 (x- µ)/σ
Váhová funkce Hampel
0.6
-10
-5
(x- µ)/σ
Váhová funkce Fair
w
Váhová funkce Cauchy
0.6 0.0
-10
-5
0
5
10
-10
(x- µ)/σ
-5
0
5
10
(x- µ)/σ
Obr. 45 Tvar váhových funkcí vybraných M-odhadů
Matematický tvar jednotlivých váhových funkcí uvádí Tab. 4. Symbol u označuje normovanou veličinu (x − µM)/s. Pro nejmenší čtverce je W(x) = x2, pro L1 je W(x) = abs(x). Při výpočtu se používá techniky iterativně vážené MNČ.
72
Název
Váhová funkce Ψ(u)
Konstanty
Andrews
sin(u/c)/(u/c) pro abs(u) ≤ π.c
c = 1.339
jinak 0 bisquare
(1 - (u/c)^2)^2 je-li u < c, jinak 0
c = 4.685
Cauchy
1/(1 + (u/c)^2)
c = 2.385
Fair
1/(1 + abs(u/c))^2
c = 1.4
Hampel
1, je-li abs(u) ≤ a,
a = 2,
a/abs(u), je-li a
b = 4,
(a.((c-abs(u))/(c-b)))/abs(u), je-li b
c=8
Huber
1 je-li abs(u) < c, jinak c/abs(u)
c = 1.345
logistic
tanh(u/c)/(u/c)
c = 1.205
Talworth
1, je-li abs(u) ≤ c, jinak 0
c = 2.795
Welsch
exp(-2.(abs(u/(2.c))^2))
c = 2.985
Tab. 4 Přehled váhových funkcí pro M-odhady
Použití a vlastnosti uvedených robustních metod jsou uvedeny na následujících grafických příkladech. Obr. 46 ilustruje výsledné proložení regresní přímky šesti body (1; 1.5), (2; 2), (3; 3), (4; 4), (5; 4), (10; 3), z nichž poslední je zatížen hrubou chybou hodnoty závisle proměnné a navíc vybočuje v hodnotě nezávisle proměnné je to tedy vlivný bod – leverage point. Projevují se zde typické vlastnosti robustních metod, k nimž patří
nerobustnost L1 metod vůči vlivným bodům, „kompromisnost“ nerobustních nejmenších čtverců a výhoda relativně vysokého bodu zvratu u metod LTS (zde použito 20% uřezání) a
4.0
LMS.
o
3.5
D
3.0
o
C
B
o
o
1.5
2.0
2.5
y
A
o
o
2
4
6
8
10
x
Obr. 46 Porovnání L1 (A), MNČ (B), LTS (C) a LMS (D) (pořadí podle rostoucí směrnice)
73
Následující čtyři obrázky Obr. 47 až Obr. 50 analyzují chování účelové funkce jednotlivých metod pro modely uvedené na Obr.
46 a dokumentují obtížnost nalezení
optimálních parametrů. Jednoznačné minimum je zřejmé pouze v případě kvadratické plochy kritéria nejmenších čtverců. Lineární kriteriální plocha metody L1 s body nespojitosti druhých derivací vylučuje použít pro minimalizaci derivační metody, k optimalizaci je vhodná například metoda adaptivních simplexů. Ve zvláštních případech může být u metody L1 minimum nejednoznačné (úsečka, či konvexní (m-1)-rozměrný polyedr). V případě metody uřezaných čtverců a metody nejmenšího mediánu čtverců má kriteriální funkce obvykle několik lokálních minim a může být nespojitá v derivacích, takže zde rovněž často selhávají klasické derivační algoritmy a simplexové metody jsou zde také nespolehlivé. Při optimalizaci se využívají heuristické a stochastické algoritmy jako simulované žíhání nebo genetické algoritmy. Nelze však obecně zajistit globální konvergenci. Body v Obr. 47 až Obr. 50 představují optimální hodnoty pro dané kritérium získané technikou bootstrap [ 96]. Tyto body simulují hustotu pravděpodobnosti odhadu parametrů. Na Obr. 50 je patrná značná multimodalita tohoto rozdělení. Obr.
51 a Obr.
52 ilustrují chování účelové funkce
nelineárního exponenciálního modelu y=a.ebx v případě metody nejmenších čtverců a nejmenších mediánů.
Nejmenší čtverce, účelová funkce 2.0 800
1.5
1.0
400
Parametr B 0.5
200 100
0.0
10
60
20 -0.5
40 60
-1.0
400 -2
200
0
2
100 4
6
Parametr A
Obr. 47 Tvar účelové funkce u metody nejmenších čtverců (LS) a lineárního modelu
74
2.0
L-1, účelová funkce
1.5 60 1.0 Parametr B 0.5
40
0.0 20
4.8 4.7 5 4.9
6
7
8
-0.5
15 9 10
-1.0
15 40
-2
20
0
2
4
6
Parametr A
Obr. 48 Tvar účelové funkce u metody L-1 a téhož lineárního modelu 2.0
Nejmenší uřezané čtverce, účelová funkce
1.5
1.0
200
Parametr B 0.5
60
0.1 0.10.2
100
0.5 1
40
0.0
1
2
-0.5 100 -1.0
400
200
-2
0
2
100 4
60 40 20 10 5 5 10 20 40 60 6
Parametr A
Obr. 49 Tvar účelové funkce u metody nejmenších uřezaných čtverců (LTS) a téhož lineárního modelu
1.5
Nejmenší medián, účelová funkce 9
4.7
1.0
60 50
˙ 1
Parameter B
˙
4.7 4.8
0.5
8
0.0
-0.5
-1.0
100
60 -2
40 ˙ ˙˙˙0.05 ˙˙ 30 ˙ ˙ ˙˙˙ 0.05 ˙ ˙ ˙ ˙ ˙ ˙0.1 ˙ ˙ ˙ ˙ 0.5 20 ˙ ˙ ˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙0.2 ˙˙ ˙ ˙˙ ˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙0.5 99 15 ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ 10 ˙˙˙˙˙˙˙˙˙˙1˙˙˙ ˙ ˙˙ ˙1 ˙ ˙ 9 9 8 7 65 4.8 4.7 ˙˙˙ 1 4.6 ˙ ˙ ˙˙˙˙˙˙˙˙˙˙˙ ˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙˙0.5 ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙˙˙ ˙˙ ˙ ˙˙˙ ˙˙˙˙˙˙˙˙˙˙˙ 2 ˙ 4.6˙ ˙˙ ˙ ˙˙ 4.6 8 ˙ ˙˙ ˙ ˙˙˙ ˙ ˙˙˙ 4.6 4.7 4.8 5˙ 30 40 20 15 50 109 8 ˙ 76 0
2
4
6
Parameter A
Obr. 50 Tvar účelové funkce u metody nejmenšího mediánu čtverců (LMS) a téhož lineárního modelu
75
Nejmenší čtverce, účelová funkce 2.0 1
2
510 20 40 60
0.02
0.2
1.5
0.015 0.02
Parameter B
5 0.02
1.0
0.1
0.015
10
0.05 0.05
1500 2
0.5
1 0.05
0.1
0.1 0.2 0.5 1 2
800
0.0
1500 100 200 400800
-0.5
1500 800400200 100 60
0.0
40
20
0.5
10
5
1.0
1.5
2.0
Parameter A
Obr. 51 Tvar účelové funkce nelineárního modelu y=a.exp(b.x) a metody nejmenších čtverců
2.5
Nelineární nejmenší medián, účelová funkce
2.0
Parametr 1.5 B
1.0
0.5
0.0 -0.5
0.0
0.5
1.0
1.5
2.0
Parametr A
Obr. 52 Tvar účelové funkce téhož nelineárního modelu y=a.exp(b.x) a metody nejmenšího mediánu čtverců
76
3 Experimentální část
3.1
Referenční algoritmy v jazyce S (S-Plus)
V příloze v odstavci 6.1 jsou uvedeny některé funkční odladěné zdrojové texty v jazyce S upravené pro systém S-Plus 2000, případně S-Plus 6.0. Pro orientaci je níže uvedeno několik vysvětlivek, aby byly programy rámcově srozumitelné. Všeobecný popis některých použitých funkcí a syntaxe: # x_y ............ přířadí y do x # log(x) ......... přirozený logaritmus # 1:10 ........... sekvence celých čísel 1, 2, 3, ... , 10 jako vektor # seq(a,b,length=n) .... sekvence n ekvidistantních čísel od a do b jako vektor # length (x) ..... Počet prvků vektoru x # rep(x,n) ....... vektor n stejných hodnot x # sort(x) ........ setřídí x # trunc(x) ....... celá část x # var(x) ......... výběrový rozptyl x # diff(x) ........ vektor sériových diferencí x (délka n-1, je-li n délka vektoru x) # plot(x,y), lines(x,y), points(x,y) .... zobrazení dat jako body nebo čára # abline(h=r) .... horizontal čára v r # abline(v=r) .... vertikální čára v r # polygon(x,y) ... kreslí polygon # lwd ............ nastacení šířky čáry # cumsum(x) ...... vektor kumulativních součtů x s prvky x[1], x[1]+x[2], x[1]+x[2]+x[3], ... # rnorm(n) ....... vektor pseudonáhodných čísel N(0,1) # runif(n) ....... vektor pseudonáhodných čísel s uniformním rozdělením od 0 do 1 U(0,1) # dnorm(x,a,b) ... hustota pravděpodobnosti N(a,b^2) pro hodnoty x # qnorm(p,a,b) ... vektor kvantilů N(a,b^2) pro hodnoty pravděpodobnosti p # x[1:5] ......... prvních 5 prvků vektoru x # x[-5] .......... vyloučí 5. prvek z vektoru x # x[x>3] ......... prvky vektoru x splňující podmínku x>3
Je uveden orientační popis jednotlivých funkcí v programech, jejichž výpisy jsou v odstavci 6.1.
77
3.1.1
Analýza jednorozměrných výběrů, exploratorní grafická analýza dat (EDA)
Vstup: vektor x Výstup: jednotlivé exploratorní grafy
tb.hist1
klasický histogram
tb.cumhist1
klasický kumulativní histogram (výběrový odhad distribuční funkce)
tb.hist2
histogram s nekonstantní šířkou třídy
tb.cumhist2
kumulativní histogram s nekonstantní šířkou třídy
tb.qqplot
QQ-graf pro normální rozdělení
tb.scatter
rozptylový graf
tb.kern
jádrový odhad hustoty pravděpodobnosti
tb.boxplt
krabicový graf s šířkou spolehlivosti mediánu (vrub)
tb.qbox
kvantilový graf s vyznačenými kvantilovými obdélníky
tb.midsum
graf polosum
tb.symet
graf symetrie
tb.kurto
graf špičatosti
Další grafy: Graf rozptyleni s kvantily Pravdepodobnostni graf Kruhovy graf
Literatura: [ 196], [ 193], [ 194], [ 195], [ 198], [ 90], [ 190] Tyto algoritmy jsou k dispozici rovněž na stránkách www.trilobyte.cz/eda. 3.1.2
Analýza autokorelace
Vstup: vektor x, hladina významnosti alfa, maximální řád autokorelace maxrad Výstup: Graf autokorelace, graf predikce, autokorelační koeficienty autokor(x,alfa,maxrad)
výpočet autokorelačních koeficientů a graf autokorelační funkce
Literatura: [ 190], [ 193], [ 194], [ 195], [ 196], [ 203], [ 202], kap. 2.5.5
78
3.1.3
Transformace dat
Vstup: vektor x Výstup: Graf transformace, exploratorní grafy, optimální parametr r trans.new(x,r=opt.R(x))
transformační funkce s parametrem r
trans.new.inv(x,r=opt.R(x))
inverzní transformační funkce s parametrem r
opt.R(x)
nalezení optimálního parametru r pro data x
eda.trans(x)
grafické a textové výstupy
Literatura: [ 190], [ 193], [ 194], [ 195], [ 196], kap. 2.5.4 3.1.4
Optimalizace kvadratické responsní plochy
Vstup: matice nezávisle proměnných x, vektor závisle proměnné y Výstup: odhady parametrů, analýza optima a regresní diagnostika resp.surf.q1(x,y,graf)
výpočet parametrů kvadratické responsní plochy, analýza a odhad extrému a jeho intervalu spolehlivosti
Literatura: [ 93] 3.1.5
Lineární regrese
Vstup: matice nezávisle proměnných x, vektor závisle proměnné y Výstup: odhady parametrů, regresní diagnostika Vstupní parametry výpočtu:
hladina významnosti:
alfa_0.05 # 0
parametr pro Lp-regresi:
LP_1.01 # LP>=1
parametr pro metodu racionální hodnosti:
omez_0.00001 # 0<=omez<=1
absolutní člen:
absolut_T
polynomický model:
polynom_T
stupeň polynomu:
stupenpol_2 # stupenpol>=2
uživatelem definovaná transformace
user_F # T F
matice X: metoda výpočtu parametrů:
metoda_"NC" # "NC" "HOD" "L1" "LP" "EXPE" "EXPE2"
vektor vah:
vahy_"1" # "1" "Y" "1/Y"
transformace závisle proměnné:
transfy_F
použít kvazilinearizaci:
kvazilin_F
počítat predikce:
predikce_F
"BIR"
79
Metody a funkce: usermodel_function(xx)
uživatelská transformace matice X
NC_function(xx, y, w, n, m)
výpočet parametrů regresního modelu jednou z těchto metod:
"NC"
nejmenší čtverce
"HOD"
racionální hodnost
"L1"
L1-aproximace
"LP"
Lp-aproximace
"EXPE"
M-odhad s exponenciální funkcí vlivu
"EXPE2"
M-odhad s kvadraticky exponenciální funkcí vlivu
"BIR"
bounded influence regression (regrese s omezeným vlivem)
xx
matice nezávisle proměnné X
y
vektor závisle proměnné y
w
vektor vah w
n
počet dat
m
počet parametrů
Literatura: [ 190], [ 193], [ 194], [ 196], [ 199], [ 200], [ 210], [ 211], kap. 2.8 Tyto algoritmy jsou k dispozici rovněž na stránkách www.trilobyte.cz/kalibrace. 3.1.6
Nelineární regrese
Vstup: matice nezávisle proměnných x, vektor závisle proměnné y, regresní model rov Výstup: odhady parametrů, regresní diagnostika rov(x,p)
nelineární model
sqsum(x,y,p,n)
součet čtverců odchylek
grad(x,y,p,np)
numerický výpočet gradientu
jacobi(x,p,n,np)
výpočet prvků jakobiánu
gaussnewton (x,y,p,n,np)
klasická Gauss-Newtonova metoda se strategií tlumení kroku
marquardt(x,y,p,n,np)
Marquardova kombinovaná metoda
dogleg (x,y,p,n,np)
metoda dog-leg podle [ 205]
gradientfix(x,y,p,n,np,steps=abs(p)/20)
gradientová metoda s konstantním krokem
gradientcy(x,y,p,n,np)
gradientová metoda s Cauchyho krokem
Literatura: [ 194], [ 196], [ 199], [ 200], [ 205], [ 206], [ 207], [ 208], kap. 2.8
80
3.1.7
Vícerozměrná analýza
Vstup: matice x Výstup: Hlavní komponenty, zátěže, skóry, Mahalanobisovy vzdálenosti, exploratorní grafy biplot
kreslení dvojného grafu (biplot)
Andrews
Andrewsovy křivky založené na Fourierových řadách
Robust Mahalanobis
M-odhad vektoru střední hodnoty s kvadraticky exponenciální
Distance
funkcí vlivu
Literatura: [ 204], [ 212], [ 209], [ 201]
3.2
Programový systém QC-Expert
V následujícím textu je uvedena stručná informace o programovém systému QC-Expert, který je jedním z výsledků předkládané disertace. QC-Expert je interaktivní statistický systém pro analýzu dat určený především pro všechna pracoviště, kde je třeba vyhodnocovat provozní nebo laboratorní data. Software obsahuje vybrané statistické metody vyžadované jak normami a předpisy ISO 9000, 14000, QS 9000, VDA 6.x a metodikami TQM, tak i praktickými specifickými potřebami, které jmenovanými normami obvykle nejsou řešeny. Je součástí komplexní metodiky zpracování dat vyvinuté na základě rostoucích požadavků dnešních uživatelů. Použité statistické techniky jsou zvoleny tak, aby pokryly celou problematiku ve standardních situacích i při porušení základních předpokladů o datech, jako je normalita, homogenita, nebo nezávislost. Systém QC-Expert je napsán jak v české tak i v anglické verzi. Vstup dat je možný ve formátech TXT, XLS, VTS, ODBC (dBase, Excel, Access, Paradox,
FoxBase, a další) a on-line z analytického přístroje (serial RS232). Textový výstup je dokumentací k provedené analýze a je upraven do tabulky, kterou lze
exportovat do libovolného prostředí, nebo tisknout. Grafický výstup zahrnuje jednak statické, jednak interaktivní grafy. Statické grafy dovolují
zobrazení mnoha grafů najednou v jediném okně pro rychlé posouzení diagnostických grafů, jejich vzájemné porovnání a rychlou interpretaci. Interaktivní grafy slouží k podrobné analýze grafického výstupu. Je v nich možné zobrazit
detaily (zoom), což je výhodné u regulačních diagramů při větším množství dat. Rovněž lze selektivně označovat určitá data nebo skupiny dat s přímou vazbou na data v tabulce.
81
Program QC-Expert se skládá z následujících logických modulů, které lze zvolit z hlavního menu programu: Modul Základní statistika vypočítá základní popisné statistiky, intervaly spolehlivosti, robustní
odhady střední hodnoty a rozptylu. Provede t-test shody dat s předepsanou hodnotou, test normality, nezávislosti a homogenity. Zpracuje i více datových souborů najednou, takže je možné je rychle provnat. Výstupní protokol obsahuje klasické parametry jako průměr s intervalem spolehlivosti, rozptyl, směrodatná odchylka, šikmost a její významnost, špičatost a její významnost, polosuma, modus, t-test, dále robustní parametry jako medián, s intervalem spolehlivosti, medianová směrodatná odchylka, mediánový rozptyl, klasické parametry pro 10, 20 a 40% uřezaná data, Znaménkový test, Analýza malých výběrů pro N<20, Test normality, Vybočující body, Autokorelace a testy významnosti autokorelačních koeficientů, Test významnosti lineárního trendu, Vyhlazené hodnoty a rezidua z MA a mediánového vyhlazení. Výstupní grafy obsahují histogram, Q-Q graf, diagram rozptýlení, jádrový odhad hustoty, krabicový graf, graf autokorelace, trend a vyhlazení, kvantilový graf, P-P graf, graf rozptýlení s kvantily, graf polosum, graf symetrie, graf špičatosti, kruhový graf. Modul Statistická přejímka srovnáváním řeší přejímku kusových výrobků při daných
hodnotách AQL, RQL, α a β. Data je možno zadávat v reálném čase z klávesnice nebo načíst z tabulky. Výhodou sekvenční přejímky je obvykle menší počet testů nutných k rozhodnutí. Modul Statistická přejímka měřením řeší přejímku výrobků se spojitou vlastností (např.
rozměr, koncentrace). Rozhodne o přijatelnosti na základě opakovaného měření a daných hodnot AQL, RQL, alfa a beta, QL a QU. Modul automaticky počítá přejímací plán. Modul Analýza rozptylu obsahuje jednofaktorovou analýzu rozptylu, která je určena k
posouzení vlivu jednoho faktoru na sledovanou hodnotu, nebo porovnání výsledků z různých zdrojů (např. porovnání kvality různých dodavatelů, nebo shody výsledku různých laboratoří). Analýza je doplněna z-skórem, a je vhodná i pro kruhové testy laboratoří. Modul Korelace počítá párové, parciální, vícenásobné a Spearmanovu párové korelační
koeficienty a vyhodnotí jejich statistickou významnost. Významné koeficienty jsou ve výstupu zvýrazněny. Modul Transformace určí na základě nelineární transformace hodnoty kvantilů, a střední
hodnoty z asymetrických dat, která nesplňují podmínku normality. Využívá se techniky BoxCoxovy nebo exponenciální transformace.
82
Modul Simulace dat vytvoří testovací datový soubor se zvolenými statistickými vlastnostmi,
které odpovídají reálným datům. Souboru lze využít k posouzení statistických metod, regulačních diagramů například v době, kdy ještě není dostatečné množství reálných dat. Uživatel zadá počet dat, druh rozdělení (normální, lognormální, rovnoměrné, obecné), střední hodnotu, směrodatnou odchylku, frekvenci vybočujících měření, případně autokorelační koeficient. Modul Šíření chyb stanoví statistické vlastnosti funkce parametrů na základě předpokládaných
statistických vlastností parametru nebo na základě reálných dat. Využívá se jednak techniky Monte Carlo se vzorkováním z empirické distribuční funkce, jednak analytického rozvoje Taylorova polynomu do 2. stupně. Dále jsou vypočítány absolutní i relativní citlivosti výsledné veličiny
na
jednotlivé
parametry.
Výstupem
jsou
statistické
parametry,
hustota
pravděpodobnosti výsledné veličiny a grafická i numerická citlivostní analýza. Modul Optimalizace nalezne optimální hodnoty parametrů pro daný kriteriální parametr na
základě dat. Využívá metodu kvadratické responsní plochy a je určen pro empirické určení optimálních hodnot technologického procesu z hlediska ztrátové funkce Modul Regulační diagramy nabízí standardní Shewhartovy regulační diagramy X-průměr a S,
X-průměr a R, X-individual, np, p, c, u. Umožňuje konstrukci diagramů X-průměr i pro nestejné
velikosti podskupin. Modul Rozšířené regulační diagramy obsahuje alternativní regulační diagramy z rodiny
CUSUM, EWMA, Hotellingův diagram. Tyto diagramy výrazně rozšiřují diagnostické možnosti klasických Shewhartových diagramů a navíc umožňují statistickou regulaci i tam, kde jsou Shewhartovy diagramy nepoužitelné (např. data s trendem, kolísání, korelované parametry, apod.). Modul Paretův diagram zpracuje data o příčinách poruch nebo reklamací standardním
Paretovým diagramem. Konstruují se celkem čtyři diagramy včetně nákladové analýzy, jsou-li k dispozici i data o finanční ztrátě. Modul Lineární regrese nabízí komentované textové i grafické výstupy a diagnostiku pro
obyčejných i obecných lineárních modelů. Nabízené metody zahrnují nejmenší čtverce, robustní metody jako M-odhady, L1-regrese, nejmenší medián, metodu kvantilové regrese, rezistentní metodu BIR. Uživatel může zadat váhy, definovat libovolný lineární nebo linearizovaný model s možností automatické korekční transformace (kvazilinearizace). Automatická tvorba polynomických modelů. Automatická tvorba Taylorových polynomů 2. stupně pro vícerozměrná data, výpočet optima responsní plochy. Při výpočtu se používá stabilní
83
metoda pseudoinverze. Bohatá diagnostika zajistí odhalení všech problémů v datech. Metoda Stepwise-All, hodnocení všech možných (až 8000) regresních modelů, možnost výběru nejlepších modelů podle tří kritérií. Analýza regresního tripletu, analýza reziduí, výpočet predikce pro zadaná data a mnoho dalších možností. Modul Nelineární regrese umožňuje výpočet parametrů libovolného explicitního regresního
modelu na základě dat. Modul nabízí metody Gauss-Newton, Marquardt, Gradient-Cauchy, Dog-Leg, Gradient-Fix, Modifikovaný simplex. Výpočet je velmi interaktivní, během výpočtu lze měnit metodu a sledovat proložení. Počáteční odhady parametrů lze kontrolovat před výpočtem. Tím je zajištěna maximální efektivita práce s nelineárními modely. Výstupy zahrnují grafickou i textovou diagnostiku dat a modelu. Modul Vícerozměrná analýza je určen pro komplexní analýzu vícerozměrných dat
obsahujících několik veličin měřených současně. Zajistí posouzení homogenity dat a odhalí možné skryté vztahy v datech. Modul obsahuje analýzu hlavních komponent, výpočet skórů a zátěží, grafické znázornění hlavních komponent, interaktivní Andrewsovy křivky k odhalení mnohorozměrných vybočujících dat, biplot k odhalení hlubších vztahů v datech, grafy zátěží, analýza vysvětlené variability. Výstupy zahrnují rovněž korelační a kovarianční matici. Modul Kalibrace je určen především pro analytické laboratoře a metrologická pracoviště.
Nabízí kalibrační modely pro lineární a nelineární kalibrační závislosti s možností automatické detekce linearity. Díky použité metodě vážené regrese řeší tento modul i kalibrační modely s nekonstantní chybou, což je obvykle nutné zvláště při měření v blízkosti nuly (např. stopová analýza). Pro účely analytických chemických a biochemických laboratoří je důležitou funkcí modulu Kalibrace výpočet limity detekce a dalších kalibračních mezí pomocí platných doporučení IUPAC a ACS. Modul Porovnání 2 výběrů je určen pro validaci metod, porovnání různých zdrojů dat,
rozhodování o homogenitě dat, potvrzení správnosti různých měření a podobně. Je určen pro výrobní a laboratorní praxi, vzhledem ke schopnosti zpracovat i nestandardní data, např. porušující předpoklad normality. Modul Způsobilost provádí vyhodnocení způsobilosti a výkonnosti na základě dat a
specifikací. Speciální metody umožňují výpočet indexů způsobilosti i pro neúplné specifikace (např. jen jednu specifikační mez) nebo pro data, která nemají normální rozdělení. Modul poskytuje i interval spolehlivosti pro posouzení rizika ztráty způsobilosti.
84
4 Výsledky a jejich diskuse V této kapitole uvádíme příklady řešení typických problémů, které byly řešeny pomocí metod a metodik popsaných v kapitolách 2 a 3. 4.1
Nepřímé měření, kalibrace, zpřesněný kalibrační model
Postup stanovení kalibračního modelu metodou vážených nejmenších čtverců ilustrujeme na dvou reálných příkladech s nekonstantním rozptylem chyb. 4.1.1
Metody stanovení kalibračních mezí
Jako základní parametry přesnosti kalibrace se v analytické praxi uvádějí následující veličiny. yC … kritická úroveň y. Nejmenší hodnota y rozeznatelná od šumu (hodnota y, nad níž se
vyskytuje šum s pravděpodobností menší než α). Hodnoty menší než yC se považují za šum, resp. slepý pokus. yD … mez detekce y. Hodnota, nad níž můžeme bezpečně (s pravděpodobností 1−α) prokázat
přítomnost vzorku. Pravděpodobnost naměření y > yD při slepém pokusu je menší než 1−α. yQ … mez kvantifikace y. Hodnota, nad níž lze stanovit skutečnou hodnotu y s relativní chybou
menší než α. Pod touto mezí není doporučena kvantitativní analýza. xC … kritická úroveň x. Hodnota odpovídající yC podle kalibračního modelu. xD … mez detekce x. Minimální detekovatelná hodnota x (např. koncentrace) danou metodou. xQ … mez kvantifikace x. Minimální hodnota x, kterou lze stanovit s relativní chybou menší
než α. Danou metodou lze tedy kvantitativně stanovit pouze hodnoty větší než xQ.
α
y y(0)
yc
yd
yq
Obr. 53 Schematické znázornění mezí yC, yD a yQ
85
Metoda K*Sigma, viz Obr. 53 a Obr. 54. yC = K.σ, yD = 2K.σ, yQ = 3K.σ
Někdy se používá také hodnota yQ = 10/3K.σ, která pro K=3 odpovídá 10-ti násobku σ. Hodnota K se doporučuje volit jako (1−α) - kvantil normálního rozdělení, aby byly kritické meze srovnatelné s ostatními metodami. Kritické hodnoty x tato metoda neposkytuje, informativně je lze získat z kalibrační závislosti. Hodnota σ se získá buď výpočtem směrodatné odchylky slepého pokusu, nebo jako reziduální rozptyl kalibračního modelu. Y
Y(0)+3Kσy
Y(0)+2Kσy
Y(0)+Kσy X
Y(0) 0
XC
XD
XQ
Obr. 54 Metoda K*Sigma
Následující tři metody využívají plně statistických vlastností kalibračního modelu a umožňují vypočítat korektně i kritické hodnoty pro x, které jsou obvykle nižší (a tedy příznivější) než u metody K*Sigma. U přímé metody analytu (Obr. 55) se využívá intervalů spolehlivosti zpětných odhadů x. Y YQ YD YC Y(0)
X 0
XD
XC
XQ
Obr. 55 Přímá metoda analytu
U přímé metody signálu se využívá intervalů spolehlivosti odhadů y,Obr. 56.
86
Y YQ YD YC X
Y(0) 0
XC
XD
XQ
Obr. 56 Přímá metoda signálu
U kombinované metody podle Ebela a Kamma [ 18] se používá kombinace předešlých dvou postupů, Obr. 57. Y YQ YD YC X
Y(0) 0
XC
XD
XQ
Obr. 57 Kombinovaná metoda Ebel, Kamm
Poslední metoda K*Sigma z regrese je stejná jako první metoda K*Sigma s tím rozdílem, že jako Kσ se zde bere polovina konfidenčního intervalu predikce pro x = 0, tedy pološířka konfidenčního pásu regresního modelu v bodě x = 0 při dané hladině významnosti, Obr. 58. Y
Y(0)+3Kσy0 Y(0)+2Kσy0 Y(0)+Kσy0 X
Y(0) 0
XC
XD
XQ
Obr. 58 Metoda K*sigma z regrese
Zpětný odhad. Tato veličina je hlavním výsledkem a smyslem kalibrace. Zpětné odhady jsou
hodnoty x neznámého vzorku vypočítané z naměřené odezvy y pomocí zvoleného kalibračního modelu. Protože se jedná pouze o odhad skutečné hodnoty, nelze tuto hodnotu vyjádřit jinak,
87
než intervalem. Ke konstrukci zpětného odhadu se využívá intervalu spolehlivosti kalibračního modelu, interval zpětného odhadu je jeho 95% intervalem spolehlivosti. Naivní konstrukci zpětného odhadu pro jednu změřenou hodnotu znázorňuje Obr. 59. Tento interval však chybně předpokládá nulový rozptyl měření y. Správným postupem by bylo použití rovnice ( 14) pro k = 1, která využívá informaci o variabilitě z regresního modelu. Máme-li informaci o rozptylu
měření yi pro daný vzorek, například pomocí opakovaného měření yij, jsme schopni zkonstruovat interval spolehlivosti yi a získáme realističtější (i když širší, pesimističtější) interval spolehlivosti zpětného odhadu xi, v němž se projeví jak variabilita kalibrační závislosti, tak variabilita aktuálního měření y pro konkrétní vzorek, viz Obr. 60. Proto je důležité mít k dispozici opakované měření, je-li to možné. Výsledkem stanovení je pak interval (x0.025, x0.975), s případným uvedením odhadu xi. Poznámka: interval spolehlivosti obecně není symetrický kolem xi. Y
Změřené Yi
X 0
x0.025
x0.975
xi
Obr. 59 Zpětný odhad pro jediné měření Y průměr Yij
interval spolehlivosti průměru Yij
Změřené Yij (5 opakování)
X 0
x0.025
xi
x0.975
Obr. 60 Zpětný odhad pro opakované měření
88
4.1.2
Kalibrační závislost pro stanovení Cd v rozsahu 0 – 43 ppb se 4 opakovanými měřeními 6 standardů metodou AAS (Perkin Elmer 5500).
x: obsah kadmia ve standardu [ppb], y: naměřená hodnota absorbance, data z [ 34]. x0
0
0
0 2.7748 2.7748 2.7748 2.7748 9.675 9.675 9.675 9.675
y 0 -0.7 -0.1 -0.6
5.5
5.9
6.1
6.1 21.8 22.5 23.2 23.1
x 22.9716 22.9716 22.9716 22.9716 31.7741 31.7741 31.7741 31.7741 43.2067 43.2067 43.2067 43.2067 y
53.4
53.6
50.9
53.8
74.1
74
71.2
71.5
94.6
99.6
99.4
101.1
Protože hodnota testačního Cook-Weisbergova testu vykazuje hodnotu 10.98, tj. větší, než kvantil χ20.95(1) = 3.841, data vykazují heteroskedasticitu. Kalibrační model y = -0.299(s=0.187; LD=-0.687; LH=0.088) + 2.310(s=0.018; LD=2.273;LH=2.347) * x
vedl k dále uvedeným mírám přesnosti kalibrace. Odhady parametrů kalibrační přímky byly získány iterativním postupem vážených nejmenších čtvercvů, IRWLS. Testem významnosti kvadratického členu modelu byla zamítnuta jeho významnost na hladině α=0.05, tedy byla přijata linearita modelu. Symboly použité v zápisu modelu mají následující význam: s ... směrodatná odchylka, LD ... spodní mez asymptotického intervalu spolehlivosti parametru, LH ... horní mez asymptotického intervalu spolehlivosti parametru. Kalibrační meze (c ... kritická úroveň, d ... mez detekce, q ... mez kvantifikace) Metoda
yc
Přímá metoda analytu
0.2340 0.7561 1.2726 0.231 0.457 0.680
Přímá metoda signálu, IUPAC
0.2340 0.7619 1.2839 0.231 0.459 0.685
yd
yq
xc
xd
xq
Kombinovaná metoda Ebel, Kamm 0.2280 0.7559 1.2724 0.228 0.456 0.680 Metoda K*Sigma z regrese
0.2340 0.7680 1.3020 0.231 0.462 0.693
cCd Obr. 61 Kalibrační závislost s 95% intervalem spolehlivosti predikce
89
Pro porovnání jsou uvedeny kalibrační meze vypočítané podle různých metodik. Mez detekce v případě použití metody obyčejných nejmenších čtverců za předpokladu konstantní chyby vychází zhruba dvojnásobné. Ukazuje se, že všechny čtyři metody vedou ke shodným závěrům, což lze vysvětlit malou mírou šumu v naměřených hodnotách absorbance.
cCd Obr. 62 Neparametrický jádrový odhad závislosti chyby měření na koncentraci (tečkovaná křivka)
4.1.3
Kalibrační závislost pro stanovení Cu v rozsahu 0 – 0.7% s 5 opakovanými měřeními 11 standardů metodou emisní spektroskopie (kvantometr).
Data: x: obsah kadmia ve standardu [%], y: naměřená hodnota intenzity x 0.019 0.019 0.019 0.019 0.019 0.03 0.03 0.03 0.03 0.03 0.067 0.067 0.067 0.067 0.067 y
26
28
27
27
30
38
33
34
41
38
63
72
60
68
64
x 0.26 0.26 0.26 0.26 0.26 0.47 0.47 0.47 0.47 0.47 0.16 0.16 0.16 0.16 0.16 y
182
166
178
160
161
301
284
281
270
278
113
119
119
118
115
x 0.36 0.36 0.36 0.36 0.36 0.047 0.047 0.047 0.047 0.047 0.084 0.084 0.084 0.084 0.084 238
50
48
47
50
50
x 0.072 0.072 0.072 0.072 0.072
0.7
0.7
0.7
0.7
0.7
366
380
400
375
387
y y
213 68
216 68
223 72
247 75
62
81
86
79
74
70
Chyba vykazovala závislost na koncentraci, což prokázal Cook-Weisbergův test heteroskedasticity, který zamítl na hladině významnosti α=0.05 hypotézu konstantního rozptylu, hodnota testačního kritéria 15.108 > χ20.95(1) = 3.841. Testem významnosti kvadratického členu kalibrační závislosti byla zamítnuta jeho nevýznamnost a tím zamítnuta linearita modelu. Parametry kalibračního modelu byly opět odhadnuty iterativním postupem IRWLS a nalezen následující kalibrační model.
90
y = 19.718 (s=1.606; LD=16.494; LH=22.942) + 647.95 (s=20.01; LD=607.81;LH=688.10) * x − 189.78 (s=31.67; LD=-253.33;LH=-126.22) * x2 Kalibrační meze (c..kritická, d..detekce, q..kvantifikace)
Metoda
yc
yd
yq
xc
xd
xq
Metoda podle ISO 11843-2
25.022
35.038
30.326
0.0197
0.0238
0.0395
Přímá metoda analytu
24.583
28.812
32.793
0.0075
0.0140
0.0202
Přímá metoda signálu, IUPAC
24.583
29.097
33.308
0.0075
0.0145
0.0211
Kombinovaná metoda Ebel,Kamm 24.255
28.793
32.774
0.0070
0.0140
0.0202
Metoda K*Sigma z regrese
29.448
34.312
0.0075
0.0150
0.0226
24.583
cCu Obr. 63 Kalibrační závislost s konfidenčním intervalem pro data s nekonstantním rozptylem
cCu Obr. 64 Neparametrický jádrový odhad závislosti chyby měření na koncentraci (tečkovaná křivka)
91
4.1.4
Výstavba kalibračního modelu pomocí regresní diagnostiky
Příspěvek [ 158] popisuje vybrané základní pomůcky k posouzení kvality regresního modelu pro účely jednoduché regresní přímky. Ilustruje základní vztahy mezi daty a modelem, některá nebezpečí při rutinním použití regresní přímky, popř. regresního polynomu jako modelu kalibrační závislosti. Nabízí tři kritéria pro výběr vhodného modelu pro popis experimentálních dat a metodu porovnání směrnice při validaci analytické metody. Důraz je kladen na nespolehlivost vizuálního posouzení linearity přímkové závislosti a na důležitost výběru modelu kalibrační závislosti. Ve druhé části je navržen kalibrační model pro závislosti s nekonstantním rozptylem v návaznosti na odst. 4.1. Dva následující grafy ilustrují použití nevhodného modelu. Data1 a data2 jsou proložena přímkou, metodou nejmenších čtverců. Z vypočtených intervalů spolehlivosti by vyplývala jednotková směrnice a nulový úsek. Konkávní nelineární kalibrační závislost
x 0.704 1.182 2.871 5.03 7.515 9.662 8.396 5.935 4.113 6.936
y 0.604 1.461 3.563 5.862 8.03 9.704 8.818 6.88 4.926 7.652
Metoda1 12
10
8
6
4
2
Ref1
0 0
1
2
3
4
5
6
7
8
9
10
Obr. 65 Nelineární kalibrační závislost nesprávně proložená přímkou
Výsledný kalibrační model má tvar y = 0.440 (s=0.243; LD=-0.122; LH=1.00) + 1.014 (s=0.040; LD=0.920;LH=1.108) * x Konvexní nelineární kalibrační závislost
x 8.591 0.136 5.995 4.215 2.114 7.639 6.984 4.438 3.201 1.075 5.328
y 9.86 0.877 6.158 4.175 2.228 8.228 7.333 4.474 3.105 1.474 5.368
Y 12
10
8
6
4
2
X
0 0
1
2
3
4
5
6
7
8
9
10
Obr. 66 Nelineární kalibrační závislost nesprávně proložená přímkou
92
Výsledný kalibrační model má tvar y = 0.117 (s=0.249; LD=-0.447; LH=0.682) + 1.045 (s=0.047; LD=0.937;LH=1.154) * x
Při bližším pohledu na proložení a zvláště na graf reziduí je však zřejmé, že daná závislost není dobře popsána přímkovým modelem. Po použití kvadratického modelu y = a2x2 + a1x + a0 obdržíme proložení s daleko užším intervalem spolehlivosti predikce, avšak úsek již
není nulový. Jedná-li se tedy opět o validaci metody, musíme připustit systematickou chybu (nenulovou odezvu při nulové koncentraci) při slepém pokusu. Chceme-li dosáhnout lineárního průběhu, je možné provést rekalibraci, popř. jinou korekci metody. Z uvedeného plyne, že při volbě regresního modelu je nutné respektovat povahu závislosti danou experimentálními daty. Metoda2
Metoda1
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
Ref2
0 0
1
2
3
4
5
6
7
8
9
Ref1
0
10
0
1
2
3
4
5
6
7
8
9
10
Obr. 67 Nelineární kalibrační závislosti správně proložené parabolou
Výsledné kalibrační modely pro data1 a data2 jsou následující y = -0.286 (s=0.082; LD=-0.482; LH=-0.091) + 1.448 (s=0.037; LD=1.360;LH=1.537) * x − 0.043 (s=0.003; LD=-0.052;LH=-0.034)
resp. y = 0.814 (s=0.065; LD=0.663; LH=0.966) + 0.547 (s=0.033; LD=0.470;LH=0.624) * x
+ 0.057 (s=0.003; LD=0.048;LH=0.065) t-test prokázal u obou modelů statistickou významnost kvadratického členu v modelu.
Další příklad upozorňuje na další častou chybu při konstrukci kalibračního modelu, která má výrazný (často až řádový) vliv na přesnost stanovení a tedy i limitu detekce.
93
Data 3:
Data3 jsou na následujícím Obr. 68 proložena přímkou, která zdánlivě daty perfektně prochází (reziduální součet čtverců RSČ = 0.001567). Data3:
x
0.248
1.275
2.475
3.156
4.505
5.582
6.819
8.676
9.171
y
0.244
1.279
2.488
3.181
4.550
5.644
6.911
8.818
9.340
Výsledný kalibrační lineární model y = -0.0277 (s=0.0092; LD=-0.0495; LH=-0.0058) + 1.019 (s=0.0016; LD=1.015;LH=1.023) * x
Protože graf reziduí vykazuje trend ve tvaru „U“ je zřejmé, že data jsou zřetelně nelineární, a že tedy nemohou být proloženy přímkou. Pro ilustraci je uveden průběh regresního modelu s intervalem spolehlivosti. Regresní přímka, Data3
Y 10 9 8 7 6 5 4 3 2 1
X
0 0
1
2
3
4
5
6
7
8
9
10
Obr. 68 Zdánlivě lineární závislost proložená přímkou
RSČ: 0.001567 Y 1.10 1.08
Zvětšená regresní závislost s intervalem spolehlivosti predikce
1.06 1.04 1.02 1.00 0.98 0.96 0.94 0.92 0.90 0.9980
X 0.9990
1.0000
1.0010
1.0020
Obr. 69 Interval spolehlivosti predikce kalibračního modelu a rozptylový graf reziduí z Obr. 68
Pro ověření, zda pro tato data vyhovuje model kvadratický byl použit test významnosti kvadratického členu paraboly proložené metodou nejmenších čtverců.
94
Y Regresní parabola, Data3
10 9 8 7 6 5 4 3 2 1
X
0 0
1
2
3
4
5
6
7
8
9
10
Obr. 70 Data z Obr. 68 proložená parabolou
I když vizuálně není na rozptylovém kalibračním grafu rozdíl mezi proložením přímkou a parabolou, následující tabulka ukazuje, že použití kvadratického modelu je nutné (interval spolehlivosti parametru pro x2 neobsahuje nulu). Vypočtený reziduální součet čtverců je 20x nižší než při použití lineárního modelu. y = -0.0029 (s=0.0032; LD=-0.0110; LH=0.0050) + 1.0025 (s=0.0016; LD=0.9985;LH=1.0065)*x
+ 0.0017 (s=0.00016; LD=0.0013;LH=0.0021) * x2 Výsledný reziduální součet čtverců je 8.21.10-5, tedy asi 20x menší než součet čtverců chybného lineárního modelu. Porovnáním intervalů spolehlivosti na grafech na Obr. 69 a Obr. 71 je zřejmé výrazné zůžení intervalu spolehlivosti, (z něhož se m.j. počítá limita detekce), rezidua zde vykazují náhodný mrak rozmístěný kolem nuly. Y 1.10
Zvětšená regresní závislost s intervalem spolehlivosti predikce (stejné měřítko)
1.08 1.06 1.04 1.02 1.00 0.98 0.96 0.94 0.92 0.90 0.9980
X 0.9990
1.0000
1.0010
1.0020
Obr. 71 Interval spolehlivosti predikce kalibračního modelu a rozptylový graf reziduí z Obr. 70
Nabízí se proto otázka, zda není výhodnější používat jako kalibračního modelu vždy kvadratický nebo jiný nelineární model, který by vyhovoval pro lineární i nelineární závislosti.
95
K posuzování vhodnosti modelu se bohužel zatím velmi často používá korelačního koeficientu, který je však neklesající funkcí počtu parametrů pro danou třídu modelů. Korelační koeficient pro parabolu bude vždy vyšší, než pro přímku. Z tohoto důvodu je korelační koeficient naprosto nevhodný k posouzení adekvátnosti kalibračního modelu. Na následujících grafech je pro popis stejné naměření lineární závislosti použit vždy lineární a kvadratický model. Regresní přímka
Regresní parabola
Obr. 72 Lineární kalibrační závislost proložená přímkou a parabolou
Obě proložení vypadají na první pohled přijatelně, ale ze zvetšených obrázků ve stejném měřítku je patrné, že přímkový model poskytl přesnější predikci, protože interval spolehlivosti predikce je užší. Metoda2
Metoda2
Lineární model
0.50 0.40
0.40
0.30
0.30
0.20
0.20
0.10
0.10
0.00
Ref2
0.000
0.010
0.020
0.030
0.040
0.050
0.060
Kvadratický model
0.50
0.070
0.080
0.090
0.100
0.00
0.000
Ref2 0.010
0.020
0.030
0.040
0.050
0.060
0.070
0.080
0.090
0.100
Obr. 73 Detail zúžení intervalu spolehlivosti kalibračního modelu v blízkosti nuly pro lineární a kvadratický model pro data z Obr. 72
Při konstrukci regresního modelu je obvykle snahou minimalizovat variabilitu výsledku. Snížení variability, numericky vyjadřované nejčastěji pomocí směrodatné odchylky, intervalu spolehlivosti, nebo neurčitosti, znamená zvýšení přesnosti. Může při tom jít o přesnost regresních parametrů, predikce, limity detekce, apod. Mezi často používané míry variability patří
96
reziduální rozptyl:
∑by n
σ2 =
i
i =1
− yi
g
( 79)
2
n−m
RSC = n−m
směrodatná odchylka parametrů:
σ a ,i = σ ci ,i
( 80)
interval spolehlivosti predikce:
b
g
x T b = mF1−α m, n − m σ
c h
xT XT X
−1
x
( 81)
Ve všech vztazích hraje značnou roli počet supňů volnosti. Rostoucí počet parametrů regresního modelu přispívá ke zvýšení variability, tedy ke snížení přesnosti regresního modelu. Není-li tato skutečnost převážena výrazně těsnějším proložením dat, nemá přidávání dalších parametrů (např. zvyšováním stupně polynomu) žádný smysl. Proto nelze k hodnocení regrese použít korelační koeficient, nebo koeficient vícenásobné korelace, který počet parametrů vůbec nebere v úvahu. Tato skutečnost je ilustrována na dalším příkladu, kde jsou daty nelineární kalibrační závislosti proloženy postupně přímka, a polynomy 2. a 6. stupně. Porovnáním přímky a polynomů 2. a 6. stupně pro naměřená kalibrační data plyne, že Přímka
Polynom 2. stupně
Polynom 6. stupně
97
Obr. 74 Porovnání přímky a polynomů 2 a 6. stupně pro stejná data
ze tří zvolených regresních modelů má nejužší interval spolehlivosti plynom 2. stupně. K výběru optimálního modelu lze použít některé ze tří následujících kritérií, která zohledňují vliv počtu regresních parametrů. V závorce je uvedeno, má-li být nalezeno minimum nebo maximum kritéria. Nejčastěji používaná a doporučená kritéria pro výběr kalibračního regresního modelu: F-kritérium:
Fr =
(CSC − RSC )(n − m) = Rˆ 2 (n − m) (1 − Rˆ 2 )(m −1) RSC(m − 1)
( 82)
Střední kvadratická chyba predikce MEP (pro nejlepší model je minimální):
MEP =
(
1 n ∑ yi − x T a ( i ) n i =1
)
2
=
1 n eˆi2 ∑ n i =1 (1 − H ii )2
( 83)
Akaikeho informační kritérium AIC (pro nejlepší model je minimální):
RSC AIC = n ln + 2m n
4.2
( 84)
Určení bodu ekvivalence z titrační křivky
V tomto odstavci se zabýváme simulovanými daty titračního grafu se známými parametry a známým bodem ekvivalence, abychom posoudili schopnost algoritmu popsaného v odst.2.3. Data byla generována podle vztahu
98
if (x[i]
se specifikovanými parametry a1, a2, b1, b2, c1, c2 a p a zatížena normálně rozděleným šumem N(0,σ2). První dva soubory mají dobře definovaný bod ekvivalence, zatímco další dva soubory dat představují těžko identifikovatelný bod zlomu. Simulovaná data 1: n=25, sigma=0.06, p=5 a1=1, a2=5, b1=0.4, b2=0.1, c1=0.1, c2=0 x
2.00
2.44
2.88
3.31
3.75
4.19
4.63
5.06
5.50
5.94
6.38
6.81
7.25
7.69
8.13
8.56
9.00
y
2.22
2.53
2.93
3.36
3.88
4.40
5.03
5.54
5.61
5.56
5.86
5.63
5.74
5.85
5.80
5.76
5.94
Vypočítané hodnoty: Bod ekvialence
: 4.983
Konfidenční interval 95 %: 4.820 5.146
3
4
y
5
6
Detekována lineární větev: pravá
2
4
6
8
x
Obr. 75 Simulovaná data 1, výsledné proložení s vyznačením konfidenčního intervalu pro p
Simulovaná data 2: n=19, sigma=0.04, p=5.5 a1=1, a2=10, b1=0, b2=-1.91, c1=-0.05, c2=0 X:
2.00
2.39
2.78
3.17
3.56
3.94
4.33
4.72
5.11
5.50
5.89
6.28
6.67
7.06
7.44
7.83
8.22
8.61
9.00
Y:
0.80
0.64
0.56
0.49
0.37
0.19
0.12
-0.14
-0.24
-0.54
-1.27
-1.99
-2.81
-3.51
-4.21
-4.97
-5.73
-6.39
-7.25
Vypočítané hodnoty: Bod ekvialence
: 5.431
Konfidenční interval 95 %
: 5.352 5.510
Detekována lineární větev: pravá
99
0 -2 y -4 -6 2
4
6
8
x
Obr. 76 Simulovaná data 2, výsledné proložení s vyznačením konfidenčního intervalu pro p
Simulovaná data 3: n=19, sigma=0.05, p=6.5 a1=5, a2=10, b1=-0.2, b2=-1.164231, c1=-0.05, c2=-0.02 X:
2.00
2.39
2.78
3.17
3.56
3.94
4.33
4.72
5.11
5.50
5.89
6.28
6.67
7.06
7.44
7.83
8.22
8.61
9.00
Y:
4.49
4.28
4.01
3.89
3.67
3.43
3.12
2.90
2.77
2.40
2.06
1.82
1.44
0.85
0.22
-0.37
-0.91
-1.56
-2.11
Vypočítané hodnoty: Bod ekvialence
: 6.557
Konfidenční interval 95 %: 6.411 6.703
-2
0
y
2
4
Detekována lineární větev: pravá
2
4
6
8
x
Obr. 77 Simulovaná data 3, výsledné proložení s vyznačením konfidenčního intervalu pro p
Simulovaná data 4: n=19, sigma=0.002, p=6
100
a1=2, a2=2.35, b1=0, b2=-0.118, c1=0.0, c2=0.01 X:
2.00
2.67
3.33
4.00
4.67
5.33
6.00
6.67
7.33
8.00
8.67
9.33
10.00
10.67
11.33
12.00
12.67
13.33
14.00
Y:
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.01
2.02
2.04
2.07
2.12
2.17
2.23
2.29
2.37
2.46
2.55
2.65
Vypočítané hodnoty: Bod ekvialence
: 6.154
Konfidenční interval 95 %: 5.434 6.875
y
2.0
2.1
2.2
2.3
2.4
2.5
2.6
Detekována lineární větev: levá
2
4
6
8
10
12
14
x
Obr. 78 Simulovaná data 4, výsledné proložení s vyznačením konfidenčního intervalu pro p
Pro výpočet byla použita procedura napsaná v S-Plus, resp. modul Nelineární regrese systému QC-Expert s Gauss-Newtonovou optimalizací [ 190], [ 199]. K výpočtu konfidenčního intervalu byl použit asymptotický odhad rozptylu parametru p z Hessiánu. Ve všech čtyřech případech bylo dosaženo rychlé konvergence a konfidenční interval bodu ekvivalence obsahuje správnou teoretickou hodnotu. V příkladu Simulovaná data 3 nerozpoznal algoritmus slabou nelineárnost pravé větve (c2 = -0.02), která je značně maskována náhodným šumem. Algoritmus pro výpočet v S-Plus je k dispozici u autora, případně v [ 154].
4.3
Využití robustní regrese pro dvojúrovňovou analýzu rozptylu
4.3.1
Rušivé vlivy stanovení mědi ve vzorku odlitku
Aplikace robustní ANOVA, viz
[ 188] a odst. 2.4, pro stanovení rušivého vlivu
vzorkování, manipulace a kalibrace na výsledek analýzy. Je třeba vyšetřit, zda a které faktory
101
významně ovlivňují výsledek stanovení mědi ve vzorku odlitku. Čtyři hodnoty jsou zatížené chybou, která však nepřekračuje rozsah ostatních hodnot a nejsou na první pohled patrné. Vyšetřované faktory:
Faktor
-1
1
Místo odběru
ze středu
z okraje
Řezání vzorku
NE
ANO
Temperace
NE
ANO
Stabilizátor napětí
NE
ANO
přímka
parabola
Kalibrace
Data (5 binárních faktorů s interakcemi): č.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Místo odběru -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1
Řezání vzorku -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 1 1 1 1
Temperace -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 1 1 -1 -1 1 1
Stabilizátor napětí -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 1 -1 1 -1 1
Kalibrace
Koncentrace
-1 1 1 -1 1 1 1 -1 -1 -1 -1 1 -1 -1 1 1 -1 -1 1 1 -1 1 1
1.662 1.606 1.601 1.675 1.582 1.592 1.575 1.653 1.697 1.691 1.703 1.636 *1.438 *1.439 1.648 1.652 1.677 1.665 1.628 1.576 1.649 *1.763 *1.764
Hvězdičkou jsou označena dodatečně odhalená chybná měření (chyba představuje jen asi 15% měřené hodnoty). Kontrolní výsledky z lineární regrese s vyloučenými chybnými daty: Tab. 5 Data bez chybných hodnot, metoda nejmenších čtverců Proměnná Odhad Abs 1.663 [Místo odběru] 0.0316
102
Směr. odch.
Závěr
0.00487
Významný
0.00653
Významný
[Řezání vzorku] -0.0193
0.00710
Významný
0.00650
Nevýznamný
[Stabilizátor napětí] 0.01042
0.00528
Nevýznamný
[Kalibrace] -0.0673
0.00812
Významný
0.00588
Významný
[Místo odběru]*[Temperace] 0.007107
0.00965
Nevýznamný
[Místo odběru]*[Stabilizátor napětí] -0.01408
0.00600
Nevýznamný
[Místo odběru]*[Kalibrace] -0.00782
0.01036
Nevýznamný
[Řezání vzorku]*[Temperace] -0.00735
0.00598
Nevýznamný
[Řezání vzorku]*[Stabilizátor napětí] -0.00346
0.00626
Nevýznamný
[Řezání vzorku]*[Kalibrace] 0.00207
0.00634
Nevýznamný
[Temperace]*[Stabilizátor napětí] 0.00473
0.00573
Nevýznamný
[Temperace]*[Kalibrace] 0.00557
0.00662
Nevýznamný
[Stabilizátor napětí]*[Kalibrace] 0.00337
0.00706
Nevýznamný
[Temperace] 0.000964
INTERAKCE: [Místo odběru]*[Řezání vzorku] 0.03989
Závěr :
Model je významný
Obr. 79 Grafy vyjadřující těsnost proložení a vliv jednotlivých dat pro bezchybná data
Uvedené výsledky představují kontrolní hodnoty po vyloučení chybných dat 13, 14, 22, 23. Tab. 6 Data se 4 chybnými hodnotami, lineární regrese, metoda nejmenších čtverců – výsledky bez vyloučení chybných dat Proměnná
Odhad
Směr. odch.
Závěr
Abs
1.6765
0.0485
Významný
[Místo odběru]
0.0246
0.0650
Nevýznamný
[Řezání vzorku]
-0.1320
0.0707
Nevýznamný
[Temperace]
-0.0220
0.0648
Nevýznamný
[Stabilizátor napětí]
0.02400
0.0525
Nevýznamný
[Kalibrace]
-0.1007
0.0809
Nevýznamný
[Místo odběru]*[Řezání vzorku]
-0.1302
0.0585
Nevýznamný
[Místo odběru]*[Temperace]
-0.0021
0.0961
Nevýznamný
INTERAKCE:
103
[Místo odběru]*[Stabilizátor napětí]
-0.0436
0.0597
Nevýznamný
[Místo odběru]*[Kalibrace]
0.0550
0.1032
Nevýznamný
[Řezání vzorku]*[Temperace]
0.0845
0.0596
Nevýznamný
[Řezání vzorku]*[Stabilizátor napětí]
0.0344
0.0623
Nevýznamný
[Řezání vzorku]*[Kalibrace]
0.1295
0.0632
Nevýznamný
[Temperace]*[Stabilizátor napětí]
0.0032
0.0571
Nevýznamný
[Temperace]*[Kalibrace]
0.0470
0.0660
Nevýznamný
[Stabilizátor napětí]*[Kalibrace]
-0.0065
0.0703
Nevýznamný
Závěr :
Model je nevýznamný
Obr. 80 Grafy vyjadřující těsnost proložení a vliv jednotlivých dat pro chybná data
Klasická analýza rozptylu je zcela znehodnocena vybočujícími hodnotami, všechny faktory vycházení statisticky nevýznamné na hladině α = 0.05. Navíc diagnostické grafy na Obr. 80 nevykazují vybočující nebo podezřelá data. Tab. 7. Data se 4 chybnými hodnotami, lineární regrese, metoda M-odhad, Welsch, výsledky bez vyloučení chybných dat Proměnná
Odhad
Směr. odch.
Závěr
Abs
1.666
0.0084
Významný
[Místo odběru]
0.0250
0.0115
Nevýznamný
[Řezání vzorku]
-0.1404
0.0149
Významný
[Temperace]
0.00667
0.0114
Nevýznamný
[Stabilizátor napětí]
0.00934
0.0095
Nevýznamný
[Kalibrace]
-0.0950
0.0154
Významný
[Místo odběru]*[Řezání vzorku]
-0.1126
0.0120
Významný
[Místo odběru]*[Temperace]
-0.0215
0.0169
Nevýznamný
[Místo odběru]*[Stabilizátor napětí]
0.0101
0.0111
Nevýznamný
[Místo odběru]*[Kalibrace]
-0.0076
0.0188
Nevýznamný
[Řezání vzorku]*[Temperace]
0.1446
0.0117
Významný
104
[Řezání vzorku]*[Stabilizátor napětí]
-0.0250
0.0115
Nevýznamný
[Řezání vzorku]*[Kalibrace]
0.1514
0.0115
Významný
[Temperace]*[Stabilizátor napětí]
-0.0067
0.0108
Nevýznamný
[Temperace]*[Kalibrace]
0.0221
0.0138
Nevýznamný
[Stabilizátor napětí]*[Kalibrace]
0.0255
0.0123
Nevýznamný
Závěr :
Model je významný
Obr. 81 Grafy z robustní analýzy odhalují hrubé chyby a jeden vlivný bod č. 21
Robustní regrese poskytuje i bez úpravy dat použitelné výsledky, rozdíl proti kontrolním výsledkům je pouze v nevýznamnosti faktoru [Místo odběru]. Navíc diagnostický graf Y-predikce na Obr. 81 odhaluje dvě ze čtyř vybočujících dat. 4.3.2
Vliv vzorkování na výtěžnost
Data představují výsledky stanovení křemíku ve válcované oceli v závislosti na úrovni 3 faktorů a hodnotě spojité veličiny, teploty. Pro analýzu rozptylu byla opět použita regrese, a to metoda nejmenších čtverců a robustní M-odhad. V řádcích 3 a 6 jsou chyby v údaji koncentrace, které však nepřekračují rámec ostatních měřených hodnot, proto nejsou na první pohled snadno zjistitelné. Vyšetřované faktory:
Faktor
-1
1
Místo odběru
ze středu
z okraje
Řezání vzorku
NE
ANO
přímka
parabola
Kalibrace Teplota Kv
Teplota v testační komoře
Data:
105
č. Místo odběru -1 1 -1 2 -1 *3 -1 4 1 5 1 *6 1 7 1 8 -1 9 -1 10 -1 11 -1 12 1 13 1 14 1 15 1 16 -1 17 -1 18 -1 19 -1 20 1 21 1 22 1 23 1 24
Řezání vzorku -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1
Kalibrace -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1
Teplota Kv 33.6 35 30.9 35 32.7 34 33.9 35.1 33.6 34.5 34.8 30.5 33.7 34.4 35.6 33.5 33.8 32.4 33.6 34.4 33.3 32.1 30.6 34.9
Koncentrace 1.752 1.797 2.046 1.679 1.86 1.629 2.304 2.359 1.751 1.814 1.596 1.813 1.829 1.898 2.255 2.406 1.741 1.88 1.627 1.693 1.841 1.97 2.405 2.364
Výsledky z původních správných dat klasickou metodou nejmeších čtverců dávají jednoznačný výsledek, podle něhož jsou významné všechny testované faktory a navíc ještě interakce [Místo odběru]*[Řezání vzorku]. Vliv jednotlivých faktorů lze názorně zviditelnit pomocí parciálních regresních grafů, které znázorňují míru vlivu i jeho kvantitativní velikost, která je vyjádřena směrnicí přímek. Je vidět, že prvních 5 grafů odpovídá významnému vlivu, kdežto další tři představují interakce, které zřejmě nemají vliv na výsledek experimentu. Přesné kvantitativní vyjádření je patrné z Tab. 8 Odhady parametrů.
Obr. 82 Parciální grafy pro statisticky významné faktory
106
Obr. 83 Parciální grafy pro statisticky nevýznamné faktory Tab. 8 Odhad parametrů - kontrolní (správné) výsledky - odhady parametrů, metoda nejmenších čtverců
Proměnná
Odhad
Směr. odch.
Závěr
Abs
2.845
0.0351
Významný
[Místo odběru]
0.0559
0.0211
Významný
[Řezání vzorku]
-0.178
0.0279
Významný
[Kalibrace]
0.0680
0.0222
Významný
[Teplota Kv]
-0.0325
0.00104
Významný
[Místo odběru]*[Řezání vzorku]
0.6022
0.00155
Významný
[Místo odběru]*[Kalibrace]
-0.000267
0.00155
Nevýznamný
[Místo odběru]*[Teplota Kv]
0.000758
0.00063
Nevýznamný
[Řezání vzorku]*[Kalibrace]
-0.00311
0.00154
Nevýznamný
[Řezání vzorku]*[Teplota Kv]
0.00174
0.000831
Nevýznamný
[Kalibrace]*[Teplota Kv]
0.000709
0.000667
Nevýznamný
Obr. 84 Graf proložení - REZIDUA Tab. 9 Odhady parametrů, metoda nejmenších čtverců, 2 chybná data
Proměnná
Odhad
Směr. odch.
Závěr
Abs
6.366
1.579
Významný
107
[Místo odběru]
-1.765
0.950
Nevýznamný
[Řezání vzorku]
-1.371
1.251
Nevýznamný
[Kalibrace]
-2.127
0.997
Nevýznamný
[Teplota Kv]
-0.1367
0.0470
Významný
[Místo odběru]*[Řezání vzorku]
0.6067
0.0696
Významný
[Místo odběru]*[Kalibrace]
-0.0228
0.0699
Nevýznamný
[Místo odběru]*[Teplota Kv]
0.0533
0.0284
Nevýznamný
[Řezání vzorku]*[Kalibrace]
-0.0293
0.0694
Nevýznamný
[Řezání vzorku]*[Teplota Kv]
0.0384
0.0373
Nevýznamný
[Kalibrace]*[Teplota Kv]
0.06539
0.0299
Významný
Obr. 85 Graf proložení (chybná data nelze z grafu spolehlivě rozeznat, jsou označena šipkami)
Při regresní analýze klasickou metodou nejmenších čtverců, která odpovídá klasické analýze rozptylu, byly získány zcela chybné výsledky, viz Tab. 9, lišící se od spravných hodnot o řády, nebo i ve znaménku. Tab. 10 Odhady parametrů, metoda robustní M-odhad,Welsch, 2 chybná data
Proměnná
Odhad
Směr. odch.
Závěr
Abs
2.798
0.0474
Významný
[Místo odběru]
0.0892
0.0302
Významný
[Řezání vzorku]
-0.172
0.0273
Významný
[Kalibrace]
0.103
0.0323
Významný
[Teplota Kv]
-0.0312
0.00139
Významný
[Místo odběru]*[Řezání vzorku]
0.603
0.00165
Významný
108
[Místo odběru]*[Kalibrace]
-0.000789
0.00154
Nevýznamný
[Místo odběru]*[Teplota Kv]
-0.00022
0.00090
Nevýznamný
[Řezání vzorku]*[Kalibrace]
-0.0018
0.0017
Nevýznamný
[Řezání vzorku]*[Teplota Kv]
0.0015
0.00081
Nevýznamný
[Kalibrace]*[Teplota Kv]
-0.00034
0.00096
Nevýznamný
Obr. 86 Graf proložení – chybná data jsou zřetelně patrná, srov, Obr. 85
Robustní regresí byly získány i z dat obsahujících chybné řádky 3 a 6 výsledné hodnoty parametrů, viz Tab. 10, které jsou ve velmi dobré shodě s výsledky ze správných dat v Tab. 8. Rovněž graf Y-predikce jednoznačně dva chybné řádky identifikuje. 4.4
Autoregresní model v chemické analýze
Následující tři obrázky porovnávají tři typy regulačních diagramů AR(5), klasický Shewhartův x-individual a dynamický EWMA s jednokrokovou predikcí pro stejná data z chemické analýzy vody s autokorelačním koeficientem ρ1≈0.7. Je zřejmé, že Shewhartův diagram je pro tato data nepoužitelný, kdežto diagram EWMA a AR odhalily 2 totožné body označené 1 a 2, diagram AR pak ještě 2 body navíc proti diagramu EWMA.
109
1
73
4
3
72 x
71
70
2 69 0
20
40
In d e x
60
80
100
Obr. 87 Model MA(5)
L ist1 D iag ram x-in d ivid u al 53
7,27E +01 7,22E +01 2 7,17E +01 7,12E +01 7,07E +01 20 25 19 8 1012 26 14 18 13 21 22 67 9 11 23 2729 7,02E +01 15 24 17 16 345 6,97E +01 1 21
X
43 41 42 40
79 83 75 74 76 84 77 78
55 5456 61 70
81
62 41
102 105 97 101 103 104
61
81
101
Č íslo vzorku
Obr. 88 Diagram X-individual pro závislá data je nepoužitelný
EWMA,dynamický diagram
X 74
1
73 72 71 70
2
69 68
0
20
40
60
80
100
Index
120
Obr. 89 Dynamický diagram EWMA
Ve většině rutinních analýz v chemické technologii lze prokázat významnou autokorelaci v datech. Využití klasických Shewhartových regulačních diagramů pro sledování kvality, stability a statistickou regulaci vede ke zcela chybné identifikaci nevyhovujících
110
hodnot. Regulační diagram pozbývá tak svůj účel a stává se nepoužitelným. V uvedeném příkladu vedlo použití diagramů založených na modelech časových řad k identifikaci dat, která odpovídají skutečným problémům v procesu. 4.5
Robustní Hotellingovy statistiky
4.5.1 Sledování chemického složení slinku před vypálením v cementárně
V případě výskytu vybočujících dat je silně ovlivněn odhad vektoru středních hodnot a kovarianční matice S, což značně snižuje schopnost Hotellingova diagramu detekovat poruchy procesu. V těchto případech jsme použili robustní postup odhadu µ a S pomocí iterativního M-odhadu s exponenciálními vahami podle Welshe, viz Tab. 4. Použití tohoto postupu vedlo k odhalení periodických výskytů významných odchylek v chemickém složení suroviny pro výrobu cementu, jak ilustruje Obr.
90. Chemické
složení jednotlivých 60 vzorků bylo charakterizováno vždy šesti analýzami obsahu MgO, Al2O3, SiO2, SO3, CaO, Fe2O3. Nerobustní postup tyto odchylky neodhalil z důvodu posunutí střední hodnoty a nadhodnocených kovariancí získaných klasickým postupem.
Obr. 90 Porovnání klasického (vlevo) a robustního (vpravo) posouzení vybočujících bodů v chemickém složení slinku
4.5.2
Model a stabilita procesu výroby tablet ve farmaceutické technologii
Tab. 11 představuje data z lisovny tablet farmaceutické firmy, kde se měřila hmotnost, tloušťka, pevnost a tvrdost. Na Obr. 92 až Obr. 95 jsou klasické Shewhartovy diagramy pro jednotlivé veličiny. Tyto diagramy nesignalizují žádnou podstatnou odchylku. Na Obr. 96 je Hotellingův diagram pro všechny čtyři veličiny, který odhaluje výrazné překročení regulační meze na začátku a na konci směny. Obr. 91 ukazuje, že měřené veličiny spolu výrazně korelují (tvrdost - pevnost, hmotnost - tloušťka).
111
hmotnost 122.4 134.6 127.7 141.1 140.1 131.3 130.1 129.3 132.1 137.5 133.6 127.5 129.9 135.9 133.9 139.8 126.4 131.3 134.3 128.8 124.6 134.9 137.6 125.2 131.3 140.3 134.5 128.7
tloustka 12.10 12.97 12.41 13.5 13.43 12.83 12.66 12.60 12.77 13.18 12.90 12.27 12.49 13.17 13.06 13.39 12.33 12.69 12.71 12.77 12.26 13.24 13.33 12.63 13.00 12.65 12.41 13.31
pevnost 2.45 2.69 2.38 2.60 2.46 2.50 3.08 2.79 2.84 3.38 3.15 2.96 3.59 3.46 2.78 3.14 3.30 2.87 3.02 2.54 2.72 3.09 2.92 2.97 2.64 3.24 2.78 3.19
Tab. 11 Data z výroby tablet
112
tvrdost 1715 1728 1865 1830 1831 1792 1751 1774 1810 1734 1707 1732 1680 1702 1784 1726 1718 1770 1758 1822 1800 1764 1783 1756 1812 1795 1782 1741
12.2
12.6
13.0
13.4
• •
hmotnost • 13.4
•
12.8
12.2
•
• • •• • • • • • • • • •
• •• • • •• •
•
• •
•
•
•
1800
1700 •
•
•
• • •
•• • •
tloušťka
•
• •
•
135
• • • •• • • •
•
•
•• •
•
130
•
•
• • •
••
• •
•
•
•
•
• •
•• • • •
• • •
•
•
•
• •
••
•
• •
• • •• •
•
•
•
135
•
125
• 3.6
•
• • • • • • • • • •• • • • •• • • • • • • • • •
pevnost •
• •
•
•• •
•
•
• • •
•
•• • • • • • •• • • • • •• • • • • • • • • • •• • • • • • • • • • • • • • ••• •• • • • • • • •
•
•
1800
3.2 2.8 •
2.4
•
•• •
• • •
•
••
• •
•
•
•••
••
•
•
•
• • •
• •
•
•
•• • • • • •• • • • • • • • • • • • •
125
• •
• •
•
• ••
•
•
•
•
• ••
•
• •
• •• • • •• • • •• • • • • • •
• • ••
1700
• ••
•
• • •• •• •
• •
• •
•
••
•
•
• •• • • • • •• • •
•
• •• •
•
140
2.4
•
2.8
• • • •• • • •• • • • 3.2
tvrdost • 3.6
Obr. 91 Korelační struktura dat z lisovny (párové korelace)
Na následujících čtyřech Shewhartových diagramech na Obr. 92 až Obr. 95 se neprojevily žádné problémy. V párových rozptylových grafech jsou však patrné body, které se vymykají převažujícímu trendu (na Obr. 91 jsou označeny kroužkem). Tyto body jsou odhaleny pouze Hotellingovým diagramem (Obr.
96). Implementace vícerozměrného modelu vede tedy
k přesnější detekci odchylek v chování procesu.
Obr. 92 Regulační diagram X-individual pro Tloušťku
113
Obr. 93 Regulační diagram X-individual pro Pevnost
Obr. 94 Regulační diagram X-individual pro Tvrdost
Obr. 95 Regulační diagram X-individual pro Hmotnost
114
Mahalanobisova vzdálenost - Tablety
MD 6
robustní
5
klasická 4 3 2 1 0
Index 0
10
20
30
Obr. 96 Rozdíl mezi klasickou (plné kroužky) a robustní (prázdné kroužky) Mahalanobisovou vzdáleností v Hotellingově diagramu pro všechny proměnné
Použití robustního Hotellingova diagramu bylo tedy dosaženo větší citlivosti na výskyt vybočujících hodnot, které klasický Hotellingův diagram neodhalil. Nevýhoda klasického Hotellingova diagramu při porušení předpokladů je rovněž v tom, že jsou-li pro výpočet průměrů a kovarianční matice použita data s vybočujícími měřeními nebo nehomogenitami, mohou být chybně detekována jako nevyhovující i taková data, která vyhovují teoretickému modelu. To je zřejmé i z Obr. 96, kde klasické Mahalanobisovy vzdálenosti u bodů 13, 14, 16 a 17 jsou značně nadhodnoceny. 4.6
Technologické aplikace, indexy způsobilosti
Následující dva příklady dokumentují použití metody výpočtu indexů způsobilosti popsané v odstavci 2.7 v souvislosti s možným porušením normality. Příklad 1, normální rozdělení.
Automatická násypka s váhou dávkuje 50 kg meziproduktu v chemické technologii. Cílová hodnota je tedy T = 50kg, určené specifikační meze LSL = 47kg a USL = 53kg odpovídají předepsané směrodatné odchylce σ = 1kg. Z naměřených 28 dat mají být určeny indexy způsobilosti cp a cpk. Data: Hmotnosti automaticky dávkovaného meziproduktu v chemickém provozu (kg): 48.6
52.5
48.7
51.9
49.8
51.2
47.4
50.8
51.8
51
50.4
50.7
50.4
50.1
51.1
50.5
115
50
50.1
51.5
51
49.5
49.6
50.5
50.3
50.1
49.1
51.6
50.5
Následující tabulka uvádí výsledné hodnoty klasických indexů způsobilosti a indexu cpk podle vztahu ( 76). Protože test normality nevyvrátil na hladině významnosti α = 0.05 hypotézu, že data pocházejí z normálního rozdělení, je možné použít klasické indexy cp a cpk podle definice ( 39) a ( 41). Výsledné hodnoty jsou cp = 0.912 a cpk = 0.796. Pro srovnání je uvedena hodnota c´pk za předpokladu porušení normality, c´pk = 0.753, která se výrazně neliší od cpk. Graficky je situace ilustrována na Obr. 97. Počet dat N:
28
Průměr:
50.38
Klasické odhady
Směr. odch.:
1.096
cp = 0.912
Průměr −3sigma:
47.09
Průměr +3sigma:
53.67
Cílová hodnota:
ARL = 105
cpk = 0.796
c´pk = 0.753
50
Mimo SL
Mimo SL(%)
Mimo SL celkem
LSL:
47
0.00102
0.102
0.950
USL:
53
0.00848
0.848
0.4 0.3
Předpokládaný model procesu, N(50,1)
Model skutečného procesu
LSL=47
USL=53
0.2 Naměřená data
0.1
T=50
0.0
46
48
50
52
54 Navážka (kg)
Obr. 97 Index způsobilosti z pohledu symetrického rozdělení dat
Příklad 2, asymetrické rozdělení
Mechanická zkouška polymerního výrobku je reprezentována údaji o deformaci v desetinách milimetru. Požadovaná hodnota deformace je 10 se specifikačními mezemi 7 a 13. Z naměřených dat vyplývá, že se jedná o asymetrické rozdělení, test normality na hladině
116
významnosti α = 0.05 zamítnul hypotézu, že data pocházejí z normálního rozdělení, a není tedy možné použít klasické indexy cp a cpk podle definice ( 39) a ( 41). Hodnota c´pk za předpokladu porušení normality s použitím modelu rozdělení podle vzahů ( 56) v odstavci 2.5.4 vyšla c´pk = 0.595, ARL=26, která se výrazně liší od klasické hodnoty cpk, která vychází cpk = 0.797, ARL=138. Graficky je situace ilustrována na Obr. 98.
Data, průhyb desky (krytu) z polyuretanu [0.1 mm]: 8.27 11.41 10.67 11.22 11.17 9.65
10.99 10.98 10.76 10.91
9.99 10.51 11.6
9.42
10.32 10.36 10.7
8.83
11.41
11.2 10.04 10.86 10.63 11.63 10.67 12.25 11.13 9.89
11.45
7.37 10.95 9.98 12
11.1
10.85 9.99
10.77 10.71 11.1
8.48
11.75 10.95 10.2
11.45 10.74
11.16 11.04 11.76 9.14
9.36
Způsobilost procesu s asymetrickým rozdělením
0.50
LSL
T
USL
0.40
0.30
0.20
0.10
0.00
X 5
6
7
8
9
10
11
12
13
Obr. 98 Interpretace indexu způsobilosti pro asymetrická data
Pomocí techniky nelineární transformace dat byl odhadnut podíl zmetků pod a nad SL a pomocí vztahu ( 85)
1 1 c p = − FN−1 (Pzmet 2 ); resp. c pk = − FN−1 (Pzmet ) 3 3
( 85)
získat odpovídající index způsobilosti. Zde je P(x < LSL) = 0.0372; P(x > USL) ≈ 3×10−6; takže Pzmet = 0.0372 a odpovídající cp = 0.694; resp. cpk = 0.595.
117
5 Závěry V předložené disertaci bylo dosaženo následujících závěrů: 1. Programový systém QC-Expert
Metody, postupy a algorimy popsané v disertaci byly vyvinuty a upraveny na základě potřeb a požadavků výzkumných i průmyslových analytických pracovišť dle připomínek vyplývajících z povahy experimentálních a provozních dat chemické a fyzikální povahy. Reálná data totiž svými statistickými vlastnostmi neumožňují zcela správnou analýzu klasickými statistickými metodami založenými převážně na Gaussově rozdělení a výběrových předpokladech nezávislosti, homoskedasticity, linearity a homogenity. Implementace nových metod v kombinaci s autorovou pedagogickou aktivitou v rámci intenzivních kurzů pokročilých statistických metod pro laboratorní a technologická pracoviště podstatně zlepšila výkonnost některých procesů a umožnila hlubší náhled do jejich chování. Bylo prokázáno, že podstatná část dat z technologií a pracovišť analyticko-chemického charakteru a dat souvisejících s materiály, jejich vlastnostmi, testováním a výrobou má povahu vyžadující použití pokročilejších technik zpracování, které jsou běžně nedostupné, případně pro obsluhu neúnosně složité. Popisované chemometrické postupy, metodiky a jejich konkrétní aplikace byly již zčásti publikovány a jsou v současné době intenzivně využívány v podobě autorem vytvořeného aplikačního software QC-Expert na několika desítkách chemicko-analytických pracovišť na území ČR a SR, jejichž zkrácený seznam je v disertaci uveden. 2. Zpřesněný kalibrační model
Dosavadní kalibrační postupy běžně používané v analytické praxi předpokládají konstantní rozptyl měřené odezvy, který však ve skutečnosti často závisí na koncentraci. V disertaci je navržen obecnější postup, při němž je závislost chyby na koncentraci odhadována neparametricky z experimentálních dat. Místo zjednodušené přímkové závislosti směrodatné odchylky na koncentraci x, doporučované například v normě [ 46], byl v této disertaci pro predikci σ(x) použit jádrový odhad, který je flexibilnější a navíc zaručuje σ(x)>0. Tímto postupem bylo dosaženo až několikanásobné zvýšení přesnosti zpětného odhadu a snížení meze detekce. Byla demonstrována nezbytnost komplexnějšího použití regresní diagnostiky a statistické analýzy parametrů regresního kalibračního modelu k nalezení nejlepšího kalibračního modelu. Navržená metodika byla využita v systému QC-Expert.
119
3. Určení bodu ekvivalence instrumentální titrace
K vyhodnocení obecné instrumentální titrační křivky byl navržen nelineární regresní model s bodem nespojitosti, který je schopen dobře popsat bod ekvivalence u řady titračních křivek s lineárními nebo mírně nelineárními větvemi. Výhodou navrženého modelu je schopnost nalézt bod ekvivalence včetně jeho intervalu spolehlivosti, což dosud používané metody stanovení většinou neumožňují, ačkoliv se jedná o důležitý parametr kvality stanovení. Na základě testování významnosti regresních parametrů lze rozhodnout o linearitě či nelinearitě každé větve titrační křivky a pak použít nejlépe vyhovující model. Pomocí vhodné algoritmizace [ 154] lze vypočítat první odhady parametrů na základě dat a je tak možné výpočet nelineární regresí zcela automatizovat. Postup byl zařazen do systému QC-Expert, kde lze výpočty provádět v modulu Nelineární regrese. 4. Využití robustní regrese pro dvojúrovňovou analýzu rozptylu
Přítomnost i několika málo relativně malých odchylek způsobí u klasických postupů ANOVA fatální zhroucení celé analýzy a znehodnocení celého vyhodnocení experimentu. Klasickým postupem pak vycházejí všechny faktory nevýznamné, což by znamenalo, že žádný z uvedených faktorů nemá na výsledek analýzy statisticky významný vliv. Použitím robustního postupu na táž data byl správně odhalen významný vliv skutečně statisticky významných faktorů i přes deformaci způsobenou 4 chybnými daty. Spolehlivost robustních postupů se dále zvyšuje opakováním některých měření, aby vzrostl počet stupňů volnosti systému ν = N – M.(M + 1)/2 – 1, kde N je počet měření a M počet faktorů.
Použitím robustních metod regrese se lze totiž vyhnout řadě chybných závěrů. Nebezpečí spočívá hlavně v tom, že nesprávnost výsledků klasické metody nejmenších čtverců je často maskovaná a nelze ji spolehlivě odhalit. Je však nutno říci, že přes dobré výsledky robustních metod, není žádná metoda stoprocentně spolehlivá a ke všem výsledkům a analýzám je třeba přistupovat s opatrností a využívat co nejvíce doporučených regresních diagnostických nástrojů. 5. Autoregresní model ve stabilitě chemických analýz
Většina dat z rutinních chemických analýz v technologii, ekologii, biochemii porušuje předpoklad nezávislosti dat [ 170], [ 180], [ 189]. Vyhodnocení stability závislých dat klasickými Shewhartovými diagramy je obtížné a často prakticky nemožné [ 173], [ 176], [ 184]. V disertaci byly místo Shewhartových diagramů použity regulační diagramy založené na
120
autoregresních modelech [ 89], [ 84], [ 85], [ 87], [ 89]. Stabilitou sledovaného procesu se pak rozumí stabilita autoregresního modelu navrženého na základě zvolené části dat. Navržené modely dobře vyhovovaly reálným naměřeným datům a umožnily diagnostikovat vybočující hodnoty i v případech, kdy dosud užívané klasické Shewhartovy diagramy zcela selhávaly. 6. Vícerozměrné modely v kontrole kvality
Použití vícerozměrných technik při kontrole kvality bylo navrženo a zaměřeno především na Hotellingovy regulační diagramy založené na Mahalanobisově vzdálenosti a Hotellingově rozdělení. Bylo poukázáno na nutnost použití těchto diagramů pro popis a testování stability a vybočujících bodů vícerozměrné náhodné proměnné namísto série diagramů Shewhartových pro jednotlivé složky této proměnné. Vedle klasické Mahalanobisovy vzdálenosti DM = (x − µ)TS−1(x − µ) byla navržena a použita její robustní modifikace DMR = (x − µR)TS−1(x − µR), kde µR představuje robustní M-odhad vektoru středních hodnot.
Navržená metoda pak vykazuje větší citlivost vůči vícerozměrným vybočujícím hodnotám a byla úspěšně využita ke sledování stability ve farmaceutické technologii a při sledování chemického složení slinku. Metoda byla zařazena do systému QC-Expert. 7. Indexy způsobilosti v kontrole kvality
Indexy způsobilosti cp a cpk jsou nejčastěji používanými statistikami pro hodnocení kvality, tj. schopnosti dané veličiny vyhovět požadované specifikaci. Používané vztahy pro výpočet indexů jsou založeny na normálním rozdělení a předpokládají zadání cílové hodnoty T a obou specifikačních mezí LSL a USL, které však musí být symetrické. Data z chemických analýz a průmyslové praxe většinou těmto požadavkům neodpovídají.
Postupy navržené
v disertaci jsou založeny na pravděpodobnostní interpretaci míry způsobilosti a asymetrických modelech rozdělení a byly použity pro vyhodnocení způsobilosti pro řadu chemických a fyzikálních parametrů, pro něž se udává jen jedna mez a chybí cílová hodnota, případně je cílová hodnota nulová (například koncentrace škodlivin, deformace). Navržený postup tvoří samostatný blok systému QC-Expert.
121
6 Přílohy
6.1
Zdrojové texty v S-Plus
6.1.1 Analýza jednorozměrných výběrů # Grafická exploratorní analýza dat (EDA) # Author of the code: Karel Kupka ####################################################### # S-Plus source code for univariate EDA. ####################################################### # Explanation of some of the used functions: # # x_y ............ assign (store) y to x # log(x) ......... natural logarithm # 1:10 ........... sequence of integers 1, 2, 3, ... , 10 as vector # seq(a,b,length=n) .... sequence of n eqiuidistant numbers from a to b as vector # length (x) ..... number of elements of x # rep(x,n) ....... a vector of n equal values x # sort(x) ........ sorted x # trunc(x) ....... integer part of x # var(x) ......... sample variance of vector x # diff(x) ........ vector of serial differences of x (of length n-1, where n is the length of x) # plot(x,y), lines(x,y), points(x,y) .... plots the data as lines or points # abline(h=r) .... draws a horizontal line at r # abline(v=r) .... draws a vertical line at r # polygon(x,y) ... draws a polygon # lwd ............ line width # cumsum(x) ...... a vector of cummulative sums of x with elements x[1], x[1]+x[2], x[1]+x[2]+x[3], ... # rnorm(n) ....... generate vector of length n of normally distributed values N(0,1) # runif(n) ....... generate vector of length n of uniformly distributed values U(0,1) # dnorm(x,a,b) ... generate vector of normal density function N(a,b^2) at all values of vector x # qnorm(p,a,b) ... generate vector of normal quantiles N(a,b^2) at all values of probability vector p # x[1:5] ......... first 5 elements of vector x # x[-5] .......... all elements of vector x except the 5th # x[x>3] ......... all elements of vector x that fulfill the condition #x_c(5,3,4,3,6,2,5,6,4,6,7,9,4,3,2,5,4,11,7,17,14,2,4,5) #x_exp(rnorm(100)/6)*3 ######### Testing Data ############################## #x_c(45,42,41,48,54,52,50,39,48,59,52,48,49,47,40,54,53,56,55,65,62,44,43) ############################################# ################### Histogram - Clssical ########################x tb.hist1_function(x) { n_length(x) x1_min(x);x2_max(x) nclass_trunc(2.46*(n-1)^0.4) classbd_seq(x1,x2,length=nclass+1) counts_rep(0,nclass) counts[1]_length(x[x
123
} ################### Histogram - Classical, Cummulative ########################x tb.cumhist1_function(x,pltbars=T) { n_length(x) x1_min(x);x2_max(x) nclass_trunc(2.46*(n-1)^0.4) classbd_seq(x1,x2,length=nclass+1) counts_rep(0,nclass) counts[1]_length(x[x
124
centers_(classbd[-1]+classbd[-(nclass+1)])/2 xlbl_"Quantile";ylbl_"Prob";lbl_"Variable class cummulative histogram" plot(classbd[1],0,type="n",xlim=range(x),ylim=c(0,1),lwd=2,xlab=xlbl,ylab=ylbl,main=lbl) if (pltbars) for (i in 1:nclass) { xbox_c(classbd[i],classbd[i+1],classbd[i+1],classbd[i]) ybox_c(0,0,areas[i],areas[i]) polygon(xbox,ybox,density=6,lwd=2) } lines(centers,areas,lwd=2,col=8) } ########################## QQ - Plot ############################## tb.qqplot_function(x) { xs_sort(x) n_length(x) probs_(1:n)/(n+1) quans_qnorm(probs) xlbl_"Q-Norm";ylbl_"Q-Data";lbl_"Normal QQ-Plot" plot(quans,xs,lwd=2,xlab=xlbl,ylab=ylbl,main=lbl) abline(mean(x),sqrt(var(x)),lwd=2) } ########################## Scatter Plot ############################## tb.scatter_function(x) { n_length(x) yg1_rep(0.75,n) yg2_runif(n)*0.4+0.05 xlbl_"Data";ylbl_" ";lbl_"Scatter plot" plot(x,yg2,lwd=2,ylim=c(0,1),xlab=xlbl,ylab=ylbl,main=lbl,yaxt="n") points(x,yg1,lwd=2) } ########################## (Gauss) Kernel Density Estimate ############################## tb.kern_function(x) { n_length(x) xs_sort(x) xmean_mean(x) xstdev_sqrt(var(x)) x1_min(x);x2_max(x);xd_x2-x1 ngr_200 xgr_seq(x1-0.6*xd,x2+0.6*xd,length=ngr) ygauss_dnorm(xgr,xmean,xstdev) ykern_rep(0,ngr) for(i in 1:n) ykern_ykern+dnorm(xgr,x[i],xstdev/log(n)) ykern_ykern/n ymax_max(ygauss,ykern) ymin_-0.05*ymax xlbl_"Data";ylbl_"Dens";lbl_"Kernel density estimate" plot(xgr,ygauss,type="l",lwd=2,ylim=c(ymin,ymax)) lines(xgr,ykern,lwd=2,lty=4) points(x,-runif(n)*0.05*ymax) } ########################## Boxplot ############################### tb.boxplt_function(x) { n_length(x) xs_sort(x) x1_min(x);x2_max(x) xmed_median(x) iFh_trunc(3*n/4) iFd_trunc(n/4-1e-10)+1 Fh_xs[iFh] Fd_xs[iFd] Rf_Fh-Fd Bh0_Fh+1.5*Rf Bd0_Fd-1.5*Rf Bh_max(x[x<=Bh0]) Bd_min(x[x>=Bd0]) Id_xmed-pi/2*Rf/sqrt(n) Ih_xmed+pi/2*Rf/sqrt(n) # notched box plot
125
xx_c(Fd,Id,xmed,xmed,Ih,Fh,Fh,Ih,xmed,xmed,Id,Fd,Fd) yy_c(0,0,0.5,1.5,2,2,0,0,0.5,1.5,2,2,0) xlbl_"Data";ylbl_"";lbl_"Box and notched box plot" plot(0,0,type="n",xlim=c(x1,x2),ylim=c(0,5),lwd=2,xlab=xlbl,ylab=ylbl,main=lbl,yaxt="n") polygon(xx,yy,density=0,lty=1,lwd=2) segments(Bd,1,Fd,1,lty=1,lwd=2) segments(Bd,0.7,Bd,1.3,lty=1,lwd=2) segments(Bh,1,Fh,1,lty=1,lwd=2) segments(Bh,0.7,Bh,1.3,lty=1,lwd=2) xout_x[(xBh)] nout_length(xout) if (nout>0) points(xout,rep(1,nout)) # Plain box plot xx_c(Fd,xmed,xmed,Fh,Fh,xmed,xmed,Fd,Fd) yy_c(3,3,5,5,3,3,5,5,3) polygon(xx,yy,density=0,lty=1,lwd=2) segments(Bd,4,Fd,4,lty=1,lwd=2) segments(Bd,3.7,Bd,4.3,lty=1,lwd=2) segments(Bh,4,Fh,4,lty=1,lwd=2) segments(Bh,3.7,Bh,4.3,lty=1,lwd=2) if (nout>0) points(xout,rep(4,nout)) } ########################## Quantile plot w/boxes ############################### tb.qbox_function(x) { n_length(x) xs_sort(x) x1_min(x);x2_max(x) Pri_((1:n)-1/3)/(n+1/3) xmed_median(x) iFh_trunc(3*n/4) iFd_trunc(n/4-1e-10)+1 Fh_xs[iFh] Fd_xs[iFd] Rf_Fh-Fd Id_xmed-pi/2*Rf/sqrt(n) Ih_xmed+pi/2*Rf/sqrt(n) PqL_0.25;PqU_0.75 PoL_0.125;PoU_0.875 PsL_0.0625;PsU_0.9375 xmin_min(x,Id) xmax_max(x,Ih) xlbl_"probability";ylbl_"Data";lbl_"Quantile plot with boxes" plot(Pri,xs,lwd=2,xlab=xlbl,ylab=ylbl,main=lbl,xlim=c(0,1),ylim=c(xmin,xmax)) lines(Pri,xs,lwd=2) segments(0.25,xmed,0.75,xmed,lty=1,lwd=2) segments(0.5,Id,0.5,Ih,lty=1,lwd=2) segments(0.48,Ih,0.52,Ih,lty=1,lwd=4) segments(0.48,Id,0.52,Id,lty=1,lwd=4) # quartiles iL_PqL*(n+1/3)+1/3 iL1_trunc(iL) iLd_iL-iL1 xL_xs[iL1]+iLd*(xs[iL1+1]-xs[iL1]) iU_PqU*(n+1/3)+1/3 iU1_trunc(iU) iUd_iU-iU1 xU_xs[iU1]+iUd*(xs[iU1+1]-xs[iU1]) xx_c(0.25,0.75,0.75,0.25,0.25) yy_c(xL,xL,xU,xU,xL) polygon(xx,yy,density=0,lty=1,lwd=2) # octiles if (n>5) { iL_PoL*(n+1/3)+1/3 iL1_trunc(iL) iLd_iL-iL1 xL_xs[iL1]+iLd*(xs[iL1+1]-xs[iL1]) iU_PoU*(n+1/3)+1/3 iU1_trunc(iU) iUd_iU-iU1 xU_xs[iU1]+iUd*(xs[iU1+1]-xs[iU1]) xx_c(0.125,0.875,0.875,0.125,0.125) yy_c(xL,xL,xU,xU,xL)
126
polygon(xx,yy,density=0,lty=1,lwd=2) } # sedeciles if (n>10) { iL_PsL*(n+1/3)+1/3 iL1_trunc(iL) iLd_iL-iL1 xL_xs[iL1]+iLd*(xs[iL1+1]-xs[iL1]) iU_PsU*(n+1/3)+1/3 iU1_trunc(iU) iUd_iU-iU1 xU_xs[iU1]+iUd*(xs[iU1+1]-xs[iU1]) xx_c(0.0625,0.9375,0.9375,0.0625,0.0625) yy_c(xL,xL,xU,xU,xL) polygon(xx,yy,density=0,lty=1,lwd=2) } } ########################## Midsum Plot ############################### tb.midsum_function(x) { n_length(x) xs_sort(x) xs1_-sort(-x) x1_min(x);x2_max(x) xmed_median(x) n2_trunc(n/2) xm_(xs1[1:n2]+xs[1:n2])/2 xlbl_"x(i)";ylbl_"Midsum";lbl_"Midsum plot" plot(xs[1:n2],xm,lwd=2,xlab=xlbl,ylab=ylbl,main=lbl) abline(h=xmed,lwd=2) } ########################## Symetry Plot ############################### tb.symet_function(x) { n_length(x) xs_sort(x) xs1_-sort(-x) x1_min(x);x2_max(x) xmed_median(x) n2_trunc(n/2) xsym_(xs1[1:n2]+xs[1:n2])/2 xx_0.5*qnorm((1:n2)/(2*n2+1))^2 xlbl_"X";ylbl_"Symetry";lbl_"Symetry plot" plot(xx,xsym,lwd=2,xlab=xlbl,ylab=ylbl,main=lbl) abline(h=xmed,lwd=2) } ########################## Kurtosis Plot ############################### tb.kurto_function(x) { n_length(x) xs_sort(x) xs1_-sort(-x) x1_min(x);x2_max(x) n2_trunc(n/2) probi_(1:n)/(n+1) xkur_-(xs1-xs)/(2*qnorm(probi)) xx_0.5*qnorm(probi)^2 xlbl_"X";ylbl_"Y";lbl_"Kurtosis plot" plot(xx,xkur,lwd=2,xlab=xlbl,ylab=ylbl,main=lbl) } ########################## EXAMPLE: ############################### x_exp(rnorm(100)/6)*3 par(mfrow=c(3,4)) tb.hist1(x) tb.hist2(x) tb.cumhist1(x) tb.cumhist2(x) tb.qqplot(x) tb.scatter(x) tb.kern(x) tb.boxplt(x) tb.qbox(x)
127
tb.midsum(x) tb.symet(x) tb.kurto(x) par(mfrow=c(1,1))
128
Grafický výstup výše uvedené základní verze: Cumulative histogram
4.0
4.5
5.0
2.0
2.5
3.0
3.5
4.0
Data
Normal QQ-Plot
Scatter plot
4.5
5.0
Prob
0.4 0.2 0.0
0.0
0.2 3.5 Data
0.6
0.8
1.0 0.8 0.6
Prob 0.4 0.0
3.0
2.0
2.5
3.0
3.5
4.0
4.5
5.0
2.0
2.5
3.0
Quantile
3.5
4.0
4.5
5.0
Quantile
Box and notched box plot
0.6 0.2
0.4
ygauss
3.5 4.0 3.0
0.0
2.0 2.5 -2
-1
0
1
2
2.0
2.5
3.0
3.5
4.0
4.5
5.0
0
1
2
3
4
5
6
2.0
2.5
3.0
3.5
4.0
xgr
Data
Quantile plot with boxes
Midsum plot
Symetry plot
Kurtosis plot
1.0
Y
3.3
Symetry
3.3
0.5
3.1
Midsum
3.1
3.2
2.0 2.5 3.0 3.5 4.0
1.5
3.4
4.5
3.4
Data
4.5 5.0
Q-Norm
3.2
Q-Data
0.4
Dens
0.8
15 10
Count
5 0
2.5
4.5 5.0
2.0
Data
Variable class cummulative histogram 1.0
Variable class histogram 1.2
Histogram
0.0
0.2
0.4
0.6
probability
0.8
1.0
2.0
2.2
2.4
2.6
2.8
3.0
0.0
0.5
x(i)
1.0
1.5
2.0
2.5
0.0
0.5
1.0
X
Další grafy: # Graf rozptyleni s kvantily ******************************** xx_(1:N)/(N+1) plot(xx,sort(x),main=lab.rkvan,xlab="Osa X",ylab="Osa Y") lines(xx,sort(x)) xQ_c(0.25,0.75,0.75,0.25) yQ_quantile(x,c(0.25,0.25,0.75,0.75)) polygon(xQ,yQ,density=0) xO_c(0.125,0.875,0.875,0.125) yO_quantile(x,c(0.125,0.125,0.875,0.875)) polygon(xO,yO,density=0) xS_c(0.0625,1-0.0625,1-0.0625,0.0625) yS_quantile(x,c(0.0625,0.0625,1-0.0625,1-0.0625)) polygon(xS,yS,density=0) segments(0.25,median(x),0.75,median(x)) segments(0.5,median(x)-2*mad(x)/sqrt(2*N),0.5,median(x)+2*mad(x)/sqrt(2*N),lwd=3) # Pravdepodobnostni graf ****************************************** xx_(1:N)/(N+1) #Normal: x1_sort((x-mean(x))/sqrt(var(x))) plot(xx,pnorm(x1),main=lab.pp,type="l",xlab="Osa X",ylab="Osa Y") #Uniform: x1_sort( x-min(x) ) / diff(range(x)) lines(xx,punif(x1),lty=4) #Laplace x1_sort((x-median(x))/mad(x)) y1_0.5*exp(x1[x1<=0]) y2_0.5*(2-exp(-x1[x1>0])) y1_c(y1,y2) lines(xx,y1,lty=2) abline(0,1) legend(0,1,c("Normal","Uniform","Laplace"),lty=c(1,4,2))
129
1.5 X
2.0
2.5
5.0
# Kruhovy graf ******************************************************* xs_sort(x) N_length(x) x0_qnorm((1:N)/(N+1)) r20_1/sqrt(N*(N-1)/2) r21_(xs-mean(xs))/sqrt(var(xs)) r21a_x0 zz_pnorm(r21) zza_pnorm(r21a) r21_zz r21a_zza aa_cumsum(r20*cos(r21*pi)) bb_cumsum(r20*sin(r21*pi)) aa_aa-min(aa)+0.01 aaa_cumsum(r20*cos(r21a*pi)) bba_cumsum(r20*sin(r21a*pi)) aaa_aaa-min(aaa)+0.01 aa_c(aa,-aa,aa[1]) bb_c(bb,max(bb)+min(bb)-bb,bb[1]) aaa_c(aaa,-aaa,aaa[1]) bba_c(bba,max(bba)+min(bba)-bba,bba[1]) plot(aa,bb,type="l",xlim=c(min(c(aa,aaa)),max(c(aa,aaa))), ylim=c(min(c(bb,bba)),max(c(bb,bba))) ,main=lab.kruh,xlab="Osa X",ylab="Osa Y" ) lines(aaa,bba,col=4) }
Grafický výstup verze doplněné o další grafy:
19
20
21
22
Osa Y
0.0
23
16
20
22
Kvantil-kvantilovy graf
Diagramy rozptyleni
Graf polosum
19.8
Osa Y
24
20.2
x
Osa Y
Osa X
-1
0
1
2
18
Graf spicatosti
Kvantilovy graf
Osa Y
0.0
Osa Y
-1.5 0.4
0.6
0.8
1.0
1.2
1.4
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
0.2
0.4
0.6
0.8
Osa X
Osa X
Osa X
Graf rozptyleni s kvantily
P-P graf
Kruhovy Graf
0.2
0.4
0.6 Osa X
0.8
0.8 Osa Y
0.0
0.4
0.8 0.4 0.0
Osa Y
Normal Uniform Laplace
21
18 19 20 21 22
Graf symetrie 1.0
Osa X
20.2
0.2
20
Osa X
18 19 20 21 22
0.0
19
Osa X
19.8
Osa Y
18
Osa X
-2
Osa Y
0.2
0.4
Hustota pravdepodobnosti
18 19 20 21 22
Osa Y
Osa Y 18
18 19 20 21 22
17
Osa Y
Vrubovy krabicovy graf
0 2 4 6 8 10
Histogram
0.2
0.4
0.6 Osa X
130
0.8
-0.4
-0.2
0.0 Osa X
0.2
0.4
6.1.2 Analýza autokorelace # Autokorelace - graf autokorelační funkce s konfidenčními intervaly # Author of the code: Karel Kupka autokor_function(X1,alfa=0.05,maxrad=5) { MN_length(X1) max.rad.autokorelace_maxrad x0_mean(X1)
0.0 -0.2 -0.4
ro
0.2
0.4
ro_0;ro.krit_0 for (rad in 1:max.rad.autokorelace) { MR_MN-rad s1_0 for (i in 1:MR) s1_s1+(X1[i+rad]-x0)*(X1[i]-x0) s1_s1/(MN-1) s2_var(X1) ro[rad]_s1/s2 t3_ro[rad]/sqrt(1-ro[rad]*ro[rad]) *sqrt(MR-2) t4_qt(1-alfa,MR-2) zaver_"nevyznamny" if (abs(t3)>t4) zaver_"vyznamny" ro.krit[rad]_sqrt(1/(1+(MR-2)/t4^2)) prav_1-pt(abs(t3),MR-2) cat("Rad:",rad,"Kor:",ro[rad]," ",zaver," ",prav," ro(krit)=",ro.krit[rad],"\n") cat("t3:",t3,"t4:",t4,"\n") } # next rad plot(ro,ylim=c(min(c(ro,-ro.krit)),max(c(ro,ro.krit))),type="l",xlab="Rad autokorelace") lines(ro.krit,col=8) lines(-ro.krit,col=8) abline(h_0) } autokor(rnorm(30))
2
4
6
8 Rad autokorelace
131
10
12
14
6.1.3 Transformace dat #--------------------------- Transformacni funkce --------------------# Author of the code: Karel Kupka
trans.new_function(x,r) { y_0 if (r==0) y_x if (r< 0) for ( i in 1:length(x) ) { if (x[i]<0) y[i]_(1/r)*(log(r*x[i]+1)) else y[i]_(-1/r)*(exp(-r*x[i])-1) } if (r> 0) for ( i in 1:length(x) ) { if (x[i]<=0) y[i]_-(1/r)*(exp(r*(-x[i]))-1) else y[i]_(1/r)*(log(r*x[i]+1)) } y } ## Inverzni transformace trans.new.inv_function(x,r) { y_0 if (r==0) y_x if (r< 0) for ( i in 1:length(x) ) { if (x[i]<0) y[i]_(exp(x[i]*r)-1)/r else y[i]_-log(-x[i]*r+1)/r } if (r> 0) for ( i in 1:length(x) ) { if (x[i]<=0) y[i]_-log(-x[i]*r+1)/r else y[i]_(exp(x[i]*r)-1)/r } y } ## Derivace transformace (numericky) podle x trans.new.der_function(x,r) { dd_0.0001 ( trans.new(x+dd/2,r)-trans.new(x-dd/2,r) ) / dd } #---------------------Sikmost ------------------------------------------skew_function(x){ n_length(x) dd_x-mean(x) (sum(dd*dd*dd)/var(x)^(1.5))/(n-1) } ############################ Optimalizace r pro sikmost: # vcetne 95% konfidencniho intervalu opt.R_function(x) { r_-8 d1_0.5 N_length(x) obj0_skew(trans.new(x,r)) while(abs(d1)>1e-3) { skw_skew(trans.new(x,r)) r_r+d1 #cat( r," ## ",d1," ## ",skw,"\n") if( skw < 0 ) {r_r-2*d1;d1_0.5*d1} } list(r=r,Q.0025=r-1/sqrt(N)*2.9,Q.0975=r+1/sqrt(N)*2.9) } ######################### Pouziti trans.new:
132
eda.trans_function(x) { N_length(x) x0.prum_mean(x) x0.smod_sqrt(var(x)) x0.norm_(x-x0.prum)/x0.smod rr_opt.R(x0.norm)$r x1_trans.new(x0.norm,rr) x1.prum_mean(x1) x1.smod_sqrt(var(x1)) pra1_c(0.0025,0.005,0.01,0.015,0.02,0.025,0.03,0.05,0.0625,0.075,0.1,0.125,0.15,0.2,0.25) pra1_c(pra1,0.5,1-rev(pra1)) kv1_qnorm ( pra1 , x1.prum , x1.smod )
TriSig1_c(x1.prum-3*x1.smod,x1.prum+3*x1.smod) DveSig1_c(x1.prum-2*x1.smod,x1.prum+2*x1.smod) Konf1_c( x1.prum-qt(0.975,N-1)*x1.smod / sqrt(N) , x1.prum+qt(0.975,N-1)*x1.smod / sqrt(N) ) x2.smod_ 1/trans.new.der(x1.smod,rr)*x1.smod x2.prum_ TriSig2_ DveSig2_ Konf2_
trans.new.inv(x1.prum,rr) trans.new.inv(TriSig1,rr) trans.new.inv(DveSig1,rr) trans.new.inv(Konf1 ,rr)
* * * *
x0.smod x0.smod x0.smod x0.smod
+ + + +
x0.prum x0.prum x0.prum x0.prum
kv2_ trans.new.inv(kv1,rr) * x0.smod + x0.prum kv.gr_qnorm((1:99)/100,x1.prum,x1.smod) hust.gr_dnorm(kv.gr,x1.prum,x1.smod) hgt_max(hust.gr) kv.gr2_trans.new.inv(kv.gr,rr)*x0.smod+x0.prum ### --------------Graf hustoty po transformaci---------plot(kv.gr2, hust.gr,type="l", xlim=range(c(x,TriSig2,kv.gr2)) ,ylim=c(-0.1*hgt,hgt)) points(x,-0.1*hgt*runif(N)) abline(h=0) abline(v=mean(x),col=8) abline(v=x2.prum,col=4) abline(v=TriSig2,col=6) abline(v=Konf2,col=5) abline(v=DveSig2,col=6) # abline(v=kv2,col=3) ### --------------Graf sikmosti pro transformaci---------skw_0 i_1 rs_seq(-5,5,length=60) # 60 čísel od -5 do 5 for (r in rs) { skw[i]_skew(trans.new(x0.norm,r)) i_i+1 } plot(rs,skw,type="l",xlab="Parametr transformace",ylab="g1") abline(h=0,col=8) abline(v=0,col=4) abline(v=opt.R(x0.norm)$r,col=8) abline(h=c( sqrt(6/N), -sqrt(6/N)) ) if( abs(skew(trans.new(x0.norm,0)))>sqrt(6/N)) transf.str_"ANO" else transf.str_"NE" ### -------------- QQ Graf bez transformace ---------kv0_(1:N)/(N+1) x00_qnorm(kv0) plot(sort(x0.norm),x00) abline(0,1) ### -------------- QQ Graf po transformaci ----------
133
plot((sort(x1)-x1.prum)/x1.smod,x00) abline(0,1) cat("Optimální parametr ", rr, "\n") cat("Oprávněnost transformace ", transf.str, "\n") cat("Opravený průměr ", x2.prum, "\n") cat("Interval spolehlivosti ", "\n") cat("Spodni ", Konf2[1], "\n") cat("Horni ", Konf2[2], "\n") cat("LCL ", TriSig2[1], "\n") cat("UCL ", TriSig2[2], "\n") cat("LWL ", DveSig2[1], "\n") cat("UWL ", DveSig2[2], "\n") cat("Významné opravené kvantily ", "\n") QN_length(kv2) for (i in 1:(QN/2)) cat(" ", pra1[i]," ... ",kv2[i]," ... ",kv2[QN-i+1], "\n") cat("------------------------------------------------------------------------------") }
5 g1
0.2
-5
0.0
0
0.1
hust.gr
0.3
10
0.4
################################################## Použití: x_rweibull(150,1.5);eda.trans( x )
0
1
2
3
4
5
-4
2
4
2 1 -2
-1
0
x00
1 0 -2
-1
x00
0
Parametr transformace
2
kv.gr2
-2
-1
0
1
2
3
4
-2
sort(x0.norm)
-1
0
1
2
(sort(x1) - x1.prum)/x1.smod
6.1.4 Optimalizace kvadratické responsní plochy ################################################################################ # Optimalizace kvadratické responsní plochy #
134
################################################################################ # Author of the code: Karel Kupka
resp.surf.q1_function(x,y,graf=F) { N_dim(x)[1] # pocet radku M_dim(x)[2] # pocet sloupcu if ( N < (M*(M-1)/2+2*M+2) ) stop("Prilis malo radku!") xmean_apply(x,2,mean) xdev_sqrt(apply(x,2,var)) x_t((t(x)-xmean)/xdev)
# Prumery sloupcu # Smerodatne odchylky sloupcu # Normovani x
# konstrukce matice xx pro regresi xa_x^2 xc_x xd_rep(1,N) xb_matrix(rep(0,N*0.5*M*(M-1)),nrow=N)
# # # #
xa(N,M) xc(N,M) xd(N), same jednicky xb(N,M*(M-1)/2)
for (k in 1:N) {Z_1 for (i in 1:(M-1)) for (j in (i+1):M) {xb[k,Z]_x[k,i]*x[k,j] Z_Z+1 } } xx_cbind(xa,xb,xc,xd) # spojeni matic xa,xb,xc,xd vedle sebe rr_t(xx) %*% xx # t je transpozice, %*% je nasobeni matic eig.xx_eigen(rr)$values # vlastni cisla matice (vektor) rr_solve(rr) # solve je invertace (MATINV) r_rr %*% t(xx) %*% y # regrese paraboloidu (Xt X)-1 * Xt y (vektor [M*(M1)/2+2*M+1] ) A_diag(r[1:M]) # rekonstrukce matice A ( Diagonala matice A ) Z_1 for (i in 1:(M-1)) # Ostatni prvky matice A(M,M) (symetricka) for (j in (i+1):M) { A[i,j]_r[M+Z] A[j,i]_A[i,j] Z_Z+1 } B_r[(M*(M-1)/2+M+1):(M*(M-1)/2+2*M)] # rekonstrukce vektoru B C_r[M*(M-1)/2+2*M+1] # rekonstrukce konstanty C x.opt.std_-0.5*solve(A)%*%B # výpočet extremu paraboloidu (M) x.opt_x.opt.std*xdev+xmean # transformace do pův. souřadnic y.vyp_y # rekonstrukce naměřených y resid_y # rezidua y.var_var(resid) r.cov_rr*y.var # kovarianční matice parametrů r r.var_diag(r.cov) # vektor variancí parametrů r(Nr) - vektor, diagonala Nr_length(r.var) r0.std_sqrt(r.var[Nr]) # Hat matrix: H_ xx %*% solve ( t(xx) %*% xx ) %*% t(xx) H.diag_diag(H) # H se vymaze! for (i in 1:N) { xi_as.vector(x[i,]) # i-ty radek y.vyp[i]_t(xi) %*% A %*% xi + t(xi) %*% B + C resid[i]_y[i]-y.vyp[i]
135
} eig_eigen(A)$values det_prod(eig) # determinant ( DETERM(A) ) nasobeni if (graf) { par(mfrow=c(2,2)) plot(y.vyp,y,main="Prolozeni") l_lsfit(y.vyp,y) abline(l,col=2) s.resid_sqrt(var(resid)) plot(resid/s.resid,main="Graf rezidui");abline(h=0,col=2) qqnorm(resid,main="QQ-graf") plot(H.diag, main="Graf vlivnych bodu") lines(H.diag) abline(h=2*Nr/N,lty=2,col=2) abline(h=mean(H.diag),lty=2,col=4) } x0_x.opt.std y.opt_((t(x0) %*% A) %*% x0) + (t(x0) %*% B) + C ########## Vystupy: #################### cat("Optimalizace responsni plochy, analyticka","\n\n") cat("Pocet promennych","\t",M,"\n") cat("Pocet dat","\t",N,"\n") cat("Stupnu volnosti","\t",N-(M*(M-1)/2+2*M+2),"\n") rsc_sum(resid^2) s.res_sqrt(var(resid)) yprum_mean(y) csc_sum((y-yprum)^2) kappa_max(eig.xx)/min(eig.xx) typ_"Sedlovy bod!" a_sum(sign(eig)) if (a==length(eig)) typ_"Minimum" if (a==-length(eig)) typ_"Maximum" cat("Typ stacionarniho bodu:","\t",typ,"\n") # if (!(typ=="Sedlovy bod!")) # ! znamena NOT { cat("Stacionarni bod \t X0 \t dolni mez \t for (i in 1:M) { #sx_sqrt(abs(2*r0.std/A[i,i])) * xdev[i]
horni mez","\n")
sx_sqrt(abs(2*s.res/A[i,i])) * xdev[i] cat("Sloupec",i,"\t",x.opt[i],"\t",x.opt[i]-sx,"\t",x.opt[i]+sx, "\n") } #FOR } #IF cat("\n") cat("Odhad hodnoty v X0:","\t", y.opt,"\n") cat("Interval spolehlivosti:","\t", y.opt+2*s.res,"\n") cat(" ","\t", y.opt-2*s.res,"\n") cat("\n") cat("Prumerna chyba:","\t", sum(abs(resid))/length(resid),"\n" ) cat("Rezidualni soucet ctvercu:","\t", rsc ,"\n") cat("Rozptyl rezidui:","\t", var(resid) ,"\n") cat("Cislo podminenosti planu:","\t",kappa,"\n") if(kappa>1000) cat("Plan je spatne podmineny (kolinearita)!","\n") cat("Korelacni koeficient:","\t", sqrt(abs(1-(rsc/csc))),"\n") cat("\n") cat("Determinant:","\t",det,"\n") # cat("---------------------------\n") # cat("A:",sign(diag(A)),"\n") # cat("E:",sign(eig),"\n") list(x.opt=x.opt, y.vyp=y.vyp, resid=resid, A=A, B=B, C=C) }
136
########################################################## ## Příklad použití: resp.surf.q1(x,y,graf=T) Optimalizace responsni plochy, analyticka Pocet promennych 2 Pocet dat 16 Stupnu volnosti 9 Typ stacionarniho bodu: Maximum Stacionarni bod X0 dolni mez horni mez Sloupec 1 3.07830559531738 1.03550939660476 Sloupec 2 6.1076424129419 4.37576686919817
5.12110179402999 7.83951795668563
Odhad hodnoty v X0: 59.1019056758708 Interval spolehlivosti: 73.9775143345155 44.226297017226 Prumerna chyba: 6.09350968212975 Rezidualni soucet ctvercu: 861.847620420768 Rozptyl rezidui: 55.3209332412867 Cislo podminenosti planu: 41.4779294196239 Korelacni koeficient: 0.87703430664633 Determinant:
59.0202992492191
Graf rezidui
0 -1
30 0
-2
10
20
y
40
resid/s.resid
50
1
60
Prolozeni
30
40
50
60
5
10
y.vyp
Index
QQ-graf
Graf vlivnych bodu
15
0.4
0.6
H.diag
-5
0.2
-10 -15
resid
0
5
0.8
10
20
-2
-1
0
1
2
5
Quantiles of Standard Normal
10 Index
137
15
6.1.5 Lineární regrese # This is an S-Plus code for a regression analysis and regression diagnostics # NOTE: # Since there is difference in determinant function det between versions 4.x and 6.0, # you will have to use the proper lines in two places of the code like: # #d0_det(as.Matrix(korxx),logarithm=F)$modulus[[1]] # determinant korxx ## S-PLUS 4.X #d0_det(korxx) # determinant korxx ## S-PLUS 6.0 # Author of the code: Karel Kupka # Durbin-Watson critical values: durbinl_c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1.08, 0.95,0.82,0.69,0.56,1.1,0.98,0.86,0.74,0.62,1.13,1.02,0.9,0.78,0.67,1.16,1.05,0.93, 0.82,0.71,1.18,1.08,0.97,0.86,0.75,1.2,1.1,1,0.9,0.79,1.22,1.13,1.03,0.93,0.83,1.24, 1.15,1.05,0.96,0.86,1.26,1.17,1.08,0.99,0.9,1.27,1.19,1.1,1.01,0.93,1.29,1.21,1.12, 1.04,0.95,1.3,1.22,1.14,1.06,0.98,1.32,1.24,1.16,1.08,1.01,1.33,1.26,1.18,1.1,1.03, 1.34,1.27,1.2,1.12,1.05,1.35,1.28,1.21,1.14,1.07,1.36,1.3,1.23,1.16,1.09,1.37,1.31, 1.24,1.18,1.11,1.38,1.32,1.26,1.19,1.13,1.39,1.33,1.27,1.21,1.15,1.4,1.34,1.28,1.22, 1.16,1.41,1.35,1.29,1.24,1.18,1.42,1.36,1.31,1.25,1.19,1.43,1.37,1.32,1.26,1.21,1.43, 1.38,1.33,1.27,1.22,1.44,1.39,1.34,1.29,1.23,1.44,1.39,1.34,1.29,1.23,1.44,1.39,1.34, 1.29,1.23,1.44,1.39,1.34,1.29,1.23,1.44,1.39,1.34,1.29,1.23,1.48,1.43,1.38,1.34,1.29, 1.48,1.43,1.38,1.34,1.29,1.48,1.43,1.38,1.34,1.29,1.48,1.43,1.38,1.34,1.29,1.48,1.43, 1.38,1.34,1.29,1.5,1.46,1.42,1.38,1.34,1.5,1.46,1.42,1.38,1.34,1.5,1.46,1.42,1.38,1.34, 1.5,1.46,1.42,1.38,1.34,1.5,1.46,1.42,1.38,1.34,1.53,1.49,1.45,1.41,1.38,1.53,1.49, 1.45,1.41,1.38,1.53,1.49,1.45,1.41,1.38,1.53,1.49,1.45,1.41,1.38,1.53,1.49,1.45,1.41, 1.38,1.55,1.51,1.48,1.44,1.41,1.55,1.51,1.48,1.44,1.41,1.55,1.51,1.48,1.44,1.41,1.55, 1.51,1.48,1.44,1.41,1.55,1.51,1.48,1.44,1.41,1.57,1.54,1.5,1.47,1.44,1.57,1.54,1.5,1.47, 1.44,1.57,1.54,1.5,1.47,1.44,1.57,1.54,1.5,1.47,1.44,1.57,1.54,1.5,1.47,1.44,1.58,1.55, 1.52,1.49,1.46,1.58,1.55,1.52,1.49,1.46,1.58,1.55,1.52,1.49,1.46,1.58,1.55,1.52,1.49, 1.46,1.58,1.55,1.52,1.49,1.46,1.6,1.57,1.54,1.51,1.49,1.6,1.57,1.54,1.51,1.49,1.6,1.57, 1.54,1.51,1.49,1.6,1.57,1.54,1.51,1.49,1.6,1.57,1.54,1.51,1.49,1.61,1.59,1.56,1.53, 1.51,1.61,1.59,1.56,1.53,1.51,1.61,1.59,1.56,1.53,1.51,1.61,1.59,1.56,1.53,1.51,1.61, 1.59,1.56,1.53,1.51,1.62,1.6,1.57,1.55,1.52,1.62,1.6,1.57,1.55,1.52,1.62,1.6,1.57,1.55, 1.52,1.62,1.6,1.57,1.55,1.52,1.62,1.6,1.57,1.55,1.52,1.63,1.61,1.59,1.57,1.54,1.63,1.61, 1.59,1.57,1.54,1.63,1.61,1.59,1.57,1.54,1.63,1.61,1.59,1.57,1.54,1.63,1.61,1.59,1.57, 1.54,1.64,1.62,1.6,1.58,1.56,1.64,1.62,1.6,1.58,1.56,1.64,1.62,1.6,1.58,1.56,1.64,1.62, 1.6,1.58,1.56,1.64,1.62,1.6,1.58,1.56,1.65,1.63,1.61,1.59,1.57,1.65,1.63,1.61,1.59,1.57, 1.65,1.63,1.61,1.59,1.57,1.65,1.63,1.61,1.6,1.58,1.66,1.64,1.61,1.6,1.58,1.66,1.64,1.61, 1.6,1.58,1.66,1.64,1.61,1.6,1.58,1.66,1.64,1.61,1.6,1.58,1.66,1.64,1.61,1.6,1.59,1.66, 1.64,1.61,1.61,1.59,1.66,1.65,1.61,1.61,1.59,1.67,1.65,1.61,1.61,1.59,1.67,1.65,1.61, 1.61,1.59,1.67,1.65,1.62,1.61,1.6,1.67,1.65,1.62,1.62,1.6,1.67,1.65,1.62,1.62,1.6,1.67, 1.66,1.62,1.62,1.6,1.67,1.66,1.62,1.62,1.6,1.68,1.66,1.62,1.62,1.61,1.68,1.66,1.62,1.62, 1.61,1.68,1.66,1.62,1.63,1.61,1.68,1.66,1.62,1.63,1.61,1.68,1.67,1.62,1.63,1.61,1.68,1.67, 1.62,1.63,1.62,1.68,1.67,1.62,1.63,1.62,1.69,1.67,1.62,1.64,1.62,1.69,1.67,1.62,1.64,1.62, 1.69,1.67,1.62,1.64,1.62,1.69,1.67,1.62,1.64,1.63,1.69,1.68,1.62,1.64,1.63,1.69,1.68,1.62, 1.64,1.63,1.69,1.68,1.62,1.65,1.63,1.69,1.68,1.62,1.65,1.63,1.7,1.68,1.62,1.65,1.64,1.7, 1.68,1.62,1.65,1.64,1.7,1.69,1.62,1.65,1.64,1.7,1.69,1.62,1.65,1.64,1.7,1.69,1.62,1.66, 1.64,1.7,1.69,1.63,1.66,1.65,1.7,1.69,1.63,1.66,1.65,1.71,1.69,1.63,1.66,1.65,1.71,1.7,1.63, 1.66,1.65,1.71,1.7,1.63,1.67,1.65,1.71,1.7,1.63,1.67,1.66,1.71,1.7,1.63,1.67,1.66,1.71,1.7, 1.63,1.67,1.66,1.71,1.7,1.63,1.67,1.66,1.72,1.71,1.63,1.67,1.66,1.72,1.71,1.63,1.68,1.67,1.72, 1.71,1.63,1.68,1.67,1.72,1.71,1.69,1.68,1.67,1.72,1.71,1.71,1.68,1.67,1.72,1.71,1.71,1.68,1.67, 1.72,1.71,1.71,1.68,1.67,1.72,1.71,1.71,1.68,1.67,1.72,1.71,1.71,1.69,1.68,1.72,1.71,1.71,1.69, 1.68,1.73,1.72,1.71,1.69,1.68,1.73,1.72,1.71,1.69,1.68,1.73,1.72,1.72,1.69,1.68,1.73,1.72,1.72, 1.69,1.68,1.73,1.72,1.72,1.69,1.68,1.73,1.72,1.72,1.69,1.68,1.73,1.72,1.72,1.69,1.68,1.73,1.72, 1.72,1.69,1.68,1.73,1.72,1.72,1.7,1.69,1.73,1.72,1.72,1.7,1.69,1.73,1.72,1.72,1.7,1.69,1.73, 1.72,1.72,1.7,1.69,1.74,1.73,1.72,1.7,1.69,1.74,1.73,1.72,1.7,1.69,1.74,1.73,1.72,1.7,1.69,1.74 , 1.73,1.72,1.7,1.69,1.74,1.73,1.72,1.7,1.69,1.74,1.73,1.72,1.7,1.69,1.74,1.73,1.73,1.71,1.7,1.74 , 1.73,1.73,1.71,1.7,1.74,1.73,1.73,1.71,1.7,1.74,1.73,1.73,1.71,1.7,1.74,1.73,1.73,1.71,1.7,1.74 , 1.73,1.73,1.71,1.7,1.74,1.73,1.73,1.71,1.7,1.75,1.74,1.73,1.71,1.7,1.75,1.74,1.73,1.71,1.7,1.75 , 1.74,1.73,1.71,1.7,1.75,1.74,1.73,1.72,1.71,1.75,1.74,1.73,1.72,1.71,1.75,1.74,1.73,1.72,1.71, 1.75,1.74,1.73,1.72,1.71,1.75,1.74,1.73,1.72,1.71,1.75,1.74,1.73,1.72,1.71,1.75,1.74,1.73,1.72, 1.71,1.75,1.74,1.74,1.72,1.71,1.75,1.74,1.74,1.72,1.71,1.76,1.75,1.74,1.72,1.71,1.76,1.75,1.74, 1.73,1.72,1.76,1.75,1.74,1.73,1.72,1.76,1.75,1.74,1.73,1.72,1.76,1.75,1.74,1.73,1.72,1.76,1.75, 1.74,1.73,1.72,1.76,1.75,1.74,1.73,1.72) durbinu_c(2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2 ,2,2, 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,1.36,1.54,1.75,1.97,2.21,1.37,1.54,1.73,1.93, 2.15,
138
1.38,1.54,1.71,1.9,2.1,1.39,1.53,1.69,1.87,2.06,1.4,1.53,1.68,1.85,2.02,1.41,1.54,1.68,1.83,1.9 9,1.42, 1.54,1.67,1.81,1.96,1.43,1.54,1.66,1.8,1.94,1.44,1.54,1.66,1.79,1.92,1.45,1.55,1.66,1.78,1.9,1. 45, 1.55,1.66,1.77,1.89,1.46,1.55,1.65,1.76,1.88,1.47,1.56,1.65,1.76,1.86,1.48,1.56,1.65,1.75,1.85, 1.48,1.56,1.65,1.74,1.84,1.49,1.57,1.65,1.74,1.83,1.5,1.57,1.65,1.74,1.83,1.5,1.57,1.65,1.73,1. 82, 1.51,1.58,1.65,1.73,1.81,1.51,1.58,1.65,1.73,1.81,1.52,1.58,1.65,1.73,1.8,1.52,1.59,1.65,1.73,1 .8, 1.53,1.59,1.66,1.72,1.8,1.54,1.59,1.66,1.72,1.79,1.54,1.6,1.66,1.72,1.79,1.54,1.6,1.66,1.72,1.7 9, 1.54,1.6,1.66,1.72,1.79,1.54,1.6,1.66,1.72,1.79,1.54,1.6,1.66,1.72,1.79,1.54,1.6,1.66,1.72,1.79 ,1.57, 1.62,1.67,1.72,1.78,1.57,1.62,1.67,1.72,1.78,1.57,1.62,1.67,1.72,1.78,1.57,1.62,1.67,1.72,1.78, 1.57, 1.62,1.67,1.72,1.78,1.59,1.63,1.67,1.72,1.77,1.59,1.63,1.67,1.72,1.77,1.59,1.63,1.67,1.72,1.77, 1.59, 1.63,1.67,1.72,1.77,1.59,1.63,1.67,1.72,1.77,1.6,1.64,1.68,1.72,1.77,1.6,1.64,1.68,1.72,1.77,1. 6,1.64, 1.68,1.72,1.77,1.6,1.64,1.68,1.72,1.77,1.6,1.64,1.68,1.72,1.77,1.62,1.65,1.69,1.73,1.77,1.62,1. 65, 1.69,1.73,1.77,1.62,1.65,1.69,1.73,1.77,1.62,1.65,1.69,1.73,1.77,1.62,1.65,1.69,1.73,1.77,1.63, 1.66, 1.7,1.73,1.77,1.63,1.66,1.7,1.73,1.77,1.63,1.66,1.7,1.73,1.77,1.63,1.66,1.7,1.73,1.77,1.63,1.66 ,1.7, 1.73,1.77,1.64,1.67,1.7,1.74,1.77,1.64,1.67,1.7,1.74,1.77,1.64,1.67,1.7,1.74,1.77,1.64,1.67,1.7 ,1.74, 1.77,1.64,1.67,1.7,1.74,1.77,1.65,1.68,1.71,1.74,1.77,1.65,1.68,1.71,1.74,1.77,1.65,1.68,1.71,1 .74, 1.77,1.65,1.68,1.71,1.74,1.77,1.65,1.68,1.71,1.74,1.77,1.66,1.69,1.72,1.74,1.77,1.66,1.69,1.72, 1.74, 1.77,1.66,1.69,1.72,1.74,1.77,1.66,1.69,1.72,1.74,1.77,1.66,1.69,1.72,1.74,1.77,1.67,1.7,1.72,1 .75, 1.77,1.67,1.7,1.72,1.75,1.77,1.67,1.7,1.72,1.75,1.77,1.67,1.7,1.72,1.75,1.77,1.67,1.7,1.72,1.75 , 1.77,1.68,1.7,1.73,1.75,1.78,1.68,1.7,1.73,1.75,1.78,1.68,1.7,1.73,1.75,1.78,1.68,1.7,1.73,1.75 ,1.78, 1.68,1.7,1.73,1.75,1.78,1.69,1.71,1.73,1.75,1.78,1.69,1.71,1.73,1.75,1.78,1.69,1.71,1.73,1.75,1 .78,1.69, 1.71,1.73,1.75,1.78,1.69,1.71,1.73,1.75,1.78,1.69,1.72,1.74,1.76,1.78,1.69,1.72,1.74,1.76,1.78, 1.69, 1.72,1.74,1.76,1.78,1.69,1.72,1.74,1.76,1.78,1.69,1.72,1.74,1.76,1.78,1.7,1.72,1.74,1.76,1.78,1 .7,1.72, 1.74,1.76,1.78,1.7,1.73,1.74,1.76,1.78,1.7,1.73,1.74,1.76,1.78,1.7,1.73,1.75,1.77,1.78,1.7,1.73 ,1.75, 1.77,1.78,1.7,1.73,1.75,1.77,1.78,1.7,1.73,1.75,1.77,1.78,1.71,1.73,1.75,1.77,1.79,1.71,1.73,1. 75,1.77, 1.79,1.71,1.73,1.75,1.77,1.79,1.71,1.73,1.75,1.77,1.79,1.71,1.73,1.75,1.77,1.79,1.71,1.73,1.75, 1.77,1.79, 1.71,1.74,1.75,1.77,1.79,1.71,1.74,1.75,1.77,1.79,1.72,1.74,1.75,1.77,1.79,1.72,1.74,1.75,1.77, 1.79,1.72, 1.74,1.75,1.77,1.79,1.72,1.74,1.75,1.77,1.79,1.72,1.74,1.76,1.78,1.79,1.72,1.74,1.76,1.78,1.79, 1.72,1.74, 1.76,1.78,1.79,1.72,1.74,1.76,1.78,1.79,1.72,1.74,1.76,1.78,1.79,1.73,1.74,1.76,1.78,1.79,1.73, 1.74,1.76, 1.78,1.79,1.73,1.75,1.76,1.78,1.79,1.73,1.75,1.76,1.78,1.79,1.73,1.75,1.76,1.78,1.79,1.73,1.75, 1.76,1.78, 1.79,1.73,1.75,1.76,1.78,1.79,1.73,1.75,1.76,1.78,1.79,1.74,1.75,1.76,1.78,1.8,1.74,1.75,1.76,1 .78,1.8, 1.74,1.75,1.76,1.78,1.8,1.74,1.75,1.76,1.78,1.8,1.74,1.75,1.77,1.79,1.8,1.74,1.75,1.77,1.79,1.8 ,1.74, 1.76,1.77,1.79,1.8,1.74,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75 ,1.76,1.77, 1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77 ,1.79,1.8, 1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8 ,1.75,1.76, 1.77,1.79,1.8,1.75,1.76,1.77,1.79,1.8,1.76,1.77,1.78,1.79,1.8,1.76,1.77,1.78,1.79,1.8,1.76,1.77 ,1.78,1.79, 1.8,1.76,1.77,1.78,1.79,1.8,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8, 1.81,1.76, 1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76 ,1.77,1.78, 1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78,1.8,1.81,1.76,1.77,1.78 ,1.8,1.81, 1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81 ,1.77,1.78,
139
1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78 ,1.79,1.8, 1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8,1.81,1.77,1.78,1.79,1.8 ,1.81,1.77, 1.78,1.79,1.81,1.82,1.77,1.78,1.79,1.81,1.82,1.77,1.78,1.79,1.81,1.82,1.77,1.78,1.79,1.81,1.82, 1.78,1.79, 1.8,1.81,1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79 ,1.8,1.81, 1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79,1.8,1.81,1.82,1.78,1.79,1.8,1.81 ,1.82) durbinl_matrix(durbinl,ncol=5,byrow=T); durbinu_matrix(durbinu,ncol=5,byrow=T) # # # #
Durbin-Watson values are also available from Draper Smith: Applied Regression Analysis or from file "DURBIN.XLS" durbinl_matrix(scan("clipboard"),ncol=5,byrow=T) durbinu_matrix(scan("clipboard"),ncol=5,byrow=T)
######################################## User-edditable code ################################## ###############################################################################################
###### DATA FROM Example M607 ########## x1_c(0.06,0.1,0.23,0.24,0.15,0.24,0.57,0.54,0.65,0.66,0.68,0.62,0.83,1,1.16) x2_c(1330,1220,1120,1030,1160,990,830,690,760,740,610,380,400,470,310) y_c(555,499,588,559,608,507,603,653,661,678,661,708,724,703,749) xx_cbind(x1,x2) xx_as.matrix(c(1.1,1.5,2.2,2.8,2.9,3.7,4,4.9,5.1,5.8,6.5,7.1,7.3,7.6,1.7,8.8)) y_ c(2.4,2.8,4,4.4,5.3,5.3,6.7,6.8,6.8,7.4,7.2,6.2,6.3,6.6,2.5,5.1)
###### END OF DATA ##########
####### Main parameters for Regression ############ # Possible choice of parameters are given on each line after "#". alfa_0.05 # 0=1 omez_0.00001 # 0<=omez<=1 absolut_T # T F polynom_T # T F stupenpol_2 # stupenpol>=2 user_F # T F metoda_"NC" # "NC" "HOD" "L1" "LP" "EXPE" "EXPE2" "BIR" vahy_"1" # "1" "Y" "1/Y" transfy_F kvazilin_F predikce_F if (polynom | user) notransf_F # else notransf_T # ####### End Parameters ############
n_length(y) # No of Rows m_dim(xx)[2] # No of original data columns data_xx pocsloup_m
######################################## End of User-edditable code ########################### ############################################################################################### ###### Polynomial DATA ########## #xx_as.matrix(c(1,2,3,4,5,6,7)) #dimnames(xx)_list(NULL,"SL1") #y_c(1, 3, 5, 9,14,28,33) nazevY_"Column Y"
####################################### usermodel_function(xx) { M_4
140
pocsl_1 # protoze se pouzil jen jeden sloupec x[,1] ze sheetu #----------------------------X1_xx[,1] X2_xx[,1]*xx[,1] X3_exp(xx[,1]) X4_1/(1+xx[1]) #----------------------------X_cbind(X1,X2,X3,X4) dimnames(X)_list(NULL,c("SL1","SL1*SL1","exp(SL1)","1/(1+SL1)")) vybraneSL_c(1) # Sloupce pouzite v uzivatelskem modelu, jejich pocet je roven pocsl (-> pocsloup) list(M=M, X=X,pocsl=pocsl,vybrane=vybraneSL) }
TRANY_function(u) { Ff_ 1/u N_ "1/u" list(YT=Ff,Name=N) }
transformyD_function(u) { ddt_1e-8 y1_TRANY(u) y2_TRANY(u+ddt) derY_(y2-y1)/ddt derY }
n_length(y) # No of Rows m_dim(xx)[2] # No of original data columns
data_xx
pocsloup_m w_rep(0,n) # if (vahy=="1") # w_rep(1,n) if (vahy=="Y") { for (i in 1:n) if (y[i]<=0) stop("When weights = Y must be Y>0!") w_y/sum(y) } if (vahy=="1/Y") { for (i in 1:n) if (y[i]<=0) stop("When weights = 1/Y w_(1/y) / sum(1/y) }
if (kvazilin) { for (i in 1:n) w[i]_1/ transformyD ( y[i] ) w_w / sum(w) }
if (polynom & (pocsloup==1)) { dname_dimnames(xx)[[2]] dn_dname for (i in 2:stupenpol) { xx_cbind(xx,data^i) dname_c(dname,paste(dn,"^",i,sep="")) } m_m+stupenpol-1
141
must be Y>0!")
#dimnames(xx)_list(" ",dname) } if (user) { umod_usermodel(xx) xx_umod$X m_umod$M pocsloup_umod$pocsl }
if (absolut) { x0_rep(1,n) xx_cbind(x0,xx) m_m+1 dimnames(xx)[[2]][1]_"(Abs)" } yname_"Y" if (transfy) { y_TRANY(y)$YT yname_TRANY(y)$Name } tkvant_qt(1-alfa/2,n-m) fkvant_qf(1-alfa ,m-1,n-m) ############ Least Squares "NC" ########### # Parameters: # Input: # xx, y, w, n, m # Output: cc, a, pred, res, rsc, prumch, sres, sigmaa, hatdiag, eigval, eigvec, ccstd # ########################################### NC_function(xx, y, w, n, m) { w_w/sum(w)*n w2_(w*w) #---------------------------wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------#cc_solve(xtwx) va_eigen(xtwx)$values ve_eigen(xtwx)$vectors if (min(va)<=0) stop("Singular XtX matrix!") cc_matrix(rep(0,m*m),ncol=m) # cc[m,m]=0 for (i in 1:m) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) #---------------------------------xtwy_t(xx)%*%wy a_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred rsc_sum(res*res) prumch_mean(abs(res)) sres_sqrt(rsc/(n-m)) ccdiag_diag(cc) sigmaa_sres*sqrt(ccdiag) hatdiag_y xw1_xx w1_sqrt(w2) for (i in 1:m) xw1[,i]_xx[,i]*w1
142
xxtx_xw1 %*% cc for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*xw1[i,] ) eigval_va # vektor 1 x m, viz Optimalizace eigvec_ve # matice m x m ??? #ccstd_t(xx) %*% xx ccstd_cc
#solve(ccstd)
list(cc=cc, a=a, pred=pred, res=res, rsc=rsc, prumch=prumch, sres=sres, sigmaa=sigmaa, hatdiag=hatdiag, eigval=eigval, eigvec=eigvec, ccstd=ccstd) } ######### End Least Squares ################
############ Rational Rank HOD ########### if (metoda=="HOD") { w_w/sum(w)*n w2_(w*w) #---------------------------wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------va_eigen(xtwx)$values ve_eigen(xtwx)$vectors va_sort(va) sumva_sum(va) omega_0 pomer_0 uweight_1 while (pomer <= omez) { omega_omega+1 ww_0 for (i in 1:omega) ww_ww+va[i] pomer_ww/sumva } if (pomer>omez) { ww_0 for (i in 1:omega) ww_ww+va[i] uweight_(ww-sumva*omez)/va[omega] omega_omega-1 } if (omez==0) omega_1 va0_va va0[omega]_va[omega]*uweight #### Konec opravy #### cc_matrix(rep(0,m*m),ncol=m)
# cc[m,m]=0
# Index [m-i+1] for (i in omega:m) cc_cc+(1/va0[ i ])* ve[,m-i+1] %*% t(ve[,m-i+1]) #for (i in 1:m) cc_cc+(1/va0[ i ])* ve[,i] %*% t(ve[,i])
#---------------------------------xtwy_t(xx)%*%wy a_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred rsc_sum(res*res) prumch_mean(abs(res)) sres_sqrt(rsc/(n-m)) ccdiag_diag(cc)
143
sigmaa_sres*sqrt(ccdiag) hatdiag_y xw1_xx w1_sqrt(w2) for (i in 1:m) xw1[,i]_xx[,i]*w1 xxtx_xw1 %*% cc for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*xw1[i,] ) eigval_eigen(xtwx)$values # vektor 1 x m eigvec_eigen(xtwx)$vectors # matice m x m ccstd_cc
} ######### END HOD ################
############ IRWLS "LP" ########### if (metoda=="LP") { sres_1 delta_1 delta0_0 # w_rnorm(n)^2 w_w/sum(w)*n while (abs(delta0-delta)>0.00001*sres) { delta0_delta w2_w*w #---------------------------wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------#cc_solve(xtwx) va_eigen(xtwx)$values ve_eigen(xtwx)$vectors va_va+0.0001*max(va) logva_log(va) maxlva_max(logva); minlva_min(logva) dlva_maxlva-minlva for (i in 1:m) logva[i]_logva[i]+(maxlva-logva[i])*omez va0_exp(logva) cc_matrix(rep(0,m*m),ncol=m)
# cc[m,m]=0
for (i in 1:m) cc_cc+(1/va0[i])* ve[,i] %*% t(ve[,i]) #---------------------------------xtwy_t(xx)%*%wy a_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred rsc_sum(res*res) prumch_mean(abs(res)) sres_sqrt(rsc/(n-m)) res1_res+0.00001*prumch rr_as.vector(abs(res1))^((LP-2)/2) rr_rr/sum(rr)*n delta_sqrt ( sum ((w-rr)^2) ) w_rr cat( delta," ... ")
144
# abline(a) } ### Pro případ vah e (alternující řešení): w2_w*w #---------------------------wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------va_eigen(xtwx)$values ve_eigen(xtwx)$vectors va_va+0.0001*max(va) logva_log(va) maxlva_max(logva); minlva_min(logva) dlva_maxlva-minlva for (i in 1:m) logva[i]_logva[i]+(maxlva-logva[i])*omez va0_exp(logva) cc_matrix(rep(0,m*m),ncol=m)
# cc[m,m]=0
for (i in 1:m) cc_cc+(1/va0[i])* ve[,i] %*% t(ve[,i]) #----------------------------------
xtwy_t(xx)%*%wy a1_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred a_(a+a1)/2 ccdiag_diag(cc) sigmaa_sres*sqrt(ccdiag) hatdiag_y xxtx_xx %*% cc for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*xx[i,] ) eigval_eigen(xtwx)$values eigvec_eigen(xtwx)$vectors ccstd_t(xx) %*% xx ccstd_solve(ccstd)
} #####
LP Konec
#############################
##### Iterativni vahy IRWLS (resp. exp(-E) "EXPE" ) ########### if ((metoda=="EXPE") | (metoda=="EXPE2")) { if (metoda=="EXPE") expo_1 if (metoda=="EXPE2") expo_2 sres_1 delta_1 delta0_0 # w_rnorm(n)^2 w_w/sum(w)*n while (abs(delta)>0.00001*sres) { delta0_delta w2_w*w #----------------------------
145
wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------#cc_solve(xtwx) va_eigen(xtwx)$values ve_eigen(xtwx)$vectors if (min(va)<=0) stop("Singular Matrix XtX") cc_matrix(rep(0,m*m),ncol=m) # cc[m,m]=0 for (i in 1:m) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) #---------------------------------xtwy_t(xx)%*%wy a_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred prumch_mean(res) rsc_sum(res*res*w2) sres_sqrt(rsc/(n-m)) resn_res/sres rr_as.vector(exp(-(abs(resn^expo)))) rr_rr/sum(rr)*n delta_sqrt ( sum ((w-rr)^2) ) w _rr cat( delta," ... ") } ccdiag_diag(cc) sigmaa_sres*sqrt(ccdiag) hatdiag_y xxtx_xx %*% cc for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*xx[i,] ) eigval_eigen(xtwx)$values eigvec_eigen(xtwx)$vectors # ccstd_t(xx) %*% xx ccstd_cc #solve(ccstd)
} ###########
EXP_E KONEC
###############################
##### BIR ########### Bounded influence regression if (metoda=="BIR") { xtx_t(xx)%*%xx #---------------------------------#cc0_solve(xtx) va_eigen(xtx)$values ve_eigen(xtx)$vectors if (min(va)<=0) stop("Singular mtrix XtX!") cc0_matrix(rep(0,m*m),ncol=m) # cc[m,m]=0 for (i in 1:m) cc0_cc0+(1/va[i])* ve[,i] %*% t(ve[,i]) #----------------------------------
hatw_y xxtx_xx %*% cc0
146
for (i in 1:n) hatw[i]_ sum ( xxtx[i,]*xx[i,] ) shft_0.05 hatw_shft/(hatw*hatw+shft) hatw_hatw/sum(hatw) sres_1 delta_1 delta0_0 # w_rnorm(n)^2 w_w/sum(w)*n while (abs(delta)>0.00001*sres) { delta0_delta w2_w*w*hatw*hatw #---------------------------wx_xx wy_y for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx #---------------------------------#cc_solve(xtwx) va_eigen(xtwx)$values ve_eigen(xtwx)$vectors if (min(va)<=0) stop("Singular matrix XtX!") cc_matrix(rep(0,m*m),ncol=m) # cc[m,m]=0 for (i in 1:m) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) #---------------------------------xtwy_t(xx)%*%wy a_ cc %*% xtwy #---------------------------pred_xx%*%a res_y-pred prumch_mean(res) rsc_sum(res*res) sres_sqrt(rsc/(n-m)) resn_res/sres rr_as.vector(exp(-(abs(resn^2)))) rr_rr/sum(rr)*n delta_sqrt ( sum ((w-rr)^2) ) w _rr cat( delta," ... ") } w_w*hatw w_w/sum(w)*n w2_w*w for (i in 1:m) wx[,i]_xx[,i]*w2 wy_y*w2 xtwx_t(xx)%*%wx va_eigen(xtwx)$values ve_eigen(xtwx)$vectors if (min(va)<=0) stop("Singular matrix XtX!") cc_matrix(rep(0,m*m),ncol=m) # cc[m,m]=0 for (i in 1:m) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) ccstd_cc rsc_sum(res*res*w2) sres_sqrt(rsc/(n-m)) resn_res/sres ccdiag_diag(cc) sigmaa_sres*sqrt(ccdiag)
147
hatdiag_y xxtx_xx %*% cc for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*xx[i,] ) eigval_eigen(xtwx)$values eigvec_eigen(xtwx)$vectors
} ###########
BIR END
###############################
########################################## Regression Analysis Main Call: ########################## if (metoda=="NC") { temp_NC(xx, y, w, n, m) cc_temp$cc; a_temp$a; pred_temp$pred; res_temp$res; rsc_temp$rsc; prumch_temp$prumch; sres_temp$sres; sigmaa_temp$sigmaa hatdiag_temp$hatdiag; eigval_temp$eigval eigvec_temp$eigvec; ccstd_temp$ccstd } ###########################################
###################################################################### ################ G R A P H S ###################################### ###################################################################### tq095_qt(0.95,n-m-1)
######### Regression curve ########### ## !!! Only for pocsloup = 1 !!!!## if (pocsloup==1) { jemnost_200
xgrafmin_ min(data) # ZOOM X xgrafmax_ max(data) # ZOOM X xrange_xgrafmax-xgrafmin xgraf_seq(from=xgrafmin,to=xgrafmax,length=jemnost) ygraf_rep(0,jemnost) xpred_as.matrix(xgraf) if (polynom) { for (i in 2:stupenpol) xpred_cbind(xpred,xgraf^i) } if (user) { umod_usermodel(xpred) xpred_umod$X } x0_rep(1,jemnost) if (absolut) xpred_cbind(x0,xpred)
for (i in 1:jemnost) ygraf[i]_xpred[i,]%*%a ygrafmin_min(c(ygraf,y)) ygrafmax_max(c(ygraf,y)) yconfL_ygraf yconfU_ygraf #for (i in 1:jemnost)
148
#{ #kk_sqrt(m*fkvant)*sres #kk1_sqrt(abs(t(xpred[i,])%*%ccstd%*%xpred[i,])) #yconfL[i]_ygraf[i]-kk*kk1 #yconfU[i]_ygraf[i]+kk*kk1 #}
## Continuous Weights: #! w1_w tune_diff(range(data)) wpred_xgraf fkvantM_qf(1-alfa ,m,n-m) for (i in 1:jemnost) { kk_sqrt(m*fkvantM)*sres wpred[i]_0 for (j in 1:n) { wpred[i]_wpred[i]+1-exp(-(tune/100)*abs(xgraf[i]-data[j]))*(1-w1[j]) } wpred[i]_wpred[i]/n kk1_sqrt(abs(t(xpred[i,]*wpred[i])%*%ccstd%*%xpred[i,]*wpred[i])) yconfL[i]_ygraf[i]-kk*kk1 yconfU[i]_ygraf[i]+kk*kk1 } ## Continuous Weights END
ygrafmin_min(c(ygrafmin,yconfL)) # ygrafmax_max(c(ygrafmax,yconfU)) # popisx_" X " popisy_paste(" Y, ",yname,sep="") popis_"Regresion curve" plot(data,y,xlim=c(xgrafmin,xgrafmax),ylim=c(ygrafmin,ygrafmax),xlab=popisx,ylab=popisy,main=po pis) lines(xgraf,ygraf) lines(xgraf,yconfL,lty=4,col=6) lines(xgraf,yconfU,lty=4,col=6) } ######### Regression curve END ########### ############################################# #Residuals #############################################
############ Y-Prediction ################## popisx_"Y-Prediction" popisy_"Y-measured" popis_"Y - Prediction" plot(pred,y,xlab=popisx,ylab=popisy,main=popis) abline(0,1) ############ Y-Prediction END ##################
############ Residuals vs. Prediction ################## popisx_"Prediction" popisy_"E" popis_"Residual - Prediction" plot(pred,res,xlab=popisx,ylab=popisy,main=popis) abline(h=0) ############ Residuals vs. Prediction END ################## ############ Abs. Residuals ################## popisx_"Index" popisy_"abs(E)" popis_"Abs. reiduals" plot(1:n,abs(res),xlab=popisx,ylab=popisy,main=popis) abline(h=prumch) ############ Abs. Residuals END ################## ############ Squared residuals ################## popisx_"Index" popisy_"E^2" popis_"Squared residuals"
149
plot(1:n,res^2,xlab=popisx,ylab=popisy,main=popis) abline(h=mean(res^2)) ############ Squared residual END ################## ############ Q-Q plot of residuals ################## popisx_"Q-Theor" popisy_"Q-Residual" popis_"Q-Q plot of residuals" qi_(1:n)/(n+1) qres_qnorm(qi) sortres_sort(res) plot(qres,sortres,xlab=popisx,ylab=popisy,main=popis) abline(0,sres) # přímka y = sres * x ############ Q-Q plot of residuals ################## ############ Autocorrelation ################## popisx_"E(i)" popisy_"E(i-1)" popis_"Autocorrelation of residuals" x00_res[2:n] x01_res[1:(n-1)] plot(x01,x00,xlab=popisx,ylab=popisy,main=popis) ############ Autocorrelation END ################## ############ Heteroscedasticity ################## popisx_"X" popisy_"Y" popis_"Heteroscedasticity" for ( i in 1:n ) { x00[i]_(1-hatdiag[i])*pred[i] x01[i]_res[i]/sqrt(1-hatdiag[i])/sres } plot(x00,x01,xlab=popisx,ylab=popisy,main=popis) ############ Heteroscedasticity END ################## ############ Jack-Knife residual ################## popisx_"index" popisy_"Ej" popis_"Jackknife residuals" x00_1:n for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres x01[i]_esi*sqrt((n-m-1)/(n-m-esi*esi)) } plot(x00,x01,xlab=popisx,ylab=popisy,main=popis) abline(h=0) ############ Jack-Knife residual END ################## ############ Predicted residuals ################## popisx_"index" popisy_"Epred" popis_"Predicted residuals" x00_1:n for ( i in 1:n ) { epi_res[i]/(1-hatdiag[i]) x01[i]_epi } plot(x00,x01,xlab=popisx,ylab=popisy,main=popis) abline(h=0) ############ Predicted residuals END ################## ######################################################### #Partial plots ######################################################### ############## Partial regression plots ############### ## only for m>1 !! ### zz_xx if (absolut) prvni_2 else prvni_1 for (cis in prvni:m) { popisx_paste("Component",cis) popisy_"Py"
150
popis_paste("Partial regression plot Y' - X'",cis,sep="") xxj_xx[,-cis] # Exclude cis-th column of xx xtxj1_solve( t(xxj) %*% xxj ) xxtxj_xxj %*% xtxj1 vv_rep(0,n) # vector n x 1 uu_rep(0,n) # vector n x 1 for (i in 1:n) { vv[i]_0 uu[i]_0 for (j in 1:n) { pij_0 if (i == j) kron_1 else kron_0 pij_kron - sum(xxtxj[i,]*xxj[j,]) vv[i]_vv[i] + pij * xx[j,cis] uu[i]_uu[i] + pij * y[j] } zz[i,cis]_a[cis] * uu[i] + res[i] } plot( vv, uu, xlab=popisx,ylab=popisy ,main=popis) abline( 0,a[cis] ) } ######### Partial regression plot END ######## ######### Partial residual plot ######## ## Only for m>1 !! ### if (absolut) prvni_2 else prvni_1 for (cis in prvni:m) { popisx_paste("X",cis) popisy_"Res partial." popis_"Partial residia plot" ccparc_( xx[,cis]-mean(xx[,cis]) )*a[cis] ssparc_ccparc+res ccabs_-a[cis]*mean(xx[,cis]) plot( xx[,cis],ssparc, xlab=popisx,ylab=popisy ,main=popis) abline( ccabs,a[cis] ) } ######### Partial residual plot END ######## ################################################### # Influential points ################################################### ############ Hat Matrix ################## popisx_"index" popisy_"Hat-diagonal" popis_"Hat Matrix H" x00_1:n ymax_max(c(hatdiag,2*m/n)) plot(x00,hatdiag,xlab=popisx,ylab=popisy,ylim=c(0,ymax),main=popis) lines(x00,hatdiag,col=4) points(x00,hatdiag) abline(h=2*m/n,col=8,lty=4) ############ Hat Matrix END ##################
############ Prediction of residuals ################## popisx_"E" popisy_"E pred" popis_"Predictions of residuals" x01_rep(0,n) for ( i in 1:n ) { epi_res[i]/(1-hatdiag[i]) x01[i]_epi
151
} plot(x01,res,xlab=popisx,ylab=popisy,main=popis) abline(0,1) ############ Prediction of residuals END ################## ############ Pregibon plot ################## popisx_"Hat-diagonal" popisy_"E2 norm" popis_"Pregibon plot" x00_hatdiag x01_res*res/rsc ymax_max(x01,3*(m+1)/n) plot(x00,x01,xlab=popisx,ylab=popisy,ylim=c(0,ymax),main=popis) abline(2*(m+1)/n,-1) abline(3*(m+1)/n,-1,col=8) ############ Pregibon plot END ##################
############ Williams plot ################## popisx_"Hat-diagonal" popisy_"E jack" popis_"Williams plot" x00_hatdiag x01_rep(0,n) for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres x01[i]_abs(esi*sqrt((n-m-1)/(n-m-esi*esi))) } ymin_min(x01) ymax_max(x01,tq095) xmax_max(x00,2*m/n) plot(x00,x01,xlab=popisx,ylab=popisy,xlim=c(0,xmax),ylim=c(ymin,ymax),main=popis) tq095_qt(0.95,n-m-1) abline(h=tq095) abline(v=2*m/n) ############ Williams plot end ################## ############ McCulloh-Meter plot ################## popisx_"LN(Hat-diagonal)n" popisy_"E std" popis_"McCulloh-Meter plot" x00_rep(0,n) x01_rep(0,n) for ( i in 1:n ) { x00[i]_log(hatdiag[i]/(m*(1-hatdiag[i]))) x01[i]_res[i]/sqrt(1-hatdiag[i])/sres x01[i]_log(x01[i]*x01[i]) } tq095_qt(0.95,n-m-1) fq090_qf(0.9,n-m,m) aa0_2/(n-2*m) if( aa0 <= 0 ) aa0_2 bb0_log( (n - m) * tq095^2 * ( tq095^2 + n - m ) ) xmin_min(x00) xmax_max(x00,log(aa0)) ymin_min(x01) ymax_max(x01,bb0) plot(x00,x01,xlab=popisx,ylab=popisy,xlim=c(xmin,xmax),ylim=c(ymin,ymax),main=popis) abline(h=bb0) abline(v=log(aa0)) abline(-log(fq090),-1,col=8) ############ McCulloh-Meter plot END ################## ############ L-R plot popisx_"Hat-diagonal" popisy_"E2 norm" popis_"L-R Plot" x00_hatdiag x01_res*res/rsc
##################
plot(x00,x01,xlim=c(0,1),ylim=c(0,1),xlab=popisx,ylab=popisy,main=popis)
152
abline(1,-1,lty=4) abline(h=0) abline(v=0) njem_50 xlr_(0:njem)/njem for (cc0 in c(2,4,8)) { kk0_n*(n-m-1)/(cc0*cc0*m) ylr_(2*xlr-xlr*xlr-1)/(xlr*(1-kk0)-1) lines(xlr,ylr,col=cc0) } ############ L-R plot END ################## #-------resstd_res/(sres*sqrt(1-hatdiag)) resjack_rep(0,n) # deklarace for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres resjack[i]_esi*sqrt((n-m-1)/(n-m-esi*esi)) } for ( i in 1:n ) { respred_res/(1-hatdiag) } res2norm_res*res/rsc atkind_abs(resjack)*sqrt((n-m)/m * hatdiag/(1-hatdiag)) # 6.110 cookd_abs((resstd/m)) * hatdiag/(1-hatdiag) # 6.108 ldb_rep(0,n) # deklarace lds_rep(0,n) # deklarace ldbs_rep(0,n) # deklarace for (i in 1:n) { di_(resstd[i]^2)/(n-m) hi_hatdiag[i] ldb[i]_ n * log( (di*hi)/(1-hi)+1) lds[i]_ n * log( n/(n-1) )+ n * log( 1-di) + di*(n-1)/(1-di) - 1 ldbs[i]_n * log( n/(n-1) )+ n * log( 1-di) + di*(n-1)/ ( (1-di)*(1-hi) ) - 1 } atkinkrit_2*sqrt( (m*(n-m))/(m*n)) cookkrit_1 ldkrit_qchisq(1-alfa,m+1) # stejné pro ldb, lds, ldbs #------------------------------------------------############ Cook's Distance ################## popisx_"Index" popisy_"Cook" popis_"Cook's Distance" x00_1:n ymin_0 ymax_max(cookd,cookkrit) plot(x00,cookd,ylim=c(ymin,ymax),xlab=popisx,ylab=popisy,main=popis) abline(h=cookkrit,col=8,lty=4) ############ Cook's Distance END ################## ############ Atkinson Distance ################## popisx_"Index" popisy_"Atkins" popis_"Atkinson Distance" x00_1:n ymin_0 ymax_max(atkind,atkinkrit) plot(x00,atkind,ylim=c(ymin,ymax),xlab=popisx,ylab=popisy,main=popis) abline(h=atkinkrit,col=8,lty=4) ############ Atkinson Distance END ################## ############ Likelihood Distances ################## popisx_"Index" popisy_"LD" popis_"Likelihood Distances" x00_1:n
153
ymin_0 ymax_max(c(ldb,lds,ldbs,ldkrit)) plot(x00,ldb,ylim=c(ymin,ymax),type="l",xlab=popisx,ylab=popisy,main=popis,col=1) lines(x00,ldb,col=3) # fialova points(x00,ldb,col=3) # fialova lines(x00,lds,col=4) # zelena points(x00,lds,col=4) # zelena lines(x00,ldbs,col=6) # modra points(x00,ldbs,col=6) # modra abline(h=ldkrit,col=8,lty=4) # cervena # # Legend: # col 3 ... LD(b) # Magenta (Influence on parameters) # col 4 ... LD(s) # Green (Influence on RSS) # col 6 ... LD(b,s) # Blue (Overall Influence) # ########## Likelihood Distances END ###############
################################################### # RANKIT PLOTS ################################################### ############ Q-Q Standardized residuals ################## popisx_"Q-Theor" popisy_"Q-Resid" popis_"Q-Q Standardized residuals" qi_(1:n)/(n+1) qres_qnorm(qi) sortres_sort(res/sres) plot(qres,sortres,xlab=popisx,ylab=popisy,main=popis) abline(0,1) # line y = x ############ Q-Q Standardized residuals END ##################
############ Q-Q Predicted residuals ################## popisx_"Q-Theor" popisy_"Q-Resid" popis_"Q-Q, Predicted residuals" qi_(1:n)/(n+1) qres_qnorm(qi) for ( i in 1:n ) { epi_res[i]/(1-hatdiag[i]) x01[i]_epi } sortres_sort(x01/sres) ss_sqrt(var(sortres)) plot(qres,sortres,xlab=popisx,ylab=popisy,main=popis) abline(0,ss) # přímka y = ss*x ############ Q-Q Predicted residuals END ##################
############ Q-Q Jack-Knife residuals ################## popisx_"Q-Theor" popisy_"Q-Residuals" popis_"Q-Q, Jackknife" qi_(1:n)/(n+1) qres_qnorm(qi) for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres x01[i]_esi*sqrt((n-m-1)/(n-m-esi*esi)) } ss_sqrt(var(x01)) sortres_sort(x01) plot(qres,sortres,xlab=popisx,ylab=popisy,main=popis,main=popis) abline(0,ss) # přímka y = ss*x ############ Q-Q Jack-Knife residuals END ##################
154
###################################################################### ############### TEXT OUTPUT - P R O T O C O L ##################### ###################################################################### # # # # # #
tkvant_qt(1-alfa/2,n-m) # fkvant_qf(1-alfa,m-1,n-m) # chiquant_qchisq(1-alfa,1) jmenasl_dimnames(xx)[[2]] # Column Names of Original Data
{ cat("Multiple Linear Regression","\n") cat("\n") smetoda_"" if (metoda=="NC") smetoda_"Least Squares" if (metoda=="HOD") smetoda_paste("Rational", "limit=",omez) if (metoda=="L1") smetoda_"Least Absolute Residual" if (metoda=="LP") smetoda_paste("Lp-aproximation, p=",LP) if (metoda=="FAIR") smetoda_"Robust M-Estimate Fair" if (metoda=="EXPE") smetoda_"Robust M-Estimate W=EXP(-e)" if (metoda=="EXPE2") smetoda_"Robust M-Estimate Welsch" if (metoda=="BIR") smetoda_"Resistent Estimate with Bounded Influence (BIR)" cat("Significance Level","\t",alfa,"\n") cat("Quantile t(1-alfa/2,n-m)","\t",tkvant,"\n") cat("Quantile F(1-alfa,m,n-m)","\t",fkvant,"\n") if (absolut) cat("Absolute Term:","\t","YES","\n") else cat("Absolutní člen:","\t","NO","\n") cat("No of Rows","\t",n,"\n") cat("No of Parameters","\t",m,"\n")
cat("Method","\t",smetoda,"\n") cat("Used Columns","\n") for (i in 1:pocsloup) cat("\t","NazevSloupce",i,"\n")
stransf_"" if (notransf) stransf_"No Transform" if (polynom) stransf_paste("Polynomial ",stupenpol,"th degree",sep="") if (user) stransf_"User Transform" cat("Transformace","\t",stransf,"\n")
jmenasl_dimnames(xx)[[2]] # if (user) for (i in 1:m) cat(paste(i,"th variable:","\t",jmenasl[i],"\n",sep=""))
# Basic Statistics ################## prumy_mean(y) prumx_rep(0,m) # korxy_rep(0,m) # vyzn_rep(0,m) # smox_rep(0,m) # for (i in 1:m) prumx[i]_mean(xx[,i]) for (i in 1:m) smox[i]_sqrt(var(xx[,i])) if (absolut) prvni_2 else prvni_1 for (i in prvni:m)
155
{ kova_sum( (xx[,i]-prumx[i]) * (y-prumy) ) varx_sum( (xx[,i]-prumx[i]) * (xx[,i]-prumx[i]) ) vary_sum( (y-prumy) * (y-prumy) ) korxy[i]_kova/sqrt(varx*vary) vyzn[i]_2*(1-pt(abs(korxy[i])*sqrt(n-2)/sqrt(1-korxy[i]*korxy[i]) , n-2)) }
cat("\n","1. Basic Statistics","\n","\n") # BOLD # cat("Characteristics of variables","\n") cat("Variable","\t","Mean","\t","Std. Dev.","\t","Corr. vs. Y","\t","P-Value","\n") for (i in prvni:m) cat(jmenasl[i],"\t",prumx[i],"\t",smox[i],"\t",korxy[i],"\t",vyzn[i],"\n") #---------------------------------------------------korxx_matrix(rep(0,m*m)) # korxx[m,m] xxn_xx cat("\n","2. Paired Correlations (Xi, Xj)","\n") # BOLD # cat("Variables","\t","Corr. Coeff.","\t","P-Value","\n") for (i in 1:m) for (j in 1:n) xxn[j,i]_xx[j,i]-prumx[i] korxx_ ( t(xxn)%*%xxn ) / (n-1) for (i in 1:m) for (j in 1:m) korxx[i,j]_korxx[i,j]/(smox[i]*smox[j]+1e-20) if (absolut) korxx[1,1]_1 for ( i in 1:(m-1) ) for (j in (i+1):m) { vyznam_2-2*pt(abs(korxx[i,j])*sqrt(n-2)/sqrt(1-korxx[i,j]*korxx[i,j]) , n-2) cat(jmenasl[i]," - ",jmenasl[j],"\t",korxx[i,j],"\t",vyznam,"\n") } # Cervene: korxx[i,j], pro nez je (vyznam1) # Jen pro m>1 ! { library(Matrix) # Version 4.5, 2000 only korxxi_rep(0,m) # deklarace korxxi[m] d0_det(as.Matrix(korxx),logarithm=F)$modulus[[1]] # determinant korxx #d0_det(korxx) # determinant korxx ## S-PLUS 6.0 for (i in 1:m) { kor1_korxx[-i,-i] # di_det(as.Matrix(kor1),logarithm=F)$modulus[[1]] #di_det(kor1) ## S-PLUS 6.0
## S-PLUS 4.X
# determinant kor1
## S-PLUS 4.X
korxxi[i]_sqrt(1-d0/di) } vif_diag(solve(korxx)) # vlcisxx_eigen(korxx)$values # minvlcis_min(vlcisxx)
cat("\n","3. Indikace multikolinearity","\n") # BOLD # cat("Variable","\t","Eigenvalue","\t","Kappa","\t","VI factor","\t","Multiple Corr.","\n") for (i in 1:m) cat(jmenasl[i],"\t",vlcisxx[i],"\t",vlcisxx[i]/minvlcis,"\t",vif[i],"\t",korxxi[i],"\n") # Cervene: vif[i]>10, vlcisxx[i]/minvlcis>1000 #----- konec if (m>1) -----------------------------------} vyzn_rep(0,m) # vyzns_rep("",m) for (i in 1:m)
#
156
{ vyzn[i]_2*(1-pt(abs(a[i]/sigmaa[i]),n-m)) if (vyzn[i]>alfa) vyzns[i]_"Insignificant" else vyzns[i]_"Significant" } { yprumer_mean(y) sumy2_sum(y^2) csc_ sum ((y-yprumer)^2) cscprum_mean ((y-yprumer)^2) cscvar_ var (y-yprumer) tsc_csc-rsc tscprum_ mean ((yprumer-pred)^2) tscvar_ var (yprumer-pred) rscprum_mean(res^2) rscvar_var(res)
cat("\n","4. ANOVA","\n") # BOLD # cat("Mean of Y","\t",yprumer,"\n") cat("Source","\t","Sum of Sq.","\t","Mean Square","\t","Variance","\n") cat("Total variability","\t",csc,"\t",cscprum,"\t",cscvar,"\n") cat("Variability explained by model","\t",tsc,"\t",tscprum,"\t",tscvar,"\n") cat("Residual variability","\t",rsc,"\t",rscprum,"\t",rscvar,"\n") fis_(csc-rsc)*(n-m)/(rsc*(m-1)) if(fis>fkvant) fistext_"Model is significant" else fistext_"Model je insignificant" fispr_1-pf(fis,m-1,n-m) cat("F-value","\t",fis,"\n") cat("Critical quantile F (1-alfa, m-1, n-m)","\t", fkvant,"\n") cat("P-Value","\t",fispr,"\n") cat("Conclusion","\t",fistext,"\n","\n") ################################################## }
{ cat("\n","5. Parameter Estimates","\n") # BOLD # cat("Variable","\t","Estimate","\t","Std.Dev.","\t","Concl.","\t","P-value","\t","Lower limit","\t","Upper limit","\n") for (i in 1:m) cat(jmenasl[i],"\t",a[i],"\t",sigmaa[i],"\t",vyzns[i],"\t",vyzn[i],"\t",a[i]tkvant*sigmaa[i],"\t",a[i]+tkvant*sigmaa[i],"\n") } yprumer_mean(y) sumy2_sum(y^2) csc_sum( (y-yprumer)^2) tsc_csc-rsc R_sqrt(1-(rsc/csc)) R2_R^2 aic_n * log(rsc/n) + 2*m mep_ sum ( res^2 / ((1-hatdiag)^2) ) / n RP_1 - ((n*mep)/(sumy2-n*yprumer^2)) RP_1 - (n*mep)/csc
cat("\n","6. Statistical characteristics","\n") # BOLD # cat("Multiple Corr.Coef. R","\t",R,"\n") cat("Coefficient of determination R^2","\t",R2,"\n") cat("Predicted correlation coefficient Rp^2","\t",RP,"\n") cat("Mean quadratic error of prediction MEP","\t",mep,"\n") cat("Akaike information criterion AIC","\t",aic,"\n") epsy_sqrt(hatdiag*sres^2) cat("\n","7. Analysis of Classical Residuals","\n","\n") # (BOLD) cat("Index","\t","Y measured","\t","Y predicted","\t","Std.Dev of Y","\t","Residual","\t","Residual [%Y]","\n") for (i in 1:n)
157
{ if (y[i]==0) cat(i,"\t",y[i],"\t",pred[i],"\t",epsy[i],"\t",res[i],"\t","---","\n") else cat(i,"\t",y[i],"\t",pred[i],"\t",epsy[i],"\t",res[i],"\t",100*res[i]/y[i],"\n") } u1_sum(res)/n u2_sum(res*res)/n u3_sum(res*res*res)/n u4_sum(res*res*res*res)/n { cat("Residual sum of squares","\t",rsc,"\n") cat("Mean absolute residual","\t",sum(abs(res))/n,"\n") cat("Residual Std. Dev.","\t",sres,"\n") cat("Residual variance","\t",sres^2,"\n") cat("Residual skewness","\t",(u3*u3)/(u2*u2*u2),"\n") cat("Residual kurtosis","\t",u4/(u2*u2),"\n") }
cat("\n","8. Testing Regression triplet","\n","\n") # (BOLD) #----- Fisher-Snedecor test ---- 6.39 fis_(csc-rsc)*(n-m)/(rsc*(m-1)) if(fis>fkvant) fistext_"Model is significant" else fistext_"Model is insignificant" fispr_1-pf(fis,m-1,n-m) { cat("Fisher-Snedecor test od model significance","\n") cat("F-value","\t",fis,"\n") cat("Critical qvantile F (1-alfa, m-1, n-m)","\t", fkvant,"\n") cat("P-value","\t",fispr,"\n") cat("Conclusion","\t",fistext,"\n","\n") } #----- Scott's critérion for multicollinearity ---- 6.49 ftest_R2/(m-1)/((max(1-R2,1e-30))/(n-m)) scot2_sum((a/sigmaa)^2)/(m-1) sco_(fis/scot2-1)/(fis/scot2+1) scotext_"Model is correct" if (sco>0.33) scotext_"There is some multicollinearity!" if (sco>0.8) scotext_"Model is incorrect - strong multicollinearity!" cat("Scott's criterion of multicollinearity","\n") cat("Criterion value SC","\t",sco,"\n") cat("Conclusion","\t",scotext,"\n","\n") #----- Cook-Weisberg test of heteroscedasticity ----- 6.131 cw_sum((pred-yprumer)*res*res) cw_cw*cw cw2_ 2 * sum((pred-yprumer)^2)*sres*sres*sres*sres cw_cw/cw2 chikvant1_qchisq(1-alfa,1) cwpr_1-pchisq(cw,1) cwtext_"Residuals are homoscedastic." if (cw>chikvant1) cwtext_"Residuals are heteroscedastic!" { cat("Cook-Weisberg test of heteroscedasticity ","\n") cat("Criterion value CW","\t",cw,"\n") cat("Quantile Chi^2(1-alfa,1)","\t", chikvant1,"\n") cat("P-value","\t",cwpr,"\n") cat("Conclusion","\t",cwtext,"\n","\n") } #----- Jarque-Berra test of normality ---- 6.133 g1_u3*u3/(u2*u2*u2) g2_u4/(u2*u2) jb_n*( g1/6 + (g2-3)^2/24) chikvant2_qchisq(1-alfa,2) jbpr_1-pchisq(jb,2) jbtext_"Residuals are normal." if (jb>chikvant2) jbtext_"Residuals are NOT normal!" { cat("Jarque-Berra test of normality","\n") cat("Criterion value JB ","\t",jb,"\n") cat("Quantile Chi^2(1-alfa,2)","\t", chikvant2,"\n") cat("P-value","\t",jbpr,"\n") cat("Conclusion","\t",jbtext,"\n","\n") }
158
#---- Wald test of autocorrelation -------- 6.177 ro_0 for (i in 1:(n-1)) ro_ro+res[i]*res[i+1] ro_(ro/(n-1))/(sres*sres) wald_n*ro*ro/(1-ro*ro) chikvant1_qchisq(1-alfa,1) waldpr_1-pchisq(wald,1) if(wald>chikvant1) waldtext_"Autocorrelation is significant" else waldtext_"Autocorrelation is insignificant" { cat("Wald test of autocorrelation ","\n") cat("Criterion value WA ","\t",wald,"\n") cat("Quantile Chi^2(1-alfa,1)","\t", chikvant1,"\n") cat("P-value","\t",waldpr,"\n") cat("Conclusion","\t",waldtext,"\n","\n") } #---- Durbin-Watson test of autocorrelation -------- 6.178 dw_ 0 for (i in 1:(n-1)) dw_dw+(res[i]-res[i+1])^2 dw_dw/rsc dwtext_"Residuals are NOT correlated." nd_min(n,200) md_min(m,5) durl_durbinl[nd,md] duru_durbinu[nd,md]
if if if if
(4-dw < durl) dwtext_"Residuals are negatively autocorrelated!" (dw < durl) dwtext_"Residuals are positively autocorrelated!" ((dw>durl)&(dwdurl)&((4-dw)
cat("Durbin-Watson test of autocorrelation (5%)","\n") cat("Criterion value DW ","\t",dw,"\n") cat("Critical values DW ","\t",durl,"\t",duru,"\n") cat("Conclusion","\t",dwtext,"\n","\n") # ---- Non-parametric Sign test ----- 6.130 nuni_0 nplus_0 nminus_0 znam_0 eps_sres * 1.43038e-10 for (i in 1:n) { if (res[i]>=0) nplus_nplus+1 if (res[i]<0) nminus_nminus+1 if (sign (res[i]+eps) != znam) { znam_sign (res[i]+eps) nuni_nuni+1 } } nt0_1+(2*nplus*nminus)/(nplus+nminus) dt01_2*nplus*nminus * (2*nplus*nminus - nplus - nminus) dt02_ (nplus + nminus) * (nplus + nminus) * (nplus + nminus - 1) dt0_abs(dt01/dt02) uu_abs((nuni-nt0+0.5)/sqrt(dt0)) nkvant_qnorm(1-alfa) znapr_2*(1-pnorm(uu)) znatext_"No trent in residuals." if (uu>nkvant) znatext_"Trend in residuals!" cat("Non-parametric Sign test","\n") cat("Criterion value Sg ","\t",uu,"\n") cat("Quantile N(1-alfa/2)","\t", nkvant,"\n") cat("P-value","\t",znapr,"\n") cat("Conclusion","\t",znatext,"\n","\n") #-- Indication of Influential points --------------
159
resstd_res/(sres*sqrt(1-hatdiag)) resjack_rep(0,n) # for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres resjack[i]_esi*sqrt((n-m-1)/(n-m-esi*esi)) } for ( i in 1:n ) { respred_res/(1-hatdiag) } res2norm_res*res/rsc hatdiagy_hatdiag+res2norm atkind_abs(resjack)*sqrt((n-m)/m * hatdiag/(1-hatdiag)) # 6.110 cookd_(resstd/m) * hatdiag/(1-hatdiag) # 6.108 andrewd_1-hatdiag-res2norm # 6.113 vlivy_resjack*sqrt(hatdiag/(1-hatdiag)) ldb_rep(0,n) # lds_rep(0,n) # ldbs_rep(0,n) # for (i in 1:n) { di_(resstd[i]^2)/(n-m) hi_hatdiag[i] ldb[i]_ n * log( (di*hi)/(1-hi)+1) lds[i]_ n * log( n/(n-1) )+ n * log( 1-di) + di*(n-1)/(1-di) - 1 ldbs[i]_n * log( n/(n-1) )+ n * log( 1-di) + di*(n-1)/ ( (1-di)*(1-hi) ) - 1 } # Critical Values: hatdiagkrit_2*m/n hatdiagykrit_2*(m+1)/n atkinkrit_2*sqrt( (m*(n-m))/(m*n)) cookkrit_1 andrewkrit_2*(m+1)/n-1 # vlivykrit_2*sqrt(m/n) ldkrit_qchisq(1-alfa,m+1) # same for ldb, lds, ldbs #---------- Detection of influential points ----------------------{ cat("\n","9. Detection of influential points ","\n","\n") # (BOLD) cat("A. Residual Analysis","\n") cat("Index","\t","Standard","\t","Jackknife","\t","Predicted","\t","Diag(Hii)","\t","Diag(H*ii) ","\t","Cook dist.","\n") for (i in 1:n) cat(i,"\t",resstd[i],"\t",resjack[i],"\t",respred[i],"\t",hatdiag[i],"\t",hatdiagy[i],"\ t",cookd[i],"\n") cat("B. Influence analysis" ,"\n") cat("Index","\t","Atkinson dist.","\t","Andrews-Pregibon stat.","\t","Infl on Y^","\t","Infl. on parameters LD(b)","\t","Influence on variance LD(s)","\t","Overall nfluence LD(b,s)","\n") for (i in 1:n) cat(i,"\t",atkind[i],"\t",andrewd[i],"\t",vlivy[i],"\t",ldb[i],"\t",lds[i],"\t",ldbs[i], "\n") } }
####################################################### ####################################################### #######################################################
6.1.6 Nelineární regrese # Author of the code: Karel Kupka rov_function( x, p ) { # p[1]+p[2]*exp(p[3]*x[1]) # Priklad 1, start:(20,2,0.5), rsc=5.98e-3
160
# # # # # # # # # # # # }
exp(p[1]*x[1]) + exp(p[2]*x[1]) # Priklad 2, start:(0.3, 0.4), rsc=124.34 p[1]*exp(p[2]/(p[3]+x[1])) # Priklad 3, start:(0.02,4000,250), rsc=87 p[1]*exp(-p[3]*x[1]) + p[2]*exp(-p[4]*x[1]) # Priklad 4, start:(1,0.1,1,1), rsc=3.179e-4 p[1]*exp(p[3]*x[1]) + p[2]*exp(p[4]*x[1]) # Priklad 5, start:(1e5,1e5,-1.679,-1.31), rsc=129 p[1]*x[1]^p[3] + p[2]*x[1]^p[4] # Priklad 5, start:(100,0.1,2,10), rsc=2.98e-5 p[1]*log(x[1]+p[2])^p[3]+p[4]*x[1]^(p[5]/x[1]) # p[1]+p[2]*exp(x[1]*p[3])+p[4]*x[1] p[1]*exp(p[2]*x[1])+p[3]*exp(x[1]*p[4]) p[1]+p[2]*x[1] p[1]*exp(p[2]*x[1]) p[1]+p[2]*exp(p[3]*x[1]) p[1]+p[2]/(x[1]-p[3]) p[1]/(x[1]-p[2])
sqsum_function(x,y,p,n) { ss_0 for (i in 1:n) ss[i]_(y[i] - rov(x[i, ],p)) ss_sum(ss^2) # ss_median(ss^2) ss } grad_function(x,y,p,np) { eps_1e-12 pp_p grd_rep(0,np) for (i in 1:np) { pp_p if(pp[i]==0) d_eps else d_pp[i]*eps pp[i]_pp[i] + d/2 s1_sqsum(x,y,pp,n) pp[i]_pp[i] - d s0_sqsum(x,y,pp,n) grd[i]_(s1-s0)/d # cat(i) } grd } jacobi_function(x,p,n,np) { eps_1e-12 ja_matrix(rep(0, np * n ), ncol=np) for (j in 1:n) for (i in 1:np) { pp_p ja[j,i]_0 if(pp[i]==0) d_eps else d_pp[i]*eps pp[i]_pp[i] + d/2 s1_rov(x[j,],pp) pp[i]_pp[i] - d s0_rov(x[j,],pp) ja[j,i]_(s1-s0)/d } ja }
##################################### # Gauss-Newton ##################################### gaussnewton_function(x,y,p,n,np) # var p { #p_pp eps_1e-12 path_p cnt_0 # pocitadlo rsc_sqsum(x,y,p,n) dump_1
161
minnorm_1e-7 repeat { cnt_cnt+1 jak_jacobi(x,p,n,np) yhat_rep(0,n) for (i in 1:n) yhat[i]_rov(x[i,],p) dd_y-yhat jtj_t(jak) %*% jak #for (i in 1:np) # jtj[i,i]_jtj[i,i]+0.00001 #
jtj1_ solve( jtj )
# Pseudoinverze: va_eigen(jtj)$values ve_eigen(jtj)$vectors if (min(va)<=eps | min(va)/max(va)<eps) { cat("Neg. Hessian!","\n") va1_min(va) va2_max(va) # va_va+(va2-va1)*0.001 va_abs(va)+0.001 } cc_matrix(rep(0,np*np),ncol=np) # cc[np,np]=0 for (i in 1:np) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) jtj1_cc # Pseudoinverze - END
jtd_ t(jak) %*% dd step_0.5* ( jtj1 %*% jtd ) p_p+step*dump p_as.vector(p) rscnew_sqsum(x,y,p,n) if (rscnew>rsc) dump_dump/5 else dump_min(1, dump*1.5) nor_sqrt(sum( ((step*dump)/p)^2 ) ) rsc_rscnew if (nor<minnorm) break cat( cnt,"---",rscnew," path_rbind(path,p)
dump: ",dump,"\n"); cat(p,"\n","\n") # do okna "Probiha vypocet"
#points(p[1],p[2],pch=18,col=8) } #p list(p=p,path=path) } # END gaussnewton ########################################### # Gauss-Newton KONEC ###########################################
########################################### # Marquardt ########################################### marquardt_function(x,y,p,n,np) # var p { #p_pp path_p minnorm_1e-6 cnt_0 # pocitadlo lbd_1e4 eps_1e-12 rsc_sqsum(x,y,p,n) repeat
162
{ cnt_cnt+1 jak_jacobi(x,p,n,np) yhat_rep(0,n) for (i in 1:n) yhat[i]_rov(x[i,],p) dd_y-yhat jtj_t(jak) %*% jak jtjdiag_diag(jtj) # diagonala matice jtj[i,i] #for (i in 1:np) # jtj[i,i]_jtj[i,i]+lbd*jtjdiag[i]*jtjdiag[i]+0.000001 #
jtj1_ solve( jtj )
# Pseudoinverze: va_eigen(jtj)$values ve_eigen(jtj)$vectors if (min(va)<=eps | min(va)/max(va)<eps/100) { cat("Neg. Hessian!","\n") va1_min(va) va2_max(va) # va_va+(va2-va1)*0.001 va_abs(va)+0.001 } cc_matrix(rep(0,np*np),ncol=np) # cc[np,np]=0 for (i in 1:np) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) jtj1_cc # Pseudoinverze - END
jtd_ t(jak) %*% dd step_0.5* ( jtj1 %*% jtd ) p_p+step p_as.vector(p) rscnew_sqsum(x,y,p,n) if (rscnew>rsc) lbd_min(lbd*4,1e+4) else lbd_max(lbd/5,0.001) rsc_rscnew cat( cnt,"---",rsc,"\n"); cat(p,"\n","\n") # do okna "Probiha vypocet" path_rbind(path,p) # points(p[1],p[2],pch=18,col=8) nrm_sqrt(sum( (step/p)^2 ) ) if (nrm<minnorm) break if (cnt>maxiter) break # if ("CANCEL") break ## Tlacitko "Zrušit" v messageboxu "Probíhá výpočet" } #p list(p=p,path=path) } ########################################### # Marquardt KONEC ###########################################
########################################### # DogLeg ########################################### dogleg_function(x,y,p,n,np) # var p { #p_pp path_p eps_1e-12 maxiter_100000 minnorm_1e-6 cnt_0 # pocitadlo rsc_sqsum(x,y,p,n)
163
damp_1 repeat { damp_min(1,damp*1.5) cnt_cnt+1
# Cauchy: ==================================================== gg_grad(x,y,p,np) a1_sqrt(sum(gg^2)) dd0_a1*eps ddg_(gg/a1) * eps p1_p+ddg ddgnorm_sqrt(sum(ddg*ddg)) gg2_grad(x,y,p1,np) a12_sqrt(sum(gg2^2)) a2_(a12-a1)/ddgnorm alfstar_ abs(a1/a2) stepg_-(gg/a1)*alfstar # Cauchy_END #Adjustace stepg: ii_1 p1_p+stepg rscnew2_sqsum(x,y,p1,n) while( (rscnew2 > rsc) & (ii<5) ) { stepg_stepg/2 p1_p+stepg rscnew2_sqsum(x,y,p1,n) ii_ii+1 } #Adjustace stepg END;
# Newton: ======================================================= jak_jacobi(x,p,n,np) yhat_rep(0,n) for (i in 1:n) yhat[i]_rov(x[i,],p) dd_y - yhat jtj_t(jak) %*% jak jtjdiag_diag(jtj) # diagonala matice jtj[i,i] # for (i in 1:np) # jtj[i,i]_jtj[i,i]+0.01*jtjdiag[i] #
jtj1_ solve( jtj )
# Pseudoinverze: va_eigen(jtj)$values ve_eigen(jtj)$vectors if (min(va)<=eps | min(va)/max(va)<eps/100) { cat("Neg. Hessian!","\n") va1_min(va) va2_max(va) # va_va+(va2-va1)*0.01 va_abs(va)+0.001 } cc_matrix(rep(0,np*np),ncol=np) # cc[np,np]=0 for (i in 1:np) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) jtj1_cc # Pseudoinverze - END # Davidon-Fletcher Hessian Update ====================================== if (cnt > 50000) { HH_jtj1 y000_as.matrix (gg)-g.old s000_as.matrix (stepdl) a000_as.vector (t(y000) %*% HH %*% y000) b000_as.vector (t(y000) %*% s000) c000_as.vector (t(s000) %*% jtj %*% s000) f000_b000/(b000-a000)
164
a9_HH %*% y000 a9_a9 %*% t(y000) a9_a9 %*% HH a9_a9/a000 b9_s000 %*% t(s000) b9_b9/b000 c91_s000/b000 c92_HH %*% y000 c92_c92/a000 c93_c91-c92 c9_c93 %*% t(c93) c9_f000 * a000 * c9 H.phi_HH - a9 + b9 + c9 jtj1_ H.phi } # Davidon-Fletcher Update - END jtd_ t(jak) %*% dd stepn_ 0.5 * ( jtj1 %*% jtd ) stepn_as.vector(stepn) # Newton END; #Adjustace stepn: ii_1 p1_p+stepn rscnew2_sqsum(x,y,p1,n) while( (rscnew2 > rsc) & (ii<5) ) { stepn_stepn/2 p1_p+stepn rscnew2_sqsum(x,y,p1,n) ii_ii+1 } #Adjustace stepn END;
# Double Dog Leg: =============================================== gg_as.matrix(gg) gnorm_sqrt(sum(gg*gg)) hh01_t(gg)%*%jtj hh01_hh01%*%gg gg01_t(gg)%*%jtj1 gg01_gg01%*%gg gnorm2_gnorm*gnorm cc01_(gnorm2*gnorm2) / (hh01*gg01) alp01_0.8 tt00_1-alp01*sqrt(1-cc01) theta00_-0.5 stepdl_ (1-theta00) * stepg + theta00 * tt00 * stepn p1_p+stepdl rscnew_sqsum(x,y,p1,n) theta_theta00 theta00_0.0 stepdl_ (1-theta00) * stepg + theta00 * tt00 * stepn p1_p+stepdl rscnew2_sqsum(x,y,p1,n) if (rscnew2
165
p1_p+stepdl rscnew2_sqsum(x,y,p1,n) if (rscnew2
stepdl_ (1-theta) * stepg + theta * tt00 * stepn # Double Dog Leg END; g.old_gg p_p+stepdl*damp rscnew_sqsum(x,y,p,n) rsc_rscnew nrm_sqrt(sum( (stepdl/p)^2 ) ) cat( cnt,"---",rsc,"\n"); cat(p,"\n") # do okna "Probiha vypocet" cat("Theta:",theta," T:",tt00," Norm:",nrm,"\n","\n") path_rbind(path,p) if (nrm<minnorm) break if (cnt>maxiter) break # if ("CANCEL") break ## Tlacitko "Zrušit" v messageboxu "Probíhá výpočet" } #p_gaussnewton(x,y,p,n,np) #p list(p=p,path=path) } ########################################### # DogLeg KONEC ###########################################
#====================================================== # Gradientova metoda s pevnym krokem #====================================================== gradientfix_function(x,y,p,n,np,steps=abs(p)/20) # var p { #p_pp path_p i_0 eps_1e-6 rsc_sqsum(x,y,p,n) repeat { i_i+1 gg_grad(x,y,p,np) a1_sqrt(sum(gg^2)) dd0_a1*eps ddg_(gg/a1) * eps p1_p+ddg ddgnorm_sqrt(sum(ddg*ddg)) gg2_grad(x,y,p1,np) a12_sqrt(sum(gg2^2)) a2_(a12-a1)/ddgnorm alfstar_ abs(a1/a2) step_-(gg/a1)*alfstar/2 damp_0.001 steps_ step * damp
166
p1_p+steps rscnew_sqsum(x,y,p1,n) damp0_damp damp_0.01 steps_ step * damp p1_p+steps rscnew2_sqsum(x,y,p1,n) if (rscnew2
damp_8 steps_ step * damp p1_p+steps rscnew2_sqsum(x,y,p1,n) if (rscnew2
damp_damp0 steps_-(gg/a1)*alfstar * damp p_p+steps rscnew_sqsum(x,y,p,n) cat( i,"---",sqsum(x,y,p,n)," damp: ",damp,"\n") cat(p,"\n","\n") # do okna "Probiha vypocet" path_rbind(path,p) if (rscnew>rsc) dump_max(damp/5,1e-1) else damp_min(1, damp*1.5) nor_sqrt(sum( (steps/p)^2 ) ) rsc_rscnew # points(p[1],p[2],pch=18,col=8) if (nor<minnorm) break } #p list(p=p,path=path) } #====================================================== # Gradientova metoda s pevnym krokem KONEC #======================================================
167
#====================================================== # Gradientova metoda s Cauchyho krokem #======================================================
gradientcy_function(x,y,p,n,np) # var p { #p_pp path_p i_0 eps_1e-6 rsc_sqsum(x,y,p,n) dump_0.05 repeat { i_i+1 gg_grad(x,y,p,np) a1_sqrt(sum(gg^2)) dd0_a1*eps ddg_(gg/a1) * eps p1_p+ddg ddgnorm_sqrt(sum(ddg*ddg)) gg2_grad(x,y,p1,np) a12_sqrt(sum(gg2^2)) a2_(a12-a1)/ddgnorm alfstar_ abs(a1/a2) steps_-(gg/a1)*alfstar * dump p_p+steps rscnew_sqsum(x,y,p,n) if (rscnew>rsc) dump_max(dump/5,0.05) else dump_min(1, dump*1.5) nor_sqrt(sum( (steps/p)^2 ) ) rsc_rscnew cat( i,"---",sqsum(x,y,p,n)," dump: ",dump,"\n") cat(p,"\n","\n") # do okna "Probiha vypocet" path_rbind(path,p) # points(p[1],p[2],pch=18,col=8) if (nor<minnorm) break } #p list(p=p,path=path) } #====================================================== # Gradientova metoda s Cauchyho krokem KONEC #====================================================== ################# R U N ################################################################################# #xx_t(matrix(scan("clipboard"),nrow=2)) #x_as.matrix(xx[,1]) #y_as.vector(xx[,2])
x_as.matrix(c(1,2,3,4,5,6,7)) y_c(14,10,7,5,3.6,2.9,2.3) pp_c(1,10,-.5) n_length(y) # pocet radku m_dim(x) [2] # pocet sloupcu np_length(pp) # pocet parametru = length(p) maxiter_10000 alfa_0.05 ################# R U N ################################################################################# rsc.start_sqsum(x,y,pp,n)
168
p_dogleg(x,y,pp,n,np) p_marquardt(x,y,pp,n,np) p_gaussnewton(x,y,pp,n,np) p_gradientcy(x,y,pp,n,np) p_gradientfix(x,y,pp,n,np)
################## Po optimalizaci: ######### tkvant_qt(1-alfa/2,n-np) fkvant_qf(1-alfa ,np-1,n-np) p_p$p jak_jacobi(x,p,n,np) yhat_rep(0,n) for (i in 1:n) yhat[i]_rov(x[i,],p) res_y-yhat jtj_t(jak) %*% jak # jtjdiag_diag(jtj) # diagonala matice jtj[i,i] # for (i in 1:np) jtj[i,i]_jtj[i,i]+0.000001 #
jtj1_ solve( jtj )
# Pseudoinverze: va_eigen(jtj)$values ve_eigen(jtj)$vectors if (min(va)<=0) { cat("Singularni Hessian!","\n") va1_min(va) va2_max(va) va_va+(va2-va1)*0.001 } cc_matrix(rep(0,np*np),ncol=np) # cc[np,np]=0 for (i in 1:np) cc_cc+(1/va[i])* ve[,i] %*% t(ve[,i]) jtj1_cc # Pseudoinverze - END rsc_sum(res^2) sres_rsc/(n-np) pvar_diag(jtj1)*sres psmo_sqrt(pvar) ###### Graf regresní křivky: ### if ( m == 1) { nadpisx_"Nazev sploupce X" nadpisy_"Nazev sloupce Y" nadpis_"Regresní model" xmin_min(x) xmax_max(x) dxint_xmax-xmin ngraf_200 xpre_as.matrix(seq(xmin,xmax,length=ngraf)) ypre_rep(0,ngraf) # DIM for (i in 1:ngraf) ypre[i]_rov(xpre[i,],p) japre_jacobi(xpre,p,ngraf,np) hess_jtj1 s2pre_rep(0,ngraf) # DIM for (i in 1:ngraf) { aa_t(as.matrix(japre[i,])) %*% hess s2pre[i]_aa %*% as.matrix(japre[i,]) } s2pre_s2pre*sqrt(np*fkvant)*sqrt(sres) # Oprava 23.4.99 ubound_ypre+tkvant*sqrt(s2pre) lbound_ypre-tkvant*sqrt(s2pre) ymin_min(y,lbound) ymax_max(y,ubound) plot(as.vector(x),y,xlim=c(xmin,xmax),ylim=c(ymin,ymax), main=nadpis, xlab=nadpisx, ylab=nadpisy) lines(as.vector(xpre),ypre) lines(as.vector(xpre),ubound,col=8,lty=4) lines(as.vector(xpre),lbound,col=8,lty=4) }
169
###### Graf regresní křivky KONEC ### ###### Graf reziduí ### nadpisx_"Y" nadpisy_"Reziduum" nadpis_"Graf reziduí" plot(y,res, main=nadpis, xlab=nadpisx, ylab=nadpisy) abline(h=0) ###### Graf reziduí KONEC ### ###### Graf vlivných bodů ### nadpisx_"Index" nadpisy_"H-diagonal" nadpis_"Graf vlivných bodů" hatdiag_rep(0,n) jak_jacobi(x,p,n,np) x1_jak xxtx_x1 %*% hess for (i in 1:n) hatdiag[i]_ sum ( xxtx[i,]*x1[i,] ) indx_1:n ymin_0 ymax_max(hatdiag,2*np/n) plot(indx,hatdiag,type="l",main=nadpis, xlab=nadpisx, ylab=nadpisy) points(indx,hatdiag) abline(h=2*np/n,col=8,lty=4) ###### Graf vlivných bodů KONEC ###
################################################################## ###################### P r o t o k o l ########################### ################################################################## { cat(" *** Hlavicka *** ","\n") cat("Model:","\t","Y~P1+P2*exp(P3*X)","\n") cat("\n") cat("Počáteční hodnoty parametrů:","\n") for(i in 1:np) cat(paste("P",i),"\t",pp[i],"\n") cat("Počáteční součet čtverců:","\t",rsc.start,"\n") cat("Výpočet:","\n") cat("***","\n") cat("\n")
cat("Odhady parametrů:","\t","Parametr","\t","Směr. odchylka","\t","Dolní mez","\t","Horní mez","\n") for(i in 1:np) cat(paste("P",i),"\t", p[i],"\t", psmo[i],"\t", p[i]-tkvant*psmo[i],"\t", p[i]+tkvant*psmo[i],"\n") cat("\n") covar_cc*sres korel_covar dd_1/psmo for (i in 1:np) for (j in 1:np) korel[i,j]_covar[i,j] * dd[i] for (i in 1:np) for (j in 1:np) korel[i,j]_korel[i,j] * dd[j]
cat("Korelační matice parametrů:","\t","\t") for (i in 1:np) cat(paste("P",i),"\t") for (i in 1:np) { cat("\n","\t",paste("P",i),"\t") for (j in 1:np) cat(korel[i,j],"\t")
170
} yprumer_mean(y) sumy2_sum(y^2) csc_sum( (y-yprumer)^2) tsc_csc-rsc R_sqrt(1-(rsc/csc)) R2_R^2 aic_n * log(rsc/n) + 2*np mep_ sum ( res^2 / ((1-hatdiag)^2) ) / n RP_1 - ((n*mep)/(sumy2-n*yprumer^2)) RP_1 - (n*mep)/csc epsy_sqrt(hatdiag*sres^2)
cat("\n") cat("\n") cat("\n","Analýza klasických reziduí","\n") # (BOLD) cat("Index","\t","Y naměřené","\t","Y vypočítané","\t","Směr. odch. Y","\t","Reziduum","\t","Reziduum [%Y]","\n") for (i in 1:n) { if (y[i]==0) cat(i,"\t",y[i],"\t",yhat[i],"\t",epsy[i],"\t",res[i],"\t","---","\n") else cat(i,"\t",y[i],"\t",yhat[i],"\t",epsy[i],"\t",res[i],"\t",100*res[i]/y[i],"\n") } cat("\n","Statistické charakteristiky regrese","\n") # BOLD # cat("Vícenásobný korelační koeficient R","\t",R,"\n") cat("Koeficient determinace R^2","\t",R2,"\n") cat("Predikovaný korelační koeficient Rp","\t",RP,"\n") cat("Střední kvdratická chyba predikce MEP","\t",mep,"\n") cat("Akaikeho informační kritérium","\t",aic,"\n") u1_sum(res)/n u2_sum(res*res)/n u3_sum(res*res*res)/n u4_sum(res*res*res*res)/n { cat("Reziduální součet čtverců","\t",rsc,"\n") cat("Průměr absolutních reziduí","\t",sum(abs(res))/n,"\n") cat("Reziduální směr. odchylka","\t",sres,"\n") cat("Reziduální rozptyl","\t",sres^2,"\n") cat("Šikmost reziduí","\t",(u3*u3)/(u2*u2*u2),"\n") cat("Špičatost reziduí","\t",u4/(u2*u2),"\n") } #----- Cook-Weisbergův test heteroskedasticity ----- 6.131 cw_sum((pred-yprumer)*res*res) cw_cw*cw cw2_ 2 * sum((pred-yprumer)^2)*sres*sres*sres*sres cw_cw/cw2 chikvant1_qchisq(1-alfa,1) cwpr_1-pchisq(cw,1) cwtext_"Rezidua vykazují homoskedasticitu." if (cw>chikvant1) cwtext_"Rezidua vykazují heteroskedasticitu!" { cat("Cook-Weisbergův test heteroskedasticity","\n") cat("Hodnota kritéria CW","\t",cw,"\n") cat("Kvantil Chi^2(1-alfa,1)","\t", chikvant1,"\n") cat("Pravděpodobnost","\t",cwpr,"\n") cat("Závěr","\t",cwtext,"\n","\n") } #----- Jarque-Berrův test normality ---- 6.133 g1_u3*u3/(u2*u2*u2) g2_u4/(u2*u2) jb_n*( g1/6 + (g2-3)^2/24) chikvant2_qchisq(1-alfa,2) jbpr_1-pchisq(jb,2) jbtext_"Rezidua mají normální rozdělení." if (jb>chikvant2) jbtext_"Rezidua nemají normální rozdělení!" { cat("Jarque-Berrův test normality","\n") cat("Hodnota kritéria JB ","\t",jb,"\n") cat("Kvantil Chi^2(1-alfa,2)","\t", chikvant2,"\n")
171
cat("Pravděpodobnost","\t",jbpr,"\n") cat("Závěr","\t",jbtext,"\n","\n") } #---- Waldův test autokorelace -------- 6.177 ro_0 for (i in 1:(n-1)) ro_ro+res[i]*res[i+1] ro_(ro/(n-1))/(sres*sres) wald_n*ro*ro/(1-ro*ro) chikvant1_qchisq(1-alfa,1) waldpr_1-pchisq(wald,1) if(wald>chikvant1) waldtext_"Autokorelace je významná" else waldtext_"Autokorelace je nevýznamná" { cat("Waldův test autokorelace","\n") cat("Hodnota kritéria WA ","\t",wald,"\n") cat("Kvantil Chi^2(1-alfa,1)","\t", chikvant1,"\n") cat("Pravděpodobnost","\t",waldpr,"\n") cat("Závěr","\t",waldtext,"\n","\n") } # ---- Znaménkový test proložení ----- 6.130 nuni_0 nplus_0 nminus_0 znam_0 eps_sres * 1.43038e-10 for (i in 1:n) { if (res[i]>=0) nplus_nplus+1 if (res[i]<0) nminus_nminus+1 if (sign (res[i]+eps) != znam) { znam_sign (res[i]+eps) nuni_nuni+1 } } nt0_1+(2*nplus*nminus)/(nplus+nminus) dt01_2*nplus*nminus * (2*nplus*nminus - nplus - nminus) dt02_ (nplus + nminus) * (nplus + nminus) * (nplus + nminus - 1) dt0_abs(dt01/dt02) uu_abs((nuni-nt0+0.5)/sqrt(dt0)) nkvant_qnorm(1-alfa/2) znapr_2*(1-pnorm(uu)) znatext_"V reziduích není trend." if (uu>nkvant) znatext_"V reziduích je trend!" cat("Znaménkový test reziduí","\n") cat("Hodnota kritéria Sg ","\t",uu,"\n") cat("Kvantil N(1-alfa/2)","\t", nkvant,"\n") cat("Pravděpodobnost","\t",znapr,"\n") cat("Závěr","\t",znatext,"\n","\n") #-- Příprava Indikace vlivných dat -------------resstd_res/(sres*sqrt(1-hatdiag)) resjack_rep(0,n) # deklarace for ( i in 1:n ) { esi_res[i]/sqrt(1-hatdiag[i])/sres resjack[i]_esi*sqrt((n-np-1)/(n-np-esi*esi)) } for ( i in 1:n ) { respred_res/(1-hatdiag) } res2norm_res*res/rsc hatdiagy_hatdiag+res2norm atkind_abs(resjack)*sqrt((n-np)/np * hatdiag/(1-hatdiag)) # 6.110 cookd_(resstd/np) * hatdiag/(1-hatdiag) # 6.108 andrewd_1-hatdiag-res2norm # 6.113 vlivy_resjack*sqrt(hatdiag/(1-hatdiag))
cat("\n","Indikace vlivných dat","\n","\n") # (BOLD) cat("Index","\t","Std. res","\t","Jackknife","\t","Predikované","\t","Diag(Hii)","\t","\t","Atkins. vzdál.","\n") for (i in 1:n)
172
cat(i,"\t",resstd[i],"\t",resjack[i],"\t",respred[i],"\t",hatdiag[i],"\t",atkind[i],"\n") }
Příklad: Data: x_as.matrix(c(1,2,3,4,5,6,7)) y_c(14,10,7,5,3.6,2.9,2.3) pp_c(1,10,-.5) Výstup: *** Hlavicka *** Model: Y~P1+P2*exp(P3*X) Počáteční hodnoty parametrů: P 1 1 P 2 10 P 3 -0.5 Počáteční součet čtverců: 103.740427972309 Výpočet: *** Odhady parametrů: Parametr Směr. odchylka Dolní mez Horní mez P 1 0.94713857169379 0.205903164466296 0.375459738566606 1.51881740482097 P 2 19.3074169795913 0.235906137317681 18.6524365393495 19.9623974198331 P 3 -0.386660441438601 0.0153293902970074 -0.429221652094393 -0.344099230782808 Korelační matice parametrů: P 1 1 0.107709871359821 P 2 0.107709871359821 1 P 3 -0.930835431543998
Analýza Index 1 14 2 10 3 7 4 5 5 3.6 6 2.9 7 2.3
P 1 P 2 P 3 -0.930835431543998 -0.4060901609164 -0.4060901609164 1
klasických reziduí Y naměřené Y vypočítané Směr. odch. Y Reziduum Reziduum [%Y] 14.0630863848915 0.0130206124852262 -0.0630863848914896 -0.450617034939211 9.85708686878429 0.00810788755051871 0.142913131215712 1.42913131215712 6.99986002099262 0.00844806355966304 0.00013997900737639 0.00199970010537699 5.05888374924609 0.00719532335164308 -0.0588837492460898 -1.1776749849218 3.7403363996036 0.00630704468952169 -0.140336399603595 -3.89823332232209 2.84461853918645 0.00760452645503618 0.0553814608135466 1.90970554529471 2.23613793688742 0.0102577398544053 0.0638620631125817 2.77661143967746
Statistické charakteristiky regrese Vícenásobný korelační koeficient R 0.99975114629209 Koeficient determinace R^2 0.999502354512348 Predikovaný korelační koeficient Rp 0.99484123527741 Střední kvdratická chyba predikce MEP 0.0810220848002165 Akaikeho informační kritérium -27.9611859527352 Reziduální součet čtverců 0.0547111449124931 Průměr absolutních reziduí 0.0749433096986273 Reziduální směr. odchylka 0.0136777862281233 Reziduální rozptyl 0.000187081836102239 Šikmost reziduí 0.000723726534282201 Špičatost reziduí 2.00861218568991
173
Graf reziduí
0.05
Reziduum
-0.15
-0.05
10 5
Nazev sloupce Y
15
0.15
Regresní model
1
2
3
4
5
6
7
2
4
Nazev sploupce X
6
8
10
12
14
Y
0.6 0.2
0.4
H-diagonal
0.8
Graf vlivných bodů
1
2
3
4
5
6
7
Index
6.1.7 Vícerozměrná analýza s robustní Mahalanobisovou vzdáleností # Author of the code: Karel Kupka
################### D L G ######################## korela_TRUE # Použít korelacni matici biplot_TRUE # Biplot zateze_TRUE # Rozptyly/zateze kompo_FALSE # Graf hlavnich komponent normal_TRUE # Graf normality yyout_FALSE # Transformovaná data andrews_TRUE # Kreslit Andrewsovy křivky ### ##################################################### ##### DATA: x_matrix(rnorm(60*4)+1,ncol=4) # data ############################## n_dim(x)[1] m_dim(x)[2] if (n <= m) stop ("Pocet radku musi byt vetsi nez pocet sloupcu") p_min(n,m)
xnorm_x xmeans_apply(x,2,mean) # prumer ze sloupcu x xvars_apply(x,2,var) # rozptyl ze sloupcu x xnorm1_t(t(x)-xmeans) # od kazdeho sloupce x odecist prislusny prumer ###OPR29.6. xnorm_t(t(xnorm1)/sqrt(xvars)) # kazdy slouec xnorm vydelit prislusnou smer. odch. ###OPR29.6. xkova_t(xnorm1)%*%xnorm1 ###OPR29.6. xkova_xkova/(n-1) ###OPR29.6. dd_diag(1/sqrt(diag(xkova))) # matice [m*m] s diagonalou=1/sqrt(xkova[i,i]), jinak nuly dd_dd xkore_dd%*%xkova xkore_xkore%*%dd
174
if(korela) x.in_xkore else x.in_xkova ee_eigen(x.in) eigenvec_ee$vectors eigenval_ee$values yy_eigenvec%*%t(xnorm) yy_t(yy) scree_eigenval/m*100 scree_-sort(-scree) # setridit od nejvetsiho k nejmensimu screecum_rep(0,m) # deklarace for (i in 1:m) screecum[i]_sum(scree[1:i]) loads_eigenvec for (i in 1:m) loads[,i]_loads[,i]*sqrt(eigenval[i]) # kazdy sloupec vynasobit sqrt(eigenval[i]) if (zateze) { ######## Zátěže/rozptyly ################### barplot(scree,ylab="Rel. rozptyl %",xlab="Komponenta",names=as.character(1:m),main="Scree plot") for (i in 1:m) barplot(loads[,i],ylab="Zátěž",xlab="Proměnná",names=as.character(1:m),main=paste ("Zátěže: Komp",i)) ######## Zátěže/rozptyly * KONEC ################### }
if (kompo) { ######### Hlavni komponenty ######### par(mfrow=c(m,m)) for (i in 1:m) for(j in 1:m) if (i != j ) plot(yy[,i],yy[,j]) else {plot(0,0,type="n");text(0,0,paste("Comp",i))} par(mfrow=c(1,1)) ######### Hlavni komponenty * KONEC ######### }
if(biplot) { ######## Biplot: Pouze pro omezene n ################# xtx_t(xnorm) %*% xnorm xxt_xnorm%*%t(xnorm) vv_eigen(xtx)$vectors uu_eigen(xxt)$vectors uu_uu[,1:m] ssi_eigen(xtx)$values ssimat_matrix(rep(0,m*m),ncol=m) # deklarace, ctvercova m*m for (i in 1:m) ssimat[i,i]_sqrt(ssi[i]) uu%*%ssimat%*%t(vv) uus_uu vvs_vv for (i in 1:m) uus[,i]_uu[,i]*sqrt(sqrt(ssi[i])) for (i in 1:m) vvs[,i]_vv[,i]*sqrt(sqrt(ssi[i])) smax_sqrt(sqrt(ssi[1])) plot(0,0,xlim=c(-smax,smax),ylim=c(smax,smax),xlab="Komp1",ylab="Komp2",main="Biplot") for (i in 1:n)
175
{ lines(c(0,uus[i,1]),c(0,uus[i,2]),col=4) text(uus[i,1],uus[i,2],i,col=4) } for (i in 1:m) { lines(c(0,vvs[i,1]),c(0,vvs[i,2]),col=8) text(vvs[i,1],vvs[i,2],i,col=8) } #pri_princomp(xnorm,cor=F) #biplot(pri) ######## Biplot * KONEC ################# }
if (normal) { ########### Normalita ########################### multinorm_rep(0,n) au_(n-2)/(n-1) bu_n/(n-1)^2 for (i in 1:n) {#i_1 xmi_1/(n-1)*(n*xmeans-x[i,]) # x[i,] je i-ty radek x sinv_solve(xkova) # inverze xicent_as.matrix(x[i,]-xmeans) # sloupcova matice xxti_xicent%*%t(xicent) enum_sinv%*%xxti enum_enum%*%sinv deno_t(xicent)%*%sinv deno_deno%*%xicent deno_as.vector(deno) # matici 1 x 1 prevest na cislo deno_1-bu*deno aus_au*sinv sjack_enum/deno sjack_sjack+aus xjack_x[i,]-xmi xjack_as.matrix(xjack) # sloupcova matice (m x 1) zz_t(xjack) %*% sjack # radkova matice (1 x m) zz_zz %*% xjack # matice (1 x 1) multinorm[i]_as.vector(zz) # prevest na cislo } multinorm_sort(multinorm) probs_((1:n))/(n+1) fqa_qf(probs,m,n-m) kk_(m*(n*n-1))/(n*(n-m)) fqa_fqa*kk #plot(multinorm,fqa,xlab="Data",ylab="Q-teor",main="Vícerozměrná normalita") plot(log(multinorm),log(fqa),xlab="Data",ylab="Q-teor",main="Vícerozměrná normalita") #plot(sqrt(multinorm),sqrt(fqa),xlab="Data",ylab="Q-teor",main="Vícerozměrná normalita") ########################## Graf symetrie ########### maxx_-100 maxy_-100 minx_100 miny_100 for (i in 1:m) {#i_1 xx1_as.vector(sort(xnorm[,i])) # i-ty sloupec setrideny vzestupne xx2_as.vector(-sort(-xnorm[,i])) # i-ty sloupec setrideny sestupne x0_xx1[1:trunc(n/2)] y0_xx2[1:trunc(n/2)] if (min(y0)<miny) miny_min(y0) if (max(y0)>maxy) maxy_max(y0) if (min(x0)<minx) minx_min(x0) if (max(x0)>maxx) maxx_max(x0)
176
} for (i in 1:m) {#i_1 xx1_as.vector(sort(xnorm[,i])) # i-ty sloupec setrideny vzestupne xx2_as.vector(-sort(-xnorm[,i])) # i-ty sloupec setrideny sestupne x0_xx1[1:trunc(n/2)] y0_xx2[1:trunc(n/2)] if (i==1) plot(x0,y0,xlim=c(minx,maxx),ylim=c(miny,maxy),xlab="x-",ylab="x+",main="Graf symetrie") else points(x0,y0) lines(x0,y0) } abline(0,-1,col=8) ########################## Graf symetrie * Konec ###########
########### Normalita * KONEC ########################### }
################# Andrews ###################### ngraf_50 sine_matrix(rep(0,ngraf*n),ncol=ngraf) # Deklarace [n x ngraf] x0_seq(-pi,pi,length=ngraf) # Pravidelne ngraf cisel od -pi do pi cc0_rep(0,trunc(m/2)*2+1) cnt_1 if ( m > 1 ) for ( i in 2:(trunc(m/2)+1) ) {cnt_cnt+1; cc0[cnt]_i-1; cnt_cnt+1; cc0[cnt]_i-1} ## cc0 := 0,1,1,2,2,3,3,4,4, .... sft_rep(0,trunc(m/2)*2+1) cnt_0 if ( m > 1 ) for ( i in 2:(trunc(m/2)+1) ) {cnt_cnt+1; sft[cnt]_0; cnt_cnt+1; sft[cnt]_pi/2} ## sft := 0, pi/2, 0, pi/2, 0, pi/2, .... odm2_1/sqrt(2) for (i in 1:n) for (j in 1:ngraf) sine[i,j]_xnorm[i,1] * odm2 for (i in 1:n) for (k in 1:ngraf) for (j in 1:m) sine[i,k]_sine[i,k]+xnorm[i,j]*sin(cc0[j]*x0[k]+sft[j]) # Kresleni, kazdemu radku dat odpovida jedna krivka. miny_min(sine) maxy_max(sine) plot(x0,sine[1,],type="l",ylim=c(miny,maxy),main="Andrewsovy křivky", xlab="x",ylab="y") for (i in 2:n) lines(x0,sine[i,]) ################## Andrews * KONEC ################
################### PROTOKOL ####################### { cat("Analýza vícerozměrných dat","\n","\n") cat("Název úlohy","\t","Nazev_Ulohy","\n") cat("Počet proměnných","\t",m,"\n") cat("Počet dat","\t",n,"\n") xmaxs_apply(x,2,max) # maxima ze sloupcu x xmins_apply(x,2,min) # minima ze sloupcu x cat("Základní charakteristiky","\n","\n") cat("Proměnná","\t","Průměr","\t","Rozptyl","\t","Smer. odchylka","\t","Minimum","\t","Maximum","\n")
177
for (i in 1:m) cat("Sloupec",i,"\t",xmeans[i],"\t", xvars[i],"\t",sqrt(xvars[i]),"\t",xmins[i],"\t",xmaxs[i],"\n") cat("\n") cat("Korelační matice","\n") cat("Proměnná",paste("Sloupec",1:m,sep=""),"\n",sep="\t") for (i in 1:m) cat(paste("Sloupec",i),xkore[i,],"\n",sep="\t") cat("\n") cat("Kovarianční matice","\n") cat("Proměnná",paste("Sloupec",1:m,sep=""),"\n",sep="\t") for (i in 1:m) cat(paste("Sloupec",i),xkova[i,],"\n",sep="\t") cat("\n") cat("Variabibita vysvětnená hlavními komponentami","\n") cat("Komponenta","Rozptyl","Směr. odchylka","Rel. variabilita, %","Kum. variabilita, %","\n",sep="\t") for (i in 1:m) cat(paste("Komponenta",i), eigenval[i], sqrt(eigenval[i]), scree[i], screecum[i],"\n",sep="\t")
{ cat("\n") if (korela) sstr_"korelační" else sstr_"kovarianční" cat(paste("Vlastní vektory",sstr,"matice"),"\n") cat("Sloupec",paste("Komponenta",1:m,sep=""),"\n",sep="\t") for (i in 1:m) cat(paste("Proměnná",i),eigenvec[i,],"\n",sep="\t") }
if (zateze) { cat("\n") cat("Zátěže","\n") cat("Sloupec",paste("Komponenta",1:m,sep=""),"\n",sep="\t") for (i in 1:m) cat(paste("Proměnná",i),loads[i,],"\n",sep="\t") } } ######################################################### # Robust Mahalanobis Distance ######################################################### deltaw_1e-5 maxitr_100 wgh_rep(1,n) sx_rep(0,m) mx_rep(0,m) mxm_rep(0,m) xnorm_x xcent_x d00_sqrt(m)+2*sqrt(2) d00_sqrt(m)*0.8 d00_0 qch0_sqrt(qchisq(0.9,m)) d00_qch0 beta_1.25 for (i in 1:m) { sx[i]_sqrt(var(x[,i])) mx[i]_mean(x[,i])
178
xcent[,i]_x[,i]-mx[i] xnorm[,i]_(x[,i]-mx[i])/sx[i] } ss_t(xcent)%*%xcent/(n-1) ss1_solve(ss) maha_xcent%*%ss1 #maticove nasobeni maha_maha*xcent #skalarni nasobeni maha_apply(maha,1,sum) # soucty jednotlivych radku maha maha_sqrt(maha) w0_rep(0,n) dw_sqrt(sum( (wgh-w0)^2)) converg_F countr_0 while((dw>deltaw) && (countr<maxitr)) { countr_countr+1 # cat("** ",countr," ") for (i in 1:m) { sx[i]_sqrt(var(xcent[,i])) mxm[i]_sum(x[,i]*wgh)/sum(wgh) xcent[,i]_x[,i]-mxm[i] } ssm_t(xcent*wgh)%*%(xcent*wgh)/(sum(wgh)-1) ssm1_solve(ssm) maham_xcent%*%ssm1 #maticove nasobeni maham_maham*xcent #skalarni nasobeni maham_apply(maham,1,sum) # soucty jednotlivych radku maham maham_sqrt(maham) dss_maham for(i in 1:n) { if(maham[i]>d00) dss[i]_d00*exp(-0.5*((dss[i]-d00)*(dss[i]-d00))/beta) } w0_wgh wgh_dss/maham dw_sqrt(sum((wgh-w0)^2)) } converg_(dw<deltaw) nn1_sum(maha) nn2_sum(maham) maham1_maham/nn2*nn1
qch_sqrt(qchisq(0.95,m)) mmax_max(c(maha,maham1,qch)) plot(maha,ylim=c(0,mmax),main="Mahalanobisova vzdálenost",xlab="Index",ylab="MD") lines(maha,col=4) points(maha,col=4) abline(h=qch,col=8,lty=4) if (converg) { lines(maham1,col=8) points(maham1,col=8) # Legenda: "zelene" = klasická, "cervene" = robustní } if (converg) { dmaha_maham1-maha hh_rep(0,n) # dim xtx1_t(xcent)%*%xcent
179
xtx1_solve(xtx1) xxtx_xcent %*% xtx1 for (i in 1:n) hh[i]_ sum ( xxtx[i,]*xcent[i,] ) mmax_max(dmaha,0.001) mmin_min(dmaha) plot(hh,dmaha,main="Odlehlá data",xlab="Hat",ylab="dMD",ylim=c(mmin,mmax)) abline(v=2*m/n,col=8,lty=4) abline(h=-min(dmaha)*(1+1/sqrt(n))+0.001,col=8,lty=4) } { { cat("Robustní M-odhady","\n") if (converg) { cat("Proměnná","\t","Střední hodnota","\n") for (i in 1:m) cat(paste("Proměnná",i),"\t",mxm[i],"\n") cat("\n") } else cat("Nekonverguje","\n") } if (converg) { cat("Mahalanobisova vzdálenost","\n") cat("Čislo","\t","Klasická MV","\t","Robustní MVm","\n") for (i in 1:n) cat(i,"\t",maha[i],"\t",maham1[i],"\n") cat("\n") } else { cat("Mahalanobisova vzdálenost","\n") cat("Čislo","\t","Klasická MV","\n") for (i in 1:n) cat(i,"\t",maha[i],"\n") cat("\n") } }
################################################################# ###Příklad: (data generovaná pomocí generátoru náhodných čísel) Počet proměnných 5 Počet dat 60 Základní charakteristiky Proměnná Průměr Rozptyl Smer. odchylka Minimum Maximum Sloupec 1 1.02078613830751 0.922487505320811 0.960462131122727 -1.06377415625984 Sloupec 2 1.02243585331612 1.04686059298218 1.02316205607039 -1.53931231173949 3.10666571219736 Sloupec 3 1.15267633657807 1.12165061317928 1.05908007873781 -1.85145124739706 3.55431555314266 Sloupec 4 0.880239826961718 0.765174805433545 0.874742708133966 0.845831004878128 2.87730308666949 Sloupec 5 0.966476900555879 0.872556526984181 0.934107342324308 1.51162704360548 2.90997910206516 Korelační matice Proměnná Sloupec1 Sloupec2 Sloupec3 Sloupec4 Sloupec5 Sloupec 1 1 0.122187487478741 0.188051954654207 0.0406159827656692 0.141497142933839 Sloupec 2 0.122187487478741 1 0.0787601175120102 0.147514059657342 -0.132161913246222 Sloupec 3 0.188051954654207 0.0787601175120102 1 0.0750900711360815 -0.219531510266202 Sloupec 4 0.0406159827656692 0.147514059657342 0.0750900711360815 1 -0.0626091622614857 Sloupec 5 0.141497142933839 -0.132161913246222 -0.219531510266202 -0.0626091622614857 1 Kovarianční matice Proměnná Sloupec1
Sloupec2
Sloupec3
Sloupec4
180
Sloupec5
3.089963517
Sloupec 1 0.922487505320811 0.126947660824368 Sloupec 2 0.120074671402502 0.126312848425394 Sloupec 3 0.191287634779444 0.21718131077836 Sloupec 4 0.034123812209302 0.0511581710198866 Sloupec 5 0.126947660824368 0.872556526984181
0.120074671402502
0.191287634779444
1.04686059298218
0.0853452943264977 0.132025606741774
0.0853452943264977 1.12165061317928 0.132025606741774
0.034123812209302
0.0695651371493688 -
0.0695651371493688 0.765174805433545
-0.126312848425394 -0.21718131077836
-
-
-0.0511581710198866
Variabibita vysvětnená hlavními komponentami Komponenta Rozptyl Směr. odchylka Rel. variabilita, % Kum. variabilita, % Komponenta 1 1.3945686395779 1.18091855755505 27.891372791558 27.891372791558 Komponenta 2 1.14031503441836 1.06785534339552 22.8063006883673 50.6976734799252 Komponenta 3 0.999239027066724 0.999619441120832 19.9847805413345 70.6824540212597 Komponenta 4 0.859977383181739 0.927349655298226 17.1995476636348 87.8820016848945 Komponenta 5 0.605899915755275 0.778395732102428 12.1179983151055 100 Vlastní vektory korelační matice Sloupec Komponenta1 Komponenta2 Komponenta3 Komponenta4 Komponenta5 Proměnná 1 -0.281793124579453 -0.822942730127774 -0.199292331981279 0.0372345357030449 0.690693963498033 Proměnná 2 -0.456838633795374 -0.0697699515911256 0.428635378801977 0.547193471329739 0.351646159495925 Proměnná 3 -0.513841277569971 -0.0295145524299738 -0.571204341707182 -0.21186937241755 0.682413576592423 Proměnná 4 -0.360271863609173 -0.00872624572859333 0.650122248912884 -0.510040185211724 0.0738056751205316 Proměnná 5 0.395024848646206 -0.714088821862004 0.203456510858155 -0.0813842550181413 0.734320632947739 Robustní Proměnná Proměnná Proměnná Proměnná Proměnná Proměnná
M-odhady Střední hodnota 1 1.02522234225734 2 1.00503424123014 3 1.16319544092093 4 0.872490136234563 5 0.964952852738812
Mahalanobisova vzdálenost Čislo Klasická MV Robustní MVm 1 2.29694679810781 2.29356726708787 2 2.3978229877961 2.37305753102347 3 2.56582337540116 2.56953803219079 4 2.15549886011185 2.19672691049715 5 1.98415999679645 1.95457757158673 6 1.94038697886517 1.8985194207053 7 2.35517862818956 2.34389165270322 8 2.53765040145084 2.51886247506666 9 1.04752504518508 1.06386700638135 10 1.77609667328802 1.84209805133205 11 1.48469637924602 1.46069405349852 12 2.0564215378978 2.01872877455164 13 2.44390454158212 2.47408965595627 14 3.52790649617312 3.73460460323019 15 1.45867753832211 1.44178269589163 16 1.2332732807482 1.24474433197444 17 2.42465526130264 2.46422308593648 18 3.31465537860734 3.37836193836347 19 2.42055632752268 2.44962151819083 20 2.6057385310144 2.58300700373898 21 2.77485849444013 2.74439933885231 22 1.17696741938694 1.20400853022709 23 1.21517911222665 1.19719600411055 24 2.24692789720075 2.20645852031889 25 2.13882507274497 2.12177099586149 26 3.18858970835926 3.2208224846143 27 2.89490088284846 2.87260031227097 28 2.08843970997575 2.04592154646695 29 1.56686893125211 1.56401554371553 30 2.19116453830189 2.13816212822079 31 1.74137669124115 1.70998630047294 32 1.82918197428508 1.81115669557405 33 2.04798610902003 2.02547004493606 34 1.72337227121585 1.71758483943922 35 1.03369875782713 1.05345893853767 36 1.19019792079326 1.18078159746093
181
2.67498967628802 1.40327671256132 1.79718818594015 2.24626854294256 2.45113798912067 2.31281819014642 3.08804063677578 2.2989275389049 2.1994042044453 2.74564105484898 2.83015849920376 1.85928226781956 2.16701922115447 1.55932880985597 2.44530203194235 1.03867008046079 3.0006380679354 2.5235410643411 1.33800914023124 2.00623205411004 2.73519383370461 2.88729849795832 2.29577034467956 0.72670394409299
2.64849176941853 1.39271292323534 1.81242219679249 2.19722292655502 2.46153746261602 2.28751466947063 3.082606877741 2.26194270772726 2.25568817264398 2.70781407004451 2.78147946649643 1.82166949222835 2.11773852072906 1.54797854740637 2.54037442589732 1.10189723345942 3.0523083407121 2.53146499392989 1.3447670306955 2.01518829802265 2.70647097725892 2.90093382496832 2.28832622863424 0.730042540521961
Zátěže: Komp 1
Zátěže: Komp 2
Zátěže: Komp 3
0.8
0.4
30
Scree plot
Zátěž 0.2
Zátěž
-0.2
0.0
0.0
Zátěž
0.4
0.6
0.2
20 15 10
-0.4
-0.4
0
1
2
3
-0.2
5
Rel. rozptyl %
25
1.0
37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
4
1
2
3
4
1
2
3
4
1
2
3
4
Proměnná
Proměnná
Proměnná
Zátěže: Komp 4
Biplot
Vícerozměrná normalita
Graf symetrie
2
3
4
2.0 -1
0.0
-2 -3
-0.6
1
-3
-2
-1
0
1
2
3
0
2
4
Komp1
Data
Andrewsovy křivky
Mahalanobisova vzdálenost
Odlehlá data
6
4
dMD 0.1
2
MD
0.3
3
4 2 y 0
0
-0.1
1
-2
-2
-1
0 x
1
2
3
0
10
20
30
40
50
60
0.0
Index
0.05
0.10
0.15 Hat
182
-2.0
-1.5
-1.0 x-
0.5
Proměnná
-4 -3
1.5
x+
1.0 0
4
1
2
Q-teor
54 38 40 60 23 39 15 22 28 35 4451 19 21 6259 545 25 57 41629 13 32 17 42 26 48 46 5014 24 30 736 20 18 11 10 31 12 58 55 9 47 53 37 49 52 27 41 156 34 3 43 8 33
0.5
-1
0
Komp2
1
3
2
2
1
0.2 Zátěž
-0.2
2.5
0.4
3
Komponenta
0.20
0.25
-0.5
0.0
6.2
Programový systém QC-Expert
V tomto odstavci přílohy je uveden kompletní referenční výstup generovaný všemi moduly systémemu QC-Expert. Všechny výpočty jsou provedeny na simulovaných datech. Výsledky slouží pouze jako referenční souhrn výpočetních metod. Další odstavec ilustruje uživatelské prostředí systému a grafické výstupy. 6.2.1
Tabulkové výstupy modulů programu QC-Expert
Modul Základní statistika Základní analýza dat Název úlohy :
Univariate
Řád trendu : Testovaná hodnota : Vyhlazení hustoty : Hladina významnosti : Název sloupce : Počet platných dat :
5 0 0.5 0.05 Pevnost 17
Klasické parametry : Název sloupce : Průměr : Spodní mez : Horní mez : Rozptyl : Směr. odchylka : Šikmost Odchylka od 0 : Špičatost : Odchylka od 3 : Polosuma Modus :
Pevnost 339.5294118 333.0230005 346.0358231 160.1397059 12.6546318 -1.830203497 Významná 5.442433875 Významná 326.5 349.1699346
t-test Testovaná hodnota : Rozdíl : Vypočtený : Teoretický : Pravděpodobnost :
0 Významný 110.6247618 2.119905299 8.300487633E-025
Robustní parametry : Název sloupce : Medián : IS spodní : IS horní : Medianová směr. odchylka : Medianový rozpty :
Pevnost 343 317.5823012 368.4176988 11.99001615 143.7604873
183
10% Průměr : 10% IS spodní : 10% IS horní : 10% Směr. odchylka : 10% Rozptyl : 20% Průměr : 20% IS spodní : 20% IS horní : 20% Směr. odchylka : 20% Rozptyl : 40% Průměr : 40% IS spodní : 40% IS horní : 40% Směr. odchylka : 40% Rozptyl :
341.2666667 335.1839604 347.3493729 8.24958057 68.05557958 342.6153846 337.2780695 347.9526997 5.207626826 27.11937716 343.6666667 339.7108038 347.6225295 2.276041151 5.180363322
Znaménkový test : Závěr :
Data jsou závislá
Analýza malých výběrů N: Střední hodnota : Spodní mez (5%) : Horní mez (95%) : Spodní mez (2.5%) : Horní mez (97.5%) : Pivotové rozpětí :
17 343 339.632 346.368 338.984 347.016 8
Test normality : Název sloupce : Průměr : Rozptyl : Šikmost Špičatost : Normalita : Vypočtený : Teoretický : Pravděpodobnost :
Pevnost 339.5294118 160.1397059 -1.830203497 5.442433875 Zamítnuta 7.994022549 5.991464547 0.01837046119
Vybočující body : Název sloupce : Homogenita : Počet vybočujících bodů : Spodní mez : Horní mez :
Pevnost Zamítnuta 2 319.6558824 365.3441176
Autokorelace : Řád autokorelace : Název sloupce : Počet :
4 Pevnost -0.1825625333
Řád autokorelace 1 Korelační koeficient : Pravděpodobnost : Závěr : Řád autokorelace 2 Korelační koeficient : Pravděpodobnost :
0.2328443752 0.1927395486 Nevýznamný -0.05231023949 0.4265572905
184
Závěr : Řád autokorelace 3 Korelační koeficient : Pravděpodobnost : Závěr : Řád autokorelace 4 Korelační koeficient : Pravděpodobnost : Závěr : Test významnosti trendu : Název sloupce : Směrnice : Významnost : Pravděpodobnost : Vyhlazené hodnoty : Název sloupce : Průměr :
Medián :
Nevýznamný -0.1785732613 0.2706636048 Nevýznamný -0.1825625333 0.2752647974 Nevýznamný Pevnost -0.9362745098 Nevýznamný 0.9301933411 Pevnost 344 344.75 344.4 344.8 346 346.5 346 347
Rezidua : Název sloupce : Průměr :
Medián :
Pevnost 2 -5.75 2.6 0 -7.5 1 0
Modul Statistická přejímka srovnáváním Přejímka srovnáváním P1 : 0.1 P2 : 0.16 Alfa : 0.1 Beta : 0.05 Počet testů 1 5 6 54 56 57 59 60
Počet zmetků 0 0 0 11 11 12 12 13
Závěr Není rozhodnuto Není rozhodnuto Není rozhodnuto Není rozhodnuto Není rozhodnuto Zamítnuto Zamítnuto Zamítnuto
185
Modul Statistická přejímka měřením Přejímka měřením (spojitá) Název úlohy :
Prejimka merenim
QL = QU = AQL = RQL = Alfa = Beta =
55 60 0.05 0.2 0.05 0.1
Sloupec cNO3 A cNO3 B cNO3 C cNO3 D
Průměr : 55.27192308 54.5625 57.78875 56.59615385
Cílová směr. odchylka : 1.042286023 1.939126316 0.7211784589 2.0700301
Závěr Nevyhovuje Nevyhovuje Vyhovuje Nevyhovuje
Modul Analýza rozptylu Analýza rozptylu - ANOVA Název úlohy :
Suppliers
Celkový průměr : Celkový rozptyl : Průměrný čtverec : Reziduální rozptyl : Reziduální součet čtverců : Celkový součet čtverců : Vysvětlený součet čtverců :
22.99804167 9.682874225 9.521492988 1.038894456 61.29477292 571.2895793 509.9948064
Počet úrovní faktoru : Sloupec UKR GER BRA SWE ARG
5 Počet hodnot 16 12 16 8 8
Efekty faktorů -4.76554166666667 -5.22083333333327E-02 2.75258333333333 0.31195833333333 1.75320833333333
Průměr úrovně 18.2325 22.9458333333333 25.750625 23.31 24.75125
Test významnosti celkového vlivu faktoru : Závěr Významný
Teoretický 2.539688635
Vypočítaný 114.4050015
Pravděpodobnost 5.597295269E-026
Párové porovnávání dvojic úrovní Scheffého metoda Srovnávaná dvojice UKR - GER UKR - BRA UKR - SWE UKR - ARG GER - BRA GER - SWE GER - ARG
Rozdíl -4.713333333 -7.518125 -5.0775 -6.51875 -2.804791667 -0.3641666667 -1.805416667
Významnost Významný Významný Významný Významný Významný Nevýznamný Významný
Pravděpodobnost 2.52650823E-014 1.039014907E-024 1.776511736E-013 7.563841083E-018 4.002531368E-007 0.9654252725 0.01270289305
186
BRA - SWE BRA - ARG SWE - ARG
2.440625 0.999375 -1.44125
Významný Nevýznamný Nevýznamný
0.0001069587959 0.3233986149 0.1298675297
Z-skóre Sloupec UKR GER BRA SWE ARG
Stř. hodnota -2.434784578 -0.02667399715 1.406334876 0.1593840516 0.8957396472
95% interval -2.115805589 -1.16790054 1.573894692 0.707928938 0.5912271039
Rozdíl 4.550590167 1.194574537 2.980229568 0.8673129895 1.486966751
Modul Korelace Korelační analýza Název úlohy :
Tablety
Počet řádků : Počet sloupců :
28 4
Párová kor. Sloupec hmotnost1 - tloustka1 hmotnost1 - pevnost1 hmotnost1 - tvrdost1 tloustka1 - pevnost1 tloustka1 - tvrdost1 pevnost1 - tvrdost1
0.7574582522 0.1696143094 0.1470360739 0.09860168174 0.121716524 -0.7173411742
Vícenásobná kor. Sloupec hmotnost1 tloustka1 pevnost1 tvrdost1
0.7858637927 0.7583147934 0.7701060077 0.7676506318
Parciální kor. Sloupec hmotnost1 - tloustka1 hmotnost1 - pevnost1 hmotnost1 - tvrdost1 tloustka1 - pevnost1 tloustka1 - tvrdost1 pevnost1 - tvrdost1
0.7314687254 0.3104426164 0.2885757262 -0.05282116168 -0.02986732611 -0.7616456728
Spearmanova kor. Sloupec hmotnost1 - tloustka1 hmotnost1 - pevnost1 hmotnost1 - tvrdost1 tloustka1 - pevnost1 tloustka1 - tvrdost1 pevnost1 - tvrdost1
0.7432950192 0.1625615764 0.1521620142 0.07717569787 0.1450465244 -0.6661193213
187
Modul Transformace Box-Coxova transformace dat : Název úlohy : Vybrané sloupce : K
Znecisteni
Optimální parametr : Dolní mez parametru : Horní mez parametru : Věrohodnost bez transformace : Věrohodnost s transformací : Oprávněnost transformace : Pravděpodobnost : Zvolený parametr : Věrohodnost : Opravený průměr : LCL : UCL : LWL : UWL :
-1.151195145 -2.583355969 0.1804631113 94.95683683 100.1095351 Ano 99.8672674761935 % -1.151195145 100.1095351 3.329909051 2.968865445 4.762416519 3.170596506 3.567149036
Významné opravené kvantily
p 50 % 25 % 20 % 15 % 12.5 % 10 % 7.5 % 6.25 % 5% 3% 2.5 % 2% 1.5 % 1% 0.5 % 0.25 %
spodní 3.329909051 3.216431992 3.192276415 3.165765984 3.151021678 3.134684484 3.115871483 3.105030117 3.092718883 3.067768931 3.059764107 3.050506666 3.039348303 3.024900853 3.003028178 2.983963297
horní 3.329909051 3.478033447 3.52206193 3.578027009 3.613360178 3.656727139 3.713180289 3.749447093 3.794511569 3.901281799 3.940863124 3.990543571 4.056829746 4.155135991 4.339147813 4.548576677
spodní 3.324100632
horní 3.324100632
Exponenciální transformace dat : Název úlohy : Vybrané sloupce : K
Znecisteni
Optimální parametr : Zvolený parametr : Oprávněnost transformace : Opravený průměr : Interval spolehlivosti : Spodní : Horní : LCL : UCL : LWL : UWL :
0.5520362854 0.5520362854 Ano 3.324100632
Významné opravené kvantily
3.278180549 3.376104884 2.975672034 4.705425313 3.061397425 3.988986984 p 50 %
188
25 % 20 % 15 % 12.5 % 10 % 7.5 % 6.25 % 5% 3% 2.5 % 2% 1.5 % 1% 0.5 % 0.25 % 0.125 % 0.1 % 0.03 %
3.214754639 3.19178706 3.166606987 3.152597472 3.137057619 3.119126628 3.108769527 3.096981669 3.072985833 3.065251458 3.056282053 3.045432546 3.031316526 3.009779832 2.990822609 2.973878377 2.968783079 2.943760512
3.474957108 3.52151522 3.581315398 3.619286162 3.665988344 3.72675602 3.765678873 3.813822533 3.926441033 3.96753373 4.018521303 4.085437311 4.182131091 4.354311328 4.535780887 4.727160015 4.790972897 5.154762031
Modul Šíření chyb Šíření chyb Název úlohy : Funkce : Počet simulací :
Stálost (10*x1+x2)/(y1*x2)*(y2^3) 1000
Vstupní veličiny : Střední hodnota X1 : 13 X2 : 1600
Sm. odchylka 3 58
95% interval 7.12 1486.32
18.88 1713.68
+-3sigma 4 1426
22 1774
Sm. odchylka 0.4277255743 0.38772567
95% interval 0.6287702372 0.75164040
2.305454488 2.2715250
+-3sigma 0.18393564 0.34840570
2.750289086 2.6747597
Vstupní data : Y1 : Y2 :
Střední hodnota 1.467112363 1.511582732
Výsledná hodnota : Medián : 2.743260215 Střední Sm. odchylka hodnota 3.14824625 2.199012573
95% interval -1.161818392
Interval výsledných hodnot 0.5303357976 8.937879472 Citlivostní analýza Absolutní citlivost : x1: 0.007305617754 x2: 5.935814545E-005 y1: 0.8034734118 y2: 3.094960837 Relativní citlivost : x1: 0.0858 x2: 0.0116 y1: 1.611497124 y2: 7.58324134 Aproximace metodou Taylorova rozvoje Prostý průměr 2.545414477
189
+-3sigma 7.458310892
-3.4487914
9.7452839
Opravený průměr : Průměr s kovariancí : Opravená sm. odchylka : Sm. Odch. s kovariancí : 95% interval : Interval +3sigma :
3.264436732 3.547115357 2.095062867 2.134973929 -0.6374335446 -2.857806431
7.731664259 9.952037145
Modul Optimalizace Optimalizace responsní plochy, analytická Název úlohy :
Optim1
Nezávislé proměnné: Závislá proměnná:
Teplota Tlak Spotreba
Počet proměnných : Počet dat : Stupňů volnosti : Typ stacionárního bodu : Stacionární bod Sloupec 1 Sloupec 2
2 15 8 Minimum X0 60.06733711 128.3637814
Odhad hodnoty v X0 : Interval spolehlivosti :
84.7934742 85.09194377 84.49500464
Průměrná chyba : Reziduální součet čtverců : Rozptyl reziduí : Číslo podmíněnosti plánu :
0.1180507937 0.3117942857 0.02227102041 19.03088768
Korelační koeficient : Determinant :
0.9959432352 1.024524982
Dolní mez 57.2344181 115.4868087
Modul Regulační diagramy Regulační diagram x-individual Název úlohy :
Cement
Bez transformace Max. velikost podsk. : Počet řádků : Typ diagramu :
1 60 x-individual
Variabilita :
R
ZL : Určená :
0.7726166667 Výpočtem
ZL : Určená :
0.03818644068 Výpočtem
LCL : UCL : Určené :
0.671056984 0.8741763493 Výpočtem
LCL : UCL : Určené :
0 0.1247551017 Výpočtem
190
Horní mez 62.90025611 141.240754
Indexy způsobilosti : Index : Cp : Cpk : Odhad (Heavlin) : Odhad (Kushler) : Odhad (Franklin) : Cpm : Cpmk : Porušení pravidel : Číslo : 21 53 60 48 52
Hodnota : 1 1
1 1
Čas :
Spodní mez : 0.8741291043 0.8542652811 0.8542652811 0.8718731452 0.8812155548 0.8746628661
Horní mez : 1.125476405 1.145734719 1.145734719 1.128126855 -----1.12494578
Průměr : 0.694 0.686 0.696 0.838 0.697
Varianč. rozpětí : 0.02 0.011 0.009 0.137 0.13
Modul Rozšířené regulační diagramy Regulační diagram CUSUM Název úlohy : Vybrané sloupce : CaO_1
Cement
Počet dat : Cílová hodnota : Cílová směr. odchylka : Detekovaný posun K : Rychlá odezva (FIR): Rozhodné meze +- : Počet překročení (+) : Počet překročení (-) :
60 43.00483333 0.7249698805 1 Ne 4 0 0
Regulační diagram EWMA Název úlohy : Vybrané sloupce : CaO_1
Cement
Počet dat : Základní linie : Směrodatná odchylka : Váha W pro EWMA : Váha Alfa pro dynamické meze : Počet dat mimo klasické meze : Počet dat mimo dynamické meze : Počet reziduí mimo meze +-3s : Střední kvadratická odchylka :
60 43.00483333 0.7249698805 0.25 0.05 0 1 1 0.2726419191
Hotellingův regulační diagram Název úlohy : Název sloupce MgO_1 Al2O3_1 SiO2_1 SO3_1
Cement Cílové hodnoty 0.7726166667 3.126916667 14.00116667 0.09516333333
Skutečné hodnoty 0.7726166667 3.126916667 14.00116667 0.09516333333
191
Pravidlo : 6 bodů roste nebo klesá 2 ze 3 bodů mimo dvě sigma 2 ze 3 bodů mimo dvě sigma 1 bod mimo kontrolní meze 1 bod mimo kontrolní meze
CaO_1 Fe2O3_1
43.00483333 1.560733333
Parametry diagramu : LCL : UCL :
0 20.24940205
43.00483333 1.560733333
Modul Paretův diagram Paretův diagram Název úlohy : Jednotka nákl. :
Pareto1 EUR
Tabulka četností Příčina závady
Počet
Náklady
Matičky Těsnění Hadice Koroze B Kondenzátor Ložisko M Kohout Ložisko H Kryt B Koroze A Celkem :
62 40 36 35 21 17 14 5 5 3 238
13 5 40 20 28 220 130 300 52 60
Tabulka nákladů Příčina závady
Počet
Náklady
Ložisko M Kohout Ložisko H Hadice Matičky Koroze B Kondenzátor Kryt B Těsnění Koroze A Celkem :
17 14 5 36 62 35 21 5 40 3 238
220 130 300 40 13 20 28 52 5 60
Analýza četnosti 62 40 36 35 21 17 14 13
Analýza relativní četnosti 26.05 16.81 15.13 14.71 8.82 7.14 5.88 5.46
Analýza nákladů 3740 1820
Analýza relativních nákladů 33.29 16.2
Sloučit ostatní : Příčina závady Matičky Těsnění Hadice Koroze B Kondenzátor Ložisko M Kohout Ostatní Příčina závady Ložisko M Kohout
Podíl závady 26.05 16.81 15.13 14.71 8.82 7.14 5.88 2.1 2.1 1.26
Podíl závady 7.14 5.88 2.1 15.13 26.05 14.71 8.82 2.1 16.81 1.26
192
Kumul.podíl.záv. 26.05 42.86 57.98 72.69 81.51 88.66 94.54 96.64 98.74 100
Náklad na závadu 3740 1820 1500 1440 806 700 588 260 200 180 11234
Náklad na závadu 806 200 1440 700 588 3740 1820 1500 260 180 11234
Podíl nákladu 7.17 1.78 12.82 6.23 5.23 33.29 16.2 13.35 2.31 1.6
Podíl nákladu
Kumul.podíl.nákl.
33.29 16.2 13.35 12.82 7.17 6.23 5.23 2.31 1.78 1.6
33.29 49.49 62.84 75.66 82.84 89.07 94.3 96.62 98.4 100
Ložisko H Hadice Matičky Koroze B Kondenzátor Kryt B Těsnění Koroze A
1500 1440 806 700 588 260 200 180
13.35 12.82 7.17 6.23 5.23 2.31 1.78 1.6
Modul Lineární regrese Vícenásobná lineární regrese Název úlohy :
Spalovna
Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Sloupce pro výpočet :
0.05 2.44691185114484 4.75706266308825 Ano 10 4 Nejmenší čtverce Prikon [kW] Abs Necistoty Ulet [mg] Teplota [C] Bez transformace
Transformace :
Základní analýza Charakteristiky proměnných Proměnná Necistoty
Průměr 72.22
Směr.Odch. 8.190346621
Ulet [mg] Teplota [C]
9.055 490
2.619644802 8.974036624
0 0 0 -0.5652810031 -0.2403915071 0.1888749921
1 1 1 0.08858587825 0.5034926601 0.6012622707
Proměnná
Vlas. čísla kor. m.
Abs Necistoty Ulet [mg] Teplota [C]
0.4319925703 1 0.870445833 1.697561597
Kor.vs.Y 0.04855749559 -0.3571677885 0.4909609201
Významnost 0.8940305719 0.3109684045 0.1496061035
Podmíněnost kappa 1 2.314854627 2.014955564 3.929608316
VI faktor
Vícenás. kor.
1 1.510707597 1.476063448 1.06600039
0 0.5814280137 0.5679105099 0.2488253185
Průměrný čtverec 78.3764 38.88988378 39.48651622
Rozptyl 87.08488889 43.21098197 43.87390692
Směr.Odch. 160.7543054 0.4058031879 1.254115782 0.311113154
Závěr Nevýznamný Nevýznamný Nevýznamný Nevýznamný
Párové korelace (Xi, Xj) Abs - Necistoty Abs - Ulet [mg] Abs - Teplota [C] Necistoty - Ulet [mg] Necistoty - Teplota [C] Ulet [mg] - Teplota [C]
Indikace multikolinearity
Analýza rozptylu Průměr Y : Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
229.36 Součet čtverců 783.764 388.8988378 394.8651622 1.969780446 4.757062663 0.2199941743 Model je nevýznamný
Odhady parametrů Proměnná Abs Necistoty Ulet [mg] Teplota [C]
Odhad -6.131993882 -0.2979156868 -2.164100273 0.5644967199
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient
0.7044102501 0.4961938004 0.0639973359
193
Pravděpodobnost 0.9708094757 0.4905468113 0.1351746799 0.1195372243
Spodní mez -399.4836089 -1.290880316 -5.232811043 -0.1967697437
Horní mez 387.2196212 0.6950489428 0.9046104973 1.325763184
Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
98.20382242 44.75959252
Analýza klasických reziduí Index 1 2 3 4 5 6 7 8 9 10
Y naměřené 214.3 230.7 230.6 243.6 233.1 236.7 230.8 235.7 222.8 215.3
Reziduální součet čtverců : Průměr absolutních reziduí : Reziduální směr. odchylka : Reziduální rozptyl : Šikmost reziduí : Špičatost reziduí :
394.8651622 4.770432445 8.112389313 65.81086037 0.5429907073 3.345673855
Y vypočítané 217.8923537 231.5067072 231.324018 241.3492684 235.6141106 231.0041872 223.3014034 227.2929788 224.6390446 229.6759281
Směr. odch. Y 6.19164381 7.041609773 3.17111898 5.628968328 4.045176476 6.31909347 4.446245683 5.380418577 4.055123526 3.482099029
Reziduum -3.592353689 -0.8067071775 -0.7240180386 2.250731605 -2.514110608 5.695812849 7.498596618 8.407021156 -1.839044614 -14.3759281
Reziduum [%Y] -1.676319967 -0.3496780136 -0.3139713958 0.9239456507 -1.07855453 2.406342564 3.248958673 3.566831207 -0.8254239738 -6.677161216
Váhy 1 1 1 1 1 1 1 1 1 1
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
1.969780446 4.757062663 0.2199941743 Model je nevýznamný
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
0.07276107593 Model je korektní.
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.05473275138 3.841458829 0.8150235487 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
0.9547721848 5.991464547 0.6204029502 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.2850374254 3.841458829 0.8150235487 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
0.9445070755 0 Pozitivní autokorelace reziduí není prokázána.
2
0.2107318076 1.959963999 0.833096553 V reziduích není trend.
Indikace vlivných dat A. Analýza reziduí Index 1 2 3 4 5 6 7 8 9 10
Standardní -0.6853539543 -0.2002637113 -0.09696343742 0.3852864313 -0.3575301051 1.119629318 1.105106249 1.384691258 -0.2617427307 -1.962031558
Jackknife -0.6516673672 -0.1834289916 -0.08858453573 0.3561501197 -0.3299120865 1.149147338 1.130400465 1.53238515 -0.2403132421 -2.991769405
Predikované -8.604949486 -3.271795632 -0.8546025576 4.340515269 -3.346096187 14.48406223 10.71829353 15.00933078 -2.451627937 -17.62274891
Diag(Hii) 0.5825247208 0.7534359514 0.1528014606 0.4814598117 0.2486436529 0.6067530808 0.3003926793 0.4398803465 0.249867981 0.184240315
Diag(H*ii) 0.615206776 0.7550840493 0.1541290077 0.4942889829 0.2646510214 0.6889134918 0.4427930646 0.6188731052 0.2584331456 0.7076273555
Cookova vzdál. -0.2390774022 -0.1529885244 -0.004372102338 0.08943372994 -0.02957903786 0.4318778514 0.1186257695 0.2718608722 -0.02179653915 -0.1107818022
B. Analýza vlivu Index
Atkinsonova vzdál. 0.9427866011 0.3927099467 0.04607599224
Andrews-Pregibon st. 0.384793224 0.2449159507 0.8458709923
Vliv na Y^
1 2 3
-0.7697820363 -0.3206463288 -0.037620890
Vliv na parametry LD(b) 1.036706745 0.2021956631 0.00282582784
Vliv na rozptyl LD(s) 0.002819584561 0.04710132025 0.05204801549
Celkový vliv LD(b,s) 1.069435475 0.2321666429 0.05459561196
194
4 5 6 7 8 9 10
0.4203078821 0.2324393033 1.748214329 0.9071841564 1.663184534 0.1698673002 1.741345551
0.5057110171 0.7353489786 0.3110865082 0.5572069354 0.3811268948 0.7415668544 0.2923726445
0.3431799486 -0.1897858964 1.427411023 0.740712762 1.357984485 -0.1386960698 -1.421802689
0.2271185716 0.0702552743 2.79419584 0.8378589577 2.239130541 0.03796175849 1.353216012
0.03140099344 0.03417224277 0.08690971952 0.077829354 0.4301922939 0.04271699667 5.903930278
0.2433914523 0.09900587844 3.754413729 1.065409066 3.749611646 0.07734287628 9.542671471
Modul Nelineární regrese
Nelineární regrese Název úlohy :
Data 5994
Hladina významnosti : Počet stupňů volnosti : Kvantil t(1-alfa/2,n-p) : Kvantil F(1-alfa,m,p-m) : Metoda : Počet platných řádků : Počet parametrů : Metoda optimalizace : Nezávisle proměnné : Závisle proměnná :
0.05 27 2.051830516 18.51282051 Nejmenší čtverce 30 3 Gauss-Newton X Y
Model : Počáteční hodnoty parametrů : P1 P2 P3
[Y] ~ p1+p2*exp(p3*[X]) 0 20 -0.3
Výpočet Počet iterací : Ukončení výpočtu : Doba výpočtu : Max. počet iterací : Terminační kritérium :
21 Konvergence 0.45 s 999999 1E-008
Odhady parametrů
Parametr
P1 P2 P3
0.6352205637 11.20053988 -0.2478754864
Korelační matice parametrů : P1 P2 P3
Směr. odchylka 0.5960918808 0.4112516607 0.0393861005
Dolní mez
Horní mez
-0.587858948 10.35672118 -0.3286890893
1.858300075 12.04435859 -0.1670618834
P1
P2
P3
1 0.3068043339 0.9578257538
-0.3068043339 1
-0.9578257538 0.05487485079
0.05487485079
1
Analýza klasických reziduí Index
Y naměřené
Y vypočítané
Směr. odch. Y
Reziduum
1 2 3 4 5 28
9.25 8.5 7.5625 8.125 6.859375 4.046875
8.533799696 8.385041284 8.483898966 8.048742576 7.249471623 3.746509962
0.1972389083 0.1848891897 0.1930126847 0.1599822888 0.1206092196 0.1114747547
0.7162003035 0.1149587164 -0.9213989657 0.07625742427 -0.3900966229 0.3003650384
195
Reziduum [%Y] 7.742705984 1.352455487 -12.18378798 0.938552914 -5.687057828 7.422147666
29 30 Statistické charakteristiky regrese Vícenásobný korel. koef. R: Koeficient determinace R^2 : Predikovaný korel. koef. Rp : Stř. kvadratická chyba predikce MEP : Akaikeho informační kritérium : Reziduální součet čtverců : Průměr absolutních reziduí : Reziduální směr. odchylka : Reziduální rozptyl : Šikmost reziduí : Špičatost reziduí : Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr : Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr : Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr : Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
3.15625 2.453125
2.775874656 2.244704812
0.1081006229 0.1414837621
0.3803753439 0.2084201875
12.05149605 8.496109555
Jackknife 1.940711054 0.2871173476 -2.606328706 0.1852151159 0.9315524023 0.7080770746
Predikované 0.901771463 0.1403342747 -1.14753285 0.0881981938 -0.4226154764
Diag(Hii) 0.2057851319 0.1808222429 0.1970609248 0.135385647 0.07694666978
Atkins. vzdál. 2.963603674 0.4046854016 3.873552118 0.2198734417 0.8068820652
0.3214979883
0.0657327594
0.5634523048
0.9823354218 0.9649828809 0.9552786195 0.2172943746 -47.13350753 5.104285413 1.727928911E-010 0.4347960532 0.1890476079 0.01058949253 3.588528207
2.250483971 3.841458829 0.1335726214 Rezidua vykazují homoskedasticitu.
0.4859042763 5.991464547 0.7843090513 Rezidua mají normální rozdělení.
0.3108084667 3.841458829 0.1335726214 Autokorelace je nevýznamná
0.1617764136 1.959963999 0.8714819276 V reziduích není trend.
Indikace vlivných dat Index 1 2 3 4 5
Standardní 1.848331653 0.2921239989 -2.364943831 0.1886189481 -0.9338415656
28
0.7147073148
196
29 30
0.903196481 0.5069416184
0.9000133606 0.4998497463
0.4054369275 0.2331026969
0.06181376639 0.105886846
0.6930559342 0.5160425289
Modul Vícerozměrná analýza Analýza vícerozměrných dat
Název úlohy :
Cement
Počet proměnných Počet dat
6 60
Základní charakteristiky Proměnná Průměr MgO_1 0.7726166667 Al2O3_1 3.126916667 SiO2_1 14.00116667 SO3_1 0.09516333333 CaO_1 43.00483333 Fe2O3_1 1.560733333
Rozptyl 0.001655053955 0.09224072175 0.5654511582 0.001196865073 0.5255813277 0.0164275887
Směr. odchylka 0.04068235434 0.3037115766 0.751964865 0.03459573779 0.7249698805 0.1281701553
Minimum 0.686 2.256 12.27 0.0344 41.53 1.276
Maximum 0.839 3.612 15.37 0.1682 44.95 1.713
Korelační matice Proměnná MgO_1 Al2O3_1 SiO2_1 SO3_1 CaO_1 Fe2O3_1
MgO_1 1 0.6841459209 0.6984096597 0.2270501629 -0.5997469052 0.6400008789
Al2O3_1 0.6841459209 1 0.9819762668 0.2768978181 -0.8517428824 0.9289081405
SiO2_1 0.6984096597 0.9819762668 1 0.3052877199 -0.8426865859 0.9469489063
SO3_1 0.2270501629 0.2768978181 0.3052877199 1 -0.3239449212 0.4591553379
CaO_1 -0.5997469052 -0.8517428824 -0.8426865859 -0.3239449212 1 -0.88267447
Fe2O3_1 0.6400008789 0.9289081405 0.9469489063 0.4591553379 -0.88267447 1
Kovarianční matice Proměnná MgO_1
MgO_1 0.001655053955
Al2O3_1 0.008453103107
SiO2_1 0.02136553955
SO3_1 0.0003195585876
Fe2O3_1 0.003337133333
Al2O3_1 SiO2_1 SO3_1 CaO_1 Fe2O3_1
0.008453103107 0.02136553955 0.0003195585876 -0.01768862429 0.003337133333
0.09224072175 0.2242641667 0.002909400282 -0.1875382345 0.03615938418
0.2242641667 0.5654511582 0.007941992655 -0.4593921751 0.09126641808
0.002909400282 0.007941992655 0.001196865073 -0.008124819774 0.002035959548
CaO_1 0.01768862429 -0.1875382345 -0.4593921751 -0.0081248197 0.5255813277 -0.082017672
0.03615938418 0.09126641808 0.002035959548 -0.08201767232 0.0164275887
Variabibita vysvětlená hl. komponentami Komponenta Rozptyl
Směr. odchylka
Komponenta 1 Komponenta 2 Komponenta 3 Komponenta 4 Komponenta 5 Komponenta 6
2.097883345 0.9375423922 0.6856691027 0.4355308921 0.2146044215 0.1183866611
Rel. variabilita,% 73.35190879 14.64976229 7.835701973 3.161452633 0.7675842955 0.2335900255
Kum. variabilita,% 73.35190879 88.00167107 95.83737305 98.99882568 99.76640997 100
Vlastní vektory korelační matice Sloupec Komponenta 1 MgO_1 0.3641873523 Al2O3_1 0.4581838983 SiO2_1 0.4617171503 SO3_1 0.2067522323 CaO_1 -0.4330932474 Fe2O3_1 0.4625322847
Komponenta 2 0.1890236531 0.161896673 0.1315015455 -0.9554474439 -0.0577513173 -0.06746730136
Komponenta 3 0.9009457993 -0.1596539206 -0.1255652713 0.1311547255 0.2920662813 -0.2110364432
Komponenta 4 -0.1281999803 0.3514239854 0.4015120061 0.03143728841 0.8277070514 0.1129902225
Komponenta 5 -0.050239723 0.5299136348 0.09029896439 0.1597698814 -0.1723042874 -0.8082687823
Komponenta 6 0.03122551871 0.5779795242 -0.7644554828 -0.02564013148 0.09489247219 0.2662901683
Zátěže Sloupec MgO_1
Komponenta 1 0.7640225806
Komponenta 2 0.1772176879
Komponenta 3 0.6177506978
Komponenta 4 -0.0558350518
Komponenta 6 0.003696684902
Al2O3_1 SiO2_1 SO3_1 CaO_1 Fe2O3_1
0.9612163689 0.9686287195 0.4337420646 -0.9085791104 0.9703387763
0.1517849941 0.1232882735 -0.8957724821 -0.05414430817 -0.06325345511
-0.1094697605 -0.08609622689 0.08992874293 0.200260825 -0.1447011687
0.1530560019 0.1748708822 0.01369191027 0.3604919905 0.04921073242
Komponenta 5 0.01078166685 0.113721809 0.01937855702 0.03428732298 -0.036977261 -0.1734580544
4.401114527 0.8789857371 0.4701421184 0.189687158 0.04605505773 0.01401540153
Robustní M-
197
0.06842506606 -0.09050133218 -0.0030354495 0.01123400295 0.03152520391
odhady Proměnná MgO_1 Al2O3_1 SiO2_1 SO3_1 CaO_1 Fe2O3_1
Střední hodnota 0.7717133216 3.155344306 14.0635462 0.09427123239 42.97698043 1.568708798
Mahalanobisova vzdálenost Čislo Klasická MV 1 2.255145663 2 1.15769187 3 4.4404803 4 2.165114203 5 2.817619462 57 2.108557855 58 2.535077606 59 4.413463897 60 2.64424582
Robustní MVm 2.119147052 1.273968421 5.19512008 2.193016878 2.733050312 2.416520126 2.387014966 4.679244914 2.38825495
Transformovaná data Číslo 1 2 3 4 5 57 58 59 60
Komponenta 2 1.009781362 0.1710531037 -0.3891797369 -0.09503266561 0.7082815051 -0.3791095571 -0.5802629065 -1.495769272 -1.494847758
Komponenta 1 1.024781771 0.414481017 -0.07184858009 0.6343940197 0.4514876787 1.00212616 0.6041742843 -3.366690588 -3.157634912
Komponenta 3 -0.1115355158 -0.3138915246 -0.8439686437 -0.1683115311 0.4837306398 -0.9782110014 -0.08459714752 0.2273404863 0.4398929569
Modul Kalibrace Kalibrace
Název úlohy :
Data 055
Počet dat: Hladina významnosti : Volba kalibračního modelu : Použitý kalibrační model : Vhodnost použitého modelu : Použita vážená regrese :
12 0.05 Automatická Lineární Vyhovuje Ano
Parametry kalibračního modelu Parametr Abs. X
Odhad 0.5811194409 0.7430901069
Sm. odchylka 0.06728966701 0.01872881974
Spodní mez 0.4311887195 0.701359696
Významnost absolutního členu Hodnota 0.5811194409
Spodní mez 0.4311887195
Horní mez 0.7310501623
Závěr Významný
Validace směrnice Hodnota 0.7430901069
Spodní mez 0.701359696
Horní mez 0.7848205179
Směrnice=1 Ne
Citlivost metody :
0.7430901069
Zvolený faktor K : Vypočítaná sm.odch. slepého signálu :
3 0.2184275983
Horní mez 0.7310501623 0.7848205179
Kalibrační meze
198
Komponenta 4 -0.9706712105 -0.3546914166 -0.2592273922 -0.6432650746 -0.3681623745 -0.5881311541 0.02026589714 2.43911066 1.581536841
Komponenta 5 1.665441786 0.7510401229 1.117372078 0.8683684412 1.903028756 -0.7752332405 -1.812388551 -1.608280207 -1.187026542
Komponenta 6 0.8493011076 0.6996977973 1.882494044 1.043088522 1.43658475 0.4392187447 0.5172821079 -3.240565948 -2.362190987
c..kritická d..detekce q..kvantifikace Metoda Metoda podle ISO 11843-2 Přímá metoda analytu Přímá metoda signálu, IUPAC Kombinovaná metoda Ebel,Kamm Metoda K*Sigma z regrese Metoda K*Sigma, ACS
Yc 1.0015982
Yd 1.144670235
Yq 1.4220771
Xc 0.5658517434
Xd 0.75838823
Xq 1.1317034
Yq(10sigma) ---
Xq(10sigma) ---
0.78307378
0.96251857
1.1325469
0.2717763843
0.5132609
0.7420734
---
---
0.7830737
0.97289554
1.1517533
0.2717763843
0.52722556
0.7679202
---
---
0.77161724
0.96211516
1.1321641
0.2563589549
0.51271806
0.7415584
---
---
0.7830737
0.98502812
1.1869824
0.2717763843
0.54355
0.8153291
1.2543005
0.9059212
1.23640223
1.891685031
2.54696782
0.8818349066
1.76366981
2.645504
2.7653954
2.64550472
Kalibrační tabulka Číslo vzorku
Zpětný odhad
Spodní mez
Horní mez
Nepřímý odhad
1 2
5.5115082 7.7297228
4.897447037 6.972745486
6.2020803 8.5993864
0 0
Naměřené hodnoty 4.6 6.2
4.7 6.4
4.73 6.3
NA 6.4
Naměřené Y 1.65625 1.609375 2.6875 2.59375 3.71875 3.484375 5.453125 5.3125 7 6.484375 7.984375 7.515625
Vypočítané Y 1.609201492 1.609201492 2.635172492 2.711170344 3.718141881 3.699142418 5.200099992 5.276097844 6.777055418 6.834053807 7.613031788 7.708029103
Reziduum 0.04704850777 0.0001735077725 0.05232750786 -0.117420344 0.0006081190691 -0.214767418 0.2530250081 0.03640215624 0.2229445823 -0.3496788066 0.371343212 -0.1924041028
Váha 7.573472383 7.573472383 3.713175527 3.539301056 2.032960461 2.05202735 0.9783745119 0.9394795763 0.5173571191 0.5119893883 0.4734493635 0.4716750154
Analýza reziduí Reziduální součet čtverců : Půměrné absolutní reziduum : Korelační koeficient : Číslo měření 1 2 3 4 5 6 7 8 9 10 11 12
0.4771061572 0.1548452727 0.9958647429 Naměřené X 1.383522727 1.383522727 2.764204545 2.866477273 4.221590909 4.196022727 6.215909091 6.318181818 8.338068182 8.414772727 9.463068182 9.590909091
Modul Porovnání 2 výběrů Párové porovnání dvou výběrů Název úlohy :
Data 35
Hladina významnosti : Porovnávané sloupce :
0.05 X
Analýza diference X - Y Počet dat : Průměrná diference : Interval spolehlivosti: Směr. odchylka : Rozptyl :
12 0.8046875 0.3052002229 0.7861364605 0.6180105345
Korel. koef. R(x,y) :
0.9959237307
Test významnosti rozdílu t-statistika : Počet stupňů volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
2.787519268 11 2.20098516 Rozdíly jsou VÝZNAMNÉ 0.00229269309
Y
1.304174777
199
Porovnání dvou výběrů Název úlohy :
Data 35
Hladina významnosti : Porovnávané sloupce :
0.05 X
Y
Počet dat : Průměr : Směr. odchylka : Rozptyl :
55 3.162603306 0.8458091682 0.7153931489
55 4.575284091 0.6016101541 0.3619347775
Korel. koef. R(x,y) :
0.07472850989
Test shody rozptylů Poměr rozptylů : Počet stupňů volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
1.976580294 54 1.553748071 Rozptyly jsou ROZDÍLNÉ 0.006254745189
Robustní test shody rozptylů Poměr rozptylů : Redukované stupně volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
1.976580294 20 2.163328113 Rozptyly jsou SHODNÉ 0.07376884368
Test shody průměrů pro SHODNÉ rozptyly t-statistika : Počet stupňů volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
10.09372397 108 1.982173483 Průměry jsou ROZDÍLNÉ 2.852008185E-017
Test shody průměrů pro ROZDÍLNÉ rozptyly t-statistika : Redukované stupně volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
10.09372397 98 1.984467455 Průměry jsou ROZDÍLNÉ 7.577134319E-017
Test dobré shody rozdělení dvouvýběrový K-S test Diference DF : Kritická hodnota : Závěr :
0.6909090909 0.2589797975 Rozdělení jsou ROZDÍLNÁ
Modul Způsobilost Způsobilost a výkonnost pro normální rozdělení Název úlohy :
Data 35
200
54
20
Cílová hodnota: Specifikační meze LSL USL Mezní CP
3 1 5 1
Indexy způsobilosti Aritmetický průměr Směrodatná odchylka +/- 3sigma Z-skore
3.162603306 0.8458091682 0.6251758013 0.6251758013
5.70003081 5.70003081
Index Cp Cpk Cpm
Hodnota 0.7881998585 0.7241179072 0.7740262176
Dolní mez 0.6423161389 0.5875509906 0.6320683653
Indexy výkonnosti Aritmetický průměr Směrodatná odchylka +/- 3sigma Z-skore
3.162603306 0.9125496991 0.4249542084 0.4249542084
5.900252403 5.900252403
Index Pp Ppk Ppm
Hodnota 0.7305538178 0.6711585849 0.719225283
Dolní mez 0.5953394973 0.5445796707 0.5765879372
Pravd. překročení Pravd. překročení % Pravd. překročení PPM
Dolní mez 0.005281307049 0.5281307049 5281.307049
Horní mez 0.01491449641 1.491449641 14914.49641
Pravd. mimo SL Pravd. mimo SL % Pravd. mimo SL PPM ARL
0.02019580346 2.019580346 20195.80346 49.51523725
Cpk pro asymetrická data Počet hodnot Opravený průměr Cílová hodnota Mezní CP
55 3.128678603 3 1
Specifikační meze Pravd. překročení Pravd. překročení % Pravd. překročení PPM Pravd. mimo SL Pravd. mimo SL % Pravd. mimo SL PPM ARL Cpk Meze pro Cpk
LSL 1 0.0019681579 0.19681579 1968.1579 0.02762285386 2.762285386 27622.85386 36.20190749 0.6389796032 0.5184695685
USL 5 0.02565469596 2.565469596 25654.69596
0.759489638
201
Horní mez 0.9334591751 0.8606848238 0.9153804315
Horní mez 0.8651894019 0.7977374992 0.8612223892
6.2.2
Ilustrace uživatelského prostředí systému QC-Expert
Obr. 99 Vstupní tabulka programu QC-Expert (spreadsheet) s daty
Obr. 100 Textový výstup programu QC-Expert (protokol)
202
Obr. 101 Výstupní matice statických grafů v systému QC-Expert
203
Obr. 102 Interaktivní grafy systému QC-Expert
204
Obr. 103 Nápověda programu QC-Expert
205
Obr. 104 Grafický výstup modulu Korelace
Obr. 105 Grafický výstup modulu Transformace
206
Obr. 106 Grafický výstup modulu Vícerozměrná analýza
207
6.3
6.3.1
Validace výpočtů systému QCExpert
Certifikační protokol statistického systému QC Expert 2.7
Certifikační procedura Výpočetní algoritmy poskytnutými NIST.
byly
verifikovány
srovnáním
s certifikovanými
hodnotami
National Institute of Standards and Technology 100 Bureau Drive, Stop 8900, Gaithersburg, MD 20899-8900 Statistical Engineering Division and the Mathematical and Computational Sciences Division within the Information Technology Laboratory of the National Institute of Standards and Technology
Verifikovány byly celkem čtyři základní statistické procedury: analýza rozptylu, jednorozměrná analýza, lineární regrese a optimalizační a statistický výpočet nelineární regrese. Výběr metod byl dán certifikovanými hodnotami, které byly k dispozici od NIST. Byla posuzována shoda platných číslic vypočítaných systémem QC-Expert s odpovídajícícm počtem platných číslic certifikovaných hodnot. Certifikovány byly hodnoty, které jsou jak v certifikovaném výstupu NIST, tak ve výstupu systému QC-Expert. Tyto hodnoty jsou ve výstupu označeny tučně. Závěr Testování bylo provedeno na celkem 15 testovacích úlohách. V 12 případech byla nalezena shoda s certifikovanymi výsledky s průměrnou přesností 9 platných číslic, maximální přesností 13 platných číslic. V případě nelineární regrese byly hodnoty vypočtené systémem QC-Expert ve 3 ze 4 úloh přesnější, nez certifikované hodnoty, neboť dosáhly nižšího součtu čtverců reziduí. Ve všech realizovaných testech vyhověly výsledky systému QC-Expert certifikovaným hodnotám. 6.3.2
Certifikované hodnoty a numerické výsledky výpočtů
Certifikované hodnoty výstupů QC-Expert jsou označeny tučně.
208
6.3.2.1 Analýza rozptylu TEST 1 Výstup NIST:
NIST/ITL StRD Dataset Name:
SiRstv
Procedure:
Analysis of Variance
Reference:
Ehrstein, James and Croarkin, M. Carroll. Unpublished NIST dataset.
Data:
1 Factor 5 Treatments 5 Replicates/Cell 25 Observations 3 Constant Leading Digits Lower Level of Difficulty Observed Data
Model:
6 Parameters (mu,tau_1, ... , tau_5) y_{ij} = mu + tau_i + epsilon_{ij}
(SiRstv.dat)
Certified Values: Source of Variation
df
Sums of Squares
Mean Squares
F Statistic
Between Instrument 4 5.11462616000000E-02 1.27865654000000E-02 1.18046237440255E+00 Within Instrument 20 2.16636560000000E-01 1.08318280000000E-02 Certified R-Squared 1.90999039051129E-01 Certified Residual Standard Deviation
1.04076068334656E-01
Výstup QCExpert: Analýza rozptylu - ANOVA Název úlohy :
Test 1
Celkový průměr : 196.189156 Celkový rozptyl : 0.01115761757 Průměrný čtverec : 0.01071131286 Reziduální rozptyl : 0.010831828 Reziduální sm. odch. : 0.1040760683 Reziduální součet čtverců : 0.21663656 Celkový součet čtverců : 0.2677828216 Vysvětlený součet čtverců : 0.0511462616 Test významnosti celkového vlivu faktoru : Závěr Teoretický Vypočítaný Nevýznamný 2.866081402 1.180462374
Pravděpodobnost 0.3494474934
209
TEST 2 Výstup NIST:
NIST/ITL StRD Dataset Name:
AtmWtAg
Procedure:
Analysis of Variance
Reference:
Powell, L.J., Murphy, T.J. and Gramlich, J.W. (1982). "The Absolute Isotopic Abundance & Atomic Weight of a Reference Sample of Silver". NBS Journal of Research, 87, pp. 9-19.
Data:
1 Factor 2 Treatments 24 Replicates/Cell 48 Observations 7 Constant Leading Digits Average Level of Difficulty Observed Data
Model:
3 Parameters (mu, tau_1, tau_2) y_{ij} = mu + tau_i + epsilon_{ij}
(AtmWtAg.dat)
Certified Values: Source of Variation
df
Sums of Squares
Mean Squares
F Statistic
Between Instrument 1 3.63834187500000E-09 3.63834187500000E-09 1.59467335677930E+01 Within Instrument 46 1.04951729166667E-08 2.28155932971014E-10 Certified R-Squared 2.57426544538321E-01 Certified Residual Standard Deviation
1.51048314446410E-05
Výstup QCExpert: Název úlohy :
Test 2
Celkový průměr : 107.8681451 Celkový rozptyl : 3.007130807E-010 Průměrný čtverec : 2.944482248E-010 Reziduální rozptyl : 2.28155933E-010 Reziduální sm. odch. : 1.510483144E-005 Reziduální součet čtverců : 1.049517292E-008 Celkový součet čtverců : 1.413351479E-008 Vysvětlený součet čtverců : 3.638341875E-009 Test významnosti celkového vlivu faktoru : Závěr Teoretický Vypočítaný Významný 4.051748692 15.94673362
Pravděpodobnost 0.0002326844436
210
TEST 3 Výstup NIST:
NIST/ITL StRD Dataset Name:
SmLs06
Procedure:
Analysis of Variance
Reference:
Simon, Stephen D. and Lesage, James P. (1989). "Assessing the Accuracy of ANOVA Calculations in Statistical Software". Computational Statistics & Data Analysis, 8, pp. 325-332.
Data:
1 Factor 9 Treatments 2001 Replicates/Cell 18009 Observations 7 Constant Leading Digits Average Level of Difficulty Generated Data
Model:
10 Parameters (mu,tau_1, ... , tau_9) y_{ij} = mu + tau_i + epsilon_{ij}
(SmLs06t.dat)
Certified Values: Source of Variation
df
Sums of Squares
Mean Squares
F Statistic
Between Treatment 8 1.60080000000000E+02 2.00100000000000E+01 2.00100000000000E+03 Within Treatment 18000 1.80000000000000E+02 1.00000000000000E-02 Certified R-Squared 4.70712773465067E-01 Certified Residual Standard Deviation
1.00000000000000E-01
Výstup QCExpert: Název úlohy :
Test 3
Celkový průměr : 1000000.4 Celkový rozptyl : 0.01888494003 Průměrný čtverec : 0.01888389139 Reziduální rozptyl : 0.01 Reziduální sm. odch.: 0.1 Reziduální součet čtverců : 180 Celkový součet čtverců : 340.08 Vysvětlený součet čtverců : 160.08 Test významnosti celkového vlivu faktoru : Závěr Teoretický Vypočítaný Pravděpodobnost Významný 1.938926084 2000.999321 0
211
TEST 4 Výstup NIST: NIST/ITL StRD Dataset Name:
SmLs08
Procedure:
Analysis of Variance
Reference:
Simon, Stephen D. and Lesage, James P. (1989). "Assessing the Accuracy of ANOVA Calculations in Statistical Software". Computational Statistics & Data Analysis, 8, pp. 325-332.
Data:
1 Factor 9 Treatments 201 Replicates/Cell 1809 Observations 13 Constant Leading Digits Higher Level of Difficulty Generated Data
Model:
10 Parameters (mu,tau_1, ... , tau_9) y_{ij} = mu + tau_i + epsilon_{ij}
(SmLs08t.dat)
Certified Values: Source of Variation
df
Sums of Squares
Mean Squares
F Statistic
Between Treatment 8 1.60800000000000E+01 2.01000000000000E+00 2.01000000000000E+02 Within Treatment 1800 1.80000000000000E+01 1.00000000000000E-02 Certified R-Squared 4.71830985915493E-01 Certified Residual Standard Deviation
1.00000000000000E-01
Výstup QCExpert: Název úlohy :
Test 4
Celkový průměr : Celkový rozptyl : Průměrný čtverec : Reziduální rozptyl : 0.01 Reziduální sm. odch.: 0.1
1E+012 0.01885131207 0.01884089122
Reziduální součet čtverců : Celkový součet čtverců : Vysvětlený součet čtverců :
18.00 34.08317222 16.08
Test významnosti celkového vlivu faktoru : Závěr Teoretický Vypočítaný Pravděpodobnost Významný 1.94353866 199.6610966 0
212
6.3.2.2 Jednorozměrné statistiky TEST 1 Výstup NIST: File Name:
PiDigits.dat
Dataset Name:
PiDigits
Description:
This is a constructed/fabricated data set to test accuracy in summary statistic calculations. The numbers are the first 5000 digits of the mathematical constant pi (= 3.1415926535897932384...).
Stat Category: Univariate Reference:
Mathematics of Computation. January 1962, page 76.
Data:
Constructed Variable --> 1 Response --> 0 Predictors --> 5000 Observations
Model:
: y = pi digits
Lower Level of Difficulty --> 2 Parameters : mu, sigma --> 1 Response Variable : y --> 0 Predictor Variables y
= mu + e
Certified Values Sample Mean ybar: 4.53480000000000 Sample Standard Deviation (denom. = n-1) s: 2.86733906028871 Sample Autocorrelation Coefficient (lag 1) r(1): -0.00355099287237972 Number of Observations:
5000
Výstup QCExpert: Klasické parametry : Název sloupce : Y Průměr : 4.5348 Spodní mez : 4.455303629 Horní mez : 4.614296371 Rozptyl : 8.221633287 Směr. odchylka : 2.86733906 Řád autokorelace 1 Korelační koeficient : -0.003550992872 Pravděpodobnost : 0.4009047321
213
TEST 2 Výstup NIST: File Name:
Lottery.dat
Dataset Name:
Lottery
Description:
This is an observed/"real world" data set consisting of 218 lottery values from September 3, 1989 to April 14, 1990 (32 weeks). One 3-digit random number (from 000 to 999) is drawn per day, 7 days per week for most weeks, but fewer days per week for some weeks. We here use this data to test accuracy in summary statistics calculations.
Stat Category: Univariate: Summary Statistics Reference:
None
Data:
"Real World" 1 Response 0 Predictors 218 Observations
Model:
: y = 3-digit random number
Lower Level of Difficulty 2 Parameters : mu, sigma 1 Response Variable : y 0 Predictor Variables y
= mu + e
Sample Mean ybar: Sample Standard Deviation (denom. = n-1) s: Sample Autocorrelation Coefficient (lag 1) r(1): Number of Observations:
Certified Values 518.958715596330 291.699727470969 -0.120948622967393 218
Výstup QCExpert: Klasické parametry : Název sloupce : Lottery Průměr : 518.9587156 Spodní mez : 480.0197176 Horní mez : 557.8977136 Rozptyl : 85088.73101 Směr. odchylka : 291.6997275 Řád autokorelace 1 Korelační koeficient : -0.120948623
214
TEST 3 Výstup NIST: File Name:
NumAcc2.dat
Dataset Name:
NumAcc2
Description:
This is a constructed/fabricated data set to test accuracy in summary statistic calculations. The numbers are 2-digit floating point values and differ only in the last decimal place.
Stat Category: Univariate Reference:
Simon, Stephen D. and Lesage, James P. (1989). Assessing the Accuracy of ANOVA Caluclations in Statistical Software", Computational Statistics & data Analysis, 8, pp. 325-332.
Data:
Constructed 1 Response 0 Predictors 1001 Observations
Model:
: y
Average Level of Difficulty 2 Parameters : mu, sigma 1 Response Variable : y 0 Predictor Variables y
= mu + e
Sample Mean ybar: Sample Standard Deviation (denom. = n-1) s: Sample Autocorrelation Coefficient (lag 1) r(1): Number of Observations:
Certified Values 1.2 (exact) 0.1 (exact) -0.999 (exact) 1001
Výstup QCExpert:
Klasické parametry : Název sloupce : Y Průměr : 1.2 Spodní mez : 1.193797639 Horní mez : 1.206202361 Rozptyl : 0.01 Směr. odchylka : 0.1 Řád autokorelace 1 Korelační koeficient : -0.999
215
6.3.2.3 Lineární regrese TEST 1 Výstup NIST:
NIST/ITL StRD Dataset Name:
Norris (Norris.dat)
Procedure:
Linear Least Squares Regression
Reference:
Norris, J., NIST. Calibration of Ozone Monitors.
Data:
1 Response Variable (y) 1 Predictor Variable (x) 36 Observations Lower Level of Difficulty Observed Data
Model:
Linear Class 2 Parameters (B0,B1) y = B0 + B1*x + e Certified Regression Statistics
Parameter B0 B1
Estimate -0.262323073774029 1.00211681802045
Standard Deviation of Estimate 0.232818234301152 0.429796848199937E-03
Residual Standard Deviation
0.884796396144373
R-Squared
0.999993745883712
Certified Analysis of Variance Table Source of Degrees of Variation Freedom Regression Residual
1 34
Sums of Squares 4255954.13232369 26.6173985294224
Mean Squares 4255954.13232369 0.782864662630069
216
F Statistic 5436385.54079785
Výstup QCExpert: Odhady parametrů Proměnná Odhad Abs -0.2623230738 X 1.002116818
Směr.Odch. 0.2328182343 0.0004297968482
Koeficient determinace R^2 : 0.9999937459 Zdroj Součet čtverců Průměrný čtverec Celková variabilita 4255980.75 Variabilita vysvětlená modelem 4255954.132 Reziduální variabilita 26.61739853
217
TEST 2 Výstup NIST:
NIST/ITL StRD Dataset Name:
Pontius
Procedure:
Linear Least Squares Regression
Reference:
Pontius, P., NIST. Load Cell Calibration.
Data:
1 Response Variable (y) 1 Predictor Variable (x) 40 Observations Lower Level of Difficulty Observed Data
Model:
Quadratic Class 3 Parameters (B0,B1,B2) y = B0 + B1*x + B2*(x**2) Certified Regression Statistics
Parameter B0 B1 B2
Estimate 0.673565789473684E-03 0.732059160401003E-06 -0.316081871345029E-14
Standard Deviation of Estimate 0.107938612033077E-03 0.157817399981659E-09 0.486652849992036E-16
Residual Standard Deviation
0.205177424076185E-03
R-Squared
0.999999900178537
Certified Analysis of Variance Table Source of Degrees of Variation Freedom Regression Residual
2 37
Sums of Squares
Mean Squares
F Statistic
15.6040343244198 7.80201716220991 185330865.995752 0.155761768796992E-05 0.420977753505385E-07
218
Výstup QCExpert:
Odhady parametrů Proměnná Abs X X^2
Odhad 0.00067356578 7.320591604E-007 -3.160818714E-015
Koeficient determinace R^2 : Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F :
Směr.Odch. 0.000107938612 1.578174E-010 4.8665285E-017 0.9999999002 15.6040358 15.60403432 1.557617688E-006 185330866
219
TEST 3 Výstup NIST:
NIST/ITL StRD Dataset Name:
NoInt1 (NoInt1.dat)
Procedure:
Linear Least Squares Regression
Reference:
Eberhardt, K., NIST.
Data:
1 Response Variable (y) 1 Predictor Variable (x) 11 Observations Average Level of Difficulty Generated Data
Model:
Linear Class 1 Parameter (B1) y = B1*x + e Certified Regression Statistics
Parameter
Standard Deviation of Estimate
Estimate
B1
2.07438016528926
0.165289256198347E-01
Residual Standard Deviation
3.56753034006338
R-Squared
0.999365492298663 Certified Analysis of Variance Table
Source of Degrees of Variation Freedom Regression Residual
1 10
Sums of Squares
200457.727272727 127.272727272727
Mean Squares 200457.727272727 12.7272727272727
220
F Statistic 15750.2500000000
Výstup QCExpert:
Odhady parametrů Proměnná Odhad Směr.Odch. X 2.074380165 0.01652892562 Reziduální variabilita 127.2727273
221
TEST 4 Výstup NIST:
NIST/ITL StRD Dataset Name:
Longley (Longley.dat)
Procedure:
Linear Least Squares Regression
Reference:
Longley, J. W. (1967). An Appraisal of Least Squares Programs for the Electronic Computer from the Viewpoint of the User. Journal of the American Statistical Association, 62, pp. 819-841.
Data:
1 Response Variable (y) 6 Predictor Variable (x) 16 Observations Higher Level of Difficulty Observed Data
Model:
Polynomial Class 7 Parameters (B0,B1,...,B7) y = B0 + B1*x1 + B2*x2 + B3*x3 + B4*x4 + B5*x5 + B6*x6 + e Certified Regression Statistics
Parameter
Standard Deviation of Estimate
Estimate
B0 B1 B2 B3 B4 B5 B6
-3482258.63459582 15.0618722713733 -0.358191792925910E-01 -2.02022980381683 -1.03322686717359 -0.511041056535807E-01 1829.15146461355
890420.383607373 84.9149257747669 0.334910077722432E-01 0.488399681651699 0.214274163161675 0.226073200069370 455.478499142212
Residual Standard Deviation
304.854073561965
R-Squared
0.995479004577296 Certified Analysis of Variance Table
Source of Degrees of Variation Freedom Regression Residual
6 9
Sums of Squares 184172401.944494 836424.055505915
Mean Squares 30695400.3240823 92936.0061673238
222
F Statistic 330.285339234588
Výstup QCExpert: Odhady parametrů Proměnná Abs X1 X2 X3 X4 X5 X6
Odhad -3482258.9 15.061877 -0.03581918 -2.0202299 -1.0332269 -0.0511041 1829.1516
Směr.Odch. 890420.4 84.9149258 0.033491008 0.48839969 0.21427416 0.22607320 455.4785
Vícenásobný korelační koeficient R : Reziduální variabilita Hodnota kritéria F :
0.9977369416 836424.0557 330.2853392
223
6.3.2.4 Nelineární regrese TEST 1 Výstup NIST:
NIST/ITL StRD Dataset Name:
Misra1a
Procedure:
Nonlinear Least Squares Regression
Description:
These data are the result of a NIST study regarding dental research in monomolecular adsorption. The response variable is volume, and the predictor variable is pressure.
Reference:
Misra, D., NIST (1978). Dental Research Monomolecular Adsorption Study.
Data:
1 Response Variable (y = volume) 1 Predictor Variable (x = pressure) 14 Observations Lower Level of Difficulty Observed Data
Model:
Exponential Class 2 Parameters (b1 and b2)
(Misra1a.dat)
y = b1*(1-exp[-b2*x])
Starting values
b1 = b2 =
Start 1 500 0.0001
Start 2 250 0.0005
Residual Sum of Squares: Residual Standard Deviation: Degrees of Freedom: Number of Observations:
+
e
Certified Values Parameter Standard Deviation 2.3894212918E+02 2.7070075241E+00 5.5015643181E-04 7.2668688436E-06 1.2455138894E-01 1.0187876330E-01 12 14
Výstup QCExpert:* Odhady P1 P2
Parametr 240.1773668 0.000546974791
Reziduální součet čtverců :
Směr. odchylka 2.472251826 6.558522239E-006 0.101554725
* QCExpert dosáhl lepšího výsledku s nižším reziduálním součtem čtverců.
224
TEST 2 Výstup NIST:
NIST/ITL StRD Dataset Name:
Misra1c
Procedure:
Nonlinear Least Squares Regression
Description:
These data are the result of a NIST study regarding dental research in monomolecular adsorption. The response variable is volume, and the predictor variable is pressure.
Reference:
Misra, D., NIST (1978). Dental Research Monomolecular Adsorption.
Data:
1 Response (y = volume) 1 Predictor (x = pressure) 14 Observations Average Level of Difficulty Observed Data
Model:
Miscellaneous Class 2 Parameters (b1 and b2)
(Misra1c.dat)
y = b1 * (1-(1+2*b2*x)**(-.5)) Starting values
b1 = b2 =
Start 1 500 0.0001
Start 2 600 0.0002
Residual Sum of Squares: Residual Standard Deviation: Degrees of Freedom: Number of Observations:
+
e
Certified Values Parameter Standard Deviation 6.3642725809E+02 4.6638326572E+00 2.0813627256E-04 1.7728423155E-06 4.0966836971E-02 5.8428615257E-02 12 14
Výstup QCExpert:* Odhady P1 P2
Parametr 640.2759025 0.0002067266272
Reziduální součet čtverců : Reziduální směr. odchylka :
Směr. odchylka 4.289393378 1.608301467E-006 0.03384684404 0.05310904195
* QCExpert dosáhl lepšího výsledku s nižším reziduálním součtem čtverců.
225
TEST 3 Výstup NIST:
NIST/ITL StRD Dataset Name: File Format:
BoxBOD
(BoxBOD.dat)
ASCII Starting Values Certified Values Data
(lines 41 to 42) (lines 41 to 47) (lines 61 to 66)
Procedure:
Nonlinear Least Squares Regression
Description:
These data are described in detail in Box, Hunter and Hunter (1978). The response variable is biochemical oxygen demand (BOD) in mg/l, and the predictor variable is incubation time in days.
Reference:
Box, G. P., W. G. Hunter, and J. S. Hunter (1978). Statistics for Experimenters. New York, NY: Wiley, pp. 483-487.
Data:
1 Response (y = biochemical oxygen demand) 1 Predictor (x = incubation time) 6 Observations Higher Level of Difficulty Observed Data
Model:
Exponential Class 2 Parameters (b1 and b2) y = b1*(1-exp[-b2*x]) Starting values
b1 = b2 =
Start 1 1 1
Start 2 100 0.75
Residual Sum of Squares: Residual Standard Deviation: Degrees of Freedom: Number of Observations:
+
e Certified Values
Parameter Standard Deviation 2.1380940889E+02 1.2354515176E+01 5.4723748542E-01 1.0455993237E-01 1.1680088766E+03 1.7088072423E+01 4 6
Výstup QCExpert: Odhady P1 P2
Parametr 213.8095129 0.5472364864
Reziduální součet čtverců : Reziduální směr. odchylka :
Směr. odchylka 12.35467962 0.104560738 1168.008877 17.08807242
226
TEST 4 Výstup NIST:
NIST/ITL StRD Dataset Name:
Rat42
Procedure:
Nonlinear Least Squares Regression
Description:
This model and data are an example of fitting sigmoidal growth curves taken from Ratkowsky (1983). The response variable is pasture yield, and the predictor variable is growing time.
Reference:
Ratkowsky, D.A. (1983). Nonlinear Regression Modeling. New York, NY: Marcel Dekker, pp. 61 and 88.
Data:
1 Response (y = pasture yield) 1 Predictor (x = growing time) 9 Observations Higher Level of Difficulty Observed Data
Model:
Exponential Class 3 Parameters (b1 to b3)
(Rat42.dat)
y = b1 / (1+exp[b2-b3*x]) Starting Values
b1 = b2 = b3 =
Start 1 100 1 0.1
Start 2 75 2.5 0.07
Residual Sum of Squares: Residual Standard Deviation: Degrees of Freedom: Number of Observations:
+
e Certified Values
Parameter Standard Deviation 7.2462237576E+01 1.7340283401E+00 2.6180768402E+00 8.8295217536E-02 6.7359200066E-02 3.4465663377E-03 8.0565229338E+00 1.1587725499E+00 6 9
Výstup QCExpert:* Odhady P1 P2 P3
Parametr 72.4485765 2.617857956 0.06736924511
Reziduální součet čtverců : Reziduální směr. odchylka :
Směr. odchylka 1.726156354 0.08795540246 0.003433637864 7.991473559 1.154085031
* QCExpert dosáhl lepšího výsledku s nižším reziduálním součtem čtverců.
227
7
7.1
Seznam literatury a citace
Použitá literatura
[ 1] Krutchkoff R. G.,Classical and Inverse Regression Methods of Calibration, Technometrics, 1967, 9, 3, 425439 [ 2] Currie Lloyd A., Limits for Qualitative Detection and Qualitative Determination, Analytical Chemistry, 1968, 40, 3, 586-593 [ 3] Berkson, Joseph, Estimation of a Linear Function for a Calibration Line; Consideration of a Recent Proposal, Technometrics, 1969, 11, 4, 649-660 [ 4] Tallis G.M., Note on a calibration problem, Biometrika, 1969, 56, 3, 505-508 [ 5] Williams E.J., A Note on Regression Methods in Calibration, Technometrics, 1969, 11, 1, 189-192 [ 6] Hoadley Bruce, A Bayesian Look at Inverse Linear Regression, Journal of the American Statistical Association, 1970, 65, 329, 356-369 [ 7] Scheffé H., A Statistical Theory of Calibration, The Anals of Statistics, 1973, 1, 1, 1-37 [ 8] Frazier L. T., An Analysis of a Bayes Inverse Regression Method of Confidence Intervals in Linear Calibration, J. Statist. Comput. Simul., 1974, 3, , 99-103 [ 9] Ingle J.D., Wilson R.L., Difficulties with Determining the Detection Limit with Nonlinear Calibration Curves in Spectrimetry, Analytical Chemistry, 1976, 48, 11, 1641-1642 [ 10] Schwartz L. M., Nonlinear Calibration Curves, Analytical Chemistry, 1976, 48, 14, 2287-2289 [ 11] Schwartz L. M., Nonlinear Calibration, Analytical Chemistry, 1977, 49, 13, 2062-2068 [ 12] ACS Committee on Environmental Improvement, Guidelines for Data Acquisition and Data Quality Evaluation in Environmental Chemistry, Analytical Chemistry, 1980, 52, , 2242-2249 [ 13] Lwin T, Maritz J.S., A note on the Problem of Statistical Calibration, Appl. Statist., 1980, 29, 2, 135-141 [ 14] Brown, J.P., Multivariable Calibration, J. R. Statist. Soc. B, 1982, 44, 3, 287-321 [ 15] Merkle W., Statistical Methods in Regression and Calibration Analysis of Chromosome Aberration Data, Radiation and Environmental Biophysics, 1983, 21, , 217-233 [ 16] Oppenhelmer L. et al., Determining the Lowest Limit of Reliable Assay Measurement, Analytical Chemistry, 1983, 55, , 638-643 [ 17] Schwartz L. M., Lowest Limit of Reliable Assay Measurement with Nonlinear Calibration, Analytical Chemistry, 1983, 55, 1424-1426 [ 18] Ebel S., Kamm U., Statistische Definition der Bestimmungsgrenze, Fresenius Z Anal Chem, 1984, 318, 293294 [ 19] Massart D.L., Kaufman L., Least Median of Squares: A Robust Method for Outlier and Model Detection in Regression and Calibration, Analytica Chimica Acta, 1986, 187, , 171-179 [ 20] Dobrigal A., Fraser D.A.S., Line Calibration and Conditional Inference, Commun. Statist -Theory Meth., 1987, 16, 4, 1037-1048 [ 21] Smith R., Corbett M., Measuring Marathon Courses, Appl. Statist., 1987, 36, 3, 283-295 [ 22] Tibshirani R., Noninformative priors for one parameter of many, Biometrika, 1989, 76, 3, 604-608
229
[ 23] Carlin B.P., Gelfand A.E., A Sample Reuse Method for Accurate Parametric Empiricas Bayes Confidence Intervals , J. R. Statist. Soc. B, 1991, 53, 1, 189-200 [ 24] Lee J.J., A Note on the Conditional Approach to Interval Estimation in the Calibration, Biometrics, 1991, 47, 1573-1580 [ 25] Osborne Christine, Statistical Calibration: A Review, International Statistical Review, 1991, 59, 3, 309-336 [ 26] MacTaggart D.L., Farwell S.O., Analytical Use Of Linear regression, 1. Regression Procedures For Ccalibration, Journal Of AOAC International, 1992, 75, 4, 594-608 [ 27] Cooley R.L., Exact Scheffé-Type Confidence Intervals for Output From Groundwater Flow Models, Water Resources Research, 1993, 29, 1, 35-50 [ 28] Fisch R. D., Strehlau G. A., A Simplified Approch to Calibration Confidence Sets, The American Statsitician, 1993, 47, 3, 168-171 [ 29] Oritz M. C. et al., Robust Procedure for Calibration and Calculation of the Detection Limit of Trimepramine by Adsorptive Stripping Voltametry at a Carbon Paste Electrode, Analytical Chemistry, 1993, 65, , 678-682 [ 30] Currie Lloyd A, Svehla G., Nomenclature for the Presentation of Results of Chemical Analysis, Pure&Appl. Chem, 1994, 66, 3, 595-608 [ 31] Currie Lloyd A, Detection and quantification limits: origins and historical overview, Anal. Chim. Acta, 1999, 391, 127-134 [ 32] Giltinan D.M., Assays for Recombinant Proteins: A Problem in Non-Linear Calibration, Statistics in Medicine, 1994, 13, 1165-1179 [ 33] Rajko R., Treatment of Model Error in Calibration by Robust and Fuzzy Procedures, Analytical Letters, 1994, 27, 1, 215-228 [ 34] Rocke D.M., Lorenzato, S., A Two-component model for measurement error in analytical chemistry, Technometrics, 1995, 37, 2, 176-184 [ 35] Srivastava M.S., Comparison of the Inverse and Classical Estimators of Multi-univariate linear calibration, Commun. Statist -Theory Meth., 1995, 24, 11, 2753-2767 [ 36] Belanger B.A., Davidian M., Giltinan D., The Effect of Variance Function Estimation on Nonlinear Calibration Inference in Immunoassay Data, Biometrics, 1996, 52, , 158-175 [ 37] Thomas J.P., Wei R.P., Standard Error Estimates for Rates of Change From Indirect Measurements, Technometrics, 1996, 38, 1, 59-68 [ 38] Hartmann C., Vankeerberghen P., Smeyers, Verbeke J., Massart D.L., Robust orthogonal regression for the outlier detection when comparing two series of measurement results, Analytica Chimica Acta, 1997, 344, 1, 17-28 [ 39] Johnston KS, Yee SS, Booksh KS, Calibration of surface plasmon resonance refractometers using locally ..., Analytical Chemistry, 1997, 69, 10, 1844-1851 [ 40] Mocak J. et al., A Statistical Overview of Standard (IUPAC and ACS) and New Procedures for Determining the Limits of Detection and Quantification, Pure&Appl. Chem, 1997, 69, 2, 297-328 [ 41] Renman L., Jagner D., Asymmetric distribution of results in calibration curve and standard addition evaluations, Analytica Chimica Acta, 1997, 357, , 157-166 [ 42] Zeng Q., Davidian M., Calibration Inference Based on Multiple Runs of an Immunoassay, Biometrics, 1997, 1304-1317
230
[ 43] Cooley R.L., Practical Sheffé-type credibility intervals for a groudwater model, Water Resources Research, 1999, 35, 1, 113-126 [ 44] Sarbu C, Cobzac S, Calibration in quantitative TLC based on weighted regression functions, Journal Of Liquid Chromatography & Related Technologies, 2000, 23, 2, 273-280 [ 45] Swierenga H, Wulfert F, de Noord OE, de Weijer AP, Smilde AK, Buydens LM, Development of robust calibration models in near infra-red spectrometry, Analytica Chimica Acta, 2000, 411, 121-135 [ 46] ISO 11843-2, Capability of detection – Part 2: Methodology in linear calibration case. ISO, 2000 [ 47] Horwitz, W., Evaluation of analytical methods used for regulation of foods and drugs. Analytical Chemistry 1982, 54, 67A – 76A [ 48] Meloun M., Militký J., Forina M. Chemometrics for Analytical Chemistry, Ellis Horwood 1994 [ 49] Meloun M., Militký J. Statistické zpracování experimentálních dat: Sbírka úloh, Univerzita Pardubice, 1996 [ 50] Kupka K. Aplikace a diagnostika regresních modelů v kalibraci a validaci. Mikroelementy 99, Řež u Prahy, sborník přednášek, 2Theta 1999 [ 51] M. Meloun, J. Militký, M. Forina, Chemometrics for Analytical Chemistry, Vol. 2, PC-Aided Regression and Related Methods, Ellis Horwood, Chichester, 1994. [ 52] D.M. Bates, D.G. Watts, Nonlinear Regression Analysis and its Applications, Wiley, New York, 1988. [ 53] J.M. Chambers, T.J. Hastie, Statistcal Models, Chapman & Hall, New York, 1993 (S-Plus TM is a trademark of Mathsoft Ltd.). [ 54] ADSTAT 2.0 TM User Manual, TriloByte Statistical Software Ltd., Pardubice, Czech Republic, 1992 (ADSTAT 2.0 TM is a trademark of TriloByte Statistical Software Ltd., Pardubice). [ 55] C. Liteanu, E. Hopirtean, Studia Univ. Babes-Bolyai, Ser. Chem. 11 (1) (1966) 135. [ 56] Li. Heng, Improvement of Gran’s method in standard addition and subtraction methods by a new plot method, Anal. Lett. 24 (1991) 473. [ 57] N. Akimoto, H. Hanakuma, K. Hozumi, Errors in acid–base titration using Gran’s plot method, Anal. Sci. 3 (1987) 515. [ 58] E. Still, Determination of the equivalence-point in potentiometric titrations with Gran’s first method used to test the electrode response, Anal. Chim. Acta 107 (1979) 377. [ 59] C. Liteanu, I. Rica, V. Liteanu, Confidence interval of equivalence point in linear titrations, Talanta 25 (1978) 593. [ 60] G. Gran, Analyst 77 (1952) 66. [ 61] S.R. Goode, Computerized curve-fitting to determine equivalence point in spectrophotometric titrations, Anal. Chem. 49 (1977) 1408. [ 62] M.C. Ortiz-Fernandez, A. Herrero-Gutirrez, Regression by least median of squares, a methodological contribution to titration analysis, Chemometr. Intell. Lab. Syst. 27 (1995) 231. [ 63] N.B. Milic, Z.M. Durisic, A computer program GEZ for determination of the equivalence point of the acid– base titration, and E 0 of the glass electrode, Anal. Chim. Acta 331 (1996) 23. [ 64] L.M. Schwartz, Uncertainty of a titration equivalence point — a graphical method using spreadsheet to predict values and detect systematic errors, J. Chem. Educ. 69 (1992) 879.
231
[ 65] R. Delevie, Explicit expressions of the general-form of the titration curve in terms of concentrations — writing a single closed-form expression for the titration curve for a variety of titrations without using approximations or segmentation, J. Chem. Educ. 70 (1993) 209. [ 66] T. Moisio, M. Heikonen, Expressions of the general-form of the acid–base titration curve, Fresenius’ J. Anal. Chem. 356 (1996) 461. [ 67] D. Ceaucescu, E.V. Ceaucescu, Equivalence point and confidence-interval of linear titration curves in outlook of normal bidimensional distribution of branches, Revue Roum. Chimie 22 (1977) 563. [ 68] M. Meloun, J. Militký, M. Forina, Chemometrics for Analytical Chemistry, Vol. 1, PC-Aided Statistical Data Analysis, Ellis Horwood, Chichester, 1994. [ 69] TriloByte, QC-ExpertTM 2.1, User Manual, TriloByte Statistical Software Ltd, Pardubice, Czech Republic, 1999 (QC-ExpertTM 2.1 is a trademark of TriloByte Statistical Software Ltd., Pardubice, http://www.trilobyte.cz). [ 70] Feigenbaum, Armand V.: Total Quality Control, McGraw-Hill, 1991 [ 71] Shewhart, Walter A.: Economic Control of Quality of Manufactured Product, Van Nostrand Inc., 1931 [ 72] Shewhart, Walter A.: Statistical Method from the Viewpoint of Quality Control, GSDA, Washington DC, 1939 [ 73] Thomas P. Ryan: Statistical Methods for Quality Control, John Wiley, 1989 [ 74] Grant E., Leavenworth R.S.: Statistical Quality Control, McGraw-Hill, 1996 [ 75] Kotz S., Johnson L.: Process Capability Indices, Chapman&Hall, 1993 [ 76] Juran, Joseph M., Godfrey, A. B.: Juran’s Quality Handbook, McGraw-Hill, 1999 [ 77] Mitra, Amitava: Fundamentals of Quality Control and Improvement, Macmilian Publishing, 1993 [ 78] Logothetis N.: Managing for Total Quality, Prentice Hall, 1992 [ 79] Juran J. M., Gryna F. M.: Quality Planning and Analysis, McGraw-Hill, 1993 [ 80] Montgomery D.C.: Introduction to Statistical Quality Control, John Wiley, 1991 [ 81] Effects of Autocorrelation on Control Charts Performance, Alwan, L.C., Communications in [ 82] StatisticsTheory and Methods, 1992, 21, 1025-1049 [ 83] The Effects of Autocorrelation and Outliers on Two-Sided Tolerance Limits, Amin, Raid W.; Lee, S.J., Journal of Quality Technology, 1999, 31, 3, 286-300 [ 84] Lu, Chao-Wen; Reynolds, Marion R. Jr.: Control Charts for Monitoring the Mean and Variance of Autocorrelated Process, Journal of Quality Technology, 1999, 31, 3, 259-274 [ 85] Lu, Chao-Wen; Reynolds, Marion R., Jr.: EWMA Control Charts for Monitoring the Mean of Autocorrelated Processes, Journal of Quality Technology, 1999, 31, 2, 166-188 [ 86] Reynolds, M.R.; Lu, C.W.: Control charts for monitoring processes with autocorrelated data, Nonlinear Analysis-Theory Methods & Applications, 1997, 30, , 4059-4067 [ 87] Roberts, Harry V.; Tsay, Ruey S.: Making Control Charts More Effective By Time Series, Communications in Statistics-Theory and Methods, 1996, 25, 11, 2767-2796 [ 88] Schmidt, Wolfgang; Schoene Alexander: Some Properties of the EWMA Control Chart in the Presence of Autocorrelation, The Annals of Statistics, 1997, 25, 3, 1227-1283 [ 89] Zhang, Nien Fan: A Statistical Control Chart for Stationary Process Data, Technometrics, 1998, 40, 1, 24-38 [ 90] M. Meloun, J. Militký: Chemometrics for Analytical Chemistry: Part 1, Ellis Horwood, 1992 [ 91] Shewhart, W.A.: Statistical Method from the Viewpoint of Quality Control, Dover Pubns, 1987 [ 92] Ryan, P. Statistical Methods for Quality Improvement, J. Wiley, 1994
232
[ 93] Montgomery D.C.: Introduction to Statistical Quality Control, Chapman and Hall, 1990 [ 94] Myers R.H., Montgomery D.C.: Response Surface Methodology, John Wiley&Sons 1995 [ 95] Montgomery D.C.: Design and Analysis of Experiments, John Wiley&Sons 1997 [ 96] Shao, J. Tu D.: The Jackknife and Bootstrap, Springer 1995 [ 97] Mittag, Rinne: Statistical Methods for Quality Assurance, Chapman and Hall, 1993 [ 98] Becker, Chambers, Wilks: The New S Language, Chapman and Hall, 1996 [ 99] Box G. E. P., Cox D. R.: An analysis of transformations. Journal of the Royal Statistical Society, Series B 26(2) 1964: 211-243 [ 100] M. Meloun, J. Militký: Statsitické zpracování experimentálních dat, VIP, Praha 1998 [ 101] Alwan, L.C.: Effects of Autocorrelation on Control Charts Performance, Communications in StatisticsTheory and Methods, 1992, 21, 1025-1049 [ 102] Amin, Raid W.; Ethridge, Ronald A: A Note on Individual and Moving Range Control Charts,Journal of Quality Technology, 1998, 30, 1, 70-74 [ 103] Amin, Raid W.; Lee, S.J.: The Effects of Autocorrelation and Outliers on Two-Sided Tolerance Limits, Journal of Quality Technology, 1999, 31, 3, 286-300 [ 104] Atienza, O.O; Tang, L.C.; Ang, B.W.: A SPC Procedure for Detecting Level Shifts of Autocorrelated Process, Journal of Quality Technology, 1998, 30, 4, 340-351 [ 105] Bai, D.S.; Choi, I.S.; X and R Control Charts for Skewed Populations / In: Journal of Quality Technology, vol. 27 (1995), no. 2, pp. 120-131 [ 106] Borror, Connie M.; Montgomery, Douglas C.; Runger, George C: Robustness of the EWMA Control Chart to Non-normality, Journal of Quality Technology, 1999, 31, 3, 309-316 [ 107] Boyles, Russel A.: Proces Capability with Asymmetric Tolerances, Communications in StatisticsSimmulations, 1994, 23, 3, 615-643 [ 108] Dumitrescu ME, Hubele NF: An entropic framework for the normal distribution in capability analysis, Communications in Statistics-Theory and Methods, 1999, 28, 6, 1361-1377 [ 109] Faltin, Frederick W.; Mastrangelo, Christina M.; Runger, George C.; Ryan: Considerations in the Monitoring of Autocorrelated and Independent Data, Journal of Quality Technology, 1997, 29, 2, 131-133 [ 110] Hoyer, Robert W.; Ellis, Wayne C.: A Graphical Exploration of SPC, Quality Progress, 1996, June, , 57-64 Jeang A: An approach of tolerance design for quality improvement and cost reduction, International Journal of Production Research, 1997, 35, 5, 1193-1211 [ 111] Kittlitz, Rudolf G. Jr.: Transforming the Exponential for SPC Applications, Journal of Quality Technology, 1999, 31, 3, 301-308 [ 112] Lu, Chao-Wen; Reynolds, Marion R. Jr.: Control Charts for Monitoring the Mean and Variance of Autocorrelated Process, Journal of Quality Technology, 1999, 31, 3, 259-274 [ 113] Lu, Chao-Wen; Reynolds, Marion R., Jr.: EWMA Control Charts for Monitoring the Mean of Autocorrelated Processes, Journal of Quality Technology, 1999, 31, 2, 166-188 [ 114] Mastrangelo, Christina M.; Montgomery, Douglas C.: SPC With Correlated Observations for the Chemical and Process Industries, Quality and Reliability Engineering International, 1995, 11, , 79-89 [ 115] Pearn WL, Lin GH: Estimating capability index C-pk for processes with asymmetric tolerances, Communications in Statistics-Theory and Methods, 2000, 29, 11, 2593-2604
233
[ 116] Reynolds, M.R.; Lu, C.W., Control charts for monitoring processes with autocorrelated data, Nonlinear Analysis-Theory Methods & Applications, 1997, 30, , 4059-4067 [ 117] Roberts, Harry V.; Tsay, Ruey S.: Making Control Charts More Effective By Time Series, Communications in Statistics-Theory and Methods, 1996, 25, 11, 2767-2796 [ 118] Schmidt, Wolfgang; Schoene Alexander: Some Properties of the EWMA Control Chart in the Presence of Autocorrelation, The Annals of Statistics, 1997, 25, 3, 1227-1283 [ 119] Sullivan, Joe H.; Woodall, William H.: A Comparison of Multivariate Control Charts for Individual Observations, Journal of Quality Technology, 1996, 29, 4, 398-408 [ 120] Tatum, Lawrence G.: Robust Estimation of the Process Standard Deviation for Control Charts, Technometrics, 1997, 39, 2, 127-141 [ 121] Wardell, D.G.; Moskowitz, H.; Plante, R.D.: Run Length Distributions of Special-Cause Control Charts for Correlated Processes, Technometrics, 1994, 36, 1, 3-17 [ 122] Wiel, Vander S.A.: Monitoring Processes That Wander Using Integrated Moving Averages Models, Technometrics, 1996, 38, 2, 139-151 [ 123] Zhang, Nien Fan: A Statistical Control Chart for Stationary Process Data, Technometrics, 1998, 40, 1, 2438 [ 124] Zhang, Nien Fan; Pollard, James F.: Analysis of Autocorrelations in Dynamic Processes, Technometrics, 1994, 36, 4, 354-368 [ 125] Effects of Autocorrelation on Control Charts Performance, Alwan, L.C., Communications in StatisticsTheory and Methods, 1992, 21, , 1025-1049 [ 126] A Note on Individual and Moving Range Control Charts, Amin, Raid W.; Ethridge, Ronald A, Journal of Quality Technology, 1998, 30, 1, 70-74 [ 127] The Effects of Autocorrelation and Outliers on Two-Sided Tolerance Limits, Amin, Raid W.; Lee, S.J., Journal of Quality Technology, 1999, 31, 3, 286-300 [ 128] An SPC Procedure for Detecting Level Shifts of Autocorrelated Process, Atienza, O.O; Tang, L.C.; Ang, B.W., Journal of Quality Technology, 1998, 30, 4, 340-351 [ 129] Considerations in the Monitoring of Autocorrelated and Independent Data, Faltin, Frederick W.; Mastrangelo, Christina M.; Runger, George C.; Ryan, Journal of Quality Technology, 1997, 29, 2, 131-133 [ 130] Transforming the Exponential for SPC Applications, Kittlitz, Rudolf G. Jr., Journal of Quality Technology, 1999, 31, 3, 301-308 [ 131] Control Charts for Monitoring the Mean and Variance of Autocorrelated Process, Lu, Chao-Wen; Reynolds, Marion R. Jr., Journal of Quality Technology, 1999, 31, 3, 259-274 [ 132] EWMA Control Charts for Monitoring the Mean of Autocorrelated Processes, Lu, Chao-Wen; Reynolds, Marion R., Jr., Journal of Quality Technology, 1999, 31, 2, 166-188 [ 133] SPC With Correlated Observations for the Chemical and Process Industries, Mastrangelo, Christina M.; Montgomery, Douglas C., Quality and Reliability Engineering International, 1995, 11, 79-89 [ 134] Control charts for monitoring processes with autocorrelated data, Reynolds, M.R.; Lu, C.W., Nonlinear Analysis-Theory Methods & Applications, 1997, 30, , 4059-4067 [ 135] Making Control Charts More Effective By Time Series, Roberts, Harry V.; Tsay, Ruey S., Communications in Statistics-Theory and Methods, 1996, 25, 11, 2767-2796
234
[ 136] Some Properties of the EWMA Control Chart in the Presence of Autocorrelation, Schmidt, Wolfgang; Schoene Alexander, The Annals of Statistics, 1997, 25, 3, 1227-1283 [ 137] Run Length Distributions of Special-Cause Control Charts for Correlated Processes, Wardell, D.G.; Moskowitz, H.; Plante, R.D., Technometrics, 1994, 36, 1, 3-17 [ 138] Monitoring Processes That Wander Using Integrated Moving Averages Models, Wiel, Vander S.A., Technometrics, 1996, 38, 2, 139-151 [ 139] A Statistical Control Chart for Stationary Process Data, Zhang, Nien Fan, Technometrics, 1998, 40, 1, 2438 [ 140] Analysis of Autocorrelations in Dynamic Processes, Zhang, Nien Fan; Pollard, James F, Technometrics, 1994, 36, 4, 354-368 [ 141] Control chart tests based on geometric moving averages ,S. W. Roberts, Technometrics, 1959, 1, 239-251 [ 142] Kotz S., Johnson N.L.: Process Capability Indices,1993, Chapman&Hall [ 143] Boyles, Russel A.: Proces Capability with Asymmetric Tolerances, Communications in StatisticsSimmulations, 1994, 23, (3), 615-643 [ 144] Dumitrescu M.E., Hubele N.F.: An entropic framework for the normal distribution in capability analysis, Communications in Statistics-Theory and Methods, 1999, 28 (6), 1361-1377 [ 145] Hoyer, Robert W.; Ellis, Wayne C.: A Graphical Exploration of SPC, Quality Progress, June 1996, 57-64 [ 146] Jeang A.: An approach of tolerance design for quality improvement and cost reduction, International Journal of Production Research, 1997, 35, (5), 1193-1211 [ 147] Kittlitz, Rudolf G. Jr.: Transforming the Exponential for SPC Applications, Journal of Quality Technology, 1999, 31, (3), 301-308 [ 148] Pearn W.L., Lin G.H.: Estimating capability index C-pk for processes with asymmetric tolerances, Communications in Statistics-Theory and Methods, 2000, 29, (11), 2593-2604 [ 149] Tatum, Lawrence G.: Robust Estimation of the Process Standard Deviation for Control Charts, Technometrics, 1997, 39, (2), 127-141 [ 150] Wardell, D.G.; Moskowitz, H.; Plante, R.D.: Run Length Distributions of Special-Cause Control Charts for Correlated Processes, Technometrics, 1994, 36, (1), 3-17 [ 151] Kupka K.: Nelineární transformace asymetrických dat, Hutní analytika, sborník přednášek 2Theta, 1999 [ 152] Militký J., Meloun M., Kupka K.: Data analysis for quality control in the textile branch, Zeszyty Naukove Wlokienictwo, 1.1.2000, Politechnika Lodzka , 58, 43-50 [ 153] Meloun M., Hill M., Militký J., Kupka K.: Transformation in the PC-Aided Biochemical Data Analysis, Clin Chem Lad Med 38(6), 1.12.2000, 553-559 [ 154] Kupka K., Meloun M.: The End-point Estimation in instumental titrations by nonlinear regression, Analytica Chimica Acta 429(2001), 1.1.2001, 171-183 [ 155] Meloun M., Hill M., Militký J., Kupka K.: Analysis of Large and Small Samples of Biochemical and Clinical Data, Clin Chem Lad Med 39(1), 1.1.2001, 53-61 [ 156] Meloun M., Kupka K.: The Box-Cox Transformation for Rigorous Statistical Analysis of Metallurgical Data, Acta Metallurgica Slovaca, Bratislava, 1.1.2001, 7, 34-43 [ 157] Meloun M., Hill M., Militký J., Kupka K.: Assessment of the mean-value of 17-hydroxypregnenolone in the umbilical blood of newborns by the exploratory analysis of biochemical data, Computer Methods and Programs in Biomedicine, 26.2.2002, Elsevier, In Press
235
[ 158] Meloun M., Militký J., Kupka K., Brereton G.: The effect of influential data, model and method on the precision of univariate calibration, Talanta, 10.4.2002, Elsevier, In Press [ 159] Militký J., Kupka K.: Modulární programový systém ADSTAT 2.0, Algoritmy 93, 12. Sympózium, sborník přednášek, Stará Lesná, 26.4.1993, EU Bratislava, 167-176 [ 160] Militký J., Kupka K., Meloun M.: 5 Appetisers for Statistical Education, (Lecture), Satelite Meeting of the ISI, Perugia, 22.8.1993, IASC/ISI, [ 161] Militký J., Kupka K.: Asymmetric Control Limits in Shewhart Type Control Charts, 25th Textile Research Symposium, Shizuoka, 2.8.1996, University of Shiga, 241-246 [ 162] Meloun M., Mikšík P., Kupka K.: Kritika metod faktorové analýzy spekter při stanovení počtu světloabsorbujících částic, Zborník XIII. Seminára atomovej spektroskópie, Podbánské , 23.9.1996, 307 - 329 [ 163] Militký J., Kupka K.: Asymmetric Control Limits in Shewhart Type Control Charts, Second International Conference, Mansoura, 8.4.1997, Mansoura University, 479-484 [ 164] Militký J., Meloun M., Kupka K.: Teaching of Regression Model Building by ADSTAT Package, 5th International Conference on Teaching Statistics, Singapore, 21.6.1998, ICOTS/ISI, 879 - 884 [ 165] Kupka, K.: Statistical Techniques for Real Data From Production and QC, 27th Textile Research Symposium, Shizuoka, 3.8.1998, University of Shiga, 170-177 [ 166] Kupka, K.: Metody statistického řízení jakosti, Automa (2001), 7-8, Brno, 1.8.2001, 13-17 [ 167] Kupka, K.: Pravděpodobnosrní interpretace indexů způsobilosti, Jakost pro život 3, 2(2001), Ostrava, 1.9.2001, [ 168] Kupka, K.: Data Mining - možnosti a použití, Automa (2001), Brno, 1.1.2002, 57-60 [ 169] Kupka, K.: Spolehlivost, trvanlivost , poruchovost a jejich modelování, Automa (2002), Brno, 1.4.2002, 5254 [ 170] Kupka, K.: Systémy pro statistickou analýzu dat, Celostátní konference Analýza dat 93, sborník, Lázně Bohdaneč, 15.6.1993, Trilobyte, 287-293 [ 171] Kupka, K.: Statistické metody v řízení jakosti, Celostátní konference Analýza dat 95/II, sborník, Lázně Bohdaneč, 21.11.1995, Trilobyte, 116-134 [ 172] Kupka, K.: Úvod do statistických metod v řízení jakosti, Analýza dat pro řízení jakosti, sborník přednášek, Lázně Bohdaneč, 7.4.1998, Trilobyte, 49-94 [ 173] Kupka, K.: Variabilita v kontinuálních technologických procesech, Zajištění kvality analytických výsledků, Český Těšín, 20.6.1998, 2Theta, 128-135 [ 174] Kupka, K.: Data Mining versus S-Plus, Perspectives in Modern Statistical Inference, Praha, 20.8.1998, MFF UK, [ 175] Kupka, K.: Moderní techniky Data Mining, Celostátní konference Analýza dat 98/II, sborník, Lázně Bohdaneč, 10.11.1998, Trilobyte, [ 176] Kupka, K.: Variabilita ve statisticky sledovaných procesech, Hutní analytika 99, sborník přednášek, Malenovice, 26.4.1999, 2Theta, 133-146 [ 177] Kupka, K.: Statistické metody v analytické praxi, Anorganická analýza v životním prostředí, Komorní Lhotka, 20.9.1999, 2Theta, 151-162 [ 178] Kupka, K.: Aplikace a diagnostika regresních modelů v kalibraci a validaci, Mikroelementy 99, sborník přednášek, Řež u Prahy, 6.11.1999, 2Theta, 197-206
236
[ 179] Kupka, K.: Aplikace a diagnostika regresních modelů v kalibraci, Celostátní konference Analýza dat 99/II, sborník, Lázně Bohdaneč, 9.11.1999, Trilobyte, 68-79 [ 180] Kupka, K.: Statistické zpracování měřených dat v řízení jakosti, Měřicí technika pro kontrolu jakosti, Plzeň, 1.2.2000, Česká metrologická společnost, 52-59 [ 181] Kupka, K.: Statistické zpracování měřených dat v řízení jakosti, Vstřikování plastů, Praha, 21.3.2000, PlastForm Service, 77-84 [ 182] Kupka, K.: Aplikace a diagnostika regresních modelů, Zajištění kvality analytických výsledků, Komorní Lhotka, 28.3.2000, 2Theta, 127-148 [ 183] Kupka, K.: Důsledky závislosti dat pro odhady parametů a diagnostiku procesu, Celostátní konference Analýza dat 2000/I, sborník, Lázně Bohdaneč, 3.5.2000, Trilobyte, 100-107 [ 184] Kupka, K.: Důsledky závislosti dat pro odhady parametů a diagnostiku procesu, Mikroelementy 2000, sborník přednášek, Zámek Liblice, 5.9.2000, 2Theta, 156-165 [ 185] Meloun M., Militký J., Hill M., Kupka K.: Zpracování výběrů asymetrického rozdělení biochemických dat, Analýza organických látek v životním prostředí, Komorní Lhotka, 16.10.2000, 2theta, 141-156 [ 186] Kupka, K.: Některé metody pro plánování experimentu, Celostátní konference Analýza dat 2000/II, sborník, Lázně Bohdaneč, 21.11.2000, Trilobyte, 231-248 [ 187] Kupka, K.: Aplikace a diagnostika regresních modelů v kalibraci, Měřicí technika pro kontrolu jakosti, Praha, 27.2.2001, Česká metrologická společnost, 122-133 [ 188] Kupka, K., Meloun M.: Robustní ANOVA pro analýzu experimentů a laboratorních výsledků, Analytická data a jejich využití v praxi, Seč, 20.3.2002, Ekomonitor, 107 [ 189] Kupka, K.: Integrace statistické analýzy do výrobních technologií a datových toků, Konference Autos 2002, sborník přednášek, Praha, 22.4.2002, ČVUT, VŠB, VUT, Teris, 74-81 [ 190] TriloByte: QC-Expert 2.5, Uživatelský manuál, TriloByte Statistical Software, Pardubice, Česká republika, 2001 [ 191] Insightful, Inc.: S-Plus 2000, User’s Manual, Seattle 2000 [ 192] Insightful, Inc.: S-Plus 2000, Programmer’s Manual, Seattle 2000 [ 193] Chambers J.M., Hastie T.J.: Statistical models in S, Chapman&Hall 1991 [ 194] Venables W.N., Ripley B.D.: Modern Applied Statistics with S-Plus, Springer 1994 [ 195] Kupka, K.: Statistické řízení jakosti, TriloByte, Pardubice 1999 [ 196] Meloun M., Militký J. Statistické zpracování experimentálních dat, East Publishing Praha 1998 [ 197] Meloun M., Militký J.: Statistické zpracování experimentálních dat,: Sbírka úloh, Univerzita Pardubice, 1996 [ 198] Hahn G.J., Shapiro S.S.: Statistical models in engineering, John Wiley&Sons, 1994 [ 199] Draper N.R., Smith H.:Applied Regression Analysis, third edition, John Wiley&Sons, 1998 [ 200] Rawlings J.O. at al.: Applied Regression Analysis A Research Tool, second edition, Springer, 1998 [ 201] Anderson T.W.: An Introduction to Multivariate Statistical Analysis, John Wiley&Sons, 1984 [ 202] Box G.E.P., Jenkins G.M., Reinsel G.C.: Time Series Analysis, Forecasting and Control, Prentice Hall, 1994 [ 203] Montgomery D.C., Johnson L.A., Gardiner J.S.: Forecasting and Time Series Analysis, McGraw-Hill, 1990 [ 204] Jobson J.D.: Applied Multivariate Data Analysis Volume I, fourth edition, Springer, 1999
237
[ 205] Dennis J.E., Mei H.H.W.: Two new unconstrained optimization algorithms which use function and gradient values, Jurnal of Optimization Theory and Applications, Vol. 28 , No 4, 1979, 453-482 [ 206] Marquardt W.M.: Generalized Inverses, Ridge Regression, Biased Linear Estimation and Nonlinear Estimation, Technometrics, 12, 3, 1970, 591-612 [ 207] Davidon, W.C.: Optimally conditioned Optimization Algorithms without Line Search, Mathematical Programming, 9 (1975) 1-30 [ 208] Fletcher R.: A new approach to variable metric algorithms, The Computer Journal 3, 13 (1970) [ 209] Atkinson A.C.: A Very Robust Methods for the Detection of Multiple Outliers, Journal of the American Statist. Assoc. 428, 89 (1994), 1329-1339 [ 210] Cook R.D.: Detection of Influential Observations in Linear Regression, Technometrics, 19, 1, 1977, 15-18 [ 211] Rousseeuw P.J.: Least Median of Square Regression, Journal of the American Statist. Assoc. 388, 79 (1984), 871-880 [ 212] Gabriel K.R.: The Biplot Graphic Display of Matrices with Application to Principal Component Analysis, Biometrika, 58, 3, (1971), 453-467 [ 213] Pearn W.L., Chen K.S.: New generalization of process capability index Cpk, Journal of Applied Statistics 25, 6, 1998, 801-810
238
7.2
Přehled autorových technických zpráv o statistické analýze systémem QC-Expert pro různá průmyslová pracoviště do roku 2004
1. Vyhodnocení rozměrové stability lisovaných polymerů v koncernu VDO pro Siemens VDO Automotive AG, Stará Boleslav 2. Statistické vyhodnocení měrných míst lisovaných termoplastických kopolymerů v koncernu TRW pro TRW Volant, Horní Počernice, a.s.
3. Analýza fyzikálně-chemických vlastností papíru a buničiny pro Severočeské papírny Sepap Štětí 4. Statistická analýza rozměrových charakteristik při výrobě butadienových kopolymerů pro Splintex Czech, a. s., Bílina – Chudeřice 5. Chemické a fyzikálních vlastností silničního modifikovaného asfaltu Mofalt SMA 45 pro Paramo a.s., Pardubice 6. Statistická analýza chemického složení surového železa pro Moravské železárny Olomouc 7. Statistická analýza dat z elementární chemické analýzy vody AAS pro Krajskou hygienickou stanici Ostrava, Partyzánské náměstí 7 8. Chemické a fyzikální vlastnosti sklářského písku pro řízení jakosti pro Sklárny KAVALIER, a.s., Sázava 9. Statistická analýza sledovaných fyzikálně chemických vlastností papírových 3dvýrobků a metodiky pro jejich použití pro statistické řízení jakosti pro Huhtamaki
Česká republika, a.s., Přibyslavice 10. Analýza vlivu geometrie a umístění na kvalitu keramických výrobků při tepelném zpracování pro Certec, a.s., Horní Bříza
11. Statistická analýza vlivů na kvalitu keramických výrobků pro Certec, a.s., Horní Bříza 12. Statistické modelování fyzikálně-chemických vlastností střížků a strategie přejímek v rámci EU pro Českou národní banku, Praha
13. Hodnocení stability chemického složení vody v primárním okruhu JE Dukovany pro JE Dukovany (nepublikováno) 14. Vyhodnocení stability fyzikálních parametrů rozbušek a náloží pro Airbagy pro Indet Vsetín 15. Vyhodnocení stability a kinetiky thyminu a acetylthyminu pro Lonza Biotech
239
16. Modelování a predikce fyzikálních a chemických vlastností oceli Azovstal pro Vítkovice Steel 17. Vyhodnocení kruhových testů laboratoří pro Plzeňský Prazdroj, a.s. 18. Modelování a predikce fyzikálně chemických vlastností piva pro Plzeňský Prazdroj, a.s. 19. Modelování senzorického vyhodnocení piva pomocí robustních regresních modelů pro Plzeňský Prazdroj, a.s. 20. Modelování fyzikálních vlastností betonu na základě chemické analýzy pro Železniční průmyslová a stavební výroba Uherský Ostrov, a.s.
240
7.3
Pracoviště používající autorovu metodologii a software QC-Expert v ČR a SR do roku 2004
Seznam uvádí některá významnější pracoviště s chemicko-analytickým zaměřením seřazená abecedně. ALIACHEM, a.s., odštěpný závod FATRA, Napajedla Colné riaditeĺstvo Slovenskej republiky, Colnoprávne laboratórium, Bratislava CPN spol. s r.o., Biotechnologie, Ústí nad Orlicí Česká národní banka Fakultní nemocnice Královské Vinohrady, Praha 10 Frantschach Pulp & Paper a.s., Štětí Hutnícka fakulta TU Košice, kat.chémie, Košice CHEMOPETROL a.s., ÚGŘ - OS d.s. 714, Litvínov Chmelařský institut, Žatec ICN Czech Republic a.s., Výzkumný ústav antibiotik a biotransformací, Roztoky u Prahy INGEO, a.s., Žilina Institut klinické a experimentální medicíny, ZRIR, MR spektroskopie, Praha 4 IVAX Pharmaceutical, Komárov u Opavy Kovohutě Břidličná, a.s., Břidličná Krajská hygienická stanice, Ostrava Lafarge Cement, a.s., Čížkovice Lonza Biotech, Kouřim Lyckeby Amylex, Horažďovice Moravské šamotové a lupkové závody, závod Svitavy, Svitavy Moravskoslezské teplárny, a.s., řízení jakosti, Ostrava Nemocnice Na Homolce, OKBH, Praha Nová huť Ostrava OHS Frýdek - Místek, Chemická laboratoř, Frýdek - Místek OHS Karviná, analytická laboratoř, Karviná OKD, DPB Paskov a.s., Divize ekotechnika, Paskov Okresní hygienická stanice, Laboratorní blok, Olomouc Okresní hygienická stanice, Ústí nad Orlicí ORGREZ a.s., Divize techniky ochrany ovzduší, Dětmarovice Paramo Pardubice Plzeňský Prazdroj, a.s. Pražské vodárny a kanalizace, s. p., závod Želivka, Zruč nad Sázavou Precheza Přerov PRO.MED.CS Praha, a.s., Praha 4 Příbramská teplárenská a.s., Příbram 6 Saft-Ferak, a.s., Pražmo Severoslovenské celulózky, a papierne, Ružomberok Slovnaft Bratislava SVÚS-Sklářský ústav, Hradec Králové Synthesia, a. s., odbor podnik.výzkumu, Pardubice - Semtín Třinecké železárny, a.s., TC-chemické zkušebny, Třinec
241
Třinecké železárny, a.s., TT - Technologie, Třinec ÚKZÚZ, Odd.agrochemie a výživy půd, Brno - Pisárky Univerzita Liberec, Fakulta textilní, Liberec Univerzita Palackého, FVT,KACH, Olomouc Univerzita Pardubice, DFJP, Katedra spolehlivosti, Pardubice University of Witwatersland, Analytical Chemistry Dept, Johannesburg URS PRAHA a.s., Praha 10 Ústav experimentální medicíny, AV ČR, Praha 4 Ústav jaderného výzkumu, Řež u Prahy Válcovny plechu, a.s., Frýdek-Místek Vesuvius Slavia a.s., Ostrava - Kunčice VCHZ SEMTÍN odd. zásobovaní, Pardubice - Semtín Vítkovice, a.s., Odd. výzkum a vývoj, Ostrava 6 Vítkovice Steel, a.s. Ostrava 3 Vodní zdroje Holešov a.s., Holešov VŠB-TU, FMMT, Katedra anal. Chemie a zk. Materiálů, Ostrava-Poruba VŠCHT, Ústav technologie vody a prostředí - 217, Praha 6 VŠZ, Ústav agrochemie, Brno VÚHŽ a.s. Dobrá, divize 402 Metaltest, Dobrá Vulkan plast, provozovna Hrádek nad Nisou, Hrádek nad Nisou VUT Brno, Fak. strojní, kat. matematiky, Brno Výzkumný a šlechtitelský ústav chmelařský, Žatec Výzkumný a vývojový ústav dřevařský, Praha, s.p., Fyzikální a chemická laboratoř, Praha 1 Výzkumný ústav organických syntéz a.s., Pardubice 20 Výzkumný ústav rostlinné výroby, Praha-Ruzyně Výzkumný ústav výživy zvířat, Pohořelice Výzkumný ústav živočišné výroby, Kostelec pod Černými lesy WATREX, Praha 6 Zentiva Praha Železiarne Podbrezová, a.s., Podbrezová Železniční průmyslová a stavební výroba Uherský ostrov, a.s.
242
243