Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
2.1 Tvorba lineárních regresních modelů při analýze dat
Autor práce: Ing. Zdeněk Konvička Přednášející: Prof. RNDr. Milan Meloun, DrSc
Zpracovávaná data jsou výstupem z výrobních procesů při výrobě pigmentu TiO2. V současné době není pigment RD53 a RP33 vyráběn.
-1-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obsah 1 Porovnání dvou regresních přímek u jednoduchého regresního modelu ............................................................... 3 1.1 Zadání............................................................................................................................................................ 3 1.2 Naměřená data............................................................................................................................................... 3 1.3 Pigment RD53 – grafické posouzení kvality dat ........................................................................................... 5 1.4 Regresní diagnostika pro RD53..................................................................................................................... 7 1.5 Závěr ............................................................................................................................................................. 9 1.6 Pigment RP33 - – grafické posouzení kvality dat........................................................................................ 10 1.7 Regresní diagnostika pro RP33 ................................................................................................................... 12 1.8 Závěr ........................................................................................................................................................... 13 1.9 Porovnání modelů – společný lineární model.............................................................................................. 14 1.10 Regresní diagnostika pro společný model ................................................................................................... 14 1.11 Test shody obou modelů – ověření shody rozptylů ..................................................................................... 16 1.12 Závěr ........................................................................................................................................................... 17 2 Určení stupně polynomu...................................................................................................................................... 18 2.1 Zadání.......................................................................................................................................................... 18 2.2 Naměřená data............................................................................................................................................. 18 2.3 Nalezení stupně polynomu .......................................................................................................................... 18 2.4 Grafické zobrazení ...................................................................................................................................... 19 2.5 Závěr ........................................................................................................................................................... 21 3 Validace nové analytické metody........................................................................................................................ 22 3.1 Zadání.......................................................................................................................................................... 22 3.2 Naměřená data............................................................................................................................................. 22 3.3 Lineární regresní model............................................................................................................................... 22 3.4 Regresní diagnostika ................................................................................................................................... 23 3.5 Závěr ........................................................................................................................................................... 24
-2-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
1
Ing. Zdeněk Konvička
Porovnání dvou regresních přímek u jednoduchého regresního modelu
1.1
Zadání
Hodnota dispergovatelnosti pigmentu je pomocí mletí pigmentu s pojivem, které má předepsanou OKP v laboratorním attritoru. K zajištění reprodukovatelnosti výsledků je nutno vždy dodržet stejné podmínky (otáčky, náplň kuliček, teplotu). Stupeň dispergace je sledován Hegmanovým grindometrem. Hodnota disperzity je vizuálně odečtena na stupnici (představuje tloušťku nátahu v místě posledního výskytu aglomerátů) v µm. U dvou druhů titanové běloby (RD53 a RP33) byla provedena zkouška dispergovatelnosti v alkydovém pojivu. Na základě naměřených dat vyhodnoťte a porovnejte dispergovatelnost u obou pigmentů. Porovnejte shodu obou modelů.
1.2
Naměřená data
Tabulka I: RD53
time [min.] 20 25 25 30 30 35 40 40 40 40 45 45 50 55 55 60 60 disp [µm] 70 70 65 60 60 40 50 45 30 35 30 30 20 15 20 15 10 Tabulka II: RP33
time [min.] disp [µm] time [min.] disp [µm]
20 80 85 30
25 80 90 20
30 35 35 40 45 45 50 55 55 60 65 70 75 80 80 75 70 75 70 70 65 60 50 55 50 40 40 45 40 30 90 95 100 105 25 25 20 20 -
Ověření normality U dat byla ověřena normalita pomocí programu QCExpert (obr. 1) a Minitab (obr. 2 a 3).
Obrázek 1: Graf pro diagnostiku normality a odlehlých měření, pro normální data bez odlehlých měření má přibližně tvar přímky
-3-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Normal Probability Plot
.999 .99
Probability
.95 .80 .50 .20 .05 .01 .001 10
20
30
40
50
60
70
disp53 Av erage: 39.1176 StDev : 20.3282 N: 17
Anderson-Darling Normality Test A-Squared: 0.431 P-Value: 0.272
Obrázek 2: Anderson-Darlingův test. S pravděpodobností 72.8 % mají data Normální rozdělení.
Normal Probability Plot
.999 .99
Probability
.95 .80 .50 .20 .05 .01 .001 20
30
40
50
60
70
80
disp33 Average: 49.3478 StDev: 20.9602 N: 23
Anderson-Darling Normality Test A-Squared: 0.584 P-Value: 0.116
Obrázek 3: Anderson-Darlingův test. S pravděpodobností 88.4 % mají data Normální rozdělení. Závěr pro ověření normality: Oba soubory dat mají Normální rozdělení, lze proto přistoupit k regresní diagnostice.
-4-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
1.3
Ing. Zdeněk Konvička
Pigment RD53 – grafické posouzení kvality dat
Obrázek 4: McCulloh-Meterův graf je další alternativou k indikaci vlivných a vybočujících bodů. Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. Body nad šikmou (červenou) přímkou jsou podezřelé vybočující nebo vlivné.
Obrázek 5: Williamsův graf slouží k indikaci vlivných i vybočujících bodů. Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. Tyto body by bylo vhodné pro další zpracování odstranit.
Obrázek 6: L-R graf je další alternativou k indikaci vlivných bodů. Hyperbolické křivky jsou linie stejného vlivu. Podle polohy bodů vůči třem křivkám lze data rozdělit na slabě vlivná, vlivná a silně vlivná. Tento graf je vhodný pro menší rozsahy dat.
Obrázek 7: Graf pro společné posouzení vybočujících bodů a vlivných bodů. Body nad nižší (černou) přímkou se považují za vlivné, nad vyšší (červenou) přímkou za silně vlivné nebo vybočující a je třeba jim věnovat pozornost.
Obrázek 8: Graf predikce reziduí. Grafické srovnání skutečných a predikovaných reziduí. Výraznější odchylka od přímky indikuje vybočující hodnotu. Tento graf je velmi citlivý na jednotlivé vybočující hodnoty, špatně indikuje skupiny vybočujících hodnot. Na tomto grafu nejsou patrny žádné body, které by měly mít vybočující charakter
-5-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obrázek 9: Diagonální prvky projekční matice H=X(X^T X)^(-1) X^T, které vyjadřují míru vlivu jednotlivých dat na regresi (X je matice nezávisle proměnných). Body nad vodorovnou přímkou se považují za silně vlivné. Zde je odchýlený pouze jeden bod.
Obrázek 10: Je-li v datech pouze jedna nezávisle proměnná, představuje graf průběh regresního modelu. Červeně je vyznačen pás spolehlivosti modelu na zadané hladině významnosti.
Obrázek 11: Graf vyjadřující těsnost proložení. Na ose X jsou vypočítané hodnoty závisle proměnné, na ose Y jsou naměřené hodnoty. Svislé vzdálenost bodu od přímky odpovídá reziduu.
Obrázek 12: Q-Q graf pro posouzení normality reziduí. Přímka odpovídá normálnímu (Gaussovu) rozdělení reziduí. Je nutno brát v úvahu, že metoda nejmenších čtverců uměle zvyšuje normalitu (tzv. supernormalita). V případě pochybností se doporučuje vyhodnotit tento graf i pro některou robustní metodu.
Obrázek 13: Graf normovaných reziduí, na ose X je hodnota závisle proměnné. vodorovná přímka odpovídá průměru reziduí. V případě nevážené metody nejmenších čtverců je průměr reziduí roven nule.
-6-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obrázek 14: Grafické posouzení autokorelace reziduí prvního řádu, na ose X je i-té reziduum, na ose Y je (i-1) reziduum. "Mrak" bodů s kladnou směrnicí, naznačuje pozitivní autokorelaci, klesající trend negativní autokorelaci. Autokorelace reziduí nemusí nutně dokazovat autokorelaci chyb, neboť autokorelace vypočítaných reziduí je vždy nenulová.
1.4
Obrázek 15: Grafické posouzení heteroskedasticity (nekonstantnosti rozptylu). Tvar výseče, resp. trojúhelníku naznačuje přítomnost heteroskedasticity. Zde jsou body rovnoměrně rozptýleny, co eteroskedasticitu nepotvrzuje.
Regresní diagnostika pro RD53
Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Transformace :
0.05 2.131 4.543 Ano 17 2 Nejmenší čtverce Bez transformace
Základní analýza Charakteristiky proměnných Proměnná Průměr time53 40.882
Směr.Odch. 12.404 -
Kor.vs.Y 0.963
Významnost 5.55E-010
Analýza rozptylu Průměr Y : 39.118 Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
Součet čtverců 6611.765 6136.630 475.134 193.734 4.543 5.55E-010 Model je významný
Odhady parametrů
-7-
Průměrný čtverec Rozptyl 388.927 413.235 360.978 383.539 27.949 29.696
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Proměnná Abs
Odhad 103.665 Spodní mez 1.146E-012
Směr.Odch. 4.834 Horní mez 93.361
Závěr Významný
Pravděpodobnost 113.969
Proměnná time53
Odhad -1.579 Spodní mez -1.821
Směr.Odch. 0.113 Horní mez -1.337
Závěr Významný
Pravděpodobnost 5.55E-010
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
0.9634 0.9281 0.8329 33.982 60.617
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr : Model je významný
193.734 4.54308 5.55E-010
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
-0.2556 Model je korektní.
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.0320 3.8415 0.8580 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
0.5223 5.9915 0.7702 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.0128 3.8415 0.8580 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
-1 1.02 1.54 Rezidua nejsou autokorelována
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost :
1.4937 1.9599 0.1352 -8-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Závěr :
1.5
Ing. Zdeněk Konvička
V reziduích není trend.
Závěr
Na základě výsledků testování byl lineární model určen jako významný a korektní. Parametry regresní přímky byly určeny jako významné. Testem rezidui a také z jejich grafického zobrazení vyplývá, že model je zcela v pořádku. Rovnice regresní přímky dispergovatelnost RD53 = 103.665 (± 4.834) – 1.519 (± 0.113) · čas Y = 103.665 (± 4.834) – 1.519 (± 0.113) · X
-9-
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
1.6
Ing. Zdeněk Konvička
Pigment RP33 - – grafické posouzení kvality dat
Detailnější vysvětlení grafického zobrazení bylo provedeno u pigmentu RD53, proto zde budou komentovány pouze odlišnosti vztahující se k tomuto modelu.
Obrázek 16: Tři body nad vodorovnou přímkou jsou indikovány jako body silně vybočující.
Obrázek 17: Tento graf opět indikuje odlehlé a extrémní hodnoty, v tomto případě jsou indikovány jen body podezřelé (mezi horní a šikmou čárou).
Obrázek 18: V oblasti slabě vlivných dat jsou indikovány dva body.
Obrázek 19: U tohoto grafu se oblasti vlivných bodů blíží body dva (oblast nad černou přímkou). Silně vlivné nejsou indikovány (nad horní – červenou přímkou.
Obrázek 20: Vodorovné přímce se blíží dva body. Jako silně vlivné je nelze považovat
Obrázek 21: Dva body jsou od přímky odchýleny, přesto touto vzdáleností nelze potvrdit indikaci vybočujících hodnot.
- 10 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Odlehlé ani extrémní hodnoty nebyly grafickými diagnostikami potvrzeny, zle tedy konstatovat, že v modelu nejsou body, které by bylo nutno vyřadit a nahradit novým měřením.
Obrázek 22: Regresní přímka velmi pěkně prokládá naměřené body a má úzký interval spolehlivosti.
Obrázek 23: Tento graf vyjadřuje dosti vysokou míru těsnosti proložení.
Obrázek 24: Podle tvaru mají rezidua normální (Gaussovo) rozdělení
Obrázek 25: Rezidua jsou rovnoměrně rozdělena po obou stranách přímky (střední hodnoty rezidují).
Obrázek 26: Mrak bodů nemá rostoucí ani klesající trend, což by prokazovalo kladnou nebo zápornou autokorelaci 1. řádu. Rezidua nejsou autokorelována.
Obrázek 27: Nekonstantní rozptyl (heteroskedasticita) není prokázána.
- 11 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
1.7
Ing. Zdeněk Konvička
Regresní diagnostika pro RP33
Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Transformace :
0.05 2.0796 4.3248 Ano 23 2 Nejmenší čtverce Bez transformace
Základní analýza Charakteristiky proměnných Proměnná Průměr time33 62.174
Směr.Odch. 25.487
Kor.vs.Y -0.982
Analýza rozptylu Průměr Y : Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
49.348 Součet čtverců 9665.217 9322.228 342.9894 570.7662 4.324794 1.044E-016 Model je významný
Průměrný čtverec Rozptyl 420.227 439.328 405.314 423.738 14.9125 15.5904
Odhady parametrů Proměnná Abs
Odhad 99.563 Spodní mez 94.853
Směr.Odch. 2.264 Horní mez 104.272
Závěr Významný
Pravděpodobnost 0
Proměnná time33 -
Odhad 0.808 Spodní mez -0.878
Směr.Odch. 0.034 Horní mez -0.737
Závěr Významný
Pravděpodobnost 0
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
0.9821 0.9645 0.9177 17.667 66.151
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
570.766 4.32479 1.04362E-016 Model je významný
- 12 -
Významnost 0
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
-0.3737 Model je korektní.
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.66092 3.84146 0.41624 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
0.61209 5.99146 0.73635 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
1.11081 3.84146 0.41624 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
-1 1.17 1.54 Pozitivní autokorelace reziduí není prokázána.
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
1.70146 1.95996 0.08886 V reziduích není trend.
1.8
Závěr
Na základě výsledků testování byl lineární model určen jako významný a korektní. Parametry regresní přímky byly určeny jako významné. Testem rezidui a také z jejich grafického zobrazení vyplývá, že model je zcela v pořádku. Rovnice regresní přímky dispergovatelnost RP33 = 99.563 (± 2.264) – 0.808 (± 0.034) · čas Y = 99.563 (± 2.264) – 0.808 (± 0.034) · X
- 13 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
1.9
Ing. Zdeněk Konvička
Porovnání modelů – společný lineární model
Obrázek 28: Z tohoto grafu je patrné, že přímka neprokládá dala, ale prostor mezi nimi. Již podle toho lze usoudit, že data pocházejí ze dvou souborů.
Obrázek 29: Většina dat je od přímky značně vzdálena, což prokazuje slabou těsnost proložení.
Obrázek 30: Rezidua společného modelu nemají normální rozdělení.
Obrázek 31: Heteroskedasticita není potvrzena, přesto i zde je vidět, že data pocházejí ze dvou bloků.
1.10 Regresní diagnostika pro společný model Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Transformace :
0.05 2.024 4.098 Ano 40 2 Nejmenší čtverce Bez transformace
Základní analýza Charakteristiky proměnných Proměnná Průměr timeALL 53.125
Směr.Odch. 23.306
Kor.vs.Y -0.694
Analýza rozptylu
- 14 -
Významnost 6.579E-007
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Průměr Y : Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
Ing. Zdeněk Konvička
45 Součet čtverců 17300 8350.02 8949.98 35.4527 4.09817 6.57861E-007 Model je významný
Průměrný čtverec Rozptyl 432.5 443.590 208.8 214.103 223.7 229.487
Odhady parametrů Proměnná Abs
Odhad 78.353 Spodní mez 65.9949
Směr.Odch. 6.105 Horní mez 90.7111
Závěr Významný
Proměnná timeALL
Odhad Směr.Odch. Závěr -0.6278 0.1054 Významný Spodní mez Horní mez -0.8413 -0.4144
Pravděpodobnost 2.22E-015
Pravděpodobnost 6.58E-007
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
0.6947 0.4827 0.1974 240.34 220.421
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
35.4527 4.09817 6.57861E-007 Model je významný.
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
-0.47690 Model je korektní.
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.61571 3.84146 0.43265 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
4.45036 5.99146 0.10805 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) :
0.04964 3.84146 - 15 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Pravděpodobnost : Závěr :
0.43265 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
-1 1.39 1.6 Rezidua nejsou autokorelována
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
1.11762 1.95996 0.2637288631 V reziduích není trend.
1.11 Test shody obou modelů – ověření shody rozptylů Hladina významnosti : Porovnávané sloupce :
0.05 RD53
RP33
Počet dat : Průměr : Směr. odchylka : Rozptyl :
17 39.12 20.33 413.2
23 49.35 20.96 439.3
Test shody rozptylů Poměr rozptylů : Počet stupňů volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
1.0631 22 16 2.2991 Rozptyly jsou SHODNÉ 0.4968
Robustní test shody rozptylů Poměr rozptylů : Redukované stupně volnosti : Kritická hodnota : Závěr : Pravděpodobnost :
1.06314 19 14 2.45217 Rozptyly jsou SHODNÉ 0.5009
Q-Q graf (obr. 32) pro všechna data, data se berou jako jediný soubor, příslušnost k prvnímu nebo druhému výběru je rozlišena barvou (viz legenda v grafu). Orientačně jsou znázorněny polohy průměrů obou výběrů se svými intervaly spolehlivosti jako šrafované obdélníky. Přímky znázorňují polohu střední hodnoty, jejich směrnice odpovídají směrodatné odchylce, strmější přímka by odpovídala výběru s vyšší sm. odchylkou.
Obrázek 32: Porovnání dvou výběrů (EDA)
- 16 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
1.12 Závěr Byla prokázána shodnosti rozptylů (potvrzena homoskedasticita) u obou výběrů dat, proto lze použít Chowův testXXX. Fc = (RSC-RSC1-RSC2)(n-2m)/((RSC1+RSC2)(m)) Fc = (8949.98-475.134-342.989)(40-2*2)/( 475.134+342.989)(2) = 178.9 Fc > F(2,36) → Je nutno hypotézu o shodě parametrů zamítnout.
F(2,36) = 3,2633
Porovnání modelů disp53 dispALL Lineární (disp33)
disp33 Lineární (disp53) Lineární (dispALL)
disprergace [ m]
100 80 60 40 20 0 0
20
40
60
80
100
120
čas [min]
Obrázek 33: Grafické porovnání obou modelů a jejich lineárních trendů (proloženo metodou nejmenších čtverců – využito Microsoft Excel 2002) Z porovnání obou modelů vyplývá, že se dispergace pro oba pigmenty výrazně liší. Toto také prokázal Chowův test pro shodu parametrů – na hladině významnosti α = 0.05 byla hypotéza o shodě zamítnuta. Dispergovatelnost u pigmentu RD53 je výrazně lepší (vyplývá z porovnání úseku i směrnice u obou přímek). Pro výrazný rozdíl v dispergovatelnosti, který má výrazný vliv na aplikační použití, se nedají oba pigmenty zaměnit.
- 17 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
2 2.1
Ing. Zdeněk Konvička
Určení stupně polynomu Zadání
Peristaltické čerpadlo má dva stupně rozsahu otáček (0 až 9 a 10 až 100).. Pro zjištění závislosti bylo provedeno měření obou rozsahů. Určete stupeň polynomu pro celý rozsah dávkovacího čerpadla. Je tento polynom optimální pro praktické použití?
2.2
Naměřená data
Tabulka III: Naměřená data otáčky [ot/min.]
1.5
2.0
2.5
3.0
3.5
4.0
4.5
6.5
7.0
8.0
9.0
výkon [ml/min]
0.8
0.9
1.0
1.1
1.2
1.5
2.0
3.1
4.0
5.2
6.4
otáčky [ot/min.]
10.0
20.0
30.0
40.0
50.0
65.0
75.0
85.0
95.0
100.0
-
výkon [ml/min]
7.3
10.0
13.0
17.0
23.0
32.0
45.0
53.0
67.0
75.0
-
2.3
Nalezení stupně polynomu
K vyhodnocení regrese byl použit program QCExpert 2.5. Pro nalezení optimálního stupně polynomu n byla použita metoda nejmenších čtverců (MNČ). Při výpočtu bude měněn stupeň polynomu a podle posouzení hodnot MEP (střední kvadratické chyby predikce) a AIC (Akaikeho informační kritérium) bude vybrán optimální stupeň. Testování bude probíhat na hladině významnosti α = 0.05, v prvé fázi pro n = 2, 4, 6, 8. Nalezení optimálního stupně polynomu – návrh modelu Pro nalezení optimálního stupně polynomu byla využita MNČ. Toto bylo provedeno na základě vyhodnocení hodnoty MEP (střední kvadratická chyba predikce) a AIC (Akaikeho informační kritérium). Tabulka IV: Statistické charakteristiky Stupeň polynomu Vícenásobný korelační koeficient R Koeficient determinace R2 (D)
2 0.9971 0.9941
4 0.9993 0.9986
6 0.9994 0.9988
8 0.9995 0.9989
Predikovaný korelační koeficient Rp MEP AIC
0.9829 4.3913 29.0273
0.9929 1.8077 3.5559
0.9922 1.9998 3.3393
0.5963 116.2369 5.3751
5 0.9994 0.9988 0.9936 1.6422 2.2075
Vícenásobný korelační koeficient R a Koeficient determinace R2 nejsou pro hledání optimálního stupně polynomu vhodné.
- 18 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
2.4
Ing. Zdeněk Konvička
Grafické zobrazení
Obrázek 34: Těsnost proložení pro n=2
Obrázek 35: Těsnost proložení pro n=4
Obrázek 36: Graf vyjadřuje těsnost proložení. Svislé vzdálenosti od přímky odpovídají reziduu.
Obrázek 37: Graf vyjadřuje těsnost proložení. Svislé vzdálenosti od přímky odpovídají reziduu. Oproti předchozímu obrázku jsou vzdálenosti kratší
Obrázek 38: Graf sloužící k indikaci vlivných i vybočujících bodů. Vpravo od svislé čáry jsou dve body silně vlivné a nad vodorovnou čárou jsou tři body silně vybočující
Obrázek 39: Zde je vidět jeden bod silně vlivný a dva silně vybočující
- 19 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obrázek 40: Těsnost proložení pro n=6
Obrázek 41: Těsnost proložení pro n=8
Obrázek 42: Graf vyjadřuje těsnost proložení. Oproti předchozímu obrázku jsou vzdálenosti kratší. Nelze již posoudit těsnost.
Obrázek 43: Graf vyjadřuje těsnost proložení. Oproti předchozímu obrázku jsou vzdálenosti kratší. Nelze již posoudit těsnost.
Obrázek 44: Zde je vidět jeden bod silně vlivný a dva silně vybočující
Obrázek 45: Zde je vidět dva body silně vlivné a pět bodů silně vybočujících
- 20 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obrázek 46: Těsnost proložení pro n=5
Obrázek 47: Graf vyjadřuje těsnost proložení. Oproti předchozím obrázkům jsou vzdálenosti kratší. Tak jako u předchozích nelze již odpovědně posoudit těsnost.
Obrázek 48: Zde je vidět jeden bod silně vlivný a dva body silně vybočující. Tento graf potvrzuje nejoptimálnější proložení (n=5).
2.5
Závěr
Tabulka V: Odhady parametrů Proměnná Odhad Abs -1,70718 ot/min 1,123923 ot/min^2 -0,04196 ot/min^3 0,000923 ot/min^4 -8,21E-06 ot/min^5 2,82E-08
Směr.Odch. Závěr 0,716847 Významný 0,199623 Významný 0,013838 Významný 0,000376 Významný 4,31E-06 Nevýznamný 1,75E-08 Nevýznamný
P 0,030920894 4,79E-05 0,008397873 0,026735424 0,076293326 0,128179326
Spodní mez -3,23511 0,698436 -0,07146 0,000122 -1,74E-05 -9,13E-09
Horní mez -0,17926 1,549411 -0,01247 0,001724 9,82E-07 6,56E-08
Podle vypočtených statistických charakteristik je polynom 5.stupně optimální pro celý rozsah, přestože je čtvrtý a pátý parametr určen jako nevýznamný. Podle velikosti parametrů by pro výpočet bylo možné využít polynomu pro n=3. Dle vzhledu křivky se jeví, že pro praktické použití by bylo vhodnější použít pro dva rozsahy dvou křivek typu paraboly.
- 21 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
3
Ing. Zdeněk Konvička
Validace nové analytické metody
3.1
Zadání
V laboratoři mezioperační kontroly se stanovuje u pomletého ilmenitu zbytek na sítě 45 µm. Po zakoupení laserového přístroje na měření velikosti částic byla odzkoušena možnost jeho použití pro tuto analýzu (stanovení „nadsitného“ podílu nad 45 µm). K zavedení této metody proveďte její validaci.
3.2
Naměřená data
Tabulka VI: Naměřená data síto 45 µm [%]
4.43
7.23
9.37
12.35
15.38
18.22
20.54
24.81
Cilas [%]
4.28
7.38
9.54
12.25
15.94
18.02
20.10
25.03
3.3
Lineární regresní model
Regresní diagnostika na odhalení vlivných bodů byla provedena v programu QCExpert 2.5.
Obrázek 49: Byl indikován jeden vlivný bod (nad vodorovnou přímkou)
Obrázek 50: Jeden vlivný bod byl potvrzen nad první hyperbolou. Hyperboly ukazují linie stejného vlivu.
Přestože byl detekován jeden vlivný bod, nebude z regrese vypuštěn – jedná se o výběr menšího rozsahu.
Obrázek 51: Proložení bodů představuje průběh modelu
Obrázek 52: Rezidua mají normální rozdělení (body jsou uloženy okolo přímky
- 22 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
3.4
Ing. Zdeněk Konvička
Regresní diagnostika
Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Transformace :
0.05 2.4469 5.9874 Ano 8 2 Nejmenší čtverce Bez transformace
Základní analýza Charakteristiky proměnných Proměnná Průměr sito 14.0413
Směr.Odch. 6.9786
Kor.vs.Y 0.9990
Významnost 2.42E-09
Průměrný čtverec 42.5019 42.4179 0.0840
Rozptyl 48.5736 48.4776 0.0960
Analýza rozptylu Průměr Y : Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
14.0675 Součet čtverců 340.0154 339.3432 0.6722 3028.9635 5.9874 2.42E-09 Model je významný
Odhady parametrů Proměnná Abs
Odhad 0.0584 Spodní mez -0.6284
Směr.Odch. 0.2807 Horní mez 0.7453
Závěr Nevýznamný
Pravděpodobnost 0.8420
Proměnná sito -
Odhad 0.9977 Spodní mez 0.9533
Směr.Odch. 0.0181 Horní mez 1.0421
Závěr Významný
Pravděpodobnost 2.42E-09
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
0.9990 0.9980 0.9932 0.1446 -15.8132
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
3028.9635 5.9874 2.42E-09 Model je významný
- 23 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
-7.15E-06 Model je korektní.
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.4003 3.8415 0.5269 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
0.2645 5.9915 0.8761 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.6264 3.8415 0.5269 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
2.4993 0 2 Pozitivní autokorelace reziduí není prokázána.
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
1.1456 1.9599 0.2519 V reziduích není trend.
3.5
Závěr
Na základě výsledků testování byl lineární model určen jako významný a korektní. Parametr regresní přímky (sito) byl určen jako významný. Úsek byl určen jako nevýznamný. Testem rezidui a také z jejich grafického zobrazení vyplývá, že model je zcela v pořádku. Rovnice regresní přímky Cilas = 0,9977 (± 0,0181) . sito y = 0,9977 (± 0,0181) · x Podstatou úspěšného nahrazení metody jinou je lineární model y = b0 + b1x s nulovým úsekem (b0 = 0) a jednotkovou směrnicí (b1 = 1).
Vztah pro interval spolehlivosti:
b0 − t 1−α / 2 D(b0 ) ≤ β 0 ≤ b0 + t 1−α / 2 D(b0 ) Proměnná
Odhad
Směr.Odch.
b0
0.0584
0.2807 - 24 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
b1
Spodní mez -0.6284
Horní mez 0.7453
0.9977 Spodní mez 0.9533
0.0181 Horní mez 1.0421
Ing. Zdeněk Konvička
Interval spolehlivosti pro úsek (b0) obsahuje nulu, úsek tedy nelze považovat za významně odchýlený od nuly. Interval spolehlivosti pro směrnici (b1) obsahuje jedničku, směrnici tedy nelze považovat za významně odchýlenou od jedničky. Z toho plyne, že novou metodu lze aplikovat v mezioperační kontrole bez dalšího přepočtu – obě metody dávají s 95% pravděpodobností shodné výsledky.
- 25 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
4 4.1
Ing. Zdeněk Konvička
Vícerozměrný lineární regresní model Zadání
Při kalcinaci pigmentu je jedním z důležitých parametrů obsah rutilu [%], který se stanovuje pomocí RTG difrakce. Tento parametr lze ovlivnit několika technologickými parametry, které jsou v průběhu procesu sledovány a řízeny. Zjistěte v jakém vztahu jsou vůči obsahu rutilu [y] proměnné: teplota na 1. troleji [x 1], teplota na 5. troleji [x 2], otáčky v minutách [x3], podtlak v kPa [x3].
4.2
Naměřená data
Byla vybrána analytická data za určité období a k nim byla přiřazena data z provozních automatů. Tabulka VII: Naměřená data Rutil [%]
97,0
97,5
97,4
97,5
97,9
97,7
98,0
97,4
98,2
98,0
1.TR [°C.]
950,0
950,4
953,3
952,4
955,3
957,0
955,1
955,9
957,0
956,7
5.TR [°C.]
454,8
468,3
451,4
470,9
464,1
469,0
467,1
448,2
448,6
449,5
Otáčka [min]
6,00
6,00
6,00
6,00
6,00
6,00
6,00
6,00
6,00
6,00
Podtlak [kPa]
-22,9
-19,8
-21,5
-18,3
-18,9
-19,1
-19,8
-22,3
-21,8
-21,8
Rutil [%]
98,1
98,4
98,3
98,4
99,2
99,1
99,2
99,1
98,9
99,0
1.TR [°C.]
957,9
962,3
961,5
962,6
963,5
962,5
964,3
966,3
967,2
969,0
5.TR [°C.]
476,0
478,4
476,2
480,3
476,0
483,2
489,0
484,3
491,5
485,1
Otáčka [min]
5,75
5,75
5,75
5,75
5,75
5,50
5,50
5,75
5,50
5,75
Podtlak [kPa]
-21,8
-22,5
-21,7
-21,8
-20,8
-25,4
-26,1
-24,1
-26,0
-22,7
Rutil [%]
99,2
98,8
99,1
99,5
99,1
99,7
100,0
100,0
99,9
100,7
1.TR [°C.]
968,1
969,1
968,2
969,8
969,6
971,8
976,1
978,9
982,0
981,0
5.TR [°C.]
481,0
488,7
488,3
487,7
490,6
521,6
516,7
508,1
512,3
514,1
Otáčka [min]
5,75
5,75
5,50
5,75
5,50
5,50
5,50
5,50
5,50
5,50
Podtlak [kPa]
-24,5
-22,8
-27,3
-22,1
-24,9
-25,6
-24,6
-25,0
-26,0
-24,8
4.3
Lineární regresní model
Diagnostika na odhalení vlivných bodů, extrémů a jejich eventuální vypuštění byla provedena v programu QCExpert 2.5. Data byla posouzena na hladině α = 0.05 (95% pravděpodobnost)
- 26 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Obrázek 53: Na tomto grafu je indikován jeden vlivný a jeden vybočující bod.
Obrázek 54: Hyperbolické křivky zobrazují linie stejného vlivu. Je indikován jeden vlivný bod.
Obrázek 55: Nad vodorovnou přímkou jsou zobrazeny silně vlivné body. Zde byl indikován jeden.
Obrázek 56: Bod nad první přímkou od průsečíku os jsou považovány za vlivné (byl indikován jeden), jako silně vlivný nebyl touto metodou indikován žádný bod.
Na základě grafických diagnostik a dostatečného počtu dat bylo rozhodnuto o vypuštění bodu č. 26 (silně vlivný): y(26) = 99.7
x1(26) = 971.8
x2(26) = 521.6
x3(26) = 5.5
x4(26)= -25.6
x2(26) = 476
x3(26) = 5.75
x4(26)= -20.8
a bodu č. 15 (silně vybočující): y(15) = 99.2
x1(15) = 963.5
- 27 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
4.4
Ing. Zdeněk Konvička
Regresní diagnostika
Hladina významnosti : Kvantil t(1-alfa/2,n-m) : Kvantil F(1-alfa,m,n-m) : Absolutní člen : Počet platných řádků : Počet parametrů : Metoda : Transformace :
0.05 2.0287 2,7955 Ano 28 5 Nejmenší čtverce Bez transformace
Základní analýza Charakteristiky proměnných Proměnná Průměr 1TR[°C] 963.553 5TR[°C] 479.407 ot[min] 5.75892 p[kPa] 22.8679
Směr.Odch. 9.0081 19.333 0.2095 2.3899
Kor.vs.Y 0.9545 0.8992 -0.8698 -0.7285
Významnost 3.55E-15 7.93E-11 1.85E-09 1.11E-05
Indikace multikolinearity Vlas. čísla kor. m. 0.0293351 1 0.4320183 0.1298289 3.4088177
Proměnná Abs 1TR[°C] 5TR[°C] ot[min] p[kPa]
Podmíněnost kappa 1 34.088812 14.726991 4.4257122 116.20255
VI faktor 1 7.6570968 13.587415 15.849307 7.3055137
Vícenás. kor. 0 0.9324174 0.962498 0.9679389 0.9290409
Analýza rozptylu Průměr Y : Zdroj Celková variabilita Variabilita vysvětlená modelem Reziduální variabilita Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
98.5964 Součet čtverců 20.8496 19.3771 1.47255 75.6634 2,79554 6,77E-13 Model je významný
Průměrný čtverec 0.7446 0.6920 0.0526
Rozptyl 0.7722 0.7177 0.0545
P Sp. mez 0.0077 10.4931 5.59E-05 0.0428 0.9957 -0.0187 0.1901 -3.0807 0.7333 -0.0927
Hor. mez 60.2982 0.10356 0.01887 0.67342 0.13071
Odhady parametrů Proměnná Abs 1TR[°C] 5TR[°C] ot[min] p[kPa]
Odhad 35.3957 0.07321 5.10E-05 -1.2036 0.01899
Směr.Odch. 12.2752 0.01496 0.00928 0.92526 0.05507
Závěr Významný Významný Nevýznamný Nevýznamný Nevýznamný
- 28 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
Ing. Zdeněk Konvička
Statistické charakteristiky regrese Vícenásobný korelační koeficient R : Koeficient determinace R^2 : Predikovaný korelační koeficient Rp : Střední kvdratická chyba predikce MEP : Akaikeho informační kritérium :
0.9640 0.9294 0.7876 0.0838 -72.465
Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : Kvantil F (1-alfa, m-1, n-m) : Pravděpodobnost : Závěr :
75.6634 2.79554 6.77E-13 Model je významný
Scottovo kritérium multikolinearity Hodnota kritéria SC : Závěr :
0.7976 Model vykazuje multikolinearitu!
Cook-Weisbergův test heteroskedasticity Hodnota kritéria CW : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
0.0027 3.8415 0.9589 Rezidua vykazují homoskedasticitu.
Jarque-Berrův test normality Hodnota kritéria JB : Kvantil Chi^2(1-alfa,2) : Pravděpodobnost : Závěr :
2.3525 5.9915 0.3084 Rezidua mají normální rozdělení.
Waldův test autokorelace Hodnota kritéria WA : Kvantil Chi^2(1-alfa,1) : Pravděpodobnost : Závěr :
1,0121 3,8415 0,9589 Autokorelace je nevýznamná
Durbin-Watsonův test autokorelace Hodnota kritéria DW : Kritické hodnoty DW Závěr :
2.3573 1.03 1.85 Pozitivní autokorelace reziduí není prokázána.
Znaménkový test reziduí Hodnota kritéria Sg : Kvantil N(1-alfa/2) : Pravděpodobnost : Závěr :
1.0962 1.9599 0.2729 V reziduích není trend.
- 29 -
Tvorba lineárních regresních modelů při analýze dat Semestrální práce
4.5
Ing. Zdeněk Konvička
Grafická analýza reziduí
Obrázek 57: Na tomto grafu je zobrazena těsnost proložení. Svislé vzdálenosti odpovídají reziduu
Obrázek 58: Průměr reziduí je roven nule.
Obrázek 59: Rezidua mají přibližně normální rozdělení.
Obrázek 60: Mimo jeden bod jsou body v mraku, což svědčí o konstantnosti rozptylu. Heteroskedasticita není indikována.
4.6
Závěr
Na základě výsledků testování byl lineární model určen jako významný a korektní. Vzhledem k tomu, že jde o data z neplánovaného experimentu, vyskytuje se zde multikolinearita (u x2 a x3). Tyto parametry byly diagnostikovány jako nevýznamné (tak jako x4). Z regresní diagnostiky vyplynulo, že závisle proměnná y (obsah rutilu) závisí významě pouze na nezávisle proměnné x1 a úseku (Abs). Z tohoto lze odvodit rovnici závislosti obahu rutilu na teplotě 1. troleje. Ostatní parametry byly určeny jako nevýznamné, z čehož plyne, že jejich regulace významě neovlivní výsledná procenta rutilu. Rovnice regresní závislosti (přímky) obsah rutilu = 35.396 (± 12.275) + 0.073 (± 0.015) · teplota 1.TR Y = 35.396 (± 12.275) + 0.073 (± 0.015) · X
- 30 -