FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE
Semestrální práce z CHEMOMETRIE I Statistické zpracování jednorozměrných dat
DOMINIKA BURKOŇOVÁ
4.ročník
2000/2001
Dominika Burkoňová Příklad č.1
ZÁKON PROPAGACE ABSOLUTNÍCH A RELATIVNÍCH CHYB Úloha C1.17: Variabilita koncentrace dusitanů v 70% kyselině sírové Zadání: Stanovení dusitanů v 70% kyselině sírové se provádí permanganometricky na kyselinu šťavelovou. Koncentrace dusitanů se vypočte dle vztahu: c = 1,172(V1c1 –V2c2) kde V1 = 7,0 (0,150)ml je objem přebytku KMnO4 o koncentraci c1 = 0,9973 (0,0008) mol/dm3 , V2 = 1,3 (0,03) ml je objem spotřebované kyseliny šťavelové o koncentraci c2 = 1,0072 (0,0008)mol/dm3. Vypočtěte variabilitu koncentrace dusitanů. Program: Adstat – Jednorozměrná analýza – Šíření chyb Data: Proměnná Proměnná Průměr x1 V1 [l] 7,0000E-3 x2 c1 [mol/l] 9,9700E-1 x3 V2 [l] 1,3000E-3 x4 c2 [mol/l] 1,0072
Směrodatná odchylka 0,1500E-3 8,0000E-4 3,0000E-5 8,0000E-3
Řešení: Tento příklad jsem vypočítala numerickou metodou, metodou Taylorova rozvoje, která určuje odhady střední hodnoty y a rozptylu s2 (y) aproximací funkce G (x) Taylorovým rozvojem. Metodou bodového rozvoje, využívající náhrady funkce G (x) dvoubodovým rozdělením se stejnou střední hodnotou a rozptylem. A metodou Monte Carlo, ta je metodou simulačních experimentů. NUMERICKÁ METODA: Koncentrace dusitanů ve vzorku je 6,6473E-3 mol/l METODA TAYLOROVA ROZVOJE: Průměr: 6,6473E-3 Směrodatná odchylka: 1,17899E-4 Rozptyl:3,2038E-8 Relativní směrodatná odchylka: 2,69 METODA BODOVÉHO URČOVÁNÍ: Průměr: 6,6473E-3 Směrodatná odchylka: 1,7899E-4 Rozptyl: 3,2038E-8 Relativní směrodatná odchylka: 2,69 METODA SIMULACE MONTE CARLO: Průměr: 6,6387E-3 Směrodatná odchylka: 1,8736E-4 Rozptyl: 3,5104E-8 Relativní směrodatná odchylka: 2,82 Závěr: Stanovená hodnota koncentrace dusitanů je c = 6,6473E-4 mol/l s hodnotou směrodatné odchylky 1,17899E-4 mol/l. Numerické řešení určení koncentrace dusitanů je stejné s metodou Taylorova rozvoje a též s metodou bodového určování. Hodnoty vypočtené metodou simulace Monte Carlo se nepatrně liší, což je dáno volbou počtu simulací , která byla 100.
2000/2001
Dominika Burkoňová Příklad č.2
STATISTICKÁ ANALÝZA VELKÝCH VÝBĚRŮ Úloha B2.09:Hladina penicilinu v séru pacientů po 90 minutách aplikace Při studii biologické dostupnosti léků byla stanovena hladina penicilinu v séru zdravých dobrovolníků vysokotlakou kapalinovou chromatografií. Proveďte statistické vyšetření velkého výběru dat hladiny penicilinu v séru u skupiny zdravých dobrovolníků 90 minut po podání. Jsou ve výběru nějaké odlehlé hodnoty? Zkonstruujte barierově-číslicové schéma formou sedmipísmenového zápisu. Data: Hladina penicilinu [mg/l] 0.732 0.732 0.712 0.753 0.654 0.720 0.701 0.762 0.770 0.704 0.730 0.721 0.708 0.774 0.779 0.732 0.742 0.763 0.763 0.718 0.725 0.756 0.740 0.722 0.745 0.778 0.721 0.762 0.752 0.735 Program: ADSTAT: Jednorozměrná data: Exploratorní analýza – spojitá Základní předpoklady Mocninná transformace Analýza 1 výběru 1. Exploratorní analýza-grafy
obr. 1 Bodový graf
obr.2 Kvantilový graf
obr. 3 Hustota pravděpodobnosti
obr. 5 Symetrie
obr. 4 Kvantily
obr. 6 Q-Q graf
2. Základní předpoklady: (1) KLASICKÉ ODHADY PARAMETRŮ: Průměr : 7.3687E-01 Rozptyl : 7.5340E-04 Směrodatná odchylka: 2.7448E-02 Šikmost : -6.7835E-01 Špičatost : 3.9330E+00 (2) TEST NORMALITY: Tabulkový kvantil Chi^2(1-alfa,2) : 5.9915E+00 Chi^2-statistika : 5.3899E+00 Závěr: Předpoklad normality přijat Vypočtená hladina významnosti : 6.7545E-02 (3) TEST NEZÁVISLOSTI: Tabulkový kvantil t(1-alfa/2,n+1) : 2.0395E+00 Test autokorelace : 4.1978E-02 Závěr: Předpoklad nezávislosti přijat Vypočtená hladina významnosti : 4.8339E-01
(4) DETEKCE ODLEHLÝCH BODŮ: Ve výběru nejsou odlehlé body Závěr EDA:Diagramy rozptýlení a krabicové grafy (obr.1) dokazují tři odlehlé body nahoře a jeden odlehlý bod dole. Z nesymetických obdélníků je patrné částečné vychýlení k nižším hodnotám. Na dalších grafech je výrazný dolní odlehlý bod. Závěr předpokladů: Testy jsou nespolehlivé, v EA nalezeny 4 odlehlé body. 3.TRANSFORMACE: zvolená mocnina: 4.00 Mocninná T. Průměr : 2.9715E-01 Rozptyl : 1.8202E-03 Směrodatná odchylka : 4.2664E-02 Šikmost : -3.0281E-01 Špičatost : 3.0316E+00 Opravený průměr : 7.3832E-01
obr.7 Kvantilový graf-po prosté transformaci
Box-Coxova T. -1.7571E-01 1.1376E-04 1.0666E-02 -3.0281E-01 3.0316E+00 7.3832E-01
obr.8 Kvantilový graf-po Box-Coxově transformaci
4.Odhady: 95% interval spolehlivosti celý výběr: 0.727-0.747 10% uřezání: 0.728-0.748 Závěr: Rozdělení je asymetrické a v datech se vyskytují čtyři odlehlé hodnoty. Opravený průměr činí 0.738mg/l. Sedmipísmenový zápis výběru: 0.7357 0.721 (0.741) 0.761 0.711 (0.7385) 0.766 0.703 (0.739) 0.775
2000/2001
Dominika Burkoňová Příklad č.3
STATISTICKÁ ANALÝZA MALÝCH VÝBĚRŮ Úloha C3.07: Stanovení bizmutu fotometrickou mikrotitrací (Horn) Fotometrickou, chelatometrickou mikrotitrací bizmutitých iontů kyselinou ethylendiamintetraoctovou EDTA bylo v kyselém prostředí pH=1 získáno 14 hodnot obsahu bizmutu v mg. Teoretický obsah je 1.67 mg. Aplikujte i Hornův postup. Ovlivňují odlehlé hodnoty významně parametry polohy a rozptýlení? Je titrační stanovení zatíženo soustavnou chybou? Data: Obsah bizmutu [mg]: 1.65 1.65 1.67 1.64 1.67 1.70 1.69 1.67 1.62 1.65 1.70 1.63 1.63 1.66 Program: ADSTAT: Jednorozměrná analýza Řešení: 1. Hornův postup založený na pořádkových statistikách 2. Jednorozměrná analýza dat Hornův postup založený na pořádkových statistikách 1. Pořádkové statistiky I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 x(i) 1.62 1.63 1.63 1.64 1.65 1.65 1.65 1.66 1.67 1.67 1.67 1.69 1.70 1.70 n +1 +1 H = integer 2 2
2. Hloubka pivotu: n=14
H = int (4,25) = 4 3. Pivoty: Dolní pivot: xD = x(H) = x4 =1.64 Horní pivot: xH = x(n+1-H) = x11 = 1.67
4. Pivotová polosuma:
PL =
xD + xH = 1.655 2
5. Pivotové rozpětí: RL = xH - xD = 0.03 6. 95%ní interval spolehlivosti střední hodnoty: PL - RL× tL,0.975 ≤ µ ≤ PL + RL× tL,0.975 1.655 – 0.03×0.525 ≤ µ ≤ 1.655 + 0.03×0.525 1.6393 ≤ µ ≤ 1.6708 Závěr: Stanovení je správné, protože teoretická hodnota 1.67 leží v intervalu.
Jednorozměrná analýza dat: 1.Exploratorní analýza dat
obr.1 Kvantilový graf
obr.3 Kruhový graf
obr.2 Diagram rozptýlení
obr. 4 Q-Q graf
Závěr EDA: Diagram rozptýlení a kvantilový graf ukazují na dva odlehlé body nahoře, z kruhového grafu jsem usoudila na symetrické rozdělení.
2. Základní předpoklady: (1) TEST NORMALITY: Tabulkový kvantil Chi^2(1-alfa,2) : 5.9915E+00 Chi^2-statistika : 7.2275E-01 Závěr: Předpoklad normality přijat (2) TEST NEZÁVISLOSTI: Tabulkový kvantil t(1-alfa/2,n+1) : 2.1314E+00 Test autokorelace : 4.2169E-01 Závěr: Předpoklad nezávislosti přijat (3) DETEKCE ODLEHLÝCH BODŮ: Ve výběru nejsou odlehlé‚ body 3. Transformace: opravený průměr po provedené transformaci:xR = 1.658 Graf věrohodnosti: +1 leží pod segmentemÞ transformaci nebylo třeba dělat.
obr.5 Graf věrohodnosti
4. Odhady KLASICKÉ ODHADY PARAMETRŮ : Průměr : 1.6593E+00 Směr. odchylka : 2.5560E-02 Rozptyl : 6.5330E-04 95.0% spolehlivost: Spodní mez: 1.6445E+00 Horní mez: 1.6740E+00 Závěr: Odlehlé hodnoty výrazně neovlivňují parametry polohy a rozptýlení.Nalezený intervalový odhad metodu jednorozměrné analýzy dat je užší, tedy i přesnější než-li interval získaný Hornovým postupem. Teoretická hodnota 1.67mg leží v intervalu. Stanovení není zatíženo soustavnou chybou.
2000/2001
Dominika Burkoňová Příklad č.4
STATISTICKÉ TESTOVÁNÍ Úloha C3.32: Shodnost výsledků ze dvou instrumentálních metod Při stanovení obsahu organických zásad ve frakcích z destilace kyseliny karbonylové bylo užíváno pracné chromatografické metody, kdy jednotlivé zásady byly postupně sčítány. Rychlejší by bylo použití metody stanovení organických zásad potenciometrickou titrací v nevodném prostředí. Celkem 10 vzorků frakcí z destilace bylo změřeno oběma metodami na hladině významnosti α = 0.05. Určete, zda je možno nahradit chromatografickou metodu titračním stanovením. Data: Obsah organických zásad: Chromatografie: 0.40 1.49 0.25 2.60 0.45 3.50 0.52 0.17 0.39 1.92 Potenciometrická titrace: 0.35 1.92 0.28 2.25 0.39 3.37 0.45 0.17 3.37 1.78 Program: ADSTAT: Jednorozměrná data: Dva výběry Řešení: 1. EDA – ověření normálního rozdělení obou souborů 2. Test shody rozptylů 3. Test shody středních hodnot 1.EDA
obr.1 HUSTOTA-Chromatografie
Parametry tvaru: Chromatografie: Potenciometická titrace:
obr.2 HUSTOTA-Potenciometrická titrace
šikmost 9.5147E-01 4.6862E-01
špičatost 1.6924E+00 2.5102E+00
Závěr EDA: Nejedná se o Gaussovo rozdělení, nelze použít kritéria pro Gaussovo rozdělení. Použiji korigovaný F-test pro shodnost rozptylů a T-test (modifikovaná šikmost) pro shodnost průměrů.
2. TEST HOMOGENITY ROZPTYLU (hypotéza H0: s1^2=s2^2) Fisher-Snedecorův F-test: Počet stupňů volnosti Df1 :9 Df2 :9 Tabulkový kvantil F (1-alfa/2,Df1,Df2) :4.0260E+00 F-statistika :1.2105E+00 Závěr:Rozptyly se považují za shodné, H0 přijata Vypočtená hladina významnosti :0.390 Korigovaný F-test: Počet stupňů volnosti Df1 :17 Df2 :17 Tabulkový kvantil F (1-alfa/2,Df1,Df2) :2.6733E+00 F-statistika :1.2105E+00 Závěr:Rozptyly se považují za shodné, H0 přijata Vypočtená hladina významnosti :0.349 Jackknife F-test: Počet stupňů volnosti Df1 :2 Df2 :18 Tabulkový kvantil F (1-alfa/2,Df1,Df2) :4.5597E+00 F-statistika :2.3275E-02 Závěr:Rozptyly se považují za shodné, H0 přijata Vypočtená hladina významnosti :0.977 3. TEST SHODY PRŮMĚRŮ (hypotéza H0: x1=x2): Shoda rozptylů se dá předpokládat. t-test(pro shodné rozptyly) Počet stupňů volnosti Df1 :18 Tabulkový kvantil t(1-alfa/2,Df1) :2.1009E+00 t-statistika :4.8372E-01 Závěr:Průměry se považují za shodné, H0 přijata Vypočtená hladina významnosti 0.634 t-test(pro různé rozptyly) Počet stupňů volnosti Df1 :20 Tabulkový kvantil t(1-alfa/2,Df1) :2.0860E+00 t-statistika :4.8372E-01 Závěr:Průměry se považují za shodné, H0 přijata Vypočtená hladina významnosti 0.634 t-test(modifikovaná šikmost) Počet stupňů volnosti Df1 :20 Tabulkový kvantil t(1-alfa/2,Df1) :2.0860E+00 t-statistika :4.9143E-01 Závěr:Průměry se považují za shodné, H0 přijata Vypočtená hladina významnosti 0.628
Závěr: Z EDA bylo zjištěno,že se nejedná o Gaussovo rozdělení, proto jsem použila při testování shody rozptylů korigovaný F-test a pro shodnost průměrů t-test (modifikovaná šikmost).Mezi oběma metodami není statistický rozdíl(rozptyly a průměry jsou shodné),proto je možné nahradit chromatografickou metodu titračním stanovením.
2000/2001
Dominika Burkoňová Příklad č.5
ANALÝZA ROZPTYLU Úloha:C5.17 Pevnost papíru v závislosti na dnech a počtu vyrobených rolí Pevnost papíru odvisí od délky celulózových vláken ve dřevě a dalších vlastností dřeva. Jelikož se dodávky celulozy kvalitou dost mění, mění se také kvalita a pevnost vyráběného papíru. Náhodně bylo vybráno 6 dní (faktor B) v rozmezí 4 měsíců, ve kterých byl odstřižen proužek papíru z konce role. Bylo rozlišeno i kolik rolí (faktor A) se za den vyrobí. Každá zkouška na pevnost byla reprodukována. Celkem bylo testováno 18 proužků papíru. Na hladině významnosti α = 0.05 vyšetřete, zda po dobu 4 měsíců byla výroba co do pevnosti papíru homogenní a zda je ovlivněna počtem rolí vyrobených za den. Data:Pevnost papíru [libra/palec2]: Za den: 1.den 2.den 3.den 1 role 20.7 19.3 22.1 20.4 19.0 19.9 2 role 21.2 20.1 21.6 22.5 18.8 19.3 3 role 19.9 20.5 20.9 22.1 20.2 19.4
4.den 20.6 18.9 19.8 20.1 20.7 19.2
5.den 23.2 22.5 24.2 22.9 23.4 24.6
6.den 20.7 18.5 19.6 21.3 20.0 18.6
Program:ADSTAT: Analýza rozptylu: ANOVA # 2B Řešení: 1. Průměry a úrovně faktorů 2. Testování nulové hypotézy 3. Zkouška transformace 1. PRŮMĚRY A ÚROVNĚ EFEKTŮ: Celkový průměr = 2.0742E+01 Reziduální rozptyl = 8.0306E-01 F A K T O R A: Úroveň Průměr Efekt 1 2.0483E+01 -2.5833E-01 2 2.0950E+01 2.0833E-01 3 2.0792E+01 5.0000E-02
F A K T O R B: Úroveň Průměr 1 2.0283E+01 2 2.1600E+01 3 1.9433E+01 4 1.9883E+01 5 2.3467E+01 6 1.9783E+01
Efekt -4.5833E-01 8.5833E-01 -1.3083E+00 -8.5833E-01 2.7250E+00 -9.5833E-01
2. TABULKA ANOVA PRO MODEL S INTERAKCEMI FAKTORŮ A, B: H0: Efekty faktoru A jsou nulové, HA: ... nejsou nulové Kvantil F(1-alfa,n-1,mn(o-1) = 3.555 H0: Efekty faktoru B jsou nulové, HA: ... nejsou nulové Kvantil F(1-alfa,m-1,mn(o-1) = 2.773 H0: Interakce I je nulová HA: ... není nulová Kvantil F(1-alfa,(n-1)(m-1),nm(o-1)) = 2.412 (Zde I znamená efekty interakcí A a B dohromady)
Zdroj Stupně Součet Průměrný rozptylu volnosti čtverců čtverec Mezi Úrovněmi A n-1= 2 1.3517E+00 6.7583E-01 Mezi Úrovněmi B m-1= 5 7.0436E+01 1.4087E+01 Interakce (n-1)(m-1) =10 3.1450E+00 3.1450E-01 Rezidua mn(o-1) = 36 1.4455E+01 8.0306E-01
Testovací kritérium
Závěr H0 je
Spočtená hlad.výz.
0.842
Akceptována
0.447
17.542
Zamítnuta
0.000
0.392
Akceptována
0.934
Celkový mno-1 = 35 8.9388E+01 2.5539E+00 3. ZKOUŠKA TRANSFORMACE: Korelační koeficient, R : -0.030
obr.1 Q-Q graf
obr.2 Graf transformace
Závěr:U faktoru A je H0 akceptována (0.842<3.555), tudíž počet rolí neovlivňuje pevnost papíru. U faktoru B je H0 zamítnuta (17.542>2.733), faktor B je významný, tudíž ovlivňuje pevnost papíru což znamená, že výroba co do pevnosti papíru byla po dobu 4 měsíců nehomogenní. Protože je korelační faktor blízký nule transformace není nutná.
2000/2001
Dominika Burkoňová Příklad č.6
VALIDIZACE Úloha V6.17: Metoda plamenné fotometrie pro stanovení mědi V deseti vzorcích mědnatého katalyzátoru byl standartní elektrogravimetrickou metodou stanoven obsah CuO (proměnná x). Ve stejných vzorcích byl stanoven obsah CuO také (a) metodou plamenové AAS (proměnná y1) a (b) metodou ICP (proměnná y2). Pro účely vyhodnocení předokládejte zanedbatelný rozptyl elektrogravimetrické metody. Je možné oběma navrženými metodami nahradit metodu standartní? Aplikujte Studentův t-test úseku b0, (má být β0 = 0) a směrnice b1, (má být β1 = 1), a dále i kombinovaný test obou parametrů v modelu y = β0 + β1x. Data: Obsah CuO [%] metodou standartní x, plamenné AAS y1, a ICP y2: x 37.8 36.4 41.0 38.2 40.8 37.5 40.2 39.6 y1 37.0 35.9 40.2 38.3 41.2 34.3 40.2 37.9 y2 37.2 36.4 39.9 37.9 38.6 38.4 39.6 38.2 Program:ADSTAT: Lineární regrese
39.5 38.6 39.1
Řešení: Vyšetření vlivných bodů Vyčíslení intervalu spolehlivosti úseku a intervalu spolehlivosti směrnice I. PLAMENOVÁ AAS- 1.vyšetření vlivných bodů
obr.1 Pregibonův graf
obr. 3 Mc Culloh-Meeterův graf
obr.2 Williamsův graf
obr. 4 L-R graf
39.0 38.3 38.0
Závěr: V datech je 1silně vlivný bod (č.2) a 1 extrém(č.1). 2. Vyčíslení intervalu spolehlivosti úseku a intervalu spolehlivosti směrnice Kvantil Studentova rozdělení t(1-alpha/2,n-m) : 2.306 1) ODHADY PARAMETRŮ A TESTY VÝZNAMNOSTI: Parametr Odhad Směrodatná Test H0: B[j] = 0 vs. HA: B[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. B[ 0] -9.6702E+00 8.9198E+00 -1.0841E+00 Akceptována 0.310 B[ 1] 1.2272E+00 2.2856E-01 5.3692E+00 Zamítnuta 0.001 y = -9.67(± 8.9) + 0.1.227(±0.23)x 2) STATISTICKÉ CHARAKTERISTIKY REGRESE: Vícenásobný korelační koeficient, R : 8.8475E-01 Koeficient determinace, R^2 : 7.8278E-01 Predikovaný korelační koeficient, Rp^2 : 7.9623E-01 Střední kvadratická chyba predikce, MEP : 1.4351E+00 Akaikeho informační kritérium, AIC : 2.3949E+00 Test úseku: t-kriterium -1.0841 < 2.306 Þ H0 přijata b1 – t1-α/2(n-m) D(b1 ) ≤ β1 ≤ 1.23 – 2.306×0.023 ≤ β1 ≤ 1.176 ≤ β1 ≤ IS neosahuje 1Þ směrnice není jednotková Test směrnice:
obr.5 Regresní model
b0 + t1-α/2(n-m) D(b1 ) 1.23 + 2.306×0.023 1.28
obr.6 Parciální regresní graf
Závěr:Interval spolehlivosti směrnice neobsahuje jedničku, metoda AAS nadhodnocuje (statistiky liší od standartní metody) a všechny výsledky musíme vynásobit konstantou K=1.227. Elektrogravimetrickou metodu nelze nahradit metodou AAS.
II. Metoda ICP
obr.7 Williamsův graf
obr.8 Mc Culloh-Meeterův graf
Závěr: V datech je pouze extrém (bod č.1) 1) ODHADY PARAMETRŮ A TESTY VÝZNAMNOSTI: Parametr Odhad Směrodatná Test H0: B[j] = 0 vs. HA: B[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. B[ 0] 1.5232E+01 5.2161E+00 2.9203E+00 Zamítnuta 0.019 B[ 1] 5.9225E-01 1.3366E-01 4.4311E+00 Zamítnuta 0.002 y=15.2(± 5.2) + 0.592(±0.133)x 2) STATISTICKÉ CHARAKTERISTIKY REGRESE: Vícenásobný korelační koeficient, R : 8.4292E-01 Koeficient determinace, R^2 : 7.1051E-01 Predikovaný korelační koeficient, Rp^2 : 7.2082E-01 Střední kvadratická chyba predikce, MEP : 4.8336E-01 Akaikeho informační kritérium, AIC :-8.3355E+00 Test úseku: t-kriterium 2.92 > 2.306 Þ H0 zamítnuta Test směrnice:
b1 – t1-α/2(n-m) D(b1 ) ≤ β1 ≤ b0 + t1-α/2(n-m) D(b1 ) 0.592– 2.306×0.134 ≤ β1 ≤ 0.592+ 2.306×0.134 0.28 ≤ β1 ≤ 0.9
IS neosahuje 1Þ směrnice není jednotková, metoda podhodnocuje Závěr: Metoda ICP má nenulový úsek a její směrnice je odlišná od jedničky. Výsledky se statisticky významně liší od standartní metody, proto nelze nahradit standartní metodu metodou ICP.
2000/2001
Dominika Burkoňová Příklad č.7
LINEÁRNÍ REGRESNÍ MODELY Úloha L6.18: Závislost elektrochemické účinnosti akumulátorové hmoty NICOS U akumulátorové hmoty NICOS byla sledována elektrochemická účinnost y v závislosti na obsahu kobaltu ve hmotě x. Nalezněte optimální polynomický model. Data: Obsah kobaltu x, elektrochemická účinnost y [%]: x 182.1 182.6 179.8 180.2 180.1 179.3 178.6 177.4 176.8 177.1 176.6 176.2 175.0 179.7 y 1.97 1.98 2.02 2.07 2.04 2.11 2.13 2.03 2.15 2.09 2.08 2.08 2.20 2.10 Program:ADSTAT: Lineární regrese Řešení: 1.Určení stupně polynomu 2.Nalezení nejlepších odhadů
1. Určení stupně polynomu: STATISTICKÉ CHARAKTERISTIKY REGRESE Stupeň polynomu m MEP Rp^2 AIC 1 2.2039E-03 6.4427E-01 -8.5726E+01 2 3.2860E-03 3.5761E-01 -8.3946E+01 3 4.4383E-03 0.0000E+00 -8.5801E+01
obr. 1 Regresní model (stupeň polynomu m=1)
Graf Predikce-rezidum (stupeň polynomu m=1)
Závěr:Pro stupeň polynomu m=1 mají charakteristiky AIC a MEP nejmenší hodnotu, regresní model má nejlepší tvar a rezidua vytváří mrak,pro vyšší stupně polynomu AIC a MPE vzrůstají a rezidua vykazují trend, proto volím stupeň polynomu m=1. (2) ODHADY PARAMETŮ A TESTY VÝZNAMNOSTI: Parametr Odhad Směrodatná Test H0: B[j] = 0 vs. HA: B[j] <> 0 odchylka t-kriterium hypoteza H0 je Hlad. výz. B[ 0] 5.8720E+00 9.6579E-01 6.0800E+00 Zamítnuta 0.000 B[ 1] -2.1250E-02 5.4048E-03 -3.9318E+00 Zamítnuta 0.002
Fisher-Snedocorův test významnosti regrese,F : 1.5459E+01 Tabulkový kvantil, F(1-alpha,m-1,n-m) : 4.7472E+00 Závěr: Navržený model je přijat jako významný. Spočtená hladina významnosti : 0.002 Scottovo kriterium multikolinearity, M Závěr: Navržený model je korektní.
: 1.7239E-16
Cook-Weisbergův test heteroskedasticity, Sf : 3.2179E+01 Tabulkový kvantil, Chi^2(1-alpha,1) : 3.8415E+00 Závěr: Rezidua vykazují heteroskedasticitu. Spočtená hladina významnosti : 0.000 Závěr: Optimální polynomický model je lineární model: E(y/x) = β1 x + β2 E(y/x) = 5.872(±0.0965)x – 0.021(±0.0054).
2000/2001
Dominika Burkoňová Příklad č.8
LINEÁRNÍ REGRESNÍ MODELY Příklad: M 6.17 Vliv čtyř parametrů na retenční čas eluovaného píku u GC Vyšetřete statistickou významnost vlivu čtyř proměnných parametrů u plynové chromatografie GC, tj. nástupní teploty kolony teplotě programovaného režimu eluce x1, tlaku nosného plynu na kolonu x 2, nárůstu teploty x3 a koncentrace etheru x4 na retenční čas eluovaného píku y. Teplota septa detektoru a dávkování byly drženy na konstantních hodnotách. Který z parametrů je nevýznamný? Vyšetřete také regresní triplet a odhalte vlivné body. Využijte i parciálních regresních grafů. Data: Složka x1 [grad Celsia], složka x2 [mPa], složka x3 [gard Celsia], složka x4 [mg/l], retenční časy y [mm]: 150 1,8 50,0 0,10 1,75 150 1,8 50,0 0,05 1,73 150 1,8 70,0 0,10 0,70 150 1,8 70,0 0,05 1,68 170 1,85 30,0 0,10 1,69 170 1,85 30,0 0,05 1,66 170 1,85 50,0 0,10 1,66 170 1,85 50,0 0,05 1,65 200 1,88 0 0,1 1,60 200 1,88 0 0,05 1,57 200 1,88 0,10 0,10 1,59 200 1,88 20,0 0,05 1,57 Program: Adstat – Lineární regrese Výsledky: Kvantil Studentova rozdělení t(1-alpha/2,n-m) = 2,365
(1) PŘEDBĚŽNÁ STATISICKÁ ANALÝZA: Proměnná Průměr Směrodatná odchylka y 1,6542E+00 6,0522E-02 x1 1,7333E+02 2,1462E+01 x2 1,8433E+00 3,4466E-02 x3 3,6667E+01 2,3868E+01 x4 7,5000E-02 2,6112E-02
Párový korelační koeficient 1,0000 -0,9425 -0,9051 0,7531 0,1870
Párové korelační koeficienty mezi dvojicemi x1 x1 x1 x2 x2 x3
versus x2 versus x3 versus x4 versus x3 versus x4 versus x4
9,6682E-01 -8,9917E-01 8,4071E-18 -8,6934E-01 2,9198E-18 2,1587E-18
(2) INDIKACE MULTIKOLINEARITY: 1.....K[j] = 9,2810E+01<1000 Þ neindikuje silnou multikolinearitu VIF[j] = 1,9547E+01>10Þ indikuje silnou multikolinearitu
(3) ODHADY PARAMETRŮ A TESTY VÝZNAMNOSTI: Parametr Odhad Směrodatná t-kriterium odchylka B[ 0] 2.0825E+00 7.0866E-01 2.9387E+00 B[ 1] -4.1667E-03 8.1042E-04 -5.1414E+00 B[ 2] 1.6666E-01 4.4683E-01 3.7299E-01 B[ 3] -1.2500E-03 3.7665E-04 -3.3187E+00 B[ 4] 4.3333E-01 1.5066E-01 2.8762E+00
hypoteza H0 je: Zamítnuta Zamítnuta Akceptována Zamítnuta Zamítnuta
(4) STATISTICKÉ CHARAKTERISTIKY REGRESE: Vícenásobný korelační koeficient, R 9.8510E-01 Koeficient determinace, R^2 9.7042E-01 Střední kvadratická chyba predikce, MEP 2.9184E-04 Akaikeho informační kritérium, AIC -1.0061E+02 (5) TESTOVÁNÍ REGRESNÍHO TRIPLETU Fisher-Snedocorův test významnosti regrese,F: Navržený model je přijat jako významný Scottovo kriterium multikolinearity, M: Navrženś model není korektní. Cook-Weisbergův test heteroskedasticity, Sf Rezidua vykazují heteroskedasticitu. Jarque-Berraův test normality reziduí, L(e) Normalita je přijata. Waldův test autokorelace, Wa Rezidua nejsou autokorelována. Znaménkový test, Dt Rezidua nevykazují trend. Řešení: Z výsledků (1) vyplývá, že x1, x2, x4 neovlivňují retenční čas eluovaného píku y. Párový korelační koeficient x3 se blíží 1 a mírně ovlivňuje y. Pouze x1 versus x2 jsou na sobě závislé neboť jejich korelační koeficient je 9,6682E-01 ≅ 1. Ostatní jsou na sobě nezávislé. Dále jsem zjistila, že parametr B[ 2] nulovou hypotézu H0 akceptuje, protože má t-kriterium = 3,7299E-01 menší než kvantil studentova rozdělení 2,365. Þtlak nosného plynu na kolonu je nevýznamný. Proto jsem odstranila sloupec 2.
Po vypuštění nevýznamného parametru x2 jsem opět vyšetřila regresní triplet a sestrojila parciální regresní grafy. (3) ODHADY PARAMETRŮ A TESTY VÝZNAMNOSTI: Parametr Odhad Směrodatná t-kriterium odchylka B[ 0] 2.3449E+00 8.1305E-02 2.8840E+01 B[ 1] -3.9079E-03 3.9571E-04 -9.8758E+00 B[ 2] -1.2500E-03 3.5581E-04 -3.5131E+00 B[ 3] 4.3333E-01 1.4232E-01 3.0447E+00
hypoteza H0 je Zamítnuta Zamítnuta Zamítnuta Zamítnuta
(4) STATISTICKÉ CHARAKTERISTIKY REGRESE: Vícenásobný korelační koeficient, R 9.8480E-01 Koeficient determinace, R^2 9.6984E-01 Střední kvadratická chyba predikce, MEP 2.4755E-04 Akaikeho informační kritérium, AIC -1.0237E+02 (5) TESTOVÁNÍ REGRESNÍHO TRIPLETU Fisher-Snedocorův test významnosti regrese,F: Navržený model je přijat jako významný Scottovo kriterium multikolinearity, M: Navrženś model není korektní. Cook-Weisbergův test heteroskedasticity, Sf Rezidua vykazují heteroskedasticitu. Jarque-Berraův test normality reziduí, L(e) Normalita je přijata. Waldův test autokorelace, Wa Rezidua nejsou autokorelována. Znaménkový test, Dt Rezidua nevykazují trend.
Závěr: Nástupní teplota kolony teploty programovaného režimu eluce x1, tlak nosného plynu na kolonu x 2 a koncentrace etheru x4 neovlivňují retenční čas eluovaného píku y. Nárůst teploty x3 mírně ovlivňuje retenční čas eluovaného píku y. Vzájemně se ovlivňují parametry x1 a x2. V datech nebyl nalezen žádný odlehlý bod. Tlak nosného plynu x2 se jeví jako statisticky nevýznamný. Po vypuštění parametru x2 má vyčíslený regresní model tvar : y= 2,345(0,0813) – 3,908E-03(3,957E-04)x1 – 1,25E-03(3,558E-04)x2 + 4,333E-01(0,1423)x3 Parciální regresní grafy potvrdily správnost volby navrženého regresního modelu. AIC po vypuštění paramertu x2 je menší než AIC před vypuštěním tohoto parametru také potvrzují správnost volby navrženého regresního modelu.
2000/2001
Dominika Burkoňová Příklad č.9
KALIBRACE Úloha K6.17: Kalibrační model zinku v mléce metodou plamenové AAS Sestrojte nelineární kalibrační model obsahu zinku v mléce metodou plamenné fotometrie, když byla použita spektrální čára 213.9 nm, šířka spektrálního intervalu 0.2 nm a plamen acetylen-vzduchový. Vyšetřete parametry kalibračního modelu, míry přesnosti kalibrace a stanovte koncentraci zinku u neznámých vzorků, jež vykazovaly absorbance 0.105, 0.205, 0.315 a 0.445. Jsou v kalibračních datech odlelé hodnoty? Je nejnižší koncentrace neznámého vzorku ještě nad limitou detekce a limitou stanovení? Data: Obsah zinku c[ppm], absorbance A: c[ppm] 0.050 0.100 0.150 0.200 0.250 A 0.031 0.0627 0.095 0.128 0.161
0.300 0.195
0.350 0.229
0.400 0.264
0.500 0.333
0.600 0.396
c[ppm] 0.700 A 0.453
1.200 0.718
1.300 0.770
1.400 0.811
1.500 0.844
1.600 0.867
0.800 0.506
0.900 0.560
1.000 0.610
1.100 0.668
Program:ADSTAT: Kalibrace Řešení: 1.Vyšetření vlivných bodů: 2.Parametry kalibrace
obr.1 Graf predikovaných reziduí
obr.2 Pregibonův graf
obr.3 Williamsův graf
obr.4 Mc Culloh-Meeterův graf
Závěr: Grafy ukazují na jeden vlivný bod č. 20.
Data po odstranění vlivného bodu: KALIBRACE (1) PARAMETRY KALIBRACE: Koeficienty rovnice : f[i]*x^2+g[i]*x+h[i] pro k[i-1] < x <= k[i] k[i] f[i] g[i] h[i] 5.3333E-01 -7.3974E-02 7.0720E-01 -7.8244E-03 1.0167E+00 -1.1035E-01 7.4599E-01 -1.8170E-02 1.5000E+00 -1.2777E-01 7.8142E-01 -3.6178E-02 (2) ANALÝZA REZIDUÍ: Reziduální součet čtverců, RSC : 2.7509E-04 Průměr absolutních hodnot reziduí, Me : 3.2087E-03 Průměr relativních reziduí, Mer[%] : 1.630 Odhad reziduálního rozptylu, s^2(e) : 1.9649E-05 Odhad směrodatné odchylky reziduí, s(e) : 4.4327E-03 (3) KALIBRAČNÍ MEZE: Kritická úroveň, yc: 1.552007E-03 Limita detekce, yd: 9.630243E-03
xc: 1.327703E-02 xd: 2.474554E-02
(4)KALIBRAČNÍ TABULKA PŘED ODTRANĚNÍM VLIVNÉHO BODU: Měřená hodnota Inverzní odhad Konfidenční interval Yi,exp Xi,vyp[ppm] Dolní mez LD[ppm] Horní mez LH[ppm] 0,105 0,162 0,156 0,168 0,205 0,31 0,303 0,316 0,315 0,48 0,473 0,487 0,445 0,695 0,687 0,703
KALIBRAČNÍ TABULKA PO ODSTRANĚNÍ VLIVNÉHO BODU: Měřená hodnota Inverzní odhad Konfidenční interval Yi,exp Xi,vyp[ppm] Dolní mez LD[ppm] Horní mez LH[ppm] 0,105 0,162 0,156 0,168 0,205 0,311 0,305 0,317 0,315 0,481 0,473 0,488 0,445 0,692 0,682 0,699
obr. 1 Kvadratický spline-počet uzlů 2
Závěr: V datech je jeden odlehlý bod č.20. Limita detekce je 0,025 ppm Zn, kritická úroveň stanovení je 0.015ppm Zn. Nejnižší koncentrace neznámého vzorku je 0.162 ppm Zn, což znamená, že je nad limitou detekce. Hodnoty koncentrací v ppm odpovídající naměřeným hodnotám jsou uvedeny v kalibrační tabulce.