A KEMOMETRIA ALAPJAI Dr. Rajkó Róbert SZTE MK, 6701 Szeged, Pf. 433. www.kemometria.hu/Rajko 2005
KEMOMETRIA
• • • •
A kémiai és analitikai kémiai információ minél teljesebb (optimális) kinyeréséhez szükséges matematikai statisztikai, lineáris algebrai, számítástechnikai és formál logikai módszerek együttesét jelenti.
Borosy András Péter*, Héberger Károly, Horvai György#, Kolossváry István, Lengyel Attila, Paksy László, Rajkó Róbert, Szepesváry Pál* #szerkesztő
*kontrollszerkesztők
Nemzeti Tankönyvkiadó Budapest, 2001 http://www.kemometria.hu/KemometriaTankonyv/
Kemometria és Molekulamodellezés Munkabizottság KeMoMo Elnök: Rajkó Róbert Társelnök: Körtvélyesi Tamás http://www.kemometria.hu/KeMoMo/
Az analitikai kémia hierarchikus kapcsolata több és jobb információ előállítása
eredmény minősége
analízis idő, költség, munka és kockázati tényezők minimalizálása
CÉL
analitikai folyamat minősége
szabatosság (accuracy) •érzékenység •szelektivitás •pontosság reprezentativitás
gyorsaság
költséghatékonyság emberi tényezők
•mintavételezés •mintaelőkészítés fősajátságok
bázissajátságok
kiegészítő sajátságok
Precision (pontosság, torzítatlanság)
Selectivity (szelektivitás)
Sensitivity (érzékenység)
Accuracy (szabatosság, hitelesség)
Mintavételezés reprezentativitása
MINŐSÉGBIZTOSÍTÁS (Quality Assurance) • ISO 9000:1987-es európai szabványsorozat MSZ EN 29000:1992-es magyar szabványok • a követelmények teljesítése külső (vevői) elvárás ugyan, de belső (vezetői) igényként is meg kell fogalmazódnia • ma már a piacokon nemcsak a termékek, hanem a minőségbiztosítási rendszerek (MBR) is versenyeznek egymással
A megfelelően kialakított és működtetett MBR biztosítja, hogy a termékek kielégítik a vevők igényeit, megfelelnek a rájuk vonatkozó szabványoknak, előírásoknak versenyképes áron állnak rendelkezésre, olyan költséggel gyárthatók, amely nyereséget eredményez.
Az analitikai kémia és a minőségbiztosítás kapcsolata • rendszerszemléletű megközelítés szerint az analitikai kémia egy felsőbb szintű rendszer információtermelő alrendszere • az analitikai információ megbízhatósága legalább akkora kell legyen, mint a termékek minősítésének megbízhatósága • függetlenül attól, melyik laboratórium és melyik analitikus szolgáltatja az információt, az ezen nyugvó döntések egységes elvek alapján szülessenek
Az analitikai kémia minőségbiztosítása Az analitikai kémia információt termelő rendszer. Az információ minőségét meghatározza a hibája és az, hogy a hibát milyen megbízhatósággal ismerjük. Az analitkiai kémia minőségbiztosítása azon elvek és eljárások összessége, amelyek segítségével az igényeknek megfelelő megbízhatóságú analitikai-kémiai információt termelünk és egyértelműen tudjuk a termelt információ megbízhatóságát bizonyítani. Az analitikai kémia minőségbiztosítása tehát, egyrészt a megbízható információtermelés eszköze, másrészt a megbízhatóság bizonyítéka.
Az analitikai mérési eredmények minőségbiztosítása • VALIDÁLÁS: valamely folyamatról, eszközről, tevékenységről megállapítjuk annak hasznosságát, valamely feladatra való alkalmasságát. Validálni kell a mintát, az analitikai módszert, az analitikai eljárást, a szoftvert, a mérési eredményeket. • MINŐSÉGSZABÁLYOZÁS: a mérési folyamathoz kapcsolódik • MINŐSÉGÉRTÉKELÉS: a mérési eredményekhez kapcsolódik
Termék minőségbiztosításának folyamata TERMÉK MINŐSÉGI KÖVETELMÉNYEK Nyersanyag követelmények
Termelési követelmények
Analitikai követelmények
Követelményeknek megfelelő minőségű NYERSANYAG
Követelményeknek megfelelő minőségű TERMELÉS
Követelményeknek megfelelő minőségű ANALITIKA
TERMÉK
Analitikai EREDMÉNYEK
MEGFELEL? IGEN
KÖVETELMÉNYEKNEK MEGFELELŐ MINŐSÉGŰ TERMÉK
NEM korrigál vagy elutasít
Analitikai mérések minőségbiztosításának folyamata ANYAG
ANYAG MINŐSÉGI KÖVETELMÉNYEK
KÖVETELMÉNYEKNEK MEGFELELŐ MINTA
ANALITIKAI KÖVETELMÉNYEK
Ellenőrző minták
Analitika MINŐSÉGSZABÁLYOZÁSA
Kalibrációs minták
Analitika MINŐSÉGÉRTÉKELÉSE
OPTIMÁLT VALIDÁLT ANALITIKA Minta eredmények
Kalibrációs eredmények
Analitikai információ átalakítása kémiai információvá KÖVETELMÉNYEKNEK MEGFELELŐ MINŐSÉGŰ ANALITIKAI EREDMÉNY
igen nem
MEGFELEL?
korrigál
Követelmények a matematikaistatisztika alkalmazásához • a mérési folyamat stabil • az egyes mérési eredmények függetlenek • a mérések véletlen reprezentációi az előállítható adatok populációjának Ez azt jelenti, hogy a mérési folyamatnak statisztikailag szabályozott állapotban kell lennie, azaz el kell érnie a stabilizálódott állapot megfelelő fokát.
A minőségszabályozás eszközrendszere (a mérési eljárás statisztikailag szabályozott állapotához szükséges gyakorlatok és műveletek)
• • • • • •
szakképzett munkatársak, és továbbképzésük felszerelések megfelelősége, karbantartása műszerek karbantartása, hitelesítése/kalibrálása az írott “P”-k (GLP, GMP, GAP, SOP, PSP) dokumentálás felügyelet
A minőségértékelés eszközrendszere (azok a módszerek, anyagok amelyekkel a mérési eljárást követve a kimenő adatok minőségére lehet következtetni)
• • • • • • • •
ellenőrző minták független analitikai eljárások ismételt mérések ellenőrzőkártyák laboratóriumok közötti kísérletek (körelemzések) statisztikai értékelés belső felülvizsgálatok a minőségügyi felülvizsgálatok eredményeinek visszamenőleges értékelése
A költséghatékony minőségbiztosítás Új szemlélet
Régi szemlélet
A gyenge minőség az emberek nem kielégítő vezetésének a következménye. Az emberek megbecsülése a jó minőség kulcsa. A jó munkaerkölcs nem nemzeti sajátosság. Csak hibátlan termék előállítása legyen a cél.
A gyenge minőség az emberek rossz teljesítményének következménye. Az automatizálás a jó minőség kulcsa. A jó munkerkölcs nemzeti sajátosság. Bizonyos minőségi hiányosság elfogadható, ha a termék eléri a minimálisan elfogadható szintet.
A költséghatékony minőségbiztosítás Új szemlélet
Régi szemlélet
A gyártási folyamat hiányosságait kell feltárni és korrigálni úgy, hogy ne ismétlődjenek.
A jobb minőség nagyobb hasznot hoz. A jó minőség a cél.
Rendszeresen fel kell tárni a kész termék hibáit, majd a hibákat külön javítási folyamatban újra kijavítani. A jobb minőség nagyobb költséget jelent. A jó minőség drága.
A termék minőségét megtervezik. Ha hibás egyedek fordulnak elő, a gyártási folyamatot javítják.
A termék minőségét utólagos ellenőrzéssel biztosítják. A hibás egyedeket folyamatosan kiemelik és javítják.
A költséghatékony minőségbiztosítás Új szemlélet
Régi szemlélet
A minőségbiztosítás mindenki feladata. Az átfogó minőségvezetés magába foglal valamennyi funkciót, személyt a termelés teljes folyamatában. Beruházás a minőségbiztosításba a hosszútávú haszon biztosítéka. A selejt költsége több, mint az eladási ára.
A minőségellenőrzés egy olyan elkülönült szervezet, amelynek feladata a termék minőségének az értékelése. A haszon az elsődleges, a minőség másodlagos. A haszon érdekében a minőségbiztosítás költségeit a minmumra kell csökkenteni.
A költséghatékony minőségbiztosítás Új szemlélet
Régi szemlélet
Elsőre csináld jól. A forrá- Fedezd fel a hibát és rögsok jó minősége a kulcs. zítsd. Többszörös ellenAz elsőre sikerült jó minőőrzést alkalmazz. ség ingyen van. A szállítók megbecsült A szállítók ellenfeleink, tagjai a közösségünknek. és mint ilyenek,gyanúsak. A minőség és a megbízha- Vásárolj a legolcsóbban tóság legyen a vásárlás fő ajánlótól. A szállítók verszempontja. Az informácisenyeztetése csökkenti a ókat és a hasznot meg leköltségeket. het osztani a szállítókkal.
A költséghatékony minőségbiztosítás Új szemlélet A jó minőséget a tervezéstől kezdve a hasznosításig valamennyi tevékenység meghatározza. Állítsd le a termelést, ha gond van a minőséggel. A biztonsági tartalék előállítása munkaerő pazarlás. Képezd ki a munkatársaidat a feladatok megosztására, és flexibilitásra. Gondoskodj többoldalú és átfogó képzésükről. Tudják mit, hogyan kell csinálni, és miért.
Régi szemlélet A minőséget a gyártás határozza meg.
A hibákat felügyelőkkel kell fülöncsípni. Mindig biztonsági tartalékkal gyártsál. Alkalmazz nagymértékben szakosodott munkatársakat.
A költséghatékony minőségbiztosítás Új szemlélet
Régi szemlélet
A vezetés folyamatosan együttműködik az alkalmazottakkal a problémák megelőzésében. A vezetési rendszer az oka a legtöbb minőségi problémának. Minden munkatársnak ismernie kell a statisztikai minőségszabályozást, ami elősegíti a javítható területek feltárását.
A minőségi problémákat a vezetésnek kell feltár-nia. A minőségi problémákért a legtöbb esetben az alkalmazottak a felelősek. A statisztika a minőségbiztosítási szakemberek egzotikus eszköze. Az ellenőrzőkártyákat a problémák feltárására használják.
KALIBRÁCIÓ kvalitatív információ
kvantitatív információ
SZERKEZET
KONCENTRÁCIÓ
abszorpciós, emissziós, diffrakciós stb. sávok eredete, helyzete, intenzitása, alakja
kemometriai módszerek
KALIBRÁCIÓ Direkt meghatározás a vizsgált minta koncentrációja az alkalmazott analitikai módszer alkalmazásával közvetlenül számítható, pl. gravimetriás mérés esetén
Indirekt meghatározás kalibrációt alkalmazunk, azaz két lépésben történik a koncentráció megállapítása. Az első lépésben a kalibrációs modell által megfogalmazott függvénykapcsolat paramétereinek becslése történik ismert koncentrációjú, független kalibrációs minták felhasználásával. A második lépésben az ismeretlen összetételű oldat koncentrációjának előrebecslése következik a kalibrációs modell alkalmazásával
1. rendű tenzor adatsor:
0. rendű tenzor adatsor: 2. rendű tenzor adatsor:
3. rendű tenzor adatsor:
... N. rendű tenzor adatsor ...
Kalibrációs adattömbök
0. rendű tenzor adatsor (skalár) 1 utas kalibráció (egyváltozós) Példák: egy ionszelektív elektród spektroszkópia (egy hullámhosszon mérve) kromatográfia (egyetlen csúcshelyet kiértékelve)
Feltételek: teljesen szelektív érzékelők, vagy teljesen tiszta minták ismert válaszjel (lineáris)
Eszközök: egyszerű algebra
egyváltozós statisztika
Alapfogalmak • Véletlen jelenségek: minden jelenséget az okok egy bizonyos rendszere hoz létre. Ha az okok mindegyikét figyelembe tudnánk venni, a jelenség lefolyása azokból egyértelműen levezethető, kiszámítható volna. Ez azonban gyakorlatilag lehetetlen, vagy célszerűtlen, ezért az esetek túlnyomó többségében az ingadozást véletlenszerűnek nevezzük.
Alapfogalmak • Sokaság és minta: A vizsgálatok célja a sokaság (mérési stb. adatok halmaza) megismerése. Mivel az alapsokaság teljes körű vizsgálatát nem lehet, vagy nem gazdaságos elvégezni, ezért vizsgálatainkat csak az összesség egy kiragadott részére, az ún. mintára korlátozzuk. A minta adatai alapján a matematikai statisztika segítségével következtetünk az alapsokaságra. véges sokaság: elvileg mérhető az egész sokaság végtelen sokaság: elvileg sem mérhető az egész
Alapfogalmak • Valószínűségi (véletlen) változó:
Azokat a mennyiségeket, amelyeknek értéke nem állandó, hanem esetről esetre más és más lehet, azonban meghatározható, hogy mekkora bizonyossággal (valószínűséggel) esnek megadott határok közé, valószínűségi (véletlen) változóknak nevezzük. • Diszkrét valószínűségi változó: egy véges vagy megszámlálhatóan végtelen elemű készletből vehet fel értékeket • Folytonos valószínűségi változó: a valós számok folytonos sokaságának értékeit veheti fel
Alapfogalmak • Diszkrét valószínűségi változók sűrűség- és eloszlásfüggvénye p(k ) P( x k ); p( x ) 0 minden x helyen; p( x ) 1 n
i
i
F (k ) P( x k ) p( xi )
i 1
i
xi k
• Folytonos valószínűségi változók sűrűségés eloszlásfüggvénye P(a x b) f ( x) dx; P( x x ) 0; f ( x) 0, x ; f ( x) dx 1
b
0
a
F ( xi ) P( x xi )
xi
f ( x) dx
Alapfogalmak • Paraméterek
A sokaságra vonatkozó valószínűség-, ill. eloszlásfüggvény konstansai, ill. ezek származékai (momentumok stb.).
• Statisztikák
A minta jellemzői, a paraméterek analogonjai.
A paraméterek a sokaság tulajdonságai, a jellemzők (statisztikák) a mintáéi. A gyakorlatban a statisztikákkal becsüljük (közelítjük) a paramétereket.
A legfontosabb paraméterek és statisztikák • Várható érték (paraméter) Diszkrét valószínűségi változók esetén: n
M ( x) xi p( xi ) i 1
Folytonos valószínűségi változók esetén:
x f ( x) dx • Számtani átlag (statisztika) M ( x)
1 n x xi n i 1
A legfontosabb paraméterek és statisztikák • Variancia (paraméter) Diszkrét valószínűségi változók esetén: n
Var ( x) xi M ( x) p( xi ) M ( x ) 2 2
i 1
Folytonos valószínűségi változók esetén: 2 2 2 2 x M ( x ) f ( x ) dx M x D ( x )
Var ( x)
• Tapasztalati szórásnégyzet (statisztika) 1 1 s ( x x) , ( x x) korrigált: s n n 1 n
2
2
i 1
2
n
i
i 1
i
2
A legfontosabb paraméterek és statisztikák • A várható érték és a variancia tulajdonságai M (c1 x c2 ) c1 M ( x) c2 ;
M (c) c;
M ( x1 x2 x3 xn ) M ( x1 ) M ( x2 ) M ( x3 ) M ( xn )
Var (c1 x c2 ) c12 Var ( x);
Var (c) 0
páronként független valószínűségi változókra : Var ( x1 x2 x3 xn ) Var ( x1 ) Var ( x2 ) Var ( x3 ) Var ( xn )
Var ( x) M ( x ) 2 M ( x 2 ) M 2 ( x) M ( x 2 ) 2
A legfontosabb paraméterek és statisztikák Várható értéknél és varianciánál általánosabb paraméterek • Helyparaméter, T a valószínűségi változó (v.v.) koncentrálódását jellemzi, az eloszlásfüggvény „központi helyét” határozza meg, gyakran megegyezik a várható értékkel • Skálaparaméter, S a v.v. diszperziójának (szétszórtságának) mértékét adja meg, az eloszlásfüggvény skálázottságaként definiálva azt, gyakran megegyezik a varianciával Standardizálás (T=0, S=1): dF (T , S ; x) f (T , S ; x) dx
1 x T f ( x) f S S
x T F ( x) F S
A legfontosabb paraméterek és statisztikák • Momentumok
k dik momentum : M ( x ) k
k x f ( x) dx
x M ( x)
k dik centrális momentum : M x M ( x) k
k
f ( x) dx
k dik abszolút momentum : M ( x ) k
k
x f ( x) dx
k dik centrális abszolút momentum : M ( x M ( x) ) k
x M ( x) f ( x) dx k
A legfontosabb paraméterek és statisztikák • Momentumok A várható érték az első momentum lesz: M (x) A variancia a második centrális momentum lesz (a második momentum és az első momentum négyzetének különbsége): Var ( x) M ( x )2 M ( x 2 ) M 2 ( x) D2 ( x)
3
4
Ferdeségi együttható:
M x M ( x) D 3 ( x)
Lapultsági együttható:
M x M ( x) 3 4 D ( x)
A legfontosabb paraméterek és statisztikák • Medián az a szám, amely alá és fölé azonos valószínűséggel esik a véletlen változó: F(med )=0,5
• Kvantilis p-edrendű kvantilis az a szám, amely alá p, fölé 1-p valószínűséggel esik a véletlen változó: F(kvant )=p
• Módusz a véletlen változó legnagyobb valószínűségű értéke (a sűrűségfüggvény maximum helye, a leggyakrabban megvalósuló érték): mód=arg(max f(x)) Egy eloszlásnak több módusza is lehet.
A legfontosabb diszkrét eloszlások • Binomiális eloszlás akkor alkalmazható, ha a visszatevéssel vett minta eleme kétféle lehet, és az egyik p, a másik 1-p valószínűséggel fordulhat elő: n x n x p( x) p 1 p x
pl. a gyártmány- vagy gyártásellenőrzésnél p a sokaságbeli (tételbeli) selejtarány, x az n elemű mintában talált selejtes darabok száma (a mintavétel visszatevéssel történjen).
A legfontosabb diszkrét eloszlások • Hipergeometrikus eloszlás akkor alkalmazható, ha a visszatevés nélkül vett minta eleme kétféle lehet, és az egyik p, a másik 1-p valószínűséggel fordulhat elő: N p N (1 p) x n x p( x) N n
pl. a gyártmány- vagy gyártásellenőrzésnél p a sokaságbeli (tételbeli) selejtarány, x az n elemű mintában talált selejtes darabok száma, N a sokaság (tétel) elemeinek száma (a mintavétel visszatevés nélkül történjen).
A legfontosabb diszkrét eloszlások • Geometriai eloszlás akkor alkalmazható, ha a minta eleme kétféle lehet, az egyik p, a másik 1-p valószínűséggel fordul elő és arra vagyunk kíváncsiak, hogy a p valószínűségű esemény hányadik kísérletre következik be először: p( x) (1 p) x 1 p
A legfontosabb diszkrét eloszlások • Poisson eloszlás a ritka események eloszlásának modellezésére használható. Közelítőleg Poisson-eloszlású pl. bizonyos árucikkekből egy-egy napon eladott áruk darabszáma, a mikroszkóp látómezejének egy négyzetébe eső vörösvérsejtek száma, az egyes években előforduló sztrájkok, háborúk, ill. üzemi balesetek száma, festési hibahelyek száma egy autón vagy egy adott napon egy adott telefonszám hívásainak száma. e x p ( x) x!
A legfontosabb folytonos eloszlás • Normális (Gauss) eloszlás a természetben akkor fordul elő, ha sok, egymástól független, egyenként kis hatású tényező hatása összeadódik. ( x )2 1 f ( x) exp N ( , ) 2 2 2
( x )2 1 F ( xi ) exp dx 2 2 2 M ( x) Var ( x) 2 xi
u
x
u2 1 f (u ) exp N (0,1) 2 2
Centrális határeloszlás tétele • A legegyszerűbb alak Legyenek y1, y2, y3,…, yn,… azonos eloszlású, teljesen független valószínűségi változók, és tegyük fel, hogy M(yn ) és D(yn )>0 léteznek. Legyen továbbá n
z n yk , k 1
és
zn M ( zn ) z . D( z n ) n
Jelölje Fn(x) a zn* eloszlásfüggvényét, ekkor lim Fn ( x) N (0,1)
n
Centrális határeloszlás tétele • Ljapunov alak Legyenek y1, y2, y3,…, yn,… teljesen független valószínűségi változók, és a következő három momentumuk létezzen: M(yk )=Mk , D2(yk )=Dk2>0, M(|yk-Mk|3)=Hk3. Legyen S n D12 D22 Dn2 ,
Valamint teljesüljö n a
K n 3 H13 H 23 H n3 ,
Kn 0 n S n
n
z n yk , k 1
és
zn
lim
zn M ( zn ) . Ljapunov - féle feltétel. D( z n )
Fn ( x) N (0,1) Jelölje Fn(x) a zn* eloszlásfüggvényét, ekkor nlim
Centrális határeloszlás tétele • Lévy-Feller-Hincsin alak Legyenek az y1, y2, y3,…, yn,… azonos eloszlású valószínűségi változók teljesen függetlenek, és közös eloszlásuk n legyen F(x). Legyen zn k 1 yk . Ha F(x)-re teljesül a lim
h
h 2 F (h) (1 F (h)) h
0
2 x dF ( x)
h
feltétel, akkor az {An } és az {Sn } sorozatok alkalmas megválasztása esetén z An lim P n x N (0,1) n Sn
Centrális határeloszlás tétele „Mindenki hisz a normális eloszlás univerzalitásában: a fizikusok azért, mert azt hiszik, hogy a matematikusok bizonyították logikai szükségszerűségét, a matematikusok pedig azért, mert úgy hiszik, hogy a fizikusok laboratóriumi méréseikkel igazolták azt.” Gabriel Lippmann (1845-1908, francia fizikus) Henri Poincaréhoz (1854-1912, francia matematikus, elméleti csillagász, tudományfilozófus) intézett szarkasztikus megjegyzése. D'Arcy Wentworth Thompson: On growth and form. The complete revised edition. Dover Publications, Inc., New York, 1992. Chapter III. The rate of growth, on page 121 [of the curve of error]: The curve as defined by Gauss, princeps mathematicorum - who in turn was building on Laplace - is at once empirical and theoretical; and Lippmann is said to have remarked to Poincaré: "Les expérimentateurs s'imaginent que c'est un théorème de mathématique, et les mathématiciens d'être un fait expérimental!"
A minta statisztikai jellemzői • Számtani középérték: tetszőleges eloszlású (amelynek várható értéke és szórása létezik) sokaságból vett független n elemű minta esetén: 1 1 n x ( x1 x2 x3 xn ) xi n n i 1 1 n 1 n 1 n n M ( x) M xi M ( xi ) n i 1 n n i 1 n i 1 1 n 1 Var ( x) Var xi 2 n i 1 n
n 2 2 Var ( xi ) 2 n n i 1 n
A minta statisztikai jellemzői • Számtani középérték A centrális határeloszlás tételek legegyszerűbb alakja szerint (ha az eloszlásnak várható értéke is és szórása is létezik): n
n y yk , k 1
és
n y n n y n y zn D( n y ) n n n
Jelölje Fn(x) a zn , azaz a standardizált átlag eloszlásfüggvényét, ekkor lim Fn ( x) N (0,1)
n
A minta statisztikai jellemzői • Tapasztalati szórásnégyzet Normális (Gauss) eloszlású sokaságból n elemű mintát veszünk. Standardizáljuk ui=(xi-)/ szerint. A c2eloszlású valószínűségi változót a következőképpen kapjuk: n
c u u u ui2 2
2 1
2 2
2 n
i 1
A négyzetösszeg szabadságfok-számán az (u1, u2,…,un) lineáris rendszer szabadságfok-számát értjük. Jelen esetben n=n.
A minta statisztikai jellemzői • Tapasztalati szórásnégyzet Korrigált tapasztalati szórásnégyzet:
1 n s ( xi x) 2 n 1 i 1 2
A i 1 ( xi x) 2 négyzetösszeg c22-eloszlású n=n-1 n szabadsági fokkal (i 1 ( xi x) 0). n
c 2 2 s 2n 2 s c 2 n 1 n 2
c 2 2
Ez a kifejezés tehát c2-eloszlású n=n-1 szabadsági fokkal.
A minta statisztikai jellemzői • Számtani középérték Ha a minta elemszáma kicsi és/vagy nincs bőséges előzetes adathalmazunk a 2 variancia becslésére, akkor a szórásnégyzetet a mintából kell becsülnünk. Ám ekkor a szokásos standardizálással már nem N(0,1) eloszlású véletlen változót, hanem Student-féle t-eloszlású véletlen változót kapunk : t t
x M ( x) sx
x x sx s n
A minta statisztikai jellemzői • Tapasztalati szórásnégyzet Legyen c12 és c22 két egymástól független c2-eloszlású valószínűségi változó n1 és n2 szabadsági fokkal. A következő kifejezés F-eloszlású: c12 n F 12 . c2 n2
s12
c2 12 n c 2 F 2 . 2 s2 n 22 s 2
2
s 2
s12 Ha F 2 . s2 2 1
2 2
F (n 1 ,n 2 )
1 F1 (n 2 ,n 1 )
és
F (1,n ) t 2 (n ) 2
Hipotézisvizsgálat • vagy statisztikai próbák A matematikai statisztikában célunk a sokaság megismerése (a sokaságot jellemző véletlen változó eloszlásának és az eloszlásfüggvény paramétereinek meghatározása). Ennek során gyakran úgy járunk el, hogy az alapsokaságra vonatkozóan valamilyen feltevéssel élünk és ezt statisztikai próbával ellenőrizzük. A tételből, ill. folyamatból vett minták elemzésével ellenőrizzük, hogy a tétel vagy folyamat olyan eloszlású-e és/vagy olyan paraméterekkel jellemezhető-e, mint azt feltételeztük.
Hipotézisvizsgálat • u-próba
Feltétel: egy normális eloszlású sokaság 2 varianciájának számszerű értéke ismert. Hipotézis: a sokaság várható értéke egy adott 0 számmal egyenlő. Nullhipotézis: H0: 0 Lehetséges ellenhipotézisek (alternatív hipotézisek): H1: 0 kétoldali ellenhipotézis H1: 0, H1: > 0, H1: 1 egyoldali ellenhipotézisek
Hipotézisvizsgálat • u-próba menete Próbastatisztika:
u0
x 0 n
A próbastatisztika csak akkor N(0,1) eloszlású, ha a nullhipotézis igaz: 0. x
0 Egyébként u0 első tagja lesz N(0,1) n n eloszlású. Az u-eloszlás táblázata alapján megállapítjuk, hogy az u0 próbastatisztika nagy (pl. 1 = 0.95) valószínűséggel melyik intervallumba esik. Ha a H0 igaz ez lesz az elfogadási tartomány.
Hipotézisvizsgálat • u-próba menete Ehhez rögzíteni kell az ellenhipotézist. Ellenhipotézis: H1: 0 x 0 P u 2 u 2 1 n
Ellenhipotézis: H1: 0 x 0 P u 1 n
H1: > 0 x 0 1 P u n
Hipotézisvizsgálat • u-próba menete
Ha az u0 számított értékét az (1-) valószínűséghez tartozó elfogadási tartományon belül találjuk, akkor a H0 nullhipotézist elfogadjuk, ha a próbastatisztika értéke az intervallumon kívül esik (elutasítási tartomány), akkor elutasítjuk. Ez a döntés.
Hipotézisvizsgálat (u)
0.45 0.4
1-
0.35 0.3 0.25 0.2 0.15
/2
/2
0.1 0.05
u
0 -5
-4
-3
elutasítási tartomány egyik fele
-2
-1
-u/2
0
1
elfogadási tartomány
2
u/2
3
4
5
elutasítási tartomány másik fele
Hipotézisvizsgálat nullhipotézis: H0, amit igazolni szeretnénk ellenhipotézis: H1 vagy HA a nullhipotézis egy alternatívája H0 és H1 egymást kizáró esemény! A statisztikai minta és a próbastatisztika alapján a H0 nullhipotézist elfogadjuk
elutasítjuk
Valójában H0 helyes
HELYES DÖNTÉS
ELSŐFAJÚ HIBA (elkövetésének valószínűsége )
Valójában H0 nem helyes
MÁSODFAJÚ HIBA (elkövetésének valószínűsége b)
HELYES DÖNTÉS
Hipotézisvizsgálat (u)
(u / 2 u b ) n ( 1 0 ) 2 2
0.45
1-
0.4
2
0.35
0.3
0.25
u0
x 0 n
uA
0.2
0.15
/2
x 1 n
b /2
0.1
0.05
0 -5
-4
-3
elutasítási tartomány egyik fele
-2
-1
-u/2
0
1
elfogadási tartomány
2
u/2
3
4
elutasítási tartomány másik fele
5
u
Hipotézisvizsgálat (u-próba) bemutatása
Lineáris regresszió módszerei Egyváltozós lineáris függvénykapcsolat ( y a1 x a0 ) esetén az egyenes aˆ1 becsült meredekségét és aˆ 0 becsült tengelymetszetét kell meghatároznunk az n db mérési pontból, majd Gauss-eloszlású mérési hiba feltételezésével konfidencia intervallumokat is megadhatunk a jósolt értékekre.
Lineáris regresszió módszerei • súlyozott legkisebb négyzetek módszere (LS)
w w x y w x w y w w x w x w x w y w x w x y w w x w x i
aˆ1 LS
i
i
i
i
aˆ0 LS
i
2 i
i
i
wi
1
2 i
wi
i
1
2
i
aˆ1
i
i
2
2 i
i
i
i
i
i
i
i
2 i
i 2
i
i
2
i
i
,
i
x x y y , x x i
i
aˆ0 y aˆ1 x
Lineáris regresszió módszerei • abszolút eltérések legkisebb összege módszer (LSA) n
M inimalizálandó s j j =1
Feltételek
b1 b2 a1 xi a2 xi si yi , b1 b2 a1 xi a2 xi si yi , a1 , a2 , b1 , b2 , si 0, i 1,2, , n. aˆ1 LSA a1 a2 aˆ0 LSA b1 b2
Lineáris regresszió módszerei • abszolút eltérések legkisebb maximuma módszer (LMA) M inimalizálandó s Feltételek
b1 b2 a1 xi a2 xi s yi , b1 b2 a1 xi a2 xi s yi , a1 , a2 , b1 , b2 , s 0, i 1,2, , n. aˆ1 LMA a1 a2 aˆ0 LMA b1 b2
Lineáris regresszió módszerei • iteratívan újrasúlyozott legkisebb négyzetek módszere k=6 és k=9 hangoló konstanssal (IRLS) aˆ0( 0 ) aˆ0LS aˆ1( 0 ) aˆ1LS
w w x y w x w y w w x w x w x w y w x w x y w w x w x
aˆ1(i )
i
i
i
i
(i ) 0
aˆ
i
2 i
i
i
i
i
i
i
i
2 i
i
i
2
2 i
i
i
i
i
i
i 2
i
i
i
i
2 2 1 rj ha r kS j w j kS 0 egyébként rj y j aˆ0(i 1) aˆ1(i 1) x j
S median rj ha rj > 0 j k 6 vagy 9
aˆ0IRLS aˆ , aˆ1IRLS aˆ (k ) 0
(k ) 1
aˆ0( k ) aˆ0( k 1) aˆ1( k ) aˆ1( k 1) ha és (k ) (k ) aˆ0 aˆ1
0.001
Lineáris regresszió módszerei • leggyakoribb érték módszere (MFV) (0) 0
aˆ
aˆ0LS aˆ
(0) 1
i
i
i
i
aˆ
wj
w w x y w x w y w w x w x w x w y w x w x y w w x w x
aˆ1(i ) (i ) 0
aˆ1LS
i
2 i
i
i
i
i
i
i
i
2 i
i
i
i
i 2
i
i
i
i
3
( (l 1) ) 4 rj2
(( (l 1) ) 2 rj2 ) 2 ( ) ( ( l 1) ) 4 (( (l 1) ) 2 r 2 ) 2 j (l ) 2
aˆ0MFV aˆ , aˆ1MFV aˆ (k ) 0
2 rj2
rj y j aˆ0( i 1) aˆ1( i 1) x j
i
2
2 i
i
i
i
2
(m)
(k ) 1
( m ) ( m 1) ha (m)
aˆ0( k ) aˆ0( k 1) aˆ1( k ) aˆ1( k 1) ha és (k ) (k ) aˆ0 aˆ1
0.001
Lineáris regresszió módszerei • egyszerű medián vagy kombinatorikus módszer (CM)
y j yi aˆ1CM median 1i j n x x xi x j j i aˆ0CM mediany j aˆ1CM x j j
Lineáris regresszió módszerei • ismételt medián (RM)
aˆ1RM
y j yi median median ha xi x j i j x j xi aˆ0RM mediany j aˆ1RM x j j
Lineáris regresszió módszerei • négyzetek legkisebb mediánja (LSM)
min median r aˆ0LMS , aˆ1LMS 1 j k n i rijk yi aˆ0 jk aˆ1 jk xi 2 ijk
aˆ0 jk
x j y k xk y j
aˆ1 jk
x j xk y j yk x j xk
ha x j xk
ha x j xk
Lineáris regresszió módszerei Módszerek
Összeomlási pont
Robusztusság
Ajánlás
LMA
0%
egyáltalán nem robusztus
kalibrációs célokra nem ajánlott
LS
0%
egyáltalán nem robusztus
csak nagyszámú adat esetén (legalább 30-50 mérési pont)
LSA
0%
modellérzékeny pontok hatása*
csak jól tervezett kísérleteknél*
IRLS9
20 %
kissé robusztus
csak nagyszámú adat esetén (legalább 15-30 mérési pont)
IRLS6
25 %
robusztus
MFV
25 %
robusztus
SM
30 %
robusztus
RM
50 %
nagyon robusztus
LMS
50 %
nagyon robusztus
*modellérzékeny
kisszámú adat esetén is
(már 8-15 mérési pont elég)
pontok (leverage points) érzékennyé teszik a becslő eljárást a nem kiegyensúlyozott kísérleti beállítás miatt
Becslések konfidencia intervallumai • az a1 meredekségre:
a1 aˆ1
t
x x
2
i
• az a0 tengelymetszetre: 2
1 x a0 aˆ0 t n xi x 2
Becslések konfidencia intervallumai • az ismeretlen y változóra adott x-nél:
1 x x y aˆ0 aˆ1 x t 1 2 n xi x 2
Becslések konfidencia intervallumai • az ismeretlen x változóra y-nál (m az ismeretlen xre vonatkozó mérések száma): 1 yˆ aˆ0 a1 x xx aˆ1
t2 2 1 2 2 aˆ1 xi x
yˆ aˆ0 a1 x 2 1 1 , xi x 2 aˆ1 m n 2
s
2 y a a x ˆ ˆ i 0 1 i
n2
t az (1 – /2)100% biztonsági szinthez és az n – 2 szabadsági fokhoz tartozó Student-féle t-eloszlás táblázatból kikeresett értéke.
Lineáris regresszió (robusztus módszerek) bemutatása
0. rendű tenzor adatsor (skalár) 1 utas kalibráció (egyváltozós) / folyt.
0. rendű tenzor adatsor (skalár) 1 utas kalibráció (egyváltozós) / folyt. jel
(A) g(c*n)
Kalibráció
g(c*1)
g(c*2) f(cAn)
Zavaró kölcsönhatás (zavaró komponens kimutatása nem lehetséges!!!) Meghatározás
f(cA2)
f(cA1)
konc. jel
(B)
g(c*)
f(cA) torzítás cA valódi
c*A torzított
konc.
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) Példák: több ionszelektív elektród több hullámhosszon mért spektrum több csúcshelyen kiértékelt kromatogram
Feltételek: ismert válaszjelek (lineáris) a jelek különbözőek és függetlenek
Eszközök: lineáris algebra
többváltozós statisztika (kemometria!!!)
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) / folyt. Kemometriai módszerek:
Classic least squares (CLS) Inverse least squares (ILS) Principal component regression (PCR) Partial least squares (PLS) Generalized standard addition method (GSAM) Other nonlinear calibration methods …
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) / folyt. Alap többváltozós lineáris regresszió, Basic Multiple Linear Regression (MLR)
Modell: y = b0 + b1x1 + b2x2 + … + bJxJ 1. Modellépítés: y = Xb 2. Paraméterbecslés: bˆ X 1y ˆb XT X 1 XT y
bˆ X y 3. Ismeretlen minta becslése: yˆ un x Tun bˆ CLS: R = CB
ILS, PCR, PLS: c = Rb
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) / folyt. Klasszikus legkisebb négyzetek módszere Classic Least Squares (CLS)
Modell: R(minta szenzor) = C(minta komponens)B(komponens szenzor) + E R = CST + E
ˆ Sˆ T CTC 1 CT R Kalibráció: B ˆ T Bˆ Bˆ T Koncentráció-becslés: cˆ un runT B Előny(ök):
1
1 Tˆ ˆ ˆ r SS S T un
jelek kiátlagolódása, a tiszta komponens spektrumának becslése
Hátrány(ok): az ismeretlen mintában előforduló összes komponensnek ismert koncentrációval szerepelnie kell a kalibrációs mintákban
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) / folyt. Inverz legkisebb négyzetek módszere Inverse Least Squares (ILS)
Modell: c = Rb + e a koncenetrációt fejezzük ki a jelek függvényeként!
Kalibráció: bˆ R T R
1
R Tc (probléma az (RTR)-1 kiszámolása) Koncentráció-becslés: cˆ un runT bˆ Előny(ök): csak a meghatározandó komponens koncentrációját kell ismernünk a kalibrációs mintában Hátrány(ok): nincs jelkiátlagolódás, (RTR)-1 nem mindig létezik
1. rendű tenzor adatsor (vektor) 2 utas kalibráció (többváltozós) / folyt. Torzított becslést adó regressziós módszerek Biased Regression Methods R szinguláris érték felbontása (SVD):
RI,J Előny(ök):
UI,N
DN,N
VJ,NT
RTR kollinearitását kiköszöböltük; zajszűrés; jelkiátlagolódás
PCR: jelmátrix faktorokra bontása; a redukált faktoregyütthatókkal elvégezzük a regressziót, PLS:
jelmátrix faktorokra bontása és a regresszió egy lépésben történik, felhasználva a felbontott és redukált jelmátrix és a felbontott és redukált mintamátrix belső összefüggését
2. rendű tenzor adatsor (adattömb) 3 utas kalibráció Példák: kapcsolt technikák, pl. HPLC – FT-IR, GC – MS gerjesztett-emissziós fluoreszcens spektroszkópia
Feltételek: trilineárisan felbontható jel adattömb
Eszközök: multilineáris algebra három dimenziós, ún. térstatisztika (kemometria!!!)
2. rendű tenzor adatsor (adattömb) 3 utas kalibráció PARAFAC/CANDECOMP
C ET
R S
R m S Qm E N T
T
N K K K K T
Q m Diag c m,1:K K K
2. rendű tenzor adatsor (adattömb) 3 utas kalibráció PARAFAC2
C R
EmT
S
Rm S Q E N T
T m m N K K K K T
E E E E
T i i T K K T
T j j T K K T
1 i, j M
2. rendű tenzor adatsor (adattömb) 3 utas kalibráció Előny(ök):
elegendő egyetlen kalibrációs minta; zavaró kölcsönhatás kimutatható és kiküszöbölhető; a változóknak megfelelő profilokat is megkapjuk, azaz pl. a tiszta komponensek spektrumát és elúciós görbéjét HPLC – UV-Vis mérés esetén
Hátrány(ok): trilineáris adatsor, pl. a 2D-NMR nem ilyen; bonyolult, nagy számításigényű, még ma is fejlesztés alatt álló kemometriai módszerek
N. rendű tenzor adatsor (adattömb) N+1 utas kalibráció