Modern mĬszeres analitika szeminárium „Mintavétel” Galbács Gábor
MINTAVÉTELLEL KAPCSOLATOS SZÁMÍTÁSI FELADATOK A vonatkozó fogalmak és képletek áttekintése
MINTAVÉTELLEL KAPCSOLATOS SZÁMÍTÁSI FELADATOK A vonatkozó fogalmak és képletek áttekintése
MINTAVÉTELLEL KAPCSOLATOS SZÁMÍTÁSI FELADATOK A vonatkozó fogalmak és képletek áttekintése Szórás (standard deviáció): (A variancia a szórás négyzete).
s
¦ (x
2
i
x)
n 1
Abszolút és relatív szórás/hiba egyaránt behelyettesíthetČ a képletekbe! Konfidenciasáv (ahol µ a valódi érték):
P
xr
ts n
Darabos/szemcsés mintáknál az sm és a mintamennyiség (részecskeszám, nr) összefüggése: A hiba és a mintaszám (kivett párhuzamos minták száma, á nm) összefüggése: ö fü é A variancia a teljes analitikai folyamatra:
s2
nm
1p 1 p sm
nr
t2 s2m e2
s2m (s2e ) s2a
Mérési hiba a teljes (kétlépéses) analitikai folyamatra (ahol t értékét az összes mért mintaszám alapján tekintjük!):
e
§ s2 s2a · ¸¸ t ¨¨ m © nm nm na ¹
MINTAVÉTELLEL KAPCSOLATOS SZÁMÍTÁSI FELADATOK A vonatkozó fogalmak és képletek áttekintése A Student-féle eloszlással kapcsolatos vizsgálatok valójában William Sealy Gosset nevéhez fĬzČdnek, aki a Guiness sörfČzde dublini központjában dolgozott. A dolgozóknak Guiness megtiltotta, hogy bármit is publikáljanak, nehogy üzleti titkok kerüljenek j nyilvánosságra, y g emiatt Gosset „Student” álnéven publikálta 1908-ban legfČbb statisztikai eredményeit…
P
xr
ts n
1. FELADAT A mérési hiba minimalizálása Egy bizonyos analitikai módszer mintavételhez kapcsolódó variancia 0.40%, míg az analízishez magához tartozó variancia 0.070%. Hasonlítsuk össze a teljes módszerre vonatkozó relatív hiba értékét a következČ két mintavételezési stratégia esetén (95% megbízhatósági szinten); melyik az elČnyösebb? a.) öt mintát gyĬjtünk be (nm) és ezekbČl egyenként két párhuzamos labormintát mérünk meg (na) b.) két mintát gyĬjtünk be (nm) és ezekbČl egyenként öt párhuzamos labormintát mérünk meg (na)
1. MEGOLDÁS A mérési hiba minimalizálása sm2 = 0.40% sa2 = 0.070%
e
§ s2 s2a · ¸¸ t ¨¨ m © nm nm na ¹
95% megbízhatósági szinten melyik az elČnyösebb stratégia a relatív mérési hiba minimalizálására? a.) nm= 5 és na= 2 (összesen tehát 10 minta mérendČ)
e%
§ 0.40% 0.070% · 2.26 ¨ ¸ 5 52 ¹ ©
0.67%
b.) nm= 2 és na= 5 (összesen tehát 10 minta mérendČ)
e%
§ 0.40% 0.070% · 2.26 ¨ ¸ 2 52 ¹ ©
1.0%
tehát fontosabb a mintavételezési hibát minimalizálni!
2. FELADAT A teljes módszer szórása és annak minimalizálása Egy Pb meghatározási módszer az alábbi mérési adatokat szolgáltatta festékminták esetében: Mérés sorszáma á
Válaszoljuk meg a következČ kérdéseket: a.) Mekkora a teljes módszer szórása ? b.) Hogyan csökkenthetČ a módszer szórása?
2. MEGOLDÁS A teljes módszer szórásának számítása Mérés sorszáma
s2
¦ x
s n= 5 (most nm és na nem függ össze, de éppen egyenlČk!) sm a labormintákból, sa a standard mintákból becsülhetČ.
s2m s2a 2
i
x
n1
xm
5.528
xa
11.616
a.) A módszer teljes szórása: sm
¦ x
2
i
x
n 1
¦ x
2
i
5.528 4
0.881
sa
¦ x
2
i
11.616
0.158
4
vegyük észre, hogy a standard minták töményebbek, tehát az abszolút szórások nem összemérhetČk és kombinálhatók! Emiatt csak a relatív szórással (RSD) tudjuk az eredményt kifejezni (amúgy is a legtöbbször csak ennek van értelme). 2
RSD
§s · § sm · ¨¨ ¸¸ ¨¨ a ¸¸ © xm ¹ © xa ¹
RSD2m RSD2a
2
0.160
2. MEGOLDÁS A teljes módszer szórásának minimalizálása Mérés sorszáma
s2
¦ x
s n= 5 (most nm és na nem függ össze, de éppen egyenlČk!) sm a labormintákból, sa a standard mintákból becsülhetČ.
s2m s2a 2
i
x
n1
xm
5.528
xa
11.616
b.) A módszer szórásának minimalizálása (ami összefügg persze a hibával): sm
¦ x
2
i
x
n 1
¦ x
2
i
5.528 4
0.881
sa
¦ x
2
i
11.616 4
0.158
A mintavételbČl származó szórás (nem meglepČen) nagyobb, tehát a teljes módszer szórását a minták számának növelésével lehet elérni.
3. FELADAT A részecskék aprítása a mintatömeg csökkentése érdekében Tegyük fel, hogy egy bizonyos analitikai módszer megvalósítása során a max. 1% relatív mintavételezési szórás eléréséhez min. 110 g szemcsézett szilárd minta feldolgozására (mintaelČkészítésére) lenne szükség, de ez túl sok az eszközeink számára. számára A részecskék jelenlegi átmérČje max. max 250 µm. µm A megoldás a részecskék méretének csökkentése Črléssel. Mekkora átmérČre kell legalább lecsökkenteni a gömbszerĬnek feltételezett részecskék méretét, hogy mindössze 0.5 g mintával dolgozhassunk a mintelČkészítés során?
3. MEGOLDÁS A részecskék aprítása a mintatömeg csökkentése érdekében RSDm= 0.01 m1= 110 g (a kiindulási tömeg) m2= 0.5 g (a céltömeg) d1= 250 µm
A feladat úgy is megfogalmazható, hogy mekkora szemcseméretre van szükség, hogy m2 tömegben legalább ugyanannyi darab részecske legyen Črlés után, után mint m1-ben ben volt. volt
3. MEGOLDÁS A részecskék aprítása a mintatömeg csökkentése érdekében RSDm= 0.01 m1= 110 g (a kiindulási tömeg) m2= 0.5 g (a céltömeg) d1= 250 µm A mintamennyiséget m1/m2 arányban szeretnénk csökkenteni. Ez gömbszerĬ részecskék feltételezése esetén az átmérČre vonatkozóan
d3 v m 3
d1
d2 d2
m1 m2
3
3
d13 220
220 41.41 Pm
vagyis az új részecske átmérČnek 41 µm alá kell csökkennie.
4. FELADAT A begyIJjtendĒ mintamennyiség számítása Tegyük fel, hogy a mintázandó anyaghalmaz szemcsékbČl áll, amelyekbČl csak minden tízezredik tartalmazza a mérendČ komponenst. Egy szemcse tömege átlagosan kb. 1 µg. Hány gramm homogenizált mintát kell a mintavétel során begyĬjtenünk a binomiális eloszlás szerint ahhoz, hogy a mintavételbČl származó relatív szórás csak 2% legyen?
4. MEGOLDÁS A begyIJjtendĒ mintamennyiség számítása mr = 1 µg RSDm = 0.02 p = 10-4 ElČször kiszámoljuk a részecskeszámot ...
n
1p 1 p RSDm
1 10 4 1 4 10 (0.02)2
2.5 107
majd ebbČl a mintatömeget:
m
2.5 107 10 6 g
25 g
5. FELADAT A mintavételi frekvencia megválasztása Az alábbi adatsort egy ipari szennyvíz áramlás pH-jának rövid távú monitorozásával kaptuk. A grafikon alapján javasoljunk megfelelČ mintavételezési frekvenciát (gyakoriságot) egy hosszútávú monitorozáshoz!
5. MEGOLDÁS A mintavételi frekvencia megválasztása A rövid távú monitorozás adatai alapján kb. 34 óra alatt két, nagyjából szimmetrikus periodikus változási ciklust ír le a mért paraméter (pH), vagyis a mértékadó (durva, (durva trendszerĬ) változás periódusideje kb. 17 óra. A Nyquist(-Shannon) teoréma lényegében kimondja, hogy egy korlátozott sávszélességĬ folytonosan változó jelet tökéletesen rekonstruálni lehet, ha a jel mintavételezése minimum 2·ff frekvenciával történik, ahol f az eredeti jelben elČforduló legnagyobb frekvenciájú komponens (sorfejtés). EbbČl a jelen esetben a minimális adatgyĬjtési frekvenciára tehát 1/8.5 óra-1 adódik (32.6 µHz). Látható ugyanakkor, hogy kb. óránkénti periódusidejĬ, finomabb változások is jelen vannak (vegyük figyelembe a mérés jelen esetben jó precizitását!), amelyek rögzítéséhez kb. félóránként kellene mérni. Ez közel tízszer annyi adat rögzítését igényli, ami hosszú távon túl sok lehet.
6. FELADAT Mintavételi terv készítése Arra kérték, hogy alakítson ki mérési módszert egy forgalmas belvárosi csomópontban a levegČ ózonkoncentrációja és a forgalom közötti összefüggés vizsgálata érdekében. Válaszolja meg a következČ kérdéseket: a.) Milyen mintavételi stratégiát választ? (véletlenszerĬ, rendszeres, szervezett, illetve ezek kombinációi) b.) Kiragadott, összetett vagy in-situ mintákat gyĬjtene? c.) Hogyan válaszolna a fenti kérdésekre, ha a feladat annak megállapítása lenne, hogy a napi ózonszint meghalad-e egy adott küszöbértéket?
6. FELADAT Mintavételi stratégia kialakítása Az oldott oxigén koncentrációja természetes vizekben (legyen ez egy tó) napi és éves ciklusú változékonyságot mutat – az elČbbi a napszakok és a fotoszintézis összefüggése miatt, az utóbbi a szezonális hČmérsékletingadozások miatt. 1.) készítsen mintavételi stratégiát a napi változások feltérképezésére 2.) készítsen mintavételi stratégiát az éves változások feltérképezésére
Modern mĬszeres analitika szeminárium „Néhány egyszerĬ statisztikai teszt” Galbács Gábor
KIUGRÓ ADATOK KISZįRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje Gyakori feladat az analitikai kémiában, hogy „kiugrónak tĬnČ” mérési adatokról kell eldöntenünk, hogy azokat elhagyjuk-e a további számításokból. Erre vonatkozóan ne feledjük, hogy kisszámú mérési adat esetén (mondjuk néhány tíznél kevesebb) semmiképpen lehetünk benne biztosak, hogy a mért adatok normális (Gauss) eloszlásúak, mert nincs elegendČ információnk ennek eldöntésére. Ne feledjük, ebbČl az is következik, hogy abban sem lehetünk biztosak, hogy az adatok átlaga a legjobb becslés a helyes értékre! (ilyenkor a medián számítása lehet a legjobb megoldás). Ha azonban biztosak vagyunk a normális eloszlásban, akkor többféle statisztikai teszt közül választhatunk a kiugró pontok kiszĬrésére. Ezek közül kettČt alkalmazunk most: • Dixon-féle Q-teszt • Grubb-féle teszt
KIUGRÓ ADATOK KISZįRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje A Dixon-féle Q-teszt során a
Q
köz terjedelem
mennyiséget kell kiszámolni és egy táblázatból vett Qkrit értékkel összehasonlítani; ha Q> Qkrit, akkor a gyanús érték elhagyható. A képletben a terjedelem a legkisebb és legnagyobb mért érték közötti távolság, a köz pedig a „gyanús” adatelem és legközelebbi szomszédja közötti távolság.
1. FELADAT Kiugró adat kiszIJrése Q-teszttel Egy kalcit minta százalékos CaO tartalmára a következČ adatokat kaptuk: 55.95%, 56.00%, 56.04%, 56.08%, 56.23% Az utolsó adat „gyanúsnak” tĬnik. Kiugró értéknek számít-e 90%-os megbízhatósági szinten és így el kell-e hagynunk az adatok közül?
1. MEGOLDÁS Kiugró adat kiszIJrése Q-teszttel A megadott adatokra: 55.95%, 56.00%, 56.04%, 56.08%, 56.23% terjedelem= 56.23% - 55.95% = 0.28% köz = 56.23% - 56.08% = 0.15%
Q
köz terjedelem
0.15% 0.28%
0.54
mivel 90%-os megbízhatósági szinten 5 adatra Qkrit = 0.64, aminél Q értéke kisebb, ezért az adatot bent kell hagynunk az adatsorban.
2. FELADAT Kiugró adat kiszIJrése Q-teszttel Fenol meghatározása HPLC módszerrel a következČ adatokat szolgáltatta:
Az elsČ adat „gyanúsnak” tĬnik. Kiugró értéknek számít-e 90%-os megbízhatósági szinten és így el kell-e hagynunk az adatok közül?
2. MEGOLDÁS Kiugró adat kiszIJrése Q-teszttel A megadott adatokra:
Q
köz terjedelem
0.177 0.167 0.189 0.167
0.455
mivel 90%-os megbízhatósági szinten 10 adatra Qkrit = 0.412, aminél Q értéke nagyobb, ezért az adatot elhagyhatjuk az adatsorból.
KIUGRÓ ADATOK KISZįRÉSE STATISZTIKAI TESZTEKKEL Grubb-féle teszt A Grubb-féle teszt során feltesszük, hogy normális eloszlásúak az adataink és azt vizsgáljuk, hogy a „gyanús” adat elČfordulásának valós valószínĬsége ínĬsége kisebb kisebbe, mint a megbízhatósági szint. A következČ egyszerĬ képlet értékét számoljuk ki a gyanús adatra:
Z
átlag x s
ahol az átlagot az összes mért adatra számoljuk, s az empirikus szórás, x pedig a „gyanús” mérési adat értéke. Ezek után a Z értékét egy táblázatból vett Zkrit értékkel kell összehasonlítani; ha Z> Zkrit, akkor a gyanús érték elhagyható.
90%
92.5%
95%
97.5%
99%
3. FELADAT Kiugró adat kiszIJrése Grubb-féle teszttel Egy urán izotóp tömegspektroszkópiás meghatározása során a következČ nyolc intenzitás adat született: 199.31; 199.53; 200.19; 200.82; 201.92; 201.95; 202.18; 245.57 Az utolsó adat „gyanúsnak” tĬnik. Kiugró értéknek számít-e a 99%-os megbízhatósági szinten és így el kell-e hagynunk az adatok közül?
3. MEGOLDÁS Kiugró adat kiszIJrése Grubb-féle teszttel A megadott adatokból: 199.31; 199.53; 200.19; 200.82; 201.92; 201.95; 202.18; 245.57 átlag= 206.433 empirikus szórás (standard deviáció)= 15.852
Z
átlag x
206.433 245.57
s
15.852
2.468
A táblázatból, 8 adatra a Zkrit értéke 99%-os szinten 2.22. EbbČl az következik, hogy igen, az adat elhagyható.
A MEDIÁN ALKALMAZÁSA KIUGRÓ ADATOK ESETÉN Kisszámú mérési adat esetén Ha kisszámú mérési adatunk van, akkor nem lehetünk biztosak abban, hogy az adatok a normális eloszlást követik. Ekkor az átlagnál jobb becslés a valódi értékre a medián megadása, mivel ez sokkal robusztusabb a kiugró adatok kezelésében. A medián definíció szerint az az érték egy adathalmazban, amelynél az adatoknak pontosan a fele nagyobb és pontosan a fele kisebb. Ha páratlan tagú adatsorról van szó, akkor a nagyság szerint rendezett adatok közül a középsČ értéke. Ha páros tagszámú az adatsor, akkor (egy „lepuhított definíció szerint”) a két középsČ érték átlagát tekintjük mediánnak. Példa:
4. FELADAT ÉS MEGOLDÁS A medián érték robusztusságának szemléltetése A következČ mérési adatsorunk van: 10.1; 9.9; 9.7; 10.2; 10.5; 3.0; 10.3; 10.0; 10.0 ami nagyság szerint rendezve megfelel: 3.0; 9.7; 9.9; 10.0; 10.0; 10.1; 10.2; 10.3; 10.5 az átlag: 9.3 a szórás: 2.373 a medián: 10.0 ha elhagyjuk a kiugró adatot (3.0), (3 0) akkor: az átlag: 10.087 a szórás: 0.247 a medián: 10.05 Gondoljuk végig otthon azt is, hogyan alakulnak a számok extrém esetben, pl. amikor 10 mérési adatból kilenc értéke 1,000, míg egynek az értéke 1,000,000 !
MÉRÉSI ADATOK ÁTLAGÁNAK ÖSSZEVETÉSE A VALÓDI ÉRTÉKKEL Null hipotézis Egy másik gyakori, statisztikai jellegĬ feladat az analitikai kémiában, hogy (pl. egy validálás, QC mérés során) összevessük mérési adatainkat a helyes, valódi értékkel. Ez utóbbit valójában csak éppen ilyenkor ismerjük, mivel a QC mérések során egy referencia mintát mérünk meg, amelyet mi állítottunk elČ (vagy kereskedelmi) és összetételét pontosan ismerjük. Mivel a mérési adatok pontosan nagy valószínĬséggel nem fognak egyezni a valódi értékkel, ezért statisztikai próbának kell alávetni az adatokat, hogy eldönthessük, a tapasztalt eltérés a mérési adatok átlaga és a valódi érték között még belefér-e a normális eloszlás szórásába, vagy nem. Az utóbbi esetben rendszeres hibával (negatív vagy pozitív) állunk szemben. Az ellenĒrzés az ún. null hipotézissel lehetséges. Feltevésünk az, hogy nincs rendszeres hiba (egy adott megbízhatósági szinten). Ez akkor teljesül, ha a
xP
r
ts n
ahol µ a valódi érték, s az empirikus szórás, t a Student-féle érték, n pedig a mérési adatok száma.
5. FELADAT Null hipotézis alkalmazása Egy kénmeghatározási eljárás tesztelése során a 0.123% kéntartalmú referencia mintára a következČ elemzési eredményeket kaptuk: 0.112%; 0.118%; 0.115%; 0.119% Állapítsuk meg, hogy van-e rendszeres hiba a mérési adatokban, vagy nincs! A megállapítást tegyük meg 95% és 99% megbízhatósági szintre is!
5. MEGOLDÁS Null hipotézis alkalmazása µ= 0.123% n= 4 s= 0.0032 átlag= 0.116% átlag - µ = 0.007 0 007 95% valószínĬségi szinten t95%= 3.18 (mivel a szabadsági fokok száma= 3), így: ts n
3.18 0.0032 4
0.0051
az (átlag - µ) > 0.0051, tehát a null hipotézist el kell vetnünk. Van rendszeres hiba ezen a valószínǿségi szinten!
5. MEGOLDÁS Null hipotézis alkalmazása µ= 0.123% n= 4 s= 0.0032 átlag= 0.116% átlag - µ = 0.007 0 007 95% valószínĬségi szinten t95%= 3.18 (mivel a szabadsági fokok száma= 3), így: t s 3.18 0.0032 0.0051 n 4 az (átlag - µ) > 0.0051, tehát a null hipotézist el kell vetnünk. Van rendszeres hiba ezen a valószínǿségi szinten!
99% valószínĬségi szinten t99%= 5.84, így ekkor ts n
5.84 0.0032 4
0.0093
az (átlag - µ) < 0.0093, tehát a null hipotézis megállja a helyét. Nincs rendszeres hiba ezen a valószínǿségi szinten!