SZAKDOLGOZAT
Keresztkorreláció vizsgálata statisztikai teszttel
Készítette: Balogh Bertalan kémia BSc szakos hallgató Témavezető: Tóth Gergely egyetemi docens
Eötvös Loránd Tudományegyetem, Természettudományi Kar, Kémiai Intézet, Fizikai Kémiai Tanszék Budapest, 2011.
0/51
Tartalomjegyzék Köszönetnyilvánítás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1. Bevezetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2. Korrelációs és regressziós számítások elvi alapjai . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2. Korreláció vizsgálata két változó esetén . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3. Lineáris korreláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.4. Szignifikanciavizsgálat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.5. Idősorok elemzése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.5.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.5.2 Autokorreláció és keresztkorreláció idősoroknál . . . . . . . . . . . . . . . . . .
10
2.5.3. Korrelációs tesztek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.5.3.1. Neumann-teszt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.5.3.2. Durbin-Watson-teszt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.5.3.3. Egyfaktorú ANOVA-teszt ismételt mintavétellel . . . . . . . .
14
.
3. A légszennyezésekről . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.1 Globális hatások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.1.1. Üvegházhatás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.1.2. Ózonpajzs gyengülése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.1.3. Savas esők . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2. Helyi hatások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
4. Légszennyezési adatok és összefüggések vizsgálata a keresztkorrelációs teszttel.
24
4.1. Célkitűzés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
4.2. A keresztkorrelációs teszt elmélete és számítógépes programja. . . . . . . . . . . .
24
4.2.1. Az autokorrelációs teszt átdolgozása keresztkorrelációra……………...
24
4.2.2. A keresztkorrelációs teszt programja…………………………………..
25
4.3. A keresztkorrelációs teszt alkalmazása . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.3.1. Munkanap-hatás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.3.2. Az időjárás különböző összetevőinek kapcsolata egymással . . . . . . . . .
28
4.3.3. Korreláció vizsgálata az időjárási és a légszennyeződési adatok között . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.3.4. Korreláció vizsgálata egyes légszennyezők között . . . . . . . . . . . . . . . .
43
4.4. Eredmények áttekintése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
5. Összefoglalás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Irodalomjegyzék . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
1/51
Köszönetnyilvánítás Szeretnék köszönetet mondani azoknak, akik segítséget nyújtottak, hogy dolgozatomat elkészítsem. Köszönettel tartozom Tóth Gergelynek, aki a vizsgálatokhoz szükséges statisztikai tesztet alkalmazó programot, mely munkám kiindulópontjaként szolgált, rendelkezésemre bocsátotta, és a megfelelő szakirodalmakhoz hozzáférést biztosított, valamint folyamatos konzultációkkal segítette a dolgozat elkészülését. Továbbá köszönöm Dr. Salma Imrének, hogy a vizsgálandó időjárási és légszennyezési adatokat összegyűjtötte és rendelkezésemre bocsátotta, valamint, hogy az eredmények kiértékeléséhez is segítségét nyújtott.
2/51
1. Bevezetés A természeti folyamatokra jellemző adatokat rögzítő idősorok többnyire előre kiszámíthatatlan, véletlenszerű változásokra jellemző lefutást mutatnak, azonban hosszabb időszakban vizsgálva az egyes felvett adatsorok bizonyos trendek meglétére utalhatnak. Ezeknek a trendeknek a kimutatására alkalmasak az autokorrelációs vizsgálatok, míg az egyes adatsorok egymás közti összefüggéseit (vagy az összefüggés hiányát) a keresztkorrelációs vizsgálatok mutatják ki. Ilyen vizsgálatokra több módszert fejlesztettek ki. Legszélesebb körben különféle korrelációs vizsgálatok, autoregressziós modellezések terjedtek el. Napjainkban már ismert az időkésleltetés bevezetésével bővített megismételt mintavételes ANOVA teszt [12], amelyet a Szerzők mint érzékeny és nagy jóslóerejű eljárást ismertetnek. Munkám célja az volt, hogy ennek az új tesztnek a keresztkorrelációra alkalmazott
változatát
létrehozzam,
és
annak
alkalmazását
megvizsgáljam
légszennyezési adatsorok egymásra hatásának elemzése terén, és következtetéseket vonjak le arra nézve, hogy mennyire meggyőző ennek az új tesztnek az alkalmazhatósága. Alapgondolatom az volt, ha a teszt által kimutatott vagy kizárt korrelációkra a természeti folyamatok ismeretében kivétel nélkül vagy túlnyomó többségben meggyőző magyarázat található, akkor a teszt alkalmas ilyen feladatokra. A természetben lejátszódó folyamatok bonyolult, esetenként ma sem teljesen ismert összefüggések szerint hatnak egymásra. Nincs ez másképpen a különböző szennyező anyagok mért koncentrációinak elemzése esetén sem. A légszennyezési adatok és az időjárási körülmények naponta rögzített értékei idősorokat képeznek, amelyek első ránézésre egyenként is szeszélyesen változó, nehezen értelmezhető képet mutatnak; egymás közötti összefüggéseiknek vizsgálata pedig nagyon összetett feladat, éppen ezért kiválóan alkalmas az új teszt alkalmazásának kipróbálására. Munkám során először áttekintettem a korrelációs vizsgálatok elméleti alapjait, különös tekintettel az újonnan kifejlesztendő teszt alapjául szolgáló módszerekre, majd pedig az eredeti, autokorrelációs teszt számítógépes programjának átdolgozását (keresztkorrelációra) mutattam be. Ezek után a városi környezetre jellemző levegőszennyeződési adatok vizsgálatát végeztem. A vizsgálat kiterjed az adatok időbeni változására, valamint arra,
3/51
hogy ezek az adatok hogyan hatnak egymásra, a változásokat hogyan befolyásolják bizonyos általunk is kontrollálható vagy tőlünk független körülmények. Ezeknek a szennyeződéseknek a szintje adott helyen tendenciákat mutatva változhat, szezonális és bizonyos esetekben az emberi tevékenység alapján is magyarázható periodicitással jellemezhető. A lokális szennyezettségi adatokat erősen befolyásolják az időjárási körülmények is. A légszennyezési adatok figyelemmel kísérése, az időjárási és más környezeti adatok egyidejű megfigyelése alapot nyújt az egyes légszennyezők és a külső körülmények egymásra hatásának elemzésére, és a statisztikai feldolgozás lehetőséget teremt előrejelzésekre is. Az elemző munka alap az önkormányzatok számára fontos döntések meghozatalára, ilyenek például: ipartelepítési és városrendezési tervek, forgalomszervezés,
közösségi
közlekedés
átszervezése
vagy
rekonstrukciója,
munkálatok ütemezése, egészségügyi riadókészültség előkészítése. Mindezekhez szükség van olyan matematikai apparátus felhasználására, amely az egymástól függetlenül fellépő tényezők hatásainak összefüggéseit és az összefüggések időbeli lefutását képes megbízhatóan feltárni. Munkám során az új teszt erre a célra történő alkalmazhatóságát is megvizsgáltam, vajon milyen segítséget nyújthat ez az időeltolásos módszer a modellezésben.
4/51
2. Korrelációs és regressziós számítások elvi alapjai Két (vagy több) mérhető mennyiség között a kapcsolat (ha van) lehet determinisztikus (pl. U=R*I), vagy a véletlen által (is) befolyásolt, vagyis sztochasztikus. A sztochasztikus kapcsolat vizsgálatára szolgál a korreláció- és regresszió-számítás [7, 20, 23, 24].
2.1. Alapfogalmak Korreláció A korreláció-számítás arra az alapvető kérdésre ad választ, hogy van-e kapcsolat két vagy több változó között, és ha igen, az mennyire szoros. Regresszió Arra, hogy a kapcsolat megléte esetén hogyan lehet előre jelezni az egyes változók értékéből más változók várt értékét, a regressziós számítás ad választ. A variancia a sztochasztikus folyamatban a valószínűségi változó és az E() várható érték közötti várható eltérés mérőszáma: 2 2 , ennek négyzetgyöke a szórás: 2 ( ) [8]. Idősoroknál, ahol a független változó értékét meghatározott időpontokhoz kapcsolt mért yi adat jelenti, várt értékként az összes mért N darab adat átlagát tekintjük: , míg a becsült szórás:
s
N
i 1
( yi y ) 2
N 1
,
vagyis s a valószínűségi változó értékeinek az átlagértéktől való eltérésére jellemző (felülvonással az átlagértéket jelölve).
5/51
2.2. Korreláció vizsgálata két változó esetén Legegyszerűbb esetben két változó egyidőben felvett értékeinek összefüggését vizsgáljuk egy nagyobb számú sokaságból kiragadott adott N számú mintán. Ez az egyterű és egyidejű minta kétváltozós sokaság, és munkahipotézisként feltételezzük, hogy normális eloszlású. Két
változó
értékei egyszerűen ábrázolhatók
derékszögű
koordináta-
rendszerben, mint az egyik változó (x) és másik változó (y) összetartozó értékeit bemutató pontsereg. Egy ilyen egyszerű ábrázolás sokat mondó kvalitatív képet nyújthat arról, hogy az adott adatsorok között van-e összefüggés, és ha van, akkor az milyen szoros, és milyen függvénnyel adható illetve közelíthető meg. Ha a kapott képen a pontok elosztása diffúz, és az összes pont vagy néhány túlzottan kilógó pont kivételével a pontsereg nagyjából körvonallal keríthető be, nagy bizonyossággal mondható, hogy a két változó között nincs semmiféle összefüggés. Ha a pontsereg többé-kevésbé keskeny ellipszissel keríthető be, akkor bizonyos összefüggés várható, mégpedig minél megnyúltabb az ellipszis, a korreláció annál szorosabb. Szoros korreláció esetén egyre inkább kirajzolódik, hogy a pontsereg egy egyeneshez
vagy
más,
egyváltozós
függvény
képéhez
közelít.
Megfelelő
transzformációkkal ez utóbbiak is visszavezethetők lineáris összefüggésekre. Ebben az esetben a koordináta-tengelyeket az y* illetve x* szerint skálázva a pontsereghez egyenes illeszthető. Logaritmikus: y=b0+b1lnx ; y*=y; x*=lnx Hatvány: y=axb ; linearizált alakja lny=lna+blnx; y*=lny; x*=lnx Exponenciális: y=abx ; linearizált alakja lny=lna+x*lnb; x*=x; y*=lny Hiperbolikus: y= 1/(a+bx) ; linearizált alakja 1/y=a+bx; x*=x; y*=1/y vagy y= a+b/x ; ekkor x*=1/x; y*=y
6/51
2.3. Lineáris korreláció Formalizálva: r=Corr(xi,yi), ahol az x és y egy vizsgálat során egyidőben mért két adatot jelenti. Legegyszerűbb esetben (illetve linearizálás után) a pontsereg kisebb-nagyobb pontossággal egyenest jelöl ki, ekkor az összefüggés lineáris. A legkisebb négyzetek módszerével kijelölhető az az egyenes, amely legjobban illeszkedik a pontsereghez [20]. Az egyenes egyenlete a következő: y=b0+b1x, ahol b1=dxdy/dx2 ; b0= y -b1 x itt dx=(xi- x ); dy=(yi- y ); felülvonással az átlagértéket, aláhúzással a becslést jelölve. Az egyenes elhelyezkedése önmagában is sokat mondó lehet, ránézésre eldönthető, hogy pozitív vagy negatív korreláció áll fenn. Szemlélet alapján is szoros korreláció tételezhető fel, ha a pontok mind viszonylag közel találhatók az egyeneshez. Viszont ha ez az egyenes vízszintes, akkor y változó még ekkor sincs korrelációban az x változóval. Statisztikai adatok feldolgozásánál óvatosan kell ezt a kérdést kezelni, mert előfordulhat, hogy létezik korreláció, de az x változása csak nagyon kismértékű y változással jár együtt. A változók közötti összefüggés erőssége a korrelációs koefficienssel fejezhető ki. Az elméleti korrelációs koefficiens, értékét a következő módon számíthatjuk [9]:
x x y y (ahol a számláló a kovariancia kifejezése), másképpen x y
xy x y Itt E a várható értéket, a változók szórását x y
jelenti. Mivel statisztikai adatok felvételénél az elméletileg várható értékek és a szórások sem ismertek, a tapasztalati korrelációs koefficiens számításához kell folyamodnunk, és annak ismeretében becsülhetjük –t. A várható érték helyébe a felvett adatok átlagát helyettesítjük, és a szórást () is az átlagtól való eltérések figyelembe vételével közelítjük (s),
így jutunk a Pearson-féle tapasztalati
koefficienshez (r), amelynek számítása a következő:
7/51
N
i 1
r
( xi y i x y ) N
i1 ( xi x ) N
N
r
N
N
i 1
N
, másképpen 2
( xi x )( yi y )
i1 ( xi x ) 2 i1 ( yi y ) 2 N
i 1
, azaz
N
( xi x ) i 1 ( yi y )
N
r
( xi yi x y ) 2
i 1
r
N
i 1
i1 ( yi y ) 2 N
2
N
; ebből
d xi d yi
N
i 1
d x2i d y2i
Az r (és ) korrelációs koefficiens értéke -1 és +1 közötti értékeket vehet fel, és a minták számának növelésével egyre megbízhatóbban közelíti -t. Minél nagyobb a becsült nak, illetve az r-nek az abszolút értéke, a korreláció annál szorosabb. Egy-egy feltűnően kilógó pont, amely nem illeszkedik a többi pont által kijelölt egyeneshez, erősen befolyásolhatja a korrelációs koefficiens értékét. Ilyenkor nagyon alapos vizsgálat szükséges annak eldöntéséhez, hogy vajon nem durva felvételi hiba okozhatja-e a kirívó eltérést, és hogy ez a pont teljesen figyelmen kívül hagyható-e, vagy az általános szabályszerűség megállapítása mellett további, nagyobb mintán végzett adatfelvételt tesz szükségessé. Akár azért, mert x bizonyos szélső értékeinél másmilyen összefüggés feltárására van szükség, akár azért, mert nem jól választottuk meg a linearizált függvény típusát és ez csak szélsőséges x értékeknél mutat nagyobb eltérést. Kisszámú minta esetén az is előfordulhat, hogy pár pont segítségével valamilyen prekoncepció alapján történt az adott egyenes meghatározása. Láthatólag szoros korrelációt mutató eredmény esetén sem következtethetünk okvetlenül valós összefüggésre. Előfordulhat, hogy mind x, mind y változása egyértelműen következik egy harmadik w változó értékeiből. Ebben az esetben nincs értelme korrelációs számítást végezni. A korrelációs számítások eredményeit tehát minden esetben értelmezni és értékelni szükséges.
8/51
2.4. Szignifikanciavizsgálat Különösen kis számú minta esetén felmerülhet a gyanú, hogy a kimutatott korreláció csak a véletlen műve. Meg akarunk bizonyosodni arról, hogy egy választott konfidencia-szintnél magasabb a valószínűsége annak, hogy a kimutatott korreláció valóban létezik. Ahhoz, hogy az r értékét elfogadhatónak tartsuk, szignifikanciavizsgálatot kell végezni egy N-2 szabadságfokú t-statisztika felhasználásával (Studentpróba). Kiinduló hipotézis H0: =0;
tr
N 2 1 r 2
Ha t abszolút értéke magasabb, mint adott szignifikanciaszinthez és szabadságfokhoz tartozó kritikus érték, akkor a H0: =0 hipotézist elvetjük, vagyis elfogadjuk a korreláció fennállását és r értékét. A fent említett kritikus érték számítása nem könnyű, de gyakorlati felhasználás céljából táblázatos formában rendelkezésre áll.
2.5. Idősorok elemzése 2.5.1. Alapfogalmak Munkám során idősorokat vizsgáltam [7,10,11]. Itt az egyik változó, az idő befolyásolhatatlanul halad előre. Az időskála egysége , amely az i-edik és i+1-edik időpont különbsége, a továbbiakban a mintavétel időpontjainak sorszámára (1,2,3…,i,…N) hivatkozunk. A független változónak meghatározott időpontokban (mintavétel) felvett értéke az időtől okságilag független; mértékét más tényezőknek a mérési időpontok között bekövetkezett változása határozza meg. Az így kapott összefüggés ábrázolása időfüggvényhez közelít, légszennyezési adatok esetén korlátozott értékkészlettel. Idősor létrehozása: a)
Folytonos folyamatból diszkrét mintavétel, ahol a mintavétel
időpontja ti ; ti-ti-1= (ekvidisztáns) b)
Folytonos mérés időközökre átlagolva.
A regressziós elemzés az idősorok ismert szakaszából von le következtetést két vagy több idősor kapcsolatának várható alakulásáról. Lehetőséget nyújt időbeni 9/51
előrejelzésre, illetve arra, hogy az egyik tényező ismeretében megbecsüljük a másik tényező értékét. Egy idősor tartalmazhat determinisztikus és sztochasztikus trendet. Sztochasztikus stacionárius folyamatban xt(t [t1;t2] T) eloszlása független [t1;t2] kiválasztásától, itt T az idősor hossza. A sztochasztikus trendet tartalmazó sorok idővel változó véletlenszerű trendet tartalmaznak. xt=xt1+t . Legegyszerűbb esetben (véletlen bolyongás) Gauss-i fehérzaj folyamat az xt stacionárius sztochasztikus folyamat, ha minden t-re standard normális eloszlású. A trendstacionárius folyamat formalizált leírása: xt=0+1t+t , ahol xt egy trendstacionárius idősor; t=1,2,…N; t egy 0 várható értékű állandó szórású változó. Vektor autoregresszió (VAR): két ismeretlen esetén y(t) és x(t) függő változók egymás késleltetett értékeire vannak felírva. A VAR modell felírása több függő változóra is lehetséges, erre utal az elnevezésben a vektor szó (függő változók vektora). A VAR(p) jelölésben a p a késleltetések számára utal. Egy kétváltozós vektor autoregresszív folyamat az alábbiak szerint írható le: yt=10+11yt-1+12yt-2+…+1pyt-p+11xt-1+12xt-2+…+1pxt-p+1t ; és xt=20+21xt-1+22xt-2+…+2pxt-p+21yt-1+22yt-2+…+2pyt-p+2t , ahol és ismeretlen együtthatók, ε1t és ε2t a hibatagok.
2.5.2. Autokorreláció és keresztkorreláció idősoroknál Nincs értelme azt a kérdést feltenni, hogy egy adatsor hasonlít-e önmagára. Korreláció állhat fenn egy adatsor és saját, időben eltolt adatai között, vagy a vizsgált adatsor és egy másik, tőle független adatsor között. Az autokorreláció egyazon adatsor különböző (térben szomszédos vagy időben eltolt) megfigyelési egységekre vonatkozó értékei közötti kapcsolatot méri. Az időbeli (egyterű) k-adrendű korreláció formalizálva: r=Corr(xi;xi-k). Az időbeli autokorreláció k=1 esetén azt jelenti, hogy minden i-edik időponthoz tartozó xi adatot korreláltatjuk az egy időponttal megelőző felvett értékkel. Az eltolás következtében az adatsor hossza kval csökken, hiszen az első k ponthoz nem lehet hozzárendelni korábbi adatot.
10/51
rk
N
i k 1
( xi x )( xi k x )
N
( xi x ) 2 i 1
; k=1,2,…N-1
Parciális autokorreláció A parciális autokorreláció az xt és xt-k adatsor közötti korrelációt mutatja xt-1, x t-2 , …, xt-(k-1) kiküszöbölésével [10, 11]. A parciális autokorreláció függvény mintából számított értékeit úgy kapjuk, hogy egyre magasabb rendű autoregresszív egyenleteket becslünk. Az első parciális autokorreláció értékét az alábbi becsült a11 koefficiens adja: yt=a0+a11yt-1+t. A második parciális autokorreláció értékét az alábbi becsült a22 koefficiens adja: yt = a0+ a21yt-1+ a22yt-2 + t , és így tovább. A parciális korrelogram a parciális autokorrelációkat mutatja a késleltetés függvényében (yt és yt-k között) ábrázolva a többi yt-j (j = 1, … , k-1) kiszűrésével. Két valószínűségi változó közötti kapcsolat szorosságát kifejezhetjük a korrelációs együtthatóval. Egy idősor autokorrelációs függvénye az eredeti adatsor és a kidővel eltolt adatsor (k=0,1,2…N-1) értékekhez tartozó (k) autokorreláció tényezőiből áll. Autokorreláció-mátrix:
1 1 Pn = 2 n1
1 1
2 1
1
1
n2
n 3
n1 n2 n3 A Pn autokorreláció-mátrix szimmetrikus, 1
mivel rxy=ryx . Jellemző függvényképek: a)
Normális eloszlású független sorozat esetén a k értéke (k 0)
elvileg 0, a gyakorlatban a véletlenszerű hibák miatt 0 körüli szűk tartományban ingadozik. b)
Autokorrelált sorozatnál 0< k <1, lecsengő jellegű (a függvény
mozgóátlaggal jellemezhető, trend szerint alakul) c)
Periodikus függvény esetén az autokorreláció-függvény lefutása
is azonos periódus szerint alakul.
11/51
A keresztkorreláció két adatsor közötti kapcsolat szorosságát vizsgálja (időben vagy térben). Ha az egyik adatsor értékeit vetjük össze a másik adatsor időben eltolt megfelelő értékeivel, akkor a késleltetett hatások is értékelhetők. Az időbeni keresztkorreláció formalizálva: r=Corr(yi;wi-k).
2.5.3. Korrelációs tesztek [12]. A korreláció vizsgálatára több tesztet dolgoztak ki. Az autokorrelációs tesztek az
adatok
megfelelő
csoportosításával
alkalmasak
egyidejű
illetve
időbeli
keresztkorrelációs elemzésekre. Adatelemzés során – különösen, ha az adatok idősorként kezelhetők – bizonyos trend meglétét definiálhatjuk, ha az adatsor két pontjának várható értéke közötti különbség szignifikánsan nagyobb, mint amennyit a mintavétel bizonytalansága okoz. Ez azt jelenti, hogy az adatok időbeli eltolódása az átlag időbeli szignifikáns átalakulását hozza magával az eltolódás előttihez képest. Homoszkedasztikus adatok esetén (ekkor az adatok hibája nem függ attól, hogy az idősor melyik pontjához tartozik) az eredeti és az időben eltolt adatok közötti variancia időbeli alakulásának különbsége az átlag alakulásának tendenciáját jelzi. A legtöbb parametrikus trendtesztben az eltolódott adatokat az adathalmaz teljes varianciájával helyettesítjük. A tesztekben null- és alternatív hipotéziseket deklarálnak, és rendszerint a különböző varianciák arányát számolják ki és hasonlítják egy teszt-statisztikához, amelyből egy valószínűségi jellegű p érték nyerhető. Ha a p érték kisebb (más esetekben nagyobb) mint a megkívánt szignifikanciához számított érték, akkor a hipotézist el kell vetni. Olyan másodrendű stacionárius idősoroknál, amelyeknél az átlag és a variancia időfüggetlen,
nem
létezik
tendencia.
Ugyanakkor
lehetséges
autokorreláció
másodrendű stacionárius idősoroknál, mivel az autokorreláció csak az időkésleltetéstől függ. A különböző lineáris modellek, mint az autoregressziós, az integrált és mozgóátlagos valamint nem-lineáris modellek kifejezik a sorozatok időbeli alakulását az előző adatok időkésleltetésének függvényében. Tóth G. és munkatársai idősoros adatok parametrikus tesztekkel történő trendanalízisével foglalkoztak [12]. A fokozatos trendre vonatkozó Neumann-teszt, ennek a reziduálisokra alkalmazott variánsa, a Durbin-Watson teszt és az egylépcsős varianciaanalízis (ANOVA) összevetésével azt találták, hogy az ANOVA az általuk történt
12/51
kiegészítéssel összemérhető a korábbi tesztek erejével a pozitív és negatív korreláció meghatározása terén. Alkalmasan választott megismételt mintavétellel és egy időkésleltetés-változó bevezetésével a megismételt mintavételes ANOVA teszt érzékenysége alapvető jellemző mind a pozitív, mind a negatív autokorreláció meghatározása terén homoszkedasztikus normál eloszlású adatsoroknál. Az időkésleltetés-függő tesztek hatékony eszköznek tűnnek az idősorként kezelt adatok elemzése és különösen az adatmodellek tervezése során. Ezt a teszt kidolgozói azzal a módszerrel igazolták, hogy a teszteket különböző beépített trendű (esetenként fehér zajjal terhelt) szimulált adatokkal vizsgálták és hasonlították össze. A teszt alkalmasnak bizonyult Magyarországon mért különböző légszennyezési kísérleti idősorok elemzésére is. 2.5.3.1. Neumann-teszt Az időben egymást követő adatpárok különbségének négyzetösszegét a dN értékek számlálójaként vesszük, a nevezőt pedig az egyes adatok és az átlag eltérésének négyzetösszege adja a teljes adatsorra vonatkozóan, ahol N az xi adatok száma [25]:
x x dN x x N
2
i 2 N
i 1
i 1
i
2
; dN értéke 0 és 4 közé esik.
i
Véletlenszerűen kiválasztott normális eloszlású adatok esetén dN=2. Ha az egymást követő adatok között pozitív autokorreláció van, akkor dN<2. dN érzékeny a negatív autokorrelációra is, ha a szomszédos adatok jobban különböznek egymástól, mint az átlagosan elvárható; ebben az esetben dN>2. A null- és alternatív hipotézist Neumann az alábbiak szerint körvonalazta. H0: nincs fokozatos trend az adatsorban, H1: fokozatos trend áll fenn az adatsorban. dN,krit értékek kisebbek 2-nél, és függenek N-től továbbá a megkívánt szignifikanciától (). H0-t elvetjük, ha dN< dN,krit . Például dN,krit(N=10, =0,05)=1,062; dN,krit(N=30,
=0,05)=1,418; dN,krit(N=60, =0,05)=1,581. A kritikus érték kiszámítása nem könnyű, és számos tudományos elemzést találni róla. A Neumann-teszt nem népszerű vizsgálati módszer, de van néhány újabb alkalmazása [18, 19]
13/51
2.5.3.2. Durbin-Watson-teszt A Neumann-teszt egy alesetét, a Durbin-Watson-tesztet gyakran használják autokorreláció jelenlétének kimutatására regresszió utáni reziduálisokban [26,27]. A reziduálisok elsőrendű autokorrelációjának fennállása azt jelenti, hogy a megfigyelések nem függetlenek egymástól. Szabályszerű legkisebb négyzetösszeg alapján végzett regresszió esetén a reziduálisok átlaga egyenlő 0-val, ezért a fenti képlet egyszerűsíthető:
e
i
ei 1
N
2
N
dDW =
i 2
2
.
e i 1 i
Ennek a tesztnek a hipotézise különbözik a Neumann-tesztétől [13]. A módszer pozitív vagy negatív autokorreláció kimutatására használatos. Két kritikus értéket használ, ezek N-től és a megkívánt -tól függenek. Ez a teszt csak akkor nyújt elfogadható választ, ha a reziduálisok normális eloszlásúak. Pozitív autokorreláció esetén: ha dDW< dDW,alsó
krit.,
a pozitív autokorreláció
szignifikáns. Ha dDW,alsó
krit.
krit.,
nincs szignifikáns válasz. Ha dDW,felső
krit.
krit.
<(4-dDW)< dDW,felső
krit.,
akkor a negatív
krit.,
nincs szignifikáns
válasz. Ha dDW,felső krit. <(4-dDW), akkor szignifikáns a negatív autokorreláció hiánya. A kritikus értékek kiszámítása hasonló a Neumann-tesztéhez. A DurbinWatson-tesztnek sok elemzése található különböző vonatkozásokban. 2.5.3.3. Egyfaktorú ANOVA (Analysis of Variance) ismételt mintavétellel [12] Az ANOVA (Analysis of Variance) [7,14,15] teszt számos, általában paralel elrendezésű csoport folytonos, normális eloszlású tulajdonságának átlagát veti össze. Az egyfaktorú ANOVA teszt annak kimutatására szolgál, hogy egy változó vizsgálatára felvett különböző minták átlagértékei korrelálnak-e egymással, ha igen, milyen erős a korreláció.
14/51
A különböző minták egyesítéséből számítható teljes négyzetösszeg (négyzetre emelve és összegezve az adatok eltérését a nagy átlagtól) a csoporton belüli és csoportok közötti részre osztható. Kiindulópont az F-próba, ami az átlagok eltérésére karakterisztikus „csoportok közötti” varianciát
veti
össze
a
random
ingadozást
leíró „csoportokon
belüli” varianciával. A csoportosító változót faktornak nevezzük. Ha egy faktornak a függő
változóra
gyakorolt
befolyását
elemezzük,
akkor
egyfaktoros
varianciaanalízisről beszélünk. A különbségek felkutatása mélyebb elemzésekkel – ismétléses vagy kontrasztbeli összehasonlításokkal – fokozható. Tegyük fel, hogy különböző helyeken felvett adatok függenek a mintavétel helyétől. Ez az eredeti H1 hipotézis, ennek ellentettje a H0 nullhipotézis, amikor feltételezzük, hogy az egyes sorozatok között nincs semmiféle összefüggés. Hipotézisünk igazolására G különböző helyen idősoros mintákat veszünk fel; a j-edik mintasorozat nj tagból áll, az összes minta
G
j 1
nj=N. Azt találhatjuk, hogy az egyes
csoportok eléggé hasonlítanak egymásra, például a j-edik csoport legkisebb és legnagyobb
értéke
közötti
tartományba
beleesik
az
összes
többi
csoport
értékkészletének nagy része. Képezzük külön-külön mindegyik csoport átlagértékét és az összes mintára vonatkozó teljes (T) átlagértéket.
xj
nj
i 1
xij
nj
; xT
n G
nj
j 1
i 1 ij
x
G
j 1
j
Nagyon valószínű, hogy abban az esetben is, ha H1 helytelen, az egyes csoportokra vonatkozó átlagértékek eltérnek egymástól. A csoportátlagok szórása, feltéve, hogy mindegyik csoport n tagból áll, s
sT (Fisher-Bartlett tétel). Az xij tag n
eltérése a teljes átlagtól két részből tevődik össze: egyik összetevő a saját csoportátlaghoz vett eltérés (csoporton belüli), a másik a saját csoport átlagának eltérése a teljes átlagtól (csoportközi): (xij- x T)=( xij- x j) + ( x j- x T) . Ennek alapján a teljes négyzetösszeg is felbontható [14,15]:
15/51
x G
nj
j 1
i 1
SSW=
xT j 1 i 1 xij x j x j xT ; illetve 2
ij
x G
nj
j 1
i 1
ij
G
nj
2
x j ; SSB= j 1 n j x j xT 2
2
G
ahol az első tag a négyzetösszegnek a csoporton belüli (W), a második a csoportközi (B) összetevője. A variancia általános kifejezése: s2= (x- x )2 / Df , ahol Df a szabadságfok. A variancia kifejezéséhez DfB=G-1 ; DfW=
G j 1
(nj-1), vagy ha nj mindegyik csoportnál
ugyanaz a n, akkor DfW=G(n-1). A variancia csoporton belüli és csoportközi összetevői a következők:
x x = n 1 G
sW2
nj
j 1
i 1
ij
j
G
j 1
n x j xT j 1 j
2
G
2
; s B2
j
G 1
s B2 képlettel kiszámolunk egy F értéket, amely F-eloszlást követ, sW2
Ebből az F=
ha a halmazokon belüli adatok normális eloszlásúak és átlaguk ugyanaz. Az ANOVA használatának szükséges feltétele kapcsolatban van a halmazokon belüli varianciával. Adott halmazon belüli adatoknak normális eloszlásúnak kell lenniük, és a halmazon belüli varianciának azonosnak kell lennie a másik csoportéval. Ugyanígy figyelembe vehető az eltérő méretű halmazok kiegyenlítése. Ha az összes adatunk nij mátrixba van rendezve, ahol egy halmaz nj elemű, és G halmaz van, akkor az arány kiszámítására a formula a következő:
(i j yij ) 2
j
nj
( j i j yij ) 2 G
n
G
N
G 1
F
n
(i j yij ) 2 n
G
nj
j
i
y j 2 ij
G
nj
N G A H0 hipotézist, vagyis hogy a különböző adathalmazok átlaga egyenlő, elvetjük, ha F nagyobb, mint a kívánt szignifikanciához tartozó egyfaktorú Fkrit érték. Az ANOVA megismételt mintavételes továbbfejlesztése során először a Neumanntesztet helyettesítették az ANOVA teszttel. Minden adat (kivéve az első és utolsó adatokat) két csoporthoz tartozik. Ez bizonyos inkonzisztenciát okozhat az ANOVA esetén, ha az adatok ugyanolyan csoportosítását alkalmazzák, mert az adatoknak a
16/51
csoportokban függetleneknek kell lenniük. Ezért az adatok véletlenszerűen irányított megismételt mintavételét alkalmazták. G=N/4 párt véletlenszerűen választottak olyan módon, hogy a párok metszete üres legyen. Más szavakkal: egy kiválasztott adat csak egyetlen csoport eleme legyen. Egy párt két egymást követő elem alkot. Ez azt jelenti, hogy az ANOVA-hoz az adatok felét használták. Nézzünk egy példát! Ha N=8 és G=2, akkor 15 lehetőségünk van párokat képezni: x1-x2 és x3-x4, x1-x2 és x4-x5… x1-x2 és x7-x8; x2-x3 és x4-x5…x2-x3 és x7-x8;…; x5-x6 és x7-x8. Mindezek a választások egy p=1-p(F) értéket adnak, ahol F a fenti képletből adódik a kiválasztott párok elemeire. p(F) annak a valószínűsége, hogy egy G-1 és G szabadságfokú Fischer-eloszlású változó értéke kisebb, mint F. Néhányszor megismételték a véletlenszerű kiválasztást (pl. G/4 esetben) és az F értékek átlagát használták p=1-p(
) kiszámításához. Hagyományos egyfaktorú ANOVA esetén a null-hipotézis (a halmazok átlagának egyenlősége) elvethető, ha p értéke kisebb az elvárt szignifikanciánál, pl.
=0,05. Az idősorozat egyes szakaszaira vonatkozó átlagok nem-egyenlő volta pozitív autokorrelációt jelenthet. Az ANOVA teszt megismételt mintavételes módszere közvetlenül kimutatja az egyenlőséget vagy annak hiányát. Az átlagok túlságosan szoros egybeesését nem elemezték egyfaktorú hagyományos ANOVA teszttel, de a p-érték közel áll egy olyan indikátorhoz, amely statisztikailag előnyben részesíthető, ha a csoportátlagok közel vannak egymáshoz. Ez lehet az adatok negatív autokorrelációjának a következménye. Ezért mind a Neumann, mind a Durbin-Watson teszt hipotézise átvihető a megismételt mintavételes ANOVA módszerre. A Szerzők mindegyik teszt esetén javasolják p alkalmazását. ANOVA teszt a Neumann teszt kiváltása esetén: a)
H0: nincs fokozatos tendencia az adatsorban
b)
H1: létezik fokozatos trend
c)
H0 elvetendő, ha 1-p() kisebb, mint amegkívánt
szignifikancia (általában 0,05). ANOVA teszt a Durbin-Watson teszt kiváltása esetén a)
H0(DW): nincs autokorreláció az adatsorban
b)
H1,low(DW): van pozitív autokorreláció
c)
H1,up(DW): negatív autokorreláció van
17/51
d)
H0(DW) elvetendő H1,low javára, ha 1-p() kisebb, mint
e)
H0(DW) elvetendő H1,up javára, ha 1-p() nagyobb, mint 1-
Időfüggő ANOVA(h) és Neumann(h) tesztek formái megismételt mintavétellel Másodrendú stacionáris idősoroknál, ahol az átlagérték és a variancia időfüggetlen, a statisztikai autokorreláció az alábbiak szerint fejezhető ki:
x x x Corrh x x N h
i
ih
N
2
i
i
x
i
A Corr(h) grafikus megjelenítését gyakran használják az idősorok különböző tulajdonságainak megjelenítésére, mint amilyenek a periodikusság (szezonalitás), az autokorrelációs folyamatok információvesztésére (leromlás) vagy a zajhatásokra. Az új módszer kidolgozói csoportok képzését alkalmazták („megismételt mintavétel”) nem egymást követő, hanem h távolságban lévő két elemből. A folyamatot többször lefuttatva átlagos p értékeket kaptak a h függvényében az 1() összefüggéshez, így a teszt kiterjed a h-tól függő hipotézisek készletére, ahol h darab választ kaphatunk hipotéziseinkre. Klasszikus statisztikai tesztek esetén a válasz rendszerint egy logikai érték, hogy a hipotézis megtartható-e vagy elvetendő. htól függő hipotézis-készlet esetén érdemes felvázolni a h függvényében az 1-() összefüggést, hogy kijelöljük az elfogadási és elvetési tartományokat a grafikonon. A h maximális értékét a Szerzők N/3-ig korlátozták, hogy minden h esetére megbízható statisztikát kapjanak a számítások során.
18/51
3. A légszennyezésekről 3.1. Globális hatások [17] A levegő elsősorban nitrogénből és oxigénből áll, számottevő még a nemesgázés víztartalom. További, részben az emberi egészségre is ártalmas természetes eredetű összetevők globálisan olyan kis koncentrációban vannak jelen, amelyek nem jelentenek egészségügyi veszélyforrást. Viszont közülük a szén-dioxid, a metán és az ózon azok, amelyek alacsony koncentrációjuk ellenére rendkívüli mértékben hatnak az élővilág létfeltételeire.
3.1.1. Üvegházhatás Az üvegházhatású gázok nagymértékben átlátszóak a napfény spektrumtartományában, de a földfelszínről a világűr felé visszasugárzott infravörös tartomány számára inkább átlátszatlanok. A földre érkező napenergia így csapdába kerül, és emiatt a föld átlaghőmérséklete mintegy 33 °C-kal melegebb, mint amennyi a beérkező és kisugárzott energia mérlegéből az üvegházhatás nélkül adódna. Az üvegházhatást okozó anyagok [22] a ma általánosan elfogadott nézet szerint az alábbi arányban járulnak hozzá ennek a helyzetnek a kialakulásához (1. táblázat):
1. táblázat: Száraz légkörben előforduló üvegházhatású gázok koncentrációja, légköri tartózkodási ideje és relatív üvegházhatáserőssége [22]
19/51
A víz szerepe ma nem tisztázott két ellentétes hatás miatt. Maga a vízmolekula üvegházhatású [1], viszont ha megnő a légkörbe jutó vízgőz mennyisége, és így nő az üvegházhatás, akkor ott a vízgőz kondenzálódik, felhőket képez, melyek jelentős mértékben szórják a bejövő sugárzást és így csökkentik a felszínt elérő és melegítő sugárzást [22]. A metán szerepének a növekedése várható pozitív visszacsatolás révén: az általános felmelegedés során mocsárrá olvadó permafrost-övezetben a jégből távozik az addig lekötött metántartalom, míg a dinitrogén-oxid képződése a növényiés talajélet természetes velejárója, és ennek intenzitása az üvegházhatás erősödésével nehezen jelezhető előre. Az emberi tevékenység az üvegházhatást okozó természetes eredetű anyagok koncentrációját emeli, másrészt korábban ismeretlen, a természetes összetevőkhöz képest nagyságrendekkel erősebb üvegházhatású szennyezést is magával hoz. Ilyenek a halo-fluorkarbonok (HFC), a poli-fluorkarbonok (PFC) és a kén-hexafluorid. Ezek koncentrációjának növekedése befolyással van illetve lesz bolygónk átlaghőmérsékletére annak
minden következményével
együtt: többek között
elsivatagosodás, tengervíz szintjének emelkedése, trópusi betegségek areájának kiterjedése. Vannak olyan nézetek, hogy a Föld történetében voltak már ennél sokkal nagyobb globális katasztrófák, például amikor a redukáló jellegű légkör oxidáló jellegűre változott. Bolygónknak valóban mindegy (Gaia elvan az ember nélkül is), de a mai élővilág, főleg az ember létfeltételeinek megóvása a helyzet stabilitását igényli. Az emberi tevékenység jelenleg gyorsuló ütemben járul hozzá a kedvezőtlen hatásokhoz. Az utóbbi 3-4 évszázezred során a légkör összetétele közel stabil volt, igaz, ezalatt is kimutatható a szén-dioxid tartalom periodikus ingadozása – ez viszont végig a mai magas koncentráció alatt maradt.
3.1.2. Ózonpajzs gyengülése A magaslégköri ózon kiszűri az UV-sugárzásnak az élővilágra veszélyes spektrumtartományát. A sztratoszférában az ózon fotokémiai reakcióban keletkezik a légköri oxigénből, és az ezzel párhuzamos bomlási folyamat révén a koncentrációja egyensúlyi helyzetben stabilizálódik. Az ózonpajzsot a légkörbe került halofluorkarbonok tehetik/teszik tönkre.
20/51
3.1.3. Savas esők Az emberi tevékenység miatt növekszik a nitrogén-oxidok és kén-dioxid koncentrációja. Az egyre inkább csökkenő pH-jú esők a talajéletet és az épített környezetet is károsítják, az erdők faállománya betegszik, a biodiverzitás csökken, a talajok termőképessége és a műemlékek állaga gyorsulva romlik.
3.2. Helyi hatások Az ember – megjelenését követően – sokáig kisebb mértékben, majd az utóbbi évszázadokban rohamosan gyorsulva befolyásolja a környezetét, ezen belül a légkör összetételét is [3]. A globális hatások lassan nyilvánulnak meg, de a lokális szennyezések rövid távon is kifejtik káros hatásukat. A lokális, véletlenszerű ipari kibocsátások (pl. dioxinbalesetek) nem tartoznak ebbe a vizsgálódási körbe, csak a mindennapi életvitel során jelentkező hatások. A nagyvárosokban jellemzővé vált légszennyezés ijesztő mértékben növelheti az allergiás és légúti megbetegedések gyakoriságát és súlyosságát valamint más egészségkárosodások fellépését. Munkám során 6 jellemző nagyvárosi légszennyezőt vettem figyelembe: CO, SO2, NO2, NOX, PM10, O3. Az időjárás nagymértékben befolyásolja ezen anyagok koncentrációját a levegőben, de ahhoz, hogy a mérésekből és számításokból nyert adatokat értelmezni tudjuk, először célszerű áttekintenünk ezeknek a légszennyező anyagoknak természetes és antropogén forrásait, nyelőit [4]. Ózon (O3): Az ózon a légkör két rétegében is jelen van, egyrészt a sztratoszférában, 25-50 km tengerszint feletti magasságban, másrészt pedig a földfelszín közelében. A sztratoszférában természetes úton keletkezik, és ez az ún. ózonpajzs védi a Föld felszínén élő élőlényeket a Napból érkező, számukra káros UVfénytől. A földfelszínhez közel, mint légszennyező anyag van jelen, és fotokémiai folyamatok során keletkezik; ehhez oxidáló anyagokra, szabad gyökökre és napfényre van szükség. A légkör más szennyezőivel könnyen reagál, és veszélyes anyagok képződnek, mint például az erősen mérgező PAN, azaz peroxi-acetil-nitrát, illetve a mérgező és rákkeltő aldehidek.
21/51
Természetes forrásai: A sztratoszférában oxigénből keletkezik egyensúlyi folyamatban. Antropogén forrásai: Érdemleges ózonkibocsátás nincs. Az ózon napfény hatására képződik fotokémiai úton, prekurzorai főleg égéssel járó folyamatok során keletkeznek (CO, NOx, valamint számos illékony szerves vegyület). Ezek jellemző forrása a kipufogógáz és más égéstermékek. Csökkenő intenzitású napsugárzás mellett képződése lassul vagy megszűnik. Kén-dioxid (SO2): a kén-dioxid és az oxidációja során keletkező kén-trioxid a nedvességgel együtt savas aeroszolt képez, és a savas ülepedés egyik okozója. Természetes forrása: Vulkáni tevékenység. Antropogén forrása: Elsősorban kéntartalmú tüzelőanyagok elégetése. A kibocsátás döntő részét a szenet használó erőművek és lakossági felhasználás, kisebb részét cseppfolyós (közte üzemanyagok) és gáznemű energiahordozók elégetése okozza. A kokszot használó acélgyártás szintén nagy kibocsátó, és ide sorolható a vegyipar több ágazata (kénsavgyártás, szulfidos ércek pörkölése) is. Szén-monoxid (CO): a szén-monoxid az a légszennyező anyag, melyről elmondható, hogy ahol nagyobb koncentrációban van jelen, szinte biztos, hogy emberi tevékenységből származik. Természetes forrásai: Vulkánok, erdő- és bozóttüzek, élőlények anyagcseréje. Antropogén forrásai: Fosszilis
tüzelőanyagok
tökéletlen
égetése
a
kén-dioxidnál
említett
ágazatokban: erőművek, gépjárművek, lakossági fűtés, kohászat.
PM10: A PM10 jelöléssel a levegőben szálló, 10 mikrométer átmérőnél kisebb szilárd vagy folyékony részecskéket (aeroszol) jelöljük; az ebbe a mérettartományba eső frakció több nap alatt sem ülepedik ki, így nemcsak a talajközeli légrétegekben fordul elő. A szélmegporzású növények virágpora ezt a mérettartományt felülről közelíti. 22/51
Természetes forrásai: Talajerózió, vulkánok, erdőtüzek. Antropogén forrásai: Szén, olaj, fa égetése (hamu- és koromszemcsék); közúti közlekedés (Dieselkorom, súrlódó erőátviteli alkatrészek és gumiköpeny kopása). A gépjárműforgalom különösen veszélyes forrás, mivel a régi típusú súrlódó betétekből (főleg fékbetét) azbeszt, az újabbakból pedig antimon-szulfid és rézszemcsék kerülnek a levegőbe [5]. Az elavult technológiák megszűnésével a kohászat és cementgyártás kibocsátása radikálisan csökken. Nitrogén-oxidok (NOx), nitrogén-dioxid (NO2): NOX alatt főleg a nitrogén-monoxid és nitrogén-dioxid összességét érjük, de ide érthető a dinitrogén-oxid is. Mivel a dinitrogén-oxid képződése főleg a növényi anyagcseréhez köthető (kibocsátása a mértéktelen nitrogén-műtrágya használat miatt egyre nő), jelen dolgozat szempontjából érdektelennek mondható. [2,6] Nitrogén-dioxid általában nem kerül közvetlenül a levegőbe, hanem többnyire nitrogén-monoxidból képződik oxigénnel reagálva. Természetes forrásai: Talajbaktériumok, vulkáni tevékenység, villámlások. Antropogén forrásai: Járművek, földgáztüzelés, fűtés, nitrogénművek (salétromsav-, műtrágya- és robbanószergyártás).
23/51
4. Légszennyezési
adatok
és
összefüggések
vizsgálata a keresztkorrelációs teszttel 4.1. Célkitűzés Munkám célja az időkésleltetéses ANOVA teszt megismételt mintavételes, keresztkorrelációt vizsgáló új változatának létrehozása, számítógépes beprogramozása és alkalmazása volt egy adott nagyvárosi környezet légszennyezettségi adatainak és az időjárás jelenségeinek együttes vizsgálatára, a teszt érzékenységének igazolására. Ebből a célból az alábbi lépéseket követtem: - Van-e egyidejű és késleltetett kapcsolat a különböző légszennyező anyagok koncentrációadatai között - Van-e egyidejű és késleltetett hatású kapcsolat a légszennyezés és az időjárás alakulása között - A légszennyezési adatok elemzése a munkanap-hatás figyelembe vételével, azaz esetünkben a gépjármű-forgalom és a légszennyezés összefüggésének vizsgálata - Az összefüggések magyarázatának keresése, ez alapján a teszt alkalmasságának vizsgálata
4.2. A keresztkorrelációs teszt elmélete és számítógépes programja 4.2.1. Az autokorrelációs teszt átdolgozása keresztkorrelációra A kiértékeléseket az ismételt mintavételes ANOVA teszt alapján végeztem, ennek során a felhasznált szakirodalom [21]. Az adatok feldolgozására szolgáló alapszoftvert (a teszt autokorrelációs változatát) Tóth Gergely és Csibi Ádám a rendelkezésemre bocsátották. Ez a szoftver interneten hozzáférhető programrészleteket is felhasznál. Az autokorrelációra kidolgozott módszert és a támogató szoftvert átdolgoztam keresztkorrelációs elemzések céljára, és kibővítettem az adatok standardizálását szolgáló résszel.
24/51
Az alapszoftver átdolgozása az alábbi bővítéseket is magába foglalja: adatbeolvasás átdolgozása, adatpárok vételének módosítása, eredmények kiírásának módosítása. A program többi részlete azonos a teszt autokorrelációs változatára megírt programmal. Az átdolgozás során az eredeti programhoz illeszkedve, a C nyelvet alkalmaztam.
4.2.2. A keresztkorrelációs teszt számítógépes programja Az adatok forrása részben [16] az Országos légszennyezettségi mérőhálózat (Hungarian Air Quality Network) napi átlagokra vonatkozó nyilvános eredményei, illetve részben Dr. Salma Imre egyéb forrásokból való gyűjtéseiből származnak (az időjárási és légszennyezettségi adatok egyaránt). Mérőállomás: Budapest, Erzsébet tér. Várható volt, hogy az időjárási tényezők hatása nem azonos az év minden szakában, ezért az évet három különálló időszakra osztottam: első, összevont második-harmadik, végül negyedik negyedév. Ezt az is indokolja, hogy ha két időszakban nagyon eltérő átlagok fordulnak elő, akkor az adott időszakon belüli kisebb ingadozásokra a teszt kevésbé érzékeny. Egy-egy időszak adatait a következőképpen rendeztem: 6 légszennyező, 7 időjárási, és 1 hétvége-hétköznap adat képezte a mátrix oszlopait (i=1…14), míg az adott időszakban felvett adatok (j=1…na, ahol na a napok száma) a sorokat. Az adatok standardizálását a következőképpen oldottam meg (s=1; a =0):
aij
bij b j
na
i 1
(bij b j ) 2 na 1
Itt aij a standardizált értékeket (későbbiekben x ill. y), b a mérés során nyert értékeket jelöli. Az egy időszakban lévő napok, azaz adatpárok száma na, az ANOVA kalkulációhoz felhasznált csoportok száma ng=na/4, egy csoport adatainak száma ni=2. Az időkésleltetés mértéke h-1, ahol h=1,2,3,...na/4; f átlagának számításához egy-egy adott késleltetéshez a program (na/4)-szer futott véletlenszerűen kiválasztott na/4 adatpárral. Az f-értékeket az alábbi képlet alapján határozta meg a program:
25/51
g 2 ( xi y i h 1 ) 2 (i 1 xi y i h 1 ) i 1 ni ni
n
ng
ng 1
f=
(x i 1
(i g1 xi y i h 1 ) 2 n
ng
2 i
y
2 i h 1
)
n
ni i
ng
, majd pedig az na/4 f-értéket átlagolta. DfB= ng-1; DfW= ng(ni-1), azaz mivel ni=2, DfW = ni n g . A kapott p-ket egy fájlba írta a program, amit aztán Excellel ábrázolva jól értelmezhető szemléletes ábrákká alakítottam át.
4.3. A keresztkorrelációs teszt alkalmazása Hogy az eredmények kiértékeléséhez tartozó ábrákat értelmezni tudjuk, tekintsünk meg egy példagrafikont, mely két mesterségesen létrehozott adatsor korrelációját vizsgálja. A két adatsort grafikonon is ábrázoljuk (1. ábra)!
1. ábra: kék vonal: xi = 0,3*sin(i*2π/32) + 0,7*Err, piros vonal: xi = 0,4*sin(i*2π/32) + 0,6*Err Ezekre az adatsorokra a programot lefuttatva, majd az eredményül kapott pértékeket ábrázolva szemléletes ábrát (2. ábra) kapunk.
26/51
2. ábra: A tesztadatsorokra lefuttatott program eredménye grafikusan ábrázolva.
A vízszintes tengelyen az időeltolás mértéke látszódik (h), míg a függőlegesen a számított p-értékek. A nulla értékhez közel található az a tartomány (p < 0,05), ahol szignifikáns pozitív, és az 1 értékhez közel (p > 0,95), ahol szignifikáns negatív korrelációt találtunk. A pozitív korrelációt két dolog okozhatja: ha mindkét adatsor az átlagtól felfelé, vagy ha mindkettő az átlagtól lefelé helyezkedik el. Ez jelen esetben annyit jelent, hogy ha az első (az 1. ábrán kék vonallal ábrázolt) adatsor egy adatát kiszemeljük, az azonos i-nél, az eggyel nagyobb, a kettővel nagyobb, a hárommal nagyobb i-nél a második (az 1. ábrán pirossal jelölt) adatsor adata ugyanabban az irányban tér el az átlagtól, mint az első adatsorból kiszemelt adat. Körülbelül h=15-25 időeltolás esetén az átlagtól való eltérés pont fordított irányú. Az alább következő ábráknál azt a megoldást választottam, hogy egy ábrán mutatom be az egész éves, és az időszakokra bontott korrelációs grafikonokat. Így a négy grafikont tartalmazó ábrákon az első grafikon a teljes éves vizsgálatot, a második grafikon az első
negyedéveset, a harmadik grafikon a második-harmadik
negyedéveset, a negyedik pedig az utolsó negyedéveset mutatja.
27/51
4.3.1. Munkanap-hatás Ezekről a grafikonokról (3. ábra) tisztán leolvasható, hogy a szennyező anyagok kibocsátása hétvégén és hétköznap teljesen különbözik egymástól, ennek oka a közlekedésben keresendő. Hétköznap ugyanis a nagyobb forgalom miatt a szennyező anyagok kibocsátása nagyobb. Az ózon itt is fordítva viselkedik, mint a többi anyag, hétvégén láthatóan megnő az ózon koncentrációja a levegőben. Ez nyilván nem az ózonkibocsátás miatt van, hanem a prekurzorok előző napokban történt kibocsátása miatt, melyek megnövelik a képződésének lehetőségét. Ezért van az is, hogy ha kéthárom-négy napja hétvége volt, az ózon mennyisége mélypontra kerül. Az is látható, hogy az ózon minimuma az első negyedévben kisebb eltolódást mutat a hétvégéhez képest. Az utolsó negyedévben kicsit kaotikusabban mozognak a görbék, ennek a gyengébb megjósolhatóságnak oka az alacsony keveredési réteg.
3. ábra: a keresztkorrelációs teszt eredménye a hétvége-hétköznap vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév.
4.3.2. Az időjárás különböző összetevőinek kapcsolata egymással Mielőtt megtekintenénk az időjárás és a szennyező anyagok közötti összefüggéseket, célszerű áttekintenünk, az egyes időjárási tényezők hogyan függenek össze egymással, ezáltal könnyebben elemezhetjük a szennyező anyagokra tett
28/51
hatásukat. A vizsgált időjárási tényezők a következők voltak: eső mennyisége (mm), szélsebesség (m/s), keveredési réteg magassága (m), légnyomás (hPa), relatív páratartalom (%), átlaghőmérséklet (°C), napsugárzás / beérkező hőmennyiség (W/m2). Mint látni fogjuk, egyáltalán nem függetlenek egymástól, hanem egy komplex rendszerként kell tekintenünk őket. Lássuk felsorolásszerűen, milyen kapcsolatban is állnak egymással! Keveredési réteg magassága A keveredési réteg magassága és a páratartalom között egyértelmű összefüggés figyelhető meg (4. ábra). Eme két tényező negatív korrelációban áll egymással, az év minden részében, de különösen az első, második és harmadik negyedévben. Ez a negatív korreláció körülbelül két napig fenn is áll, sőt, a második-harmadik negyedévben körülbelül egy héten át erős korreláció figyelhető meg eme két tényező között. Ez az összefüggés az egész éves adatsort vizsgálva is szembeötlő. A keveredési réteg magassága és az eső mennyisége között is figyelhető meg összefüggés, bár kevésbé erőteljes, mint a pára esetén láttuk. Itt is elmondható, hogy az esős időjárás és az alacsony keveredési réteg, valamint a száraz időjárás és a magas keveredési réteg általában együtt fordul elő. Ez az összefüggés viszont maximum csak körülbelül egy nap időeltolással figyelhető meg. A keveredési réteg és a szélsebesség összefüggése: e két tényező között egyértelműen pozitív korreláció áll fenn, amelynek érdekessége, hogy csak az első és negyedik negyedévben figyelhető meg, ott 1 ill. 3 napig jellemző, viszont a második és harmadik negyedévben az általam használt módszerrel nem kimutatható. A keveredési réteg magassága a légnyomással szintén szoros kapcsolatot mutat, viszont a légnyomásra mondható el leginkább, hogy csak és kizárólag az ugyanazon a napon mért értékek állnak egymással pozitív korrelációban, egy nap múlva már semmilyen összefüggés nem mutatható ki. A legegyértelműbb és leghosszabb pozitív korreláció a keveredésirétegmagasság esetében a hőmérséklettel mutatható ki. Ez leginkább a második-harmadiknegyedik negyedévben jellemző, és több mint tíz napig fennáll. Ezt a korrelációt a teljes évre vonatkoztatva is nagyon jól megfigyelhetjük. A keveredési réteg a napsugárzással is pozitív korrelációban áll, mely korreláció főleg a második-harmadik-negyedik negyedévben figyelhető meg, és
29/51
körülbelül egy hétig fenn is áll. Az első negyedévben csak egy-két napig figyelhető meg ez a korreláció. Tehát
összességében
elmondható,
hogy
magasabb
keveredési
réteg
előfordulása esetén alacsonyabb páratartalom, kevesebb eső, nagyobb szélsebesség, magasabb hőmérséklet, erősebb napsugárzás következik.
4. ábra: a keresztkorrelációs teszt eredménye a keveredési réteg vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Szélsebesség A szél és a keveredési réteg magassága között pozitív korreláció figyelhető meg (5. ábra), de csak az első, és a negyedik félévben, és csak az aznapi, és az egy nappal későbbi értékek között áll fenn. A szél és a páratartalom negatív korrelációban áll egymással, de csak az első, és negyedik negyedévben, és ott is csak egy napig érvényes ez a megfigyelés. A szélsebesség és a napsugárzás pozitívan korrelál, mely korreláció egy napig érvényes, és csak a második, harmadik és negyedik negyedévben észlelhető.
30/51
A szélsebesség a légnyomással semmilyen összefüggésben nincs, valamint a hőmérséklettel sem figyelhető meg egyértelmű korreláció. A negyedik negyedévre igaz, hogy a szélsebesség pozitív korrelációban áll az eső mennyiségével, tehát, ha erősebb a szél, általában utána négy-öt napig esős az idő. Összességében tehát megfigyelhető, hogy a nagyobb szélsebességet időben a magasabb keveredési réteg, alacsonyabb páratartalom, erősebb napsugárzás követi.
5. ábra: a keresztkorrelációs teszt eredménye a szélsebesség vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Páratartalom A pára és a napsugárzás kapcsolatát két időszakra bontva érdemes megfigyelni (6. ábra). Az első, második, harmadik negyedévben egy aznapi negatív korreláció látható, viszont ez pont fordítva igaz az utolsó negyedévre, ott ugyanis egy erőteljes pozitív korreláció figyelhető meg. A pára a légnyomással nem mutat összefüggést.
31/51
Az egész évet vizsgálva megfigyelhető, hogy a relatív páratartalom erős negatív korrelációban áll a hőmérséklettel. Ez negyedévekre bontva már nemigen megfigyelhető, csak az utolsó negyedévben egy kis mértékben. A páratartalom az esővel pozitívan korrelál, ez azonban csak az aznapi értékekre vonatkozik, hosszabbtávú összefüggés nem kimutatható. A páratartalom és a szélsebesség között csak egy enyhe pozitív korreláció látható, de csak aznapi adatokra, és csak az utolsó negyedévben. A páratartalom a keveredési réteg magasságával is pozitív korrelációban áll, mint megfigyelhető, eme összefüggés az aznapi, egy nappal, illetve két nappal eltolt adatokra is fennáll. Általánosságban tehát elmondható, hogy a párásabb levegővel egy időben a nagyobb csapadékmennyiség jellemző, és a magasabb keveredési réteg, viszont a párás levegőt nem megjósolhatóan követik az időjárás többi tényezője, ez inkább fordítva igaz.
6. ábra: a keresztkorrelációs teszt eredménye a relatív páratartalom vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
32/51
Eső Az eső és a relatív páratartalom között pozitív korreláció áll fenn (7. ábra), mely korreláció az első negyedévben egy, a második-harmadikban kettő napig figyelhető meg, és az utolsó negyedévben csak az aznapi adatokra vonatkozik. Az eső a széllel csak az utolsó negyedévben mutat összefüggést, ez a pozitív korreláció egy-két napig figyelhető meg. Az eső és a napsugárzás között negatív korreláció tapasztalható, főleg az első negyedévben, és ott az aznapi adatokra jellemző. Az eső és a keveredési réteg magassága között a második-harmadik negyedévben figyelhető meg kapcsolat, ez a negatív korreláció egy-két napig áll fenn. Összességében tehát úgy néz ki, esős időjárás esetén értelemszerűen megemelkedik a páratartalom (az esős időjárást párás levegőjű követi), a többi tényezővel leginkább csak aznapi összefüggés áll fenn: az eső együtt fordul elő a szeles időjárással, gyenge napsugárzással, és alacsony keveredési réteggel.
7. ábra: a keresztkorrelációs teszt eredménye az eső vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév.
33/51
Napsugárzás A napsugárzás és a keveredési réteg magassága között erős összefüggés mutatkozik (8. ábra), és ez a pozitív korreláció főleg a második-harmadik-negyedik negyedévben áll fenn. Az első negyedévben csak egy, a másodikban-harmadikban több mint tíz napig, a negyedikben pedig körülbelül egy hétig látható. A napsugárzás és a szélsebesség kapcsolatát figyelve csak egy gyenge pozitív korrelációt láthatunk az aznapi adatokra, és azt is csak az első félév kivételével. A napsugárzás a páratartalommal egy-két napig negatív korrelációban áll, ennek érdekessége, hogy a negyedik negyedévben az aznapi korrelációt figyelve, erős pozitív korrelációra figyelhetünk fel. A napsugárzás az esővel csak az első negyedévben áll negatív korrelációban, és ott is csak az ugyanazon a napon mért adatokra vonatkozik. A napsugárzás a légnyomással az elsőtől harmadik negyedévig terjedő időszakban mutat egy aznapi erős pozitív korrelációt. A napsugárzás a hőmérséklettel erős és hosszútávon megfigyelhető pozitív korrelációban áll, mely korrelációt legjobban a másodiktól negyedik negyedévig terjedő időszakban figyelhetjük meg. Tehát általánosan igaz, hogy erős napsugárzással egyidőben a keveredési réteg magas, nagyobb a légnyomás, és melegebb van. A többi tényezővel inkább időszakos, vagy gyenge összefüggést mutat.
8. ábra: a keresztkorrelációs teszt eredménye a beérkező hőmennyiség vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév. 34/51
Légnyomás A légnyomás csak a keveredési réteggel és a napsugárzással mutat összefüggést (9. ábra), egy aznapi pozitív korrelációt, viszont ez a korreláció a negyedik negyedévben a napsugárzásra nem kimutatható. Így elmondható, hogy a légnyomásból nem nagyon következtethetünk a többi tényező alakulására.
9. ábra: a keresztkorrelációs teszt eredménye a légnyomás vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Hőmérséklet A hőmérséklet a napsugárzással és a keveredési réteg magasságával szinte ugyanazt az összefüggést mutatja (10. ábra), mégpedig egy erős pozitív korrelációt, mely az első negyedévben maximum egy-két napig, a második-harmadik negyedévben körülbelül egy hétig, a negyedik negyedévben pedig több mint tíz napig áll fenn. A hőmérséklet és a páratartalom között is megfigyelhető összefüggés, az első, második, harmadik negyedévben ez egy egynapos késleltetéssel mutatkozó negatív korrelációban bontakozik ki, míg a negyedik negyedévben ez hosszútávon is megfigyelhető. Tehát a magasabb hőmérséklettel egy időben általában a nagyobb napsugárzás, a magasabb keveredési réteg, és az alacsony páratartalom fordul elő.
35/51
10. ábra: a keresztkorrelációs teszt eredménye a hőmérséklet vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
4.3.3. Korreláció vizsgálata az időjárási és a légszennyezettségi adatok között Eső: Általánosan megfigyelhető (11. ábra), hogy az eső kimossa a levegőből a szennyező anyagokat, valamelyiket jobban, valamelyiket kevésbé, tehát egy egyértelmű
negatív
korreláció
mutatkozik
a
szennyezők
többségének
koncentrációjával, mely leginkább a kén-dioxidra, legkevésbé az ózonra igaz. Ez persze csak rövidtávon mutatkozik meg. Felvetődhet kérdésként, hogy ezt a megfigyelhető negatív korrelációt mi okozza? Az esős időjárást követi a tisztább levegő, vagy pedig a száraz időjárást a szennyezettebb levegő, esetleg mindkét állítás igaz? Ehhez kiszámoltam az eső és a kén-dioxid-adatok alsó kvartilisét, illetve a felső kvartilisét. Ezután megvizsgáltam, melyik napokon fordulnak ezek elő, és hogy milyen gyakran fordul elő, hogy az eső- és a kén-dioxid-adat is az alsó kvartilis alatti, illetve, hogy az eső- és a kén-dioxid-adat is a felső kvartilis feletti egy időben. Eme vizsgálat
36/51
után kiszámoltam, hogy az alacsony eső-értékek hány százaléka van ugyanazon a napon, amikor a kén-dioxid-érték is alacsony, illetve a magas értékek esetén is ugyanígy jártam el. Számításaimból kiderül, hogy a magas eső-értékek 40%-ban okoznak alacsony szennyezettséget, illetve a kis eső értékek csak kb. 35%-ban esnek egybe a magasabb szennyezettséggel. Tehát mindkét állítás igaznak tűnik, de inkább az első a jellemző. Azt is láthatjuk, hogy például a kén-dioxid koncentrációja nagyon leesik eső esetén, viszont ez a második és harmadik negyedévben kevésbé van így. Ennek magyarázata abban kereshető, hogy ebben az időszakban az esős idő együtt jár az alacsony keveredési réteggel és a párásabb időjárással is erősebb összefüggést mutat, mint a többi időszakban.
11. ábra: a keresztkorrelációs teszt eredménye az eső vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév. Pára: Mint az ábrákon (12. ábra) jól látható, a párás levegő pozitív korrelációt mutat a szennyezők többségével, különösen a nitrogén-dioxid, nitrogén-oxidok, és a PM10 esetén. A már ismertetett módszerrel kideríthető, hogy a párás levegő ugyanolyan arányban okoz magasabb szennyezettséget, mint az alacsony páratartalom alacsony
37/51
szennyezettségi szintet. Ennek magyarázata lehet, hogy a párás levegő a szélcsendes időben jellemzőbb, s így a szennyező anyagok helyben maradnak. Az ózonnal nyáron megfigyelhető negatív korreláció valószínűleg a keveredési réteg magasságával való összefüggésnek tudható be, ugyanis a párás levegő a keveredési réteggel a nyári időszakban viszonylag hosszú lefutású negatív korrelációban áll, ami az ózon képződésének kedvezőtlen. (Lásd a keveredési rétegnél.)
12. ábra: a keresztkorrelációs teszt eredménye a relatív páratartalom vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév. Keveredési réteg magassága: Az ábrákon (13. ábra) megfigyelhető, hogy a CO, NO2, PM10 szennyezőkre igaz, hogy a második-harmadik negyedévben nagymértékű pozitív korrelációt mutatnak a keveredési réteg magasságával. Ennek oka lehet, hogy a magasabb keveredési réteg naposabb, melegebb idővel jár együtt, ami a szennyezőkre pozitívan hat. Ám ez az év mindegyik szakaszában igaz, akkor miért lehet az, hogy csak ebben az időszakban szembetűnő ez a jelenség? A magyarázatot talán az jelenti, hogy itt nincs pozitív korreláció a keveredési réteg magassága és a szélsebesség között, tehát a szél nem jár együtt a magas keveredési réteggel, így nem csökkenti a szennyezők
38/51
koncentrációját. Érdemes még megfigyelni és kiszámolni, hogy vajon az alacsony keveredési réteg és az alacsony szennyezettség, vagy pedig a magas keveredési réteg és a magas szennyezettség jár együtt. A fentebb ismertetett módszer alapján mindkettő igaznak bizonyult: az arányok itt a következőképpen alakultak: 37%-39%. Az egész évet vizsgálva szembeötlő az NO2, NOx, CO negatív korrelációja a keveredési réteg magasságával, valamint az ózon pozitív korrelációja. Ennek magyarázata, hogy a keveredési réteg és a nap-hőmérséklet kettős pozitív, illetve a páratartalommal megfigyelhető negatív korreláció is az egész évet vizsgálva mutatkozik meg a legjobban.
13. ábra: a keresztkorrelációs teszt eredménye a keveredési réteg hatásának vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Légnyomás: Az ábrákon (14. ábra) szemléletesen látszik, hogy főleg az egész éves adatsort vizsgálva, a légnyomás pozitív korrelációt mutat a szennyezőkkel, kivéve az ózont. Ennek oka lehet, hogy a légnyomás mutat egy aznapi pozitív korrelációt a keveredési réteg vastagságával, ami pedig az esővel negatívan korrelál. Röviden fogalmazva tehát a nagy légnyomás száraz, kis légnyomás esős időben jellemző, és ez okozhatja a
39/51
szennyező anyagok koncentrációjának a légnyomással való pozitív korrelációját. (Lásd az eső és a szennyezők közötti összefüggést.)
14. ábra: a keresztkorrelációs teszt eredménye a légnyomás vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Szélsebesség: Ha ránézünk az ábrákra (15. ábra), rögtön szembetűnik, hogy a szélsebesség erős negatív korrelációban áll az összes szennyező anyaggal, kivéve az ózont, amivel pont pozitívan korrelál. Az előbbiekben már ismertetett módszerrel megvizsgáltam, hogy a szeles idő jár-e együtt a tiszta levegővel, vagy a szélcsendes idő a szennyezett levegővel (jelen esetben a PM10-koncentrációt vettem alapul), mely vizsgálat során arra az eredményre jutottam, hogy a nagy szélsebesség 61%-ban okoz alacsony szennyezettségi szintet, míg az alacsony szélsebesség csak 45%-ban jár együtt a magasabb szennyezettséggel. Felvetődhet a kérdés, az ózon miért pont fordítva viselkedik, erre magyarázat lehet, hogy a szeles idő a naposabb időjárással függ össze, mely tényező kedvez az ózon kialakulásának. Az utolsó negyedévben megfigyelhető, hogy az ózon hosszabb távon (négy nap eltéréssel) enyhe negatív korrelációt mutat a szélsebességgel. Ennek magyarázata abban rejlik, hogy ebben az időszakban a keveredési réteg magassága is ugyanilyen négy napos késleltetett negatív
40/51
korrelációban áll, mely tényező ebben az időszakban szintén nagyon erős és jól megfigyelhető pozitív korrelációt mutatott a napsütéssel, tehát szeles időben alacsonyabb keveredési réteg és gyengébb napsütés esetén az ózon lokális termelődése nehezebben zajlik.
15. ábra: a keresztkorrelációs teszt eredménye a szélsebesség vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Nap: A hosszútávú grafikonon (16. ábra) jól megfigyelhető korrelációk az időszakos ábrákon kevésbé szembeötlőek. Ezen kívül, ami még a második-harmadik negyedév grafikonján látszik, hogy ott hosszabbtávú korrelációk állnak fenn. Ennek magyarázata, hogy nyáron jellemzőbbek a hosszú napsütéses időszakok, télen például sokkal kevésbé. A PM10 esetén egy érdekes jelenségre figyelhetünk fel: az utolsó negyedévet vizsgálva csak aznapi korrelációt figyelhetünk meg a napsugárzással. Ennek magyarázata abban rejlik, hogy a száraz felszín esetén a PM10 felszáll, reszuszpendálódik.
41/51
16. ábra: a keresztkorrelációs teszt eredménye a beérkező hőmennyiség vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév.
Hőmérséklet: A szezonális grafikonokon (17. ábra) megfigyelhető, hogy az első negyedévre igaz az a jelenség, hogy a hőmérséklettel pozitív korrelációban áll mindegyik szennyező anyag, kivéve a CO és a NOx, ezek az összefüggések kicsit gyengébben, de megmaradnak kb. 5 napig. A második és harmadik negyedévre ez annyiban különbözik, hogy az ózont kivéve csak az aznapi korreláció marad meg (az ózon viszont itt mutat hosszabb, azaz kb. 5 napos korrelációt). Az utolsó negyedévben már csak az ózonra igaz a pozitív korreláció, sőt, itt a CO már negatívat mutat. Ha ezt összevetjük az egész éves korrelációt mutató ábrával, ott láthatjuk, hogy a NO 2 kivételével mindegyik szennyezőről kimondhatunk valamit, az ózon itt is pozitív korrelációban áll a hőmérséklettel, a többi anyag pont fordítva, negatív korreláció figyelhető meg. Ennek magyarázata, hogy a meleg, naposabb időben az ózon könnyebben képződik, mely tény a többi eredményből is már kiolvasható volt.
42/51
17. ábra: a keresztkorrelációs teszt eredménye a hőmérséklet vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: másodikharmadik negyedév, jobb alsó grafikon: negyedik negyedév.
4.3.4. Korreláció vizsgálata egyes légszennyezők között A 18. ábrán jól megfigyelhető, hogy a szennyezők koncentrációja egyáltalán nem független egymástól, mely tény az eddigi vizsgálatok eredményének ismeretében egyáltalán nem meglepő. Ezen az ábrán jól megfigyelhető, hogy az ózon koncentrációja az összes többi szennyezőéhez viszonyítva pont fordítva változik. Egyetlen kivétel van: a nitrogén-dioxid, ennek oka, hogy a nitrogén-dioxid az ózon képződését segíti. Ezen az ábrán is szembeötlő a már korábban tárgyalt munkanaphétvége-hatás, a hétnapos periodikusság mindegyik grafikonon egyértelműen megmutatkozik.
43/51
18. ábra: a keresztkorrelációs teszt eredménye a légszennyezők kapcsolatának vizsgálatára. Bal felső grafikon: egész év, jobb felső grafikon: első negyedév, bal alsó grafikon: második-harmadik negyedév, jobb alsó grafikon: negyedik negyedév.
4.4. Eredmények áttekintése Az elemzés során négy területet vizsgáltam meg: a munkanapok-hétvégék és a szennyező gázok közötti, az időjárási tényezők közötti, az időjárás és a szennyező gázok közötti és a különböző szennyező gázok közötti összefüggéseket. Az első vizsgálatokból kitűnik, hogy a városi közlekedés nagymértékben befolyásolja a levegőben jelenlévő szennyezők koncentrációját, ugyanis világosan látszik, hogy hétköznapokon (amikor nagyobb a közlekedés) sokkal több szennyező anyag kerül a levegőbe, mint hétvégente. Itt az egyetlen kivétel az ózon, amely fordítva viselkedik, mint a többi szennyező anyag, ez a későbbi vizsgálatok során is szembeötlő jelenség. 44/51
Az időjárási tényezők kapcsolatának vizsgálatakor számos összefüggés mutatkozott meg. Amint azt mindenki logikusan gondolja, az időjárás különféle összetevői ugyanis egyáltalán nem függetlenek egymástól, rengeteg általános következtetést lehetett levonni, amit az ember amúgy is sejt. Ilyen megállapítások a következők lehetnek: a magasabb keveredési réteg együtt jár a szárazabb levegővel, naposabb és szelesebb idővel, kevesebb csapadékkal, magasabb hőmérséklettel, míg az alacsonyabb keveredési réteg pont fordítva: párás, napsütés nélküli, csapadékos, szélcsendes időjárási elemekkel függ össze. Mint látható tehát, ezen tényezők egy komplex rendszert alkotnak. Egyetlen kivétel itt is volt: a légnyomás, melynek értékei nem mutattak a vizsgálataim során szoros összefüggést a többi időjárási tényezővel. Az időjárás és a szennyező anyagok szintén egyértelműen megfigyelhető kapcsolatban állnak egymással, minden egyes időjárási elem mutat valamilyen összefüggést a szennyezőkkel. Persze itt figyelembe kell venni, hogy az időjárási tényezők sem függetlenek egymástól, tehát nem az összes időjárási elem hat a szennyezőkre, hanem amelyek nem, azok is szoros összefüggésben állnak a többivel, és ily módon kapcsolat fedezhető fel a szennyezőkkel is. Általánosan megfigyelhető, hogy az eső kimossa a levegőből a szennyező anyagokat. Az is tisztán látszik, hogy általánosságban a párás levegő magasabb szennyezettséggel, a szárazabb levegő alacsonyabb szennyezettséggel párosul. A magasabb keveredési réteg általában magasabb szennyezőanyag-koncentrációval jár együtt, ez a tipikus példája, hogy nem közvetlen kapcsolat fedezhető fel közöttük, hanem a többi időjárási tényezővel mutatott kapcsolatban keresendőek az okok. Ugyanez a helyzet a légnyomással is, a magasabb nyomás értelemszerűen nincs közvetlen hatással a szennyezőkre, ám az eredmények pozitív korrelációt mutattak itt is. Az is tisztán kiolvasható az eredményekből, hogy a szél elfújja a szennyezőket, tehát szelesebb időben tisztább a levegő. A napsütésre és a hőmérsékletre egyaránt elmondható, hogy a hosszútávú és az időszakos vizsgálatok egész más viselkedést mutatnak. A napsütéses idő általában magasabb szennyezettséggel jár együtt, ám a hőmérséklet igen különös viselkedést mutatott: az egész éves és az időszakos eredmények pont fordított korrelációt mutattak általánosságban, mely viselkedés a többi tényezőre nem volt jellemző. Általában megfigyelhető, hogy az ózon ellentétesen viselkedik a többi szennyezővel, bár itt is van kivétel, például az eső ugyanúgy kimossa az ózont is, mint a többi anyagot.
45/51
A különböző légszennyezők közötti vizsgálatokon is tisztán látszik, ami az előbbiek során is már egyértelművé vált: a munkanapok jelentős hatása által okozott periodikus viselkedés, valamint az ózon a többi szennyezővel ellentétes viselkedése (bár kivétel itt is akadt). Mint látható, az időjárást vizsgálva inkább logikusan sejthető tények mutatkoztak meg, míg a szennyező gázokra vonatkozóan már érdekesebb jelenségek is felbukkantak. Érdekességképpen még
megvizsgáltam,
hogy a
munkanapok-hétvégék
összefüggenek-e az időjárással. Legnagyobb megdöbbenésemre itt is mutatkozott némi gyenge összefüggés, mely azt mutatta, hogy hétvégén kevesebb csapadék hull, hétfőnkedden pedig több. Hogy ennek mennyi valóságalapja van, kérdéses. A p értékek itt csak 0,2-ig mentek le pozitív korrelációnál, és csak 0,8-ig mentek fel negatív esetén, de a periodikusság egyértelműen ott van. Mindenesetre, ha ez igaz, akkor adott még egy ok, hogy a hétfőt ne szeressük.
46/51
5. Összefoglalás Munkám során az ANOVA ill. időfüggő-ANOVA teszteknek a Tóth Gergely és munkatársai által publikált, időkésleltetéssel kiterjesztett megismételt mintavételes változatából kiindulva [12] egy új, keresztkorreláció vizsgálatára alkalmas tesztet programoztam be a számítógépbe, és alkalmazását légszennyezettségi illetve időjárási adatokon próbáltam ki, mutattam be. Az adatfeldolgozásra alkalmas számítógépes programot
az eredetileg
autokorrelációs vizsgálatokra létrehozott program átdolgozásával nyertem. Az alkalmazás során a mintasorozat a 2007.01.01 – 2007.12.31 időszakot ölelte fel, felvételi helye Budapesten az Erzsébet tér, amely erős helyi forgalommal terhelt közlekedési központ. Elemzéseim két lényeges területre összpontosítottak. Egyrészt vizsgáltam azt, hogy az egyes szennyezők koncentrációja összefügg-e, mutat-e valamilyen időbeli egyezést, hasonló tendenciát azok koncentrációinak időbeli lefutása. Másik szempontom az volt, hogy az időjárási körülmények hogyan hatnak a szennyezés mértékére, és ezzel összefüggésben, az időjárási körülményeknek van-e valamilyen több napi időtartamra is kimutatható hatása. Az eredmények elemzése meggyőzött arról, hogy az alkalmazott módszer érzékeny és nagy jóslóerejű tesztnek bizonyulhat ilyen idősorok kapcsolatának vizsgálatára. A keresztkorrelációs teszt beprogramozása és alkalmazása révén a modellezés szempontjából egy eddig nem ismert támpontot nyújtó módszert mutattam be, mely az időeltolás mértékétől függő keresztkorreláció vizsgálatára kiválóan alkalmas.
47/51
Summary The main outcome of our investigation is that the version of one-way ANOVA test using resampling with the introduction of time-lag published by Tóth G. [12] is suitable to analyze the connections of pollution and weather data. In our investigation we focused on air pollution data those are characteristic ones of big cities. The period of recording of data series was from Jan.01.2007 to Dec.31.2007, and located at Erzsébet square in Budapest. This is a typical city-like location with heavy local traffic. Our analyzing focused on two key themes. Partly, it was investigated, whether the various data are linked to each other; that is is there correlation between simultaneous data of various time series in the time span. Partly, our second point of view was: what is the impact of the weather conditions on pollution degree; furthermore, are there multi-day impact of these conditions. It was assumed as a starting point, that the human activity and the typical seasonal weather have impact on the primary links, therefore we divided the data series into three time span as it follows: A. January-March B. April-September C. October-December. In the course of data processing we applied the resampling variation of ANOVA and lag-ANOVA tests. The version of this test that was obtained by remodelling original one for investigating time lag cross-correlation proved to be suitable for our purposes. The computer program for analyzing cross-correlation also came from original variety by modification. We were convinced of that the resampling version of ANOVA is a sensible method with great prediction power in the field of our investigations.
48/51
Irodalomjegyzék (Az internetes források elérési ideje: 2011.04.-2011.05.) [1] http://ismeret.virtus.hu/?id=detailed_article&aid=84471 [2] http://www.env-in-cent.hu/infoklima/tudomany2.html [3] http://leeladam.web.elte.hu/legszenny1.pdf [4] http://www.sci.u-szeged.hu/eghajlattan/lev_egeszseg.pdf [5] http://www.otka.hu/print.php?akt_menu=3626& [6] http://legszennyezes.hu/legszennyezok/37-legszennyezk/64-nitrogen-oxidok [7] Sokváltozós adatelemzés (kemometria) Szerk. Horvai György Nemzeti tankönyvkiadó, Budapest 2001. [8] http://www.inf.unideb.hu/valseg/JEGYZET/valseg/node52.htm [9] http://www.inf.unideb.hu/valseg/JEGYZET/valseg/node60.htm [10] http://www.gupt.bme.hu/letolt/hajdu/okonometria/BME/Okon8Ea.pdf [11] ftp://193.224.129.229/!MSc/01_felev/NGM_SZ002_1_Adatelemzes/Doksi/CorvinusDarvas/Bev_idosorba.pdf [12] Gergely Tóth The replacement of the Neumann trend test Published online in Wiley InterScience: 2010 cem_1293 (Journal of Chemometrics Vol.24 Issue 3-4 p. 140-148) [13] http://www.oup.com/uk/orc/bin/9780199280964/01student/ppts/c12d4.ppt [14] http://people.richland.edu/james/ictcm/2004/oneway.ppt#257,2,One-Way ANOVA [15] http://www.uwsp.edu/psych/stat/12/anova-1w.htm [16] http://www.kvvm.hu/olm/ [17] Rakonczai János: Globális környezeti problémák (Lazi kiadó 2003.) [18] Machiwal D, Jha MK. Comparative evaluation of statistical tests for time series analysis: application to hydrological time series. Hydrol. Sci. J. 2008; 53: 353–366. [19] Machiwal D, Sharma A. Testing homogeneity, stationarity and trend in climatic series at Udaipur—a case study. J. Agrometeorology 2008; 10: 127–136 [20] http://rs1.szif.hu/~szorenyi/elm/bioselm7.htm [21] Shirley Dowdy – Stanley Wearden: Statistics for Research. John Wiley & Sons Inc. 1983.
49/51
[22] Császár Attila: A földi üvegházhatás. (Természet Világa, 140. évfolyam, 2. szám, 2009. február) [23] Ildikó E. Frank, Roberto Todeschini: The data analysis handbook, Elsevier Science, 1994. [24] Walter W. Piegorsch, A. John Bailer: Analyzing Environmental data, John Wiley & Sons, 2005. [25] Neumann J., Kent R.H., Bellison H.B., Hart B.I. The mean square successive difference. Ann. Math. Statist. 1941. [26] Durbin J., Watson G.S.: Testing for serial correlation in least squares regression I. Biometrika 1950. [27] Durbin J., Watson G.S.: Testing for serial correlation in least squares regression II. Biometrika 1951.
50/51