Adatbányászat alkalmazása bükkös erdő mikroklíma adatainak vizsgálatában. Pödör Zoltán NymE EMK Matematikai Intézet,
[email protected] Kivonat: Az adatbányászat eszközei hatékonyan alkalmazhatóak minden olyan területen, így az erdészetben is, ahol jelentős adathalmazok állnak rendelkezésre. Egy bükkös erdő mikroklimatikai adathalmazát felhasználva elemezzük a sugárzási adatokat, megvizsgáljuk, hogy milyen összefüggés áll fenn ezek és a többi paraméter között és ebből milyen következtetések vonhatóak le. Megmutatjuk, hogy az adatbányászat módszerei akár adatok javítására, műszer meghibásodásából származó adathibák felderítésére és kiküszöbölésére is alkalmazhatóak. Kulcsszavak: adatbányászat, erdei mikroklíma, sugárzási egyenleg, hiba felderítés, adatjavítás
1. Bevezetés: Az informatika világában ma az egyik legnagyobb probléma az egyre növekvő adathalmazok hatékony felhasználása. Szinte minden terület kapcsán elmondható, hogy óriási mennyiségű adat áll rendelkezésre, azonban ezek feldolgozása, kihasználtsága nem mindig megfelelően hatékony. A hagyományos eszköztárak alkalmazása mellett azok javítására, vagy bizonyos esetekben akár kiváltásukra nyújt lehetőséget az adatbányászat, az intelligens adatfeldolgozás, mely nagyméretű adathalmazok esetén lehetővé teszi a nem triviális összefüggések, információk, azaz új tudás kinyerését. Mindez az erdészeti tudományok területére is jellemző, ezért itt is fontos feladat ezen eszköztár megismertetése, lehetőségeinek bemutatása. Egy 50 éves bükkös erdőben gyűjtött mikroklimatikai adathalmazt vizsgálunk meg különös tekintettel a sugárzási adatokra. Elemezzük, hogy az egyes mért, illetve számított sugárzási paraméterek milyen kapcsolatban állnak a többi attribútummal, hogyan befolyásolják bizonyos változások ezen paraméterek alakulását. Továbbá megmutatjuk, hogy egy megfelelő tanulóhalmaz létezése esetén az adatbányászat metódusai alkalmazhatóak hibás, hiányzó attribútum értékek kezelésére a többi paraméter felhasználásával. Valamint bemutatjuk, hogy a műszerhibából adódó rejtett mérési hibák felderítésére és javítására is használhatjuk ezeket a módszereket.
2. Az adatbázis A vizsgált adatbázis egy 55 éves, középkorúnak tekinthető bükkösben végzett mérési adatokból áll. A bükkös koronaszintje 14-19 méteres, zárt, alatta a törzstér üres. Az itt folyó kutatás alapvető célja az elsősorban a koronaszint által irányított légkörfizikai folyamatok vizsgálata. Ez egy 30 méter magas toronyba szerelt műszerek segítségével történik, melyek 10 percenként több paramétert is mérnek különböző szinteken. A mérési szintek 30, 23, 19, 14 és 2 méteren vannak, ahol szintenként mérjük: hőmérsékleti adatokat (min., max., átlag, aktuális érték a mérés pillanatában), a szél adatokat (átlag, max. és bizonyos szinteken az irány),
1
légnedvességet, fotoszintetikusan aktív sugárzást, valamint mérünk még légnyomás értékeket, 30 méteren a hosszú és rövidhullámú lefelé, illetve felfele irányuló sugárzást, talajhőt 0, 5, 10, 20, 50, 100 cm mélyen, a levegő hőmérsékletet 5 cm magasan, levélfelszín hőmérséklet számításához szükséges adatokat, hó magasságot egy 2 m magasan elhelyezett, a talaj távolságát mérő eszközzel, csapadékmennyiséget, a talajnedvesség számításához 10, 20, 30, 40, 60 és 100 cm mélyen paramétereket. A mérések 2006.05.01-től 2008.08.01-ig állnak teljességgel a rendelkezésre 10 perces gyakorisággal. Ebben az időszakban jelentős műszer meghibásodás nem történt, a néhol fellépő adathiányosságokat könnyen tudtuk pótolni pl. a környező értékek átlaga alapján. Illetve néhány esetben vannak napok - amikor nem a műszerek hibájából - hiányoznak a mérési adatok, de ezek aránya nem befolyásolja a vizsgálatot. A fenti időszakban az adatgyűjtés, illetve az adatbázis felépítése során folyamatosan ellenőriztük az adatok helyességét (nemcsak egyszerűen a műszer által adott valid jelzést fogadtuk el). A közvetlenül mért paramétereken kívül egyéb, a klímakutatás szempontjából fontos számított adatokat is tartalmaz az adatbázis, mint pl. levélhőmérséklet, virtuális hőmérséklet, sugárzási egyenleg, albedo, páranyomás, stb.. Így elmondható, hogy egy hibáktól mentes, teljesnek mondható adathalmaz áll rendelkezésre a fenti időszakból kb. 65 attribútummal és nagyságrendileg 115000 db rekorddal. Ez megfelelő alapot jelent a bányászati modellek megalkotására és az elemzések elvégzésére. 3. Sugárzási adatok vizsgálata 3.1. Sugárzási paraméterek elmélete Először röviden tekintsük át a sugárzási paraméterek elméleti hátterét[5],[8]:
1. A sugárzás útja a légkörben
A Nap irányából a földfelszín felé rövidhullámú (globális) sugárzás érkezik, mely a légkörben történő elnyelés és szóródás után éri el azt. Ennek a sugárzásnak egy része rögtön vissza is verődik rövidhullámú sugárzás formájában és elhagyja a légkört. A bejövő és a visszaverődő rövidhullámú sugárzás különbsége a rövidhullámú sugárzási egyenleg, illetve a kettő aránya az albedo (visszaverődő/bejövő). A felszín az elnyelt rövidhullámú sugárzás (ennek nagyságát mutatja a rövidhullámú sugárzási egyenleg) hatására felmelegedik és így már hosszúhullámú sugárzást bocsát ki felfele. Ennek egy része azonban visszaverődik a légkörből pl. az
2
üvegházhatású gázok miatt, így felmelegítve azt. Erre a jelenségre szükség van, hiszen enélkül kb. 30 fokkal lenne alacsonyabb a Föld hőmérséklete, azonban az utóbbi évtizedekben veszélyes méreteket kezdett ölteni ez a folyamat: globális felmelegedés, üvegházhatás. A felszín által kibocsátott és a légkör által visszavert hosszúhullámú sugárzás különbsége a hosszúhullámú egyenleg. Valamint a rövid és hosszúhullámú sugárzási egyenlegek különbsége a sugárzási egyenleg, amely meghatározza az éghajlati folyamatok energia forrását. 3.2 sugárzási paraméterek elemzése, vizsgálata Az adatbázis közvetlenül mért adatok alapján tartalmazza a bejövő és kimenő hosszú, illetve rövidhullámú sugárzási adatokat, illetve számított adatként a rövid és hosszúhullámú, valamint a teljes sugárzási egyenleget és az albedo mértékét. Először megvizsgáljuk, hogy a fenti paraméterek milyen kapcsolatban állnak a többi attribútummal. Erre alkalmas eszközök az adatbányászat osztályozást megvalósító algoritmusai, mint pl. a Naive Bayes és Döntési fa algoritmusok[1],[2],[4]. Vizsgálatainkat először a teljes adathalmazra nézve végezzük el, majd utána megvizsgáljuk a lombos és lombtalan állapotot is, és összehasonlítjuk ezeket, kiemelve a váratlannak tekinthető eredményeket. A vizsgálatokhoz az MSSQL szerver 2008 szoftvert használjuk[6]. A teljes rendelkezésre álló időintervallumot tekintve elmondhatjuk, hogy a bejövő rövidhullámú sugárzással legszorosabb kapcsolatban álló paraméterek a levélfelszín hőmérséklet és a 19 méteres magasságban mért paramétereink: hőmérséklet, légnedvesség, telítettségi páranyomás, majd ezt követik az egyéb szinten mért légnedvesség és hőmérséklet adatok. Ez egybecseng avval, hogy a bükkös koronaszintje nagyjából ezen a magasságon van és a bejövő sugárzás nagy részét az erdők a lombkoronaszinten nyelik el. Nyári időszakban ez akár a teljes mennyiség 90-95%-a is lehet de télen is 60% környékén van[5]. Megmutatható, hogy a 19 méteren mért légnedvesség és a bejövő globális sugárzás között negatív korreláció áll fent, ami arra utal, hogy ha esik, azaz felhős az ég, akkor alacsonyabb a sugárzás mértéke. A többi paraméterrel pozitív kapcsolat áll fent. A Naive Bayes algoritmust alkalmazva megállapítható, hogy a bejövő globálsugárzást leginkább befolyásoló paraméterek már csak olyan erősségi szinten jönnek elő, amit nem érdemes vizsgálni. Lombos állapot esetén teljesen hasonló összefüggéseket tapasztalhatunk, azonban érdemes megnézni a lombtalan állapot időszakát. Ekkor ugyanis a 19 méteren mért adatoknak sokkal gyengébb kapcsolata van a bejövő rövidhullámú sugárzással, hiszen a lombkoronaszint a levélzet hiány miatt jóval nyitottabb és így alacsonyabb szinteken hasznosítódik a bejövő energia. A visszavert rövidhullámú sugárzás vizsgálata során a teljes időszak tekintetében hasonló eredményt kaptunk, mint a bejövő globális sugárzás kapcsán. Ez nem meglepő, hiszen a két egymáshoz kapcsolódó paraméter között lezajló visszaverődési folyamat egy helyen megy végbe és ez általában a lombkoronaszint. Érdekes azonban, hogy lombos állapotban a 19 méteren mért szél adat is szoros kapcsolatban áll a visszavert rövidhullámú sugárzás mértékével, míg lombtalan állapotban semmilyen kapcsolat nincs a két attribútum között. Ez arra utal, hogy a szél a levelek mozgatása által megváltoztatja a visszaverődés mértékét mégpedig úgy, hogy növekvő szélben növekszik a visszavert sugárzás mértéke. szél19<1 1<szél19<2 szél19>2 rövidhullámú kisugárzás átlaga 62,59278 83,35770135 88,33835 2. A 19 méteren mért szélerősség és a visszavert globális sugárzás kapcsolata lombos állapotban
A beérkező rövidhullámú sugárzás egy része tehát ugyanabban a formában visszaverődik (albedo) és elhagyja a légkört, ennek mértéke a fent leírtak miatt számottevően kisebb, mint más felszíni fajok esetén (15% körül van).
3
Érdekes megfigyelni, hogy nyári időszakban a lombos erdő albedója nagyobb, mint a lombtalan időszakban. További eredményként adódott még az albedo elemzése során, hogy az őszi, de még lombos időszakokban érzékelhetően csökkent az albedo mértéke a nyári lombos időszakhoz képest. Ez arra utalhat, hogy a levelek színváltása még inkább csökkenti a visszavert sugárzás arányát a bükkösben. 2006.07. 2006.09. 2007.07. 2007.10. albedo(%) átlag 16,61544 15,20185 14,3723 13,47568 3. Albedo átlagos mértéke nyáron és őszi, lombos időszakban
A közvetlenül vissza nem vert sugárzás pedig valamilyen formában hasznosul: transzspiráció (párologtatás), felszín felmelegedése, levegő melegedése. A felszín felmelegedése során az elnyelt rövidhullámú energia átalakul és hosszúhullámú sugárzás formájában kisugárzódik. Ez a típusú energia az, ami üvegházhatású gázoknak köszönhetően visszaverődik felmelegítve így a légkört[5],[8]. Ez egy szintig szükséges is, azonban az utóbbi évtizedekben főként a szénalapú anyagok égetése miatt ez már túlzott méreteket öltött (üvegházhatás, globális felmelegedés). Összességében elmondható, hogy akár a teljes, akár a lombos, vagy lombtalan időszakot tekintjük ugyanazok a paraméterek állnak kapcsolatban a hosszúhullámú kisugárzással, azaz a levélfelszínhő, a levegő hőmérséklet, valamint a telítettségi páranyomás(tpny) (az egységnyi térfogatú légoszlopban a T hőmérsékletű vízgőz parciális nyomása) és páranyomás (a levegőben levő vízgőz nyomása) értékek. A fent leírtaknak ez teljesen megfelel, hiszen a beérkező globális sugárzás párologtatásra, a levegő, illetve a felszín (lombkorona) felmelegítésére fordítódik. A kapcsolat mibenlétét vizsgálva megállapíthatjuk, hogy a rendkívül erős pozitív korreláció áll fent ezen paraméterek és a hosszúhullámú kisugárzás között. Érdemes ugyanakkor megjegyezni itt is, hogy a talajhőmérséklet(th) adatok már gyengébb kapcsolatban állnak a hosszúhullámú kisugárzással, hiszen, mint már korábban is említettük a kisugárzás fő színtere a lombkorona. paraméter tpny30 tpny23 tpny19 levfelszho hom19 hom23 th5 th10 r 0,967 0,971 0,973 0,997 0,993 0,990 0,912 0,88 4. Hosszúhullámú kisugárzás kapcsolata egyéb paraméterekkel
A légkörből visszaverődő hosszúhullámú sugárzás, ami a légkör felmelegedésért felel az alábbi paraméterek által meghatározott: legerősebben a páranyomás(pny) és a talaj, illetve levegő hőmérséklet adatokkal függ össze pozitív korreláció formájában. Bár ezek a kapcsolatok már sokkal kevésbé erősek, mint amit az előbb tapasztaltunk. paraméter pny14 pny2 pny23 talajhom0 hom30 r 0,756 0,758 0,758 0,688 0,644 5. Visszavert hosszúhullámú sugárzás kapcsolata egyéb paraméterekkel
A fentiek alapján arra következtethetünk, hogyha magas a levegő páranyomása, illetve telítettségi páranyomása, azaz a levegő nagy mennyiségű vizet tartalmaz, akkor a növények kevesebbet tudnak párologtatni, azaz a bejövő globális sugárzás kisebb részét használják fel transzspirációra és nagyobb része fordítódik a felszín és a levegő melegítésére és ezáltal magasabb lesz a hosszúhullámú kisugárzás és a visszaverődés mértéke is. Azaz ha intenzív a transzspirációja az állománynak, kevesebb energia jut a felszín hőmérsékletének növelésére és így valamelyest alacsonyabb lesz a hosszúhullámú kisugárzás és így a visszavert hosszúhullámú sugárzás mértéke is csökken. Mint már korábban említettük a sugárzási egyenleg az előbbiekben vizsgált rövidhullámú sugárzások egyenlegének és a hosszúhullámú sugárzás egyenlegének különbsége és így nem meglepő módon azt tapasztalhatjuk, hogy hasonló paraméterektől függ, mint azon attribútumok amelyekből előáll: levélfelszín hőmérséklet, telítettségi páranyomás, légnedvesség illetve a hőmérséklet adatok, azok közül is a 19 méteren mért hőmérséklet a
4
legerősebb. Lombtalan és lombos állapotban is szinte teljesen hasonló összefüggések adódnak egy jelentősebb különbséggel: lombos állapotban a 19 méteren mért szélerősség ugyancsak erős pozitív korrelációban áll a sugárzási egyenleggel. Ennek az oka valószínűleg ugyanaz, amit a visszavert globális sugárzás esetén már taglaltunk Összességében elmondható, hogy az adatbányászati eszközök alkalmazásával egy ilyen típusú adatbázisban felfedhetőek olyan kapcsolatok, összefüggések, és ezáltal felállíthatóak olyan hipotézisek, melyeket a hagyományos módszerekkel nem vagy csak nehezen lehet felderíteni, felállítani. Ezután természetesen a felderített kapcsolatokra megpróbálunk magyarázatokat találni, a hipotéziseket igazolni, vagy elvetni. Ehhez mindenképpen elengedhetetlen az adott terület szakértőjének az együttműködése, akinek segítségével a felállított összefüggésekről eldönthetjük, hogy lényegesek-e, érdemesek-e további vizsgálatra vagy sem. 4. Adathibák felfedése és kezelése Az adatbányászat, intelligens adatfeldolgozás esetén rendkívül fontos, hogy minél kevesebb hibát tartalmazó, lehetőleg hiány, zajmentes adatbázisunk legyen. Ennek megvalósítása alapvetően az adatelőkészítés feladata és ez sajnos nem kikerülhető lépés, ha azt akarjuk, hogy ne megtévesztő, félrevezető eredmények adódjanak a későbbi feldolgozás során. Azonban ha már rendelkezünk egy ilyen adatbázissal, akkor a későbbiekben hozzákapcsolt adatok ellenőrzése, javítása, pótlása történhet az eredeti adatbázison alapuló adatbányászati eszközökkel is. Az erdészeti tudományok területén gyakran jellemző, hogy az adatgyűjtés akár több éven át is tart és a kapott adatokat folyamatosan dolgozzuk fel. Azaz a kezdeti időszak mérései alapján felépítünk egy adatbázist, amit aztán folyamatosan bővítünk a későbbi mérések eredményeivel. Ezen későbbi mérések során fellépő hibák hiányosságok felismerése, javítása, pótlása alapulhat a kezdetekben felépített adatbázison, mint tanulóhalmazon alkalmazott adatbányászati módszereken is. Ezt szeretnénk bemutatni a bükkös adatbázis kapcsán. 4.1 Mért adatok lehetséges hibái Az adatbázisok egy jelentős része, mint az általunk vizsgált is, mérőműszerek által mért adatokat tartalmaz. A mérőműszerek zöme rendelkezik egy önellenőrző rendszerrel, ami vizsgálja, hogy a mért érték beleesik-e az elfogadási tartományba. Így már maga műszer is jelezheti a kiugró mérési hibákat, „invalid” jelzéssel ellátva azokat. Ezek a hibák az adatbázisban egyértelműen látszódnak, azonban ezen túlmenően nem vizsgálja a műszer az adat helyességét. Azaz tekintsük például a levegő hőmérsékletét mérő szenzorokat. Ezek elfogadási tartománya magyarországi alkalmazás esetén általában a [-25, 45] intervallum. Így ha egy júliusi napon a szenzor -14,6 °C-ot mér, akkor azt is helyes adatnak vélheti, ha egyéb probléma nem lép fel és „valid” jelzéssel látja el, holott ez hibás adat. Nagy adathalmazok esetén az ilyen típusú hibák kiszűrése nehéz feladat. Végül a műszer teljes meghibásodása okozhat egy adott időszakban teljes adathiányt egy paraméterre nézve. Külön ki kell emelni, hogy ebben az adatbázisban környezeti adatok vannak eltárolva: hőmérsékletek, légnedvesség, légnyomás, sugárzási adatok, stb.. A hibás adatok pótlása, illetve a rejtett mérési hibák felfedése amúgy is nehéz feladat, különösen ilyen típusú adatok esetén, hiszen az utóbbi időkben mi magunk is tapasztalhatjuk, hogy például a hőmérséklet egyik napról a másikra 15-20°C-ot is változhat. Egy ilyen hirtelen ugrást nehéz a hagyományos pótlási, javítási módszerekkel kezelni. Így a bemutatásra kerülő módszer korlátai ellenére is hasznos lehet főként a fent említett típusú adatbázisok teljesebbé és hibamentesebbé tételében[3],[7].
5
4.2 Mérési hibák felderítése, hiányok és ezek javítása Az alkalmazott módszer lényege, hogy egy adott paraméter (hibás, hiányzó) értékeit a többi paramétert felhasználva jósoljuk meg. Így élnünk kell avval a feltevéssel, hogy a jósláshoz felhasznált paraméterek nem hibásak, azaz nem történik egyszerre több rejtett műszer meghibásodás, vagy sok paraméter egyszerre nem hiányzik vagy hibás. Amennyiben mégis ez az eset áll fent, akkor a jósolt adatok sokkal kevésbé lesznek megbízhatóak és félrevihetik az eredményeket. Illetve ez a módszer nem alkalmazható teljes rekordok hiánya esetén, ebben az esetben a regressziós módszerek lehetnek célravezetők. Fontos megjegyezni, hogy az osztályozó modellek pontossága soha nem lesz 100%, a cél csak az lehet, hogy megpróbáljuk ezt az ideális állapotot minél jobban megközelíteni. Az adatok jóslására alkalmas eszközök és pontosságuk: ilyenek az adatbányászatban az osztályozó módszerek, mint pl. a Naive Bayes, Döntési fa algoritmusok, valamint a klaszterezés[1],[2],[4]. Az már a vizsgálatok elején kiderült, hogy a klaszterezés ebben az esetben nem ad jó eredményeket, így evvel a továbbiakban nem foglalkozunk. A Naive Bayes algoritmus csak diszkrét adatsorokra alkalmazható, folytonos adatsor esetén az algoritmus az attribútum értékeket automatikusan diszkretizálja. A jósolt érték pedig az adott kosár középértéke lesz. Ez a mi esetünkben nem megfelelő, mert az automatikus kosarak túl szélesek, így a jósolt érték túlzottan messze esik a tényleges értéktől. A Döntési fa algoritmus folytonos adatsorok esetén is alkalmazható, azonban azt tapasztaltuk az alkalmazott szoftverrel kapcsolatban, hogy ugyanolyan input-paraméterezéssel és beállításokkal, mint a Naive Bayes az algoritmus nem működik, túl sok attribútum hibajelzéssel leáll. Az attribútumok számának csökkentése – ezáltal az algoritmus futtathatósága – pedig a jóslás minőségének jelentős romlásához vezetett, és a futási idő továbbra is nagyságrendekkel több lett, mint az alább ismertetésre kerülő esetben. Így adódott a lehetőség, hogy a jóslandó attribútum diszkretizálásával oldjuk fel ezt a problémát, hiszen így nem kell csökkenteni az input attribútumok számát – evvel rontani a jóslás minőségét – valamint a futási ideje is jelentősen kisebb az algoritmusnak. Az automatikus kosarazást már korábban elvetettük, így csökkenteni kell a kosár szélességét. Ezt nevezett kalkulációk alkalmazásával tudjuk megoldani, ahol a jóslandó paraméter értékeit a felhasználó által adott szélességű kosarakba tudjuk beosztani. A lenti két diagram(6.) ezt szemlélteti: a bal oldali grafikon az automatikus kosarazást, a jobb oldali az 1 °C szélességű kosarazást mutatja. Az utóbbi esetben romlott ugyan a jóslás precizitása, azonban még így is sokkal jobb eredményt ad, mint az automatikus modell. Ne felejtsük el, hogy az 1 szélességű kosarak esetén egy hibás jóslás (pl. 10 helyett 11), még mindig pontosabb lehet, mint a jobb pontosságúnak látszó szélesebb kosarú pontos jóslás. A modellek tényleges pontosságát úgy ellenőriztük, hogy lefuttattuk azokat az alap adatbázisra és a jósolt eredményeket összevetettük a ténylegesen mért eredményekkel. Kísérleteink azt mutatták, hogy a további finomítás túlságosan megnöveli a kosarak számát és ehhez képest nem ad jelentősen jobb eredményt. Vizsgáltuk még a 2 nagyságú kosarazást is, azonban azt tapasztaltuk, hogy összességében az 1 szélességű kosarakba történő felosztás a jobb. A modellek alapvető összehasonlítása az alkalmazott szoftver esetén egyszerűen elvégezhető[6], tekintsük pl. a talajszinten mért talajhőmérsékletet (talajhom0) és a felépített 3 modell jóságát. Mindkét esetben az átlós kék vonal jelzi az ideális állapot, ehhez képest a zöld, piros és lilás vonal sorrendben a Döntési fa, Naive Bayes és klaszterezés által adott eredmény jóságát. Jól látható, hogy a zölddel jelölt döntési fa algoritmus adja mindkét esetben a legjobb eredményt, csakúgy mint a többi esetben. Másrészt a klasszifikációs mátrix megmutatja, hogy a jósolt értékek közül szám szerint hány darab volt helyes, hány helytelen, illetve ez utóbbiak melyik kosárba kerültek[6].
6
6. Modellek megbízhatóságának összehasonlítása
A modellek pontosságának számszerű jellemzésére több jól bevált módszer is van, ezek általában a jól és a hibásan osztályozott adatok arányából adnak egy jósági értéket[1],[2],[4]. A mi példánkban ezek mellett hasznosnak tűnhet, hogy ne csak azt figyeljük, hogy mely jóslások helyesek és melyek helytelenek, hanem azt is vegyük figyelembe, hogy a helytelen jóslások mennyire helytelenek. Definiáljunk minden adatsorra egy d i xmért x jósolt értéket, n
mely az adott jósolt éték abszolút eltérése a ténylege értéktől, majd ezekből egy d d i i 1
értéket, ahol n a rekordok száma. Ezt a mérőszámot kiegészítve avval, hogy mennyi az adott eltérésnél nagyobb eltérést mutató esetek száma egy jó indikátor adódik az adott jóslás jóságára nézve. (Jelölések: th0: talajhőmérséklet 0 cm-en, _er: mért, _a: automatikus kosarazás, _1: 1 szélességű kosár, _f: folytonos jóslás) th0_f th0_a th1_2 th0_1 d 369227,9217 146989,1 81368,32 47270,75 >1 84422 106043 28700 11938 >2 65669 85056 5497 0 7. adott nagyságú eltérések száma az egyes esetekben
Mindezt és a klasszifikációs mátrix adatait összevetve döntöttünk a Döntési fa algoritmus és az 1 szélességű kosarak alkalmazása mellett. Végezzük el a jóslást a talajhőmérsékletre az eredeti adatbázison, vessük össze a mért adatokkal és nézzük az eredményt önkényesen kiemelt időszakra: datum 2006.05.01 2006.05.01 2006.05.01 2006.05.01 2006.07.22 2006.07.22 2006.07.22
ido 00:10:08 00:20:08 00:30:08 00:40:08 15:00:08 15:10:08 15:20:08
th0_er 3,91 3,91 3,91 3,91 22,51 26,16 24,30
th0_a th0_1 th0_f datum ido 1,61 3,50 3,91 39348,00 09:40:09 1,61 3,50 3,81 39348,00 09:50:09 1,61 3,50 3,91 39419,00 18:50:09 1,61 3,50 3,90 39419,00 19:00:09 22,96 22,50 14,51 39419,00 19:10:09 23,07 26,50 14,47 39419,00 19:20:09 23,09 24,50 14,43 39419,00 19:30:08 8. Jóslás eredményei különböző kosarazással
th0_er th0_a th0_1 th0_f 12,71 11,08 13,50 12,82 12,85 15,06 13,50 12,82 4,24 6,55 4,50 4,18 4,26 6,55 4,50 4,26 4,18 1,61 4,50 4,59 4,14 6,55 4,50 4,13 4,02 1,61 4,50 3,97
A kiragadott példák is mutatják, hogy a folytonos jóslás néhol nagyon félremegy, az automatikus kosarazás pedig (a széles kosarak miatt) pontatlan, túl rugalmatlan, nem jól, vagy egyáltalán nem követi le a gyors adatváltozásokat és a ténylegestől jelentősen eltérő eredményeket ad. A módszer alkalmazása a bükkös adatbázisban: 2008.08.01-től kezdődően már rendelkezésre állnak újabb mérési adatok 2008.12.31-ig. Az előbb említett adathalmazban alkalmaztuk a fenti módszert a talajhőmérséklet (minden szinten) adatokkal kapcsolatban, mert 2008.08. elejétől több alkalommal is hibás adatokat rögzített a műszer (invalid), majd később végig
7
invalid adatok kerültek rögzítésre. A korábbiakban leírtak miatt a jósláshoz az 1 szélességű kosarazással a döntési fa algoritmust használtuk. Elvégeztük a modellünk alapján a jóslást a talajhőmérséklet adatok tekintetében; az eleve hibás adatokat így javítottuk, illetve egyéb statisztikai módszerekkel (3-as átlagolás, centrírozás) egyenletesebbé tettük az átmeneteket. Ezután a kapott eredményeket összevetettük a valid jelzésű mérési adatokkal. Több esetben is jelentős eltérés adódott a jósolt és a mért érték között (az, hogy mit tekintünk jelentős eltérésnek az adott paraméter értéktartományától függ), így itt vagy rejtett hibával állunk szemben, vagy a jóslás adott rossz eredményt. Azonban ez utóbbi lehetőségét minimálisra csökkenthetjük azáltal, hogy megpróbáljuk a legjobb megbízhatóságú modellt alkalmazni a jóslás során. Másrészt a kapott jósolt eredmény helyességét, helytelenségét az adatbázis egyéb paramétereivel (pl. dátum, léghőmérséklet) összevetve is vizsgálhatjuk. A módszer alapvető eredménye, hogy megmutatja azokat a rekordokat, ahol felmerülhet a rejtett műszerhiba lehetősége. Nézzünk egy konkrét eredményt: datum ido status talajho0 jósolt érték 2008.08.06 00:00:08 VALID -0,00099 15,5 2008.08.06 00:10:08 VALID 0,018571 15,5 2008.08.06 00:20:08 VALID -0,00099 15,5 2008.08.06 00:30:08 VALID -0,02055 15,5 2008.08.06 00:40:08 VALID 0,018566 15,5 2008.08.06 00:50:08 VALID -0,02055 15,5 2008.08.06 01:00:08 VALID -0,04011 15,5 9. Rejtett műszerhiba felderítése és adatjavítás
Itt egyértelműen eldönthető a dátum és a tendenciák figyelembe vételével, hogy a valid jelzés ellenére a mért adatok hibásak, és így érdemes azokat pótolni a jósolt adatokkal. Mindezek alapján azt tapasztaltuk, hogy 2008.08 hónapban a talajhőmérséklet adatok vonatkozásában, több alkalommal is „valid” jelzést kaptak valójában hibás adatok, melyeket egy ekkora adatbázisból nehéz egyéb módon kiszűrni. Összességében elmondható, hogy a vizsgálthoz hasonló típusú, tartalmú adatbázisok esetén a korábban említett feltételek teljesülése mellet ez a módszer hatékonyan alkalmazható a nyilvánvaló hibák, hiányosságok javítására, illetve a rejtett műszerhibákból adódó mérési hibák felderítésére és javítására. Irodalomjegyzék [1]Dr. Abonyi János: Adatbányászat a hatékonyság eszköze, Computerbooks, Budapest 2006 [2]Bodon Ferenc: Adatbányászat (elektronikus kézirat), 2008 [3]Foster Provost, Maytal Saar-Tsechansky: Handling Missing Values when Applying Classification Models, Journal of Machine Learning Research 8 (2007) 1625-1657 [4]Jiavei Han and Micheline Camber: Data Mining, Concepts and Techniques - second edition, Morgan Kaufmann Publishers, 2006 [5]Mátyás Csaba et al.: Erdészeti ökológia, Mezőgazda, 1997 [6]MSSQL Server 2008 felhasználói kézikönyv [7]Peng Liu, Elia El-Darzi, Lei Lei, Christos Vasilakis, Panagiotis Chountas, Wei Huang: Applying data mining algorithms to inpatient dataset with missing values, Journal of Enterprise Information Management, 21(1) 81 – 92, 2008 [8]Víg Péter: Éghajlattan, Egyetemi jegyzet, Sopron, 1995
8