NEUMANN JÁNOS INFORMATIKAI KAR
DIPLOMAMUNKA
OE-NIK 2016
Hallgató neve: Hallgató törzskönyvi száma:
Sári Zoltán Tamás T/003978/FI12904/N
Hallgatói Nyilatkozat Alulírott hallgató kijelentem, hogy a diplomamunka saját munkám eredménye, a felhasznált szakirodalmat és eszközöket azonosíthatóan közöltem. Az elkészült diplomamunkámban található eredményeket az egyetem és a feladatot kiíró intézmény saját céljára térítés nélkül felhasználhatja.
Budapest, 2016 . . . . . . . . . . . . . . . .
................................ hallgató aláírása
Kivonat Az elmúlt években a KSH adatfelvételi el˝oírásai és a GPS koordináták rögzítésének köszönhet˝oen jelent˝os mértékben gyarapodott a hazai közúti baleseteket nyilvántartó adatbázis. Az értékes szakterületi adatvagyonra építve kulcsfontosságú szerepet játszik a korszer˝u információs technológiák bevonása a balesetmegel˝ozésbe. A dolgozat célja, hogy a magyarországi baleseti adatbázis felhasználási lehet˝oségeihez igazodó módszer implementálásával gyarapítsa a hazai balesetmegel˝ozés informatikai eszköztárát. A dolgozat el˝oször áttekinti az elmúlt évek hazai gyakorlatát, majd számba veszi a nemzetközi szakirodalomban megjelent, releváns baleset-veszélyességet el˝orejelz˝o statisztikai és adatbányászati technikákat. Az irodalmi áttekintést az elemzési munkafolyamat tervezése és a modellezést támogató rendszer implementálásának koncepcióterve követi. Az elemzés el˝okészítéséhez kapcsolódóan bemutatásra kerül a modellezésbe bevonható hazai baleseti adatok köre, majd a baleseti adatok tisztításával, kiegészítésével járó munka folyamata. A modellezés a prediktív technikák több alternatíváját vizsgálja meg. A prediktív modellezés során a dolgozat a regressziós technikák és neruális hálózatok implementálására támaszkodva mutatja be az egyes modellek által a baleseti góchelyek kimenetele (balesetszám) el˝orejelzésében elért becslési pontosságot és a szignifikáns prediktor változókat. A modellek összehasonlító értékelését követ˝oen dolgozat befejezésként javaslatot tesz a továbbfejlesztési lehet˝oségek irányára.
Abstract In the recent years the database of traffic accidents increased remarkably due to standards of data collection of Hungarian Central Statistical Office and recording GPS coordinates. Involving information technologies plays an important role in the prevention of traffic accidents based on valuable domain specific database. The goal of the thesis is enriching accident preventing IT tools with the implementation of a method using Hungarian accidents database. First, the thesis overviews the Hungarian practice in the recent years, then examines the relevant statistical and datamining predictive techniques of risk of traffic accidents in international literature. The literature review is followed by the planning of the analytical workflow process and the designing of implementation of a modeling support system. In the following chapter relating to the preparation of analysis the relevant Hungarian domain specific dataset and data cleaning process are presented. The modeling examines several alternatives of predictive techniques. Through the predictive modeling the thesis presents the significant predictor variables and the accuracy of estimated casualty of black spots based on implementation of regressive techniques and artificial neural networks. Finally, the thesis proposes the direction of further development.
Tartalomjegyzék 1. Bevezetés
1
2. Közúti balesetek megel˝ozésének IT támogatása 2.1. Tradicionális módszerek . . . . . . . . . . 2.1.1. Csúszó-ablak technika . . . . . . . 2.1.2. Statisztikai módszerek . . . . . . . 2.2. Korszer˝u lehet˝oségek . . . . . . . . . . . . 2.2.1. GPS alapú góchelyazonosítás . . . 2.2.2. Prediktív technikák . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
3 5 5 7 9 9 16
3. Tervezés
27
4. Adatok el˝ofeldolgozása 4.1. Adatforrások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Baleseti adatok feltárása . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Adatok el˝okészítése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32 32 33 36
5. Modellezés 5.1. Góchelyazonosítás . . . . . . . . 5.2. Prediktív technikák . . . . . . . . 5.2.1. Góchelyek reprezentációja 5.2.2. Regressziós el˝orejelzés . . 5.2.3. Neurális háló . . . . . . . 5.3. Értékelés . . . . . . . . . . . . .
40 40 44 44 45 47 49
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
6. Összefoglalás
52
7. Summary
54
Irodalomjegyzék
56
A. Balesetállomány jellemzése
60
i
1. fejezet Bevezetés Az Európai Unió fokozott figyelmet fordít a közlekedés biztonságára. A közúti baleseti halálozás megfelez˝odött az utóbbi évtizedben, azonban 2013-ban még mindig 26 ezren lelték halálukat az Európai Unió útjain[1]. A 2011-ben megjelent, az EU közlekedéspolitikájának stratégiáját tartalmazó új „Fehér Könyv” [2] céljai sorában az alábbiakat fogalmazza meg: ”A közúti baleseti halálozást 2050-re szinte nullára kell csökkenteni. E céllal összhangban az Európai Unió arra törekszik, hogy 2020-ra felére csökkenjen a közúti sérülések száma.” Magyarország szintén eredményeket tud felmutatni a balesetek számának csökkentésében (1.1. ábra). 2013-ban a közúti baleseti mortalitás 591 f˝ore csökkent az egy évtizeddel korábbi 1 326 f˝or˝ol. A hazai közlekedéspolitika elkötelezett a balesetek további csökkentését illet˝oen. A magyar célkit˝uzés - összhangban az uniós céllal - 2020-ra a közúti balesetek halálos áldozatainak számára vonatkozó 50%-os csökkenés elérése a 2010. évi szinthez képest.
1.1. ábra. Közlekedésbiztonsági helyzet Magyarországon [3] 1
FEJEZET 1. BEVEZETÉS A közúti balesetek halálos áldozatainak száma folyamatosan csökken, azonban a javulás üteme lelassult. A további el˝orelépés érdekében új módszereket, megoldásokat kell keresni a balesetmegel˝ozés területén. A halálos kimenetel˝u balesetek elkerülése érdekében született stratégiai célok között megjelenik a közlekedésbiztonság információs rendszerekkel való hatékonyabbá tétele: közútbiztonsági technológiák bevezetése és a közúti közlekedési balesetek, sérülések és a halálos kimenetel˝u esetek tekintetében egységes definíciók és osztályozási kategóriák rögzítése. A személysérüléses közúti közlekedési balesetek statisztikai megfigyelése a balesetek számának regisztrálásán túlmen˝on a balesetek okainak és körülményeinek részletes elemzési lehet˝oségével támogatja a közlekedési szakemberek kutató- és baleset-megel˝ozési tevékenységét. A KSH ”Személysérüléses közúti közlekedési baleset” elnevezés˝u statisztikai adatfelvételi el˝oírása[4] az elmúlt években megalapozta egy értékes, szakterületi adatvagyon felhalmozását. Az adatvagyonra építve a közúti halálesetek további csökkentésében kulcsfontosságú szerepet játszik a korszer˝u információs technológiák bevonása a balesetmegel˝ozésbe. A dolgozat áttekintést nyújt a korszer˝u baleset-veszélyességet el˝orejelz˝o technikákról. Célja, hogy az áttekintést követ˝oen a magyarországi baleseti adatbázis felhasználási lehet˝oségeihez igazodó módszer implementálásával gyarapítsa a hazai balesetmegel˝ozés informatikai eszköztárát.
2
2. fejezet Közúti balesetek megel˝ozésének IT támogatása A Fehér Könyv[2] iránymutatása szerint a balesetmegel˝ozés érdekében a biztonsági szempontokat integálni kell a közlekedéspolitika valamennyi részterületén, a tervezést˝ol a közúti infrastruktúra üzemeltetéséig. Az ajánlás a szükséges közlekedésbiztonsági folyamatok között nevesíti a baleseti gócpontok (black spot) menedzselését. A baleseti góchelyek azonosítása és megszüntetése a magyar gyakorlatban is a biztonságnövel˝o munka egy fontos része[6]. A magyar közlekedésbiztonsági cél elérése során kulcsszerepe van a baleseti gócpontok hatékony menedzselésének. A balesetmegel˝oz˝o beavatkozások foganatosítása a közlekedésbiztonsági szakemberek feladata. A 2.1. táblázatban összefoglalt góchelykezeléssel járó tevékenységek informatikai támogatása alapvet˝o elvárás a szakért˝ok részér˝ol. A közúti biztonság megteremtése szempontjából kiemelt feladat a baleseti góchelyek azonosítása. A baleseti góchelyek olyan útszakaszok vagy csomópontok, ahol valamilyen okból kifolyólag az elvárhatónál szignifikánsan magasabb gyakorisággal fordulnak el˝o közúti balesetek, mint más hasonló adottságú (méret˝u, forgalmú, kiépítés˝u) útszakaszokon. Jellemz˝o, hogy egy baleseti góchelyen azonos típusú balesetek fordulnak el˝o. A közlekedésbiztonsági szakért˝ok feladata ezeket a helyeket megtalálni, a fellelhet˝o okokat megszüntetni, vagy kedvez˝otlen hatásukat mérsékelni. A költséghatékonyság szem el˝ott tartásával a biztonságnövel˝o beavatkozásokat els˝odlegesen a legveszélyesebbnek ítélt gócpontokra vonatkozóan szükséges megfogalmazni. Ezek esetében várható a legkedvez˝obb javulás a biztonság terén, a relatíve legalacsonyabb költség mellett. Fontos szempont a szakért˝ok arra irányuló felel˝ossége, hogy a döntéstámogató rendszer által gyanúsnak ítélt helyszínek közül a valóban legveszélyesebb, nagyobb kockázatú helyszíneket válassza ki. A potenciális góchelyek azonosítását követ˝oen az egyes területek baleseti adatainak részletes elemzésével meghatározhatók a balesetmegel˝ozési intézkedések, a beavatkozási sorrend és az er˝oforrásigény. A folyamatot optimális esetben olyan szakért˝oi rendszer támo-
3
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA folyamat
tevékenységek
1
potenciális góchelyek azonosítása
2
akciók kidolgozása
3
beavatkozások végrehajtása
4
beavatkozások értékelése
góckeresés céljának meghatározása numerikus, statisztikai vizsgálat rangsorolás helyszíni vizsgálat góchelyek listájának véglegesítése az okok és célterületek megállapítása beavatkozási lehet˝oségek tervezése a beavatkozások várható hatásainak becslése költség-hatékonyság vizsgálatok allokáció, beavatkozás prioritási sorrendje tervezett akciók megvalósítása beavatkozás dokumentálása felhasznált er˝oforrások visszamérése balesetszám alakulásának nyomon követése
2.1. táblázat. A góchelyek kezelésének folyamata [8] gatja, amely a potenciális góchelyek azonosítása mellett egy tudásbázissal is rendelkezik. A rendszer a tudásbázis alapján adott gócpont esetében intézkedési és er˝oforrás allokációs javaslatokat is megfogalmaz, továbbá támogatja a beavatkozások hatékonyságának értékelését. A hazai gyakorlatban a balesetmegel˝ozés informatikai támogatásának alapja a közúti baleseti adatbázis. A KSH adatfelvételi útmutatója[5] alapján a statisztikai megfigyelés egysége a személysérüléses közúti közlekedési baleset. A személysérüléses közúti közlekedési baleset az olyan váratlan, nem szándékosan el˝oidézett forgalmi esemény, amely közúton következett be, vagy onnan eredt, amelyben legalább egy mozgó (közúti) járm˝u közrejátszott, és amelynek következtében egy vagy több személy meghalt, vagy megsérült. A baleset kimenetele szerint halálos, súlyos vagy könny˝u sérüléses lehet. A magyar szakért˝ok munkáját a WIN-BAL és a webes elérést biztosító WEB-BAL elneves˝u alkalmazás segíti[9]. A rendszer a baleseti adatok mellett az úthálózatot leíró és az útforgalom adatokra is támaszkodva nyújt góchelykeresési funkciót. A hazai gyakorlatot a góchelykeresés támogatásának folyamatos fejl˝odése jellemzi. A potenciális gócpontok keresése során eleinte statisztikai módszerkre, majd az útszelvényekre (útszám/km+m) alapuló úgynevezett csúszó ablakos (sliding window) technikára támaszkodtak. Az utóbbi id˝oben a baleseti helyszínelés során a GPS koordináta segítségével sikerült még pontosabban és megbízhatóan azonosítani a baleseti helyszíneket. A GPS adatokat is felhasználó technika bevezetése tovább növelte a rendszer funkcionalitását. A következ˝o fejezetekben áttekintésre kerülnek a tradicionális góchelykeresési módszerek és az elemzésbe bevonható korszer˝u adatbányászati technikák. 4
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA
2.1.
Tradicionális módszerek
A hagyományos góchelykeresési eljárások a nyilvántartott baleseti adatok alapján képzett mutatókra, a szakért˝o által meghatározott küszöbértékekre és a csúszó-ablak technika együttes alkalmazására támaszkodnak. A csúszó-ablak módszer a potenciális gócpontok megkeresése során játszik fontos szerepet. Az eljárás a szakért˝o által megadott útszakasz-hossznak megfelel˝o méret˝u ablakot tol végig a közútakon. Ha egy ablakban adott id˝oszak alatt több baleset figyelhet˝o meg, mint egy meghatározott küszöbérték, az útszakasz potenciális góchelynek min˝osül. A potenciális góchelyek baleseti adatainak további vizsgálata mutatószámokra alapul. A góchely min˝osítés tipikus adatai: a balesetek száma, az útszakaszok hossza, a vizsgált periódus, a balesetek típusai. A min˝osítés az adatok felhasználásával képzett mutatók meghatározott küszöbértékekkel történ˝o összehasonlítása alapján d˝ol el.
2.1.1.
Csúszó-ablak technika
A balesetek helyszínének nyilvántartása többnyire a hagyományos közúti helyazonosításon alapul. A balesetek helyszíne az út számával, illetve azon belül a szelvény számával (km+m) azonosítható. Az útszelvényre épül˝o technikák egy útszakasz adatait vizsgálják át és a vizsgált szakaszra es˝o balesetszám alapján próbálják meg jelezni a problémás intervallumokat. Az eljárásnak két megközelítése létezik[13]. A legalapvet˝obb góckeresési eljárás el˝ore rögzített szakaszhosszal és becsült minimális balesetszámmal dolgozik. Az ablak szélessége tipikusan 100-300 méter[11], amelyet végighúzva az útszakaszon kigy˝ujthet˝oek azok a szakaszok, amelyeken a balesetek száma túllépi a tolerált küszöbértéket. Az eljárás egy másik felhasználása azoknak az útszakaszoknak a feltárását célozza, amelyeket kiugró balesetszám jellemez a szomszédos útszakaszokhoz képest. A csúszó-ablak technika fenti változatában az ablak mindig a rögzített méretének megfelel˝o távolságot halad el˝ore, ezzel egyenl˝o hosszúságú, átfedés nélküli intervallumra bontva a vizsgált utat (szakaszolás). Az eljárás gyors keresést tesz lehet˝ové, ugyanakkor hátránya, hogy hosszú fix szakaszhossz esetén olyan gócokat is megjelöl, amelyben a balesetek nincsenek kapcsolatban. Túl rövid szakaszhossz esetén pedig nem ismer fel olyan gócokat, ahol az azonos okra visszavezethet˝o balesetek nem férnek bele a távolságba. A csúszó-ablak technika másik változata az el˝ore meghatározott intervallumok helyett a baleseti helyszínek között feszíti ki az ablakot. Az ablak pozíciója nem csak a méretét˝ol, hanem a balesetek helyszínét˝ol is függ.
5
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA
2.1. ábra. A csúszóablakos technika [7] A csúszó-ablak módszer utóbbi változata lényegesen több, lényegében a balesetek számával megegyez˝o szakaszra bontja az utat, ezért a keresés lassabb, mint a fix lépésméret˝u változat. Az azonosítás hatékonyságát tekintve a módszerrel növelhet˝o a valós góchelyek azonosításának aránya (sensitivity), de ezzel együtt n˝o a téves min˝osítések száma (false positive). A téves min˝osítések miatt Elvik[14] a csúszóablak módszer kerülését javasolja. Ennek ellenére egyszer˝usége miatt számos országban elterjedt eljárás a góchelyek azonosítása terén. Az egyes európai országokban használt góchelyazonosítási eljárásokról és küszöbértékekr˝ol Elvik[13] ad áttekintést. A hazai gyakorlatban a szakaszoló módszer terjedt el. A módszertani ajánlás[7] el˝ore rögzített szakaszhosszal és becsült minimális balesetszámmal definiálja a gócgyanús helynek min˝osítést: – lakott területen: egy legalább 100 méter hosszú szakasz, ha 3 év alatt legalább 4 személysérüléses baleset történt – lakott területen kívül: legalább 1000 méter hosszú szakasz, ha 3 év alatt legalább 4 személysérüléses baleset törént. Lee és Lee[12] az ablak méretet a út és közlekedési viszonyok figyelembe vételét célozva, a megálláshoz szükséges minimum látási távolság becsléséb˝ol vezette le, a 2.1 képlet szerint: D=
ahol: D V t g f
V2 V2 V ∗t+ = 0, 694V + 3.6 2g ∗ f ∗ 3.62 254f
(2.1)
megállási látótávolság (m) sebességkorlát (km/h) sebességfügg˝o reakcióid˝o (recoginition resposse time, RTT)(2,5-3,5 s) gravitációs gyorsulás (9.8 m/s2 ) id˝ojárás és sebességfügg˝o csúszási tényez˝o
A szerz˝opáros különböz˝o paraméterek mellett vizsgálta a módszert és ért el javulást a góchelyazonosítás terén. 6
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA
2.1.2.
Statisztikai módszerek
A csúszó-ablak módszer a potenciális góchelyek azonosításában hívható segítségül, de nem ad képet a potenciális gócok karakterisztikájáról, jellemz˝oir˝ol. A baleseti góchelyek pontosabb meghatározásához és a beavatkozások megtervezéséhez a baleseti adatok és kockázati faktorok elemzése szükséges. A klasszikus módszerek a baleseti adatok, alapvet˝oen a balesetek gyakoriságának és súlyosságának vizsgálatán alapulnak. Az empirikus adatokból kinyerhet˝o az a valószín˝u baleset gyakoriság, amely egy adott id˝oszakban (3-5 év) egyéb jellemz˝ok figyelembe vétele mellett (pl. forgalom) egy útvonalon el˝ofordulhat. A kiugró (outlier) baleset számmal jellemzhet˝o szakaszok jelentik a potenciális góchelyeket (gócpontokat, gócszakaszokat), azaz ahol (i) a balesetek száma a várható értéknél nagyobb, (ii) a balesetek súlyosabbak, vagy (iii) a fajlagos (forgalomra vetített) baleseti mutató az átlagosnál magasabb. A legalapvet˝obb módszerek egy adott pontban, egy adott id˝o intervallumban várható balesetgyakoriságot/baleseti relatív mutatók meghatározására épülnek. A góchelyelemzésben a hazai gyakorlatban elterjedt közlekedésbiztonsági mutatókat a 2.2. táblázat tekinti át. mutató
tartalom
1
balesetgyakoriság
2 3
balesets˝ur˝uség súlyozott balesetszám
4
útszakaszra számított relatív baleseti mutató csomópontra vetített relatív baleseti mutató
adott helyen, adott id˝oszak alatt történt balesetek száma egységnyi úthosszra es˝o balesetszám különböz˝o kimenetel˝u (halálos, súlyos, könny˝u) balesetek súlyozó tényez˝okkel figyelembe vett összege balesetgyakoriság az átlagos forgalomra vetítve (járm˝u km) balesetgyakoriság a forgalomra vetítve (járm˝u db)
5
2.2. táblázat. Az góchelyelemzésnél használt közlekedésbiztonsági mutatók [7] A góchelynek min˝osítés küszöbértékeire nincs általánosan elfogadott konvenció. Szakért˝oi feladatot igényel annak meghatározása, hogy id˝oegység alatt, milyen hosszú útszakaszon, hány balesetnek kell el˝ofordulni ahhoz, hogy az adott hely potenciális baleseti góchelynek min˝osüljön. Az elemzés hatékonysága javítható a különböz˝o geometriával jellemezhet˝o góchelyek megkülönböztetésével. A keresztez˝odésekre és az útszakaszokra számított csoportmutatók pontosabb referenciaértéket nyújtanak az értékeléshez. A mutatók összehasonlítására épül˝o elemzés lehet˝oséget biztosít a góchelyek néhány jellemz˝o (forgalom, kimenetel) alapján történ˝o összehasonlítására, rangsorolására, de az elemzés során jelent˝os korlátot jelent, hogy figyelmen kívül hagyja a balesetek körülményeit leíró jellemz˝oket (pl. út- és látási viszonyok). 7
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A rendelkezésre álló baleseti adatok elemzésbe való szélesebb bevonása érdekében a statisztikai módszerek hívhatók segítségül. A statisztikai modellek segítségével az egyes góchelyekhez hozzárendelhet˝o a balesetek bekövetkezésének valószín˝usége. A statisztikai eljárások annyiban hasonlítanak a relatív mutatók elemzésére épül˝o módszerekre, hogy azokat a helyszíneket min˝osíti gócnak, amelyek meghaladnak egy referenciaértéket. Különbséget jelent azonban az, hogy a küszöbérték egy feltételezett valószín˝uségi eloszláshoz és egy konfidencia intervallumhoz igazodó szintnek felel meg. A módszerekr˝ol Geurts és Wets ad áttekintést[10]. A szerz˝ok következtetéseit a 2.3. táblázat foglalja össze.
1 2
3
4
5
statisztikai módszer
értékelés
outlierek: a mutató átlaga és szórása alapján többváltozós lineáris regressziós modell: a mutató a függ˝o változó, a független változók a forgalom, sebesség, stb.
nem képes a kockázati tényez˝ok eloszlásának figyelembe vételére normális eloszlást feltételez, nem rendelkezik a balesetek pontosabb leírásához szükséges eloszlás tulajdonsággal, így valószín˝uségi állítások sem fogalmazhatók meg pontatlan a balesetszámot illet˝oen, nem veszi figyelembe az extra-Poisson eltéréseket (variancia meghaladja az átlagot)
Poisson loglineáris modell: figyelembe veszi a balesetek sztochasztikus természetét, magyarázza a mutatók változatosságát, alkalmas a nagyszámú zérus érték kezelésére negatív binomiális regresszió: megbízhatóbb a Poisson regressziós modellnél, ha er˝os a szórás általánosított lineáris modell: a legtöbb modell lineáris, negatív binomiális hiba szerkezettel
nem veszi figyelembe a historikus baleseti adatok véletlen ingadozásait a helyszínek karakteriszikájában lév˝o különbségek figyelembe vétele a Poisson eloszlás átlagának a góc karakterisztikájához igazításával
2.3. táblázat. Az alapvet˝o statisztikai modellek összefoglalása [10] A statisztikai módszerek különböz˝osége els˝osorban a felhasznált adatokból, a mutatókból, illetve a balesetveszélyességi sorrend meghatározásának módszeréb˝ol ered. A statisztikai modellel operáló módszerre gyakorlati alkalmazási példák találhatók az irodalomban: negatív binomiális modell[23][24] és Poisson regressziós modell[23]. A modellek csak egy adott megfigyelési id˝oszak adatait használják fel, egy állandó periódust modelleznek. A gyakorlatban ezek a jellemz˝ok (különösen a közlekedési forgalom) gyakran változnak az id˝o függvényében. Az intertemporális változások figyelembe vétele ér8
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA dekében egy lehet˝oség a megfigyelési id˝oszak felosztása. Mivel azonban a balesetek ugyanazon a helyen, más-más periódusban is a helyszín specifikus adatoktól függenek, nem függetlenek. Ez felveti a becslési modellek olyan nehézségeit, mint hogy a baleseti számok nem független eloszlásúak.
2.2.
Korszeru˝ lehet˝oségek
A baleseti adatok id˝obeli, térbeli és egyéb jellemz˝oi felhasználásának kiszélesítését az adatbányászati módszerek teszik lehet˝ové. A GPS alapú azonosítás elterjedésével el˝otérbe került a klaszterezési technikák alkalmazása. A góchelyelemzés esetében pedig a statisztikai módszerek fejlesztése és az osztályozó eljárások bizonyulnak hatékony eszköznek.
2.2.1.
GPS alapú góchelyazonosítás
A csúszó-ablak módszer, gyorsaságára tekintettel hasznosnak bizonyul egy adott útszakasz vizsgálata esetén. Hátránya azonban, hogy a balesetek legjellemz˝obb helyszínén, az útkeresztez˝odésekben nem alkalmazható. Útkeresztez˝odésben a balesetek gyakran több útszakaszon rögzítettek. Mivel az eljárás csak egy szakaszt vizsgál, a góchelykeresésnél figyelmen kívül hagyja az azonos okra visszavezethet˝o, de különböz˝o utak szelvényszámán rögzített baleseteket. Magyországon a közelmúltban a balesetek adatainak felvétele kiegészült a GPS koordináták rögzítésével, amely új góchelyazonosítási eljárások felhasználását tette lehet˝ové. A GPS koordinátákra alapuló eljárások hatékonyan alkalmazhatók az útkeresztez˝odések, körforgalmak illetve egyéb, nem egyetlen úthoz kapcsolódó góchelyek azonosításában. Han et. al[18] átfogó áttekintést nyújt a térbeli adatok (spatial data) klaszterezési módszereir˝ol. Az eljárások önmagukban is alkalmazhatók a potenciális góchelyek azonosítására, de szolgálhatnak olyan további elemzések (pl.: osztályozás) alapjául, amelyek a klaszterek adataival dolgoznak. Számos sztenderd (particionáló, hierarchikus, s˝ur˝uség vagy rács alapú) klaszterezési algoritmus adaptálható a góchelyazonosításra[19], azonban ezek hatékonyságát, számítás- és tárigényét illet˝oen jelent˝os eltérések mutatkoznak. Alapvet˝o módszerek A térbeli adatok felhasználására egy lehet˝oséget jelentenek a szakaszolás logikájához hasonló rács alapú eljárások (Sting, WaveCluster, CLIQUE). A rácsmódszer a geográfiai tér meghatározott méret˝u cellákra osztására alapul. Minden cellához hozzárendelésre kerül az általa lefedett terület baleset el˝ofordulásainak száma (2.2. ábra). A góchelyazonosítás a cellák balesetgyakoriság szerinti rangsorolásán alapul.
9
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA
2.2. ábra. A rács-alapú s˝ur˝uség[21] A módszer gyors (O(n)), de a vizsgált terület fix méret˝u cellákra osztása miatt ugyanazokkal a - rácsméret meghatározásából ered˝o - hátrányokkal rendelkezik, mint a szakaszoló csúszóablak eljárás. További probléma, hogy téglalap alakú góchelyeket ismer fel. A kernel becslési eljárás[15] egy fix sugarú kör által lefedett területet vizsgál. A kör a tér összes lehetséges pozícióját felveszi és az adott középponthoz mérve kiszámítja a balesetgyakoriságot.
2.3. ábra. A kernel becslési eljárás[17]
10
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A súlyozott balesetgyakoriság meghatározása a 2.2 függvénnyel történik, amely az ablak által lefedett baleseteket a középponttól mért távolság alapján veszi figyelembe. n X 1 s − si λτ (s) = k 2 τ τ τ i=1 ahol: s ∈ R ⊂ R2 s1 , s2 , . . . , sn ∈ R τ ∈ R+ λτ (s) : R → R+ 0 kτ : R2 → R+ 0
(2.2)
helyvektor n megfigyelt esemény helyvektora simítási tényez˝o, általában sugár s intenzitás értéke kernel súlyozási függvény
A kernel súlyozási függvény általában [0, 1] intervallumban standardizál, ahol 1 a vizsgált pontban elhelyezked˝o súly és 0 a vizsgált környezet határán alkalmazott tényez˝o. A függvény paramétereinek tipikus megválasztása a quartic-kernel(2.3). X 3 1 − d2 (s, si ) 2 i λτ (s) = 2 πτ τ2 d ≤τ
(2.3)
i
ahol: di : R2 → R+ 0
a távolság metrika s és si között 1 P k k di (s, si ) = j |sij − sj | d(s, si ) = 0 ⇐⇒ s = si d(s, si ) = d(si , s) d(s, sj ) ≤ d(s, si ) + d(si , sj )
Kernel függvényként elterjedt a Gauss függvény használata(2.4), amely a DENCLUE (Density-based Clustering) elnevezés˝u s˝ur˝uség alapú klaszterezési eljárás[21]. λτ (s) =
n X
e−
d2 i (s,si ) 2τ 2
(2.4)
i=1
A góchelyek a függvény lokális maximumaiban találhatók. A lokális maximumok irányába történ˝o elmozdulás (folytonos és deriválható függvény esetén) a gradiens módszerrel határozható meg. A tér bejárása és a nagy számú távolságszámítás miatt a kernel módszer id˝obonyolultsága magas. Az O(n2 ) számítási id˝o a rácsalapú módszerekkel kombinálva javítható, azonban ekkor számolni kell a pontosság romlásával. Az algoritmus els˝o sorban s˝ur˝u közúti hálózatok esetén bizonyul hasznosnak. 11
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA K-means eljárás A térbeli adatok elemzése szempontjából felmerül a más alkalmazási területeken széles körben használt k-means eljárás vizsgálata. A k-means és k-medoid particionáló eljárások célja a balesetek k db klaszter valamelyikébe sorolása. A módszerek alapelve a balesethelyszínek és az adott klaszterét reprezentáló helyvektor (centroid, medoid) távolság összegének (2.5) minimalizálása. SSE =
k X X
d(s, mi )2 → min
(2.5)
i=1 s∈Ci
ahol: s ∈ Rn Ci mi ∈ Rn
egy balesetet reprezentáló vektor egy potenciáis góchely (klaszter) egy potenciáis góchely reprezentáns eleme
Az optimalizálás (klaszter reprezentáns iteratív áthelyezése) megpróbálja az eredményül kapott klasztereket a lehet˝o legtömörebbé és legjobban elkülönül˝ové alakítani. A globális optimum megkeresése azonban NP-teljes feladat, ezért az eljárás implementációi lokális optimumot adnak eredményül. Az algoritmus számítási bonyolultsága O(nkt), ahol n az elemek, k a klaszterek, t pedig az iterációk száma[20]. A módszer nagy adathalmazokra, magas dimenziójú, folytonos attribútumokra is kiterjeszthet˝o. Mindemellett a k-means eljárásnak több alapvet˝o hiányossága mutatkozik. Az eljárás alkalmazási hatékonysága er˝osen függ a paraméterként várt klaszterszám meghatározásától. A k értéket a szakért˝onek kell megadnia, a rosszul megválasztott klaszterszám azonban negatívan befolyásolja az eredményt. Az eljárás a zajos adatok kezelésére is érzékeny. Néhány széls˝oséges érték jelent˝osen eltéríti a klasztert reprezentáló elemet. További hátrány, hogy a módszer a távolság alapú csoportosításból fakadóan csak gömb (kör) alakú klasztereket ismer fel. A hátrányok miatt a baleseti góchelyazonosítás szempontjából a k-means eljárás alkalmazása nehézkes. A góchelyazonosítás célja a zajos, egyedülálló pontok kizárása. Ezzel ellentétes a k-means m˝uködési elve, hiszen minden balesetet klaszterbe sorol. Az eredmények interpretációját pedig hátráltatja, hogy a zajos adatok miatt a potenciális góchelyeket reprezentáló elemek távol eshetnek a góchely értelmezhet˝o középpontjától (messze az úttól). A k-means algoritmus javítását több módszer is célozza (PAM, CLARA, CLARANS)[20], azonban az algoritmus alapproblémáival a góchelyazonosítást célzó felhasználás során ezek esetében is számolni kell.
12
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Sur ˝ uségalapú ˝ módszerek A klaszterezési technikák közül a térbeli adatok elemzéséhez hatékonynak bizonyulnak a s˝ur˝uség alapú (density-based) módszerek[18]. A s˝ur˝uség alapú technikák a klaszter megítélése során a távolság helyett egy összefügg˝o régió s˝ur˝uségét veszik figyelembe. Az eljárások a s˝ur˝u területeket tekintik klaszternek, amelyeket a zajokat jelent˝o (nem kell˝oen s˝ur˝u) régiók választanak el egymástól. Az eljárások alapelve, hogy egy adott klaszterben található elemek s˝ur˝uségének szignifikánsan magasabbnak kell lennie, mint a klaszteren kívüli elemeké. Az algoritmus a klasztert fokozatosan növeli, amíg elemei kell˝oen s˝ur˝u területet alkotnak. Az eljárás el˝onye, hogy bármilyen alakú (akár nem konvex) gócot felismer és megkülönbözteti a zajt, azaz a góchelyhez nem tartozó baleseteket. Alapvet˝o s˝ur˝uség alapú eljárás a DBSCAN (Density-based Spatial Clustering of Applications with Noise) módszer. A potenciális góchelyek azonosítására való alkalmasság jól érzékelhet˝o a k-means és a DBSCAN összehasonlításával (2.4.táblázat). jellemz˝o
k-means
DBSCAN
alapelv teljeskör˝uség klaszter alak érzékenység determinisztikusság
prototípus alapú minden elemet klaszterhez rendel gömb alakú klasztereket ismer fel zajok jelent˝osen torzítják kezdeti középpontok véletlenszer˝u inicializálása miatt nem ugyanazokat a klasztereket állítja el˝o klaszterszám paraméterként kell megadni id˝obonyolultság O(n) tárbonyolultság O(n)
s˝ur˝uség alapú zajokat nem klaszterez tetsz˝oleges alakú klaszterek nem érzékeny a kiugró értékekre minden futtatásnál ugyanazokat a klasztereket állítja el˝o (ugyanazon paraméterek mellett) automatikusan határozza meg legrosszabb esetben O(n2 ), térbeli indexek használatával O(n log n) O(n)
2.4. táblázat. A k-means és a DBSCAN összehasonlítása [21] Az algoritmus a s˝ur˝uség meghatározásához 2 paramétert használ: – sugár jelleg˝u küszöb – M inP ts elemszám küszöb Az algoritmus m˝uködésének bemutatásához szükséges néhány fogalom[20]: – q ∈ D bels˝o elem: q elem -környezete legalább M inP ts darab elemet tartalmaz – p ∈ D közvetlenül s˝ur˝un elérhet˝o q ∈ D-ból: ha q bels˝o elem és p a q -sugarú környezetében van 13
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA – p s˝ur˝un elérhet˝o q-ból -ra és M inP ts-re vonatkozóan: ha létezik p1 , . . . , pn sorozat, hogy p1 = q, pn = p és pi+1 közvetlenül s˝ur˝un elérhet˝o pi -b˝ol minden i-re 1 ≤ i < n, pi ∈ D – p s˝ur˝un összekötött q-val -ra és M inP ts-re vonatkozóan: ha létezik olyan r ∈ D, amelyb˝ol p és q is s˝ur˝un elérhet˝o A s˝ur˝un elérhet˝oség a közvetlenül s˝ur˝un elérhet˝oség tranzitív lezártja. A reláció nem szimmetrikus, csak a bels˝o elemekre lehet a s˝ur˝un elérhet˝oség kölcsönös. A s˝ur˝un összekötöttség ellenben szimmetrikus reláció. A klaszter a s˝ur˝un összekötött elemek olyan halmaza, amely maximális a s˝ur˝un elérhet˝oségre vonatkozóan. Minden klaszteren kívüli elem zajnak tekinthet˝o.
2.4. ábra. Két klaszter azonosítása a DBSCAN eljárással[18] A DBSCAN úgy keresi meg a klasztereket, hogy megvizsgálja az adatbázis minden pontjának sugarú környezetét. Ha egy p pont bels˝o elem, akkor egy új klasztert hoz létre p bels˝o ponttal. Az algoritmus ezután iteratív módon összegy˝ujti a bels˝o pontokból közvetlenül s˝ur˝un elérhet˝o elemeket, ami a s˝ur˝un elérhet˝o klaszter összevonásával jár. Az iteráció akkor ér véget, ha már nem tud egyik klaszterhez sem új elemet hozzáadni. Az algoritmus számítási bonyolultsága alapesetben O(n2 ), azonban térbeli index (spatial index) használatával a bonyolultság O(n log n), ahol n az adatelemek száma. A magyarországi baleseti adatok GPS koordinátáit felhasználva a DBSCAN algoritmus segítségével gyors eljárást implementált Szénási és Jankó[16]. A szerz˝ok két baleseti helyszín közötti távolságot a koordináták Euklideszi távolságával határozták meg. A klaszters˝ur˝uségként a klaszterbe es˝o balesetszámok kimenetel alapján súlyozott összege és a klaszterterület arányát tekintették. A klaszterterületet annak a legkisebb konvex poligonnak a területével definiálták, amely körülhatárolja a klaszterbe tartozó baleseteket. A DBSCAN algoritmus futtatásával kapott potenciális góchelyek a s˝ur˝uség alapján kerültek rangsorolásra. A magyaroszági baleseti adatbázis méretére tekintettel az eljárás elfogadható futási id˝ot igényelt, azonban lényegesen nagyobb méret˝u adathalmaz feldolgozása esetén az algoritmus térbeli indexek alkalmazását igényli. 14
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A DBSCAN a paraméterekre érzékeny eljárás, alapesetben a megfelel˝o értékek megválasztása a szakért˝o felel˝ossége. A probléma kezelésére segítségül hívható az OPTICS (Ordering Points To Identify the Clustering Structure) algoritmus[20]. A módszer a DBSCAN eljárás általánosítása. Az algoritmus nem egy konkrét klaszterezést ad meg, hanem a klaszterezések egy rendezett sorozatát. Egyenérték˝u a DBSCAN eljárás sok paraméterbeállítással történ˝o elvégzésével. Az OPTICS logikája, hogy a M inP ts konstans megválasztása mellett az alacsonyabb értékek (nagyobb s˝ur˝uség) esetén kapott klaszterek részhalmazát képezik a kisebb s˝ur˝uség˝u klasztereknek. A algoritmus annak érdekében, hogy a különböz˝o s˝ur˝uség˝u klasztereket egyidej˝uleg létrehozza, az elemeket egy speciális sorrendben dolgozza fel. A sorrend kialakítása az paraméter folyamatos növelését jelenti, ezzel biztosítható, hogy a s˝ur˝ubb klaszterek jönnek el˝obb létre. Az alkalmazáshoz minden elemre el kell tárolni a bels˝o (2.6) és az elérhet˝o távolságot(2.7). ( dcore ,M inP ts (p) = ( dreachability ,M inP ts (p,q) =
ahol: N (p) qM inP ts
definiálatlan d(p, qM inP ts )
definiálatlan max(dcore ,M inP ts (p), d(p, q))
ha|N (p)| < M inP ts egyébként
(2.6)
ha|N (p)| < M inP ts egyébként
(2.7)
p ∈ D elem -sugarú környezetében található elemek halmaza a M inP ts-dik legközelebbi elem
A bels˝o távolság az a legkisebb 0 érték, amely mellett p bels˝o elem lesz (ha nem bels˝o elem, akkor nincs definiálva). A q elem elérhet˝oségi távolsága a p elemre vonatkozóan a p elem bels˝o távolságának és a p és q közötti euklidészi távolság maximuma (ha p nem bels˝o elem, akkor nincs definiálva). Az algoritmus az elemek egy sorrendjét készíti el minden elem bels˝o és elérhet˝oségi távolságának tárolásával. Az információk elegend˝oek az összes olyan klaszter el˝oállításához, ahol 0 ≤ . Az OPTICS felépítését tekintve ekvivalens a DBSCAN algoritmussal, így bonyolultsága is megegyezik, térbeli indexek használata esetén O(n log n) A klaszterezési algoritmusok felhasználására támaszkodó góchelyazonosítás eredménye a baleseti adatbázis információinak tömörítése. A nem gócgyanús helyszínekhez kapcsolható balesetek eltávolításával lehet˝oség nyílik az adatbázis redukálására. Az elemzési szempontból releváns gócgyanús baleseti adatok klaszterekbe szervezése támogatja a korszer˝u góchelyelemzési és -értékelési technikák alkalmazását.
15
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA
2.2.2.
Prediktív technikák
A korszer˝u prediktív technikáknak egyrészt a hagyományos statisztikai módszerek fejlesztései, másrészt az adatbányászat osztályozási eljárásai tekinthet˝ok. Regressziós modellek A továbbfejlesztett statisztikai eljárások el˝onye, hogy támaszkodhatnak a góchelyazonosítás során már elterjedt modellekre. Elvik alapján[14] a potenciális góchelyek elemzése támogatásának többváltozós modell bázisú, prediktív eljárásokra kell támaszkodnia, szükség esetén az empirikus Bayes (EB) módszerrel ötvözve. A statisztikai modell bázisú eljárások melletti érvelés arra hivatkozik, hogy a helyszínek azonosításának megbízhatósága a lokális kockázati tényez˝ok (útviszonyok, forgalom, stb.) figyelembe vételére alapul és kisz˝uri a rendszeres és a véletlen eseményeket. Elvik[14] a góchelyeket 3 tulajdonság konjunktív kapcsolatával definiálja, amely szerint a góchelyet (i) magasabb várható balesetszám jellemzi (ii) mint más hasonló helyszíneken (iii) a lokális kockázati tényez˝okre visszavezethet˝oen. A definícióval összhangban a szerz˝o a korszer˝u eljárásokkal szembeni elvárások f˝o szempontjaiként az alábbiakat említi: 1. rendszeres ingadozások kezelése: a lehet˝o legtöbb olyan tényez˝o figyelembe vétele, amelyr˝ol ismert a balesetekre gyakorolt befolyása 2. véletlenszer˝u ingadozás kezelése: a balesetszám véletlenszer˝u ingadozásainak kezelése a rögzített balesetszám helyett a várható balesetszám figyelembe vételével 3. lokális kockázati tényez˝ok figyelembe vétele: a góchelyek megítélése a helyi kockázati tényez˝ok segítségével meghatározott várható balesetszám és más hasonló adottságú helyszínek várható balesetszámának összevetésével Egy korszer˝u módszer a felsorolt szempontokat együttesen teljesíti. A predikciós modellnek kiemelt hangsúlyt kell fektetnie a lokális kockázati tényez˝ok figyelembe vételére. Egy prediktív baleseti modell implementálásának lépései: 1. felhasználási terület és cél definiálása 2. függ˝o és független változók meghatározása 3. becslési módszertan kiválasztása 4. regressziós analízis 5. illeszkedési vizsgálat (goodness of fit) 6. empirikus Bayes becslés 7. góchelynek min˝osítés 16
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A modellbázisú elemzés két szint˝u. Az els˝o szint a baleseti adatok részletes vizsgálatát és a kockázati tényez˝okre vonatkozó hipotézisek megfogalmazását tartalmazza. A második szintet a hipotézisek tesztelése jelenti. A javasolt modellezési periódus 3-5 év, így az elemzés legalább ennek megfelel˝o id˝oszakot lefed˝o adatmennyiséget igényel. A modell teszteléséhez azonban további évek adatai is szükségesek. A függ˝o változókat hagyományosan a balesetszám (esetleg kimenetel szerint), a sérülések száma (esetleg kimenetel szerint) vagy ezek kombinációja jelenti. A független változók f˝obb csoportjai: forgalom nagysága, összetétele és változása, úttípus, útjellemz˝ok, sebességkorlát, sávok száma, adott úthosszra vetített kereztez˝odések száma, az úthasználók viselkedése. A becslési modell felépítésének kulcskérdése egy alkalmasnak ítélt regressziós technika kiválasztása, majd a változók és a hiba feltételezett valószín˝uségi eloszlásainak meghatározása (a változók által nem magyarázott maradéktag vonatkozásában is). Számos modell többváltozós lineáris regressziót használ illetve elterjedt a Poisson valószín˝uség használata a balesetek modellezésére. A Poisson eloszlás (2.8) n elem˝u mintából, adott id˝o alatt, ismert p valószín˝uséggel megtörtén˝o események adottsága mellett az esemény k darab bekövetkezésének valószín˝uségét fejezi ki (λ = np). P (X = k) =
ahol: λ>0 k∈Z E(X) = λ √ D(X) = λ
λk −λ e k!
(2.8)
paraméter (λ = np) kísérletek száma várható érték szórás
A maradéktag általában negatív binomiális eloszlással írható le. A negatív binomiális eloszlás (2.9) azt mutatja meg, hogy mi a valószín˝usége annak, hogy pont k-szor kell megismételni a mintavételt ahhoz, hogy r-szer forduljon el˝o egy meghatározott esemény. P (X = r + k) =
ahol: 0
k+r−1 r p (1 − p)k r−1
paraméter egy esemény elvárt ismétl˝odéseinek száma kísérletek száma várható érték szórás
17
(2.9)
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A negatív binomiális eloszlás a Poisson eloszlás alternatívája a függ˝o változó vonatkozásában is. Különösen hasznos a felülr˝ol nem korlátos diszkrét adatok esetében, amikor a minta varianciája meghaladja a középértéket (Poisson eloszlás esetén megegyeznek). Mivel a negatív binomiális eloszlás eggyel több paramétert tartalmaz, mint a Poisson, a második paraméter használható a variancia átlagtól független meghatározásához. Adott minta esetén az eloszlások paramétereinek becslésére a maximum likelihood módszer (MLE) használható. A többváltozós regresszióra épül˝o predikciós modellek alapvet˝o formája (2.10): E(λ) = αQβ ∗ e
ahol: E(λ) Q xi α, β, γi
P
γi xi
(2.10)
a becsült balesetszám forgalom nagysága kockázati tényez˝oket jelöl˝o változók regressziós koefficiensek
Az exponenciális eloszláscsaládból (pl.: Poisson, gamma, binomiális) származó eloszlással jellemezhet˝o függ˝o változók esetében a lineáris regresszió általánosításaként alkalmazható az általánosított lineáris modell (generalized linear model). Az általánosítás során a hagyományos lineáris regresszió feltételezéseivel szemben (i) a függ˝o változó normális eloszlás helyett bármilyen exponenciális eloszlás lehet és (ii) a linearitás feltevése egy transzformált formára vonatkozik. A modellben a független változók lineáris kombinációja adja a lineáris prediktort (2.12). λi = E(λi ) + i X ηi = βj xij
(2.11) (2.12)
j
E(λi ) = g −1 (ηi )
ahol: E(λi ) i xij βj g()
(2.13)
a becsült balesetszám a becslési hiba kockázati tényez˝oket jelöl˝o változók regressziós koefficiensek a kapcsolati függvény
A model a függ˝o változó várható értékét a 2.13 kapcsolati függvény segítségével kapcsolja a lineáris modellhez, amely monoton és differenciálható, ezért létezik inverze. A kapcsolati függvény Poisson eloszlás esetén a logaritmus függvény. 18
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Többváltozós regressziós analízis esetén a szignifikáns változók megkeresése érdekében a forward vagy a backward eliminációt lehet elvégezni. A forward elimináció esetén a modell a leghangsúlyosabbnak feltételezett változóval kezdi a vizsgálatot és ellen˝orzi a szignifikanciát. Ha a szignifikanciára irányuló feltételezés helytállónak bizonyul a változó beépül a modellbe, ellenkez˝o esetben hátrébb sorolódik. Ezt követ˝oen sorra a vélt következ˝o legmeghatározóbb változó kerül tesztelésre. A módszer segítségével a magas szignifikanciájú változók kerülnek be el˝oször modellbe, míg az alacsonyak kimaradnak. A backward eljárás ennek fordítottja. A modell tesztelése az összes változót tartalmazva kezd˝odik, majd iteratívan a legkisebb szignifikanciájú változó mindig eltávolításra kerül. Az illeszkedés vizsgálat (goodness of fit) a predikciós modell ellen˝orzését szolgálja a tekintetben, hogy a modell mennyire képes magyarázni és becsülni a szisztematikus változatosságot a balesetek számában. Megfelel˝o illeszkedés (F -próba, Welch-próba) esetén a modell jó becslést nyújt a várható balesetszámot illet˝oen. A modell implementálását az empirikus Bayes módszer (EB) alkalmazása zárja, amely minden helyszínre kombinálja a modell eredményét és a megfigyelt balesetszámot. Az EB a többváltozós predikciós modellek kiigazítását korrekciós tényez˝okkel kezeli, figyelembe véve a góchelyek lokális eltéréseit. Az EB alkalmazása lehet˝ové teszi az elméleti valószín˝uségi eloszlások illesztését az empirikus eloszlásokhoz, ezáltal a hibák statisztikai pontosítását (regression-to-the-mean torzítás). A módszer a várható balesetek számát két forrásból becsli meg: (i) a többváltozós baleseti predikciós modell eredménye, amely magyarázza a veszélyeztetettség normális szintjét és a biztonságra ható tényez˝oket valamint (ii) balesetszám rögzített adatai, amely a predikciós modell kiigazítására szolgál. A balesetek várható száma egy góchelyen az adott góchely historikus balesetszáma és a hasonló jellemz˝oj˝u helyszínek esetében a predikciós modell által el˝orejelzett várható balesetszám lineáris kombinációja (2.14)[25]. E(λi ) = αi ∗ λi + (1 − αi ) ∗ ri
ahol: E(λi ) λi ri ki α=
1 λ 1+ ki
(2.14)
a góchely korrigált várható balesetszáma a predikciós modell által becsült balesetszám a góchely historikus balesetszáma túlszórási (overdispersion) paraméter, (a khí-négyzet és a szabadságfok hányadosával becsülhet˝o) súlyozási tényez˝o
i
Az empirikus Bayes módszer lehet˝ové teszi a historikus adatok torzításaitól mentes becslést a hosszú távon várható balesetszámra vonatkozóan. Nem csupán a rögzített baleseti 19
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA adatokra támaszkodik, hanem figyelembe veszi a potenciális góchely egyedi sajátosságait és kizárja a historikus baleseti adatok véletlen ingadozásait. A Hauer [22] által alkalmazott empirikus Bayes módszer a legjobban illeszked˝o modell a várható balesetszám becsléséhez. Az empirikus Bayes módszer a hagyományos elemzési eszközökhöz képest csökkenti a hibás min˝osítés (false positive, negative) számát. A EB alkalmazásával a potenciális góchelyek közül kiválaszthatóak azok a veszélyes helyszínek, ahol szignifikánsan magas a várható balesetek száma. A góchelynek min˝osítés kritériuma alapvet˝oen a várható és tényleges balesetszám relatív vagy az abszolút eltérésére alapulhat. A hányados kritérium esetén a legmagasabb rátájú, az abszolút esetben a várható balesetszámtól legnagyobb mértékben eltér˝o helyszínek min˝osülnek góchelynek. Számos tanulmány igazolta az eljárás megbízhatóságát a góchelyazonosításban. A tanulmányok konklúzióit Elvik [14] foglalja össze. Elvik öt technikát hasonlított össze a góchelyazonosítás terén. Az összehasonlítása alapján az empirikus Bayes módszer bizonyult a legpontosabbnak (sensitivity: true positive/total positives). A baleseti modell 8 év adataira támaszkodott. A modellezés során a napi átlagos forgalom, sebességkorlát, sávok száma, útkeresztez˝odések száma km-enként és egy f˝oútvonalakra vonatkozó dummy változót vett figyelembe. Az eljárás az id˝oszak els˝o négy év adatai alapján az EB módszer segítségével becsülte meg a várható balesetszámot az összes potenciális góchelyre. Góchelynek a 2,5% fels˝o percentilisbe es˝o góchelyeket min˝osítette. Az osztályozás pontosságát az id˝oszak második négy év adatai alapján tesztelte. A góchelyazonosítás során számos osztályozási módszer hatékonyan alkalmazható. Különösen a neurális hálózatok, a döntési fák és a naív-Bayes eljárás használata terjedt el [28][29][30]. Döntési fák A döntési fák el˝onye, hogy az osztályozási szabályok kinyerése és interpretációja egyszer˝u. Népszer˝uségüket számos további el˝onyös tulajdonságuknak köszönhetik. A döntési fa építése nem igényel semmilyen el˝ozetes feltételezést a változók valószín˝uségi eloszlását illet˝oen. Emellett a redundáns vagy felesleges attribútumok nem befolyásolják hátrányosan a döntési fák pontosságát. A technika jól skálázható és a döntési fákat generáló algoritmusok felismerik a fontos attribútumokat, amelyek a fa gyökéréhez közel helyezkednek el. A döntési fa el˝oállítására több eljárás kínál lehet˝oséget. Mivel az optimális fa megtalálása exponenciális nagyságrend˝u (NP-teljes), a döntési fát felépít˝o algoritmusok mohó stratégiát alkalmaznak, egy sor lokálisan optimális döntéssel operálnak. A fa generálása egy partícionáló folyamat, amely az egyes csúcsokban rekurzív módon, egy-egy kiválasztott attribútum mentén osztja fel az adatok halmazát. A rekurzív felosztás akkor fejez˝odik be, ha (i) egy csúcsba tartozó minták azonos osztályba tartoznak, vagy (ii) nincs már több változó a további particionáláshoz vagy (iii) már az összes adat osztályozásra került vagy (iv) a döntési fa elért egy el˝ore meghatározott mélységet. 20
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A particionálás alapalgoritmusa az ID3 (Iterative Dichotomiser 3). Az algoritmus egy entrópián (2.15) alapuló mértéket, az információnyereséget (gain) használja a felosztás alapjául szolgáló attribútum meghatározásához. I(s1 , . . . , sn ) = −
n X
pi log2 pi
(2.15)
i=1
ahol: si n pi
adathalmaz Ci osztályba es˝o rekordjainak száma osztálycímke attribútum értékeinek száma egy elem Ci osztályba esésének valószín˝usége
Az attribútumok várható információira (2.16) épülve az eljárás a legmagasabb információnyereséggel (2.17) rendelkez˝o attribútumot választja ki adott csúcsban. E(A) =
k X
wj I(s1j , . . . , snj )
(2.16)
j=1
ahol: sij wj =
s1j +···+snj s
A attribútum aj értékét felvev˝o, Ci osztályba tartozó rekordok száma a j. részhalmaz súlya
IG(A, S) = I(s1 , . . . , sn ) − E(A)
(2.17)
A döntési fa az átlagostól nagymértékben eltér˝o minták miatt általában több zaj jelleg˝u ágat tartalmaz. A túlillesztést a fa metszésével lehet kezelni, amelyre két elterjedt megközelítés létezik. Az el˝ometszés (prepruning) a fa építése közben avatkozik be azáltal, hogy nem enged egy el˝ore megadott küszöbértéknél alacsonyabb információnyereséget eredményez˝o szétvágást. Az utómetszés (postpruning) egy már felépített fa esetében távolít el ágakat. A módszer minden nem levél csúcsban kiszámítja azt a hibát, ami a részfa levágásával keletkezne. Alacsony hiba esetén a részfa eltávolításra kerül. Az ID3 eljárásnak több javítása is született. Az algoritmus általánosítása a C4.5 eljárás, amely nem csak diszkrét, hanem folytonos értékkészlet˝u attribútumokat is kezel. A C4.5 bonyolultsága a folytonos attribútumok vágása miatt O(n2 ), a vizsgált attribútum rendezettsége esetén O(nlogn) nagyságrend˝u. A döntési fa algoritmusok hatékonysága kis adathalmazok esetén elfogadottan jó, nagy adatbázisok feldolgozása során azonban speciális lemezkezelést biztosító algoritmusok implementációja szükséges (SLIQ, SPRINT). A döntési fa építésére alternatív módszert jelent a CART algoritmus, amely a Gini-index-et felhasználva bináris fát épít. 21
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Naiv-Bayes eljárás A baleseti adatok sztochasztikus jellegére tekintettel a góchelyek osztályozása során alkalmazható a naiv-Bayes statisztikai osztályozó. A módszer nem egy adott osztályt rendel az adatokhoz, hanem az adatelem egy-egy osztályhoz tartozásának valószín˝uségét adja meg. Az algoritmus a Bayes-tételen alapul(2.18). P (Ci |x) =
ahol: x =< x1 , . . . , xk > Ci P (Ci ) P (x) P (x|Ci )
P (x|Ci )P (Ci ) P (x)
(2.18)
az az esemény, hogy az x az i. osztályba tartozik adott osztály prior valószín˝usége (relatív gyakorisága) x el˝ofordulás valószín˝usége x valószín˝usége Ci osztályon belül
Az osztályozási probléma a posteriori valószín˝uségekkel fogalmazható meg. P (Ci |x) jelöli a Ci osztály x-et feltételez˝o posteriori valószín˝uségét, azaz annak a valószín˝uségét, hogy x objektum a Ci osztály eleme. A Bayes-osztályozás alapelve, hogy x-et abba az osztályba kell sorolni, amelyre P (Ci |x) feltételes valószín˝uség a maximális. Mivel P (x) konstans a P (x|Ci )P (Ci ) maximumának megkeresése jelenti az osztályozást. P (Ci ) értéke minden osztály esetén ismert (az osztály relatív gyakorisága), ezért P (x|Ci ) valószín˝uség meghatározása jelenti a problémát. Az eljárás azt feltételezi, hogy egy attribútumérték egy adott osztályba tartozásra gyakorolt hatása független más attribútumok értékét˝ol (feltételes osztályfüggetlenség). A naív feltételezéssel élve P (x|Ci ) felírható független események valószín˝uségi szorzataként (2.19). P (x|Ci ) = P (x1 , . . . , xk |Ci ) = P (x1 |Ci ) . . . P (xk |Ci )
(2.19)
Kategória típusú attribútumok esetén P (x|Ci ) xj Ci -re vonatkozó relatív gyakoriságával számolható (xj gyakoriságának és az osztályba tartozó minták számának hányadosa). Folytonos érték˝u attribútumok esetén egy valószín˝uségi eloszlás feltételezése szükséges. Az eloszlás a legtöbb esetben normális eloszlás, de valamilyen a priori információ esetén gyakori a lognormális, Poisson vagy gamma eloszlás is.
22
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Normális eloszlás esetén P (xj |Ci ) a 2.20. képlet szerint számolható. 1 P (xj |Ci ) = √ e 2πσi
−(xj −mi )2 2σ 2 i
(2.20)
ahol: mi = σi =
1 N
N P
xi
i=1 N P
1 N −1
(xi − mi )2
i=1
A naiv-Bayes nagy adatbázisok esetében is nagy pontossággal és sebességgel m˝uködik. Hiányzó értékek esetén is használható az eljárás, P (xj |Ci ) számításakor a hiányzó érték figyelmen kívül hagyásával. Az algoritmus robosztus a zajos pontokra, mivel azok kiátlagolódnak a feltételes valószín˝uségek számításakor. Hasonlóan a döntési fákhoz robosztusak az irreleváns attribútumokra. A naív feltételezése nagymértékben egyszer˝usíti a számításokat, azonban a gyakorlatban a feltételezés általában nem biztosított, az attribútumok között korreláció tapasztalható. A naív-Bayes hátrányos tulajdonságát a Bayes-féle hihet˝oségi hálók (Bayesian belief network) kezelik, lehet˝oséget biztosítva a priori tudás figyelembe vételére. A Bayes-féle hihet˝oségi hálók grafikus modellek, amelyek a naiv-Bayes osztályozóval szemben az attribútumok részhalmazai közötti függ˝oségek ábrázolását is lehet˝ové teszik. Az attribútumok közötti függ˝oségeket egy irányított, körmentes gráf reprezentálja, ahol a csúcsok az attribútumok, az élek pedig a függ˝oségek. Ha A csúcsból él vezet B csúcsba, akkor A szül˝o, B gyermek. A Bayes hálóban a gyermekek csak a szül˝okt˝ol függenek, minden más attribútumtól függetlenek. A háló szerkezete mellett minden attribútumra meg kell adni egy feltételes valószín˝uségi táblázatot, amely az adott attribútum és szülei minden lehetséges értéke esetén a feltételes valószín˝uség értékét tartalmazza. Az értékek ismeretében a 2.21. képlet szerint számolható P (x1 , . . . , xk ). P (x1 , . . . , xk ) =
Y
kP (xi |Szül˝ok(Xi ))
(2.21)
i=1
A Bayes-hálók tanítása problémás lehet, ha a háló szerkezete nem ismert, vagy ha ismert, de vannak rejtett változók.
23
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Neurális hálók Az adatbányászati területén széleskör˝oen felhasználhatóak a neurális hálózatok. A hiba visszaterjesztéses (back propagation) neuronhálós tanuló algoritmus alkalmas osztályozási és regressziós feladatok elvégzésére. Az algoritmus el˝orecsatolt többréteg˝u hálók tanításánál alkalmazható (2.5. ábra).
2.5. ábra. El˝orekapcsolt többréteg˝u hálózat[18] Az adatok a háló bemeneti rétegén kerülnek a modellbe, a bemenetek a tanulóminta attribútumainak felelnek meg. A bemeneti neuronok súlyozott kimenete jelenti a rejtett réteg bementét (2.22). A rejtett réteg súlyozott kimenetei pedig egyben az el˝orejelzést adó kimeneti réteg bementei. Ij =
X
wij Oi + θ
(2.22)
i
ahol: Oi wij θj
az el˝oz˝o rétegbeli i. egység kimenete az el˝oz˝o rétegen lév˝o i egység és a j egység kapcsolatának súlya az egység torzítása
A neuronok a bementeket aktiválási függvény segítségével dolgozzák fel. Többréteg˝u el˝orekapcsolt neuronháló lineáris küszöbfüggvény esetén is univerzális approximátor, bármilyen függvényt képesek jól közelíteni. 24
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA A gyakorlatban differenciálhatóságára tekintettel a 2.23 szigmoid (logisztikus) függvény terjedt el. 1 (2.23) 1 + e−Ij A neuronhálók tanulása id˝oigényes. A háló topológiájára nincs jól bevált szabály, tapasztalati úton határozható meg. A folytonos bemeneti értékek [0,1] intervallumba normalizálása vagy N (0, 1) standardizálása segít a tanulás felgyorsításában. A diszkrét érték˝u attribútumok esetében minden értékéhez külön neuron elhelyezése célszer˝u a bemeneti rétegben. A kimeneti rétegen az osztálycímkék számával megegyez˝o kimeneti egység elhelyezése szükséges. A rejtett réteg meghatározására nem létezik szabály, intuíciók alapján adható meg. A back-propagation algoritmus a tanulóminták újabb és újabb feldolgozásával tanul, összehasonlítva a háló becslését és az ismert osztálycímkét. A hálózat súlymátrixa minden tanulásnál úgy változik, hogy a becslés és az aktuális osztálycímke várható eltérésének a négyzetét minimalizálja (2.24). Oj =
N
E(w) =
1X ˆ i )2 (Oi − O 2 i=1
(2.24)
Egy rejtett rétegbeli egység hibájának számításakor a következ˝o réteg j egységhez kapcsolódó neuronjaihoz tartozó hibák súlyozott összegét kell figyelembe venni. A hiba visszaterjesztés (súly módosítás) a kimeneti szintt˝ol a rejtett rétegre valósul meg. Az algoritmus a csökken˝o gradiensek elvén alapuló módszert használ a tanulásra. A súlyok módosítása az 2.25 képlet szerint történik. wij := wij − λ
ahol: λ ∈ [0, 1]
∂E(w) ∂wj
(2.25)
a tanulási ráta
A λ tanulási ráta szerepe a lokális minimumokba beragadás elkerülése. A ráta meghatározása során tekintettel kell lenni arra, hogy túl alacsony érték esetén a tanulás lassúvá válik, túl nagy érték megválasztásával pedig a nem megfelel˝o megoldások között oszcillálhat a modell. Iránymutatásként a rátát minden iteráció során érdemes csökkenteni 1/t aránnyal, ahol t > 1 az elvégzett iterációk száma. A modell tanítása a következ˝o megállási feltételek bekövetkezése esetén fejez˝odik be: az el˝oz˝o iterációban egy küszöbérték alá esett (i) minden súly esetében a hiba, (ii) rosszul osztályozott minták aránya, vagy (iii) az iterációk száma egy el˝ore meghatározott értéket elért. A neurális hálózatok el˝onye, hogy képesek a redundáns tulajdonságok kezelésére és tolerálják a zajos adatokat. 25
˝ FEJEZET 2. KÖZÚTI BALESETEK MEGELOZÉSÉNEK IT TÁMOGATÁSA Mussone et al.[26] többréteg˝u neurális hálózatokat, hiba-visszacsatolással használt a baleseti adatok elemzésére. A bemeneti szint 10 egységet tartalmazott 8 változóra (köztük: napszak, forgalom, úttípus, útburkolat, id˝ojárási viszonyok). A kimeneti neuron a góchely balesetszámának és a legveszélyesebb góc balesetszáma hányadosaként számolt baleseti indexet adta eredményül. Moghaddam et al.[31] szintén a neurális hálózat segítségével épített hatékony prediktív modellt a balesetek súlyosságának el˝orejelzését célozva. A góchelyelemzés során alkalmazható korszer˝u, prediktív technikák mellett említésre méltó a lágy számítási módszerek felhasználásának lehet˝osége. A hagyományos eljárások élesen elkülönül˝o (crisp) halmazokkal dolgoznak, a küszöbértékek diszjunkt részhalmazokat eredményeznek, ezért hatékonyságuk er˝osen függ a szakért˝ok által meghatározott paraméterekt˝ol. A küszöbértékek helytelen beállításától függ˝oen a veszélyesnek ítélt útszakaszok tartalmazhatnak tévesen góchelynek min˝osített szakaszokat, illetve egyes tényleges gócpontok rejtve maradhatnak. A bizonytalanságok kezelése érdekében a fuzzy halmazok hívhatók segítségül. A potenciális góchelyazonosítás során a fuzzy klaszterezés (FCM) lehet alkalmas eszköz a góchelyek megítélésének finomításában. Az el˝orejelzés esetében pedig a neuro-fuzzy rendszerek jelenthetik az elmélet bevezetését a góchelyelemzésbe[32]. A lágy számítási módszerek közül a genetikus algoritmusok is segíthetik a modellépítést a megfelel˝o paraméterek keresésével illetve a hálók esetében a topológia kialakításával. A genetikus algoritmus a bevonásra kerül˝o baleseti jellemz˝ok kiválasztását is támogathatja.
26
3. fejezet Tervezés A dolgozat célja, hogy az áttekintett módszerekre támaszkodva, a magyarországi baleseti adatbázis felhasználásával hatékony prediktív modellel gyarapítsa a hazai balesetmegel˝ozés informatikai eszköztárát. Az adatbányászat és tudásfeltárás folyamata számos tevékenységet magában foglal: adatok kiválasztása, tisztítása, el˝ofeldolgozása, transzformálása, eljárások értékelése, vizuális megjelenítés és interpretáció. A CRISP-DM (Cross Industry Standard Process of Data Mining) módszertan a tevékenységek hat folyamat köré való csoportosítása mellett foglalja össze az adatbányászat gyakorlati lépéseit és eredménytermékeit (3.1. ábra). A CRISP-DM a dolgozat céljának megvalósítása során is keretül szolgál.
3.1. ábra. A CRISP-DM módszertan[33]
27
FEJEZET 3. TERVEZÉS A közúti balesetmegel˝ozés ”üzleti” céljai az 1. fejezetben bemutatásra kerültek. A dolgozat a továbbiakban az adatok el˝ofeldolgozására, a modellezésre és az eredmények interpretációjára fókuszál. A tevékenységek közül a leghosszabb ideig tartó feladatot az adatok megfelel˝o min˝oség˝u el˝okészítése jelenti. Az el˝okészítés célja az adatok integrálása egy adattáblában, az elemzési célhoz megfelel˝o min˝oségben. A hazai baleseti elemzések bemeneti adatait a magyarországi úthálózati, forgalmi és közúti baleseti adatbázis jelenti. Az adatok modellezéshez illeszked˝o el˝okészítése számos lépésb˝ol áll. A 3.1. ábra az adatel˝okészítés folyamatának tevékenységeit foglalja össze. tevékenység
gyakorlati lépések
adatok elérése
adattárház hiányában a különböz˝o adatforrások feltérképezése és az adatok beolvasása a különböz˝o adatforrásokból származó adatok összegy˝ujtése egy adattáblában összegy˝ujtött adatok megismerése, alapjellemz˝ok és az adatmin˝oség vizsgálata a hiányzó értékek pótlása, a zajos és inkonzisztens adatok eltávolítása mértékegységek egységesítése, rangszámok/sorrendek, mérési skálák transzformációja, csoportképzés elemzéshez használt attribútumok kiválasztása, redundancia csökkentés, mintavételezés teljes adathalmaz tanító és teszt halmazokra bontása osztályozási feladatnál
adatok integrálása adatprofilozás adattisztítás attribútumok transzformálása adatredukció adatok partícionálása
3.1. táblázat. Az adatel˝okészítési tevékenység[34] Az el˝okészített adatokra épül˝o modellezés els˝o lépése a megfelel˝o modellezési technika kiválasztása. Az esetek többségében érdemes több algoritmust implementálni, mert alkalmazási területeik átfednek és különböz˝o esetekben eltér˝o eredményt adnak. A modellalkotás sikeressége a problémához illeszked˝o modell kijelölése mellett a modellezésbe bevont adatok kiválasztásának helyességét˝ol függ. A baleset el˝orejelzési módszerek terén a klaszterezés-bázisú osztályozás különösen el˝onyösnek bizonyul[27]. A potenciális góchelyek térbeli azonosítása érdekében a GPS adatokat felhasználó klaszterezési eljárásokra lehet támaszkodni. Az algoritmusok közül els˝osorban a térbeli indexekkel támogatott s˝ur˝uség alapú módszerek relevánsak. Az el˝orejelzés a potenciális góchelyek adataira épít˝o prediktív modell feladata. A kockázati szint modellezése során a regressziós technikák és az osztályozási módszerek lehetnek hatékonyak. A modell értékeléséhez meghatározandó a modell tesztelési és kiértékelési módszere. Az el˝orejelzési modellek pontosságának megítéléséhez a rendelkezésre álló adatok particioná28
FEJEZET 3. TERVEZÉS lása szükséges tanító- és teszthalmazra. A modell eredményeinek kiértékelése a feltárt ismeretek vizualizációjával támogatható hatékonyan. A baleseti el˝orejelzés esetében az interpretációt els˝osorban a baleseti góchelyek kockázati térképének megjelenítése segíti. A fent felvázolt folyamatokhoz igazodva, a dolgozat keretében kifejlesztésre került a 3.2. ábrán illusztrált funkcionalitást támogató rendszer.
3.2. ábra. Az implementálásra kerül˝o rendszer használati eset diagramja
29
FEJEZET 3. TERVEZÉS A rendszer a használati szempontokat hangsúlyozó követelményleírásból kiindulva bontja modulokra a rendszert. A rendszer logikai felépítése a leggyakrabban alkalmazott háromréteg˝u architektúrát követi, amelyben a dialógus-, az adatkezelés és az üzleti logika különálló egységet alkot. A funkcionalitást biztosító rendszer logikai architektúráját a 3.3. ábra foglalja össze.
3.3. ábra. A rendszer szerkezeti modellje A dialóguskezel˝o réteg interfészt nyújt a szakért˝o felé. Az emberi felhasználókkal való kapcsolattartás során fontos szerepet játszik az elemzés tervezésének és eredményei szemléltetésének grafikus támogatása. Az üzleti logika réteg határozza meg a rendszer viselkedését, az adatprofilozás, el˝okészítés és a modellezéshez kapcsolódó alapvet˝o funkciók megvalósításával. Ebben a rétegben valósul meg a dialóguskezel˝o rétegb˝ol érkez˝o felhasználói parancsok értelmezése, a kijelölt adatokon a megfelel˝o számítások elvégzése és a kimeneti adatok el˝oállítása. 30
FEJEZET 3. TERVEZÉS Az adatelérési réteg a perzisztens adatforrásokkal és a modellbázissal való kapcsolattartáshoz szükséges specifikus adaptereket tartalmazza és biztosítja az üzleti logika számára azok elérését. A rendszer m˝uködése során az üzleti réteget alkotó komponensek szoros együttm˝uködésben valósítják meg a dialóguskezel˝o fel˝ol érkez˝o kérések kiszolgálását. A komponensek közötti együttm˝uködések a szerkezeti modellben bemutatott interfészeken keresztül valósulnak meg. Az interakciók kombinálásával a 3.2. ábrán felvázolt használati esetek kiszolgálhatók. A komponensek közötti együttm˝uködésre egy el˝orejelzési folyamat szemléltetésével átfogó példát mutat a 3.4. ábrán szerepl˝o szekvencia diagram.
3.4. ábra. A rendszer viselkedési modellje A rendszer implementációja .NET környezetben valósult meg. A baleseti adatok hatékony elérését egy lokális SQL adatbázis nyújtja. A modellbázis statisztikai és gépi tanulás könyvtárakra épül, amelyek közvetlen interfészt biztosítanak a .NET nyelvcsalád számára. Az eredmények térképes megjelenítése a Google Maps online térkép elemeire és programozási felületére támaszkodik. A rendszer .NET 4.5 környezetben, C# nyelven került implementálásra. A program a .NET standard könyvtárai mellett az Accord.Net és az AForge.NET keretrendszerekre támaszkodik. Az adattárolást az SQLite adatbázis látja el. Az algoritmusok futtatásának és teljesítményük mérési környzetét egy Intel Core i3-6100 3,7 GHz processzor és 8 GB RAM alkotta, az els˝odleges meghajtó egy 120 GB tárkapacitású SSD merevlemez volt. A dolgozat a továbbiakban az elemzési munka folyamatára és a modellezés eredményeinek bemutatására összpontosít a szoftvertechnológiai kérdésekkel szemben.
31
4. fejezet Adatok el˝ofeldolgozása 4.1.
Adatforrások
A hazai balesetek elemzésének bemeneti adatait úthálózati, forgalmi és közúti baleseti adatállományok szolgáltatják, a 4.1 táblázatban összefoglalt információ tartalommal. állomány
adatforrás
adattartalom
OKASZAK
úthálózat leírása útszakaszokkal utak GPS koordinátái útforgalmi adatok
a közút-hálózatot reprezentáló gráf csúcsainak (útkeresztez˝odések) azonosítása útszelvény alapon az útszakaszokon belül, 10 méterenként meghatározott GPS koordináták adott útszakasz adott id˝oszakra vonatkozó járm˝u forgalmi adatai a személysérüléssel járó közúti balesetek statisztikai adatfelviteli lap szerinti adatai 10 évre visszamen˝oleg
OKA GPS OKASZAK TRAFFIC KSH ACCIDENT
baleseti adatok
4.1. táblázat. Az el˝orejelzéshez rendelkezésre álló adatforrások Az els˝o három adatforrás (OKASZAK, OKA GPS, OKASZAK TRAFFIC) ritkán változó, a baleseti adatok dimenzióit képez˝o törzsadatoknak tekinthet˝ok, míg a KSH útmutatása[5] szerint rögzített baleseti adatok (KSH ACCIDENT) tranzakciós adatoknak min˝osülnek. Az alábbiakban a törzsadatok kerülnek áttekintésre, majd a fejezet további része a baleseti adatbázisra összpontosítva bemutatja az adatok el˝okészítésének folyamatát. Az úthálózatot leíró adatok tárolásának gráf reprezentáció logikája az útkeresztez˝odések egyedi azonosítására épül. Az utak két útkeresztez˝odés közé es˝o útszakaszokra vannak felbontva. Az OKASZAK tartalmazza az útszakaszok jellemz˝oit: közút neve, útszakaszt meghatározó kezd˝o és záró útkeresztez˝odés azonosítója és szelvényszáma (km+m). Például az R080035O és R080035L azonosítójú útkeresztez˝odések által behatárolt szakasz az M1-es úton helyezkedik el, a 171km+790 méter kezd˝o és 171km+977 méter záró útszelvény között. 32
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA Az OKA GPS adatbázis a közúthálózat még részletesebb, GPS koordinátákra épül˝o leírása. Az állomány az OKASZAK útszakaszain belül 10 méterenként (OFFSET) rögzített GPS koordinátákat tárol. Az útszakaszok további jellemzését az OKASZAK TRAFFIC adatbázis tartalmazza, amely a kérdéses útszakasz jobb és bal pályájának átlagos napi járm˝u forgalmi mutatóját (ANF) tárolja. Az átlagos forgalom a keresztmetszeti forgalomszámlálás eredményeib˝ol a Magyar Közút Nonprofit Zrt. által közzétett módszertan[35] szerint származtatott mutató. Az útszakaszok napi forgalma jellemezhet˝o az éjszakai forgalom intenzitása alapján (pl.: nagyarányú-autópálya, alacsony-belterületi szakaszok). Az éves forgalom intenzitása szerint pedig a tranzit és szezonális forgalmat lebonyolító útszakaszok különböztethet˝oek meg.
4.2.
Baleseti adatok feltárása
A predikciós modellezés hatékonysága szempontjából kulcsfontosságú a közúti baleseteket jellemz˝o KSH ACCIDENT balesetállomány adattartalmának értelmezése, az adatmin˝oség feltérképezése és az adathibák kezelése. A baleseti adatbázis a 2002.01.01-t˝ol 2012.12.31-ig tartó id˝oszakot öleli fel, összesen 207 353 db baleset adatát tartalmazza, 57 attribútum mentén leírva. A balesetállomány részletes jellemzését az A.függelék mutatja be. A nyers bemeneti adatokról szóló jelentés tartalmazza az attribútumok: - elnevezését, - szemantikai értelmezését, - típusát (mérési skála szerint), - érvényes értékkészletét (minimum és maximum), - érvénytelen és hiányzó értékeket tartalmazó rekordok számát, - érvényes adatokkal feltöltött rekordok arányát Az adatbázis többségében kategória típusú attribútumokat tartalmaz (42 db). Az érvényes értékkészlet numerikus mez˝ok (intervallum, arány típusú változók) esetén magának a felvehet˝o értéknek az intervallumát, szimbolikus (nominális, ordinális típusú változók) attribútumok esetén a kategória kódolásának terjedelmét tükrözi. A kategóriák leképezése az esetek többségében 1-t˝ol kezd˝odik és egységnyi inkrementálással növekv˝o egész szám. Az attritbútum értékének érvényessége kizárólag az attribútum felvehet˝o értékészletére vonatkozik, nem jellemzi az attribútumok közötti konzisztenciát (pl.: megye és település). Az attirúbumok leíró jellegének csoportosításával (4.2. táblázat) kép alkotható a redundanciáról, az attribútumok szemantikai átfedésér˝o, végs˝o soron az attribútumszám redukálásának lehet˝oségér˝ol. 33
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA leíró jelleg
attribútum jellemz˝ok szám azonosítás 2 rekord egyedi azonosító (hash kód) és baleseti lap azonosító id˝opont 1 bekövetkezés id˝opontja év/hónap/nap/óra/perc pontosággal helyszín azonosítása 21 GPS koordináták, megye, település, útszakasz, közterület, stb. közlekedési feltételek 14 út típus, alakzat, lejtviszony, sávok, útburkolat, (út, úttest, forg.ir.) forgalomirányítás módja, sávok jelzése, stb. környezeti feltételek 4 id˝ojárási és látási viszonyok, útfelület állapota balesetet okozó 5 alkoholos befolyásoltság, jogosítvány megszerzése, vezetési tapasztalat baleset kimenetele 8 baleset kimenetele (könny˝u, súlyos, halálos), sérültek és áldozatok száma 2 ill. 30 napon belül baleset min˝osítés 2 balesetet el˝oidéz˝o els˝odleges ok, a baleset természete és típusa 4.2. táblázat. A balesetállomány attribútumainak leíró jellege Az attribútumok több mint harmada a baleset lokalizációjáról tartalmaz információkat. A legmagasabb redundancia is ebben a csoportban figyelhet˝o meg (pl.: település-megye, útszelvény-GPS koordináta). A második legtöbb tulajdonságot felölel˝o attribútum csoportot az út-, úttest- és a forgalomirányítás jellemz˝oi alkotják. A baleset kimenetelét leíró 8 attribútum között szintén jelent˝os redundancia tapasztalható. A balesetek kimenetele a balesetben sérültek, elhunytak számától függ. A kimenetel megkülönböztetésre kerül a baleset bekövetkezés id˝opontjától számított 2 illetve 30 nap szerint. A baleset els˝odleges okát (99 kategória) és típusát (86 kategória) a KSH nomenklatúrája alapján a helyszínel˝o ítéli meg (nem a bírósági eljárás lezárásának eredménye jelenik meg). A kategóriák magas számossága mellett mind az okok (13 csoport), mind a típusok (12 csoport) magasabb fogalmi szinten csoportosíthatók. A magasabb aggregációs szint el˝osegíti az értelmezést. Az attribútumok érvényes adatokkal való töltöttségéhez kapcsolódó f˝obb problémákat a 4.3. táblázat foglalja össze.
34
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA leíró jelleg id˝opont helyszín azonosítása
töltöttség min˝osítés +++ +
közlekedési feltételek
++
környezeti feltételek balesetet okozó
+++
baleset kimenetele baleset min˝osítés
+++
++
+++
jellemzés, problémák A baleset id˝opontja minden esetben beazonosítható. A rekordok több mint felét érinti az útszakasz, útforgalom hivatkozás, valamint a GPS azonosítás hiánya. A hiány els˝odleges oka az, hogy ezek a balesetek települések belterületén, a helyi önkormányzatok által kezelt, nem számozott utakon következtek be. A belterületeket érint˝o balesetek azonosítására a közterület neve és a házszám ad lehet˝oséget. A települések KSH azonosítón alapuló nyilvántartása 15%-ban érvénytelen adatot tartalmaz. A hibával érintett baleseteknél a megye kód került rögzítésre. A 2010 után bekövetekezett balesetek esetében nem került jelölésre, hogy a helyszín útkeresztez˝odés-e. Hiányzik továbbá a forgalomszervezés jellege, a forgalomirányító készülék m˝ukodése, az úttest burkolata. Rendkívül alacsony (19%) az úttest szélességének töltöttsége. Az attribútumok töltöttsége közel 100%. Az alkoholos befolyásoltság és a jogosítvánnal rendelkezés hiányzó rekordjainak aránya 15%, a vezetési tapasztalat 20%-a hiányos. A jogosítvány megszerzésének id˝opontját jellemz˝o attribútumnak mindössze 13%-a érvényes adat. A kimenetel és a sérültek/elhunytak száma minden esetben kitöltött. A baleset típusa és oka minden esetben kitöltött.
4.3. táblázat. A balesetállomány attribútumainak leíró jellege A baleseti gócpontok kiválasztása nagyon szorosan kapcsolódik az adatok megbízhatóságának kérdéséhez, ugyanakkor a balesetek rendelkezésre álló adatait több hiányosság, ellentmondás jellemzi. Az érvényes adatokkal való töltöttség legnagyobb hiányosságai a helyszín azonosítását leíró attribútumokat érintik. Az adatmin˝oség javításának legnagyobb feladata a balesetek lokalizálhatóságának javítása. További problémát eredményez, hogy az adatbázisban nem következetes a hiányzó értékek jelölése. A hiányzó adatok egyes attribútumok esetében NULL értékeket, más mez˝ok esetében 0 vagy -1 értéket vesznek fel.
35
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA
4.3.
Adatok el˝okészítése
Az elemzési feladatokat az eredeti adatforrásoktól leválasztott adatbázison indokolt elvégezni annak érdekében, hogy az er˝oforrásigényes elemzés ne terhelje az operatív rendszert. Az elemzési adatbázis nem igényel folyamatos aktualizálást, naprakészséget. Az eredményeket nem befolyásolja érdemben, ha csak naponta, hetente kerülnek áttöltésre az újabb baleseti adatok. Ugyanakkor biztosítani kell az adatok rendszeres betöltésének és az adatmin˝oség javításának magas fokú automatizálását, annak érdekében, hogy az elemzést végz˝o szakért˝ok ne az adatkezelésre, hanem az elemzésre összpontosíthassanak. Az elemzési adatok hatékony elérése és konzisztenciájának javítása érdekében a relációs adatbázis kezel˝o rendszerben történ˝o integrálás célrevezet˝o. Tekintettel arra, hogy az elemzési célú feldolgozás az egyszeri adatbetöltést követ˝oen lényegében csak nagyszámú olvasási m˝uveleteket igényel, ideális választás az SQLite relációs adatbázis rendszer[36]. Az SQLite egy önálló programkönyvtárként megvalósított, ACID-kompatibilis relációs adatbázis-kezel˝o rendszer. Az SQLite-ot alacsony er˝oforrásigény˝u rendszernek tervezték, így az önálló desktop (nem elosztott, konkurrens, kliens-szerver) alkalmazások kiszolgására hatékony megoldást kínál. Az SQLite adatbázist egy speciális architektúra teszi más szabad felhasználású adatbázis-rendszereknél gyorsabbá [37]. A teljes adatbázis (definíciók, táblák, indexek és maguk az adatok) egyetlen platformfüggetlen fájlban, lokálisan tárolódik, ugyanakkor biztosítható az adatbázis közvetlenül a memóriából (in-memory) való elérése is, amely magas operatív tárkapacitás esetén jelent˝osen gyorsítja a feldolgozást. A kliens-szerver architektúrájú adatbázis-kezel˝o rendszerekkel ellentétben az SQLite motor nem egy különálló folyamat, amellyel az alkalmazás kommunikál. Az alkalmazáshoz linkelt programkönyvtár lévén a program komponensét alkotja, amelynek eljárásai dinamikusan hívhatók meg. A folyamatok közötti kommunikációval szemben az alkalmazás függvényhívásokon keresztül használhatja az SQLite funkcionalitását, ami jelent˝osen csökkenti az adatbázis elérési idejét. Az SQLite egyszer˝u felépítéséhez a tranzakciókezelés során az egész adatbázis állományt zároló mechanizmus társul. A teljes adatbázis zárolása jelen esetben nem okoz problémát, mivel nem történik konkurrens elérés, az egyidej˝uleg kezdeményezett tranzakciók kiszolgálásával, ütközésével nem kell számolni. A SQLite adattípusai: NULL, INTEGER (1-8 bájt, az ábrázolni kívánt érték nagyságától függ˝oen), REAL (8 bájtos IEEE lebeg˝opontos ábrázolás), TEXT (alapértelmezetten UTF-8 kódolás), BLOB (bináris objektumok). Az SQLite rendelkezik R*-tree térbeli indexelést támogató modullal, ami a GPS koordináták feldolgozásában jelent támogatást. Az R*-tree lehet˝ové teszi egy téglalap által tartalmazott entitások gyors lekérdezését. Az elv könnyen kiterjeszthet˝o az id˝o, mint harmadik dimenzió mentén, így az index segítségével hatékonyan kereshet˝oek meg egy adott terület, adott id˝ointervallumba es˝o balesetei, ami a klaszterezés során támogatást jelenthet.
36
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA Az SQLite más adatbáziskezel˝o rendszerekhez képest az adatbetöltést érint˝oen mutat egy kezelhet˝o hátrányt. Az SQLite elmarad más adatbázisok sebességét˝ol az INSERT utasítások esetében. Ennek oka, hogy alapesetben még a kötegelt feldolgozás során is minden egyes INSERT utasítást önálló tranzakcióba szervez. Mivel az architektúra nem tartalmaz a hozzáféréseket koordináló központi traznakciókezel˝o egységet, az SQLite motor minden egyes tranzakció esetében lezárja és újranyitja az adatbázis fájt. A probléma a kötegelt INSERT utasítások aszinkron, egyetlen tranzakcióba szervezésével kezelhet˝o. Az adatállományok pontosvessz˝ovel tagolt CSV formátumban állnak rendelkezésre, így az adabetöltés kiindulópontja is a szöveges formátum. A megvalósított rendszer biztosítja a baleseti adatok kötegelt betöltésének funkcióját és lehet˝oséget nyújt a betöltött adatok lekérdezésére. Az adatok elemzésre való el˝okészítése terén fontos funkció az adatmin˝oség javításának el˝osegítése, amelyet a rendszer a kiinduló adatbázis hibáira megírt és tárolt SQL parancsokkal támogat. A 4.4. táblázatban bemutatásra kerül˝o perzisztens parancskészlet b˝ovíthet˝o újabb, a felhasználók által definiált utasításokkal. attribútum
tisztítás oka
rekordok száma
KERULET
Nincs egyezés a KSH település elnevezésben szerepl˝o kerülettel. A KSH településnévben szerepl˝o kerület tekinthet˝o referenciának. Nincs egyezés a település alapján a KSH referenciaadatbázisban szerepl˝o megyével. A KSH szerinti megye tekinthet˝o referenciának. Az út alakzat nem útkeresztez˝odést jelöl az olyan balesetek esetében, ahol keresztez˝o utca is megvan adva. A 30 napon belüli sérültek, meghaltak száma alacsonyabb, mint a balesetet követ˝o 2 napon belül (JAAA031-033). A baleset kimenetelének min˝osítése nem következik a sérültek, meghaltak számából (JAAA031-036)
2.478
M005 (megye)
JAAA003 (út alakzata)
JAAA034-036 (30 napon belül sérültek) JAAA029-030 (baleset kimentele)
128
1.101
3.464
256
4.4. táblázat. A baleseti adatok tisztítását szolgáló eljárások A baleseti adattáblában megfigyelhet˝o magasfokú redundancia ugyan inkonzisztenciát eredményez az attribútumok között, azonban lehet˝oséget is kínál a helyes értékek kiválasztására és megtartásukkal a min˝oség javítására. A táblázatban bemutattakon kívül több attribútum esetében is megfigyelhet˝o ellentmondás más mez˝ok értékével (pl.: baleset id˝opontjából következ˝o napszak vs. látási viszonyok), azonban ezeknél nem ítélhet˝o meg a referenciaérték, így a javítás sem végezhet˝o el. 37
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA A további f˝obb adatjavítási lépések: - Referencia adatok bevonása: A balesetek helyszínének azonosításával járó problémák kezelése során a megye, település és kerület adatok ellen˝orzéséhez a KSH közigazgatási helynévkönyve[38] szolgált referenciaként. - Címtisztítás és geokódolás: A balesetek lokális beazonosíthatóságában jelent˝os javulást eredményezett a hiányzó GPS koordináták pótlása azoknál az eseteknél, ahol a közterület mellett a házszám is rendelkezésre áll. A címtisztítás és geokódolás eredményeként a 116.019 hiányos rekordból 34.512 rekord esetében b˝ovült a GPS koordinátákkal való azonosíthatóság. A kiegészítéssel a GPS koordinátákkal ellátott rekordok száma 125.846 db-ra növekedett, ami a teljes adatbázis 61%-át teszi azonosíthatóvá. - Hiányzó értékek egységesítése: A tisztítás során a eltér˝oen kezelt hiányzó értékek egységesítésre kerültek NULL érték jelölést használva. - Formátumtranszformáció: Az SQLite nem rendelkezik önálló dátum és id˝o adattípussal, a dátumokat karakterláncként tárolja. Az így tárolt dátumok szabványos formátumú karakterlánc esetén dolgozhatóak fel dátum és id˝o függvényekkel. Az id˝o dimenzió információinak maximális kihasználása érdekében a bemenetei DD-MMMYY HH.MM.SS.000000000 AM/PM (pl.: 16-AUG-10 10.25.00.000000000 PM) formátum transzformálása vált szükségessé YYYY-MM-DD HH:MM:SS.SSS (2010-0816 10:25:00:000) formátummá. - Adatb˝ovítés: A formátumtranszformáció elvégzését követ˝oen az attribútumok b˝ovítését eredményezte a baleset id˝opontjának felbontása év, hónap, nap, óra, perc, hét napja tagokra. A felbontással az elemzési adatbázis kiegészíthet˝o az id˝o dimenzióra irányuló olyan információkkal mint pl.: évszak, a napszak vagy a hétköznap/hétvége meghatározása. Elemzésbe bevonásra kerül˝o attribútumokat a 4.5.táblázat foglalja össze. A kiválasztott attribútumok értékkészlete több esetben redukálásra került összevonással (pl.: nedves, havas, jeges, olajos úttest együtt csúszós). Az elemzésbe összesen 28 változó kerül bevonásra. Az elemzés alapját a GPS koordinátákkal rendelkez˝o, a mintaállományban szerepl˝o összesen 125 846 db rekord biztosította.
38
˝ FEJEZET 4. ADATOK ELOFELDOLGOZÁSA
leíró jelleg azonosítás id˝opont
helyszín azonosítása közlekedési feltételek
környezeti feltételek
balesetet okozó baleset kimenetele baleset min˝osítés
attribútum kiválasztott attribútumok és értékkészletük szám 1 IDENT rekord azonosító (hash kód) megtartása a gócpontok baleseteinek egyedi azonosítása érdekében 4 BAL_IDO bekövetkezés id˝opontja, hét napja (hétköznap/hétvége), évszak (tavasz, nyár, o˝ sz, tél), napszak (reggel, nappal, este, éjszaka) 4 GPS LAT/LON koordináták, M005 megye és M009 település 7 MJ50_1 útkategória (autópálya, autóút, f˝oút, egyéb), JAAA001 lakott terület-e (igen, nem), JAAA003 út alakzat (egyenes, kanyar, útkeresztez˝odés), JAAA007 úttest sávok száma (1, 2, 3+), JAAA012 lejtviszony (emelked˝o/lejt˝o, sík), JAAA015 útburkolat állapota (egyenetlen, hibátlan), ANF átlagos napi forgalom 3 JAAA016 útfelület állapota (száraz, csúszós), JAAA017 id˝ojárási viszonyok (derült, borult, csapadékos), JAAA018 látási viszonyok (nappal, korlátozott, közvilágítás, éjszaka közvilágítás nélkül) 0 nem kerül bevonásra, feltételezve, hogy az alkohol befolyásoltság és a vezetési tapasztalat az okozók egyedisége miatt nem hozhatók összefüggésbe a góchelynek min˝osítéssel 8 JAAA034-036 alapján képzett mutatók: sérültek száma összesen 30 napon belül, könny˝u/súlyos/halálos sérülések és sérüléssel járó balesetek száma 1 JAAA020 a baleset típusa csoportosítva 12 kategóriába (TIP_CSOP) 4.5. táblázat. Az elemzésbe bevont attribútumok
39
5. fejezet Modellezés 5.1.
Góchelyazonosítás
A potenciális góchelyek térbeli azonosítása a 2.2.1. fejezetben ismertetett DBSCAN s˝ur˝uségalapú klaszterezési eljárásra támaszkodik. A módszer algoritmusát a 5.1.pszeudokód írja le. Az algoritmus helyességének validálása az R statisztikai szoftverkörnyezet dbscan[39] és fpc[40] csomagjainak eljárásaira támaszkodott. Az implementált és az R csomagok eljárásai azonos eredményt szolgáltattak. A szomszédság megállapítása a GPS koordinátákra alapul, így a gömbi trigonometriával konzisztens távolságfogalmak relevánsak. Az eljárás során alkalmazott 5.1 távolságmetrika a gömfelszín koodináták esetében szóba jöhet˝o alternatívák közül alacsony számításigény˝u és kis távolságok esetén elegend˝oen pontos értéket szolgáltat. D=R
ahol: ∆φ és ∆λ φm R
p (∆φ)2 + (cos(φm )∆λ)2
(5.1)
a szélességi és hosszúsági koordináták különbsége a szélességi koordináták számtani átlaga a Föld átlagos sugara (6 371 009 méter)
Az alapalgoritmus O(n2 ) számítási bonyolultságú, amely magas balesetszám esetén hosszú futásid˝ot eredményez. A tesztkörnyzetben a 16 023 db GPS koordinátával rendelkez˝o Pest megyei baleset esetén az átlagos futásid˝o 82 másdperc volt. Az eljárás gyorsításának irányait a térbeli index használata és az algoritmus párhuzamosítása jelentették. Mindkét fejlesztés a szomszédos elemek felkutatása terén eredményezett hatékonyságjavulást, amelynek mértékét a 5.1. táblázat foglalja össze. A KD-fa adatstrukturára épül˝o és 4 szálon végrehajtott futás több mint 70% teljesítményjavulást eredményezett (24 másodperc). A teljes magyarországi, 125 846 GPS koordinátával rendelkez˝o baleseti adatbázison a futásid˝o 28 perc volt térbeli indexeléssel és 4 szálon futtatva. 40
FEJEZET 5. MODELLEZÉS A kedvez˝obb futásid˝o kisebb részben tulajdonítható a hatékonyabb adatszerkezetnek, az érdemi javulás a párhuzamosításnak köszönhet˝o. térbeli index index nélkül KD-tree
feldolgozási id˝o (maximum arányában) 1 szál 2 szál 4 szál 82 s (100%) 45 s (55%) 30 s (36%) 66 s (80%) 37 s (45%) 24 s (29%)
5.1. táblázat. A DBSCAN eljárás hatékonyságjavulása (16 023 rekord esetén) A párhuzamosítás kiinduló pontját az jelentette, hogy a klaszterezési eljárás szekvenciális futási idejének jelent˝os részét a távolságértékek kiszámítása teszi ki. A szekvenciális megvalósításhoz képest változást jelent, hogy a távolság értékek kiszámítására irányuló kérés egy mester feladatot ellátó objektumhoz érkezik, amely gondoskodik a baleseti adathalmaz particionálásáról. A felosztást követ˝oen a független partíciók kiértékelésével járó feladatokat kiosztja a szolga objektumok részére (5.1.ábra).
5.1. ábra. A párhuzamosítás implementációja A feldolgozást minden szolga külön szálban végzi. A feladatok kiosztása után a mester megvárja a szolgák feldolgozási feladatának befejezését, majd begy˝ujti és összesíti az eredményeket. A szolgák ugyanazon adathalmaz eltér˝o partícióit (baleseteit) dolgozzák fel, így az implementáció adatfügg˝oségekkel nem jár. A feldolgozandó memóriaterületet a mester által a szolgák részére továbbított feladat objektum határolja be.
41
FEJEZET 5. MODELLEZÉS
Algorithm 1 A DBSCAN módszer algoritmusa Require: B[] a balesetek adatai Require: távolságküszöb, MinPts gócmin˝osítési küszöb Ensure: G[] góchelyek Ensure: N[], N’[] szomszédos pontok Ensure: b, b’ baleset 1: for all b ∈ B[] do 2: if NemLátogatott(b) then 3: LátogatottnakJelöl(b) 4: N [] = SzomszédosPontok(b, ) 5: if SzomszédosPontokSzáma(N []) < M inP ts then 6: ZajosElemnekJelöl(b) 7: else 8: Következ˝oGóchelyInicializálás(G[]) 9: GóchelyhezHozzáad(G[], b) 10: for all b0 ∈ N [] do 11: if NemLátogatott(b0 ) then 12: LátogatottnakJelöl(b0 ) 13: N 0 [] = SzomszédosPontok(b0 , ) 14: if SzomszédosPontokSzáma(N 0 []) ≥ M inP ts then 15: N [] = N [] ∪N 0 [] 16: end if 17: if NemGócPont(b0 ) then 18: GóchelyhezHozzáad(G[], b0 ) 19: end if 20: end if 21: end for 22: end if 23: end if 24: end for 25: return G[]
42
FEJEZET 5. MODELLEZÉS Az implementált eljárás lehet˝oséget biztosít az és a M inP ts paraméterek beállítására, továbbá az alkalmazott adatszerkezet (láncolt lista v. KD-fa) és a párhuzamosított futtatás érdekében igényelt szálak megadására. A 5.2. ábra az eljárás egy futtatásának eredményét szemlélteti bels˝o Óbudán. A megadott paraméterek mellett ( = 50 méter, MinPts = 5) a terület potenciális góchelyei: - Bécsi út - Kenyeres utca keresztez˝odés - Pacsirtamez˝o utcának a Tímár utca és Selmeci utca közötti útszakasza - Pacsirtamez˝o utcának a Viador utcai keresztez˝odést megel˝oz˝o szakasza - Lajos utcának a Kolosy teret megel˝oz˝o útszakasza - Árpád fejedelem utca - Evez˝o utca keresztez˝odés
5.2. ábra. Az algoritmus eredménye bels˝o Óbudán A GPS koordináták alapján azonosított góchelyek lokalizációját a klaszter súlypontja és a góchelyhez tartozó baleseteket határoló konvex poligon határozzák meg (gift wrapping algoritmus segítségével). 43
FEJEZET 5. MODELLEZÉS
5.2.
Prediktív technikák
A potencális góchelyek azonosítására támaszkodó klaszterbázisú predikciós modellezés célja az alábbi három kérdéskör megválaszolása: - A magyarországi baleseti adatbázisra építve mely prediktor változók a legrelevánsabbak az el˝orejelzés során? - Az egyes el˝orelejzési modellek milyen pontossággal képesek becsülni a góchelyekhez kapcsolódó historikus kimenetelt (balesetszámot, stb.) és milyen általánosító képeséggel rendelkeznek? - A függ˝o változók empirikus és a becsült értékének viszonyítása alapján mely góchelyek min˝osülnek kiemelten kockázatosnak magyarországon? A fenti kérdésekre kapott válaszok alapján javasolható egy, a hazai gyakorlatban eredményesen alkalmazható predikciós modell. A fejezetben a Pest megyében, 2002-2012 id˝oszak adatai alapján, = 50 méter és MinPts = 5 baleset paraméterek mellett azonosított 384 db góchely tesztadatként való felhasználásával kerül bemutatásra két regresziós technika és két mesterséges neurális hálóra épül˝o modell predikciós képessége.
5.2.1.
Góchelyek reprezentációja
A góchelyek a 4.5.táblázatban felsorolt attribútumok értékkészlete mentén kerülnek leírásra. Minden esetben egy folytonos intervallumú, arány skálájú változóval. A balesetek kimenetelét jellemz˝o - a modellezés során függ˝o - változók (balesetek száma összesen és kimenetel szerint, sérültek száma összesen és kimenetel szerint) [0, ∞] értéket vehetnek fel. Az azonosított góchelyek jellemzése a góchely által tartalmazott egyedi baleseti adatok diszkrét értékkészlet˝u tulajdonságainak aggregálásával valósul meg. A balesetek körülményeit leíró - prediktor - attribútumok értékészlete [0, 1] intervallumba normalizált. A normalizálás lineárisan történt, az adott érték relatív gyakoriságának felel meg az attribútum értékkészletén belül. A változók értékei egyúttal fuzzy (igazság)mértékeknek tekinthet˝oek, azt a tulajdonságot reprezentálva, hogy mennyire jellemeznek egy adott góchelyet. Például egy 7 balesetet tartalmazó góchely esetében 4 olyan balesetet fordult el˝o, amely az adabázis alapján útkeresztez˝odésben bekövetkezettnek min˝osült. Ekkor az ut_alakzat attribútum keresztez˝odés értékéb˝ol képzett, ut_alakzat.keresztezodes változó értéke 0,57. Az aggregáció tetsz˝oleges [0, 1] értékkészlet˝u és monoton függvénnyel helyettesíthet˝o. Például az ugrásfüggvény alkalmas arra, hogy egy adott küszöbértéket (pl. 0.5 középértéket) meghaladó tulajdonságok dominánsak legyenek, míg az alatta maradók figyelmen kívül maradjanak a góchelyek jellemzése során.
44
FEJEZET 5. MODELLEZÉS A fenti módszerrel az attribútumok és általuk felvehet˝o diszkrét értékekb˝o képzett prediktor változók lehetséges száma 57 db, amely kiegészül a napi átlagos forgalmat jellemz˝o attribútummal. A prediktív modellek a fentiek szerint azonosított és a baleseti adatok tulajdonságainak aggreggációjával kapott, kizárólag folytonos értékkészlet˝u változókkal jellemzett potenciális góchelyekkel dolgoznak. A modellezés támogatása érdekében implementált szoftver lehet˝oséget biztosít a modellezésbe bevont függ˝o és prediktor változók rugalmas kezelésére és az elimináció elvégzésére. A modellek két függ˝o változóval kerültek tesztelésre: (i) góchelyek várható balesetszáma illetve (ii) a góchelyek kimenetellel súlyozott várható balesetszáma. A súlyozás során a halálos kimenetel˝u balesetek 5, a súlyosak 2, a könny˝u sérüléssel járóak 1 súllyal kerültek figyelembe vételre.
5.2.2.
Regressziós el˝orejelzés
A regressziós technikák tesztelése során a hagyományos, normális eloszlást feltételez˝o többváltozós lineáris regresszió (MLR) és az általánosított lineáris modell (GLM) került alkalmazásra. A modellezésbe bevont góchelyek balesetszámának eloszlását a 5.3.ábra szemlélteti. A góchelyek 82%-ában a balesetszám 5 és 9 db közé esik, míg a góchelyek maradék 18%-a esetében fordul el˝o 10-50 db baleset. A súlyozott balesetszám esetében a góchelyek 79%a 5-14 intervallumba esik. A függ˝o változók er˝osen aszimmetrikus, jobbra ferde eloszlást mutatnak, amely általában jól közelíthet˝o Poisson eloszlással.
5.3. ábra. Pest megyei góchelyek balesetszámának eloszlása A Poisson eloszlás jól becsüli az empirikus eloszlást, ennek megfelel˝oen az általánosított modellben a Poisson eloszlás és természetes alapú logirtmus kapcsolati függvény került alkalmazásra. A modellezésbe bevonásra kerül˝o független változók megadhatók a felhasználó részér˝ol, de célszer˝ubb a rendszer forward elimináció funkciójának használata. Az implementált 45
FEJEZET 5. MODELLEZÉS megoldás a felhasználó által megadott számú változó kiválasztását végzi el mohó megközelítéssel, mindig az adott iterációban a modell pontosságában legnagyobb javulást elér˝o prediktor hozzáadásával. A tesztadatokon a atlagos_napi_f orgalom mellett további 5 változóra elvégzett elmináció eredményét a 5.4.ábra jellemzi. A grafikonok az egyes újonnan bevont prediktorok hatását tartalmazzák a balesetszám és a súlyozott balesetszám predikciójára vonatkozóan, a négyzetes hibaösszegben (SSE) bekövetkezett javulás sorrendjében.
5.4. ábra. A forward elimináció hatása a pontosságra (négyzetes hibaösszeg) A két regressziós modell esetében el˝ofordultak különböz˝o illetve azonos, de eltér˝o relevanciájú változók. Az alábbi prediktorok min˝osültek mindkét modell esetében szignifikánsnak az el˝orejelz˝o képesség tekintetében: - az útkeresztez˝odésben bekövetkezett balesetek aránya - a balesetek helyszíne f˝oútvonal vagy sem - 1 vagy 2 sávos az útvonal - a balesetek típusában meghatározó-e a körforgalomban illetve az egymással szembe haladó járm˝uvek ütközése Az elmináció rávilágít, hogy a atlagos_napi_f orgalom mellett 3 változó bevonásán túl további változók modellbe építése nem javítja jelent˝osen az el˝orejelzés pontosságát.
46
FEJEZET 5. MODELLEZÉS A hagyományos lineáris regresszió esetén a 4 változós regresszióval a várható balesetszámra 5.2, a súlyozott várható balesetszámra 5.3 képlet adódik.
λ(x) = 0, 00000629x0 + 4, 56932720x1 + 5, 59533325x2 + 2, 01400290x3
(5.2)
λ(x) = 0, 00000409x0 + 6, 02350545x1 + 8, 27940629x2 + 4, 32102594x3
(5.3)
ahol: x0 x1 x2 x3
atlagos_napi_forgalom ut_alakzat.keresztezodes ut_irany.ketiranyu ut_kategoria.fout
Az általánosított lineáris modell futtatásával pedig a várható balesetszámra 5.4, a súlyozott várható balesetszámra 5.4 képletek adódnak.
ahol: x0 x1 x2 x3
5.2.3.
λ(x) = e1,99149055−0,00000169x0 +0,51990941x1 +0,21917515x2 −0,21981482x3
(5.4)
λ(x) = e2,42631347−0,00000274x0 +0,44771769x1 +0,32144623x2 −0,25314880x3
(5.5)
atlagos_napi_forgalom ut_alakzat.keresztezodes ut_kategoria.fout ut_savok.1
Neurális háló
A regressziós technikák alternatívájaként mesterséges neurális háló került alkalmazásra, amely ideális a folytonos változók kezelésére és regressziós összefüggés approximálására. A modellépítés két típusú hálózatra támaszkodott: (i) egy processzáló elem szigmoid kimeneti nemlinearitással (SLP) és (ii) többréteg˝u el˝orecsatolt hálózat (MLP), amely rejtett rétegében a bemenetek száma 1/4-ének megfelel˝o neuron helyezkedett el. A neuronok szigmoid aktivációs függvénnyel m˝uködtek a 5.6 képlet szerinti módosítással, ahol α paraméter a függvény meredekségét határozza meg. S(wT x) =
1 1 + e−αwT x
47
(5.6)
FEJEZET 5. MODELLEZÉS A paraméter növelés esetén a szigmoid függvény az ugrásfüggvényt, csökkenés esetén a lineáris meredekséget közelíti. A α paraméter a modellezés során 2 értéket vett fel. A tanítás során a bemeneti változókat az általánosított lineáris modellre támaszkodó forward elimináció els˝o 20 változója adta. A bemeneti változók normalizálásra kerültek [0, 1] intervallumba. A hálózatok kimenete 1 neuronból áll. A kimeneti neuron aktivációs függvénye a góchely várható balesetszáma/100 hányados arányát adja eredményül. A tanítás érdekében a tapasztalati balesetszámok is ennek megfel˝oen transzformálásra kerültek. A tanítás kezdetekor a súlyok véletlenszer˝uen inicializálódtak, a többréteg˝u hálózatben minden neuron összekötésre került. A tanítás kötegelt eljárással, a teljes tanítóminta hibája alapján végezte el súlykorrekciókat (nem mintaelemenként). A tanítás mindkét hálózat esetében felügyelt, az egy elemes modellben delta, a többréteg˝u hálózatban back-propagation hiba visszaterjesztéses tanulási szabály alapján folyt. A tanítás a hiba 0,3 érték alá csökkenése vagy 10 000 iteráció elérése megállási feltételek bekövetkezése esetén áll meg. Az ideális tanulási ráta 4 különböz˝o kiindulási ráta viszgálata mellett történt (0,5; 0,3; 0,1; 0,5).
5.5. ábra. A tanítás különböz˝o tanulási ráták mellett Az MLP esetében a legmagasabb vizsgált (0,5) ráta, az SLP esetében pedig a legalacsonyabb (0,05) mellett volt elérhet˝o a modell legmagasabb pontossága. Alacsony (<0,3) tanulási ráta mellett az MLP hálózat pontossága a súlyok kezdeti inicializálásától függ˝oen jelent˝os szórodást mutatott. A eredmények alapján a tanulási ráta az MLP esetében 0,5, az SLP esetében pedig 0,05 értékben került meghatározásra. A 5.5.ábra a tanulási ráták hatása mellett türközi az MLP hálózat magasabb pontosságát az SLP hálózathoz képest.
48
FEJEZET 5. MODELLEZÉS
5.3.
Értékelés
A statisztikai regressziós modellek és a mesterséges neurális hálózatokon alapuló technikák pontosságának összehasonlítása érdekében mind a négy modell tesztelésre került ugyanazon a teszthalmazon (Pest megyei góchelyek). ˆ várható és λ tényleges balesetszám összvetésével Az el˝orejelzési képesség mérése a λ meghatározott mér˝oszámok segítségével történt. Az alkalmazott mér˝oszámok a következ˝ok: négyzetes eltérésösszeg (5.7), módosított négyzetes eltérés (5.8), Brier-score (5.9) A felsorolt mér˝oszámok esetében minél alacsonyabbak az érték, a modell annál pontosabbnak bizonyul a teszthalmazon. N X ˆ i )2 SSE = (λi − λ
(5.7)
i=1 0
SSE =
N X ˆ i )2 (λi − λ i=1
(5.8)
ˆ λ
N 1 X ˆ i )2 BS = (λi − λ N i=1
(5.9)
Az 5.10.képlet által kifejezett R2 determinációs együttható (lineáris korrelációs együttható) értéke [0,1] intervallumot vehet fel és azt mutatja, hogy a modell segítségével a teljes szórásnégyzet hányad részét sikerül magyarázni. Minél magasabb az érték, annál pontosabb az el˝orejelzés (λ a tényleges balesetszám átlaga). A kis R2 mutató nem feltételenül jelent gyenge függvénykapcsolatot. Nagyobb mintaszám esetén (100 felett) mellett már 0,2-0,3 érték is szingifikáns kapcsolatra utalhat. N P ˆ i − λi )2 (λ
R2 =
i=1 N P
(5.10)
(λi − λi )2
i=1
A mér˝oszámok felhasználásával a várható balesetszám el˝orejelzési képességre kapott értékeket a 5.2.táblázat foglaja össze. modell MLR GLM SLP MLP
SSE 7 238,5 7 097,7 7 100,5 5 622,2
pontosság mér˝oszám 0 SSE BS 755,4 19,7 732,3 19,3 751,6 19,3 683,0 15,3
2
R 0,155 0,154 0,183 0,395
validáció SSE 7 844,5 7 953,2 8 530,6 9 881,1
5.2. táblázat. A prediktív technikák pontossága a balesetszámra
49
FEJEZET 5. MODELLEZÉS modell MLR GLM SLP MLP
SSE 17 511,9 17 103,0 17 351,6 7 535,3
pontosság mér˝oszám 0 SSE BS 1 236,9 47,6 1 196,6 46,5 1 307,3 47,2 742,4 20,5
2
R 0,178 0,182 0,190 0,816
validáció SSE 21 075,3 33 486,9 19 350,8 92 679,9
5.3. táblázat. A prediktív technikák pontossága a súlyozott balesetszámra A táblázat alapján a hagyományos többváltozós lineáris regresszióval (MLR) szemben az általánosított lineáris modell (GLM) pontossága nem mutat jelent˝os el˝onyt. Már az egy processzáló elemes mesterséges neuron (SLP) is felveszi a versenyt a statisztikai módszerekkel. A többréteg˝u el˝orecsatolt hálózat (MLP) pedig egyértelm˝uen a legpontosabb prediktív technikának bizonyul. El˝onye a kimenetellel súlyozott balesetszám el˝orejelzésében kimagasló (5.3.táblázat). A tanító minta approximálásának pontossága mellett fontos szempont az egyes modellek általánosító képességének megítélése és a túltanulás elkerülése. Az általánosító képesség, azaz a tanítómintában nem szerepl˝o tesztminták esetében mutatott pontosság mérésenek elterjedt eszköze a keresztvalidálás. A validálás során a Pest megyei góchelyek 10 db azonos elemszámú halmazba kerültek véletlenszer˝uen felosztásra. Ezt követ˝oen az iteráció minden lépésében 1 teszthalmaz került kiválasztásra, a maradék 9 halmaz uniója pedig a tanítóhalmazt adta. A keresztvalidálás SSE értéke a teszthalmazokra 10 lépésben mért hiba összege. Az általánosító képesség és a tanítóhalmazon mért pontosság egymással ”trade-off ” kölcsönhatásban állnak. Az a modell, amely a tanítóhalmazra kiemelked˝oen jól illeszkedik, az általánosító képesség terén hátrányt mutat a tanítóhalmazon kevésbé pontos eljárásokkal szemben. A legjobb általánosító képességgel a balesetszám esetében a statisztikai regressziós modellek, a súlyozott balesetszám esetében pedig az egyelemes neurális hálózat bizonyult. Az univerzális approximációs képességgel bíró többréteg˝u neurális háló a túltanulás miatt gyenge általánosító képességgel bír. Az általánosító képesség javítása a pontosság hátrányára a tanulási ráta és/vagy az iterációk számának csökkentésével érhet˝o el. A góchelyek kockázati térképe a függ˝o változó várható és tényleges értéke hányadosaként kapott indexre alapul. A modellezés eredményeinek kiértékelését támogató alrendszer a góchelyek lokalizációjának térképi megjelenítése mellett segíti a kockázatosság interpretálását is. A kockázati index egy színskála felhasználásával kategorizálja az útszakaszokat. A zöld árnyalatai az alacsony kockázati indexszel rendelkez˝o (kisebb vagy egyenl˝o mint 1), a vörös árnyalattal illusztrált góchelyek pedig a magas kockázati index˝u útszakaszokat jelölik (index értéke meghaladja az 1-et). A 5.6.ábra a Pest megyei tanító adatok felhasználásával, MLP modell segítségével kapott kockázati térképen szemlélteti Szendtendre és környéke góchelyeinek baleseti kockázatosságát. A góchelyeket reprezentáló körök középpontja a lokalizációt (a balesetek elhelyezke50
FEJEZET 5. MODELLEZÉS désének súlypontja) azonosítja, átmér˝oje pedig a kockázati indexszel arányos. A térképen szemléltetett terület legkockázatosabb góchelye Szentendre Dózsa György út bevezet˝o szakaszán található, f˝oként nyári id˝oszakban bekövetkez˝o balesetek és a kanyarodó ill. keresztirányban mozgó járm˝uvek összeütközése jellemzi.
5.6. ábra. Szentendre-Pomáz baleseti kockázati térképe A rendszer továbbfejlesztési lehet˝oségeit els˝osorban a bizonytalanságok kezelése érdekében segítségül hívható fuzzy logika jelentheti. A technika implementálását segíti, hogy a góchelyek reprezentációja már kvázi fuzzy halmazokkal dolgozik, a góchelyeket leíró tulajdonságok [0, 1] intervallumon értelmezettek és minél nagyobb az érték, annál er˝osebben jellemez egy adott góchelyet. A jelenleg lineáris igazságfüggvény lecserélhet˝o nem lineáris függvényre, így a tanító mintákban az er˝os tulajdonságok szerepe kiemelhet˝o. A lágy számítási módszerek közül a genetikus algoritmusok segíthetik a modellépítést, a megfelel˝o paraméterek keresésével illetve a neurális hálók esetében a topológia kialakítának javításával. A genetikus algoritmus a jelenleg használt és a mohó algoritmusok hátrányával rendelkez˝o forward elimináció alternatívájaként a bevonásra kerül˝o baleseti jellemz˝ok kiválasztását is támogathatja.
51
6. fejezet Összefoglalás Az elmúlt években a KSH adatfelvételi el˝oírásai és a GPS koordináták rögzítésének köszönhet˝oen jelent˝os mértékben gyarapodott a hazai közúti baleseteket nyilvántartó adatbázis. Az értékes szakterületi adatvagyonra építve kulcsfontosságú szerepet játszik a korszer˝u információs technológiák bevonása a balesetmegel˝ozésbe. A dolgozat célja, hogy a magyarországi baleseti adatbázis felhasználási lehet˝oségeihez igazodó módszer implementálásával gyarapítsa a balesetmegel˝ozés informatikai eszköztárát. A dolgozat el˝oször áttekinti az elmúlt évek hazai gyakorlatát, majd számba veszi a nemzetközi szakirodalomban megjelent, releváns baleset-veszélyességet el˝orejelz˝o statisztikai és adatbányászati technikákat. Az irodalmi áttekintést az elemzési munkafolyamat tervezése és a modellezést támogató rendszer implementálásának koncepcióterve követi. Az elemzés el˝okészítéséhez kapcsolódóan bemutatásra kerül a modellezésbe bevonható hazai baleseti adatok köre, majd a baleseti adatok tisztításával, kiegészítésével járó munka folyamata. Az adatok el˝ofeldolgozása során elért eredmények közül kiemelked˝o az inkonzisztenciák csökkentése és a GPS koordinátákkal nem rendelkez˝o adatok geokódolása. A geokódolás eredményeként közel 35 ezer rekord esetében b˝ovült a GPS koordinátákkal való azonosíthatóság. A modellezés a prediktív technikák több alternatíváját vizsgálja meg. Közös pont, hogy az implementált technikák mindegyike klaszterbázisú, a modellezés a baleseti adatok góchelyek szintjént történ˝o csoportosítását feltételezi. A dolgozat a DBSCAN s˝ur˝uség alapú klaszterezési technikára támaszkodik. Az implementáció kiemelked˝o eredményét képezi a futási teljesítményben elért közel 70%-os javulás, amelyet a hatékony adatstruktúra (térbeli index) alkalmazása és a magasfokú párhuzamosítás tett lehet˝ové. A prediktív modellezés során a dolgozat a regressziós technikák és neruális hálózatok implementálására támaszkodva mutatja be a szignifikáns prediktor változókat és az egyes modellek által a góchelyek kimenetele (balesetszám) el˝orejelzésében elért becslési pontosságot. A legrelevánsabb prediktor változók: a góchely útkeresztez˝odés-e, az útvonal típusa (autópálya, autóút, f˝oútvonal, egyéb), útsávok száma. A modellezés értékelése alapján a hagyományos többváltozós lineáris regresszióval szem-
52
FEJEZET 6. ÖSSZEFOGLALÁS ben az Poisson regresszió (általánosított lineáris modell) pontossága nem mutat jelent˝os el˝onyt. Már az egy processzáló elemes mesterséges neuron is felveszi a versenyt a statisztikai módszerekkel. A többréteg˝u el˝orecsatolt hálózat pedig a teszthalmazon egyértelm˝uen a legpontosabb prediktív technikának bizonyul. El˝onye a kimenetellel súlyozott balesetszám el˝orejelzésében kimagasló. Ugyanakkor az általánosító képesség terén a statisztikai regressziós modellek el˝onyösek. A leger˝osebb prediktív képességet a többréteg˝u el˝orecsatolt neurális hálózatok mutatták, így a hazai gyakorlatba is eredményesen bevezethet˝ok. Az eredmények térképi megjelenítésének implementációja támogatja a modellezés kiértékelését és a góchelyek lokalizációja mellett segíti a kockázatosság interpretálását is. A góchelyek kockázati térképe a függ˝o változó várható és tényleges értéke hányadosaként kapott indexre alapul. A dolgozat befejezésként javaslatot tesz a továbbfejlesztési lehet˝oségek irányára.
53
7. fejezet Summary In the recent years the database of traffic accidents increased remarkably due to standards of data collection of Hungarian Central Statistical Office and recording GPS coordinates. Involving information technologies plays an important role in the prevention of traffic accidents based on valuable domain specific database. The goal of the thesis is enriching accident preventing IT tools with the implementation of a method using Hungarian accidents database. First, the thesis overviews the Hungarian practice in the recent years, then examines the relevant statistical and datamining predictive techniques of risk of traffic accidents in international literature. The literature review is followed by the planning of the analytical workflow process and the designing of implementation of a modeling support system. In the following chapter relating to the preparation of analysis the relevant Hungarian domain specific dataset and data cleaning process are presented. The outstanding achievements of the data preparation are reducing inconsistencies of data and geocoding records which do not include GPS coordinates. As a result of geocoding approximately 35 thousand of records were complemented with GPS coordinates. The modeling examines several alternatives of predictive techniques. Each of the implemented methods are cluster-based, the modeling presupposes clustering of accidents on the level of black spots. The thesis relies on the DBSCAN density based clustering technique. The most important result of implementation is improvement of running process with 70%, which can be reached by the adaptation of effective data structure (spatial index) and parallel computing. Through the predictive modeling the thesis presents the significant predictor variables and the accuracy of estimated casualty of black spots based on implementation of regressive techniques and artificial neural networks. The most relevant predictors are: crossroads, type of road (motorway, highway, ...), count of lanes. The conclusion of the evaluation of modeling is that the generalized linear regression does not show significant benefit over the traditional multiple linear regression. Even the one processing element ANN rivals statistical methods. The multi layer feedforward ANN
54
FEJEZET 7. SUMMARY proves that it is the most accurate predictive technique, it shows outstanding advantage in the prediction of weighted accidents number. Although the statistical regression models seem to be strong at generalizing skills. Due to its good predictive capability it can be successfully used in the Hungarian practice. Geographical presentation of prediction outcomes supports the evaluation of results, localization and interpretation of the risk of black spots. The risk map of black spots is based on the coefficient of predicted and historical accidents numbers. Finally, the thesis proposes the direction of further development.
55
Irodalomjegyzék [1] European Commission Directorate General for Mobility and Transport: Road safety evolution in EU, (http://ec.europa.eu/transport/road_ safety/pdf/observatory/historical_evol.pdf), utoljára megtekintve: 2016.05.18. [2] Európai Bizottság: Fehér könyv, Útiterv az egységes európai közlekedési térség megvalósításához, (http://eur-lex.europa.eu/LexUriServ/LexUriServ. do?uri=COM:2011:0144:FIN:HU:PDF), utoljára megtekintve: 2016.05.18. [3] KSH: 2.5.9 Közlekedési balesetek, (http://www.ksh.hu/docs/hun/ xstadat/xstadat_eves/i_ods001.html), utoljára megtekintve: 2016.05.18. [4] Központi Statisztikai Hivatal: Személysérüléses közúti közlekedési baleset statisztikai adatfelvételi lap (nyilvántartási szám: 1009) (https://www.ksh.hu/ docs/hun/info/02osap/2014/kerdoiv/k141009.xls), utoljára megtekintve: 2016.05.18. [5] Központi Statisztikai Hivatal: Útmutató a személysérüléses közúti közlekedési baleset statisztikai adatfelvételi lap kitöltéséhez, (https://www.ksh.hu/docs/ hun/info/02osap/2014/kitoltesi/d141009.doc), utoljára megtekintve: 2016.05.18. [6] Nemzeti Fejlesztési Ügynökség: Új Széchenyi terv Közlekedés Operatív Program (KÖZOP) Célzottan közlekedésbiztonságot javító fejlesztések, Baleseti gócpontok megszüntetésének el˝okészítése (KÖZOP-3.5.0-09-11-2011-0015), (https:// www.palyazat.gov.hu/download.php?objectId=46520), utoljára megtekintve: 2016.05.18. [7] Magyar Út- és Vasútügyi Társaság: Csomópontok és útvonalak baleset-veszélyességi értékelési módszertanának kidolgozása, (https://www.ksh.hu/docs/hun/ info/02osap/2014/kitoltesi/d141009.doc), utoljára megtekintve: 2016.05.18.
56
IRODALOMJEGYZÉK [8] Útgazdálkodási és Koordinációs Igazgatóság: A megyei közúthálózat baleseti góchelyeinek azonosítása, (www.biztonsagkutato.hu/utmutato.doc), utoljára megtekintve: 2016.05.18. [9] Biztonságkutató Mérnöki Iroda: WIN-BAL Személysérüléses közúti közlekedési balesetek adatainak kezel˝oprogramja, http://www.biztonsagkutato.hu/ winbal.htm, utoljára megtekintve: 2016.05.18. [10] K. Geurts, G. Wets, Black Spot Analysis Methods: Literature Review, Steunpunt Verkeersveiligheid bij Stijgende Mobiliteit, 2003, pp. 1-30. [11] S. Mungnimit, K. Jierranaitanakit, S. Chayanan: Sequential Data Analysis for Black Spot Identification, Bureau of Highway Safety, Department of Highways, Thailand Ministry of Transport, 2009 [12] S. Lee, Y. Lee: Calculation Method for Sliding-window Length: A Traffic Accident Frequency Case Study, Proceedings of the Eastern Asia Society for Transportation Studies, Vol.9, 2013 [13] R. Elvik: A survey of operational definitions of hazardous road locations in some European countries, Accident Analysis and Prevention, Vol. 40, 2008, pp. 1830-1835. [14] R. Elvik: State-of-the-art Approaches to Road Accident Black Spot Management and Safety Analysis of Road Networks, RIPCORD-ISEREST - WP6, 2009 [15] D. Steil, A. Parrish: HIT: A GIS-Based Hotspot Identification Taxonomy, IJCA, Vol. 16, No. 2, 2009 [16] S. Szénási, D. Jankó: A Method to Identify Black Spot Candidates in Built-up Areas, Journal of Transportation Safety & Security, 2015 [17] A. Gatrell, T. Bailey, P. Diggle, B. Rowlingson: Spatial Point Pattern Analysis and its Application in Geographical Epidemiology, Transactions of the Institute of British Geographers, Vol.21, 1996, pp.256-274 [18] J. Han, M Kamber, A.K.H Tung: Spatial Clustering Methods in Data Mining: A Survey, H.J. Miller and J. Han (Eds.) Geographic Data Mining and knowledge discovery, 2001, pp.33-50. [19] S. Skekhar, M. R. Evans, J. M. Kang, P. Mohan: Identifying Patterns in Spatial Information: a Survey of Methods, John Wiley and Sons, 2011 [20] J. Han, M. Kamber: Adatbányászat. Koncepciók és technikák, Panem, 2004 [21] P.N. Tan, M. Steinbach, V. Kumar: Adatbányászat alapvetés, Panem, 2012
57
IRODALOMJEGYZÉK [22] E. Hauer: Hauer, E.: Overdispersion in modelling accidents on Road Sections and in Empirical Bayes estimation, Accident Analysis and Prevention, Vol.33, 2001, pp. 799808. [23] F. T. Kibar, F. Celik, B.P. Aytac:An accident prediction model for divided highways: A case study of Trabzon coastal divided highway, Department of Civil Engineering, Karadeniz Technical University, 2013 [24] P. Chengye, P. Ranjitkar: Modelling Motorway Accidents using Negative Binomial Regression, Proceedings of the Eastern Asia Society for Transportation Studies, Vol.9, 2013 [25] V. Valentová, J. Ambros, Z. Jano¨ka: A Comparative Analysis of Identification of Hazardous Locations in Regional Rural Road Network, Advances in Transportation Studies an international Journal Section, Vol.34, 2014, pp.57-66. [26] L. Mussone, A. Ferrari, M. Oneta: An analysis of urban collisions using an artificial intelligence model. Accident Analysis and Prevention, Vol. 31, 1999, pp.705-718. [27] S. Y. Sohn, S. H. Lee: Data Fusion, Ensemble and Clustering to Improve the Classification Accuracy for the Severity of Road Traffic Accidents in Korea. Safety Science, Vol. 4, 2003, pp.1-14. [28] T. Beshah, S. Hill: Mining Road Traffic Accident Data to Improve Safety: Role of Road-related Factors on Accident Severity in Ethiopia, Department of Information Science, 2010 [29] M. Chong, A. Abraham, M. Paprzycki: Traffic Accident Data Mining Using Machine Learning Paradigms, Computer Science Department, Oklahoma State University, 2004 [30] S. Krishnaveni, M. Hemalatha: A Perspective Analysis of Traffic Accident using Data Mining Techniques, Internal Journal of Computer Applications, Vol. 23, 2011 [31] F. R. Moghaddam, S. Afandizadeh, M. Ziyadi: Prediction of accident severity using artificial neural networks, International Journal of Civil Engineering, 2010 [32] M. H. Hosseinlou, M. Sohrabi: Predicting and Identifying Rraffic Hot Spots Applying Neuro-fuzzy Systems in Intercity Roads, Int. J. Environ. Sci. Tech., Vol. 6, 2009, pp.309-314. [33] SPSS: CRISP-DM 1.0, (http://the-modeling-agency.com/crisp-dm. pdf), utoljára megtekintve: 2015.05.18. [34] J. Abonyi: Adatbányászat, a hatékonyság eszköze, Computerbooks, 2006
58
IRODALOMJEGYZÉK [35] Magyar Közút Nonprofit Zártkör?en M?köd? Részvénytársaság: A közúti forgalom figyelemmel kísérése 2014, (http://internet.kozut.hu/Documents/ A_kozuti_forgalom_figyelemmel_kiserese_2014.pdf), utoljára megtekintve: 2016.05.18. [36] SQLite relációs adatbáziskezel˝orendszer honlapja, (https://www.sqlite. org/), utoljára megtekintve: 2015.05.18. [37] SQLite: Database Speed Comparison, (https://www.sqlite.org/speed. html), utoljára megtekintve: 2015.05.18. [38] Központi Statisztikai Hivatal, Magyarország közigazgatási helynévkönyve (www. ksh.hu/docs/hun/hnk/hnk_2015.xls), utoljára megtekintve: 2016.05.18. [39] The Comprehensive R Archive Network: Density Based Clustering of Applications with Noise (DBSCAN) and Related Algorithms, (https://cran.r-project. org/web/packages/dbscan/), utoljára megtekintve: 2016.05.18. [40] The Comprehensive R Archive Network: Flexible Procedures for Clustering, (https://cran.r-project.org/web/packages/fpc/), utoljára megtekintve: 2016.05.18.
59
A. Függelék Balesetállomány jellemzése ATTRIBÚTUM JELLEG
ÉRTELMEZÉS
IDENT MJ03 BAL_IDO OKASZAK_ OFFSET OKASZAK_ID OKASZAK_ TRAFFIC_ID OKASZAK_ GPS_LAT OKASZAK_ GPS_LON M005 M009 KERULET KT_NEV_1 KT_JELLEG_1 KT_NEV_2 KT_JELLEG_2 BAL_HSZ KU_SZ_1 KU_KM_1 KU_M_1 MJ50_1 KU_SZ_2 KU_KM_2 KU_M_2 MJ50_2 KU_KER JAAA001 JAAA002 JAAA003 JAAA004 JAAA005 JAAA006 JAAA007 JAAA009 JAAA010 JAAA011 JAAA012 JAAA013 JAAA014 JAAA015 JAAA016 JAAA017 JAAA018 JAAA020 JAAA022 JAAA023 JAAA024 JAAA025 JAAA026 JAAA027 JAAA029 JAAA030 JAAA031 JAAA032 JAAA033 JAAA034 JAAA035 JAAA036
azonosító azonosító id˝opont helyszín
rekord egyedi azonosító baleseti lap egyedi azonosító baleset id˝opontja eltolás az útszakasz kezdetét˝ol
MÉRÉSI SKÁLA nominális nominális intervallum arány
ÉRVÉNYES ÉRVÉNYES ÉRVÉNYMIN MAX TELEN 0 0 2010.01.01 2012.12.31 0 0 448
HIÁNYZÓ ADAT 0 0 0 105 069
TÖLTÖTTSÉG 100% 100% 100% 49%
helyszín helyszín
útszakasz azonosító forgalom azonosító
nominális nominális
0 0
105 069 105 180
49% 49%
helyszín
szélességi koordináta
arány
helyszín
hosszúsági koordináta
arány
0
0
116 019
44%
0
0
116 019
44%
helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín helyszín út út út út út forg.irányítás úttest úttest forg.irányítás forg.irányítás forg.irányítás út úttest úttest környezet környezet környezet környezet min˝osítés okozó okozó okozó okozó okozó min˝osítés kimenetel kimenetel kimenetel kimenetel kimenetel kimenetel kimenetel kimenetel
megye település kerület utca neve útfajta keresztez˝o utca neve keresztez˝o útfajta házszám közút jele út km szelvénye út m szelvénye út kategóriája keresztez˝o közút jele keresztez˝o út km szelvénye keresztez˝o út m szelvénye keresztez˝o út kategóriája keresztez˝odes-e lakott terület-e útvonal típus út alakzata útkeresztez˝odés típusa útkereszt. forg. szervezése forgalom iránya azonos irányú sávok száma sávok jelzése forgalomirányító készülék forgalomirányítás módja út lejtviszonyai úttest szélessége úttest burkolata útburkolat állapota útfelület állapota id˝ojárási viszonyok látási viszonyok baleset típusa alkohol mértéke alkoholos befolyásoltság jogosítvánnyal rendelkezés jogosítvány dátuma vezetési tapasztalat baleset els˝odleges oka kimenetel 2 nap múlva kimenetel 30 nap múlva 2 napon belül meghaltak 2 napon belül súlyos sérült 2 napon belül könny˝u sérült 30 napon belül meghalt 30 napon belül súlyos sérült 30 napon belül könny˝u sérült
nominális nominális nominális nominális nominális nominális nominális ordinális nominális arány arány nominális nominális arány arány nominális nominális nominális nominális nominális nominális nominális nominális ordinális nominális nominális nominális nominális ordinális nominális nominális nominális nominális nominális nominális ordinális nominális nominális intervallum nominális nominális ordinális ordinális arány arány arány arány arány arány
1 150 1
0 30 627 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 544 454 0 0 1 1 176 0 0 136 758 0 0 0 0 0 0 0 0 0 0
0 329 165 845 65 556 66 457 144 212 144 526 144 613 103 919 119 034 119 034 31 005 198 770 199 233 199 233 142 322 31 001 9 8 7 7 31 008 10 17 24 31 009 10 9 167 695 31 008 7 8 7 7 7 837 31 186 33 434 43 105 41 791 2 0 0 0 0 0 0 0 0
100% 85% 20% 68% 68% 30% 30% 30% 50% 43% 43% 85% 4% 4% 4% 31% 85% 100% 100% 100% 100% 85% 100% 100% 100% 85% 100% 100% 19% 85% 100% 100% 100% 100% 100% 100% 85% 84% 13% 80% 100% 100% 100% 100% 100% 100% 100% 100% 100%
21 3 442 23
1
8
1
8
0 0 1
4
0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 101 1 1 1 190000 1 111 1 1 0 0 0 0 0 0
4 2 2 4 6 9 6 5 4 5 8 7 3 5 3 5 6 7 32 2 010 6 3 4 201212 3 619 3 3
A.1. táblázat. A balesetállomány attribútumai és adatmin˝osége 60