Ábrázolható-e a gazdálkodás világa és látszik-e az ábrán a csalás? Vágujhelyi Ferenc informatikai elnökhelyettes
A minimum információ
2
Nézzünk ki: a revízió
Ez a folyószámla az adózó bevallásaira és befizetéseire épül. A „világ” itt még azonos az adózó által lefestettel. Magyarul az adóhivatal még nem lát, nem hall és nem kérdez.. Legyen hát szemünk, fülünk és szánk!
A hagyományos módszer a revízió. CSAKHOGY ez lassú és drága, így okosan kell adózót választani. A kiválasztás kockázat elemzésre épül. A kockázatelemzés VISZONT... ...az adózó adataira (mivel csak az áll még rendelkezésre).
Egy ügyesen felépített csalási lánc aligha látszik kockázatosnak. Így soha nem lesz revízióra kiválasztva! Következtetés: saját független adatforrások kellenek.
3
Több és valós idejű adat 1. Hagyjuk meg a bevallást, DE jelentést minden tranzakcióról. Pl: tételes áfabevallás, munkavállalás, pénztárgép, EKÁER. 2. Hivatalok közti adatcsere. Pl: jegyzői kereskedelmi engedélyek, EU-s hivatalok ÁFA adatcseréje (VIES). Export-import vámadatok.
3. Valós idejű (és online) adatok. Online számlázás, mint web service, online könyvelés...
Time: 06:31:25 Reg ID: AB15C Weigh (kg): 7640 EMPTY! Freq: 5x today
4. Automatikus adatforrások Online pénztárgépek, automaták, Trade Control Rendszer (frsz., súly) ... 4
Miért is? Konzisztencia ellenőrzés
5
Hol tartunk? 1995
2008
2003
2000
2012
Fejlesztés, a szemlélet változása A kiválasztás bevalláson és adónemen alapul 2013
Tételes ÁFA
Adózói életút komplex elemzése
Adózói kapcsolatok elemzése
2014
Online pénztárgép Traffic Control System
Az adattárház technológia felgyorsította a fejlesztést 6
Gráf analizis: hol húzzák a hasznot?
7
Miért kell ennyi adat? Azért, hogy csalásra utaló információt keressünk.
Mit akarunk a csalással? Felderíteni!
Az informatikai módszerek alkalmazásához definiálnunk kell a keresett fogalmat!
8
Mit keresünk? • • • • • • •
a költségvetés kárára, anyagi haszonért végzett, törvénytelen, nem általánosan gyakorolt (nem gyakori), jól átgondolt (megtervezett), észrevétlenül végrehajtott (rejtett), időben kibontakozó (jellemző az időbeli viselkedése) • általában alaposan megszervezett bűncselekményt, azaz
„a csalást”. 9
megalapozott
Mi a felderítés? Elkövetés időpontja
I
Megakadályozni
Szankcionálni
deviancia észlelése
tudás
Jogi bizonyíthatóság Kockázatkezelés
előkészítés
Mintaelemzés
időpont
befejezett csalás
t 10
Mi az informatika szerepe? Támogatja a szakembert: a revizort, a pénzügyőrt vagy a bűnügyi nyomozót. Hogyan támogatja? 1. Fejleszti és üzemelteti a kiszolgáló informatikai rendszereket. 2. Feldolgozza, elemzi vagy elemzésre előkészíti az adatokat. a) adattárház b) gépi tanulás
A csalás definíciójának kiegészítése:
„és tevékenységének az informatikai rendszerekben nyoma van”.
11
online számla
Hűségprogramok
Social Media
pénzmosás jel.
ingatlan, jármű
cégjegyzék
keresk. eng.
foglalkoztatás
személy ny.t.
banki tranzakc,
Adóbevallás Tételes ÁFA Kincstár EU VIES vám onl. pénztárgép Traffic Control
Miből dolgozunk? (példák)
10 8 6 4 2 0
Súly
Felbontás
Súly Valós idő
12
Az ügyes csaló feladata:
„nem elég csalni, becsületesnek is kell látszani!”
itt látszani
itt lenni 13
Az adatbányászat eszközrendszere Leíró elemzések, vizualizáció Szegmentáció
Stat Riport Grafika
Stat MI Mat Riport
Adatbázis
Mintavételezés Stat
Modellezés Riport
Leíró elemzések
Grafika
Vizualizáció
Stat
Matematikai statisztika
MI
Mesterséges intelligencia
Mat
Matematika
Stat MI Mat
14
Regresszió REGRESSZIÓ: Magyarázó változók (OK) és az eredményváltozó (OKOZAT) közötti sztochasztikus kapcsolatot számszerűsíti Fundamentális okok feltárása Szigorú követelmény rendszer A modell formája: egyenlet Értelmezhető paraméterek, súlyok, score-ok
Logisztikus regresszió: Modell kategóriás változóra,
Lineáris regresszió: Folytonos változó predikciója
Valószínűségek predikciója
15
Megoldható a „nyomtalan csalás”? Ha a csalásra létrehozott hálózatnak tetszőlegesen sok erőforrás áll a rendelkezésére, azaz bármennyi megbízható tisztségviselő, alkalmazott, különböző székhely, telephely, bármennyi áru, és a csalárd tevékenység elfedésére alkalmas törvényes tevékenység áll rendelkezésére, és ismertek a hatóságok által alkalmazott elemzési módszerek, akkor —megfelelő szakértelemmel— rövid ideig „sikeres” bűnszervezet működtethető. Ilyenkor minden ismert minta megjelenését elkerülhetik. A gépi tanulási módszerek is "nem deviáns" klaszterbe sorolják őket. A feladatot mégsem oldották meg! 16
A rejtőzködés korlátja • sok erőforrás: – veszteségbe fordítja a tevékenységet
• kevés erőforrás: a) felismerhető minta (mintaillesztés) b) kontrollált gépi tanulás
• a cél elárul: – költségvetés megkárosítása – haszon realizálása
önmagában mintaképző 17
Sikeres és sikertelen rejtőzködés
18
Hamis mintafelismerés
http://www.enterprisemission.com/mola.htm
NASA
1976. október
2001. április
Mi a téves minták elfogadható aránya? • „gépi határozat” • kockázatkezeléshez kiválasztás • jövőbeni viselkedés becslése
≈ 0% ≈50% ≈80%
19
Mit tesz az informatika? Attribútum vektor mindenből és mindenkiből
0,176864
0,836592
Súlyozások, normalizálások, linearizálás Összehasonlítások (pl. bezárt szög: összeadjuk az almát a körével)
0,287630
Kapcsolatok elemzése: csalás-terjedés erőforrások elemzésével Gráfminták keresése, időbeni változása Machine learning Kontroll !!! 20
Mi kell még? 1. Még több adat! 2. Adat külföldről (legalább az EU-ból!) Adatvédelem 1. Egyéni 2. Nemzetgazdasági
anonim
anonim
(attribútumaival nem azonosítható)
(attribútumaival nem azonosítható)
gazdálkodó
erőforrás
azonosítható erőforrás
azonosítható gazdálkodó 21
Szabályozás: fair anonimitás • Nemzeti • Közösségi anonimitás kölcsönös ESETI feloldása
22
Jelenlegi és jövőbeli(?) adatforrások beültetett RFID chip
e-pénz
Magánszféra hiánya
Bankok pénzmosásjelentése
Bevallások
Online foglalkoztatói jel.
Online pénztárgép
EU VIES Ingatlan, jármű központi nyilv.
Social media Suspicious transaction reports
Traffic Control (közút/légi/vízi)
Ellenőrzött online ker.
CCTV
Online számlázás
Bevándorlási adatok Ellenőrzött online szerencsejáték
vám
helyi ker. engedélyek központi nyilv. 23
Anonim adatbázisok? Partner1
User1
?
Partner1 User2
? Partner1 User3 24
Hol a határ? Új veszélyek jelentkeznek. A teljes gazdaság elemi adataival még nincs tapasztalatunk.
A verseny majd abból áll, hogy „szerezz meg mindent” a versenytársról?
Ha a teljes adatbázis kompromittálódik, mik a következmények?
Egyes nagy cégek már rendelkeznek hasonló adatbázisokkal. 25
Köszönöm a figyelmet