Mikroadat hozzáférés a közszférában a gyakorlati megvalósulás kérdései Big Data konferencia PTE, Szentágothai Kutatóközpont
Az Open Data és a Big Data társadalmi jelentősége szekció Pécs, 2017. november 30. Németh Zsolt KSH
Mottó: Big Data is the New Oil
Alapkő letétel „Independent and high quality statistics are essential for a democratic society.” Tim Holt
„Good statistics are much cheaper than bad decisions.” Janez Potocnik, 2011.
• A hivatalos statisztika a közjó része
A Big Data problémái* • Bő két évtized elteltével az információs társadalom új szakaszába lépett: ezt nevezzük algoritmusos társadalomnak (Algorithmic Society) • A hagyományos nemzetállamok és az individuumok közé nagy multinacionális szociális média platformok ékelődtek, amelyek algoritmusokkal és mesterséges intelligenciával igyekeznek irányítani a népességet. • Az algoritmusos társadalmat az jellemzi, hogy hatalmas méretekben gyűjt adatokat az egyénekről és lehetővé teszi az irányítás, a kontroll, a diszkrimináció és a manipuláció új formáit úgy a kormányzatok, mind a magánvállalkozások számára.
*Jack M. Balkin: Free Speech in the Algorithmic Society: Big Data, Private Governance, and New School Speech Regulation Yale Law School, Public Law Research Paper No. 615
A Big Data problémái • Különbséget kell tenni a felosztott és a demokratikus hatalom között: • Felosztott, ha sok különböző helyen működik, és sok különféle embert és helyzetet érint • Demokratikus, ha sok ember vesz részt benne és a döntéshozatalban arról, miként működjön.
Az internet és a kapcsolódó technológiák a hatalmat bizonyos értelemben demokratikussá tették, más értelemben azonban ez a hatalom bár felosztott, de nem demokratikus. Az algoritmusos társadalomban a felügyelet és az adatgyűjtés messzemenően felosztott, de nincs garancia a demokratikus kontrollra. Sok emberről sok adatot gyűjtenek sok helyen, de az emberek csak viszonylag szűk köre rendelkezik azokkal a forrásokkal és gyakorlati lehetőségekkel, hogy ezeket összerendezze, elemezze és használja.
Az államnak - miközben továbbra is fenyegetést jelent a szabad kifejezésformák számára – ellensúlyként is kell szolgálni a privát, társadalmi kontroll és ellenőrzés technológiáinak fejlesztésével.
Hivatalos statisztika a Big Data korában • A Hivatalos Statisztikai Szolgálat (HSSz) felelőssége, hogy magas minőségű adatokat szolgáltasson a társadalomról, a gazdaságról, a környezet állapotáról. • Kihívások: • Soha nem tapasztalt gyors változások a világban • Ennek megfelelő gyors változások a felhasználói igényekben. • Új szereplők az adatelőállításban - versenyhelyzet
• Lehetőségek: • A tárolókapacitások és a feldolgozási sebesség expanzív növekedése • Új adatforrások: Big Data, Open Data, adminisztratív források • Az információs termékek előállításának, megszerzésének drasztikusan csökkenő költségei • A nemzetközi szervezetek aktív bekapcsolódása (ENSZ, OECD, Eurostat) • Jogalkotás: a minőségbiztosításra, a folyamatokra és a magatartásra vonatkozó sztenderdek kialakulása • A tényekre alapozott döntések kultúrájának terjedése
A KSH adatforrásai • Mintegy 160 közvetlen adatgyűjtés • közel 200 átvett adminisztratív adatforrás • 80 más intézmény által felügyelt, de a KSH-ban is hasznosított adatgyűjtés. • a KSH részére 53 adatgazda, illetve adatgazda-csoport biztosít adminisztratív és egyéb, nem az OSAP keretében gyűjtött adatot, • az OSAP keretében 9 szervezettől vesz át statisztikai adatot.
Mi az adminisztratív adatforrás? • A közfeladatot ellátó szervezet által fenntartott adatgyűjtemény, amelyen keresztül eleget tesznek az • adókkal, • szolgáltatásokkal, • juttatásokkal
összefüggő feladataiknak. Ezek a nyilvántartások, adatbázisok olyan adatokat tartalmaznak, amelyek jogszabályban előírt jogok érvényesítéséhez, kötelezettségek teljesítéséhez, gyakran költségvetési bevételekhez és kiadásokhoz kapcsolódnak. Többnyire országos érvényű közfeladatok végrehajtása keretében épülnek fel, tehát az adott igazgatási program szempontjából teljes körűek.
Az adminisztratív adatok jellemzői 1. a statisztikai célra adatokat szolgáltató szervezet nem azonos azzal az egységgel, amire az adatok vonatkoznak (ellentétben a legtöbb statisztikai felméréssel); 2. az adatokat eredetileg jól meghatározott, nem statisztikai célra gyűjtötték; 3. célja a célcsoport teljes lefedettsége; 4. az adatgyűjtés és a feldolgozás módszerét a statisztikai hasznosítás ellenére továbbra is a közigazgatási szervezet határozza meg.
A statisztikai célra hasznosítható adatforrások típusai
Statisztikai célra használható adminisztratív adatok • Alapnyilvántartások: • • • • •
Adó és VÁM adatok Szociális védelmi adatok Egészségügyi és oktatási nyilvántartások Személyek, vállalkozások, ingatlanok, járművek nyilvántartási rendszerei Egyéb adminisztratív nyilvántartások: • • • • •
Személyazonosító igazolvány / útlevél / vezetői engedély, Választói névjegyzék, Mezőgazdasági regiszterek, Önkormányzati nyilvántartások, Engedélyhez kötött tevékenységek, speciális jogosultságok
• Magánvállalkozások adatai • • • •
Hitelügynökségek Közművek Telefonkönyvek Hűségkártya rendszerek, stb.
Statisztikai célra használható Big Data források Azok, amelyek megfelelnek a 3V kritériumnak • hivatalos, ügyviteli adatok, pl.: elektronikus egészségügyi nyilvántartások, kórházi betegforgalom, biztosítási nyilvántartások, banki adatok; • kereskedelmi vagy tranzakciós adatok, pl.: bankkártya-tranzakciók, online tranzakciók; • szenzoros berendezések által gyűjtött adatok, pl. műholdképek, forgalomfigyelő rendszerek, meteorológiai állomások adatai; • nyomkövető eszközök, pl. útvonalkövetési adatok mobiltelefonoktól, GPS-ektől; • On line hirdetések; • viselkedési adatok, pl. termékekre, szolgáltatásokra vagy egyéb más jellegű információkra vonatkozó online keresések, honlapok látogatottsága; • vélemények, pl. hozzászólások a közösségi médiában.
A másodlagos adatforrások használatának előnyei • alacsonyabb költségek • kisebb adatszolgáltatói terhek • a statisztikai adatok gyakoribb előállítása • jobb időszerűség • a célsokaság jobb lefedettsége • a statisztikai tevékenység kedvezőbb megítélése a közvéleményben
Adminisztratív adatforrások nehézségei A létszám-lehatárolás problémái a NAV járulékbevallásban
SZERVEZET TEVÉKENYSÉGÉBEN RÉSZTVEVŐK ALKALMAZÁSBAN ÁLLÓK
VÁLLALKOZÁSI JOGVISZONYOK
TELJES MUNKAIDŐS FIZIKAI FOGLALKOZÁSÚ
TANULÓ SZERZŐDÉSSEL ALKALMAZOTT SZAKKÉPZŐ ISKOLAI TANULÓ
MEGBÍZÁSI JOGVISZONY; VÁLASZTOTT TISZTSÉGVISELŐ
EGYSZERŰSÍTETT FOGLALKOZTATÁSI JOGVISZONY
Kadlecsik Roland (KSH) ábrája
Egyéb munkajövedelem a járulékbevalláson BÉRJÖVEDELEM EGYÉB MUNKAJÖVEDELEM (KSH)* Üzemanyag megtakarítás, Jubileumi Átvállalt kötelezettség és jutalom, Magán személy javára teljesített kiadás A bevallásban nem szereplő, a munkavállaló számára adómentes (béren kívüli) juttatások és egyéb munkajövedelemnek minősülő juttatások
Egyéb munkajövedlemként figyelembe vehető része
Adminisztratív adatforrások nehézségei
ÖNÁLLÓ TEVÉKENYSÉGRE TEKINTETTEL FIZETETT ÖSSZEG NEM ÖNÁLLÓ TEVÉKENYSÉGBŐL SZÁRMAZÓ JÖVEDELEM EGYSZERŰSÍTETT KÖZTEHERVISELÉSI HOZZÁJÁRULÁSSSAL ADÓZÓ JÖVEDELEM KETTŐS ADÓZTATÁST KIZÁRÓ EGYEZMÉNY ALAPJÁN (HIÁNYÁBAN) KÜLFÖLDÖN (IS) ADÓZOTT JÖVEDELEM
Kadlecsik Roland (KSH) ábrája
Adathozzáférési csatornák a KSH-ban Táblázatos adatok kiadása Nyilvános adatok, adatbázisok a KSH honlapján, évkönyvekben, gyorstájékoztatókban Egyedi kérésre összeállított táblázatos adatok Felhasználási feltételek
Anonimizált mikroadatkiadás
Nyilvános mikroadatfájlok elérése
„Kiadásra kész” állományok
2014 márciusa óta elérhető (tesztfájl, a 2011. évi népszámlálásra alapozva)
Egyedi kérésre összeállított anonimizált mikroadatok Szerződés és titoktartási nyilatkozat aláírása szükséges
Oktatási célú fájl jelenleg fejlesztés alatt (szintén 2011. évi népszámlálás alapján) Felhasználási feltételek
Kutatószobai hozzáférés
Távoli hozzáférés
Távoli végrehajtás
Kutatásra kész alapállományok kutatók számára (ingyenes)
Kutatószobai környezet elérése nem csak Budapestről, hanem 2014 márciusa óta Szegedről is
Kutató az adatállományt „nem látja”
Egyedi kérésre összeállított adatállományok (térítési díj) Szerződés és titoktartási nyilatkozat aláírása szükséges
Szerződés és titoktartási nyilatkozat aláírása szükséges
KSH állítja elő a kért kutatási eredményeket Szerződés és titoktartási nyilatkozat aláírása szükséges
15
A kutatószoba számokban 80
Output és input checking évente
Folyó kutatások
250
70
60
17
21
25
195
200
13
50
149
150
126
40
30
94
100
46
20
48
79
47
45
62 48
50
0
27
21
10
1
1
2
2009
2010
2011
Researches
5
7 2012
55
0
2013
2014
2015
2016
2017
Researches of Centre for Economic and Regional Studies
2011
2012
2013
Output checkings
2014
2015
2016
Input checkings
2017
Új áramlat: a reprodukálható tudományos kutatás* • Reprodukálható a kutatás, ha konzisztensen megismételhető – ugyanazokon az adatokon azonos elemzési eszközökkel azonos eredmény keletkezik. • A reprodukálhatóság két fokozata: • duplikálás • újraelemzés – duplikálja az eredeti eredményeket, de tovább teszteli a robusztusságukat, pl. új mérésekkel, adatokkal, módszerekkel. • A reprodukálhatósághoz a kutatási lépéseknek dokumentált folyamatot kell alkotni. (Ehhez pl. az adatbázison csak syntax file-okkal lehet változtatást végrehajtani.)
• META adatok előállítása és hozzáférhetővé tétele. • A helyes társadalomtudományos elemzés 4 sarokköve: • • • •
pontosság: az információveszteség és a hibák minimalizálása; hatékonyság: a szoftverek lehetőségeinek maximalizálása, lehetőleg automatikus eljárások; transzparencia: ki, mit, hol, mikor és miért; reprodukálhatóság
*Ch. J. Playford – V. Gayle – R. Connelly – A. JG Grey: Administrative social science data: The challenge of reproducible research. Big Data & Society, July – December 2016: 1-13