Big Data Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András
[email protected] http://datamining.sztaki.hu
Big Data @ SZTAKI
2014. Október 17.
Big Data: volume, velocity, variety -
3 V
• “big data” is when the size of the data itself becomes part of the problem • “big data” is data that becomes large enough that it cannot be processed using conventional methods • • • •
Google sorts 1PB in 33 minutes (07-09-2011) Amazon S3 store contains 499B objects (19-07-2011) New Relic: 20B+ application metrics/day (18-07-2011) Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011
Megvalósítás: új technológiai lehetőségek
Technikai és kutatási kérdés: A nagy számú jelenleg lehetséges új technológia és megoldás jelölt közül melyik architektúra legalkalmasabb az adott üzleti probléma megoldására?
Elosztott rendszerek Murphy törvénye
Elosztott rendszerek Murphy törvénye Fox&Brewer “CAP Tétel”: C-A-P: kettőt választhatunk!
C
consistency
Apache Flink
A Availability
AP: egy replika válaszolhat hibásan
P
Partition-resilience
Alkalmazások
Big Data @ SZTAKI
2014. szeptember 17.
Big Data feladat: szenzor adatok
Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 100 90
130
Values_for_Model_INPUT_2
Values_for_Model_INPUT_1
120
Gearbox bearing temperature_MODEL_ESTIMATES
Gearbox bearing temperature_MEASURED
110
Ambient temperature (for model vaildity)
Error_%
100 90
80
Temperatures
80
70
70
60
60
50 50
40 30
40
20
30
10 0
20
-10 10 -20 0
-30
Time - a year
Model estimation error (%) [limit: +/- 17%]
110
Big Data feladat: nagyvállalati IT log Hagyományos megoldások: Aggregált adatok: kudarc adattárház
? Tapasztalat: 30-115 GB/nap 3-60 millió esemény
teljesítményprobléma, folyamat-optimalizálás
rosszindulatú támadás, visszaélés-felderítés
Intelligens környezet – mobilitási adatok • Mobilitási adatok többcélú elemzése o Mobil szolgáltatás minősége, csomagvesztés előrejelzése o Személyre szabott profilépítés térben és időben • Felhasználó és helyszín modellek építése és előrejelzés o Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés
• Intelligens város alkalmazások o Többtényezős optimalizáció (ár, idő – elektromos autók!) o Tömegközlekedés o Katasztrófahelyzetek, nagy rendezvények biztosítása
• Metropolisz adatmennyisége o Tárolásra nincs idő (volume) o Azonnali reakció (velocity) o Mozgás, események, tartalomfogyasztás, közösség (variety)
Mobilitás adatfolyam kísérlet (Orange D4D)
Virtuális neuro-kognitív labor • VirCA-ra épülő együttműködés o SZTAKI 3D Internet Kontroll és Kommunikáció Labor (Baranyi) o MTA TTK Kognitív Idegtudomány és Pszichológia Intézete o BME Ergonómia, Pszichológia és TMIT tanszékek
• Big Data feladatok: 1. Részletes naplózás és visszakeresés 2. Események rekonstruálása 3. Analitika Gazdag, heterogén adatforrás: mozgás közbeni EEG, szemkövetés, …
• FIRST projekt Smart City alprojektjéhez kapcsolódó kutatás
Közösségi média trendek • Algoritmikus kihívás: o Sok millió releváns dokumentum o Interaktív válaszidő
•
demo o o o o
ELTE Twitter gyűjtés első éve (2012) 1.2Md Tweet, 700M angol nyelvű Meryl Streep előfordul 50,000 üzenetben Valós időben • Leválogatni • Előszedni a teljes szöveget • Gyakori szavakat kiválasztani
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
Közösségi média, ajánló rendszerek Ajánlás (retweet, hashtag) tartalom ÉS hálózat alapján • • • • • •
Maidan: 286.984 tweets, 120.996 retweets, 87.498 users Euromaidan: 2.433.517 tweets, 1.788.604 retweets, 162.582 users Olympics: 735.849 tweets, 289.269 retweets, 250.569 users Putin: 879.711 tweets, 333.250 retweets, 227.320 users Berkin Elvan: 1.856.387 tweets, 1.261.590 retweets, 582.861 user MH17: elemzésre vár
Összefoglalás Big Data feladatok jellemzői • Adat „más célból” gyűlik • Elosztottan kell feldolgozni • Valós idejűség gyakran igény, és lehetőség • Szoftver-rendszerek zavarba ejtő választéka Alkalmazási területek • Szenzorhálózatok, IT rendszerek • Mobilitás, közlekedés, intelligens környezet • Közösségi média • … Együttműködés • FIRCC-hez kapcsolódó SZTAKI projekt • SAP, Ericsson • EU projektek
Köszönöm a figyelmet!
Big Data @ SZTAKI
2014. szeptember 17.