Big data áttekintés Sidló Csaba MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport
[email protected] http://dms.sztaki.hu http://bigdatabi.sztaki.hu 2014. november 6.
MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika o „Big Data”: • • • •
Web, közösségi média elemzés és keresés smart city, mobilitás szenzoradatok (pl. szélerőmű), log-adatok dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)
Longneck data integration
Tartalom • definíció • megoldások, szállítók • trendek, kutatási témák • alkalmazás példák • néhány kiemelt big data téma o számítási modellek, pl. Hadoop o osztott rendszerek problémái
source: https://secure.flickr.com/photos/t_gregorius/5839399412
Big Data
Big Data
Big Data definíciók • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), • pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!
velocity
variety
big data volume
o velocity (sebesség – gyorsan jön és megy), • pl. az ügyfél vonalban van, ki ő, mi a története?
o variety (változatosság – sokféle forrás, típus) • pl. milyen népszerű a héten a termékünk közösségi hálókon?
o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom) • “big data is data that becomes large enough that it cannot be processed using conventional methods” • elsődleges alkalmazók: analitika, üzleti intelligencia
business email each year
Volume: mennyi? Wired magazin, 2013: • 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott)
Google index
(giga tera peta exa zetta)
• sok százezer PetaByte méretű adatbázis Youtube upload each year
Facebook upload each year
forrás: http://www.wired.com/magazine/2013/04/bigdata/
Big data megoldások • hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a feladat, tervezhetően több számítási erőforrással
Petabytes
• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek o áttérés új architektúrákra: • in-memory, SSD • GPU
• SQL, NoSQL, NewSQL példa: új technológiák és hype
„Numbers Everyone Should Know” - a megoldások korlátai RAM
Disk
• • • •
• 10+TB
L1 cache reference 0.5 ns L2 cache reference 7 ns Main memory reference 100 ns Read 1 MB sequentially from memory 250,000 ns
Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network 10,000,000 ns
RAM • 100+ GB
CPU • L2 1+ MB • L1 10+ KB
Disk
GPU onboard memory
• Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns
• Global 4-8 GB • Block shared 10+ KB forrás: Jeff Dean, Google
Big data piac • • •
kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak
forrás: http://wikibon.org/wiki/v/Big_ Data_Vendor_Revenue_and _Market_Forecast_20122017
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny • SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time) feldolgozás • … • szolgáltatások, eszközök, eszközkombinációk, full stack-ek, SaS, open source stb. • feladathoz megfelelő kombináció
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT2011.4.4 Info day
Big Data Services
Big Analytic s Fast Data
SQL, NoSQL eszközkombinációk •
• •
ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés! „polyglot persistence” hagyományos alkalmazások? o főleg Web 2.0 alkalmazók és fejlesztők! o ld. „hype cycle”, „crossing the chasm”
• •
Mo.? nagy szereplők: o saját eszközkészlet
Big data trendek – szubjektív válogatás • innovációs görbe: o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) • • • •
pezsgés: meetup-ok, konferenciák (tudományos is) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory feldolgozás o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)
• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review) kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations
Big data kutatás • első nagyobb big data konferencia: IEEE BigData 2013 • hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD • irányvonalak: o alapok • elméleti modellek, szabványok, … o infrastruktúra • cloud, stream, osztott feldolgozás, open platformok, NoSQL, … o adatkezelés • adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, … o keresés és adatbányászat o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma • új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek • pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?
• keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2. • big data vizualizáció
• benchmarking • skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on
Új üzleti intelligencia módszertanok • data science o matematika, statisztika, informatika, hacker atitűd, tudományos megközelítés, iparági ismeretek o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek
• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra o agile data science – hagyományos alkalmazások ?
• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől vizualizációig o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik
• adatvezéreltség
Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök: o o o o
algoritmusok (nagy méret) adatbázisok (elrendezés, hozzáférés) Mesterséges Intelligencia és Gépi Tanulás (modellek) Statisztika (hipotézisvizsgálat)
big data adatbányászat: minden még nagyobb; • eszközök: o o o o o
algoritmusok (elosztott, MapReduce, Cloud) adatbázisok (elosztott, NoSQL) okostelefonok, közösségi média (Facebook, Twitter, …) Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok Statisztika
• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek
Emberi genom • dekódolás / szekvenálás o 725 MB adat kb. o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100; egész folyamat: <$1000 o 40-node, 320-core: < 3 óra, 10-node: 1 nap
CERN • CERN Wigner adatközpont: 1 PB/sec 2x100GB 100-200e gép, 70 PB
Web • web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.) • miért nincs Európában F1 adatbázisuk? Kevés az áram!
o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.) o Twitter o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az infrastruktúráját
o …
• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés
Saját web feladat példák • Hanzo Archives (UK): o Amazon EC2 cloud + S3 • Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása • SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső • saját kódok – open source eszközök még nem elég kiforrottak • 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz • hardware kb. $15,000; Amazon ár kb. $1000 lenne • Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
Gráfvizualizáció
• YAGO entitások • kapcsolatok
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://mirror.co.uk
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://bbc.com
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Kiskereskedelem • Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.)
• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon
Ajánlórendszerek • magyar pl. Gravity, Scarab Research • collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!
R
P 1
4
-0.5 3.5 4 4.9 1,5
Q -1,0
3.3
3 2.4
1,4
1,1
4
4 1.5
0,9
1,9
2,5
-0,3
2 1.1
4
2,1
1,0
0.7
1.6
0,8
1,6
1,8
0,0
Forrás: Tikk Domonkos, Gravity
Mobilitás • mobilszolgáltatók: infrastruktúrából location adatok o 4,5 milliárd mobil kb. mostanában o minőségi mutatók valós idejű követése, liquid applications, smart city o real-time scalable distributed stream processing: 100 000 events / sec (several million people)
• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben
Forgalmi térkép, útvonaltervezés
woophoo.com, ~2008
google.com, 2011
woophoo.com (~2008)
• “big data” competition open to the scientific community o exploring the tremendous potential of telephone data o producing rich, diverse ideas
• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication between cell towers o communication sub-graphs o mobility traces: privacy vs. fine resolution • coarse (prefectures) with more users, • fine resolution dataset with less users (sparse sample) http://perso.uclouvain.be/vincent.blondel/netmob/2013/
D4D saját példa vizualizáció Aggregated cell density predictions
Sample of individual user predictions
„Okos város” D4D példák • Songdo City, Santander, … • itthon: o HUGO útdíj, Futár o Székesfehérvár, Debrecen, Szeged, Szolnok AllAboard: a system for exploring urban mobility and optimizing public transport using cellphone data
disease containment using calls matrix and mobility matrix Unique in the crowd: The privacy bounds of human mobility
forrás: D4D challenge
4/6 villamos megállóinak detekciója telefon szenzoradatokból • már a telefonon szűrni kell • pontatlan, heterogén, sok, gyorsan keletkező adat
Szenzoradatok • Internet of Things, Cyber Physical Systems: szenzor mindenhol • szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó o farm: 10-100 turbina, régió: 5-50 farm
kép: http://www.newscientist.com/
Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 100 90
130
Values_for_Model_INPUT_2
Values_for_Model_INPUT_1
120
Gearbox bearing temperature_MODEL_ESTIMATES
Gearbox bearing temperature_MEASURED
110
Ambient temperature (for model vaildity)
Error_%
100 90
80
Temperatures
80
70
70
60
60
50 50
40 30
40
20
30
10 0
20
-10 10 -20 0
-30
Time - a year
Model estimation error (%) [limit: +/- 17%]
110
Sensors – smart home, city, country, …
• • • •
Road and parking slot sensors Mobile parking traces Public transport, Oyster cards Bike hire schemes Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
… even agriculture …
Kép és hang • megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson! • 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra o évente mondjuk 1500 betegre: 3-7 TB
• rendszámfelismerés • call center hívások o o o o
leiratok NLP sentiment analysis entity recognition
Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)
• Ügyfél rekordok csoportosítása valós személyek • Hány természetes személy ügyfelünk van? • Lehetséges felhasználások pl.: • Call center, marketing lead-ek kezelése • Kockázatelemzés, riasztás • Kitiltott ügyfelek, új ügyfél kedvezmények
Mire alkalmazható? ●
személyazonosság –
ügyfelek, adóalanyok
–
internet szolgáltatás felhasználói (email, facebook stb.)
–
nemzetbiztonság, terror-elhárítás
●
termékek
●
weboldalak (spam)
●
helyek, POI-k
●
összetett entitások: –
szervezetek, cégek, családok
Ügyfélkezelés • CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook • teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált? • jogilag kérdéses az adatgyűjtés!
• call center o beszélgetés leiratok • hangulat (sentiment), kulcsszavak stb. • keresés
• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle kapcsolható esemény o lemorzsolódás előrejelzés, személyre szabott ajánlatok, … o AdWords stb.
IT logok, alkalmazás naplók • gyűjteni sokszor muszáj, elemezni nehéz • pl. prezi.com: 150 GB / nap (2013) • valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013) • webanalitika, weblog: kiforrott megoldások
kép: http://www.google.com/analytics/
IT-log feldolgozás adatfolyam hagyományos módszerek elhasalnak!
? saját kísérletek: 30-100+ GB/nap 30-60 M esemény
szűk keresztmetszetek azonosítása, folyamat-optimalizáció
csalások, visszaélések, támadások felderítése
adatintenzív feladat
Adattárház aggregáció
Elosztott rendszerek Murphy törvénye
54
2013-09-17
NoSQL: „CAP tétel” és adatmodell „Avalilability”: mindig van visszajelzés CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 …), Greenplum, Vertica, Membase, OrientDB, Neo4j, …
„Consistency”: minden node mindig ugyanazt az adatot látja
AP: replika válaszolhat hibásan
A P
CC
kettőt választhatsz!
Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB,
AP
CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, …
„Partition tolerance”: kieshetnek node-ok, de a rendszer működik
adatmodell: SQL key-value „wide column” dokumentumorientált gráf
ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency
ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
Mi történik, ha szétesik a rendszer? • Végül lehet konzisztens (eventual consistency) • A kapcsolat helyreállása után lehet adatot cserélni
CAP tétel bizonyítás • Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal • Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz • Vagy availability (A), vagy konzisztencia (C) 56
Big 2013-09-17 Data
Hadoop és MapReduce • Hadoop: o open source, kiforrott („enterprise ready”), sok helyen használt platform o sokan építenek rá terméket, szolgáltatást o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább
• MapReduce: a Hadoop számítási modellje
Input (HDFS)
map
reduce
map
reduce reduce reduce
map map map
Output (HDFS)
o amiben jó: elosztott rendezés o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!
…
… split: (k, v)
sort by k
merge: (k, [v, v2, v3, …])
A Big Data nem csodafegyver
NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.
Sidló Csaba
[email protected]
http://dms.sztaki.hu http://bigdatabi.sztaki.hu