Big Data: a több adatnál is több Sidló Csaba István MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport
[email protected] http://dms.sztaki.hu CIO Hungary konferencia, 2013. április 19.
MTA SZTAKI és Big Data • Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok
http://dms.sztaki.hu
o Benczúr András, 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj o kutatás – fejlesztés, teljes innovációs lánc o kb. 30-40 tag, kutatók, fejlesztők, hallgatók o folyamatosan fejlődő infrastruktúra, 60+ gép, 170+ mag, 600+ TB tároló
• Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János
• projektek valódi „big data” feladatokkal o logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés o smart city, mobilitás, „internet of things”
http://bigdatabi.sztaki.hu
„Big Data” • adatok 3 (vagy 4, 5) V-je: o o o o
Volume (mennyiség – sok), Velocity (sebesség – gyorsan jön és megy), Variety (változatosság – sokéle forrás, típus) + Value (érték – feldolgozással értéknövekedés), Veracity (megbízhatóság – változó adatminőség), Variability (változékonyság – változó tartalom)
• “big data is when the size of the data itself becomes part of the problem” • “big data is data that becomes large enough that it cannot be processed using conventional methods”
Mennyi? • Google: 1PB rendezése 33 percben (2011.07.) • Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) • Facebook: 30+ PB felhasználói adat (2012.06.) • emberi genom dekódolás: o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100 o 40-node, 320-core: < 3 óra, 10-node: 1 nap
• szélerőmű szenzor adatok: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB adat / hó o farm: 10-100 turbina, régió: 5-50 farm
Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD, 59%-os növekmény 2011-hez képest • növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat • IBM, Oracle, Microsoft, SAP, EMC, HP emelett felvásárolnak • Web 2-es cégeken kívül beléptek: pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem, … • kiforrott termékek (pl. Hadoop) és szolgáltatások forrás: http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017
Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day
Big Data services
Big Analytics
Fast Data
Big data kutatás • első fontos big data konferencia: IEEE BigData 2013 • hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD • irányvonalak: o alapok • számítási és egyéb elméleti modellek, adatminőség, szabványok, … o infrastruktúra • cloud, stream, osztott feldolgozás, open platformok, NoSQL, … o adatkezelés • adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, … o keresés és adatbányászat • közösségi hálók, mobilitás adat, big data keresés, … o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma • új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek • pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?
• keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2. • big data vizualizáció
• benchmarking • skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on
Néhány big data trend • Gartner 2011 trend No. 5: Next Generation Analytics: „significant changes to existing operational and business intelligence infrastructures” • early adopters / post-innovators: Web2 vállalatok, mint Google, Facebook, Twitter and LinkedIn early majority • gap: kutatás, kutatási eszközök vs. ipari alkalmazásra kész eszközök; Lucene kereső, Apache Hama stb. • flash memória, SSD vs. hagyományos tároló-tömbök • in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop
• real time streaming feldolgozás o S4, Storm stb.
• NoSQL vs. NewSQL • „data science”
Vállalati IT-napló feldolgozás hagyományos módszerek elhasalnak!
? saját kísérletek: 30-100+ GB/nap 30-60 M esemény
adatintenzív feladat szűk keresztmetszetek azonosítása, folyamat-optimalizáció
csalások, visszaélések, támadások felderítése
Adattárház aggregáció
Képek, szociális hálók, azonosságok kép szegmentáció (képkereséshez)
számításintenzív feladatok entity resolution azonosságfeloldás
Mobilitás, telekom, szélerőmű szenzor • telekom adatok: CDR, OSS (operational support system) analitika: mozgás előrejelzés • „smart city”: intelligens parkolás, forgalomirányítás stb. • „internet of things” • szélerőművek: szenzor adat adatfolyam
http://www.d4d.orange.com
számítás és adatintenzív feladatok
Webes feladat példák • Hanzo Archives (UK):
számítás és adatintenzív feladatok
o Amazon EC2 cloud + S3
• Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása
• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső o saját kódok – open source eszközök még nem elég kiforrottak o 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz o hardware kb. $15,000; Amazon ár kb. $1000 lenne o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész