Component Soft 1994-2013 és tovább ●
IT szakemberek oktatása, tanácsadás
●
Fő témáink:
●
UNIX/Linux rendszerek,
●
●
●
virtualizációs, fürtözési, tároló menedzsment és mentési technológiák Adatbázisok és middleware (főleg MySQL és Java app. szerverek) Bash/Perl/Python/Ruby/stb. script programozás
●
C++/Java/Android programozás
●
BIG DATA !!!
2013 (c) Component Soft Ltd
1
Component Soft Technológiai szeminárium a Big Data jegyében 2013 március 13.
De mi is az a Big Data? Mitől nagy? Miért fontos? Milyen technológiákból áll?
Érdekes példák a Big Data-ra:
az adatok léteznek, de ki gyűjti össze és főleg ki elemzi ki őket? ●
●
●
●
●
●
Arckép felismerés a Picassa-n Dalok felismerése SoundHound apppal Repülőgép sztori: London-New York-i járaton az érzékelők több adatot generálnak, mint ami egy átlagos vállalati adattárházban összesen van Egészségügy: érzékelők a betegeken, korábbi gyógykezelések adatai Large Ecommerce site ajánló rendszerrel Customer churn analysis (ügyfél elpártolás vizsgálata/megakadályozása) rendszerek új generációja 2013 (c) Component Soft Ltd
3
Big Data definíciója: a 3 V Volume: terabyte vagy petabyte-nyi mennyiségű adat Velocity: nagy sebességű, gépek által generált adatfolyam Variability: sokféle adatformátum 2013 (c) Component Soft Ltd
4
Miért fontos a Big Data Gartner 2012 októberi előrejelzés a Big Data piacra: 2012: 96 milliárd USD, 2013: 120 milliárd USD 2016: 232 milliárd USD McKinsey 2011: példák, hogy egyes szektorok hogyan csökkenthetik költségeiket és/vagy növelhetik bevételeiket sok száz milliárd dollárral IBM 2012: „Big Data is all about better analytics on a broader spectrum of data, and therefore represents an opportunity to create even more differentiation among industry peers.” Index 2013 február: az USÁ-ban a legjobban fizetett IT szakemberek a Big Datá-val foglalkoznak: http://index.hu/tech/2013/02/26/ezt_kell_tudni_havi_ketmillios_fizeteshez/ 2013 (c) Component Soft Ltd
5
Miért nem működnek a régi módszerek? (adattárház, SMP gépek stb.) A tárolt adatmennyiség sokkal gyorsabban nő, mint a processzorok teljesítménye A hagyományos SMP szerverek és shared disk cluster-ek nem alkalmasak a Big Data (petabyte méretek) feldolgozására Az adatok jelentős része nem könnyen, nem hatékonyan szervezhető relációs adatbázisokba A web-en megváltozott az elvárt sebesség definíciója: ha lassú egy webshop, átmennek a konkurenciához 2013 (c) Component Soft Ltd
6
A Big Data adatfeldolgozás lépései Acquire: adatgyűjtés és real time vagyis operational analysis (pl. hagyományos OLTP, Call Detail Records, call center records, HW & SW system logs, personal location data (mobil GPS), medical sensors, emails, twitts, Facebook entries (NoSQL és MySQL Cluster adatbázisok területe) Organize (hagyományosan ez az ETL) Analyze (HW gyorsított adattárházak vagy Hadoop területe) Decide vagy Share (Business Intelligence területe)
2013 (c) Component Soft Ltd
7
NoSQL adatbázisok: miért? A hagyományos RDBMS-ek bombabiztosak, az SQL nagyon jó programozási nyelv csak: – –
–
Bonyolultak, ezért nem elég gyorsak Nehézkesen kezelnek sok gigabyte vagy petabyte mennyiségű adatot Rosszul kezelik a távoli replikáció és az adatbázis particionálás (sharding) problémáit
2013 (c) Component Soft Ltd
8
NoSQL adatbázisok általános jellemzői •
•
•
• • •
•
•
Alapelvek: NoSQL = Not Only SQL (az SQL nem tűnik el sőt...) Massively paralell, multi master, shared-nothing architecture Egyszerű programozási modell, korlátozott és sokszor előre definiált lekérdezésekkel Egyszerű adminisztráció sok automatizmussal Jobban illeszkednek az OO programozáshoz Sebesség és a folyamatos rendelkezésre állás fontosabb mint a 100%-os adatkonzisztencia (sok vállalati alkalmazásnál nem igazán jó) Egy-két méregdrága HW helyett sok-sok olcsó szerveren futnak Nyílt forráskódúak
2013 (c) Component Soft Ltd
9
Hadoop: mi is ez? Nyílt forráskódú, több ezer gépig skálázható, hibatűrő rendszer akár petabyte mennyiségű adat tárolására és feldolgozására Az egyes gépek olcsó Linux-os vagy esetleg Windows-os szerverek, emiatt a gigabyteonkénti fajlagos költsége alacsony Az adatok formátuma bármilyen lehet, a struktúrát nem az adatgyűjtésnél hanem az egyes feldolgozásoknál tudom megadni Speciális algoritmusokat és programozási modellt igényel (MapReduce) Nagyon elterjedt nagy mennyiségű, nehezen strukturálható adat batch alapú feldolgozására 2013 (c) Component Soft Ltd
10
HW gyorsított adattárház gépek Kevésbé forradalmi megoldás, legkönnyebben eladható a vállalatoknak Továbbra is hagyományos adatbázist használnak Adatbázis, szerver és tároló integrált megvalósítása a gyors működés és egyszerű kezelhetőség érdekében Pl. Oracle Exadata, IBM Netezza
2013 (c) Component Soft Ltd
11