Miről lesz szó • Big Data definíció • Mi a Hadoop • Hadoop működése, elemei • Köré épülő technológiák • Disztribúciók, Big Data a felhőben • Miért, hol és hogyan használják
Big Data definíció
Miért Big a Data?
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
4
Mi a Hadoop? • Open-source alkalmazás • JAVA-ban íródott keretrendszer • az elosztott rendszerek „operációs rendszere” • Lehetővé teszi az elosztott • Adattárolást • Adatfeldolgozást
• Lineárisan skálázható
Rövid történet • 2002 – Nutch (web crawler), új, gyorsabb keresőmotor – Doug Cutting, Mike Cafarella • 2003 Október – Google File System paper • 2004 December – MapReduce paper (szintén a Google adta ki) • 2005 – ráépítették a Nutchot erre a két technológiára (20-40 gépen) • 2006-ban Cutting a Yahoo-hoz ment dolgozni • A Yahoonak már akkor nagyon tetszett a GFS és a MapReduce -> open-source platform építése • Elkezdték fejleszteni a Hadoop-ot az Apache SF keretei között Cutting vezetésével
• Egymás után jelentek meg a kiegészítő komponensek (orchestration, security) • 2008: Cloudera, 2009-től Cutting is ott dolgozik, jelenleg Chief Architect • Eric Baldeschwieler (VP of Hadoop a Yahoo-nál) megalapítja a Hortonworks-öt
https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/
Komponensek HDFS – adattárolás MapReduce – adatfeldolgozás YARN – erőforrás menedzsment
Cluster architektúra
Elosztottság Nem csak a fájlrendszer elosztott, hanem minden adatfeldolgozó szolgáltatás is (például a MapReduce)
HDFS (Hadoop Distributed File System)
Csak append
MapReduce
SQL --> MapReduce
SELECT pozicio, SUM(fizetes) FROM alkalmazottak WHERE fizetes > 200000 GROUP by pozicio
2017. 12. 07.
>>
MMK-Informatikai projekt ellenőr képzés
• MAP • REDUCE
12
YARN
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
13
Főbb, Hadoop-pal együttműködő open-source szoftverkomponensek
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
14
Adattárház a Hadoopon •
Impala, Hive, Presto •
Adattárház funkciók a HDFS-en tárolt fájlokon • • •
•
Hozzáférés ODBC, JDBC-vel •
•
BI eszközök
Oozie • • •
•
SQL Táblák, adatbázisok, sémák Táblakapcsolatok
Workflow készítő és workflow ütemező, monitorozó HUE-ban monitorozó felület is van hozzá Az Oozie-ban definiált jobok folyamatosan feedback-et szolgáltatnak
Sqoop • •
Kapcsolat más rendszerekkel Kapcsolat a Hadoop és a relációs adatbázisok között •
• •
MySQL, Oracle, PostreSQL, SQL Server, Generic JDBC
Adatok importálása és exportálása Hive metastore-t használja
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
15
Disztribúciók • A Hadoopot önmagában sem könnyű telepíteni • 20 szoftverkomponenssel majdnem lehetetlen üzemeltetni • Létrejöttek disztribúciók
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
16
Data Analyst
BI Tools Data Engineer
STREAM
Stream processors
Unstructured Data
Loaders
Structured Data
Unstructured Data
Analytic Tools
Interfaces Hadoop-based Data Management Cluster
Structured Data
BATCH
Data Scientist
Data Process Engines Data Store System Engineer
Nagyvállalati hibrid architektúra
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
18
RAID és HDFS • RAID (hardveres megoldás) 1. Hibatűrés: replikáció a diszkeken 2. Jobb teljesítmény: 1 fájl több diszken van tárolva, párhuzamosan lehet olvasni • HDFS (szoftveres megoldás) 1. Hibatűrés: a fájl blokkok replikálva vannak a több datanode diszkjein. 2. Jobb teljesítmény : Minden diszk full sebességen tud pörögni egy jól optimalizált clusteren, hiszen itt is párhuzamosan lehet felolvasni 1-1 fájlt, csak itt blokkonként. Tehát a HDFS gyakorlatilag elvégzi a RAID munkáját. Ha mindkettőt egyszerre használnánk, akkor • Költésgesebb lenne • Kevesebb storage állna rendelkezésre • Lassabb lenne
Virtualizálás • Az általános mondás szerint nem virtualizálunk Hadoopot, mert teljesítménycsökkenést okoz • VMware kutatása szerint akár érdemes lehet virtualizálni (non-shared, direct-attached storage (DAS))
http://www.zdnet.com/article/virtualized-hadoop-a -brie f-look-at-the -p ossibility/
Felhő •A felhőben • Olcsón • Könnyen • Gyorsan
•Deployolhatunk Hadoop clustert •A meglévő disztribúciók mellett kínálnak saját Hadoop disztribúciókat is A telepítés a platform saját konzoljáról történik
2017. 12. 07.
MMK-Informatikai projekt ellenőr képzés
21
Szabó Csenger
Chatbotok
22