Analytické systémy nad Hadoopom Lukáš Antalov, Vedoucí týmu vývoje
Outline • • • •
Big Data Hadoop Štatistiky Sklik.cz Webová analytika
www.seznam.cz
Big Data
Big Data sú všade • • • •
200 Londýnskych dopravných kamier – 8 TB / deň Približný objem správ na Twittery – 1.2 PB / rok Databáza transakcií Wal-Mart (2010) – 2.5 PB Google Web Index – 5.5+ PB
Zdroj: Phillip B. Gibbons, Data-‐Intensive Compu>ng Symposium
www.seznam.cz
Prečo sú Big Data dôležité? • Pomáhajú * – Pochopiť business – Poznať produkty, zákazníkov či konkurenciu
• Zvýšiť obrat z predajov • Zlepšiť služby • Znížiť náklady
www.seznam.cz
Prečo sú Big Data dôležité? • Pomáhajú * – Pochopiť business – Poznať produkty, zákazníkov či konkurenciu
• Zvýšiť obrat z predajov • Zlepšiť služby • Znížiť náklady
*) Pokiaľ dokážeme efektívne pracovať s datami
www.seznam.cz
www.seznam.cz
Seznam.cz & Hadoop
Seznam.cz & Big Data • Fulltext (600 TB) • Webová analytika (285 TB) • Sklik (40 TB)
www.seznam.cz
Apache Hadoop • Škálovatelnosť – Škálovanie pridávaním ďaľších strojov – Lokálne spracovávanie – nezahlcuje sieť dátami
www.seznam.cz
Apache Hadoop • Škálovatelnosť – Škálovanie pridávaním ďaľších strojov – Lokálne spracovávanie – nezahlcuje sieť dátami
• Flexibilita – Akékoľvek typy dát (blobs, dokumenty, záznamy, ….) – V ľubovolnej forme (štrukturované, neštrukturované)
www.seznam.cz
Apache Hadoop • Škálovatelnosť – Škálovanie pridávaním ďaľších strojov – Lokálne spracovávanie – nezahlcuje sieť dátami
• Flexibilita – Akékoľvek typy dát (blobs, dokumenty, záznamy, ….) – V ľubovolnej forme (štrukturované, neštrukturované)
• Účinnosť – – – –
Cenovo dostupné (~20k/1 TB) Zjednotený storage, metadata, bezpečnosť Spoľahlivý a výkonný distribuovaný súborový systém MapReduce – programovací framework
www.seznam.cz
Hadoop Ecosystem • Hive – DWH systém – SQL-like jazyk zvaný HiveQL
• HBase – Stĺpcovo orientovaná databáza
• ZooKeeper – Centralizovaná služba na udržiavanie informacií
www.seznam.cz
Hadoop Ecosystem • Hive – DWH systém – SQL-like jazyk zvaný HiveQL
• HBase – Stĺpcovo orientovaná databáza
• ZooKeeper – Centralizovaná služba na udržiavanie informacií
• Je toho viac: – – – –
Cascading, Scribe, Cassandra, Hypertable, Voldemort Pig, Howl, Oozie, Chukwa, Mahout Sqoop, Flume, Avro …
www.seznam.cz
MapReduce v jednoduchosti
Zdroj: hBps://developers.google.com/appengine/docs/python/dataprocessing/overview
www.seznam.cz
Apache Hive • • • • • •
Infraštruktúra pre dátový sklad Systém pre správu a dotazovanie nad štrukturovanými dátami Ukladá data na HDFS Používa MapReduce na výpočty Poskytuje SQL-like dotazovací jazyk zvaný HiveQL Ľahko rozšíritelný
www.seznam.cz
Apache HBase • • • •
Stĺpcovo orientovaná databáza Horizontálne škálovatelná ACID garancia na úrovni riadkov Veľmi nízka latencia • Zápis: 1-3ms, 1k-10k zápisov / sec / stroj • Čítanie: 0-3ms cache, 10-30ms disk, 10-40k čítaní z cache / sec / stroj
• Regiony a ich balancovanie
www.seznam.cz
Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB
www.seznam.cz
Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB
www.seznam.cz
Webová analytika • Zber dát – – – –
Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň
www.seznam.cz
Webová analytika • Zber dát – – – –
Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň
• Spracovávanie dát – MapReduce + Hive – Normalizácia dát v dimenziách – regulárne výrazy, rozsahy, kategórie – Stromová štruktúra
www.seznam.cz
Webová analytika • Zber dát – – – –
Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň
• Spracovávanie dát – MapReduce + Hive – Normalizácia dát v dimenziách – regulárne výrazy, rozsahy, kategórie – Stromová štruktúra
www.seznam.cz
Typické workflow • • • • • •
Predpočítanie dát – návštevy (MapReduce) Samotný výpočet (Hive) Tvorba dimenzií z výsledku dotazu Agregácia (C++ alebo MapReduce) Uloženie výsledku v OLAP databázach Zmazanie medzivýpočtov
www.seznam.cz
Nenáročné na použitie • • • • •
Definícia dimenzií Výber z dostupných metrik Voľba granularit Na základe konfigurácie sa vygeneruje HiveQL dotaz! Možnosť Ad hoc dotazov pre analytikov
www.seznam.cz
Záver • • • • •
Hadoop! Pochopiť silu HBase Experimentovať Vytvárať query-centric schémy Monitorovať a optimalizovať
www.seznam.cz
Děkuji za pozornost Lukáš Antalov, Vedoucí týmu vývoje www.seznam.cz
@Twitter účet