Baarn, 5 juli 2012
Hadoop als extensie op het DWH
Agenda
• • • • • • •
Misvattingen (korte) Intro Hadoop Hadoop & BI Demo logparsing met Hadoop Showcase Datameer Stappenplan Vragen
18-07-2012
2
Hadoop als extensie op het DWH
Misvattingen
Meest gehoorde bezwaren
• Hadoop is alleen voor de Googles, Linked-ins en Facebooks (Bol.com’s) van deze wereld • Alleen Java programmeurs kunnen met Hadoop omgaan • Informatievoorziening obv Hadoop is een stap achteruit tov zwaarbevochte DWH principes • BI moet zich alleen met geregistreerde transacties bezighouden (en dus gestructureerde data) • Hadoop is (gelukkig) over 2 jaar weer voorbij 18-07-2012
3
Hadoop als extensie op het DWH
Intro Hadoop
Kenmerken
• • • • • • • •
Gedistribueerde opslag & verwerking Linux & Java Generiek platform voor (on)gestructureerde data Open source Bewezen technologie Uitgebreid ecosysteem & community Commodity hardware Horizontale schaalbaarheid
18-07-2012
4
Hadoop als extensie op het DWH
Intro Hadoop
Verticale schaalbaarheid
18-07-2012
5
Hadoop als extensie op het DWH
Intro Hadoop
Horizontale schaalbaarheid
18-07-2012
6
Hadoop als extensie op het DWH
Intro Hadoop
In de praktijk…
18-07-2012
7
Hadoop als extensie op het DWH
Intro Hadoop
Datatypen
Structured
Quasi-structured TimeþUser-IDþIPþAdvertiser-IDþOrder-IDþAd-IDþCreative-ID 08-15-2010þ89419260238675þ83.247.15.106þ1372803þ4742705þ227713994 213.75.28.33 063xxx7160 17/Apr/2012:02:00:58 GET /web/Mijn-Hi/Mijn-Profiel.htm 200 31972 213.75.60.15 063x8x1x14 17/Apr/2012:02:01:00 GET/web/form?ff=87202&formelement=91536 &pageid=26114&orgurl=&gotourl=&autologin=false&fromaw=true&errorurl=https%3A%2F%2Fwww.h 213.75.60.158 06xxx51014 17/Apr/2012:02:02:38 POST /amserver/UI/Logout 302 - - Mozilla/5.0 (compatible; PRTG Network Monitor (www.paessler.com); Windows)
Data types
Unstructured Beste BI-ers,
Semi-structured
<property> dfs.replication 1
20 september is de volgende pentaho expertise avond. De avond zal in het teken komen staan van CDE/CDF. Julien zal ons zijn ervaringen delen. Verder zijn er nog een aantal zaken binnen PDI die schreeuwen om bekend te worden bij iedereen die Pentaho gebruikt. Als laatste zullen we de VLC vorderingen op het gebied van social BI (koppeling social media met BI) bespreken. We starten om 17:45 met een hapje en de avond zelf start om 18:30 Meld je aan door een reply op deze mail! Tot dan Peter Consultant Fascinatio Boulevard 562-4 2909 VA Capelle aan den IJssel T: +31(0)10 20 20 544
18-07-2012
8
Hadoop als extensie op het DWH
Intro Hadoop
General purpose computing platform
entity ext. indexing metadata
Textual ETL
search
filtering
Data types
aggregatie
datamart ETL
datamining
BI tools reporting clickstream rules analyse behavioural datamining targeting matching fraude recommendation detectie graph analyse 18-07-2012
9
Hadoop als extensie op het DWH
Hadoop & BI
Relevantie van BI…
Relevante data
BI BI
18-07-2012
10
Hadoop als extensie op het DWH
BI
Hadoop & BI
Hadoop
– Aantal nieuwe abonnees
– Waar haakten potentiële nieuwe abonnees af?
– Aantal telefonische beroepen service desk
– Welke bellers zijn er ook vooraf on-line geweest? (wat zegt dat over de site)
– Aantal verkochte smart product/service XX
– Hoe gebruiken klanten mijn product exact?
– Aantal unieke bezoekers per dag
– Zijn dezelfde bezoekers na 3 maanden nog actief?
18-07-2012
11
Hadoop als extensie op het DWH
SQL
– Concurrent – Wachttijd < 2 min. – Schema on write – Beperkte mogelijkheden – Beperkte onderst. tekst – Schaalt verticaal – Iedereen kan het – Dé taal van BI tools 18-07-2012
Hadoop & BI
MapReduce
– Batch (+) – 1 min. tot …. – Schema on read – Pluggable by design – Alle data – Schaalt horizontaal – ...
–… 12
Hadoop als extensie op het DWH
Hadoop & BI
MapReduce INPUT
mapper 1
1 mapper 2
2
reducer 1 mapper 3
OUTPUT 3 3 2 4
3 …..
…..
…..
mapper n n K = file offset, V = record 18-07-2012
K = stad, V = 1
K = stad, V = som(1,1,…) 13
Hadoop als extensie op het DWH
Hadoop & BI
Mapper code
Wat zet ik op mijn lijstje? - Filteren - Transformeren
Reduce code
Wat wil ik met het lijstje? - Aggregreren - Joinen
Hadoop als extensie op het DWH
SQL
– Concurrent – Wachttijd < 1 min. – Schema on write – Beperkte mogelijkheden – Geen tekst – Schaalt verticaal – Iedereen kan het – De taal van onze tools 18-07-2012
Hadoop & BI
MapReduce
– Batch (+) – 1 min. tot …. – Schema on read – Pluggable by design – Alle data – Schaalt horizontaal – Iedereen kan het !!
15
Hadoop als extensie op het DWH
Demo
Hive – vertaalt:
Select search_term, collection, results from gsa_log; – naar:
Stap 1. File uploaden Stap 2. Metadata aanmaken (regular expression) Stap 3. Analyseren 18-07-2012
16
Hadoop als extensie op het DWH
Demo
Zoekgedrag: Apache webserverlog GSA 2,5 GB
6,8 miljoen regels
10.3.36.13 10.3.36.13 -- -- [01/May/2012:00:02:12 [01/May/2012:00:02:12 -2300] -2300] "GET "GET /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=U 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 12911 378 0.17 12911 378 0.17 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnkpn+op+het&access=p&filter=0&getfields=*&client=default_frontend&ent 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a H 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnxxx+op+het&access=p&filter=0&getfields=*&client=default_fronte 385 0.12 =UTF-8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&ents 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+kpn&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 200 3143 385 0.12 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=340&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a HT 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+xxx&access=p&filter=0&getfields=*&client=default_frontend&entqr=3& 13347 729 0.19 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=10&ip=10.3.36.32,10.68.61.162&tlen=90&site=Forum&start=340&sort=date:D:L:d1&entqrm=0& 10.3.37.34 - - [01/May/2012:00:01:58 -2300] "GET /search?q=tot+drie&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT 200 13347 729 0.19 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 tot+drie&access=p&filter=0&client=default_frontend&entqr=3&oe=UTF-8&ie=U 10.3.36.32 -- -- [01/May/2012:00:01:58 [01/May/2012:00:01:55 -2300] -2300] "GET "GET /search?q= /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&entqr=3 8&ud=1&output=xml_no_dtd&num=2&getfields=*&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 3568 71 0.03 492 0.11 10.3.36.32 - - [01/May/2012:00:01:55 -2300] "GET /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&en 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 492 0.11
18-07-2012
17
Hadoop als extensie op het DWH
Demo
Zoekgedrag: Apache webserverlog GSA
- Wat zijn de meest gevraagde zoektermen per dag? - Welke vaak gebruikte zoektermen leveren geen zoekresultaten op?
DEMO 18-07-2012
18
Hadoop als extensie op het DWH
SQL
– Concurrent – Wachttijd < 1 min. – Schema on write – Beperkte mogelijkheden – Geen tekst – Schaalt verticaal – Iedereen kan het – Dé taal van onze tools 18-07-2012
Hadoop & BI
MapReduce
– Batch (+) – 1 min. tot …. – Schema on read – Pluggable by design – Alle data – Schaalt horizontaal – Iedereen kan het !! – ‘Hadoop made easy’ = kwestie van tijd 19
Hadoop als extensie op het DWH
Showcase Datameer
De race is on…..de beste analytics and visualisation tool direct op Hadoop
– Datameer – Hadapt – Karmasphere – IBM Bigsheets / many eyes – Splunk 18-07-2012
20
Hadoop als extensie op het DWH
Showcase Datameer
En visualisaties
18-07-2012
21
Hadoop als extensie op het DWH
Stappenplan
Stappenplan
– Formeer taskgroup (BI, Linux, Java én de BUSINESS) – Identificeer relevante bronnen – Start met 2 tot nodes (cloud, desktops, oude servers) – Start POC – Stel realistische doelen – Verbreed gebruikersgroep – Schaal horizontaal (Hadoop werkt als een magneet)
18-07-2012
22
Hadoop als extensie op het DWH
Vragen
Zijn er vragen…..
18-07-2012
23
Hadoop als extensie op het DWH
Uw spreker:
- Jasper Knulst -
[email protected] - Twitter: @jknulst
- Download de whitepaper ‘De Stand van Hadoop’ http://www.incentro.com/nl/case/incentro-whitepaper-de-stand-van-hadoop
18-07-2012
24