Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna – Tajti András 2016.10.25.
Petrócziné Huczman Zsuzsanna Andego
Tanácsadó Kft.
PBA, KÖBE, Fókusz Takarék, HVG
Előtte: Kis adatbányászati tanácsadó cégek Szerencsejáték Zrt., Magyar Telekom, UPC International, OTP, Erste, Lombard
BME, műszaki informatika, adatbányászat
Elvárások
Időbeosztás 9:00
– 12:00 Workshop I.
10:20
– 10:40 Kávészünet
12:00
– 13:00 Ebéd
13:00
– 16:00 Workshop II.
14:20
– 14:40 Kávészünet
Adatbányászat alapok – tematika
Adatbányászati Az
’történelem’
adatbányászati projektek folyamata
Eszközök Rapid R,
Miner – két adatbányászati projekt
Machine Learning – Tajti András
Adatbányászati történelem
Mit jelent az adatbányászat? Nagy mennyiségű adatból újszerű összefüggések kinyerése automatikus algoritmusok segítségével
Adatbányászati történelem Mikor
és miért merült fel az igény?
Az adattárolás története infografika
1960 – Adathalászat
1980 – Adatbázis bányászat
1990 – Adatbányászat
2011 – Data Science
Adatbányászati történelem
Mennyi adat jön létre egy perc alatt?
Adatbányászati történelem Mekkora
adatokkal találkozunk itthon?
Céginfó
adatbázis – 1.8 GB (tömörítve)
Vagyonbiztosítások
1.5 GB
Prezi.com
2 évi káreseménye –
logfájlok: 800 GB/nap
Adatbányászati történelem
1997 IBM DeepBlue – Kaszparov sakk-játszma
2011 IBM Watson in Jeopardy
2015 Önvezető autók
2016 Go-mester legyőzése (Google DeepMind)
Adatbányászati történelem
„Itt az első filmelőzetes, amit mesterséges intelligencia rakott össze”
„Nagy bravúr: az orvosok elnézték, egy program mentette meg egy leukémiás nő életét”
„Divattervező lesz az IBM új számítógépe”
„Chef Watson: Megkóstoltam egy robot főztjét”
Adatbányászati projekt folyamata 2
projektet viszünk végig ma
Churn
projekt – Banki lemorzsolódáselemzés
(Marketing
projekt – Banki ügyfél szegmentáció)
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati projekt folyamata Milyen
típusú feladatok oldhatóak meg tipikusan gépi tanuló algoritmusokkal: „Ki
fogja visszafizetni a hitelt?”– Osztályozás
„Milyen „Akik
vevőink vannak?”– Szegmentálás
ezt vették...” – Asszociációs szabályok
„Holnap
mennyi pénzt hoznak be a pénztárba?” – Idősor-előrejelzés
Adatbányászati projekt folyamata Egyéb
feladatok:
„Melyik „I’m
email spam?” – Szövegbányászat
Feeling Lucky” – Keresőmotor
„Milyen
hatóanyaggal lehet gyógyítani téged” – Orvosi adatbányászat
„Kik a csalók?” – Hálózat-elemzés
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati projekt folyamata ADAT Honnan? Belső
forrás
Külső
forrás (internet, piackutatás...)
Mennyit? Hogyan
lehet több adatunk?/Hogyan mintavételezzünk?
Mi
a ’jó’ célváltozó-arány?
Gondoljunk
a validálásra is!
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati projekt folyamata Az
adat közelebbről
Objektumot
leíró változók (+ Célváltozó)
Adat-átalakítás Aggregálás, Új
adatforrások összevonása
változók generálása
Hiányzó
értékek kezelése
Adattípus-átalakítások
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati projekt folyamata Milyen
gépi tanuló algoritmus-családok vannak? Döntési
fák
Neurális
hálók
Regressziós
modellek
Klaszterező
eljárások
…
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati projekt folyamata Hogyan
mérjünk teljesítményt?
Modell-építéstől
független adatbázison!
Vagy
azonos időszakon, eddig nem látott adatokon
Vagy
Külön
különítsünk el teszt-időszakot
adathalmazok:
Tanítás,
Tesztelés, Validálás 70%
20%
10%
Adatbányászati projekt folyamata Határozzuk
meg az üzleti célt
Szerezzünk
adatokat
Készítsük
elő az adatot
Építsünk
modelleket
Nézzük
meg, hogy teljesít
Építsük
be a folyamatokba
CRISP-DM
Adatbányászati eszközök Ingyenes
/ Fizetős
Programozás
/ GUI
Adatelőkészítés
is/ Csak modellezés
Gartner 2016 Magic Quadrant Advanced Analytics Platforms
A szoftver ’történelme’
Milyen analitikai eszközt használ? 2015 Rexer Analytics Survey
Rapid Miner Alap-információk Technológiai Előnyei
háttér
Alap-információk Egyetemi
fejlesztés Nyílt forráskód 4 verzió Free
– 10ezer rekord Small – 2.500$ (100ezer rekord) Medium – 5.000$ (1millió rekord) Large – 10.000$ (limit nélkül)
Alap-információk XML
alapú, GUI felület Párhuzamos futtatás Java library-ként használható Operátorok írhatóak
Alap-információk Első
verziótól kezdve erős közösség
Wiki
oldal, Fórum
YouTube
csatorna
Marketplace Pl.
TextMining, DataStream, ProcessMining
Használati
Tutorial,
szokások naplózása (community)
példa-adatbázisok, template
Előnyei Platform-független
Egyszerűen Gazdag
Számos Jó
telepíthető, használható
operátorkör
tanuló algoritmus
vizualizációs eszközök
Egyszerű
fejleszthetőség
Projektek
TELEPÍTÉS www.rapidminer.com
Churn projekt Válasszunk
egy szimpatikus bankot
POSTABANK
Churn projekt Üzleti
cél:
Szeretnénk
megelőzni az ügyfél-vesztést
Adatbányászati
célra lefordítva:
Kik
azok az ügyfelek, akik nagy valószínűséggel le fogják mondani a szolgáltatásaikat?
Osztályozás
Churn projekt Adatok
– milyen adatokat kérjünk?
Mindent,
ami rendelkezésre áll az ügyféllel kapcsolatban Demográfia Termékei Viselkedési Célváltozó
adatok
Churn projekt
Adatok elérhetősége:
http://tinyurl.hu/Rhnd/
Churn projekt Adatok
feldolgozása
Források
egyesítése
Alapstatisztikák Extrém Új
(mit nézzünk?)
értékek kiszűrése
változók (ötletek?)
Algoritmus-függő Hiányzó
adatok kezelése
Adattípus-átalakítás
Churn projekt Modellezés Próbáljunk
ki többféle modellt, többféle paraméterezéssel
Churn projekt Validálás
Válasszuk ki a legjobb modellt
Churn projekt Beépítés CRM
az üzleti folyamatokba
integráció
Cross-sale
kampány
/ Megelégedettségi telefonos
Marketing projekt Üzleti
cél
A
bankunk célzott marketingakciókra készül, hogy így növelje az ügyfeleknek értékesített szolgáltatásokat.
Adatbányászati
cél
Csoportosítsuk
az ügyfeleket annak alapján, hogy azok milyen gyakran használják a bank adott szolgáltatásait.
Szegmentáció
Marketing projekt Adatok
– milyen adatokat kérjünk?
10.000 ügyfél viselkedési történetét tartalmazza. A rögzített tranzakciók típusa:
hagyományos banki tranzakciók (TBM - traditional banking methods);
ATM tranzakciók (ATM - automatic teller machine);
POS tranzakciók (POS - point of sale);
ügyfélszolgálati tranzakciók (CSC - costumer service) internetbank.
Marketing projekt Adatok
feldolgozása
Alapstatisztikák Hibás
(mit figyeljünk?)
az adatbázis!
Transzformáljuk
az adatokat; új változó
Algoritmus-függő
Hiányzó
adatok kezelése
Adattípus-átalakítás
Marketing projekt Modellezés Próbáljunk
ki több modellt, többféle paraméterezéssel
Klaszterező
dbscan…
eljárások: k-means, x-means,
Marketing projekt „Validálás” A
szegmentációs modelleket nehéz „validálni”, a cél, hogy minél jobban különböző, jól leírható, magyarázható szegmenseket kapjunk.
Válasszuk
ki a legjobb modellt
Marketing projekt Beépítés Az
az üzleti folyamatokba
eredmények alapján milyen javaslatot tennénk a marketing osztálynak?
Köszönöm a figyelmet!