Retro adatbányászat Kovács Gyula – Andego Tanácsadó Kft.
Adattárház Fórum 2012
Magunkról •
2010-ben alapították magánszemélyek (az alapítók több mint egy évtizedes BI tapasztalatokkal rendelkeznek)
•
Andego Tanácsadó Kft. fő profilja: • Intelligens applikációk kifejlesztése, és hozzá konzultáció eladása (CARculator, Sixtep hálózati szoftver) • BI tanfolyamok megtartása (kiscsoportos tanfolyamok) • CRM és BI témájú piackutatások lebonyolítása
•
Partnerek • IFUA Partners , MentorPartner, BI Consulting Kft. és SIXTEP Kft.
•
Referenciák • Lombard Lízing, MKB Euroleasing, OTP, Uniqa, Posta Biztosító, Signal Biztosító, PBA biztosítási alkusz, Vodafone, Sanofi-avensis
Tartalom
• Mi is az adatbányászat? • Alapfogalmak
• Dara Mining és X mining kapcsolata • Big Data és adatbányászat • Hogyan készül egy adatbányászati modell? • Milyen adatbázisokat építsünk? • Egy esettanulmány
Az adatbányászat már nem trendi?
Az adatbányászat = adatfeldolgozás, adatelemzés és gondolkodás Bár általában adatok elemzésével kapcsolatban használják a fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan egy „esernyő” fogalom. Általában üzleti vagy valamilyen más szervezeti trend(ek) azonosításának igényével kapcsolják össze. 1.„Az implicit, korábban ismeretlen és hasznos információk kinyerése különféle adatokból” (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.)
2. „Hasznos információk hatalmas adatsorokból vagy adatbázisokból való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X)
3. Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit. 4. Az adatbányászat nagy mennyiségű adatok kutatása és elemzése rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques; By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)
2005 körül számos olyan változás történt, ami alapvetően változtatta meg az adatbányászatot
• CRM rendszerek megjelenése. A rendszerek inbound/outbound kampányok menedzselése egyben, és az adatbányászati modelleket ezen kampányokhoz kezdték használni (CRM modellek) -> Modell
teljesítmények mérése éles környezetben (kampány menedzsment) • Web analitika. Egyre több online intelligens alkalmazás jelent meg. A web adatok nagyon gyorsan amortizálódnak, az algoritmusokkal szembeni elvárás az öntanulás képessége (pl. ajánló rendszerek) -> Real-time
technológia és Big Data megjelenése • Nem strukturált adatok bányászata. A hagyományos adattárház adatok elemzése mellett megjelent a szöveg és hangbányászat. A szövegbányászat egyben a tartalom elemzés legfontosabb motorja ->
Digitális lábnyomok egyre intenzívebb elemzése
Napjainkban adatbányászathoz sorolunk lassan mindent ami adatelemzés
Nem strukturált adatok elemzése: • Text mining • Voice mining • Hálózatelemzés
Óriás adatok megjelenése: • BIG Data • Cloud Computing • Hálózatok (közösségi oldalak > digitális lábnyomok)
Data Mining Kampány menedzsment: • Analítikus CRM • Real-time decision • Üzleti elemzés szerepe nő – Business Analyses
Adatbányászat demokráciája: • Open source szoftverek térnyerése • „Mindenkinek van adata”
X-Mining tényleg adatbányászat?
X-Mining tényleg adatbányászat?
A szövegbányászat, hangbányászat, videóbányászat és részben a hálózatelemzés valójában a nem strukturált adatok strukturált formára hozását jelenti. Ennek köszönhetően az adatbányászat új adatokat tud beépíteni a modellekbe.
Big Data Big Money? A technologyreview-ban Peter Fader-rel (Wharton Egyetem) készült interjúban a Big Data szerepéről beszéltek. Ennek kivonata: • A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg. Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka esetekben) • A legfontosabb kérdés az optimális adatmennyiség mérete. Fader szerint az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem minden áron történő kiaknázása. • Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as években is tudtak. Az óriási adatok elemzése túlságosan technikai jellegű lett, éppen ezért Fader szerint az adattudósok inkább matematikusok/informatikusok, és kevésbé elemzők.
Egyáltalán hol vannak nagy adatok?
Rexer Analytics felmérése szerint az elemzők 87%-a maximum 100 változót használ az elemzéseknél
Az elemzők számára nagyobb kihívás az adattisztítás mint az adatméret
Az elemzők többsége vállalati adattárházakon dolgozik. Itt az adatminőség kérdése a legszignifikánsabb, az adatok mérete nem változott az elmúlt években radikálisan
Tartalom
• Mi is az adatbányászat? • Alapfogalmak
• Dara Mining és X mining kapcsolata • Big Data és adatbányászat • Hogyan készül egy adatbányászati modell? • Milyen adatbázisokat építsünk? • Egy esettanulmány
Adatbányászati modellezés - alapelv
Az alapelv: minél több múltbeli adatot gyűjtsünk össze az adott ügyfélről, és ez alapján jelezzük előre jövőbeli viselkedését.
Múltbeli adatok
Jövő •
Demográfiai/firmográfiai adatok
Ügyfél
•
Lemondja a szerződését?
•
Tranzakciós adatok (kommunikáció/pénzforgalom) CRM adatok – ügyfél-vállalati interakciók •
•
Termék használati adatok
•
Stb.
Prediktív modell
•
Csődbe jut?
•
Csalást fog elkövetni?
•
Vásárolni fog az adott termékből?
Mit várhatunk el egy adatbányászati projekttől?
Néhány tipikus alkalmazás
• Churn előrejelzés. Elsődlegesen mobil szektorban, ezen belül is postpaid ügyfelekre.
• Ügyfél szegmentáció. Olyan viselkedés alapú szegmentáció, ami a hasonló szükségletű ügyfeleket detektálja. Elsődlegesen kampány célcsoport kijelölésnél használták.
• X-sell/upsell elemzések. „Next best” ajánlatok kiszámítása asszociációs szabályok segítségével
• Ügyfélérték számítás. Alapvetően kontrolling feladat, de a CLV számításnál szükséges az ügyfelek várható élettartamának kiszámítása
• Csalás detektálás. Bankkártya csalások detektálása • Folyamat optimalizálás. Behajtási folyamatok optimalizálása (pl. mely adósokat nem kell átadni behajtó cégeknek)
Adatbányászati modell – elemzés eredménye
Hűségszerződés lejárt?
Igen: 15% Optimális díjcsomagban van
Igen: 10%
Nem: 3% Panaszkodot t az ügyfélszolgálaton?
Nem: 25%
Igen: 7%
Nem: 1%
Adatbányászat legfontosabb lépései Az adatbányászat nélkülözhetetlen része az adatbányászati szoftver. A legjobb szoftverek támogatják: 1. Adatfeldolgozás: az eredeti forrás adatok általában alkalmatlanok adatbányászati elemzésekre. A szoftver segítségével előállítható tanító és teszt adatbázis 2. Hagyományos elemzés (statisztikák és grafikonok): az elemző lépésről lépésre állítja elő a tanító adatbázist. Ehhez szükséges alapelemzések elkészítése 3. Modellezés: minden adatbányászati szoftver tartalmaz modellező/adatbányászati algoritmusokat. A tanító adatbázison ezek segítségével készítjük a modelleket (adatbányászati algoritmus ≠ modell) 4. Kiértékelés: a legtöbb szoftver tartalmaz olyan eljárásokat, amelyek segítségével könnyen eldönthető, hogy az adott modell mennyire pontos (mennyire használható)
Esettanulmány
Prediktív modellezés – múltbeli tapasztalatok alkalmazása az előrejelzésre Alapelv: gyűjts össze minél több adatot a múltból, és ezt használd fel a jövő előrejelzésére! Múlt • Univerzális tudás: múltbeli adatok alapján feltárt összefüggések (függvényhalmaz) • Múltbeli adatok elátrolva adattárházakban (adatbázis)
Jelen
Előrejelzés – jelen tudásunk alkalmazása Ügyféladat •
Demográfiai/firmográfiai adatok
Univerzális tudás múltbeli adatok alapján Friss ügyféladatok – melyeken a modellek futtathatók • Demográfiai/firmográfiai adatok •
Viselkedés adatok (hívások, SMS, MMS, …) CRM adatok – ügyfélvállalati interakciók •
• Termék használati adatok
•
Viselkedés adatok (hívások, SMS, MMS, …) CRM adatok – ügyfélvállalati interakciók •
DataMining modellek
+
•
Termék használati adatok
Ügyfélszintű előrejelzés: mi annak a valószíműsége, hogy egy adott esemény bekoövetkezik? (pl. Elvándorlás)
Feladat: cégek bedőlésének előrejelzése
• Forrás: Complex céginformációs adatbázis • ~1.000 különböző tábla • A legnagyobb táblákban 25-30M rekord
• Inkonzisztens adatbázis
• Elemzés lépései: • Létrehozunk egy tanító adatbázist
• Alapelemzéseket készítünk • Elemzési stratégia kialakítása • Modellezés • Kiértékelés
Hogyan hozzunk létre elemzési adatbázist?
Múltbeli események 2011.01
Célváltozó: történik-e negatív esemény az adott céggel
2011.06
2011.012
Az eredmény egy olyan függvény, mely később alkalmazható előrejelzésekre.
Milyen adataink vannak?
Múltbeli események 2011.01
Célváltozó: történik-e negatív esemény az adott céggel
2011.06
2011.012
• Cím adatok (székhely, telephely, fióktelep) – és ezek változása • Tulajdonosi adatok • Tisztségviselő adatok • Bankszámla adatok • .... • Mérleg adatok – 2010-es vagy korábbi (évente egyszer „frissül”)
Tanító adatbázis – ami bármikor reprodukálható 2011.06. végi állapot Volt-e Fő székhely váltás (last TEAOR kód 6M)
Volt-e Létszám 2010-es változás mérleg (last 6M) adata
Változók
Cégazonosító
Cég1
1111
1
32
1
+3
Cég2
1112
0
78
1
-2
...
...
Tanító adatbázis – célváltozó előállítása 2011.06. végi állapot Volt-e Fő székhely váltás (last TEAOR kód 6M)
Volt-e Létszám 2010-es változás mérleg (last 6M) adata
Felszámol ásba kerül (next 6M)
Változók
Cégazonosító
Cég1
1111
1
32
1
+3
1
Cég2
1112
0
78
1
-2
0
...
...
Alapelemzések – ismerd meg az adatokat
Mindenki Soha nem adott be mérleget Adott-be mérleget 2010-ről! Adott-be mérleget, de 2010-ről már nem!
2011. II félévben volt-e negatív Nem volt Volt Ráta 205887 3179 1,52% 310575 840 0,27% 108244 3581 3,20%
Az alapelemzések segítenek: • Adatminőség ellenőrzésében • Releváns adatok detektálásában
• Modellezési koncepció kialakításában
Modellezés – szakértői tudással Teljes sokaság (1,25%)
I. Volt negatív esemény az elmúlt fél évben
Nem volt negatív esemény az elmúlt fél évben (1,05%%)
(5,89%%)
II. Nem adott be mérleget 2010ben
III. Adott be mérleget 2010ben
(1,98%)
(0,25%%)
Jelen esetben az elemző úgy döntött, hogy 3 modellt épít 3 különböző szegmensre (már maga a szegmentálás egy modell)
(1,25%)
Modellezés – szakértői tudással I. Volt negatív esemény az elmúlt fél évben
Nem volt negatív esemény az elmúlt fél évben (1,05%%)
(5,89%%)
II. Nem adott be mérleget 2010ben
III. Adott be mérleget 2010ben
(1,98%)
(0,25%%)
Kiértékelés – üzleti szemüvegen keresztül
SCORE A B C D E
Negatív esemény valószínűsége II. Darabszám Félévben 18348 5,9% 55200 4,5% 236061 1,5% 134341 0,4% 193627 0,1%
A kapott score-ok alapján kialakíthatók szegmensek, melyek jól használhatók üzleti folyamatokban
Milyen adatokon tudunk adatbányászati modelleket építeni?
Adatleltár
Aktív periódus
Szerződés kötés
PREDIKCIÓ
X
Demográfia Termék/ szolgáltatás
XX
(termék affinitás)
Számla fizetés Ügyfélszolgálati kapcsolat Kampány Felmondás
XX -
XXX
X (vagy több ?)
X (churn)
X (attitűd)
XX XX
XXX
X
Ügynök
Viselkedés adatok
SZEGMENTÁCIÓ
(churn)
X (attitűd)
(termék affinitás)
X (attitűd)
XX
(churn)
-
Hogyan használjuk az adatokat?
Ömlesztve
Az adattárházban lévő adatokat egy az egyben inputként adjuk az adatbányászati eljárásnak – majd a modellezés ezen alapadatokon történik
DW Adott vállalat összes ügyfeléről egységes információ halmaz.
Feldolgozva
Az adattárházban lévő adatokból „attitűd” jellegű képzett változót készítünk – és ezen változókon történik a szegmentáció (pl. aki minden hónap 5-én csekken fizeti be a számlát – az „precíz”, …)
Az adatbányászati algoritmusok táblázatokat várnak
Az összes data mining algoritmus táblázat formátumú adatokat tud kezelni – azaz sorok és oszlopok strukturált formában (SQL táblák)
Milyen egy jó adatbányászati tanító adatbázis?
•
Ügyfél-centrikus adatbázis (vagy termék centrikus, stb.): végső cél: 1 ügyfél 1 rekord struktúra létrehozása • Az adatok zaj mentesek – a dm algoritmusok egy része nem tudja kezelni a hiányzó értékeket • A szélsőséges értékek – deviancia mentes adatbázis • Kategória változók támogatása – jól interpretálható eredmények
„Egy sor egy ügyfelet (emailt, káresetet, szerződést, …) ír le” szabály
Minden egyes sor egy- egy ügyfelet jelöl: 1. Egy múltbeli időpillanatban mit tudtunk róla? (input változók) 2. Mi történt vele utána? (célváltozó)
Ügyfél
Az összegyűjtött adatokról miket kell tudnunk!
Nagyon fontos, hogy az összegyűjtött változókat pozícionálni tudjuk: • A modellezésnél mi a szerepe (input, output)
• Mit is ír le pontosan? • Változó típusa – mennyire tudja kezelni az algoritmus (pl. diszkrét értéket sok szegmentáló eljárás nem tud jól kezelni)
• Elérhetőség – mennyire bonyolult előállítani (modell később alkalmazható legyen) • Mennyire megbízható az adat
• Információ tartalom (szórás, korreláció a célváltozóval)
Összefoglalás
• Adatbányászat szerepe továbbra is jelentős – amennyiben megfelelően használjuk • Nem kell bonyolult modell – elég ha használható • Big Data – ne akarjunk minden elemezni! • X-Mining – adatkinyerésre használjuk és utána elemezzünk