Datamining voor iedereen
Rob van der Veer 1
Overzicht 1. 2. 3. 4. 5. 6. 7.
Sentient Datamining BI evolutie en datamining Kritieke succesfactoren datamining De Sentient aanpak Voorbeelden Conclusies
2
Sentient Dataminingspecialisten sinds 1991 Eigen software: DataDetective Toepassingen: – – – – – –
Fraude-analyse (Belastingdiensten) Marketing (Delta Lloyd) Marktonderzoek (De Telegraaf) Risico-analyse (Cordares, KPN) Productadvies (Bibliotheken) Misdaadanalyse (Politieregio’s)
Brede samenwerking UvA, MapInfo, Hot ITem, Vicar Vision, ParaBots, Politie-academie, Experian, VU 3
Wat is datamining? ‘Snel en geautomatiseerd ontdekken van patronen in data’ Verbanden,trends Clusters (veel) data
datamining
Voorspellingen
Gegevens -> informatie -> kennis, inzicht -> voorspellingen 4
Voorbeeld 1: patroon van geweld
5
Voorbeeld 2: Klantsegmentatie
6
Verschil datamining en standaard analyse MET automatische technieken (Variabelen hoeven niet eerst gekozen) Niets over het hoofd zien Tijdsbesparing analyse Veel extra data kan betrokken worden Complexe patronen worden gevonden Zoveel patronen dat een zelflerende model kan worden gebouwd 7
BI evolutie en datamining BI nu
BI langzamerhand
Strategisch
Strategisch,tactisch,operationeel
Over groepen
Over groepen en individuën
Weinig data
Veel data
Eenvoudige verbanden
Ook complexe verbanden
Handmatig zoeken naar verbanden Beslissers en powerusers
Dataminingtechnieken zoeken ook verbanden Voor iedereen
Allerlei tools en toolboxes
Geïntegreerde oplossingen
(semi) statisch
Dynamisch: interactief/exploratief 8
Kritieke succesfactoren datamining (DAVO) • Data – Datakwaliteit – Dataverzamel/voorbewerkingskosten
• Analisten (HRM) – Hoeveelheid gewenste dataminers – Vereiste domeinkennis – Arbeidsvoorwaarden
• Verbanden – in veel data EN/OF complex EN/OF dynamisch
• Opbrengsten (business case) – Verbanden om te zetten in betere beslissingen 9
HRM – het grote probleem bij datamining • Wij mensen zijn een beetje dom • Machines zijn heel dom • Met datamining proberen we die twee samen iets heel slims te laten doen.
10
Kennis-eisen voor de analist Analist
Domeinkennis Toolkennis Databasekennis Dataminingkennis
Meer en betere Verbanden,trends Datawarehouse
Dataminingworkbench
Clusters Voorspellingen
Data
Tools
Intelligence 11
De Sentient aanpak • Beperk eisen aan statistische kennis: Werk alleen met associatief geheugen – – – –
Goed automatisch in te stellen Weinig eisen aan data Met uitlegmogelijkheden voor niet-statistici Met actieve assistentie
• Beperk eisen aan technische kennis: – Zet de data kant en klaar (bespaart ook tijd) – Consolideer tools naar één centrale tool met integratie
• Faciliteer domein-kennis optimaal: – Biedt interactieve analyse, integratie en visualisatie – Maak betrekken van de vrager mogelijk
12
De Sentient aanpak: het gevolg • Nadelen – Gebruikers kunnen niet snel even wat data toevoegen – Minder vrijheid in modelkeuze
• Voordeel: het werkt. Blijvend. – De eigen organisatie werkt er mee: borging – Vragen worden duidelijker
13
DataDetective
SPSS Analyts’s Notebook Google earth 14
Voorbeeld: Delta Lloyd datakluis
Intermediair 1
Intermediair 2
Intermediair 3
Rapportage: Voorspelde potenties Voor klant en product + klantsegmentatie
Datakluis Verborgen marktkennis Externe bedrijfsgegevens
Automatische Data-analyse
Martkinzicht: Trends, kansen, risico’s 15
Voorbeeld: Delta Lloyd beslisboom 14.286 1.574 11,02% Rechtsvorm BV
Overig
5.453 954 17,49%
8.833 620 7,02%
Binnen dit bedrijfstype kopen Hypotheekbank, bouwfonds, financierings- en part.maatsch. etc. BV’s met een mannelijke bestuurder 2 keer zo vaakja nee product X. 845 4.608 179 21,18%
775 16,82%
Geslacht bestuurder
Groot- en tussenhandel
man
vrouw
ja
nee
689 163 23,66%
156 16 10,26%
653 133 20,37%
3.955 642 16,23%
aantal werknemers
aantal werknemers
11-20
overig
21-50
overig
81 26 32,10%
572 107 18,71%
453 95 20,97%
3.502 547 15,62%
16
Voorbeeld scoring Delta Lloyd
.. .. .. .. .. .. .. ..
Actieve productgroepen
Bralland BV ROTTERDAMLeven Zwanenberg Food Group B.V. ALMELO Leven Bertstra MidPres B.V. ALMERE Leven Midster Rechtsbijstand RIJSWIJK ZHLeven Onder Holding B.V. ALMELO Motorrijtuigen Super Fitness BARENDRECHT Leven Loonbedrijf Topsters 'S-GRAVENHAGE Motorrijtuigen Better BV Kantoorinrichting LEIDSCHENDAM Motorrijtuigen Van Karpen B.V. NISTELRODEMedische varia Wester Holding B.V. AMSTERDAMLeven Brandweertraining BV PIJNACKER Transport .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
Totaal bedrag € 194 € 84 € 110 € 104 € 205 € 605 € 201 € 407 € 974 € 545 € 1.036 .. .. .. .. .. .. .. ..
Hoogte Totaal Hoogte indeling bedrag indeling
Laag Laag Laag Laag Midden Midden Midden Midden Midden Midden Midden .. .. .. .. .. .. .. ..
€ 3.389 € 2.929 € 2.447 € 2.370 € 5.667 € 5.511 € 4.098 € 3.950 € 3.574 € 3.574 € 3.435 .. .. .. .. .. .. .. ..
Hoog Hoog Hoog Hoog Hoog Hoog Hoog Hoog Hoog Hoog Hoog .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
€ 672 € 129 € 109 € 426 € 139 € 368 € 911 € 356 € 885 € 251 € 1.224 .. .. .. .. .. .. .. ..
…
….
29,0% 11,8% 4,2% 65,3% 10,7% 24,3% 24,1% 31,3% 27,5% 35,8% 24,5%
Potentie Aansprakelijkheid
Provisie (bij afname)
2747602 2751415 54815 2710215 2743687 2710547 2759374 2712933 60896 2717430 2723281
Woonplaats
Potentie Brand
Potentie productgroep
A A A A B B B B B B B .. .. .. .. .. .. .. ..
Naam
Potentie provisie
Provisie (bij afname)
Relatie nummer
Huidige provisie
Adres
Potentie productgroep
Cel
Bedrijf
23,5% € 183 .. 30,5% € 8.286 .. 39,3% € 339 .. 33,9% € 368 .. 13,5% € 18.276 .. 14,9% € 214 .. 7,7% € 197 .. 34,6% € 165 .. 10,9% € 186 .. 3,5% € 1.187 .. 57,3% € 1.932 .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
17
Voorbeeld: KPN HR • Identificeren en vasthouden van talent, en outplacement van onderpresteerders • KPN heeft in Nederland ca. 16.000 medewerkers. • Talenten die niet werden voorgedragen, kwamen niet in beeld. • Hot ITem heeft met KPN HR DataDetective toegepast om verborgen talenten zichtbaar te maken en verbeteringen voor de talentidentificatie aangedragen. • Ook is een groep geïdentificeerd die al langere tijd benedengemiddeld presteerde en waar wel veel in werd geïnvesteerd qua opleiding en ontwikkeling.
18
Voorbeeld: Criminaliteitsbeeld-analyse
Deelproblemen op Koninginnedag 19
Voorbeeld: seriedetectie
20
Voorbeeld: Geografische criminaliteitsvoorspelling
21
Voorbeeld: bibliotheek.nl
22
Conclusies Datamining kan een grote bijdrage leveren Niet alle leuke dataminingideeën zijn levensvatbaar: DAVO De HRM factor is het grootste probleem De Sentient aanpak: Lage gebruiksdrempel, dus geen dure specialist nodig en veel mensen krijgen toegang tot informatie Exploratief/interactief Data staat al klaar Kan omgaan met dataproblemen en complexe types Integreert met veel andere tools (o.a. GIS) 23
Contact Rob van der Veer
[email protected] Sentient Singel 160 1015 AH Amsterdam 020 – 530 0330
www.sentient.nl 24