Datamining: Graven in gegevens Business Intelligence in de praktijk Jasper Lansink CMG Noord Nederland - Advanced Technology
Agenda Business Intelligence Datamining theorie Datamining in de praktijk
“management rapportage” “fraude-detectie”
“multidimensionale databases”
“HOLAP”
“datamining” “decision support”
“MIS”
“MOLAP”
“datamarts” “operational datastore”
“datawarehouse” “ROLAP”
“kennismanagement”
“balanced scorecards”
“KDD”
“MDBMS”
“transformatie” “metadata” “EIS”
“OLAP”
“1-to-1 marketing”
Wat is Business Intelligence? “KDD” “datamining” Analyse “ROLAP” “OLAP” “HOLAP” “MOLAP”
een voortdurend “kennis- en planmatig uitgevoerd management” zoekproces Beheer naar kennis en inzicht over het bedrijf “metadata” “transformatie”
Gegevens “datawarehouse”
“datamarts” “operational verzamelen “MDBMS” datastores”
Bedrijfs“1-to-1 marketing”
“fraude-detectie”
“management voeringrapp.”
“balanced scorecards”
“decision “EIS” support”
MIS”
Waarom Business Intelligence? Steeds meer gegevens, steeds minder informatie Uitbuiten verborgen informatie en kennis Juiste informatie, juiste plek, juiste tijd Snellere besluitvorming 24-uurs economie Time-to-market
Concurrentiedruk Optimalisering bedrijfsvoering ”When I receive the financial reports, I am either happy or upset, but hardly am I smarter”
Perspectieven
Kennis
Informatie
Data
Incrementele aanpak Pilot
Definitie
Analyse Eerste Increment
Evaluatie
Ontwerp
Invoering Test
Bouw
Tweede Increment
Agenda Business Intelligence
Datamining theorie Wat is datamining? De technieken Randvoorwaarden Toepassingen
Datamining in de praktijk
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie
Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Technieken Methode Visualisatie Statistiek Beslissingsbomen Neurale netwerken Genetische algoritmen
Methode B.v. SEMMA van SAS Institute Sample Explore Modify Model Assess
dataset bepalen, steekproef gegevens verkennen gegevens aanpassen analyseren en modelleren evalueren resultaten
1000 groep F G 48% 52% 48% 52%
Beslissingsbomen
130:370
350:150
500 Geen Varkens F G 26% 74% 13% 37%
500 Varkens F G 70% 30% 35% 15%
60:40
100 Buiten Conc. gebied F G 60% 40% 6% 4%
5:0 5 0-10 Runderen F G 100% 0% 0% 0%
290:110
2:48
400 Conc. gebied F G 72% 28% 29% 11%
195:105 300 11-20 Runderen F G 65% 35% 20% 10%
50 Kippen F G 4% 96% 0% 5%
90:5 95 > 20 Runderen F G 95% 5% 9% 0%
128:322
450 Geen Kippen F G 28% 72% 13% 32%
Neuraal netwerken
Randvoorwaarden Interactie met primaire proces Kwaliteit en beschikbaarheid gegevens = Datawarehouse Expertise Materie-deskundigheid Gegevensdeskundigheid Datamining-deskundigheid
Gebruik datawarehouse Datamining eisen wijken af van toepassingen zoals management informatie en database marketing Nog groter belang “schone” gegevens Platte gegevens i.p.v. berekende gegevens Eventueel relevante gegevens afleiden Vooral numerieke gegevens bruikbaar Numerieke gegevens classificeren
Toepassingen Direct marketing door Customer profiling Winkel-layout Aandelen-koers analyse Risico-analyse Performance-optimalisatie Frequent flyer acties Fraude detectie
Agenda Business Intelligence Datamining theorie
Datamining in de praktijk
De probleemstelling Hoe/waaraan herken je een agrariër die de wet overtreedt? Waarom is dat belangrijk? 100.000+ agrariërs en agrarische bedrijven Steeds complexere regelgeving Beperkte controle capaciteit Non-conformisten controleren en “pakken” Conformisten impliciet controleren
De context Ministerie van LNV Bureau Heffingen => Uitvoering Algemene Inspectie Dienst (AID) => Handhaving
Mestwetgeving Beperken mestproductie en milieuvervuiling Registratie mestproductierechten Aangifte mestproductie Overproductie? Betalen! Systematiek vergelijkbaar met belastingdienst
De handhaving Controles op 4 niveaus: Accountantscontrole (in doelgroep zelf) Administratieve verwerking Bureau Heffingen Datamining: Selecteren verdachte relaties Controle (desk, fysiek) door AID
Doel: Niveau handhaving moet vergelijkbaar zijn met belastingdienst (gemiddelde controle 1x per 6 jaar) Geen extra controleurs nodig
Het concept: Dataminingwiel Datawarehouse
Extraheren van dataset uit DW
Verwerken controleresultaten in DW
Dataset
MINEN
Kennis Gegevens Controleresultaten
Analysemodel
Vertalen van analysemodel in controlespecificaties
Uitvoeren van controles Selecties van bedrijven
De incrementele aanpak Incrementen van 8 weken 8 incrementen gedefinieerd t/m juni 2000 3 paralleltrajecten Datawarehouse realisatie Aansturing / analyse / modellering Datamining (2 dataminers)
Per increment: Vaste stappen / producten / interactie tussen trajecten Beschikbare gegevens opgedeeld Additionele onderwerpen bepaald
Visualisatie (1)
Histogram: Aantal hectare vs. Aantal varkens => geen verband
Visualisatie (2)
Histogram: Kilogram mest vs. Aantal varkens => Verband
Statistiek (1)
Regressie: Aantal hectare vs. Aantal varkens => Geen verband
Statistiek (2)
Regressie: Kilogram mest vs. Aantal varkens => Verband
De uitdagingen (organisatorisch) Inrichten van het gehele proces Hoe blijft het wiel draaien?
Voorbereiden van de organisatie Datamining is geen bedreiging
Kennis vergaring en vertaling naar datamining Business Intelligence, Kennis management
Vinden van goede dataminers
De uitdagingen (m.b.t. gegevens) Integratie van twee bronnen (relatiebeheer!) Vervuiling gegevens Voldoen aan regels der statistiek Bepaling fraude begrip Verkrijgen “minebare” gegevens Veranderende brongegevens
Is er wel wat te vinden?
Vragen