26
Datamining onder de loep II Door Erik Hoeksema
Datamining, of knowledge discovery in databases, maakt het mogelijk nieuwe kennis uit gegevens te halen. In twee artikelen wordt het hoe, wat en waarom van datamining uitgelegd. Deel I verscheen in het vorige nummer van KM.
de literatuur zijn verschillende voorbeelden te vinden hoe een datamining-exercitie zou moeten worden uitgevoerd, al zijn deze vaak gericht op het technische aspect. Zie hiervoor het kader op de volgende pagina. Een standaard model dat ook de organisatorische implicaties in ogenschouw neemt ontbreekt echter.
In
Complex proces Dit gebrek aan een standaard proces is een van de problemen voor de acceptatie van datamining.Dat een dergelijk model er nog niet is, heeft verschillende oorzaken.Ten eerste is datamining een complex proces dat voor veel verschillende doeleinden, en dus op veel verschillende manieren, kan worden toegepast. Ten tweede werd datamining in het verleden vooral door technici gebruikt. Deze technici wisten vaak wél wat een dataminingproces inhield, in tegenstelling tot de commerciële gebruikers, maar hadden weinig behoefte hun kennis vast te leggen. Hierin schuilt daarentegen de kracht van een procesmodel.Een standaard stelt de verschillende partijen beter in staat met elkaar te communiceren over datamining, waardoor het proces voor de commerciële gebruiker begrijpelijker en beter beheersbaar wordt.
KM 2000, nummer 3
Datamining is veelal moeilijker dan gedacht en de aandacht gaat te vaak uit naar de verkeerde factoren. De literatuur over datamining betreft het overgrote deel de tools die worden ingezet. Dit terwijl - volgens de META-Group [1] - slechts vijftien procent van de datamining-uitgaven naar de tools gaan. Randy Kerber van NCR beaamt dat de tools niet het belangrijkste zijn:‘De succesfactoren van datamining worden bepaald door in de eerste plaats de mensen, in de tweede plaats de kwaliteit van de gegevens en pas op de derde plaats de tools. De mensen zijn cruciaal omdat datamining veel ervaring behelst en daarbij een lange leercurve heeft.’ Bedrijven die datamining toepassen zouden hun focus dus meer moeten richten op de mensen die zich ermee bezig houden in plaats van op de aankoop van een tool. Volgens Shivakumar Vaithyanathan van IBM kan datamining pas echt een succes worden als er een specifieke behoefte aan kennis bestaat in de organisatie. ‘Een dataminingproces moet worden voorafgegaan door het stellen van de zogenaamde business-vraag en een kosten/baten-analyse.’ Tot nog toe werd deze business-vraag echter wel eens overgeslagen en werd met datamining begonnen omdat de
concurrenten eraan deden of omdat een aantal technici in een bedrijf de techniek interessant vonden. Het is echter belangrijk dat er een draagvlak in de organisatie bestaat. ‘Voor een echt succes moet een specifiek project voor een specifiek probleem worden opgezet, waarbij ontwikkelaars en eindgebruikers met elkaar samenwerken.’ CRISP-DM (CRoss-Industry Standard Process Model) is een van de eerste aanzetten tot een model. Het is een initiatief van een viertal bedrijven, NCR, ISL, DaimlerBenz en het Nederlandse OHRA. Het bestaat uit een aantal delen die nog niet allemaal geconcretiseerd zijn. De CRISPmethodologie beschrijft een dataminingproces op een aantal niveaus: het fasen-niveau, het generieketaken-niveau, het gespecialiseerdetaken-niveau en de procesinstantie. Het doet meer denken aan een raamwerk dan aan een stappenplan, daar van details wordt geabstraheerd.‘Dit is ook de bedoeling. Ten eerste wil het management, waar het model meer voor bedoeld is, niet te veel details lezen en ten tweede moet het proces voor verschillende situaties inzetbaar zijn’, aldus Randy Kerber.‘Een gedetailleerd procesmodel zou te veel onnodige discussie losmaken.’
27
Figuur 1 illustreert de vier lagen van het model. De bovenste twee lagen worden in de CRISP-specificatie beschreven. De stappen uit deze lagen moeten voor iedere toepassing van het proces op de eigen situatie worden afgebeeld. Het CRISPmodel moet de kwaliteit van de communicatie rond een dataminingproces verbeteren. Als de verschillende partijen weten wat ze kunnen verwachten en kunnen verwijzen naar het model, moet de kans op succes kunnen worden vergroot. Het probleem is dat de meerderheid van de industrie dit procesmodel niet ondersteunt. Volgens Ronny Kohavi van Blue Martini Software moeten ook de grote database-verkopers als Oracle en Microsoft aan een dergelijk initiatief meewerken om het beoogde effect te bereiken. Een ander initiatief dat nog steeds in ontwikkeling is, is dat van de active templates. Een active template is een door hyperlinks navigeerbare informatiestructuur die acties, resultaten en documenten integreert [2]. Het moet het hergebruik van eerder gedaan werk faciliteren, zorgen voor het beter vastleggen van de resultaten, gebruikte methoden en denkprocessen en een beter begrip van de business bewerkstelligen, om zo tot een meer interactieve, open en begrijpelijke omgeving voor datamining te komen.
Integratie in de business Een andere belangrijke factor voor het slagen van een dataminingproject wordt vaak het bestaan van een echte vraag uit de organisatie gezien. Omdat deze vraag niet uit de lucht komt vallen, is het nodig om bewustzijn van de mogelijkheden bij de mensen te kweken. Vaak wordt ook vergeten om de gevonden resultaten toe te passen en om te zetten in gerichte acties. Kortom, het proces is niet genoeg in het bedrijfsproces geïntegreerd. Het antwoord op deze problemen is volgens Berry en Linoff [3] een iteratieve toepassing van datamining, zij noemen dit de ‘positieve kringloop’: 1. Identificeer business-problemen en gebieden waar data-analyse meerwaarde kan opleveren. 2. Verander de gegevens in informatie met handvatten voor actiedatamining.
Het proces Bij een datamining-exercitie kunnen meestal een aantal stappen worden onderscheiden. Een dataminingproces is echter elke keer verschillend, omdat het erg afhangt waarvoor datamining wordt toegepast en het een iteratief proces is. Stappen kunnen dus worden herhaald, wat vaak gebeurt door bijvoorbeeld meerdere technieken op de dataset los te laten, of er moet worden teruggegaan naar een eerdere stap. Gedurende het hele proces is het belangrijk goed vast te leggen wat er wordt gedaan; dit voorkomt dat bij een itererende stap werk wordt herhaald. Grofweg kunnen we de volgende stappen onderscheiden: 1. Opstartfase. Volgens experts werkt datamining het beste als er een specifiek probleem is dat moet worden opgelost. Voordat er aan de werkelijke datamining-exercitie begonnen wordt, is het raadzaam om eerst een projectplan op te stellen, waarin een omschrijving van het probleem, een kosten/baten-analyse, de doelen en de succescriteria zijn opgenomen. 2. Gegevensoriëntatie. Deze fase behelst het selecteren van de data om het probleem op te kunnen lossen, het verkennen van de data om er een ‘gevoel’ voor te krijgen en het beschrijven van de data. 3. Gegevenspreparatie. Nadat de juiste gegevens zijn geselecteerd, moeten ze worden geprepareerd voor de werkelijke analyse. De gegevens moeten worden opgeschoond, omdat er altijd waarden ontbreken en er fouten in zitten. Hier kunnen dan bijvoorbeeld gemiddelden voor worden ingevuld, of men kan besluiten de waarde niet in beschouwing te nemen. Ook moeten de gegevens in de juiste vorm in één tabel worden gegoten en moeten er vaak transformaties op de tabel plaatsvinden. Deze zijn nodig om extra informatie toe te voegen, zoals ratio’s en sommaties (bijvoorbeeld per klant) en om eventueel de distributie van de attributen te veranderen. 4. Modelleringsfase. In deze stap wordt het algoritme op de gegevensset losgelaten. Vaak wordt in het tool, dat ook van hulp kan zijn in de vorige fase, een techniek geselecteerd, waarna een aantal parameters moet worden ingesteld en de tabel kan worden gemined. Het is aan te raden eerst de set op te delen en te testen op een deelverzameling, zodat een indicatie kan worden verkregen wat goede modellen zouden kunnen zijn. Deze kunnen dan op de hele database worden losgelaten. Volgens de statistiek moeten de gegevens vervolgens worden verdeeld in een trainingset en een testset. Op de trainingset wordt het model ‘getraind’ en met de testset kan vervolgens worden gekeken of het model werkt. Classificeert het model bijvoorbeeld een record uit de testset in de juiste categorie? Zo ja, dan werkt het waarschijnlijk ook op een ‘nieuw’ record. 5. Evaluatiefase. Hier moet worden afgevraagd of het vereiste doel behaald is en of herhalingen nodig zijn. Nuttig is een document op te stellen met een beschrijving van het verloop van het proces. Wat is er waar fout gegaan? 6. Actiefase. Voor de gevonden resultaten moet een strategie worden bepaald. Er moet gezorgd worden dat de informatie bij de juiste personen terechtkomt en dat acties worden genomen om het probleem op te lossen.
3. Onderneem acties op basis van de informatie. 4. Meet de resultaten van de acties en gebruik deze gegevens voor de ontwikkeling van nieuwe inzichten en verbetering van het proces. Volgens Ronny Kohavi kan deze kringloop in het bedrijfsproces worden geïntegreerd door middel van een workflowsysteem. ‘Een eindgebruiker moet zijn vraag kunnen stellen, waarna het systeem de vraag dirigeert naar de betreffende per-
soon die hem kan beantwoorden. Het antwoord moet vervolgens weer terecht komen bij de persoon met het probleem.’ Thierry Zamorra van het direct marketingbureau FusionDM vindt het oude dataminingproces eenvoudig te langdradig. ‘Verticale applicaties kunnen dan ook een aanvulling zijn op de traditionele manier van datamining, door de hiermee gevonden kennis te verspreiden aan de gebruikers.’ Meer over verticale applicaties is te vinden in de paragraaf Tools.
KM 2000, nummer 3
28
Datamining moet volgens de meeste experts dus als een apart proces in het bedrijf worden ingericht, al is de vorm ervan uiteraard erg afhankelijk van de toepassing waarvoor datamining wordt gebruikt. Datamining in de ad-hoc vorm vereist een andere inbedding dan de online variant. Bij die laatste is datamining onderdeel van het primaire proces, doordat bijvoorbeeld de call centermedewerkers afhankelijk zijn van de informatie die het dataminingproces oplevert.
Tools Een aantal jaren geleden begonnen bedrijven met het maken van datamining tools, die technieken herbergden die erg veel weg hadden van de reeds bestaande statistische technieken. De term datamining beloofde veel meer dan de naam statistiek, waardoor datamining en hun tools populair werden en even werd vergeten dat het eigenlijk statistiek was wat men toepaste. De datamining-hype zette alles in een stroom-
kelen van een tool en zo groeiden de twee verschillende markten, die van statistische en die van datamining tools, naar elkaar toe. De tools van toen boden echter lang niet de
Grote leveranciers van datamining tools Bedrijf SAS Software SPSS Silicon Graphics IBM Thinking Machines HNC Software Angoss Sentient Machine Research (nl) Data Distilleries (nl) NeoVista
functionaliteit en de gebruikersvriendelijkheid die nu wordt geboden. Het laden van de verschillende gegevens uit het datawarehouse was vroeger een lastig karwei, terwijl de tegenwoordige tools ODBC-compa-
Phases
CRISP Process Model
Generic tasks
Specialized tasks
Mapping
Process Instances CRISP Process
Figuur 1
Het CRISP-DM model.
versnelling en de research-inspanningen namen zienderogen toe. Hierdoor zijn in de loop der jaren een grote hoeveelheid tools op de markt gekomen [4], voornamelijk in de vorm van suites, pakketten waarmee een breed scala aan problemen kan worden aangepakt. Ook de bedrijven die uit de statistische hoek komen, zoals SPSS, begonnen door de datamining-golf met het ontwik-
KM 2000, nummer 3
erg veel van elkaar in prestatie als het gaat om precisie van modellen. Afhankelijk van de context zijn er wel wat verschillen. Bij de Darwin tool van Thinking Machines bijvoor-
tible zijn en dit probleem veel kleiner is [5]. Ook de visualisaties en de gebruikers-interface zijn over het algemeen sterk verbeterd. De grote tool-fabrikanten, zoals IBM, SAS, SPSS en Silicon Graphics proberen deze visualisaties steeds interactiever te maken om zo de gebruikersvriendelijkheid nog verder te vergroten. De tegenwoordige datamining tools, met name de grote, verschillen niet
Pakket Enterprise Miner Clementine MineSet Intelligent Miner Darwin Verschillende verticale oplossingen Knowledgeseeker DataDetective DataSurveyor Retail Decision Suite
beeld, wordt de hardware meegeleverd. Darwin presteert het beste als het om heel grote datasets gaat [6]. Dit tool maakt gebruik van parallelle processoren, waardoor de modellen sneller kunnen worden doorgerekend, en heeft een hele lichte client component. Als de crux echter bij service ligt, kan beter voor een groot bedrijf worden gekozen en is IBM Intelligent Minor of SAS Enterprise Miner een goede keuze. De meeste tools draaien op de meest bekende platforms als UNIX en NT en zijn inzetbaar in een client/server-omgeving, waardoor verschillende analisten op hun werkstation analyses uit kunnen voeren en de berekeningen op de server worden gedaan. Fabrikanten proberen de zwaarte van de applicatie aan de clientkant echter steeds kleiner te maken, zodat het straks mogelijk is via de web-browser te minen en kennis nog makkelijker kan worden verspreid. Volgens de experts kunnen en moeten de tools echter nog een stuk worden verbeterd. Datamining is nog steeds een arbeidsintensief proces, vooral bij het schoonmaken van de gegevens en bij het bouwen van modellen. Omdat de tools geen kennis van de werkelijke wereld hebben, weten ze niet vanzelf het verschil tussen de soorten variabelen en beschouwen ze bijvoorbeeld de Amerikaanse postcodes als een continu getal. Gelijkende postcodes kunnen echter fysiek een eind uit
29
elkaar liggen. Om de tools op dit soort problemen te laten anticiperen is een uitdaging voor de fabrikanten. Ook is het datamodel waarop kan worden gemined erg beperkt. De tabel waarop wordt gemined moet één geaggregeerde tabel zijn. Hierdoor is het vaak lastig de resultaten weer terug te voeren naar de werkelijke records. Ronny Kohavi: ‘Vandaag de dag moeten we van de store naar de star en dan naar de platte tabel. Ik denk dat we moeten kunnen minen direct van het star-schema, dus zonder het uitvoeren van een join.’ Met de star doelt hij op de database-schema’s die het product zijn van een datawarehouseproject. Een andere kwestie van datamining is het integreren van dataminingfunctionaliteit in verticale tools en applicaties. ‘De early majority kijkt naar dingen als return on investment en de kans op succes van een project. Om datamining door de early majority te laten accepteren moet je laten zien dat je: 1. Er grote concurrentievoordelen mee kunt behalen; 2. De productiviteit van een kritische succesfactor kunt vergroten; 3. De totale operationele kosten kunt verminderen. De manier om dit te doen is om je product verticaal te maken. Dit is dan ook waar verschillende bedrijven mee bezig zijn.
Verticale applicaties Omdat de traditionele datamining klaarblijkelijk in de praktijk een aantal nadelen heeft en er zodoende vraag is naar een specifiekere, makkelijker toepasbare tool die beter in het bedrijfsproces valt te integreren,
worden er steeds meer verticale tools ontwikkeld voor toepassingen als e-commerce en CRM (Customer Relationship Management). CRM, een nieuwe hype, kan worden gebruikt om (realtime) marketing-campagnes te creëren aan de hand van de gecombineerde gegevens van de online gebruiker en zijn historische gegevens. Datamining is één van de bouwstenen van dit pakket. Blue Martini Software heeft een dataminingmodule als onderdeel van zijn ecommercepakket. Het pakket stelt een e-commercewinkel in staat om zijn klanten één-op-één aanbiedingen te doen en het klantenbestand en het productenassortiment bij te houden. Het veranderen van de tools om zo te integreren in verticale applicaties voor bijvoorbeeld e-commerce is echter niet zonder problemen. De redenen hiervoor zijn de volgende:
Opgekocht ISL Clementine Hyperparallel Thinking machines
Bedrijf SPSS Yahoo Oracle
• Dure componenten. Datamining is meestal slechts één van de vele componenten in een verticaal tool, maar een datamininglicentie is meestal erg prijzig en hierdoor is het moeilijk een betaalbaar verticaal product te maken. • Weinig experts. Er zijn te weinig mensen met genoeg expertise van alle applicaties die geïntegreerd moeten worden. • Meerdere systemen. Meerdere systemen van verschillende fabrikanten, met verschillende interfaces, moeten worden geïnte-
Website www.acm.org/sigkdd/ www.kdnuggets.com/ www.cs.bham.ac.uk/~anp/TheDataMine.html www.upside.com/texis/mvm/story?id=36d4613c0 www.almaden.ibm.com/cs/quest/publications.html www.crisp-dm.org/ www.eecs.wsu.edu/~hillol/pubs.html www.megaputer.com
greerd, waardoor dit een lastig proces kan zijn. Ook zijn, zoals eerder al gesignaleerd, er voor de meeste datamining tools geen API’s gedefinieerd. Een oplossing van dit probleem zou kunnen komen van het bedrijf MegaPuter. Dit bedrijf levert zogenaamde componenten, COM-objecten, waarmee specifieke applicaties modulair kunnen worden gebouwd en dus maar voor enkele componenten in plaats van een hele suite moet worden betaald. Ook dit initiatief mist echter de steun van de grote spelers en heeft daardoor een geringe kans op succes.
Toekomst De laatste jaren zijn in de dataminingbedrijfstak de kleine bedrijven steeds meer opgeslokt door de gro-
Datum Juni 1999 Eind 1998 Maart 1999
tere bedrijven die dataminingfunctionaliteit niet als een alleenstaand pakket willen verkopen, maar als onderdeel van een compleet business intelligence pakket of een verticale applicatie.Volgens Robert Groth - consultant en auteur van boeken over datamining - blijven er maar een vier- of vijftal spelers over op de zogenaamde horizontale toolmarkt en dit zullen de huidige grote toolmakers worden. De zojuist geschetste trend is de laatste tijd dan ook al tot uiting gekomen in de overnames van dataminingbedrijven door grotere spelers.
Opmerkingen SIGKDD - Special Interest Group on Knowledge Discovery in Data and Datamining Voor alles wat met datamining te maken heeft, inclusief nieuwsbrief Informatie over research Artikel over datamining en privacy Index artikelen IBM Almaden instituut Informatie over CRISP-DM standaard Technische artikelen over datamining COM and OLE in Datamining: Perspectives, benefits and implementations, Yuri Slenko en Sergie Ananyan, 1997
KM 2000, nummer 3
30
Deze zullen de dataminingcomponent integreren in hun kernactiviteiten. Op de lange termijn zal het voor sommige toepassingen zo zijn dat datamining aan de buitenkant niet meer zichtbaar is. Ook Microsoft doet aan dataminingactiviteiten. Het heeft haar OLE DB-specificatie voor SQL Server uitgebreid met een open interface om het mogelijk te maken SQL Server met datamining tools en applicaties te integreren. ‘Het eindresultaat voor de klant is dat deze technologie, die meestal duur en gecompliceerd was, nu een deel kan worden van de business’, zegt Barry Goffe van Microsoft [7]. Het domein van datamining belooft sterk te groeien door de verdere uitbreiding van het web en de vele e-commercewinkels. De vraag is of er genoeg ruimte blijft voor kleine bedrijven die actief zijn in de markt.‘Deze zullen bepaalde niches moeten ontdekken om te kunnen blijven opereren, en dit houdt in dat ze hun product tijdig zullen moeten aanpassen en verbeteren’, aldus Thierry Zamorra.
Een verdere uitdaging lijkt het verder automatiseren van het marketingproces en de tools nog makkelijker te maken zodat de kans op succes verder kan worden vergroot. Pas dan zal datamining echt volwassen zijn.
[5] ODBC: Open DataBase Connectivity; een standaard database connectieprotocol.
[1] Data mining for fool’s gold, Craig Stedman. Computer World, december 1997.
[7] Microsoft Plan to Bring Datamining to the masses. Information week, 25 mei 1999.
[6] An evaluation of High-end Data Mining tools for Fraud selection, Dean W. Abbot, I. Philip Matkovsky en John F. Elder. 1998.
[2] Active templates: Comprehensive Support for the Knowledge Discovery Process, Randy Kerber, Hal Beck, Tej Anand en Bill Smart. American Association for Artificial Intelligence, 1998. [3] Data Mining Techniques, For Marketing, Sales and Customer Support, Michael J.A Berry en Gorden Linoff. Wiley Computer Publishing, 1997). [4] Zie de website KDnuggets voor een overzicht: www.kdnuggets.com.
Dit artikel is een bewerking van het in Technieuws 37/9 verschenen artikel Datamining klaar voor de massa? De auteur is stagiair bij het kantoor van technisch-wetenschappelijke attachés bij de Nederlandse ambassade in San Mateo, Californië.