”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een vergelijking met betrekking tot data analyse tussen het CBS en het MKB
B. Kratz 380857
[email protected]
S. Spek 329460
[email protected]
Samenvatting In dit paper wordt gekeken naar data analyse bij een specialistische organisatie als het CBS. Uit het onderzoek blijkt dat men hier gebruik maakt van simpele tools, als Microsoft Office, die ook voor het MKB beschikbaar zijn. Deze kleinere spelers kunnen dit dus evenaren. Hier is echter geen behoefte aan. Het MKB kan het prima redden zonder deze analyse.
1
1
Voorwoord
Dit paper is tot stand gekomen voor het vak Business Intelligence gegeven in 2001. Wij denken dat dit paper een frisse en kritische blik werpt op het onderwerp met (voor ons en misschien voor u ook) verrassende uitkomsten. Dit praktijkgerichte paper zou niet tot stand zijn gekomen zonder de hulp, tijd en inzet van anderen. Graag willen wij de volgende personen bedanken (in no particular order): • Marton Vucsan & • Dr. J. Kardaun Beiden van het CBS in Den Haag. Wij willen hun bedanken voor het interview dat wij op het CBS kantoor gedurende twee uur mochten houden en de vele interessante informatie die wij daardoor gewonnen hebben (en natuurlijk de rondgang door het rekencentrum van het CBS niet te vergeten). • Peter van Tommy Voor de tijd die hij kon vrijmaken om met ons te praten over data analyse bij een MKB. • Prof. Dr. Ir. H. Daniels & • Victor de Bruin Beiden willen wij danken voor de organisatie van het vak. De heer Daniels in het bijzonder voor de aanzet tot dit onderwerp en de contacten die hij bezit, waardoor wij met de heer Vucsan van het CBS in contact zijn kunnen komen. Victor willen wij bedanken voor het beoordelen van onze presentatie (wat volgens ons eens een afwisseling was ten opzichte van Kennismanagement en Web mining ). Voor dit paper is ook een website opgezet waar dit paper gedownload kan worden. Daarnaast staat onze presentatie zoals gegeven op maandag 26 november 2001 ook online. Verder is er wat achtergrond informatie te vinden over de auteurs en enkele foto’s van de bezochte panden. Het web-adres is: http://www.exict.org/projects/data-analyse Sander Spek & Benedikt Kratz, Tilburg december 2001
2
2
Inleiding
”Maar zij zijn groot en ik ben klein. En dat is niet eerlijk!”Dat is de wereldberoemde uitspraak van het tekenfilmkuiken Calimero. De veronderstelling voor dit paper is dat voor het MKB een soort zelfde uitspraak geldt met betrekking tot data analyse. Immers, de grote enterprises hebben geavanceerde gereedschappen tot hun beschikking terwijl bij het MKB de middelen (geld, tijd, ...) hiervoor ontbreken. Daarom zal in dit paper zal gekeken worden hoe data analyse in een organisatie wordt gerealiseerd die dit tot haar core-business heeft gemaakt. In dit geval is voor het Centraal Bureau voor de Statistiek (CBS) gekozen. Vervolgens zal gekeken worden in welke mate het MKB dit kan evenaren met goedkope en simpele tools. Ook wordt nog even aandacht besteed aan het draagvlak hiervoor. Kortom, dit paper zal antwoord pogen te geven op de vraag /emph”Hoe gaat data analyse in z’n werk bij een organisatie die dit als core-business heeft, en hoe kan het MKB dit evenaren? Dit werkstuk is enerzijds tot stand gekomen door middel van een literatuuronderzoek. Verder zijn er ook interviews gehouden met personen werkzaam bij het CBS en in het MKB. Tot slot is er ook een gedeelte tot stand gekomen door middel van de helpfunctie van Microsoft Office 2000 en veel ge¨experimenteer met dit softwarepakket.
3
Opslag van data
Voor het beschrijven van de analyse methoden zal eerst ingegaan worden op de opslagkwestie. Hierin wordt de vraag beantwoord op welke manier de data het beste opgeslagen kan worden. Globaal genomen zijn er drie opslagmethoden: • operationele database • data warehouse • data marts In de nu volgende paragrafen zullen deze behandeld worden.
3.1
Operationele Database
De traditionele manier om data op te slaan is een database. Dit wordt ook wel een OLTP layer genoemd. Laudon [4] geeft de volgende definitie voor een database: 3
”Een collectie van data, georganiseerd om meerdere applicaties tegelijkertijd te dienen, door data zo op te slaan en te beheren dat het lijkt alsof de data zich op ´e´en locatie bevindt.” Deze database bevat over het algemeen dynamische, operationele data. De data is nodig voor de dagelijkse bedrijfsvoering, en wordt door deze bedrijfsvoering ook constant veranderd. Een database is voor deze functie geoptimaliseerd. Door een normalisatieproces kan het gemakkelijk beheerd worden.
3.2
Data Warehouse
Een data warehouse heeft een andere functie en daarom ook een andere structuur. Een data warehouse wordt niet zozeer ingezet bij operationele alswel bij strategische beslissingen. De data is dan ook statisch: het wordt niet constant bijgewerkt. Een data warehouse is als het ware een momentafdruk. Men maakt een kopie van alle data die over een periode beschikbaar is en stopt dit in een grote database. Deze data is veelal ongenormaliseerd, omdat men redundantie voor lief neemt ten gunste van standaardisatie [9]. Deze standaardisatie is nodig omdat het warehouse haar data onttrekt uit alle operationele databases binnen de organisatie. Deze databases hebben vaak enkele verschillende formaten, en bijzonderheden. Het zo modelleren dat alle data in een warehouse logisch opgeslagen kan worden, gaat enigszins ten koste van het vermijden van redundantie. Een andere factor die speelt bij het vullen van een data warehouse is ’cleaning’. In de operationele database ontbreken en mankeren vaak enkele gegevens. Omdat men een data warehouse compleet en correct wil hebben, zal men deze gegevens aan moeten vullen en op moeten schonen. Men kan bijvoorbeeld wanneer de leeftijd van een persoon ontbreekt, hier de gemiddelde leeftijd van de database invullen. Ook zijn er enkele intelligente technieken om dit te doen.
3.3
Data Marts
Zo’n data warehouse is vaak erg groot waardoor queries behoorlijk wat tijd in beslag kunnen nemen. Dit terwijl veel van de informatie voor bepaalde doeleinden helemaal niet relevant zijn. Daarom splitst men data warehouses op in kleinere data marts. Zo zal er bijvoorbeeld een data mart zijn voor de marketingafdeling. Deze bevat dan bijvoorbeeld klantgegevens, ordergegevens en productgegevens. Deze mart heeft geen behoefte aan de salarissen van de medewerkers, wat eerder in de mart van human resources terug zal komen.
4
Zo zijn er dus specifieke data marts voor specifieke doelen. Deze marts bevatten alleen de gegevens die voor dit doel nuttig zijn.
4
Data analyse
4.1
Inleiding
In dit hoofdstuk zal, zoals gezegd, de theoretische achtergrond van data analyse gegeven worden. Om dit gestructureerd te doen zal het grote gebied van data analyse onderverdeeld worden in drie groepen: • Statistische analyse • Data Mining • OLAP In de nu volgende paragrafen zullen deze deelgebieden stuk voor stuk behandeld worden.
4.2
Statistische analyse
Statistische analyse is voor informatiekundigen weinig interessant, in zoverre dat het in principe geen informatiesystemen vereist. Het is de oudste vorm van data analyse en kan ook met pen en papier gedaan worden. Het feit dat het hier toch besproken wordt heeft twee redenen. Ten eerste is de doelstelling van dit paper een compleet beeld te geven van de data analyse, en hier is de statistische variant zeker een wezenlijk onderdeel van. Anderzijds ligt deze techniek ook ten grondslag voor data mining. Om deze reden gaan we hier wel in op statistische analyse. 4.2.1
Correlaties
Iedereen kent wel de formule om een gemiddelde van een reeks getallen (data) uit te rekenen. Een standaardafwijking is voor veel mensen eveneens weinig hoogstaand, en ook een normale verdeling mag voor een academisch publiek als bekend worden verondersteld. Maar willen we echt gaan analyseren, dan zijn we niet specifiek in ´e´en enkele variabele ge¨ınteresseerd. Het liefste zouden we dan verbanden tussen allerlei variabelen zien, waar we dan leuke conclusies aan zouden kunnen verbinden. Samenhang tussen gegevens is iets waar veel mensen in ge¨ınteresseerd zijn.
5
Zo’n samenhang heet ’correlatie’. Deze kan zowel positief als negatief zijn. Zo zal het verband tussen het aantal verkopen in een bepaalde periode en de winst in die periode waarschijnlijk positief gecorreleerd zijn. Stijgt de omzet dan zal normaal gesproken de winst stijgen, daalt de omzet dan zal de winst dalen. Een voorbeeld van een negatieve correlatie is bijvoorbeeld de relatie tussen de kwaliteit van een systeem en het aantal klachten over dit systeem. Wanneer de ene stijgt zal de andere dalen. De termen ’positief’ en ’negatief’ slaan dus niet op de beleving van het resultaat (¨ık vind dit leuk, dus is het een positieve correlatie”), maar op het feit of een stijging van de ene variabele nu een stijging of een daling van de andere variabele tot gevolg heeft. Behalve een positieve of negatieve correlatie is er ook een derde uitkomst mogelijk: variabelen kunnen ook onafhankelijk zijn. McClave e.a. [6] geeft een formule voor de Pearson product moment coefficient of correlation, simpelweg de correlatie-co¨efficient: SSxy SSxx SSyy
r=p
(1)
r := correlatie-co¨efficient SS := sum of squares, het exponent Deze co¨efficient zal ergens tussen -1 (perfecte negatieve correlatie) en 1 (perfecte positieve correlatie) liggen. Bij een waarde van 0 zijn de variabelen onafhankelijk. 4.2.2
Regressie
Een andere vorm van statistische analyse is regressie analyse. Bij deze techniek gaat het niet alleen om het vinden van verbanden, maar gaat men nog verder. Door middel van de met correlatie gevonden verbanden probeert men voorspellingen te maken. In principe komt regressie neer op het op het combineren van meerdere correlaties. Men doet dit in een functie waarbij de te voorspellen variabele de y is. De andere variabelen zijn x1 tot en met xn . Men krijgt dan een functie als de volgende: y = C1 ∗ x1 + ... + Cn ∗ xn + E y := de te voorspellen variabele Cn := de correlatieco¨efficient van y en Cn xn := de waarde van variabele xn 6
(2)
E := een restwaarde Natuurlijk kan een variabele ook een negatieve invloed hebben op y: een negatieve correlatie. Ook E kan negatief zijn. Natuurlijk zijn er applicaties die het werken met statistische functies (waaronder correlaties en regressie) ondersteunen. Voorbeelden hiervan zijn Microsoft Excel, SPSS, Quick Statistica, Systat en Statgraphics.
4.3
Data Mining
Ook bij data mining zoekt men naar correlaties. Het grote verschil met statistische analyse is dat men daar vooraf moest kijken welke variabelen wel eens een correlatie zouden kunnen hebben. Deze ging men dan uitrekenen. Men had dus vooraf een hypothese nodig. Bij data mining echter, voert men een complete dataset in de computer in. Men laat de computer nu het werk doen en kijken welke variabelen sterk gecorreleerd zijn. Op deze wijze vind men ook correlaties waar men vooraf misschien helemaal niet aan gedacht had. Hoeksema [3] geeft de volgende definitie van data mining: ”Het proces van de analyse en verkenning van grote hoeveelheden gegevens, om daar betekenisvolle patronen in te ontdekken.” Er zijn verschillende data mining technieken die nu besproken zullen worden. 4.3.1
Neurale netwerken
Veel problemen kunnen gestructureerd worden opgelost met behulp van algoritmes. Er zijn echter ook ongestructureerde problemen (zoals pattern-recognition), waar geen algoritme voor aanwezig is. Dit soort problemen kunnen worden opgelost met behulp van neurale netwerken. Hierbij wordt gebruik gemaakt van patronen die over tijd door training zijn verkregen. Door het opmerken en combineren van bepaalde patronen kunnen er bepaalde conclusies worden getrokken. Neurale netwerken worden getraind op een set van voorbeelden in de hoop dat het neurale netwerk in de toekomst soortgelijke gevallen kan oplossen. Hierbij wordt dus geen algoritme gevolgd, noch zijn de stappen gedefinieerd. Neurale netwerken vinden hun oorsprong in het menselijke brein waar miljarden neuronen met elkaar op een hele complexe manier parallel samenwerken. De opbouw dient als model voor neurale netwerken. Neuronen in een neuraal netwerk hebben kunnen op verschillende niveaus werken. Als eerste is er de input layer. De neurons op deze layer komen overeen 7
met het aantal input variabelen dat het probleem heeft. Daarnaast zijn er nul of meer hidden layers die ook neuronen kunnen bevatten. Deze twee layers bepalen de uitkomst van de output layer (de resultaten). Elke neuron van elke layer is verbonden met alle neuronen van de vorige en volgende layer. Verbonden Neuronen geven pas informatie door aan andere layers als de som van de inputs van andere neuronen boven een bepaalde grenswaarde uitkomt. Een simpel model van een neuron is volgende formule: N X
O = H(
wi + µ)
(3)
l=1
O := output van de neuron wi := gewicht van de connecties l := de inputs µ := grenswaarde x≥0 H := Heavyside functie: H(x) = (1,if 0,if x<0 ) De neuron ’vuurt’ als de som van de inputs groter is dan −µ. De gewichten komen tot stand tijdens het leerproces van het neurale netwerk. Het neurale netwerk is dus uitermate geschikt voor ongestructureerde problemen. Het is echter een black box en resultaten kunnen niet getraceerd worden (waarom heeft een gewicht een bepaalde waarde?). 4.3.2
Beslissingsbomen
Bij deze techniek wordt een boom opgesteld waarlangs men aan de hand van vragen kan afdalen. De eerste verzameling (’root’) bevat alle gevallen waar de boom op gebaseerd is. Aan de hand van de eerste vraag wordt deze verzameling opgesplitst in twee of meer nieuwe verzamelingen. Wanneer men de hele boom volgens een bepaald route doorlopen heeft komt men uiteindelijk terecht in een ’zuivere verzameling’: een verzameling waarvan de gevallen allemaal dezelfde einduitkomst hebben. Aangezien het geval waarvan we de einduitkomst wilden voorspellen dezelfde kenmerken heeft als de andere in deze verzameling (de vragen zijn immers hetzelfde beantwoord) kan voorspeld worden dat dit geval ook deze einduitkomst zal hebben. 4.3.3
Clusteren
Clusteren is een techniek die het totaal aan elementen (bijvoorbeeld gebeurtenissen) in deelt in een aantal categori¨een. Nu kan men ervan uit gaan dat de elementen in deze categori¨een zich min of meer gelijk gedragen. 8
Om elementen te clusteren dient men deze uit te zetten in een assenstelsel. Men kiest nu een aantal willekeurige plaatsen binnen dit stelsel, net zo veel als men categori¨een wenst te hebben. Nu wordt er van ieder element gekeken bij welke plaats deze het dichtste in de buurt ligt. Wanneer alle elementen nu zo gegroepeerd zijn, gaat men de middelpunten van de groepen berekenen. Men neemt deze middelpunten als nieuwe plaatsen, en herhaalt dit proces. Wanneer de middelpunten niet meer veranderen is het clusteren geslaagd. 4.3.4
Market basket analyse
Market basket analyse is een basis voor cross-selling. Het idee is dat men onderzoekt welke producten vaak samen verkocht worden. Het bekendste voorbeeld hiervan is Amazon.com, waar de klant voor ieder product zo’n lijst op kan vragen (’People who bought this item, also bought these items...’). De bedoeling hiervan is de consument ide¨een op maat aan te reiken voor andere aankopen. Hoe gaat zoiets nu in zijn werk? Welnu, eerst dient er een miltidimensionale matrix opgesteld te worden met daarin de producten die vaak gecombineerd verkocht worden. Uit deze matrix worden regels afgeleid die vaak voor komen. Een voorbeeld hiervan is: ALS CD van Pink Floyd EN CD van Marillion DAN CD van Porcupine Tree Wanneer de verkoper deze regel kent en er komt een klant die CD’s van Pink Floyd en Marillion koopt, dan kan de verkoper hem ook eens een CD van Porcupine Tree suggereren. Natuurlijk dient de verkoper ook te weten of deze regel vaak op gaat of niet. Vandaar dat er ook een ondersteuningspercentage en een betrouwbaarheidspercentage berekend worden: ondersteuning =
transacties met de betref f endeproducten alle transacties
(4)
transacties aan regel voldaan (5) transacties aan voorwaarden voldaan Bij de eerste regel deel je het aantal transacties met de betreffende producten door het totaal aantal transacties. Zo kan men kijken of de regel wel vaak betrouwbaarheid =
9
genoeg bruikbaar is. Misschien is er bijna niemand meer die u ¨berhaupt nog CD’s van Pink Floyd koopt. De tweede regel kijkt naar de betrouwbaarheid. Men deelt het aantal transacties dat aan de hele regel voldoet door het aantal transacties dat op z’n minst aan de voorwaarden (het gedeelte van de regel voor ’DAN’) voldoet. Deze analyse is natuurlijk vooral voor winkels interessant. Het probleem is alleen dat er wel een enorme administratie dient te worden bijgehouden over de verkochte producten. Veel supermarkten hebben dit opgelost door middel van een gepersonaliseerde kaart, zoals de BonusKaart en de Edah Card.
4.4
OLAP
OLAP, oftewel On-Line Analytical Processing, bekijkt de zaak weer vanuit een hele andere kant. ”OLAP stelt analisten, managers en uitvoerenden in staat inzicht in data te krijgen, door middel van snelle, consistente en interactieve toegang tot een verscheidenheid aan mogelijke gezichtspunten op data. OLAP transformeert rauwe data zo dat het de echte dimensie van de organisatie laat zien, zoals de gebruiker dat kent.” - www.olapcouncil.org [12] Met andere woorden, met OLAP krijgt de gebruiker toegang tot een figuur die de data representeert. De gebruiker kan deze figuur `a la minute aanpassen zodat het een beter beeld geeft. OLAP gaat uit van een serie dimensies. Een van die dimensies is bijvoorbeeld de klant. Deze klant heeft bijvoorbeeld een adres en een leeftijd. Wanneer men meerdere van deze dimensies heeft kan men ze aan elkaar koppelen door middel van een gebeurtenis of een feit. Zo zal een gebeurtenis als een ’verkoop’ de dimensies ’klant’, ’verkoper’, ’tijd’ en ’product’ verbinden. Naast dimensietabellen heeft men nu dus ook een facts table, met daarin alleen de sleutels (’primary keys’) van de dimensies die bij deze gebeurtenis horen. Nu kan gesteld worden dat deze facts table uitstekend genormaliseerd is. De dimensies daarentegen zijn helemaal niet genormaliseerd. Zo staat bijvoorbeeld bij de verkoper-dimensie bij iedere vestiging ook het land in de tabel. Dit zou volgens de normalisatie-regels een nieuwe tabel op moeten leveren met vestigingen en bijbehorende regels. Bij OLAP is dit echter bewust redundant gehouden. De gebruiker kan nu een figuur krijgen waarin de data is gerepresenteerd. Dit kan een driedimensionale kubus zijn, maar ook bijvoorbeeld een grafiek of een 10
tabel. Het grote voordeel is dat deze figuren dynamisch zijn. Ziet de gebruiker bijvoorbeeld dat er in het derde kwartaal in Engeland opvallend weinig gekocht is, dan kan deze de figuur uitsplitsen zodat de verkopen in dat kwartaal per vestiging te zien zijn. En daarna kan het per vestiging weer uitgesplitst worden naar verkoper. OLAP is dus een zeer krachtig hulpmiddel, maar de analyse wordt wel door de gebruiker gedaan. En niet zoals bijvoorbeeld bij neurale netwerken door de machine.
4.5
Software pakketten
Natuurlijk bestaan er allerlei applicaties om het werken met data analyse te ondersteunen. Voor statistische analyse bestaan er specialistische pakketten als SPSS, Quick Statistica, Systat en Statgraphics. Ook de andere technieken hebben natuurlijk hun gereedschappen. Zo zijn er voor OLAP twee marktleiders: • Essbase van het bedrijf Hyperion (voorheen ArborSoft) • Express Server van Oracle Essbase heeft op de site geen prijs vermeld staan. Express Server is onderdeel van de Oracle Enterprise Edition, waarvan een licentie voor ´e´en gebruiker $800.000 kost. Zo’n bedrag is voor een kleine winkel natuurlijk niet betaalbaar. Vandaar dat in dit paper gekeken zal worden hoe het MKB deze tools kan evenaren. Maar eerst wordt besproken hoe het CBS nu eigenlijk te werk gaat. Gebruiken zij wel deze dure applicaties?
5
Data analyse bij het CBS
Het Centraal Bureau voor de Statistiek, met hoofdkantoren in Den Haag en Heerlen, is een organisatie die data analyse als core-business heeft. Het CBS is daarom een interessante instelling om te bezoeken en om te kijken hoe men daar omgaat met data analyse op een professionele manier. Er is op vrijdag 30 november 2001 een interview gevoerd met de heer M. Vucsan en de heer Dr. J. Kardaun beiden van de afdeling TMO (Methoden en ontwikkeling) van het CBS over opslag methodes en data-mining technieken bij het CBS. Beide houden zich bezig met de ontwikkeling van nieuwe methoden en met strategische projecten. Als eerste zal de data-opslag binnen het CBS aan de orde komen. Het CBS beheert en verwerkt enkele Tera Bytes aan gegevens. Door de steeds verdere 11
Figuur 1: Kantoor CBS Den Haag ontwikkelingen op het gebied van data opslag is het tegenwoordig mogelijk alle gegevens die het CBS beheert worden in principe op te slaan op gewone hard disks die ook de consument kan kopen. De ontwikkelingen op data-opslag gebied gaan sneller dan dat de data die het CBS verzamelt groeit. Als data binnenkomt bij het CBS zal er eerst technische en inhoudelijke cleaning op worden toegepast. Met technische cleaning wordt bedoeld dat programmatuur de consistentie van data checked. Hierbij controleert de programmatuur of van de ingevoerde data bijvoorbeeld het domein juist is (staan in alle rijen bij de leeftijd integers). Daarnaast is er inhoudelijke cleaning die door experts uitgevoerd waarbij bijvoorbeeld lege elementen aangevuld worden (bijvoorbeeld als iemand geen geboortedatum aangeeft, maar alleen een jaartal). Data editors moeten kennis hebben van de dataset om de data zo goed mogelijk inhoudelijk te kunnen checken. Na de cleaning kan de data worden opgeslagen in een data warehouse. Enkele jaren geleden is het CBS gestart, vanuit de TMO afdeling, met het opzetten van data warehouses (op gewone pc’s, draaiende met Microsoft SQL Server) in pilot-projects, volgens het bovenstaand principe met fact- en dimensie tabellen, voor bepaalde statistische publicaties. Deze vervingen de platte files
12
Key 00001 00002 .....
Dag 01 02 ..
Maand 01 01 ..
Jaar 2001 2001 ....
Week 01 01 ..
Kwartaal 1 1 .
Tabel 1: Datum Tabel Key 00001 00002 .....
Straat Statenlaan Statenlaan ..........
Nummer 317 275 ...
Postcode 5042RW 5042RW ......
Stad Tilburg Tilburg .......
Provincie Noord-Brabant Noord-Brabant .............
Tabel 2: Adres Tabel en standaard Oracle databases die tot dan gebruikt werden. Als voorbeeld van dimensie tabellen binnen het CBS kan gedacht worden aan een datum tabel, een adressen tabel die in principe volkomen niet genormaliseerd zijn (zie Tabel 1 en Tabel 2). Met behulp van deze tabellen is het mogelijk om dan een feit (genormaliseerd weer te geven), bijvoorbeeld het aantal inwoners boven de achttien jaar op een bepaalde datum op een bepaald adres (zie Tabel 3). Met deze gegevens kan nu aan statistische analyse of OLAP worden gedaan. Bij het CBS wordt Excel 2000 als OLAP tool gebruikt waarmee het eenvoudig is om statistische analyse en visualisatie op deze grote berg gegevens uit te voeren. Het CBS gebruikt dus geen meerdere miljoen gulden dure speciale analytische OLAP software maar gewoon Excel om het ’lage’ statistiek werk te verrichten en standaard rapporten te genereren. Voor verregaande analyse worden nog wel speciale statistische pakketten gebruikt (SPSS), maar in principe zou dit ook met Excel kunnen. Door het eenvoudige gebruik van Excel 2000 en de mogelijkheden voor het CBS was het niet moeilijk om andere afdelingen te overtuigen en zodoende zal het CBS in de komende jaren volledig overgaan op het gebruik van data warehouses en OLAP tools (Excel 2000) voor de statistische analyse. Een nadeel Adres 00001 00002 .....
Datum 00001 00001 .....
Aantal 5 4 .
Tabel 3: Feiten Tabel 13
van deze oplossing is dat het moeilijk is om meta data (wat is de context, wie heeft het gecleaned, waar komt het vandaan, etc.) van de gegevens op te slaan in het data warehouse. Het CBS probeert dit op te vangen door aan elke tabel een verwijzing te hangen naar een html pagina waar dit soort gegevens gestructureerd op staan. Data mining bij het CBS is een discutabel punt. Het verschilt totaal van statistische analyse zoals eerder is gezien. Bij de statistische analyse wil men een correlatie tussen variabelen te weten komen, bij data mining vraagt men gewoon aan de computer om met interessante correlaties op de proppen te komen. Het probleem met data mining binnen het CBS is dan ook dat men tot op heden niet zeker kan zijn of de gevonden resultaten reproduceerbaar zijn in andere gevallen met bijvoorbeeld andere datasets over hetzelfde probleem. Eenmalig iets bepalen is geen statistiek! Het kan wel gebruikt worden om bepaalde suggesties uit de data zelf te halen en deze dan statistisch analyseren. Deze reproduceerbaarheid is echter niet van zo groot belang in het bedrijfsleven, waar men vooral nieuwe informatie wil hebben. Data mining wordt daarom vaak koud toegepast (door het menselijke brein; koude neurale netwerken). Vooral tijdens de verkennende fase, voor de data cleaning, is het van belang dat de data inhoudelijk voldoet (is het juiste data in een bepaalde context) en dat kan geen enkele data mining programma tot op heden oplossen (Dit speelt zich immers af op meta niveau). Tijdens het technische cleansing kan echter wel data mining worden toegepast om ontbrekende data en vuiligheid te minen. Men zou ook interessante verbanden kunnen laten vinden, echter is dit riskant, omdat data mining niet universeel is. Dit hangt af van de data zelf, de gebruikte algoritmes en de context. Data mining binnen het CBS vindt op dit moment vooral plaats in de research sfeer. Data mining voldoet nog niet aan de eis dat bij elke stap tijdens het maken van statistiek een antwoord gegeven kan worden op de vraag wat men aan het doen is. Analyses moeten dus reproduceerbaar en uitlegbaar zijn, met data mining kan hieraan nog niet voldaan worden.
6
Data analyse met HTK tools
Aangezien het CBS gebruik maakt van Excel 2000, zou men zich kunnen afvragen of het MKB, die veelal deze tool ook bezitten (en soms gebruiken) niet ook op een eenvoudige manier OLAP zouden kunnen toepassen. Wij beschouwen dit als HTK (huis, tuin en keuken) tools, omdat deze in vergelijking met professionele OLAP pakketten veel goedkoper zijn. Hieronder zal dan ook een praktijkvoorbeeld getoond worden waarbij met behulp van MS Office 2000 (MS 14
Access 2000, MS Query 2000 en MS Excel 2000) data analyse zal worden uitgevoerd. Als database in Access is gekozen voor de voorbeeld database Noordenwind. Dit is een bedrijf-database met ongeveer in totaal 2000 records. Deze records bevatten onder andere verkoop gegevens, producten, medewerkers en leveranciers. Met behulp van MS Query kan hieruit nu een data kubus gegenereerd worden. Eerst dient men daarbij de velden te selecteren die men later wil gebruiken binnen de kubus. Daarna selecteert men de velden die men wil aggregeren (de facts). Dit kan de som, het gemiddelde, of bijvoorbeeld de standaarddeviatie zijn. Daarna kunnen de dimensies en aggregatie niveaus geselecteerd worden. Als men hiermee klaar is kan men de kubus genereren. Nu kan men binnen MS Excel een query uitvoeren om de gegevens van de kubus binnen te halen. Nu kunnen deze gegevens in een pivot-tabel (ook wel draaitabel genoemd) interactief bewerkt en bekeken worden. Daarnaast is het mogelijk om statistische analyse toe te passen en grafische overzichten te maken. Dit is dan de OLAP component: interact, analyseer en leer. Een draaitabel rapport is een interactieve tabel waarmee snel grote hoeveelheden gegevens kunnen worden samengevat. Zo een draaitabel rapport wordt gebruikt als verwante totalen vergeleken moeten worden, met name als er sprake is van een lange lijst getallen die moeten worden samengevat en waarin dan voor elk getal verschillende feiten vergeleken moeten worden. Met draaitabel rapporten wordt het sorteren en het berekenen van subtotalen en totalen uitgevoerd in Microsoft Excel. In het hart van de draaitabel komen de geaggregeerde facts en langs de assen is het mogelijk een of meer dimensies naartoe te slepen. Een simpel voorbeeld is te zien in figuur 2. Hier is een overzicht van de omzet per kantoor per tijdsperiode te zien. In figuur 3 is een iets uitgebreider voorbeeld te zien. Er is in een oog opslag te zien dat nu zuivel producten voor Franse klanten afkomstig van Europese leveranciers vooral via de verkoop kantoren in de VS verkocht worden. De vraag hierbij natuurlijk is of dit wel zo zinvol is en of niet de vestiging in Londen meer van dit soort opdrachten moet overnemen. Daarvoor zou je dan de kosten van London en de Amerikaanse verkoopkantoren naast elkaar moeten zetten. De vraag voor de volgende hoofdstuk is dan natuurlijk of het MKB berhaupt wel ge¨ıteresseerd is in dit soort tools en data mining applicaties.
15
Figuur 2: Omzet per verkoop kantoor
Figuur 3: Uitgebreid voorbeeld OLAP 16
Figuur 4: Tommy winkel in Tilburg
7
Draagvlak voor data analyse bij het MKB
Om het draagvlak van de zojuist beschreven HTK tools voor data analyse bij het MKB na te gaan is een cd winkel (Tommy) in de binnenstad van Tilburg bezocht. De winkel bestaat ook uit een stripboeken winkel en een 2e hands kledingzaak in hetzelfde pand, maar voor dit paper is alleen naar de cd winkel gekeken. Deze winkel is een eenmanszaak en maakt geen deel uit van een keten. In deze winkel worden vooral ’niet mainstream’ cd’s (rock, jazz, blues) verkocht. Door middel van een interview met de eigenaar, die al jarenlang deze zaak samen met meerdere medewerkers runt, is getracht een antwoord te vinden op de vraag of data analyse iets voor het MKB zou kunnen toevoegen aan de normale bedrijfsvoering. Er is gekozen voor een cd winkel, omdat een cd winkel tastbare, goed aan te wijzen producten verkoopt die duidelijk te classificeren (muziek-genre) zijn en meestal per twee of meer verkocht worden (tenminste in deze winkel), waarop dan market basket analyse kan worden toegepast. Automatisering is er binnen Tommy vooral op administratief niveau met be17
hulp van spreadsheets en boekhoudprogramma’s. Verder is er weinig automatisering aanwezig. Verkopen worden niet elektronisch geregistreerd. Verder wordt er niets met de data gedaan. Vanwege het grote aantal leveranciers is en het grote aantal verschillende producten met kleine hoeveelheden is het volgens de eigenaar te duur om de verkoop helemaal te automatiseren. Door te kijken naar een cd winkel is het mogelijk om een vergelijk te maken tussen bijvoorbeeld Amazon.com en deze MKB winkel. Bij Amazon.com wordt gewerkt met een zogenaamde advieslijst. Bij het bezoeken van de site en het zoeken naar bepaalde muziek (en boeken) wordt er door Amazon door middel van data analyse (market basket analyse) gekeken welke andere producten misschien interessant zijn en deze worden de gebruiker dan ook getoond (door gebruik te maken van verkoopcijfers). De vraag hierbij is dan ook of iets soortgelijks interessant is voor de MKB’er om zo een additionele service aan de klanten te geven. Volgens de eigenaar komt dit soort adviezen aan de klant redelijk vaak voor, maar wordt dat gedaan door de medewerkers (die ieder speciale vakkennis van een bepaalde muziek richting hebben) in plaats van door computers. Het is dan ook puur subjectief. Daarvoor moet de verkoper de juiste kennis van de klant hebben. Aangezien een groot gedeelte van de klanten regelmatig iets koopt bij Tommy kunnen verkopers goed op de wensen van de klant inspelen. De eigenaar ziet dan ook niet zo veel heil in het toepassen van data analyse binnen zijn cd winkel. Daarbij werd er een lijst van mogelijke interessante andere cd’s bij een zoek-query op Amazon.com getoond aan de eigenaar. Deze lijst gaf aan dat personen die ’Pink Floyd’ gekocht hebben vaak ook cd’s van Madonna en Sting kopen. Volgens de eigenaar, met jarenlange muziek ervaring, was deze lijst op zijn zachts uitgedrukt slecht. Aangezien hij uit de dagelijkse praktijk weet dat deze groepen qua muziek totaal van elkaar verschillen en dat in zijn winkel deze combinatie van cd’s niet verkocht wordt. Tevens vragen de klanten ook niet naar deze combinatie. Een klantenkaart is volgens de eigenaar ook geen optie. Mensen komen vanwege de sfeer en het persoonlijke contact naar zijn winkel en een klantenkaart is volgens hem te onpersoonlijk. Samenvattend kan de vraag naar het draagvlak van data analyse bij het MKB negatief beantwoord worden. Al is er door ons geen empirisch onderzoek gedaan, maar wij denken dat vooral de ’KB’ automatisering zien als iets wat moet, maar verder weinig voordeel oplevert. Voor ’MB’ (startend bij bijvoorbeeld filialen, franchises, etc.) zal het misschien interessant zijn, maar daar is door ons geen onderzoek naar gedaan. Data analyse voor de zaak op de hoek is mogelijk, alleen wil men het nog niet. Verder is het zo dat veel kleine ondernemers veel op gevoel doen en hun idee¨en gewoon uitproberen. Het is nu nog te moeizaam 18
om naast de normale bedrijfsvoering nog allerlei analyses te gaan uitvoeren. Wij denken echter dat dit een deel van het werk zal worden in de toekomst al is het nu al vrij eenvoudig om OLAP toe te passen.
8
Conclusie
Vooraf hadden de auteurs de verwachting dat het CBS van zeer dure en geavanceerde applicaties gebruik zou maken. Onze vraag was dus in hoeverre het MKB dit kon evenaren met simpelere tools. Deze vraag kan simpelweg beantwoord worden met de stelling dat Microsoft Office veel biedt met betrekking tot data analyse. Het is een complete oplossing, die de noodzaak voor die dure tools overbodig lijkt te maken. Er zijn echter ook twee onverwachte resultaten uit dit onderzoek komen rollen. Ten eerste, MS Office blijkt zo compleet dat zelfs het CBS hier gebruik van maakt. Dit is dus uitstekende bevestiging voor de conclusie. Het MKB zou totaal geen nadeel hebben en dus naar alle hartelust mee kunnen doen. Echter, een ander resultaat is het gebrek aan draagvlak. Hoewel het enkele interview natuurlijk nooit wetenschappelijk representatief kan zijn, lijkt het wel een logische conclusie. Immers, het MKB heeft nog zicht op haar data; zij verkopen nog steeds op dezelfde manier als ze honderd jaar geleden ook deden. En waarom zouden ze veranderen, als ze zo alles nog prima kunnen bevatten? Het MKB hoeft zich dus duidelijk geen Calimero te voelen. Zij zouden eerder kunnen zeggen: ”Zij zijn groot en wij zijn klein. Maar we hebben de zelfde capaciteiten, en bovendien hebben wij die capaciteiten niet eens nodig.”
19
Referenties [1] A. Buijs, Analyseren van klantgegevens, Mnet, januari 2001 [2] Prof.Dr.Ir. H. Daniels, Introduction to Neural Networks, Dictaat Departement BIK, januari 2000 [3] E. Hoeksema, Datamining klaar voor de massa?, Technieuws, september 1999 [4] K. Laudon, J. Laudon, Management Information Systems, Fifth international edition, Prentice Hall, 1998 [5] T. van Maanen, Datamining - a note from a professional, http://www.vanmaanen.com [6] McClave, Benson, Sincich, Statistics for business and economics, International edition, Prentice Hall, 1998 [7] http://www.microsoft.com/office/ Microsoft Office - Microsoft Office Home Page [8] A. de Smits, De macht van het getal: statistiek, PC Magazine, april 1996 [9] M. Vucsan, The application of data warehouse techniques in a statistical environment, Seminar on integrated statistical information systems and related matters, Riga 29-31 May 2000 [10] M. Vucsan, Just in time processing as one of the requirements for input data in warehouses, Joint ECE/Eurostat Meeting on the Management of Statistical Information Technology, Geneva, 14-16 February 2001 [11] Witten, Frank, Data mining, Morgan Kaufmann publishers, 2001 [12] The OLAP council, http://www.olapcouncil.org
20