Het gebruik van datamining als predictive analytic voor dienstverleners

Het gebruik van datamining als predictive analytic voor dienstverleners

Juni 2014

Bachelor scriptie Informatiekunde Faculteit der Natuurkunde, Wiskunde en Informatica Universiteit van Amsterdam

J.R. Tromp

dr. M.W. van Someren

Student

Begeleider

[email protected]

[email protected]

Studentnummer: 6353770

Inhoudsopgave 0. Samenvatting ....................................................................................................................................... 3 1. Inleiding .............................................................................................................................................. 4 1.1. Aanleiding .................................................................................................................................... 4 1.2. Doelstelling .................................................................................................................................. 5 1.3. Onderzoeksvraag .......................................................................................................................... 5 1.3.1. Vraagstelling ......................................................................................................................... 5 1.3.2. Deelvragen............................................................................................................................. 5 1.4. Relevantie ..................................................................................................................................... 6 2. Methode ............................................................................................................................................... 7 2.1. Data .............................................................................................................................................. 7 2.1.1. Datasets ................................................................................................................................. 7 2.2. Meting .......................................................................................................................................... 8 2.2.1. Data ....................................................................................................................................... 8 2.2.3. Machine Learning.................................................................................................................. 8 2.2.3.1. MultilayerPerceptron .......................................................................................................... 8 2.2.4. Overlay data .......................................................................................................................... 9 2.2.5. Gebeurtenissen ...................................................................................................................... 9 2.3. Procedure .................................................................................................................................... 10 2.3.1. One-step-ahead voorspelling ............................................................................................... 10 3. Resultaten .......................................................................................................................................... 11 4. Conclusie ........................................................................................................................................... 14 5. Discussie............................................................................................................................................ 16 6. Begrippen .......................................................................................................................................... 18 7. Bibliografie........................................................................................................................................ 19 8. Bijlagen ............................................................................................................................................. 20 Bijlage 1 – WEKA correlaties BillableHours ................................................................................... 20 Bijlage 2 – WEKA configuratie ........................................................................................................ 21 2.1. Basis instellingen .................................................................................................................... 21 2.2. MLP Configuratie................................................................................................................... 21 2.3. Geavanceerde configuratie ..................................................................................................... 21


Pagina 2

0. Samenvatting Datamining is een breed onderzoeksveld in het domein van computer science en artificial intelligence. Datamining technieken kunnen gebruikt worden om interessante patronen te vinden in datasets. Grote bedrijven zoals Albert Heijn maken al langer gebruik van machine lerende datamining technieken en kunnen daardoor in hun bedrijfsproces betere beslissingen maken. Kleine dienstverleners hebben vaak weinig middelen, en trachten deze daarom zo efficiënt mogelijk te gebruiken. Datamining kan helpen om patronen te herkennen en daarmee inzicht te geven in bedrijfsprocessen. In dit onderzoek wordt gekeken naar de waarde van datamining voorspellingen in een casus. De casus is een eerstelijns hulpverleningspraktijk. Er wordt onderzocht of het mogelijk is om het maandelijkse aantal declareerbare uren te voorspellen. Met behulp van het programma WEKA 3.7 en de Time series and forecaster plugin worden een aantal voorspellingen gedaan en worden de resultaten geëvalueerd. De datasets waarmee wordt geëxperimenteerd bevat onder andere de prestaties van de praktijk per maand, de website en advertentie-resultaten.


Pagina 3

1. Inleiding “Scienta Potentia Est” - Francis Bacon (1597) “Kennis is macht” aldus Francis Bacon. Hoe

inzichten voor besluitvorming. Het gebruik van

meer men weet, hoe beter men kan handelen.

business intelligence tools is de laatste jaren

Als bedrijf kan men het beste grip krijgen op

nog nooit zo hoog geweest als reactie op de

bedrijfsprestaties door de klanten te kennen, de

onzekerheid van de economische crisis

omgeving te begrijpen en de volgende stap van

(Larose, 2004). Datamining bestaat relatief

de concurrent te weten. Het is dus logisch dat

gezien nog niet zo lang, het is daarom ook nog

grote bedrijven verschillende bronnen

niet zo lang dat universiteiten vakken en

gebruiken om voorspellingen te doen en

opleidingen zijn gaan ontwikkelen op het

daarmee hun toekomst veilig te stellen. Albert

gebied van datamining (Larose, 2004). De

Heijn maakt op grote schaal gebruik van een

invloed van datamining is nog niet overal

bonuskaart systeem, waarmee men informatie

binnen de dienstverlening doorgedrongen,

van de koper verkrijgt in ruil voor een kleine

maar dat zal in de toekomst wel steeds meer

bonus. De data die men hiermee vergaart kan

gaan gebeuren.

met behulp van datamining technieken omgezet worden naar informatie en, uiteindelijk, naar kennis. Kennis die men gebruikt om beter op nieuwe en bestaande klanten in te spelen en om de concurrentie het hoofd te kunnen bieden.

Voor kleine bedrijven is het nog minder vanzelfsprekend om actief bedrijfsprocessen te beheersen. Kleine en zelfstandige dienstverleners houden zich amper bezig met het voorspellen van bedrijfsprocessen. Men heeft niet de kennis noch de middelen om hier

In dit verslag komen een aantal technische

op in te zetten, daarbij komt dat het vaak

termen voor. Deze termen worden in de tekst

onduidelijk is wat er tegenwoordig allemaal

soms cursief gemarkeerd. In hoofdstuk 6

mogelijk is. Hierdoor loopt men de kans mis

worden een aantal van deze begrippen nader

om bedrijfsprocessen te optimaliseren en te

toegelicht.

zorgen voor een stabielere, en dus betere, bedrijfsvoering. Men houdt vaak wel bij wat de

1.1. Aanleiding Voor grote bedrijven is het een must om bedrijfsprocessen te beheersen door voorspellingen te doen, om zo hun positie te

prestaties en bedrijfsresultaten zijn, maar men kan er moeilijk beleid op afstemmen omdat er vaak geen directe patronen zichtbaar is.

versterken. Sinds de jaren 90 is er over de

In dit onderzoek wordt een casus besproken.

gehele linie een sterke vraag geweest naar

Het bedrijf dat word beschouwd is een praktijk

accurate en betrouwbare kennis voor

voor eerstelijns hulpverlening. Hier zijn twee

bedrijfsvoering en het ontdekken van nieuwe

personen werkzaam op 2 verschillende


Pagina 4

locaties. De bedrijfsprestaties van deze casus

paragraaf 2.3. Procedure beschreven. Er is in

vormen de datasets voor dit onderzoek.

de 2e bijlage getracht om aan te geven welke stappen nodig zijn om tot eenzelfde experiment

1.2. Doelstelling In dit onderzoek wordt gekeken naar de mogelijkheden van datamining technologieën, om zinnige conclusies te kunnen trekken uit de

te komen. Vanaf hoofdstuk 3. Resultaten worden de vindingen besproken en de (deel)vragen beantwoord.

bestaande bedrijfsprestaties. Door gebruik te

1.3. Onderzoeksvraag

maken van lerende algoritmes op het gebied

De belangrijkste voorwaarde voor de

van datamining kan informatie worden

onderzoeksvraag is dat de experimenten

vergaard uit - op het eerste oog - nietszeggende

resultaten opleveren die aantoonbaar inzicht

data. Kennis en inzicht zouden een ondernemer

geven om te gebruiken in bedrijfsprocessen.

kunnen helpen om een betere beslissing te

Om aan te tonen welke voordelen datamining

nemen. De Leeuw (1982) gaf 32 jaar geleden

zouden kunnen hebben, is de volgende

al aan dat informatie een van de belangrijkste

vraagstelling opgesteld.

middelen is die het management tot zijn beschikking heeft, dit gezien het feit dat de analyse van informatie helpt bij effectieve besluitvorming. Door datamining in te zetten kunnen bepaalde relaties aan het licht worden gebracht, die anders niet ontdekt zouden

1.3.1. Vraagstelling Op welke manier kunnen datamining technieken ingezet worden voor het creëren van nieuwe beslissing gevende inzichten voor kleine dienstverleners?

worden. De doelgroepen voor dit onderzoek

Om antwoord te geven op deze vraagstelling

zijn ondernemers en dienstverleners, die meer

zijn de volgende deelvragen opgesteld.

willen weten over de mogelijkheden van datamining technieken en de effectiviteit ervan. Verder is dit onderzoek gericht op Informatiekunde studenten die zich

1.3.2. Deelvragen Deze deelvragen zijn specifiek en meetbaar zodat deze met een experiment onderzocht kunnen worden:

specialiseren in bedrijfskundige aspecten. 1. Kan het aantal BillableHours voor het Dit verslag is als volgt opgebouwd: in paragraaf 2.1 Data worden de datasets besproken en in paragraaf 2.2. Meting de gebruikte software en technieken. Deze paragrafen zijn bedoeld om een uitleg te geven over de gebruikte componenten in de experimenten en kan door een dataminingexpert wellicht worden overgeslagen. De

volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin? 2. In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? 3. Heeft de verzekering van een patiënt invloed op het aantal zittingen?

uitvoering van de experimenten wordt in


Pagina 5

1.4. Relevantie Door in dit onderzoek specifiek te richten op één casus geeft dit onderzoek informatie over de datamining mogelijkheden op een gedetailleerd niveau. Een breed onderzoek met meerdere casussen is omwille van tijd en verschillen in configuratie niet mogelijk. Echter, als blijkt dat er technieken zijn die bij één casus werken, dan is er een grote kans dat dit ook op andere casussen toepasbaar is. In de dienstensector spelen bij bedrijfsprocessen vaak dezelfde attributen een rol, de voorspellingen in dit onderzoek zijn daarom mogelijk dus ook relevant voor andere beroepsgroepen in de dienstensector. Er is in de literatuur onderzoek gedaan naar praktische toepassingen voor datamining gericht op bedrijfsprocessen. Het merendeel van de literatuur gaat over het ontwikkelen van frameworks en toepassingen voor grote bedrijven. Er lijkt echter nog weinig onderzoek te zijn gedaan naar de bruikbaarheid van datamining op kleine schaal of gericht op dienstverleners. De experimenten in dit onderzoek zijn uitgevoerd op basis van het framework zoals geformuleerd in het werk van Fayyad, Piatetsky-Shapiro (1996). Dit framework dwingt de dataminer bij elke stap een bepaald aantal keuzes te maken. Volgens Yang, et al. (2006) wordt Time Series datamining bemoeilijkt door de ruis, die inherent is aan Time Series data. In paragraaf 2.2.4. Overlay word beschreven wat er is gedaan om dit probleem te omzeilen.

Weka 3.7 – Forecast plugin is het meest rechtse tabblad


Pagina 6

2. Methode De onderzoeksfunctie van dit onderzoek is

WEKA. In de volgende paragrafen worden de

evaluerend, in dit onderzoek wordt geprobeerd

verschillende datasets besproken.

een waarde te geven aan het gebruik van datamining technieken. Het onderliggende doel

2.1.1. Datasets De Performance dataset is de primaire bron

is te kijken of de technieken effectief genoeg

voor dit onderzoek en geeft informatie over het

zijn om iets over de werkelijkheid te kunnen

totaal aantal gewerkte uren en het aantal

zeggen. Verder wordt er gekeken naar

nieuwe aanmeldingen (eerste consulten) per

verschillende beschikbare technieken en configuraties om de effectiviteit vast te stellen. In deze zin is de functie van dit onderzoek vergelijkend. Het is een kwantitatief

maand in de periode januari 2007 t/m april 2014. De dataset telt 88 instances, gelijk aan het aantal maanden in deze periode. Alle attributen zijn per maand. Per maand is verder

onderzoek, voor het vaststellen van de

de hoeveel website bezoekers aangegeven, en

effectiviteit is gebruik gemaakt van zo veel

de hoeveel bezoekers die afkomstig waren van

mogelijk data.

online reclame zoals Adwords campagnes.

2.1. Data

Deze online advertenties, samen met de

De datasets die in dit onderzoek gebruikt

maandelijkse kosten van kranten advertenties,

worden zijn afkomstig uit de boekhouding van

worden gebruikt om te bekijken in welke mate

de casus, de data zijn beschikbaar vanaf 2007.

reclame invloed heeft op het aantal patiënten.

Voor dit onderzoek wordt gebruik gemaakt van

De belangrijkste attributen zijn het aantal

verschillende datamining technieken die onder

patiënten en het aantal nieuwe aanmeldingen in

zijn gebracht in het programma WEKA 3.7 van

een periode. Alle attributen zijn beschreven in

de Universiteit van Waikato. De datasets zijn

onderstaande tabel. Het primaire doel van de

in gestructureerd in het ARFF formaat,

dataset is het aantal BillableHours voor de

waardoor deze direct te bruikbaar zijn in

toekomstige maanden te kunnen voorspellen.

Attributen

Beschrijving

FirstConsults

Het aantal nieuwe aanmeldingen

Date

Alle maanden van januari 2007 t/m april 2014 in het formaat yyyy-mm-dd

AllViewsSiteA

Totaal aantal bezoekers op de website van locatie A

AllViewsSiteB

Totaal aantal bezoekers op de website van locatie B

PaidViewsSiteA

Aantal betaalde Adwords bezoekers op de website van locatie A

PaidViewsSiteB

Aantal betaalde Adwords bezoekers op de website van locatie B

BillableHours

Het totaal aantal gefactureerde uren

PaidAmountPapers

Bedrag in euro’s betaald aan advertenties in kranten op verschillende locaties. Het gaat hier om het bedrag in de maand waarin de advertentie geplaatst is.


Pagina 7

Naast de primaire performance dataset is er

gekozen algoritme en voorspelt aan de hand

nog de kleinere verzekerings dataset, deze

van de uitkomsten de toekomst.

bestaat respectievelijk uit: het geslacht, een van de drie behandellocaties, verzekeraar, het type polis, de eerste behandeldatum en het aantal afspraken per patiënt. Er zijn geen persoonsgegevens opgenomen waardoor de dataset anoniem is. De dataset bestaat uit 69 instances. Het verzekeraar attribuut bevat 20 unieke verzekeraars, al dan niet in combinatie met een van de 4 geregistreerde aanvullende

2.2.3. Machine Learning Zonder datamining is het vaak lastig om diepliggende relaties uit grote datasets te vergaren. De machine learning technieken die in WEKA zijn ingebouwd kunnen ingewikkelde patronen herkennen en zijn voor dit project daarom uitermate geschikt. Welke techniek het beste werkt verschilt per probleem en dataset. Dit onderzoek richt zich op enkele

verzekeringen. Het doel van deze dataset is om

bewezen effectieve algoritmen die goed

de verzekering op basis van de andere

werken op de besproken datasets, zoals MLP.

attributen te voorspellen.

2.2. Meting 2.2.1. Data Om in WEKA te kunnen voorspellen hoe de

2.2.3.1. MultilayerPerceptron De MultilayerPerceptron (MLP) is een uitvoering van een neuraal netwerk waarbij het mogelijk is om meerdere nodes te gebruiken in

toekomst eruit ziet wordt de Time series and

de hidden layer. Door middel van

Forecast plugin gebruikt. Dit is nodig omdat

backpropagation krijgen zwakke verbindingen

WEKA zelf geen perioden in data kan

minder waarde dan sterke verbindingen. In het

herkennen. Hiervoor moeten Lags (time

boek “Discovering Knowledge in Data, an

windows) gecreëerd worden. Een lag beslaat

Introduction to Data Mining” (Larose, 2004)

een bepaalde periode zoals een week, maand of

staat meer informatie over deze techniek en de

kwartaal. De forecast plugin maakt

begrippen. MLP werkt goed voor deze dataset

automatisch verschillende lags aan op basis

omdat er geen onderliggend model

van de dataset. Lags kunnen elkaar

gedefinieerd hoeft te worden die de dataset

completeren, zodat vier kwartalen samen

beschrijft. Het nadeel van “modelloze”

twaalf maanden bevatten. Lags kunnen elkaar

technieken is dat de relatie tussen attributen

ook overlappen, in welk geval de eerste lag

niet direct duidelijk word. Dit soort

januari t/m april kan beslaan en de tweede lag

voorspellingen wordt daarom, net zoals het

februari t/m mei. Hoe meer lags er zijn hoe

weerbericht, steeds onbetrouwbaarder naar

groter de kans dat er een patroon te vinden is.

mate de tijd vordert. Door met behulp van

Echter, als er te veel lags gebruikt worden ligt

overlay data extra informatie toe te voegen,

overfitting op de loer, door ruis zal dit de

kunnen de onderliggende modellen aan het

kwaliteit van de voorspelling verlagen. De

licht worden gebracht.

plugin berekent voor alle verschillende lags het


Pagina 8

2.2.4. Overlay data Omdat modelloze technieken geen

september 2008 tot op heden heerst zullen de

onderliggende modellen gebruiken kan het zijn

er geen crisis was geweest. De effecten van de

dat bias of ruis invloed heeft op de

crisis hebben effect op website bezoeken,

voorspelling. Yang, et al. (2006) beschrijven

daarom is de verwachting dat het aantal

dit als volgt in hun zoektocht naar de 10

website bezoekers iets zegt over

grootste datamining uitdagingen: “Many time-

bedrijfsprestaties. Online en offline

series used for predictions are contaminated

advertenties kunnen ervoor zorgen dat de

by noise, making it difficult to do accurate

prestaties tijdelijk hoger zijn dan normaal, door

short-term and long-term predictions […]

deze als intervention variables te gebruiken

signal processing techniques, such as wavelet

wordt er in de voorspelling van BillableHours

analysis and filtering, can be applied to

rekening mee gehouden.

bedrijfsresultaten lager uitvallen dan wanneer

remove the noise”. Ter illustratie, een advertentie campagne kan pieken in resultaten veroorzaken. Als hier geen rekening mee wordt gehouden dan zal de MLP fouten maken door het model erop te fitten. Daarom wordt er gebruik gemaakt van overlay data. Er worden dan extra features toegevoegd die bepaalde afwijkingen compenseren en patronen zichtbaar maken. In de experimenten is BillableHours het te voorspellen attribuut, alle overige attributen worden gebruikt als overlay data. De attributen zijn gekozen vanwege hun voorspellende waarde en worden vanuit de literatuur intervention variables genoemd. Als er in een maand minder eerste consulten zijn, dan zullen er naar verwachting ook minder uren gemaakt worden. Ook moeten er externe factoren in beschouwing worden genomen: door de economische crisis die vanaf

2.2.5. Gebeurtenissen Bepaalde gebeurtenissen hebben vaak direct invloed op het patroon in de dataset. Het blijkt in deze casus dat de praktijk sterk afhankelijk is van seizoen variatie, zoals vakantieperioden. Vergeleken met de andere maanden worden er in de maand juli weinig uren gemaakt, veel patiënten en zijn dan op vakantie en in sommige perioden is de praktijk enkele weken dicht. Normaal gesproken is de MLP prima in staat dit patroon te herkennen en word dit fenomeen automatisch meegenomen in de voorspelling. Echter, doordat de zomervakantie periode om de zoveel tijd rouleert, kan het zijn dat de MLP niet in staat is dit te herkennen. Dit kan worden opgelost door een extra attribuut aan de dataset toe te voegen dat aangeeft of de betreffende maand een vakantiemaand was.


Pagina 9

2.3. Procedure

dus ook deze intervention variables voorspeld

De datamining stappen die zijn gevolgd zijn

worden.

naar voorbeeld van het model van Fayyad, Piatetsky-Shapiro (1996). Hun framework lijkt op de, door de industrie ontwikkelde, proces modellen zoals CRISP-DM en SEMMA maar gebruiken een taal die meer gericht is op de eindgebruiker (Zorrilla, 2013).

Op het moment van schrijven is het niet mogelijk om dit in WEKA te automatiseren. Hieronder is de recursieve procedure beschreven om tot het resultaat te komen zoals beschreven in dit onderzoek. Men voorspelt de volgende maand telkens op basis van de

In bijlage 3 is de configuratie van WEKA

huidige maand. Als men twee maanden (M+2)

beschreven, er is aangegeven welke waarden

wil voorspellen, dan moet hiervoor eerst de

zijn gebruikt om tot het resultaat te komen.

volgende maand (M+1) voorspeld worden. Dit heet een one-step-ahead voorspelling.

2.3.1. One-step-ahead voorspelling Zoals eerder beschreven worden intervention

Handmatig ziet het proces er als volgt uit:

variables gebruikt, zie paragraaf 2.2.4. Overlay data. In dit onderzoek zijn dit: FirstConsults, AllViewsSiteA, AllViewsSiteB, PaidViewsSiteA, PaidViewsSiteB en PaidAmountPapers. Deze variabelen moeten bekend zijn voor de te voorspellen maand. De volgende maand (M+1) word bijvoorbeeld voorspeld op basis van de huidige maand (M) plus de 12 voorgaande maanden (M-12), dan zijn de intervention variables van M+1 nog onbekend. Immers, deze maand moet nog gaan plaatsvinden en bijvoorbeeld de website bezoeken kunnen nog niet zijn waargenomen. Om het aantal BillableHours te kunnen voorspellen moeten

1. One-step-ahead voorspelling van BillableHours op basis van de genoemde intervention variables van de laatst bekende maand (M) 2. Per intervention variable een one-stepahead voorspelling op basis van de overige intervention variables plus BillableHours 3. Toevoegen van de verkregen waarden uit bovenstaande stappen voor de nieuwe maand M+1 aan de dataset 4. Dit proces x aantal keer herhalen voor het voorspellen van de maand M+x


Pagina 10

3. Resultaten In dit hoofdstuk worden de resultaten van de WEKA forecaster plugin beschreven. De gebruikte dataset en instellingen zijn in bijlage 2 besproken. V1: Kan het aantal BillableHours voor het volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin?

In figuur 1 zijn in het rood de werkelijke waarden voor BillableHours te zien, de blauwe lijn is de MLP geleerde voorspelling. Hoe dichter deze twee lijnen bij elkaar liggen, hoe beter de MLP “geleerd” heeft en hoe zinvoller de resultaten zijn. Om te controleren of de voorspellingen betrouwbaar zijn, zijn de laatste 10 maanden uit de trainingset gehaald en worden deze maanden feitelijk als testset gebruikt om de effectiviteit te bepalen. Zoals duidelijk te zien is ligt de voorspelling erg dichtbij de werkelijke waarden. De root mean squared error (RMSE) voor de one-step-ahead voorspelling is 3,41. Dat wil zeggen dat de voorspelling voor juli op basis van juni 3,41 boven of onder de werkelijke waarde uit kan liggen. Voor dit onderzoek is dat een zeer acceptabele waarde.

Figuur 1 – De prestatie van de MLP (blauw) ten opzichte van de werkelijke waarden (rood)

De attributen blijken een sterke correlatie te hebben. Date en FirstConsults gecombineerd hebben een correlatie coëfficiënt van r=0,657 op BillableHours met een RMSE van 25,58. Alle attributen samen hebben een correlatie coëfficiënt van r=0,722 en een RMSE van 23,48. Het bewijs van dit resultaat is te zien in figuur 5 en 6 in bijlage 1. Deze gevonden resultaten ondersteunen de voorspelling resultaten van de forecaster plugin, welke op basis van de overlay data rekening houdt met deze gevonden correlaties. Als de overlay data niet word gebruikt ziet het model er heel anders uit en word de fouten marge groter. De effectiviteit van het model neemt drastisch af zoals duidelijk te zien is in figuur 2. Het verschil tussen de voorspelling en de werkelijke waarden ligt tussen de 20 en 60 uur. In figuur 3 is een grafiek van BillableHours te zien mét overlay data, de prestaties zijn duidelijk beter.


Pagina 11

Figuur 2 – Prestatie zonder overlay data

In figuur 3 zijn in het rood wederom de werkelijke waarden voor BillableHours te zien en is de blauwe lijn is de MLP geleerde voorspelling. Het blauwe gebied geeft aan waar de werkelijke voorspelling begint. Zoals goed te zien is volgt de voorspelling het patroon. De voorspelling ligt hoger dan werkelijk het geval is, in het volgende hoofdstuk wordt besproken waarom dit zo is.

Figuur 3 – Prestatie met overlay data

Figuur 1 geeft aan in hoeverre: de MLP geleerd heeft, de werkelijke data correleert, bepaalde patronen te herkennen zijn. Hieronder worden de resultaten weergegeven van de voorspelling van één kwartaal. In figuur 4 zijn de stappen uit de procedure - beschreven in paragraaf 2.3.1 - toegepast voor de komende vier maanden, deze maanden vallen in het blauwe gebied. Het is duidelijk te zien dat de eerste maanden bijna exact overeenkomen. In februari 2014 is een foute voorspelling te zien, de voorspelde waarde ligt hier 28 uur onder de werkelijke waarde.


Pagina 12

Figuur 4 – Voorspelling van het volgende kwartaal

V2: In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? In dit onderzoek is er met de gegeven dataset geen significante correlatie gevonden tussen de online attributen PaidViewsSiteA, PaidViewsSiteB en BillableHours. Er blijkt een zwakke positieve correlatie van r=0,129 te zijn tussen het offline attribuut PaidAmountPapers en BillableHours. Een klein deel van het aantal gefactureerde is dus te verklaren door krantenadvertenties. Verder blijkt er een zwakke positieve correlatie van r=0,319 te bestaan van PaidAmountPapers op AllViewsSiteA en AllViewsSiteB. Dit geeft aan dat er een verband is tussen offline richting online, het aantal website bezoekers kan voor een deel verklaard worden door offline advertenties.

V3: Heeft de verzekering van een patiënt invloed op het aantal zittingen? Op basis van de verzekerings dataset is er gekeken naar de relatie tussen de verzekering en het aantal zittingen van patiënten. De andere attributen in de dataset (laatste deel van paragraaf 2.1.1) zijn gebruikt om onderscheid te kunnen maken in persoonseigenschappen, zoals geslacht. Er is een zeer zwakke correlatie van r=0,0021 gevonden tussen de verzekeringen van de patiënt en het aantal zittingen dat de patiënt in totaal heeft gehad. Een mogelijke verklaring van deze zwakke correlatie is het geringe aantal instances in de dataset. Als er een relatie te vinden zou zijn, dan zou er waarschijnlijk een veel groter aantal instances nodig zijn om dit aan te kunnen tonen.


Pagina 13

4. Conclusie V1: Kan het aantal BillableHours voor het

zo wellicht verkleind kunnen worden met deze

volgende kwartaal nauwkeurig voorspeld

extra data.

worden m.b.v. de WEKA forecasting plugin? Uit figuur 4 blijkt dat datamining technieken De attributen in de dataset verklaren 52,1%

zoals MLP de toekomst van een periode zoals

(r = 0,722) van de totale variantie in

een kwartaal met een zekere accuraatheid kan

BillableHours. Een deel wordt verklaard door

voorspellen. Deze voorspellingen kunnen een

het attribuut FirstConsults en is daardoor een

cruciale rol spelen in het maken van de juiste

goede indicator voor het managen van de

voorspellingen. Dit beantwoordt de hoofdvraag

bedrijfsprestatie. Dit komt waarschijnlijk

op een positieve manier. Er moet wel

omdat de aanmelding van een nieuwe patiënt

aangetekend worden dat niet alle perioden

over een langere periode voor een toename in

even goed voorspeld kunnen worden, er zal

uren zorgt, daarnaast telt dit eerste consult ook

altijd een onzekerheid zitten in de

direct mee in het aantal gefactureerde uren. Het

voorspellingen en deze onzekerheid zal groter

tellen van de patiënten aan het begin van de

worden naarmate de tijd vordert. Extra

maand heeft dus een voorspellende waarde.

onderzoek zou meer inzicht kunnen geven in

Naar mate de maand vordert word het steeds

de “houdbaarheid” van de voorspellingen en

duidelijker wat de prestatie van de maand zal

het praktisch gebruik ervan.

zijn. V2: In welke mate hebben online en offline De voorspelling in figuur 3 neigt boven de

advertenties invloed op de voorspelling in

werkelijke waarden te zitten. Dit komt omdat

deelvraag 1?

het model de hoge pieken van de periode voor juli 2011 verwacht en minder waarde hecht aan de lagere periode in 2012-2013. Indien er een subset wordt gemaakt van de periode 20122013, dan word ook de negatieve trend in deze jaren meegenomen in de voorspelling. De algemene trend die in figuur 3 te zien is, lijkt voor een groot deel overeen te komen met conjunctuur trends zoals het BBP en het consumentenvertrouwen van het CBS. In toekomstig onderzoek zouden deze als extra attributen kunnen functioneren, deze externe bronnen voegen extra informatie aan de dataset toe. De afwijking die in figuur 3 te zien is zou

Er blijkt een kleine correlatie (r = 0,129) te zijn tussen krantenadvertenties en het aantal gemaakte uren. Slechts 1,7% van PaidAmountPapers verklaart de totale variantie van BillableHours. Dit wil niet meteen zeggen dat advertenties niet werken of overbodig zijn. Er kan niet verwacht worden dat advertenties direct resultaat hebben, het effect werkt vaak op de lange termijn, op het moment dat een patiënt de advertentie meerdere malen heeft gezien. Het effect op de voorspelling in deelvraag 1 is dus klein, maar dit aantoonbare inzicht is een bruikbaar


Pagina 14

gegeven omdat men tijdens het adverteren in

V3: Heeft de verzekering van een patiënt

het achterhoofd kan houden dat het effect

invloed op het aantal zittingen?

vertraagd is. Aangenomen werd dat patiënten met een Verder kan 10,2% (r = 0,319) van de totale

betere polis meer zittingen konden

variantie van de online betaalde bezoekers

veroorloven. Dit kwam echter niet uit de

(AllViewsSiteA, AllViewsSiteB) verklaard

resultaten naar voren. Een verklaring voor de

worden door PaidAmountPapers.

resultaten is dat het aantal instances in de

Krantenadvertenties bepalen dus voor een deel

dataset te klein was voor een dergelijke

ook het aantal website bezoekers. Als men dus

voorspelling. Ook is het niet duidelijk of de

kijkt naar de prestaties van de website dan

aanvullende verzekeringen in de dataset

dient er rekening gehouden te worden met de

compleet zijn. Als in de toekomst de gegevens

invloed van krantenadvertenties in een

van gelijksoortige casussen samengenomen

bepaalde periode.

zouden worden, dan zou er wellicht een relatie gevonden kunnen worden.


Pagina 15

5. Discussie In dit onderzoek is een poging gedaan om een

fijnmazigere data. Als bijvoorbeeld de te

indruk te krijgen van de mogelijkheden en

meten attributen op een kleinere schaal waren

effectiviteit van enkele datamining algoritmen.

vastgelegd, zoals per dag in plaats van per

Het doel was om mensen te informeren die

maand, zou dit waarschijnlijk bij hebben

weinig verstand hebben van de mogelijkheden.

gedragen aan accuratere voorspellingen en

Indien men enigszins verstand heeft van

methoden. Verder hadden extra attributen,

datamining en met WEKA om kan gaan, dan is

zoals het aantal vakantie dagen in een maand,

het niet moeilijk om de besproken

meer informatie aan de dataset kunnen geven.

experimenten zelf uit te voeren. De ervaring is

Helaas was het niet mogelijk om alle

wel dat er gemakkelijk fouten gemaakt kunnen

vakantiedagen tot aan 2007 exact terug te

worden. Ook kan het interpreteren van de

vinden.

resultaten problemen opleveren. Men kan, bij

De gegevens in de verzekeringsdataset waren

het gebrek aan specifieke kennis, om deze

niet representatief genoeg voor een gedegen

reden beter een (klein) consultancy bedrijf

onderzoek. Het is mogelijk dat er met een

inhuren die zich met datamining bezighoudt.

grotere hoeveelheid instances in deze dataset

Zoals aangetoond kan de kennis van eigen

wél een resultaat geboekt had kunnen worden.

bedrijfsprocessen het verschil maken en dus de

De correlaties tussen de praktijkuren en de

investering terugverdienen.

advertenties, zoals onderzocht in deelvraag 2, zijn erg zwak. Dit is te verklaren omdat enkel

In de toekomst zullen er meer online datamining services ontstaan. In het onderzoek van Zorrilla, et al. (2013) heeft men gekeken naar de mogelijkheid om niet-experts te laten werken met een online Platform-as-a-Service datamining systeem. Doormiddel van zogeheten templates kan de gebruiker de juiste

de waarden binnen een maand vergeleken zijn. In vervolgonderzoek zou er gekeken kunnen worden naar het effect van reclame op de bedrijfsprestaties over een langere periode zoals, bijvoorbeeld, een kwartaal. Door de juiste lags te creëren kan er wellicht een betere correlatie gevonden worden.

beslissingen maken. Dit werkt echter alleen voor generieke vraagstukken, voor specifieke

Datamining is een wetenschappelijk

problemen zal een datamining specialist

onderzoeksveld maar gaat in de praktijk

ingehuurd moeten worden.

grotendeels over het tweaken van configuraties. Het toevoegen of weglaten van

Op het vlak van praktische en concrete toepassingen is nog meer onderzoek te verrichten. Een vervolgonderzoek zou grotere kwantiteiten data moeten bevatten evenals

attributen heeft grote effecten op correlaties, om nog niet te spreken over het verschil tussen de verschillende lerende algoritmen. Het vinden van de juiste configuratie kost het


Pagina 16

meeste tijd en kan vaak lang geperfectioneerd

leiden tot de juiste besluitvorming. Op het

worden. In dit onderzoek is er gebruik gemaakt

moment dat de modellen consequent af gaan

van de in WEKA ingebouwde technieken, dit

wijken van de werkelijkheid zal er controle

programma is echter constant in ontwikkeling.

moeten worden uitgevoerd, mogelijk is er een

In het datamining onderzoeksveld blijven ook

nieuw factor bijgekomen met significante

nieuwe ontwikkelingen plaatsvinden. Andere

invloed die de resultaten veranderd. Het is dus

(nieuwe) technieken kunnen wellicht voor nog

raadzaam om altijd objectief te blijven

betere resultaten zorgen.

controleren of de werkelijkheid nog met de voorspellingen overeenkomt.

De resultaten uit dit onderzoek zouden voor een langere tijd geëvalueerd moeten worden om zeker te zijn van de accuraatheid. De modellen zijn pas echt bruikbaar voor business analytics op het moment dat de voorspelling


Pagina 17

6. Begrippen Adwords – Adverteer programma van Google. Advertenties met door de adverteerder opgegeven zoekwoorden komen naast de gewone zoekresultaten te staan. De adverteerder betaalt per klik. Artificial Neural Network – Computer model geïnspireerd op de neurale netwerken van hersenen. Deze netwerken van nodes (neuronen) kunnen patronen herkennen door te leren welke paden in het netwerk tot het juiste resultaat leiden. Paden die niet het gewenste effect opleveren krijgen doormiddel van backpropagation een lagere waarde. De hidden layer is een laag met een aantal nodes tussen de input nodes en de output node. BBP –Bruto Binnenlands Product Business Intelligence tools – Technieken en technologieën die data uit operationele systemen en externe bronnen analyseren. De informatie van verschillende bronnen genereert kennis voor het maken van beslissingen in bedrijven. Deze kunnen managers helpen om betere en effectieve beslissingen te nemen. Lagged variable – Zorgt voor de relatie tussen de huidige tijd serie en de voorgaande tijd series. In WEKA zorgt deze variabele voor de hoeveelheid tijdseenheden, ook wel “windows” genoemd. Voor de periodiciteit van een maand wordt er bijv. een lag gemaakt alle maanden in de jaren of per kwartaal Overfitting – Beschrijft een fenomeen waar een model fouten of ruis opneemt in plaats van de onderliggende relatie. Overfitting ligt op de loer als het model complexer dan nodig word. Platform as a service – Het aanbieden van een computerplatform op een cloud computing netwerk. Het computerplatform bestaat uit verschillende software componenten die samen bepaalde taken op aanvraag kunnen uitvoeren. Root mean squared error (RMSE ) – Het gemiddelde verschil tussen de voorspelde en geobserveerde waarden. Kan gebruikt worden om de accuraatheid van een attribuut van forecasting model met een ander model te vergelijken. Hoe kleiner de waarde, hoe groter de accuraatheid. Time series and Forecast plugin – Plug-in voor WEKA 3.7, te installeren vanuit de package manager. Deze plug-in neemt een aantal problemen, die met Time series te maken hebben, uit handen.


Pagina 18

7. Bibliografie Larose, D. T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley. Leeuw, A. d. (1982). Organisaties: management, analyse, ontwerp en verandering. Assen : Van Gorcum. U.M. Fayyad, G. P.-S. (1996). Advances in Knowledge Discovery and Data Mining. Boston: MIT Press. Yang, Q. W. (2006). 10 Challenging problems in data mining research. Journal of Information Technology & Decision Making 5, 598-599. Zorrilla, M., & García-Saiz, D. (2013, April). A service oriented architecture to provide data mining services for non-expert data miners. Decision Support Systems, 55(1), pp. 399-411.


Pagina 19

8. Bijlagen Bijlage 1 – WEKA correlaties BillableHours

Figuur 5

Figuur 6


Pagina 20

Bijlage 2 – WEKA configuratie 2.1. Basis instellingen Voor het voorspellen van het verwachte aantal BillableHours in de komende maanden maken wordt er gebruik gemaakt van de WEKA Time series and Forecast plugin. In de basisinstellingen van deze plugin is BillableHours ingesteld als target, met als parameters het aantal te voorspellen maanden, het Date attribuut als timestamp, en maandelijks als periodicity. Om meer informatie te krijgen over de effectiviteit is ook perform evaluation aangevinkt. In de geavanceerde instellingen is gekozen voor de MultilayerPerceptron. 2.2. MLP Configuratie In het tabblad advanced configuration is bij base learner de MultilayerPerceptron ingesteld als classifier. 2.3. Geavanceerde configuratie De periodicity uit de basisinstellingen zorgt ervoor dat de lags in het tabblad lag creation al op de juiste manier ingesteld zijn. In het tabblad overlay data is alles aangevinkt, zie §2.2.4. voor meer informatie over overlay data. Een voorwaarde voor overlay data is dat het te voorspellen attribuut onbekend is voor de voorspellen periode, terwijl de overlay attributen wél bekend moeten zijn. Dit is geïllustreerd in figuur 7, waar de te voorspellen BillableHours vanaf juli 2013 t/m april 2014 missen, in de ARFF datafile worden deze missende velden met een vraagteken gemarkeerd.

Figuur 7 – Weergave van de data

Het is belangrijk dat in het tabblad evaluation het veld voor “evaluate on hold out training” overeenkomt met het aantal te voorspellen maanden, in bovenstaand geval is dat 10. Ook moet het veld “number of time unit to forecast” in de basisinstellingen overeenkomen. In het tabblad output zijn zowel output- als graph predictions at step aangevinkt en is voor beide instellingen het veld target to op BillableHours gezet.


Pagina 21

Het gebruik van datamining als predictive analytic voor dienstverleners

Recommend Documents