Het gebruik van datamining als predictive analytic voor dienstverleners
Juni 2014
Bachelor scriptie Informatiekunde Faculteit der Natuurkunde, Wiskunde en Informatica Universiteit van Amsterdam
J.R. Tromp
dr. M.W. van Someren
Student
Begeleider
[email protected]
[email protected]
Studentnummer: 6353770
Inhoudsopgave 0. Samenvatting ....................................................................................................................................... 3 1. Inleiding .............................................................................................................................................. 4 1.1. Aanleiding .................................................................................................................................... 4 1.2. Doelstelling .................................................................................................................................. 5 1.3. Onderzoeksvraag .......................................................................................................................... 5 1.3.1. Vraagstelling ......................................................................................................................... 5 1.3.2. Deelvragen............................................................................................................................. 5 1.4. Relevantie ..................................................................................................................................... 6 2. Methode ............................................................................................................................................... 7 2.1. Data .............................................................................................................................................. 7 2.1.1. Datasets ................................................................................................................................. 7 2.2. Meting .......................................................................................................................................... 8 2.2.1. Data ....................................................................................................................................... 8 2.2.3. Machine Learning.................................................................................................................. 8 2.2.3.1. MultilayerPerceptron .......................................................................................................... 8 2.2.4. Overlay data .......................................................................................................................... 9 2.2.5. Gebeurtenissen ...................................................................................................................... 9 2.3. Procedure .................................................................................................................................... 10 2.3.1. One-step-ahead voorspelling ............................................................................................... 10 3. Resultaten .......................................................................................................................................... 11 4. Conclusie ........................................................................................................................................... 14 5. Discussie............................................................................................................................................ 16 6. Begrippen .......................................................................................................................................... 18 7. Bibliografie........................................................................................................................................ 19 8. Bijlagen ............................................................................................................................................. 20 Bijlage 1 – WEKA correlaties BillableHours ................................................................................... 20 Bijlage 2 – WEKA configuratie ........................................................................................................ 21 2.1. Basis instellingen .................................................................................................................... 21 2.2. MLP Configuratie................................................................................................................... 21 2.3. Geavanceerde configuratie ..................................................................................................... 21
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 2
0. Samenvatting Datamining is een breed onderzoeksveld in het domein van computer science en artificial intelligence. Datamining technieken kunnen gebruikt worden om interessante patronen te vinden in datasets. Grote bedrijven zoals Albert Heijn maken al langer gebruik van machine lerende datamining technieken en kunnen daardoor in hun bedrijfsproces betere beslissingen maken. Kleine dienstverleners hebben vaak weinig middelen, en trachten deze daarom zo efficiënt mogelijk te gebruiken. Datamining kan helpen om patronen te herkennen en daarmee inzicht te geven in bedrijfsprocessen. In dit onderzoek wordt gekeken naar de waarde van datamining voorspellingen in een casus. De casus is een eerstelijns hulpverleningspraktijk. Er wordt onderzocht of het mogelijk is om het maandelijkse aantal declareerbare uren te voorspellen. Met behulp van het programma WEKA 3.7 en de Time series and forecaster plugin worden een aantal voorspellingen gedaan en worden de resultaten geëvalueerd. De datasets waarmee wordt geëxperimenteerd bevat onder andere de prestaties van de praktijk per maand, de website en advertentie-resultaten.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 3
1. Inleiding “Scienta Potentia Est” - Francis Bacon (1597) “Kennis is macht” aldus Francis Bacon. Hoe
inzichten voor besluitvorming. Het gebruik van
meer men weet, hoe beter men kan handelen.
business intelligence tools is de laatste jaren
Als bedrijf kan men het beste grip krijgen op
nog nooit zo hoog geweest als reactie op de
bedrijfsprestaties door de klanten te kennen, de
onzekerheid van de economische crisis
omgeving te begrijpen en de volgende stap van
(Larose, 2004). Datamining bestaat relatief
de concurrent te weten. Het is dus logisch dat
gezien nog niet zo lang, het is daarom ook nog
grote bedrijven verschillende bronnen
niet zo lang dat universiteiten vakken en
gebruiken om voorspellingen te doen en
opleidingen zijn gaan ontwikkelen op het
daarmee hun toekomst veilig te stellen. Albert
gebied van datamining (Larose, 2004). De
Heijn maakt op grote schaal gebruik van een
invloed van datamining is nog niet overal
bonuskaart systeem, waarmee men informatie
binnen de dienstverlening doorgedrongen,
van de koper verkrijgt in ruil voor een kleine
maar dat zal in de toekomst wel steeds meer
bonus. De data die men hiermee vergaart kan
gaan gebeuren.
met behulp van datamining technieken omgezet worden naar informatie en, uiteindelijk, naar kennis. Kennis die men gebruikt om beter op nieuwe en bestaande klanten in te spelen en om de concurrentie het hoofd te kunnen bieden.
Voor kleine bedrijven is het nog minder vanzelfsprekend om actief bedrijfsprocessen te beheersen. Kleine en zelfstandige dienstverleners houden zich amper bezig met het voorspellen van bedrijfsprocessen. Men heeft niet de kennis noch de middelen om hier
In dit verslag komen een aantal technische
op in te zetten, daarbij komt dat het vaak
termen voor. Deze termen worden in de tekst
onduidelijk is wat er tegenwoordig allemaal
soms cursief gemarkeerd. In hoofdstuk 6
mogelijk is. Hierdoor loopt men de kans mis
worden een aantal van deze begrippen nader
om bedrijfsprocessen te optimaliseren en te
toegelicht.
zorgen voor een stabielere, en dus betere, bedrijfsvoering. Men houdt vaak wel bij wat de
1.1. Aanleiding Voor grote bedrijven is het een must om bedrijfsprocessen te beheersen door voorspellingen te doen, om zo hun positie te
prestaties en bedrijfsresultaten zijn, maar men kan er moeilijk beleid op afstemmen omdat er vaak geen directe patronen zichtbaar is.
versterken. Sinds de jaren 90 is er over de
In dit onderzoek wordt een casus besproken.
gehele linie een sterke vraag geweest naar
Het bedrijf dat word beschouwd is een praktijk
accurate en betrouwbare kennis voor
voor eerstelijns hulpverlening. Hier zijn twee
bedrijfsvoering en het ontdekken van nieuwe
personen werkzaam op 2 verschillende
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 4
locaties. De bedrijfsprestaties van deze casus
paragraaf 2.3. Procedure beschreven. Er is in
vormen de datasets voor dit onderzoek.
de 2e bijlage getracht om aan te geven welke stappen nodig zijn om tot eenzelfde experiment
1.2. Doelstelling In dit onderzoek wordt gekeken naar de mogelijkheden van datamining technologieën, om zinnige conclusies te kunnen trekken uit de
te komen. Vanaf hoofdstuk 3. Resultaten worden de vindingen besproken en de (deel)vragen beantwoord.
bestaande bedrijfsprestaties. Door gebruik te
1.3. Onderzoeksvraag
maken van lerende algoritmes op het gebied
De belangrijkste voorwaarde voor de
van datamining kan informatie worden
onderzoeksvraag is dat de experimenten
vergaard uit - op het eerste oog - nietszeggende
resultaten opleveren die aantoonbaar inzicht
data. Kennis en inzicht zouden een ondernemer
geven om te gebruiken in bedrijfsprocessen.
kunnen helpen om een betere beslissing te
Om aan te tonen welke voordelen datamining
nemen. De Leeuw (1982) gaf 32 jaar geleden
zouden kunnen hebben, is de volgende
al aan dat informatie een van de belangrijkste
vraagstelling opgesteld.
middelen is die het management tot zijn beschikking heeft, dit gezien het feit dat de analyse van informatie helpt bij effectieve besluitvorming. Door datamining in te zetten kunnen bepaalde relaties aan het licht worden gebracht, die anders niet ontdekt zouden
1.3.1. Vraagstelling Op welke manier kunnen datamining technieken ingezet worden voor het creëren van nieuwe beslissing gevende inzichten voor kleine dienstverleners?
worden. De doelgroepen voor dit onderzoek
Om antwoord te geven op deze vraagstelling
zijn ondernemers en dienstverleners, die meer
zijn de volgende deelvragen opgesteld.
willen weten over de mogelijkheden van datamining technieken en de effectiviteit ervan. Verder is dit onderzoek gericht op Informatiekunde studenten die zich
1.3.2. Deelvragen Deze deelvragen zijn specifiek en meetbaar zodat deze met een experiment onderzocht kunnen worden:
specialiseren in bedrijfskundige aspecten. 1. Kan het aantal BillableHours voor het Dit verslag is als volgt opgebouwd: in paragraaf 2.1 Data worden de datasets besproken en in paragraaf 2.2. Meting de gebruikte software en technieken. Deze paragrafen zijn bedoeld om een uitleg te geven over de gebruikte componenten in de experimenten en kan door een dataminingexpert wellicht worden overgeslagen. De
volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin? 2. In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? 3. Heeft de verzekering van een patiënt invloed op het aantal zittingen?
uitvoering van de experimenten wordt in
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 5
1.4. Relevantie Door in dit onderzoek specifiek te richten op één casus geeft dit onderzoek informatie over de datamining mogelijkheden op een gedetailleerd niveau. Een breed onderzoek met meerdere casussen is omwille van tijd en verschillen in configuratie niet mogelijk. Echter, als blijkt dat er technieken zijn die bij één casus werken, dan is er een grote kans dat dit ook op andere casussen toepasbaar is. In de dienstensector spelen bij bedrijfsprocessen vaak dezelfde attributen een rol, de voorspellingen in dit onderzoek zijn daarom mogelijk dus ook relevant voor andere beroepsgroepen in de dienstensector. Er is in de literatuur onderzoek gedaan naar praktische toepassingen voor datamining gericht op bedrijfsprocessen. Het merendeel van de literatuur gaat over het ontwikkelen van frameworks en toepassingen voor grote bedrijven. Er lijkt echter nog weinig onderzoek te zijn gedaan naar de bruikbaarheid van datamining op kleine schaal of gericht op dienstverleners. De experimenten in dit onderzoek zijn uitgevoerd op basis van het framework zoals geformuleerd in het werk van Fayyad, Piatetsky-Shapiro (1996). Dit framework dwingt de dataminer bij elke stap een bepaald aantal keuzes te maken. Volgens Yang, et al. (2006) wordt Time Series datamining bemoeilijkt door de ruis, die inherent is aan Time Series data. In paragraaf 2.2.4. Overlay word beschreven wat er is gedaan om dit probleem te omzeilen.
Weka 3.7 – Forecast plugin is het meest rechtse tabblad
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 6
2. Methode De onderzoeksfunctie van dit onderzoek is
WEKA. In de volgende paragrafen worden de
evaluerend, in dit onderzoek wordt geprobeerd
verschillende datasets besproken.
een waarde te geven aan het gebruik van datamining technieken. Het onderliggende doel
2.1.1. Datasets De Performance dataset is de primaire bron
is te kijken of de technieken effectief genoeg
voor dit onderzoek en geeft informatie over het
zijn om iets over de werkelijkheid te kunnen
totaal aantal gewerkte uren en het aantal
zeggen. Verder wordt er gekeken naar
nieuwe aanmeldingen (eerste consulten) per
verschillende beschikbare technieken en configuraties om de effectiviteit vast te stellen. In deze zin is de functie van dit onderzoek vergelijkend. Het is een kwantitatief
maand in de periode januari 2007 t/m april 2014. De dataset telt 88 instances, gelijk aan het aantal maanden in deze periode. Alle attributen zijn per maand. Per maand is verder
onderzoek, voor het vaststellen van de
de hoeveel website bezoekers aangegeven, en
effectiviteit is gebruik gemaakt van zo veel
de hoeveel bezoekers die afkomstig waren van
mogelijk data.
online reclame zoals Adwords campagnes.
2.1. Data
Deze online advertenties, samen met de
De datasets die in dit onderzoek gebruikt
maandelijkse kosten van kranten advertenties,
worden zijn afkomstig uit de boekhouding van
worden gebruikt om te bekijken in welke mate
de casus, de data zijn beschikbaar vanaf 2007.
reclame invloed heeft op het aantal patiënten.
Voor dit onderzoek wordt gebruik gemaakt van
De belangrijkste attributen zijn het aantal
verschillende datamining technieken die onder
patiënten en het aantal nieuwe aanmeldingen in
zijn gebracht in het programma WEKA 3.7 van
een periode. Alle attributen zijn beschreven in
de Universiteit van Waikato. De datasets zijn
onderstaande tabel. Het primaire doel van de
in gestructureerd in het ARFF formaat,
dataset is het aantal BillableHours voor de
waardoor deze direct te bruikbaar zijn in
toekomstige maanden te kunnen voorspellen.
Attributen
Beschrijving
FirstConsults
Het aantal nieuwe aanmeldingen
Date
Alle maanden van januari 2007 t/m april 2014 in het formaat yyyy-mm-dd
AllViewsSiteA
Totaal aantal bezoekers op de website van locatie A
AllViewsSiteB
Totaal aantal bezoekers op de website van locatie B
PaidViewsSiteA
Aantal betaalde Adwords bezoekers op de website van locatie A
PaidViewsSiteB
Aantal betaalde Adwords bezoekers op de website van locatie B
BillableHours
Het totaal aantal gefactureerde uren
PaidAmountPapers
Bedrag in euro’s betaald aan advertenties in kranten op verschillende locaties. Het gaat hier om het bedrag in de maand waarin de advertentie geplaatst is.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 7
Naast de primaire performance dataset is er
gekozen algoritme en voorspelt aan de hand
nog de kleinere verzekerings dataset, deze
van de uitkomsten de toekomst.
bestaat respectievelijk uit: het geslacht, een van de drie behandellocaties, verzekeraar, het type polis, de eerste behandeldatum en het aantal afspraken per patiënt. Er zijn geen persoonsgegevens opgenomen waardoor de dataset anoniem is. De dataset bestaat uit 69 instances. Het verzekeraar attribuut bevat 20 unieke verzekeraars, al dan niet in combinatie met een van de 4 geregistreerde aanvullende
2.2.3. Machine Learning Zonder datamining is het vaak lastig om diepliggende relaties uit grote datasets te vergaren. De machine learning technieken die in WEKA zijn ingebouwd kunnen ingewikkelde patronen herkennen en zijn voor dit project daarom uitermate geschikt. Welke techniek het beste werkt verschilt per probleem en dataset. Dit onderzoek richt zich op enkele
verzekeringen. Het doel van deze dataset is om
bewezen effectieve algoritmen die goed
de verzekering op basis van de andere
werken op de besproken datasets, zoals MLP.
attributen te voorspellen.
2.2. Meting 2.2.1. Data Om in WEKA te kunnen voorspellen hoe de
2.2.3.1. MultilayerPerceptron De MultilayerPerceptron (MLP) is een uitvoering van een neuraal netwerk waarbij het mogelijk is om meerdere nodes te gebruiken in
toekomst eruit ziet wordt de Time series and
de hidden layer. Door middel van
Forecast plugin gebruikt. Dit is nodig omdat
backpropagation krijgen zwakke verbindingen
WEKA zelf geen perioden in data kan
minder waarde dan sterke verbindingen. In het
herkennen. Hiervoor moeten Lags (time
boek “Discovering Knowledge in Data, an
windows) gecreëerd worden. Een lag beslaat
Introduction to Data Mining” (Larose, 2004)
een bepaalde periode zoals een week, maand of
staat meer informatie over deze techniek en de
kwartaal. De forecast plugin maakt
begrippen. MLP werkt goed voor deze dataset
automatisch verschillende lags aan op basis
omdat er geen onderliggend model
van de dataset. Lags kunnen elkaar
gedefinieerd hoeft te worden die de dataset
completeren, zodat vier kwartalen samen
beschrijft. Het nadeel van “modelloze”
twaalf maanden bevatten. Lags kunnen elkaar
technieken is dat de relatie tussen attributen
ook overlappen, in welk geval de eerste lag
niet direct duidelijk word. Dit soort
januari t/m april kan beslaan en de tweede lag
voorspellingen wordt daarom, net zoals het
februari t/m mei. Hoe meer lags er zijn hoe
weerbericht, steeds onbetrouwbaarder naar
groter de kans dat er een patroon te vinden is.
mate de tijd vordert. Door met behulp van
Echter, als er te veel lags gebruikt worden ligt
overlay data extra informatie toe te voegen,
overfitting op de loer, door ruis zal dit de
kunnen de onderliggende modellen aan het
kwaliteit van de voorspelling verlagen. De
licht worden gebracht.
plugin berekent voor alle verschillende lags het
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 8
2.2.4. Overlay data Omdat modelloze technieken geen
september 2008 tot op heden heerst zullen de
onderliggende modellen gebruiken kan het zijn
er geen crisis was geweest. De effecten van de
dat bias of ruis invloed heeft op de
crisis hebben effect op website bezoeken,
voorspelling. Yang, et al. (2006) beschrijven
daarom is de verwachting dat het aantal
dit als volgt in hun zoektocht naar de 10
website bezoekers iets zegt over
grootste datamining uitdagingen: “Many time-
bedrijfsprestaties. Online en offline
series used for predictions are contaminated
advertenties kunnen ervoor zorgen dat de
by noise, making it difficult to do accurate
prestaties tijdelijk hoger zijn dan normaal, door
short-term and long-term predictions […]
deze als intervention variables te gebruiken
signal processing techniques, such as wavelet
wordt er in de voorspelling van BillableHours
analysis and filtering, can be applied to
rekening mee gehouden.
bedrijfsresultaten lager uitvallen dan wanneer
remove the noise”. Ter illustratie, een advertentie campagne kan pieken in resultaten veroorzaken. Als hier geen rekening mee wordt gehouden dan zal de MLP fouten maken door het model erop te fitten. Daarom wordt er gebruik gemaakt van overlay data. Er worden dan extra features toegevoegd die bepaalde afwijkingen compenseren en patronen zichtbaar maken. In de experimenten is BillableHours het te voorspellen attribuut, alle overige attributen worden gebruikt als overlay data. De attributen zijn gekozen vanwege hun voorspellende waarde en worden vanuit de literatuur intervention variables genoemd. Als er in een maand minder eerste consulten zijn, dan zullen er naar verwachting ook minder uren gemaakt worden. Ook moeten er externe factoren in beschouwing worden genomen: door de economische crisis die vanaf
2.2.5. Gebeurtenissen Bepaalde gebeurtenissen hebben vaak direct invloed op het patroon in de dataset. Het blijkt in deze casus dat de praktijk sterk afhankelijk is van seizoen variatie, zoals vakantieperioden. Vergeleken met de andere maanden worden er in de maand juli weinig uren gemaakt, veel patiënten en zijn dan op vakantie en in sommige perioden is de praktijk enkele weken dicht. Normaal gesproken is de MLP prima in staat dit patroon te herkennen en word dit fenomeen automatisch meegenomen in de voorspelling. Echter, doordat de zomervakantie periode om de zoveel tijd rouleert, kan het zijn dat de MLP niet in staat is dit te herkennen. Dit kan worden opgelost door een extra attribuut aan de dataset toe te voegen dat aangeeft of de betreffende maand een vakantiemaand was.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 9
2.3. Procedure
dus ook deze intervention variables voorspeld
De datamining stappen die zijn gevolgd zijn
worden.
naar voorbeeld van het model van Fayyad, Piatetsky-Shapiro (1996). Hun framework lijkt op de, door de industrie ontwikkelde, proces modellen zoals CRISP-DM en SEMMA maar gebruiken een taal die meer gericht is op de eindgebruiker (Zorrilla, 2013).
Op het moment van schrijven is het niet mogelijk om dit in WEKA te automatiseren. Hieronder is de recursieve procedure beschreven om tot het resultaat te komen zoals beschreven in dit onderzoek. Men voorspelt de volgende maand telkens op basis van de
In bijlage 3 is de configuratie van WEKA
huidige maand. Als men twee maanden (M+2)
beschreven, er is aangegeven welke waarden
wil voorspellen, dan moet hiervoor eerst de
zijn gebruikt om tot het resultaat te komen.
volgende maand (M+1) voorspeld worden. Dit heet een one-step-ahead voorspelling.
2.3.1. One-step-ahead voorspelling Zoals eerder beschreven worden intervention
Handmatig ziet het proces er als volgt uit:
variables gebruikt, zie paragraaf 2.2.4. Overlay data. In dit onderzoek zijn dit: FirstConsults, AllViewsSiteA, AllViewsSiteB, PaidViewsSiteA, PaidViewsSiteB en PaidAmountPapers. Deze variabelen moeten bekend zijn voor de te voorspellen maand. De volgende maand (M+1) word bijvoorbeeld voorspeld op basis van de huidige maand (M) plus de 12 voorgaande maanden (M-12), dan zijn de intervention variables van M+1 nog onbekend. Immers, deze maand moet nog gaan plaatsvinden en bijvoorbeeld de website bezoeken kunnen nog niet zijn waargenomen. Om het aantal BillableHours te kunnen voorspellen moeten
1. One-step-ahead voorspelling van BillableHours op basis van de genoemde intervention variables van de laatst bekende maand (M) 2. Per intervention variable een one-stepahead voorspelling op basis van de overige intervention variables plus BillableHours 3. Toevoegen van de verkregen waarden uit bovenstaande stappen voor de nieuwe maand M+1 aan de dataset 4. Dit proces x aantal keer herhalen voor het voorspellen van de maand M+x
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 10
3. Resultaten In dit hoofdstuk worden de resultaten van de WEKA forecaster plugin beschreven. De gebruikte dataset en instellingen zijn in bijlage 2 besproken. V1: Kan het aantal BillableHours voor het volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin?
In figuur 1 zijn in het rood de werkelijke waarden voor BillableHours te zien, de blauwe lijn is de MLP geleerde voorspelling. Hoe dichter deze twee lijnen bij elkaar liggen, hoe beter de MLP “geleerd” heeft en hoe zinvoller de resultaten zijn. Om te controleren of de voorspellingen betrouwbaar zijn, zijn de laatste 10 maanden uit de trainingset gehaald en worden deze maanden feitelijk als testset gebruikt om de effectiviteit te bepalen. Zoals duidelijk te zien is ligt de voorspelling erg dichtbij de werkelijke waarden. De root mean squared error (RMSE) voor de one-step-ahead voorspelling is 3,41. Dat wil zeggen dat de voorspelling voor juli op basis van juni 3,41 boven of onder de werkelijke waarde uit kan liggen. Voor dit onderzoek is dat een zeer acceptabele waarde.
Figuur 1 – De prestatie van de MLP (blauw) ten opzichte van de werkelijke waarden (rood)
De attributen blijken een sterke correlatie te hebben. Date en FirstConsults gecombineerd hebben een correlatie coëfficiënt van r=0,657 op BillableHours met een RMSE van 25,58. Alle attributen samen hebben een correlatie coëfficiënt van r=0,722 en een RMSE van 23,48. Het bewijs van dit resultaat is te zien in figuur 5 en 6 in bijlage 1. Deze gevonden resultaten ondersteunen de voorspelling resultaten van de forecaster plugin, welke op basis van de overlay data rekening houdt met deze gevonden correlaties. Als de overlay data niet word gebruikt ziet het model er heel anders uit en word de fouten marge groter. De effectiviteit van het model neemt drastisch af zoals duidelijk te zien is in figuur 2. Het verschil tussen de voorspelling en de werkelijke waarden ligt tussen de 20 en 60 uur. In figuur 3 is een grafiek van BillableHours te zien mét overlay data, de prestaties zijn duidelijk beter.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 11
Figuur 2 – Prestatie zonder overlay data
In figuur 3 zijn in het rood wederom de werkelijke waarden voor BillableHours te zien en is de blauwe lijn is de MLP geleerde voorspelling. Het blauwe gebied geeft aan waar de werkelijke voorspelling begint. Zoals goed te zien is volgt de voorspelling het patroon. De voorspelling ligt hoger dan werkelijk het geval is, in het volgende hoofdstuk wordt besproken waarom dit zo is.
Figuur 3 – Prestatie met overlay data
Figuur 1 geeft aan in hoeverre: de MLP geleerd heeft, de werkelijke data correleert, bepaalde patronen te herkennen zijn. Hieronder worden de resultaten weergegeven van de voorspelling van één kwartaal. In figuur 4 zijn de stappen uit de procedure - beschreven in paragraaf 2.3.1 - toegepast voor de komende vier maanden, deze maanden vallen in het blauwe gebied. Het is duidelijk te zien dat de eerste maanden bijna exact overeenkomen. In februari 2014 is een foute voorspelling te zien, de voorspelde waarde ligt hier 28 uur onder de werkelijke waarde.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 12
Figuur 4 – Voorspelling van het volgende kwartaal
V2: In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? In dit onderzoek is er met de gegeven dataset geen significante correlatie gevonden tussen de online attributen PaidViewsSiteA, PaidViewsSiteB en BillableHours. Er blijkt een zwakke positieve correlatie van r=0,129 te zijn tussen het offline attribuut PaidAmountPapers en BillableHours. Een klein deel van het aantal gefactureerde is dus te verklaren door krantenadvertenties. Verder blijkt er een zwakke positieve correlatie van r=0,319 te bestaan van PaidAmountPapers op AllViewsSiteA en AllViewsSiteB. Dit geeft aan dat er een verband is tussen offline richting online, het aantal website bezoekers kan voor een deel verklaard worden door offline advertenties.
V3: Heeft de verzekering van een patiënt invloed op het aantal zittingen? Op basis van de verzekerings dataset is er gekeken naar de relatie tussen de verzekering en het aantal zittingen van patiënten. De andere attributen in de dataset (laatste deel van paragraaf 2.1.1) zijn gebruikt om onderscheid te kunnen maken in persoonseigenschappen, zoals geslacht. Er is een zeer zwakke correlatie van r=0,0021 gevonden tussen de verzekeringen van de patiënt en het aantal zittingen dat de patiënt in totaal heeft gehad. Een mogelijke verklaring van deze zwakke correlatie is het geringe aantal instances in de dataset. Als er een relatie te vinden zou zijn, dan zou er waarschijnlijk een veel groter aantal instances nodig zijn om dit aan te kunnen tonen.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 13
4. Conclusie V1: Kan het aantal BillableHours voor het
zo wellicht verkleind kunnen worden met deze
volgende kwartaal nauwkeurig voorspeld
extra data.
worden m.b.v. de WEKA forecasting plugin? Uit figuur 4 blijkt dat datamining technieken De attributen in de dataset verklaren 52,1%
zoals MLP de toekomst van een periode zoals
(r = 0,722) van de totale variantie in
een kwartaal met een zekere accuraatheid kan
BillableHours. Een deel wordt verklaard door
voorspellen. Deze voorspellingen kunnen een
het attribuut FirstConsults en is daardoor een
cruciale rol spelen in het maken van de juiste
goede indicator voor het managen van de
voorspellingen. Dit beantwoordt de hoofdvraag
bedrijfsprestatie. Dit komt waarschijnlijk
op een positieve manier. Er moet wel
omdat de aanmelding van een nieuwe patiënt
aangetekend worden dat niet alle perioden
over een langere periode voor een toename in
even goed voorspeld kunnen worden, er zal
uren zorgt, daarnaast telt dit eerste consult ook
altijd een onzekerheid zitten in de
direct mee in het aantal gefactureerde uren. Het
voorspellingen en deze onzekerheid zal groter
tellen van de patiënten aan het begin van de
worden naarmate de tijd vordert. Extra
maand heeft dus een voorspellende waarde.
onderzoek zou meer inzicht kunnen geven in
Naar mate de maand vordert word het steeds
de “houdbaarheid” van de voorspellingen en
duidelijker wat de prestatie van de maand zal
het praktisch gebruik ervan.
zijn. V2: In welke mate hebben online en offline De voorspelling in figuur 3 neigt boven de
advertenties invloed op de voorspelling in
werkelijke waarden te zitten. Dit komt omdat
deelvraag 1?
het model de hoge pieken van de periode voor juli 2011 verwacht en minder waarde hecht aan de lagere periode in 2012-2013. Indien er een subset wordt gemaakt van de periode 20122013, dan word ook de negatieve trend in deze jaren meegenomen in de voorspelling. De algemene trend die in figuur 3 te zien is, lijkt voor een groot deel overeen te komen met conjunctuur trends zoals het BBP en het consumentenvertrouwen van het CBS. In toekomstig onderzoek zouden deze als extra attributen kunnen functioneren, deze externe bronnen voegen extra informatie aan de dataset toe. De afwijking die in figuur 3 te zien is zou
Er blijkt een kleine correlatie (r = 0,129) te zijn tussen krantenadvertenties en het aantal gemaakte uren. Slechts 1,7% van PaidAmountPapers verklaart de totale variantie van BillableHours. Dit wil niet meteen zeggen dat advertenties niet werken of overbodig zijn. Er kan niet verwacht worden dat advertenties direct resultaat hebben, het effect werkt vaak op de lange termijn, op het moment dat een patiënt de advertentie meerdere malen heeft gezien. Het effect op de voorspelling in deelvraag 1 is dus klein, maar dit aantoonbare inzicht is een bruikbaar
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 14
gegeven omdat men tijdens het adverteren in
V3: Heeft de verzekering van een patiënt
het achterhoofd kan houden dat het effect
invloed op het aantal zittingen?
vertraagd is. Aangenomen werd dat patiënten met een Verder kan 10,2% (r = 0,319) van de totale
betere polis meer zittingen konden
variantie van de online betaalde bezoekers
veroorloven. Dit kwam echter niet uit de
(AllViewsSiteA, AllViewsSiteB) verklaard
resultaten naar voren. Een verklaring voor de
worden door PaidAmountPapers.
resultaten is dat het aantal instances in de
Krantenadvertenties bepalen dus voor een deel
dataset te klein was voor een dergelijke
ook het aantal website bezoekers. Als men dus
voorspelling. Ook is het niet duidelijk of de
kijkt naar de prestaties van de website dan
aanvullende verzekeringen in de dataset
dient er rekening gehouden te worden met de
compleet zijn. Als in de toekomst de gegevens
invloed van krantenadvertenties in een
van gelijksoortige casussen samengenomen
bepaalde periode.
zouden worden, dan zou er wellicht een relatie gevonden kunnen worden.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 15
5. Discussie In dit onderzoek is een poging gedaan om een
fijnmazigere data. Als bijvoorbeeld de te
indruk te krijgen van de mogelijkheden en
meten attributen op een kleinere schaal waren
effectiviteit van enkele datamining algoritmen.
vastgelegd, zoals per dag in plaats van per
Het doel was om mensen te informeren die
maand, zou dit waarschijnlijk bij hebben
weinig verstand hebben van de mogelijkheden.
gedragen aan accuratere voorspellingen en
Indien men enigszins verstand heeft van
methoden. Verder hadden extra attributen,
datamining en met WEKA om kan gaan, dan is
zoals het aantal vakantie dagen in een maand,
het niet moeilijk om de besproken
meer informatie aan de dataset kunnen geven.
experimenten zelf uit te voeren. De ervaring is
Helaas was het niet mogelijk om alle
wel dat er gemakkelijk fouten gemaakt kunnen
vakantiedagen tot aan 2007 exact terug te
worden. Ook kan het interpreteren van de
vinden.
resultaten problemen opleveren. Men kan, bij
De gegevens in de verzekeringsdataset waren
het gebrek aan specifieke kennis, om deze
niet representatief genoeg voor een gedegen
reden beter een (klein) consultancy bedrijf
onderzoek. Het is mogelijk dat er met een
inhuren die zich met datamining bezighoudt.
grotere hoeveelheid instances in deze dataset
Zoals aangetoond kan de kennis van eigen
wél een resultaat geboekt had kunnen worden.
bedrijfsprocessen het verschil maken en dus de
De correlaties tussen de praktijkuren en de
investering terugverdienen.
advertenties, zoals onderzocht in deelvraag 2, zijn erg zwak. Dit is te verklaren omdat enkel
In de toekomst zullen er meer online datamining services ontstaan. In het onderzoek van Zorrilla, et al. (2013) heeft men gekeken naar de mogelijkheid om niet-experts te laten werken met een online Platform-as-a-Service datamining systeem. Doormiddel van zogeheten templates kan de gebruiker de juiste
de waarden binnen een maand vergeleken zijn. In vervolgonderzoek zou er gekeken kunnen worden naar het effect van reclame op de bedrijfsprestaties over een langere periode zoals, bijvoorbeeld, een kwartaal. Door de juiste lags te creëren kan er wellicht een betere correlatie gevonden worden.
beslissingen maken. Dit werkt echter alleen voor generieke vraagstukken, voor specifieke
Datamining is een wetenschappelijk
problemen zal een datamining specialist
onderzoeksveld maar gaat in de praktijk
ingehuurd moeten worden.
grotendeels over het tweaken van configuraties. Het toevoegen of weglaten van
Op het vlak van praktische en concrete toepassingen is nog meer onderzoek te verrichten. Een vervolgonderzoek zou grotere kwantiteiten data moeten bevatten evenals
attributen heeft grote effecten op correlaties, om nog niet te spreken over het verschil tussen de verschillende lerende algoritmen. Het vinden van de juiste configuratie kost het
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 16
meeste tijd en kan vaak lang geperfectioneerd
leiden tot de juiste besluitvorming. Op het
worden. In dit onderzoek is er gebruik gemaakt
moment dat de modellen consequent af gaan
van de in WEKA ingebouwde technieken, dit
wijken van de werkelijkheid zal er controle
programma is echter constant in ontwikkeling.
moeten worden uitgevoerd, mogelijk is er een
In het datamining onderzoeksveld blijven ook
nieuw factor bijgekomen met significante
nieuwe ontwikkelingen plaatsvinden. Andere
invloed die de resultaten veranderd. Het is dus
(nieuwe) technieken kunnen wellicht voor nog
raadzaam om altijd objectief te blijven
betere resultaten zorgen.
controleren of de werkelijkheid nog met de voorspellingen overeenkomt.
De resultaten uit dit onderzoek zouden voor een langere tijd geëvalueerd moeten worden om zeker te zijn van de accuraatheid. De modellen zijn pas echt bruikbaar voor business analytics op het moment dat de voorspelling
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 17
6. Begrippen Adwords – Adverteer programma van Google. Advertenties met door de adverteerder opgegeven zoekwoorden komen naast de gewone zoekresultaten te staan. De adverteerder betaalt per klik. Artificial Neural Network – Computer model geïnspireerd op de neurale netwerken van hersenen. Deze netwerken van nodes (neuronen) kunnen patronen herkennen door te leren welke paden in het netwerk tot het juiste resultaat leiden. Paden die niet het gewenste effect opleveren krijgen doormiddel van backpropagation een lagere waarde. De hidden layer is een laag met een aantal nodes tussen de input nodes en de output node. BBP –Bruto Binnenlands Product Business Intelligence tools – Technieken en technologieën die data uit operationele systemen en externe bronnen analyseren. De informatie van verschillende bronnen genereert kennis voor het maken van beslissingen in bedrijven. Deze kunnen managers helpen om betere en effectieve beslissingen te nemen. Lagged variable – Zorgt voor de relatie tussen de huidige tijd serie en de voorgaande tijd series. In WEKA zorgt deze variabele voor de hoeveelheid tijdseenheden, ook wel “windows” genoemd. Voor de periodiciteit van een maand wordt er bijv. een lag gemaakt alle maanden in de jaren of per kwartaal Overfitting – Beschrijft een fenomeen waar een model fouten of ruis opneemt in plaats van de onderliggende relatie. Overfitting ligt op de loer als het model complexer dan nodig word. Platform as a service – Het aanbieden van een computerplatform op een cloud computing netwerk. Het computerplatform bestaat uit verschillende software componenten die samen bepaalde taken op aanvraag kunnen uitvoeren. Root mean squared error (RMSE ) – Het gemiddelde verschil tussen de voorspelde en geobserveerde waarden. Kan gebruikt worden om de accuraatheid van een attribuut van forecasting model met een ander model te vergelijken. Hoe kleiner de waarde, hoe groter de accuraatheid. Time series and Forecast plugin – Plug-in voor WEKA 3.7, te installeren vanuit de package manager. Deze plug-in neemt een aantal problemen, die met Time series te maken hebben, uit handen.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 18
7. Bibliografie Larose, D. T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley. Leeuw, A. d. (1982). Organisaties: management, analyse, ontwerp en verandering. Assen : Van Gorcum. U.M. Fayyad, G. P.-S. (1996). Advances in Knowledge Discovery and Data Mining. Boston: MIT Press. Yang, Q. W. (2006). 10 Challenging problems in data mining research. Journal of Information Technology & Decision Making 5, 598-599. Zorrilla, M., & García-Saiz, D. (2013, April). A service oriented architecture to provide data mining services for non-expert data miners. Decision Support Systems, 55(1), pp. 399-411.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 19
8. Bijlagen Bijlage 1 – WEKA correlaties BillableHours
Figuur 5
Figuur 6
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 20
Bijlage 2 – WEKA configuratie 2.1. Basis instellingen Voor het voorspellen van het verwachte aantal BillableHours in de komende maanden maken wordt er gebruik gemaakt van de WEKA Time series and Forecast plugin. In de basisinstellingen van deze plugin is BillableHours ingesteld als target, met als parameters het aantal te voorspellen maanden, het Date attribuut als timestamp, en maandelijks als periodicity. Om meer informatie te krijgen over de effectiviteit is ook perform evaluation aangevinkt. In de geavanceerde instellingen is gekozen voor de MultilayerPerceptron. 2.2. MLP Configuratie In het tabblad advanced configuration is bij base learner de MultilayerPerceptron ingesteld als classifier. 2.3. Geavanceerde configuratie De periodicity uit de basisinstellingen zorgt ervoor dat de lags in het tabblad lag creation al op de juiste manier ingesteld zijn. In het tabblad overlay data is alles aangevinkt, zie §2.2.4. voor meer informatie over overlay data. Een voorwaarde voor overlay data is dat het te voorspellen attribuut onbekend is voor de voorspellen periode, terwijl de overlay attributen wél bekend moeten zijn. Dit is geïllustreerd in figuur 7, waar de te voorspellen BillableHours vanaf juli 2013 t/m april 2014 missen, in de ARFF datafile worden deze missende velden met een vraagteken gemarkeerd.
Figuur 7 – Weergave van de data
Het is belangrijk dat in het tabblad evaluation het veld voor “evaluate on hold out training” overeenkomt met het aantal te voorspellen maanden, in bovenstaand geval is dat 10. Ook moet het veld “number of time unit to forecast” in de basisinstellingen overeenkomen. In het tabblad output zijn zowel output- als graph predictions at step aangevinkt en is voor beide instellingen het veld target to op BillableHours gezet.
Het gebruik van datamining als predictive analytic voor dienstverleners
Pagina 21