Tekst: Shirley Bodegraven, Maarten Heijkoop en Kim Stael Beeld: BBP Media
‘Big Data moet je benutten’ Big Data is een opkomend verschijnsel dat is doorgedrongen tot de top van de onderneming. Het nieuws en de berichtgeving over dit fenomeen wordt vooral overheerst door het onderzoek naar geschikte tooling en de zoektocht naar de Data Scientist. Deze kan omschreven worden als de wiskundig geschoolde tovenaar die met de beschikbare tools informatie weet te ontfutselen aan de brij die Big Data heet. Heb je die tovenaar in huis en pas je de tools goed toe, dan leidt die brij tot waardevolle informatie.
Record management, het vakgebied van de ‘digitale archivaris’, maakt gebruik van content, maar werkt vanuit de invalshoek van ordening en beheer. Waar Big Data zich concentreert op statistische infor matie uit een grote hoeveelheid content, waarbij het ‘document’ geen individuele rol speelt, richt record management zich op de ordening, beheer en vindbaarheid van het individuele ‘document’. De vraag is in hoeverre Big Data zich verhoudt tot re cord management. In beide vakgebieden wordt in potentie met dezelfde content omgegaan en zijn er dus raakvlakken.
Enterprise Content Management, Enterprise Information Management, Big Data, record management, compliance, Business Process Management, Data Scientist
14
In dit artikel zullen we duidelijk maken dat het begrip ‘content’ een nieuwe de finitie verdient. Het is niet, zoals velen zeggen ‘ongestructureerde data’, maar ‘data in context’. Ten tweede is de be handeling van content door record ma nagement processen gericht op precisie, Big Data processen zijn eerder globaal van aard. Ten slotte tonen we aan dat de overeenkomst tussen Big Data en record management processen bestaat uit een bedrijfsmatige, dus niet een ‘technische’ benadering van het vaststellen van de context van de data die gezocht wordt. Enterprise Information Management en de hulpmiddelen daarbinnen biedt de benodigde handvatten om de context te verschaffen die door de bedrijfsprocessen wordt bepaald. Dit laatste staat haaks op de vigerende praktijk rond Big Data, waar de toolset en de Data Scientist de dienst uitmaken.
Wat is content? Content is data in context waarbij de con text wordt bepaald zodra de content wordt ‘gemaakt’. De context van de content krijgt een nieuwe betekenis als zij in een organi satie in een bepaald bedrijfsproces wordt (her)gebruikt en vastgelegd. De context is aan verandering onderhevig afhankelijk van het gebruik en het doel. Bijvoorbeeld: een schademelding kan oorspronkelijk ge maakt zijn voor verzekeringsdoeleinden, omschrijving van het incident en de ge leden schade. Als echter op een later mo ment blijkt dat een betreffende persoon meer dan gemiddeld schademeldingen in dient dan kan de context van deze schade melding veranderen. In een onderzoek en daaropvolgende rechtszaak is de context van de schademelding veranderd van het bepalen van een schadebedrag naar een bewijsstuk in een verzekeringsfraudezaak (Zie figuur op pagina 16). Vanuit de Enterprise Information Manage ment visie wordt het bedrijfsproces als centrale coördinator voorgesteld. Alles wat aan content wordt aangemaakt, inge voerd, gewijzigd, hergebruikt, vernietigd en uitgevoerd, is bepaald in het bedrijfs proces en daarmee wordt ook de context van de content bepaald. Of de context nu is om een statische analyse op grote hoe veelheden data uit dezelfde context uit te voeren, of een bewerking van een archief stuk (archiefbescheiden) in een geordende omgeving, in beide gevallen leidt het her gebruik van de content tot een verande
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 14
08-02-13 17:15
Bedrijfsprocessen bepalen de context van de content
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 15
15
08-02-13 17:15
Context Bewerkte Data = Informatie + Gebruikersgegevens van een proces
Data & Content
Bewerkingsregels van informatiesystemen
Content
Vastleggingsregels
Procesregels
>> Figuur 1: Content is data in context
ring in de context. De content kan zelfs als nieuwe content gezien worden. Bijvoorbeeld een reactie die wordt ‘gepost’ op een bericht in een blog heeft de context van een reactie op een specifiek bericht. Als echter de reactie wordt opgenomen in een strafdossier krijgt het daarbij een juri dische context.
Wat doet de recordmanager? De recordmanager ordent content op ba sis van de context. Denk bijvoorbeeld aan inkoopdossiers, productiedossiers, klant dossiers, etc. Hierbij kan het ook goed voorkomen dat content in meerdere dos siers (een andere context) geordend is. Het beheer van de informatie wordt per context bepaald. Hierbij is precisie van groot belang. Op basis van argumenten als risicoanalyse, wetgeving en informa tiebehoefte beheert de recordmanager informatie. Concreet zijn de taken van de recordmanager: • Ervoor zorgen dat de primaire proces sen van een organisatie optimaal van de beschikbare content kunnen ge bruikmaken, waardoor deze processen efficiënter uitgevoerd kunnen worden. • Het faciliteren van het afleggen van ver antwoording over het handelen door de organisatie, bijvoorbeeld aan politieke en justitiële instanties. Waarom zouden we energie steken in re cord management? Alle informatie door loopt een bepaalde cyclus. Informatie wordt altijd aangemaakt of toegestuurd, gebruikt, opgeslagen, geraadpleegd en
16
verliest na verloop van tijd haar waarde voor de organisatie. Het is daarom niet nodig en zelfs ongewenst om alle infor matie tot in de eeuwigheid te bewaren. Informatie die nog wel gebruikt wordt moet te allen tijde beschikbaar zijn voor de organisatie. Record management borgt dit door: • De beschikbaarheid van informatie in context te garanderen (content). • Het bewaren en vernietigen van infor matie volgens de wettelijke kaders. • Het vernietigen van niet (meer) relevan te informatie. • Het faciliteren van informatie en kennis op maat. Welke informatie valt onder record ma nagement? In de wereld van record ma nagement wordt nu nog over het algemeen meer de focus gelegd op de ongestructu reerde informatie. Maar zoals eerder aan gegeven maakt de vorm van informatie niets uit als we het over record manage ment hebben. In onze optiek is record ma nagement van toepassing op alle vormen van informatie. Ook wet- en regelgeving zegt niets over de vorm van informatie of het systeem waarin het is opgeslagen. Met de groei van het informatieaanbod en de toename van nieuwe technieken waarmee informatie aangeboden wordt, groeien ook de uitdagingen van de record manager.
Big Data De term Big Data heeft betrekking op het behandelen van grote hoeveelheden con
tent met gelijke context en contexten. Big Data ordent niet, verandert niet, vernie tigt niet, maar analyseert content op basis van de context en levert nieuwe content op met dezelfde context uit de informa tievraag. Het doel van Big Data is dus het vinden van de betekenis die in de grote hoeveelheid content besloten ligt. Denk hierbij aan koopgedrag, geldstromen, we reldwijde informatiestromen, onderhoud op een wagenpark per automerk, enzo voorts. De context staat, net als bij record ma nagement, centraal en ook hier wordt de context gegeven door de bedrijfsvoering. Zo wil een webwinkel graag weten wat de interesses zijn van haar klanten, zodat het gerichte marketing kan inzetten. Kortom Big Data is niet slechts een feestje voor wiskundige tovenaars, maar wordt in de eerste plaats gestuurd door de context die de bedrijfsvoering en daarmee de be drijfsprocessen eraan geeft. Ook voor Big Data is Enterprise Information Manage ment erg nuttig. Immers vanuit EIM wordt voorzien in een procesgerichte aanpak en daardoor in het reguleren van de vraag naar content. Hulpmiddelen die extra toe gevoegde waarde bieden in het kader van Big Data zijn: • Metadata management: Onderdeel van metadata management is het bepalen en vastleggen van de semantiek van content. Deze activiteit wordt alsmaar belangrijker. Men kan slechts conclu sies uit Big Data maken als we weten wat het betekent. Alleen door metadata
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 16
08-02-13 17:15
Stra
management wordt Big Data omgezet tot Big Information. • Informatiekwaliteit: De Big Data explo sie bevat een enorme berg informatie, maar een minstens zo grote berg klink klare onzin. Het filteren van kwalitatief slechte data - van oudsher onderdeel van informatiekwaliteit - is van essenti eel belang om zinvolle conclusies uit Big Data te kunnen trekken. • Informatie retrieval: het presenteren van informatie binnen Big Data is een vak apart. Nieuw is dit vakgebied geenszins. Lering trekken van het verleden en het gebruik van bestaande technieken is raadzaam.
Het EIM-model Binnen Enterprise Information Manage ment wordt met het proces als rode draad
De hoeveelheid informatie groeit explosief • E r worden meer dan 11,4 miljard zoekopdrachten per maand bij Google uitgevoerd (Comscore april 2012). • Er wordt naar schatting dit jaar 50 exabyte (5x1019) unieke informatie gegenereerd. Meer dan in de afgelopen 5000 jaar. • Er staat naar schatting in de krant van deze week meer informatie dan iemand in de 18e eeuw in zijn hele leven zou tegenkomen. • Er wordt naar schatting door een medewerker 25 procent van de tijd besteed aan het zoeken naar informatie. • Facebook heeft 845 miljoen actieve gebruikers (5,9 miljoen in Nederland) die elke dag meer dan 250 miljoen foto’s uploaden. • YouTube heeft 8,9 miljoen unieke bezoekers per maand in Nederland. • LinkedIn heeft meer dan 150 miljoen gebruikers (3,1 miljoen in Nederland, 7e plaats in de wereldranglijst). • Twitter heeft 4,2 miljoen unieke bezoekers per maand in Nederland. Informatie neemt steeds meer vormen aan. Met de komst van nieuwe ondersteunende technologieën vanuit social media komen nieuwe informatievarianten, zoals berichten op verschillende social media sites als Hyves, Twitter, Facebook en LinkedIn. Daardoor wordt de uitdaging alleen maar groter om deze informatie in context (als content) te beheren en gebruiken.
18
gekeken naar alle content die gebruikt wordt. Het gaat om de voorspelkracht van het proces en om het doel en gebruik van content binnen dat proces. Bedrijfspro cessen bepalen de context van de content die wordt vastgelegd, hergebruikt, ge zocht, geanalyseerd, verwerkt tot nieuwe content en geordend. Bij zowel Big Data als bij record management staat de con text van informatie centraal. Hieronder vier voorbeelden van deze toe passing: • Persoonsgegevens zijn aan wet- en re gelgeving gebonden. Je mag alleen die informatie gebruiken die binnen het proces nodig is. Hoe ga je om met mails waarin ook telefoonnummers staan van degene die de mail heeft gestuurd? Hergebruik je dergelijke informatie binnen een CRM-systeem, dan gebruik je deze gegevens voor een ander doel dan waarvoor de verzender van deze mail de informatie bedoeld heeft. Is hier sprake van de schending van pri vacy? Welke consequenties kan dit heb ben? Hoe beheer je deze informatie? Met EIM is bekend welke informatie waar voor gebruikt mag worden. Het overtypen van persoonsgegevens uit e-mail in een CRM-systeem kan voorkomen worden, door bijvoorbeeld alleen persoonsgege vens via elektronische formulieren toe te laten. Het belangrijkste bij de inrichting van iedere database met persoonsgege vens is dat het doel van het aanleggen van deze database duidelijk is omschreven en dat het geborgd is dat niet noodzakelijke persoonsgegevens in deze database op korte termijn verwijderd worden. • O ntvangen correspondentie wordt vaak geregistreerd in een systeem. Naast in formatie over de inhoud van de corres pondentie worden ook contactgegevens van personen vastgelegd. Hoe wordt met deze informatie omgegaan als de corres pondentie conform vigerende wet- en regelgeving wordt vernietigd? Welk risi co loopt de organisatie als dergelijke ge
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 18
08-02-13 17:15
Big Data is niet slechts een feestje voor wiskundige tovenaars
gevens te lang bewaard worden? In een EIM-oplossing is het mogelijk tijdens de vernietiging van gegevens een link te leg gen met de vastgelegde contactgegevens in het andere systeem. • O rganisaties brengen in vele verschil lende vormen hun dienstverlening naar buiten richting consumenten. Naast de vastgelegde producten- en dienstenca talogus in de vorm van een brochure wordt gebruik gemaakt van andere vormen zoals een Facebook pagina, LinkedIn of Twitter. Hoe borg je dat verouderde versies worden verwijderd? Hoe kan je informatie beheren in omge vingen waarin gedeelde informatie niet verwijderd kan worden? Wat kunnen de gevolgen hiervan zijn? Bij een EIM implementatie worden alle vormen van publicaties in het proces vast gelegd. Bij het verwijderen cq. vervangen van een versie kan een (automatische) at tendering ingesteld worden om te beoor delen of ook de andere publicaties herzien moeten worden. • H et gebruik van Office Communicator en andere zakelijke chatprogramma’s is steeds populairder binnen organisa ties. Dit is deels een vervanging van de telefoon, maar ook in plaats van mail verkeer. De informatie die wordt uitge wisseld kan van belang zijn. Afhankelijk van de instellingen en het gebruik wordt informatie wel of niet vastgelegd op een drager (denk aan de historie). Hoe moet je met dergelijke informatie om gaan? Hoe zorg je ervoor dat dergelijke informatie juist gebruikt wordt? Moet je deze informatie beheren? Met de EIMoplossing is duidelijk wanneer en waar voor de Communicator gebruikt kan worden. Op basis van deze kennis kun nen een beleid en procedures opgesteld worden. EIM ondersteunt de record manager bij zijn werkzaamheden. Voor een juist ge
bruik en beheer van informatie is zoals eerder aangegeven de context van infor matie van essentieel belang. Bepalend voor de context van informatie is het vast stellen van de juiste processen, die worden onderkend op basis van hun belang voor de organisatie door middel van een risico analyse. Op basis van context en risicoana lyse kan beoordeeld worden of informatie van belang is om te gebruiken. Ook bepaalt de context op welke wijze beoordeeld kan worden of en wanneer informatie vernie tigd moet worden. Een van de hulpmiddelen die beschikbaar is binnen de voorgestelde EIM-aanpak is een Process Analysis model. In dit model worden de volgende vragen beantwoord: • Identificeren van de producten die ge relateerd zijn aan de klantvraag. • Identificeren van de hoofdprocessen behorend bij de producten. • Identificeren van de risico’s per proces op een hoofdniveau. • Identificeren van het volume per proces op hoofdniveau. • Identificeren van de complexiteit per proces op hoofdniveau. Het proces geeft context aan de informa tie die door de procesgang gegenereerd wordt. Deze context bepaalt mede het benodigde beheer. Hier komt record ma nagement in beeld, dat met antwoorden zal moeten komen op vragen als: • Hoe leg je de informatie vast, hoe borg je de context ervan? • Hoe borg je de digitale duurzaamheid van informatie die langdurig bewaard dient te worden? • Wat is de bewaar- of vernietigingster mijn conform vigerende wet- en regel geving? Daar waar de organisatie de meeste risico’s (onder meer gebaseerd op complexiteit en volume) loopt aan zijn informatievoorzie ning en de grootste prioriteiten stelt zal deze organisatie voor zijn eigen bestwil
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 19
19
08-02-13 17:15
maatregelen moeten nemen. Het uitein delijke doel voor zo’n organisatie is: infor mation control in de wereld van big data.
Conclusies Vanuit de bedrijfsvoering bezien is de con text waarin data wordt gebruikt, opgesla gen, geanalyseerd, en beheerd van door slaggevende betekenis voor het nut ervan. De grote vraag in de wereld van Big Data is enerzijds of de toolset goed te gebruiken is en of de Data Scientists, die datatovenaars, te vinden zijn. Anderzijds is het zaak dat de bedrijfsvoering in staat is om de juiste vragen te formuleren, die de juiste context vormen voor de zoektocht naar antwoor den. Vanuit record management perspec tief wordt een digitaal statisch archief opgebouwd en beheerd. Centraal daarbij staat een ordening van het archief op ba sis van de context waarin documenten worden gecreëerd, gebruikt en beheerd. Zowel binnen het domein van Big Data als van record management is de context bepalend voor het nut van de informatie. Het verschil zit hem in de wijze waarop de informatie wordt benaderd en gebruikt, globaal versus precies. Enterprise Information Management biedt uitstekende hulpmiddelen bij het bepalen van de context van informatie. Hierbij maakt het detailniveau niet uit; de principes blijven hetzelfde. Met een beetje creativiteit kunnen we bestaande
20
Verklarende woordenlijst • C ontent: is data in context waarbij de context wordt bepaald zodra de content wordt ‘gemaakt’. • Big data: is een populaire term die wordt gebruikt voor de explosieve groei, de beschikbaarheid en de snelheid van het gebruik van informatie in het IT-landschap van de toekomst. • Social media: is de verzameling van technologieën en kanalen met als doel grote groepen mensen productief te laten samenwerken. • Record management: het efficiënt en effectief beheren van het creëren, ontvangen, onderhouden, gebruiken en vernietigen van record, inclusief het beheren van bewijsvoering en informatie over bedrijfsactiviteiten en transacties in de vorm van record. • Record: informatie die wordt onderhouden als bewijs en informatie voor een organisatie of persoon in relatie tot wettelijke verplichtingen of transacties van een organisatie. • Enterprise Information Management: is de benaming voor de combinatie van de vakgebieden Enterprise Content Management en Business Intelligence. Daarbij spelen Business Process Management en Retrieval een essentiële rol.
technieken die al jaren worden toegepast voor gestructureerde en ongestructureerde data in het kader van Enterprise Informa tion Management een waardevolle aanzet geven om grip te krijgen op Big Data. n
Dit artikel is tot stand gekomen vanuit een multidisciplinair team van Atos: Shirley Bodegraven, Maarten Heijkoop en Kim Stael. Ga voor meer informatie over de Atos aanpak nl.atos.net/eim.
VIP|Doc l nummer 1 l februari 2013
14-21-VIP-Doc_BigData_01-2013.indd 20
08-02-13 17:15