Kunstmatige intelligentie nuttig bij complexe, herhalende en informatie-intensieve taken Data zijn overal. De accountantspraktijk worstelt met de vraag hoe zij het beste om kan gaan met relevante data. Kunstmatige intelligentie kan concreet waarde toevoegen aan onze dagelijkse praktijk. Martijn Schut - Forensic Technology, Advisory Gerwin Naber - Forensic Technology, Advisory
1. Kunstmatige intelligentie maakt geautomatiseerde analyses nog effectiever Accountants hebben vaak te maken met systemen waar zeer grote hoeveelheden data opgeslagen staan en/of gegenereerd worden (grootboektransacties, bedrijfsprocessen, correspondentie). Deze data moeten goed geanalyseerd worden voordat de onderneming ze kan gebruiken voor bijvoorbeeld bedrijfsbeslissingen. Bij het opstellen of controleren van de jaarrekening is daar vaak niet veel tijd voor: veelal moeten de geanalyseerde data snel beschikbaar zijn. Handmatige analyse is dan geen optie. Deze techniek is tijdrovend en niet efficiënt. Daarom worden geautomatiseerde analyses en tools alom gebruikt. Het summum van de technologie die daarbij gebruikt wordt, is kunstmatige, of artificiële intelligentie. Kunstmatige intelligentie kan nog efficiënter en effectiever ingezet worden dan nu het geval is.
34
Spotlight Jaargang 18 - 2011 uitgave 4
Met geavanceerdere methoden kunnen we een grote stap vooruit maken; een vervolgstap naar kennis. Want er zijn voldoende toepassingen om data (opgeslagen feiten) in informatie om te zetten, maar leveren deze ook kennis op? Om relevant te zijn willen we die vervolgstap naar kennis maken (accumulatie van informatie) en uiteindelijk naar wijsheid (waarde toekennen aan kennis).
2. Al zeventig jaar ervaring De toepassing van kunstmatige intelligentie is in de afgelopen tien jaar in een stroomversnelling terechtgekomen door vooral twee ontwikkelingen: de sterke groei van datavolume en de verdergaande automatisering. Het (continu) analyseren van de steeds grotere hoeveelheden data is een van de grootste automatiseringsuitdagingen van de 21e eeuw.
Deze twee ontwikkelingen bakenen kunstmatige intelligentie af als een uniek werkveld: de automatisering komt als het ware ‘for free’ omdat kunstmatigeintelligentiemethoden in de basis al bedoeld zijn om op een computer uit te voeren. Dit staat in tegenstelling tot de traditionele manieren. Wat betreft het geautomatiseerd zoeken naar patronen in data heeft kunstmatige intelligentie al zo’n zeventig jaar ervaringskennis op zijn cv staan. Daar kan geen andere ICT-discipline aan tippen.
Kunstmatige intelligentie is een fenomeen dat onlosmakelijk is verbonden aan de digitale revolutie waarin we ons bevinden. Het niet toepassen van kunstmatige intelligentie is simpelweg het negeren van een inherente potentie; de vraag is dus niet zozeer waarom, maar hoe we kunstmatige intelligentie moeten gebruiken.
3. Vier zaken bepalen welke patronen en uitzonderingen relevant zijn Ondernemingen en accountants zijn vaak geinteresseerd in de uitzonderingen op de regel. Bijvoorbeeld als de accountant fraude wil detecteren of als de onderneming inefficiënties in bedrijfsprocessen wil vinden. Kunstmatige intelligentie, zijnde een techniek die patronen zoekt, kan daar een rol bij spelen aangezien het vinden van patronen impliceert wat de uitzonderingen zijn (per definitie: de rest van de data). Maar welke uitzonderingen zijn relevant en welke niet? In de praktijk loopt men meteen tegen een aantal zaken aan die belangrijk zijn om te weten voor het beantwoorden van deze vraag: 1. Welke dataset dient als basis voor de analyse? 2. Welk patroon moet gebruikt worden? 3. Klopt het dat er veel meer uitzonderingen zijn dan niet-uitzonderingen? 4. Hoe kunnen de resultaten doorgrond worden?
Ad 1. Elke analyse vraagt een andere dataset Ten eerste is het van belang dat weloverwogen besloten wordt welke dataset als basis dient voor de analyse. De financiële administratie, vooral de boekingen in het grootboek, krijgt veel aandacht. De data in het grootboek kennen evenwel een relatief simpele structuur en hebben veelal uitsluitend betrekking op de verantwoording van de uitkomst van een bedrijfsactiviteit (bijvoorbeeld de betaling van een crediteur). In hoeverre zijn data over de omvang, begunstigde en het tijdstip van een betaling relevant voor het identificeren van een patroon? Wanneer een accountant een relevante uitzondering wil identificeren, dan zijn data over de toedracht, de totstandkoming van de bedrijfsactiviteit (bijvoorbeeld door wie en wanneer is de crediteur en de factuur ingevoerd en goedgekeurd) relevanter. Sinds ‘Enterprise Resource Planning’systemen (ERP-systemen) hun intrede hebben gedaan zijn dergelijke data, al dan niet in verschillende modules vastgelegd en zodoende beschikbaar voor analyse.
Samenvatting In dit artikel wordt bekeken wat kunstmatige intelligentie is, waarom we het zouden gebruiken, hoe we het kunnen toepassen en wanneer we het kunnen gebruiken. En hoe verhouden menselijke en kunstmatige intelligentie zich tot elkaar? De analytische toepassing van kunstmatige intelligentie is binnen de context van dit artikel het meest relevant: het zoeken en vinden in grote hoeveelheden financiële of anderszins bedrijfsgerelateerde data. Dit is traditioneel het werkgebied van onder meer statistici en wiskundigen. Maar er is een belangrijk verschil tussen kunstmatige intelligentie en de traditionele benadering, wat mede versterkt wordt door de verdergaande automatisering en sterke groei van datavolume. Dit wordt uiteengezet.
Kunstmatige intelligentie: een rijke aanvulling op onze dagelijkse praktijk Kunstmatige intelligentie is de wetenschap die zich bezighoudt met het creëren van kennis en wijsheid in een artefact, wat normaal gesproken een computer is. Kunstmatige en menselijke intelligentie vullen elkaar aan Geavanceerde, intelligente technologie doet steeds vaker zijn intrede in de accountantspraktijk voor de analyse van zeer grote hoeveelheden data. Het summum van deze technologie is kunstmatige, of artificiële intelligentie: een verzameling methoden en technieken waarmee we automatisch patronen kunnen herkennen, uitvoeren en genereren. Kunstmatige intelligentie wordt al gebruikt bij het zoeken naar uitzonderingen op de regel, bijvoorbeeld bij fraudedetectie en het traceren van inefficiënties in bedrijfsprocessen. Interessante recente ontwikkelingen binnen de kunstmatige intelligentie zijn de analyse van ongestructureerde data en van organisatieprocessen. Het succes van kunstmatige intelligentie hangt uiteindelijk af van het slim inzetten ervan: kunstmatige en menselijke intelligentie vullen elkaar aan, waarbij de menselijke intelligentie het voortouw neemt. Automatisch patronen herkennen, uitvoeren en genereren Doel van kunstmatige intelligentie is het nabootsen van menselijke intelligentie. In de praktijk komt het neer op het gebruik van een verzameling methoden en technieken waarmee we automatisch patronen kunnen herkennen, uitvoeren en genereren. Dit kan betekenen: • het programmeren van computers - het patroon is dan een computerprogramma; • computers laten leren - het computerprogramma genereert zelfstandig een ander computerprogramma; of • het analyseren van data op bepaalde patronen - de computer herkent patronen of leert zelf patronen herkennen. Kunstmatige intelligentie biedt een rijkdom aan intelligente methoden, technieken en tools die ingezet kunnen worden in onze dagelijkse praktijk.
Spotlight Jaargang 18 - 2011 uitgave 4 35
Ad 2. Zelflerende software zoekt relevante uitzonderingen Vervolgens zijn er verschillende gradaties voor het herkennen van patronen. Soms weten we vooraf wat het patroon is dat we zoeken, bijvoorbeeld bij het controleren op het naleven van bepaalde beleidsregels: voldoen de data eraan of niet? In dat geval kunnen we relatief ‘makkelijk’ bepalen of gevonden uitzonderingen relevant zijn of niet. In het overgrote deel van de praktijksituaties weten we niet wat het (weerbarstige) patroon van de reguliere bedrijfsactiviteiten is, en dus zijn de afwijkingen die we zoeken zogenoemde ‘unknown unknowns’. Een deelgebied van kunstmatige intelligentie dat zich bezighoudt met zelflerende software, kan hiervoor ingezet worden. Ad 3. Besef dat een patroon niet per definitie door ‘de meeste gevallen’ gevormd wordt Ten derde, als we een patroon vinden is het niet noodzakelijk dat de meeste gevallen hieronder vallen: de meeste gevallen zijn uitzonderingen. Dit strookt misschien niet met de intuïtie die men heeft bij dit werk: men zou verwachten dat de meeste gevallen een patroon volgen. Verwachtingen moeten hierop afgestemd worden. Het opschonen van data is het dusdanig prepareren van data dat het door de computer ingelezen kan worden. Het opschonen is, zoals gezegd, niet alleen voorbereiding. Het bepaalt ook welke patronen en uitzonderingen gevonden zullen worden. Een voorbeeld van patronen en uitzonderingen is opgenomen in het kader.
Ad 4. Resultaten doorgronden Ten slotte moet men zich realiseren dat het vinden van de uitzonderingen slechts de eerste stap is. Als de computer ‘klaar’ is, hebben we veelal een lange lijst van uitzonderingen waarvan we niet weten of ze relevant, interessant of belangrijk zijn. Dan begint dus eigenlijk het werk voor de menselijke intelligentie: accountant en onderneming werken nauw samen om deze lijst in te korten om uiteindelijk te komen tot een beperkt aantal relevante cases. Dit proces kan natuurlijk iteratief ondersteund worden met kunstmatige intelligentie, en ook visualisatietechnieken zijn waardevol voor het genereren van inzicht dat bijdraagt aan het doorgronden van resultaten en het zodoende genereren van kennis. Bepaal per situatie welke patronen en uitzonderingen relevant zijn Als deze vier zaken in kaart gebracht zijn, kan per situatie de vraag beantwoord worden welke patronen en uitzonderingen relevant zijn.
4. Kunstmatige intelligentie heeft toegevoegde waarde bij identificeren van patronengebruik De vraag wanneer kunstmatige intelligentie te gebruiken is, is niet eenduidig te beantwoorden. Voor simpele vraagstukken is het mogelijk overkill, voor complexe problemen is het soms (nog) niet geavanceerd genoeg. Wel kunnen de situaties waarin kunstmatige intelligentie toegevoegde waarde heeft, gekarakteriseerd worden.
Voorbeeld: meer uitzonderingen dan niet-uitzonderingen De Nederlandse werkwoorden kunnen we regelmatig (allemaal volgens hetzelfde patroon) of onregelmatig (uitzonderingen op dit patroon) vervoegen. Stel dat we alle (of een groot deel van) vervoegde vormen van werkwoorden in willekeurige volgorde in een lange lijst zetten. Vervolgens laten we een computer (met enige kennis van de Nederlandse taal) deze werkwoorden classificeren in regelmatige en onregelmatig vormen. Als dit correct gebeurt, zullen er uiteindelijk zo’n 40% regelmatige werkwoorden en 60% onregelmatige werkwoorden gevonden worden. Dus er is in 60% van de gevallen een uitzondering op de regel gevonden.
36
Spotlight Jaargang 18 - 2011 uitgave 4
Voorbeelden van situaties die zich goed lenen voor kunstmatige intelligentie In de ene situatie heeft kunstmatige intelligentie meer toegevoegde waarde dan in een andere. Deze situaties lenen zich zeer goed voor kunstmatige intelligentie:
•
Complexe, herhalende en informatieintensieve taken Kunstmatige intelligentie kan goed ingezet worden bij taken die complex, herhalend en informatie-intensief van aard zijn. Bij complexe taken kunnen op relatief eenvoudige manier non-lineaire verbanden in kaart worden gebracht. Bij herhalende en informatie-intensieve taken kan gezocht worden naar patronen (herhaling) in zeer grote databestanden (informatie-intensief).
•
Logische en organisatorisch consistente omgevingen Kunstmatige intelligentie gedijt het best in omgevingen die logisch en organisatorisch consistent zijn. De steeds verdergaande digitalisatie van bedrijven werkt deze consistentie steeds meer in de hand.
Er is een onderscheid tussen gestructureerde en ongestructureerde data Het verschil tussen gestructureerde en ongestructureerde data is als volgt:
•
Gestructureerde data liggen normaliter vast Gestructureerde data liggen normaliter vast in een databaseformaat en zijn een opsomming van feiten die relatief eenvoudig te koppelen en te analyseren zijn. Voorbeelden hiervan zijn de financiële administratie, subadministraties en andere databases met al dan niet bedrijfsgerelateerde data.
•
Ongestructureerde data kennen geen eenduidige indeling Ongestructureerde data daarentegen zijn veelal beschrijvend van aard en kennen geen eenduidige indeling
waardoor vergelijking en analyse op voorhand complex is. Voorbeelden van (semi-)ongestructureerde data zijn de digitale versie van een contract, notulen, een verzameling van spreadsheets, (gescande) brieven en elektronische correspondentie (e-mail).
nodig. De data kunnen nog zo adequaat zijn, er zit altijd nog een mens achter het succesvol toepassen van kunstmatige intelligentie. De mens kan genuanceerder anticiperen op tussentijdse bevindingen, bijvoorbeeld op basis van ervaring of het inwinnen van inlichtingen bij
Wanneer wordt kunstmatige intelligentie gebruikt om relevante (afwijkingen van) patronen te kunnen identificeren? Er zijn drie situaties: • de situatie dat de accountant of onderneming uitsluitend beschikt over gestructureerde data; • de situatie dat de accountant of onderneming uitsluitend beschikt over ongestructureerde data; en • de situatie dat we beschikken over een combinatie van gestructureerde en ongestructureerde data.
5. Uitsluitend gestructureerde data? Kunstmatige intelligentie helpt bij identificeren relaties Wanneer er uitsluitend gestructureerde data zijn, kan kunstmatige intelligentie helpen bij het identificeren van relaties. Zo kan kunstmatige intelligentie de samenhang vaststellen van de feiten die in de gestructureerde data aanwezig zijn, om vervolgens waarschijnlijkheden of verwachtingen aan die relatie te koppelen zodat patronen en afwijkingen geïdentificeerd kunnen worden. Het succes van een dergelijke toepassing van kunstmatige intelligentie hangt af van twee aspecten: • De beschikbare data moeten adequaat zijn. Ze moeten die feiten (rollen, interacties, bevoegdheden enzovoort) over de organisatie bevatten die nodig zijn om relevante patronen vast te kunnen stellen. • Het kan op een andere manier (menselijke intelligentie) niet efficiënter. Menselijke interventie nodig voor analyse gestructureerde data Bij alle toepassingen met kunstmatige intelligentie blijft menselijke interventie
procesverantwoordelijken. Ook de weerbarstige praktijk vergt duidelijke afbakening in de analyse en, gegeven het gestructureerde karakter van de data, kan de inbreng van de menselijke intelligentie relatief eenvoudig vertaald worden in analyse van grote hoeveelheden gestructureerde data.
6. Uitsluitend ongestructureerde data? Kunstmatige intelligentie is bij uitstek geschikt Het ontdekken van patronen in ongestructureerde data vergt inzicht in het onderwerp De situatie dat er uitsluitend sprake is van ongestructureerde data is een totaal andere dan de situatie dat er sprake is van uitsluitend gestructureerde data. Het ontdekken van patronen in ongestructureerde data (bijvoorbeeld categorieën van documenten met soortgelijke inhoud of correspondentie over een bepaald onderwerp) vergt inzicht in het onderwerp(en) dat beschreven wordt in de ongestructureerde dataset. Kunstmatige intelligentie kan op basis van analyses van de gehanteerde semantiek relaties tussen documenten identificeren. Dit is een
techniek die accountants kunnen toepassen indien bijvoorbeeld correspondentie over bepaalde transacties geïdentificeerd moet worden. Geraffineerdheid kunstmatige intelligentie een pre voor complexe analyse De kracht van de toepassing van kunstmatige intelligentie voor ongestructureerde data ligt niet alleen in het feit dat het voor een mens niet proportioneel is om honderden, duizenden en soms miljoenen documenten handmatig te analyseren. Een dergelijke toepassing van kunstmatige intelligentie is tevens waardevol omdat de geraffineerdheid van de techniek een pre is in een dergelijk complexe analyse zonder structuur. Daar komt bij dat de bevindingen eenvoudig te bevatten zijn (een categorie is bijvoorbeeld wel of niet relevant) en iteratieve analyse mogelijk maakt (het systeem leert indien aangegeven wordt welke documenten wel en niet relevant zijn). Tevens is de kracht van kunstmatige intelligentie in dit scenario dat de techniek léért van de voorhanden dataset. Zodoende is de toepassing onafhankelijk van de taal en worden patronen geïdentificeerd die vooraf onbekend waren (bijvoorbeeld het gebruik van bepaalde terminologie die vooraf onbekend is).
7. Combinatie gestructureerd en ongestructureerd? Menselijke intelligentie stuurt en anticipeert Een combinatie van gestructureerde en ongestructureerde data moet steeds vaker geïnterpreteerd worden. Bijvoorbeeld een bank die bepaalde transacties uitvoert waarvan de correspondentie inzicht geeft in de omstandigheden waarin dit is gebeurd. Of een projectontwikkelaar die voorzieningen verantwoordt nadat dit in een vergadering is besloten en zodoende de context blijkt uit de opgemaakte notulen (inclusief de verschillende versies daarvan). In navolging van voorgaande kan kunstmatige intelligentie succesvol toegepast worden wanneer de menselijke intelligentie sturing kan geven en kan
Spotlight Jaargang 18 - 2011 uitgave 4 37
anticiperen op tussentijdse bevindingen. Een kritische succesfactor is een multicompetente samenwerking tussen professionals die de techniek, de praktijk en de doelstelling van de analyse bevatten.
Figuur 1. Common Data Model
Data Mining
Common Data Model
Data Cleansing & Profiling
8. Conclusie Het inzetten van kunstmatige intelligentie betekent niet dat de menselijke intelligentie aan de kant gezet kan worden: het wordt opgenomen in een iteratief mens-computerproces. Het succes van kunstmatige intelligentie hangt af van het slim inzetten: kunstmatige en menselijke intelligentie zijn niet uitwisselbaar, maar vullen elkaar aan waarbij de menselijke intelligentie het voortouw neemt. Een uitzondering is de beschreven analyse van grote hoeveelheden ongestructureerde data; de geraffineerdheid van kunstmatige intelligentie kan in een dergelijk scenario het verschil maken en analyses uitvoeren die anders als niet proportioneel worden beschouwd. Verder moet de menselijke intelligentie gestimuleerd blijven om relevante analyses te kunnen blijven geven. Vooral bij gestructureerde data zijn de mogelijke analyses niet beperkt door de techniek, maar door onze eigen creativiteit. Een nieuw initiatief op het gebied van gestructureerde data is ‘proces mining’: het analyseren van het bedrijfsactiviteiten aan de hand van beschikbare data (‘logging’). Een dergelijke analyse kan helpen met het identificeren van (opzettelijke) afwijkingen van patronen die relevant kunnen zijn voor de accountantscontrole.
38
Spotlight Jaargang 18 - 2011 uitgave 4
Data Gathering Disparate Systems
Multiple Locations
G/L
A/P, A/R
Multiple Company Codes
Different Business Units
Structured Data
Data Analysis Matching Logic Payroll
Extract Transform Load
Risk Scoring
P-Card
In-depth analysis of large volumes of data
High-risk Reports Interactive Research Ad-hoc reports
Global Databases
Semi-Structured Data
Raw Data
Een gerelateerd aandachtsgebied voor het uitvoeren van relevante analyses is de overgang van 1-dimensionaal naar multidimensionaal analyseren. Dan wordt niet uitsluitend gekeken naar transacties die bijvoorbeeld in het weekend plaatsvinden en/of een autorisatieniveau overschrijden, maar deze analyse wordt gecombineerd met andere relevante aspecten waardoor de context van een transactie betrokken wordt (wat doen andere personen in de gelijke positie, wat zijn gemiddelde bedragen en gaat een transactie samen met andere ‘red flags’, zoals doorbreken van functiescheiding). Kunstmatige intelligentie kan ons helpen met het uitvoeren van dergelijke analyses; in het algemeen is kunstmatige intelligentie nuttig bij complexe, herhalende en informatieintensieve taken en in gestandaardiseerde omgevingen; voor mission-critical taken
Data Enrichment
Actionable Information
en inzake besluitvorming moet men zich afvragen of men dit over zou willen laten aan kunstmatige intelligentie. De menselijke intelligentie beschikt over voldoende creativiteit die zich met voldoende kennis van de techniek kan laten vertalen in effectieve en relevante data-analyses.