UNIVERSITEIT I VAN I
AMSTERDAM
OCR Declaraties categoriseren Mark Bothof Studentnummer: 5789303 Afstudeeronderzoek Bachelor Informatiekunde Februari 4, 2011
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Voorwoord In januari 2010 begon ik, Mark Bothof, als bachelorstudent Informatiekunde aan de minor Entrepreneurship en het daarbij behorende vak Entrepreneurship in de Praktijk. Dit vak bestaat uit drie sterk gerelateerde onderdelen: het opzetten van een bedrijf, het schrijven van een business plan en individuele verslaglegging. Met een selectief groepje studenten richtte ik het bedrijf SecuReceipt op. Dit bedrijf ontwikkelt software oplossingen binnen de financiële dienstverlening en maakt daarbij ook nadrukkelijk gebruik van de opkomende mobiele technologieën. Eind juni 2010 geschiedden de eindpresentaties van de minor, waarmee het bedrijf voor het eerst onder de aandacht werd gebracht bij het grote publiek. Eerder die maand werd al een doorstart gemaakt, waarmee vast kwam te liggen dat het business plan verder ten uitvoer gebracht zou worden. Diverse bedrijven hadden inmiddels al interesse getoond in het eerste product van SecuReceipt, SR//Expenses.
SR//Expenses biedt de oplossing voor het onhandige, tijdrovende, dure declaratieproces binnen bedrijven. Met behulp van een mobiele applicatie, beschikbaar voor alle mobiele besturingssystemen, en een online platform wordt het declareren een fluitje van een cent. Gebruikers hebben niet langer last van overbodig papierwerk en een portemonnee vol met verkreukelde bonnetjes. Met SR//Expenses kan een declaratie in drie simpele stappen worden verwerkt, waar ook ter wereld. Met SR//Expenses worden alle declaraties digitaal gearchiveerd, op goed beveiligde servers, en zeven jaar lang bewaard, zoals de Belastingdienst vereist. Archiefkasten zijn verleden tijd, want de originele bonnetjes hoeven niet bewaard te worden wanneer er een foto of scan van gemaakt is. De declaratiemethode en het systeem van SR//Expenses voldoen aan alle bij fiscale wet- en regelgeving gestelde eisen. Bij controle kunnen alle declaraties eenvoudig aan de Belastingdienst worden getoond. Door de digitale opslag kunnen er waardevolle overzichten en statistieken worden gegenereerd. Hiermee kan specifiek declaratiegedrag van een persoon of een groep eenvoudig worden geanalyseerd.
Mijn afstudeerproject lag in september 2010 in het verschiet en door mijn betrokkenheid bij SecuReceipt was de keuze al snel gemaakt om het afstudeeronderzoek ten behoeve van SecuReceipt uit te voeren. Binnen het bedrijf werd er in een eerder stadium al gesproken over de toepassing van tekstherkenning om de software te verbeteren, maar aangezien de technologische ontwikkelingen op dat gebied nog in de kinderschoenen staan is destijds besloten dit op de lange baan te schuiven. Het afstudeeronderzoek was een uitgelezen mogelijkheid om ons verder te verdiepen in de mogelijkheden met tekstherkenning.
2
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Het onderzoek heeft diverse inzichten opgeleverd met betrekking tot tekstherkenning en de toepasbaarheid van deze technologie in de software van SecuReceipt en met name SR//Expenses. Vervolg- en uitgebreider onderzoek zal SecuReceipt in navolging van dit onderzoek verder op weg moeten helpen. Het lijkt onvermijdelijk dat SecuReceipt de technologie van tekstherkenning toe zal gaan passen in haar oplossingen.
Mijn dank gaat uit naar de begeleider van mijn afstudeerproject, Wouter Jansweijer, en de medewerkers/mijn collega’s van SecuReceipt, die mij hebben bijgestaan in de uitvoering van dit onderzoek.
Samenvatting Het is voor bedrijven noodzakelijk om van alle transacties de eerste primaire vastlegging (brongegeven) te bewaren volgens de wettelijke bepalingen van de fiscale bewaarplicht. Nederlandse bedrijven moeten de brongegevens gedurende de bewaartermijn van zeven jaar bewaren. In principe moeten de gegevens in de originele vorm worden bewaard. In 2009 is echter vastgesteld dat onder bepaalde voorwaarden gegevens geconverteerd mogen worden. Een voorbeeld van conversie is het scannen of fotograferen van een ontvangen papieren document.
SecuReceipt B.V. richt zich op het digitaliseren van het declaratieproces binnen bedrijven. Met de door SecuReceipt ontwikkelde software wordt het declaratieproces vereenvoudigd en versneld. Het archiveren van declaraties gebeurt bij SecuReceipt op servers. Fysiek archiveren is niet langer nodig. Een declaratie moet wel voorzien worden van enige additionele informatie, alvorens deze opgeslagen en verwerkt kan worden. Dit uit zich onder andere in het selecteren van een categorie. Door gebruik te maken van technieken als OCR (Optical Character Recognition) kan de categorie automatisch ingevuld worden, wat het declaratieproces nog verder vereenvoudigd. Bij het onderzoek ligt de focus op het vaststellen van de categorie waar een declaratie onder valt met behulp van tekstherkenning (OCR). Er is onderzocht in welke mate bestaande OCR software kan bijdragen aan het categoriseren van declaraties.
Het zelf ontwikkelde toepassingssysteem, waarmee de methode is getest op een testset, blijkt dusdanige resultaten op te leveren, dat geconcludeerd kan worden dat de in dit afstudeeronderzoek ontworpen toepassingsmethode van toegevoegde waarde zou zijn voor het product van SecuReceipt.
3
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
De toepassingsmethode faciliteert het automatisch genereren van een juiste categoriesuggestie, waarna een declarant de handeling van het selecteren van een categorie niet meer uit hoeft te voeren. De toepassingsmethode laat echter wel ruimte voor verbeteringen.
Het toepassingssysteem suggereert een succespercentage van 50%, waarbij de toepassingsmethode een juiste categoriesuggestie geeft. De toepassingsmethode bevat echter twee knelpunten, waarvan één door middel van de beschikking over meer tijd opgelost kan worden. Het andere knelpunt ligt lastiger. De oplossing van dit knelpunt, waarmee de toepassingsmethode direct implementeerbaar en van toegevoegde waarde is voor SecuReceipt, resulteert in een reductie van het succespercentage tot 39%. Dat betekent dat deze methode bij ongeveer twee van elke vijf declaraties een juiste categoriesuggestie geeft en daarmee de declarant een handeling uit handen neemt. Dit zou een zeer goede verbetering zijn aan het product van SecuReceipt. De oplossing van het laatstgenoemde knelpunt wordt toegelicht in de discussie van dit onderzoeksverslag.
4
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Inhoudsopgave Inleiding ................................................................................................................................................................ 6 Aanleiding ............................................................................................................................................................. 7 Doelstelling ........................................................................................................................................................... 8 Probleemstelling ................................................................................................................................................... 8 Vraagstelling ......................................................................................................................................................... 8 Onderzoeksvraag ......................................................................................................................................... 8 Deelvragen .................................................................................................................................................... 8 Kennisgebieden .................................................................................................................................................... 9 Relevantie ............................................................................................................................................................ 10 Maatschappelijke relevantie ..................................................................................................................... 10 Wetenschappelijke relevantie ................................................................................................................... 10 Praktische relevantie .................................................................................................................................. 11 Methode ............................................................................................................................................................... 11 Theoretisch kader ........................................................................................................................................... 13 Bestaande OCR software en hun toepasbaarheid en kwaliteit ............................................................ 13 De gebruikelijke categorieën voor het categoriseren van declaraties ................................................. 14 De specifieke kenmerken van de inhoud van declaraties .................................................................... 15 De kenmerken aan de hand waarvan de categorisering van declaraties kan plaatsvinden ............ 15 Een goede classificatiemethode voor het classificeren van declaraties .............................................. 15 De werking van het classificeren van declaraties in categorieën ......................................................... 16 Praktisch kader ............................................................................................................................................... 16 OCR laten helpen bij het classificeren van declaraties in categorieën ................................................ 16 Gebruik van het toepassingssysteem ...................................................................................................... 17 Resultaten ............................................................................................................................................................ 18 Conclusie ............................................................................................................................................................. 20 Discussie .............................................................................................................................................................. 21 Uitleg begrippen ................................................................................................................................................. 23 Referenties ........................................................................................................................................................... 24 Bijlagen ................................................................................................................................................................ 25 Bijlage 1: Screenshot van de mobiele applicatie van SR//Expenses ..................................................... 25 Bijlage 2: Lijst met categorieën voor de toepassingsmethode .............................................................. 26 Bijlage 3: Screenshot van het toepassingssysteem ................................................................................. 27 Bijlage 4: Tabellen met resultaten ............................................................................................................. 28 Bijlage 5: Grafieken met resultaten .......................................................................................................... 29 Bijlage 6: Vereenvoudigde grafieken met resultaten ............................................................................. 31
5
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Inleiding Sinds jaar en dag is het voor bedrijven noodzakelijk om van alle transacties die worden gesloten, gemaakt of ontvangen de eerste primaire vastlegging (brongegeven) te bewaren volgens de wettelijke bepalingen van de fiscale bewaarplicht[1]. Deze brongegevens leiden tot vastleggingen in één of meer informatiesystemen (afgeleide gegevens). De afgeleide gegevens moeten in het algemeen kunnen worden gecontroleerd aan de hand van de brongegevens. Deze vastleggingen moeten daarvoor een verwijzing bevatten naar de brongegevens, het zogenoemde controlespoor of audit trail. Nederlandse bedrijven moeten de brongegevens gedurende de bewaartermijn van zeven jaar bewaren.
De algemene regelingen voor het bewaren van deze gegevens zijn als volgt:
De gegevens moeten zó worden bewaard dat de belastingcontrole ervan binnen een redelijke termijn kan worden uitgevoerd.
De gegevens moeten worden bewaard in de vorm waarin ze deel zijn gaan uitmaken van de administratie.
Het is van groot belang dat oorspronkelijkheid (authenticiteit) en de inhoud van de gegevens (integriteit) juist zijn.
In principe moeten de gegevens in de originele vorm worden bewaard. In 2009 is echter vastgesteld dat onder bepaalde voorwaarden gegevens geconverteerd mogen worden. Als gegevens worden overgebracht naar een andere gegevensdrager, is er sprake van conversie. Dit is bijvoorbeeld het geval als een ontvangen papieren document wordt gescand of gefotografeerd.
Gegevens mogen alleen worden geconverteerd als aan de volgende voorwaarden wordt voldaan:
Alle gegevens worden overgezet.
De gegevens worden inhoudelijk juist overgezet.
De nieuwe gegevensdrager is tijdens de hele bewaartermijn beschikbaar.
De geconverteerde gegevens kunnen binnen redelijke tijd worden ge(re)produceerd en leesbaar worden gemaakt.
[1]
Een controle van de geconverteerde gegevens binnen redelijke tijd kan worden uitgevoerd.
De uitkomsten van de interne controle worden bewaard.
Belastingdienst. Wettelijke bepalingen van de fiscale bewaarplicht.
http://download.belastingdienst.nl/belastingdienst/docs/geautomatiseerde_administratie_en_fiscale_bewaarplicht_al0401z8fd.pdf
6
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Een ontvangen papieren document scannen of fotograferen kan problemen voorkomen, bijvoorbeeld bij een belastingcontrole. Door dergelijke conversies toe te passen zal een controle vaak sneller verlopen. Het helpt tevens om de administratie in goede staat te houden en te voorzien van een zekere beveiliging. Er kan bijvoorbeeld worden voorkomen dat gegevens door brand of wateroverlast beschadigd raken door ze op meer dan één locatie te bewaren.
Aanleiding Het Amsterdamse bedrijf SecuReceipt B.V. richt zich sinds januari 2010 op het digitaliseren van het declaratieproces binnen bedrijven. Met de door SecuReceipt ontwikkelde software, wat tot uiting komt in het product SR//Expenses, wordt het declaratieproces vereenvoudigd en versneld, wat voor bedrijven veel besparing oplevert. De meeste declaraties binnen Nederland gaan gepaard met papieren documenten, zoals bonnen of facturen, die in de administratiesystemen van de bedrijven verwerkt dienen te worden. Het archiveren van deze documenten gebeurt bij SecuReceipt op servers, waarop een foto of scan van elke document wordt opgeslagen. Hierdoor is fysiek archiveren niet langer nodig. Het indienen van declaraties kan onder andere door middel van een mobiele applicatie (zie bijlage 1 voor een screenshot). Na het indienen kan het oorspronkelijke document worden weggegooid. Een declaratie moet echter wel voorzien worden van enige additionele informatie, alvorens deze opgeslagen en verwerkt kan worden. Deze additionele informatie uit zich onder andere in het overnemen van het totaalbedrag en het selecteren van een categorie en betaalmethode. Door gebruik te maken van technieken als OCR (Optical Character Recognition) kan een deel van deze additionele informatie automatisch ingevuld worden. Het verwerken van de declaraties kan daarmee nog sneller worden afgehandeld. Bij het onderzoek ligt de focus op het vaststellen van de categorie waar een declaratie onder valt met behulp van tekstherkenning (OCR).
OCR wordt al regelmatig toegepast bij het verwerken van facturen (B. Klein et al., 2004). Hiermee wordt veel voordeel behaald in het verwerkingsproces van facturen [1]. Wat betreft (kassa)bonnen is er tot dusver weinig onderzoek gedaan op het gebied van OCR.
Het onderzoek is uitgevoerd vanuit de Research and Development afdeling van SecuReceipt.
[1]
Management Kennisbank. Mogelijkheden van digitaal factureren met factuur software. http://www.managementkennisbank.nl/NL/financieel-advies/administratie-boekhouding/digitaal-factureren-factuur-software#homeTop.
7
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Doelstelling De doelstelling is het ontwikkelen van een toepassingsmethode om OCR software het categoriseren van declaraties te laten vereenvoudigen. Deze toepassingsmethode kan worden geïmplementeerd in het door SecuReceipt ontwikkelde product voor het verwerken van declaraties, genaamd SR//Expenses.
Probleemstelling Ondanks het feit dat de digitale verwerkingsmethode van SecuReceipt van declaraties het proces vereenvoudigd en versneld, zitten er toch nog wat nadelen aan. Zo is er na het ontvangen van bijvoorbeeld een kassabon altijd wel even tijd om een foto van de bon te maken met een mobiele telefoon, maar wanneer er ook additionele informatie moet worden toegevoegd komt men soms in tijdnood. De bon zal dan tijdelijk bewaard moeten worden, in bijvoorbeeld een portemonnee, en later alsnog via een mobiele telefoon ingevoerd moeten worden. Echter, het prettigst is natuurlijk als een bon vrijwel direct na ontvangst kan worden weggegooid. Om dat vaker mogelijk te maken moet de hoeveelheid tijd die het kost om de additionele informatie in te voeren, na het maken van een foto, worden gereduceerd. Het automatisch genereren van categoriesuggesties met behulp van tekstherkenning kan daar aan bijdragen.
Vraagstelling Onderzoeksvraag -
In welke mate kan bestaande OCR software bijdragen aan het categoriseren van declaraties? (analyserende vraag)
Deelvragen -
Hoe is het gesteld met de kwaliteit van bestaande OCR software? (beschrijvende vraag)
-
Wat zijn de gebruikelijke categorieën voor het categoriseren van declaraties? (beschrijvende vraag)
-
Wat zijn de specifieke kenmerken van de inhoud van declaraties? (beschrijvende vraag)
-
Wat zijn de kenmerken aan de hand waarvan de categorisering van declaraties plaatsvindt? (beschrijvende vraag)
8
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
-
Wat is een goede classificatiemethode voor het classificeren van declaraties? (beschrijvende vraag)
-
Kunnen we declaraties categoriseren in categorieën? (beschrijvende vraag)
-
Helpt OCR bij het classificeren van declaraties in categorieën? (analyserende vraag)
Kennisgebieden Om de onderzoeksvraag te kunnen beantwoorden moet eerst een toepassingsmethode ontwikkeld worden waarmee de mate waarin bestaande OCR software kan bijdragen aan het categoriseren van declaraties kan worden gemeten. Als de mate van succes van deze toepassingsmethode van een dusdanig niveau blijkt te zijn dat het van toegevoegde waarde blijkt te zijn voor SR//Expenses, dan is de koppeling met de probleemstelling gemaakt. Daarin wordt namelijk gesteld dat de tijd die het kost om een declaratie via de digitale verwerkingsmethode in te dienen moet worden gereduceerd en dat is dan precies waar de beantwoording van de onderzoeksvraag invulling aan geeft.
De onderzoeksvraag verklaart tevens dat de focus ligt bij bestaande OCR software. Dat er geen tijd en kennis voor handen is om nieuwe OCR software te ontwikkelen is duidelijk, aangezien dat een lang en gecompliceerd proces is. Ook is er geen geld beschikbaar om OCR software aan te schaffen. Er is dus gekozen voor bestaande gratis OCR software.
Om enig inzicht te krijgen in de kwaliteit van bestaande gratis OCR software, het belang van de kwaliteit van de OCR software voor de toepassingsmethode en de kwaliteit van OCR software in het algemeen, dus ook betere en/of betaalde software, worden er meerdere OCR systemen gebruikt binnen de ontwikkelde toepassingsmethode. Onder andere met deze informatie kan een inschatting worden gemaakt van verbeterpunten voor de toepassingsmethode.
Er is ook gekozen om enkel onderzoek te doen naar de toepassingsmogelijkheden voor het vereenvoudigen van het categoriseren van de declaraties. Er had ook voor het bepalen van de betalingsmethode of het totaalbedrag gekozen kunnen worden. Om het onderzoek uitvoerbaar te houden is het onderzoek beperkt tot het vereenvoudigen van het categoriseren. Hiervoor zijn de gebruikelijke categorieën in kaart gebracht en wat de daarbij behorende kenmerken zijn om een declaratie in een dergelijke categorie in te mogen delen.
9
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Er wordt tot slot in de onderzoeksvraag gesproken over declaraties en niet over bijvoorbeeld kassabonnen. Dit betekent dat voor het onderzoek zowel (kassa)bonnen als facturen worden gebruikt, maar uitsluitend van producten of diensten die in de praktijk ook met enige regelmaat worden gedeclareerd binnen bedrijven. Van belang is wat precies de specifieke inhoudelijke kenmerken van declaraties zijn, dus wanneer bijvoorbeeld een kassabon wel gedeclareerd mag worden en wanneer niet.
Door eerst te onderzoeken wat de inhoud van declaraties specificeert en aan de hand van welke kenmerken declaraties kunnen worden gecategoriseerd, kon er vervolgens een classificatiemethode worden bepaald. Erg simpele classificatiemethodes blijken vaak een verrassend hoge nauwkeurigheid te hebben (F. Sebastiani, 2002). Daarna kon de werking van het classificeren van declaraties in categorieën worden vastgesteld. Tot slot is er met behulp van bestaande OCR software een toepassingsmethode ontwikkeld die dit classificeren automatiseert.
Relevantie Maatschappelijke relevantie Om declaraties in te kunnen dienen moeten de bijbehorende papieren documenten vaak voor lange tijd in bijvoorbeeld een portemonnee worden bewaard, alvorens ze op kantoor aan een administratieve medewerker kunnen worden overhandigd. Een te volle portemonnee zorgt voor veel ongemakken en frustraties. Het onderzoek draagt bij aan een eenvoudige manier om declaraties direct in te kunnen dienen en helpt daardoor mee aan het voorkomen van deze ongemakken en frustraties. Wetenschappelijke relevantie Het onderzoek draagt bij aan de ontwikkelingen op het gebied van de verwerking van declaraties. Automatisering van het uitgavenmanagement zal de komende jaren in steeds meer bedrijven worden toegepast en in toenemende intensiteit. Diverse software applicaties hebben inmiddels hun weg naar deze markt gevonden, maar de verbeteringen aan deze software applicaties breiden zich in rap tempo uit. Het onderzoek levert vernieuwende inzichten op met betrekking tot de toepassingsmogelijkheden van OCR in het verwerkingsproces van declaraties. In de toekomst zou het zelfs goed kunnen dat de bij aankopen behorende papieren documenten volledig zullen verdwijnen en alles digitaal wordt ontvangen, verwerkt en opgeslagen.
10
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Praktische relevantie SecuReceipt wordt in het verbeteren van haar product, SR//Expenses, geholpen, doordat ze de ontwikkelde toepassingsmethode kan implementeren in haar product en daarmee het categoriseren van declaraties kan vereenvoudigen.
Methode Er wordt vastgesteld in welke mate bestaande OCR software kan bijdragen aan het categoriseren van declaraties. Dit gebeurt door middel van het toepassen van deze software op Nederlandse (kassa)bonnen en facturen in diverse vormen. De hieruit gegenereerde teksten worden vervolgens automatisch geanalyseerd door zelf ontworpen software. Deze software probeert elke declaratie aan een bepaalde categorie te koppelen door classificatie. De herkende tekst wordt hierbij getoetst aan sets met woorden. De sets met woorden worden gevormd aan de hand van een leerset met Nederlandse (kassa)bonnen en facturen, wat onderdeel uitmaakt van de volledige dataset. Elk woord is gerelateerd aan een bepaalde categorie.
Binnen het onderzoek zijn eerst de bestaande gratis OCR software en de gebruikelijke categorieën voor het categoriseren van declaraties in kaart gebracht. Er is een selectie gemaakt van OCR systemen die bruikbaar zijn voor het afstudeeronderzoek en uit deze selectie zijn enkele systemen uitgekozen. Ook is er een overzicht van de gebruikelijke categorieën samengesteld, naar aanleiding van de door de Belastingdienst voorgeschreven en door administratiesystemen gebruikte categorieën.
Vervolgens is er onderzoek gedaan naar het classificeren van declaraties in categorieën. Dit heeft onder meer te maken met de specifieke kenmerken van de inhoud van declaraties. Met deze kennis over classificatie is software ontwikkeld om de gekozen OCR software toe te passen op Nederlandse (kassa)bonnen en facturen in diverse vormen en de resultaten van deze classificatie op te slaan.
Tevens is er een dataset vergaard, waarop de ontwikkelde software wordt toegepast. De insteek hiervoor was een aselecte steekproef, waarbij alle elementen uit de populatie dezelfde kans hebben om in de steekproef te worden opgenomen. De steekproef was echter niet geheel aselect, aangezien bijvoorbeeld de facturen vooral van ICT bedrijven komen. Wat betreft het kenmerk ‘type’ is de steekproef (tamelijk) representatief, (kassa)bonnen en facturen zijn binnen de toepassingsmethode namelijk ongeveer even belangrijk en komen ongeveer in dezelfde verhouding voor in de steekproef. De dataset is onderverdeeld in een leerset en een testset. Dit is gebeurd op basis van willekeurige 11
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
selectie. De leerset draagt bij aan de vormgeving van de toepassingsmethode. Door analyse van de resultaten, voornamelijk de resultaten die voortkomen uit de testset, kan uiteindelijk worden bepaald in welke mate bestaande OCR software kan bijdragen aan het verwerken van declaraties.
De dataset is grotendeels ter beschikking gesteld door de Research and Development afdeling van SecuReceipt en ziet er als volgt uit:
Niveau van analyse: Nederlandse (kassa)bonnen en facturen Dataset: 94 items
Facturen: 41 o
Leerset: 30
o
Testset: 11
Kassabonnen: 53 o
Leerset: 36
o
Testset: 17
Dit afstudeeronderzoek betreft een combinatie van kwalitatief en kwantitatief onderzoek. Het antwoord op de onderzoeksvraag representeert een hoeveelheid, wat betekent dat het een kwantitatief onderzoek betreft. Het onderzoek wordt gebruikt om cijfermatig inzicht te krijgen in een bepaald object, in dit geval declaraties. Daarvoor dienen een aantal declaraties te worden getest, de zogenaamde testset. Wanneer de testset een bepaalde omvang en bepaalde kenmerken heeft, kunnen uitkomsten mogelijk gegeneraliseerd worden naar alle declaraties binnen Nederland. De uitkomsten worden door middel van percentages en aantallen beschreven. Voorafgaand aan het kwantitatief onderzoek kan kwalitatief onderzoek een eerste oriëntatie vormen op basis waarvan later gekwantificeerd kan worden. Aangezien het een nog relatief onbekend terrein is waarop dit onderzoek is uitgevoerd, is dit een zeer gebruikelijke combinatie.
In het theoretisch kader worden de volgende deelvragen beantwoord: -
Hoe is het gesteld met de kwaliteit van bestaande OCR software?
-
Wat zijn de gebruikelijke categorieën voor het categoriseren van declaraties?
-
Wat zijn de specifieke kenmerken van de inhoud van declaraties?
-
Wat zijn de kenmerken aan de hand waarvan de categorisering van declaraties plaatsvindt?
-
Wat is een goede classificatiemethode voor het classificeren van declaraties?
-
Kunnen we declaraties categoriseren in categorieën?
12
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
In het praktisch kader wordt de volgende deelvraag beantwoord: -
Helpt OCR bij het classificeren van declaraties in categorieën?
In het praktisch kader wordt tevens omschreven hoe de overkoepelende software, om de gekozen OCR software toe te passen op Nederlandse (kassa)bonnen en facturen en de resultaten van deze classificatie op te slaan, is ontwikkeld en gebruikt kan worden.
Theoretisch kader Bestaande OCR software en hun toepasbaarheid en kwaliteit In de zoektocht naar bruikbare bestaande gratis OCR software om te implementeren in de toepassingsmethode kwam ik al snel uit bij open source software. De keuze voor open source software heeft onder meer te maken met het feit dat dergelijk software altijd gratis te gebruiken is en de uitgebreide ontwikkelingsondersteuning (K. R. Lakhani et al., 2000). Bedrijven brengen hun software tegenwoordig steeds vaker als open source software op de markt, aangezien daar ook commerciële voordelen mee te behalen zijn (J. Lerner et al., 2002). Tevens kan de codering van deze software naar eigen wensen worden bijgeschaafd, zodat deze kan worden verwerkt in andere software. Open source software wordt, mede door de innovatieve (B. Kogut et al., 2001) en commerciële (J. Lerner et al., 2002) voordelen, steeds populairder onder bedrijven die software distribueren. Open source software is in sommige gevallen zelfs verder ontwikkeld dan de closed source software. De twee meest bekende en gebruikte open source OCR systemen zijn Tesseract (R. Smith, 2007) en OCRopus (T. M. Breuel, 2008). De bekendheid en het vele gebruik van deze OCR systemen heeft onder andere te maken met de kwaliteit van de OCR.
Echter, nader onderzoek naar de implementatiemogelijkheden van de vrij geavanceerde systemen Tesseract en OCRopus brachten mij tot het inzicht dat het koppelen van deze OCR systemen aan de zelf te ontwikkelen toepassingsmethode een project zou zijn wat niet in het kader van dit afstudeerproject zou passen. De focus is vervolgens verlegd naar bestaande gratis online OCR systemen die tevens helaas closed source zijn. De stap binnen de toepassingsmethode waarbij bijvoorbeeld een kassabon direct na fotogravering automatisch uitgelezen wordt, waarna de gegenereerde tekst wordt opgeslagen in een database, valt daardoor niet volledig te integreren in de toepassingsmethode. Binnen dit onderzoek is die stap daarom handmatig uitgevoerd. Slechts de beschikking over meer tijd zal het maken van dergelijke koppelingen met open source OCR software wel mogelijk maken. De complexiteit van een dergelijk project valt te overzien. De keuze voor 13
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
bestaande gratis online OCR systemen in plaats van Tesseract en OCRopus zal ook de kwaliteit van de OCR binnen de toepassingsmethode verminderen.
De zoektocht naar bestaande gratis online OCR systemen heeft diverse resultaten opgeleverd. Uit deze OCR systemen is een selectie gemaakt van OCR software die worden gebruikt binnen de toepassingsmethode. Dit is gebeurd op basis van een eerste indruk van de kwaliteit, het gebruikersgemak, de toegankelijkheid (welke typen documenten er worden ondersteund) en de door de uitgever ingestelde limieten, zoals bijvoorbeeld een limiet voor de grootte van een document of de verwerking van maximaal vijftien documenten per uur (ter voorkoming van misbruik door spammers en/of hackers). Deze selectie bestaat uit New OCR (newocr.com), Google Docs (docs.google.com) en Online OCR (onlineocr.net). Alle drie de systemen zullen op dezelfde dataset worden toegepast. Na analyse van de resultaten kan afzonderlijk voor elk OCR systeem worden vastgesteld in welke mate ze kunnen bijdragen aan de categorisering van declaratiebonnen. De gebruikelijke categorieën voor het categoriseren van declaraties Het is voor bedrijven noodzakelijk om van alle transacties die worden gesloten, gemaakt of ontvangen, dus ook declaraties, de brongegevens vast te leggen in één of meer informatiesystemen, Deze vastlegging gebeurt meestel in eerste instantie in de boekhouding van een bedrijf. Iedere boekhouding heeft als basis een rekenschema, ook wel grootboekrekeningen genoemd. In het rekenschema vind je alle posten terug waarop en waar vanaf transacties kunnen worden gemaakt. Het rekenschema kan worden gezien als een overzicht van de categorieën waarin een transactie kan worden ingedeeld.
De Belastingdienst stelt geen specifieke grootboekrekeningen vast voor een rekenschema, maar vereist wel dat aan elke grootboekrekening voor omzet of verkoop de juiste BTW-rubriek heeft (het te betalen/ontvangen percentage BTW). Over het algemeen gebruiken administratiesystemen, waarin bedrijven veelal hun boekhouding voeren, vergelijkbare rekenschema’s. Er zijn categorieën (of grootboekrekeningen) waar declaraties nooit onder zullen vallen, deze categorieën zijn dan ook niet opgenomen in de lijst met categorieën voor de toepassingsmethode. De lijst met categorieën voor de toepassingsmethode is samengesteld uit de standaard rekenschema’s van SAP en e-Boekhouden[1] en is te vinden in bijlage 2.
[1]
Het rekenschema van e-Boekhouden http://www.gratis-cursus-boekhouden.nl/default.asp?c=26
14
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
De specifieke kenmerken van de inhoud van declaraties Om declaraties aan de hand van de inhoud te koppelen aan categorieën, moet eerst duidelijk worden wat de inhoud van declaraties specificeert. Om een declaratie in te kunnen boeken in de administratie van een bedrijf moet deze een vermelding van het door de klant betaalde BTW-bedrag bevatten. Werkgevers willen graag de BTW aftrekken en zien daarom het liefst alleen BTW-bonnen (of facturen) gedeclareerd worden. Vaak vereist de werkgever dit zelfs. De inhoud van een BTW-bon moet voldoen aan bepaalde eisen. De volgende zaken moeten duidelijk op de BTW-bon staan[1]:
De naam en het adres van de winkel/het bedrijf;
Het BTW-nummer van de winkel/het bedrijf;
De aankopen met een duidelijke omschrijving;
Het BTW-bedrag/percentage;
Een factuurnummer/BTW-bon nummering.
Het vaststellen van deze kenmerken is een onderdeel van het ontwerpen van een classificatiesysteem. Deze stap wordt gezien als de indexering of diagnosticering en vormt de eerste van drie stappen bij het ontwerpen van een classificatiesysteem. De kenmerken aan de hand waarvan de categorisering van declaraties kan plaatsvinden Binnen de toepassingsmethode zet de OCR software een afbeelding van een (kassa)bon of factuur om in tekst door gebruik te maken van tekstherkenning. De herkende tekst wordt vervolgens getoetst aan sets met woorden. De sets met woorden worden gevormd aan de hand van een leerset, dit proces wordt later omschreven. Elk woord is gerelateerd aan een bepaalde categorie. Woorden zullen bij het toetsen hoofdzakelijk worden gevonden in het eerste en derde punt van het zojuist genoemde lijstje: de naam van de winkel/het bedrijf en de aankopen met een duidelijke omschrijving. Dit kan worden onderbouwd met theorieën over inzicht in documenten (A. R. Dengel, 2003), tekst in afbeeldingen (R. M. Haralick et al., 1973) en tekst categorisering (Y. Yang et al, 1997). Een goede classificatiemethode voor het classificeren van declaraties De declaraties worden gecategoriseerd door de herkende tekst te toetsen aan de sets met woorden, die aan de categorieën gekoppeld zijn. De sets met woorden zijn met behulp van een leerset samengesteld. Overeenkomsten tussen de herkende tekst en een set met woorden betekenen dat er een vergrote kans is dat de declaratie onder die bepaalde categorie valt. Uiteindelijk worden alle overeenkomsten met de verschillende woorden bij elkaar genomen en wordt er bekeken welke
[1]
Waaraan moet een BTW-bon voldoen? https://www.vatfree.nl/en/faq-winkelier-algemeen/81-waaraan-moet-een-btw-bon-voldoen-
15
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
categorie het beste kan worden gesuggereerd. Deze vormgeving van de classificatiemethode vormt de tweede stap bij het ontwerpen van een classificatiesysteem. Dit heet de clusteranalyse. Het is een erg simpele clusteranalyse, maar dat blijkt vaak erg effectief (F. Sebastiani, 2002). De werking van het classificeren van declaraties in categorieën De derde stap resulteert in de definitieve vormgeving van het classificatiesysteem. Wanneer de clusteranalyse namelijk is uitgevoerd zijn de declaraties ingedeeld in groepen met overeenkomstige kenmerken. Dit zijn de categorieën waarin de declaraties ingedeeld dienen te worden. De mate waarin de declaraties in de juiste categorieën zijn ingedeeld, bepaalt uiteindelijk in welke mate bestaande OCR software kan bijdragen aan het categoriseren van declaraties.
Praktisch kader OCR laten helpen bij het classificeren van declaraties in categorieën De ontwikkelde toepassingsmethode moet ervoor zorgen dat de OCR software toegepast kan worden op de testset, bestaande uit Nederlandse (kassa)bonnen en facturen in diverse vormen, en vervolgens de uit de classificatie voortvloeiende resultaten worden opgeslagen. In bijlage 3 is een screenshot van het ontwikkelde toepassingssysteem te vinden. Dit systeem staat ook online[1].
Om de vormgeving van het systeem volledig te kunnen volgen is het van belang het ontstaan en de rol van het analysemateriaal te begrijpen. Tevens is het van belang te weten dat van elke declaratie binnen de dataset de bestandsnaam van de foto of scan, het type declaratie (leerset factuur, testset factuur, leerset bon of testset bon) en de juiste categorie, waarin de declaratie ingedeeld zou moeten worden, in een database tabel zijn ingevoerd. Het analysemateriaal bestaat uit sets met woorden, waarvan elk woord gerelateerd is aan een bepaalde categorie. Deze sets met woorden komen voort uit de leerset, bestaande uit 30 facturen en 36 bonnen. Van de declaraties uit de leerset zijn handmatig en zonder spelfouten de producten & services en de bedrijfsnamen overgenomen in een database tabel. In deze tabel worden aan deze producten & services en bedrijfsnamen de juiste categorieën van die declaraties gekoppeld. De juiste categorieën zijn de categorieën waarin de declaraties ingedeeld zouden moeten worden. Er zijn zo twee sets met woorden ontstaan: één set met producten & services waarvan elk product en service gekoppeld is aan één categorie; en één set met bedrijfsnamen waarvan elke bedrijfsnaam ook gekoppeld is aan één categorie. Deze twee sets met woorden staan binnen dit afstudeeronderzoek bekend als het analysemateriaal. De combinaties binnen het analysemateriaal,
[1]
Het ontwikkelde toepassingssysteem http://www.mb-2.nl/ocr/
16
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
tussen bijvoorbeeld een product en een categorie, zijn uniek. Komt een combinatie (1-op-1) dus meer dan één keer voor, dan zullen al deze combinaties, op één na, uit het analysemateriaal worden verwijderd. Dit geldt ook voor services en bedrijfsnamen. Wanneer we dit niet zouden doen, dan zouden bijvoorbeeld bedrijfsnamen die meerdere keren voorkomen in de leerset, waarop het analysemateriaal wordt gebaseerd, en dezelfde categorie hebben onrechtmatig voordeel behalen ten opzichte
van
andere
bedrijfsnamen.
Aangezien
dat
zou
leiden
tot
een
onbruikbare
toepassingsmethode, wordt dat op deze manier voorkomen.
Het toepassingssysteem probeert elke declaratie aan een bepaalde categorie te koppelen door classificatie. De herkende tekst, die wordt geproduceerd door middel van het gebruikte OCR systeem, wordt hierbij getoetst aan het analysemateriaal. Wanneer een overeenkomstig woord tussen de herkende tekst en het analysemateriaal wordt gevonden, dan wordt er gesproken van een ‘hit’. De bij dat woord behorende categorie (in de database tabel van het analysemateriaal) wordt dan één keer gekoppeld aan de declaratie. Het aantal koppelingen met een categorie, dus het aantal hits, kan oplopen naarmate er meer overeenkomsten worden gevonden. Alle hits worden vervolgens per categorie bij elkaar opgeteld, waarmee een declaratie bij nul, één of meerdere categorieën één of meerdere hits kan hebben. Als een declaratie bij meerdere categorieën hits heeft, dan worden deze categorieën geordend op aantal hits met de categorie met de meeste hits bovenaan.
Voor een declaratie worden alle categorieën waarbij minstens één hit is opgetreden als suggestie aangedragen. Zo krijgt een declaratie nul, één of meerdere categoriesuggesties, geordend op aantal hits. De categoriesuggestie met de meeste hits wordt aangedragen als meest waarschijnlijke suggestie. Wanneer de meest waarschijnlijke categoriesuggestie overeenkomt met de juiste categorie, waarin de declaratie zou moeten worden ingedeeld, spreken we van een ‘first hit’. Een first hit is erg waardevol, aangezien de declarant het selecteren van de juiste categorie dan kan overlaten aan het systeem. Gebruik van het toepassingssysteem Zoals in figuur 1 en bijlage 3 is te zien vallen er binnen het toepassingssysteem een aantal keuzes te maken alvorens er een analyse wordt uitgevoerd. Ten eerst kan (een deel van) de dataset worden geselecteerd, waarop de analyse uitgevoerd dient te worden. Daarnaast kan er worden gekozen welk analysemateriaal er voor de analyse gebruikt moet worden, namelijk de producten & services en/of de bedrijfsnamen. Tot slot dient er te worden gekozen voor één OCR systeem, waarmee de stap van tekstherkenning uitgevoerd wordt.
17
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Figuur 1. Keuzes binnen het toepassingssysteem
Nadat er op ‘Analyseren’ geklikt is, worden de specificaties van de analyse zichtbaar, vlak onder het gedeelte waar de zojuist genoemde keuzes ingevoerd kunnen worden. Daar weer onder worden de resultaten van de analyse weergegeven. De volgende gegevens zijn van links naar rechts te zien:
Het volgnummer (ID).
De bestandsnaam van de foto of scan (Declaratie).
Het type declaratie (Type).
De categoriesuggesties, geordend op aantal hits (Suggesties).
De juiste categorie, waarin de declaratie zou moeten worden ingedeeld (Categorie).
Of de juiste categorie wel of niet tussen de categoriesuggesties zit (Goed/fout).
Of er wel of niet sprake is van een first hit (First hit).
Onderaan, aan de rechterkant, worden het aantal declaraties waarbij de juiste suggestie tussen de categoriesuggesties zit en het aantal first hits weergegeven, met eveneens de daarbij behorende percentages. Aan de hand van deze percentages kunnen we bepalen in welke mate de gebruikte OCR systemen kunnen bijdragen aan het categoriseren van declaraties.
Resultaten Binnen het toepassingssysteem zijn alle mogelijke combinaties tussen de verschillende keuzemogelijkheden geanalyseerd en de resultaten zijn in tabellen en grafieken ingevoerd. In respectievelijk bijlage 4 en bijlage 5 zijn de tabellen en grafieken met resultaten te vinden. Bijlage 6 bevat een aantal vereenvoudigde grafieken met resultaten. 18
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
De resultaten van de analyse van de leerset zijn minder interessant. Deze resultaten zullen namelijk relatief hoger uitvallen, doordat het analysemateriaal is gebaseerd op deze leerset. Dit deel van de dataset is dus niet geschikt om de implementatiemogelijkheid van de toepassingsmethode in het product van SecuReceipt, SR//Expenses, mee af te wegen. De resultaten van de leerset kunnen nadrukkelijk niet gegeneraliseerd worden naar alle declaraties binnen Nederland. Bij de testset is het zeer zeker wel de moeite waard om te kijken of we de resultaten kunnen generaliseren.
Verder blijkt het gebruik van al het analysemateriaal, dus zowel de set met producten & services als de set met bedrijfsnamen, betere resultaten op te leveren dan wanneer slechts één van beide sets als analysemateriaal wordt ingezet.
Tevens blijkt het gebruik van het OCR systeem Online OCR voor betere resultaten te zorgen dan het gebruik van New OCR of Google Docs. De meest relevante grafiek van de resultaten is te vinden in figuur 2. Bij toepassing van de toepassingsmethode op de testset en het kijken naar het percentage first hits, suggereren New OCR, Google Docs en Online OCR respectievelijk succespercentages van 39%, 32% en 50% (zie figuur 2).
Figuur 2. De meest relevante resultaten
19
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Conclusie Zoals eerder aangegeven is het voor het trekken van conclusies vooral relevant om naar de resultaten van de analyse van de testset te kijken, aangezien we deze gegevens misschien zouden kunnen generaliseren naar alle declaraties binnen Nederland. Daarnaast is het interessanter om naar first hits te kijken dan naar het al dan niet voorkomen van de juiste suggestie tussen de categoriesuggesties. Een first hit is namelijk erg waardevol, doordat de declarant het selecteren van de juiste categorie dan kan overlaten aan het systeem. Met deze gegevens kunnen we de resultaten voor het trekken van de belangrijkste conclusies reduceren naar een tabel, met als dataset zowel de testset facturen als de testset bonnen en als resultaten het percentage first hits. Deze tabel is te vinden in tabel 1.
Tabel 1. Resultaten first hits van de testset New OCR
Google Docs
Online OCR
Bedrijfsnamen
36%
25%
39%
Producten & services
32%
29%
36%
Bedrijfsnamen,
39%
32%
50%
producten & services
Hieruit valt te concluderen dat Online OCR van de drie gebruikte OCR systemen de beste kwaliteit heeft en daardoor dus de beste analyseresultaten van de drie voortbrengt. Verder valt te concluderen dat het gebruik van zowel de set met bedrijfsnamen als de set met producten & services als analysemateriaal de beste resultaten oplevert.
Eerder in het afstudeeronderzoek werd gesteld dat als de mate van succes van deze toepassingsmethode van een dusdanig niveau blijkt te zijn, dat de tijd die het kost om een declaratie via de digitale verwerkingsmethode in te dienen met behulp van deze toepassingsmethode verder kan worden gereduceerd, dat implementatie van de toepassingsmethode in SR//Expenses dan de moeite waard zou zijn. In de tabel valt af te lezen dat er zeker sprake is van een redelijk aantal first hits, namelijk in de helft van de gevallen (50%), wanneer er gebruik wordt gemaakt van het OCR systeem Online OCR en als analysemateriaal zowel bedrijfsnamen als producten & services. We kunnen dus concluderen dat de implementatie van de ontwikkelde toepassingsmethode van toegevoegde waarde is voor het product SR//Expenses.
20
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Discussie Helaas biedt de huidige toepassingsmethode nog aardig wat ruimte voor verbetering en daarmee kunnen ook een aantal kritiek-/discussiepunten worden aangestipt. De conclusie die wordt getrokken, namelijk dat de ontwikkelde toepassingsmethode van toegevoegde waarde is voor het product SR//Expenses, is waar. Echter, de toepassingsmethode zelf kent wat knelpunten, waardoor implementatie in deze vorm zeer discutabel te noemen valt. Dit heeft twee redenen (de knelpunten van de toepassingsmethode).
Ten eerste zijn in de huidige toepassingsmethode declaraties handmatig door de OCR systemen gevoerd, waarmee herkende tekst gegenereerd werd, wat vervolgens in een database tabel werd opgeslagen. De oorzaak van dit knelpunt ligt in het feit dat het implementeren/koppelen van (gratis) open source OCR software in het toepassingssysteem, waarna declaraties wel automatisch kunnen worden uitgelezen, dusdanig veel tijd zou kosten dat het niet in het kader van dit afstudeerproject zou passen. Bijkomend voordeel van een eventueel vervolgonderzoek waarbij een dergelijke koppeling wel wordt gefaciliteerd, is dat de in dit onderzoek aangedragen open source OCR systemen, namelijk Tesseract en OCRopus, hoogstwaarschijnlijk een betere kwaliteit tekstherkenning met zich meebrengen dan de in dit afstudeeronderzoek gebruikte OCR systemen. Dit valt af te leiden uit onder andere de bedrijfsomvang, bekendheid, betrouwbaarheid en gebruikerservaringen van de uitgevers van Tesseract, OCRopus, New OCR, Google Docs en Online OCR. Gebruik van zo’n OCR systeem in de toepassingsmethode levert dus waarschijnlijk hogere percentages op en daarmee reden te meer voor SecuReceipt om deze methode te implementeren in SR//Expenses.
Ten tweede is het analysemateriaal, wat tot uiting komt in twee sets met woorden waarvan elk woord gekoppeld is aan een categorie, vormgegeven door de producten & services en de bedrijfsnamen handmatig en zonder spelfouten over te nemen in een database tabel. Dit is een proces/handeling wat zowel een gebruiker van SR//Expenses als de uitgever van SR//Expenses, SecuReceipt, niet wil uitvoeren omdat het onprettig en tijdrovend is. Perfecte indexering/zonering van declaraties, waar al enig onderzoek naar is gedaan (R. Schutte, 2011), en het gebruik van een nagenoeg perfect OCR systeem zou het automatisch genereren van bedrijfsnamen en producten & services, die zonder spelfouten zijn, kunnen benaderen. Met die technologie kan het analysemateriaal automatisch worden vormgegeven en automatisch steeds verder worden uitgebreid, wat steeds betere resultaten met zich meebrengt.
21
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Voor het tweede knelpunt valt dus niet zo snel een oplossing aan te dragen, maar een vervolgonderzoek kan daar zeker meer duidelijkheid in verschaffen. Toch is het huidige toepassingssysteem, na koppeling met een OCR systeem (met goede kwaliteit tekstherkenning), naar mijn idee van toegevoegde waarde voor SR//Expenses. De oplossing voor het tweede knelpunt is dan dat gebruikers van SR//Expenses handmatig een lijstje met bedrijfsnamen, van bedrijven waarvan medewerkers vaak (kassa)bonnen of facturen als declaratie indienen, invoeren. Daarbij dient elke bedrijfsnaam gekoppeld te worden aan de categorie waar declaraties van dat bedrijf meestal/altijd onder vallen. Dit fungeert dan als een analyseset met bedrijfsnamen, wat gebruikt kan worden als analysemateriaal. We kunnen uit dit afstudeeronderzoek afleiden dat bij koppeling van het OCR systeem Online OCR (de beste van de drie in dit onderzoek gebruikte OCR systemen) aan het toepassingssysteem en gebruik van de zojuist aangedragen oplossing voor het tweede knelpunt, het percentage first hits de 39% moet kunnen benaderen. Dat betekent dat deze methode bij ongeveer twee van elke vijf declaraties een juiste categoriesuggestie geeft en daarmee de declarant een handeling uit handen neemt. Dit zou een zeer goede verbetering zijn aan SR//Expenses.
Specifieke kenmerken van de implementatie in de architectuur van SR//Expenses vergt nog enig onderzoek. We kunnen echter wel vaststellen dat deze toepassingsmethode moet worden geïmplementeerd in de mobiele applicatie van SR//Expenses, waar het merendeel van de gebruikers hun declaraties mee indienen en waarbij tijdbesparing het meest waardevol is. Het proces van tekstherkenning en het genereren van suggesties moet plaatsvinden tussen het maken van een foto en het invullen van het formulier voor de additionele informatie. Echter, het herkenningsproces is waarschijnlijk dusdanig zwaar, waardoor het lastig uit te voeren is voor de processors van de huidige mobiele telefoons. In de toekomst zullen deze processors steeds beter worden, maar momenteel vormt dat een probleem. Een oplossing daarvoor zou kunnen zijn dat tussen het maken van de foto en het invullen van het formulier, de foto wordt verzonden naar de servers van SecuReceipt, waarop vervolgens het proces van tekstherkenning en het genereren van suggesties wordt uitgevoerd. Uiteindelijk worden de gegenereerde suggesties dan teruggestuurd naar de mobiele telefoon, die deze vervolgens kan verwerken in het formulier voor het invullen van de additionele informatie. Deze oplossing heet ‘server-side processing’.
22
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Uitleg begrippen Belastingdienst: Een belastingdienst, ook wel fiscus genoemd, is een overheidsorgaan dat de heffing en inning van belasting voor een staat verzorgt. BTW: Omzetbelasting of BTW (Belasting over de Toegevoegde Waarde) is een belasting die een overheid heft op de verkoop van producten of diensten. Categoriseren: Naar categorieën, die door de Belastingdienst worden voorgeschreven en door administratiesystemen worden gebruikt om declaraties te ordenen, indelen. Classificatie: De indeling van declaraties in de bij ‘Categoriseren’ omschreven categorieën op grond van overeenkomst of verwantschap in eigenschappen of kenmerken. Closed source software: Computerprogrammatuur waarvan de broncode niet in te kijken en niet te veranderen is. OCR (Optical Character Recognition): Een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma). Open source software: Computerprogrammatuur waarvan de broncode in te kijken en te veranderen is. Toepassingsmethode of -systeem: Een andere benaming voor de ontwikkelde overkoepelende software om de gekozen OCR software toe te passen op Nederlandse (kassa)bonnen en facturen in diverse vormen en de resultaten van de daarop volgende classificatie op te slaan.
23
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Referenties Breuel, T. M. (2008). The OCRopus open source OCR system. Proc. IS&T/SPIE 20th Annual Symposium 2008. Dengel, A. R. (2003). Making Documents Work: Challenges for Document Understanding. Seventh International Conference on Document Analysis and Recognition (ICDAR'03) - Volume 2. Haralick, R. M., Shanmugam, K., & Dinstein, I. (1973). Textural Features for Image Classification. IEEE Transactionson Systems, Man and Cybernetics, 1973. Volume 3, Issue 6, Pages 610-621. Klein, B., Agne, S., & Dengel, A. (2004). Results of a Study on Invoice-Reading Systems in Germany. Lecture Notes in Computer Science, 2004. Volume 3163/2004, 70-79. Kogut, B., & Metiu, A. (2001). Open Source Software Development and Distributed Innovation. Oxford Review of Economic Policy, 2001. Volume 17, Issue 2, Pp. 248-264. Lakhani, K. R., & Von Hippel, E. (2000). How Open Source Software Works: 'Free' User-to-User Assistance? MIT Sloan Working Paper, 2000. No. 4117-00. Lerner, J., & Tirole, J. (2002). Some Simple Economics of Open Source. The Journal of Industrial Economics, 2002. Vol. 50, No. 2, pp. 197-234. Schutte, R. (2011). Automatisch informatie verkrijgen uit kassabonnen. Universiteit van Amsterdam. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 2002. Volume 34, Issue 1. Smith, R. (2007). An Overview of the Tesseract OCR Engine. Document Analysis and Recognition, 2007.ICDAR 2007.Ninth International Conference, 629-633. Yang, Y., & Pedersen, J. O. (1997). A comparative study on feature selection in text categorization. Machine Learning-International, 1997.
24
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlagen Bijlage 1: Screenshot van de mobiele applicatie van SR//Expenses
25
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlage 2: Lijst met categorieën voor de toepassingsmethode
26
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlage 3: Screenshot van het toepassingssysteem
27
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlage 4: Tabellen met resultaten
28
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlage 5: Grafieken met resultaten
29
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
30
OCR: Declaraties categoriseren | Universiteit van Amsterdam | Februari 2011
Bijlage 6: Vereenvoudigde grafieken met resultaten
31