Totální zpracování dokumentů na obzoru Žid Norbert Katedra informačních technologií VŠE
[email protected] Abstract: Článek ukazuje možnosti digitalizace papírových dokumentů v praxi. Dokumentuje, že toto je jedna z perspektivních cest, jak dospět k totální digitalizaci dokumentů a jejich digitální archivaci. Článek se opírá o zkušenosti z digitalizace došlých faktur ve velké finanční společnosti. Vedle rozboru konkrétní aplikace se autor snaží zobecnit přínosy digitalizace a poukazuje také na nové otázky, které digitalizace papírových dokumentů přináší. Klíčová slova: DMS, OCR, scanování dokumentů, digitální archivace, SAP Abstract: The paper describes possibilities of document digitalization. It shows it is one of the important ways how to achieve the total document digitalization and their digital archiving. The article is based on experiences from the received invoices digitalization in an international financial company. In addition to the particular application description the article tries to generalize advantages of digitalization process as well as to show which new questions arise in connection with the digitalization process. Key words: DMS, OCR, document scanning, digital archiving, SAP
1. Úvod. Tradiční vyuţívání ERP systémů je téma, které bylo v minulosti jiţ ze všech moţných úhlů pohledů zkoumáno. Vstup dat do těchto systémů byl téţ tradiční (např. vkládání faktur účetním dle papírové faktury, později se přidalo zasílání faktur v elektronické podobě (např. EDI, XML atd.). Existuje dnes však další slibná cesta pro vstup dokumentů do ERP a to scanování dokumentů a následné odvození (interpretace obrazu) věty o faktuře. Tímto způsobem vstupu dochází k výraznému posunu v celém řešení ERP systémů a k nevídanému posunu v komfortu při práci rutinních uţivatelů ERP systémů. Proč? Protoţe se propojila na jedné straně totální digitalizace dokumentů a na druhé straně moţnost uţivatelů vidět (rychle a kdykoliv) tyto dokumenty jakoby v papírové podobě (obrazu dokumentů) (např. v SAP modulech) tak, jak jsou běţní uţivatelé zvyklí po celá desetiletí či moţná i staletí. Z pozice rutinního uţivatele (např. fakturanta, účetního , personalisty) je úplně nezajímavé, zda vstupy dat do systémů přicházejí v papírové podobě, či v XML dokumentech, či v EDI dokumentech či v PDF tvaru, nebo ve tvaru obrázku. Při dřívějším elektronickém předávání dokumentů (EDI dokumenty, XML dokumenty) se předpokládalo, ţe takovýto vstup je kvalitní, ale zapomínalo se na to, ţe běţný uţivatel de facto chce i tento vstup vidět jako „kaţdý jiný papírový dokument“. Kdyţ se dnes přidala moţnost relativně snadného naskenování papírových dokumentů a jejich “téměř automatický převod“ do vět relačních databází (např. v SAP), pak se otevřela cesta k tomu, ţe všechny vstupní dokumenty jsou vlastně v digitální SYSTÉMOVÁ INTEGRACE 1/2009
7
Žid Norbert
podobě, či ve dvou podobách: jako obrázek originálu (písemného dokumentu) a jako zjednodušeně řečeno věta v relační tabulce, se kterou je moţno realizovat např. zaúčtování, výpočet mzdy apod. Toto dvojí zobrazení dokumentu je nesmírně výhodné pro běţného uţivatele ERP; snad proto je i samozřejmé, ţe elektronické vstupní dokumenty (XML, EDI) jsou dnes jakoby doplňovány obrazovým vyjádřením (pomocí navrţených šablon), aby uţivatel viděl dokument v podobě jako kaţdý jiný papírový dokument.
2. Zázemí pro zkoumání – znalost praktického řešení Snaţil jsem se proniknout do praxe systémů, které se snaţí o totální zpracování dokumentů a našel jsem v poslední době dva příklady, které mě orientovaly k novým pohledům. V první fázi jsem byl přesvědčen o jisté primitivnosti zpracování dokumentů, či spíše o jednoduchosti podpůrných aplikací (programů) pro zpracování dokumentů pro moduly ERP. Na základě poznání zdánlivě jednoduché aplikace (zpracování papírových dodavatelských faktur) jsem však došel k závěru, ţe celé řešení je neprimitivní a ukazuje perfektně na propojování OCR (rozpoznávání znaků z obrazů), dále na oblast DMS (zpracování, ukládání a vyhledávání dokumentů), na oblast WORKFLOW (stanovení oběhu dokumentů za účelem jejich doplnění a schvalování) a nakonec se vše prolne do tradičních relačních tabulek ERP a na základě těchto dat se „účtuje, vydávají příkazy k úhradě, spočítají mzdy pracovníka, vytvoří se výplatní pásky atd.“. Přitom uţivatel má prakticky 100% dokumentů digitalizováno a můţe si dovolit „opustit tradiční papírové archivy“. Je výslovně zajímavé, ţe státní kontrolní orgány při namátkových kontrolách v organizacích začínají chápat, ţe při kontrolách správnosti účtování, správnosti daní a jiných odvodů, se lze prokázat digitálními obrazy dokumentů (např. naskenovanými dokumenty faktur). V dalších kapitolách se odvolávám na digitalizaci dokumentů v personální oblasti, která je realizována v Německu a tam jiţ existují zákony, které uznávání naskenovaných dokumentů dovolují (viz.[5])
3. Variabilita došlých faktur a parametrizace řešení V praxi jsem se setkal s nasazením projektu digitalizace došlých faktur; jedná se o velkou finanční instituci v ČR. Při zkoumání této aplikace mě zaujala různost došlých faktur a moţnost řešení této různosti pomocí parametrizace. Dodavatel aplikace předpokládá, ţe při startu aplikace nastaví ve spoluprácí s uţivatelem řadu parametrů (profilů) a dokonce počítá s tím, ţe řadu měnících se prvků jsou schopni zvládnout pracovníci IT a účtáren sami (objeví se nový dodavatel a jeho nová faktura). Navíc je ještě vyuţívána moţnost „učení se z minulých faktur“ (optimalizace rozpoznávání). Pro představu čtenáře je moţno odhadnout, ţe firma dostává měsíčně cca 4200 (ročně cca 50000) papírových faktur od cca 8500 různých dodavatelů (i zahraničních). Je nasnadě, ţe faktury jednotlivých dodavatelů se formálně liší. Naskenovaný obrázek faktury se interpretuje (rozpoznává se text) tak, ţe se na obrázku hledá např. slovo DODAVATEL: a vedle se nacházející textový řetězec s názvem (nebo se hledá slovo CELKEM: a vedle stojící číselná částka). Z kaţdého obrázku faktury se tak vyextrahují základní údaje z faktury a vloţí se do strukturované věty. Cílem je, aby tento proces mohl probíhat automaticky, bez 8
SYSTÉMOVÁ INTEGRACE 1/2009
Totální zpracování dokumentů na obzoru
zásahu např. účetní. Při výskytu 8500 různých dodavatelů se v současnosti daří cca 45% faktur přečíst a hlavně převést dobře, u zbytku naskenovaných faktur zasahuje účetní, která můţe nečitelné prvky dopsat, opravit nejasné prvky apod. Existuje snaha toto procento zvýšit a dodavatel aplikace nabízí pro toto specializovaný optimalizační modul. Za jeho pomoci je moţné pro kaţdého dodavatele vytvořit samostatný profil faktury dodavatele (je to soubor parametrů, který pomáhá lépe fakturu rozpoznat). Lze se tak naučit se z minulých zkušeností fakturu určitého dodavatele lépe rozpoznat a tak lze očekávat, ţe v budoucnu bude narůstat počet dobře přečtených faktur na 70-80%. Zkoumaná aplikace téţ dovoluje parametrizovat faktury dle různých vnitřních zvyklostí, a tím mít moţnost je různě zpracovávat. V konkrétní instituci se rozlišují tyto typy došlých faktur: 1. faktury všeobecné 2. faktury zálohové 3. faktury majetkové 4. faktury neúčetní. Jednotlivé faktury či spíše typy faktur podléhají jiným pravidlům při jejich doplňování a schvalování (tzv. Workflow proces, který v konkrétní aplikaci má jméno WebCycle). Dle typu faktury se faktura zařadí do schvalovacího procesu. Zjednodušeně si to můţeme představit, ţe faktura (obrázek i věta) jsou ve „WebCycle“ automaticky zaslány administrátorovi určitého útvaru, který fakturu zkontroluje, doplní do věty nákladové středisko (uzná, ţe fa patří do jejich útvaru) a dále faktura putuje k vedoucímu útvaru, který dá souhlas k jejímu proplacení. Tento proces můţe být samozřejmě mnohem sloţitější, např. faktury nad jeden milion musí schvalovat i vyšší nadřízený; toto je však součástí definovaného Workflow procesu. Aby toho nebylo málo, systém samozřejmě dovoluje přijímat a skenovat i faktury od zahraničních firem (česky, anglicky, německy psané) a na fakturách lze vedle KČ uvádět i Eura či dolary. A konečně další specialita. Obvykle má faktura 1-2 stránky (naskenují se tedy 1-2 obrázky), které se musí interpretovat společně. Ale existuje i celá řada faktur, které mají 1-6 příloh, které lze také skenovat a jsou pak součástí digitalizované faktury. Jedna faktura tak můţe být souborem 1-10 naskenovaných obrázků. Při zvaţování rozměru faktury dodavatel uvádí tato čísla: 1 stránka faktury je převedena do obrázku v TIF (bitmapový formát) o rozměru 60 MB (2 stránky 120Mb atd.) Pokud by se zvaţovala 2 stránková faktura se 3 přílohami, pak je rozměr v databázi cca 300MB.
4. Jak vypadá zpracování papírových dokumentů ve zmíněné instituci Zjednodušeně to ukazuje následující schéma:
SYSTÉMOVÁ INTEGRACE 1/2009
9
Žid Norbert
Komentář ke schématu. Na vstupu dokumentů existuje řada forem dokumentů. Pro papírovou formu je významný první blok tj. scanování a převedení do digitální podoby. Pak se jiţ postupuje se všemi vstupními dokumenty stejně (verifikace, workflow proces doplnění a schvalování faktur, další zpracování v SAP). Rutinní uţivatele očekávají, ţe všechny faktury budou (na poţádání) viditelné jako obrázek faktury, to platí i pro dokumenty, které vstoupily ve formě XML či EDI.
5. Další příklad zpracování papírových dokumentů. Z Německa jsou známy aplikace z oblasti HR (Human Resources), kdy se potřebné vstupní (ale často i výstupní dokumenty) drţí pouze v digitální podobě. Digitální archiv slouţí k ukládání, pořádání a vyhledávání dokumentů mnohem lépe, neţ klasický papírový archiv. Můţeme v digitální podobě uchovávat např. potvrzení o neschopnosti od lékaře, rozpis pracovních výkonů, ale i roční mzdové listy zaměstnanců apod. Tuto aplikaci jsem osobně neviděl, ale z prezentace firmy je patrné, ţe řešení personalistky a mezd ve spojení s digitálním archivem je vysoce ţádané. Aplikace je u desítek firem v Německu a to i u firem středních. Zajímavé jsou téţ výzkumy a tabulky, které ukazují rozdíly mezi ručním a digitálním zpracováním . Následující tabulka ukazuje srovnání nákladů na ruční zpracování a archivaci dokumentů kontra digitální převod a digitální archivace dokumentů. Příklad porovnává 3 podniky na německém trhu.
10
SYSTÉMOVÁ INTEGRACE 1/2009
Totální zpracování dokumentů na obzoru
SYSTÉMOVÁ INTEGRACE 1/2009
11
Žid Norbert
12
SYSTÉMOVÁ INTEGRACE 1/2009
Totální zpracování dokumentů na obzoru
6. Obecnější závěry z digitalizace dokumentů a digitálních archivace dokumentů. Léta se hovoří o ústupu od listinných (papírových) dokumentů ve prospěch digitálních dokumentů. Domnívám se, ţe se začíná rýsovat doba, kdy se tato vize začíná postupně uplatňovat. Lze najít příklady, kdy běţní uţivatelé ocení moţnost rychle a kdykoliv nahlíţet na „originální dokument“ v digitální podobě. U vedení podniků a vedení IT se zase sleduje cesta ušetřit administrativní práci, ušetřit na sloţitém udrţování papírových archivů a ještě sloţitějším vyhledávání v takovýchto archivech. Z literatury[3] jsem převzal kostru pro dělení dokumentů, které jsou kolem nás: A. Elektronické nestrukturované dokumenty (e-maily, různé textové dokumenty, tabulky, obrázky) B. Elektronické formuláře – zde je předem určená struktura dokumentů (XML dokumenty, EDI dokumenty, různé elektronické formuláře) C. Tradiční listinné (papírové) dokumenty – zde se otevřely široké moţnosti tyto dokumenty převést do digitální podoby Tradiční papírové dokumenty (C) dnes stále ještě v praxi převaţují a to zvláště u malých a středních organizací. Jestliţe však dokumenty naskenujeme, pak vytvoříme digitální obraz dokumentu, který je moţné dále zpracovávat a uchovávat v digitálních archivech. Donedávna jsem se domníval, ţe papírových dokumentů bude ubývat proto, ţe bude prudce přibývat při komunikaci mezi organizacemi i uvnitř organizací spíše vyuţívání XML dokumentů či EDI dokumentů. Dnes mám pocit, ţe běţní uţivatelé v praxi podniků jsou navyklí tak na papírová media, ţe je zbytečné jim je brát. Kdyţ papírové dokumenty převedu skenováním do digitálního obrázku (a navíc z obrázku automaticky odvodím relační větu pro další zpracování ), pak běţný uţivatel nepociťuje ţádnou ztrátu tradičních postupů.
Cenové problémy. Aplikaci (digitalizace došlých faktur), kterou jsem zkoumal podrobněji, realizuje jedna velká česká finanční instituce a vyuţívají ji uvnitř organizace desítky účetních a dalších pracovníků. Cenová hladina takového řešení je mimo rámec, ve kterém se pohybují malé a stření podniky. V druhé aplikaci (pro vybrané mzdové systémy v SRN), se naopak zdůrazňuje, ţe aplikaci digitálních archivů vyuţívají v provozu HR menší a střední organizace. Protoţe však konkrétní cenové nabídky jsou obtíţně získatelné, zkoumal jsem spíše náročnost celého cyklu zpracování digitálních dokumentů. Dnes je nasnadě, ţe vlastní digitalizace pomocí scanaru není jiţ finančně náročná. Náročnější jsou programy , které interpretují obrázek a vytvářejí relační větu, programy pro kontrolu a úpravy dokumentů, programy zajišťující workflow cyklus, programy pro údrţbu digitálních archivů a pod. Nelze opomenout, ţe veškeré zpracování dokladů navazuje na funkce v rámci ERP modulů a digitální archivy (např. TIF obrázků) musí kvalitně navazovat na strukturované databáze (např. v SAP). Celkově je srovnáním vývoje za dva roky moţné odvodit, ţe digitální zpracování dokumentů je cenově dostupnější pro stále širší okruh uţivatelů (tedy i středních a menších institucí).
SYSTÉMOVÁ INTEGRACE 1/2009
13
Žid Norbert
Otevřené otázky spojené s digitalizací. Digitalizace a archivace digitalizovaných dokumentů musí být IT útvary organizace řešena společně. V konkrétní organizaci se dnes vyuţívá např. digitalizovaná správa pojistných smluv, nyní nastupují digitalizované faktury, v budoucnu budou digitalizovány personální dokumenty, atd. Z toho vyplývá, ţe musí být: • Digitalizace realizována ve společném rámci • Vhodně definovány prostory pro ukládání a jejich rozměrování • Kvalitní indexace dokumentů • Určeny práva přístupů k digitalizovaným dokumentům a přístupů do archivů • Navrţena dlouhodobá údrţba a obnovování archivů v čase ( co za 10 let)
Literatura:
[6] [7]
Gála,L., Pour,J.,Toman,P.: Podniková informatika, Grada 2006, ISBN 80-2471278-4 Carda, T., Kunstová R.: Workflow, nástroj manaţera pro řízení podnikových procesů, Grada 2003, ISBN 80-247-0666-0 Tvrdíková, M.: Aplikace moderních informačních technologií v řízení firmy, Grada 2008, ISBN 978-80-247-2728-8 Walker, A.J. a kol: Moderní personální management, Grada 2003, ISBN 80-247-0449-8 Ţiţková, V.: Implementace digitálního archivu v nadnárodní společnosti, diplomová práce, VŠE Praha 2009 Interní příručky fi. READSOFT. firemní materiály firmy ADP.
14
SYSTÉMOVÁ INTEGRACE 1/2009
[1] [2] [3] [4] [5]