Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie
Přístupy k řešení digitalizace dokumentů Diplomová práce
Diplomant: Bc. Eva Kapicová Vedoucí diplomové práce: Ing. Zuzana Šedivá Oponent diplomové práce: Ing. Martin Vondrouš
Školní rok: 2010/ 2011
Prohlášení Prohlašuji, že jsem diplomovou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.
V Praze dne 29. 6. 2011
Podpis: ……………………………………….
1
Poděkování Děkuji vedoucí mé diplomové práce paní Ing. Zuzaně Šedivé za cenné rady, připomínky a vstřícný přístup při zpracování mé diplomové práce. Dále děkuji firmám Océ- Česká republika, YDS a Syconix za spolupráci při řešení digitalizace dokumentů pro modelový podnik. Za konzultaci výpočtů finančních ukazatelů také děkuji panu Ing. Petru Strolenému.
2
Abstrakt Tato diplomová práce se zaměřuje na digitalizaci dokumentů a přístupy, kterými lze digitalizaci dokumentů řešit. V první části práce je uveden teoretický základ digitalizace dokumentů, který je doplněn o aktuální statistiky z oblasti a také o poznámky ke stavu na českém trhu. V druhé části jsou na základě nabídek českých firem posouzeny varianty přístupu k řešení digitalizace dokumentů. Hlavním cílem této diplomové práce je praktická ukázka výběru vhodného řešení digitalizace dokumentů. Uvažovány jsou varianty digitalizace dokumentů kompletním outsourcingem, in-house outsourcingem nebo řešení vlastními silami. K naplnění tohoto cíle slouží dostatečný teoretický základ digitalizace dokumentů a přehled hardwarového vybavení a softwarových produktů po podporu digitalizace v první části diplomové práce. Pro porovnání ekonomických dopadů jednotlivých variant přístupů k digitalizaci dokumentů je využita metoda TEI od společnosti Forrester Research. Přínos práce je především v popisu digitalizace dokumentů v rámci České republiky a ukázce posouzení jednotlivých řešení digitalizace. Dále také v doplnění teoretické části o údaje ze současných průzkumů.
Klíčová slova: digitalizace dokumentů, vytěžování dat z dokumentů, outsourcing, skenery, ROI digitalizace
3
Abstrakt This thesis is focused on document imaging and describes different approaches to the implementation of document imaging systems. In the first part there is the theoretical background of the document imaging that is supplemented by current statistics. In the first part there are also some remarks on the situation on the Czech market. The second part is based on examinations of different approaches to document imaging systems that were made by Czech companies. The main objective of this thesis is a practical example of selecting an appropriate solution of the document imaging. There are considered three types of approaches to the document imaging: complete outsourcing, in-house outsourcing or a solution of their own. To achieve this goal there is an adequate theoretical basis for the document imaging and an overview of hardware and software support for digitization in the first part of the thesis. TEI method by Forrester Research is used for comparison of the economic impact of the different approaches. The contribution of this thesis is primarily in the description of the state of document imaging in the Czech Republic and also examination of different solutions and approaches to the document imaging. There is also a completion of the theoretical part by a data from current surveys.
Key words: document imaging, data capture, outsourcing, scanners, ROI of imaging
4
Obsah 1 Úvod ................................................................................................................................................9 1.1 Obsah práce a omezení .......................................................................................................... 10 1.2 Cíle práce ............................................................................................................................... 11 2 Životní cyklus podnikového obsahu .............................................................................................. 12 2.1 Vstupní fáze ........................................................................................................................... 13 2.2 Zpracování ............................................................................................................................. 13 2.3 Výstup ................................................................................................................................... 14 2.4 Shrnutí životního cyklu podnikového obsahu ......................................................................... 16 3 Postup digitalizace dokumentů a vytěžování dat .......................................................................... 17 3.1 Příprava dokumentu na digitalizaci......................................................................................... 18 3.2 Skenování a rozpoznávání ...................................................................................................... 19 3.4 Verifikace a validace .............................................................................................................. 22 3.3 Indexace ................................................................................................................................ 22 3.4.1 Metadata ....................................................................................................................... 23 3.5 Uložení .................................................................................................................................. 24 3.5.1 Výstupní formáty obrazu dokumentu ............................................................................. 25 3.5.2 Portable Document Format (PDF) .................................................................................. 26 3.5.3 Výstupní formáty rozpoznaného dokumentu ................................................................. 27 3.5.4 Výstup dat ze strukturovaných dokumentů .................................................................... 28 3.6 Archivace a skartace .............................................................................................................. 28 3.7 Shrnutí postupu digitalizace dokumentů ................................................................................ 29 4 Vytěžování dat .............................................................................................................................. 30 5 Technologie rozpoznávání dat ....................................................................................................... 32 5.1 Optical Character Recognition ................................................................................................ 32 5.2 Intelligent Character Recognition ........................................................................................... 34 5.3 Optical Mark Recognition ....................................................................................................... 36 5.4 Bar Code Reading ................................................................................................................... 37 5.5 Shrnutí technologií pro optické rozpoznávání dat ................................................................... 40 6 Software pro rozpoznávání znaků a vytěžování dat ...................................................................... 41 6.1 Produkty pro rozpoznávání znaků a vytěžování dat ................................................................ 41 6.1 Produkty společnosti ABBY .................................................................................................... 42 6.2 Produkty společnosti Nuance ................................................................................................. 43 6.3 Produkty společnosti I.R.I.S .................................................................................................... 44 6.4 Shrnutí software od společností ABBYY, Nuance a I.R.I.S ........................................................ 46 5
6.5 Rozpoznávání znaků jako webová služba ................................................................................ 46 6.6 Opensource software pro rozpoznávání znaků ....................................................................... 47 6.7 Shrnutí software pro rozpoznání znaků a vytěžení dat............................................................ 48 7 Hardware pro optické snímání dokumentů ................................................................................... 49 7.1 Skenery pro digitalizaci dokumentů........................................................................................ 49 7.2 Druhy skenerů ....................................................................................................................... 50 7.3 Charakteristické vlastnosti skenerů ........................................................................................ 52 9.4 Shrnutí hardwarových prostředků pro optické snímání dokumentů ....................................... 53 8 Digitalizace dokumentů v rámci legislativy .................................................................................... 54 8.1 Legislativa v České republice dle tematických oblastí ............................................................. 54 8.2 Prostředky zajišťující důvěryhodnost elektronického dokumentu ........................................... 56 8.2.1 Elektronický podpis a značka .......................................................................................... 56 8.2.2 Časové razítko................................................................................................................ 57 8.3 Autorizovaná konverze .......................................................................................................... 58 8.4 Datové schránky .................................................................................................................... 58 8.5 Spisová služba ........................................................................................................................ 59 8.6 Shrnutí digitalizace dokumentů v rámci legislativy.................................................................. 60 9 Trendy v oblasti digitalizace .......................................................................................................... 61 10 Oblasti nasazení a přínosy digitalizace dokumentů ..................................................................... 63 10.1 Přínosy zavedení digitalizace dokumentů ............................................................................. 64 11 Přístup k řešení digitalizace dokumentů ...................................................................................... 66 11.1 Co bude předmětem digitalizace? ........................................................................................ 66 11.2 Kde bude digitalizace probíhat? ........................................................................................... 67 11.3 Kdo digitalizaci zajistí?.......................................................................................................... 68 11.3.1 Digitalizace vlastními silami .......................................................................................... 69 11.3.2 Kompletní outsourcing ................................................................................................. 69 11.3.3 Outsourcing formou in-house ...................................................................................... 70 11.3.4 Offshoring .................................................................................................................... 70 11.4 Bezpečnost dat při digitalizaci dokumentů ........................................................................... 71 11.5 Shrnutí přístupů k řešení digitalizace dokumentů ................................................................. 71 12 Dopady digitalizace dokumentů a návratnost investice .............................................................. 73 12.1 Dopady zavedení digitalizace na procesy .............................................................................. 73 12.2 Total economic impact ......................................................................................................... 74 12.3 Návratnost investice ............................................................................................................ 76 12.4 Shrnutí dopadů digitalizace dokumentů a návratnosti investice ........................................... 77 6
13 Dodavatelé digitalizace dokumentů na českém trhu ................................................................... 78 13.1 Firmy nabízející implementaci systému pro digitalizaci i outsourcing .................................... 78 13.2 Firmy nabízející pouze outsourcing....................................................................................... 80 13.3 Shrnutí dodavatelů řešení digitalizace dokumentů na českém trhu ..................................... 80 14 Případová studie ......................................................................................................................... 81 14.1 Obecné předpoklady výpočtu ............................................................................................... 81 14.2 Popis modelového podniku .................................................................................................. 82 14.2.1 Organizační struktura ................................................................................................... 83 14.2.2 Ekonomické charakteristiky.......................................................................................... 83 14.2.3 Technologická specifikace ............................................................................................ 84 14.2.4 Současný stav zpracování a skladování dokumentů ...................................................... 84 14.2.5 Požadavky na řešení digitalizace dokumentů ................................................................ 86 14.3 Řešení digitalizace dokumentů kompletním outsourcingem ................................................. 87 14.3.1 Náklady na digitalizaci dokumentů kompletním outsourcingem ................................... 88 14.3.2 Přínosy digitalizace dokumentů kompletním outsourcingem ........................................ 89 14.3.3 Rizika digitalizace dokumentů kompletním outsourcingem .......................................... 90 14.3.4 Flexibilita řešení digitalizace dokumentů kompletním outsourcingem .......................... 92 14.3.5 Shrnutí ekonomických dopadů varianty kompletního outsourcingu.............................. 92 14.3.6 Technologické a organizační dopady varianty kompletního outsourcingu ..................... 92 14.4 Řešení digitalizace dokumentů vlastními silami .................................................................... 94 14.4.1 Náklady na digitalizaci dokumentů vlastními silami ...................................................... 94 14.4.2 Přínosy digitalizace dokumentů vlastními silami ........................................................... 95 14.4.3 Rizika digitalizace dokumentů vlastními silami ............................................................. 96 14.4.4 Flexibilita řešení digitalizace dokumentů vlastními silami ............................................. 98 14.4.5 Shrnutí ekonomických dopadů varianty řešení vlastními silami .................................... 99 14.4.6 Technologické a organizační dopady varianty řešení vlastními silami............................ 99 14.5 Řešení digitalizace dokumentů in-house outsourcingem .................................................... 101 14.5.1 Náklady na digitalizaci dokumentů in-house outsourcingem ...................................... 101 14.5.2 Přínosy digitalizace dokumentů in-house outsourcingem ........................................... 102 14.5.3 Rizika digitalizace dokumentů in-house outsourcingem.............................................. 103 14.5.4 Flexibilita řešení digitalizace dokumentů in-house outsourcingem ............................. 105 14.5.5 Shrnutí ekonomických dopadů varianty in-house outsourcingu .................................. 106 14.5.6 Technologické a organizační dopady varianty in-house outsourcingu ......................... 106 14.6 Porovnání jednotlivých variant digitalizace dokumentů ...................................................... 107 14.7 Závěr případové studie....................................................................................................... 109 7
15 Závěr ......................................................................................................................................... 110 Zdroje ............................................................................................................................................. 112 Terminologický slovník ................................................................................................................... 114 Seznam obrázků ............................................................................................................................. 116 Seznam grafů ................................................................................................................................. 116 Seznam tabulek .............................................................................................................................. 116 Příloha 1: Školní testový OMR formulář ......................................................................................... 118 Příloha 2: Webová služba ABBYY Fine Reader Online..................................................................... 119 Příloha 3: Druhy skenerů a jejich orientační cena .......................................................................... 120 Příloha 4: Detailní náklady a přínosy digitalizace dokumentů kompletním outsourcingem ........... 121 Příloha 5: Detailní náklady a přínosy digitalizace dokumentů řešené vlastními silami ................... 126 Příloha 6: Detailní náklady a přínosy digitalizace dokumentů in-house outsourcingem................. 131
8
1 Úvod Vyspělá společnost si postupně zvyká na všudypřítomnost informačních systémů a vyřizování nejrůznějších záležitostí pomocí internetu. K této velké proměně ale došlo ve velice krátkém časovém úseku a desítky let používané papírové dokumenty jsou stále ještě potřeba. Elektronický podpis dokumentů se zatím nerozšířil mezi širokou veřejnost a zejména starší lidé by jej ani nemohli použít. Papírové dokumenty se běžně využívají pro komunikaci se zákazníky, obchodními partnery, dodavateli a dalšími subjekty. To znamená, že ačkoli práce s různými daty prostřednictvím počítače je v posledních deseti letech zcela samozřejmou činností, organizace denně přijímají a odesílají velké množství dokumentů v papírové podobě. Následné přepisování dat z dokumentů do informačních systémů a zpracování těchto dokumentů v rámci workflow představují velice nákladné procesy. Vyhledávání papírových dokumentů zabírá zaměstnancům denně mnoho času, především v případě, že jsou dokumenty špatně zařazeny. Kancelářské prostory jsou zaplněny šanony s často duplicitně uchovávanými dokumenty a většina dokumentů bývá před jejich uložením mnohokrát kopírována. Každá větší organizace se během své existence dostane do situace, kdy náklady na administrativu začnou být neúnosné, správa dokumentů nepřehledná a dohledání klíčových dokumentů v případě auditu nebo soudních sporů téměř nemožné. Řešením této situace je zavedení digitalizace dokumentů, anglicky označované termínem „document imaging“. Digitalizovat lze všechny nově příchozí dokumenty, ale i nákladné papírové archivy, které zabírají mnoho místa a jsou náročné na provoz. Protože přínosy ze zavedení digitalizace dokumentů jsou významné, stala se digitalizace dokumentů velmi diskutovaným tématem a trh s řešeními pro digitalizaci dokumentů každoročně roste. Zavedení digitalizace dokumentů organizacím přináší především vyšší rychlost a efektivitu zpracování dokumentů, snadnou správu a vyhledávání dokumentů, menší chybovost a snížení administrativních nákladů. Digitalizace dokumentů také usnadňuje dodržování legislativních požadavků na správu některých typů dokumentů a umožňuje začlenění papírových dokumentů mezi ostatní informace v elektronické podobě- elektronické dokumenty, e-maily, podnikové webové stránky ale i video záznamy nebo fotografie. Souhrnně se všem těmto informacím říká podnikový obsah a jeho správou se zabývá oblast souhrnně označovaná termínem Enterprise Content Management (ECM). ECM systémy se skládají z mnoha komponent a digitalizace dokumentů je dle společnosti Forrester Research1 komponentou s nejvyšším přínosem, která se nachází v období významného růstu a svého vrcholové fáze dosáhne v horizontu tří let (Graf 1). Vývoj v oblasti digitalizace směřuje 1
Společnost Forrester Research provádí nezávislé výzkumy a konzultace v oblasti obchodu a technologií.
9
zejména k zpracování nestrukturovaných dokumentů, kterých obíhá ve firmách více než strukturovaných. Vytěžení dat z nestrukturovaných dokumentů tak představuje velký potenciál důležitých informací s dopadem na rozhodovací procesy podniku.
Graf 1- Digitalizace dokumentů v rámci ostatních komponent ECM (Zdroj: McLeish;David.2009)
Digitalizaci dokumentů lze vnímat jako most mezi dobou papírových dokumentů a dnešní počítačovou érou. Význam digitalizace pro organizace z nejrůznějších oblastí a nutnost začlenění papírových dokumentů do ostatního podnikového obsahu v elektronické podobě mě přivedly k tomu, abych tuto oblast zpracovala ve své diplomové práci.
1.1 Obsah práce a omezení Ve své diplomové práci nejprve popíšu dokumenty v rámci životního cyklu podnikového obsahu ve firmě, od jejich vzniku až po archivaci. Dále uvedu postup, jak se digitalizuje dokument, jeho skenování a vytěžování dat. Následně vysvětlím technologie, které umožňují rozpoznávání znaků. Dále se zaměřím na digitalizaci dokumentů v prostředí České republiky, popíšu legislativu, kterou je třeba při digitalizaci dokumentů dodržovat. Dále uvedu hardwarová zařízení, která jsou potřeba k digitalizaci a softwarové produkty pro podporu digitalizace, které jsou na českém trhu nejvíce zastoupené. První část ještě doplním o přístupy k řešení digitalizace, oblasti, kde se 10
digitalizace nejčastěji využívá a jaké má přínosy. Uvedu trendy, které se v současné době v digitalizaci projevují. Nakonec vyhledám firmy, které nabízí implementaci řešení digitalizace dokumentů a služby outsourcingu a popíši, jakým způsobem posoudit investici do digitalizace dokumentů a její dopady na organizaci. V druhé části diplomové práce vytvořím případovou studii. Na základě modelového podniku ukážu vypočet návratnosti investice do digitalizace dokumentů, porovnám jednotlivá řešení a posoudím dopady jednotlivých řešení na modelový podnik. Omezením při vypracování praktické ukázky mě může být získání pouze nekonkrétních dat, které mně budou oslovené firmy zabývající se digitalizací dokumentů ochotny poskytnout.
1.2 Cíle práce Hlavním cílem této diplomové práce je praktická ukázka výběru vhodného řešení digitalizace dokumentů. K naplnění tohoto cíle slouží dostatečný teoretický základ digitalizace dokumentů a přehled hardwarového vybavení a softwarových produktů po podporu digitalizace v první části diplomové práce. Přínos mé práce je především v popisu digitalizace dokumentů v rámci České republiky a ukázce posouzení jednotlivých řešení digitalizace. Práci doplním o údaje ze současných průzkumů v oblasti. Práce je určena zejména firmám, které potřebují řešit digitalizaci dokumentů, aby se dostatečně zorientovaly v této oblasti a zvolily vhodnou koncepci řešení.
11
2 Životní cyklus podnikového obsahu Ve velkých nadnárodních společnostech i malých firmách je každým dnem vytvořeno velké množství podnikového obsahu. Podle (Microsoft.2011) jen „počet dokumentů, které se za rok vytvoří na území USA, přesahuje 30 miliard. Náklady vynaložené na správu dokumentů představují ve velkých firmách přibližně 15 procent ročních příjmů. Tyto vysoké náklady souvisejí také s faktem, že až 50 procent dokumentů je uchováno duplicitně a 60 procent dokumentů je zastaralých.“ Z těchto čísel vyplývá nutnost využití efektivních nástrojů a metod pro kontrolu dokumentů a veškerého podnikového obsahu. Podnikový obsah tak představuje nejen velký informační potenciál, který lze využít pro získání jedinečných informací, ale také velkou finanční zátěž, pokud není dobře řízen. Pro správu podnikového obsahu je důležité nejprve definovat životními fáze tohoto podnikového obsahu. Fáze jsou celkem tři- vstup, zpracování a výstup. Souhrn fází představuje životní cyklus podnikového obsahu. Životní cyklus je stejný u všech typů podnikového obsahu a nezávisí ani na odvětví, kterým se firma zabývá. Zde bych také ráda upozornila na rozdíl mezi systémy pro správu dokumentů, tzv. Dokument Management System (DMS) a mezi ECM. Zatímco ECM řeší fáze životního cyklu podnikového obsahu komplexně, tak DMS se zaměřuje pouze na druhou fázi životního cyklu- zpracování. Využití DMS ve firmách různých velikostí je dnes běžné. V této kapitole uvádím všechny fáze životního cyklu dokumentů v rámci podnikového obsahu. Na následujícím obrázku (Obrázek 1) znázorňuji návaznost jednotlivých fází graficky.
Obrázek 1- Životní cyklus podnikového obsahu (Zdroj: autorka)
12
2.1 Vstupní fáze První fází životního cyklu dokumentů firemního obsahu je jejich přijetí nebo vytvoření a to v elektronické nebo fyzické podobě. Přijetím je například obdržení faxu, datové zprávy, e-mailu s přílohou nebo stažení dokumentu z internetu. Vytvoření znamená vznik nového dokumentu v počítači, vytvoření inteligentního elektronického formuláře2 nebo pořízení digitálního obrazu papírového dokumentu pomocí naskenování. Ve vstupní fázi jsou tedy přijímány nebo vytvářeny strukturované i nestrukturované dokumenty v různé podobě.
Na vstupu lze naskenováním
integrovat fyzické dokumenty mezi elektronické a usnadnit tak jejich následné zpracování. Vytváření podnikového obsahu, zejména dokumentů, by mělo být ošetřeno pravidly. Čím přesněji budou stanovena pravidla pro vytváření dokumentů, tím kratší bude fáze zpracování, kdy je dokument připomínkován a předěláván. Tato pravidla představují například předem určené šablony k vytváření dokumentů, požadavky na popis metadat3 nebo definovaný vzhled a použití loga pro oficiální firemní dokumenty. Přijetí e-mailu je velmi častým vstupem firemního obsahu do organizace. Přijímání e-mailů, jejich uchovávání i s přílohami a kategorizaci zajišťuje komponenta ECM systému E-mail management. V e-mailech je schována řada důležitých informací a příloh, které jsou omezeny jen na uživatele schránky. E-mail management systém nastavuje práva prohlížení jednotlivých e-mailů, zamezuje jejich duplicitě rozesíláním na více e-mailových adres a pomáhá dokazovat činnost podniku dle požadavků legislativy. Tím, že jsou e-maily uchovávány v centrálním úložišti je možné je fulltextově prohledávat. Automatické zachytávání důležitých e-mailů provádí dle průzkumu organizace AIIM4 zatím pouze 18 procent firem, přičemž 12 procent z nich je ukládá do E-mail management systému a 6 procent do systému pro správu dokumentů DMS. (AIIM.2011) Vstup dokumentů, na které se vztahují speciální právní předpisy, do organizace (i jejich výstup) probíhá přes podatelnu a je evidován spisovou službou. Pokud je ve vstupní fázi takový dokument digitalizován pro zajištění následného workflow v elektronické podobě, je nutné jej ošetřit časovým razítkem a kvalifikovaným certifikátem, aby nepozbyl právní platnosti.
2.2 Zpracování Druhá fáze životního cyklu dokumentů firemního obsahu, zahrnuje uložení dokumentů do úložiště a jejich úpravy, připomínkování, verzování, schvalování a užívání. Tuto fázi podporuje 2
Formulář, který obsahuje různé prvky pro ulehčení vyplňování a zpracování jako například- podmíněně se zobrazující pole, kontrolní součty, čárový kód pro ukládání vyplněných informací nebo podporu elektronického podpisu. 3 Metadata jsou data o datech. Při digitalizaci dokumentů se metadata používají pro popis dokumentu a jeho obsahu. 4 AIIM je nezisková organizace, která provádí mezinárodní průzkumy a provozuje vzdělávací kurzy v oblasti ECM.
13
Document Management System. DMS umožňuje vkládání dokumentů, ale i různého firemního obsahu do jednoho úložiště prostřednictvím vkládacího formuláře. Ten představuje obálku a nese údaje o tom, kdy byl obsah vytvořen, kým a další údaje potřebné pro zpracování obsahu. V DMS lze nastavit pravidla podepisování dokumentu, workflow a práva uživatelů systému na čtení a úpravy. Dále DMS podporuje verzování dokumentu, zajištění konzistence dokumentu, pokud je upravován více osobami najednou nebo sledování historie. DMS systémy je možné integrovat s kancelářskými aplikacemi a nástroji pro správu e-mailů. Do těchto aplikací je pak přidána funkce pro přímé ukládání do DMS. DMS tak představuje jádro oběhu firemního obsahu v organizaci. Fáze zpracování se také nazývá aktivní fází, kdy je firemní obsah užíván, proto je důležité, aby byl dobře vyhledatelný podle metadat nebo pomocí fulltextového vyhledávání v úložišti dokumentů. Pokud dokumenty zůstávají pro zpracování ve fyzické podobě, je vhodné jejich pohyb po organizaci a úpravy evidovat v informačním systému a tím ulehčit manuální práci a zajistit přehled zpracovávaných dokumentů. Dle výše uvedené studie (AIIM.2011) jsou ve firmách nejlépe spravovány papírové dokumenty a naskenované obrazy dokumentů (Graf 2). Úroveň těchto hodnot se od roku 2009, kdy byla provedená podobná studie, téměř nezměnila. Vysoké hodnoty správy papírových a naskenovaných dokumentů vyplývají jednak z potřeb evidovat určité dokumenty kvůli dodržení legislativy a jednak díky DMS, které většina dotázaných firem dlouhodobě používá.
0%
20%
40%
60%
80%
100%
Papírové dokumenty Naskenované dokumenty
Zcela neřízené Téměř neřízené
E-maily Dokumenty MS Office
Řízené Dobře řízené
Přílohy e-mailů
Graf 2- Úroveň správy dokumentů a e-mailů (Zdroj: AIIM.2011)
2.3 Výstup Poslední fází životního cyklu dokumentů v rámci firemního obsahu je výstupní fáze. Ta je rozdělena na další tři části a to publikování, archivaci a skartaci. Do výstupní fáze vstupuje firemní
14
obsah, který je již neaktivní, je ukončeno jeho upravování. V této fázi může být obsah publikován, tedy například vystaven na firemní web, odeslán e-mailem, vytištěn nebo uložen na přenosné médium. Poté, co je obsah publikován, je archivován nebo skartován. Skartace a archivace je dána zákonem a archivovány musí být všechny právně vymahatelné dokumenty a dokumenty pro doložení činnosti firmy pro případ auditu nebo finanční kontroly. Doba archivace je stanovena zákonem. Archiv představuje sklad papírových nebo elektronických dokumentů. Archivy pro papírové dokumenty jsou nákladné, vzhledem k jejich specifickým potřebám na stálost teploty a vlhkosti vzduchu. Jsou také velké a hledání v nich je časově náročné. Elektronické archivy musí podporovat zákon a je třeba dbát na jejich údržbu. Uchovávat dokumenty v archivačních formátech, sledovat vývoj a zastarávání technologií a zajistit bezpečnost. Základní podmínky, které musí splňovat elektronický archiv, jsou v České republice ukotveny v zákoně 499/2004 Sb. o archivnictví a spisové službě a v jeho novele z roku 2009. Dle §69a, odstavce 3 jsou požadavky na archiv definovány: „Uchovávání dokumentu v digitální podobě provádí určený původce postupem zaručujícím věrohodnost původu dokumentu, neporušitelnost jeho obsahu a čitelnost dokumentu, a to včetně údajů prokazujících existenci dokumentu v digitální podobě v čase. Tyto vlastnosti musí být zachovány po dobu skartační lhůty dokumentu. Je-li potřeba zachování věrohodnosti původu dokumentu kratší než skartační lhůta dokumentu, uvede to určený původce ve svém spisovém a skartačním plánu.“ Formáty pro archivaci elektronického obsahu v České republice podléhají právní úpravě z listopadu 2008 a to usnesení vlády č. 1338 o stanovení výstupních datových formátů statických dokumentů. Pro ukládání textových nebo kombinovaných dokumentů (text + obrázky) je stanoven formát PDF/A-1a 5. Pro statické obrazové dokumenty v digitální podobě vláda schvaluje formáty TIFF a PNG. Výhodou elektronických archivů je především rychlá dostupnost hledaného dokumentu, který si lze přes webový prohlížeč zobrazit kdekoli. Papírové archivy jsou mnohdy umístěny mimo budovu firmy a tak získání konkrétního dokumentu může trvat i celý den. Ovšem i elektronický archiv, musí být dobře spravován, aby dokázal organizaci ušetřit čas na hledání a také finance. Digitalizaci archivu formou outsourcingu nabízí na českém trhu mnoho firem, outsourcovat lze i vedení a správu papírového archivu, těchto služeb firmy dokonce využívají ještě častěji než služeb kompletního outsourcingu elektronického archivu. Podporou výstupní fáze životního cyklu dokumentu se také zabývá systém pro správu záznamů Records Management. Záznam představuje část firemního obsahu (i listinné dokumenty), se kterou je dle zákona potřeba nakládat jinak, než s běžným firemním obsahem. Záznam je právně vymahatelný a dokládá činnost podniku a proběhlé transakce. Slouží pro finanční kontroly a audit.
5
Tento formát je popsán v kapitole 3.5.2
15
Records Management řeší bezpečné uložení a zpřístupnění záznamů. Oproti DMS se zaměřuje na firemní obsah, který již neprochází změnami a je potřeba jej zachovat ve stejné podobě. Systémy pro správu záznamů jsou standardizovány evropským standardem MoReq26, mezinárodní normou ISO 15489:2001 a americkým DoD 5015.2 7. Zavedení systému Records management je vzhledem k zpřísňujícím se zákonům týkajících se vykazování činnosti firem pro organizace velmi významné.
2.4 Shrnutí životního cyklu podnikového obsahu Životní cyklus podnikového obsahu prochází třemi fázemi a pro každou fázi existuje podpora ze strany určité komponenty informačního systému. Souhrn všech komponent pak tvoří Systém pro správu podnikového obsahu (ECM). Cílem ECM je nejen zvýšit efektivitu správy podnikového obsahu, jeho snadnou vyhledatelnost a snížení nákladů provoz, ale také zajištění důvěryhodnosti a bezpečnosti pro případ auditu nebo soudních sporů. Digitalizace dokumentů vstupuje do životního cyklu podnikového obsahu hned v jeho první fázi- vstupní, kdy dochází k převodu z papírové do elektronické podoby, indexaci a uložení. Naskenovaný obraz pak prochází dalšími fázemi životního cyklu, je zpracováván v rámci workflow a později skartován nebo archivován. Archivy papírových i elektronických dokumentů je třeba spravovat dle zákona nebo lze jejich provoz lze outsourcovat.
6 7
Oficiální stránka standardu MoReq2: http://www.moreq2.eu/ Standart ke stažení: http://www.dtic.mil/whs/directives/corres/pdf/501502std.pdf
16
3 Postup digitalizace dokumentů a vytěžování dat Digitalizace dokumentů je proces, který probíhá jednak v první části životního cyklu firemního obsahu, kdy usnadňuje oběh dokumentů ve firmě a manuální přepisování dat do informačních systémů, jednak v poslední fázi, archivace, kdy je převáděn listinný archiv na digitální. Digitalizace může být prováděna za dvěma účely. Cílem je získat elektronický obraz dokumentu. Tento obraz je pak používán k zajištění elektronickému oběhu dokumentu po organizaci nebo k archivaci. Rozpoznávání znaků z naskenovaného obrazu je prováděno za účelem indexace. Cílem je získání dat z dokumentů, převážně z formulářů. Tato data se pak ukládají do databází a vstupují do podnikových informačních systémů. Samotný naskenovaný obraz dokumentu nemusí být vždy ukládán.
Podle toho, za jakým účelem je digitalizace prováděna, se částečně mění i proces zpracování dokumentů. Pokud jsou dokumenty skenovány pro získání dat z dokumentu, je proces složitější o použití více funkcí rozpoznávacích technologií a důkladnou validaci rozpoznaných údajů. Tomuto druhému přístupu se říká vytěžování dat, anglicky Data Capture. „Pouze 20 procent organizací, které digitalizují dokumenty, je skenuje za účelem vytěžení dat z dokumentů. Toto číslo se při započítání pouze velkých organizací zvedá jen na 33 procent.“ (AIIM.2010)
Základní kroky digitalizace jsou:
příprava dokumentu na skenování,
vlastní proces skenování,
rozpoznávání textu a dat,
validace a verifikace,
indexace,
uložení.
Posloupnost těchto kroků digitalizace dokumentů ukazuji na následujícím obrázku (Obrázek 2) zároveň s místy jejich zpracování při umístění rozpoznávacího software na server, což je běžné řešení při zpracovávání velkých objemů dokumentů. Při digitalizaci se využívají technologie pro rozpoznání textu a dat- OCR, ICR, OMR a BCR, které popisuji v kapitole 5. Cílem této kapitoly je představit všechny kroky v procesu digitalizace a vytěžování dat, tak aby čtenář získal ucelený přehled problematiky.
17
Obrázek 2- Základní kroky digitalizace dokumentů (Zdroj: autorka)
3.1 Příprava dokumentu na digitalizaci Prvním krokem před samotným skenováním je příprava dokumentů na digitalizaci. Příprava zahrnuje třídění dokumentů podle různých hledisek a jejich úpravu tak, aby následné skenování bylo možné co nejvíce zautomatizovat. Přípravná fáze představuje manuální práci. Množství této práce závisí na funkčnosti skeneru, který je pro digitalizaci dokumentů využit. Některé skenery mají rozsáhlou funkčnost, díky které lze mnoho přípravných kroků vynechat. Přípravná fáze je důležitou součástí procesu digitalizace, protože na ní závisí kvalita naskenovaného obrazu, úspěšnost rozpoznání textu, rychlost následného skenování omezením zásahů obsluhy a také zjednodušení třídění naskenovaných obrazů. 8
Příprava dokumentů se liší dle typu použitého skeneru. Pro průtahové skenery je nutné rozdělit svázané dokumenty na jednotlivé listy tak, aby se nepomíchaly, neotočily rubem navrch nebo nebyly špatně orientované. K rozlišení rozdělených listů jednotlivých dokumentů se používá speciálních stránek vkládaných mezi soubory listů dokumentů. Tyto stránky jsou opatřeny čárovým kódem nebo formulářem, který nese informace například o tom, jak se dokument jmenuje, do jaké patří kategorie nebo jak se má dále zpracovat. Pokud dokumenty není možné rozdělit, je třeba použít plochý skener9 a dokument naskenovat ručně. Plochý skener se také používá pro dokumenty poškozené nebo s netradičním formátem.
8
Průtahový skener protahuje list papíru zařízením. Dokumenty tedy musí být rozdělené na samostatné listy. Do plochého skeneru vkládáme dokumenty tak, že je ručně položíme na snímací plochu a skener zavřeme horní deskou. 9
18
Připravené dokumenty lze dále řadit podle:
velikosti formátu, pokud skener neumí rozpoznat velikost dokumentu sám,
věcného obsahu,
potřeby různého nastavení skeneru pro určité druhy dokumentů (rozlišení, kontrast, jas, černobíle nebo barevné skenování),
požadavku na výstupní formát (např. PDF, TIFF, JPG),
druhu dokumentu na strukturované, polostrukturované a nestrukturované.
3.2 Skenování a rozpoznávání „Skenování je proces, při kterém je listinný dokument vložen do skeneru, naskenován a jeho obraz je uložen v některém z formátů, např. JPEG, TIFF, PNG, PDF, BMP. Aby byly dokumenty po digitalizaci co nejlépe čitelné, je vhodné obraz vylepšit prostřednictvím speciálních nástrojů.“ (Kunstová.2009) Vylepšení obrazu je důležité zejména v případě, kdy chceme dokument dále zpracovávat některou rozpoznávací technologií. Nejznámějším nástrojem pro vylepšení obrazu je technologie VirtualReScan (VRS) od společnosti Kofax10. Je součástí kvalitních skenerů a dokáže výrazně zkrátit fázi příprav dokumentů pro skenování a zajistí, aby byl naskenovaný obraz natolik kvalitní, že nebude třeba obrazy dokumentů pracně kontrolovat a znovu skenovat pro dosažení lepšího výsledku. Zmenší také nároky na kvalifikovanost obsluhy skeneru. Například při křivém vložení dokumentů do podavače skeneru VRS zajistí pravoúhlé zarovnání jejich naskenovaných obrazů. Nejenže je tak zvýšena úspěšnost rozpoznání znaků o 10- 30 procent11, ale také naskenovaný dokument vypadá profesionálně. V následujícím přehledu (Tabulka 1) uvádím některé další funkce VRS technologie.
Název funkce
Popis
Colour Dropout
Vymazání barevného pozadí z naskenovaného obrazu dokumentu.
Blank Page Skipping
Mazání bílých stránek z naskenovaného souboru dokumentů. Bílé stránky jsou často přítomné při automatickém skenování oboustranných dokumentů.
Intelligent Rotation
V souboru skenovaných dokumentů rozezná, pokud je některý špatně orientovaný a otočí jej správně.
10
Oficiální stránka společnosti Kofax: http://www.kofax.com/vrs-virtualrescan/ Studie společnosti MicroAdvantage „The Dynamics of Cost In Document Capture“, ke stažení na odkazu: http://www.microadvantage.com/WhitePapers/CostofCapture.pdf 11
19
Automatic crop and deskew
Automatické určení formátu skenovaného dokumentu a jeho narovnání. Odstraní také tmavé obrysy okolo naskenovaného dokumentu.
Color Detection
Rozeznání barevných a černobílých dokumentů. Skener s VRS lze také nastavit tak, aby automaticky našel důležitý barevný obsah a ten zachoval. Takže dokument je například naskenován černobíle, ale logo firmy zůstane barevné.
Intelligent Clean-up
Vyčištění naskenovaného obrazu od nečistot, například pokud byl originální dokument pomačkán, vymaže naskenované přehyby papíru.
Hole Punch Removal
Vymazání děr v obrazu dokumentu po použití děrovačky.
Improved Recognition
Zvýraznění textu pro rozpoznávání.
Tabulka 1- Funkce VRS technologie (Zdroj: autorka)
Na následujících obrázcích ukazuji použití funkce Colour Dropout, která vymaže barevné pozadí formuláře (i několik barev najednou) a využívá se zejména při vytěžování dat. Některé formuláře připravované pro vytěžování dat (tzv. Dropout formuláře) jsou navrženy tak, že jednotlivé části formuláře a pole jsou barevně vytištěny základními barvami (RGB)- světle červenou, modrou nebo žlutou barvou, aby byl formulář přehledný pro vyplňování. Tyto barvy se pak funkcí Colour Dropout automaticky odstraní, protože nemají žádnou informační hodnotu a zůstane pouze čistý text. Colour Dropout řeší také situace, kdy je text ve formuláři vyplněn tak, že zasahuje do pomocných linek. Když se takový formulář černobíle naskenuje bez použití Colour Dropout, text se již nedá dobře rozpoznat. Obrázek 3 ukazuje originál barevného formuláře s textem, který zasahuje do pomocných linek.
Obrázek 3 - Originál barevného DropOut formuláře (Zdroj: Plustek.2011)
20
Obrázek 4 zobrazuje černobílé naskenování formuláře. Červenou šipkou jsem vyznačila pole, kde text bude obtížné automaticky rozeznat.
Obrázek 4- Černobílé naskenování formuláře bez použití funkce Colour Dropout (Zdroj: Plustek.2011)
Na posledním obrázku (Obrázek 5) je vidět použití funkce Colour Dropout, kdy je odstraněna barva a zůstává jen čitelný text.
Obrázek 5- Naskenovaný formulář s použitím Colour Dropout (Zdroj: Plustek.2011)
Pokud dokumenty nejsou skenovány za účelem pouhého získání obrazu dokumentu, ale je potřeba v naskenovaném dokumentu vyhledávat a vytěžovat z něj data, je nutné získaný obraz (bitmapu12) převést do textové podoby. K tomu se používá software pro rozpoznání znaků a vytěžení dat. Tento software může být nainstalovaný na počítači, skenovací stanici nebo rozpoznávacím serveru. Jak probíhá proces rozpoznávání znaků z bitmapy, popisuji v kapitole 4.
12
Bitmapa představuje jeden ze způsobů reprezentace obrazu v paměti počítače. Celý obraz je rozdělen na body uspořádané do mřížky. Každý bod je v mřížce vyjádřen určitým počtem bitů (pro černobílé obrázky postačuje jeden bit, pro obrázky s šestnácti odstíny čtyři bity apod.).(Ressler.2006)
21
3.4 Verifikace a validace Po naskenování dokumentu a rozpoznání textu následují fáze verifikace a validace, které představují kontrolní mechanismus kvality naskenovaných obrazů a rozpoznaných dat. Verifikace potřebuje manuální zásahy ze strany obsluhy, která kontroluje kvalitu naskenovaných obrazů a opravuje nerozpoznané znaky. Validace je automatickou fází, kdy se kontrolují vytěžená data oproti zadaným pravidlům, slovníku nebo možným hodnotám pole. Během procesu skenování vidí operátor, kolik dokumentů bylo naskenováno a rozpoznáno správně, kolik dokumentů obsahuje chyby a kolik dokumentů je nutno naskenovat znovu, protože obsahují příliš mnoho chyb. Nutnost kontroly špatně naskenovaných dokumentů nebo přeskočení některých stránek dokumentu závisí na kvalitě použitého scanneru. Skenery s VRS technologií a s kontrolou přeskakování stránek ulehčí fázi verifikace. Při verifikaci a validaci nestrukturovaných dokumentů slouží ke kontrole pouze dostupný slovník, se kterým jsou rozpoznané hodnoty porovnávány. U strukturovaných a polostrukturovaných dokumentů lze uplatnit široké spektrum podmínek, které má rozpoznané pole splňovat a kontrola dokumentu je proto mnohem přesnější. Podmínky mohou být například regulární výrazy, různé výpočty a logické podmínky pro vyplnění formuláře. Pro kontrolu rozpoznaných znaků je jako první spuštěn proces validace. Pokud rozpoznaný znak nebo text neodpovídá podmínkám nebo není možné jej rozpoznat vůbec, je příslušný dokument zobrazen operátorovi k verifikaci. Opravený znak je pak opět validován vůči zadaným podmínkám. Rozpoznávací modul označuje jako chybné ty znaky, u kterých je nízká jistota, že má daný znak určitý význam. Například ze 40 procet se jedná o znak “B” a ze 60 procent se jedná o číslici „8“.
3.3 Indexace Indexace dokumentů zahrnuje jedinečnou identifikaci dokumentu, jeho pojmenování a označení klíčovými slovy. Pro jedinečnou identifikaci je vhodné využít čárový kód. Indexace dokumentů je důležitá u velkých objemů skenovaných dokumentů. Protože vyhledávat jen podle názvu dokumentu není v tisících naskenovaných dokumentů možné a fulltextové prohledávání všech dokumentů by bylo časově velmi náročné. Navíc pokud jsou obrazy dokumentů uloženy jako bitmapy, tak v nich ani fulltextově vyhledávat nelze. Proto se vyhledává podle metadat. Metadata tvoří v podstatě cestu k dokumentu a přiřazují se po naskenování dokumentu manuálně nebo jsou vyplňována automaticky na základě rozpoznaného textu. Každá organizace nemusí indexovat stejnými metadaty, ale klíčové je, aby byly dokumenty dobře dohledatelné.
22
Manuální indexování pouhých naskenovaných obrazů dokumentů je v současné době nejčastějším způsobem indexování. To i přesto, že je velmi náročné na manuální práci. Manuální indexování dle studie (AIIM.2010) používá celých 51 procent organizací, které digitalizují dokumenty za účelem archivace. Dalších 26 procent organizací používá software k rozpoznání kompletního textu dokumentu, aby bylo možné dokumenty fulltextově prohledávat. Pro manuální indexování by v organizaci měla existovat pravidla, protože pokud dokumenty indexuje více zaměstnanců, každý subjektivně pokládá za důležité jiné údaje, což později ztěžuje vyhledávání. Automatické indexování podstatně zkracuje proces digitalizace dokumentů. Pro automatické získání klíčových slov z dokumentu je nejprve třeba použít některou z rozpoznávacích technologií. Pak na základě vhodných algoritmů nástroj pro automatickou indexaci určí, která slova jsou klíčová. Nejpřesnější je automatická indexace při načtení údajů z čárového kódu umístěného na dokumentu a u strukturovaných dokumentů, kdy rozpoznávací modul přesně ví, kde má hledat jaký údaj potřebný pro indexaci, například číslo faktury. Automatickou indexaci provádí pouze 23 procent organizací, které digitalizují dokumenty za účelem archivace. Vzhledem k tomu, že manuální indexování je z pohledu značných mzdových nákladů drahé, se investice do automatizovaného indexování vracejí organizacím velmi rychle. Lze předpokládat, že automatickou indexaci bude využívat čím dál tím více organizací. Další variantou indexování je „computer-aided indexing, kdy systém pouze pomáhá ruční indexaci a to tak, že vybere výrazy, které by mohly být kandidáty na klíčová slova, a z těchto slov pak již uživatel vybírá manuálně. “ (Schwarz.2003) Při indexování dokumentů lze využít sémantiku. Sémantika vychází z předpokladu, že zaměstnanec, který hledá dokumenty, se na ně může dotazovat různými pojmy, synonymy. Proto je třeba vytvořit logickou strukturu souvisejících výrazů. Z tohoto důvodu je také třeba ukládat kořen slova a ne jeho různé tvary (například pokud uživatel hledá dokumenty týkající se reklamace, budou jej zajímat i tvary reklamační, reklamací nebo vyreklamovaný). Sémantika usnadní zejména prohledávání nestrukturovaných dokumentů. 3.4.1 Metadata Pro vytváření metadat je vhodné sledovat doporučení standardů. Nejznámějším standardem je Dublin Core, ze kterého vyšla norma ISO 15836:2003. Doporučení pro metadata ze standardu Dublin Core jsou zapracována i v normě ISO 15489:2001 pro správu záznamů. Dublin Core vznikl v březnu roku 1995 a je rozvíjen organizací The Dublin Core Metadata Initiative (DCMI). Dublin Core představuje soubor metadat pro popis elektronických zdrojů.
Jeho cílem je usnadnit
vyhledávání. Dodržováním tohoto standardu je také umožněna přenositelnost matadat mezi aplikacemi a ulehčuje tak integraci systémů. V následující tabulce (Tabulka 2) uvádím soubor 23
základních metadatových prvků Dublin Core seřazených abecedně. Každý prvek je volitelný a může být v souboru metadat opakován. Zápis v kódu například prvku „Tvůrce“ s hodnotou „Jan Kapic“ vypadá takto: <meta name="DC.Creator" content="Jan Kapic" />
Prvek anglicky
Český název
Popis
Contributor
Přispěvatel
Entita, která přispěla k obsahu zdroje.
Coveradge
Pokrytí
Rozsah nebo záběr obsahu zdroje. (Například místní, časové nebo legislativní pokrytí)
Creator
Tvůrce
Entita primárně zodpovědná za vytvoření obsahu zdroje.
Date
Datum
Datum události, která se vyskytla během existence zdroje.
Description
Popis
Vysvětlení obsahu zdroje.
Format
Formát
Fyzické nebo digitální provedení zdroje.
Identifier
Identifikátor zdroje
Jednoznačný odkaz na zdroj v rámci daného kontextu.
Language
Jazyk
Jazyk intelektuálního obsahu zdroje.
Publisher
Vydavatel
Entita zodpovědná za zpřístupnění zdroje
Relation
Vztah
Odkaz na příbuzný zdroj.
Rights
Práva
Informace o právech vztahujících se k popisovanému zdroji.
Source
Zdroj
Odkaz na zdroj, ze kterého je popisovaný zdroj odvozen.
Subject
Předmět a klíčová Téma obsahu zdroje. slova
Title
Název
Jméno zdroje.
Type
Typ zdroje
Povaha nebo žánr (druh) obsahu zdroje.
Tabulka 2- Základní metadatové prvky Dublin Core (Zdroj: DCMI.2005)
Automaticky nebo manuálně získaná metadata se mohou zakódovat do čárového kódu, který se přitiskne na skenovaný dokument nebo jeho obálku. To umožní jednoznačné provázání originálu s elektronickou podobou a snadné dohledání v listinném archivu.
3.5 Uložení Dalším krokem digitalizace je export obrazu dokumentu do úložiště a jeho metadat buď společně s dokumentem do úložiště nebo do databáze. Uložení do databáze má výhodu, že lze 24
metadata dobře spravovat, prohledávat, ale zase může být ztracena vazba mezi dokumentem a jeho metadaty. Uložení metadat společně s dokumentem zajišťuje jejich neodlučitelnost, ale při změně metadat je třeba upravit celý dokument. Pokud během digitalizace dochází k vytěžení dat, pak jsou tato data exportována do podnikové aplikace, databáze nebo do statistického modulu pro analýzu. Lze také použít kombinaci exportů- uložení naskenovaného obrazu dokumentu do systému pro správu dokumentů a zároveň vložení vytěžených dat například do databáze podnikové aplikace. „Je žádoucí dosáhnout maximální autentizace výstupů ze skenovacího procesu, tj. s co největší mírou důvěryhodnosti prokázat, že proces skenování proběhl tak, že nebylo možno poté, co byly dokumenty předány ke zpracování do obrazu naskenovaného dokumentu již zasáhnout. Proto je vhodné dokumenty opatřit elektronickým podpisem (značkou) a časovým razítkem13. Podepsat lze také celou skenovanou dávku, složku dokumentů naráz.“ (Smejkal.2007) 3.5.1 Výstupní formáty obrazu dokumentu Nerozpoznaný obraz dokumentu se ukládá jako bitmapa, ve které nelze fulltextově vyhledávat. Tyto obrazy se zmenšují pomocí některé kompresní metody. Nejčastěji se obrazy ukládají do formátů TIFF, JPEG a PNG. Bitmapové obrazy mají uvedené rozlišení a nemůže být změněna jejich velikost bez ztráty kvality. Soubory uložené v jednom bitmapovém formátu lze snadno převést do jiného bitmapového formátu. Uvádím zde popis nejčastějších formátů s doporučením pro jejich využití v rámci digitalizace. Formát PDF lze použít pro uložení pouhého obrazu dokumentu, ale i pro uložení rozpoznaného textu. Z tohoto důvodu jej zařazuji do samostatné podkapitoly. TIFF (Tagged Image File Format)- formát TIFF byl vyvinut v roce 1986 společností Aldus a stal se standardem pro ukládání obrazů naskenovaných dokumentů. Je podporován prodejci skenerů, systémů pro správu dokumentů (DMS) i systémů pro správu firemního obsahu (ECM). Umožňuje bezztrátovou kompresi, tedy kompresi, při které se zmenší velikost souboru, ale neztratí se žádné informace o obrazu a dokument lze zpětně dekomprimovat. Pokud organizace ukládá velké objemy naskenovaných dokumentů, tak je ukládá ve většině případů jako černobílé nebo ve stupních šedi, aby byl soubor co nejmenší. Pro tyto účely je formát TIFF využíván s CCTII kompresí, která podporuje černobílé obrazy. Další výhodou formátu TIFF pro použití při digitalizaci je podpora vícestránkových souborů. Formát TIFF je tedy vhodný pro ukládání černobílých obrazů dokumentů. Pro naskenované obrazy dokumentů, které je potřeba opatřit časovým razítkem a certifikátem je však vhodnější formát PDF. JPEG (Joint Photographic Experts Group)- formát JPEG využívá ke zmenšení obrazu ztrátovou kompresi a se zmenšující se velikostí souboru se podstatně zhoršuje kvalita. Hodí se zejména pro ukládání barevných obrázků pro potřeby webových stránek nebo pro posílání obrázků jako přílohy e13
Použití časového razítka a elektronického podpisu (značky) popisuji v kapitole 8.2
25
mailem. JPEG má různé poměry komprese- od 10:1 až po 20:1. Kvalitní grafické programy umožňují kompresní poměr nastavit. Formát JPEG podporuje přes 16 miliónů barev14. PNG (Portable Network Graphics)- tento formát využívá bezztrátovou kompresi a podporuje stejné množství barev jako JPEG (16,7 mil.). Byl vytvořen pro web jako náhrada za formát GIF, který obsahoval patentovanou kompresní metodu LWZ15. V současné době je PNG velmi rozšířený a lze ho doporučit pro uložení vektorové grafiky a textů, protože dobře vykresluje obraz a je objemově úsporný. Pro ukládání obrázků nebo fotografií je příliš objemný. 3.5.2 Portable Document Format (PDF) PDF formát vytvořila společnost Adobe pro snadnou výměnu dokumentů. Je nezávislý na hardware a software, na kterém byl vytvořen a zobrazí se na jakémkoli dalším zařízení správně. PDF formát se rychle rozšířil, protože společnost Adobe poskytla zdarma aplikaci Adobe Reader pro prohlížení PDF souborů. Existuje několik druhů uložení do formátu PDF. Zaprvé lze soubor uložit jako obrázek (Image only). Tato konverze je rychlá a vznikne PDF soubor, ve kterém však nelze vyhledávat. Je vhodný například pro naskenovaný ručně psaný nestrukturovaný dokument. Druhá možnost je uložit tzv. Normální PDF (Normal PDF). To uloží rozpoznaný text v dokumentu společně s případnými dalšími grafickými prvky (obrázky, grafy) do jedné vrstvy. Toto PDF je prohledatelné a hodí se zejména pro publikaci na internetu, kvůli své malé velikosti. Třetí možností je PDF, které uloží text a grafické prvky zvlášť do vrstev (Image+Hidden Text). Jedna vrstva představuje uložení celého obrazu dokumentu a druhá obsahuje pouze rozpoznaný text. Takto uložené soubory jsou o 20-150 procent větší než „Image Only“, ale lze je snadno dále zpracovávat.
V současné době je PDF ve verzi 1.7 a v tomto roce vyjde verze 2.0. Od verze 1.6 z roku 2004 lze do PDF souborů vkládat videa. Současná verze 1.7 obsahuje celkem sedm vrstev. Již uvedená textová vrstva uchovává nestrukturovaný text. V další vrstvě jsou pak uložena strukturovaná metadata v XML formátu. Dále je obsažena vrstva bezpečnostní, pro připojení elektronického podpisu, certifikátu nebo časového razítka a vrstva tisková, ve které je uchováváno pozadí. V PDF verze 1.7 lze ještě najít vrstvu aplikační, do které se zaznamenává historie dokumentu, vrstvu pro připojení komentářů a vrstvu pro přílohy. V následující tabulce (Tabulka 3) ukazuji měnící se velikost uložení stejného souboru do různých typů PDF.
14
http://www.file-extensions.org/jpg-file-extension Algoritmus bezztrátové komprese vydaný v roce 1984 vědci Lempel, Ziv a Welch. Je jednoduchý na implementaci a rychlý. 15
26
Typ PDF
Velikost souboru
Image Only
785KB
Normal
198KB
Image + Hidden Text
1950KB
Tabulka 3- Velikost souboru v různých typech PDF (Zdroj: autorka)
PDF/A je formát, který byl v roce 2005 celosvětovými odborníky vybrán jako vhodný pro dlouhodobou archivaci a byl standardizován normou ISO 19005-1:2005. Vychází z PDF verze 1.4 a rozdíl formátu PDF/A oproti normálnímu PDF formátu je v tom, že ukládá všechny potřebné informace pro zobrazení společně s dokumentem (například font písma, definici barev) a zakazuje ukládání s heslem nebo šifrování. PDF/A ukládá také metadata a rozpoznaný text. Pro archivaci naskenovaných obrazů dokumentů je vhodné použít formát PDF/A, protože zajistí, že dokument půjde otevřít a správně zobrazit i za dvacet let. Formát PDF/A lze použít ve dvou úrovních. PDF/A-1b je nižší úroveň, která zajistí správné vizuální zobrazení. Úroveň PDF/A-1a kromě vizuální shody také zajistí správnou interpretaci obsahu a logickou strukturu.
Pro ukládání textových nebo kombinovaných (text + obrázky) digitalizovaných dokumentů je použití formátu PDF nejvhodnější. Formát PDF byl také v České republice ve vyhlášce 193/2009 Sb. vybrán jako formát, do kterého se provádí autorizovaná konverze dokumentů16. 3.5.3 Výstupní formáty rozpoznaného dokumentu Rozpoznané textové dokumenty se nejčastěji ukládají do formátu PDF (Normal nebo Image+ Hidden Text). Dále také do editovatelných formátů RTF, DOC (DOCX) nebo TXT, ASCII a Unicode text pro získání čistého textu bez pozadí a formátování. Pro tabulkové dokumenty se využívá XSL, nebo XLS pro MS Excel a pro export rozpoznaného textu do internetu HTML. Kvalitní software dokáže převést i některé matematické a chemické vzorce nebo programový kód. Protože je často potřeba konverzovat rozpoznaný text do formátů kancelářského balíku MS Office lze zakoupit i samostatný software pro ukládání do těchto formátů. Na českém trhu je dostupný ABBYY Scan To Office, který kromě rozpoznání textu zajistí i správné zobrazení MS Office dokumentů. Pro lepší orientaci v jednotlivých typech formátů uvádím jejich stručný popis. RTF (Rich Text Format)- formát, který je určený pro ukládání textu, je nezávislý na platformě a textovém editoru. Obsahuje velmi mnoho formátovacích příkazů a lze tak uložit bohatě formátované dokumenty přenositelné mezi editory. 16
Autorizovaná konverze je předmětem kapitoly 8.3
27
DOC (Document)- formát vytvořený společností Microsoft pro ukládání textových souborů v aplikaci MS Word. Ty mohou obsahovat text, obrázky, tabulky nebo různá formátování. MS Word editor od verze 2007 používá formát Open XML s příponou DOCX, díky kterému jsou DOCX soubory menší. Formáty DOC i DOCX podporuje většina textových editorů různých výrobců. TXT (Text file)- jedná se o formát, který slouží k ukládání textu bez formátování a vnitřní struktury. Tradičně používá znakovou sadu ANSII nebo dnes často Unicode. ASCII znaková sada obsahuje pouze písmena anglické abecedy, číslice a některé speciální znaky. Unicode dokáže kódovat znaky jakéhokoli jazyka. Txt formát se hodí zejména pro text, který bude dále strojově zpracováván. XLS (Excel Spreadsheet File)- formát společnosti Microsoft pro ukládání tabulkových souborů, ty mohou obsahovat různé formátování nebo grafy. Je podporován většinou výrobců kancelářských aplikací a v roce 2007 vznikla přípona XLSX, která využívá Open XML. XML (Extensible Markup Language) - značkovací jazyk vyvinutý konsorciem W3C17. Je vhodný zejména pro výměnu dat mezi aplikacemi. Zobrazení dat z XML dokumentu lze upravit pomocí stylového jazyka XSL. XML v kombinaci s XSL se při digitalizaci dokumentů používá pro ukládání tabulkových souborů, které budou dále strojově zpracovávány. 3.5.4 Výstup dat ze strukturovaných dokumentů Strukturovaná data se přes rozhraní ukládají do relační databáze podnikové aplikace anebo do formátů xml, dbf nebo txt. V textových souborech se pro oddělení jednotlivých údajů používají středníky nebo čárky, podle toho, co vyžaduje aplikace, do které budou data importována. DBF (Database File)- jednoduchý databázový formát pro ukládání strukturovaných dat. Je to formát, který byl používaný dříve velmi rozšířeným nástrojem pro správu databáze dBase. DBF soubor lze otevřít a editovat v různých databázových programech, jako například dnes rozšířený MS Access.
3.6 Archivace a skartace Poté, co je elektronický obraz dokumentu plně zpracován a uložen, je nutné také uložit nebo skartovat papírový originál dokumentu. Papírové předlohy dokumentů určené k archivaci je třeba po dokončení skenování pečlivě roztřídit, předat k dalšímu zpracování nebo uložit do listinného archivu. Pokud byly vícestránkové dokumenty před skenováním rozděleny na jednotlivé listy, je třeba je znovu sešít. Tato fáze se anglicky označuje jako „post-processing“ a je při ní zapotřebí manuální práce. Naskenované obrazy dokumentů i papírové originály dokumentů je třeba skladovat podle platných zákonů dané země. Aby do úložiště dokumentů nebo listinného archivu stále jen 17
Mezinárodní konsorcium, které vyvíjí standardy pro World Wide Web.
28
nepřibývaly nové dokumenty, je nutné je po uplynutí zákonem stanovené doby skartovat. V případě elektronických dokumentů je skartace automatický proces, který nepotřebuje žádné manuální zásahy. Listinné dokumenty se označují speciálními značkami (A- trvalá archivace, S- skartace, Vnutné rozhodnutí o přeřazení do kategorie A nebo S). Jaký dokument kdy skartovat je dáno skartačním protokolem a o elektronické i manuální skartaci se vedou záznamy.
3.7 Shrnutí postupu digitalizace dokumentů Digitalizace dokumentů se provádí buď za účelem získání obrazu dokumentu nebo za účelem vytěžení dat. V současné době zatím více organizací používá digitalizaci pro získání obrazu dokumentu. Tyto obrazy jsou pak archivovány nebo využívány pro automatické workflow. Před zahájením skenování je nutné nejprve dokumenty připravit na skenování, což vyžaduje mnoho manuální práce. Také indexování dokumentů zatím převládá manuální, nicméně v blízké době lze očekávat čím dál častější použití automatického indexování. Obvyklé je používání čárových kódů, do kterých se kódují informace o metadatech. Rozpoznaný text je z dokumentů je validován a verifikován. Tuto fázi lze automatizovat použitím vhodného software. Naskenované obrazy nebo vytěžená data lze uložit do velkého množství formátů. Nejčastěji se lze u naskenovaných dokumentů setkat s formáty PDF a TIFF. Stále propracovanější algoritmy rozpoznávání, indexace, validace a verifikace umožňují čím dál tím větší automatizaci celého procesu digitalizace, kladou menší nároky na kvalifikovanost obsluhy a snižují tak náklady zpracování dokumentů.
29
4 Vytěžování dat Vytěžování dat z dokumentů probíhá obdobným způsobem, jako výše popsaná digitalizace dokumentů s tím rozdílem, že zahrnuje některé specifické kroky. Vytěžená data vstupují do podnikových aplikací a business procesů. Organizace získají zavedením vytěžování dat zrychlení procesu zpracování formulářů a zmenšení chybovosti. Vytěžování dat organizace nejčastěji využívají pro zpracování dokumentů z oblasti financí, obchodu a HR (řízení lidských zdrojů). Nejběžněji automaticky zpracovávaným formulářem jsou pak faktury. Proto společnosti zaměřující se na vývoj software pro vytěžování dat nabízí řešení zaměřené speciálně na vytěžování dat z faktur. Na českém trhu lze zakoupit například IRISCapture Pro for Invoices. Trendem ve vytěžování dat je především automatizace vytěžování dat z polostrukturovaných a nestrukturovaných dokumentů. Do procesu vytěžování dat vstupují dokumenty:
Strukturované dokumenty (různé formuláře s definovaným vzhledem a kolonkami),
Colour Dropout formuláře (barevné formuláře připravené pro vytěžování dat),
Polostrukturované dokumenty (faktury s různým vzhledem, ale tematicky stejným obsahem),
již existující elektronické soubory typu PDF, TIFF, JPG (například elektronické formuláře).
Tradičním přístupem při vytěžování dat ze strukturovaných dokumentů je použití zónového OCR. To znamená, že data jsou vytěžována pouze z předem určených míst na formuláři. Tedy pro každý druh formuláře je potřeba vytvořit samostatnou šablonu, kterou je buď nutné před skenováním k formuláři přiřadit manuálně, nebo ji systém přiřadí sám na základě čárového kódu na formuláři, který nese odkaz na šablonu. Vytvoření šablony zahrnuje určení míst, ze kterých se budou vytěžovat data a pravidel, podle kterých se budou vytěžená data validovat. Pravidla představují různé požadavky na typ pole, jeho maximální hodnoty, kontrolu pole pomocí slovníku nebo logická pravidla (např. pokud je zaškrtnuto pole X, hodnota pole Y musí být vyšší než 300). Tato pravidla usnadní časově náročnou manuální kontrolu formuláře. Problém s vytěžením dat u zónového OCR nastává například při naskenování obrazu dokumentu křivě, nebo když je formulář při vložení do skeneru špatně orientován. Tyto problémy pomůže odstranit například technologie VRS pro vylepšení skenovaného obrazu. Na následujícím obrázku (Obrázek 6) uvádím schéma vytěžení dat ze strukturovaného formuláře do databáze.
30
Obrázek 6- Schéma vytěžování dat pomocí šablony (Zdroj: autorka)
Polostrukturované formuláře jsou formuláře, které obsahují podobná data, ale mají různý vzhled. Pro zapracování takových formulářů lze využít technologie dynamického OCR. Někdy se také nazývá flexible OCR nebo intelligent OCR. Při využití dynamického OCR se nevytváří přesné šablony, ale pouze souhrn pravidel, podmínek a regulárních výrazů, kterými je popsáno, kde má rozpoznávací modul hledat jaké pole. Pokud je skenován například formulář neschopenky, tak pro nalezení jména zaměstnance se definuje, že se toto pole bude nacházet u popisu „jméno“, „zaměstnanec“ nebo „pracovník“, bude se nacházet v horní části formuláře a bude textového typu. Také lze popsat stromovou strukturu prvků a jejich vzájemné vztahy. Tímto způsobem se dynamické OCR chová jako člověk, který vyhledává ve formuláři pole podle toho, v jaké skupině prvků se nacházejí, jaký mají titulek a tvar. Příkladem software pro zpracování formulářů pomocí dynamického OCR na českém trhu je produkt ABBYY FlexiCapture. Některé formuláře pro vytěžování dat mohou být navrženy tak, že je lze vyplnit na počítači a pak buď elektronicky podepsat, nebo vytisknout a podepsat ručně. Aby bylo snadné získání dat z těchto formulářů, jsou data vyplněná do formuláře na počítači zakódována do čárových kódů. Pokud je formulář vytištěn, tak po jeho naskenování stačí rozpoznat čárový kód a lze tak zajistit stoprocentní shodu vyplněných dat s vytěženými bez potřeby verifikace a validace. Formulář se tak stává snadno čitelným jak pro uživatele, tak i pro počítač. Automatické vytěžování dat z dokumentů je vhodné pro každou organizaci, která má velké mzdové náklady na zaměstnance, kteří manuálně přepisují data z papírových dokumentů do počítače. Vytěžování dat je velmi dobře použitelné u strukturovaných formulářů. V současnosti lze s úspěchem zpracovávat pomocí dynamického OCR i polostrukturované formuláře.
31
5 Technologie rozpoznávání dat Po naskenování dokumentu vznikne bitmapa, kterou je pro další proces digitalizace třeba dále rozpoznat. Po rozpoznání je možné dokument automaticky indexovat a případně vytěžit data. Technologie pro rozpoznávání znaků a písma dokumentu jsou založené na optickém překladu naskenovaných obrazů textu či formulářů do digitální podoby, kterou lze na počítači nebo jiném stroji dále zpracovávat. Tyto technologie se často souhrnně označují jako Optical Character Recognition (OCR). OCR technologie je však zaměřena pouze na rozpoznávání strojového písma. Rozpoznávání ručně psaného textu je řešeno technologií Intelligent Character Recognition (ICR). Na rozpoznávání značek je zaměřeno Optical Mark Reading (OMR) a na čárové kódy Bar Code Reading (BCR). Průměrná úspěšnost rozpoznání strojově psaného písma je v současné době více než 99 procent, u ručně psaného nad 95 procent a u rozpoznávání zaškrtnutých odpovědí (OMR) celých 99,99 procent. Úspěšnost se liší dle použitého software. Západní země, především anglicky mluvící mají výhodu ve své krátké 26 znakové abecedě bez háčků a čárek a proto je rozpoznávání takovýchto textů nejúspěšnější. V této kapitole vysvětluji, jak OCR, ICR,OMR a BCR fungují, jaký je mezi nimi rozdíl a k čemu se používají.
5.1 Optical Character Recognition Optical Character Recognition (OCR) je technologií pro automatické rozpoznávání strojem psaného písma. Technologie rozpoznávání textu má dlouhou historii, poprvé ji patentoval Gustav Tauschek v Německu a to již v roce 1929. Komerční využití OCR však začalo až po roce 1965, kdy technologii pro rozpoznávání znaků začala využívat společnost Reader's Digest a americká pošta pro rozpoznávání poštovních směrovacích čísel. Zlomovým okamžikem bylo vydání norem pro opticky čitelné písmo OCR-A a OCR-B Americkým národním normalizačním institutem v roce 1968. Tyto fonty byly zjednodušeny tak, aby bylo rozpoznávání znaků co nejpřesnější. Dříve byly systémy pro rozpoznávání textu kalibrovány vždy pro jeden font. V dnešní době jsou již technologie schopny automaticky rozpoznat font a naformátovat výstupní dokument včetně tabulek, sloupců a obrázků. Rozpoznávání dokumentu tradičně zahrnuje několik kroků. Nejprve je dokument naskenován jako černo-bílý obraz v potřebném rozlišení, většinou 300dpi a výše. Je tak získána matice černých a bílých bodů, bitmapa. Dále následuje rozdělení obrazu na textové části, tabulky a obrázky. V dnešní době software dokáže tyto oblasti od sebe odlišit automaticky. Pokud nejsou oblasti automaticky rozpoznány, je třeba, aby byly označeny manuálně. V dalším kroku se software snaží pomocí různých algoritmů rozlišit jednotlivé řádky. Použití algoritmů záleží i na tom, jaký jazyk je digitalizován. Jazyk s 32
diakritikou, jako čeština je pro rozpoznání řádek složitější. U některých fontů může dojít k tomu, že diakritika nad písmeny bude posuzována jako samostatný řádek. V takových případech algoritmus například porovnává výšku řádku s průměrnou výškou řádků v textu a pokud je menší než polovina, spojí řádek s druhým, který nemá dostatečnou výšku. Problém posuzování diakritiky jako samostatného řádku zobrazuji na následujícím obrázku (Obrázek 7), kde ukazuji histogram řádku anglického a českého textu. Pro rozdělení textu na řádky existuje více algoritmů.
Obrázek 7- Histogram řádku anglického a českého textu (Zdroj: autorka)
Každý řádek je dále rozdělen na jednotlivá slova. Opět se využívá různých algoritmů. Lze například generovat vodorovný histogram hustoty pixelů pro každý řádek. (Smrž,1998) Po oddělení jednotlivých slov následuje rozdělení na znaky a jejich rozpoznání podle šablony uložené v databázi nebo podle charakteristických tahů písmen (např. vodorovné, šikmé čáry, typy oblouků, apod.). V případě, že není žádný znak rozpoznán, je označen nebo nahrazen zástupným symbolem a musí být později manuálně opraven. Opravovaný znak se s jeho vypovídající hodnotou uloží do databáze jako nová šablona. Pro zajištění vyšší přesnosti rozpoznání znaků se v současné době používá dva a více rozpoznávacích modulů. Výsledky jejich rozpoznání pak porovnává OCR Voting Engine. Každý modul má určitou váhu při rozhodování o rozpoznaném znaku. Některé moduly zaměřené na rozpoznávání numerických znaků mají větší váhu při posuzování číselných polí a naopak při posuzování polí s písmeny mají větší váhu moduly zaměřené na rozpoznání znaků abecedy. Jednotlivé použité rozpoznávací moduly se také mohou lišit použitím rozdílných algoritmů pro vyhodnocování znaků.
Přesnost rozpoznání znaků ovlivňuje více faktorů, hlavními jsou:
Kvalita originálního dokumentu, který by měl být dobře čitelný a dostatečně kontrastní.
Rozlišení skenování, čím menší písmo a horší kvalita originálního dokumentu, tím vyšší by rozlišení mělo být.
33
Druh tiskárny, na které byl vytištěn naskenovaný dokument (tisk z laserové tiskárny je pro rozpoznání znaků lepší než z jehličkové)
Použité algoritmy k rozpoznávání textu.
Použití více rozpoznávacích modulů a OCR Voting Engine.
Dostatek šablon pro jednotlivé znaky v databázi a dobrý slovník slov při skenování nestrukturovaných dokumentů.
Z těchto důvodů je nutné vybrat kvalitní software. Jednoduché nástroje pro rozpoznávání textu jsou dnes zdarma a přístupné on-line. Mají však nízkou úspěšnost rozpoznávání a jsou stavěné především pro rozpoznání anglického textu. Kvalitním software pro rozpoznání textu na českém trhu jsou produkty společností ABBYY, I.R.I.S. nebo Nuance.
5.2 Intelligent Character Recognition Intelligent Character Recognition je pokročilou metodou rozpoznávání znaků, kdy se ručně psaný text převádí do digitální podoby dále zpracovatelné počítačem. Jedná se o rozšíření technologie Optical Character Recognition. ICR technologie se využívá dvěma způsoby. Zaprvé v režimu off-line pro rozpoznávání ručně napsaných znaků z naskenovaných dokumentů. Druhým způsobem je režim on-line pro rozpoznání znaků psaných uživatelem na vstupní zařízení, které znaky rovnou převádí do digitální podoby. Využívá znalostí o typických pohybech pera (prstu) a tlaku při psaní jednotlivých písmen. Příkladem takového zařízení je tablet.
V obou případech je důležitý proces učení, kterým zařízení prochází. Pokud zařízení nerozpozná nějaký znak, zeptá se uživatele, o který znak se jedná. Odpověď uživatele uloží do databáze, kde uchovává vzory pro různé znaky. Pro minimalizaci chyb při rozpoznávání ručně psaného písma je často na formuláři určeno, jakým písmem se má vyplnit- například hůlkové písmo. Zatímco OCR technologie dokážou rozpoznat různé druhy fontů, ICR technologie musí rozpoznat téměř nekonečně mnoho stylů písma, protože každý má individuální rukopis. U rozpoznání ručně psaného písma je nemožné dosáhnout stoprocentní úspěšnosti, protože ani člověk mnohdy nedokáže rozpoznat některá písma. Při použití ICR technologie je důležitá verifikace rozpoznaného dokumentu a použití více rozpoznávacích modulů. Pokud jsou formuláře vyplňovány ručně, pak jsou většinou navrženy tak, že pro každý znak existuje jedno políčko a jednotlivé znaky jsou tak od sebe odděleny. Jiným případem jsou však ručně psaná celá slova do neomezených polí formuláře. Tento rukopis je mnohem hůře čitelný, protože jednotlivá písmena na sebe navazují, jsou používána velká i malá písmena zároveň, psací nebo tiskací 34
písmo, a rozdílnost takto napsaných znaků oproti uloženým šablonám pro znaky v databázi je často velká. Především rozdílná velikost mezer mezi jednotlivými znaky a slovy činí rozpoznání takového textu velmi obtížné. (Huang.2008) Problém ručně psaného textu řeší technologie Intelligent Word Recognition (IWR). Ta je velmi podobná ICR s tím rozdílem, že neporovnává jednotlivé znaky se vzory v databázi, ale snaží se rozpoznat celá slova a porovnat je se slovníkem. Například ve formuláři pro vyplnění pole „Značky auta“ bude slovník pro toto pole zahrnovat názvy všech možných značek aut. Rozpoznávací modul pak postupuje tak, že nejprve určí základní obrys slova a pak až postupně rozpoznává znaky. Rozpoznané části slova nebo znaky porovnává se slovníkem, dokud nenalezne shodu. Omezenost rozpoznání slov souvisí s velikostí dostupného slovníku. Technologie IWR spadá do oblasti neuronových sítí. Různé druhy písma, se kterými se musí rozpoznávací technologie vyrovnat, jsou vidět na následujícím obrázku (Obrázek 8).
Obrázek 8- Ukázky ručního písma ve formulářích (Zdroj: Gingrande.2006)
Dle (Breithaupt.2006) lze obtížnost rozpoznávání různých druhů znaků shrnout do následujících bodů:
Ručně psané znaky je obtížnější rozpoznat než strojově psané.
Ručně psaný neomezený text (celá slova s napojovanými písmeny) je obtížnější rozpoznat než písmena v omezených polích napsaná do předurčených kolonek.
Malá písmena je obtížnější rozpoznat než velká písmena (kapitálky).
Znaky abecedy je obtížnější rozpoznat než číslice.
35
Spojení technologií OCR, ICR a IWR, představuje velmi silný nástroj, který dokáže rozpoznat téměř jakýkoli textový dokument. Softwarovým produktem, který spojuje tyto technologie je nástroj A2iA FieldReader od společnosti A2iA, který umožňuje rozpoznávat ruční i strojový text, omezená i neomezená formulářová pole, číselná pole a také zaškrtávací pole (viz následující kapitola 5.3). A2iA FieldReader je dostupný v šesti jazykových verzích, nicméně český jazyk není podporován.
5.3 Optical Mark Recognition Optical Mark Recognition je technologií, která se využívá ve výkazech, dotaznících, hlasovacích lístcích, loteriích nebo testech, kde možné odpovědi spadají do omezeného počtu hodnot. Vyplňující ručně zaškrtává nebo jinak označuje nabízené možnosti. Vyplněný formulář je pak naskenován a odpovědi na předem definovaných místech jsou vyhodnoceny. OMR technologie se liší od OCR tím, že není zapotřebí složitého rozpoznávacího modulu, protože zaškrtávací pole jsou navrženy tak, aby byly pro stroj velmi snadno čitelné a minimalizovala se tak možnost chybného přečtení. Není rozlišován tvar pole (kolečko, čtvereček) pro vyplnění, ale pouze zda je vyplněno, či ne. S OMR přístupem se lze v historii setkat ještě dříve než s OCR. Optické OMR skenery se začaly rozvíjet v druhé polovině 20. století a to především zásluhou firmy IBM, která se o rozvoj strojového čtení velmi zajímala a odkupovala všechny dostupné patenty.
Optické OMR skenery využívají dva způsoby získání dat z formuláře:
První způsob funguje na principu odrazu světla od formuláře, na který svítí paprsek světla. Tam, kde je formulář vyplněn, se odráží světla méně než na bílém papíru.
Druhý způsob je podobný s tím rozdílem, že se pro vyplňování formulářů používá speciální papír. Ten lze dobře prosvítit a skener zjišťuje, v kterých místech světlo papírem neprojede.
Oba přístupy převádějí informaci o vyplněném či nevyplněném poli do elektrického signálu. V dalším kroku je tento signál převeden do digitálního jako hodnota „1“ pro tmavě vyplněné pole a „0“ pro bílé pole.
Tmavost barvy některé moderní skenery převádí až do 16-ti stupňů.
(Lumbantobing,2004) Předpřipravené dotazníkové formuláře lze zakoupit dnes například u společnosti Scantron18, jejíž řešení využívá 80 procent ze 100 největších škol v USA. V příloze (Příloha 1) této práce je vložený ukázkový OMR formulář školního testu z internetového obchodu společnosti Scantron. Formulář se zakupuje v balení po 500 kusech a cena tohoto jednoho formuláře je v přepočtu 1,5 Kč.
18
Webová stránka společnosti Scantron: http://www.scantron.com/classroomtesting/
36
Ač se optické OMR skenery se využívají i dnes, vývoj směřuje k užívání běžných skenerů a OMR software. Tento postup přináší oproti dřívějšímu řadu výhod. Dotazníkové formuláře lze tisknout na kancelářský papír na běžné tiskárně, což přináší výrazné snížení nákladů. Další výhodou je možnost sestavovat formuláře dle vlastní potřeby. Lze měnit uspořádání formuláře a druhy zaškrtávacích polí a uživatel si sám předdefinuje šablonu, ve které vyznačí, jaké části formuláře mají být skenovány. Není kladen ani požadavek na vyplnění formuláře určitým druhem psacích potřeb. Například výše zmíněné testovací školní formuláře musí být většinou vyplněny tužkou o tuhosti H2. První OMR software vyvinula v roce 1991 společnost Remark Office OMR19 a stále zůstává přední společností v oblasti OMR technologií.
V dotazníkových formulářích se využívají hlavně dva druhy zaškrtávacích polí (Obrázek 9):
Checkbox- čtvereček, který se vyplňuje křížkem nebo „fajfkou“ (check-mark),
Bubbles- se využívají, pokud má odpověď na danou otázku více než dvě možnosti.
Obrázek 9- Typy zaškrtávacích polí v OMR formulářích (Zdroj: autorka)
OMR technologie, především založené na OMR software poskytují velice levný a rychlý nástroj vyhodnocování dotazníkových formulářů při téměř sto procentní spolehlivosti. K chybám ve vyhodnocování dochází například při špatném očíslování stránek, při vynechání nebo dvojitém naskenování formuláře. Potíže také nastávají u oboustranných formulářů, kdy může prosvítat vyplnění odpovědí ze spodní strany.
5.4 Bar Code Reading Bar Code Reading umožňuje čtení čárového kódu a získávání zakódovaných informací. Čárový kód je prostředek automatické identifikace. Prezentuje strojem čitelná data, která se vážou k objektu identifikace. Je tvořen černými a bílými pruhy nebo mozaikou, ve které jsou zakódovány různé informace. Bar Code Reading je dnes využíván v mnoha oblastech, kde je potřeba jednoznačné identifikace. 19
Webová stránka společnosti Gravic, Inc.: http://www.gravic.com/remark/officeomr/index.html
37
V rámci digitalizace dokumentů představuje BCR důležitý nástroj, který slouží především k:
automatické indexaci elektronických dokumentů pomocí informací z čárového kódu,
možnosti propojení elektronického dokumentu s jeho papírovou předlohou,
propojení skenovaného dokumentu s šablonou pro vytěžení dat,
propojení papírového dokumentu s jeho elektronickými přílohami,
usnadnění třídění papírových dokumentů a jejich vyhledávání,
oddělení vícestránkových dokumentů při skenování.
Pokud čárový kód nebyl vytištěn na papírový dokument ještě před jeho distribucí, tak je na něj nalepen nebo dotištěn skenerem (funkce imprinting) při jeho digitalizaci. Čárový kód na dokumentu nese informace například o druhu a kategorii dokumentu, odkazy na šablony nebo přílohy, metadata a další informace. Při skenování vícestránkových dokumentů se čárové kódy využívají tak, že se čárovým kódem označí každý list vícestránkového dokumentu nebo se mezi jednotlivé vícestránkové dokumenty vloží list s čárovým kódem. Toto umožní automatické vytváření vícestránkových souborů typu PDF nebo jiných formátů. Čárové kódy se také využívají u výše zmíněných formulářů20, které se vyplňují na počítači a následně tisknou pro další zpracování. Toto řešení se využívá například u dokumentů, které je ze zákona povinné uchovávat v písemné podobě a zároveň je jejich oběh realizován elektronicky. Do čárových kódů na okraji stránky se zaznamenají elektronicky vyplněná data a lze také připojit data o uživateli, který dokument vyplnil. V rámci digitalizace dokumentů se lze nejčastěji setkat s dvěma druhy kódů- kódy tradiční lineární a novější v podobě matrix. Tradiční lineární čárový kód je omezen množstvím znaků, která lze do něj uložit. Novější kódy mají uspořádání jak lineární, tak vertikální a množství znaků, která lze do nich uložit je mnohonásobně vyšší. K čárovým kódům na dokumentech ještě bývá připojena speciální značka, která zajistí, aby byly v případě více čárových kódů na stránce od sebe jednotlivé kódy odlišeny. Rozhodnutí o tom, jaký druh čárového kódu použít záleží na tom, kolik znaků je třeba kódovat, zda budou numerické nebo alfanumerické, kolik místa je na formuláři pro kód nebo v jakém rozlišení bude dokument s čárovým kódem skenován. Vhodné je využít ten nejjednodušší a největší, kterým lze zakódovat požadované informace. Díky tomu se pak lze vyhnout chybám při skenování například v případě částečného poškození kódu. Nejpoužívanější kódy v digitalizaci dokumentů jsou dle (Kunstová.2009): CODE 39, CODE 93, CODE 128, PDF417, DataMatrix. Jednotlivé kódy popisuji v následující tabulce (Tabulka 4). 20
Viz kapitola 4
38
Druh kódu
Popis
CODE 39
Kóduje celkem 43 alfanumerických znaků a některých speciálních znaků. Lze do něj zakódovat pouze velká písmena abecedy, délka kódu je proměnlivá. Pro každý znak potřebuje devět elementů- pět svislých černých čar a čtyři bílé. Code 39 je čitelný téměř všemi čtečkami. Jeho nevýhodou je velmi malá hustota dat. Průměrně lze do něj zakódovat 20 znaků.
CODE 93
Byl vyvinut jako vylepšení Code 39. Má vyšší hustotu dat a lze kódovat stejné znaky jako u Code 39. Je proměnlivé délky a každý znak je složen ze tří čar a tří mezer.
CODE 128
Je kód s vysokou hustotou dat, který je schopen zakódovat celkem 128 znaků ASCII a umí rozlišovat mezi malými a velkými písmeny.
PDF 417
je dvourozměrný kód s velmi vysokou hustotou dat, je standardizovaný normou ISO. Skládá se ze tří až devadesáti řádků a každý z nich pojme až třicet znaků. Celkem lze tedy zakódovat až 1850 znaků. Při generování kódu lze zvolit úroveň korekce chyb a lze tak přečíst i částečně poškozený kód. Lze do něj zakódovat nejen alfanumerické znaky, ale i grafiku.
DataMatrix
je dvourozměrný maticový kód tvořen černobílou mozaikou. Má čtvercový nebo obdélníkový tvar a je schopen pojmout až 2335 znaků. Lze zvolit úroveň korekce chyb. Je standardizovaný normou ISO.
Tabulka 4- Přehled čárových kódů (Zdroj: autorka)
Tradiční čárové kódy jsou při poškození nečitelné, protože každý kód má přesně definovaný počet čar na jeden znak a pokud nějaká čára chybí, nelze informaci dekódovat. Stejný problém nastává při příliš malé velikosti čárového kódu, kde se mohou vlivem špatné (jehličkové) tiskárny některé čáry slévat. Pro často používané dokumenty, kde hrozí poškození čárového kódu, je vhodné používat čárové kódy s podporou korekce chyb. K dalším chybám při použití BRC v rámci digitalizace může dojít při procesu skenování. Mnoho skenerů, které obsahují i čtečku čárového kódu, hledá identifikační čárový kód na předem definovaném místě. V případě, že je dokument špatně otočený na vstupu do skeneru nebo je čárový kód umístěn na špatném místě tak není nalezen a rozpoznán. Čárové kódy se používají i při realizaci papírového oběhu dokumentů po firmě, kdy lze snadněji sledovat oběh dokumentu. BRC je z výše uvedených technologií pro rozpoznávání dat nejpoužívanější. Při větších objemech skenovaných dokumentů a v rámci kompletního ECM systému je BRC technologie nepostradatelnou součástí řešení.
39
5.5 Shrnutí technologií pro optické rozpoznávání dat V rámci digitalizace dokumentů se lze setkat se čtyřmi technologiemi pro rozpoznání dat z naskenovaného obrazu dokumentu. OCR pro strojově psaný text, ICR pro ručně psaný text, OMR pro rozpoznání zaškrtávacích polí a BCR pro čárové kódy.
V rámci digitalizace dokumentů za účelem získání obrazu dokumentu je využívána především technologie BRC pro označení skenovaných dokumentů a technologie OCR pro rozpoznání klíčových slov a automatickou indexaci.
Pokud se dokumenty digitalizují za účelem vytěžení dat, tak se také používá BRC, dále OCR pro vytěžení dat ze strojově psaných dokumentů a OMR pro rozpoznání a vyhodnocení zaškrtávacích polí. Pro vytěžení dat z ručně vyplňovaných formulářů se používá technologie ICR. Pokročilou formou rozpoznání ručně psaného textu v neomezených formulářových polích se zabývá technologie IWR.
Úspěšnost rozpoznání strojem psaného textu, čárových kódů a zaškrtávacích polí je dnes téměř stoprocentní, v současné době se rozvíjí především snahy o rozpoznání a pochopení ručně psaných znaků a ručně psaného souvislého textu. Rozpoznání ručně psaného textu lze také využít při digitalizaci historických textů.
40
6 Software pro rozpoznávání znaků a vytěžování dat Software pro rozpoznávání znaků a vytěžování dat nejen ovlivňuje kvalitu rozpoznání znaků a vytěžených dat, ale také podle množství nabízených funkcí, umožňuje automatizaci některých procesů a snížení potřeby manuálních zásahů v průběhu digitalizace. Jednotlivé softwarové produkty pro rozpoznání znaků jsou založeny na různých algoritmech. Software pro vytěžování dat z dokumentů zase používá rozdílné postupy při hledání dat určených k vytěžení, validaci a verifikaci a také se liší šíří nabízeného slovníku, vůči kterému lze vytěžená data validovat. V této kapitole uvádím softwarové produkty, které nejčastěji používají dodavatelé řešení digitalizace dokumentů v České republice. Dále pak také produkty, které se nabízí v podobě webové služby a formou opensource.
6.1 Produkty pro rozpoznávání znaků a vytěžování dat Celosvětově nejznámější softwarové produkty pro rozpoznávání znaků dostupné na českém trhu jsou:
ABBYY FineReader 10 od společnosti ABBYY,
OmniPage 17 od společnosti Nuance,
ReadIRIS Pro 12 od společnosti I.R.I.S.
Tyto produkty mají českou jazykovou mutaci, dokážou tedy zpracovat českou diakritiku a používá je pro svá řešení většina firem, které nabízí implementaci řešení pro digitalizaci dokumentů nebo kompletní outsourcing. Celková řešení pro rozpoznávání znaků a vytěžování dat, která tyto firmy nabízejí, se často skládají z více produktů dohromady. Tedy je například využit rozpoznávací modul ABBYY a k němu modul pro vytěžování dat od společnosti Kofax nebo IBM (FileNet). Společnosti ABBYY a Kofax jsou dokonce od roku 2003 partnery. Společnosti ABBYY a I.R.I.S. poskytují komplexní řešení. Tedy nejen software pro rozpoznávání znaků, ale také pro vytěžování dat. Jejich portfolio zahrnuje širokou nabídku specializovaných produktů. (Společnost Nuance se zaměřuje na rozpoznávání znaků a možnosti jejich převodu do zvukového výstupu.) Další software pro vytěžování dat na českém trhu, kromě produktů od společností ABBYY a I.R.I.S. nabízí společnosti:
IBM- vyvinula software pro vytěžování dat FileNet Capture.
TIS (Top Image Systems)- nabízí portfolio produktů pro vytěžování dat označovaných eFlow, například eFlow Integra.
Kofax- kromě již zmíněného řešení pro vylepšení skenovaných obrazů VirtualreScan nabízí produkty pro vytěžování dat označované jako Kofax Capture.
41
ReadSoft- produkty pro vytěžení dat z faktur (ReadSoft for Invoices) a různých dokumentů ReadSoft for Forms.
6.1 Produkty společnosti ABBY Společnost ABBYY je přední mezinárodní společností ve vývoji software pro rozpoznávání a vytěžování dat a lingvistické technologie. Její produkty se prodávají na celém světě. Společnost sleduje světové trendy vývoje a nové verze produktů vždy zahrnují řadu vylepšení a novinek. V současné době nabízí software pro rozpoznávání dat do mobilních telefonů a na začátku tohoto roku začala nabízet svůj produkt FineReader formou webové služby. Tuto službu popisuji v samostatné kapitole 6.5. Software pro rozpoznávání a vytěžování dat společnosti ABBY v České republice distribuují a instalují firmy HTK Pro (www.htkpro.cz), Nupseso (www.nupseso.cz) a MITON (www.miton.cz). V následující tabulce (Tabulka 5) uvádím produkty pro rozpoznávání a vytěžování dat od společnosti ABBYY a jejich orientační cenu (včetně DPH).
Produkt ABBYY
Popis
Orientační cena
Finereader 10
Software pro rozpoznávání dat pomocí
Verze Home 950Kč/ licence
OCR z naskenovaných obrazů
Verze Professional 3600Kč/
dokumentů, PDF souborů a fotografií a
licence
jejich konverzi do eitovatelných souborů.
Verze Corporate od 6000Kč/
Podporuje rozpoznání vícejazyčných a
základní licence
vícestránkových dokumentů. PDF Transformer 3.0
Umožní převést jakékoli PDF do
1900Kč/ licence
editovatelného souboru. FotoReader
Umožní rozpoznání textu na digitálních
1351Kč/ licence
fotografiích. ScreenShot Reader
Nástroj pro zachytávání obrazů z plochy
370Kč/ licence
počítače a jejich převod do citovatelného textu. Scan To Office
Převod naskenovaných dokumentů do
1600Kč/ licence
editovatelných souborů kancelářského balíku Microsoft Office. Recognition Server 2.0
Serverově založené řešení pro vytěžování
Cena závisí na variantě
dat do podnikových aplikací a
produktu dle požadovaných
automatické ukládání do DMS systémů.
parametrů (ceny od 25 000Kč
42
Umožňuje dávkové zpracování
do stovek tisíc)
dokumentů a jejich indexaci. FlexiCapture 9.0
Scan Station
Softwarová aplikace pro vytěžování dat,
Ceny se liší dle počtu
indexaci a třídění. Používá technologie
skenovaných stránek za rok,
OCR, ICR, OMR a BRC. Umožňuje
podpory a dalších parametrů
zpracování strukturovaných i
(např. licence pro 60tis
polostrukturovaných dokumentů pomocí
formulářů/rok v plné verzi od
dynamického OCR.
200tis. Kč )
Software pro skenovací stanice, který na
Cena pouze po konzultaci
monitoru zobrazí naskenované
řešení.
dokumenty, vylepší jejich obraz, kontroluje kvalitu a převede je do prohledatelných nebo editovatelných souborů. Tabulka 5- Software společnosti ABBYY (Zdroj: autorka)
6.2 Produkty společnosti Nuance Společnost Nuance je mezinárodní společností, která nabízí špičkové produkty pro rozpoznávání dat. Kromě produktů pro rozpoznání textu vyvíjí software zaměřený na převedení rozpoznaného souboru do zvukového formátu a jeho přečtení a dále software, který umožní „psát“ na počítači pomocí diktování textu. Stejně jako společnost ABBYY poskytuje rozpoznávací technologii pro mobilní telefony a navíc také možnost diktování textu a jeho převod na psaný text v mobilním telefonu. Nuance je velmi známá svým produktem OmniPage, který je považován za nejpřesnější software pro rozpoznávání dat. Společnost Nuance uvádí přesnost rozpoznání pomocí OCR vyšší než 99 procent. Všechny produkty společnosti OmniPage v České republice distribuuje firma Archivex (www.archivex.cz). V následující tabulce (Tabulka 6) uvádím produkty pro rozpoznávání dat od společnosti Nuance a jejich orientační cenu (včetně DPH).
Produkt
Popis
Orientační cena
OmniPage 17
Software pro rozpoznávání dokumentů
Verze Standard 3 500Kč/
pomocí OCR včetně detekce rozložení
licence
stránky, zachování formátování a převodu
Verze Professional 9 000Kč/
do formátů PDF, MS Office souborů,
licence
43
zvukových souborů a dalších formátů.
Verze Enterprise dle různých
Umožňuje rozpoznání textu z fotografií
parametrů od 10 000Kč.
z mobilního telefonu pomocí speciálních funkcí pro vylepšení jejich obrazu. PDF Converter 7
Program pro konverzi dokumentů do
Verze Standart 1 600Kč/
editovatelných souborů.
licence Verze Professional 2 700Kč/ licence Verze Enterprise dle parametrů od 3 000Kč výše.
PaperPrort
Převod naskenovaných obrazů dokumentů
Verze Standart 2 000Kč/
do formátu PDF nebo souborů
licence
kancelářského balíku Microsoft Office.
Verze Professional 3 800Kč/ licence
OmniPage Capture
Produkt je určený vývojářům a
Cena dle mnoha parametrů,
SDK
dodavatelům digitalizace dokumentů, kteří
pouze po konzultaci řešení.
jej implementují do svých řešení a stavějí na něm své vlastní moduly pro rozpoznávání znaků. Tabulka 6- Software společnosti Nuance (Zdroj: autorka)
6.3 Produkty společnosti I.R.I.S Společnost I.R.I.S. se zabývá software pro rozpoznání znaků už od roku 1987. Mezi jejími produkty lze nalézt nejen software pro rozpoznání znaků a vytěžení dat, ale také přenosné skenery, systémy pro správu dokumentů a kompletní řešení ECM. Pro rozpoznávání dat pomocí OCR nabízí společnost I.R.I.S. produkt Readiris Pro a pro vytěžování dat produkt IRIS Capture, který má tři varianty. Jedna se specializuje na vytěžení dat z faktur, druhá na automatickou indexaci a třetí na vytěžení dat z polostrukturovaných formulářů. Tuto variantu produktu IRIS Capture využil Český statistický úřad pro sčítání lidu v roce 2001. Společnost I.R.I.S. prodává svá řešení ve více než devadesáti zemích. V České republice je do roku 2006 distribuovala firma 5p. Ta distribuci ukončila, protože měly produkty společnosti I.R.I.S. problém s českou diakritikou a také kvůli špatné spolupráci se společností. V současné době produkty společnosti I.R.I.S. prodává mezinárodní distributor WinSoft (www.winsoft.cz) a přehled produktů uvádím v následující tabulce (Tabulka 7). 44
Produkt
Popis
Průměrná cena za 1 licenci
Readiris Pro 12
Software pro rozpoznávání naskenovaných
2 600Kč/ licence
obrazů dokumentů v různých formátech a PDF souborů pomocí OCR do různých editovatelných formátů. Obsahuje také funkci pro vylepšení naskenovaných obrazů a podporuje rozpoznání vícestránkových dokumentů. Readiris Corporate 12
Rozšíření produktu Readiris Pro určené
8 500Kč/ licence
firmám, které potřebují zpracovávat velké
27 000Kč/ 5 licencí
množství dokumentů. Obsahuje funkci pro automatickou kategorizaci a indexaci. IRISCapture Pro for
Software pro vytěžování dat z faktur.
Cena dle objemu
Invoices 8
Automaticky rozpozná dodavatele,
zpracovaných faktur ročně.
indexuje fakturu a vytěží informace pomocí
150 000Kč/ licence verze na
dynamického OCR.
22 500 faktur ročně
IRISCapture Pro Srort
OCR software pro automatickou indexaci,
Cena dle objemu
& Index 8
kategorizaci dokumentů a vytěžování dat
zpracovaných formulářů
bez potřeby vytváření šablon- pole pro
ročně. 150 000Kč/ licence
vytěžení jsou definovány uživatelem
verze na 22 500 faktur ročně
pomocí funkce drag-and-drop. IRISCapure for Forms
IRISCapure for Forms vytěžuje data
Cena dle objemu
8.5
z různých druhů formulářů pomocí OCR,
zpracovaných formulářů
ICR, OMR a BCR. Umožňuje automatickou
ročně pouze po konzultaci.
indexaci, kategorizaci formulářů a validaci vytěžených dat. IRISPowerscan
IRISDocument Server
IRISPowerscan je software pro
Cena dle rychlosti skeneru v
dokumentační skenery, který nejen
počtu skenovaných stránek
rozpoznává dokumenty, ale také je
za minutu.
indexuje, validuje, kompresuje a ukládá.
11 000Kč / skener s rychlostí
Pro kompresi je použita vlastní technologie
25 ppm
společnosti I.R.I.S. iHQC™ (intelligent High
340 000Kč / skener s
Quality Compression).
rychlostí 160 ppm
Serverově založené řešení pro OCR
100 000Kč/ licence pro server
45
9
rozpoznávání dat s rychlostí zpracování až 60 tisíc dokumentů denně. Při použití více skenerů je vhodné na každý z nich nainstalovat IRISPowerscan, který dokumenty rozdělí na jednotlivé soubory a indexuje je a dále pak centrálně na serveru převádět do prohledatelných PDF souborů pomocí IRISDocument Server.
Tabulka 7- Software společnosti I.R.I.S. (Zdroj: autorka)
6.4 Shrnutí software od společností ABBYY, Nuance a I.R.I.S Všechny zde uvedené softwarové produkty pro rozpoznávání znaků pomocí OCR- OmniPage 17, Readiris Pro 12 a FineReader 10 mají vysokou přesnost rozpoznávání- přes 99 procent. Umožňují převod do editovatelných formátů MS Office a prohledatelných PDF souborů. Produkt OmniPage navíc dokáže převést skenovaný dokument do zvukového souboru nebo souboru pro elektronické čtečky knih Amazon Kindle. Cena software OmniPage 17 je nejvyšší. Readiris Pro a FineReader jsou cenově velice podobné. Pro vyzkoušení produktů lze stáhnout Trial verze. Tyto verze jsem nainstalovala a vyzkoušela. Všechny produkty mají dobré uživatelské rozhraní. Nejsnadněji se mně pracovalo s produktem ABBYY, ten je také v České republice nejrozšířenější. Všechny produkty také dokázaly dobře převést formátovaný text a zachovat tabulky. V kategorii software pro vytěžování dat nabízí společnost ABBYY produkt FlexiCapture s podporou dynamického OCR a rozpoznávacími technologiemi ICR, OMR a BCR. Společnost I.R.I.S. nabízí obdobný software, který se jmenuje IRISCapture for Forms. Ceny těchto produktů společnosti uvádí teprve po konzultaci celkového řešení. Účtují se dle počtu zpracovaných formulářů ročně. Obě společnosti také nabízí software založený na OCR jako serverové řešení- ABBY Recognition Server a IRIS Document Server.
6.5 Rozpoznávání znaků jako webová služba Trendem v oblasti software je poskytování aplikací formou webových služeb. V oblasti software pro rozpoznávání znaků jsou k dispozici webové služby:
ABBYY FineReader Online,
CAPSYS capture online,
WISE TREND OCR Cloud. 46
Služba od společnosti ABBYY byla spuštěna na začátku tohoto roku a jako jedinou ji lze využít pro rozpoznání českého textu. Webové rozhraní je zatím dostupné pouze v angličtině a ruštině. Po registraci na stránkách lze pomocí jednoduchého rozhraní, které ukazuji v příloze (Příloha 2), rozpoznat dokument on-line. Vstupním formátem mohou být naskenované obrazy dokumentů v různých formátech nebo PDF soubory a výstupními formáty jsou MS Office, PDF, PDF/A, RTF, TXT. Pro rozpoznání vícejazyčného dokumentu lze zvolit maximálně tři jazyky najednou. Po registraci dostane uživatel tři strany převodu zdarma a poté si lze dokoupit kredit pro určitý počet stránek.
20 stran za 3 USD,
50 stran za 5 USD,
100 stran za 7 USD,
200 stran za 10 USD.
Služba podporuje vícestránkové dokumenty a zachová jejich formátování a představuje kvalitní nástroj pro rozpoznání znaků bez nutnosti koupě celého software a jeho instalace. Je vhodná pro všechny, kteří potřebují provést rozpoznání dokumentů jen občas. Ve službě FineReader Online jsem vyzkoušela převést dvoustránkový PDF soubor v českém jazyce s formátováním a třemi obrázky. Výstupní soubor ve formátu DOC měl zachované formátování, čísla stránek i záhlaví a zápatí. Text byl převeden se 100 procentní přesností.
6.6 Opensource software pro rozpoznávání znaků Software pro rozpoznávání znaků lze používat i ve formě opensource. Jedná se většinou o multi-platformní OCR moduly bez grafického rozhraní nebo s velmi jednoduchou grafickou nadstavbou. Mezi nejznámější programy patří GOCR, Tesseract nebo CuneiForm. Tyto programy mají také podporu rozpoznání českých znaků. Ani jeden z těchto programů neumí dobře zachovat formátování a pouze převedou importovaný obraz naskenovaného dokumentu na prostý text. Kvalita rozpoznání textu je oproti komerčním produktům nízká. GOCR21 je opensource program pro rozpoznání strojového textu. Vstupním formátem mohou být soubory s příponou PNG, JPG, TIFF, GIF, BMP a další. Program vytvořil v Joerg Schulenburg a stále jsou vyvíjeny nové verze. Program dokáže dobře rozpoznat pouze obrazy dokumentů ve velmi dobré kvalitě a úspěšnost rozpoznání českých znaků je nízká.
21
Webové stránky software GOCR: http://jocr.sourceforge.net/
47
CuneiForm22 je modul pro rozpoznání znaků, ke kterému lze nainstalovat hezké grafické rozhraní YAGF. Jedná se o původně ruský komerční program, ke kterému byly uvolněny zdrojové kódy. Má podporu pro dvacet jazyků včetně češtiny. Stejně jako GOCR umožňuje převádět soubory z mnoha různých formátů. Program CuneiForm dokáže rozpoznat text i z méně kvalitního obrazu než GOCR a také má vyšší přesnost rozpoznání českého textu. Tesseract je známý OCR opensource software, která má od října roku 2010 podporu češtiny. Vstupní soubor může být pouze ve formátu TIFF. Tesseract byl vyvíjen od roku 1985 firmou HewlettPackard a v roce 2005 byl uvolněn jako opensource. Tesseract nemá grafické rozhraní, ale lze je doinstalovat. V současné době je Tesseract vyvíjen pod společností Google a na jeho jádru je postaven opensource OCR software OCRopus, který dokáže zachovat základní formátování stránky.
6.7 Shrnutí software pro rozpoznání znaků a vytěžení dat Software pro rozpoznání znaků lze zakoupit jako komerční produkty, používat opensource programy nebo využívat webové služby. Software pro vytěžování dat je pouze v komerční podobě. Pro kvalitní skenování velkých objemů dokumentů je nutné použít komerční software. Mezi nejpoužívanější OCR softwatre na českém trhu patří produkty společností ABBYY, Nuance a I.R.I.S. Jedná se o velmi kvalitní produkty s přesností rozpoznání českého textu nad 99 procent. Pro občasné potřeby rozpoznání textu lze využít webovou službu ABBYY FineReader Online, která má podporu češtiny. Opensource programy mají pouze základní funkčnost a jednoduché nebo žádné grafické rozhraní. Pro vytěžení dat jsou na českém trhu nejpoužívanější produkty ABBYY Flexi Capture, IRIS Capture Pro, Kofax Capture, ReadSoft for Forms , FileNet Capture od společnosti IBM a eFlowIntegra od společnosti TIS.
22
Webové stránky software CuneiForm: http://cognitiveforms.ru
48
7 Hardware pro optické snímání dokumentů Klíčovou komponentou k digitalizaci dokumentů je skener. Skener je vstupní zařízení, které se používá k digitalizaci fyzické obrazové předlohy. V současné době existuje mnoho druhů skenerů, které jsou určeny pro různé účely a nabízejí řadu speciálních funkcí. Softwarové funkce, které pomohou získat co nejlepší obraz skenovaného dokumentu, jsem již popisovala v kapitole 3.2. V této kapitole se zaměřuji na rozdělení skenerů a jejich využití. Uvádím také hardwarové parametry skenerů. Před koupí skeneru je třeba zvážit, kolik z nabízených funkcí je skutečně potřeba a kde lze naopak ušetřit. Největšími výrobci profesionálních skenerů jsou Canon, Kodak, Bowe Bell & Howell nebo Fujitsu.
7.1 Skenery pro digitalizaci dokumentů Mezi skenery, které se používají pro digitalizaci dokumentů, patří skenery ruční, stolní, různá multifunkční zařízení a dokumentační skenery. Knižní skenery pro dokumenty s pevnou vazbou a knihy se používají především v knihovnách, pro občasné použití ve firmě jsou příliš drahé. S různými druhy skenerů se můžeme také setkat podle toho, kde se dokumenty zpracovávají. Zda decentralizovaně v každém oddělení zvlášť nebo centralizovaně. Tomu by měla odpovídat kapacita skenovacího zařízení. Při centralizovaném zpracování se využijí dokumentační skenery, které dokážou simplexně23 zpracovat přes 150 dokumentů za minutu. Pro občasné skenování dokumentů na pracovním oddělení stačí MFP zařízení. Skener pro snímání dokumentů může být buď průtahový nebo plochý. Průtahový skener automaticky postupně protahuje list papíru a ten je čten čtecí hlavicí. Průtahové skenery bývají vybaveny automatickým podavačem, který listy papíru do skeneru vkládá sám. Plochý skener je třeba obsluhovat manuálně. Na skleněnou plochu skeneru se položí předloha a pod ní projíždí čtecí hlavice. Ploché skenery se tak hodí pro skenování netypických a různě tlustých předloh. Skenery dnes pracují na principu odrazu světla od skenované předlohy nebo na principu prosvícení předlohy. Světlo, které se odrazí nebo je prosvíceno dále snímá optická mechanika, která převádí optický signál na elektronický. Tato mechanika se skládá z barevných filtrů, čoček a čidel. U kvalitních plochých skenerů a průtahových se používají takzvaná CCD čidla, která se skládají z mnoha buněk citlivých na světlo. U levnějších skenerů se dnes často nahrazují CIS snímačem (Contact Image Sensor). Skenery vybavené CIS snímačem nedosahují tak dobré kvality skenování, ale díky použití LED diod mají velice nízkou spotřebu elektrické energie. CIS skenery lze také použít téměř ihned po zapnutí přístroje, zatímco CCD skenery se musí po zapnutí nejprve zahřát. Nejkvalitnějším typem 23
Simplexní skenování= skenování jen jedné strany dokumentu
49
snímače jsou takzvané PMT snímače (PhotoMultiplier Tube). Česky se nazývají fotonásobiče a používají se v bubnových skenerech.
7.2 Druhy skenerů V následujícím přehledu uvádím základní druhy skenerů a jejich stručný popis. V příloze (Příloha 3) této práce zde popisované druhy skenerů ukazuji na obrázcích a uvádím také orientační ceny vybraných modelů. Ruční skener- ruční skener se používá pro snímání malé plochy a existuje několik typů. Nejčastěji se s ručním skenerem lze setkat v podobě čtečky čárových kódů. V oblasti digitalizace se například používá v archivech pro čtení indexů nalepených na papírových dokumentech. Dalším typem ručního skeneru jsou přenosné ruční skenery. Ty jsou posouvány po skenované předloze a po připojení skeneru k počítači se výsledek skenování zobrazí na obrazovce. Kvalita skenování ovšem závisí na stabilitě ruky při skenování a proces skenování je pomalý. Z těchto důvodů se dnes ve větší míře nepoužívají. Jejich funkci také částečně nahradily chytré mobilní telefony (Smartphones), pomocí kterých lze dokument vyfotit a softwarová aplikace pak vylepší obraz dokumentu. Stolní skener- lze využít pro domácí skenování nebo v malých kancelářích a při skenování citlivých informací. Při použití stolního skeneru nese odpovědnost za kvalitu naskenovaného dokumentu jen jedna osoba, která naskenovaný dokument ihned ověří. Hodí se také pro uživatele s malými technickými znalostmi. Dokument není třeba nosit ke skenování jinému zaměstnanci a dávat mu instrukce při zpracovávání speciálních dokumentů nebo dokumentů s citlivými informacemi. Stolní skenery jsou buď plošné nebo průtahové. Průtahové s automatickým podavačem skenují simplexně rychlostí 10- 30 stránek za minutu. Multifunkční zařízení (MFP)- dohromady kombinují tiskárnu, kopírku a skener. Jednoduché stolní MFP lze dnes najít v mnoha domácnostech. Pokročilé a velké MFP umožní firmě provádět mnoho operací pomocí jednoho hardwarového zařízení. Takové zařízení dokáže ukládat naskenované obrazy do různých formátů, rozesílat naskenované obrazy firemním e-mailem a jednoduché indexování. MPF zařízení je schopné dostatečné podpořit základní správu dokumentů, ale nehodí se pro skenování dokumentů, se kterými je třeba dále pracovat a vyhledávat v nich, protože indexace dokumentu je jen základní. MFP také není vhodné pro zpracovávání velkých objemů dokumentů. Dokumentační skenery- jsou vysokorychlostní skenery, které skenují více než 60 stránek za minutu. Jsou vybaveny řadou speciálních funkcí pro dosažení optimálních výsledků. Jejich cena se obvykle pohybuje nad 50 000 Kč. Skenovací stanice pro podatelny- jsou stanice, které se skládají z vysokorychlostních dokumentačních skenerů a dalších zařízení pro potřeby podatelny. Kromě automatického podavače a 50
skeneru s mnoha funkcemi, obsahují také zařízení pro automatické otevírání obálek. Skenovací stanice značně zkrátí manuální práce na podatelně a zajistí elektronický oběh dokumentů již od jejich příchodu do organizace. Známým výrobcem těchto skenovacích stanic je společnost OPEX. Bubnové skenery- tyto skenery představují nejkvalitnější zařízení pro skenování. Předloha je osvětlována laserem a snímána fotonásobiči. Bubnové skenery jsou velké a spolehlivé. Vysoké kvalitě odpovídá cena. Nejlevnější bubnové skenery stojí téměř půl milionu korun. Využití tak nachází například v grafických studiích a pro skenování filmů. Snímaná předloha musí být tenká a ohebná. Knižní skenery- jsou speciálně upraveny pro snímání knih s vazbou. Využívají se zejména v knihovnictví a kladou nároky na nepoškození originálu a barevnou přesnost. Pro velké objemy skenovaných knih se používá skener s robotickým ramenem, které automaticky otáčí stránky.
Existují další typy skenerů specializovaných na určitý typ dokumentů. Skenery pro čtení adres na dopisech pro pošty, skenery pro zpracování šeků ve finančních institucích, dalším druhem jsou 3D skenery, které umějí vytvořit trojrozměrný obraz a používají se ve filmovém průmyslu, muzeích nebo strojírenství. OMR skenery se používají pro skenování testů a dotazníků pomocí technologie OMR popsané v kapitole 5.3. V rámci digitalizace výkresů se také často používají velkoplošné skenery. Na následujícím grafu (Graf 3) zobrazuji četnost použití jednotlivých druhů skenerů v organizacích, které digitalizují dokumenty. MFP zařízení jsou nejpoužívanější.
0%
10%
20%
30%
40%
50%
60%
70%
MFP Nízko nebo středněrychlostní dokumentační skenery Vysokorychlostní dokumentační skenery Stolní průtahové skenery Ploché stolní skenery Velkoformátové skenery Skenovací stanice pro podatelny
Graf 3- Četnost použití jednotlivých druhů skenerů (Zdroj: AIIM.2010)
51
7.3 Charakteristické vlastnosti skenerů V následující tabulce (Tabulka 8) uvádím charakteristické hardwarové vlastnosti skenerů.
Vlastnost skeneru
Popis
Rozlišení skenování
Rozlišení skeneru vypovídá o kvalitě nasnímaného obrazu. Ten je tím lepší, čím větší je rozlišení, ale zároveň s rozlišením roste i velikost naskenovaného obrazu. Běžně se lze setkat s rozlišením od 1200 dpi výše. Toto rozlišení je možné u lepších skenerů manuálně upravit. Bubnové skenery dosahují rozlišení i přes 10 000dpi.
Velikost skenovaných
Běžné stolní skenery jsou upraveny pro maximální velikost A4. Existují ale
dokumentů
také skenery určené pro určitou velikost snímaných dokumentů, např. skener šeků. Skener má vždy udanou největší a nejmenší velikost, jakou je možné snímat. Největší formáty do A0 lze skenovat na velkoplošných skenerech. Velikost předlohy skener buď rozezná automaticky (tzv. funkce AutoCrop) nebo je nutné ji před skenováním nastavit.
Barevná hloubka
Udává, kolik bitů je použito pro popis barvy jednoho bodu. Běžně se používá 24 bitů, u lepších skenerů 48 bitů. Čím je barevná hloubka skeneru větší, tím je naskenovaný obraz lepší, tedy podobnější předloze.
Připojení skeneru
Dnes se používá hlavně USB 2 rozhraní nebo Firewire. U starších skenerů se můžeme setkat paralelním portem nebo SCSI rozhraním.
Rychlost skenování
Udává, kolik stránek lze naskenovat za jednu minutu,tzv. ppm (Pages Per
(ppm)
Minute). Levnější skenery s automatickým podavačem skenují rychlostí okolo 20 stránek za minutu, naopak ty nejdražší dokumentační skenery i více než 150 stran za minutu. Rychlost je ovlivněna barevností skenování a velikostí předlohy. Rychlejší je skenování černobílé než barevné. Poměr rychlostí je u středně výkonného skeneru například: 55ppm černobíle 40ppm ve stupních šedi 27ppm barevně
Objem skenování
Pokud je třeba skenovat velké množství dokumentů, pak je důležitá informace, kolik dokumentů za den může skener maximálně zpracovat. Dražší skenery mohou při rychlosti 150 stran za minutu za den načíst přes 50 000 dokumentů.
Oboustranné skenování
Některé skenery snímají oboustranně (duplexně), čímž se zvyšuje rychlost 52
skenování. Tato rychlost je přibližně dvojnásobná. U středně výkonného skeneru, který za minutu naskenuje simplexně 55 stránek, je duplexní rychlost 110 obrazů za minutu. Automatický podavač
Automatický podavač nahrazuje ruční vkládání dokumentů do skeneru. Pojme najednou až 1- 1000 dokumentů. Podavače mohou provádět kontrolu, zda nebyl nějaký dokument přeskočen (tzv. Multi-feed).
Imprinting
Natištění čárového kódu na nasnímaný dokument a zajištění spárování s elektronickou podobou. (viz kapitola 5.4)
Tabulka 8- Charakteristické vlastnosti skenerů (Zdroj: autorka)
9.4 Shrnutí hardwarových prostředků pro optické snímání dokumentů Klíčovou hardwarovou komponentou pro digitalizaci dokumentů je skener. Při výběru vhodného skeneru je třeba zvážit mnoho faktorů. Je důležité především definovat, jaký účel bude skener plnit a kde se bude používat. Pokud je třeba naskenované dokumenty rozpoznávat a vytěžovat z nich data, je nutné dbát na kvalitu skenovaného obrazu a pořídit dokumentační skener s VRS funkcemi. Pro digitalizaci rozsáhlého listinného archivu je důležitá rychlost skeneru a maximální počet naskenovaných obrazů za den. Rychlost skenování je také klíčová při zpracování velkého množství dotazníkových formulářů nebo testů, kdy záleží na rychlém získání dat. Na každé firemní oddělení je vhodné umístit multifunkční zařízení, které využijí zaměstnanci nejen pro skenování svých dokumentů. Velice nákladné bubnové skenery se využijí jen ve specializovaných pracovištích, ale pro digitalizaci běžného firemního obsahu nejsou zapotřebí. Ploché skenery naopak naleznou využití v každé firmě.
53
8 Digitalizace dokumentů v rámci legislativy Na vztah mezi legislativou a digitalizací dokumentů lze pohlížet ze dvou hledisek: 1. dodržování legislativy při digitalizaci dokumentů, 2. zavádění digitalizace dokumentů, aby bylo možné vyhovět legislativním požadavkům. Dodržování legislativy při digitalizaci dokumentů zajistí, aby digitalizovaný dokument měl stejné právní účinky, jako papírový originál. Zákon také definuje jak nakládat s příchozími a odchozími dokumenty v organizaci a jak vést archiv ať už v papírové nebo elektronické podobě. Zároveň se v současné době celosvětově zpřísňují zákony, které stanovují vysoké požadavky na správu některých typů dokumentů a jejich přesnost. Aby bylo možné těmto nárokům vyhovět, organizace zavádí digitalizaci dokumentů a Records Management. Mezi zákony a směrnice, které kladou nejpřísnější požadavky na řízení dokumentů, patří například:
Sarbanes-Oxley Act- americký zákon z roku 2002, který upravuje transparentnost účetnictví a přesnost finančních výkazů.
Insurance Portability and Accountability Act (HIPPA) - americký zákon z roku 1996. Představuje soubor požadavků pro organizace, které spravují zdravotnickou dokumentaci, jako například pojišťovny nebo ordinace.
Basel II a Solvency II- jsou soubory pravidel pro posílení bezpečnosti a stability finančních institucí, bank a pojišťoven. Tato pravidla byla implementována ve směrnicích Evropské unie a přináší povinnost zachycovat a řídit velké množství informací.
Celosvětově je v legislativě trendem snaha o zrovnoprávnění elektronických dokumentů s papírovými. Této rovnoprávnosti je dosahováno prostředky pro zajištění důvěryhodnostielektronickým podpisem (značkou) a časovým razítkem. V této kapitole uvádím digitalizaci dokumentů v rámci českého právního řádu, popisuji elektronický podpis, časová razítka a spisovou službu. Krátce také představuji projekt Datových schránek, který mnohé organizace k řešení digitalizace dokumentů přinutil a uvádím, kdy je potřeba využít autorizované konverze.
8.1 Legislativa v České republice dle tematických oblastí V České republice je ukotveno mnoho zákonů, vyhlášek a vládních usnesení, které upravují oblast digitalizace, elektronické komunikace a využívání informačních technologií. Zde uvádím zákony související s tematickými oblastmi archivnictví, spisové služby, elektronického podpisu a datových schránek. 54
Pro oblast elektronického podpisu je důležitý zákon č. 440/2004 Sb., o elektronickém podpisu, který je novelou zákona o elektronickém podpisu 227/2000 Sb. Původní zákon z roku 2000 umožňoval použít elektronický podpis místo vlastnoručního. Novela z roku 2004 pak navíc definuje potřebu časového razítka, které je důkazem existence elektronického dokumentu v určitém čase. V těchto zákonech je také vymezen pojem elektronický podpis a stanoven rozdíl mezi elektronickým podpisem a zaručeným elektronickým podpisem. Z nařízení vlády č. 495/2004 Sb., kterým se provádí zákon o elektronickém podpisu 227/2000 Sb., vyplývá povinnost zřídit elektronické podatelny pro orgány státní moci. S tím také souvisí nutnost, aby všichni zaměstnanci těchto orgánů elektronický podpis vlastnili. Důvěryhodnost elektronického podpisu zajišťují certifikační autority, pro které je důležitá vyhláška č. 378/2006 Sb., o postupech kvalifikovaných poskytovatelů certifikačních služeb. Oblast spisové služby a archivnictví upravuje především zákon č. 499/2004 Sb., o archivnictví a spisové službě a vyhláška č. 646/2004 Sb., o podrobnostech výkonu spisové služby. Zákon 499/2004 Sb. uvádí požadavky na vedení spisové služby a archivů, kterými se musí řídit každá organizace s více než 25 -ti zaměstnanci. Vyhláška 646/2004 Sb. je pak především návodem, jak prakticky zavést spisovou službu a to ať již v elektronické nebo papírové podatelně. Pouze elektronických podatelen se týká vyhláška č. 496/2004 Sb., o elektronických podatelnách. Zákon 499/2004 Sb. také upravuje převod papírových dokumentů na digitální, což je velice častý úkon na podatelnách. Pro zajištění právní platnosti je třeba převedený dokument na podatelně opatřit certifikátem a časovým razítkem. Pokud je třeba převést do digitální podoby papírový dokument, který je již opatřen razítkem a podpisem, nebo naopak digitální dokument s časovým razítkem a zaručeným elektronickým podpisem převést do listinné podoby, je nutné provést autorizovanou konverzi. Tuto konverzi řeší zákon č. 300/2008 Sb., o elektronických úkonech a autorizované konverzi dokumentů a vyhláška 193/2009 Sb. o stanovení podrobností provádění autorizované konverze dokumentů. Tato vyhláška pak upravuje technické náležitosti provádění konverze. Zákon č. 300/2008 Sb. také zavedl datové schránky. Stanovuje povinnost jejich zřízení pro všechny orgány veřejné moci a právnické osoby. Fyzické osoby si mohou zřizovat datové schránky dobrovolně. Provozní záležitosti jako způsob přihlašování k datové schránce, podoba přihlašovacích údajů nebo doba uchování zpráv v datové schránce uvádí vyhláška č. 194/2009 Sb., o stanovení podrobností užívání a provozování informačního systému datových schránek. Tato vyhláška byla v prosinci 2010 pozměněna vyhláškou č. 422/2010 Sb., která rozšiřuje přípustné datové formáty pro dodání do datové schránky.
55
8.2 Prostředky zajišťující důvěryhodnost elektronického dokumentu Elektronický podpis, značka, časové razítko a kvalifikované nebo komerční certifikáty jsou prostředky, které umožňují zajistit důvěryhodnost elektronického dokument. Jsou elektronickou obdobou razítka, data a podpisu na dokumentu v papírové podobě. V současné době je úroveň spolehlivosti elektronických dokumentů opatřených prostředky pro zajištění důvěryhodnosti dokonce několikrát vyšší než papírových dokumentů. Tyto prostředky umožní digitalizaci dokumentů bez ztráty jejich právních účinků. Pod pojmem důvěryhodný elektronický dokument se rozumí dokument, u kterého lze prokázat, že:
se dokument od doby podpisu nezměnil (integrita dokumentu),
dokument existoval v uvedeném datu a čase podpisu,
dokument opravdu podepsala podepsaná osoba.
Problematika elektronického podpisu je široká a pro potřeby této práce uvádím pouze základní popis. Velice dobrou literaturou pro hlubší porozumění je kniha Báječný svět elektronického podpisu od autora Jiřího Peterky.24
8.2.1 Elektronický podpis a značka Elektronický podpis jsou data připojená k dokumentu, která představují metodu jednoznačného ověření identity podepsané osoby a ověření integrity dokumentu. Po otevření podepsaného dokumentu v počítači, program zjistí, zda dokument nebyl od doby elektronického podepsání změněn. Kromě integrity dokumentu elektronický podpis nese údaje o osobě, která jej podepsala. Aby bylo možné této informaci důvěřovat, je potřeba ověřit certifikát podpisu. Podle toho, kdo certifikát vystavil a komu, lze posoudit, nakolik je elektronický podpis důvěryhodný. V závislosti na certifikátu lze dělit elektronický podpis na tři úrovně: 1. Elektronický podpis- není založený na certifikátu, pokud je připojen k dokumentu, neznamená to v podstatě vůbec nic. 2. Zaručený elektronický podpis- je založen na komerčním certifikátu (VCA), který byl vystaven komerční
certifikační
autoritou.
V praxi
se
zaručený
elektronický
podpis
rovná
vlastnoručnímu podpisu, a pokud jej nějaká osoba použila pro podpis dokumentu, nelze již popřít, že se skutečně jedná o danou osobu. 3. Uznávaný elektronický podpis- vyznačuje se nejvyšší důvěryhodností. Je založen na kvalifikovaném certifikátu (QCA), vystaveném kvalifikovanou certifikační autoritou, která se 24
Kniha je zatím v autorské verzi, vydána bude v květnu tohoto roku. Knihu lze zdarma stáhnout na odkazu: http://www.bajecnysvet.cz/
56
řídí zákonem č. 378/2006 Sb. uvedeném výše. Uznávaný elektronický podpis se rovná se notářsky ověřenému vlastnoručnímu podpisu.
Elektronický podpis je vždy vázán na konkrétní osobu a je založen na osobním certifikátu. Jeho využití je tedy určeno fyzickým osobám. Právnické osoby a orgány veřejné moci25 „podepisují“ elektronickou značkou. Dokumenty označené elektronickou značkou může vytvářet automaticky systém a jsou založené na systémovém certifikátu. V současné době existují v České republice tři kvalifikované certifikační autority, které se zaručí za identitu subjektu a vystaví certifikát- Česká pošta, I.CA a eIdentity. Certifikáty se vystavují vždy na jeden rok a pak je potřeba certifikát prodloužit. V následující tabulce (Tabulka 9) uvádím přehled cen certifikátů (ceny s DPH).
Certifikační
QCA osobní/ 1
VCA osobní/ 1
QCA systémový/ 1
VCA systémový pro
autorita
rok
rok
rok
server/ 1 rok
Česká pošta
396 Kč
348 Kč
1788 Kč
800 Kč
I.CA
495 Kč
395 Kč
1170 Kč
1170 Kč
eIdentity
474 Kč
354 Kč
3480 Kč
1074 Kč
Tabulka 9- Cenové srovnání certifikátů (Zdroj: autorka)
8.2.2 Časové razítko Elektronický podpis obsahuje údaje o čase podpisu, které získává se systémového času počítače a ten lze snadno změnit. Tento údaj tedy není důvěryhodný, a proto se používají časová razítka. Časová razítka, anglicky Time-Stamp (TSA) se opět dělí podle úrovně důvěryhodnosti na časová razítka a kvalifikovaná časová razítka. Časová razítka využívají jednotlivě osoby podepisující elektronickým podpisem a také systémy, které automaticky „značkují“ elektronickou značkou. Časové razítko vydané kvalifikovanou certifikační autoritou zajistí:
Určení existence elektronického dokladu v čase podpisu,
Možnost ověření elektronického podpisu po jeho expiraci,
Zamezení nastavení dřívějšího data dokumentu při podpisu (tzv. antedatování).
25
Orgány veřejné moci dle zákona jsou: státní orgány, orgány územně samosprávných celků, Pozemkový fond České republiky a jiné státní fondy, zdravotní pojišťovny, Český rozhlas, Česká televize, samosprávné komory zřízené zákonem, notáři a soudní exekutoři.
57
8.3 Autorizovaná konverze Autorizovaná konverze vznikla v návaznosti na datové schránky, pro potřeby rozesílání úředně ověřených dokumentů. Používá se v situacích, kdy je třeba digitalizovat dokument, který již má právní platnost a je zamýšleno s tímto dokumentem dále pracovat, například jej hromadně rozeslat prostřednictvím datových schránek. Opačná situace nastane v případě, kdy existuje elektronický dokument s právními účinky a je nutné jej pro další zpracování převést do listinné podoby. Pro řešení těchto situací vznikla autorizovaná konverze. Ta je definovaná ve výše uvedeném zákoně č. 300/2008 Sb., a prováděna vyhláškou 193/2009 Sb. Konverze je prováděna buď na žádost, nebo z moci úřední. Konverzí na žádost se rozumí, že kdokoli může přijít na kontaktní místo veřejné správy (CzechPoint) a nechat si zkonvertovat dokument za poplatek 30Kč za stánku. Konverzi také mohou provádět advokáti. Konverze z moci úřední znamená, že ji mohou provádět orgány veřejné moci pro svou interní potřebu. Firmy tedy nemohou samovolně konvertovat dokumenty s právní platností a při procesu digitalizace je potřeba tyto dokument vyčlenit a zpracovat samostatně.
8.4 Datové schránky V České republice je od listopadu roku 2009 spuštěn Informační systém datových schránek (ISDS). Datová schránka představuje elektronické úložiště, kam jsou doručovány datové zprávy. Prostřednictvím datových schránek lze elektronicky komunikovat s orgány veřejné moci místo posílání doporučených listinných zásilek. Od 1. ledna 2010 je možné datové schránky použít k soukromé komunikaci mezi ostatními subjekty, tedy fyzickými a právnickými osobami navzájem. V tomto případě se používá pojem Poštovní datová zpráva. Zatímco komunikace prostřednictvím ISDS s orgány veřejné moci zatím není zpoplatněna, za odeslání poštovní datové zprávy se platí 18Kč (včetně DPH) a dále se účtuje měsíční paušál za využívání služby v rozmezí 20-50Kč v závislosti na 26
počtu odeslaných zpráv . Vzhledem k tomu, že komunikace s orgány veřejné moci je díky datovým schránkám mnohem jednodušší a navíc lze komunikovat zadarmo, zažívají mnohé organizace enormní nárůst doručených zpráv. Na většinu těchto zpráv je potřeba do 30-ti dnů odpovědět, což představuje velkou zátěž pro celou organizaci. Z tohoto důvodu je na místě maximální automatizace celého procesu. Vhodné je užití technologií pro rozpoznání znaků pro identifikaci klíčových slov v datových zprávách a realizace automatického rozesílání datových zpráv podle jejich obsahu e-mailem na příslušná oddělení ke zpracování.
26
V tomto roce by měla Poštovní datová zpráva zlevnit na 16Kč.
58
8.5 Spisová služba Elektronickou poštu, datové zprávy a listinné zásilky přijímají organizace skrze podatelnu (epodatelnu). Po jejich zpracování jsou uloženy ve spisovně (datovém úložišti) po dobu skartační lhůty a pak jsou archivovány nebo skartovány. Zákon 499/2004 Sb. definuje spisovou službu jako „zajištění odborné správy dokumentů došlých do organizace a vzešlých z její činnosti, zahrnující jejich řádný příjem, evidenci, rozdělování, oběh, vyřizování, vyhotovování, podepisování, odesílání, ukládání a vyřazování ve skartačním řízení, a to včetně kontroly těchto činností.“ Mezi přijaté dokumenty patří i zvukové či obrazové záznamy, tedy celý firemní obsah, který ve firmě vznikl, přišel do ní nebo z ní odchází. Vést spisovou službu je ze zákona povinna každá organizace s více než 25-ti zaměstnanci a také musí mít vypracovaný spisový a skartační řád a plán.
Ve spisovém řádu a plánu je uvedeno, jakých dokumentů se týká proces spisové služby a jak s nimi zacházet.
Ve skartačním řádu a plánu se uvádí jak postupovat při skartaci dokumentů, kdo ji může provádět a schvalovat a stanovuje lhůty pro archivaci jednotlivých dokumentů.
Příjem a odesílání dokumentů probíhá přes podatelnu. Na podatelně jsou došlé a odcházející dokumenty zaznamenávány do podacího deníku. Každý dokument je označen jednoznačným identifikátorem, v případě následné digitalizace dokumentu je vhodné použít čárový kód. Pokud některé dokument spolu souvisí, jsou vloženy do společného spisu opatřeného spisovým číslem. Podací deník je buď kniha svázaných tiskopisů, nebo může být v elektronické podobě. Při odesílání dokumentů se postupuje tak, že se zaevidují předepsané atributy a je přidán rozdělovník, což je seznam osob, kterým má být dokument doručen. E-podatelna umožňuje příjem datových zpráv a elektronických dokumentů opatřených elektronickým podpisem. Jejich zpracování zahrnuje navíc kontrolu antivirovým programem a dále kontrolu formátu elektronického dokumentu, ověření elektronického podpisu nebo značky, případně časového razítka. E-podatelna, pokud je v organizaci zřízena, bývá součástí běžné podatelny. Obálky s listinnými dokumenty přijatými přes podatelnu je potřeba otevřít a roztřídit podle jejich obsahu do jednotlivých kategorií a vyčlenit dokumenty, které budou digitalizovány a které zůstanou v listinné podobě. Tato činnost je manuálně velmi náročná. Automatizovat ji lze pomocí skenerů pro podatelny (mailroom scanner), které sami zajistí rozevření obálek a po naskenování i určení kategorie dokumentu. Automatizovaná podatelna se označuje anglickým výrazem Digital mailroom. Digitalizace dokumentů přímo na jejich vstupu do organizace zajistí, že celé následné zpracování dokumentu může probíhat v elektronické podobě, zkrátí dobu vyřízení dokumentu,
59
ochrání originální dokument, se kterým není potřeba manipulovat a zajistí přístup k naskenovanému dokumentu všem v organizaci. Digitalizaci dokumentů na podatelně provozuje zatím jen 9 procent společností, které digitalizují dokumenty. (PRNewswire.2011) Zajištění podatelny je činností, kterou lze snadno outsourcovat. Služby outsorcingu podatelny nabízí v České republice například firmy Xerox, YDS nebo Océ.
8.6 Shrnutí digitalizace dokumentů v rámci legislativy Legislativní změny učiněné v posledních deseti letech v České republice umožňují digitalizovat dokumenty a zachovat přitom jejich právní účinky. K tomu se využívá elektronického podpisu a časového razítka. Zákon také definuje, kdy je dokumenty potřeba digitalizovat autorizovaně, pomocí autorizované konverze a jak má probíhat příjem a odesílání dokumentů z/do organizace. Proces zde popisované spisové služby, podatelny, příjímání datových zpráv a autorizované konverze shrnuji na následujícím obrázku (Obrázek 10). Zeleně zobrazuji elektronické procesy, modře pak klasické manuální.
Obrázek 10- Schéma přijetí dokumentu skrze podatelne a e-podatelnu (Zdroj: autorka)
60
9 Trendy v oblasti digitalizace Digitalizace dokumentů je oblastí, kde dochází k rychlému vývoji technologií. Zlepšuje se přesnost rozpoznávání, kvalita vytěžených dat, přidává se mnoho funkcí, které nahrazují manuální práci. Také se vylepšuje analýza rozložení stránky a zachování formátování stránky. S rozšiřováním digitalizace do všech zemí světa roste podpora rozpoznání různých jazyků. Zdokonalují se také skenery, jejich rychlost zpracování a funkce automatických podavačů. Mezi hlavní trendy v rámci digitalizace dokumentů patří: Využívání automatických redakčních systémů, pokud jsou skenovány formuláře s citlivými osobními údaji a tyto formuláře jsou dále zpracovávány. Tedy jako například rodná čísla, stav bankovního účtu nebo údaje o zdravotním stavu. Uchovávání takových údajů vyžaduje speciální postupy, a pokud je organizace uchovávat nepotřebuje, je vhodné je z naskenovaných obrazů odstranit. Pomocí regulárních výrazů nebo jiných metod jsou definovány údaje, které jsou citlivé a ty automatický redakční systém vymaže. Organizace tak může spolehlivě ochránit své zákazníky, dodavatele nebo obchodní partery před únikem citlivých informací. Funkcí redakčního systému je vybaven například software ABBYY FlexiCapture 9.0. Dalším trendem je použití čárových kódů pro kódování obsahu elektronicky vyplněných polí ve formuláři. Po vytištění formuláře a jeho skenování stačí načíst čárový kód a veškeré údaje, které byly vyplněny na počítači, jsou rychle a bezchybně rozpoznány. Využití čárového kódu je ideálním řešením pro elektronické formuláře, které musí být vytištěny kvůli potřebě vlastnoručnímu podpisu. Rozšiřuje se možnost rozpoznávání dokumentů, které byly vyfoceny digitálním fotoaparátem nebo mobilním telefonem. Tyto obrazy dokumentů jsou nekvalitní a je potřeba je vylepšit. Pro vylepšení obrazu jsou používány speciální funkce, protože vyfotografovaný dokument obsahuje jiné kvalitativní chyby než naskenovaný dokument. Ty jsou způsobeny nekvalitními objektivy mobilních telefonů, nízkým rozlišením, různou vzdáleností objektivu od fotografovaného dokumentu a nerovnoměrným osvětlením dokumentu. Zvyšuje se podpora pro jazyky, které nejsou psány latinkou, tedy různé asijské jazyky, arabské, hebrejština, hindština a další. Rozpoznání těchto druhů písem je od latinky značně odlišné navíc směr písma může být zprava doleva. Je možný vzdálený přístup k funkcím rozpoznání dokumentů a vytěžení dat přes webové rozhraní. To buď předplacenou službou externím poskytovatelem (ABBYY FineReader Online) nebo formou přístupu k rozpoznávacímu serveru (Recognition Server) v organizaci z různých vzdálených pracovišť. Dalšími trendy jsou:
používání dynamického OCR pro vytěžování dat z formulářů, 61
zdokonalování skenovacích funkcí MFP zařízení,
přibližování procesu skenování blíže k podatelně, zřizování automatizované podatelny a zamezení oběhu papírových dokumentů po organizaci,
export vytěžených dat i naskenovaného obrazu do několika úložišť zároveň,
zpracování a porozumění nestrukturovaným dokumentům.
62
10 Oblasti nasazení a přínosy digitalizace dokumentů Oblastí, kde se lze setkat s digitalizací dokumentů, je díky výhodám, které z ní plynou, stále více. Digitalizace není doménou jen velkých podniků, ale i menším firem, které ji mohou zajišťovat různými formami outsourcingu. Počet papírových dokumentů, které do organizace denně přichází, závisí například na:
velikosti a struktuře organizace,
struktuře zákazníků- čím více menších zákazníků, tím více dokumentů,
počtu dodavatelů a partnerů,
oboru činnosti organizace,
míře využití elektronické komunikace se zákazníky, dodavateli a partnery.
Typickými oblastmi, kde jsou denně velké přírůstky dokumentů nebo je potřeba digitalizovat archivní dokumenty jsou: Finanční společnosti, banky, pojišťovny- jejich zákazníky často představují jednotlivci, se kterými tyto společnosti denně podepisují nové smlouvy v papírové podobě nebo vyřizují škodné události. Tyto informace je potřeba sdílet mezi jednotlivými pobočkami i s centrálou. Díky směrnicím Basel II a Solvency II jsou evropské společnosti nuceny shromažďovat a spravovat velké množství informací. Společnosti poskytující různé utility a telekomunikační společnosti- jejich odběrateli jsou kromě firem také domácnosti a jednotlivci, což představuje velkou administrativní zátěž. Zákazníci potřebují vyřizovat různé změny v odběru svých služeb nebo reklamace na různých pobočkách a je nutné zajistit dostupnost údajů o zákaznících. Tyto společnosti se v současnosti snaží přejít na způsob elektronického vyúčtování a možnost zákazníků samostatně měnit odebírané služby přes webové stránky. Zejména pro starší občany je však nutné vyřizovat veškerou komunikaci nadále v papírové podobě. Veřejná správa- Různé subjekty veřejné správy denně přes podatelny dostávají od občanů mnoho formulářů ke zpracování a digitalizace těchto dokumentů značně snižuje administrativní zátěž. Vzhledem k povinnosti elektronické komunikace skrze datové schránky musí subjekty veřejné správy řešit digitalizaci mnohých dokumentů. Díky následné elektronické komunikaci se urychluje řada procesů. Školství- digitalizace se využívá především pro vyhodnocování testů vyplňovaných na OMR formuláře. Tyto testy lze díky digitalizaci rychle a bezchybně opravit. S testy v podobě OMR formulářů se lze setkat na vysokých školách například pro přijímací zkoušky.
63
Zdravotnictví- zpracování dokumentace pacientů, výsledků jejich vyšetření včetně rentgenových snímků. Digitalizace v této oblasti je významná především v USA, kde jsou zdravotnická zařízení povinna dodržovat zákon HIPPA, který stanovuje vysoké požadavky na správu dat o pacientech. Organizace provádějící výzkumy veřejného mínění a statistické úřady- v této oblasti ulehčí digitalizace zpracování formulářů pomocí vytěžení dat. Často se lze setkat s Colour Dropout formuláři, které byly použity například při sčítání lidu v tomto roce 2011. Knihovnictví- je velkou oblastí, kde se využívá digitalizace. Veřejnosti mohou být díky digitalizaci přístupné i vzácné staré knihy. Také lze digitalizovat starší knihy, které pak jsou dostupné ve formě e-book pro elektronické čtečky knih. Velkým počinem v oblasti knihovnictví je projekt Guttenberg. V současné době bylo v rámci tohoto projektu naskenováno 33 tisíc knih, kterým již vypršela autorská práva. Všechny knihy jsou volně dostupné veřejnosti prostřednictvím internetu. Historické archivy- v historických archivech se nachází mnoho cenných dokumentů, které je díky jejich digitalizaci možné zachovat pro budoucí generace a zároveň je zpřístupnit veřejnosti. Po digitalizaci dokumentů lze naskenované obrazy vylepšit pomocí technologií typu VRS a zvýšit jejich čitelnost. Kromě tištěných dokumentů je řada dokumentů ručně psaných historickým písmem. Rozpoznání znaků takových dokumentů je velmi náročné. V České republice probíhá digitalizace dokumentů například v Ústavu pro studium totalitních režimů.
10.1 Přínosy zavedení digitalizace dokumentů Zavedení digitalizace dokumentů znamená pro organizaci řadu výhod. Přínosy se liší podle účelu digitalizace dokumentů v organizaci. Mezi hlavní výhody patří ušetření času na vyhledávání dokumentů27, zajištění snadného přístupu k dokumentu, jeho sdílení napříč organizací a ochrana originálního dokumentu. Digitalizace dokumentů v kombinaci s DMS systémem také přináší přehlednou správu dokumentů, tedy umožní dodržení legislativních požadavků a snadnou dohledatelnost dokumentů v případě soudních sporů. Dále pak pokud je digitalizace dokumentů prováděna za účelem:
automatizace workflow- přináší urychlení a vyšší efektivitu zpracování dokumentu, kontrolu nad oběhem dokumentů, zabezpečení přístupu k dokumentu, snížení administrativních nákladů, snížení potřeby kopií dokumentu, automatické třídění došlých dokumentů a ochranu dokumentu před jeho ztrátou,
27
„Společnost IDC uvádí, že pracovníci při práci s dokumenty stráví přibližně 20 procent času hledáním informací v nich obsažených a 50 procent času neúspěšným hledáním dokumentů vůbec.“(Weigner.2008)
64
vytěžení dat- snížení chybovosti oproti manuálnímu přepisování dat, ušetření manuální práce a personálu, rychlý přenos dat do podnikového informačního systému, urychlení začátku následných procesů a zvýšení rychlosti zákaznického servisu,
digitalizace archivu- přehledný archiv, bezpečný a rychlý přístup k archivovaným dokumentům, práce s historicky cennými dokumenty bez hrozby jejich poškození, možnost vylepšení vzhledu obrazu dokumentu, pokud byl originál poškozený, ušetření prostoru.
Další ekonomické přínosy digitalizace dokumentů uvádím v kapitole 12.2. Na následujícím grafu (Graf 4) zobrazuji výsledek studie společnosti Océ z roku 2008, která zjišťovala, jak velké přínosy mělo zavedení digitalizace dokumentů oslovených společností na jejich business cíle. Z grafu je vidět významný pozitivní dopad zavedení digitalizace dokumentů na všechny business cíle, nejvíce na snížení nákladů. 0%
10%
20%
30%
40%
50%
60%
Zlepšení služeb zákazníkům Zvýšení provozní výkonnosti Zvýšení konkurenčních výhod Zvýšení souladu s legislativou Snížení nákladů
Graf 4- Přínosy zavedení digitalizace dokumentů pro business cíle organizace (Zdroj: Océ.2008)
65
11 Přístup k řešení digitalizace dokumentů Existuje mnoho způsobů řešení digitalizace dokumentů. Každá organizace, která zvažuje zavedení digitalizace dokumentů, by měla zvážit klady a zápory každého způsobu řešení. Toto řešení může být pro každou fázi digitalizace- příprava dokumentů, skenování, vytěžování dat, validace, indexace a uložení, jiné. Organizace by měla nejprve definovat:
maximální výši finančních prostředků na zavedení digitalizace,
jak vysokou požaduje kvalitu skenovaných obrazů a indexování,
jaký je druh digitalizovaných dokumentů (faktury, objednávky, smlouvy, …) a jaké jsou jejich denní přírůstky, případně jejich stávající počet v archivu,
jak kvalifikované má zaměstnance pro zajištění digitalizace,
jaká je současný stav zpracování dokumentů,
technologická a organizační analýza,
jaké jsou cíle digitalizace a jak budou měřeny (metriky),
projektový tým, časový harmonogram a zajištění podpory vedení organizace.
Při hledání vhodného řešení je dále potřeba zodpovědět otázky: co bude předmětem digitalizace, kde bude digitalizace probíhat a kdo ji zajistí. Nalezení možných odpovědí na otázky je cílem této kapitoly.
11.1 Co bude předmětem digitalizace? V rámci této otázky je potřeba stanovit, kterých dokumentů se bude proces digitalizace týkat. Zda se budou digitalizovat:
jen nově příchozí dokumenty do organizace,
i staré dokumenty v archivu,
jen některé důležité staré dokumenty, které se stále používají,
jen listinný archiv (jednorázová digitalizace listinného archivu).
Dále je třeba stanovit, zda bude probíhat vytěžování dat z dokumentů, případně ze kterých dokumentů budou data vytěžována a zda jsou tyto dokumenty strukturované nebo polostrukturované. Také kvalita indexace může být pro některé dokumenty klíčová a pro některé méně důležitá. Pro fázi uložení lze dále definovat, zda obrazy dokumentů, ze kterých byla vytěžena data, budou také ukládány.
66
11.2 Kde bude digitalizace probíhat? Dokumenty mohou být zpracovávány buď centralizovaně, nebo decentralizovaně. Místo zpracování může být pro jednotlivé fáze digitalizace jiné a závisí na velikosti organizace a její struktury, rozmístění poboček a divizí. Centarlizované zpracování znamená, že daná fáze digitalizace, se uskutečňuje pro všechny dokumenty na jednom místě. Tedy například centralizované skenování znamená, že všechny dokumenty ze všech firemních oddělení nebo poboček se naskenují v jednom specializovaném pracovišti. Decentarlizované zpracování probíhá odděleně, na místě kde dokumenty vznikly. Tedy každý zaměstnanec, oddělení nebo pobočka skenují dokumenty sami na MFP zařízeních nebo nízkorychlostních dokumentačních skenerech. Míra centralizace a decentralizace může mít různé úrovně. Výhody a nevýhody obou druhů zpracování uvádím v následující tabulce (Tabulka 10).
Centralizované zpracování výhody
Centralizované zpracování nevýhody
Menší náklady na hardwarové i softwarové
Horší indexace dokumentů, protože ji provádí
vybavení.
zaměstnanci, kteří dokumenty neznají.
Díky použití vysokorychlostních dokumentačních
Delší doba než je zahájeno zpracování
skenerů a výkonných softwarových aplikací se
dokumentu a než vytěžená data vstoupí do
snižuje čas na zpracování jednoho dokumentu.
podnikových aplikací. (I několik dnů)
Standardizované procesy a jejich lepší kontrola.
Náklady na přepravu dokumentů.
Lepší úroveň skenování, protože digitalizaci
Dokumenty se mohou během přepravy poškodit
provádí vyškolený zaměstnanec.
nebo ztratit.
Decentralizované zpracování výhody
Decentralizované zpracování nevýhody
Kvalitnější indexace dokumentů, protože ji
Digitalizaci provádí zaměstnanci na úkor
provádí zaměstnanci, kteří s dokumenty pracují.
ostatních pracovních povinností.
Dokumenty a vytěžená data vstupují ihned do
Horší standardizace postupů při digitalizaci.
podnikových aplikací a k dalšímu zpracování. Nehrozí ztráta dokumentů a jejich poškození.
Vyšší náklady na hardware a software.
Tabulka 10- Výhody a nevýhody centralizovaného a decentralizovaného zpracování (Zdroj: autorka)
Každá organizace má jinou organizační strukturu a jiné klíčové požadavky na digitalizaci dokumentů a proto nelze určit, který přístup je lepší. Oba přístupy lze pro různé fáze digitalizace dokumentů kombinovat a vytvořit hybridní řešení. Například skenování mohou provádět samostatně jednotliví zaměstnanci a naskenované obrazy ukládat do centrálního úložiště. Dokumenty v centrálním úložišti budou centralizovaně rozpoznány a budou z nich vytěžena data. V jiném pracovišti pak může probíhat indexace dokumentů. 67
Dle (Miles.2010) v současné době organizace zřizují stejně často centralizované skenování, decentralizované
na
pobočkách
i
decentralizované
skenování
jednotlivými
zaměstnanci.
Centralizované skenování a rozpoznávání dokumentů bylo dříve častější, protože ceny dokumentačních skenerů a software pro rozpoznávání znaků byly velmi vysoké.
11.3 Kdo digitalizaci zajistí? Digitalizaci dokumentů může realizovat buď sama organizace vlastními silami, kdy si zajistí hardware, software i zaměstnance, kteří budou dokumenty digitalizovat, nebo může využít některou z forem outsourcingu. Pro digitalizaci dokumentů, stejně jako pro firemní procesy platí, že outsourcing je vhodné řešení, pokud digitalizace dokumentů není klíčovým procesem a organizace není schopna ji zajistit dostatečně kvalifikovaně. Outsourcing digitalizace může být realizován formou:
in-house outsourcing- digitalizaci provádí vyškolený personál dodavatele outsourcingu na jeho vlastním hardwarovém i softwarovém vybavení v prostorách zákazníka,
kompletní outsourcing- digitalizace dokumentů je prováděna v prostorách dodavatele outsourcingu,
offshoring- outsourcing služeb za hranice země, většinou do států s levnou pracovní silou.
Přístupy k řešení digitalizace lze pro jednotlivé fáze kombinovat. Na následujícím grafu (Graf 5) zobrazuji, které fáze digitalizace jsou nejčastěji předmětem outsourcingu. Graf také zahrnuje rozdělení odpovědí podle velikosti firem. Nejméně často je outsourcováno vytěžování dat, což ovšem souvisí s faktem, že digitalizaci dokumentů za účelem vytěžení dat, realizuje pouze 20 procent organizací, které digitalizují dokumenty (viz kapitola 3). 0%
10% 20% 30% 40% 50% 60%
Outsourcing skenování 10- 500 zam. Outsourcing skenování a rozpoznávání za účelem indexace
500- 5000 zam. 5000 a více zam.
Outsourcing skenování, rozpoznávání a vytěžování dat
Graf 5- Předmět využití outsourcingu při digitalizaci (Zdroj: AIIM.2010)
68
11.3.1 Digitalizace vlastními silami Způsob řešení digitalizace dokumentů vlastními silami je vhodný spíše pro velké společnosti, které denně zpracovávají velké množství příchozích dokumentů a které mají dostatek prostředků pro zajištění kvalitního hardwarového vybavení, zaměstnanců a prostor. Pro návrh řešení a výpočet nákladů na zavedení digitalizace lze využít specializovaného dodavatele řešení v případě, že firma nedisponuje zkušeným IT oddělením. Zajištění digitalizace vlastními silami znamená:
počáteční investici: Nákup hardware, softwarových licencí, najmutí a vyškolení zaměstnanců,
nasazení řešení: analýza, návrh a implementace řešení, jeho testování,
průběžné náklady: údržba hardware a software, mzdy zaměstnanců.
Dále je také potřeba zajistit prostory a úložiště pro naskenované obrazy dokumentů. Digitalizace vlastními silami je vhodná při dlouhodobých velkých objemech příchozích dokumentů denně nebo v případě zpracování velmi citlivých údajů, jako je zdravotní dokumentace. Zpracování dokumentů zůstává při řešení digitalizace vlastními silami pod dohledem organizace, stejně tak i veškerá citlivá data a je možný neustálý přístup k dokumentům. Společnost není závislá na dodavateli služeb outsourcingu a snižují se náklady na převoz dokumentů. Při zajištění digitalizace dokumentů vlastními silami se obtížněji počítají fixní i variabilní náklady, v případě outsourcingu je výpočet nákladů snazší.
11.3.2 Kompletní outsourcing Kompletní outsourcing digitalizace dokumentů znamená, že proces digitalizace zajišťuje formou služby externí dodavatel ve svých vlastních prostorách. Dokumenty jsou zpracovávány specializovanou firmou, která disponuje výkonným hardware a vyškolenými zaměstnanci a především zkušenostmi. Outsourcingem digitalizace se přenáší veškerá zodpovědnost na dodavatele služby. Výběr dodavatele outsourcingu je klíčový. Při jeho výběru je nutné zvážit například:
jaké poskytuje služby,
jaké má zkušenosti a reference,
jak bude vypadat konkrétní návrh outsourcingu,
zda je dodavatel dostatečně flexibilní, aby se přizpůsobil měnícím se požadavkům organizace,
vzdálenost dodavatele od organizace (dokumenty je potřeba například denně převážet),
zaručení bezpečnosti dat (certifikace).
Mezi hlavní výhody digitalizace dokumentů formou kompletního outsourcingu patří nízké počáteční náklady a krátká doba nasazení řešení. Dodavatel služby je schopen zajistit digitalizaci 69
dokumentů mnohem efektivněji a levněji, zatímco organizace se může soustředit pouze na své klíčové business procesy. Službu lze škálovat podle aktuálních potřeb organizace. Pro outsourcing digitalizace hovoří také vyšší kvalita zpracování díky použití kvalitních technologií a přenesení zodpovědnosti za skenování na dodavatele služby. Mezi nevýhody patří především náklady na přepravu dokumentů a možnost jejich poničení nebo ztráty a také nedostupnost dokumentů ve chvíli, kdy jsou u dodavatele. Organizace také ztrácí přehled o zpracování dokumentů. S dodavatelem řešení je nutné přesně dohodnout požadavky na indexaci dokumentů, aby byla provedena dostatečně pečlivě s ohledy na potřeby organizace. Outsourcing je vhodným řešením jak pro malé a střední organizace, které nemají dostatek prostředků na zajištění kvalitního zpracování, tak i pro velké společnosti, pro které není digitalizace dokumentů klíčovým procesem. Kompletní outsourcing lze také využít při jednorázové digitalizaci listinného archivu. Cena outsourcingu se obvykle převádí na cenu zpracování jednoho dokumentu. Outsourcovat lze také jen některou fázi digitalizace, například vytěžení dat a indexaci.
11.3.3 Outsourcing formou in-house Tato varianta outsourcingu kombinuje výhody digitalizace dokumentů vlastními silami a kompletního outsourcingu. Dodavatel služby realizuje digitalizaci v prostorách zákazníka. V rámci služby je pronajímán hardware, software, ale i vyškolení zaměstnanci. Zákazník pouze poskytne prostory. Dodavatel řešení musí implementovat řešení do stávajícího informačního systému zákazníka. In-house outsourcing umožní kontrolu zpracování dokumentů, které není třeba nikam převážet a také jejich neustálou dostupnost. Zároveň zajistí kvalitní, rychlé a efektivní zpracování dokumentů bez nutnosti nákupu potřebného vybavení a školení zaměstnanců. Outsourcing formou in-house znamená nižší počáteční investici a rychlejší nasazení než v případě řešení digitalizace vlastními silami, ale vyšší počáteční investici a delší dobu nasazení než v případě kompletního outsourcingu.
11.3.4 Offshoring Offshoring je forma outsourcingu, kdy je služba prováděna v zemích, kde je levná pracovní síla nebo jiné výhody. Tradiční zemí pro offshoring digitalizace dokumentů je Indie. V Indii lze nalézt kromě levné pracovní síly také kvalitní zpracování, protože v Indii je mnoho IT odborníků, kteří dobře ovládají anglický jazyk. Offshoring je vhodný pro zpracování anglicky psaných dokumentů. Postup digitalizace v případě offshoringu probíhá tak, že všechny dokumenty jsou zkopírovány a kopie těchto dokumentů jsou odeslány do dané země ke zpracování. Zde proběhne celý proces digitalizace a kopie dokumentů jsou po ukončení procesu zpracování skartovány. Originální dokumenty zůstávají 70
v organizaci a lze tak k nim mít neustálý přístup a nehrozí jejich poškození. Offshoring lze také využít jen pro některé fáze digitalizace, například indexace. Náklady na pracovní sílu představují v zemích, kde probíhá offshoring pouhou 1/7 nákladů na pracovní sílu v USA. Celkové náklady na digitalizaci dokumentů formou offshoringu jsou oproti tradičnímu outsourcingu o přibližně o 50 procent nižší. Kvalitu a důvěryhodnost offshoringu pomáhají prokazovat certifikáty, které mohou provozovatelé offshoringu získat. (Harney.2003)
11.4 Bezpečnost dat při digitalizaci dokumentů Některé organizace se při outsourcingu digitalizace dokumentů bojí o bezpečnost svých dat, které souvisí například s jejich podnikáním a klienty. Ještě větší obavu o svá data mohou mít organizace, které pracují s citlivými údaji ve zdravotní dokumentaci nebo různé finanční instituce. Pokud je vybrán kvalitní dodavatel služeb, znamená outsourcing pro organizaci naopak zvýšení bezpečnosti dat. Dodavatel outsourcingu a všichni jeho zaměstnanci se řídí zákonem č. 101/2000 o ochraně osobních údajů a dále jsou všichni zaměstnanci prověřování a podepisují dohodu o utajení a ochraně dat, se kterými pracují. Někteří dodavatelé mají certifikaci od Národního bezpečnostního úřadu (NBÚ) pro manipulaci s informacemi ve stupni „vyhrazené“28 nebo certifikaci systémů řízení jakosti ISO 9001:2001. Pracoviště pro digitalizaci dokumentů bývá střeženo kamerovým systémem nebo fyzickou ochranou a skenovací stanice mohou být odpojeny od přístupu k internetu. Někteří provozovatelé outsourcingu dokonce pro fázi validace rozdělují dokument na dvě části a každou z nich kontroluje jiný zaměstnanec. Zabezpečení informací, které zajišťují organizace při digitalizaci dokumentů vlastními silami, většinou nebývá tak kvalitní, jako v případě outsourcingu. Velkým rizikem jsou především vlastní zaměstnanci, kteří nejsou prověřováni. Při outsourcingu digitalizace dokumentů je přenesena zodpovědnost na dodavatele služby, pro kterého je dobrá pověst klíčová. Přesto musí organizace dodavatele služeb digitalizace velmi pečlivě vybrat.
11.5 Shrnutí přístupů k řešení digitalizace dokumentů Při hledání vhodného řešení digitalizace dokumentů je potřeba definovat, kterých dokumentů se bude digitalizace týkat, zda jen nově příchozích nebo i starších. Dále je potřeba dle struktury a lokace organizace rozhodnout, zda bude digitalizace prováděna centralizovaně nebo 28
Do stupně utajení „vyhrazené“ se utajovaná informace klasifikuje v případě, že neoprávněné nakládání s ní by mohlo být nevýhodné pro zájmy České republiky; tento stupeň utajení se označuje slovem "Vyhrazené" nebo zkratkou "V". (http://www.eurosafe.cz/stupen-utajeni/)
71
decentralizovaně. Digitalizaci dokumentů může zajišťovat organizace sama vlastními silami nebo některou z forem outsourcingu- kompletní outsourcing, in-house outsourcing nebo offshoring. Kompletní outsourcing je při digitalizaci dokumentů výhodný pro své nízké počáteční náklady a rychlý čas nasazení. Outsourcing formou in-house vyžaduje vyšší počáteční náklady i delší dobu implementace, ale spojuje výhody kompletního outsourcingu a řešením vlastními silami. Obavy organizací o bezpečnost informací v případě outsourcingu jsou ve většině případů nadsazené, protože při výběru kvalitního dodavatele znamená outsourcing naopak zvýšení bezpečnosti dat.
72
12 Dopady digitalizace dokumentů a návratnost investice Zavedení digitalizace dokumentů má vliv na celou organizaci. Před zahájením implementace řešení je potřeba tyto dopady znát a nejlépe vyčíslit. Také je potřeba vypočítat, které z možných řešení digitalizace dokumentů je nejvhodnější, tedy vypočítat návratnost investice těchto řešení. Náklady na digitalizaci dokumentů představují počáteční náklady na nákup a implementaci zařízení a dále provozní náklady na zajištění digitalizace dokumentů. Největším nákladem jsou mzdy zaměstnanců, protože digitalizace dokumentů, pokud není dostatečně automatizovaná, obnáší velké množství manuální práce. V této kapitole uvádím, jaké dopady má zavedení digitalizace na organizaci, dále popisuji metodu TEI od společnosti Forrester Research pro výpočet ekonomických dopadů digitalizace a také uvádím jak vypočítat návratnost investice do digitalizace.
12.1 Dopady zavedení digitalizace na procesy Zavedení digitalizace dokumentů za účelem vytěžení dat nebo automatizace workflow ovlivňuje mnoho procesů v celé organizaci. Digitalizace představuje dopady ekonomické, organizační i technologické. Tyto dopady se liší dle zvoleného řešení digitalizace. Zavedení digitalizace má vliv na všechny osoby, které pracují s digitalizovanými dokumenty- zaměstnance, dodavatele i partnery, zákazníky a vedení organizace.
Ekonomické dopady zahrnují náklady na zavedení digitalizace, změnu nákladů na zpracování dokumentů a řadu přínosů pro plnění strategických cílů organizace. Ekonomické dopady digitalizace mohou být před zahájením digitalizace vypočítávány řadou kvantitativních nebo kvalitativních metod.29 Kvantitativní metodu TEI současně ekonomickými dopady digitalizace uvádím v následující kapitole 12.2.
Organizační změny souvisí se snížením počtu administrativních pracovníků, jejich přeškolení nebo najmutí nových zaměstnanců pro zajištění provozu digitalizace v případě, že je řešení digitalizace zajištěno vlastními silami. Pro zjištění organizačních dopadů je vhodné povést organizační analýzu.
Technologické dopady digitalizace závisí na současném informačním systému a vybraném řešení digitalizace. Zavedení digitalizace může znamenat změny v architektuře celého informačního systému nebo potřebu změny používaných technologií. Před zahájením
29
Kvantitativní metody: Čistá současná hodnota PV, Vnitřní výnosové procento IRR, Ekonomická přidaná hodnota EVA, Doba návratnosti investice, Celkové náklady investice TCO, Kvalitativní metody: IT portfolio management, IT balanced scorecard
73
implementace řešení digitalizace dokumentů je potřeba mít vypracovanou technologickou analýzu.
Všichni zaměstnanci, kteří pracovali digitalizovanými s dokumenty v papírové podobě, nebo manuálně přepisovali data do informačního systému, musí být vyškoleni a naučit se nové procesy zpracování dokumentů.
Pro komunikaci s dodavateli a partnery mohou být zavedeny nové formuláře určené k vytěžení dat. (Digitalizace dokumentů zvyšuje rychlost zpracování faktur i objednávek a zmenšuje chybovost, což pozitivně ovlivňuje vztahy s dodavateli i partnery.)
Také pro komunikaci se zákazníky mohou být zavedeny nové formuláře a nové postupy. Rychlé vytěžení dat a zahájení následných procesů zvyšuje kvalitu služeb zákazníkům.
Změnit se mohou také procesy probíhající na podatelně, kde probíhá příjem dokumentů. Zvláště zavedení automatizované podatelny zcela mění požadavky na zaměstnance na podatelně.
12.2 Total economic impact Pro výpočet ekonomických dopadů na organizaci lze využít metodu společnosti Forrester Research- Total economic impact (TEI) která je vhodná pro projekty se zaměřením na zavádění informačních systémů a technologií. Protože TEI je také metodou pro podporu rozhodování, lze ji využít při výběru vhodného řešení digitalizace dokumentů (outsourcing, in-house outsourcing, řešení vlastními silami). V této metodě nejsou počítány jen náklady a přínosy, ale také rizika a flexibilita daného řešení digitalizace dokumentů. Flexibilita je významnou veličinou v případě zavádění projektů informačních systémů. Investice do dražšího, ale snadno rozšiřitelného řešení může v budoucnu znamenat velké výhody nejen finanční, ale také možnost se rychle přizpůsobit novým požadavkům trhu. Metodu TEI využívám prakticky v případové studii v této diplomové práce.
Obrázek 11- Schéma metody TEI (Zdroj: McLeish;David.2009)
74
Přínosy- Jaké bude mít zavedení systému přínosy pro cíle organizace a výši snížení nákladů oproti současnému stavu. Mezi tyto přínosy lze v rámci zavádění digitalizace řadit:
zvýšení produktivity zaměstnanců, zkrácení času hledání dokumentů, případně snížení počtu zaměstnanců,
přínosy ze snížení nákladů- na papír, tisk a kopírování a úložné prostory papírových dokumentů,
přínosy ze zvýšení bezpečnosti dat, ochrany dokumentů či přínosy z přenesení zodpovědnosti a na dodavatele outsourcingu,
standardizované procesy a snadnější dodržování legislativy.
Náklady- Metoda TEI počítá do kategorie nákladů náklady na zavedení systému a pak následné náklady na jeho provoz:
náklady na analýzu a návrh řešení,
náklady na nákup hardware (skenery, datová úložiště), software pro rozpoznávání znaků, vytěžování dat a integrační komponenty; náklady na implementaci, integraci a školení,
operativní náklady na údržbu hardware, správu licencí a sítě, provozní zaměstnance a jejich vedoucí,
náklady na opravy systému, plánování a zavádění změn.
Rizika- zavádění řešení digitalizace dokumentů mají obvykle nízkou hodnotu rizika. Vypočítané náklady, přínosy řešení i jeho flexibilita jsou v rámci TEI upraveny o hodnoty rizika. Mezi rizika zavádění digitalizace dokumentů lze řadit:
implementační rizika plynoucí ze špatného plánování nákladů a špatně rozvrženého časového harmonogramu,
rizika špatně naplánovaných dopadů digitalizace na organizaci- například míra automatizace je nižší, než byla plánovaná nebo odmítavý postoj zaměstnanců ke změnám,
rizika špatně definovaných strategických cílů digitalizace nebo špatně stanovené metriky pro jejich měření.
Flexibilita- Flexibilita představuje dodatečné investice, které v budoucnu umožní snadné rozšíření kapacity nebo funkčnosti systému a stanou se tak přínosem. Výpočet flexibilita v rámci TEI je nepovinný a je realizován výpočtem budoucích příležitostí. I když nejí flexibilita kvantifikována pro výpočty je vhodné flexibilitu nového řešení alespoň popsat. Dostatečná flexibilita řešení digitalizace
75
dokumentů je důležitá, protože počet denních přírůstků dokumentů, jejich druh nebo i struktura organizace se mohou v čase výrazně měnit. Flexibilita řešení je v rámci TEI posuzována dle:
možnosti rychlého a levného rozšíření funkcionality, například zavedení vytěžování dat, zavedení dynamického OCR nebo rozšíření rozpoznávání znaků o technologii ICR,
snadnosti zvýšení nebo snížení kapacity procesu digitalizace,
standardizovanost řešení architektury systému,
možnosti školení nových uživatelů systému.
12.3 Návratnost investice Výpočet návratnosti investice (Return of Invesment- ROI) digitalizace dokumentů zahrnuje výpočet celkových nákladů vydělený celkovými přínosy. Čím vyšší vyjde hodnota ROI, tím je projekt výhodnější. Celkové přínosy znamenají přínosy z nového řešení oproti stávajícímu stavu, náklady pak znamenají celkové náklady na počáteční investici a následné provozní náklady. Z hodnot celkových přínosů a nákladů lze také vypočítat, za jakou dobu se investice navrátí (Payback). Návratnost investice se počítá na určité období, například na rok, tři roky nebo pět let. Výpočet je proto nutné opravit o změny investice v čase pomocí přepočítání nákladů v jednotlivých obdobích na jejich současnou hodnotu (Present Value- PV). Návratnost investice do systému pro digitalizaci dokumentů se organizacím vrací velmi rychle. Dle (AIIM.2010) se celým 39 procentům organizací investice vrátí do jednoho roku a dalším 47 procentům organizací do tří let. Výpočet návratnosti investice digitalizace dokumentů se v jednotlivých organizacích liší dle druhu nákladů a přínosů, které jsou do výpočtu dosazeny. Na následujících grafech (Graf 6,7) zobrazuji, které náklady a přínosy organizace nejčastěji započítávají do výpočtu návratnosti investice digitalizace dokumentů. Z grafů je vidět, že organizace nejčastěji započítávají přínosy z nižších operativních nákladů a nákladů na uložení dokumentů. Do nákladů nejčastěji započítávají náklady na hardware, software a údržbu systému.
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Snížení provozních nákladů Snížení nákladů na skladování dokumentů Snížení počtu zaměstnanců
Graf 6- Nejčastěji započítávané přínosy při výpočtu ROI (Zdroj: IOMA.2007)
76
0%
10% 20% 30% 40% 50% 60% 70% 80% 90%
Nákup HW (skenery, síťové prvky, datová úložiště) Údržba systému Licence software Školení uživatelů Práce zaměstnanců Náklady na práci managementu Náklady na externí konzultanty
Graf 7- Nejčastěji započítávané náklady při výpočtu ROI (Zdroj: IOMA.2007)
12.4 Shrnutí dopadů digitalizace dokumentů a návratnosti investice Zavedení digitalizace dokumentů má ekonomické, organizační a technologické dopady na organizaci. Tyto dopady je před zahájením implementace řešení analyzovat a vyčíslit, provést organizační a technologickou analýzu a dále definovat ekonomický dopad zavedení digitalizace pomocí kvalitativních, kvantitativních nebo pravděpodobnostních metod. Jako kvantitativní metodu lze použít metodu TEI společnosti Forrester Research, která kromě analýzy nákladů a přínosů také započítává rizika zavádění nového systému a jeho flexibilitu pro další rozvoj. Návratnost investice do digitalizace dokumentů je obvykle velmi rychlá, více než třetině organizací se navrací do jednoho roku. Při výpočtu návratnosti investice započítávají různé společnosti jiné druhy nákladů a přínosů. Nejčastěji jsou počítány náklady na hardware, software a údržbu systému a přínosy ze snížení počtu zaměstnanců a snížení nákladů na skladování dokumentů.
77
13 Dodavatelé digitalizace dokumentů na českém trhu Pro zajištění řešení digitalizace dokumentů je potřeba vybrat spolehlivého a kvalitního dodavatele řešení nebo poskytovatele služeb outsourcingu. Na českém trhu působí řada českých nebo mezinárodních firem, které se zaměřují na:
služby kompletního nebo in-house outsourcingu digitalizace dokumentů,
návrhy, konzultace řešení a jejich implementaci,
digitalizaci a správu archivů,
zajištění digitalizace dokumentů současně s DMS systémem případně kompletním ECM řešením,
zajištění provozu podatelny, napojení na datové schránky a použití elektronického podpisu a časových razítek v rámci digitalizace dokumentů.
13.1 Firmy nabízející implementaci systému pro digitalizaci i outsourcing Xerox je mezinárodní přední firmou působící v oblasti dokumentových technologií a služeb. V rámci digitalizace dokumentů nabízí velice široké portfolio služeb a produktů- konzultace, implementace systému pro digitalizaci dokumentů, automatické workflow a spisovou službu. Dále nabízí například digitalizaci archivu dokumentů, různé formy outsourcingu a zajištění služeb podatelny. Certifikace: ISO 9001:2009 systémy řízení jakosti a ISO 27001:2006 systém řízení informační bezpečnosti Reference: T-mobile, Vodafone, PriceWaterHouseCoopers, CitiBank, Ministerstvo životního prostředí Pro rozpoznání znaků a vytěžení dat používá softwarové produkty: ABBY Flexi Capture, eFLOW Top Image Systém, různé produkty společnosti Kofax a vlastní software pro vytěžování dat a kategorizaci dokumentů Xerox Production Imaging Manager Webové stránky: www.dokumentyefektivne.cz
Océ- Česká republika je mezinárodní společnost pocházející z Holandska, která se zaměřuje na komplexní řešení pro práci s dokumenty. Poskytuje služby konzultace, implementace systému pro digitalizaci, školení uživatelů a dále především různé druhy outsourcingu digitalizace dokumentů. Také nabízí digitalizaci a správu archivu, řešení provozu podatelny a kompletní DMS systém. Certifikace: ISO 9001:2009 systémy řízení jakosti
78
Reference: Telefónica O2, SIEMENS Industrial Turbomachinery, Škoda Holding, Pražská energetika, Magistrát hlavního města Prahy Používaný software pro rozpoznání znaků a vytěžení dat: především softwarové produkty společnosti Kofax. Webové stránky: www.oce.cz
Syconix nabízí rozsáhlé portfolio služeb v oblasti digitalizace a správy dokumentů. Zajišťuje implementaci kompletních systémů, optimalizaci workflow nebo zřízení elektronického archivu. Poskytuje také outsourcing v různých formách. Certifikace: ISO 9001:2009 systémy řízení jakosti, certifikát NBÚ pro manipulaci s informacemi ve stupni „vyhrazené“ Reference: Metrostav, PENTA Investments limited, Raiffeisen stavební spořitelna nebo UPC Česká republika Používaný software pro rozpoznání znaků a vytěžení dat: produkty společností Kofax a ReadSoft Webové stránky: www.syconix.cz
YDS je česká firma působící v oblasti správy dokumentů a jejich digitalizace. Nabízí dodávku celého řešení pro digitalizace dokumentů, spisovou službu, podatelnu a napojení na datové schránky. Také nabízí služby různých forem outsourcingu a digitalizaci a správu archivu. Je partnerem společnosti Asseco Solutions a její ERP systémy Helios rozšiřuje o DMS moduly a systémy pro digitalizaci dokumentů. Firma YDS dále nabízí digitalizaci kronik a knih a také prodej knižních skenerů. Certifikace: YDS nemá žádnou certifikaci ISO, ale kvalitu služeb potvrzuje získané ocenění TOP CZECH QUALITY 1. Stupně v soutěži Nejlepší podnikatel manažer a firma ČR. Reference: Penzijní fond Komerční banky, ČSOB Penzijní fond, Honeywell Controls, Český rozhlas Používaný software pro rozpoznání znaků a vytěžení dat: Vlastní OCR/ICR modul Xenia, založený na produktu ABBYY Fine Reader. Webové stránky: www.yds.cz
EXON se zaměřuje na implementaci systémů pro digitalizaci a DMS a dále na různé formy outsourcingu v oblasti digitalizace dokumentů a datových úložišť. Poskytuje také konzultace nebo provedení dokumentového auditu. Certifikace: ISO 9001:2009 systémy řízení jakosti, certifikát NBÚ pro manipulaci s informacemi ve stupni „vyhrazené“ Reference: Mercedes Benz Financial Services ČR, Zdravotní pojišťovna METAL-ALIANCE, Česká televize, Plzeňský Prazdroj 79
Používaná software pro rozpoznání znaků a vytěžení dat: produkty společnosti ABBYY Webové stránky: www.exon.cz
Scanservice se zaměřuje na průběžnou digitalizaci dokumentů a vytěžování dat i digitalizaci archivů. Provozuje služby outsourcingu a také dodává kompletní systémy pro digitalizaci včetně jejich návrhu a implementace. Certifikace: ISO 9001:2009 systémy řízení jakosti Reference: Johnson & Johnson, Třinecké železárny, VZP ČR, pro Ministerstvo spravedlnosti ČR digitalizuje rejstříky trestů Používaný software pro rozpoznání znaků a vytěžení dat: produkty eFlow společnosti Top Image Systems a produkty společnosti Kofax. Webové stránky: www.scanservice.cz
13.2 Firmy nabízející pouze outsourcing
Audit Alliance nabízí digitalizaci dokumentů se zaměřením na skenování účetních záznamů a dokladů (www.audit-alliance.cz),
CopyGeneral poskytuje služby kompletního outsourcingu digitalizace dokumentů a jejich indexace ( www.copygeneral.cz),
VDI HANDICAP je společnost, která poskytuje kompletní outsourcing digitalizace dokumentů i in-house outsourcing. Jak již z názvu vyplývá, zaměstnává především zdravotně postižené občany a získala certifikáty ISO 27001:2005 a ISO 9001:2009 (www.handicapvdi.cz),
AiP Beroun nabízí digitalizaci archivů, poskytuje také digitalizaci starých a vzácných dokumentů či knih (www.aipberoun.cz),
Inkam se specializuje na outsourcing digitalizace archivů a jejich správu (www.inkam.cz).
13.3 Shrnutí dodavatelů řešení digitalizace dokumentů na českém trhu Na českém trhu působí v oblasti digitalizace dokumentů dvě velké mezinárodní společnosti Xerox a Océ, které nabízí velmi široké portfolio produktů. Z českých firem, které také nabízí kompletní řešení digitalizace dokumentů a služby outsourcingu lze jmenovat společnosti EXON, Syconix, YDS a ScanService. Většina společností má certifikaci ISO 9001:2009. Outsourcing digitalizace dokumentů zajišťují například společnosti Audit Alliance, CopyGeneral nebo VDI HANDICAP. Na outsourcing digitalizace archivů se soustředí firmy AiP Beroun či Inkam. 80
14 Případová studie Různé přístupy k řešení digitalizace dokumentů v této kapitole prakticky demonstruji na modelovém podniku. Pro řešení digitalizace dokumentů vlastními silami, in-house outsourcingem a kompletním outsourcingem vypočítám návratnost investice, zhodnotím flexibilitu a rizika řešení a také uvedu technologické a organizační dopady. Jednotlivé varianty pak porovnám a vyberu pro modelový podnik nejvhodnější variantu. Modelovým podnikem je fiktivní středně velký výrobní podnik TextilABC s 500 zaměstnanci. Pro tento podnik definuji organizační strukturu, technologické předpoklady a současné problémy stavu zpracování dokumentů. Jednotlivé varianty přístupu k řešení digitalizace dokumentů v podniku TextilABC vypracuji na základě nabídek dodavatelů digitalizace dokumentů Syconix a.s., YDS s.r.o. a Océ- Česká republika s.r.o. Výběr dodavatelů digitalizace jsem omezila na firmy, které působí v Praze, protože modelový podnik TextilABC má sídlo v Rudné u Prahy a pro outsourcing digitalizace dokumentů je blízkost dodavatele důležitá. Dále jsem výběr dodavatelů digitalizace dokumentů pro podnik TextilABC omezila požadavkem, aby byl dodavatel schopný zajistit jak dodání řešení pro digitalizaci dokumentů, tak i DMS systém a workflow s elektronickým podpisem. Všichni z vybraných dodavatelů také musí být schopni uskutečnit digitalizaci dokumentů všemi třemi variantami řešení, tj. kompletním outsourcingem, in-house outsourcingem a řešení digitalizace dokumentů vlastními silami včetně dodávky software a hardware. Pro posouzení ekonomického dopadu jednotlivých přístupů použiji metodu Total Economic Impact (TEI) od společnosti Forrester Research, jejíž rámec jsem uvedla v kapitole 12.2. Tato metoda je vhodná pro porovnání různých variant řešení, protože kromě vyčíslení nákladů a přínosů zahrnuje také úpravu těchto nákladů a přínosů o rizika a také uvažuje flexibilitu plánovaného řešení. Cílem této kapitoly je posoudit jednotlivé přístupy k řešení digitalizace dokumentů a na základě metody TEI vybrat ten nejvhodnější. Následující porovnání tedy není konkurenčním srovnáním nabídek vybraných dodavatelů digitalizace, ale porovnáním přístupů k řešení digitalizace dokumentů. Vzhledem k velkému množství dílčích dat v tabulkách uvádím v této kapitole pouze souhrnné přehledy. Podrobnější data jsou uvedena v přílohách této diplomové práce (Příloha 4, 5, 6).
14.1 Obecné předpoklady výpočtu Pro navržená řešení je předpokládaná doba uzavření smlouvy s dodavatelem na tři roky. Na dobu tří let tedy rozpočítávám náklady a přínosy jednotlivých variant. Pro zohlednění hodnoty peněz v čase přepočítávám všechny peněžní toky na jejich současnou hodnotu (Present Value „PV“) a to při 81
podnikové diskontní sazbě 10%. „Podniková diskontní sazba je míra, kterou se přepočítávají budoucí hodnoty na hodnoty současné.“ (Synek.2007) Každý podnik si ji stanovuje jinak a to součtem bezrizikové úrokové míry státních dluhopisů a různých rizikových přirážek projektu.30 V této případové studii jsem diskontní sazbu zvolila 10%, stejně jako uvádí společnost Forrester Research v ukázkovém řešení výpočtu TEI digitalizace dokumentů (McLeish.2009). U každé varianty řešení uvádím její čistou současnou hodnotu investice vypočítanou odečtením současné hodnoty nákladů od současné hodnoty přínosů. Čím je čistá současná hodnota vyšší, tím je daná varianta digitalizace dokumentů pro podnik výhodnější. Dále počítám pro každou variantu řešení její návratnost investice (ROI). Tento ukazatel udává procentuální vyjádření návratnosti investice a vypočítá se vydělením čistých přínosů náklady. (Čisté přínosy jsou přínosy po odečtení nákladů.) Také uvádím dobu návratnosti investice, tedy bod v čase, kdy dojde k vyrovnání čistých přínosů s náklady řešení digitalizace. Náklady počítané v této případové studii jsou rozděleny do tří let a zároveň na počáteční náklady, které se uskuteční na začátku prvního roku. Tyto počáteční náklady nejsou diskontovány. Ostatní náklady během následujících tří let jsou diskontovány 10% sazbou vždy ke konci daného roku. U všech nákladů a přínosů uvažuje metoda TEI rizika, která mohou vést k jejich změně. V přehledu rizik uvádím průměrnou výši nákladů a přínosů, která může nastat po uvážení nejvíce pesimistické, nejvíce optimistické a očekávané výše nákladů a přínosů. U každé z variant popisuji flexibilitu řešení, která není kvantifikována. Při popisu flexibility řešení uvažuji snadnost, s jakou lze navržené řešení změnit a přizpůsobit novým podmínkám v podniku TextilABC. Pro všechny následující výpočty je předpokládána pracovní doba zaměstnanců 8 hodin denně a počet pracovních dní v měsíci 21.
14.2 Popis modelového podniku Firma TextilABC s.r.o. byla založená v roce 1990. Jedná se o českou firmu, která se zabývá šitím pánských a dámských konfekčních oděvů. Firma TextilABC dodává své výrobky na český, ale i zahraniční trh- Německo, Rakousko. Firma má sídlo v Rudné u Prahy a v současné době plánuje rozšíření svého portfolia výrobků o pracovní oděvy.
30
Podniková diskontní sazba je jiný ukazatel, než diskontní sazba České národní banky (ČNB). Zatímco podniková diskontní sazba se používá pro hodnocení podnikových investic a výpočtu současné hodnoty budoucích peněžních toků, diskontní sazba ČNB je druh úrokové míry, za kterou centrální banka poskytuje úvěr komerčním bankám. (Synek.2007)
82
14.2.1 Organizační struktura Firma TextilABC má v současné době 500 zaměstnanců. Podnik má funkční organizační strukturu. Vedení společnosti má pod sebou obchodní oddělení, finanční, nákupní, IT oddělení, výrobu, přípravu výroby, řízení jakosti a vývoj. Pro každé oddělení je stanoven jeden vedoucí pracovník. Organizační struktura současně s počty pracovníků v jednotlivých útvarech je zobrazena na následujícím obrázku (Obrázek 12).
Detaily vybraných oddělení: Administrativa: oddělení, které zahrnuje 2 recepční, 2 pracovnice podatelny a 2 pracovnice archivu. (Recepční pracují na směny) IT oddělení: 6 zaměstnanců- 1 vedoucí IT oddělení, 2 správci sítě, 1 správce HW, 2 zaměstnanci podpory stávajících IS
Obrázek 12- organizační struktura modelového podniku (Zdroj: autorka)
14.2.2 Ekonomické charakteristiky Firma TextilABC nabízí široké portfolio produktů, které dodává 500- ti zákazníkům. Vstupní materiál získává od 120 dodavatelů. V roce 2010 měla firma TextilABC roční obrat 450 miliónů korun. Export se na obratu podílel 200 milióny korun. Zisk firmy TextilABC za rok 2010 činil 80 miliónů korun.
83
Plat zaměstnanců ve výrobě (dělníků) je průměrně 20 tisíc korun, plat technicko- hospodářských pracovníků je průměrně 30 tisíc korun.
14.2.3 Technologická specifikace Firma TextilABC využívá k řízení výroby ERP systém Microsoft Dynamics AX (edice Advanced Management), který implementovala společnost ITxy s.r.o. v roce 2008. Pro řízení vztahů s narůstajícím počtem zákazníků byl dále v roce 2008 implementován toutéž společností systém Microsoft Dynamics CRM Professional. Oba informační systémy jsou aktualizovány dodavatelem a průběžně spravovány interním IT oddělením. Dále firma využívá kancelářský balík Microsoft Office 2007 v edici Enterprise. Na všech firemních počítačích je nainstalovaný operační systém Microsoft Windows 2007 v edici Professional. Pro elektronickou komunikaci v rámci firmy je používán Microsoft Exchange Server 2010. V podniku jsou 3 aplikační servery Microsoft Windows Server 2008 a 2 databázové servery Microsoft SQL Server 2008. Zaměstnanci používají koncové stanice PC (celkový počet 150) a notebook (celkový počet 30).
Hardwarová zařízení pro práci s dokumenty:
7 laserových stolních tiskáren BROTHER HL-3040CN (pořizovací cena 3500 Kč),
2 ploché skenery HP ScanJet G2710 (pořizovací cena 2000 Kč),
2 MFP stolní zařízení KONICA MINOLTA Magicolor 4695MF (pořizovací cena 20 000Kč).
14.2.4 Současný stav zpracování a skladování dokumentů Dokumenty přichází do podniku skrze podatelnu a jsou zaznamenávány do jednoduchého elektronického podacího deníku. Papírové dokumenty jsou roztříděny podle adresátů a doneseny na příslušná oddělení. Příslušní zaměstnanci pak zahajují manuální workflow a po jeho ukončení je dokument podle jeho typu vrácen administrativnímu oddělení k archivaci nebo si jej sami zaměstnanci zakládají do šanonů v kanceláři. Při oběhu nejsou dokumenty nijak elektronicky evidovány. Workflow postupuje průměrně 30% z došlých papírových dokumentů a 80% z interních dokumentů. Denně podnik TextilABC přijímá průměrně 200 dokumentů a vypravuje průměrně 220 dokumentů. Dokumentů pro vnitropodnikové účely a návrhů oděvů vzniká denně průměrně 80. Data z dokumentů jsou do informačního systému přepisována manuálně. Návrhy oděvů v papírové podobě překreslují techničtí pracovníci do elektronické podoby. Papírové originály jsou archivovány.
84
Firma v současné době archivuje 200 tisíc dokumentů. Dokumenty jsou uložené v samostatné místnosti vedle podatelny. Jeden dokument má průměrně 3 strany a některé dokumenty jsou cizojazyčné (anglické a německé). Skladované dokumenty mají z 80% formát A4, z 19% formát A3 a z 1% formát A2- A0. Dokumenty jsou uspořádané v šanonech, na kterých je uveden název agendy a období.
Mezi hlavní problémy, které současný stav přináší, patří:
současné administrativní pracoviště, kde jsou uchovávány, dokumenty přestává být kapacitně vyhovující a pokud nebude archiv digitalizován, bylo by třeba zřídit další místnost pro skladování dokumentů,
protože neexistuje jednotný proces pro práci s dokumenty a jejich ukládání, je velmi obtížné dohledat potřebné dokumenty. Také manuální workflow je časově náročné,
dokumenty jsou často kopírovány, protože je potřebuje více zaměstnanců, samotný originál dokumentu je mnohdy ztracen nebo poškozen,
dokumenty nejsou nijak zabezpečené. V případě poškození dokumentů by byly nenávratně ztraceny.
14.2.4.1 Současné náklady na zpracování a skladování dokumentů
Náklady na archivaci:
náklady na archivní místnost 3000 Kč za měsíc,
mzdové náklady na správu archivu, indexování a kategorizaci dokumentů- 2 zaměstnanci se mzdou 20 000 Kč za měsíc,
náklady na zřízení další plánované archivní místnosti budou 100 000 Kč.
Čas technicko- hospodářských zaměstnanců strávený prací s dokumenty:
technicko-hospodářští (T-H) zaměstnanci využívající ke své práci dokumenty (100) stráví průměrně 15% pracovní doby vyhledáváním dokumentů a informací v nich obsažených. Vzhledem k průměrnému platu těchto zaměstnanců 30 000Kč za měsíc činí celkové ztráty spojené s vyhledáváním dokumentů přibližně 450 000 Kč měsíčně,
workflow jednoho dokumentu (30% z došlých papírových dokumentů a 80% z interních dokumentů= 124 dokumentů denně) zahrnuje průměrně 3 kroky. Vyřízení jednoho workflow trvá průměrně 4- 10 dnů. Čas potřebný na manuální přenášení dokumentů po podniku představuje měsíčně ztrátu průměrně 217 hodin T-H zaměstnanců, tedy 40 000 Kč.
85
Provozní náklady na dokumenty:
náklady na papír, kopírování dokumentů (všechny dokumenty jsou průměrně dvakrát kopírovány) a opotřebení zařízení jsou 30 000Kč za měsíc,
veškeré dokumenty pro partnery, dodavatele i zákazníky jsou posílány v papírové podobě poštou. Náklady na poštovné jsou měsíčně 25 000 Kč.
Ztracené dokumenty:
náklady za náhradu ztracených dokumentů (4%), z nichž je ročně obnovováno 10%, představují 600Kč za dokument, tedy 480 000Kč ročně.
14.2.5 Požadavky na řešení digitalizace dokumentů V rámci dodávky řešení pro digitalizaci dokumentů podnik TextilABC vyžaduje:
Digitalizace dokumentů v archivu (200 000 dokumentů (= 600 000 stran), jejich indexace (5 indexů) a software pro správu digitalizovaných dokumentů. Na digitalizaci archivu firma TextilABC nespěchá. Pro digitalizaci archivu požaduje podnik TextilABC využití časového razítka a elektronické značky, aby mohly být téměř všechny dokumenty po digitalizaci skartovány formou důvěryhodné skartace.
Zajištění digitalizace všech nově příchozích dokumentů a jejich indexace.
Elektronické workflow a elektronický podpis (180 licencí).
Návrh, implementaci řešení a školení zaměstnanců.
Všechna navržená řešení musí být kompatibilní se stávajícím informačním systémem.
86
14.3 Řešení digitalizace dokumentů kompletním outsourcingem Řešení digitalizace dokumentů kompletním outsourcingem navrhla společnost Océ- Česká republika s.r.o., která se zaměřuje na komplexní řešení pro práci s dokumenty. Poskytuje služby konzultace, implementace systému pro digitalizaci, školení uživatelů a dále především různé druhy outsourcingu digitalizace dokumentů. Také nabízí digitalizaci a správu archivu, řešení provozu podatelny a kompletní DMS systém.31 Řešení pro podnik TextilABC navrhla společnost Océ- Česká republika tak, že digitalizace archivu proběhne v prostorách společnosti Océ- Česká republika a následné denní přírůstky dokumentů budou skenovány v podniku TextilABC. Vylepšení jejich naskenovaného obrazu a indexace budou realizovány vzdáleně opět v prostorách Océ- Česká republika. Digitalizace archivu proběhne během jednoho měsíce. Dokumenty v archivu budou rozděleny na dvě části a každá z nich bude digitalizována čtrnáct dní. Naskenované dokumenty budou opatřeny časovým razítkem a elektronickou značkou a originální dokumenty společnost Océ- Česká republika skartuje formou důvěryhodné skartace dle požadavků NBÚ. Denní přírůstky dokumentů, které budou skenovány v podniku, budou posílány skrze SFTP32 kanál dodavateli outsourcingu. Ten naskenované obrazy vylepší, opatří pěti indexy a odešle zpět skrze SFTP kanál do dokumentového úložiště v podniku. Odesílání z/ do podniku bude realizováno automaticky v hodinových cyklech. Potřebný skener bude podniku TextilABC pronajat. Dokumenty formátu A2- A0 budou vzhledem k jejich malému počtu převáženy do společnosti Océ- Česká republika k naskenování na velkoformátovém skeneru. DMS systém a workflow budou nainstalovány v podniku. Potřebné hardwarové a softwarové vybavení bude podniku TextilABC pronajato (in-house outsourcing). Společnost Océ- Česká republika provede potřebnou implementaci systému, zavedení elektronického podpisu, SFTP a vyškolí zaměstnance. Dále bude společnost Océ- Česká republika udržovat systém a provádět servis skeneru. Smlouva o outsourcingu bude uzavřena na dobu tří let. Na toto období jsou tedy rozpočítány veškeré náklady a přínosy. Platby budou probíhat měsíčně. Předpokládaná doba implementace je 2-3 měsíce. (Varianta zřízení P. O. BOX adresy, na kterou by docházela veškerá korespondence podniku TextilABC a byla vybírána a zpracovávána dodavatelem outsourcingu není pro podnik TextilABC vhodná, protože na P. O. BOX adresu by šlo přesměrovat jen 30 % doručované pošty. TextilABC by tedy musel disponovat vhodným skenerem i platit za P. O. BOX adresu, na kterou by bylo doručováno jen přibližně 30 dokumentů denně. Navržené řešení je tedy kombinací kompletního outsourcingu a in-house outsourcingu.) 31 32
Blíže jsem společnost Océ- Česká republika charakterizovala v kapitole 13.1. SFTP je protokol pro bezpečný přenos souborů s pomocí SSH (Secure File Transfer Protocol)
87
14.3.1 Náklady na digitalizaci dokumentů kompletním outsourcingem Celkové náklady se skládají z nákladů na pronájem hardware a software, z nákladů na zavedení systému a digitalizaci archivu a z provozních nákladů. Dohromady představují částku v současné hodnotě 2 371 481 Kč. Z hardwarového vybavení bude pronajat skener A3 KODAK i1220, pracovní stanice pro digitalizaci dokumentů, skartovačka s certifikátem od NBÚ a dva databázové servery. Pro zajištění DMS systému bude nainstalován MS SharePoint 2010 Foundation, který lze nainstalovat k produktu MS Windows Server zdarma. Workflow bude realizováno prostřednictvím systému Nintex Workflow Workgroup 2010. Oba systémy společnost Océ- Česká republika implementuje, nastaví SFTP komunikační kanál a vyškolí uživatele. Provozní náklady zahrnují roční náklady na externí indexaci a vylepšení naskenovaného obrazu, časová razítka a čas zaměstnanců v podniku TextilABC potřebný pro neskenování denních přírůstků dokumentů. Náklady na digitalizaci stávajícího archivu představují náklady na dva převozy dokumentů, přípravu dokumentů ke skenování, vlastní skenování, časové razítko, indexaci a následnou důvěrnou skartaci v souladu s požadavky NBÚ. V následující tabulce (Tabulka 11) uvádím souhrn nákladů na digitalizaci dokumentů kompletním outsourcingem. Detailně rozpočítané náklady jsou uvedené v tabulkách (Tabulka 1,2,3,4, 5) v příloze (Příloha 4) této diplomové práce. Náklady celkem ř. Položka
5
Náklady na HW 33 Náklady na SW 34 Zavedení systému35 Digitalizace archivu36 Provozní náklady 37
6
Celkem
1 2 3 4
Počáteč. nákl. Kč
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem Současná náklady hodnota Kč nákladů 397 188 329 249 372 816 309 046 220 800 220 800 781 500 781 500
0 0 220 800 781 500
132 396 124 272 0 0
132 396 124 272 0 0
132 396 124 272 0 0
0
293 900
293 900
293 900
881 700
730 886
1 002 300
550 568
550 568
550 568
2 654 004
2 371 481
Tabulka 11- Celkové náklady- kompletní outsourcing (Zdroj: autorka)
33
Náklady na pronájem HW- skeneru, 2 serverů, skenovací stanice a skartovačky (viz tabulka 1 v příloze 4). Náklady na pronájem SW- Microsoft SQL Server a Nintex Workflow Workgroup (viz tabulka 2 v příloze 4). 35 Zahrnuje náklady na počáteční konzultaci a návrh řešení, náklady na implementaci SW a HW, nastavení DMS, elektronického podpisu, náklady na školení zaměstnanců pro DMS, workflow a obsluhu skeneru (viz tabulka 3 v příloze 4). 36 Digitalizace archivu zahrnuje náklady na převoz dokumentů, jejich přípravu, skenování, indexaci a skartaci (viz tabulka 4 v příloze 4). 37 Provozní náklady zahrnují náklady na externí indexaci, vylepšení obrazu, čas zaměstnanců podniku TextilABC strávený skenováním a časová razítka (viz tabulka 5 v příloze 4). 34
88
14.3.2 Přínosy digitalizace dokumentů kompletním outsourcingem Celkové přínosy digitalizace dokumentů kompletním outsourcingem znamenají za dobu tří let snížení nákladů oproti zachování současného stavu zpracování dokumentů v současné hodnotě o 11 381 218 Kč. Přínosy budou realizovány rovnoměrně v průběhu let. Při zavedení digitalizace dokumentů nebude třeba zřizovat novou místnost pro archiv a nebude nutné zaměstnávat dvě pracovnice archivu. Některé dokumenty, které nebudou skartovány, zůstanou v současné archivní místnosti a jejich případnou výpůjčku zajistí pracovnice podatelny. Podnik TextilABC dále ušetří na nákladech na papír, kopírování a poštovné. Po zavedení digitalizace dokumentů se převede zodpovědnost za dokumenty na dodavatele a sníží se tak počet ztracených dokumentů. Náklady na obnovu těchto dokumentů klesnou o 480 000 Kč ročně. Díky zavedení digitalizace dokumentů ušetří zaměstnanci čas na hledání dokumentů. Celkový ušetřený čas odpovídá pracovní síle devíti zaměstnanců. Ušetřený čas zaměstnanců bude moci podnik využít pro plánované rozšíření výroby bez potřeby přijímání nových pracovních sil. V následující tabulce (Tabulka 12) uvádím souhrn přínosů digitalizace dokumentů kompletním outsourcingem. Detailně rozpočítané přínosy jsou uvedené v tabulkách (Tabulka 7, 8, 9, 10) v příloze (Příloha 4) této diplomové práce.
Přínosy celkem ř. Položka
1 2
3 4 5
Snížení nákladů na skladování dokumentů38 Snížení administrativních nákladů 39 Ušetření času T-H zaměstnanců 40 Snížení nákladů na ztracené dokumenty 41 Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem přínosy Kč
Současná hodnota přínosů 1 648 000 1 374 125
616 000
516 000
516 000
280 000
280 000
280 000
840 000
696 319
3 264 000
3 264 000
3 264 000
9 792 000
8 117 085
480 000
480 000
480 000
1 440 000
1 193 689
4 640 000
4 540 000
4 540 000
13 720 000
11 381 218
Tabulka 12- Celkové přínosy- kompletní outsourcing (Zdroj: autorka)
38
Zahrnuje částku ušetřenou za výstavbu nové archivační místnosti a stávající zaměstnance archivu (viz tabulka 7 přílohy 4) 39 Zahrnuje částku ušetřenou snížením potřeby kopírování dokumentů a snížení nákladů na poštovné (viz tabulka 8 přílohy 4) 40 Ušetřený čas zaměstnanců díky rychlému vyhledávání dokumentů a elektronickému workflow (viz tabulka 9 přílohy 4). 41 Ušetřené náklady na obnovu ztracených dokumentů, které představují 600 Kč na jeden obnovovaný dokument (viz tabulka 10 přílohy 4).
89
14.3.3 Rizika digitalizace dokumentů kompletním outsourcingem
Rizika nákladů na digitalizaci dokumentů
Náklady na hardware- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na hardware.
Náklady na software- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na software.
Náklady na zavedení systému- Náklady na konzultaci a návrh řešení mohou být vyšší, pokud bude archiv ve špatném stavu. Také závisí na počtu druhů dokumentů a jejich uspořádání do složek. Při implementaci systému jsou možné vyšší náklady vzhledem k složitosti současného informačního systému a vzhledem k nedostatečné dokumentaci současného řešení. Také se mohou zvýšit náklady na školení zaměstnanců pro používání DMS, elektronického workflow a skeneru, protože podnikoví zaměstnanci zatím nemají s použitím těchto produktů žádnou zkušenost.
Digitalizace archivu- Náklady na digitalizaci archivu se mohou zvednout, pokud budou dokumenty ve špatném stavu nebo nebudou řádně popsané šanony pro získání základních indexů. Také je třeba počítat s možností potřeby určitého dokumentu v době, kdy je u dodavatele outsourcingu připraven k naskenování. Dokument by pak bylo potřeba přepravit samostatně.
Provozní náklady- Provozní náklady se mohou zvýšit, pokud se zaměstnanci podniku nenaučí efektivně používat skener. Vzhledem k tomu, že indexace a vylepšení obrazu jsou prováděny vzdáleně, nejsou předpokládány další navýšení provozních nákladů.
Přehled rizik nákladů a jejich vyčíslení uvádím v následující tabulce (Tabulka 13).
Rizika nákladů na digitalizaci dokumentů ř. Položka Předpokládané náklady (Kč) 1 2 3 4 5
Náklady na HW Náklady na SW Zavedení systému Digitalizace archivu Provozní náklady
6
Celkem
Korekce na základě rizika
397 188 372 816 220 800 781 500 881 700
100% 100% 112% 110% 105%
Náklady po započítání rizika (Kč) 397 188 372 816 247 296 859 650 925 785
2 654 004
prům. 105,4 %
2 802 735
Jejich současná hodnota (Kč) 329 249 309 046 247 296 859 650 767 430 2 512 671
Tabulka 13- Rizika nákladů na digitalizaci dokumentů- kompletní outsourcing (Zdroj: autorka)
90
Rizika přínosů digitalizace dokumentů
Snížení nákladů na skladování dokumentů- Nejsou předpokládané změny ve výši přínosů. Nová archivační místnost nebude stavěna a zůstane pouze stávající místnost, ve které bude několik málo významných dokumentů, které nebudou skartovány. Výpůjčka těchto dokumentů bude zajišťována pracovnicemi podatelny.
Ušetření času technicko- hospodářských zaměstnanců- Přínosy z ušetření času zaměstnanců mohou být nižší, pokud se zaměstnanci nenaučí efektivně pracovat s novým DMS systémem, a workflow. Vzhledem k outsourcingu digitalizace archivu je předpokládána kvalitní indexace.
Snížení administrativních nákladů- tyto přínosy mohou být nižší, pokud se zaměstnanci nenaučí pracovat s naskenovanými dokumenty a budou je často tisknout a kopírovat. Také náklady na poštovné se nemusí podařit tolik snížit, pokud někteří z plánovaných zákazníků, dodavatelů a partnerů nebudou chtít přejít na elektronický způsob komunikace.
Snížení nákladů na ztracené dokumenty- náklady na ztracené dokumenty nejsou předpokládány, protože za ztracení dokumentů je zodpovědný dodavatel outsourcingu a tato skutečnost včetně plnění náhrady je ošetřena smluvně.
Přehled rizik přínosů a jejich vyčíslení uvádím v následující tabulce (Tabulka 14).
Rizika přínosů digitalizace dokumentů ř. Položka Předpokládané přínosy (Kč) 1 2
3 4 5
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T- H zaměstnanců Snížení nákladů na ztracené dokumenty Celkem
1 648 000
Korekce na základě rizika
Přínosy po započítání rizika (Kč) 100% 1 648 000
Jejich současná hodnota (Kč) 1 374 125
840 000
80%
672 000
557 055
9 792 000
83%
8 127 360
6 737 180
1 440 000
100%
1 440 000
1 193 689
13 720 000
průměrně 90,75 %
11 887 360
9 862 049
Tabulka 14- Rizika přínosů digitalizace dokumentů- kompletní outsourcing (Zdroj: autorka)
91
14.3.4 Flexibilita řešení digitalizace dokumentů kompletním outsourcingem
Zvětšení počtu uživatelů DMS a Workflow- snadné rozšíření počtu uživatelů DMS a workflow, při zvýšení uživatelů workflow o 5 je potřeba dokoupit další licenci.
Zvýšení počtu skenovaných dokumentů denně- je omezeno pouze kapacitou skeneru. Skener Kodak i1220 umožňuje 3000 skenů denně.
Přechod na digitalizaci vlastními silami nebo in-house outsourcing- Pro přechod na digitalizaci vlastními silami by bylo třeba odkoupit pronajímaný HW a SW. Dále dokoupit SW pro skenování a zajistit zaměstnance pro indexaci dokumentů. Pro přechod na in-house outsourcing by bylo nutné navíc pronajmout SW pro skenování a zaměstnance pro indexaci.
Zavedení vytěžování dat z dokumentů- snadné, pouze rozšířením služeb outsourcingu o vytěžení požadovaných dat. Přes SFTP kanál by byla data exportována do databáze.
14.3.5 Shrnutí ekonomických dopadů varianty kompletního outsourcingu Čistá současná hodnota zavedení digitalizace dokumentů kompletním outsourcingem je 9 009 737 Kč a doba návratnosti 4,3 měsíce. Po započítání možného rizika se čistá současná hodnota snižuje na 9 862 049 Kč a doba návratnosti zvyšuje na 5,3 měsíce. Řešení je flexibilní a doba implementace je pouze 2-3 měsíce. Největší rizika představují zaměstnanci podniku, pokud by se nenaučili efektivně pracovat se zavedeným systémem. Všechny hodnoty přehledně zobrazuji v následující tabulce (Tabulka 15).
Souhrn finančních výsledků Celkové náklady (Současná hodnota) Celkové přínosy (Současná hodnota) Úspory celkem (Čistá současná hodnota) ROI Doba návratnosti
Původní odhad
Korekce na základě rizika
2 371 481 Kč
2 512 671 Kč
11 381 218 Kč
9 862 049 Kč
9 009 737 Kč
7 349 378 Kč
379% 4,3 měsíce
292% 5,3 měsíce
Tabulka 15- Souhrn ekonomických dopadů- kompletní outsourcing (Zdroj: autorka)
14.3.6 Technologické a organizační dopady varianty kompletního outsourcingu Zavedení digitalizace dokumentů kompletním outsourcingem nebude znamenat žádné změny v současném informačním systému. Navíc budou přidány dva databázové servery Microsoft SQL
92
Server 2008. Pro zajištění správy digitalizovaných dokumentů bude nainstalován MS SharePoint 2010 Foundation a pro zajištění elektronického workflow software Nintex Workflow Workgroup 2010. Organizační dopady digitalizace dokumentů kompletním outsourcingem budou znamenat snížení počtu zaměstnanců o dvě pracovnice archivu. Díky zavedení digitalizace dokumentů bude ušetřen čas technicko- hospodářských zaměstnanců, který v souhrnu odpovídá devíti pracovním silám. Díky ušetřenému času podnik může rozšířit plánovanou výrobu bez potřeby zvyšování počtu zaměstnanců.
93
14.4 Řešení digitalizace dokumentů vlastními silami Návrh a nabídku řešení digitalizace dokumentů vlastními silami poskytla česká firma YDS s.r.o., která působí v oblasti správy dokumentů a jejich digitalizace. Nabízí dodávku celého řešení pro digitalizace dokumentů, spisovou službu, podatelnu a napojení na datové schránky. Také nabízí služby různých forem outsourcingu a digitalizaci a správu archivu.42 Pro řešení digitalizace dokumentů vlastními silami dodá firma YDS veškerý software a hardware, ten implementuje a vyškolí uživatele pro používání DMS systému, workflow a také pro obsluhu dodaného skeneru. Digitalizaci archivu i digitalizaci denních přírůstků budou provádět zaměstnanci podniku TextilABC sami. Dále také podnik TextilABC sám zajistí koordinaci projektu digitalizace archivu, indexaci neskenovaných dokumentů a jejich opatření časovým razítkem. Papírové dokumenty budou po skenování skartovány. Archiv bude digitalizován postupně v průběhu tří let. Nejdříve budou digitalizovány nejčastěji používané dokumenty. Pro digitalizaci archivu i denních přírůstků dodala firma YDS kvalitní skener a funkcemi vylepšení obrazu a skenovacím programem Kofax Express. Ke skeneru také firma YDS doporučila zakoupit servisní podporu, díky které bude dvakrát ročně zajištěna kompletní údržba skeneru. Naskenování dokumentů o formátu A2- A0 bude provedeno firmou YDS. Pro správu dokumentů a workflow implementuje firma YDS vlastní DMS systém Xenia, který zároveň představuje vhodnou podporu digitálního archivu. Tento systém bude přizpůsoben podmínkám podniku TextilABC a nainstalován. Doba implementace celého řešení je odhadována na 3 měsíce. Dle vyjádření firmy YDS znamená obvykle zajištění digitalizace archivu a denních přírůstků vlastními silami nejméně dvojnásobný počet zaměstnanců, oproti variantě pronájmu vyškolených zaměstnanců od dodavatele řešení (in-house outsourcing). Dále se také zvyšují vzhledem k nedostatku zkušeností podniku TextilABC rizika.
14.4.1 Náklady na digitalizaci dokumentů vlastními silami Celkové náklady se skládají z nákladů na zakoupení hardware a software, z nákladů na zavedení systému a z provozních nákladů. Největší náklady jsou na začátku prvního roku na nákup řešení a dále v průběhu tří let jsou počítány provozní náklady na zaměstnance, kteří budou digitalizovat archiv. Dohromady představují náklady za tři roky částku v současné hodnotě 3 092 210 Kč. Veškeré hardwarové vybavení firma YDS podniku TextilABC dodá a instaluje. Bude zakoupen výkonný dokumentační skener A3 PANASONIC KV-S7075C s maximální zátěž 15 000 stran denně, 42
Blíže jsem společnost YDS charakterizovala v kapitole 13.1.
94
který disponuje jak automatickým podavačem, tak i plochým lože. Dále bude dodána pracovní stanice pro digitalizaci dokumentů, skartovačka s certifikátem od NBÚ a dva databázové servery. Pro zajištění DMS systému a workflow bude nainstalován vlastní software firmy YDS- Xenia. Pro vylepšení skenovaných obrazů a jejich snadnou správu bude dodán skenovací software Kofax Express. Provozní náklady zahrnují náklady na zaměstnance, kteří budou realizovat projekt digitalizace archivu (2 zaměstnanci), dále náklady na koordinaci projektu a na údržbu systému IT oddělením. Také jsou započteny náklady na časové razítko a elektronický podpis. V následující tabulce (Tabulka 16) uvádím souhrn nákladů na digitalizaci dokumentů vlastními silami. Detailně rozpočítané náklady jsou uvedené v tabulkách (Tabulka 1, 2, 3, 4) v příloze (Příloha 5) této diplomové práce.
Náklady celkem ř. Položka
1 2 3 4
Náklady na HW 43 Náklady na SW 44 Zavedení systému45 Provozní náklady 46
5
Celkem
Počáteč. nákl. Kč
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
377 300 523 000 263 500 20 000
20 000 0 0 727 400
20 000 0 0 727 400
20 000 0 0 727 400
Celkem Současná náklady hodnota Kč nákladů 437 300 427 037 523 000 523 000 263 500 263 500 2 202 200 1 878 673
1 183 800
747 400
747 400
747 400
3 426 000
3 092 210
Tabulka 16- Celkové náklady- řešení vlastními silami (Zdroj: autorka)
14.4.2 Přínosy digitalizace dokumentů vlastními silami Celkové přínosy digitalizace dokumentů vlastními silami znamenají snížení nákladů za tři roky oproti zachování současného stavu zpracování dokumentů v současné hodnotě o 9 027 317 Kč. Přínosy ze zavedení elektronického workflow a digitalizace denních přírůstků nastanou již od prvního roku. Přínosy z digitalizace archivu se budou zvyšovat v průběhu tří let, kdy bude archiv postupně digitalizován. Při zavedení digitalizace dokumentů nebude třeba zřizovat novou místnost pro archiv. Po dvou letech, kdy bude digitalizována většina archivu, již nebude nutné zaměstnávat dvě pracovnice archivu. Některé dokumenty, které nebudou skartovány, zůstanou v současné archivní místnosti a jejich případnou výpůjčku zajistí pracovnice podatelny. Podnik TextilABC dále ušetří na nákladech na 43
Náklady na nákup HW- skeneru, 2 serverů, skenovací stanice a skartovačky (viz tabulka 1 v příloze 5). Náklady na nákup licencí SW- Microsoft SQL Server, DMS Xenia a Kofax Express (viz tabulka 2 v příloze 5). 45 Zahrnuje náklady na počáteční konzultaci a návrh řešení, náklady na implementaci SW a HW, nastavení DMS, náklady na školení zaměstnanců pro DMS, workflow a obsluhu skeneru (viz tabulka 3 v příloze 5). 46 Provozní náklady zahrnují náklady zaměstnance, kteří budou digitalizovat archiv a denní přírůstky, náklady na koordinaci digitalizace, náklady na údržbu systému, podporu a časové razítko (viz tabulka 4 v příloze 5). 44
95
papír, kopírování a poštovné. Po zavedení digitalizace dokumentů se značně sníží se počet ztracených dokumentů a klesnou náklady na obnovu těchto dokumentů o 456 000 Kč ročně. Díky zavedení digitalizace dokumentů ušetří zaměstnanci čas na hledání dokumentů. Celkový ušetřený bude po zdigitalizování většiny archivu na konci druhého roku v souhrnu odpovídat v následujících letech celkem devíti pracovním silám. Ušetřený čas zaměstnanců bude moci podnik využít pro plánované rozšíření výroby. V následující tabulce (Tabulka 17) uvádím souhrn přínosů digitalizace dokumentů vlastními silami. Detailně rozpočítané přínosy jsou uvedené v tabulkách (Tabulka 6, 7, 8, 9) v příloze (Příloha 5) této diplomové práce.
Přínosy celkem ř. Položka
1
Snížení nákladů na skladování dokumentů 47 Snížení administrativních nákladů 48 Ušetření času T-H zaměstnanců 49 Snížení nákladů na ztracené dokumenty 50
2 3 4 5
Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem přínosy Kč
136 000
276 000
516 000
Současná hodnota přínosů 928 000 739 414
240 000
260 000
280 000
780 000
643 425
1 824 000
2904000
3264000
7 992 000
6 510 473
456 000
456 000
456 000
1 368 000
1 134 005
2 656 000
3 896 000
4516000
11 068 000
9 027 317
Tabulka 17- Celkové přínosy- řešení vlastními silami (Zdroj: autorka)
14.4.3 Rizika digitalizace dokumentů vlastními silami
Rizika nákladů na digitalizaci dokumentů
Náklady na hardware- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na hardware.
47
Zahrnuje částku ušetřenou za výstavbu nové archivační místnosti a stávající zaměstnance archivu (viz tabulka 6 přílohy 5) 48 Zahrnuje částku ušetřenou snížením potřeby kopírování dokumentů a snížení nákladů na poštovné (viz tabulka 7 přílohy 5) 49 Ušetřený čas zaměstnanců díky rychlému vyhledávání dokumentů a elektronickému workflow (viz tabulka 8 přílohy 5). 50 Ušetřené náklady na obnovu ztracených dokumentů, které představují 600 Kč na jeden obnovovaný dokument (viz tabulka 9 přílohy 5).
96
Náklady na software- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na software.
Náklady na zavedení systému- Náklady na konzultaci a návrh řešení mohou být vyšší, pokud bude archiv špatně uspořádaný. Také závisí na počtu druhů dokumentů a jejich uspořádání do složek. Při zavádění systému jsou možné vyšší náklady vzhledem k složitosti současného informačního systému a vzhledem k nedostatečné dokumentaci současného řešení. Také se mohou zvýšit náklady na školení zaměstnanců pro používání DMS, elektronického workflow a skeneru, protože podnikoví zaměstnanci zatím nemají s použitím těchto produktů žádnou zkušenost.
Provozní náklady- Provozní náklady se mohou zvýšit, pokud se zaměstnanci podniku nenaučí efektivně skenovat a indexovat dokumenty. Pak by bylo nutné přidat další pracovní sílu. Také je důležitá dobrá koordinace projektu digitalizace.
Přehled rizik nákladů a jejich vyčíslení uvádím v následující tabulce (Tabulka 18).
Rizika nákladů na digitalizaci dokumentů ř. Položka Předpokládané náklady (Kč) 1 2 3 4
Náklady na HW Náklady na SW Zavedení systému Provozní náklady
437 300 523 000 263 500 2 202 200
5
Celkem
3 426 000
Korekce na Náklady po Jejich základě rizika započítání současná rizika (Kč) hodnota (Kč) 100% 437 300 427 037 100% 523 000 523 000 112% 295 120 295 120 120% 2 642 640 2 190 723 prům. 108 %
3 898 060
3 435 880
Tabulka 18- Rizika nákladů na digitalizaci dokumentů- řešení vlastními silami (Zdroj: autorka)
Rizika přínosů digitalizace dokumentů
Snížení nákladů na skladování dokumentů- Snížení nákladů může být menší než plánované, pokud nebude digitalizace archivu postupovat dostatečně rychle a bude potřeba déle využívat zaměstnance archivu.
Ušetření času technicko- hospodářských zaměstnanců- Přínosy z ušetření času zaměstnanců mohou být nižší, pokud se zaměstnanci nenaučí efektivně pracovat s novým DMS systémem, workflow a rychle vyhledávat dokumenty. Také závisí na kvalitě indexace digitalizovaných dokumentů.
Snížení administrativních nákladů- tyto přínosy mohou být nižší, pokud se zaměstnanci nenaučí pracovat s naskenovanými dokumenty a budou je často tisknout a kopírovat. Také 97
náklady na poštovné se nemusí podařit tolik snížit, pokud někteří plánovaní zákazníci, dodavatelé a partneři nebudou chtít přejít na elektronický způsob komunikace.
Snížení nákladů na ztracené dokumenty- přínosy mohou být menší, pokud by zaměstnanci nebyli při digitalizaci dokumentů dostatečně pečliví.
Přehled rizik přínosů a jejich vyčíslení uvádím v následující tabulce (Tabulka 19).
Rizika přínosů digitalizace dokumentů ř. Položka Předpokládané přínosy (Kč) 1
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T- H zaměstnanců Snížení nákladů na ztracené dokumenty
2
3 4 5
Celkem
Korekce na základě rizika
928 000
Přínosy po započítání rizika (Kč) 90% 835 200
Jejich současná hodnota (Kč) 660 472
780 000
80%
624 000
514 740
7 992 000
83%
6 633 360
5 403 693
1 368 000
97%
1 326 960
1 099 984
11 068 000
prům. 87,5 %
9 419 520
7 678 889
Tabulka 19- Rizika přínosů z digitalizace dokumentů- řešení vlastními silami (Zdroj: autorka)
14.4.4 Flexibilita řešení digitalizace dokumentů vlastními silami
Zvětšení počtu uživatelů DMS a Workflow- snadné rozšíření počtu uživatelů DMS a workflow pomocí zakoupení dalších licencí.
Zvýšení počtu skenovaných dokumentů denně- je omezeno pouze kapacitou skeneru. Skener Panasonic KV-S7075C umožňuje až 15 000 skenů denně.
Přechod na digitalizaci outsourcingem in-house nebo kompletním outsourcing- Přechod na kompletní outsourcing nebo in-house outsourcing je v budoucnu možný. K tomuto kroku by bylo nutné přistoupit, pokud by podnik TextilABC projekt digitalizace archivu a denních přírůstků nezvládl.
Zavedení vytěžování dat z dokumentů- snadné, pouze dokoupením software pro vytěžování dat a jeho implementací do stávajícího systému.
98
14.4.5 Shrnutí ekonomických dopadů varianty řešení vlastními silami Čistá současná hodnota zavedení digitalizace dokumentů řešené vlastními silami je 5 935 107 Kč a doba návratnosti 9,2 měsíce. Po započítání možného rizika se čistá současná hodnota snižuje na 4 243 009 Kč a doba návratnosti zvyšuje na 11,7 měsíce. Řešení je flexibilní a doba implementace je předpokládaná na 3 měsíce. Přínosy ze zavedení digitalizace se budou zvyšovat v průběhu tří let společně s rostoucím podílem zdigitalizovaných dokumentů v archivu. Největším rizikem je schopnost zaměstnanců podniku TextilABC zvládnout projekt digitalizace archivu a naučit se efektivně obsluhovat skener. Náklady na zavedení řešení digitalizace dokumentů vlastními silami jsou nejvyšší na počátku prvního roku, naopak přínosy jsou nejvyšší až ve třetím roce. Všechny hodnoty přehledně zobrazuji v následující tabulce (Tabulka 20).
Souhrn finančních výsledků Celkové náklady (Současná hodnota) Celkové přínosy (Současná hodnota) Úspory celkem (Čistá současná hodnota) ROI Doba návratnosti
Původní odhad
Korekce na základě rizika
3 092 210 Kč
3 435 880 Kč
9 027 317 Kč
7 678 889 Kč
5 935 107 Kč
4 243 009 Kč
191 % 9,2 měsíce
123 % 11,7 měsíce
Tabulka 20- Souhrn ekonomických dopadů- řešení vlastními silami (Zdroj: autorka)
14.4.6 Technologické a organizační dopady varianty řešení vlastními silami Zavedení digitalizace dokumentů řešením vlastními silami nebude znamenat žádné změny v současném informačním systému. Navíc budou přidány dva databázové servery Microsoft SQL Server 2008. Pro zajištění správy digitalizovaných dokumentů a elektronického workflow bude nainstalován vlastní software firmy YDS- Xenia. Dále bude nainstalován Kofax Express pro vylepšení skenovaných obrazů a jejich snadnou správu. Organizační dopady digitalizace dokumentů vlastními silami budou znamenat snížení počtu zaměstnanců archivu a to postupně. V prvním roce zůstanou obě pracovnice archivu, v druhém roce již jen jedna a v dalších letech již zajistí výpůjčku několika málo skladovaných dokumentů pracovnice podatelny. Díky zavedení digitalizace dokumentů bude ušetřen čas technicko- hospodářských zaměstnanců, který bude po zdigitalizování většiny archivu na konci druhého roku v souhrnu odpovídat v následujících letech celkem devíti pracovním silám. Tuto úsporu lze využít pro plánované rozšíření výroby. Pro zajištění údržby implementovaného systému a koordinace projektu budou 99
využiti stávající zaměstnanci. Pro skenování, přípravu a indexaci dokumentů budou přijati dva zaměstnanci.
100
14.5 Řešení digitalizace dokumentů in-house outsourcingem Řešení digitalizace dokumentů in-house outsourcingem navrhla společnost Syconix a.s., která nabízí rozsáhlé portfolio služeb v oblasti digitalizace a správy dokumentů. Zajišťuje implementaci kompletních systémů, optimalizaci workflow nebo zřízení elektronického archivu. Poskytuje také outsourcing v různých formách.51 Vzhledem k tomu, že na digitalizaci archivu podnik TextilABC nespěchá, navrhla společnost Syconix digitalizaci dokumentů in-house outsourcingem tak, že podniku TextilABC pronajme veškeré hardwarové i softwarové vybavení a také vlastního zaměstnance, který v podniku TextilABC bude digitalizovat denní přírůstky dokumentů a postupně během tří let i celý archiv. Dokumenty bude také připravovat, indexovat, opatřovat časovým razítkem a elektronickou značkou a následně důvěrně skartovat. Na prováděnou digitalizaci bude jedenkrát týdně dohlížet manažer společnosti Syconix a také bude s podnikem TextilABC řešit případné další požadavky. Skenování dokumentů formátu A2A0 zajistí společnost Syconix na vlastním velkoformátovém skeneru. DMS systém a workflow budou nainstalovány v podniku. Potřebné hardwarové a softwarové vybavení bude podniku TextilABC pronajato. Společnost Syconix provede potřebnou implementaci systému, zavedení elektronického podpisu a vyškolí zaměstnance. Dále bude společnost Syconix udržovat systém a provádět servis skeneru. Smlouva o in-house outsourcingu bude uzavřena na dobu tří let. Na toto období jsou tedy rozpočítány veškeré náklady a přínosy. Platby budou probíhat měsíčně. Předpokládaná doba implementace je 2 měsíce.
14.5.1 Náklady na digitalizaci dokumentů in-house outsourcingem Celkové náklady se skládají z nákladů na pronájem hardware a software, z nákladů na zavedení systému a z provozních nákladů. Dohromady představují částku za tři roky v současné hodnotě 2 429 464 Kč. Z hardwarového vybavení bude pronajat skener A3 Panasonic KV-S7065C, pracovní stanice pro digitalizaci dokumentů, skartovačka s certifikátem od NBÚ a dva databázové servery. Jako skenovací software bude dodán Kofax Express. Pro zajištění DMS systému bude nainstalován MS SharePoint 2010 Foundation, který lze nainstalovat k produktu MS Windows Server zdarma. Workflow bude realizováno, stejně jako v nabídce společnosti Océ- Česká republika, prostřednictvím systému Nintex Workflow Workgroup 2010. Oba systémy společnost Syconix implementuje a také vyškolí uživatele pro jejich používání. Provozních náklady zahrnují především náklady na pronajatého zaměstnance a manažerský dohled jedenkrát týdně. 51
Blíže jsem společnost Syconix charakterizovala v kapitole 13.1.
101
V následující tabulce (Tabulka 21) uvádím souhrn nákladů na digitalizaci dokumentů in-house outsourcingem. Detailně rozpočítané náklady jsou uvedené v tabulkách (Tabulka 1, 2, 3, 4) v příloze (Příloha 6) této diplomové práce.
Náklady celkem ř.
Položka
Počáteč. 1.rok/ Kč nákl. Kč
2.rok/ Kč
3.rok/ Kč
1 2 3 4
Náklady na HW 52 Náklady na SW 53 Zavedení systému54 Provozní náklady 55
0 0 180 000 0
145 222 200 388 0 559 000
145 222 200 388 0 559 000
145 222 200 388 0 559 000
Celkem Současná náklady hodnota Kč nákladů 435 666 360 979 601 164 498 335 180 000 180 000 1 677 000 1 390 150
5
Celkem
180 000
9 04 610
9 04 610
9 04 610
2 893 830
2 429 464
Tabulka 21- Celkové náklady- in-house outsourcing (Zdroj: autorka)
14.5.2 Přínosy digitalizace dokumentů in-house outsourcingem Celkové přínosy digitalizace dokumentů in-house outsourcingem znamenají snížení nákladů za tři roky oproti zachování současného stavu zpracování dokumentů v současné hodnotě o 9 087 002 Kč. Přínosy ze zavedení elektronického workflow a digitalizace denních přírůstků nastanou již od prvního roku. Přínosy z digitalizace archivu se budou zvyšovat v průběhu tří let, kdy bude archiv postupně digitalizován. Při zavedení digitalizace dokumentů nebude třeba zřizovat novou místnost pro archiv. Po dvou letech, kdy bude zdigitalizována většina archivu, již nebude nutné zaměstnávat dvě pracovnice archivu. Některé dokumenty, které nebudou skartovány, zůstanou v současné archivní místnosti a jejich případnou výpůjčku zajistí pracovnice podatelny. Podnik TextilABC dále ušetří na nákladech na papír, kopírování a poštovné. Po zavedení digitalizace dokumentů se převede zodpovědnost za dokumenty na dodavatele a sníží se tak počet ztracených dokumentů. Náklady na obnovu těchto dokumentů klesnou o 480 000 Kč ročně. Díky zavedení digitalizace dokumentů ušetří zaměstnanci čas na hledání dokumentů. Celkový ušetřený bude po zdigitalizování většiny archivu na konci druhého roku v souhrnu odpovídat
52
Náklady na pronájem HW- skeneru, 2 serverů, skenovací stanice a skartovačky (viz tabulka 1 v příloze 6). Náklady na pronájem SW- Microsoft SQL Server a Nintex Workflow Workgroup a Kofax Express (viz tabulka 2 v příloze 6). 54 Zahrnuje náklady na počáteční konzultaci a návrh řešení, náklady na implementaci SW a HW, nastavení DMS, náklady na školení zaměstnanců pro DMS a workflow (viz tabulka 3 v příloze 6). 55 Provozní náklady zahrnují náklady na externího zaměstnance firmy Syconix a manažerský dohled, dále pak náklady na časová razítka. (viz tabulka 4 v příloze 6). 53
102
v následujících letech celkem devíti pracovním silám. Ušetřený čas zaměstnanců bude moci podnik využít pro plánované rozšíření výroby. V následující tabulce (Tabulka 22) uvádím souhrn přínosů digitalizace dokumentů in-house outsourcingem. Detailně rozpočítané přínosy jsou uvedené v tabulkách (Tabulka 6, 7, 8, 9) v příloze (Příloha 6) této diplomové práce.
Přínosy celkem ř. Položka
1
Snížení nákladů na skladování dokumentů56 Snížení administrativních nákladů 57 Ušetření času T-H zaměstnanců 58 Snížení nákladů na ztracené dokumenty 59
2
3 4 5
Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem přínosy Kč
136 000
276 000
516 000
Současná hodnota přínosů 928 000 739 414
240 000
260 000
280 000
780 000
643 426
1 824 000
2 904 000
3 264 000
7 992 000
6 510 473
480 000
480 000
480 000
1 440 000
1 193 689
2 680 000
3 920 000
4 540 000
11 140 000
9 087 002
Tabulka 22- Celkové přínosy- in-house outsourcing (Zdroj: autorka)
14.5.3 Rizika digitalizace dokumentů in-house outsourcingem
Rizika nákladů na digitalizaci dokumentů
Náklady na hardware- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na hardware.
Náklady na software- vzhledem k počáteční konzultaci a návrhu řešení nejsou předpokládány vyšší náklady na software.
Náklady na zavedení systému- Náklady na konzultaci a návrh řešení mohou být vyšší, pokud bude archiv špatně uspořádaný. Také závisí na počtu druhů dokumentů a jejich uspořádání
56
Zahrnuje částku ušetřenou za výstavbu nové archivační místnosti a stávající zaměstnance archivu (viz tabulka 6 přílohy 6) 57 Zahrnuje částku ušetřenou snížením potřeby kopírování dokumentů a snížení nákladů na poštovné (viz tabulka 7 přílohy 6) 58 Ušetřený čas zaměstnanců díky rychlému vyhledávání dokumentů a elektronickému workflow (viz tabulka 8 přílohy 6). 59 Ušetřené náklady na obnovu ztracených dokumentů, které představují 600 Kč na jeden obnovovaný dokument (viz tabulka 9 přílohy 6).
103
do složek. Při zavádění systému jsou možné vyšší náklady vzhledem k složitosti současného informačního systému a vzhledem k nedostatečné dokumentaci současného řešení. Také se mohou zvýšit náklady na školení zaměstnanců pro používání DMS, elektronického workflow a skeneru, protože podnikoví zaměstnanci zatím nemají s použitím těchto produktů žádnou zkušenost.
Provozní náklady- Není předpokládané zvýšení nákladů na provoz digitalizace. Částka na zaměstnance skenovací stanice a jeho manažerský dohled je domluvena smluvně s dodavatelem digitalizace.
Přehled rizik nákladů a jejich vyčíslení uvádím v následující tabulce (Tabulka 23).
Rizika nákladů na digitalizaci dokumentů ř. Položka Předpokládané náklady (Kč)
Korekce na základě rizika
1 2 3 4
Náklady na HW Náklady na SW Zavedení systému Provozní náklady
435 666 601 164 180 000 1 677 000
100% 100% 110% 100%
5
Celkem
2 893 830
prům. 102,5 %
Náklady po Jejich započítání současná rizika (Kč) hodnota (Kč) 435 666 360 979 601 164 498 335 198 000 198 000 1 677 000 1 390 150 2 911 830
2 447 464
Tabulka 23- Rizika nákladů na digitalizaci dokumentů- in-house outsourcing (Zdroj: autorka)
Rizika přínosů digitalizace dokumentů
Snížení nákladů na skladování dokumentů- Změny ve výši přínosů ze snížení nákladů na skladování dokumentů mohou nastat, pokud by digitalizace archivu probíhala pomaleji a bylo by potřeba déle využívat zaměstnance archivu. Vzhledem k outsourcingu digitalizace archivu není tato skutečnost významně očekávána.
Ušetření času technicko- hospodářských zaměstnanců- Přínosy z ušetření času zaměstnanců mohou být nižší, pokud se zaměstnanci nenaučí efektivně pracovat s novým DMS systémem, workflow a také rychle vyhledávat dokumenty. Vzhledem k outsourcingu digitalizace archivu je předpokládána kvalitní indexace.
Snížení administrativních nákladů- tyto přínosy mohou být nižší, pokud se zaměstnanci nenaučí pracovat s naskenovanými dokumenty a budou je často tisknout a kopírovat. Také náklady na poštovné se nemusí podařit tolik snížit, pokud někteří plánovaní zákazníci, dodavatelé a partneři nebudou chtít přejít na elektronický způsob komunikace.
104
Snížení nákladů na ztracené dokumenty- náklady na ztracené dokumenty nejsou předpokládány, protože za ztracení dokumentů je zodpovědný dodavatel outsourcingu a tato skutečnost včetně plnění náhrady je ošetřena smluvně.
Přehled rizik přínosů a jejich vyčíslení uvádím v následující tabulce (Tabulka 24).
Rizika přínosů digitalizace dokumentů ř. Položka Předpokládané přínosy (Kč) 1
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T- H zaměstnanců Snížení nákladů na ztracené dokumenty
2
3 4 5
Celkem
Korekce na základě rizika
928 000
Přínosy po započítání rizika (Kč) 98% 909 440
Jejich současná hodnota (Kč) 724 625
780 000
80%
624 000
514 740
7 992 000
83%
6 633 360
5 403 693
1 440 000
100%
1 440 000
1 193 689
11 140 000
průměrně 90,25 %
9 606 800
7 836 747
Tabulka 24- Rizika přínosů z digitalizace dokumentů- in-house outsourcing (Zdroj: autorka)
14.5.4 Flexibilita řešení digitalizace dokumentů in-house outsourcingem
Zvětšení počtu uživatelů DMS a Workflow- snadné rozšíření počtu uživatelů DMS a workflow, při zvýšení uživatelů o 5 je potřeba dokoupit další licenci.
Zvýšení počtu skenovaných dokumentů denně- je omezeno pouze kapacitou skeneru. Skener Panasonic KV-S7075C umožňuje až 15 000 skenů denně.
Přechod na digitalizaci vlastními silami nebo kompletní outsourcing- Pro přechod na digitalizaci vlastními silami by bylo třeba odkoupit pronajímaný HW a SW a zajistit vlastní zaměstnance pro skenování denních přírůstků dokumentů i archivu. Přechod na kompletní outsourcing by byl vzhledem k zakoupenému vysokokapacitnímu skeneru a nainstalovanému software pro skenování značně nevýhodný.
Zavedení vytěžování dat z dokumentů- snadné, pouze dokoupením software pro vytěžování dat a jeho implementací do stávajícího systému.
105
14.5.5 Shrnutí ekonomických dopadů varianty in-house outsourcingu Čistá současná hodnota zavedení digitalizace dokumentů in-house outsourcingem je 6 657 538 Kč a doba návratnosti 4,9 měsíce. Po započítání možného rizika se čistá současná hodnota snižuje na 5 389 283 Kč a doba návratnosti zvyšuje na 5,7 měsíce. Řešení je flexibilní a doba implementace je plánována na 2 měsíce. Největší rizika představují zaměstnanci podniku, pokud by se nenaučili efektivně pracovat se zavedeným systémem. Všechny hodnoty přehledně zobrazuji v následující tabulce (Tabulka 25).
Souhrn finančních výsledků Celkové náklady (Současná hodnota) Celkové přínosy (Současná hodnota) Úspory celkem (Čistá současná hodnota) ROI Doba návratnosti
Původní odhad
Korekce na základě rizika
2 429 464 Kč
2 447 464 Kč
9 087 002 Kč
7 836 747 Kč
6 657 538 Kč
5 389 283 Kč
274% 4,9 měsíce
220% 5,7 měsíce
Tabulka 25- Souhrn ekonomických dopadů- in-house outsourcing (Zdroj: autorka)
14.5.6 Technologické a organizační dopady varianty in-house outsourcingu Zavedení digitalizace dokumentů in-house outsourcingem nebude znamenat žádné změny v současném informačním systému. Navíc budou přidány dva databázové servery Microsoft SQL Server 2008. Pro zajištění správy digitalizovaných dokumentů bude nainstalován MS SharePoint 2010 Foundation a pro zajištění elektronického workflow software Nintex Workflow Workgroup 2010. Pro digitalizaci dokumentů bude nainstalován skenovací software Kofax Express. Organizační dopady digitalizace dokumentů in-house outsourcingem budou znamenat snížení počtu zaměstnanců archivu a to postupně. V prvním roce zůstanou obě pracovnice archivu, v druhém roce již jen jedna a v dalších letech již zajistí výpůjčku několika málo skladovaných dokumentů pracovnice podatelny. Díky zavedení digitalizace dokumentů bude ušetřen čas technickohospodářských zaměstnanců, který bude po zdigitalizování většiny archivu na konci druhého roku v souhrnu odpovídat v následujících letech celkem devíti pracovním silám. Tuto úsporu lze využít pro plánované rozšíření výroby.
106
14.6 Porovnání jednotlivých variant digitalizace dokumentů Dle souhrnu finančních výsledků tří uvažovaných přístupů k řešení digitalizace dokumentů (Tabulka 26), je bez započítání rizika ekonomicky nejvhodnější varianta kompletního outsourcingu. Návratnost investice do tohoto řešení je celých 379%, doba návratnosti pouze 4,3 měsíce a čistá současná hodnota 9 009 737 Kč. Nejdelší dobu návratnosti, celých 9,2 měsíce, má varianta řešení digitalizace dokumentů vlastními silami. Tato varianta má také mnohem menší čistou současnou hodnotu než varianta kompletního outsourcingu, jen 5 935 107 Kč. Varianta in-house outsourcingu má dobu návratnosti bez započítání rizika jen 4,9 měsíce, ale čistá současná hodnota je pouze 6 657 538 Kč. Rozdílné výše doby návratnosti a čistých současných hodnot řešení jsou dány především dobou, kdy bude digitalizován archiv a tedy, kdy nastanou významné přínosy z digitalizace archivu. U varianty kompletního outsourcingu by digitalizace archivu nastala v prvním měsíci, zatímco u variant řešení vlastními silami a in-house outsourcingu je plánováno archiv digitalizovat průběžně po dobu tří let na zakoupeném (pronajatém) hardwarové a softwarovém vybavení. Tato varianta také znamená průběžné náklady na zaměstnance digitalizačního pracoviště. Doba návratnosti se liší zejména dle výše nákladů, jaké budou vynaloženy v prvním roce. U varianty řešení vlastními silami, kdy je potřeba na začátku prvního roku nakoupit veškeré softwarové a hardwarové vybavení, je doba návratnosti nejdelší, 9 měsíců. Nejmenší investice do tohoto vybavení jsou u varianty kompletního outsourcingu, kdy bude v podniku TextilABC pouze nainstalován skener a DMS a workflow software. Výhodou outsourcingu je také přenesení zodpovědnosti za zpracování dokumentů na dodavatele outsourcingu a podnik TextilABC tak nebude nést náklady na ztracené dokumenty. Doba implementace je u všech variant odhadována do 3 měsíců.
Souhrn finančních výsledků Celkové náklady (Současná hodnota) Celkové přínosy (Současná hodnota) Úspory celkem (Čistá současná hodnota) ROI Doba návratnosti
Kompletní outsourcing
Řešení vlastními silami
In-house outsourcing
2 371 481 Kč
3 092 210 Kč
2 429 464 Kč
11 381 218 Kč
9 027 317 Kč
9 087 002 Kč
9 009 737 Kč
5 935 107 Kč
6 657 538 Kč
379% 4,3 měsíce
191 % 9,2 měsíce
274% 4,9 měsíce
Tabulka 26- Porovnání variant bez započítání rizika (Zdroj: autorka)
Jak je vidět z následující tabulky (Tabulka 27), po započítání rizika zůstává stále jednoznačně nejvýhodnější variantou kompletní outsourcing. Ukazatel návratnosti investice se snížil na 292% a 107
čistá současná hodnota řešení na 7 349 378 Kč. Varianta řešení vlastními silami je po započítání rizika stále nejméně výhodnou. Doba návratnosti se prodloužila téměř na jeden rok- 11, 7 měsíce, a čistá současná hodnota řešení je 4 243 009 Kč. S dobou návratnosti 5,7 měsíce a čistou současnou hodnotou 5 389 283 Kč zůstal in-house outsourcing druhou nejvhodnější variantou. Z rizik lze jako největší riziko ve všech variantách uvést schopnost zaměstnanců naučit se efektivně pracovat s novými technologiemi. Toto riziko je významné zejména pro výši nákladů u varianty řešení vlastními silami, kdy hrozí, že zaměstnanci podniku TextilABC nebudou schopni správně využívat technologie a náklady a doba digitalizace se zvýší.
Souhrn finančních výsledků Celkové náklady (Současná hodnota) Celkové přínosy (Současná hodnota) Úspory celkem (Čistá současná hodnota) ROI Doba návratnosti
Kompletní outsourcing
Řešení vlastními silami
In-house outsourcing
2 512 671 Kč
3 435 880 Kč
2 447 464 Kč
9 862 049 Kč
7 678 889 Kč
7 836 747 Kč
7 349 378 Kč
4 243 009 Kč
5 389 283 Kč
292% 5,3 měsíce
123 % 11,7 měsíce
220% 5,7 měsíce
Tabulka 27- Porovnání variant se započítáním rizika (Zdroj: autorka)
Všechna řešení jsou flexibilní. Zvýšení počtu uživatelů systému neznamená v žádné z variant významné změny. Zvýšení počtu skenovaných dokumentů denně je pak omezeno kapacitou skeneru a také zvolenou licencí Kofax Express. Rozšíření vytěžování dat z dokumentů by bylo nejjednodušší u varianty kompletního outsourcingu, kdy by ani nebylo potřeba instalovat v podniku nový software. U ostatních dvou variant by bylo nutné instalovat software pro vytěžování dat z dokumentů, nicméně obě řešení jsou na tuto možnost rozšíření připravena. Podnik TextilABC bude díky zavedení digitalizace dokumentů získávat přínosy především v podobě ušetřeného času technicko-hospodářských zaměstnanců na práci s dokumenty. Tento čas bude moci využít pro plánované rozšíření výroby podniku bez potřeby najímání nových pracovních sil. Protože však u variant řešení vlastními silami a in-house outsourcingu bude archiv digitalizován v průběhu tří let, bude se ušetřený čas zaměstnanců zvyšovat postupně. Dále bude značně zkráceno workflow a zmenší se administrativní náklady na papír, tisk a poštovné a také náklady na skladování dokumentů v archivu. Zavedení digitalizace dokumentů je pro podnik také vhodné, protože:
Rychlejší workflow povede ke zrychlení řady navazujících procesů.
Dokumenty jsou lépe zabezpečeny proti poškození, ztrátě či neoprávněnému přístupu.
108
Snadné vyhledávání a dostupnost dokumentů odkudkoli povede k vyšší efektivitě zaměstnanců.
V případě soudních sporů nebo finančních auditů budou všechny dokumenty snadno dohledatelné. Z pohledu technologických změn nebude znamenat zavedení digitalizace žádné zásahy do
současného informačního systému podniku ani v jedné z variant. Firmy Océ a Syconix navrhly pro požadovaný DMS systém instalovat MS SharePoint 2010 Foundation, který je pro držitele licence MS Windows server zdarma. Tato varianta má dostačující funkčnost a je dalším produktem firmy Microsoft, která by byla v podniku TextilABC nainstalována. To je vhodné, protože zaměstnanci podniku TextilABC jsou na práci s produkty společnosti Microsoft zvyklí a zvyšuje se pravděpodobnost, že se s tímto produktem naučí efektivně pracovat. Nevýhodou je ale rostoucí závislost na společnosti Microsoft. Pro realizaci workflow navrhli firmy Océ a Syconix použít software Nintex Workflow Workgroup 2010, který je nadstavbou pro MS SharePoint. Firma YDS má vyvinutý vlastní DMS a workflow software Xenia. Tento produkt by byl oproti MS SharePoint více přizpůsoben potřebám podniku TextilABC a mohl by tedy lépe podporovat podnikové procesy. Organizační změny budou po zavedení digitalizace dokumentů znamenat snížení počtu zaměstnanců o dvě pracovnice archivu a to v případě řešení kompletním outsourcingem téměř okamžitě a v případě in-house outsourcingu a řešení vlastní mi silami postupně, v průběhu dvou let.
14.7 Závěr případové studie Po vyčíslení nákladů, přínosů a rizik uvažovaných variant přístupů k řešení digitalizace dokumentů (kompletním outsourcingem, in-house outsourcingem a řešením vlastními silami) je při rozpočítání na 3 roky nejvhodnější variantou kompletní outsourcing. A to nejen z důvodů ekonomických, ale také z důvodu největší flexibility a přenesení zodpovědnosti za zpracovávané dokumenty. Pomocí metody TEI jsem vypočítala hodnotu návratnosti digitalizace dokumentů kompletním outsourcingem po započítání rizika 292%. Čistá současná hodnota řešení je 7 349 378 Kč, přičemž náklady v současné hodnotě po započtení rizika budou během tří let znamenat částku ve výši 2 512 671 Kč. Nejvyšší náklady budou v průběhu prvního roku, kdy bude digitalizován archiv a to celkem 1 552 868 Kč. Investice se podniku TextilABC vrátí za 5,3 měsíce. Pro podnik je výhodnější realizovat digitalizaci archivu co nejrychleji, než ji realizovat v průběhu tří let na zakoupeném hardwarovém a softwarovém vybavení, jak bylo uvažováno ve variantách in-house outsourcingu a řešení vlastními silami.
Všechny tři uvažované varianty mají i po započítání rizika hodnotu
návratnosti vyšší než 100% a dobu návratnosti investice do jednoho roku.
109
15 Závěr Digitalizace dokumentů je rychle se rozvíjející oblastí, která umožňuje včlenění papírových dokumentů mezi ostatní elektronický podnikový obsah. Díky možnosti outsourcingu se stala digitalizace dokumentů dostupnou technologií i pro menší firmy. Z pohledu životního cyklu podnikového obsahu je digitalizace dokumentů na začátku cyklu, kdy ve vstupní fázi převádí papírové dokumenty do elektronické podoby. Digitalizace dokumentů může být prováděna za dvěma účely. Jednak může být jejím cílem získání obrazu dokumentu a jednak vytěžení dat. V současné době zatím více organizací používá digitalizaci pro získání obrazu dokumentu. Tyto obrazy jsou pak archivovány nebo využívány pro elektronické workflow. Při automatické indexaci dokumentů nebo vytěžování dat se využívají technologie rozpoznání znaků OCR, ICR, OMR a BCR pro čtení čárových kódů. Rozpoznávací přesnost těchto technologií je již velmi vysoká a jsou na nich založeny softwarové nástroje pro rozpoznání znaků a vytěžení dat. V České republice jsou nejpoužívanějšími produkty nástroje společností ABBYY, Nuance, I.R.I.S. a Kofax. Pro rozpoznání dokumentů lze také využít webovou službu ABBYY FineReader Online. Klíčovou hardwarovou komponentou pro digitalizaci dokumentů je skener. Ač jsou pro digitalizaci nejvíce používaná MFP zařízení, pro kvalitní skenovaní je vhodné zvolit dokumentační skener. Takový skener by měl být také vybaven nástroji pro vylepšení skenovaného obrazu. Nejčastěji se používá skenovací software VRS od společnosti Kofax. S digitalizací dokumentů úzce souvisí právní prostředí dané země, které stanovuje požadavky na archivaci a zajištění důvěryhodnosti dokumentů. K digitalizaci dokumentů lze přistupovat formou kompletního outsourcingu, in-house outsourcingu, offshoringu nebo řešením digitalizace vlastními silami. Pro zvolení vhodného přístupu je vždy nutné zjistit ekonomické, technologické a organizační dopady konkrétní varianty. Pro ukázku hodnocení variant a nalezení vhodného řešení pro modelový podnik jsem vytvořila v druhé části diplomové práce případovou studii. V této studii jsem na základě nabídek třech dodavatelů digitalizace na českém trhu porovnala varianty přístupu k řešení digitalizace dokumentů kompletním outsourcingem, in-house outsourcingem a řešením vlastními silami. Nejvhodnější variantou pro modelový podnik se stal kompletní outsourcing. Všechna z uvažovaných řešení měla krátkou dobu implementace, do tří měsíců. Doba návratnosti investice ve všech případech nastala do jednoho roku. Kromě vyčíslených přínosů z nasazení digitalizace dokumentů získal podnik TextilABC i mnoho nekvantifikovaných přínosů, které se odrazí na celkové vyšší konkurenceschopnosti podniku. Velké přínosy znamenalo především ušetření času technicko- hospodářských zaměstnanců při práci s dokumenty. Zavedení digitalizace dokumentů mělo celkově nízká rizika a všechna řešení byla flexibilní. 110
Hlavním cílem této diplomové práce byla praktická ukázka výběru vhodného řešení digitalizace dokumentů. Cíl se podařilo naplnit pomocí případové studie, která se zaměřuje na hodnocení jednotlivých variant přístupů k řešení digitalizace dokumentů. Uvádím nejen ekonomické dopady jednotlivých variant, ale i organizační a technologické dopady. Také jsem zvážila rizika a flexibilitu jednotlivých řešení. Dále jsem uvedla dostatečný teoretický základ pro pochopení oblasti digitalizace dokumentů. Předpokládané omezení mé práce, že nezískám dostatek informací pro provedení případové studie od dodavatelů digitalizace dokumentů na českém trhu, se nenaplnilo. Naopak jsem se setkala s velmi vstřícným přístupem a konkrétními daty. Přínos této diplomové práce je především v praktické ukázce řešení digitalizace dokumentů. Dalším přínosem je zasazení digitalizace dokumentů do prostředí České republiky, kdy jsem uvedla legislativní specifika i nejčastěji používané softwarové produkty a také jsem uvedla nejznámější firmy působící v oblasti digitalizace dokumentů na českém trhu. Tuto práci mohou využít všichni majitelé či manažeři firem, kteří uvažují o zavedení digitalizace dokumentů. Poskytne jim ucelený přehled v oblasti a konkrétní návod řešení společně s upozorněním na nutné předpoklady a rizika pro úspěšné zvládnutí zavedení digitalizace dokumentů. Případová studie by ještě mohla být rozšířena o uvažování přístupů k řešení digitalizace dokumentů pro větší a menší podnik, než byl použitý modelový podnik TextilABC. Také by bylo zajímavé porovnat ekonomické dopady jednotlivých řešení v delším časovém horizontu (např. 5 let, 8 let).
111
Zdroje [1] AIIM. Capture and Business Process: drivers and experiences of content-driven processes. AIIM Industry Watch [online]. 2010-10-14 [cit. 2011-05-11+. Dostupné z WWW:
. [2] AIIM. State of the ECM Industry 2011: How well is It meeting business needs?. AIIM Industry Watch [online]. 2011-2-14 [cit. 2011-05-11+. Dostupné z WWW: . [3] BREITHAUPT, Michael. Improving OCR and ICR Accuracy Through Expert Voting. Computing System Innovations [online]. 2006-12-20 [cit. 2011-05-11+. Dostupné z WWW: . [4] GÁLA, Libor; POUR, Jan ; TOMAN, Prokop. Podniková informatika. Praha: Grada Publishing, 2006. 482 s. ISBN 80-247-1278-4. [5] HARNEY, John. Offshore Outsourcing. Infonomics [online]. 2003, 9-10, [cit. 2011-05-12+. Dostupný z WWW: . [6] HUANG, Chen. Content-based handwritten document indexing and retrieval . Buffalo, 2008. 121 s. Dizertační práce. State University of New York at Buffalo. Dostupné z WWW: . ISBN 9780549370598. [7] IOMA. Making the Business Case for AR Imaging System Technology. IOMA's Report on Managing Credit, Receivables & Collections [online]. 2007, 9, [cit. 2011-05-12+. Dostupný z WWW: . ISSN 10748903. [8] KUNSTOVÁ, Renáta.2009. Efektivní správa dokumentů: Co nabízí Enterprise Content Management. Praha : Grada Publishing, a.s., 2009. 204 s. [9] MCLEISH, Sheri. The ROI Of Imaging [online].Forrester Research, 2009-9-29 [cit. 2011-06-20]. Dostupné z WWW: <www.docusource.com/pdfs/ROIofImaging.pdf>. [10] MCLEISH, Sheri; DAVID, George. Costs, benefits and ROI of document imaging investments. Knowledge Lake [online]. 2009-6-26 [cit. 2011-05-11+. Dostupné z WWW: . [11] MICROSOFT. The Document Life Cycle. Microsoft TechNet [online]. 2011-03-01 [cit. 2011-03-24]. Dostupné z WWW: .
112
[12] MILES, Doug. Document Scanning and Capture: Local, Central, or Outsource? [online]. 2010-3-23 [cit. 2011-05-12+. AIIM. Dostupné z WWW: . [13] OCÉ. How Organizations can Elevate Business Performance through Advanced Document Process Management *online+. Océ Business Services, 2008 *cit. 2011-05-12+. Dostupné z WWW: . [14] PETERKA, Jiří. Báječný svět elektronického podpisu *online+. Praha : CZ.NIC, 2011 *cit. 2011-0624+. Dostupné z WWW: <www.bajecnysvet.cz>. [15] PLUSTEK. Benefits Of Using Color Drop Out When Scanning Forms. Plustek Technology [online]. 2011-01-06 [cit. 2011-03-24+. Dostupné z WWW: . [16] RESSLER, Miroslav. Informační věda a knihovnictví : Výkladový slovník české terminologie z oblasti informační vědy a knihovnictví [online]. Praha : Vydavatelství VŠCHT, 2006 *cit. 2011-03-24]. Dostupné z WWW: . [17] SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů. Ikaros [online]. 2003, roč. 7, č. 3 *cit. 24.03.2011+. Dostupné z WWW: . URNNBN:cz-ik1300. ISSN 1212-5075. [18] SMEJKAL, Vladimír. Teorie a praxe digitalizace dokumentů v rámci českého právního řádu: Scan2007- 10. ročník konference Document Imaging *online+. 2007-4-17 [cit. 2011-05-12+. Dostupné z WWW: . [19] SMRŽ, Pavel. Off-line Recognition of Cursive Handwritten Czech Text [online]. Brno : FI MU, 1998. 10 s. Oborová práce. Masarykova univerzita. Dostupné z WWW: <www.fi.muni.cz/reports/files/older/FIMU-RS-98-02.pdf>. [20] Survey: Companies Gaining Business Benefits but also Missing Opportunities with Document Imaging [online]. PR Newswire Association LLC, 2011-1-31 [cit. 2011-05-12+. Dostupné z WWW: . [21] SYNEK, Miroslav, et al. Manažerská ekonomika. Praha : Grada Publishingh, 2007. 464 s. ISBN 978-80-247-1992-4. [22] WEIGNER, Pavel. Přínosy ECM systémů pro správu dokumentů a obsahu jsou jednoznačné. IT SYSTEMS [online]. 2008, 1-2, [cit. 2011-05-12+. Dostupný z WWW: .
113
Terminologický slovník Termín Bar Code Reading
Zkratka BCR
Certificate Authority
CA
Customer Relationship Management
CRM
Document Management System Enterprise Content Management
DMS
Elektronický podpis
E- podpis
Enterprise Resource Planning
ERP
Intelligent Character Recognition Optical Character Recognition
ICR
Optical Mark Recognition
OMR
Software as a Service
SaaS
ECM
OCR
Význam (zdroj) Technologie, která se používá k rozpoznávání čárových kódů, které převádí na řetězce znaků a číslic. (Kunstová.2009) Poskytovatel certifikačních služeb. Významná je především kvalifikovaná certifikační autorita, která vydává kvalifikované certifikáty (přesně definované zákonem) a splňuje všechny další požadavky zákona na své vlastní fungování. (Peterka.2011) Aplikace pro podporu řízení vztahů k zákazníkům, které zahrnují evidence a analýzy obchodních kontaktů, řízení komunikace se zákazníky apod. (Gála;Pour;Toman.2006) Nástroj pro zajištění správy, sdílení a zpracování dokumentů. (Gála;Pour;Toman.2006) Technologie, která poskytuje prostředky pro vytváření/sběr, správu/zabezpečení, ukládání/ uchovávání/likvidaci, publikování/distribuci, prohledávání, personalizaci a prezentaci/prohlížení/ tisk veškerého firemního obsahu. (Gála;Pour;Toman.2006) Údaje v elektronické podobě, které jsou připojené k datové zprávě nebo jsou s ní logicky spojené a které slouží jako metoda k jednoznačnému ověření identity podepsané osoby ve vztahu k datové zprávě. (Zákon č. 440/2004, § 2a) Aplikační software, který umožňuje řízení a koordinaci všech disponibilních podnikových zdrojů a aktivit. Mezi hlavní vlastnosti ERP patří schopnost automatizovat a integrovat klíčové podnikové procesy, funkce a data. (Gála;Pour;Toman.2006) Technologie, která se používá pro rozpoznávání ručně psaného písma. (Kunstová.2009) Technologie, která se používá pro rozpoznávání tištěného nebo strojem psaného písma. (Kunstová.2009) Technologie, která se používá k rozpoznávání zakřížkovaných nebo zabarvených značek a k jejich převodu na hodnoty umožňující další zpracování. (Kunstová.2009) Model poskytování software formou služby, který spočívá v pronajímání aplikačních služeb, kdy ICT 114
TimeStamp
TSA
VirtualReScan
VRS
zdroje a na nich provozované aplikace jsou poskytovány několika organizacím současně. Aplikace jsou založeny na webových technologiích a poskytovatel Saas je jejich vlastníkem. (Kunstová.2009) Časové razítko slouží k zaručení existence elektronického dokumentu v určitém čase a prokazuje, že dokument vznikl před časovým okamžikem uvedeným na razítku. (Peterka.2011) Patentovaná technologie firmy Kofax, která se používá pro automatické vylepšování obrazu v průběhu skenování. (Kunstová.2009)
115
Seznam obrázků Obrázek 1- Životní cyklus podnikového obsahu (Zdroj: autorka) ........................................................ 12 Obrázek 2- Základní kroky digitalizace dokumentů (Zdroj: autorka) ................................................... 18 Obrázek 3- Originál barevného DropOut formuláře (Zdroj: Plustek.2011) .......................................... 20 Obrázek 5- Naskenovaný formulář s použitím Colour Dropout (Zdroj: Plustek.2011) ......................... 21 Obrázek 4- Černobílé naskenování formuláře bez funkce Colour Dropout (Zdroj: Plustek.2011) ........ 21 Obrázek 6- Schéma vytěžování dat pomocí šablony (Zdroj: autorka) ................................................. 31 Obrázek 7- Histogram řádku anglického a českého textu (Zdroj: autorka).......................................... 33 Obrázek 8- Ukázky ručního písma ve formulářích (Zdroj: Gingrande.2006) ........................................ 35 Obrázek 9- Typy zaškrtávacích polí v OMR formulářích (Zdroj: autorka) ............................................ 37 Obrázek 10- Schéma přijetí dokumentu skrze podatelne a e-podatelnu (Zdroj: autorka) ................... 60 Obrázek 11- Schéma metody TEI (Zdroj: McLeish;David.2009) .......................................................... 74 Obrázek 12- organizační struktura modelového podniku (Zdroj: autorka) ......................................... 83
Seznam grafů Graf 1- Digitalizace dokumentů v rámci ostatních komponent ECM (Zdroj: McLeish;David.2009) ...... 10 Graf 2- Úroveň správy dokumentů a e-mailů (Zdroj: AIIM.2011) ........................................................ 14 Graf 3- Četnost použití jednotlivých druhů skenerů (Zdroj: AIIM.2010) ............................................. 51 Graf 4- Přínosy zavedení digitalizace dokumentů pro business cíle organizace (Zdroj: Océ.2008) ...... 65 Graf 5- Předmět využití outsourcingu při digitalizaci (Zdroj: AIIM.2010) ............................................ 68 Graf 6- Nejčastěji započítávané přínosy při výpočtu ROI (Zdroj: IOMA.2007) ..................................... 76 Graf 7- Nejčastěji započítávané náklady při výpočtu ROI (Zdroj: IOMA.2007)..................................... 77
Seznam tabulek Tabulka 1- Funkce VRS technologie (Zdroj: autorka) .......................................................................... 20 Tabulka 2- Základní metadatové prvky Dublin Core (Zdroj: DCMI.2005) ............................................ 24 Tabulka 3- Velikost souboru v různých typech PDF (Zdroj: autorka) ................................................... 27 Tabulka 4- Přehled čárových kódů (Zdroj: autorka) ........................................................................... 39 Tabulka 5- Software společnosti ABBYY (Zdroj: autorka) ................................................................... 43 Tabulka 6- Software společnosti Nuance (Zdroj: autorka) .................................................................. 44 Tabulka 7- Software společnosti I.R.I.S. (Zdroj: autorka) .................................................................... 46 Tabulka 8- Charakteristické vlastnosti skenerů (Zdroj: autorka) ......................................................... 53 116
Tabulka 9- Cenové srovnání certifikátů (Zdroj: autorka) .................................................................... 57 Tabulka 10- Výhody a nevýhody centraliz. a decentraliz. zpracování (Zdroj: autorka) ........................ 67 Tabulka 11- Celkové náklady- kompletní outsourcing (Zdroj: autorka) ............................................... 88 Tabulka 12- Celkové přínosy- kompletní outsourcing (Zdroj: autorka) ............................................... 89 Tabulka 13- Rizika nákladů na digitalizaci dokumentů- kompletní outsourcing (Zdroj: autorka) ......... 90 Tabulka 14- Rizika přínosů digitalizace dokumentů- kompletní outsourcing (Zdroj: autorka) ............. 91 Tabulka 15- Souhrn ekonomických dopadů- kompletní outsourcing (Zdroj: autorka) ......................... 92 Tabulka 16- Celkové náklady- řešení vlastními silami (Zdroj: autorka)................................................ 95 Tabulka 17- Celkové přínosy- řešení vlastními silami (Zdroj: autorka) ................................................ 96 Tabulka 18- Rizika nákladů na digitalizaci dokumentů- řešení vlastními silami (Zdroj: autorka) .......... 97 Tabulka 19- Rizika přínosů z digitalizace dokumentů- řešení vlastními silami (Zdroj: autorka) ............ 98 Tabulka 20- Souhrn ekonomických dopadů- řešení vlastními silami (Zdroj: autorka) .......................... 99 Tabulka 21- Celkové náklady- in-house outsourcing (Zdroj: autorka) ............................................... 102 Tabulka 22- Celkové přínosy- in-house outsourcing (Zdroj: autorka)................................................ 103 Tabulka 23- Rizika nákladů na digitalizaci dokumentů- in-house outsourcing (Zdroj: autorka) ......... 104 Tabulka 24- Rizika přínosů z digitalizace dokumentů- in-house outsourcing (Zdroj: autorka) ........... 105 Tabulka 25- Souhrn ekonomických dopadů- in-house outsourcing (Zdroj: autorka) ......................... 106 Tabulka 26- Porovnání variant bez započítání rizika (Zdroj: autorka) ............................................... 107 Tabulka 27- Porovnání variant se započítáním rizika (Zdroj: autorka) .............................................. 108
117
Příloha 1: Školní testový OMR formulář
Zdroj: https://store.scantron.com/OA_HTML/ibeCCtpSctDspRte.jsp?section=10135&sitex=10022:22372:US
118
Příloha 2: Webová služba ABBYY Fine Reader Online
Zdroj: http://finereader.abbyyonline.com
119
Příloha 3: Druhy skenerů a jejich orientační cena
Čtečka čárových kódů Honeywell 3800g (3500Kč)
Ruční skener MEDIATECH SCANLINE MT4090 (1900Kč)
Jednoduchý plochý skener CANON CanoScan LIDE 700F (2 500Kč)
Jednoduchý stolní průtahový skener HP Scanjet N6010 (10 500Kč)
Multifunkční zařízení Xerox WorkCentre 7545 (250 000Kč)
Vysokorychlostní dokumentační skener Xerox DocuMate 4799 (220 000Kč)
Bubnový skener AZTEK PREMIER Drum Scanner (360 000Kč)
Velkoformátový skener HP Designjet HD Scanner (370 000Kč)
Knižní skener Kirtas APT BookScan 2400 (3 200 000Kč)
Skenovací stanice pro podatelny OPEX AS7200i (cenu se nepodařilo zjistit)
120
Příloha 4: Detailní náklady a přínosy digitalizace dokumentů kompletním outsourcingem 1 Náklady na digitalizaci dokumentů kompletním outsourcingem
Náklady na hardware Veškeré hardwarové vybavení bude pronajato. Dodaný barevný skener má denní zátěž max. 3000 dokumentů, do automatického podavače lze dát dávku až 75- ti listů. Na skeneru lze také skenovat formát A3 a také využít ploché lože. Skartovačka má certifikaci NBÚ. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 2 servery pro DMS 0 84 300 84 300 84 300 252 900 2 Skener A3 KODAK 0 33 252 33 252 33 252 99 756 i1220 se servisem 3 Pracovní stanice pro 0 11 244 11 244 11 244 33 732 digitalizaci 4 Skartovačka 0 3 600 3 600 3 600 10 800 5
Celkem
0
132 396
132 396
132 396
397 188
Tabulka 1- Náklady na hardware- kompletní outsourcing (Zdroj: autorka)
Náklady na software DMS systém a workflow budou nainstalované v podniku a budou podniku pronajímány dodavatelem. Pro DMS systém je využit MS SharePoint 2010 ve verzi zdarma, která je pro požadovanou funkčnost dostačující. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Microsoft SQL Server 0 95 064 95 064 95 064 285 192 2008 2 MS SharePoint 2010 0 0 0 0 0 Foundation 3 Nintex Workflow 0 29 208 29 208 29 208 87 624 Workgroup 2010 (180 licencí) 4
Celkem
0
124 272
124 272
124 272
372 816
Tabulka 2- Náklady na software- kompletní outsourcing (Zdroj: autorka)
Náklady na zavedení ř. Položka 1
Náklady na konzultace a návrh
Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 51 000 0 0 0 51 000
121
2 3 4 5 6
řešení Implementace Implementace SFTP Školení zaměstnanců SharePoint, Nintex Školení zaměstnanců obsluha skeneru Zavedení systému
136 000 12 000 20 000
0 0 0
0 0 0
0 0 0
136 000 12 000 20 000
1 800
0
0
0
1 800
220 800
0
0
0
220 800
Tabulka 3- Náklady na zavedení systému- kompletní outsourcing (Zdroj: autorka)
Náklady na digitalizaci archivu Dokumenty budou digitalizovány během jednoho měsíce po dvou částech. Je počítáno s doplněním tří indexů. Dva indexy budou získány z nadpisu šanonu a období. Pro skartaci je počítána váha dokumentů 5 000 kg. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Svoz dokumentů 35 000 0 0 0 35 000 2 Příprava dokumentů 50 000 0 0 0 50 000 ke skenování 3 Skenování 457 000 0 0 0 457 000 4 Časové razítko 80 000 0 0 0 80 000 5 Indexace 82 000 0 0 0 82 000 6 Důvěrná skartace 37 500 0 0 0 37 500 7
Celkem
781 500
0
0
0
781 500
Tabulka 4- Náklady na digitalizaci archivu- kompletní outsourcing (Zdroj: autorka)
Provozní náklady Dokumenty budou skenovány v podniku pracovnicemi podatelny. Dále již budou dokumenty zpracovávány vzdáleně dodavatelem outsourcingu. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Příprava a skenování 0 144 000 144 000 144 000 432 000 dokumentů 2 Vzdálená úprava 0 31 500 31 500 31 500 94 500 3 Vzdálená indexace 0 55 000 55 000 55 000 165 000 4 Časové razítko 0 60 000 60 000 60 000 180 000 5 Elektronická značka 0 3 400 3 400 3 400 10 200 6
Celkem
0
293 900
293 900
293 900
881 700
Tabulka 5- Provozní náklady- kompletní outsourcing (Zdroj: autorka)
122
Náklady celkem ř. Položka 1 2 3 4 5 6
Počáteč. nákl. Kč
Náklady na HW Náklady na SW Zavedení systému Digitalizace archivu Provozní náklady Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem Současná Kč hodnota 132 396 397 188 329 249 124 272 372 816 309 046 0 220 800 220 800
0 0 220 800
132 396 124 272 0
132 396 124 272 0
781 500
0
0
0
781 500
781 500
0
293 900
293 900
293 900
881 700
730 886
1 002 300
550 568
550 568
550 568
2 654 004
2 371 481
Tabulka 6- Celkové náklady- kompletní outsourcing (Zdroj: autorka)
2 Přínosy digitalizace dokumentů kompletním outsourcingem Snížení nákladů na skladování dokumentů Při zachování současného stavu by náklady znamenaly vybudování nové místnosti pro archiv, provoz stávající místnosti a práci dvou zaměstnanců archivu. Pokud bude zavedena digitalizace, tak náklady na papírový archiv budou představovat pouze režiji jedné archivní místnosti, kde bude uchováno několik málo dokumentů, které nebudou skartovány. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na archivní 36 000 36 000 36 000 108 000 místnost 2 Náklady na novou archivní 136 000 36 000 36 000 208 000 místnost 3 2 zaměstnanci archivu 480 000 480 000 480 000 1 440 000 4 Zachování jedné místnosti 36 000 36 000 36 000 108 000 5
Čistý přínos celkem (řádky 1+ 2+ 3- 4)
616 000
516 000
516 000
1 648 000
Tabulka 7- Snížení nákladů na skladování dokumentů- kompletní outsourcing (Zdroj: autorka)
Snížení administrativních nákladů Při zachování současného stavu budou dále vysoké náklady na tisk a kopírování. Také veškerá komunikace s partnery, zákazníky a dodavateli probíhá výhradně v papírové podobě. Po zavedení digitalizace bude komunikace s některými externími subjekty realizována elektronicky a bude tak ušetřeno na poštovném. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na papír, tonery, 360 000 360 000 360 000 1 080 000 opotřebení zařízení 2 Náklady na poštovné 300 000 300 000 300 000 900 000 3 Náklady na papír, tonery, 180 000 180 000 180 000 540 000 opotřebení zařízení
123
4
Náklady na poštovné
200 000
200 000
200 000
600 000
5
Čistý přínos celkem (řádky 1+ 2- 3- 4)
280 000
280 000
280 000
840 000
Tabulka 8- Snížení administrativních nákladů- kompletní outsourcing (Zdroj: autorka)
Ušetření času technicko- hospodářských zaměstnanců V současné době technicko- hospodářští (T-H) zaměstnanci, kteří pracují s dokumenty (100), stráví vyhledáváním dokumentů a informací v nich obsažených průměrně 15% pracovní doby. Po digitalizaci dokumentů budou dokumenty a informace v nich obsažené vyhledávat elektronicky, což přinese ušetření jejich pracovního času. Také přenášení dokumentů po podniku kvůli realizaci manuálního workflow je v současné době časově náročné. Podnik zavedením digitalizace ušetří ročně pracovní čas devíti zaměstnanců. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Čas zaměstnanců strávený 5 400 000 5 400 000 5 400 000 16 200 000 hledáním dokumentů a informací v nich (15 %) 2 Čas zaměstnanců pro 480 000 480 000 480 000 1 440 000 realizaci manuálního workflow 3 Čas zaměstnanců strávený 2 520 000 2 520 000 2 520 000 7 560 000 hledáním dokumentů a informací v nich (7%) 4 Čas zaměstnanců pro 96 000 96 000 96 000 288 000 realizaci elektronického workflow 5
Čistý přínos celkem (řádky 1+ 2- 3- 4)
3 264 000
3 264 000
3 264 000
9 792 000
Tabulka 9- Ušetření času technicko- hospodářských zaměstnanců- kompletní outsourcing (Zdroj: autorka)
Snížení nákladů na ztracené dokumenty V současné době se průměrně ztratí 4% dokumentů. Z těchto ztracených dokumentů je 10% obnovováno. Náklady na obnovu jednoho dokumentu činí 600 Kč. Pokud bude digitalizace dokumentů outsourcována, tak bude zodpovědnost za dokumenty přenesena na dodavatele outsourcingu. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na obnovu 480 000 480 000 480 000 1 440 000 ztracených dokumentů (4%) 2 Náklady na obnovu 0 0 0 0 ztracených dokumentů (0%) 3
Čistý přínos celkem (řádky 50-51)
480 000
480 000
480 000
1 404 000
Tabulka 10- Snížení nákladů na ztracené dokumenty- kompletní outsourcing (Zdroj: autorka)
124
Přínosy celkem ř. Položka 1 2
3 4 5
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T-H zaměstnanců Snížení nákladů na ztracené dokumenty Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem Kč
Současná hodnota 1 648 000 1 374 125
616 000
516 000
516 000
280 000
280 000
280 000
840 000
696 319
3 264 000
3 264 000
3 264 000
9 792 000
8 117 085
480 000
480 000
480 000
1 440 000
1 193 689
4 640 000
4 540 000
4 540 000
3 720 000
11 381 218
Tabulka 11- Celkové přínosy- kompletní outsourcing (Zdroj: autorka)
125
Příloha 5: Detailní náklady a přínosy digitalizace dokumentů řešené vlastními silami 1 Náklady na digitalizaci dokumentů vlastními silami
Náklady na hardware Veškeré hardwarové vybavení firma YDS podniku TextilABC dodá. Skartovačka má certifikaci NBÚ. Zvolený skener je výkonný dokumentační skener s maximální zátěž 15 000 stran denně. Disponuje jak automatickým podavačem, tak i plochým lože a skenuje stejnou rychlostí simplexně i duplexně. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 2 servery pro DMS a 210 000 0 0 0 210 000 el. archiv 2 Skener A3 134 000 20 000 20 000 20 000 194 000 PANASONIC KVS7075C se servisem 3 Pracovní stanice pro 23 500 0 0 0 23 500 digitalizační pracoviště 4 Skartovačka 9 800 0 0 0 9 800 5
Celkem
377 300
20 000
20 000
20 000
437 300
Tabulka 1- Náklady na hardware- řešení vlastními silami (Zdroj: autorka)
Náklady na software Pro správu dokumentů a workflow bude nainstalován softwarový produkt Xenia. Pro skenování byl zvolen Kofax Express, který zahrnuje VRS funkce. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Microsoft SQL Server 240 000 0 0 0 240 000 2008 2 Kofax Express 223 000 0 0 0 223 000 3 Xenia (180 licencí) 60 000 0 0 0 60 000 4
Celkem
523 000
0
0
0
523 000
Tabulka 2- Náklady na software- řešení vlastními silami (Zdroj: autorka)
Náklady na zavedení ř. Položka 1
Náklady na konzultace a návrh řešení
Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 38 000 0 0 0 38 000
126
2 3 4 5 6
Implementace Školení zaměstnanců Xenia Školení IT oddělení Školení zaměstnanců obsluha skeneru
195 000 24 000
0 0
0 0
0 0
195 000 24 000
4200 2300
0 0
0 0
0 0
4200 2300
Celkem
263 500
0
0
0
263 500
Tabulka 3- Náklady na zavedení řešení- řešení vlastními silami (Zdroj: autorka)
Provozní náklady Provozní náklady zahrnují náklady na zaměstnance, kteří budou realizovat projekt digitalizace archivu (2 zaměstnanci), dále náklady na koordinaci projektu a na údržbu systému IT oddělením. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Zaměstnanci pro 0 480 000 480 000 480 000 1 440 000 skenování 2 Koordinace projektu 20 000 100 000 100 000 100 000 320 000 digitalizace 3 Údržba systému a 0 84 000 84 000 84 000 252 000 podpora 4 Časové razítko 0 60 000 60 000 60 000 180 000 5 Elektronická značka 0 3400 3400 3400 10 200 6
Celkem
20 000
727 400
727 400
727 400
2 202 200
Tabulka 4- Provozní náklady- řešení vlastními silami (Zdroj: autorka)
Náklady celkem ř. Položka 1 2 3 4 5
Náklady na HW Náklady na SW Zavedení systému Provozní náklady Celkem
Počáteč. 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Současná nákl. Kč Kč hodnota 377 300 20 000 20 000 20 000 437 300 427 037 523 000 0 0 0 523 000 523 000 263 500 0 0 0 263 500 263 500 20 000
727 400
727 400
727 400
2 202 200
1 878 673
1 183 800
747 400
747 400
747 400
3 426 000
3 092 210
Tabulka 5- Celkové náklady- řešení vlastními silami (Zdroj: autorka)
127
2 Přínosy digitalizace dokumentů vlastními silami Snížení nákladů na skladování dokumentů Při zachování současného stavu by náklady znamenaly vybudování nové místnosti pro archiv, provoz stávající místnosti a práci dvou zaměstnanců archivu. Pokud bude zahájen projekt digitalizace archivu, tak nebude potřeba zařizovat novou místnost pro sklad dokumentů. Protože budou dokumenty digitalizovány postupně během tří let, budou zaměstnanci archivu ubíráni také postupně. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na archivní 36 000 36 000 36 000 108 000 místnost 2 Náklady na novou archivní 136 000 36 000 36 000 208 000 místnost 3 2 zaměstnanci archivu 480 000 480 000 480 000 1 440 000 4 Zachování jedné místnosti 36 000 36 000 36 000 108 000 5 Zaměstnanci archivu při 480 000 240 000 0 720 000 zahájení digitalizace 6
Čistý přínos celkem (řádky 1+ 2+ 3- 4- 5)
136 000
276 000
516 000
928 000
Tabulka 6- Snížení nákladů na skladování dokumentů- řešení vlastními silami (Zdroj: autorka)
Snížení administrativních nákladů Při zachování současného stavu budou dále vysoké náklady na tisk a kopírování. Také veškerá komunikace s partnery, zákazníky a dodavateli probíhá výhradně v papírové podobě. Po zavedení digitalizace bude komunikace s některými externími subjekty realizována elektronicky a bude tak ušetřeno na poštovném. Postupně se také se zvyšujícím se množstvím digitalizovaných dokumentů v archivu budou snižovat náklady na kopírování dokumentů. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na papír, tonery, 360 000 360 000 360 000 1 080 000 opotřebení zařízení 2 Náklady na poštovné 300 000 300 000 300 000 900 000 3 Náklady na papír, tonery, 220 000 200 000 180 000 600 000 opotřebení zařízení 4 Náklady na poštovné 200 000 200 000 200 000 600 000 5
Čistý přínos celkem (řádky 1+ 2- 3- 4)
240 000
260 000
280 000
780 000
Tabulka 7- Snížení administrativních nákladů- řešení vlastními silami (Zdroj: autorka)
128
Ušetření času technicko- hospodářských zaměstnanců V současné době technicko- hospodářští (T-H) zaměstnanci, kteří pracují s dokumenty (100), stráví vyhledáváním dokumentů a informací v nich obsažených průměrně 15% pracovní doby. Po digitalizaci dokumentů budou dokumenty a informace v nich obsažené vyhledávat elektronicky, což přinese ušetření jejich pracovního času. Po zahájení digitalizace dokumentů v archivu bude postupně elektronicky vyhledatelné čím dále tím větší množství dokumentů. Během prvního roku budou digitalizovány nejčastěji hledané dokumenty a začnou se zvyšovat přínosy z ušetřeného času na hledání dokumentů. Také přenášení dokumentů po podniku kvůli realizaci manuálního workflow je v současné době časově náročné. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Čas zaměstnanců strávený 5 400 000 5 400 000 5 400 000 16 200 000 hledáním dokumentů a informací v nich (15 %) 2 Čas zaměstnanců pro 480 000 480 000 480 000 1 440 000 realizaci manuálního workflow 3 Čas zaměstnanců strávený 3 960 000 2 880 000 2 520 000 9 360 000 hledáním dokumentů a informací v nich (11, 8, 7 %) 4 Čas zaměstnanců pro 96 000 96 000 96 000 288 000 realizaci elektronického workflow 5
Čistý přínos celkem (řádky 1+ 2- 3- 4)
1 824 000
2904000
3264000
7 992 000
Tabulka 8- Ušetření času technicko- hospodářských zaměstnanců- řešení vlastními silami (Zdroj: autorka)
Snížení nákladů na ztracené dokumenty V současné době se průměrně ztratí 4% dokumentů. Z těchto ztracených dokumentů je 10% obnovováno. Náklady na obnovu jednoho dokumentu činí 600 Kč. Pokud bude zavedena digitalizace dokumentů, sníží se počet ztracených dokumentů na 0,2%. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na obnovu 480 000 480 000 480 000 1 440 000 ztracených dokumentů (4%) 2 Náklady na obnovu 24 000 24 000 24 000 72 000 ztracených dokumentů (0,2%) 3
Čistý přínos celkem (řádky 1- 2)
456 000
456 000
456 000
1 368 000
Tabulka 9- Snížení nákladů na ztracené dokumenty- řešení vlastními silami (zdroj: autorka)
129
Přínosy celkem ř. Položka 1 2
3 4 5
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T-H zaměstnanců Snížení nákladů na ztracené dokumenty Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem Kč
136 000
276 000
516 000
Současná hodnota 928 000 739 414
240 000
260 000
280 000
780 000
643 425
1 824 000
2904000
3264000
7 992 000
6 510 473
456 000
456 000
456 000
1 368 000
1 134 005
2 656 000
3 896 000
4516000
11 068 000
9 027 317
Tabulka 10- Celkové přínosy- řešení vlastními silami (Zdroj: autorka)
130
Příloha 6: Detailní náklady a přínosy digitalizace dokumentů in-house outsourcingem 1 Náklady na digitalizaci dokumentů in-house outsourcingem
Náklady na hardware Veškeré hardwarové vybavení bude pronajato. Dodaný duplexní barevný skener má denní zátěž max. 10 000 dokumentů. Na skeneru lze také skenovat formát A3. Skartovačka má certifikaci NBÚ. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 2 servery pro DMS 0 79 300 79 300 79 300 237 900 2 Skener A3 Panasonic 0 52 918 52 918 52 918 158 754 KV-S7065C se servisem 3 Pracovní stanice pro 0 10 104 10 104 10 104 30 312 digitalizaci 4 Skartovačka 0 2 900 2 900 2 900 8 700 5 Celkem 0 145 222 145 222 145 222 435 666 Tabulka 1- Náklady na hardware- in-house outsourcing (Zdroj: autorka)
Náklady na software DMS systém a workflow budou nainstalované v podniku a budou podniku pronajímány dodavatelem. Pro DMS systém je využit MS SharePoint 2010 ve verzi zdarma, která je pro požadovanou funkčnost dostačující. Pro skenování bude využit software Kofax Express. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Microsoft SQL Server 0 96 700 96 700 96 700 290 100 2008 2 Kofax pro skenování 0 77 388 77 388 77 388 232 164 3 MS SharePoint 2010 0 0 0 0 0 Foundation 4 Nintex Workflow 0 26 300 26 300 26 300 78 900 Workgroup 2010 (180 licencí) 5 Celkem 0 200 388 200 388 200 388 601 164 Tabulka 2- Náklady na software- in-house outsourcing (Zdroj: autorka)
Náklady na zavedení ř. Položka 1
Náklady na
Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 45 000 0 0 0 45 000 131
2 3 4
konzultace a návrh řešení Implementace Školení zaměstnanců SharePoint, Nintex Zavedení systému
120 000 15 000
0 0
0 0
0 0
120000 15 000
180 000
0
0
0
180 000
Tabulka 3- Náklady na zavedení systému- in-house outsourcing (Zdroj: autorka)
Provozní náklady Dokumenty budou skenovány v podniku pracovnicemi podatelny. Dále již budou dokumenty zpracovávány vzdáleně dodavatelem outsourcingu. ř. Položka Počáteční 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč náklady Kč 1 Zaměstnanec, 0 492 000 492 000 492 000 1 476 000 manažerský dohled 2 Časové razítko 0 63 000 63 000 63 000 192 000 3 Elektronická značka 0 3000 3000 3000 9 000 4
Celkem
0
559 000
559 000
559 000
1 677 000
Tabulka 4- Provozní náklady- in-house outsourcing (Zdroj: autorka)
Náklady celkem ř. Položka 1 2 3 4 5
Počáteč. nákl. Kč
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Náklady na HW Náklady na SW Zavedení systému Provozní náklady
0 0 180 000
145 222 200 388 0
145 222 200 388 0
Celkem Současná Kč hodnota 145 222 435 666 360 979 200 388 601 164 498 335 0 180 000 180 000
0
559 000
559 000
559 000
1 677 000
1 390 150
Celkem
180 000
9 04 610
9 04 610
9 04 610
2 893 830
2 429 464
Tabulka 5- Celkové náklady- in-house outsourcing (Zdroj: autorka)
2 Přínosy digitalizace dokumentů in-house outsourcingem Snížení nákladů na skladování dokumentů Při zachování současného stavu by náklady znamenaly vybudování nové místnosti pro archiv, provoz stávající místnosti a práci dvou zaměstnanců archivu. Pokud bude zahájen projekt digitalizace archivu, tak nebude potřeba zařizovat novou místnost pro sklad dokumentů. Protože budou dokumenty digitalizovány postupně během tří let, budou zaměstnanci archivu ubíráni postupně. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na archivní 36 000 36 000 36 000 108 000 místnost 2 Náklady na novou archivní 136 000 36 000 36 000 208 000 132
3 4 5 6
místnost 2 zaměstnanci archivu Zachování jedné místnosti Zaměstnanci archivu při zahájení digitalizace Čistý přínos celkem (řádky 1+ 2+ 3- 4- 5)
480 000 36 000 480 000
480 000 36 000 240 000
480 000 36 000 0
1 440 000 108 000 720 000
136 000
276 000
516 000
928 000
Tabulka 6- Snížení nákladů na skladování dokumentů- in-house outsourcing (Zdroj: autorka)
Snížení administrativních nákladů Při zachování současného stavu budou dále vysoké náklady na tisk a kopírování. Také veškerá komunikace s partnery, zákazníky a dodavateli probíhá výhradně v papírové podobě. Po zavedení digitalizace bude komunikace s některými externími subjekty realizována elektronicky a bude tak ušetřeno na poštovném. Postupně se také se zvyšujícím se množstvím digitalizovaných dokumentů v archivu budou snižovat náklady na kopírování dokumentů. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na papír, tonery, 360 000 360 000 360 000 1 080 000 opotřebení zařízení 2 Náklady na poštovné 300 000 300 000 300 000 900 000 3 Náklady na papír, tonery, 220 000 200 000 180 000 600 000 opotřebení zařízení 4 Náklady na poštovné 200 000 200 000 200 000 600 000 5
Čistý přínos celkem (řádky 1+ 2- 3- 4)
240 000
260 000
280 000
780 000
Tabulka 7- Snížení administrativních nákladů- in-house outsourcing (Zdroj: autorka)
Ušetření času technicko- hospodářských zaměstnanců V současné době technicko- hospodářští (T-H) zaměstnanci, kteří pracují s dokumenty (100), stráví vyhledáváním dokumentů a informací v nich obsažených průměrně 15% pracovní doby. Po digitalizaci dokumentů budou dokumenty a informace v nich obsažené vyhledávat elektronicky, což přinese ušetření jejich pracovního času. Po zahájení digitalizace dokumentů v archivu bude postupně elektronicky vyhledatelné čím dále tím větší množství dokumentů. Během prvního roku budou digitalizovány nejčastěji hledané dokumenty a začnou se zvyšovat přínosy z ušetřeného času na hledání dokumentů. Také přenášení dokumentů po podniku kvůli realizaci manuálního workflow je v současné době časově náročné. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Čas zaměstnanců strávený 5 400 000 5 400 000 5 400 000 16 200 000 hledáním dokumentů a informací v nich (15 %) 2 Čas zaměstnanců pro 480 000 480 000 480 000 1 440 000 realizaci manuálního workflow 133
3
4
5
Čas zaměstnanců strávený hledáním dokumentů a informací v nich (7%) Čas zaměstnanců pro realizaci elektronického workflow
3 960 000
2 880 000
2 520 000
9 360 000
96 000
96 000
96 000
288 000
Čistý přínos celkem (řádky 1+ 2- 3- 4)
1 824 000
2904000
3264000
7 992 000
Tabulka 8- Ušetření času technicko- hospodářských zaměstnanců- in-house outsourcing (Zdroj: autorka)
Snížení nákladů na ztracené dokumenty V současné době se průměrně ztratí 4% dokumentů. Z těchto ztracených dokumentů je 10% obnovováno. Náklady na obnovu jednoho dokumentu činí 600 Kč. Pokud bude digitalizace dokumentů outsourcována, tak bude zodpovědnost za dokumenty přenesena na dodavatele outsourcingu. ř. Položka 1.rok/ Kč 2.rok/ Kč 3.rok/ Kč Celkem Kč 1 Náklady na obnovu 480 000 480 000 480 000 1 440 000 ztracených dokumentů (4%) 2 Náklady na obnovu 0 0 0 0 ztracených dokumentů (0%) 3
Čistý přínos celkem (řádky 1- 2)
480 000
480 000
480 000
1 404 000
Tabulka 9- Snížení nákladů na ztracené dokumenty- in-house outsourcing (Zdroj: autorka)
Přínosy celkem ř. Položka 1 2
3 4 5
Snížení nákladů na skladování dokumentů Snížení administrativních nákladů Ušetření času T-H zaměstnanců Snížení nákladů na ztracené dokumenty Celkem
1.rok/ Kč
2.rok/ Kč
3.rok/ Kč
Celkem Kč
136 000
276 000
516 000
Současná hodnota 928 000 739 414
240 000
260 000
280 000
780 000
643 426
1 824 000
2 904 000
3 264 000
7 992 000
6 510 473
480 000
480 000
480 000
1 440 000
1 193 689
2 680 000
3 920 000
4 540 000
11 140 000
9 087 002
Tabulka 10- Celkové přínosy- in-house outsourcing (Zdroj: autorka)
134