��������������������������������������������� ���������������������������������������������
����������������������������������������������������������������� ����������������������������������������������������������������� ���������������������������������������������������������������� ���������������������������������������������������������������� ��������������������������������������������������������������� ��������������������������������������������������������������� �������������������������������������������������� �������������������������������������������������� ���������������������������������������������������������������������������������� �������������������������������������������������������������������������������� ���������������������������������������������������������������������������������� ����������������������������������������������������������������������������������� �������������������������������������������������������������������������������� ������������������������������������������������������������������������������������� ����������������������������������������������������������������������������������� ������� ������������ ������ �� ������������ ���������� ��������� ������������� ����������� ������������������������������������������������������������������������������������� ���������� ����������� ����� ����������� ������ ������������ ����� ������������� ������� ������������ ������ �� ������������ ���������� ��������� ������������� ����������� ������� ��� ���������� ��� ��������� ���������� ��������� ��������� �������� ���������� ������������������� ����� ����������� ������ ������������ ����� ������������� ���������������������������������������������������������������������������������� ������� ��� ���������� �������� ��� ��������� ���������� ��������� ��������� �������� �������������������������������������������������������������������������������� ���������������������������������������������������������������������������������� ���������������������������������������������������������������������������� �������������������������������������������������������������������������������� ������� ��� ������������ ������������ ������ ������� �������������� ������� ��������� ���������������������������������������������������������������������������� ������������������������������������������������������������������������������������ ������� ��� ������������ ������������ ������ ������� �������������� ������� ��������� ����������������������������������������������������� ������������������������������������������������������������������������������������ �����������������������������������������������������
����������������������������������
��������������������������������������������� ����������������������������������������������������������������� ���������������������������������������������������������������� ��������������������������������������������������������������� �������������������������������������������������� ���������������������������������������������������������������������������������� �������������������������������������������������������������������������������� ����������������������������������������������������������������������������������� ������������������������������������������������������������������������������������� ������� ������������ ������ �� ������������ ���������� ��������� ������������� ����������� ���������� ����������� ����� ����������� ������ ������������ ����� ������������� ������� ��� ���������� �������� ��� ��������� ���������� ��������� ��������� �������� ���������������������������������������������������������������������������������� �������������������������������������������������������������������������������� ���������������������������������������������������������������������������� ������� ��� ������������ ������������ ������ ������� �������������� ������� ��������� ������������������������������������������������������������������������������������ �����������������������������������������������������
����������������������������������
Edice Management v informaèní spoleènosti Edièní rada: Prof. Ing. Josef Basl, CSc. – Vysoká škola ekonomická v Praze – pøedseda Ing. Kateøina Drongová – Grada Publishing, a.s. – místopøedseda Prof. Ing. Jan Ehleman, CSc. – Technická univerzita Liberec Doc. RNDr. Josef Hynek, MBA, Ph.D. – Univerzita Hradec Králové JUDr. Martin Maisner – kanceláø ROWAN LEGAL Doc. Ing. Karol Matiaško, CSc. – Žilinská univerzita v Žilinì Prof. RNDr. Jaroslav Pokorný, CSc. – MFF UK v Praze Doc. Ing. Jan Pour, CSc. – VŠE v Praze Doc. Ing. Karel Richta, CSc. – FEL ÈVUT v Praze Doc. Ing. Petr Sodomka, Ph.D. – UTB ve Zlínì Doc. Ing. Milena Tvrdíková, CSc. – VŠB-TU Ostrava Prof. Ing. Ivan Vrana, DrSc. – Èeská zemìdìlská univerzita v Praze
Ing. Renáta Kunstová, Ph.D.
Efektivní správa dokumentù Co nabízí Enterprise Content Management © Grada Publishing, a.s., 2009 Cover Design © Grada Publishing, a.s., 2009 Vydala Grada Publishing, a.s., U Prùhonu 22, Praha 7 tel.: +420 234 264 401, fax: +420 234 264 400, jako svou 3867. publikaci Odborná recenze: Prof. Ing. Jan Dohnal, CSc. Ing. Václav Derfler Odpovìdná redaktorka Bc. Kamila Nováková Sazba Milan Vokál Poèet stran 208 První vydání, Praha 2009 Vytiskly Tiskárny Havlíèkùv Brod, a.s. Husova ulice 1881, Havlíèkùv Brod Tato kniha vznikla za podpory grantù GA 201/08/0663 a GA 402/08/0529. ISBN 978-80-247-3257-2 (tištěná verze) ISBN 978-80-247-6651-5 (elektronická verze ve formátu PDF) © Grada Publishing, a.s. 2011
verze osvit 1, December 8, 2009
Obsah
O autorce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Èást I: Základní orientace v oblasti správy podnikového obsahu 1
Historie správy podnikového obsahu . . . . . . . 1.1 Vysvìtlení pojmu „správa podnikového obsahu“ 1.2 Historie vývoje ECM . . . . . . . . . . . . . . 1.3 Problémy související s ECM . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
12 12 15 19
2
Správa podnikového obsahu z hlediska architektury 2.1 Komponentový pøístup k ECM . . . . . . . . . . . 2.2 Architektura produktù ECM . . . . . . . . . . . . . 2.3 Zaèlenìní ECM do aplikaèní architektury . . . . . . 2.4 Životní cyklus podnikového obsahu . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
24 24 26 28 29
3
Komponenty ECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Digitalizace dokumentù (Imaging) . . . . . . . . . . . . . . . . . 3.1.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . 3.1.2 Hlavní principy a základní funkce . . . . . . . . . . . . . 3.1.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . 3.2 Vytìžování dat (Data Capture) . . . . . . . . . . . . . . . . . . . 3.2.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . 3.2.2 Hlavní principy a základní funkce . . . . . . . . . . . . . 3.2.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . 3.3 Systém pro správu dokumentù (Document Management System) . 3.3.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . 3.3.2 Hlavní principy a základní funkce . . . . . . . . . . . . . 3.3.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . 3.4 Správa záznamù (Records Management) . . . . . . . . . . . . . 3.4.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . 3.4.2 Hlavní principy a základní funkce . . . . . . . . . . . . . 3.4.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . 3.5 Správa elektronické pošty (E-mail Management) . . . . . . . . . 3.5.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
31 31 32 34 43 46 47 48 54 56 57 59 63 64 65 67 68 69 70
5
3.6
3.7
3.8
3.9
3.10 3.11
3.5.2 Hlavní principy a základní funkce . . . . . . . . . . . . . . . . . . . . . 71 3.5.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Archivace (Archiving) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.6.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.6.2 Hlavní principy a základní funkce . . . . . . . . . . . . . . . . . . . . . 76 3.6.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Automatizace procesù (Workflow) . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.7.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.7.2 Hlavní principy a základní funkce . . . . . . . . . . . . . . . . . . . . . 86 3.7.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.7.4 Spisová služba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Týmová spolupráce (Groupware) . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.8.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.8.2 Hlavní principy a základní funkce . . . . . . . . . . . . . . . . . . . . . 95 3.8.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Správa webového obsahu (Web Content Management) . . . . . . . . . . . . . . 97 3.9.1 Úèel komponenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.9.2 Hlavní principy a základní funkce . . . . . . . . . . . . . . . . . . . . . 99 3.9.3 Oèekávané pøínosy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Správa znalostí (Knowledge Management) . . . . . . . . . . . . . . . . . . . . 100 Správa multimediálního obsahu (Digital Asset Management) . . . . . . . . . . 102
Èást II: Pøístupy k ECM z hlediska legislativy, standardù a øízení
6
4
Legislativní aspekty ECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.1 Zahranièní legislativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2 Legislativa Èeské republiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5
Standardy vztahující se k ECM . . . . . . . . . . . . . . . . . . 5.1 Standardy vztahující se ke kvalitì øízení a služeb . . . . . . 5.1.1 Normy øady ISO 9000 . . . . . . . . . . . . . . . . 5.1.2 Norma ISO 20000 . . . . . . . . . . . . . . . . . . 5.2 Standardy vztahující se ke správì záznamù a dokumentù . . 5.2.1 Normy ISO 15489 a ISO 23081 . . . . . . . . . . . 5.2.2 Dublin Core . . . . . . . . . . . . . . . . . . . . . . 5.2.3 DoD 5015.2 . . . . . . . . . . . . . . . . . . . . . 5.2.4 MoReq . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Standardy vztahující se k digitální archivaci dokumentù . . . 5.3.1 Referenèní model OAIS . . . . . . . . . . . . . . . 5.3.2 Formát souborù PDF . . . . . . . . . . . . . . . . . 5.4 Standardy vztahující se k modelování a automatizaci procesù
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
120 121 122 123 125 125 125 126 127 129 129 131 133
Efektivní správa dokumentù – Co nabízí ECM
6
Øízení ECM . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Strategické øízení ECM . . . . . . . . . . . . . . . 6.1.1 Strategie digitalizace listinných dokumentù 6.1.2 Strategie zavedení správy záznamù . . . . 6.2 Služby ECM . . . . . . . . . . . . . . . . . . . . . 6.2.1 Nabídka služeb . . . . . . . . . . . . . . . 6.2.2 Výbìr služeb . . . . . . . . . . . . . . . . 6.3 Projekty ECM . . . . . . . . . . . . . . . . . . . . 6.3.1 Aspekty výbìru ECM øešení . . . . . . . . 6.3.2 Rizika implementace . . . . . . . . . . . . 6.4 Mìøení efektivnosti ECM . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
135 135 139 142 144 146 148 150 151 155 157
Èást III: Souèasnost a budoucnost ECM 7
Nabídka produktù a služeb ECM . . . 7.1 Svìtový trh . . . . . . . . . . . . 7.2 Nabídka produktù na èeském trhu 7.3 Nabídka služeb na èeském trhu . . 7.4 Nabídka „open source“ produktù .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
162 162 164 174 177
8
Trendy v oblasti ECM . . . . . . . . . . . . . . . . . . 8.1 Integrace strukturovaných a nestrukturovaných dat 8.2 Web 2.0 a Enterprise 2.0 . . . . . . . . . . . . . . 8.3 SOA . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
181 181 182 184
Závìr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Shrnutí/Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Pøíloha 1 – Komponenty ECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Pøíloha 2 – Architektura ECM formou služeb . . . . . . . . . . . . . . . . . . . . 190 Seznam zkratek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Seznam literatury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Rejstøík . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
7
A
O autorce
Ing. Renáta Kunstová, Ph.D. Vystudovala Vysokou školu ekonomickou v Praze, kde dodnes pùsobí na katedøe informaèních technologií jako odborná asistentka. Zároveò je externí lektorkou na Vysoké škole ekonomie a managementu v Praze. Ve své vìdecké i pedagogické èinnosti se zamìøuje na analýzu a návrh informaèních systémù a na oblast správy podnikového obsahu. V rámci spolupráce s firmou ITG, s.r.o., se vìnuje konzultaèní èinnosti pro prùmyslové a obchodní podniky a úøady státní správy.
8
Efektivní správa dokumentù – Co nabízí ECM
Ú
Úvod
Vážený ètenáøi, držíte v ruce knihu, jejíž název „Efektivní správa dokumentù“ zamìøuje vaši pozornost na dokumenty. Zábìr knihy je však mnohem širší. Jejím cílem je poradit a pomoci pøi øešení problémù souvisejících nejenom s dokumenty, ale i s e-maily, faxy, weby, archivy a øadou dalších zdrojù informací, které jsou souhrnnì oznaèovány termínem „podnikový obsah“, což vyjadøuje podtitul knihy „Co nabízí Enterprise Content Management“. Mít pøehled o všech informaèních zdrojích a efektivnì je využívat není pøi souèasné explozi elektronických informací jednoduché. Aèkoliv jsou organizace vybaveny kvalitními informaèními systémy, prùzkumy ukazují, že ve využití informaèních technologií pro zpracování, publikování a vytìžování informací z podnikových informaèních zdrojù má øada z nich znaèné rezervy. ÈÁST II. LEGISLATIVA
STANDARDY
ØÍZENÍ
ÈÁST III. TRH PRODUKTÙ A SLUŽEB
Správa podnikového obsahu Enterprise Content Management
TRENDY
HISTORIE
ARCHITEKTURA
KOMPONENTY
ÈÁST I.
Obr. 0.1 Celková struktura knihy
Úvod
9
Ú
Cílem knihy je popularizovat problematiku správy podnikového obsahu, pøiblížit ji široké veøejnosti a souèasnì publikovat nejnovìjší poznatky z této oblasti. Je psána tak, aby jí rozumìli i ti ètenáøi, kteøí se bìžnì informaèními technologiemi nezabývají, ale kteøí se zajímají o jejich využití pro zlepšení celkové výkonnosti organizace. Kniha je rozdìlena do tøí èástí (viz obr. 0.1). První èást ètenáøe seznamuje s vlastní podstatou správy podnikového obsahu. Vychází z historického vývoje této oblasti, zabývá se složitostí její architektury a podrobnì se vìnuje charakteristice jejích jednotlivých komponent. Druhá èást obsahuje kapitoly, které pøistupují ke správì podnikového obsahu ze tøí úhlù pohledu – legislativy, standardù a øízení. Tøetí èást se zabývá souèasností a budoucností správy podnikového obsahu, poskytuje pøehled o trhu produktù a služeb a trendy, které tento trh ovlivòují. Pro rychlou orientaci a zpøehlednìní textu jsou v knize použity piktogramy s následujícím významem:
y
Cíl kapitoly.
`
Definice termínu. (Pokud není uvedeno jinak, jedná se o definice formulované autorkou.)
2
Pøíklady z praxe, doplòující informace, pøípadové studie.
Ò
Shrnutí a závìry, které z kapitoly nebo její èásti vyplývají.
Kniha je urèena pøedevším manažerùm a vedoucím pracovníkùm organizací jakéhokoliv zamìøení a velikosti, ale také pøedstavitelùm orgánù veøejné správy. Osvìtluje problematiku správy podnikového obsahu a možnosti, jak lze prostøednictvím informaèních technologií práci s informaèními zdroji zefektivnit. Je podporou pro dodavatele produktù, poskytovatele služeb a konzultanty, kteøí se tematikou správy podnikového obsahu zabývají. V neposlední øadì je urèena studentùm informatických oborù, kteøí chtìjí být vybaveni aktuálními znalostmi z této oblasti. Kniha byla zpracována jako souèást výstupù grantových projektù: „Inovace informaèních systémù podporující konkurenceschopnost podnikù“ registrovaného u Grantové agentury Èeské republiky pod evidenèním èíslem GA 201/08/0663 a „Modelování podnikových procesù“ registrovaného u GAÈR pod evidenèním èíslem GA 402/08/0529. Velice ráda bych touto cestou podìkovala za cenné rady, pøipomínky a námìty, které mi poskytli jak recenzenti knihy prof. Ing. Jan Dohnal, CSc., a Ing. Václav Derfler, tak moji kolegové prof. Ing. Jiøí Voøíšek, CSc., a doc. Ing. Jan Pour, CSc.
10
Efektivní správa dokumentù – Co nabízí ECM
I
ÈÁST I: ZÁKLADNÍ ORIENTACE V OBLASTI SPRÁVY PODNIKOVÉHO OBSAHU
Správa podnikového obsahu Enterprise Content Management
HISTORIE
ARCHITEKTURA
KOMPONENTY
ÈÁST I.
11
1
1 Historie správy podnikového obsahu y
Dynamický vývoj v oblasti informaèních a komunikaèních technologií umožnil, aby prostøednictvím výpoèetní techniky bylo produkováno a distribuováno prakticky nepøeberné množství informací. Rùst kvantity informací se však stává natolik neúnosný, že vyžaduje, aby se zmìnila kvalita jejich zpracování. Vyšší kvalitu zpracování informací mohou poskytnout aplikace pro správu podnikového obsahu a zmìny souvisejících podnikových procesù.
1.1 Vysvìtlení pojmu „správa podnikového obsahu“ Termín Enterprise Content Management (ECM) zavedla a vymezila spoleènost AIIM (The Association for Information and Image Management), která je celosvìtovì uznávanou autoritou v této oblasti. První definice byla publikována v roce 2001, od té doby byla sice nìkolikrát upravena, ale její podstata zùstává stále stejná.1
`
Správa podnikového obsahu jsou strategie, metody a nástroje sloužící k získání, øízení, uložení, zachování a doruèení obsahu a dokumentù vztahujících se k procesùm organizace. ECM nástroje a strategie umožòují øízení nestrukturovaných informací organizace všude, kde tyto informace existují.
Èeský pøeklad názvu „Enterprise Content Management” na „správa podnikového obsahu“ možná nezní pøíliš líbivì, ale je tøeba respektovat, že je u nás již bìžnì užíván a že vystihuje podstatu anglického originálu. Jednotlivá slova v termínu je možné interpretovat takto: l l l
Management / správa – apeluje na øízení, evokuje snahu „mít pod kontrolou“, „efektivnì využívat“, Enterprise / podnikový – zdùrazòuje celosystémový charakter øešení, Content / obsah – zahrnuje všechny informaèní zdroje, které se v organizaci nacházejí, bez ohledu na jejich formu (elektronickou, listinnou) a formát (text, obraz, zvuk apod.).
Nabízí se otázka, proè nenahradit slovo „obsah“, které je v tomto kontextu nezvykle použito, bìžnìjším slovem „dokument“. Je pravda, že zákon o archivnictví vymezuje dokument [Zákon, 499/2004, § 2 bod d)] jako „každý písemný, obrazový, zvukový, elektronický nebo jiný záznam, ať již v podobì 1 Oficiální definice je uvedena na stránkách spoleènosti AIIM:
http://www.aiim.org/What-is-ECM-Enterprise-Content-Management.aspx# [cit. 9.3.2009]
12
Efektivní správa dokumentù – Co nabízí ECM
1
analogové èi digitální, který vznikl z èinnosti pùvodce“, ale málokomu se pøi vyslovení tohoto slova asociativnì vybaví nìco jiného než svazek papírù èi text napsaný v textovém editoru a uložený ve formì souboru. Ani pro zvuková èi obrazová data se termín dokument bìžnì neužívá. Vzhledem k tìmto zažitým podvìdomým asociacím by slovo „dokument“ bylo velice omezující. Slovo „obsah“, které je v tomto kontextu použito, pokrývá informaèní vlastnictví, jež organizace má. Je to slovo obecnìjšího charakteru, které zdùrazòuje dùležitost informací, nikoliv jejich formu. Z hlediska poèítaèového zpracování je rozhodující, zda jsou informace dostupné v listinné èi elektronické formì. S èím si odedávna umí výpoèetní technika dobøe poradit, jsou informace, které mají strukturu. Informace je vytváøena daty a významem, který je tìmto datùm pøiøazen. Napø. nikomu nic neøekne èíslo 1990, když se zároveò nedozví, že je to popisné èíslo domu, telefonní linka èi rok narození dcery. Pøi hovoru nebo v textu je význam dat dán kontextem, ve kterém jsou data sdìlena (napø. „Zavolej mi na linku …“). Pøi poèítaèovém zpracování je význam dat dán strukturou, do které jsou data uložena a která je popsána. Tato data jsou oznaèována jako strukturovaná a jejich poèítaèové zpracování je podporováno širokou škálou aplikací. V organizacích se však nachází ještì vìtší množství informací ostatních, tj. tak zvanì nestrukturovaných.2 Nìkteré jsou v elektronické formì (napø. texty, tabulky, prezentace, obrázky, fotografie) a jiné pouze na papíøe. Správa podnikového obsahu se zamìøuje právì na tyto informace, které jsou, stejnì tak jako strukturovaná data, pro existenci organizace nepostradatelné, ale které, na rozdíl od vìtšiny strukturovaných dat, nejsou primárnì zpracovávány aplikacemi transakèního charakteru (tj. bìžnými podnikovými aplikacemi, jako je napø. úèetnictví, správa majetku, personalistika, logistika atp.).
Obr. 1.1 Typy dokumentù dle jejich struktury Nicménì i ve zdánlivì nestrukturovaných dokumentech je možné nìjakou strukturu zachytit – viz obr. 1.1. V praxi se totiž bìžnì setkáváme s øadou formuláøù, což je vlastnì strukturovaný dokument, kde 2
V bìžné organizaci je pouze asi 20 % dat ve strukturované formì a 80 % v nestrukturované formì – toto procentní rozdìlení strukturovaných a nestrukturovaných dat je uvedeno napø. v: IBM Digital Asset Management [IBM, 2005, str. 2], Content´s Value Ehnahced [Marlin, 2005, str. 3], Implementace systému pro Document Management [Kubát, Votruba, 2004, str. 29], I´m From ECM, You´re From BPM [AIIM, 2004, str. 2].
Historie správy podnikového obsahu
13
1
jsou data logicky uspoøádána ve struktuøe jednotlivých datových položek podle urèitého systému (napø. formuláø daòového pøiznání). Ale setkáváme se i s dokumenty polostrukturovanými, kdy dokument obsahuje kombinaci strukturovaných a nestrukturovaných dat (typickým polostrukturovaným dokumentem je zpráva elektronické pošty). Nestrukturovaný dokument je tedy ten, jehož obsah není možné více strukturovat (napø. volný text, obrázek, graf) a je uchováván ve formì jednoho celku. Existují však aplikace, které umožòují tyto soubory urèitým zpùsobem popsat, charakterizovat, tj. opatøit je tak zvanými metadaty a tato metadata pak využívat pro zefektivnìní práce se soubory.
`
Metadata jsou data o datech. Jsou to data (atributy, vlastnosti), která poskytují další informace o datech vlastních. Vztahují se k obsahu, kontextu, formì, typu dat atp.
Z uvedeného vyplývá, že dìlat ostrou hranici mezi strukturovanými a nestrukturovanými daty a podle toho rozdìlovat podnikové aplikace není možné a ani správné. Napø. v rámci aplikace pro øízení vztahù se zákazníky mùže být kromì strukturovaných dat o zákazníkovi uložen i záznam rozhovoru èi pøipojena nìkolikastránková smlouva (typická nestrukturovaná data), naopak pøi digitalizaci listinných formuláøù mohou být z tìchto formuláøù vytìžena data, která budou uložena do relaèní databáze a dále zpracovávána již jako data strukturovaná. Pokud se vrátíme k termínu „správa podnikového obsahu“, tak je zøejmé, že slovem „obsah“ se rozumí pøedevším všechny formy nestrukturovaných dat, ale že strukturovaná data z toho nelze zcela vylouèit. Pro dokreslení pøedstavy, co „správa podnikového obsahu“ znamená, jsou uvedeny z jiných zdrojù ještì tøi další charakteristiky: l
l
l
„Správa podnikového obsahu poskytuje bezpeèný pøístup, uložení, zveøejnìní a archivaci velkého množství podnikového obsahu. Umožòuje organizacím øídit procesy, které budou zpracovávat rùzné typy obsahu, a sledovat a kontrolovat zmìny obsahu.“ [Jenkins, 2005, str. 20] „Správa podnikového obsahu je široce uznávaný informatický termín pro programové technologie, které umožòují organizacím vytváøet/zachytit, øídit/zabezpeèit, uložit/uchovat/znièit, zveøejnit/distribuovat, vyhledávat, personifikovat, prezentovat/zobrazit/tisknout digitální obsah, jako jsou kresby/obrazy, text, záznamy, video, zvuk, transakèní data, seznamy, kódy. Tyto systémy jsou primárnì zamìøeny na získání, uložení, zpøístupnìní a rozšiøování digitálních souborù pro užití v podniku a pro øízení jejich životního cyklu.“ [Rockley, 2003, str. 329] „Správa podnikového obsahu se skládá z aplikace pro správu webu a dalších nástrojù, které umožòují spravovat podnikové informace v širším rozsahu, vìtšinou se jedná o aplikace pro správu dokumentù, správu záznamù, správu multimediálních zdrojù a pro podporu komunikace a spolupráce.“ [Robertson, 2004, str. 1]
Z uvedených charakteristik správy podnikového obsahu (pro zpøehlednìní dalšího textu bude používána zkratka ECM) vyplývá, že se jedná o øadu technologií sloužících ke zpracování podnikového obsahu v prùbìhu jeho celého životního cyklu (blíže viz kapitola 2). Podnikovým obsahem se rozumí jak listinné, tak elektronické dokumenty a další typy pøedevším nestrukturovaných informací, které tvoøí nehmotný majetek spoleènosti.
14
Efektivní správa dokumentù – Co nabízí ECM
1
1.2 Historie vývoje ECM Pøi bádání v historii ECM musíme jít mnohem dál do minulosti, než je datován vznik tohoto termínu. Zaèít mùžeme již na pøelomu osmdesátých let minulého století, kdy byly používány první stroje pro zpracování textù. K jednomu poèítaèi bylo pøipojeno nìkolik terminálù se speciální klávesnicí, která umožòovala jak psát text, tak ho upravovat prostøednictvím funkèních kláves. Tyto klávesy nahrazovaly to, co je pro nás dnes samozøejmou souèástí všech aplikací – menu s nabídkou jednotlivých funkcí. A tak bychom mohli postupovat dál a sledovat historii miniaturizace, která vedla ke vzniku minipoèítaèù a pozdìji osobních poèítaèù, až po jejich propojení do poèítaèových sítí a vzniku internetu. Za novinkami v oblasti technického vybavení vždy následovaly novinky v oblasti programového vybavení, takže místo velkého stroje urèeného výhradnì na zpracování textù dnes máme na osobních poèítaèích, jako jednu z mnoha dalších aplikací, textový editor. Možnost zpracovávat textová, tudíž nestrukturovaná data prostøednictvím výpoèetní techniky byla nutná, nikoliv postaèující podmínka zrodu ECM. Poèátek historie ECM je možné datovat obdobím, kdy organizace zaèaly digitalizovat listinné dokumenty s cílem pøenést je do informaèního systému a øídit jejich další zpracování. Jednalo se o strategické rozhodnutí, které zmìnilo pøístup k øízení podnikových informací. Na to, že informace mají hodnotu kapitálu, upozornil v 90. letech minulého století zakladatel moderního managementu pan Peter Ferdinand Drucker, který ve své knize Postkapitalistická spoleènost [Drucker, 1993, str. 13] mj. uvedl, že: „Skuteèným a urèujícím zdrojem a zcela rozhodujícím ,faktorem výroby‘ dnes není ani kapitál, ani pùda, ani práce. Jsou jím znalosti, vìdomosti, informace.“ Význam informací pro konkurenceschopnost organizací byl stále posilován a vedl až k pojmenování souèasného podnikatelského prostøedí termínem „informaèní spoleènost“. Stále platí, že jak vèasné, pøesné, úplné a aktuální informace má manažer pøi svém rozhodování k dispozici, tak kvalitní mùže být jeho rozhodování. Prozkoumáme-li zpìtnì historii vývoje informaèních systémù a informaèních a komunikaèních technologií (dále bude užívána zkratka IS/ICT), shledáme analogii mezi vývojem aplikací pro zpracování strukturovaných dat s vývojem aplikací pro zpracování nestrukturovaných dat. Pro první poèítaèové aplikace bylo typické, že každá zpracovávala vlastní soubor dat. Teprve vznik databázových systémù, na pøelomu sedmdesátých let minulého století, vedl k tomu, že došlo k oddìlení dat od jejich zpracování. Aplikace zaèaly sdílet spoleènou datovou základnu, èímž se minimalizovaly duplicity v datech a také chyby plynoucí z užití nepøesných a neaktuálních dat. Na pøelomu devadesátých let došlo k integraci aplikací do podnikových systémù oznaèovaných zkratkou ERP (Enterprise Resource Planning). V rámci tìchto systémù byly integrovány základní podnikové aplikace jako jsou finance, úèetnictví, výroba, prodej, personalistika, zásoby, sklady, logistika atp. Celistvost tìchto systémù se projevila nejenom ve využívání spoleèné datové základny, ale i v integraci podnikových procesù, které se zpracováním tìchto strukturovaných dat souvisí. Podívejme se nyní na vývoj v oblasti zpracování nestrukturovaných dat. Jakmile to technické prostøedky umožnily, vývoj aplikací pro zpracování nestrukturovaných dat na sebe nedal dlouho èekat. V osmdesátých letech vznikly první aplikace na zpracování textù a tvorbu tabulek. Každý uživatel si zpracovával a udržoval své soubory dat. K integraci datové základny v oblasti nestrukturovaných dat
Historie správy podnikového obsahu
15
1
došlo v okamžiku, kdy organizace zaèaly používat systémy pro správu dokumentù poskytující jednotné a øízené úložištì tìchto dat. Analogii s integrací aplikací v oblasti strukturovaných dat mùžeme spatøovat ve vzniku aplikací pro automatizovaný obìh dokumentù, tzv. workflow (blíže viz kapitola 3.7), které se rozšíøily zaèátkem devadesátých let. Vývoj v oblastech zpracování strukturovaných a nestrukturovaných dat naznaèuje, že se tyto dvì oblasti stále více sbližují. Poslední uvedená etapa – automatizace podnikových procesù – je již pouze krùèkem od paralelního zpracování strukturovaných a nestrukturovaných dat v rámci èinností podnikových procesù. U obou oblastí jsme se dostali pøes integraci datové základny a provázání aplikací k jejich zastøešení komplexním systémem. Pro oblast nestrukturovaných dat je tímto komplexním systémem ECM.
2
16
Na obr. 1.2 je schematicky zachycen jeden z øady pøíkladù možného propojení systémù ERP a ECM: informace z dokumentù (faktury, objednávky, dodací listy atp.) došlých do organizace jsou ukládány nejen do ERP systému k obvyklému transakènímu zpracování, ale zároveò jsou uloženy v elektronické podobì do ECM systému. Dokumenty buï v elektronické podobì organizace již obdrží, nebo dojde k jejich naskenování a dalšímu zpracování ve formì image (obrazu) dokumentu. Kontrola správnosti došlých dokumentù probìhne v ECM systému. Uložením daného typu dokumentu do ECM je automaticky spuštìn pøíslušný proces jeho zpracování (tj. workflow v rámci ECM). V pøípadì, že tento proces skonèí pozitivnì (dokument je v poøádku), je iniciován proces v ERP systému (tj. workflow ERP) realizující zpracování obsahu dokumentu v transakèním systému. V prùbìhu tohoto procesu mají odpovìdní pracovníci kromì zpracovávaných dat kdykoliv k dispozici i elektronickou podobu došlého dokumentu. V pøípadì, že dokument neobsahuje všechny požadované náležitosti, je vrácen odesílateli (dodavateli, zákazníkovi…) a ERP proces není spuštìn. Pokud se napø. na úèetní oddìlení obrátí dodavatel s dotazem, zda již došla jeho faktura a pokud ano, kdy bude proplacena, mùže dostat tøeba takovouto odpovìï: „Faktura byla pøijata (je zaevidována v ERP systému), ale nebylo povoleno její zpracování, protože obsahovala chybu XY a byla zaslána zpìt k opravì dne …“ (Tyto informace úèetní snadno zjistí z ECM systému – obvykle kliknutím na tlaèítko typu „Zobraz zdrojový dokument k tìmto datùm“.) Po zpracování procesu v ERP systému jsou analytikùm, marketingovým pracovníkùm, vrcholovému managementu atp. kdykoliv k dispozici jak strukturovaná data, tak dokumenty, ze kterých byla tato data èerpána. Propojením ECM a ERP systému je umožnìn pøístup jak k potøebným transakèním datùm, tak k souvisejícím dokumentùm.
Efektivní správa dokumentù – Co nabízí ECM
1
ZPRACOVÁNÍ STRUKTUROVANÁ DATA
ERP
ü
ERP WORKFLOW
PROHLÍŽENÍ ANALÝZY DOTAZY ZÁKAZNÍKA…
DOKUMENTY
NESTRUKTUROVANÁ DATA
ECM
ECM WORKFLOW
ZPRACOVÁNÍ
ü
Obr. 1.2 Integrace zpracování nestrukturovaných a strukturovaných dat Jak tedy ECM historicky vznikalo? První aplikace, které jsou nyní zaøazovány do systému ECM, se objevily v polovinì osmdesátých let. Byly zamìøeny na digitalizaci dokumentù (Imaging) a jejich následnou integraci do datových zdrojù informaèního systému. S rozvojem poèítaèových sítí se rozšíøily možnosti komunikace a zvýšila se potøeba sdílení nestrukturovaných datových zdrojù. Objevily se proto první aplikace pro výmìnu zpráv (elektronická pošta) a aplikace pro sdílení a správu dokumentù (Document Management System). Hitem devadesátých let bylo workflow, aplikace umožòující automatizaci podnikových procesù. Pro toto období je typická sílící integrace aplikací (mj. již zmiòovaný vznik ERP), která se projevuje i rozšiøováním funkcionality stávajících produktù. Napø. elektronická pošta, umožòující komunikaci uživatelù, byla rozšíøena o funkcionalitu podporující kooperaci uživatelù a koordinaci jejich èinností. (Tyto aplikace pro podporu týmové spolupráce jsou nyní známy pod termínem Groupware.) Aplikace pùvodnì zamìøené na digitalizaci dokumentù byly èasto rozšíøeny o modul pro jejich sdílení a naopak, aplikace pro správu dokumentù byly rozšíøeny o funkcionalitu zajišťující zpracování skenovaných dokumentù a èasto i funkcionalitu pro øízení jejich automatizovaného obìhu. Enormní nárùst elektronických dokumentù vedl k myšlenkám o jejich elektronické archivaci, a tak vznikly první archivaèní systémy, souèasnì byly zdokonalovány technologie pro fulltextové vyhledávání, rozpoznávání znaèek, èárových kódù, tištìného i psaného písma.
Historie správy podnikového obsahu
17
1
*
Datové zdroje se ale dále rozrùstaly, a to jak o úložištì webových dat, tak o úložištì multimediálních dat. Pro správu tìchto datových zdrojù vznikly speciální aplikace (Web Content Management, Digital Asset Management). Zmìny v legislativì podpoøily vznik aplikací pro správu archiválií, správu záznamù a správu podnikových e-mailù (Archive Management, Records Management System, E-mail Management). A dalo by se pokraèovat. S pøibývajícími aplikacemi byli jejich výrobci tlaèeni do poskytování stále komplexnìjších øešení, pro která v roce 2001 zavedla spoleènost AIIM oznaèení Enterprise Content Management [AIIM, 2004, str. 2]. Dodnes pøibývají nové aplikace a technologie, které zkvalitòují zpracování nestrukturovaných dat a jsou zahrnovány „pod zastøešující“ termín ECM.
ECM Správa záznamù Správa e-mailù Správa multimédií Správa znalostí Správa webu Archivace Automatizace procesù Týmová spolupráce Správa dokumentù Digitalizace dokumentù, vytìžování dat 1985
1990
1995
2000
Obr. 1.3 Historie vzniku ECM ECM (viz obr. 1.3) je tvoøeno soustavou relativnì samostatných, ale vzájemnì propojených aplikací a s nimi souvisejících technických prostøedkù. Je to stavebnice, která musí ve svém výsledku co nejlépe pøispívat k podpoøe podnikových procesù a tím i k plnìní strategických cílù. Z tìchto principù je tøeba vycházet pøi kombinaci aplikací a technologií, kterými má být ECM v dané organizaci realizováno. Øešení ECM musí korespondovat s možnostmi a potøebami organizace, a je proto vždy jedineènou a originální záležitostí.
18
Efektivní správa dokumentù – Co nabízí ECM
1 2
V odborných èláncích se setkáváme s øadou odlišných názorù na to, které aplikace ECM tvoøí. Napø. v encyklopedii Brainy je uvedeno, že tradièními aplikaèními oblastmi ECM jsou: l l l l l
Document Management, Collaboration / Groupware, Web Content Management, Records Management / Archive Management, Workflow / Business Process Management.
Profesor R. J. Glushko3, který je zakladatelem a zároveò vedoucím pracovníkem výzkumnì-vzdìlávacího centra s názvem „Center for Document Engineering“ pøi University of California, na které rovnìž pøednáší, vymezuje ECM jako systém zastøešující tyto disciplíny: l l l l l l l
Document Management, Web Content Management, Digital Asset Management, E-mail Management, Records Management, Report Management, Collaboration Tools.
Už jenom z tìchto dvou ukázek je zøejmé, jak rùznorodé mùže být složení ECM a jak pestré mohou být názvy aplikací. Blíže se k této problematice vrátíme v kapitole 2.
1.3 Problémy související s ECM Prùzkumy prokázaly, že organizace jsou kvalitnì vybaveny širokou škálou aplikací a nástrojù na zpracování strukturovaných dat. Aèkoliv je objem tìchto dat výraznì menší než objem nestrukturovaných dat, tak se organizace zlepšením manipulace s dokumenty èi prací se znalostmi nikterak nezabývají. V praxi se bìžnì setkáváme se situacemi, kdy zamìstnanec nemá pøehled o tom, které informaèní zdroje jsou v organizaci k dispozici, kde jsou dokumenty publikovány, zda k nim má pøístupová práva a mùže je získat v okamžiku, kdy je potøebuje atp. Centrální databáze strukturovaných dat se rozvíjejí a zdokonalují již nìkolik desetiletí a pro organizace jsou prakticky samozøejmostí. Na rozdíl od toho je sjednocené úložištì elektronických dokumentù v organizacích vzácností.
3 Viz osobní stránky na adrese http://www.sims.berkeley.edu/~glushko
Historie správy podnikového obsahu
19
1
Pokud jsou napø. elektronické dokumenty po organizaci roztroušeny, dost èasto koncový uživatel rozhoduje o tom, které dokumenty uchová, kam je uloží èi zkopíruje, bude-li je s nìkým sdílet, komu je poskytne a kdy je smaže. Jestliže dokumenty, které by mohly být pøedmìtem soudních sporù, leží neøízeny mimo informaèní systém, vystavuje se organizace významnému riziku. V následujícím textu je uvedeno nìkolik dalších pøíkladù, s jakými problémy se organizace obvykle potýkají – napø. pøi pøijímání a zpracování listinných dokumentù a jejich archivaci, pøi snaze øešit sdílení dokumentù prostøednictvím sdílených adresáøù èi pøi opomíjení dokumentù ve formì e-mailù.
Listinné dokumenty Listinné dokumenty jsou tradièní a stále pøetrvávající formou pøedávání informací, pøestože s nimi èasto souvisí následující problémy: l
l l l l
Pøijaté listinné dokumenty musí být zaznamenány do podacího deníku a dle zákona o archivnictví [Zákon, 499/2004, § 2 odst. 8] od 1. 1. 2006 zároveò v rejstøíku. Rejstøík je evidenèní pomùcka k vyhledávání dokumentu v podacím deníku. Pøesahuje-li prùmìrný poèet dokumentù evidovaných v podacím deníku za posledních 5 let v jednom roce èíslo 3000, musí se vést vždy jak rejstøík jmenný, tak rejstøík vìcný. Další druhy rejstøíkù mohou být založeny podle charakteru, obsahu a èetnosti evidovaných dokumentù. Rejstøík je veden ve vázané knize, ve formì kartotéky nebo v digitální podobì s možností tisku. Pro velké objemy pøijímaných dokumentù je ruèní vedení rejstøíku neefektivní. Doba mezi pøijetím dokumentu a jeho pøevzetím zodpovìdnou osobou je dlouhá. Pøedávání listinných dokumentù, schvalovací procesy apod. jsou pomalé. Prùbìh zpracování dokumentu je neprùkazný pro auditní kontrolu. Mohou existovat neevidované kopie dokumentù.
Archivace dokumentù Archivovat vybrané dokumenty jsou organizace povinny ze zákona. K obecným problémùm archivace dokumentù v listinné podobì patøí následující: l l l
l l
l
20
archivy listinných dokumentù zabírají velké prostory, mají specifické požadavky na vnitøní prostøedí (stálost teploty, vlhkost), musí splòovat požadavky na zajištìní bezpeènosti (fyzické zabezpeèení pøed pøístupem neoprávnìných osob, ochrana pøed živelní pohromou – požár, povodeò apod.), vyhledání konkrétního dokumentu trvá nìkolik minut (pøi špatnì organizovaném archivu i hodin), pro pracovníky ze vzdáleného místa je archiv v okamžiku potøeby nedostupný (týká se napø. poboèek, ale i pracovníkù na služebních cestách), nutnost souèasného pøístupu nìkolika uživatelù ke stejným archivním dokumentùm vede k tomu, že si uživatelé dokumenty kopírují, což jednak znamená další náklady a zároveò se zvyšuje riziko zneužití dokumentù,
Efektivní správa dokumentù – Co nabízí ECM
1
l
velice závažný problém mùže zpùsobit situace, kdy si uživatel pùjèí dokument z archivu a buï ho nevrátí, nebo ho vrátí, ale dokument není založen zpìt na správné místo, na kterém je možné ho znovu najít.
Ukládání souborù v adresáøových strukturách Nìkteré organizace se snaží zavést do ukládání a sdílení souborù mezi pracovníky urèitý systém ve formì sdílených adresáøù. V organizaci je vytvoøen hierarchický systém adresáøù, ke kterým jsou pøidìlena pøístupová práva a jsou stanovena pravidla pro ukládání a aktualizaci souborù, vèetnì konvencí pro jejich jména. Toto øešení je založeno pøedevším na kázni pracovníkù, a proto je reálné snad pouze v pøípadì malého poètu uživatelù. Problémy jsou následující: l l l
l l
vysoké nároky na disciplínu uživatelù (dodržování konvencí názvù souborù, podadresáøù apod.), omezené možnosti nastavení rùzných úrovní a kombinací pøístupových práv, k souborùm uloženým v adresáøové struktuøe není možné pøistupovat z rùzných úhlù pohledu jako napø. vidìt soubory s reklamacemi vztahující se k urèitému výrobku, objednávky pøijaté v minulém mìsíci èi vyøizované konkrétním zamìstnancem apod.), není možné zabránit duplicitnímu uložení souborù, ztráta èasu v dùsledku hledání dokumentu se dle prùzkumù pohybuje mezi 10 % až 27 % (dle [Onestopclick, 2006, str. 1] a [Boyd, 2005, str. 6]).
E-maily Objem e-mailových zpráv se neustále zvyšuje. Málokterá organizace pøistupuje aktivnì k jejich øízené správì, pøestože se vìtšina z nich potýká s níže uvedenými problémy: l l
l
l
vzájemná nedostupnost obsahu, napø. obchodních e-mailù mezi uživateli, vícenásobné (de facto nedohledatelné) uložení souboru, který je rozeslán uživatelùm elektronickou poštou ve formì pøílohy, elektronická pošta je kritickým místem pøi sporech øešených právní cestou (uživatel již hledanou zprávu smazal nebo je jeho schránka nepøístupná), v e-mailech je skryta øada rozhodnutí.
Problémy, které zpùsobuje nekoncepèní správa podnikového obsahu Výše uvedené skupiny pøíkladù patøí k tìm, které se v organizacích vyskytují nejèastìji. Pokud bychom se nyní podívali na správu dokumentù a dalších zdrojù nestrukturovaných dat oèima pracovníkù informatiky, mìli bychom si uvìdomit napø. i následující problémy vyplývající z nedostateèného øešení celkové koncepce správy podnikového obsahu:
Historie správy podnikového obsahu
21
1
l l l l l l l l
strukturovaná data jsou zpracovávána oddìlenì od nestrukturovaných dat, která s nimi souvisí, nestrukturovaná data jsou pøijímána øadou rùzných komunikaèních kanálù a na velkém poètu míst, zpracování nestrukturovaných dat je roztøíštìno po aplikacích, neexistuje centralizovaná kontrola pøístupu k nestrukturovaným datùm, podnikové zdroje (procesy, lidé, technologie a data) nejsou dostateènì integrovány, pro neøízené informaèní zdroje je typická jejich redundance a nekonzistence, informace potøebné pro soudní proces nebo audit nejsou zabezpeèeny, není realizována dostateèná ochrana pøed odcizením intelektuálního vlastnictví.
Implementovat ECM neznamená proto pouze nainstalovat aplikaci, ale zajímat se o celkové koncepèní øešení. Architektura informaèního systému je dána strukturou používaných aplikací, které umožòují realizovat èinnosti jednotlivých organizaèních útvarù. Pracovníci pøistupují k datùm výhradnì prostøednictvím tìchto aplikací a dovolují jim data zpracovávat pouze tak, jak to umožòuje pøipravená funkcionalita. Obtížnì se proto øeší požadavek typu: získat všechny informace týkající se konkrétního zákazníka (smlouvy, objednávky, faktury, e-maily apod.), pokud není k dispozici komplexní systém správy všech podnikových dat. Potøebujeme-li najít nìjakou informaci „za hranicemi“ organizace, necítíme takový problém, protože se pro nás stal samozøejmostí internet, k tomu nìkterý z prohlížeèù, jednoduchá formulace dotazu a vzápìtí získání stovky odkazù. Stejný pøístup je ideální i v pøípadì podnikových dat. Je však tøeba uvést, že implementace aplikací pro správu podnikového obsahu nebývá pøijímána zamìstnanci organizace vždy pozitivnì (nebo alespoò s pochopením), protože tyto aplikace mají následující specifika: l
l
týkají se vìtšinou velkého poètu zamìstnancù, kteøí pracují na rùzných úrovních øízení, n ne každý je pøístupný zmìnám a zamìstnanci na rùzných úrovních øízení mají odlišné pøedstavy o pøínosech implementace pro jejich práci i pro výsledky organizace jako celku, zamìstnanci se musí vyrovnat s následujícími problémy: n odbourat psychologické zábrany vùèi ztrátì listinných dokumentù, n zmìnit léty zažité postupy práce s dokumenty, n zvyknout si na elektronickou komunikaci, která obèas vytìsní komunikaci osobní.
Z výše uvedeného vyplývá, že ECM zastøešuje nejenom jednotlivé aplikace a technologie, ale znamená i koncepèní øešení správy podnikových informaèních zdrojù.
Ò
Shrnutí Dùsledkem rozvoje informaèních technologií je, že každá organizace produkuje a uchovává spoustu dat, informací a znalostí, které existují v nejrùznìjších formách od strukturovaných dat uložených v relaèních databázích pøes digitální a listinné dokumenty, e-maily, faxy, zvukové záznamy, obrázky, fotografie, výkresy, webové stránky až po znalostní databáze a archivy.
22
Efektivní správa dokumentù – Co nabízí ECM
1
Každá organizace vlastní svùj informaèní kapitál. Aplikace a technologie zastøešované termínem ECM z nìj umožòují vytìžit vìtší zisk. Organizace by nemìly pøehlížet problémy, které jim neøízený podnikový obsah zpùsobuje. Oblast správy podnikového obsahu je velice rozsáhlá. Vyžaduje øešení nejenom technických problémù, ale i øadu organizaèních opatøení a personálních zmìn. Implementace aplikací ECM znamená èasto zavádìní informaèních technologií do èinností a procesù, které byly dosud vykonávány pouze manuálnì. To s sebou pøináší velké zmìny v nárocích na pracovníky, na jejich pracovní náplò, kvalifikaci, doškolení apod.
Historie správy podnikového obsahu
23
2
2 Správa podnikového obsahu z hlediska architektury
y
Z pøedchozí kapitoly vyplynulo, že název „správa podnikového obsahu“ / „Enterprise Content Management“ vznikl jako nový termín, pod který byla zaèlenìna øada samostatných aplikací. Cílem této kapitoly je objasnit, co se rozumí aplikací, jaký je vztah mezi historickým vývojem ECM a souèasnou nabídkou konkrétních produktù na trhu, a proè se pøi plánování ECM øešení používá termín komponenta. Architektura ECM je pojata jak z hlediska vnitøního uspoøádání komponent v rámci konkrétního produktu ECM, tak z hlediska postavení ECM v aplikaèní architektuøe informaèního systému organizace. Jako poslední je zaøazena kapitola o životním cyklu podnikového obsahu, který jednotlivé komponenty v rùzném rozsahu pokrývají.
Organizace mají odlišné potøeby i jiné pøedstavy o tom, jak øídit informaèní zdroje. Pokud své úsilí nasmìrují k implementaci ECM, musí na úrovni strategického øízení rozhodnout mimo jiné o tom, v jakém rozsahu budou ECM implementovat a jak toto øešení zasadí do stávající aplikaèní architektury4.
2.1 Komponentový pøístup k ECM V pøedchozí kapitole bylo uvedeno, že ECM zastøešuje øadu pùvodnì oddìlených aplikací. Jejich výèet byl postupnì uveden jak v souvislosti s historickým vývojem ECM, tak v charakteristikách ECM od rùzných autorù. Døíve než si tento výèet zrekapitulujeme, vysvìtlíme si nejprve obecnì vztah mezi aplikací a produktem, a poté specifika tohoto vztahu u produktù ECM. Aplikace je poèítaèový program, který poskytuje uživateli urèitou funkcionalitu, charakteristickou pro danou oblast užití, napø. textový editor, ERP (Enterprise Resource Planning). Na trhu jsou aplikace k dispozici v podobì konkrétních produktù, napø.: l l
aplikace textový editor – produkty Word, Writer, AbiWord apod., aplikace ERP – produkty mySAP Business Suite, Microsoft Dynamics AX 2009, Helios Orange, Karat apod.
4 Vzhledem k celkovému zamìøení knihy nejsou blíže analyzovány ostatní architektury (technologická, informaèní, pro-
cesní), které by musely být v rámci návrhu Enterprise Architecture rovnìž øešeny.
24
Efektivní správa dokumentù – Co nabízí ECM
2
Jak odpovídá historickému vývoji ECM, byly na trhu nabízeny nejprve produkty se specifickou funkcionalitou – napø. jako aplikace pro digitalizaci dokumentù, správu dokumentù, workflow apod. Postupnì ale byla funkcionalita prodávaných produktù rozšiøována, nebo døíve oddìlené produkty byly seskupeny do jednoho. Takže napø. produkt, který je nyní na trhu nabízen s tím, že se jedná o aplikaci pro správu dokumentù, obsahuje i funkcionalitu pro jejich digitalizaci a øízení automatizovaného obìhu.
2
Napøíklad produkt FileNet byl pùvodnì vyvinut jako aplikace pro správu dokumentù. Poté byl rozšíøen o funkcionalitu aplikací pro návrh a zpracování elektronických formuláøù, digitalizaci dokumentù a obìh dokumentù. Verze FileNet Panagon byla obohacena o správu obsahu webu.
K tomu, aby bylo možné pøesnìji specifikovat jak požadavky na øešení ECM, tak na architekturu konkrétního produktu, se používá termín komponenta. Komponenta v této souvislosti vyjadøuje èást/složku ECM øešení poskytující funkcionalitu, která je pro ni typická. Rozdìlení ECM na komponenty je analogické s historickým vývojem jednotlivých aplikací (viz obr. 1.3). Dùvodem tohoto pøístupu je i skuteènost, že v praxi je bìžné pøiøazovat vzájemnì produkty a aplikace. V oblasti ECM to mùže být nepøesné. Nìkteré produkty užívající oznaèení ECM mívají funkcionalitu užší, než je funkcionalita všech aplikací, které je možné pod ECM zaøadit, a naopak nìkdy jsou produkty oznaèeny jako urèitá aplikace a pøitom je jejich funkcionalita mnohem širší. Vzhledem k tomu, že konkrétní implementace ECM je vždy stavebnice, která nemá pøedem dané øešení, resp. možných variant je nìkolik, je tøeba se nejprve zorientovat v jednotlivých komponentách a poté sestavit požadavky na øešení, které bude vyhovovat potøebám organizace. V kapitole 3 jsou uvedeny charakteristiky komponent, jejichž abecední seznam je v tab. 2.1. Protože se originální anglické názvy neúprosnì prosazují i u nás, byly zvoleny v tomto pøehledu jako primární. Uvedené názvy jsou však jednìmi z možných. V èasopisech, v knihách, na semináøích, pøi konferencích, v prezentaèních materiálech apod. se mùžeme setkat s celou øadou dalších. V podstatì jsou to rùzné názvy pro totéž. Pøíèinou této pestrosti je jednak velice dynamický vývoj trhu ECM, ale i snaha dodavatelù produktù o co nejlepší vystižení jeho úèelu a také odlišení od konkurence a další marketingové zámìry. Poznámka: Výbìr názvù nebyl proveden náhodnì, ale na základì mnohaletého mapování informaèních zdrojù z této oblasti. Považujme proto tento výèet za výchozí pro ujasnìní základní terminologie užívané v dalším textu. Svìt informaèních technologií je svìtem zkratek, což je pro IT neodborníky velice nepøíjemné. Aèkoliv lze udìlat zkratku prakticky z jakéhokoliv názvu, jsou v tab. 2.1 uvedeny pouze ty zkratky, se kterými se bìžnì a pomìrnì èasto setkáváme v tisku, na internetu apod. Uvedený výèet komponent není možné pokládat za úplný, protože oblast ECM se stále rozšiøuje, a proto lze pøedpokládat, že budou další komponenty pøibývat.
Správa podnikového obsahu z hlediska architektury
25
2
Tab. 2.1 Seznam komponent ECM Anglický název
Èeský ekvivalent
Zkratka
Archiving
archivace
Business Process Management
øízení podnikových procesù
Data Capture
vytìžování dat
Digital Asset Management
správa multimediálního obsahu
DAM
Document Management System
systém pro správu dokumentù
DMS
E-mail Management
správa elektronické pošty
Groupware
týmová spolupráce
Imaging
digitalizace dokumentù
Knowledge Management
správa znalostí
Records Management
správa záznamù
Web Content Management
správa webového obsahu
Workflow
automatizace procesù
BPM
GW KM WCM
Pøíèiny, které zpùsobily, že je na trhu k dispozici dost nepøehledné portfolio produktù stejnì obecnì oznaèovaných, ale majících odlišnou skladbu komponent, spoèívají v tom, že: l
l
l
jednotlivé produkty vznikaly postupnì, byly vytváøeny na základì znalostí a nejlepších zkušeností konkrétní vývojáøské firmy, snaha po integraci a po lepším uspokojení potøeb zákazníka vedla k rozšiøování pùvodních produktù o nové moduly, vývoj nových produktù a pøidávání dalších komponent souviselo (a nadále i souvisí) s rychlým vývojem informaèních technologií a rostoucími požadavky na kvalitu produktu.
2.2 Architektura produktù ECM Z pøedchozího textu vyplývá, že konkrétní produkty ECM mají rùznì rozsáhlou strukturu komponent. Jejich vnitøní architektura, tj. uspoøádání a vazby mezi komponentami, možnosti modifikovatelnosti struktury apod., je u jednotlivých produktù odlišná. Na obr. 2.1 je znázornìna vnitøní architektura produktù Open Text ECM Suite a Alfresco ECM. Z obrázku je patrné, že oba produkty se opírají o centralizované úložištì obsahu a že produkt od spoleènosti Open Text tvoøí devìt komponent, zatímco produkt od spoleènosti Alfresco ètyøi komponenty.
26
Efektivní správa dokumentù – Co nabízí ECM
2
Open Text ECM Suite
Alfresco ECM
Správa záznamù
Správa e-mailù
Archivace
Správa dokumentù
Automatizace procesù
Pøídavné ECM pro SAP
Týmová spolupráce
Správa webového obsahu
Správa multimediálního obsahu
Digitalizace dokumentù
Správa dokumentù
Úložištì obsahu
Správa záznamù
Správa webového obsahu
Úložištì obsahu
Obr. 2.1 Struktura komponent ECM produktù spoleèností Open Text a Alfresco (pøeloženo z anglického originálu, zdroj: webové stránky spoleèností)
Správa záznamù1
Elektronické formuláøe1
Vytìžování dat1
Správa e-mailù1
Øízení týmové spolupráce1
Publikaèní program FileNet
Portlety FileNet P8 Rámec pravidel propojování
Platforma FileNet P8 Výkonné jádro pro obsah Content Engine
Výkonné jádro pro procesy Process Engine
Výkonné jádro pro aplikace Application Engine
Výkonné jádro pro vytváøení needitovatelných dokumentù Rendition Engine
1 Mohou
být objednány za další licenèní poplatek
2
Image Services ukládají a spravují velmi velké objemy needitovatelných dokumentù v prostøedí s vysokou dostupností a bezpeèností dat
Správa needitovatelných dokumentù
Služby propojování obsahu Image Services1, 2
Monitorování prùbìhu procesu1 Analyzátor procesu1
Simulátor procesu1
Adaptér pro pøístup aplikací k obsahu Image Services1, 2
Obr. 2.2 Logická architektura produktu FileNet P8 (pøeloženo z anglického originálu, zdroj: [Švík, Mikolášek, 2008])
Správa podnikového obsahu z hlediska architektury
27
2
Pøizpùsobitelnost produktu požadavkùm zákazníka je zøejmá z obr. 2.2, na kterém je uvedena logická architektura produktu FileNet P8. Jádro produktu tvoøí ètyøi komponenty, které poskytují základní funkcionalitu správy obsahu a automatizace procesù (Content Engine, Process Engine), øízení aplikací a vytváøení needitovatelných dokumentù (Application Engine, Rendition Engine). S tímto jádrem jsou spojené nezbytné komponenty pro publikování, portlety a pravidla propojování. Dalších jedenáct komponent je volitelných.
2.3 Zaèlenìní ECM do aplikaèní architektury Poté, co jsme na pøíkladu popsali vnitøní architekturu produktu ECM, se zamìøíme na architekturu vnìjší, tj. zaèlenìní ECM do struktury ostatních aplikací. Opìt vyjdeme z reálného pøíkladu. Ukázka zaèlenìní ECM do aplikaèní architektury informaèního systému organizace je uvedena na obr. 2.3.
2 Skenovat
Aplikace ERP
Aplikace CRM
archivovat/ doruèovat
Aplikace pro vytìžování dat
získat/ archivovat
Další aplikace pro správu dokumentù vytvoøit/ použít/ archivovat
Uživatelé
Aplikace BI
E-maily E-
Zákazník (Internet)
vytvoøit/ prezentovat použít/ archivovat informace zhodnotit
archivovat/ doruèovat
2
Vyhledávání
2
OTEVØENÉ STANDARDY OTEVØENÉ APLIKAÈNÍ ROZHRANÍ Automatizace procesù
Správa dokumentù a záznamù
Øízení týmové spolupráce
Integrace podnikových aplikací
Archivace podnikových informací
Správa webového obsahu
zhodnotit publikovat/ použít
Soubory Elektronické formuláøe
ECM zhodnotit
Úložištì podnikových informací
Úložištì zdìdìných informací
Obr. 2.3 Postavení ECM v aplikaèní architektuøe informaèního systému (pøeloženo z anglického originálu, autor T. Kutìj, Microsoft)
28
Efektivní správa dokumentù – Co nabízí ECM
2
Z obrázku je patrná nejenom vnitøní architektura ECM (skladbu komponent je možné porovnat s obr. 2.2), ale i vazby ECM na další podnikové aplikace (v tomto pøípadì ERP, CRM a BI), uživatelské aplikace, elektronickou poštu, souborový systém a na rozhraní smìrem k zákazníkovi. ECM patøí mezi infrastrukturní aplikace, a proto je umísťováno do centra informaèního systému. Jeho prostøednictvím jsou ostatním aplikacím pøedávána nestrukturovaná data uložená v centrálním úložišti, ve kterém jsou zároveò zabezpeèena a chránìna.
2.4 Životní cyklus podnikového obsahu V definici ECM (viz kapitola 1.1) je uvedeno, že se jedná o technologie sloužící k získání, øízení, uložení, zachování a doruèení podnikového obsahu. Jinými slovy, jedná se o technologie pokrývající všechny fáze životního cyklu podnikového obsahu. Životní cyklus podnikového obsahu je znázornìn na obr. 2.4. Dokumenty, formuláøe, faxy, e-maily, fotografie a další typy nestrukturovaných informací, které zahrnuje termín podnikový obsah, zahajují svùj životní cyklus buï tím, že jsou pøijaty (napø. uživatel obdrží e-mail, stáhne si dokument z internetu), nebo poøízeny (napø. uživatel vytvoøí v textovém editoru nový dokument, naskenuje listinný dokument a pokraèuje v jeho zpracování v elektronické formì apod.). Vstupní fáze obvykle trvá v øádu minut až hodin. Ve fázi zpracování, která mùže trvat pouze hodiny, ale obvykle trvá dny až mìsíce, je podnikový obsah uložen ve sdíleném úložišti, je rùznì upravován, schvalován a užíván. V poslední, výstupní fázi, je podnikový obsah publikován, dle potøeby archivován a na závìr skartován. Tato fáze trvá obèas mìsíce, ale vìtšinou roky.
VSTUP
Pøijetí Poøízení
ZPRACOVÁNÍ
Uložení Úpravy Užívání
VÝSTUP Archivace Publikování Skartace
HODINY
DNY–MÌSÍCE
MÌSÍCE–ROKY
Obr. 2.4 Fáze životního cyklu podnikového obsahu Kromì toho, že mají jednotlivé fáze odlišnou délku trvání, tak je pokrývají svojí funkcionalitou rùzné komponenty ECM. Pøi rozhodování o celkové koncepci øešení ECM je pohled pøes životní cyklus podnikového obsahu vhodným pøístupem. Nìkteré organizace se rozhodnou pro implementaci celého ECM øešení, které pokrývá všechny fáze životního cyklu podnikového obsahu, jiné pouze pro jeho èást, jež mùže souviset jen s urèitou
Správa podnikového obsahu z hlediska architektury
29
2
fází. Jak bude dále uvedeno, ne vše je tøeba øešit nákupem a implementací produktu, ale je možné využít i rùzné formy služeb. Ty se rovnìž mohou týkat jen urèité fáze. Dalším aspektem je rozhodování mezi centralizovaným a decentralizovaným øešením atp. (Detailnìji je tato problematika analyzována v kapitole 6.1.1.) Které fáze podnikového obsahu jednotlivé komponenty ECM pokrývají, je schematicky znázornìno v rámci jejich charakteristik, které jsou uvedeny v následující kapitole.
Ò
Shrnutí Produkty ECM jsou tvoøeny rùznou kombinací komponent, což na jedné stranì umožòuje sestavit øešení tzv. „na míru“ potøebám organizace, ale na druhé stranì to mùže zpùsobit problémy, pokud je problematika ECM øešena nekoncepènì (napø. komponenty jsou poøizovány na úrovni organizaèních útvarù, nejsou provázány navzájem a ani s dalšími aplikacemi). Strategické rozhodování o celkové koncepci øešení ECM (viz dále) musí být podloženo mj. návrhem celkové podnikové architektury zahrnující aplikaèní, informaèní, technologickou a procesní architekturu. Životní cyklus podnikového obsahu je jedním z úhlù pohledu na celkovou koncepci øešení ECM v organizaci.
30
Efektivní správa dokumentù – Co nabízí ECM
3
3 Komponenty ECM y
Protože ECM je robustní systém, který se vyvinul z široké škály aplikací, je rozdìlen na jednotlivé komponenty, které pokrývají svojí funkcionalitou vždy urèitou èást životního cyklu podnikového obsahu. Cílem této kapitoly je uvést pøehlednou charakteristiku jednotlivých komponent, tj. jednotlivých aplikací, které ECM tvoøí, zamìøit se na jejich základní principy fungování v rámci organizace a pøínosy, které lze od jejich implementace oèekávat.
Následující kapitoly vycházejí z jednotné struktury, která zahrnuje: l l l l l l l
základní vymezení, tj. definici komponenty5, seznam ekvivalentních anglických názvù, se kterými je možné se setkat, urèení fází životního cyklu podnikového obsahu, kterých se komponenta týká, vysvìtlení úèelu komponenty, jaké jsou hlavní principy a základní funkce komponenty, jaké lze od její implementace v organizaci oèekávat pøínosy, závìreèné shrnutí.
3.1 Digitalizace dokumentù (Imaging) Digitalizace dokumentù je vedle pøímé tvorby dokumentù v elektronické formì druhou alternativou vstupu dokumentù do informaèního systému. Pod slovem dokument je tøeba rozumìt libovolný listinný materiál, který mùže obsahovat tištìný text, obrázky, grafy, tabulky, podpisy, razítka apod.
`
Komponenta pro digitalizaci dokumentù je program, který zajišťuje pøevod listinných dokumentù do digitální podoby, a to buï do formátu obrazu, nebo do editovatelného elektronického souboru.
5 Pokud u definice není uveden pùvodní informaèní zdroj, tak se jedná o formulaci autorky.
Komponenty ECM
31
3
Ekvivalentní anglické názvy l l l l
Imaging Document Imaging Document Imaging System Document Image Processing
Pokrytí fází životního cyklu podnikového obsahu Pøevod listinných dokumentù do digitální formy je realizován buï pøi vstupu informací do informaèního systému (cílem je eliminovat obìh listinných dokumentù po organizaci), nebo ve fázi jejich uchovávání (cílem je nahradit listinný archiv archivem elektronickým).
VSTUP
Pøijetí Poøízení
ZPRACOVÁNÍ
Uložení Úpravy Užívání
VÝSTUP Archivace Publikování Skartace
Obr. 3.1 Pokrytí fází životního cyklu podnikového obsahu komponentou pro digitalizaci dokumentù
3.1.1 Úèel komponenty Na jedné stranì jsou dokumenty v listinné i elektronické podobì v organizacích samozøejmostí, na druhé stranì si tato skuteènost vynucuje potøebu øešit soužití obou tìchto forem maximálnì efektivnì. Tendencí je zpracovávat dokumenty pøedevším ve formì elektronické, anebo alespoò v informaèním systému zpracování listinných dokumentù sledovat. Tìmto snahám odpovídají i jednotlivé stupnì integrace listinných dokumentù do informaèního systémù. Žádná integrace – listinné dokumenty jsou zpracovávány mimo informaèní systém: l
l
l
32
Dokumenty jsou pøijímány a zpracovávány výhradnì v listinné formì (napø. docházkové listy, potvrzení o pracovní neschopnosti, zpráva o pracovní zpùsobilosti, výpis z rejstøíku trestù). Zpracování dokumentù je èasovì nároèné už jenom z toho dùvodu, že dokumenty jsou pøedávány manuálnì. Další náklady jsou spojené pøedevším s jejich kopírováním, vyhledáváním, archivováním a zabezpeèením.
Efektivní správa dokumentù – Co nabízí ECM
3
Integrace na úrovni evidence dokumentù – listinné dokumenty jsou v informaèním systému evidovány, což znamená: l
l
l
Listinnému dokumentu je pøi jeho pøijetí pøidìlen jednoznaèný identifikátor, který je spolu s dalšími základními údaji zaevidován v informaèním systému. Pokud tuto evidenci využívají další aplikace, tak aèkoliv jsou dokumenty pøedávány manuálnì, lze z informaèního systému napøíklad zjistit, v jaké fázi zpracování se dokument nachází, kdo ho momentálnì zpracovává apod. Do nákladù je tøeba zahrnout hardwarové a softwarové vybavení pracovišť, kde se dokumenty evidují. Vlastní náklady na zaevidování dokumentù jsou srovnatelné nebo dokonce nižší než u evidence manuální. Rozhodnì se v tomto pøípadì zefektivní proces vyhledávání dokumentù a zjišťování stavu jejich zpracování.
Integrace na úrovni dat obsažených v dokumentech – data z listinných dokumentù jsou vkládána do informaèního systému, tj.: l
l
l
l
Uživatel vloží do informaèního systému vybraná data z dokumentu, napø. data z výdejky, faktury, objednávky, dodacího listu apod. V pøíslušné aplikaci informaèního systému bývá pøipraven vstupní formuláø, do kterého jsou data vložena a dále zpracovávána s tím, že v pøípadì potøeby je vyhledán listinný originál. Tato forma integrace je bìžná pro dokumenty zpracovávané základními podnikovými aplikacemi (napø. úèetnictví, sklad, logistika, personalistika). Èasovì nároèné zùstávají èinnosti spojené s pøedáváním dokumentù v listinné formì.
Úplná integrace dokumentù – listinné dokumenty jsou skenovány: l
l
l
l
Jedná se o nejvyšší stupeò integrace listinných dokumentù do informaèního systému, který je podporován právì komponentou pro digitalizaci dokumentù. Co se týèe poøizovacích nákladù, je to øešení nejnákladnìjší, a to nejen vzhledem k potøebì poøídit pøíslušný hardware a software, ale i vzhledem k nákladùm, které jsou spojeny se zmìnami v navazujících podnikových aplikacích a podnikových procesech. Naskenované dokumenty jsou do informaèního systému vloženy buï ve formì obrázku, nebo projdou ještì rozpoznáváním a do informaèního systému jsou vložena i data, která jsou z nich vytìžena. Podle potøeby a typu dokumentu mùže být realizováno i úplné rozpoznávání dat, kdy výstupem jsou soubory v dále zpracovatelném formátu, napø. textovém, tabulkovém èi výkresovém. Zpracování dokumentù probíhá výhradnì v elektronické formì, což zrychluje jejich pøedávání a tím celkový proces zpracování. Dokumenty jsou jak snadnìji pøístupné oprávnìným osobám, tak jsou lépe zabezpeèené pøed zneužitím èi ztrátou.
Úplná integrace dokumentù do informaèního systému pøispívá k øešení jednoho z hlavních byznys problémù, a to zefektivnìní podnikových procesù. Další problém, který lze prostøednictvím této komponenty øešit, je digitalizace archivù listinných dokumentù z dùvodu rychlého vyhledávání a pohodlného
Komponenty ECM
33
3
zpøístupòování dokumentù a rovnìž z dùvodu minimalizace nákladù na skladové prostory. V neposlední øadì mùže být byznys cílem digitalizace vybraných dokumentù a jejich zpøístupnìní uživatelùm (napø. historické dokumenty, knihy, èasopisy).
3.1.2 Hlavní principy a základní funkce Proces digitalizace dokumentù (viz obr. 3.2) má tøi fáze: l l
l
1. fáze: pøíprava dokumentù – dokumenty je tøeba pøipravit ke skenování, 2. fáze: zpracování – tato fáze má následující kroky: n skenování, n rozpoznávání, n indexace, n verifikace a validace, n uložení, 3. fáze: výstup – elektronické dokumenty jsou exportovány na pøenosná pamìťová média, listinné dokumenty upraveny do pùvodního stavu (sesponkovány, slepeny apod.) a vráceny èi archivovány nebo skartovány.
Vlastní komponenty na digitalizaci dokumentù a jejich funkcí se sice týká pouze fáze zpracování, ale protože i vstupní a výstupní fáze jsou nedílnou souèástí procesu digitalizace, je potøeba jim vìnovat pozornost.
Pøíprava dokumentù ke skenování
VÝSTUP
ZPRACOVÁNÍ
PØÍPRAVA
Skartace nebo archivace listinných dokumentù Indexace
Skenování
Uložení
Vizuální kontrola
Export elektronických dokumentù a metadat na pamìťová média
Rozpoznávání Validace
Verifikace
Obr. 3.2 Proces digitalizace dokumentù
34
Efektivní správa dokumentù – Co nabízí ECM
3
1. fáze – pøíprava dokumentù Èinnosti pøi pøípravì listinných dokumentù ke skenování se mohou lišit podle toho, zda se jedná o digitalizaci dokumentù pøijímaných na podatelnì, o digitalizaci vybraných dokumentù v rámci organizaèních jednotek èi o digitalizaci archivních dokumentù. Pravidelná digitalizace velkých objemù dokumentù pøedpokládá užití vysokokapacitních skenerù, které umožòují skenovat dávky listinných dokumentù bez manuální obsluhy. Pøed vložením dokumentù do podavaèe je tøeba odstranit kanceláøské sponky. Obsahuje-li dávka vícestránkové dokumenty, bývají mezi nì vkládány tzv. separátory (oddìlovací èi tøídicí listy – viz dále), nebo jsou na první stránce oznaèeny èárovým kódem apod. Vysokokapacitními skenery není možné skenovat vícestránkové dokumenty, jejichž listy jsou neoddìlitelnì svázány (napø. jsou opatøeny peèetí). Ty je tøeba skenovat na plochém skeneru s manuální obsluhou. Totéž se týká dokumentù, které jsou pøíliš malé nebo nìjak poškozené. Takové dokumenty je tøeba pøed skenováním podlepit èi vložit do prùhledných desek. Na skenování celých knih existují speciální skenery s automatickým listovaèem, které bez zásahu operátora vloženou knihu po jednotlivých dvojstránkách postupnì celou naskenují. Tímto typem skenerù jsou však vybavena pouze specializovaná pracovištì, protože se jedná o zaøízení finanènì nákladná a protože skenování celých knih není záležitostí bìžné každodenní administrativní praxe. Pøíprava ke skenování se na podatelnì, oddìlení èi archivu liší zejména v požadavcích na tøídìní. Aèkoliv to kvalitní skenery nevyžadují, tak se tím proces skenování urychlí a je možné i zefektivnit následnou indexaci dokumentù. Pøístupù, jak dokumenty roztøídit, je k dispozici nìkolik a mohou být rùznì kombinovány. Kritériem tøídìní mùže být: l l
l
l
velikost papíru (napø. oddìlit skenování dokumentù o velikosti A4, od rozmìrù A5 èi naopak A0), barevnost výstupu (oddìlit skenování èernobílých dokumentù od skenování barevných dokumentù, jejichž výstupy mohou být jak barevné, tak ve stupních šedi), typ dokumentu (napø. oddìlit faktury od objednávek, reklamací, dokladù o pracovní neschopnosti apod.), vkládání tøídicích listù mezi vícestránkové dokumenty nebo skupiny dokumentù. Tøídicí list mùže být napø. i formuláø, na kterém obsluha zaškrtne potøebné charakteristiky (typ dokumentu, oddìlení, které ho bude zpracovávat, apod.).
Pøípravná fáze je pomìrnì èasovì nároèná, protože vyžaduje manuální práci.
2. fáze – zpracování Druhá fáze obsahuje nìkolik krokù. Èinnosti, které jsou v rámci jednotlivých krokù realizovány, se liší podle toho, za jakým úèelem je digitalizace dokumentù provádìna. Napøíklad požadavky na výstupní data budou jiné v pøípadì, že organizace chce digitalizovat dokumenty, které budou postoupeny ke zpracování dalšími aplikacemi informaèního systému, a jiné v pøípadì, pokud chce digitalizovat archivní dokumenty, u kterých jí postaèí pouze obrazy dokumentù a jednoduchá struktura metadat.
Komponenty ECM
35
3
A) Skenování dokumentu
Vlastní skenování je proces, pøi kterém je listinný dokument vložen do skeneru, naskenován a jeho obraz je uložen v nìkterém z formátù, napø. JPEG, TIFF, PNG, PDF, BMP. Aby byly dokumenty po digitalizaci co nejlépe èitelné, je vhodné obraz vylepšit prostøednictvím speciálních nástrojù, které v rùzném rozsahu a kvalitì komponenty pro digitalizaci dokumentù nabízejí. Nabídka skenerù je široká. Rozhodování o tom, jaký skener vybrat, zdaleka neovlivòuje pouze cena, ale i øada dalších parametrù, mezi které patøí následující: l
l
l
l
36
druh skeneru, n pro vysokorychlostní snímání listinných dokumentù se užívají dokumentové (stránkové) skenery, pro ménì objemné skenování v kanceláøích pak plošné stolní skenery, které umožòují snímat i vázané dokumenty, n speciální užití mají bubnové skenery (pøedevším pro skenování filmù a diapozitivù, vyžadují tenkou pøedlohu upínatelnou na válec), 3D skenery (umí snímat tøírozmìrné pøedlohy, užívají se napø. ve strojírenství), ruèní skenery (v souèasné dobì se užívají jejich miniaturizované varianty, napø. skener ve formì tužky, a to jen ve speciálních pøípadech užití), velkoplošné skenery (užívají se pøedevším pro skenování výkresù, které mohou být až do formátu A0; výstupní formáty umožòují jejich pozdìjší konverzi do rùzných formátù), n skenery bývají souèástí i rùzných multifunkèních zaøízení (tiskáren, faxù, kopírek), rychlost skenování, n rychlost skenování dokumentù (udávaná v poètu stran za minutu) se mùže lišit v závislosti na tom, zda se jedná o skenování èernobílé, ve stupních šedi èi barevné (není to sice pravidlem, ale èernobílé skenování bývá dvojnásobnì rychlejší než skenování barevné), n pokud skenery umožòují nejenom jednostranné (simplexní), ale i oboustranné (duplexní) snímání dokumentù, tak duplexní snímání bývá dvakrát rychlejší než simplexní, n pro pøedstavu o rychlosti skenerù lze uvést orientaèní hodnoty – simplexní skenování èernobílých dokumentù se pohybuje nejèastìji od cca 15 do 100 dokumentù za minutu, u dražších skenerù od cca 120 do 160 dokumentù za minutu, množství skenovaných dokumentù, n pro vyhodnocení množství naskenovaných dokumentù za den není možné vycházet pouze z údajù o rychlosti skenování, ale je tøeba respektovat i informace o maximálním denním výkonu, který mùže být omezen, n nejlevnìjší dokumentové skenery doporuèují skenovat pouze nìkolik set dokumentù dennì, n støední kategorie skenerù umožòují skenovat od cca ètyø do sedmi tisíc dokumentù dennì, n nejvýkonnìjší skenery oskenují i desetitisíce dokumentù dennì, rozmìry skenovaných dokumentù, n dokumentové skenery mívají maximální velikost pøedlohy omezenu na velikost A4 nebo A3, nìkdy se udává i minimální velikost, která mùže být až A8, tj. velikost vizitky, n pro snímání pøedloh o velikosti A2 až A0 je tøeba použít velkoplošné (velkoformátové) skenery, n kromì rozmìrù pøedlohy je dùležitá i její tloušťka (udává se v milimetrech, pohybuje se v rozmezí 0,05–0,3 mm) a gramáž (udává se v g/m2, pohybuje se v rozmezí 40 až 300 g/m2),
Efektivní správa dokumentù – Co nabízí ECM
3
nìkteré skenery jsou vybaveny automatickou detekcí velikosti papíru (Automatic Cropping) èi jejich tloušťky; pokud tìmito automatickými detekcemi skenery vybaveny nejsou, je tøeba dokumenty roztøídit a skener pøed skenováním odpovídajícím zpùsobem nastavit, kvalita nasnímaných obrazù, n o kvalitì nasnímaných obrazù rozhoduje použité rozlišení6, n hodnoty rozlišení bývají nejèastìji: 100 / 150 / 200 / 300 / 400 / 600 dpi, èím vìtší rozlišení je použito, tím je sice obraz dokumentu kvalitnìjší, ale velikost souboru je navzdory komprimaci vìtší, proto se obvykle volí vhodný kompromis mezi rozlišením a velikostí ukládaného souboru, n velikost výstupního souboru ovlivòuje i to, zda je výstup èernobílý, ve stupních šedi (256 odstínù šedi), nebo barevný (nejèastìji se užívá 24bitová barevná hloubka), podavaè listù, n kapacita podavaèe bývá udávána nejèastìji s hodnotami 50 / 150 / 200 / 500 listù, ale setkáme se i s podavaèi objemnìjšími, napø. na 1000 listù, n nìkteré skenery jsou vybaveny detektorem na poèet souèasnì odebraných listù èi upozoròují obsluhu na prázdný zásobník podavaèe. n
l
l
Podle toho, jakým softwarovým vybavením je skener doplnìn, mùže být pøi a po skenování využita celá øada funkcí, které skenování urychlí a naskenovaný obraz dokumentu vylepší. Napøíklad mùže být odlišnì optimalizován kontrast v rùzných èástech dokumentu, odstranìny neèistoty, vyrovnány deformace èi nechtìný náklon obrazu. Pøíklady funkcí, kterými bývají aplikace pro skenování vybaveny, jsou uvedeny v tab. 3.1. Pro automatické vylepšování obrazu v prùbìhu skenování je nejznámìjším produktem VirtualReScan (v praxi se vžil pod zkratkou VRS), což je patentovaná technologie firmy Kofax. VirtualReScan automaticky kontroluje a upravuje nastavení jasu, kontrastu, provádí korekci písma s vyhlazením hran, odmazává prázdné strany, automaticky nastavuje orientaci stran, detekuje barevné objekty, potlaèuje složité pozadí (vodotisky) a zvýrazòuje text pro rozpoznávání apod. Ukázka vylepšení obrazu je uvedena na obr. 3.3. Kvalita naskenovaného obrazu je velice dùležitá pro následující kroky procesu digitalizace, protože èím lepší je obraz, tím ménì chyb vznikne pøi jeho automatizovaném rozpoznávání.
Obr. 3.3 Ukázka vylepšení obrazu (zdroj: produkt AFPSPro)
6 Rozlišením se rozumí hustota bodové sítì v poètu pixelù na jednotku délky, obvykle palec, tj. 2,54 cm.
Komponenty ECM
37
3
Tab. 3.1 Funkce pro zkvalitnìní výstupu skenování Funkce
Komentáø
Automatic Cropping
automatické urèení rozmìrù pøedlohy ve skenované dávce
Binary/Colour Distinction
automatické rozlišení èernobílých a barevných stránek
Border Removal
automaticky detekuje a odstraòuje prázdné mezery kolem rohù dokumentù, které se bìžnì naskenují jako tmavé
Colour Dropout
odstranìní barevného pozadí (vìtšinou èervená, modrá nebo zelená barva), dùvodem je zmenšení velikosti výstupního souboru èi zkvalitnìní vytìžování dat
Deskew
automatické pravoúhlé zarovnání skenovaného listu
Despeckling
jsou odstranìny datové neèistoty
Double Exposure
dvoustranné dokumenty naskenuje na jednu stránku – ideální pro identifikaèní karty, obèanské prùkazy, øidièské prùkazy apod.
Dynamic Thresholding
automatická multibodová optimalizace skenovacích parametrù (zlepšuje kvalitu èernobílého výstupu pøi skenování barevných nebo málo kontrastních pøedloh)
Image Rotation
otoèení obrazu o 0 / 90 / 180 / 270°
Imprinting
vytištìní èárového kódu na dokument pøi jeho skenování
MultiStream
pøi skenování dokumentu vzniknou souèasnì dva výstupy – èernobílý (vhodný pro OCR/ICR zpracování – viz dále) a barevný (vhodný pro archivaci)
MultiColour Dropout
z obrazu dokumentu jsou odfiltrovány až tøi barvy najednou
Skip Blank Page
automaticky odstraòuje prázdné stránky, napø. u duplexního snímání jednostranného dokumentu je prázdná stránka automaticky odstranìna
B) Rozpoznávání obsahu dokumentu
Výstupem skenování je digitalizovaný obraz dokumentu, tj. jedná-li se napø. o naskenovaný text, tak výstupem je obrázek tohoto textu (bitmapa), který není možné zpracovat textovým editorem ani v nìm vyhledávat. K pøevodu naskenovaných obrazù dokumentù do následnì zpracovatelných výstupù se používají technologie, mezi které patøí: l
OCR – Optical Character Recognition, používá se pro rozpoznání tištìného nebo strojem psaného písma. Písmo pro optické ètení je standardizováno normami ANSI.
2
38
První systém na rozpoznávání znakù byl patentován v Nìmecku již v roce 1929. Byl založen na opticko-mechanickém principu, protože v té dobì ještì poèítaèe neexistovaly. Zaèátkem padesátých let vyvinuli pánové David Shepard a Harvey Cook systém, který nazvali „aparát na ètení“. V roce 1952 založil David Shepard s Williamem Lawlessem firmu Intelligent Machines Research Corporation, která vyvinula systém „Gismo“. První použití tohoto systému je pøipisováno spoleènosti Reader’s Digest, která ho v roce 1954 zaèala používat k pøevodu prodejních výkazù psaných na stroji na dìrné štítky.
Efektivní správa dokumentù – Co nabízí ECM
3
Pùvodcem oznaèení „Optical Character Recognition“ je spoleènost IBM, která se od poèátku o technologie rozpoznávání zajímala, postupnì odkupovala patenty a systémy dále rozvíjela. Zaèátkem sedmdesátých let vydal Americký národní normalizaèní institut normy pro znakové sady: OCR–A (ANSI X3.17-81) a OCR–B (ANSI X3.49–75) – viz ukázka písma na obr. 3.4, kterými standardizoval opticky èitelné písmo. Znakové sady obsahují kromì malých a velkých písmen také èíslice, interpunkèní znaménka a speciální symboly.
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0 Obr. 3.4 Ukázka písma ze znakové sady OCR–A (nahoøe) a OCR–B (dole) l l
ICR – Intelligent Character Recognition, používá se k rozpoznávání ruènì psaného písma. OMR – Optical Mark Reading, používá se k rozpoznávání zakøížkovaných nebo zabarvených znaèek a k jejich pøevodu na hodnoty umožòující další zpracování.
Varianta
Otázka B
C
D
E
2
A
B
C
D
E
3
A
B
C
D
E
1 1
Právnická subjektivita ano
právnická osoba
ne
fyzická osoba
B
2
C
3
4
A
B
C
D
E
D
4
5
A
B
C
D
E
5
6
A
B
C
D
E
E
Obr. 3.5 Ukázka èástí formuláøù rozpoznávaných technologií OMR l
BCR – Bar Code Reading, používá se k rozpoznávání èárových kódù, které pøevádí na øetìzce znakù a èíslic. Oznaèování skenovaných dokumentù èárovými kódy poskytuje efektivní propojení elektronické a listinné formy dokumentu.
Komponenty ECM
39
3
Code-39
Code-93
Obr. 3.6 Ukázky èárových kódù CODE–39 a CODE–93 Pøi rozpoznávání písma se používají rùzné algoritmy, které postupnì rozdìlí obraz na øádky, øádky na znaky a znaky pak identifikují podle dostupných šablon jednotlivých vzorù znakù. V pøípadì, že je pravdìpodobnost shody se vzorem v databázi nižší než urèená prahová hodnota, tak je znak oznaèen jako nerozpoznaný a je vìtšinou nahrazen nìjakým zástupným symbolem. Po tomto prvním rozpoznání znakù následuje další analýza, jejímž cílem je v rozpoznaném textu najít chyby rozpoznávání a ty automaticky odstranit. Využívá se k tomu vlastností jazyka. Pøedpokládá se, že znaky, které jsou blízko u sebe, tvoøí slovo. Pro každý jazyk je možné definovat pravidla toho, jaká je pravdìpodobnost, že se urèitá sekvence písmen mùže ve slovì vyskytovat (napø. kombinace òy, èy, šx, aeiou budou mít v èeštinì nulovou pravdìpodobnost výskytu). Další metodou automatického zjišťování chyb v rozpoznávaném textu je porovnávání nerozpoznaných slov se slovy ve slovníku. Pøi hledání správného slova se vychází z údajù o pravdìpodobnosti, s jakými byly rozpoznané znaky ve slovì klasifikovány jako rozpoznané. Problémy zpùsobuje, pokud je text vícejazyèný nebo obsahuje odborné termíny a zkratky, které nemusí být ve slovníku zahrnuty. Finální kontrolu a opravu nerozpoznaných znakù provádí operátor v dalším kroku digitalizace, pøi tzv. verifikaci (viz dále). Kromì toho, že obsluha podle vstupního dokumentu text opraví, tak vzhledem k tomu, že systémy rozpoznávání znakù jsou vybaveny samouèícími se mechanizmy, má možnost pøidat nový vzor znaku do databáze a rozšíøit tím databázi šablon o další vzory znakù. Aplikace pro rozpoznávání tištìného nebo strojem psaného písma vykazují až 99% úspìšnost rozpoznání textu. Ruènì psané písmo je rozpoznáváno pøedevším z rùzných typù formuláøù, které obvykle obsahují výzvu, aby pøi vyplòování formuláøe byla použita pøedepsaná sada písma a tím se minimalizovalo množství nepøeètených znakù. Rozpoznávání znaèek je úspìšnì používáno na formuláøích, napø. pro záznamy odpovìdí zkouškových testù, vyplòování sázkových tiketù apod. Nezøídka je ale i souèástí vyplòovaných formuláøù text, takže rozpoznávání znakù je kombinováno s rozpoznáváním písma. Èárové kódy se užívají jak pøi vstupu dokumentù do procesu digitalizace (èárový kód obsahuje informace o typu formuláøe apod.), tak pøi výstupu dokumentù z procesu digitalizace (èárovým kódem identifikujícím jednoznaènì dokument je oznaèen jak skenovaný listinný originál, tak naskenovaný obraz dokumentu). Další informace k èárovým kódùm jsou uvedeny v souvislosti s vytìžováním dat v kapitole 3.2.
C) Indexace
Nejjednodušším výstupem skenování jsou soubory, které obsahují naskenované dokumenty ve formì obrázkù. Jednotlivé soubory jsou od sebe odlišeny svými názvy. Názvy souborù jsou sice jednoznaènými identifikátory, ale protože poèty tìchto souborù mohou být i v øádech desetitisícù a více, je název souboru pro snadnou orientaci uživatele a rychlé vyhledání potøebného skenu dokumentu nedostaèující. Soubory obsahují obrázky dokumentù, takže v nich není možné fulltextovì vyhledávat.
40
Efektivní správa dokumentù – Co nabízí ECM
Toto je pouze náhled elektronické knihy. Zakoupení její plné verze je možné v elektronickém obchodě společnosti eReading.