Skenování dokumentů 2. Fáze - Zadávací dokumentace
Obsahem tohoto dokumentu je zadávací dokumentace na skenovací pracoviště pro 2. fázi projektu skenování dokumentů pro IS TVP (televizních poplatků)
Skenování dokumentů 2. fáze - zadávací dokumentace Obsah: 1. PŘEDMĚT ZADÁNÍ ..................................................................................................................... 2 2. SKENERY....................................................................................................................................... 2 3. SKENOVACÍ SW KOFAX CAPTURE 9 .................................................................................... 3 3.1 OBECNÉ POŽADAVKY NA KONFIGURACI ŠABLON ....................................................................... 4 3.1.1 OBECNÝ POSTUP ZPRACOVÁNÍ .................................................................................................... 4 3.1.2 SPOLEČNÉ TYPY POLÍ................................................................................................................... 5 3.1.3 SPOLEČNÉ INDEXOVÁ POLE ......................................................................................................... 5 3.1.4 SPOLEČNÝ FORMÁT XML PRO METADATA................................................................................. 6 4. TYPY SKENOVANÝCH DOKUMENTŮ ................................................................................... 6 4.1 SPECIFICKÉ ATRIBUTY DLE TYPU DOKUMENTŮ.......................................................................... 8
1
Skenování dokumentů 2. fáze - zadávací dokumentace
1.
Předmět zadání
Česká televize potřebovala archivovat papírové dokumenty související s agendou televizních poplatků v elektronické podobě s vazbou na informační systém tak, aby byly dokumenty patřící ke konkrétnímu poplatníkovi snadno dohledatelné. V rámci první fáze projektu implementujícího tento požadavek, která proběhla v roce 2010, se jednalo o dokumenty od České pošty (např. evidenční listy). Pro převod papírových dokumentů do elektronické podoby a následné rozpoznání (OCR) klíčových údajů byl zvolen a na jednom skenovacím pracovišti nainstalován a nakonfigurován software Kofax Capture 8.0 CZ. Předmětem zadání pro druhou fázi je upgrade a rozšíření stávajícího řešení. Konkrétně je pak po řešiteli/dodavateli požadováno: • Zachování stávající objemové licence Kofax Capture 600K/yr a rozšíření licence Kofax Concurrent Station z 1ks na 4ks (jinými slovy je požadováno dodání 3ks licencí Kofax Concurrent Station) • Upgrade stávajícího řešení pro dokumenty České pošty z lokální stanice s Kofax Capture 8 CS na serverové řešení s Kofax Capture 9 EN při zachování stávající funkcionality vč. zákaznického modulu SXMerge pro spojení naskenovaných dat se šablonou formuláře. Zajištění převodu licence z pracovní stanice na server. • Dodávka dvou A4 skenerů - jeden s modulem imprinter, druhý s flatbat pro první skenovací pracoviště • Dodávka A4 skeneru s modulem imprinter pro druhé skenovací pracoviště • Dodávka 5ks náhradních inkoustových náplní k modulu imprinter • Dodávka ke každému skeneru náhradní válečků (tedy 3ks) • Vytvoření šablon (dávek) pro specifikované typy dokumentů. Požadován je výstup naskenovaného dokumentu do PDF/A a metadat do XML. • Vytvoření a dodávka speciálního SW modulu do Kofax Capture pro zpracování dokumentů typu 29 Složenky od České pošty • Instalace a nastavení SW Kofax Capture v požadované konfiguraci na HW dodaný zadavatelem (předpokládají se dvě PC pro skenovací pracoviště a server ve virtuálním prostředí Hyper-V)
2.
Skenery
Předpokládá identická konfigurace PC stanice pro skenovacích pracovišť. Česká televize dodá PC zhruba v následující konfiguraci: • Procesor Intel Core2Duo E8400 3Ghz • RAM 4GB • Disk 200 GB • Operační systém: Windows 7 Professional 64bit CZ SP1 Od dodavatele je požadována dodávka dvou skenerů pro první pracoviště splňující následující parametry: 1. Skener (např. model Fi-6130 nebo funkčně ekvivaletní) • • • • • • • • • •
Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ne Imprinter: Ano VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI
2
Skenování dokumentů 2. fáze - zadávací dokumentace • • • • •
Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano Výstup: PDF Rozhraní: USB
2. Skener (např. model Fi-6230 nebo funkčně ekvivaletní) • • • • • • • • • • • • • • •
Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ano Imprinter: Ne VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano Výstup: PDF Rozhraní: USB
Dále je od dodavatele požadována dodávka jednoho skeneru pro druhé pracoviště splňující následující parametry: 3. Skener (např. model Fi-6130 nebo funkčně ekvivaletní) • • • • • • • • • • • • •
3.
Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ne Imprinter: Ano VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano
Skenovací SW Kofax Capture 9
Je požadována dodávka skenovacího software Kofax Capture s následujícími parametry: • verze 9.0 s posledním service packem • anglická jazyková mutace
3
Skenování dokumentů 2. fáze - zadávací dokumentace • •
3.1
převod stávající licence Kofax Capture 600K/yr a Kofax Capture Concurrent station z pracovní stanice na server dodání 3ks licencí Kofax Capture Concurrent pro 3 skenovací pracoviště (jedno stávající a dvě nová)
Obecné požadavky na konfiguraci šablon
V tomto odstavci jsou shrnuty požadavky na nastavení a konfiguraci SW Kofax Capture společné pro všechny typy dokumentů (viz 4). Tyto požadavky slouží jako společné zadání pro vytvoření požadovaných šablon (dávek, tříd dokumentů, apod.).
3.1.1
Obecný postup zpracování
Pro všechny typu dokumentů platí následující principy zpracování:: 1. Skenované dokumenty lze rozdělit do dvou obecných skupin: a. Formuláře s pevným počtem stran b. Dopisy s variabilním počtem stran a oddělovací stránkou oddělující jednotlivé dokumenty 2. Každý typ dokumentu má přiřazeno jedinečné číslo DOCTYPE , které vždy obsahuje dvě numerické číslice, např. 01, 26, 10 ...., 3. Pro každý typ dokumentu bude vytvořena šablona - tj. skenovací dávka a třída dokumentů. Název dávky a třídy dokumentů bude totožný a bude začínat číslem
4. Konkrétní typ dokumentu DOCTYPE vybírá pracovník skenovacího pracoviště výběrem skenovací dávky 5. Každý naskenovaný dokument bude mít registrační číslo, pod kterým bude dohledatelný originální papírový dokument v archívu. Toto registrační číslo bude buď: a. Generováno při potisku skenovaného formuláře (dokument 1a, tzv. Imprinter) b. Čteno z čárového kódu na oddělovací stránce dopisu (čárový kód, resp. oddělovací stránka bude tištěna speciální aplikací - dokumenty 1b) 6. Naskenované dokumenty budou uloženy ve formátu PDF/A do sdíleného adresáře Windows. Cesta ke sdílenému adresáři je \\scansrv\TvpScanQueue\. Název serveru scansrv bude definován v hosts souboru operačního systému (viz C:\Windows\System32\drivers\etc\hosts). Podadresář odpovídá číslu typu dokumentu 7. Konvence pro název vytvářeného PDF souboru je P<STATION>_.pdf, kde <STATION> je ID skenovacího pracoviště a je inkrementované číslo dokumentu 8. Ke každému PDF dokumentu bude vytvořen stejnojmenný (až na příponu .xml) XML dokument s metadaty - ten bude obsahovat společnou část pro všechny typy dokumenty a specifickou část pro konkrétní typ, obsahující rozpoznaná data, tzv. atributy. Požadovaný formát XML souboru je popsán níže. 9. Již existující skenovací služba (implementovaná v rámci 1. fáze projektu) zajistí přenos naskenovaných PDF souborů (včetně souvisejících XML metadat) umístěných ve výše zmíněném sdíleném adresáři do IS TVP (SAP).
4
Skenování dokumentů 2. fáze - zadávací dokumentace 3.1.2
Společné typy polí
Požadována je definice následující typů polí v SW Kofax Capture. Tyto typy polí pak budou použity při definici společných indexových polí jednotlivých šablon. Název
Popis
Datový typ
CT_DOCTYPE
Typ dokumentu
VARCHAR(2)
CT_DOCID
ID Dokumentu
VARCHAR(20)
CT_BATCHNAME
Název dávky
VARCHAR(72)
CT_SCANDATE
Datum skenování dokumentu
DATE
CT_SCANTIME
Čas skenování dokumentu
TIME
CT_STATION
Název skenovacího pracoviště
VARCHAR(40)
CT_OPERATOR
Operátor, který provedl skenování
VARCHAR(12)
CT_MARK
Zaškrtnuto/nezaškrtnuto
VARCHAR(1)
CT_VS
Variabilní symbol poplatníka
VARCHAR(10)
CT_REGNUM
Registrační číslo dokumentu (počítadlo generované imprinterem, , sekvenční registrační číslo
VARCHAR(20)
CT_BARCODE
Čárový kód
VARCHAR(50)
3.1.3
Společné indexová pole
Pro všechny typy dokumentů je požadována definice následujících indexových polí na úrovni třídy dokumentů: Název
Typ pole
Výchozí hodnota
DOCTYPE
CT_DOCTYPE
NN
DOCID
CT_DOCID
{ID dokumentu}
BATCHNAME
CT_BATCHNAME
{Jméno dávky}
SCANDATE
CT_SCANDATE
{Aktuální datum}
SCANTIME
CT_SCANTIME
{Aktuální čas}
STATION
CT_STATION
{ID stanice}
OPERATOR
CT_OPERATOR
{Jméno operátora}
Obsah těchto polí je součástí společných XML metadat.
5
Skenování dokumentů 2. fáze - zadávací dokumentace 3.1.4
Společný formát XML pro metadata
Požadovaný formát XML souborů s metadaty naskenovaného dokumentu je znázorněn na níže uvedeném příkladu. Společná část pro všechny typy dokumentů zvýrazněna. <METADATA> ${I-DOCTYPE} ${I-DOCID} ${I-BATCHNAME} <SCANDATE>${I-SCANDATE} <SCANTIME>${I-SCANTIME} <STATION>${I-STATION} ${I-OPERATOR} ${I-ATRIBUT1_JMENO} ${I-ATRIBUT2_JMENO} .....
Každý typ dokumentu může obsahovat specifické atributy naplněné hodnotami z OCR rozpoznaných dat. Výčet těchto atributů je uveden v odst. 4.1.
4.
Typy skenovaných dokumentů
Pro každý níže uvedený typ dokumentu je požadováno vytvoření šablony v SW Kofax Capture, tzn. skenovací dávky, třídy dokumentů apod. Konvence pro název a popis šablony je uvedena v následujících tabulkách. Příklady dokumentů budou dodány v rámci implementace. Skupina formuláře: • dokumenty s pevným počtem stran (1 stránka = 1 dokument) • obsahuje OCR rozpoznávaná pole • požadován potisk (Imprinter) DOCTYPE
Název
Popis
01
01 - Čestné prohlášení s oslovení
01 - Čestné prohlášení s oslovení - neevidovaní poplatníci
26
26 - PP FO, osvobození
26 - Přímý poplatník fyzická osoba - osvobození
27
27 - NP FO, čestné prohlášení
27 - Evidovaný nepoplatník fyzická osoba - čestné prohlášení
28
28 - NP PO, čestné prohlášení
28 - Evidovaný nepoplatník právnická osoba - čestné prohlášení
03
03 - PP PO, evidenční list
03 - Přímý poplatník právnická osoba - evidenční list
06
06 - PP FO, evidenční list
06 - Přímý poplatník fyzická osoba - evidenční list
6
Skenování dokumentů 2. fáze - zadávací dokumentace Skupina Dopisy: • dokumenty s variabilním počtem stran • jednotlivé dokumenty jsou oddělené oddělovací stránkou tištěnou speciální zákaznickou aplikací • oddělovací stránka není součástí naskenovaného dokumentu, ale obsahuje dva čárové kódy, které musí být OCR rozpoznány a vloženy do XML metadat jako atributy: o BARCODE - číslo dokumentu ve spisové službě (pro doporučené dopisy) o REGNUM - registrační číslo (sekvenčně rostoucí registrační číslo pro nalezení originálu naskenovaného dokumentu v papírovém archívu) • konkrétní podoba oddělovací stránky bude upřesněna (dohodnuta) v průběhu implementace • kromě výše zmíněných čárových kódů není požadováno rozpoznávání žádných další OCR dat • všechny typy dokumentů ve skupině dopisů mají stejné typy atributů, jedinou odlišností je jiný typ dokumentu, který slouží k řešení priorit při vyřizování dokumentů v IS TVP. Jinými slovy - šablony jsou totožné, liší se obsah atribut DOCTYPE v XML metadatech a umístění PDF souboru v sdíleném adresáři • typ dokumentu volí pracovník na skenovacím pracovišti při výběru skenovací dávky • pokud by existovala možnost volby typu dokumentu ze skupiny dopis jiným způsobem a nebylo by nutné tak pro každý druh dopisu vytvářet samostatnou šablonu v SW Kofax Capture, bylo by to preferované řešení DOCTYPE
Název
Popis
30
30 - Dopis evidence dopor.
30 - Dopis evidence dopor.
31
31 - Dopis evidence norm.
31 - Dopis evidence norm.
32
32 - Odeslaný dopis dopor.
32 - Odeslaný dopis dopor.
33
33 - Odeslaný dopis norm.
33 - Odeslaný dopis norm.
34
34 - Fax evidence přijatý
34 - Fax evidence přijatý
35
35 - Fax odeslaný
35 - Fax odeslaný
36
36 - Balíček doporučený
36 - Balíček doporučený
37
37 - Dopis vymáháni dopor.
37 - Dopis vymáháni dopor.
38
38 - Dopis vymáhání norm.
38 - Dopis vymáhání norm.
39
39 - Fax vymáhání přijatý
39 - Fax vymáhání přijatý
40
40 - Dopis norm. s EL
40 - Dopis norm. s EL
41
41 - Dopis dopor. s EL
41 - Dopis dopor. s EL
42
42 - Datová zpráva přijatá
42 - Datová zpráva přijatá
43
43 - Datová zpráva odeslaná
43 - Datová zpráva odeslaná
Skupina Složenky České pošty: • na jednom naskenovaném listu A4 budou složenky od České pošty umístěny ve formátu: o 2 složenky na A4 o 4 složeny na A4 • je požadováno vytvoření a dodání speciálního SW modulu pro Kofax Capture, který rozdělí jeden naskenovaný list A4 na více výstupních PDF souborů/ dokumentů (a jim odpovídajících XML metadat) tak, že v každé PDF souboru bude jedna složenka. Modul musí být také schopen rozpoznat prázdné místo (tj. například pokud na listu 4naA4 jsou tři složenky, tak vytvoří tři PDF soubory, nikoliv čtyři). • OCR rozpoznávání dat není požadováno • dokumenty s pevným počtem stran • požadován potisk (Imprinter)
7
Skenování dokumentů 2. fáze - zadávací dokumentace DOCTYPE
Název
Popis
29
29 - Složenky od ČP 2naA4
29 - Složenky od České pošty - formát 2 na A4
29
29 - Složenky od ČP 4naA4
29 - Složenky od České pošty - formát 4 na A4
4.1
Specifické atributy dle typu dokumentů
Pro každý typ dokumentu jsou kromě společných atributů (viz 3.1.3) definovány i specifické atributy. Atribut je reprezentován indexovým polem a odpovídajícím typem pole na úrovní definice třídy dokumentů v SW Kofax Capture. Kromě toho je atribut zapsán pod stejnojmennou značkou v XML metadatech (viz 3.1.4). Pro typ pole platí jmenná konvence, že název typu pole začíná prefixem CT_, následovaný názvem atributu. Požadované atributy pro jednotlivé typy dokumentů jsou definovány v následující tabulce: DOCTYPE
Atribut
Význam
01
BARCODE
Čárový kód oslovení
PLATIM
1 - zaškrtnuto pole televizní poplatek již platím, 0 - nikoliv
PRIHLASUJI
1 - zaškrtnuto pole přihlašuji se do evidence, 0 - nikoliv
NEVLASTNIM
1 - zaškrtnuto pole nevlastním TV přijímač, 0 - nikoliv
OSVOBOZEN
1 - zaškrtnuto pole osvobozen, 0 - nikoliv
NEZNAMY
1 - zaškrtnuto pole neznámý adresát, 0 - nikoliv
PLATIMVS
VS k poli PLATIM
PRIHLASUJIVS
VS k poli PRIHLASUJI
REGNUM
Imprinter
VS
Číslo SIPO
SPLNENI
1 - zaškrtnuto pole splnění, 0 - nikoliv
ZANIK
1 - zaškrtnuto pole zániku, 0 - nikoliv
REGNUM
Imprinter
27
REGNUM
Imprinter
28
REGNUM
Imprinter
03
VS
Variabilní symbol
PRIHLASKA
1 - zaškrtnuto pole Přihláška, 0 - nikoliv
ODHLASKA
1 - zaškrtnuto pole Odhláška, 0 - nikoliv
ZMENA
1 - zaškrtnuto pole Změna, 0 - nikoliv
REGNUM
Imprinter
VS
Variabilní symbol
SIPO
Sipo
PRIHLASKA
1 - zaškrtnuto pole Přihláška, 0 - nikoliv
ODHLASKA
1 - zaškrtnuto pole Odhláška, 0 - nikoliv
ZMENA
1 - zaškrtnuto pole Změna, 0 - nikoliv
REGNUM
Imprinter
26
06
8
Skenování dokumentů 2. fáze - zadávací dokumentace 30 - 42
29
BARCODE
Čárový kód s oddělovací stránky - číslo doporučeného dopisu ve spisové službě
REGNUM
Čárový kód s oddělovací stránky - sekvenční pořadové číslo
REGNUM
Imprinter
9