Správa dokumentů a tiskových výstupů Aleš Petr, Ivan Heriban
Agenda
Představení IBM Content Manager OnDemand – CMOD technologie – Odchyt a indexace dokumentů Praktické zkušenosti z pohledu zákazníka Možnosti ukládání PDF
2
©2015 IBM Corporation
6/1/16
IBM Content Manager OnDemand
Vysoce výkonný systém pro správu tiskových výstupů a dokumentů Sofistikovaný způsob zachycení dokumentů a jejich indexace Navržen pro zpracování velkého množství dokumentů jako jsou výpisy apod. Rychlé vyhledání a zobrazení Optimalizovaný a automatický „storage management“ Platforma pro prezentaci elektronických výpisů, účtů, atd. Snížení nákladů na tisk reportů – automatická distribuce elektronických sestav Analýza a report „mining“ pomocí produktu Datawatch Report Mining Server RMS
3
©2015 IBM Corporation
6/1/16
CMOD edice
Content Manager OnDemand for Multiplatforms – Enterprise report management software pro IBM AIX®, HP-UX, Linux, Linux na IBM System z® a Microsoft Windows Content Manager OnDemand for i – Software pro správu podnikových sestav (ERM) navržený pro operační systém IBM i Content Manager OnDemand for z/OS – Enterprise report management software pro IBM System z® operační systém
4
©2015 IBM Corporation
6/1/16
CMOD server architektura a zpracování
Aplikace
Spool
Object server Bloky dat (dokumenty)
Library server • • • •
Indexy
Databáze
5
©2015 IBM Corporation
Proces zpracování
6/1/16
Segmentace Indexace Komprimace Vytvoření bloku dat
Cache
•
Disk storage manager
•
Archive storage manager
TSM server
Segmentace
Komprimace
Aleš Petr 1123445878
6
Aleš Petr
1123445878
Ivan Heriban
8796541230
Jan Novák
6547893215
©2015 IBM Corporation
6/1/16
Ivan Heriban 8796541230
Indexace
Jan Novák 6547893215
Storage manager
Content Manager OnDemand for i
Monitory pro sběr vstupních dokumentů – Spooled file monitor – File (directory) monitor
Definice tříd, indexů, foldrů Vyhledávání dokumentů
– OnDemand Windows klient – OnDemand Web Enablement Kit (ODWEK) – IBM Content Navigator Není k dispozici pro Systém i, tj. musí být nainstalován na jiném OS - Linux, Windows nebo AIX
7
©2015 IBM Corporation
6/1/16
Output queue monitor
Archivace tiskových výstupů Přesun nebo odstranění zpracovaných spoolů Přesun spoolů, které se nepovede zpracovat do chybové fronty
8
©2015 IBM Corporation
6/1/16
Directory (file) monitor
Soubory v IFS Klasifikace dle jména souboru – XXX.XXX.XXX.XXX – FIRST, SECOND, THIRD, FOURTH Možnost definování odstranění nebo přejmenování zpracovaných souborů
9
©2015 IBM Corporation
6/1/16
Automatická indexace z obsahu dokumentů
Čtyři základní datové streamy PDF – Portable Document Format AFP – Advanced Function Presentation XML – eXtensible Markup Language Line data – Text – ASCII – EBCDIC – SCS
10
©2015 IBM Corporation
6/1/16
Definice vstupního dokumentu
Datový typ Kódová stránka
11
©2015 IBM Corporation
6/1/16
Definice indexů Definice indexů z obsahu dokumentu – Trigger – Field – Index
12
©2015 IBM Corporation
6/1/16
Generic indexer
Individuální soubory Jeden vstupní soubor s offsety Uživatel nebo aplikace musí vytvořit .IND soubor s indexy
13
©2015 IBM Corporation
6/1/16
COMMENT: Generic Indexer Example 1 COMMENT: Different input file for each document COMMENT: Specify code page of the index data CODEPAGE:37 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document data goes to end of file GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement7.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement8.out COMMENT: Document #3 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:09/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement9.out COMMENT: End Generic Indexer Example 1
Vyhledání a zobrazení dokumentů
OnDemand Windows klient IBM Content Navigator – Web browser lehký klient – Přístup přes tablet nebo chytrý telefon – Podpora non-IBM CMIS úložiště – Vyhledávání napříč více úložišti ODWEK – Java API – Servlet – CGI script
14
©2015 IBM Corporation
6/1/16
Praktické zkušenosti z pohledu zákazníka
15
©2015 IBM Corporation
6/1/16
Nasadenie IBM Content Manager OnDemand v Prvej stavebnej sporiteľni ,a. s.
Ivan Heriban 31.5.2016 16
©2015 IBM Corporation
6/1/16
CMOD
17
•. V roku 2000 implementácia Content Manager 5.3 a Content Manager OnDemand 5.3 •. Upgrade a súčasné nasadenie - i V7R1 •. Verzia - Content Manager OnDemand v9.5 for Multiplatforms for CMOD i •. Využitie • Spool zostavy z bankového systému – automatická indexácia • Archivácia špeciálnej agendy vo formatoch – pdf, xls, word
17
©2015 IBM Corporation
6/1/16
18
CMOD
Zostavy z bankového systému
18
©2015 IBM Corporation
6/1/16
19
CMOD
Špeciálna agenda
19
©2015 IBM Corporation
6/1/16
Možnosti ukládání PDF
20
©2015 IBM Corporation
6/1/16
PDF
Portable Document Format (PDF) – Vytvořen Adobe Systems, Inc. – Formát, který reprezentuje dokument způsobem nezávislým na aplikačním softwaru, hardwaru a operačním systému – Roku 1991 spoluzakladatel Adobe John Warnock navrhl systém zvaný „Camelot“, který se vyvinul v PDF – PDF verze
21
1993 – PDF 1.0 / Acrobat 1.0 1994 – PDF 1.1 / Acrobat 2.0 1996 – PDF 1.2 / Acrobat 3.0 2000 – PDF 1.3 / Acrobat 4.0 2001 – PDF 1.4 / Acrobat 5.0 2003 – PDF 1.5 / Acrobat 6.0 2005 – PDF 1.6 / Acrobat 7.0 2006 – PDF 1.7 / Acrobat 8.0 2006 – PDF 1.7 / Acrobat 8.2 2008 – PDF 1.7, Adobe Extension Level 3 / Acrobat 9.0, ISO standard ISO 32000-1:2008 2009 – PDF 1.7, Adobe Extension Level 5 / Acrobat 9.1
©2015 IBM Corporation
6/1/16
Základní způsoby ukládání PDF do CMOD
Generic indexer – individuální soubory Generic indexer – offsety PDF indexer – metadata PDF indexer – X,Y pozice PDF indexer – „page piece dictionary“
22
©2015 IBM Corporation
6/1/16
Generic indexer – individuální soubory
Uživatel nebo aplikace vytvoří .IND soubor s indexy Musí odkázat na umístění dokumentu pro uložení Velmi rychlé uložení – Nedívá se dovnitř dokumentů – Indexy jsou dodané v .IND souboru Nesbírá PDF zdroje, protože se nikdy nedívá dovnitř dokumentu
23
©2015 IBM Corporation
6/1/16
COMMENT: COMMENT: Generic Indexer Example 1 COMMENT: Different input file for each document COMMENT: COMMENT: Specify code page of the index data CODEPAGE:819 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document data goes to end of file GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement1.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement2.out
Generic indexer – offsety
Vstupní dokument jsou jednotlivé PDF dokumenty zřetězené v jednom vstupním souboru Definice indexů v .IND souboru Musí obsahovat offset a počet bytů ukazující na jednotlivé dokumenty
24
©2015 IBM Corporation
6/1/16
COMMENT: COMMENT: Generic Indexer Example 1 COMMENT: One file with many docs inside COMMENT: COMMENT: Specify code page of the index data CODEPAGE:819 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document length 8124 bytes GROUP_LENGTH:8124 GROUP_FILENAME:/arstmp/statement.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:8124 GROUP_LENGTH:8124
PDF indexer – metadata
Uživatel nebo aplikace musí vložit indexy do PDF dokumentu Metadata – indexy jsou vyzvednuty z properties PDF dokumentu Může sbírat PDF zdroje (fonty, obrázky, formuláře) Jednoduché nastavení v CMOD Dobré pro jeden PDF dokument bez segmentace Rychlé uložení – Indexer se dívá do PDF dokumentu, ale pouze na metadata a zdroje
25
©2015 IBM Corporation
6/1/16
PDF indexer – X,Y pozice
Definice vytěžení indexů z obsahu PDF dokumentu Index parametry se vytváří pomocí CMOD klienta – wizard nebo ARSPDUMP – příkaz na získání X,Y pozic Segmentuje soubory na individuální dokumenty Sbírá PDF zdroje (fonty, obrázky, formuláře) Max PDF 4GB, 2GB objekt v CMOD
26
©2015 IBM Corporation
6/1/16
PDF indexer – „page piece dictionary“
Novinka v CMOD V9 Uživatel nebo aplikace musí vložit indexy do Page Pieace Dictionary pomocí nějakého nástroje nebo API PDF indexer najde v dokumentu PPD a načte si indexy PDF indexer – provede segmentaci do individuálních dokumentů – Uloží PDF zdroje (fonty, obrázky, formuláře) Maximální velikost PDF 4GB – 2GB objekt v CMOD
/PieceInfo <> /LastModified(D:20120619000000Z) >> >>
27
©2015 IBM Corporation
6/1/16
GMC – Inspire Document formatter
28
©2015 IBM Corporation
6/1/16
Ukládání PDF dokumentů
Metoda
1 velký soubor více dokumentů
Zřetězené dokumenty
Sběr zdrojů
Uživatelské nebo aplikační indexy
Rychlost
Generic indexer separátní soubory
NE
NE
NE
ANO
*****
Generic indexer s offsety
NE
ANO
NE
ANO
****
PDF indexer s použitím metadat
NE
NE
ANO
ANO
*****
PDF indexer „-j“ option
NE
NE
ANO
ANO
****
PDF indexer X,Y pozice
ANO
NE
ANO
NE
**
PDF indexer Page Piece Dict.
ANO
NE
ANO
ANO
*****
29
©2015 IBM Corporation
6/1/16