Správa dokumentů a tiskových výstupů Aleš Petr, Ivan Heriban

Správa dokumentů a tiskových výstupů Aleš Petr, Ivan Heriban

Agenda

 Představení IBM Content Manager OnDemand – CMOD technologie – Odchyt a indexace dokumentů  Praktické zkušenosti z pohledu zákazníka  Možnosti ukládání PDF

2

©2015 IBM Corporation

6/1/16

IBM Content Manager OnDemand

 Vysoce výkonný systém pro správu tiskových výstupů a dokumentů  Sofistikovaný způsob zachycení dokumentů a jejich indexace  Navržen pro zpracování velkého množství dokumentů jako jsou výpisy apod.  Rychlé vyhledání a zobrazení  Optimalizovaný a automatický „storage management“  Platforma pro prezentaci elektronických výpisů, účtů, atd.  Snížení nákladů na tisk reportů – automatická distribuce elektronických sestav  Analýza a report „mining“ pomocí produktu Datawatch Report Mining Server RMS

3


6/1/16

CMOD edice

 Content Manager OnDemand for Multiplatforms – Enterprise report management software pro IBM AIX®, HP-UX, Linux, Linux na IBM System z® a Microsoft Windows  Content Manager OnDemand for i – Software pro správu podnikových sestav (ERM) navržený pro operační systém IBM i  Content Manager OnDemand for z/OS – Enterprise report management software pro IBM System z® operační systém

4


6/1/16

CMOD server architektura a zpracování

Aplikace

Spool

Object server Bloky dat (dokumenty)

Library server • • • •

Indexy

Databáze

5


Proces zpracování

6/1/16

Segmentace Indexace Komprimace Vytvoření bloku dat

Cache

•

Disk storage manager

•

Archive storage manager

TSM server

Segmentace

Komprimace

Aleš Petr 1123445878

6

Aleš Petr

1123445878

Ivan Heriban

8796541230

Jan Novák

6547893215


6/1/16

Ivan Heriban 8796541230

Indexace

Jan Novák 6547893215

Storage manager

Content Manager OnDemand for i

 Monitory pro sběr vstupních dokumentů – Spooled file monitor – File (directory) monitor

 Definice tříd, indexů, foldrů  Vyhledávání dokumentů

– OnDemand Windows klient – OnDemand Web Enablement Kit (ODWEK) – IBM Content Navigator  Není k dispozici pro Systém i, tj. musí být nainstalován na jiném OS - Linux, Windows nebo AIX

7


6/1/16

Output queue monitor

 Archivace tiskových výstupů  Přesun nebo odstranění zpracovaných spoolů  Přesun spoolů, které se nepovede zpracovat do chybové fronty

8


6/1/16

Directory (file) monitor

 Soubory v IFS  Klasifikace dle jména souboru – XXX.XXX.XXX.XXX – FIRST, SECOND, THIRD, FOURTH  Možnost definování odstranění nebo přejmenování zpracovaných souborů

9


6/1/16

Automatická indexace z obsahu dokumentů

 Čtyři základní datové streamy  PDF – Portable Document Format  AFP – Advanced Function Presentation  XML – eXtensible Markup Language  Line data – Text – ASCII – EBCDIC – SCS

10


6/1/16

Definice vstupního dokumentu

 Datový typ  Kódová stránka

11


6/1/16

Definice indexů  Definice indexů z obsahu dokumentu – Trigger – Field – Index

12


6/1/16

Generic indexer

 Individuální soubory  Jeden vstupní soubor s offsety  Uživatel nebo aplikace musí vytvořit .IND soubor s indexy

13


6/1/16

COMMENT: Generic Indexer Example 1 COMMENT: Different input file for each document COMMENT: Specify code page of the index data CODEPAGE:37 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document data goes to end of file GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement7.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement8.out COMMENT: Document #3 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:09/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement9.out COMMENT: End Generic Indexer Example 1

Vyhledání a zobrazení dokumentů

 OnDemand Windows klient  IBM Content Navigator – Web browser lehký klient – Přístup přes tablet nebo chytrý telefon – Podpora non-IBM CMIS úložiště – Vyhledávání napříč více úložišti  ODWEK – Java API – Servlet – CGI script

14


6/1/16

Praktické zkušenosti z pohledu zákazníka

15


6/1/16

Nasadenie IBM Content Manager OnDemand v Prvej stavebnej sporiteľni ,a. s.

Ivan Heriban 31.5.2016 16


6/1/16

CMOD

17

•. V roku 2000 implementácia Content Manager 5.3 a Content Manager OnDemand 5.3 •. Upgrade a súčasné nasadenie - i V7R1 •. Verzia - Content Manager OnDemand v9.5 for Multiplatforms for CMOD i •. Využitie • Spool zostavy z bankového systému – automatická indexácia • Archivácia špeciálnej agendy vo formatoch – pdf, xls, word

17


6/1/16

18

CMOD

Zostavy z bankového systému

18


6/1/16

19

CMOD

Špeciálna agenda

19


6/1/16

Možnosti ukládání PDF

20


6/1/16

PDF

 Portable Document Format (PDF) – Vytvořen Adobe Systems, Inc. – Formát, který reprezentuje dokument způsobem nezávislým na aplikačním softwaru, hardwaru a operačním systému – Roku 1991 spoluzakladatel Adobe John Warnock navrhl systém zvaný „Camelot“, který se vyvinul v PDF – PDF verze           

21

1993 – PDF 1.0 / Acrobat 1.0 1994 – PDF 1.1 / Acrobat 2.0 1996 – PDF 1.2 / Acrobat 3.0 2000 – PDF 1.3 / Acrobat 4.0 2001 – PDF 1.4 / Acrobat 5.0 2003 – PDF 1.5 / Acrobat 6.0 2005 – PDF 1.6 / Acrobat 7.0 2006 – PDF 1.7 / Acrobat 8.0 2006 – PDF 1.7 / Acrobat 8.2 2008 – PDF 1.7, Adobe Extension Level 3 / Acrobat 9.0, ISO standard ISO 32000-1:2008 2009 – PDF 1.7, Adobe Extension Level 5 / Acrobat 9.1


6/1/16

Základní způsoby ukládání PDF do CMOD

 Generic indexer – individuální soubory  Generic indexer – offsety  PDF indexer – metadata  PDF indexer – X,Y pozice  PDF indexer – „page piece dictionary“

22


6/1/16

Generic indexer – individuální soubory

 Uživatel nebo aplikace vytvoří .IND soubor s indexy  Musí odkázat na umístění dokumentu pro uložení  Velmi rychlé uložení – Nedívá se dovnitř dokumentů – Indexy jsou dodané v .IND souboru  Nesbírá PDF zdroje, protože se nikdy nedívá dovnitř dokumentu

23


6/1/16

COMMENT: COMMENT: Generic Indexer Example 1 COMMENT: Different input file for each document COMMENT: COMMENT: Specify code page of the index data CODEPAGE:819 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document data goes to end of file GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement1.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:0 GROUP_LENGTH:0 GROUP_FILENAME:/arstmp/statement2.out

Generic indexer – offsety

 Vstupní dokument jsou jednotlivé PDF dokumenty zřetězené v jednom vstupním souboru  Definice indexů v .IND souboru  Musí obsahovat offset a počet bytů ukazující na jednotlivé dokumenty

24


6/1/16

COMMENT: COMMENT: Generic Indexer Example 1 COMMENT: One file with many docs inside COMMENT: COMMENT: Specify code page of the index data CODEPAGE:819 COMMENT: Document #1 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:07/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 COMMENT: document data starts at beginning of file GROUP_OFFSET:0 COMMENT: document length 8124 bytes GROUP_LENGTH:8124 GROUP_FILENAME:/arstmp/statement.out COMMENT: Document #2 COMMENT: Index field #1 GROUP_FIELD_NAME:rdate GROUP_FIELD_VALUE:08/13/99 COMMENT: Index field #2 GROUP_FIELD_NAME:studentID GROUP_FIELD_VALUE:0012345678 GROUP_OFFSET:8124 GROUP_LENGTH:8124

PDF indexer – metadata

 Uživatel nebo aplikace musí vložit indexy do PDF dokumentu  Metadata – indexy jsou vyzvednuty z properties PDF dokumentu  Může sbírat PDF zdroje (fonty, obrázky, formuláře)  Jednoduché nastavení v CMOD  Dobré pro jeden PDF dokument bez segmentace  Rychlé uložení – Indexer se dívá do PDF dokumentu, ale pouze na metadata a zdroje

25


6/1/16

PDF indexer – X,Y pozice

 Definice vytěžení indexů z obsahu PDF dokumentu  Index parametry se vytváří pomocí CMOD klienta – wizard nebo  ARSPDUMP – příkaz na získání X,Y pozic  Segmentuje soubory na individuální dokumenty  Sbírá PDF zdroje (fonty, obrázky, formuláře)  Max PDF 4GB, 2GB objekt v CMOD

26


6/1/16

PDF indexer – „page piece dictionary“

 Novinka v CMOD V9  Uživatel nebo aplikace musí vložit indexy do Page Pieace Dictionary pomocí nějakého nástroje nebo API  PDF indexer najde v dokumentu PPD a načte si indexy  PDF indexer – provede segmentaci do individuálních dokumentů – Uloží PDF zdroje (fonty, obrázky, formuláře)  Maximální velikost PDF 4GB – 2GB objekt v CMOD

/PieceInfo <> /LastModified(D:20120619000000Z) >> >>

27


6/1/16

GMC – Inspire Document formatter

28


6/1/16

Ukládání PDF dokumentů

Metoda

1 velký soubor více dokumentů

Zřetězené dokumenty

Sběr zdrojů

Uživatelské nebo aplikační indexy

Rychlost

Generic indexer separátní soubory

NE

NE

NE

ANO

*****

Generic indexer s offsety

NE

ANO

NE

ANO

****

PDF indexer s použitím metadat

NE

NE

ANO

ANO

*****

PDF indexer „-j“ option

NE

NE

ANO

ANO

****

PDF indexer X,Y pozice

ANO

NE

ANO

NE

**

PDF indexer Page Piece Dict.

ANO

NE

ANO

ANO

*****

29


6/1/16

Správa dokumentů a tiskových výstupů Aleš Petr, Ivan Heriban

Recommend Documents