Aplikace vytěžování dat Funkcionalita aplikace Tato sekce popisuje stavájící funkcionalitu aplikace.
Stav projektu Aplikace je v současnosti ve fázi prototypu, který lze v relativně krátkém čase 2 měsíců nasadit pro produkce. Chybí dodělat klíčovou vlastnost čtění dat z PDF souborů. Zbytek vlastností je na dodělky drobnějšího charakteru a na odladění s dotestovaním. V současnosti je nutné určit, jak se bude projekt používat. Jak se bude komunikovat s okolím. Je třeba obdržet nějaká testovací data v řádu 14 dní. Dále je třeba domluvit i finační stránku projektu. Konkrétní vlastnosti a jejich stav popíši v sekci “Popis jednotlivých částí aplikace”.
Co aplikace umí Účelem aplikace je vytěžení textových dat z PDF nebo plaintext dokumentů. Vytěžená data mohou být předána ve zvoleném formátu.
Co aplikace nemá z pohledu jejího návrhu umět Pro začátek neplánuji nějakou větší integraci s OCR aplikací. Není v plánu, aby aplikace dělala s rozpoznanými daty nějaké výpočty.
Popis jednotlivých částí aplikace Obsahuje stručný popis funkčnosti a screenshoty aplikace.
Editor šablon
Základní komponentou aplikace je editor rozpoznávacích šablon. Editor umožňuje: •
tvorbu rozpoznávací šablony
•
visuální náhled vytěžených dat
•
určení klasifikace šablony
•
tvorbu jednotlivých entit šablony.
•
tvorba masek a označování textu labelů jednotlivých entit s nabídnutím vytvoření entity daného datového typu. Entitu je možné vytvořit v samostatném panelu.
•
editaci rozpoznávacích parametrů entit
•
náhled vytěžených dat v GUI
•
náhled dat v XML formátu
•
náhled XML dat rozpoznávací šablony
•
editace atributu šablony a entity(jméno, popis, dlouhý popis, identifikátor)
Náhled editoru – editace prvku entity
Náhled rozpoznaných dat v editoru
Náhled rozpoznaných dat v interním XML formátu
Editor šablon – editace rozpoznávacích parametrů tabulky
Editor šablon – XML formát rozpoznávací šablony
Pro tvorbu rozpoznacích šablon se používají kolekce předdefinovaných datových typů. Jednotlivé prvky entit sestavujeme z povolených prvků předdefinovaných datových typů. Pro prvky faktury používáme datové typy určené pro faktury, například pro dodejky můžeme použít jiné datové typy. Tím je zaručeno, že použijeme prvky s dohodnotými identifikátory a určenou četností výskytu a tyto prvky a jejich identifikátory bude možné použít pro tvorbu výstupního formátu dat pro export.
Přehled rozpoznávacích šablon Je možná tvorba šablon zcela od začátku, klon šablony, editace šablony, smazání šablony, pokud není přiřazena již nějaké rozpoznávací úloze.
Uživatel má k dispozici přehled dávek se soubory k rozpoznání.
Editor dávek
Uživatel si může vytvářet dávku souborů/dokumentů k rozpoznání. Zároven může přejít na visuální editor, kde uvidí konkrétní rozpoznaná data.
Každá rozpoznávací šablona má svoji interní dávku. Tvůrce rozpoznávací šablony si může oveřit funkcionalitu rozpoznávací šablony.
Konktétní rozpoznávače dat
Rozpoznávání a validace dat Aplikace v současnosti umožňuje rozpoznávat a validovat tyto datové typy:
Jméno rozpoznávače
Validace
Poznámka
Číslo
celé, desetiny, znaménka
Řetězec
i víceřádkový, i ze slovníku
IČ DIČ
rodné číslo bankovní účet
číslo, předčíslí, kód banky
variabilní symbol konstantní symbol specifický symbol IBAN SWIFT kód
zjednodušená validace-povolené znaky
množství-číslo
celé, desetiny, znaménka
částka-číslo
celé, desetiny, znaménka
procentická hodnota měrná jednotka
první celé slovo, slovník
měnová jednotka
první celé slovo, slovník
množství a měrná jednotka částka a měnová jednotka
např 10,00-Kč
částka za počet měrných jednotek
10,00-Kč/kg nebo 10Kč/2 balení
datum
20.10.1976,20/10/76
poštovní adresa
NE
PSČ, č.p.,č.o,ulice, obec, část obce, jméno subjektu
email www-adresa hodnota ze slovníku
nalezený řetězec v textu musí být v určené kolekci slov/textu
telefonní číslo
Rozpoznávání tvarů Většina základních entit v aplikaci má tvar. Aplikace umí rozpoznávat následující tvary: Tvar
Poznámka
Jednořádková entita
label+hodnota vpravo, vlevo, nahoře, dole
Cluster
obdélníková oblast vyplňovaná podle počtu bílých míst na okrajích. Možno provádět rozšiřování iterací daným směrem(vlevo, vpravo, dolů, nahoru). Vyhledání nejbližšího nebílého obdělníku daným směrem. Do brzského budoucna pod úhlem.
Tabulky
Řádky směrem dolů a vpravo. Vyhledání jmen sloupců. Nepovinné sloupce.
Vícenásobné tabulky-na více stránek. Uživatelský definovaná Vlastnost do budoucna. Uživatel může označit obdélníkou oblast s textem. entita. Virtuální entita.
Entita sloužící pro tvorbu výsledné struktury. Nemá reálný tvar a neaplikují se na tento tvar žádné rozpoznávače.