Srovnání aplikací pro převod dat z formátu PDF do Excelu Bc. Eliška Janoušková, Ing. Pavel Kolman, Ph.D., Ústav statistiky a operačního výzkumu, Provozně ekonomická fakulta, Mendelova univerzita v Brně,
[email protected],
[email protected] Abstrakt Data, která jsou nám dostupná, se velmi snadno mohou nacházet ve formě, jež není vhodná pro jejich další zpracování např. pro účely diplomové práce. Tento článek proto pojednává o možnostech převodu dat z jednoho takového problémového formátu, jímž je formát PDF. Ten bude převáděn do formátu XLSX za použití volně dostupných nástrojů. Cílem je srovnat celkem sedm nástrojů. Čtyři aplikace jsou instalovány do počítače, z nichž tři podléhají po vypršení určitého času nebo po převedení určitého počtu stránek zaplacení licence pro používání. Zbývajícími nástroji jsou tři webové stránky umožňující převod tzv. online, kdy je výsledek konverze zaslán na vybraný e-mail. Po provedení srovnání jsou nalezeny tři nástroje převádějící data „zdarma“ do použitelných výstupů (aplikace Adobe® Acrobat® XI, ABBYY FineReader 11 a webová stránka www.pdftoexcelonline.com). Avšak není nalezen jediný nástroj, který by provedl konverzi dat do nového formátu v naprosto stejné podobě, jakou má původní soubor. Pro převod dat byla závěrem vybrána nejvhodnějším nástrojem aplikace Adobe® Acrobat® XI.
Klíčová slova Formát PDF, aplikace Excel, konverze dat, převod dat zdarma, srovnání aplikací.
Úvod Při zpracovávání dat se velice snadno může stát, že se dostupná data nenacházejí nebo je není možné ihned získat v potřebovaném formátu. Proto je nutné z dostupného formátu převést potřebná data do požadovaného formátu s využitím vhodných nástrojů. Některé formáty jsou snadno převoditelné v jiné, z jiných formátů je naopak převod dat z hlediska kvality převodu velmi obtížný. Takovým problémovým formátem je například velmi oblíbený a často používaný formát PDF (z anglického názvu Portable Document Format) vyvinutý společností Adobe Systems, který představuje otevřený standard pro elektronickou výměnu dokumentů.
Souborem ve formátu PDF mohou být textové dokumenty, ale také obrázky, přičemž je zaručeno, že se soubor zobrazí na všech zařízeních stejně (přečtení souboru je například možné díky bezplatnému softwaru Adobe Reader®), vzhledově stejný výstup je zaručen i při vytištění souboru (Adobe Systems Software Ireland Ltd, 2013). Tento článek pojednává o možnostech převodu dat ze souboru s koncovkou PDF do tabulek aplikace Excel (formát XLSX), které jsou vhodnější pro následné zpracování dat pro účely diplomové práce.
Cíle a metodika Cílem tohoto článku je porovnat volně dostupné aplikace nebo webové stránky, které umožňují převod dat z formátu PDF do jiných formátů, především do formátu XLSX, a porovnat kvalitu výstupu ve srovnání s původní podobou dat na základě dále stanovených kritérií. Bylo by samozřejmě možné řešit i převod z PDF například do formátu DOC a následně do formátu XLSX, ale tento způsob zde nebude rozebírán a výsledky budou zaměřeny čistě jen na přímý převod dat do konečného formátu. Na internetu existuje velká spousta nástrojů, které slibují převod dat právě z formátu PDF. Výrazně se však liší právě v kvalitě výstupu, která je zde rozhodujícím kritériem při srovnávání převodních nástrojů. Je možné vyhledat nástroje volně dostupné na internetu bez jakýchkoliv poplatků, které není ani nutné instalovat, převod dat se děje prostřednictvím webového prohlížeče, kam je soubor nahrán a výsledek převodu je následně zaslán na zvolený e-mail. Na druhou stranu také existují programy, u kterých je potřebná instalace do počítače a kde je také často stanoven licenční poplatek za používání. Nástroje, jež je nutné instalovat, byly instalovány pod operačním systémem Windows 8. Pro hodnocení výsledků převodu dat byl použit vícestránkový nezamčený soubor PDF obsahující především tabulky, které tvoří různé řetězce českých slov (včetně diakritiky), datové a časové údaje, desetinné čárky i více rozdílných údajů v jednotlivých buňkách tabulek (viz obrázek 1). Důvodem pro srovnání je nalezení nejvhodnějšího nástroje pro jejich zpracování v rámci diplomové práce, neboť data jsou k dispozici pouze v tomto formátu.
Zdroj: Česká pošta, s. p. 1:
Původní podoba souboru
Při porovnávání různých nástrojů konverze dat z formátu PDF do formátu XLSX se zohledňovalo několik kritérií, mezi které patří nutnost zakoupení licence a dostupnost nástroje, zachování formátu tabulky (správné převedení sloupců a řádků, správné oddělení textu v některých buňkách na dva řádky), font písma, česká diakritika, správné zobrazení údajů (především časové údaje v prvním sloupci), rychlost převodu, převod zápatí, převod ostatního textu mimo tabulky, počet převedených stránek a forma převedení (jeden nebo více listů aplikace Excel).
Výsledky Na základě výsledků vyhledávání z www.google.cz byly vybrány tři webové stránky, které zdarma umožňují převod dat přímo do formátu XLSX. Dále byly nalezeny programy, které se zabývají stejnou konverzí, ale na rozdíl od principu, na kterém fungují převody dat přes webové stránky, je u těchto programů nutnost instalace do počítače. Bohužel spadá většina na internetu dostupných programů pod placené licence. Je ale většinou možné vyzkoušet si daný program po určitou dobu zdarma v podobě zkušební verze, díky čemuž bylo umožněno srovnání výsledků konverzí. Byly vybrány čtyři programy pro srovnávání, z čehož pouze jeden je plně dostupný zdarma bez nutnosti licence. Před provedením vyhledávání vhodných nástrojů na internetu bylo vyzkoušeno prosté zkopírování dat a přes schránku vloženo do aplikace Excel, jak ukazuje obrázek 2. Výsledek
ale rozhodně není použitelný. Nebyl zachován formát tabulky ani font a veškerá data se přesunula pouze do jednoho sloupce. Navíc se data z více sloupců občas přesunula pouze do jedné buňky. Naopak byla zachována česká diakritika a jednotlivé časové údaje zůstaly v původním formátu.
Zdroj: Autorka 2:
Zkopírování dat přes schránku
Prvním posuzovaným nástrojem je aplikace Adobe® Acrobat® XI1, která se zdá jako vhodný prostředek převodu dat z formátu PDF z toho důvodu, že stejně jako tento formát, tak i samotná aplikace byly vyvinuty společností Adobe Systems Software Ireland Ltd. Nevýhodou této aplikace je to, že se jedná o placenou aplikaci. Pro vyzkoušení je volně dostupná pouze 30 denní zkušební verze i v českém jazyce, aplikaci je nutné instalovat do počítače. Výsledek konverze, jež zobrazuje obrázek 3, je v celku zdařilý, aplikace pracuje rychle, bylo zachováno formátování tabulky (chybí pouze tučné orámování tabulky a tučné linky názorněji oddělující součásti tabulky), font písma, česká diakritika, převedly se i texty a údaje mimo tabulku, došlo k převedení všech stránek původního souboru a nepřevádělo se zápatí stránek. Problémem je však nedodržení formátu prvního sloupce původní tabulky, jež zobrazuje datum – došlo k vynechání teček v datech. Dále také nedošlo k oddělení textu v určitých buňkách do dvou řádků jako v originálním souboru.
1
http://www.adobe.com/cfusion/tdrc/index.cfm?product=acrobat_pro&loc=cz&promoid=KHXXW
Zdroj: Autorka 3:
Výstup aplikace Adobe® Acrobat® XI
V pořadí druhým zkoumaným programem, který je potřeba nainstalovat do počítače je opět pouze zkušební verze aplikace ABBYY FineReader 11 Professional Edition23 dostupná také v českém jazyce. Bez licence je možné ji používat jen 15 dní a umožní převést pouze 50 stránek – při konverzi však získáme vždy pouze první stránku souboru. Výsledek převodu dat znázorňující obrázek 4 je velmi podobný výsledku aplikace Adobe® Acrobat® XI – byl zachován formát tabulky (tučné orámování je zde však u každého řádku), font písma, česká diakritika i texty mimo tabulku. Byla ale převedena pouze první stránka souboru, bohužel včetně zápatí s číslem stránky a dalšími údaji, které nejsou potřeba pro další zpracování dat, převod trval ve srovnání s předchozí aplikací o poznání delší dobu a aplikace nezvládla v některých případech oddělit údaje v buňce na více řádků. Naopak se podařilo správně zobrazit formát data v prvním sloupci.
2 3
http://www.zive.cz/poradna/prevod-pdf-do-excel/sc-20-cq-476221/default.aspx?consultanswers=1 http://www.abbyy.cz/download/finereader_pro/
Zdroj: Autorka 4:
Výstup zkušební verze aplikace ABBYY FineReader 11 Professional Edition
Dalším podle diskuse na webové stránce excelplus.net použitelným nástrojem pro převod dat z PDF do aplikace Excel je aplikace PDF2XL Basic45 (opět je nutná instalace), která je zdarma dostupná pro vyzkoušení pouze 7 dní a pro maximálně 50 stránek souboru, poté se na používání vztahuje licence. Převod tabulky z původního PDF souboru ale nedopadl příliš dobře (viz obrázek 5) – převedla se pouze první stránka, nebylo zachováno formátování tabulky (úplně chybí ohraničení tabulky) ani font písma a nedošlo k oddělení textu na dva řádky v jedné buňce. Celkově i práce s programem byla náročnější a zdlouhavější než s ostatními programy. Bylo nutno dopředu určit, co bude záhlaví převedené tabulky, co budou jednotlivé sloupce a řádky. Program nedokázal převést nadpisy tabulky a v podstatě žádné další prvky mimo samotnou tabulku. Byly ale zachovány textové obsahy jednotlivých buněk včetně české diakritiky i správný formát dat v prvním sloupci.
4 5
http://www.cogniview.com/pdf-to-excel/pdf2xl-basic http://www.zive.cz/poradna/prevod-pdf-do-excel/sc-20-cq-476221/default.aspx?consultanswers=1
Zdroj: Autorka 5:
Výstup zkušební verze aplikace PDF2XL Basic
Posledním nástrojem, který je nutno instalovat do počítače, ale je dostupný zdarma, je aplikace PDF To Excel Converter6. Konverze, jejíž výsledek uvádí obrázek 6, zde trvá ve srovnání s ostatními programy déle a výsledek je nepoužitelný. Formát tabulky ani font písma nebyl zachován, sloupce ani řádky neodpovídají původní tabulce, aplikace má problém s českou diakritikou, kdy podle písmen s háčky vytváří sloupce, některé sloupce naopak úplně chybí. Byly ale převedeny všechny stránky původního souboru na jeden list aplikace Excel.
Zdroj: Autorka 6:
Výstup aplikace PDF To Excel Converter
Zástupcem online převaděčů je ten na webové stránce www.pdftoexcelonline.com7. Bez registrace je možné konvertovat až 5 souborů bez ohledu na to, kolik má soubor stránek. Poté je potřeba se zaregistrovat na webové stránce www.nitrocloud.com, která umožňuje až 5 převodů souborů každý měsíc zdarma nebo je možné stáhnout si a nainstalovat program 6 7
http://www.stahuj.centrum.cz/utility_a_ostatni/ostatni/pdf-to-excel-converter/ http://blog.ivo-juranek.com/2011/09/prevod-z-pdf-do-doc-xls-zdarma-online.html
Nitro Pro (zkušební verze je na 14 dní). Výsledek převodu patrný z obrázku 7 je z hlediska kvality velmi zdařilý. E-mail dorazil rychle, tabulka v souboru byla zachována (opět zde chybí pouze tučné orámování tabulky a tučné linky oddělující součásti tabulky), je správně zobrazena česká diakritika i font písma, text v příslušných buňkách byl oddělen na 2 řádky přesně podle originálního PDF souboru a správně se zobrazil první sloupec tabulky. Nevýhodou je však to, že ačkoliv byly převedeny všechny stránky původního souboru, každá stránka se objevila na samostatném listu aplikace Excel a dále nebyly převedeny texty mimo tabulku (např. souhrnné údaje, které jsou uvedeny na poslední stránce původního souboru).
Zdroj: Autorka 7:
Výstup webové stránky www.pdftoexcelonline.com
Druhý představitel online nástrojů se nachází na webové stránce www.pdftoexcel.org. Bohužel převod zde určitou dobu trvá. Zde to bylo konkrétně 30 minut, na což upozornil příchozí e-mail, který přišel hned po odeslání souboru ke konverzi. Pokud uživatel nechce čekat, má možnost stáhnout si a nainstalovat zkušební verzi programu Able2Extract PDF Converter (platná 7 dní), která provede stejnou práci rychle přímo v počítači. Výsledek převodu dat (znázorňuje obrázek 8) není použitelný, protože nebyl úplně zachován formát tabulky (chybí ohraničení, buňky obsahující v originále více údajů byly rozděleny na samostatné buňky), nebyl všude zachován font písma, stránky se sice převedly všechny a na jeden list aplikace Excel, ale často se převedly do jiných sloupců než stránka předchozí, zbytečně se převedlo i zápatí stránek. Pozitivem je, že byla správně zobrazena česká diakritika i první sloupec tabulky a převedly se i texty a údaje mimo tabulku.
Zdroj: Autorka 8:
Výstup webové stránky www.pdftoexcel.org
Posledním posuzovaným online nástrojem je www.zamzar.com. Konverze proběhla velmi rychle, e-mail, který obsahoval odkaz pro stažení konvertovaného souboru, přišel během jedné minuty. Výsledek konverze (viz obrázek 9) však také není použitelný. Formát tabulky nebyl zachován, některé buňky se převedly do špatných řádků, problémy nastaly s českou diakritikou (písmena s háčky byla vynechána), číslice tvořící údaje v jednotkách km jsou od sebe odděleny přebytečnou mezerou, převedla se i zápatí stránek původního dokumentu a každá stránka původního dokumentu se nachází na jednom listu aplikace Excel. Kladem je to, že byly převedeny texty mimo tabulku a že byl správně převeden první sloupec tabulky určující časové údaje.
Zdroj: Autorka 9:
Výstup webové stránky www.zamzar.com
Diskuse Při srovnávání různých nástrojů pro převod dat z formátu PDF do formátu XLSX byly využity 4 programy, které je nutno instalovat do počítače, z čehož pouze jeden je dostupný volně bez licence. Na zbývající se vztahuje licence po uplynutí doby, za kterou je možné používat zkušební verzi. Dále byly porovnávány 3 webové stránky umožňující převod dat takzvaně online, kdy výsledek konverze po načtení souboru je odeslán na e-mail uživatele. Pro srovnání bylo užito hned několik kritérií, kdy za nejdůležitější se dá považovat zachování formátu tabulek původního souboru. Některá kritéria byla nebo mohla být ovlivněna tím, že daný nástroj byl dostupný pouze ve zkušební verzi, např. počet převedených stránek původního souboru. Další kritéria jako např. zachování fontu písma nejsou tak důležité pro další zpracování dat v diplomové práci. Výsledky srovnání ale nejsou příliš pozitivní, v podstatě žádný nástroj z celkově 7 porovnávaných nedokázal plně převést veškerá data do stejné podoby, v jaké byly v původním souboru. Nejhorší výsledky, které nejsou použitelné, byly získány z programu PDF To Excel Converter a webových stránek www.pdftoexcel.org a www.zamzar.com, které měly vážné problémy se zachováním původního formátu. Naopak použitelných výstupů bylo dosaženo z aplikací Adobe® Acrobat® XI, ABBYY FineReader 11 Professional Edition a celkem překvapivě i z webové stránky www.pdftoexcelonline.com.
Závěr Tento článek vznikl za účelem nalezení vhodných nástrojů pro převod dat z dostupného, ale pro zpracování nepoužitelného formátu dat do jiného formátu dat, který je vhodný pro další použití a zpracování dat. Zde se konkrétně pro záměry diplomové práce jednalo o převod dat z formátu PDF do formátu XLSX. Již bylo zmíněno výše, že na internetu je v současnosti možno nalézt velké množství nástrojů pro převod dat ze souboru ve formátu PDF do tabulek aplikace Excel ve formátu XLSX, existuje také zároveň několik internetových diskusí a blogů, které s výběrem těchto nástrojů radí. Bohužel většina volně dostupných nástrojů, případně jejich zkušebních verzí nedokáže data převést dostatečně kvalitně. Na základě srovnání 7 vybraných nástrojů však byly nalezeny aplikace a webová stránka, které umožnují získat použitelný výstup. Díky zkušebním verzím a možnosti 5 konverzí u webové stránky je tak možné konstatovat, že lze získat „zdarma“ použitelný výstup pro další zpracování dat. Avšak jsou tu omezení: v případě webové stránky www.pdftoexcelonline.com je povoleno provádět
maximálně 5 konverzí měsíčně bez poplatku (nutností je ale registrace), zkušební verze aplikace ABBYY FineReader 11 Professional Edition umožňuje převod pouze jedné stránky jednoho souboru (maximálně však 50 konverzí) po dobu 15 dní a aplikace Adobe® Acrobat® XI omezuje používání bez poplatku na 30 dní. Pokud by tedy bylo potřeba provádět tyto konverze častěji nebo ve větším rozsahu, je nutné zaplatit licenci za využívání těchto nástrojů. Pro převod 17 vícestránkových souborů ve formátu PDF pro účely diplomové práce byla na základě omezení tří použitelných nástrojů konverze dat vybrána jako nejvhodnější aplikace Adobe® Acrobat® XI.
Poděkování Tento článek vznikl s finanční podporou fondu IGA PEF MENDELU 34/2013.
Reference Download PDF2XL. COGNIVIEW, Inc., © 2013: CogniView [online]. [cit. 2013-10-01]. Dostupné z: http://www.cogniview.com/download JURÁNEK, Ivo, 26. září 2011: Převod z PDF do DOC a XLS zdarma "online". IT Blog [online]. [cit. 2013-10-01]. Dostupné z: http://blog.ivo-juranek.com/2011/09/prevod-zpdf-do-doc-xls-zdarma-online.html NITRO PDF, Inc., 1013: PDF to Excel Converter [online]. [cit. 2013-10-01]. Dostupné z: https://www.pdftoexcelonline.com/ O Adobe PDF. ADOBE SYSTEMS SOFTWARE IRELAND LTD., © 2013: Adobe – Česká republika [online]. [cit. 2013-10-01]. Dostupné z: http://www.adobe.com/cz/products/ acrobat/adobepdf.html PDF To Excel Converter. CENTRUM HOLDINGS, 2010: Stahuj.cz [online]. [cit. 2013-1013]. Dostupné z: http://www.stahuj.centrum.cz/utility_a_ostatni/ostatni/pdf-to-excelconverter/ PDF to Excel Free Online [online]. © 2010 - 2013 [cit. 2013-10-01]. Dostupné z: http://www.pdftoexcel.org/ PECHÁČEK, Petr, 2007: Import tabulky z PDF souboru do Excelu. Excelplus.net [online]. [cit. 2013-10-13]. Dostupné z: http://excelplus.net/news.php?readmore=38
Převod pdf do excel. In: Poradna Živě.cz [online]. 30. 8. 2012 [cit. 2013-10-01]. Dostupné z: http://www.zive.cz/poradna/prevod-pdf-do-excel/sc-20-cq-476221/default.aspx? consultanswers=1 Stáhnout bezplatnou zkušební verzi aplikace Acrobat XI Pro. ADOBE SYSTEMS SOFTWARE IRELAND LTD., © 2013: Adobe – Česká republika [online]. [cit. 2013-10-01] Dostupné z: http://www.adobe.com/cfusion/tdrc/index.cfm?product=acrobat_pro&loc=cz& promoid=KHXXW ZAMZAR LTD., 2006 – 2013: Zamzar - convert document, eBook, image, audio and video free online file conversion [online]. [cit. 2013-10-01]. Dostupné z: http://www.zamzar.com/ Zkušební verze aplikace ABBYY FineReader 11 Professional Edition. ABBYY SOFTWARE LTD., © 2013: ABBYY.cz [online]. [cit. 2013-10-01]. Dostupné z: http://www.abbyy.cz/download/finereader_pro/