Příloha č. 4
Porovnání obrazových souborů vzniklých digitalizací periodik a monografií Digitální dokumenty vznikají v digitalizaci NK dvojím způsobem : 1. Naskenování mikrofilmu skenerem Wicks and Wilson 2. Přímou digitalizací papírové předlohy knižním skenerem ProServ. Při skenování dokumentu z mikrofilmu je nutné vzít v úvahu kvalitu mikrofilmu. Mikrofilmování v NK se v současné době přizpůsobuje potřebám digitalizace, ale i přesto nelze vždy z objektivních důvodů docílit kvality potřebné pro mikrofilmový skener. Se zvoleným postupem souvisí i výsledná kvalita naskenované předlohy. Použitím mikrofilmové technologie dostáváme šedoškálové obrazy, čímž dokumenty ztrácí svou barevnou informaci. Důležitým prvkem je tedy zhodnocení, zda je barevná informace pro čtení dokumentu nutná (především fotografie a další grafické prvky v dokumentu) nebo zda dokument bez barevné informace neztrácí svou hodnotu (noviny většinou tvoří černý text na bílém papíře). Z těchto důvodů se na zpracování obrazových dokumentů můžeme v zásadě dívat ze dvou hledisek : 1. Požadavek zachování maximální věrnosti naskenovaného obrazu od předlohy. 2. Požadavek na dobrou čitelnost dokumentu bez nutnosti zásahu uživatelem. Při skenování přímou digitalizací knižním skenerem ProServ je možné zachovat maximální věrnost naskenovaného dokumentu při dodržení objektivních pravidel a technických parametrů. Skener musí být zkalibrován na bílou a černou barvu a musí mít nastavenou správnou teplotu barev RGB. Důležitým prvkem při skenování je nastavení vhodného parametru DPI (Dot Per Inch – počet bodů v digitálním obrazu, kterým odpovídá úsek reálného obrazu dlouhého 2,54 cm (1 inch)). Jako minimální hodnotu jsme stanovili 300DPI, na kterou se provádí skenování většiny periodik. Menší hodnoty DPI nejsou pro archivní účely doporučovány (a nejsou vhodné ani pro převádění dokumentů OCR systémem). Větší rozlišení DPI naopak neúměrně zvětšuje velikost souborů a i když skener ProServ umí skenování až na fyzické rozlišení 400DPI, tak není možné soubory zkomprimovat na stejnou velikost souboru jako při 300DPI, aniž bychom nesnížili čitelnost dokumentu přílišnou kompresí souboru. Z tohoto důvodu se volí pro dokumenty větších rozměrů (formát větší než A3) oněch 300DPI a pouze pro menší dokumenty 350DPI někdy i 400DPI. U formátů A3 a menších, kde nejsme tolik omezeni velikostí souboru je možné zvolit větší rozlišení DPI také s ohledem na velikost písma a čitelnost dokumentu. Čím větší DPI zvolíme, tím více detailů můžeme na dokumentu při 100% zvětšení vidět a u dokumentů psaných drobným písmem, tak přispět k lepší čitelnosti. Při zmikrofilmování a následném skenování mikrofilmu zařízením Wicks and Wilson nemůžeme docílit maximální věrnosti naskenovaného dokumentu z několika důvodů. Mikrofilmy se fotí na černobílý film a také mikrofilmový skener snímá maximálně 256 odstínů šedi. Rovněž je nutné vzít v potaz, že při každém převedení dokumentu na další médium dochází ke ztrátám informací a u nepřímé digitalizace je ztráta trojnásobná – převedení dokumentu na archivní mikrofilm, zkopírování archivního mikrofilmu a následné skenování kopie. Výsledná podoba naskenovaného obrazu se tedy liší od originálu a proto je nepřímá digitalizace vhodná tam, kde není potřeba zachovat kompletní
23
informace originálu a jde spíše o zachování všech informací k přečtení dokumentu a jejich dobré čitelnosti. Přesto se ale dokument po naskenování upravuje jen ořezáním od okrajů vzniklých při skenování stejně jako u přímé digitalizace a jinak se obrazový soubor neupravuje. Vychazí se z předpokladu, že v budoucnu bude možné dokument vždy upravit lépe a každá úprava sebou přináší ztrátu nějaké informace. Proto se další úpravy ke zlepšení čitelnosti ponechávají na uživateli. Vliv komprese souboru na výslednou kvalitu obrazu Zásadní je z hlediska ztráty informace v souboru správně zvolit formát souboru při jeho uložení. Optimálním řešením by bylo naskenovaný obraz uložit v nekomprimovaném formátu, jako standard se nejčastěji používá grafický formát TIFF. Bohužel tento formát souboru klade pro svou velikost náročné požadavky na uložení a není tedy možné ukládat tímto formátem ani zdrojové neupravené (neořezané) obrázky. S ohledem na možnost soubor otevřít na jakémkoliv operačním systému a s vynaložením co nejmenšího úsilí (software k otevření obrazového souboru je začleněn do operačního systému PC nebo ho lze lehce a bez dalších finančních nákladů doinstalovat), ale především pro jeho dobré kompresní poměry bez ztráty kvality, bylo zvoleno jako náhradní řešení ukládání a komprese do obrazového formátu JPEG. Jako výchozí téměř nekomprimovaná a nerozlišitelná komprese od uloženého originálu ve formátu TIFF byla zvolena komprese na 96% kvality snímku. Pro představu je možné uvét, že velikost obrázku v TIFFu je až 10násobná oproti velikosti obrázku v JPEG uloženého na 96% kvality. Graficky upravený (ořezaný) konečný dokument, který se ukládá jako archivní do archivačního systému, se komprimuje ještě jednou na kvalitu 85%. Tato kvalita uložení souboru JPEGu je stále dostačující pro čitelnost dokumentu a je stále při zvětšení dokumentu na 100% téměř nerozeznatelná od originálního uloženého souboru v nekomprimovaném formátu TIFF. Opět je nutné pro představu uvést, že velikost takto uloženého obrázku je až 25x menší než velikost nekomprimovaného TIFFu a zhruba 3x menší než velikost JPEG souboru uloženého na kvalitu 96%. Protože nejčastěji je pro práci s grafickými formáty souborů používán program Photoshop od firmy Adobe a tento program má jinak zvolenou stupnici komprese JPEGu, uvádím i kompresi použitou při práci s tímto programem. Bohužel hodnoty kompresí se v tomto programu s jednotlivými verzemi lišily, proto uvádím hodnoty komprese JPEGu verze programu Photoshop 7 a vyšší. Kvalitě obrázku JPEG 96% zhruba odpovídá ve photoshopu kvalita obrazu 11 uložená při volbě formátu „základní (standardní)“ a kvalitě obrázku JPEG 85% odpovídá ve photoshopu kvalita obrazu 8 opět uložená při volbě formátu „základní (standardní)“. Při konečném uložení souboru ve photoshopu je ale dobré použít volbu formátu „základní optimalizovaný“. Při stejné kvalitě obrázku tak získáme o něco menší soubor. Při této datové optimalizaci souboru nebyl zaznamenán žádný problém při načtení souboru obrázku. Zkoušení proběhlo na platformách Windows i Linux v nejběžněji používaných programech. Příklad komprese obrázku vzhledem velikosti souboru : TIFF 76 426 kB - originální obrázek JPEG 100% - 14 393 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 500% JPEG 98% - 9 808 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 300% JPEG 96% - 7 602 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 200% JPEG 94% - 6 154 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150% JPEG 90% - 4 717 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150% při zvětšení 300% pozorujeme čtverečkování obrazu JPEG 87% - 4 059 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150% při zvětšení 200% pozorujeme čtverečkování obrazu JPEG 85% - 3 749 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150%
24
při zvětšení 150% pozorujeme čtverečkování obrazu JPEG 83% JPEG 80% JPEG 75% JPEG 60% -
3 532 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150% při zvětšení 150% pozorujeme čtverečkování obrazu 3 161 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 150% při zvětšení 150% pozorujeme čtverečkování obrazu 2 719 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 100% při zvětšení 150% pozorujeme čtverečkování obrazu 1 992 kB - drobné změny v obraze jsou rozlišitelné okem při zvětšení 50% při zvětšení 150% pozorujeme čtverečkování obrazu
čtverečkování obrazu – při kompresi JPEG probíhá dopočítávání bodů, které mají stejnou nebo podobnou barvu v určitém okolí, čím je komprese větší, tím více bodů je nahrazováno, toto se lidskému oku projevuje jako rozpíjení se barvy nebo také jako rozostření obrazu. I z uvedeného příkladu, který můžeme považovat za modelový, je patrné, že do kvality JPEG 96% je obraz od originálu málo rozlišitelný. Proto zdrojové obrázky (neořezané), pokud z důvodu velikosti nepoužijeme uložení ve formátu TIFF, můžeme ukládat v JPEG do 96% kvality. Například ve JPEG kvalitě 98% je obrázek 7x menší než originál v TIFFu. Z hlediska zobrazení pro uživatele je vhodné, aby výsledná komprese upraveného (ořezaného) JPEGu nebyla menší než 80%. I na příkladu je vidět, že rozdíl kvality JPEGu od 80% do 85% kvality je malý a záleží na konkrétním případu, jakou kompresi zvolíme. Protože rozdíl velikosti souboru je minimální, tak nejednoduší je zvolit 85% kvality souboru. Větší komprese nemá cenu volit, protože poruchy obrazu jsou při větších kompresích vidět i při 100% zvětšení obrazu. Vliv komprese obrazu na OCR dokumentu Posledním důležitým parametrem pro posouzení kvality obrazového dokumentu je jeho následné zpracování systémem OCR. Pro převedení dokumentu do textové podoby je důležité, aby text v obraze byl dobře čitelný, nerozpíjely se písma, obraz byl správně kontrastní a měl vysoké DPI. Právě parametr DPI je velmi důležitým prvkem pro převedení obrazového dokumentu do textu. Proto by obrázek neměl být nikdy skenován v rozlišení nižším než 300DPI. Pokud je textová informace na obrázku psána malým písmem, je pro úspěšné rozpoznání textu nutné, aby DPI bylo vyšší. Rovněž při provádění OCR platí zásada, že obrázek by měl být minimálně komprimován. Při zkouškách bylo ověřeno, že u obrazových souborů JPEG 60% kvalita a nižší je provedení OCR velmi špatné. Na kvalitnějších dokumentech – bílý nebo jen mírně zašedlý papír a černé nerozpité písmo je převedení do textové podoby u výstupního JPEGu 80-85% kvalita téměř nerozeznatelné od převedení nekomprimovaného obrázku. U velmi špatných obrázků (zažloutlé strany, rozpité písmo) jakákoliv komprese zhoršuje kvalitu rozpoznání systémem OCR a bylo by nejlepší tyto obrázky číst nekomprimované. Při provedených zkouškách se zvýšily chyby při rozpoznávání v řádu jednotek procent. Doporučené parametry při skenování a ukládání obrázků DPI : minimální hodnota fyzického rozlišení (v žádném případě ne softwarového převzorkování) by měla být 300DPI, u dokumentů menších formátů 350 DPI nebo i 400DPI. JPEG komprese : u hotového (ořezaného) dokumentu by se měla pohybovat okolo 85% kvality obrázku (Adobe Photoshop verze 7 a vyšší – komprese 8).
25
Další parametry obrázku : Jas a kontrast nastavit tak, aby obrazové dokumenty na správně zkalibrovaném monitoru vypadaly shodně jako originální papírový dokument. Rovněž v případě barevného tisku a uložení v RGB by naskenovaný obrázek měl být barevně téměř shodný s předlohou. Protože nelze objektivně zhodnotit parametry jako jas a kontrast dokumentu, je nejlepší použití srovnávacího vzoru, kde můžeme posoudit kvalitu obrázku po snímání a jeho předlohy. Nejdůležitějším parametrem je, aby srovnávací vzor byl stejného formátu jako skenovaný dokument. Protože skenovaní zařízení obvykle umí na jinou kvalitu nasnímat obraz různých velikostí. Skenovaní zařízení ProServ (umístěné v centrálním depozitáři Národní knihovny) poskytuje téměř dokonalý obraz předlohy, proto porovnáním se skenem tohoto zařízení lze získat poměrně přesnou představu o naskenovaném srovnávacím vzoru a tedy i naskenovaném dokumentu na jiném zařízení. Obrázky se snímají v barvě nebo ve stupních šedi. Pro barvu se využívá plné RGB škály barev. Pro snímání šedé škály se použije 256 odstínů šedi. Pouze velmi dobře kontrastní dokumenty (černý text na bílém papíře je možné použít méně odstínů šedi). Snímat dokumenty pro archivní účely pouze černobíle (pouze binární paleta barev) je nevhodné. I pouze černý text na bílém papíře vypadá vizuálně lépe a tudíž se lépe čte, pokud je neskenován v šedé škále barev. Černobílé (binární) dokumenty jsou v takovýchto případech vhodné spíš pro zpřístupnění na web. Příklad černobílého obrázku a obrázku ve stupních šedi černobílý obrázek
obrázek ve stupních šedi
Příloha – graf vlivu komprese na velikost souboru ve formátu JPEG 26
Vliv komprese na velikost obrázku
45000000 40000000
velikost souboru v bytech
35000000 30000000 25000000 20000000 15000000 10000000 5000000 A
0 0
10
20
30
40
50
60
70
80
90
100
Procenta kvality komprese (bod A - optimální velikost archivního souboru)
27