A levéltári anyagok digitalizálásával szemben támasztott követelmények Megrendelő: Budapest Főváros Levéltára
Feladat A feladat egy olyan szakmai tanulmány készítése, amely bemutatja a hazai és a nemzetközi levéltári digitalizálási gyakorlatot, egyúttal javaslatot tesz a levéltári digitalizálás egységes szempont- és követelményrendszerére. Az a célja, hogy biztosítsa a digitalizálási projekteknek az E-levéltár szempontjainak megfelelő kimenetét: szabványos, hosszú távon megőrizhető, használható legyen, lehetővé tegye a különböző informatikai rendszerekben való kezelést (interoperabilitás). Gyakorlati, szakmai útmutatót, kézikönyvet is jelentsen egyben bármely levéltár számára a különböző adathordozókon rögzített képi és szöveges források digitalizálására. A projektterméknek célja nem a levéltári digitalizálás támogatása, hanem a befogadó elektronikus levéltár szempontjainak megfelelő szabályozási javaslat elkészítése, a digitalizálási projektek egységes szemléletű outputjának biztosítása, elsősorban technikai szempontból. A digitalizált állományok maguk is elektronikus iratok, hosszú távú megőrzésükhöz az elektronikusan keletkezett iratokkal azonos tárolási, megőrzési és visszakeresési beavatkozások szükségesek. A digitalizálás az elmúlt évtizedben a közgyűjtemények kiemelt feladata lett: a levéltárak mind tájékoztatási, mind állományvédelmi megfontolásból jelentős forrásokat fordítanak iratanyaguk digitalizálására. A levéltári digitalizálás azonos elvekre, technikai és formátumkövetelményekre kell, hogy épüljön, mint az iratképző szerveknél végzett digitalizálás, a projekttermék ajánlásait tehát össze kell hangolni „A papír alapú dokumentumok megbízható elektronikus másolatával szemben támasztott technikai követelmények és gyakorlatban alkalmazható eljárásrend” című projekttermékben rögzített követelményekkel. A levéltári digitalizálás során létrejövő adatstruktúrának illeszkednie kell az elektronikus levéltári anyag metaadatstruktúrájába, így a projekttermék ajánlásait össze kell hangolni „Az elektronikus levéltári rendszer metaadatmodellje” című projekttermékben rögzített követelményekkel (ez utóbbi nem készült el!!!). A speciális követelmények a levéltári anyagok egyedi értékéből, adathordozóinak speciális jellegéből és sokféleségéből, a mindezekből adódó különleges állományvédelmi követelményekből, a levéltári nyilvántartási rendszerhez igazodó metaadat-struktúra és dokumentáció szükségességéből adódnak.
A termék mindezek figyelembe vételével
1. Adjon áttekintést az EU államainak közlevéltáraiban folyt legjelentősebb levéltári digitalizálási projektek során alkalmazott módszerekről és eljárásokról, a legjobb gyakorlatokról, az EU-országokban létező, hozzáférhető szabályozásokról és szakmai módszertani útmutatókról (különös tekintettel Németország, Nagy-Britannia, Franciaország, Hollandia, az Európai Unió levéltárai, valamint az EU-n kívüli államok közül Svájc gyakorlatára). 2. Külön térjen ki a nemzetközi projektekben a digitális objektumok metaadatainak a megosztása során alkalmazott szabványokra, követelményekre és eljárásokra. Mutassa be és elemezze az jelentősebb európai nemzetközi együttműködések (pl. Europeana, APENET, ICARUS) által alkalmazott megoldásokat. 3. Adjon áttekintést a hazai levéltári digitalizálás során alkalmazott módszerekről és eljárásokról, a legjelentősebb projektek szakmai értékeléséről. 4. Vizsgálja meg a levéltárakban előforduló adathordozók digitalizálásra történő előkészítésével és digitalizálásával kapcsolatos állományvédelmi szempontokat, szem előtt tartva, hogy a digitalizálás semmilyen körülmények között nem járhat az eredeti iratanyag rongálódásával, állapotának veszélyeztetésével. Fejtse ki, hogy az iratok előkészítése és digitalizálása során, milyen esetekben szükséges restaurátor közreműködését kérni, milyen védőés segédanyagok alkalmazhatók a digitalizálás során, amelyek lehetővé teszik pld. a töredezett szélű iratanyag digitalizálását. Rögzítse a vonatkozó követelményeket és ajánlásokat az adathordozók alábbi típusai szerint: különböző korú és típusú, állapotú papíralapú iratok (külön kitérve a kötetformátumokra, nagyméretű tervekre, térképekre); pergamenalapú iratok; mikrofilmek; fényképészeti anyagok (fekete-fehér és színes papírkép, képeslap, film,
5.
6. 7.
8.
9.
negatív, dia, dagerrotípia, üvegnegatív); audiovizális anyagok (hangszalag, videoszalag). Foglalja össze a digitális másolatkészítés technikai feltételeit, jogi követelményeit, formátumkövetelményeit, a másolatkészítés folyamatára és a digitális másolat elkészültét követő munkafolyamatokra vonatkozó követelményeket. Térjen ki a szöveges állományok karakterfelismerő alkalmazásokkal való feldolgozásának és indexelésének kérdéseire is. Tegyen ajánlást a másolatokhoz rendelendő leíró és technikai metaadatokra, azok átadási és archiválási struktúrájára Számolva azzal a lehetőséggel, hogy a digitális másolatok elkészülésüket követően azonnal vagy rövid időn belül nem kerülnek e-levéltári (megbízható elektronikus levéltári) megőrzésre, ismertesse az addig tartó átmeneti kezeléssel kapcsolatos követelményeket és eljárásokat, amelyek szükségesek ahhoz, hogy megbízható elektronikus levéltárba kerülésükig is megőrizzék hitelességüket, integritásukat és használhatóságukat. Ismertesse a digitális másolatok felhasználásával és megosztásával kapcsolatos nemzetközi és hazai jogi szabályozást, az ezzel kapcsolatos problémákat és követelményeket (figyelembe véve a tulajdonjogi és szerzői jogi kérdéseket is). Szükség esetén fogalmazzon meg javaslatokat a hazai jogszabályok átalakítására. A készítendő gyakorlati útmutató a tanulmány megállapításai alapján tömör, kézikönyv-jellegű formában készüljön el publikálásra alkalmas módon. A tematikus elemző fejezetek mellett tartalmazzon tömör, kézikönyv-jellegű gyakorlati útmutatót a digitalizálás teljes munkafolyamatára és követelményrendszerére (az iratok előkészítésétől az utómunkálatokig) az alábbi irattípusokra vonatkozóan külön-külön: 1. - papíralapú iratok 2. - papíralapú kötetek 3. - pergamenalapú oklevelek 4. - építészeti tervek, térképek 5. - fotók 6. - mikrofilmek 7. - audiovizuális anyagok
Módszer, szerkezet Két főbb egység a bevezetés után: ● 1-8. Módszertani-elméleti rész ● 9. Gyakorlati kézikönyv Módszer: a hasonló tematikájú hazai és nemzetközi előzménydokumentumok összegyűjtése, áttekintése, interjú az egyes részterületek hazai szakértőivel, a fontosabb digitalizálási projektek levezénylőivel, a kiterjedt saját (Arcanum) tapasztalatok rendszerezése, bedolgozása.
Interjú formájában bevonandó személyek (intézmények): Lakatos Andor (Kalocsai Főegyházmegyei Levéltár) Reisz Csaba (MOL) Körmendy Lajos (MOL 10. főosztály, oszt. vez.) Szatucsek Zoltán (MOL 16. főosztály, mb. főigazgató helyettes) P. Holl Adrien (BFL állományvédelmi oszt. vez.) Karl Heinz (Bécs, Monasterium, ICARUS) Cseh Gergő Bendegúz (ÁBTL, Informatikai, Adatrögzítő és Állományvédelmi Osztály főoszt. vez. h.)
Kiru: előzmények, metaadatok, Europeana Schöck Gyula, Szekszárd (reprintes)
0. Bevezetés A tanulmány célja a ki, felépítése Közgyűjtemények: levéltár, könyvtár, múzeum. Közös elemek és a levéltári specialitások. Cél: megőrzés, hozzáférhetővé tétel Források: saját, pályázat, üzleti szféra Közbeszerzési útmutató Eszközök: meglévő belső, bővítés, outsourcing; hardver, szoftver, emberek Sorrend, ütemezés
1. Nemzetközi áttekintés A fejezetben röviden ismertetjük néhány Európai Uniós és azon kívüli ország konkrét digitalizálási projektjét, gyakorlatát, hozzáférhető ajánlásait, előiratait az interneten elérhető dokumentumok alapján.
USA U. S. National Archives and Records Administration: NARA: http://www.archives.gov Digitization at the National Archives: http://www.archives.gov/digitization/ Federal Agencies Digization Guidelines Initiative (FADGI): http://www.digitizationguidelines.gov/ Library of Congress: http://www.loc.gov Cornell University Library: http://www.library.cornell.edu/preservation/tutorial/
Kanada Library and Archives Canada: http://www.bac-lac.gc.ca/eng/Pages/home.aspx
Ausztrália National Archives of Australia: http://www.naa.gov.au/
Németország http://www.bundesarchiv.de/index.html.en Tartományi szerkezet miatt nincs egy központi nemzeti alap a digitalizálás finanszírozáshoz, azt a tartományoknak kell fizetniük. Baden-Württenberg: http://www.archive-bw.de Prioritások: 1: ami sokakat érdekel (fotó, térkép); 2. nagy érdeklődésre számottartó anyagok a történeti kutatásokban; 3: a közeljövő évfordulóival kapcsolatosan érdeklődésre számottartó anyagok; 4: további nagy tömegeket érdeklő
anyagok. Két másik szempont a prioritás eldöntéséhez: vizuális anyagok, amiket nehezen lehet leírni (kép, fotó, stb.), ill. a sélülékeny, fizikailag veszélyeztetett anyagok. 10 éves akcióterv: 2011-2021 88 millió oldal, ami a 7%-a a mostani anyaguknak. German Digital Library (http://www.deutsche-digitale-bibliothek.de) pl. egy közös portál, meg gyűjtő-közvetítő az Europeana felé, némi központi költségvetéssel.
Nagy-Britannia http://www.nationalarchives.gov.uk/ Útmutatók és standardok: http://www.nationalarchives.gov.uk/information-management/guidance/a.htm
Hollandia National Archives of the Netherlands: http://en.nationaalarchief.nl/subjects
Franciaország Csak franciául van bármi! http://www.archivesdefrance.culture.gouv.fr/ http://en.wikipedia.org/wiki/Archives_nationales_(France)
Svájc Swiss Federal Archive: http://www.bar.admin.ch/dokumentation/00445/00527/index.html?lang=en
EU http://www.digitalpreservationeurope.eu/ MINERVA: http://www.minervaeurope.org/ A MINERVA az Európai Uniós tagállamok minisztériumai közötti együttműködés, mely a kulturális és tudományos tartalmak digitalizálását hangolja össze. A program célja egy közösen elfogadott európai platform kialakítása a digitalizálásra, metaadatokra és a hosszú távú megőrzésre vonatkozó ajánlások és irányelvek megfogalmazása formájában. A nemzeti programok koordinálása mellett az európai országok, nemzetközi szervezetek és projektek közti kapcsolatok kiépítését is segíti. A program ezenfelül tanácsadó szerepet lát el, mely a már működő jó példák összegyűjtését, valamint a lundi alapelvek elfogadását és terjesztését szorgalmazza. IMPACT is a project funded by the European Commission. It aims to significantly improve access to historical text and to take away the barriers that stand in the way of the mass digitisation of the European cultural heritage. http://www.impactproject.eu/home http://www.digitisation.eu/
2. Nemzetközi áttekintés Digitális objektumok metaadatai, megosztásuk szabványai, integrálásuk európai portálokba: Europeana, APENET, ICARUS Europeana: http://pro.europeana.eu/, http://www.europeana.eu/portal/
APEnet: Archives Portal Europe (Európai Levéltári Portál): http://www.apenet.eu/ Archives portal Europe: http://www.archivesportaleurope.eu/Portal/index.action APEx: Archives Portal Europe network of eXcellence' (Európai Levéltári Portál Kiválósági Hálózat): http://www.apexproject.eu/ ICARUS (International Centre for Archival Research): http://icar-us.eu/ Kataszteri térképek (icarus projekt): http://icar-us.eu/?page_id=251 Monasterium (középkori oklevelek, icarus projekt): http://www.monasterium.net/
3. Hazai áttekintés Megvalósult projektek, meglévő módszerek, ajánlások, előírások értékelése (interjúk és hozzáférhető dokumentumok alapján)
4. Állományvédelem Előírások, rendszabályok, dokumentumtípusonként:
eljárások
a
digitalizálás
kapcsán
felvetődő
állagmegóvásra,
restaurálásra,
● különböző korú és típusú, állapotú papíralapú iratok (külön kitérve a kötetformátumokra, nagyméretű tervekre, térképekre) ● pergamenalapú iratok ● mikrofilmek ● fényképészeti anyagok (fekete-fehér és színes papírkép, képeslap, film, negatív, dia, dagerrotípia, üvegnegatív) ● audiovizuális anyagok (hangszalag, videoszalag).
5. Digitalizálás ● ● ● ● ● ● ●
technikai feltételek követelmények formátumok eszközök eljárások digitalizálás utáni teendők OCR (mikrofilmről OCR: vizsgálódás a BFL-ben)
A levéltári digitalizálás technikai feltételei Bevezetés Az eszközválasztás az anyag fizikai természete, terjedelme, hordozója, állapota szerint történik. A tervezéskor számbavett anyag és a digitalizálás célja, valamint a mozgósítható források, eszközök együtt határozzák meg a konkrét körülményeket. Ezekkel ebben a fejezetben most nem foglalkozunk, hanem az elméleti, ideális körülményeket feltételezve áttekintjük a használatos digitalizálási technikákat, eljárásokat, formátumokat, eszközöket. A legalapvetőbb fizikai “megtestesülésük” szerint a digitalizálandó objektumok lehetnek tárgyak, épületek, audiovizuális objektumok, vagy állóképek. Ez utóbbi alatt az összes olyan iratot, könyvet, térképet, plakátot, tervrajzot, oklevelet értjük, aminek információtartalma és fizikai megjelenése kétdimenziós állóképek formájában lényegében a maga teljességében visszaadható, reprodukálható. Nem tartozik tehát ide maga a háromdimenziós tárgy, de pl. a róla készült fotó már igen.
A levéltárakban őrzött kulturális közvagyon jellemzően ebbe a kategóriába tartozik, tehát a levéltári digitalizálás döntően különböző digitális formátumú állóképek készítését jelenti. Az audiovizuális anyagokkal kapcsolatos digitalizálási problémákra külön kitérünk. Az állóképeket azok fizikai jellemzői szerint egy sor különböző szempont szerint kategorizálhatjuk: hordozóanyag ( papír, fém, kő, fal, fa, bőr, textil, üveg, celluloid, stb), anyaguk kémiai összetétele (tinta, festék, ceruza, kréta, hordózó anyag optikai tulajdonságai (átlátszó, áttetsző, nem átlátszó), méret (néhány mm-től akár a több méterig), példányszám (egyedi vagy sokszorosított), stb., stb. A levéltári dokumentumok ebből a sokféleségből azért nagyobb mennyiségben csak néhány jellemző típust tartalmaznak: különböző méretű és állagú papír alapú dokumentumokat (iratok, kötetek, tervek, plakátok, térképek), pergamen alapú dokumentumokat (oklevelek), mikrofilmeket. Az állóképeket az ő információtartalmuk tíousa szerint is csoportosíthatjuk: főleg szöveges vagy képi (esetleg mindkettő) információhordozók-e? Fontos, a digitalizálás tervezésekor megfontolandó és eldöntendő kérdés, hogy annak révén mit akarunk reprodukálni: pusztán az információtartalmát-e, avagy többé-kevésbé a fizikai megjelenését is. Ha pl. a fizikai állapot reprodukálásának csak annyiban van jelentősége, hogy az irat eredetiségét szavatolja, de különben csak a rajta lévő szöveg információtartalmát akarjuk megőrizni, akkor ennek megfelelő metódust és formátumot kell választanunk.
A digitalizálás lehetséges céljai A skála két végén az eredeti tökéletes reprodukálását is lehetővé tévő archív példány létrehozása és mondjuk az interneten is elfogadható sebességgel működő, kutatható állomány előállítása állhat. A két eltérő célhoz különböző paraméterű képeket kell létrehozni. Lehetőség van a szkennelés során eleve mindkettőt előállítani, ám ez esetben megvan annak a veszélye, hogy a két állomány elválik egymástól, és az utóbb végrehajtott műveleteket (pl. képkorrekció, fájlátnevezés, metaadatok hozzárendelése) kétszer kell végrehajtani, ráadásul azt is menedzselni kell ebben az esetben, mi történt meg az egyik és a másik sorozattal. A nagyobb felbontású, több színinformációt hordozó állományból később is előállíthatjuk a további, a felhasználáshoz “lebutított”, könnyebben kezelhető fájlokat.
Felbontás és színmélység Állóképek esetén a fizikai objektumok leképezésének két független paramétere határozza meg, hogy a reprodukció mennyire “valósághű”: ez a felbontás és a színmélység, a színreprezentáció. Első megközelítésben azt mondhatnánk,, hogy minél nagyobb felbontású és minél nagyobb színmélységű a létrehozott digitális állományunk, annál jobban visszaadja az eredetit. Viszont ez esetben a mérete is a legnagyobb lesz, annak minden problémájával együtt (erre később még visszatérünk). Egy gépelt papírról nyilván nem érdemes mikroszkópikus felvételt készíteni, hanem az értelmes, reális felhasználási célokhoz kell a felbontást igazítani.
Eszközválasztás Az eredeti anyag fizikai hordozója, állapota, mérete, az anyag mennyisége és a digitalizálás célja, minőségi követelményei határozzák meg azt, hogy milyen eszközt használjunk. Az eszközöket is jellemezhetjük ugyanis a fenti paraméterekkel: nekik is van felbontásuk, színmélységük. Fontos paraméterük még az általuk digitalizálható méret, valamint a sebességük is. A különböző gyártók eszközei eltérő metódussal, minőségben és költséggel végezhetik el a digitális képalkotást, körültekintő választással sok későbbi bosszúságtól menekülhetünk meg. Nem hagyhatjuk figyelmen kívül természetesen az árukat sem, a digitalizálási egységre jutó fajlagos költséggel mindenképpen kalkulálnunk kell. A digitalizálási folyamat eszközei közé kell sorolnunk a berendezéseket vezérlő, az átalakításokat végző számítógépeket és háttértárakat is. Ezek teljesítménye is jelentősen befolyásolhatja az egész munka hatékonyságát, árukkal, várható élettartamukkal pedig a költségoldalon kell számolnunk.
Metaadatok, visszakereső rendszer A digitalizálás gyümölcseinek felhasználásához a kívánt állományokat meg kell találnunk. Ehhez értelmes mélységű adatleírásra van szükség. Ennek előállítása, a képállományokhoz való rendelése, és megfelelő navigációt, keresést biztosító rendszerbe való betöltése nélkül a digitalizálás semmit nem ér. Itt is meg kell találnunk az egyensúlyt: a reális
felhasználási célokhoz elégséges metaadatot kell hozzárendelnünk. A túl sok, túlságosan szétaprózott adat a felhasználást is nehézkessé teszi, és az előállítást is megnehezíti, megdrágítja. A világban elterjedő mai tendencia az, hogy még ha a háttérben vannak is bonyolultabb, kifinomultabb adatleírást, formázást, keresést támogató adatelemek, a szem előtt lévő, fő eszköz szinte csak egyetlen keresőablak. Lásd akár az Europeana-t, akár a Google-t.
Követelmények Mielőtt megfogalmaznánk a levéltári anyagok digitalizálásakor elvárható követelményeket, ismerkedjünk meg kicsit részletesebben a két legfontosabb paraméterrel!
Felbontás Egy digitális képet úgy képzelhetünk el, mintha a valóságot egy ablakra feszített szúnyoghálón át néznénk: egyrészt kivágunk belőle egy téglalap alakú szeletet, másrészt csak a rács “lukain” keresztül látjuk a valóságot. (Az egyszerűség kedvéért tekintsük most úgy, hogy egy lukon “átnézve” csak egyetlen dolgot tudunk megkülönböztetni: van-e ott valami, vagy nincs, a színes reprezentációról lásd alább.) A keretnek van egy befoglaló mérete, ami meghatározza, hogy a valóság mely és mekkora szeletét látjuk. A rácsnak pedig van egy sűrűsége, ami azt határozza meg, milyen finomsággal látjuk a mögötte lévő dolgokat: egy finom szúnyoghálót távolabbról nézve esetleg észre sem veszünk, míg egy sűrű ablakrács erősen “bezavar a képbe”. A képalkotó eszközök is ezen az elven működnek: a leképezés (input) és a megjelenítés (output) oldalán is egy téglalap alakú mátrixot képzelhetünk el, amiben meghatározott finomsággal optikailag aktív, fényt érzékelő vagy fény kibocsátására képes elemek sorakoznak. Őket pedig átlátszatlan, optikai szempontból semleges elemek keretezik. Egy ilyen egységet nevezünk pixelnek (Picture element = pixel). Hogy precízek legyünk, egy digitális kép csak a leképezéskor és a megjelenítéskor tekinthető ilyennek, a tárolt képállomány csak bizonyos speciális esetben ilyen, a pixel információt általában valamilyen kódolt formában, a hatékonyabb helykihasználás végett gyakran speciális tömörítési algoritmusokkal összecsomagolva tárolja (lásd később). Az emberi szem is egy képalkotó eszköz, és még ha a fejlettebb látás magasabb agyi folyamatok eredménye is, azért az elemi információt ennek a feldolgozási folyamatnak a kiindulópontjai, a retinánkon elhelyezkedő érzékelő sejtek adják. A szemünknek is van optikai felbontása: azt a legkisebb szöget szokás ennek mértékéül megadni, amekkora eltéréssel elkülönültnek látunk két pontszerű elemet. Ez az érték az átlagos emberi szem esetén kb. 1 ívperc, 1 ° 60ad része. Ez a meghatározás kiküszöböli a nézés távolságából adódó változót: ha mondjuk az elkülöníthető pontok távolságával jellemeznénk a felbontást, akkor mindig hozzá kellene tenni, hogy milyen messze vannak. Ennek jelentősége nyilvánvalóvá válik, ha arra gondolunk, mit látunk a tűből és a befűzendő cérnából, ha az a mi kezünkben van, és mit, ha az utca túloldalán lévő varróműhely ablakán lesünk be. A valóságban alapesetben a puszta szemünkkel nézzük a külvilági objektumokat, pl. olvasunk egy kezünkben tartott újságot. Ez esetben a legjobb szemű emberek kb. 300 dpi (dot-per-inch, azaz 300 képpont 2.54 cm-enként) “felbontó képességűek”, az ennél finomabb részleteket már nem tudják megkülönböztetni. Ezért vált a 300 dpi egyébként a legáltalánosabban elterjedt kimeneti felbontássá Köznapi értelemben egy sor – némiképpen eltérő mérőszámokkal jellemezhető – különböző dolgot is felbontásnak nevezünk. Beszélünk egy lézernyomtató felbontásáról, egy szkenner felbontásáról, egy digitális kamera felbontásáról, egy projektor felbontásáról, egy monitor felbontásáról. Szokás megadni ezeket a pixelek abszolut számában (pl. 10,2 MP=megapixel), a sorok és oszlopok abszolut számában (pl. 1024x768), az egy hosszegységre jutó pixelek számában (pixelsűrűség, pixel/inch=ppi) nyomtatott vonalak száma hosszegységenként (line/inch=lpi), valamely szabványra való hivatkozással (pl. VGA, full HD), egy hosszmértékben (ti. hogy pl. egy térképállományban két pixel között a valóságban mekkora a távolság), stb. Ezek mindegyike lényegében ugyanazt mondja meg, hogy hány elkülönült egység lehetséges az adott eszközön. Azt ugyanakkor sokszor elmossák, hogy a különböző eszközökön ez mást jelent. Nézzük meg sematikusan, hogyan is jön létre egy digitalizált kép látványa, amit a számítógépünk monitorán szemlélünk! 1. Eredeti objektum 2. Optikai leképezés. A képi információ egy meghatározott látószögű analóg valóságszeletből a képalkotó eszköz egy fix területére vetül. Vannak kontakt eszközök (síkágyas szkenner, dokumentum szkenner, térképszkenner),
ahol nincs optikai konverzió, egy az egyben az érzékelő kerül az eredeti képe, és vannak valamilyen vetítést, optikai transzformációt alkalmazó eszközök (felsőfejes, könyvszkenner, digitális fényképezőgép), ahol valamilyen kicsinyíítés vagy nagyítás történhet. 3. Digitális átalakítás. A képalkotó bizonyos felbontással (finomsággal, gyakorisággal) mintát vesz a valóság vetületéből, előállanak a pixelek. 4. Enkódolás, tárolás. Valamilyen algoritmus szerint képfájlba rögzül az infó. Tömörítetlen formátum használata esetén egy képi pixel egyenértékű egy képfájl pixellel. Veszteségmentes tömörítés használata mellett úgy van kódolva egy-egy képi pixel, hogy annak teljes információtartalma veszteség nélkül kerül bele a képfájlba. Veszteséges tömörítés esetén csak valamilyen közelítő algoritmussal állítható helyre az eredetihez hasonló pixelinfó; pixelnél nagyobb egységek információtartalma egyben kódolódik. 5. Dekódolás. A képfájl kiolvasása, a pixelenkénti infó reprodukálása 6. Küldés a megjelenítőre. Az eszköz tulajdonságaihoz kell alakítani a képfájlból kiolvasott, pixelekké alakított felbontás (és szín) információkat. Nagyítás és kicsinyítés is lehetséges. 7. Látás. A megjelenítőnek a befogadóhoz viszonyított elhelyezkedése szerint újabb optikai transzformáció történik, és érvényesül az emberi szem felbontóképessége. Láthatjuk tehát, hogy a folyamat számos pontján történik olyan átalakítás, ami a felbontást is befolyásolja. Gyakorlati szempontból mégis az elsődleges képalkotó eszköz felbontása a leglényegesebb elem. Ez határozza meg leginkább, hogy milyen részletességgel, finomsággal tudjuk a képállományban eltárolni az eredeti dokumentum digitális leképezését. Az elemi képérzékelő elemek valamilyen fényérzékeny elektronikus eszközök (CCD vagy CMOS szenzorok), amik a rájuk eső fény intenzitásával arányos feszültséget képesek generálni. (Ráadásul még mindegyikük a három alapszín valamelyikére szenzitív, erről majd a következő fejezetben beszélünk). Az eszközök egyik felében az érzékelő elemek egy (vagy egymáshoz közeli néhány) sorban helyezkednek el, sűrűségük adja a vízszintes felbontást. A függőleges letapogatás úgy történik, hogy vagy az érzékelősor mozog a digitalizálandó objektum felett (síkágyas szkenner), vagy az érzékelő sor fix, és a szkennelendő anyag mozog alatta (pl. térképszkenner, dokumentumszkenner). Könnyen beláthatjuk, hogy a konstans felbontás biztosításához végtelenül precíz szabályozás szükséges: mindkét esetben precíziós, elektronikusan vezérelt motorok mozgatják a kívánt alkatrészeket. Ez esetben a felbontást a léptető motorok pozícionálásának pontossága, finomsága határozza meg. Főleg az olcsóbb eszközök között találunk olyanokat, amelyek vízszintes és függőleges felbontása eltér (pl. 600 dpi vízszintes és 1200 dpi függőleges felbontás). Ennek az az oka, hogy vagy a képérzékelők sűrűsége, vagy a mozgató motorok léptetési finomsága limitált. Maga a szkennelés addig tart, amig a teljes felület végighalad az érzékelők előtt. Az eszközök másik felében az érzékelők egy mátrixban helyezkednek el, kitöltve egy téglalap alakú felületet. Ilyenek a digitális fényképezőgépek. Szemben az előző, soronkénti letapogatást végző eszközökkel, itt egy felvétel készítése csak az expozíciós idő tartamág tart (illetve praktikusan ez megfejelve a kép tömörítésének, letárolásának, továbbításának időtartamával). A digitális fényképezőgépek mindenképpen igényelnek valamilyen optikai átalakítót, objektívet, hogy a külső kép a kisméretű érzékelő felületre kerüljön. Az objektíveknek is van felbontásuk, azonban ez még a mai, egyre nagyobb felbontású digitális lapkák idején sem jelent szűk keresztmetszetet. Itt inkább az optikai torzítás veszélye nagy, erről majd az eszköztípus ismertetésekor részletesebben szólunk. Az optikai transzformációt involváló eszközök használata esetén fontos tudnunk, kiszámolnunk az adott beállítások mellett létrejövő képfelbontást! Azok a kontakt eszközök, ahol nincs ilyen leképezés, ott biztosak lehetünk benne, hogy a képfelbontás megegyezik a felvételezéskor beállított felbontással. Ahol azonban egy objektív (pláne egy zoom-objektív! ) vetíti a képet az érzékelőre, nem lehetünk biztosak az eredményben. A legegyszerűbb módszer a valós képfelbontás meghatározására, ha rögzítjük a beállításainkat, majd egy ismert hosszúságú tárgyról (pl. egy vonalzó) próbafelvételt készítünk. Ezt nyissuk meg valamilyen képszerkesztő programban, ahol precízen leolvashatjuk, hogy 30 cm-es vonalzónk 3544 pixel, tehát a felvételezés felbontása éppen 300 dpi. Gyakori zavart jelent az eredeti dokumentum mérete, a digitális állomány vízszintes és függőleges pixeleinek számából adódó méret, valamint a képfájlok fejlécében tárolt felbontás- és méretadatok értelmezése. A szkennelő programok, képfeldolgozó alkalmazások által létrehozott képfájlok a pixelenkénti képinformációkon kívül egy sor egyéb adatot is tartalmazhatnak. Ezek a fájlok ún. fejlécében lévő metaadatok egy sor információt tartalmaznak a kép létrejöttének körülményeivel kapcsolatban (pl. digitális fényképezőgép esetén az objektív, a rekesz beállításai, az ISO fényérzékenység-érték, copyright adatok, stb.), ezekről a metaadatokról szóló fejezetben részletesebben szólunk majd.
Nem minden képformátum tartalmazza ugyanazokat az adatokat, és nem minden alkalmazás tölti fel az összes lehetséges adatot a fájlok fejlécébe. Ha használni akarjuk a digitális állományt, megnyitjuk azt bármilyen alkalmazásban, a megjelenítő a fájltípus azonosítása után először a fejlécadatokat olvassa ki, amelyeket azután felhasználhat a megjelenítés során is. Hogy hogyan kezeli őket (avagy kezeli-e egyáltalán), az az alkalmazástól függ. Az biztos, hogy két adatot mindig meglelünk bennük: a képfájl pixelben megadott méreteit és a kép felbontását (pl. 3000x2000 pixel, 300 dpi). Ha olyan programba töltjük be a fájlunkat, ami “érti” a felbontás adatot (pl. egy tördelő programba, vagy egy PDF fájlt hozunk létre az Adobe Acrobat Professional programmal), akkor az 25,4 cm x 16,9 cm méretben jeleníti meg, avagy nyomtatja ki a képünket. Ha az alkalmazás “nem érti” a felbontás adatot, akkor negligálja, ez esetben a 3000x2000 pixeles képünket nagy valószínűséggel a megjelenítő eszköznek (pl. monitor), vagy magának a programnak az alapértelmezett felbontása szerint kezeli (pl. 72 dpi), és 1:1 megjelenítést választva 105,8 cm x 70,6 cm méretben jeleníti meg. A három adatból kettő mindig egyértelműen meghatározza a harmadikat: így ha el is veszítjük valamiért a képekben tárolt eredeti felbontásadatot, utólag a dokumentum valóságos fizikai méreteinek lemérésével és a pixel-mérettel való arányítással újra meghatározhatjuk azt.
Színreprezentáció Színmélység 1 bit 8 bit 24 bit Több bit Színmodellek RGB CMYK
Tömörítés Formátumok
OCR (Optical Character Recognition, Automatikus szövegfelismerés) A fizikai hordozó digitális reprezentációjához különböző módokon lehet az információtartalmat illetően digitális tartalmat hozzáadni. Ez lehet egyszerűen egy jelentésteli, következetesen használt fájlelnevezési séma, vagy bibliográfiai leírás, mutató, stb. Amikor olyan dokumentumokkal van dolgunk, amelyeknél az információtartalom hordozója alapvetően szöveg, akkor annak teljes digitális reprodukálása adja vissza a legteljesebben az eredeti információ tartalmat. Ez történhet gépeléssel, illetve OCR révén. A rendkívül időigényes és emiatt igen drága manuális adatfelvitel (gépelés, korrektúra, visszajavítás) alkalmazása a tömeges digitalizálásban lehetetlen. Ennek kiváltására olyan programokat használhatunk, amelyek képesek a szkennelt kép-állományokból szöveget előállítani. OCR-nek tehát azt az eljárást nevezzük, amelynek során a képi állományunkból egy program segítségével szöveg képződik. Ennek legnagyobb előnye a hagyományos kézi adatbevitellel szemben a vonzóan alacsony ár, a nagy feldolgozási sebesség, az egyre javuló minőség és a sokféle output lehetőség (Word, PDF, TXT, stb.). A mai OCR programok a minél hatékonyabb szövegfelismeréshez kifinomult eljárások egész tárházát integrálják: képtisztító, képjavító algoritmusok, alak-, mintafelismerés, szótárak, nyelvi szabályok használata, struktúra elemzés, mindez egy soklépcsős, sokszempontos döntési fába rendezve. Az egyes pontokon nem feltétlenül
abszolút “igen-nem” döntések születnek, hanem válasz-valószínűségek, amelyek összességének végső komplex kiértékelése adja a felismert szöveget. A programfejlesztők a sok szempontot igyekeznek optimalizálni a tipikus felhasználói igényekhez, és az annak megfelelő legjobb eredményt adó eljárást beépíteni a rendszerükbe. Vannak, lehetnek olyan, a tipikustól eltérő attribútumokkal rendelkező szövegek, amik esetén ez a “gyári” felismerés nem ad kielégítő eredményt. Az OCR programok ezekre az esetekre általában rendelkeznek valamilyen tanító eszköztárral, amelynek segítségével speciális betűk, karaktercsoportok felismerésére lehet “megtanítani” a programot. Az OCR jelenleg elsősorban nyomtatott vagy írógéppel, számítógépes nyomtatóval előállított szövegek felismerésére használható, a kézírásos szövegek automatikus felismerése jelenleg nem ad kielégítő eredményt. Napjainkban már vannak ugyan egészen jó eredményt adó folyó kézírást felismerő alkalmazások, ám ezek nem tudnak szkennelt képekből dolgozni, hanem csak valamilyen tableten, PDA-n bevitt írásból. Ennek az az oka, hogy ezek rögzítik, a felismerendő elemek szegmentálásában felhasználhatóvá teszik a kézírás jellegzetes dinamikáját, idői ‘lefolyását’, csak így tudnak elfogadható eredményt produkálni. A piacon komolyan számbavehető program 3-4 van, mi ezek közül jelenleg (2012) az Abbyy FineReader Corporate Edition 10 verziót használjuk. A karakterfelismerés folyamatának lényeges elemei nagyon hasonlóak, az elvi megfontolások megegyeznek, így a többi programra külön nem térünk ki, azok részletes ismertetése meghaladja jelen tanulmány kereteit. OCR programok: http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software Az a tapasztalat egyébként, hogy a kereskedelmi forgalomban lévő OCR programok elsősorban az irodai felhasználókat tekintik célközönségnek, a nagytömegű digitalizálás igényeit kielégítik ugyan, de nem túlzottan támogatják: egy sor finomabb beállítás nem kellően dokumentált, néha kisebb-nagyobb hibák is előfordulnak bennük. Mindegyiknek van SDK-ja (Software Development Kit), amivel saját OCR-alkalmazást lehet felépíteni, természetesen a legfontosabb rutinok, maga az OCR-motor zárt, csak magát a felhasználói felületet, az esetleges plusz funkciókat lehet (és kell! ) beprogramozni.. Az SDK általában viszonylag drága, és speciális és mély programozói (C/C++) tudás kell a használatához, így a “mezei” digitalizálónak kevéssé ajánlott a használatuk. Akkor lehetne érdemes ilyen alkalmazás fejlesztésébe belefogni, ha igen nagy tömegű, speciális, egy kaptafára menő dokumentumunk van, amik esetén az asztali programverzió nem ad kielégítő eredményt (pl. ipari mennyiségű űrlap, számla feldolgozása esetén). A levéltári területen, egyáltalán, a kulturális területen nem igazán ez a jellemző, hanem inkább az, hogy sokféle dokumentum-típust kell digitalizálni, a legkülönbözőbb méretű, nyomdai kivitelű, hordozójú, állapotú, nyelvezetű szövegeket. Érdemes ugyanakkor időről-időre nyomon követni, tesztelni a megjelenő újabb programokat, verziókat, mert a fejlődés folyamatos, és főleg a nyelvészeti eszközök, a mesterséges intelligencia fejlődésével még további OCR-teljesítmény javulás várható.
Alapfogalmak A OCR során az első lépés az oldalak elemzése, melynek során a program felismeri az adott oldalon található elemeket. Igazából ebben a fázisban történik még egy, a szövegminőség szempontjából nagyon fontos folyamat, a kép előfeldolgozása: kiegyenesíti az oldalt, a sorokat, képtisztító algoritmusokkal kiszűri az oldalképből a felismerést zavaró apróbb koszokat, kiemeli a felismerendő szöveget. Az egyes feldolgozandó elemek egy-egy keretet alkotnak, melyek az alábbi típusba sorolhatók: ● szöveg ● kép ● táblázat ● (vonalkód) Egy oldal igen bonyolult szerkezetű lehet (gondoljunk csak egy napilapra): több szöveghasáb, 2-3 hasábos cím, képek, illetve akár több hasábon áthúzódó táblázatok, különböző olvasásirányú blokkok. A keretek felismerésében természetesen lehetnek hibák. Manuális javítással, egy keret típusának megváltoztatásával vagy a keretvonalak javításával, “kézi” megrajzolásával sokat lehet segíteni a későbbi felismerési pontosságon.
Egy adott kerethez hozzátartozik az írás iránya. Különösen táblázatokban gyakran előfordul, hogy bizonyos cellákban függőleges irányú írás található. Ha ezeket rosszul azonosítja automatikusan a program, ezen is manuálisan javíthatunk. Az OCR programok nem kizárólag karaktereket ismernek fel, igen fejlett nyelvi háttérrel, támogatással rendelkeznek. A legegyszerűbb esetben csak az adott nyelv karakerkészletét ismeri a program, fejlettebb esetekben az adott nyelv teljes szókincsét és nyelvtanát is ismeri és ezt a felismerés során alkalmazza is. Egy adott dokumentumban több nyelvű szövegrészek is előfordulhatnak, így a szövegfelismeréshez szükség lehet egyszerre több nyelv megadására. Ekkor az adott szót a legvalószínűbb nyelvűnek tekinti a program. Például ha egy jellemzően magyar nyelvű szövegben az “in memoriam” latin kifejezés szerepel, akkor azt hajlamos az OCR program “in memóriám”-ként felismerni. Avagy az alábbi példán látható oldalon szerepel a Mohamet szó, amit a program eredetileg ebben a formában nem ismer: a számára értelemmel bíró “Mohámét” alakot ismeri fel helyette. Az adott nyelv szavai bővíthetők, saját szótárakat építhetünk (jellemzően pl. tulajdonnevekből), és ezzel segíthetjük a programot a helyes alak felismerésében. Ugyancsak lehetőségünk van speciális jelek, karakterek beépítésére egy adott nyelvbe (pl. a magyar nyelvet bővíthetjük az umlautos e betűvel (ë), amit nyelvészeti, néprajzi szövegekben gyakran használnak tájnyelvi szavak leírásában). A lenti példában megfigyelhetjük, hogy a felhasználói szótárba felvett tulajdonnevek hogyan hatnak a felismerésükre: Beriszló, Both, Mohamet. A fölső kép szótárhasználat nélkül, az alsó kép szótárhasználattal mutatja ugyanazon oldal OCR-ét, a baloldalon az oldal képével, a jobb oldalon pedig a felismert szöveggel.
A túl sok felismerési nyelv (3-4-nél több) használata viszont már rontja a felismerés minőségét. Az OCR futattása után létrejön az ún. köteg (vagy batch) állapot. Ez az OCR program saját formátuma, lényegében egy speciális, az OCR program által kezelt hierarchikus mappastruktúra,, amely tartalmazza az oldalak képállományát, a felismert szerkezeti elemeket, kereteket, és az ebből előállított, felismert, formázott szöveget is. Mérete rendkívül nagy, akár 10-20-szorosa is lehet a szkennelt oldalak helyigényének (főleg azért, mert az oldalképeket tömörítetlen TIFF formátumban tárolja). Ebben a fázisban nagyon szoros kapcsolat van a kép pontjai és a szöveg betűi között, tizedmilliméteres pontossággal tudja a program, hogy mely képpontokhoz milyen karaktert rendelt, annak minden tulajdonságával: betűtípus, betűméret, betűszélesség, stb. Ez az az állapot, ahol az OCR program felületén belül lehetőségünk van a szöveg javítására.
Minőséget befolyásoló tényezők Egy jó minőségű könyvet, vagy egy lézernyomtatóval kinyomtatott mai szöveget bármely OCR program 99,99%-os pontossággal reprodukál. A gyakorlatban azonban ennél általában rosszabb minőségű eredetikkel találkozunk. Mi az, ami alapvetően befolyásolja a felismerés minőségét? 1. Kézírásos szöveg nem felismerhető. 2. A nyomás minősége alapvetően meghatározó. Nagyon gyenge eredményt lehet elérni a rossz minőségű, stencilezett (elsősorban 1950-es 1960-as években keletkezett) gépiratokkal. 3. Meglepően gyenge OCR eredményt adnak a 1980-as évek vége 1990-es évek eleji, már számítógéppel, elektronikus írógéppel készült szövegek, amelyeknél hiányoztak a hosszú ékezetes betűk, nem volt stabil a betűk alapvonala (ugrált az írógépfej, pontozott a mátrixnyomató). 4. Főleg gépirat esetén az igen gyakran előforduló aláhúzással jelzett vagy szóközök beütésével ritkított kiemelések teljesen elrontják az eredményt. 5. A szöveg összefirkálását, aláhúzását, áthúzását, az egyes elemek kipipálását egy bizonyos szintig a programok tolerálják (ha ceruzával és halványan történtek), de a filctollas, golyóstollas jelöléseket már nem. 6. Semmilyen nyelven sem értelmes szövegek. Ilyenek lehetnek például régies nyelven írt szövegek, pl. 15-18. századi könyvek vagy azok betűhív átírásai. 7. Meglepően gyenge az OCR minősége dőlt (italic) betűtípusoknál. Ez függ az alapbetűtípustól is, minél speciálisabb, díszesebb a betű, annál gyengébb a dőlt verzió felismerhetősége is. 8. Nyomtatott anyagok esetén is meghatározó a nyomás minősége. Az emberi szem számára nem zavaró hibák (maszatos nyomat, kopott nyomóforma) is jelentősen ronthatják az OCR minőségét. Nagyon jellemző az é-ó, ó-
á, c-e, stb. tévesztése, ami elsősorban a tisztátalan avagy kopott nyomóformának tudható be. A fenti oldal-példa egy kinagyított részletén a “mentén” szóban az “e”, “é” és “n” betűk bizonyos részei annyira elvékonyodtak a nyomaton, hogy a program “mcntcu”-nak azonosította őket (fölül a felismert szöveg, alatta a kinagyított oldalkép-részlet látható).
9. Furcsa eredményeket adnak a régies helyesírású szövegek. Mivel a program a mai nyelveket ismeri, hajlamos a régies helyesírást (különösen a következetlen ékezethasználatot, pl. tanit – tanít) a maival helyettesíteni. Ebből azonban számos furcsa eredmény születik, pl. a régies írású vajjon szó vájjon lesz (mint vájjon valamit), merthogy így van a program számára értelme. 10. Amennyiben rosszul állítjuk be a nyelvet, hibás eredményt kapunk. Pl. egy magyar nyelvű szöveget véletlenül angol nyelvbeállítással futtatva az összes ékezet eltűnik a szövegből. 11. Soknyelvű oldalak, pl. bibliográfiák, ahol akár 6-8 nyelv is előfordul egyetlen oldalon, nehezítve értelmetlen (folyóirat, intézmény) rövidítésekkel, ismeretlen tulajdonnevekkel. 12. Számos speciális esetben a gép képtelen a képet és a szöveget helyesen értékelni az oldalon. Ennek jellemző példája a kottás könyvek, ahol lehetetlen elkülöníteni a képet a szövegtől, így a kottákat is szövegként próbálja értékelni, illetve a szöveg elválasztójelekkel jelenik meg, itt nem is igen értelmezhető a szövegfelismerés. 13. Különleges eset (de akár gépiratban, akár nyomtatva is gyakran használatos) a ritkított írásmód. Itt számos esetben hiába ismeri fel a betűket a program, azokat csak kis százalékban tudja értelmes (ritkított) szavakká összerakni. Egyrészről örülhetünk, hogy mintegy 50%-ban sikerül a felismerés, de sajnálhatjuk a kimaradó 50%ot.
14.Nem képes a program felismerni az alapvonalból kiugró szövegeket (az alsó-felső indexek nem ebbe a kategóriába tartoznak, azokat általában jól kezelik a programok), melynek jellegzetes példája a soron belüli törtvonalas ábrázolás. Ez igen gyakran fordul elő 2. világháború előtti rendeletszámok esetén. 15. Fenti esethez hasonló a nyomtatott lapszéli jegyzetek problémája. Ezt is igen előszeretettel használták a 1920. század fordulóján. A felismerés problémája abból származik, hogy a jegyzeteket két sor közé írták, így a fővonalban történő olvasás ezeket a betűket nem tudja értelmezni. A helyzetet megoldja, ha két külön keretbe
tesszük a főszöveget és a lapszéli jegyzetet. Alább a 14. és 15. pontokban jelzett hibákra láthatunk jellegzetes példát. Fölül az OCR program által automatikusan létrehozott keretek esetén, alul a manuálisan megjavított keretek esetén figyelhetjük meg a felismerés eredményét. Mindkettőben baloldalon az oldalkép látható a zöld színű felismerési keretekkel, jobb oldalon pedig a felismert szöveg.
16. A program kizárólag egyenes írású szöveget ismer fel (vízszintes vagy függőleges irányban), ferde, hajlított szövegeket nem.
17.Szinte használhatatlan az eredmény az újságokban, könyvekben gyakran előforduló hirdetések esetén. A bonyolult szerkezetű, speciális méretű, formájú betűtípusokat, logókat, képeket tartalmazó oldalak esetén egy-egy normálisan álló szövegrész felismerését már jó eredménynek tekinthetjük.
Tanítás Minden OCR program egyik fontosnak tűnő alapfunkciója, hogy a számára ismeretlen betűk, illetve betűtípusok megtaníthatók számára, ez a “Felhasználói minta tanítása” funkció. A minta tanítása hasznos lehet díszes, cirkalmas betűkkel nyomtatott szövegek, speciális karaktereket (pl. matematikai jeleket, fonetikai jelöléseket, ligatúrákat) tartalmazó szövegek esetén, vagy ha rossz nyomtatási minőségű a dokumentum (pl. ha az írógéppel írt szövegben sérült valamelyik betű). A funkció bekapcsolásakor, ha a program a felismerés során ismeretlen, vagy bizonytalanul felismert karakterhez ér, megáll, és a felbukkanó panelen megadhatjuk a kívánt betűt. Ügyelni kell arra, hogy a dőlt és kövér alakok, alsó és felső indexek külön-külön megtanítandók! Egy másik betűtípussal, másik betűmérettel, esetleg eltérő felbontással szkennelt oldalkép esetén a tanított minta nem fog jól működni, annál újabb mintát kell tanítani! Amikor valamennyi kívánt betűre megtanítottuk a programot, kiléphetünk a tanítási módból, és a soron következő felismertetésekben használhatjuk a betanított mintát. A tanítással kapcsolatban az a gyakorlati tapasztalat, hogy általában csak akkor éri meg a befektetett munkát, ha ugyanaz a specialitás nagy mennyiségű szövegben (több száz oldalon) következetesen fordul elő, különben ritkán lesz jelentősen jobb az így nyert szöveg. A felismerési karakterkészlet (az ábécé) precíz beállítása és a megfelelő szótár kialakítása gyakran elégséges az elfogadható eredmény eléréséhez. Kisebb mennyiségű hibás szöveget meg esetleg érdemes egyszerűen manuálisan vagy Keresés/Csere módszerrel kijavítani.
Szkennelés minősége A szövegfelismerést természetesen befolyásolja a szkennelés minősége, bár a szkennelési paraméterek viszonylag tág határai között is képes az OCR program elfogadható eredményre. Normál szövegek feldolgozásához 300 DPI, JPG tömörítésű képek elegendőek (a tömörítési arány 80% körül határozzuk meg, ahol a 100% a legjobb minőségű, legkevésbé tömörített fájlt jelenti). Apró betűs (6-7 pontos) szövegek esetén javíthat a felismerésen a 400 DPI-s szkennelés (valós, optikai felbontás). Egyszerű képek esetén elegendő a fekete-fehér (egy bites) TIFF G4 formátum. Ez igen tömör tárolású és a feldolgozás során sem nő meg a szükséges tárolókapacitás. Egy átlagos (A4-es) oldal tárigénye (300 DPI, 80%-os JPG), 1,5-2 MByte, ugyanez fekete-fehérben (300 DPI, TIFF G4 tömörítéssel) 100-150 KByte, a kölönbség 15-szörös. Érdekes és nem egészen triviális tapasztalat, hogy árnyalatos (szürke vagy színes) képek esetén a külső képszerkesztő programmal végzett tónuskorrekció számos esetben inkább ront mint javít az OCR minőségén! Maga az OCR a programokban 1 bitessé alakított, fekete-fehér állományon történik, de nem mindegy, hogy ezt mi állítjuk elő valami külső programmal (a szkennelő szoftverrel, esetleg képszerkesztővel), avagy az OCR programra bízzuk ezt. Jó minőségű 1 bites képet, ahol az egyenetlen tónusú oldalak halvány és kontrasztosabb részei egyaránt használhatóak maradnak, nem egyszerű előállítani: az a tapasztalat, hogy éppen az OCR program csinálja ezt a legjobban! Akármit is módosítunk az eredeti képen – feltételezve, hogy a szkennelő szoftver jól végzi a dolgát, nem állítottunk el rajta valamit végletesen –, beavatkozásunk az eredeti, lehető leggazdagabb tónusinformációból elvesz, nem pedig hozzátesz. Még ha szemre esetleg azt gondolnánk, hogy a korrekció nyomán tetszetősebb, kontrasztosabb képeket kaptunk, akkor is általában rosszabb lesz a szövegfelismerés minősége, mintha semmit sem csináltunk volna. Érdemes egy kötetet egy mappába szkennelni, a fájlok elnevezésénél pedig ragaszkodni ahhoz, hogy a fájlnév feleljen meg az oldalszámnak. A 34. oldalt a 034.JPG file-ba szkenneljük, így a későbbiekben minden alkalommal könnyen tudjuk azonosítani a fájlokat. Fontos, hogy a számozatlan (pl. képmellékletek), illetve az eltérő számozású (tartalomjegyzék, külön számozott mellékletek, stb.) oldalak elnevezését egységesítsük, és az adott számozott oldal mellé rendeljük, pl. a 34. oldal utáni képmelléklet kapja a 34_1.JPG, 34_2.JPG fájlnevet. Így biztosíthatjuk, hogy a digitális képek sorrendje jól áttekinthetően megegyezzen az eredeti dokumentum oldalainak sorrendjével. Szkennelés után ellenőrizzük, egyeztessük az oldalszámokat és a fájlneveket, így könnyen kideríthető, ha valamely oldalt nem szkenneltük be: vagy azért mert hiányzik az eredetiből vagy azért mert átsiklottunk rajta. Ezzel az egyéb hibákat is kiszűrhetjük (hibás oldalszámozás az eredetiben, esetleg duplán szereplő oldalak).
Futtatás, a szükséges számítógép, teljesítmény
Ha rendelkezésre állnak a digitális állományok, kezdődhet a szövegfelismerés, a futtatás. A hatékonyság érdekében ez jellemzően éjszaka végzett művelet, ebben a munkafázisban nincs szükség emberi beavatkozásra. Ugyanakkor a számítógép erőforrásait meglehetősen igénybe veszi, így nem érdemes futtatás közben mást is csinálni ugyanazzal a géppel. A helyesen beállított paraméterek (a dokumentum nyelve, nyelvei, esetleg páros oldalak felosztása, kép elforgatása a helyes olvasási irány megtalálásához, stb.) mellett akár sok kötet felismerését végezhetjük el. A szövegfelismerés igen nagy számítási kapacitást igényel, ami erősen függ a dokumentum jellegétől, minőségétől. Biztosan lassan fut a nagy alakú, bonyolult szerkezetű, rossz minőségű szövegek felismerése, míg a kis alakú, egyszerű szerkezetű, jó minőségű szövegek sokkal gyorsabbak. Jelentős a különbség a színes és a fekete-fehér képek futtatási idejében is: utóbbiak lényegesen gyorsabban lefutnak. Nagy tömegű feldolgozáshoz nagy teljesítményű, nagy memóriájú és nagy háttértárral rendelkező gépek szükségesek. A megfelelő hatékonysághoz többmagos processzorral rendelkező gépeket használjunk (4-8 mag), mivel a programok képesek több szálon futni, s így olyan teljesítményt érhetünk el, mint 2-4 önálló gépen. Egy éjszaka alatt egy megfelelő gépen 4-5000 átlagos oldal OCR-ezése biztosan elvégezhető.
Kötegelt feldolgozás A tömeges digitalizálás hatékony fegyvere az OCR programok azon funkciója, amit kötegelt feldolgozásnak nevezhetünk. Megadhatjuk előre a képeket tartalmazó forrás-mappákat, beállíthatjuk a megnyitás, felismerés összes fontos paraméterét, beállíthatjuk a kimeneti formátumot (egy menetben akár többet is), az elmentendő elemek helyét. Ha mindent beállítottunk, akkor akár azonnal, vagy ha úgy tetszik, akár időzítve egy későbbi, alkalmas időpontban (pl. éjszaka vagy hétvégén) elindíthatjuk a feldolgozást, és a program automatikusan elkezdi az első input mappa feldolgozását, majd ha végez, folytatja a következővel, egészen az utolsóig. A futást bármikor megszakíthatjuk és egy későbbi időpontban újraindíthatjuk. Ha esetleg szükséges az egyes kötegek ellenőrzése, akkor is érdemes a képbetöltés, elemzés, felismertetés időigényes folyamatát ezen a módon automatizálni, és az operátori ellenőrzés után már csak a végső formátumban való mentést kell (újra) végrehajtanunk, a munka időigényes dandárja emberi beavatkozás nélkül tud történni.
Átnézés, javítás Miután lefutott az OCR, létrejöttek a megfelelő köteg-fájlok. Ezután van lehetőségünk arra, hogy átnézzük az eredményeket és szükség esetén megtegyük a legfontosabb változtatásokat. Itt is hangsúlyozzuk, hogy automatikus szövegfelismerésről van szó, tökéletes szövegelőállítás ezen a módon nem lehetséges (nem érdemes), itt egy “elég jó” eredményt szeretnénk elérni, a lehetséges maximumot kihozni, figyelembe véve a ráfordításokat. A köteg átnézése során ne vállalkozzunk a teljes szöveg szisztematikus kijavítására, ennek időigénye vállalhatatlanul nagy! Kizárólag egy-egy oldal egészére vonatkozó hibajavításokra hagyatkozhatunk. Ezek az alábbiak lehetnek: 1. Olyan ferdén történt az oldal szkennelése, hogy manuálisan kell kiegyenesíteni a képet. 2. Szöveget is képként ismert fel a program. Ennek jellegzetes esete, hogy amikor sok kép és képaláírás van egy oldalon, bizonyos képaláírások részéve válnak a képnek. Külön keretezzük meg a képaláírást önálló szövegdobozként. 3. A program nem ismerte fel helyesen a hasábokat, a hasábok egymásba folynak. Ekkor manuálisan meghúzva a helyes hasábbeosztást, jelentősen javul a szövegfelismerés. 4. Helytelen nyelvbeállítást alkalmaztunk. Ha nagyon sok oldalnál jelentkezik a hiba, érdemes az egészet újrafuttatni a helyes nyelv(ek) megadásával, ha csak néhány oldalon, akkor ezekre megadhatjuk oldalanként a helyes nyelvbeállítást és csak ezekre futtatjuk újra felismerést. 5. A program nem ismerte fel helyesen a szöveg olvasási irányát, ezért ezt manuálisan meg kell adnunk. 6. Lapszéli jegyzeteket tartalmaz a kötet és a főszöveggel azonos keretbe került. Manuálisan javítsuk, tegyük másik keretbe a jegyzetet. Külön kell beszélnünk a táblázatokról. A gyakorlatban a táblázatok igen nagy méretűek, bonyolultak lehetnek. Már az is igen sokat javít a felismerésen, ha rásegítünk a programnak, megadjuk (ha rosszul ismerte fel), hogy táblázatról van szó. Ekkor hihetetlen intelligenciával kielemzi az oszlopokat, sorokat és megpróbálja megtalálni a legjobb cellabeosztást. Fontos, értékes, sok szöveget tartalmazó táblázatoknál érdemes ezt ellenőrizni, a javításra az alábbi lehetőségeink vannak: 1. Cellák összevonása, szétválasztása.
2. Cellaméretek változtatása. 3. Olvasási irány meghatározása akár cellánként külön-külön. Igen gyakori a nagyméretű táblázatoknál, hogy függőleges irásirányt alkalmaznak, amit nem mindig ismer fel a program. Ezt manuálisan javíthatjuk. Ügyeljünk azonban arra, hogy az elért eredmény és a ráfordított munka arányban álljon egymással! Az OCR program felületén egyszerre láthatjuk az oldalak képét a felismerési keretekkel és egy szövegszerkesztő-szerű felületen a felismert, a kimenetnek megfelelően formázott szöveget. Az előbbin lehet az oldal- és keretszintű javításokat eszközölni, az utóbbin pedig a szövegszintűeket. A program vizuálisan kiemeli az általa bizonytalan felismerésűnek vélt betűket, és a felismerési szótárában nem szereplő szavakat is. Ezeken könnyen végiglépdelhetünk, és eldönthetjük, javítjuk-e őket vagy sem. Nem ritkán ugyanis a bizonytalannak jelölt szavakat ennek ellenére helyesen ismeri fel a program. Ha egy oldalon bizonyos százaléknál több a bizonytalan karakter (mert például olyan nyelvű szöveg van rajta, amit nem állítottunk be felismerési nyelvnek), arra további, az egész oldalra vonatkozó vizuális figyelmeztetést ad. Sokszor elegendő csak az így megjelölt oldalakat alaposabban ellenőrizni. A szövegjavítás során használhatunk globális cseréket is: amennyiben tipikus félreolvasások vannak, megkockáztathatjuk egységesen kijavítani őket. Javíthatjuk a felismerést hozzáadott szótárral, jellemzően tulajdonnevekkel, az adott szakterület speciális szavaival. Fejleszthetjük a programot a nem jól felismert karakterek megtanításával. A gyakorlati tapasztalatunk azonban az, hogy ezen lehetőségek használatával csak korlátozott eredményeket tudunk elérni. Egy szótár összeállítása, egy betűcsomag megtanítása igen jelentős ráfordítást igényel; nagyon ritkán fordul elő, hogy a befektetés megtérüljön és jelentősen javuljon az eredmény.
Mentés, output A felismert szövegünket egy sor formátumban menthetjük, a beállítható paraméterek az adott fájltípusnak megfelelőek. Fontossága okán itt most csak a három leggyakrabban használt formátumról beszélünk. RTF/DOC/DOCX A legnépszerűbb szövegszerkesztők formátumának előnyei a szövegesen mentett dokumentum kis mérete, az eredetit hűen tükröző formázás, a további szerkeszthetőség, képek beágyazásának lehetősége. Képesek a fejlécként, lábjegyzetként, tartalomjegyzékként, címfokozatokkánt azonosított elemek átvitelére ebben a formátumban, így a szöveg további használatát jelentősen megkönnyíti. A szerkeszthetőség illetve az eredeti formázás pontos megőrzése két egymással ellentétes követelmény, annak tükrében, hogy melyik funkcionalitás kerül túlsúlyba menthetünk akár formázatlan, nyers szöveget, de másik végletként, szövegdobozokkal precízen formázott, ám emiatt nehezebben újraformázható elrendezést is. A felhasználás szándéka szerint válasszunk! PDF, PDF/A Az Adobe évek során fokozatosan ipari szabvánnyá vált formátuma abban a legerősebb, amit a neve sugall: Portable Document Format, azaz hordozható dokumentum formátum. Szöveget és képet is tartalmazhat, kompakt, jól tömöríthető, platformtól függetlenül az eredetivel megegyezően képes megjelenni, beágyazva tartalmazhatja a változatlan megjelenéshez szükséges betűtípusokat, belső navigációs, annotáló eszköztárral, akár még multimédikus elemek beágyazásával is rendelkezik. A PDF/A ennek az ISO által elfogadott, szabványosított speciális esete a hosszútávú megőrzés céljaira. Kötelezően beágyazott betűtípusokat tartalmaz, tilos benne egy sor esetleges inkompatibilitást okozó eszköz használata: audió és video elemek, Java-scriptek, bizonyos tömörítésfajták. A felismert szöveget elmenthetjük szöveges PDF-ként, ami igen kis méretű, és reprodukálja az eredeti dokumentum összes elemét (betűtípusát, betűméretét, keretbeállításait, táblázatait, stb.). Hátránya, hogy az összes OCR hibát megtartja, így a hitelesség elvész. Kereshető PDF Az automatikus OCR eredményeképpen létrejött anyagok legelterjedtebben használt formátuma a kereshető, vagy más néven kétrétegű PDF (angolul leginkább a ‘searchable PDF’ kiifejezést használják). Szöveges dokumentumok tömeges digitalizálása céljára jó megoldásnak tűnik minden oldalról: a hiteles reprodukció, a hosszú távú megőrzés, az interoperabilitás, a kereshetőség és az előállítási ár szempontjából egyaránt. A világban egyre szélesebb körben terjedő technológia lényege, hogy az eredeti dokumentum (könyv, irat, folyóirat, stb.) képként kerül digitalizálásra, azaz beszkenneljük, majd az automatikus karakterfelismerés segítségével a képből szöveget állítunk elő. Az előállított, mentett
dokumentum felső, látható rétegét a kép alkotja, az alsó, láthatatlan rétegét pedig a szöveg. A szöveg és a kép teljesen fedésben van egymással, a szavak – a betűk képe, és alatta a szöveg milliméterre pontosan ugyanazon a helyen találhatók. Az így létrehozott állományok egyrészt alkalmasak a dokumentum hiteles megjelenítésére, hiszen az eredeti dokumentum képét látjuk (facsimile), másrészt lehetővé teszik a szöveges kezelést, keresést is. Ez utóbbi legfontosabb eleme a teljes szövegű keresőrendszer, amely lehetővé teszi, hogy tetszőleges szóra, kifejezésre kereshessünk. A másik fontos haszna, hogy lehetőségünk van a szöveg kiemelésére, azt szövegszerkesztőnkbe beilleszthetjük, átemelhetjük. A puszta szövegen kívül a PDF fájlok további információt tartalmazhatnak a dokumentum szerkezetéről, például logikai részeiről, a képekről, táblázatokról, bekezdésekről. Ez az információ a PDF-címkékben kerül kódolásra, és a szöveg további felhasználásakor nyer különös jelentőséget. Ha pl. egy “tagged” (=cimkézett) PDF fájlból a kijelölt szöveget a vágólapon át egy szövegszerkesztőbe illesztjük, vagy exportáljuk az oldal/fájl szövegét valamilyen szövegformátumba, az megőrzi az eredeti bekezdések tagolását, a sorvégi elválasztott szavakat pedig összevonja. Enélkül minden sor végén kemény sortörés szerepel, ami nagyon megnehezíti a további munkát. A kétrétegű formátumnak lényegesen nagyobb a tárhelyigénye, mint a szöveges PDF vagy WORD állományoké, hiszen a szöveg mellett a képet is tartalmazza. Nagyon nehéz döntést jelent a felső réteget alkotó kép mentési paramétereinek meghatározása. Ha az eredeti szkennelt képpel megegyezőre állítjuk be (300-400 DPI színes JPG), egy sok oldalas dokumentum esetén igen nagy PDF fájlok jöhetnek létre. Ha fekete-fehérben mentjük, lényegesen kisebb méretet kapunk, viszont az előforduló színes vagy szürke képek élvezhetetlenek lesznek. Sajnos az OCR programok nem adnak jó automatikus lehetőséget a vegyes mentésre. A gyakorlatban fekete-fehér mentést követően a színes (az eredeti dokumentum rossz minősége miatt fekete-fehérben esetleg olvashatatlan) oldalakat színesben mentjük ki, majd a megfelelő oldalakat az Acrobat Professional program segítségével színesre cseréljük a teljes fekete-fehér állományban. A legújabb programverziók egyik újítása a vegyes raszter tartalom használata (MRC, Mixed raster content) a kimeneti PDF fájlban. Azon a tapasztalaton alapul, hogy a tipikus szöveges oldalak képe egy halvány tónusú, finom átmenetű, további információt nem tartalmazó háttérre, és a szöveges illetve képi információt tartalmazó “előtérre” szeparálható, amely két réteg eltérő algorítmussal tömöríthető igazán hatékonyan. Az eredmény egy színvilágában az eredetihez közelítő, ám az eredeti színes képhez viszonyítva töredék méretű állomány. Megjegyezzük, hogy nem minden esetben ad ez a módszer vizuálisan szép eredményt, ha fontos a kicsi méret, akkor érdemes vele egy próbát tenni, és csak ha kielégíti az igényeinket, akkor használni. A hosszú távú megőrzéshez egyelőre nem javasolt formátum. Ugyancsak nagyon nehezen eldönthető kérdés, hogy mi legyen egy PDF fájlban. A mi javaslatunk, jól bevált gyakorlatunk az, hogy egy fizikai kötet, mappa alkosson egy PDF fájlt. Kétségtelen, hogy ez időnként igen nagy méretű, emiatt időnként nehezen állítható elő és a kezelése sem egyszerű. Az ettől eltérő más módszerek (oldalanként, cikkenként, fejezetenként egy PDF) kétségtelenül kisebbek, viszont igen nagy számuk miatt ugyancsak nehezen kezelhetők. Szükség esetén el lehet térni az egy kötet = egy PDF szabálytól. Például előfordulhat, hogy egy folyóirat egy évfolyamát két kötetbe kötötték, de ettől függetlenül folyamatos oldalszámozású. Ekkor, ha a fájl méretei ezt lehetővé teszik, érdemes lehet összevonni a két kötetet egy PDF fájlba. Egy kötet több részre osztása akkor indokolt, ha kezelhetetlenül nagy méretű az állomány (nagy alakú, színes), ekkor kénytelenek vagyunk 2 vagy több részre osztani, két vagy több PDF-be menteni az anyagot.
PDF kezelés Miután előállítottuk a végleges (fekete-fehér és színes) PDF állományokat, számos egyéb teendőnk van. Egyrészt a PDF fájl tulajdonságaiban a Title (Cím) és az Author (Szerző) mezőben adjuk meg a kötet azonosító adatait! Ez lehet egy könyv címe, és szerzője, de egy folyóirat neve, évfolyama is. A későbbiekben a PDF megjelenítésekor, azonosításakor (a beállításoktól függően) vagy ez a szöveg, vagy a PDF file neve fog szerepelni. Amennyiben a kötetünknek értelmes belső szerkezete van, helyezzünk el benne könyvjelzőket (bookmark), hogy jobban tudjunk navigálni a kötetben. Jellemző könyvjelzők: ● ● ● ●
könyv fejezetcímei (pl. 1. fejezet. Magyarország története) folyóirat lapszámok (pl. 51. szám 1895. december 23.) jegyzőkönyv esetén az ülésnap dátuma, témája cikk szerző, cím: tanulmányköteteknél fontos felvenni az adott cikk adatait (pl. Borsa Iván: Középkori oklevelek)
●
oldalszám: annak érdekében, hogy adott oldalra gyorsan elnavigálhassunk a fentiek mellett érdemes egy oldalszám könyvjelzőt használni, ami a PDF fájlban az eredeti könyv adott oldalszámú lapjára mutat. Csak ezzel tudunk gyorsan, könnyen adott oldalra ugrani (a számozatlan mellékletek, számozott mllékletek miatt a PDF fizikai oldalszáma erre nem használható). Például a kötetekben gyakori mutatókat csak az oldalszám-bookmarkok révén tudjuk hatékony navigálásra használni. A könyvjelzők a szöveg mellett az oldal linkjét tartalmazzák, segítségükkel egy konkrét oldalra (az adott lapszámhoz, egy cikk kezdetéhez, valamelyik oldalra) ugorhatunk. Hátránya ugyanakkor, hogy csak adott oldalra tudunk ugrani a segítségével, az oldalon belüli tartalmi elemeket nem tudjuk belinkelni vele. Nem teszi lehetővé például, hogy egy oldalon több cikket különböztessünk meg, illetve, hogy pontosan jelezzük, hogy hol kezdődik és hol végződik egy adott cikk. A könyvjelző egy oldalra hivatkozó mutató, nem pedig az oldalon szereplő hierarchikus cím-elem. A könyvjelzőknek (cikkek, fejezetek) igen jó szövegminőségűnek kell lennük (99,99%), ezért, bár célszerűnek látszik az esetleg a kötetben meglévő tartalomjegyzék OCR-jének felhasználása, a tapasztalat azt mutatja, hogy (különösen régebbi szövegek esetén) jobb manuálisan rögzíteni, korrekturázni a szöveget. OCR kontra gépelés Bár a világban egyre elterjedtebb az automatikus szövegfelismerés (gondoljunk csak a Google Books projektre, amiben mintegy 15-20 millió könyvet dolgoznak/dolgoztak fel), érdemes értékelni ennek előnyeit illetve hátrányait. Első és legfontosabb megállapításunk, hogy gyors, olcsó és “elég jó” szövegelőállítást csak ezen a módon lehet előállítani. Több millió oldal digitalizálása, ésszerű költségekkel való feldolgozása csak ezen a módon lehetséges. Ugyanakkor ez a technológia alkalmatlan nyomtatott vagy e-könyvek készítésére, a nyomdai minőségű szöveg előállítására. Utóbbi esetben mindenképpen szükség van egy nagyon alapos korrektúrára, annak a visszavezetésére, és itt nem csak a szövegről, hanem nyomdai jelekről (gondolatjel, idézőjel, vessző, pontosvessző, elválasztásról) is szó van. Egy nyomdakész anyag előállítása négy részből áll: szövegszedés, korrektúra, visszajavítás, tördelés. Ebből a szövegszedés (szövegelőállítás) a teljes ráfordításból maximum 30%-ot tesz ki. Az OCR technológia ennek a lépésnek egy részét váltaná ki, ha tökéletesen működne. Ebben az ideális esetben is kell költséggel számolnunk (ha csak csak 30-50%-kal is), viszont biztosan állíthatjuk, hogy a szövegkorrektúra és a többi hiba kijavítása, az újratördelés időigénye jelentősen megnő, így a költségek megnövekednek. A következőkben megpróbáljuk néhány számmal jellemezni az eltérő munkafolyamatokat! A szövegelőállítás költsége a közbeszerzési adatok alapján: 250-300 Ft + áfa / 1000 karakter. (Ilyen jellegű közbeszerzés néhány évvel ezelőtt gyakoribb volt, ma már szinte sosem fordul elő, tehát az adatok 2-3 évesek.) Egy átlagos könyvoldal 2500-3000 karakter, tehát a digitalizálás ára 600-900 Ft. Az ennél nagyobb méretű (pl. napilapok, közlönyök), átlagos karakterszáma 10-15.000, melynek költsége 3000-5000 Ft. Egy átlagos szedő (és korrektor is) naponta 80-100.000 karakternyi szöveget képes feldolgozni. Egy képzett szedő esetén a szedés minősége, minimum 99,8%. Ebben benne van az anyag bizonyos szintű strukturálása is: lábjegyzetek, alsó, felső index, speciális nyomdai jelek, a szükséges tagek elhelyezése, mint pl. szerző, cím, illetve a szöveg hierarchikus strukturálása, mint pl. címsorok. A korrektornak a már igen jó minőségű szövegben kell megtalálni azt a néhány hibát, ami persze nem egyszerű (és igen időigényes) feladat. Kétszer kell elolvasnia a szöveget, egyszer az eredetit, egyszer pedig a digitálisat és az eltéréseket azonosítani. A nagytömegű gépi szövegfelismerést tartalmazó feldolgozások átlagáráról, mivel ez mostanában felfutó terület, nem sok információ van. A jelenlegi adatok alapján 50-120 Ft + áfa / oldal? között szórnak a vállalási árak attól függően, hogy milyen minőségű a forrás, milyen szkennerrel (dokumentum- vagy robot-) lehet digitalizálni, illetve milyen nehézségű a feldolgozandó szöveg, illetve ennek alapján milyenek a megbízó elvárásai. Hadd jegyezzük itt meg, hogy igen gyakran találkozunk kevéssé (vagy egyáltalán nem) definiált minőségi előírással, illetve a másik véglet is gyakori, hogy olyan irreális elvárásokat támaszt a szövegminőséget illetően a megbízó, amelyeket nyilvánvalóan nem lehet teljesíteni. Fontos lenne tehát, hogy a megbízók is tisztában legyenek a lehetőségekkel, a korlátokkal. A fenti számok alapján elmondhatjuk, hogy kisebb alakú könyvek esetén 15-20, nagyobb méretűeknél akár 40-50-szeres különbség van a kétfajta feldolgozási mód között. Nagy tömegű feldolgozás (különösen nagy alakú kötetek esetén) kizárólag így lehetséges. Nem mindegy, hogy egy adott anyag feldolgozása 1 millió vagy 50 millió forintba kerül, még ha ez a szövegminőség terén kompromisszummal jár is. Átlagos (akár 19. századi) könyvek, folyóiratok esetén 98-99%-os szövegjóságot lehet elérni, jobb minőségű kötetek esetén 99,5% körüli arány is elérhető. Hogy ezt megfelelően értékeljük vessük össze a szedő 99,8%-ával (1000 karakterből 2 hiba, 98% esetén ez 20 hiba, 99,5% esetén 5). Egy 15.000 karaktert tartalmazó (nagy alakú) 19. századi lap estén a 98% azt jelenti, hogy egy oldalon biztosan találunk 300 (!) hibát, míg a
gyakorlott szedő maximum 30 hibát követ el. Ugyanakkor hiába vannak magas elvárásaink, ha elképzelhetetlenül magas összeg egy adott anyag “tökéletes” feldolgozása. Hadd említsük példaképpen a Magyar Távirati Iroda 1920-40 közötti teljes archívumának feldolgozását! A mintegy 1 millió oldalnyi anyagról – feldolgozhatóság szempontjából – minden rossz elmondható: nagyon gyenge minőség, savas papíron, igen rossz minőségű stencilezett, kopott, egyenetlenül nyomott szöveg, sok javítással, sőt, mivel az eredeti nyomat gyakran kopott volt, az idők során tollal lettek “megerősítve” a betűk. Szóval nyilvánvalóan alkalmatlan mindenféle OCR-ezésre. Adatrögzítésssel a felolgozás ára (most ne számoljunk korrektúra költséget, fogadjuk el a 99,8%-os eredményt; legyen 150 Ft / 1000 karaker), figyelembe véve, hogy egy oldalon átlagosan 3000 karakter van, mintegy 450 millió forint és mintegy 30.000 nap / 100 év (persze, ha 10 ember dolgozik elég 10 év is). Ehhez képest még egy bármilyen rossz OCR is jobb a semminél, eredményeképpen a keresett szavak 30-50%-át azért megtalálhatjuk, maga a hiteles szöveg pedig a kép-réteg folytán elolvasható.
OCR – mikrofilmről http://www.loc.gov/ndnp/guidelines/digitizing.html
6. Metaadatok
Leíró és technikai metaadatok: a digitalizált fájlokhoz tartozó metaadatokról van szó, nem a fölsőbb struktúra metaadatairól: a digitális felvétel paraméterei, fájlelnevezési rendszer, Pdf-nél ehhez még pl. title, author, bookmark
7. Archiválás Rövid-közép távon, e-Levéltárba kerülésig (?) Ezt nem egészen értem, Kenyerestől megkérdezni!
8. Jogi megfontolások A digitalizálás, publikálás, felhasználás, megosztás jogi szabályozása: tulajdonjog, szerzői jog, szomszédos jogok, személyiségi jog, sui generis jog. A levéltárakban őrzött dokumentumok közül melyeknek van szerzői joga? Kik a szerzőik? Digitalizálás = archiválási célú másolatkészítés
9. Gyakorlati útmutató Rövid, tömör, kézikönyvszerűen egy-egy tipikus digitalizálási szituációt magyaráz el: ● ● ● ● ● ● ● esetén.
papíralapú iratok, papíralapú kötetek, pergamenalapú oklevelek, építészeti tervek, térképek, plakátok, fotók, mikrofilmek, audiovizuális anyagok
Valójában a különböző irattípusok digitalizálása néhány tipikus eszköz használatát jelenti: ● dokumentum szkenner (Canon X10) ● térkép szkenner (Vidar) ● könyv szkenner (BookEye, Zeutschel) ● robot szkenner (Quidenus RBS) ● mikrofilm szkenner (BFL?) ● film (negatív) szkenner ● síkágyas szkenner (Plustek) Tehát a gyakorlati útmutató az eszközválasztás szempontjainak taglalása után az egyes eszköztípusok használatának leírását jelenti. Logikailag ezt megelőzi a “mit digitalizáljunk?” (kérdés, hogy erről – gyakorlati szempontból – kell-e írni?) és az előkészítés, állományvédelem. Követi pedig az utólagos feldolgozás (pl. képjavítás, konvertálás, OCR, metaadathozzáadás, publikálás), és az archiválás. IrfanView, PhotoShop batch: globális méretezés, képjavítás, formátumkonverzió Total Commander: kijelölés, szűrés, csoportos átnevezés, reguláris kifejezés, FTP
Papíralapú dokumentumok digitalizálása dokumentumszkennerrel
A levéltárak legnagyobb mennyiségben őrzött dokumentumai az iratok, akták (a 2003-as „A magyar kulturális közvagyon feltérképezése” c. tanulmány a levéltárakban fellelhető, digitalizálandó, mintegy 200 millió oldalnyi teljes anyag 67%ára, 130 millió oldalra teszi ezt a dokumentumtípust!). A tárolási módjuk szerint ezek lehetnek dobozokban, mappákban, dossziékban, önálló lapokként vagy különböző eljárással kisebb-nagyobb egységekben összefűzve: összetűzve, iratkapcsozva, varrva, lukasztva és lefűzve, vagy akár kötetekbe bekötve. Ha valamilyen eljárással – az adott intézmény állományvédelmi szempontjaival, előírásaival összhangban – önálló lapokra lehet szedni őket, nem túlságosan sérülékenyek, nem nagyobbak A3 méretnél, papírvastagságuk nem haladja meg a 0,5 mm-t (kb. 250 g/m2) – a levéltári iratok döntő többsége “belefér” ebbe a kategóriába –, akkor a digitalizálásukra a legmegfelelőbb eszköz a dokumentumszkenner. Ezen eszközkategória egyik legfontosabb jellemzője az igen nagy feldolgozási sebesség (50-150 lap/perc) és a nagy napi terhelhetőség (50-100 ezer oldal naponta), így ezek a levéltári tömeges digitalizálás leghatékonyabb eszközei. A piacon 4-5 olyan megbízható cég termékeit találjuk meg ebben a kategóriában, akik már hosszabb ideje bizonyítottak ezen a területen. A konkurens eszközök legtöbb lényegi jellemzője nagyon hasonló, valamelyik termék kiválasztásakor az ár-érték arány, a megbízható szervíz dönthet. Az alábbiakban a Canon DR-X10C típusú eszköz használatán keresztül vesszük végig az iratszkennelés legfontosabb lépéseit, műhelytitkait.
A Canon DR-X10C dokumentumszkenner legfontosabb jellemzői A DR-X10C A3-as lapolvasó percenként 100 lap kezelésére képes, fekete-fehér, szürkeárnyalatos és színes formátumban egyaránt. Ezen felül a sebesség 200 dpi és 300 dpi felbontáson ugyanaz, fekvő elrendezésben, A4es méretben való beolvasásnál pedig 128 lap/perces hihetetlen sebesség érhető el. Az automatikus színfelismerés, a szövegelrendezés felismerése és az üres oldalak kihagyása funkció tovább javítja a feldolgozás sebességét. A készülék kiugró képminőségnél teljesít a legjobban a 600 dpi optikai felbontás és a számos képjavítási lehetőség jóvoltából. A szövegjavítás, a hátoldal láthatóságának kiküszöbölése, a moaréhatás megszüntetése és a színkiejtés funkció biztosítja a beolvasott dokumentumok még jobb olvashatóságát. A por felgyűlése és a képromlás megelőzése érdekében célzott befúvókkal és egy különleges kialakítású törlőlapáttal tisztítja meg az üveget minden dokumentumbeolvasás után. A pormentes beolvasórendszer kiváló képminőséget jelent, csökkenti a tisztításra vesztegetett időt, és javítja a teljes rendszer hatékonyságát. Külön érzékelővel követi az oldalméretet és végzi a kiegyenesítést. Az aktív nyomatékhatárolt leválogatás-vezérlés jóvoltából számos típusú hordozó betöltése és szeparálása lehetséges: a szeparátor görgő nyomatéka elektronikusan beállítható, hogy a legfinomabb vékony dokumentumok leválasztása is megfelelő szinten történjék A három egymástól függetlenül vezérelhető ultrahangos érzékelő pontos duplaadagolás-érzékelést jelent minimális adatvesztési kockázat mellett. Az újszerű duplaadagolás-kezelő rendszer pedig automatikusan újra beadagolja a dokumentumokat anélkül, hogy a kezelőnek közbe kellene lépnie. Kiemelkedő tartósság, terhelhetőség (60.000 beolvasás naponta), jó szervízellátás jellemzi. Az eszköz vezérlése a CapturePerfect szoftver révén történik, ami a készülék tartozéka. További opcionális tartozékok vásárolhatók hozzá: elő- és utónyomtató egység, vonalkódmodul, dokumentumazonosító-olvasó és választható Kofax interfészmodul. Alább megadjuk a Canon X10C szkenner műszaki paramétereit. Elsősorban azért, hogy láthassuk, milyen paraméterek vannak egyáltalán, mely tényezők a lényegesek az eszközválasztás szempontjából. Műszaki adatok Típus: Asztali lapadagolós lapolvasó Lapolvasó egység érzékelője: 3 soros CMOS CIS-érzékelő Optikai felbontás: 600 dpi Fényforrás: RGB LED Beolvasási sebesség Álló A4, kétoldalas F-F / szürkeárnyalatos: 200/300 dpi, 200 kép/perc; Színes: 200 dpi, 200 kép/perc; Színes: 300 dpi, 170 kép/perc Fekvő A4, kétoldalas: F-F / szürkeárnyalatos: 200/300 dpi, 256 kép/perc; Színes: 200 dpi, 256 kép/perc; Színes: 300 dpi, 170 kép/perc DOKUMENTUM MÉRETE Szélesség: 50,8 – 305 mm
Hosszúság: 70 – 432 mm Vastagság Automatikus lapadagolás: 52 – 123 g/m2 (0,06 – 0,15 mm) Megkerülő mód: 40 – 255 g/m2 (0,05 – 0,30 mm) Hosszú dokumentum üzemmód: legfeljebb 1000 mm Lapok elválasztása: Görgős visszatartó Lapadagoló kapacitása: 500 lap (80 g/m2) Választható 500, 300, 100 lap és KÉZI/MEGKERÜLŐ adagolási mód Ofszetadagolás lezárható oldalsó vezetőkkel Kimeneti felbontás: 100 x 100 dpi, 150 x 150 dpi, 200 x 200 dpi, 240 x 240 dpi, 300 x 300 dpi, 400 x 400 dpi, 600 x 600 dpi KIMENETI ÜZEMMÓD Kétszínes Fekete-fehér / hibaeloszlás / fejlett szövegjavítás I.-II. Szürkeárnyalatos: 8 bites (256 szintű) szürkeárnyalat Színes: 24 bites színmélység KÉPFELDOLGOZÁS Képfeldolgozás: Automatikus oldalméret-felismerés és kiegyenesítés Üres oldal eldobása Szövegtájolás felismerése Automatikus színfelismerés Színkiejtés (R/G/B/egyéni) Színjavítás (R/G/B/egyéni) Fejlett szövegjavítás (I.-II.) Moaré hatás csökkentése A hátoldal láthatóságának kiküszöbölése / Háttér eltávolítása Kötegleválasztás Fűzésnyom eltávolítása Beolvasott terület beállítása ESZKÖZÖK Tűzőkapocsfelismerés Ultrahangos kettősbehúzás-felismerés Kézi/megkerülő adagolás Aktív nyomatékhatárolt leválogatás-vezérlés Duplaadagolás-kezelő rendszer Beolvasás hitelesítése/csak számláló mód Váltható háttér (fehér/fekete) Csatolófelület: Dupla felület (nagysebességű USB 2.0 és SCSI-3) Méretek (mm): Csukott tálcával: 528 (szé) x 563 (mé) x 375 (ma) mm; Nyitott tálcával: 528 (szé) x 861 (mé) x 432 (ma) mm; Súly: kb. 39 kg Mellékelt szoftverek: ISIS/ TWAIN illesztőprogramok (Windows 2000/ XP Pro/ XP Home/ Vista), Capture Perfect 3.0 Választható elemek Előnyomtató egység Utónyomtató egység Dokumentumazonosító-kódoló III. vonalkódmodul FOGYÓANYAG Tartalékgörgő-készlet Tisztítólapok Tintakazetták Napi munkaciklus: Kb. 60 000 beolvasás naponta
Előkészítés A berendezés nyitott, üzemkész állapotban kb. 60x90 cm vizszintes, sík asztalfelületet igényel. Mivel a tömege közel 40 kg, és nagy sebességgel működvén jelentős rezgés is fellép, a munkaasztalnak masszívnak kell lennie, és jó, ha kényelmesen jut rajta hely a számítógép perifériáinak (monitor, billenytűzet, egér) és esetleg a munkában lévő iratanyagnak is. Az iratanyag előkészítése egyrészt a tartalmi feltárást, a digitalizálási célok meghatározását, másrészt a fizikai előkészítését jelenti. Ki kell venni a tároló mappából, dobozból, lehetőség szerint portalanítani, majd több szempontból alaposan átvizsgálni, és ennek kapcsán bizonyos döntéseket hozni. 1. tartalmaz-e tűzött, kapcsolt részeket ha igen, ezeket el kell távolítani. 2. tartalmaz-e összehajtott lapokat ki kell hajtani őket. 3. vannak-e benne olyan sérült, érzékeny lapok, amik ebben a formában ezen az eszközön nem szkennelhetők ki kell őket venni, ha javíthatóak (pl. fátyolpapírral), akkor az intézmény restaurátora, vagy ha ez nem megoldható, akkor a megfelelően kiképzett operátor megjavítja őket. Ha nem javíthatók, vagy hosszabb restaurátori tevékenységet igényelnek, akkor megfelelően dokumentálni kell ennek tényét. A szkennerbe csak olyan lapokat szabad betenni, amik biztonságos, sérülésmentes szkenneléséről meggyőződtünk. A vélhetően sérülékenyebb lapok szkenneléséhez használhatjuk az X10 nagyobb felbontás-beállítását, pl. a 600 dpi színes módot: ilyenkor sokkal lassabban továbbítja a görgőmechanizmus a dokumentumot, így kisebb az esélye a sérülésnek. Avagy a szintén kíméletesebb bánásmódot jelentő ByPass móddal szkennelhetünk: ilyenkor egyesével kézzel adagoljuk a lapokat, kíméletesen bevezetve, kézzel terelgetve azokat. 4. vannak-e benne A3-nál nagyobb lapok ezeket ki kell venni az iratkötegből, és alkalmas nagyobb eszközön (térképszkenner, könyvszkenner, síkágyas szkenner, digitális kamera) digitalizálni. 5. vannak-e benne egyoldalas és kétoldalas lapok is ● vagy azt tesszük, hogy szétválogatjuk, és a megfelelő módban külön-külön szkenneljük őket, majd az iratokat és a digitális állományokat is az eredeti sorrendbe összerendezzük, ● vagy pedig úgy döntünk, hogy a teljes köteget kétoldalas módban beszkenneljük, és ha nem okoz pl. a nagyobb tárhelyigény miatt problémát, akkor benne hagyjuk őket, vagy ha nem szeretnénk azokat megőrizni, akkor a feldolgozásba egy erre vonatkozó ellenőrzést is be kell iktatnunk, és manuálisan törölni az üres oldalakat. Vannak olyan szoftveres eszközök (pl. némelyik szkennervezérlő szoftverben), amik kiejtik az üres lapokat. Az a tapasztalat azonban, hogy nem működnek ezek annyira megbízhatóan hogy manuális ellenőrzés nélkül rábízhatnánk az üres oldalak szelektálását: óhatatlanul kidobnak értékes információt tartalmazó oldalakat is, és néha benne hagynak ilyet nem tartalmazó oldalakat is. Tehát az ilyen funkció használata átlagos oldalak esetén inkább kerülendő! 6. vannak-e benne eltérő méretű lapok kiütni a köteget, lehetőleg ahhoz az oldalhoz rendezni őket, ami a legépebbnek látszik, hogy azzal a széllel találkozzonk először a szkenner lapbehúzó mechanizmusa. Érdemes átpörgetni, átfújogatni is a köteget, hogy az elektrosztatikus feltöltődés miatt esetleg összetapadt, összeragadt lapok szétválhassanak. A kötegben egyébként nem kell, hogy egyforma méretűek legyenek a lapok. A kisebb-nagyobb méreteket az automatikus lapméret érzékelő kiválóan kezeli. 7. Vannak-e benne színesben szkennelendő lapok ● lehet az egész köteget színesben szkennelni, és a feldolgozás egy későbbi fázisában dönteni az esetleges szürke vagy fekete-fehér átalakításról ● avagy már eleve abban a színmélységben szkennelni, amit a digitalizálás célja szükségessé tesz. 8. paginálva van-e az anyag ● Az iratanyag egy őrzési egységben valamilyen belső logika szerint van rendezve, ennek megfelelően a leváltáros ceruzával egy futó sorszámmal látja el az egymás után következő oldalakat, paginálja őket. A fölsőbb szintű azonosítók után ez jelenti az adott dokumentum jelzetét, és egyben ez az iratcsomag integritásának egyik biztosítéka. Ha készült az irathoz mutató, annak is általában ez lehet az alapja. Ha tehát egy sok oldalas levéltári
dokumentum-kupac nincs ezzel ellátva, akkor azt érdemes a digitalizálás előtt megtenni. Ha kivettünk az eredeti kötegből lapokat (pl. nagy méret miatt térképszkenneren kellett digitalizálni, vagy a szakadt lapot csak síkágyas lapolvasóval lehetett szkennelni), különösen kell ügyelni arra, hogy a fájlelnevezési konvenció ezeknél se sérüljön, és persze hogy a digitalizálás után az eredeti irat kivett lapjai a megfelelő helyre kerüljenek vissza. 9. Alakítsuk ki a fájlelnevezési rendszerünket: ● Az őrzési egységet (dosszié, kötet, stb.) egy mappába akarjuk-e szkennelni ● Folyamatos sorszámozással akarjuk-e ellátni, avagy kisebb egységenként újraindulna a számozás ● A levéltári jelzetet, vagy annak egy értelmes részét beépítjük-e a digitális állománynevekbe ● A fájlnevek futó szám részének hány helyiértékűnek kell lenniük 10. van-e benne a tipikus írógép betűméreténél jelentősen kisebb méretű szöveg ● ha nincs, elégséges 300 dpi-ben szkennelnünk, ha van, érdemes lehet 400 dpi-re beállítani. Ha eleve fekete-fehér a kitűzött cél, akkor a 400-600 dpi is szóba jöhet. Ettől ugyan az OCR nem lesz jobb, de az oldalkép “csinosabb”, a betűk kontúrja simább 11. Határozzuk meg a képek fájlformátumát, tömörítését. 12. van-e igény imprinter használatára ún. pre és post imprintert használhatunk. Ezek a szkennerhez megvásárolható, abba beépíthető egyszerű nyomtatófejek, amikkel a szkennelés előtt vagy a szkennelés után a dokumentumra tudunk nyomtatni azonosító jelzéseket: néhány karaktert, számlálót. Az előbbi esetben a digitális állományon is szerepelni fog ez a jel, hiszen a szkennelés előtt rákerül, azzal együtt történik a digitalizálás, a második esetben csak a papír eredetin. Pozícióját a lapszélhez képest lehet megadni. 13. Ha egy mód van rá, végezzünk próbaszkennelést: a legjobban a konkrét tapasztalatok segítenek kialakítani a végső metodikát.
A szkenner beállítása A tipikus szkennelési munkamenet során egyszerre egy kötegnyi előkészített iratot akarunk egy mappába beszkennelni, a CapturePerfect szóhasználatával ez “Scan Batch to File”, válasszuk ezt a menüpontot! Az átvizsgálás során tapasztaltak, és a digitalizálási cél függvényében állítsuk be a Capture Perfect szkennervezérlő szoftverben a szükséges paramétereket! ● ●
válasszuk ki a célmappát adjuk meg a fájlelnevezési sémát Ez, a legegyszerűbb esetben áll egy konstans részből (pl. a fond, az őrzési egység nevéből), meg egy számlálóból. (Pl. BFL_MSZMPiratok_1984_001.jpg) Beállíthatjuk, hány jegyű legyen a szám és hogy honnan induljon a számlálás. A szkennelést megállítva később is elérhetjük ezt a panelt, így lehetőségünk van pl. újra kezdődő sorszámokat beállítani, avagy egy másik sorszámtól folytatni a digitalizálást. Ha igényünk van rá, más sémákat is használhatunk és ezeket kombinálhatjuk is: napi dátum, recto-verso, az imprinter aktuális értéke, stb. ● adjuk meg a színmélységet, a képformátumot, felbontást: javasolt a színes JPG, 80%-os tömörítés, 300 dpi Lehetőség van egy szkennelési menet során két eltérő formátumú, paraméterű képfájl mentésére is. ● állítsuk be, hogy egyoldalasan avagy kétoldalasan akarunk-e szkennelni (szimplex vs. duplex), esetleg megpróbáljuk-e a programra bízva kihagyni az üres lapokat ● Oldalméret automatikus érzékelése, vagy fix. oldalméretek beállítása Ha az iratkötegben eltérő méretű lapok vannak vegyesen, akkor igen jó szolgálatot tesz az automatikus beállítás, megbízhatóan működik. Olyan esetben okozhat gondot, ha a szkennelés háttérszínét feketére állítottuk, és vannak olyan sötét tónusú elemek az oldalon, amik “kifutnak” a lapszélig. Ilyenkor néha “eltéved” az automatikus érzékelés, és levág a lapból. Ha ilyet észlelünk, akkor ezeket az oldalakat újra be kell szkennelni vagy fix papírméret megadásával, vagy fehér hátteret választva, vagy másik eszközön, amelyik az egyszerűbb adott esetben. ● ferde behúzás korrekció: kiegyenesítés Ennek a funkciónak köszönhetően nem muszáj túlságosan precízen egyenesre beállítanunk a lapadagolóba töltött papírköteget. Többféle papírméretű, lazán összerendezett kupac esetén ez nem is volna túl egyszerű feladat. A program azonosítja a papír széleit, és – bizonyos határok között – szofveresen kiegyenesíti őket.
●
moaré csökkentés Nyomatok szkennelésekor gyakran jelentkező, az eredeti nyomat rácssűrűsége és a szkennelési felbontás közötti, sajátos mintázatokban megjelenő interferenciajelenség csökkentésére való. ● képminőség: sebesség vagy képminőség prioritás Akkor van jelentősége ennek a lehetőségnek ha a képfelbontást 400 vagy 600 dpi-nek választjuk. Ilyenkor, ha a sebesség elsőbbséget választjuk, akkor a szkenner igazából 300 dpi felbontásban szkennel, és szoftveresen “húzza fel” a képet a kívánt felbontásra. A szkennelés ilyenkor nagyon gyors, de a kapott képminőség esetleg nem megfelelő (“recés”, pixeles kontúrok). Ha képminőség elsőbbséget választunk, akkor a szkennelés 600 dpiben történik, az esetleges kisebb képfelbontást ebből állítja elő az eszköz. Ilyenkor lassabb a szkennelés, de a képminőség kifogástalan. ● fényerő és kontraszt, gamma érték, a hátoldal fényerő-kontrasztjának kompenzálása Ha túl világos vagy túl sötét, esetleg kevéssé kontrasztos a szkennelt kép, avagy átüt a hátoldalon lévő szöveg, vagy az elülső és a hátulsó oldal fényereje, kontrasztja eltér, akkor ezen paraméterek módosításával javíthatjuk a szkennelés minőségét. Tömeges digitalizálásról, nagysebességű dokumentumszkennelésről lévén szó, itt a művészi reprodukciónál elvárható színhűség, dinamika másodlagos. Minden dokumentumoldal más és más, nincs mód mindegyiket optimalizálni. Érdemes csak ritkán, nagyon indokolt esetben módosítgatni őket: ha egy dokumentumtípusnál (hasonló papír, nyomás, hasonló életkor, tárolási körülmények) sikerül elfogadhatóra beállítanunk az értékeket, akkor mentsük el a beállításokat, és használjuk minden ilyen típusnál. Néhány ilyen elmentett beállítással az előforduló legtöbb levéltári dokumentumot elfogadható minőségben beszkennelhetjük. ● kontúrok erősítése: élesebbé tehetjük a kép kontúrjait ● írásirány felismerés: függetlenül attól, hogyan került a szkennerbe az oldal, beforgatja a heyles olvasási irányba a szkennelt képet ● fekete keret eltüntetése: a szkennelt oldalkép körül mutatkozó fekete keretet tünteti el. Csak abban az esetben működik, ha a szkennelés háttérszinét feketére állítottuk. ● lyukasztás eltüntetése: az iratok lefűzésekor keletkező lyukakat tünteti el, szintén csak abban az esetben használható, ha a szkennelés háttérszinét feketére állítottuk. ● Összetűzött oldalak detektálása: érzékeli a gép, ha valamelyik sarkán két vagy több oldal össze van tűzve, ilyenkor nem húzza be az oldalakat, így módunk van a tűzőgép kapcsot eltávolítani, és ezután folytatni a feldolgozást ● Folio szkennelés Ha olyan nagy dokumentumot kell szkennelnünk, ami már nem fér be a papírvezetők közé, ezzel az egyedülálló funkcióval esetleg mégis sikerülhet a digitalizálás. Hosszában ketté kell hajtani a lapot, majd ún. hosszú dokumentum szkennelési módot választva kell manuálisan bevezetnünk a papírt. Mindkét oldalát beszkenneli, majd az így keletkezett két képet egyesíti. Ezzel a módszerrel 594x841 mm-es (A1) lapot is beszkennelhetünk. ● dupla lapbehúzás észlelése, kezelése A hatékony és megbízható szkenneléshez elengedhetetlen, hogy az esetleges duplán behúzott lapokat érzékelje a gép, és így ne maradhassanak ki a digitalizálásból az összeragadt oldalak. Erre két módszer közül választhatunk: Dokumentumhossz alapján: akkor érdemes használni, ha egyformák a lapok a kötegben. Az először beszkennelt oldalt veszi mintának, és a következő lapokat ehhez hasonlítja. Ha jelentősen eltér a hossza, annak oka a lapok összetapadása (az összeragadás a legritkábban történik teljes felületen, tökéletesen egybevágóan, legtöbbször a két lap elcsúszik egymáshoz képest). Utrahangos érzékelés alapján: akkor válasszuk, ha eltérőek a lapméretek a kötegben. Ha jogosan van dupla lap (pl. ráragasztott cimke), akkor ezt a funkciót ki kell kapcsolnunk. Ha akármilyen módon dupla lapbehúzást érzékel a szkenner, a vezetőgörgőket visszafelé forgatva visszahúzza a kérdéses lapokat, majd újra megpróbálja beszkennelni őket. Ha néhány próbálkozás után sem jár automatikusan eredménnyel, akkor hangjelzést adva megáll, lehetőséget adva a manuális beavatkozásra. ● Háttérszín beállítás Megválaszthatjuk, hogy milyen legyen a szkennelt kép mögötti háttér színe: fekete vagy fehér. Ilyenkor a hátterül szolgáló henger a szkennerben a megfelelő pozícióba fordulva biztosítja a kívánt színt. Ha fehérre állítjuk, akkor a szkennelt kép körüli, azon kívüli részek fehérek lesznek. Ha feketére állítjuk a hátteret, akkor meg fekete. Ilyenkor a szkennelt képen alapesetben jól láthatóak az eredeti dokumentum körvonalai. Fekete háttér esetén használhatjuk a lyukasztási foltok eltűntetése funkciót (ezek a szkennelt képen fekete körként jelennének meg), és a fekete keret eltűntetése funkciót is.
●
●
●
●
●
●
●
lapadagolás módja automatikus: a megfelelő beállítások elvégzése után, a nagykapacitású lapadagolóba téve az iratköteget ideális esetben további emberi beavatkozás nélkül szkennelhetünk be egy menetben akár többszáz oldalt. Ha valamiért be kell avatkoznunk (elakadó lapok, kettős behúzás miatt), arra a gép hangjelzéssel figyelmeztet. manuális: lehetnek olyan szituációk, amikor valamiért nem tudjuk, nem akarjuk az automatikus lapadagolóra bízni a szkennelendő anyagunkat. Például régi, értékes képeslapokat akarunk digitalizálni. Ezek viszonylag kemény, vastag papírja a hosszú tárolás ideje alatt ívesre görbült, ráadásul eltérő méretű és eltérő pozíciójú (álló, fekvő, leporellósan hajtogatott) darabokból áll egy-egy köteg. Ilyenkor érdemes lehet egyesével, kíméletesen, a megfelelő irányba forgatva kézzel adagolni a szkennerbe a lapokat. imprinter beállításai Ha a szkennerbe installáltunk pre vagy post imprintert, akkor beállíthatjuk a dokumentomoldalakra a szkennelés során nyomtatott jeleket (konstans szövegek és számlálók), és azok pozícióját. batch szeparálás Ha installáltunk a szkennerhez opcionális patchcode dekódert, akkor a patchcode lapok használatával automatikusan részekre bonthatjuk a beszkennelt köteget. Pl. közgyűlési jegyzőkönyveket akarunk digitalizálni, egy mappában több ülés jegyzőkönyvei vannak. Mindegyik kezdete elé beillesztünk a papírkötegbe egy kinyomtatott kód lapot. Elindítjuk az automatikus szkennelést. Ahol a gép kódlapot érzékel, onnantól kezdve egy másik fájlba kerülnek a képek. elforgatott képek mentése A digitalizálás végeredményeképpen általában az eredeti dokumentum pozíciójának megfelelő képekre van szükségünk. Különböző megfontolásokból azonban néha célszerű ettől eltérő pozícióban adagolni a szkennernek (pl. a lapok valamelyik széle sokkal jobb állapotban van, kevésbé sérülékeny, mint a többi). Ilyenkor beállíthatjuk, hogy a beolvasási irányhoz képest a mentett képeket milyen pozícióba forgassa be a program. képek felosztása Ha a beszkennelendő anyag egy lapján valójában két oldal van (pl. egy eredetileg tűzött brossúrát a digitalizáláshoz szét lehet ugyan szedni, de a lapokat felvágni nem), akkor lehetőségünk van a beszkennelt oldalt vízszintesen vagy függőlegesen két részre osztani. több képformátum mentése egy menetben (multistream) A közgyűjteményi digitalizálás célja gyakran kettős: szeretnénk megőrizni az utókornak a pusztulófélben lévő iratanyagot, a tartalmát pedig a kutatók és a nagyközönség számára is könnyen hozzáférhetővé tenni. A két feladathoz eltérő eszközök és eltérő paraméterekkel bíró digitális állomány szükségeltetik. Pl. a hosszútávú megőrzéshez egy (esetleg tömörítetlen) színes kép az ideális, míg az interneten közzétenni szándékozott kutatható, kereshető állományhoz meg egy tömörített 1 bites kép kell. A CapturePerfect lehetővé teszi, hogy egy szkennelési menet révén előálljon két teljesen különböző paraméterekkel bíró képfájl. különálló fájlok avagy többoldalas fájlok (pl. Pdf, TIF) Néhány fájlformátum támogatja azt a lehetőséget, hogy egyetlen állományban több oldal képe szerepeljen. Ilyenek pl. a TIFF és a PDF fájlok. A felhasználáshoz, a jobb munkaszervezéshez alkalmasabb formát válasszuk.
Szkennelés ●
●
automatikus lapadagolással A megfelelően előkészített, kiütött, átpörgetett iratköteget tegyük az automatikus lapadagolóba, arccal fölfelé, az oldalak teteje nézzen a szkenner belseje felé. Állítsuk be a papírvezető csúszkákat a bemeneti és a kimeneti oldalon is. Akár a szkenner kezelőpaneljének megfelelő gombjával, akár a vezérlőprogrammal indíthatjuk a szkennelést. kézi lapadagolással A szkenner kezelőpaneljének megfelelő gombjával helyezzük a szkennert ún. Bypass módba. A papírtálca felemelkedik a papírbevezető görgő síkjába. Finoman illesszük a papír szélét a görgők közé. Annyira kell betolni a papírt, hogy a laptovábbító görgők elkaphassák. Ha már behúzta a papírt a szkenner, odakészíthetjük a következő lapot. Ügyeljünk a heyles időzítésre: ha az előző lap után túl hamar dugjuk be a következő lapot, akkor az hozzáragadhat ahhoz, a szkenner kettős lapbehúzásnak érzékeli és leáll. Ha pedig túl sokat várunk, akkor nem lesz elég hatékony a munkavégzés. Kis gyakorlattal könnyen kialakítható a megfelelő tempó, és a szkenner szünet nélkül, optimális sebességgel tud dolgozni.
●
●
●
kijövő papírok A szkenneren áthaladó papírok 180 fokban átfordulnak, a legelőször behúzott papír fejjel lefelé, a kijövő köteg legaljára kerül, így az iratok sorrendje nem változik. Vannak ún. átmenő rendszerű szkennerek is, ezeknél a dokumentumok útja egyenes, nem fordulnak át, így a köteg szkennelése során az iratok eredeti sorrendjének visszaállításához vagy újra át kell küldeni a szkenneren az anyagot, vagy manuálisan helyreállítani a rendet. Egy másik megoldást alkalmaz pl. a Fujitsu 6130-6140Z: ezeknél az eszközöknél a bemeneti papíradagoló fölül helyezkedik el, onnan a gravitációt is kihasználva finoman kerül, szinte esik a továbbítógörgők közé, még nagyon vékony, szakadós hártyapapírokkal is megbírkózik az iratok sérülése nélkül. A papír útja itt is csaknem egyenes, ráadásul a folyamat során az iratok eredeti sorrendje is megmarad. Ez egy kategóriával lassabb (max. 50-60 lap/ perc), és csak max. A4 méretű dokumentumot tud szkennelni, de ha igen kíméletes digitalizálásra van szükség, jó választás lehet. Az X10C esetén a nagy sebességgel a fölső gyűjtőtálcára érkező papírok néha hajlamosak visszahajolni, összezilálódni (leginkább vékony, könnyű, fényes, elektrosztatikus feltöltődésre hajlamos papírok esetén), érdemes ezért rajtuk tartani a szemünket, különben esetleg az iratok sorrendje összekeveredhet. A beszkennelt iratköteget érdemes ismét kiütni, összerendezni, és ezután visszatenni az eredeti tárolójába. dupla lap behúzás Az ultrahangos duplalap-érzékelő nagy biztonsággal detektálja az összetapadó lapokat. Ilyenkor a szkenner néhányszor megpróbálja visszatekerés után újra behúzni a lapokat, ha nem sikerül neki, akkor egy hangjelzést követően a szkennelés megáll. Hajtsuk fel a szkenner felső részét, és vegyük ki, válasszuk szét a lapokat, majd azokat visszahelyezve, a fedelet lehajtva folytathatjuk a szkennelést. Ez esetben az automatikus számláló onnan folytatja a számozást, ahol az elakadás előtt abahagyta. Ha meg akarjuk állítani a szkennelést, válasszuk azt az opciót, de figyeljünk ilyenkor arra, hogy a szkennelés újbóli indításakor a fájlelnevező számlálóját helyesen állítsuk be újra! A kettős lapbehúzás leggyakoribb okai lehetnek: az érdes, tapadós papír, az elektrosztatikus feltöltődés, az egyik papírra ragasztott másik (pl. ragasztós jegyzetlap), az eredetileg ragasztott kötésű könyv szétszedése után a lapok között maradt, befolyt ragasztó, a lefűzéshez használt perforáció, a szárazpecsét kidomborodásai. papírelakadás Ha valamiért nem tudja behúzni a papírt a lapadagoló (ezt is újrapróbálja néhányszor), vagy az út közben elakad valahol a szkenner belsejében, hasonlóan járjunk el, mint a kettős lapbehúzás esetén: nyissuk fel a fedelet, igazítsuk meg, üssük ki, fújkáljuk meg, lazítsuk fel a köteget, majd próbáljuk újra.
A lapbehúzás kritikus elemei a fenti ábrán látható görgők. Ezek speciálisan kialakított, érdes felületű szilikon gumiból készűltek, finom rugók szorítják őket a papírhoz a megfelelő erővel. Ugyanakkor ha túlságosan érdesek a lapok, szinte smirgliszerűen tapadnak egymáshoz, avagy éppen hogy teljesen simák, fényesek, csúszósak, esetleg a görgők szennyezettek vagy kopottak, előfordulhat, hogy nem tudják szétválasztani, továbbítani a
●
lapokat. A görgőket ki lehet venni és megfelelően megtisztítani, illetve ki lehet őket újakra cserélni. Ha ez sem hoz eredményt, akkor más eszközt kell választanunk a kérdéses anyag digitalizálására. begyűrődés, szakítás Az eszköz belső elrendezése, laptovábbító mechanizmusa úgy lett kifejlesztve, hogy minimalizálja a dokumentumok szkennelés során való sérülésének kockázatát. Ennek ellenére előfordulhat, hogy a leggondosabb ellenőrzés mellett is olyan lap kerül bele, ami már eleve sérült, töredezett, beszakadt szélű. Ilyenkor a lap összegyűrődhet, elakadhat, esetleg el is szakadhat. A szkenner felső részét felemelve távolítsuk el gondosan a beakadt, összegyűrődött, elszakadt papír minden egyes kis darabkáját. Dokumentáljuk a balesetet, a sérült lapo(ka)t tegyük lezárható irattartóba, majd vigyük a restaurátorhoz.
A szkennelés után Ha végeztünk egy iratköteg digitalizálásával, mielőtt elcsomagolnánk, érdemes néhány egyszerű, globális ellenőrzést elvégezni. Ha észreveszünk valamilyen hibát, általában sokkal egyszerűbb akár egy egész kupacot is teljesen újra beszkennelni, mint a már összecsomagolt, az őrzési helyre visszapakolt iratot újra elővenni. ● Az eltervezett paraméterekkel szkenneltük-e be az anyagot ● A fájlok elnevezése megfelel-e a meghatározott konvenciónak ● Ha lehetséges, hasonlítsuk össze az elméleti oldalszámot (pl. a pagináció segítségével) a létrejött fájlok valós darabszámával ● Nézzünk rá a mappa fájljainak listájára: nagyjából egyforma méretűek-e a benne lévő fájlok? Ha az eredeti dokumentumoldalak hasonló méretűek, akkor a képméretek is nagyjából hasonlóak kell legyenek. Ha kiugró eltérést látunk, az gyakran valami szkennelési anomáliára utal. ● Szúrópróbaszerűen ellenőrizzük a képminőséget: szín, tónus, kontraszt, oldalszélek megléte (nincs-e valahol belevágva) szempontjából.
Karbantartás Egy nagyteljesítményű dokumentumszkenner drága berendezés, ugyanakkor hatalmas igénybevételre tervezték. A puszta teljesítmény mellett részben éppen az különbözteti meg az egyszerűbb, irodai, otthoni felhasználásra készült eszközöktől, hogy ipari, üzemszerű használatra képes. Robusztus felépítése, a mechanikus alkatrészek tartós kivitele csak a rendszeres karbantartás, a kopó alkatrészek szisztematikus cseréje mellett szavatolja a hosszútávú kifogástalan működést. A gyártók előírják, hogy mely alkatrészeket milyen időközönként, mennyi lap beszkennelése után kell kicserélni, csak ennek betartása esetén vállalnak rá garanciát. Elsősorban azok a forgó, mozgó, súrlódó alkatrészek szorulnak időközönként cserére, amik közvetlenül a papírral érintkeznek. A digitalizálás eredménye szempontjából különösen fontos az érzékelők, az őket védő üvegfelületek tisztasága, sértetlensége: minden itt jelentkező szennyeződés megjelenik a beszkennelt állományon is különböző csíkok, foltok, elszíneződések formájában, többé-kevésbé használhatatlanná téve a képeinket. Vannak olyan karbantartó műveletek, amit a felhasználónak lehet (kell) elvégeznie rendszeresen avagy igény szerint, és vannak olyanok, amiket csak a szakszervíz erre képesített munkatársa végezhet. Az eszköz megvásárlásakor fontos szempont annak figyelembe vétele, hogy várható élettartama alatt mennyi is lesz az előírt, kalkulálható cserealkatrész-költség, az esetleg szintén előírt kötelező szervíz díja, illetve a karbantartás a mi telephelyünkön történhet-e avagy a szakszervízbe kell szállítani hozzá? A kieső időre biztosítanak-e esetleg cserekészüléket? Tegyük fel, hogy vásárolunk egy napi 50 ezer oldalas igénybevételre tervezett berendezést 5 millió forintért, amiben a görgőkészletet 500.000 oldal digitalizálása után kell kicserélni, és egy ilyen szett ára 40.000 Ft. Ha folyamatosan üzemeltetjük a szkennert, akkor egy év alatt (250 munkanappal és 80%-os kihasználtsággal számolva) 10 millió oldalt lehet vele digitalizálni, ehhez legalább hússzor kell görgőkészletet cserélni. Tehát egy évben közel 1 millió forintot kell költenünk erre a célra! A levéltári iratok gyakran igen porosak, szennyezettek, így még ha a digitalizálás megkezdése előtt igyekeztünk is alaposan portalanítani őket, biztosan bőven marad rajtuk. A szennyezett anyagok szkennelése erősen igénybe veszi a berendezés forgó, súrlódó alkatrészeit, gyorsítva elhasználódásukat. Ha a lapbehúzásért, továbbításért felelős felületek, görgők szennyeződnek, akkor nehezen vagy egyáltalán nem sikerül adagolni a lapokat, lehetetlenné teszik a folyamatos munkát. Ha ilyet tapasztalunk (papírelakadást, begyűrődést, indokolatlanul gyakori dupla lapbehúzást), állítsuk le a szkennelést, és az eszköz kézikönyvében leírt módon a megfelelő helyeken felnyitva a berendezést, bizonyos
alkatrészeket a helyükről kiemelve alaposan tisztítsuk meg őket! Amennyiben a magunk által elvégezhető karbantartás után is fennáll valamilyen probléma, hívjuk a szakszervízt! Ha nem észlelünk problémát, akkor is legalább naponta távolítsuk el a port, az összegyűlt papírtörmeléket, tisztítsuk meg a görgőket, az érzékelők előtti üvegfelületet.
Oklevelek digitalizálása felsőfejes szkennerrel Zeutschel, BookEye
Térképek, tervek, plakátok digitalizálása térképszkennerrel Ha nagyméretű, széles, hosszú az eredeti: ún. nagyformátumú vagy térkép szkenner
A térképszkennereket elsősorban nagyméretű térképek, tervrajzok, plakátok nagytömegű, kiváló minőségű digitalizálásához használjuk, de a könyvekben is gyakran előfordulnak kihajtható kép- és táblázat-mellékletek, amelyek – ha szétszedhető a kötet – szintén ezzel az eszközzel digitalizálhatók. Egyedülálló képminőségüknek köszönhetően a nagyon apró méretű szövegeket is élesen jelenítik meg. Kíméletes, precíziós görgő-mechanizmus segítségével még a pausz-vékonyságú dokumentumokat is sérülésmentesen szkennelik be. A görgősorok közötti áthaladáskor a hajtások, kisebb gyűrődések is kisimulnak. Ha esetleg szakadozott, sérülékeny az eredeti, egy átlátszó tasakba tesszük digitalizálás előtt. A térképszkennerek megvilágítási technikája úgy lett kialakítva, hogy a dokumentumokat nem éri káros folyamatokat elindító fényhatás, és a megvilágítás is rendkívül rövid ideig tart, a gyors képalkotó szenzoroknak köszönhetően.
Arcanum Map A szoftver jellemzői: Igen nagy sebesség, akár több ezer szelvényt tartalmazó mozaikok gyors megjelenítése Georeferált történelmi térképek geokódokkal való megjelenítése Akár különböző vetületi rendszerű és méretű térképek szinkronizált megjelenítése A mozaik mellett az eredeti szelvény megjelenítése duplikálás nélkül, így megjeleníthetjük a térképi tartalmon kívüli, fontos információt hordozó részeket is Régi és mai vetületi rendszerek közötti konvertálás?? Pozicionálás tetszőleges (földrajzi, vetületi, régi, mai) kordináta alapján Konvertálás más formátumokba (GeoTIFF, JPEG2000), akár más vetületekbe
A tervrajzok, plakátok és a térképek a szkennelés szempontjából hasonlónak tekinthetők, így indokolt digitalizálásukról együtt beszélni: jellemzően nagy méretűek, papír alapúak, legtöbbször a hordozó egyik oldalán tartalmaznak képi információt. Nem ritkán tartozik hozzájuk egyéb iratanyag is, azok digitalizálásáról is szólunk. Tervezés: a digitalizálandó anyag számbavétele
A digitalizálás megkezdése előtt – az adott intézmény dokumentumkezelési szabályzatával, digitalizálási tervezetével összhangban – számba kell venni, fel kell mérni a digitalizálandó anyagot. Minél pontosabban sikerül az alábbi szempontokból előzetesen feltárni az anyagot, annál jobban optimalizálhatók a szükséges erőforrások, annál kevesebb lesz a tényleges digitalizálás során az üresjárat. A levéltári anyagok természete folytán – és gyakran dokumentáltságuk szegényessége okán – ugyanakkor sokszor lehetetlen előre precíz válaszokat találni, ilyenkor érdemes jól megválasztott, reprezentatív mintavételezzéssel az anyag egy részét “kézbe venni”, azon próba-digitalizálást végezni, végigfuttatni a tervezett teljes folyamaton, és az így szerzett tapasztalatokat vetíteni a teljes anyagra. Minél nagyobbnak tűnik a bizonytalanság, annál több tartalékot, rugalmas változtatási lehetőséget érdemes bekalkulálni a projektbe. méret mennyiség hordozó anyaga, állapota igényelt felbontás színmélység szállíthatóság dokumentáltság (állagjegyzék, mutató), metaadat-igény kapcsolódó iratanyag van-e, az milyen célok Méret Az egyik legalapvetőbb paraméter. A különböző szkennereknek fizikai kialakításuknál fogva van egy maximálisan feldolgozható dokumentum méretük, ezt kell figyelembe venni az eszközválasztásnál. A ma kapható ún. nagyformátumú térképszkennerek 1 méternél valamivel szélesebb (A0) és akármilyen hosszú dokumentumot tudnak bevenni. Ha ennél nagyobb eredetink van, akkor esetleg több részletben, digitális fényképezőgéppel lehet felvételezni, majd a digitális fájlokat montírozni. A síkágyas szkennerek általában A3-as (esetleg max. A2-es) méretig tudnak dolgozni. A dokumentumszkennerek A3-as méretűek. Mennyiség Külön-külön kell számba venni az egyes eszköztípusokon szkennelendő dokumentumok darabszámát. Érdemes figyelni arra, hogy egy-egy tékában, tasakban, borítékban gyakran több dokumentum van, nem ritkán különböző méretűek. Hordozó anyaga, állapota A leggyakoribb hordozó a papír, a karton, de előfordulhat átlátszó pausz, vagy vászon, fatábla, stb. is. Fontos paraméter lehet a hordozó vastagsága, merevsége, hogy mennyire sík, illetve mennyire csúszós. Be van-e keretezve, ha igen, abból ki lehet-e venni? Tekercsben tároltak. Igényelt felbontás A digitalizálás céljának és a dokumentum információtartalmának figyelembevételével minimalizálni érdemes a tervezett képfelbontást. Az indokolatlanul nagy felbontás a digitalizálás, felhasználás, archiválás során egyaránt fölösleges erőforrásokat igényel. Mivel a tervrajzok, térképek fizikailag meglehetősen nagy méretűek, így a digitalizált fájl mérete is könnyen hatalmas lehet! A legtöbb esetben a 300 dpi felbontás elégséges. Ha nem olyan nagyméretű, viszont részletgazdag az eredeti, indokolt lehet az ennél nagyobb, 400 dpi felbontás használata. Színmélység, tömörítés
Az eredeti dokumentum leghitelesebb reprodukcióját a 24 bites RGB színmód jelenti, a legtöbb esetben ezt érdemes használni. Ha a hordozó fizikai reprodukciója nem olyan lényeges, és a képi tartalom nem indokolja a színes módot, használhatunk 8 bites (szürke fokozatú vagy adaptív színpalettájú) színmélységet is a kisebb fájlméret érdekében. A digitalizálás célja szerint érdemes dönteni arról, milyen tömörítési eljárást, fájlformátumot használjunk. Ha a beszkennelt állományból további állományokat akarunk származtatni (különböző fájlformátumú, méretű, tömörítésű digitális példányokat), akkor érdemes egy veszteségmentesen tömörített (pl. LZW TIFF vagy JPEG2000) formátumot választani. Ha nem tervezünk további módosítást a beszkennelt képpel, akkor egy vizuálisan elfogadható, optimális tömörítési mértékű veszteségesen tömörített formátum (pl. JPEG vagy ECW) is elfogadható lehet. Ez utóbbi sokkal kisebb állományméretet eredményez, annak minden praktikus előnyével. Szállíthatóság Nyilvánvaló, hogy állományvédelmi és gazdasági megfontolásokból egyaránt minél kevesebbet szeretnénk mozgatni az eredeti dokumentumainkat. A legritkább esetben lehetséges azonban a tárolás helyén végezni a szkennelést, így fontos tényező, hogy lehet-e és milyen módon szállítani őket? Ki lehet-e alakítani az őrző intézményben alkalmas munkahelyet, vagy külső munkahelyre kell azokat elszállítani? Az eredeti tárolójukban mozgathatók-e, avagy be kell őket külön csomagolni? Dokumentáltság (állagjegyzék, mutató), metaadat-igény A digitalizált állományok nyílvántartásához, felhasználásához, publikálásához, archiválásához, az eredeti dokumentumokkal, fondjukkal való megfeleltetéshez megfelelő metaadat-rendszert kell kialakítani, amelynek kiindulópontja lehet az őrző intézményben már meglévő nyilvántartási rendszer. Annak kifinomultsága, részletezettsége, megbízhatósága, formája (a “kockás füzettől” a részletes, visszakereshető adatbázisig terjedhet a skála) nagyban befolyásolja felhasználhatóságának mértékét. Kapcsolódó iratanyag van-e, az milyen Fel ker tárni, van-e a térkép- ill. tervrajz-dokumentomokhoz tartozó, azokkal együtt tárolt más típusú dokumentum, amit szintén digitalizálni kell: pl. kataszteri jegyzék, szöveges leírás, stb. Ha igen, azt milyen eszközzel lehet digitalizálni? Célok Mi az elsődleges célja a digitalizálásnak, illetve ha többcélú a projekt (megőrzés, georeferált közzététel), mik azok, és mi a prioritás?
A fentiek, és természetesen a rendelkezésre álló anyagi, gépi, idői és emberi erőforrások alapján kell a megfelelő eszköz(öke)t, módszereket kiválasztani. Előkészítés
Dokumentumok elővétele, kicsomagolása, állományvédelem, restaurálás, portalanítás. A munkavégzés feltételeinek kialakítása: helyszín, munkavégzési előirat, fájlelnevezési konvenció, operátor(ok) betanítása, dokumentumok A digitalizálás menete a megfelelő eszközökön
Nagyformátumú térképszkenner A térképszkennerek elsősorban nagyméretű térképek, tervrajzok, plakátok nagytömegű, kiváló minőségű digitalizálásához lettek kifejlesztve. Egyedülálló képminőségüknek köszönhetően a nagyon apró méretű szövegeket is élesen jelenítik meg.
Kíméletes, precíziós görgő-mechanizmus segítségével még a pausz-vékonyságú dokumentumokat is sérülésmentesen szkennelik be. A görgősorok közötti áthaladáskor a hajtások, kisebb gyűrődések is kisimulnak. Ha esetleg szakadozott, sérülékeny az eredeti, egy átlátszó tasakba, kapszulába kell tenni digitalizálás előtt. A térképszkennerek megvilágítási technikája úgy lett kialakítva, hogy a dokumentumokat nem éri káros folyamatokat elindító fényhatás, és a megvilágítás is rendkívül rövid ideig tart, a gyors képalkotó szenzoroknak köszönhetően. Mivel a szenzorsor áll, és azzal párhuzamosan, hozzá nagyon közel maga a dokumentum mozog egy tökéletesen sík felületen a precíziós görgősor révén, így nem lép fel geometriai torzulás a digitális leképezés során. Nézzük meg egy konkrét típus paramétereit! VIDAR HD 4250 PLUS SCANNER főbb paraméterei: 400 megabit/sec adatátviteli sebesség, USB 2.0 DTR interfész. Nagyon gyors színes és monokróm szkennelés: 30 cm/ sec fekete-fehér, 8 cm/sec RGB módban. 106,7cm (42”) beolvasási szélesség, korlátlan hosszúság, 15 mm maximális dokumentum vastagság, automatikus vastagságállítás. 3 db 4-linear CCD (RGB triplet + pankromatikus fekete-fehér), 48 bit színes, 16 bit szürkeárnyalatos beolvasási mélység. 600 dpi optikai fölbontás, megvilágítás nagyfrekvenciás hideg fénycsővel. Számítógép által folyamatosan kontrollált kíméletes görgő mechanizmus, precíz színkalibrálás, tökéletes színhűség, torzítás- és zajmentes kép jellemzi.
A munkahelyet úgy kell kialakítani, hogy a meglehetősen nagyméretű berendezést kényelmesen körül lehessen járni, plusz elől és hátul maradjon annyi hely, hogy a szkennelendő dokumentumot kényelmesen, akadálymentesen, “megtörésbiztosan” lehessen bevezetni a gépbe, valamint a kifutása is zavartalan lehessen. A gyárilag hozzá tartozó dokumentumtartó állványt szükség esetén alkalmas álványzattal, megfelelő magasságú asztallal kell kiegészíteni. Védelem a károsító fényhatástól: a szkennelés során nem éri ilyen, a tárolás, mozgatás során meg óvni, takarni kell. Portalanítás: az eredeti dokumentumoké és az eszközé is. A por beszennyezi, megkarcolja az eszközt, az eredeti dokumentumot, megjelenik a digitalizált állományon, ahonnan csak nagy munkával lehet kiretusálni, és esetleg a képi tartalom sérülése nélkül nem is lehet. A munkavégzés során rendszeres időközönként meg kell tisztítani a berendezést, és szennyeződés észlelésekor ezen kívül is. Puha textillel, ecsettel, esetleg kíméletes porszívózással. Üvegcsere, görgőcsere: a legnagyobb körültekintés, tisztaság mellett is elhasználódnak a térképet továbbító görgők, megkarcolódik a szenzorokat védő üveglap. A komoly, ipari berendezéseken természetesen cserélhetők ezek, a folyamatos munkavégzés érdekében előre kell gondoskodni cserealkatrészekről. Különösen az üveg állapota kritikus, mivel a rajta lévő sérülések, szennyeződések mind megjelennek a digitális állományon is. Szín-kalibrálás, fehéregyensúly: a színkalibráláshoz speciális színminta-tábla van az eszközökhöz, ezzel munkavégzés kezdetén a gép előírásai szerint végre kell hajtani a kalibrálást a színhűség érdekében. Folyamatosan ellenőrizni kell a létrejött digitális állományokat, és ha gyanús szín-eltolódást észlelünk, újra kalibrálni kell, és a hibás állományt újradigitalizálni. A helyes fehéregyensúlyról egy papírfehér műanyaglap gondoskodik, amely a használat során megkophat, elszürkülhet, ezért időközönként szükséges a tisztítása illetve cseréje.
Digitális fényképezőgép: DSLR, szkennelő hátfal Ha olyan térképet, tervrajzot, plakátot kell digitalizálnunk, amelyet térképszkennerrel nem lehet. Gondoskodni kell az eredetivel való párhuzamosságról: megfelelő állvány. Megfelelő bevilágítás: nem szabad túl nagy fényterhelésnek kitenni az eredeti dokumentumot, így hagyományos vakut nem használhatunk. Hidegfényű lámpákkal kell dolgoznunk, amikkel nem egyszerű teljesen egyenletesen bevilágítani egy nagyobb térképet. Az érzékelő lapkák fejlődésével egyre nagyobb felbontás válik elérhetővé, de
Az optikai torzítások (geometriai és szín) minimalizálása végett jó minőségű objektíveket kell használni. Nehéz pontosan meghatározni az effektív felbontást, pedig ez a térképek helyes léptékezéséhez, pláne a georeferáláshoz elengedhetetlen. A digitális hátfallal rendelkező kamerák hatalmas felbontást képesen produkálni, viszont a számottevő ideig tartó felvételezés miatt különösen érzékenyek a mechanikai rezgésekre. Pl. egy épület emeletén végzett digitalizálás során a ház előtt elhaladó gépjármű okozta rezgés érzékelhetően rontja a kép élességét. Felsőfejes könyvszkenner Atlaszok, bekötött anyagok szkennelésére. Könyvbölcső. A dokumentumot mechanikai hatás nem éri, de 180 fokos szögben ki kell nyitni. Szoros kötés esetén problémás a hajtásbani képminőség: torzulás, sötétedés. Síkágyas szkenner Kisebb méretű, önálló lapokból álló anyagoknál. Utómunkálatok
Ellenőrzés, visszapakolás, dokumentáció update Szofveres utómunkálatok
Ellenőrzés, kivágás, elforgatás, színkorrekció, tömörítés, mozaikolás-georeferálás A digitalizált képállományokat célszerű ellenőrizni, ha szükséges és lehetséges, korrigálni.: képhiányok: pótlás vagy dokumentálás az van-e a képen, aminek lennie kell (fájlelnevezés) megfelelő-e a kép minősége: színhűség, karcok, szakadások, egyéb torzulások; ha nem, korrigálható-e digitálisan (egyedileg vagy egységesen), avagy érdemes újraszkennelni szükséges-e körülvágni, elforgatni; ha igen, egyedileg, avagy nagyobb tömeget egységesen Mivel esetenként igen nagy állományokról van szó, amelyek megnyitása lassú, szóba jöhet az a módszer, hogy automatikusan készítünk belőlük egy kisebb méretű/felbontású tömörített verziót, azt ellenőrizzük, és csak a korrigálandó eredeti fájlokat nyitjuk meg. Avagy szisztematikus mintavételezéssel is ellenőrzhetünk. Ezután már előállíthatjuk a felhasználás céljának megfelelő felbontású, formátumú, tömörítésű digitális kópiákat. Georeferálás A nagyobb földterületet ábrázoló, kis léptékű térképek esetén gyakran nem egyetlen, hanem számos szelvényen ábrázolják a kérdéses területet. A digitalizálás után lehetőség van a papíralapú eredetik A georeferálás azt jelenti, hogy a georeferálandó objektumnak egyértelműen megadjuk a Földhöz rögzített helyzetét. A gyakorlatban ez úgy történik, hogy definiálunk egy (esetünkben Földhöz rögzített) koordinátarendszert, és megadjuk az objektum koordinátáit ebben a rendszerben. A georeferálás egyik módszere az ún. négypontozás: az adott térképszelvény négy sarokpontját rögzítjük (mehatározzuk az abszolut koordinátáit), a többi a geoinformatikai szoftver dolga. Ez nagyon hatékony munkát eredményez és a georeferálás pontossága is megfelelő.
A hatalmas méretű térkép-mozaikok gyors megjelenítéséhez speciális képformátum szükséges. Az egyik jól bevált ilyen formátum az ECW (Enhanced Compression Wavelet). Ez egy szabadalmaztatott, tömörített képformátum, amit a légi és műholdas felvételek kezelésére optimalizáltak. A veszteséges tömörítési formátum hatékonyan csökkenti a nagyon nagy területű képek méretét is, megőrizve ugyanakkor a finom kontrasztot, részleteket. Ezzel a megoldással még az interneten is villámgyorsan lehet megjeleníteni nagy méretű képeket.
OCR Jelen kézikönyv célja, hogy gyakorlati útmutatóként szolgáljon egy adott dokumentum Abbyy FineReader 10.0-s verziójával történő OCR-ezéséhez. A megértéshez szükséges fogalmak a fő részben találhatók, itt azokra már mint ismert anyagra hivatkozunk.
1. Az anyag felmérése, áttekintése Először is teknitsük át a feldolgozandó anyagot, a kötetek méretét, az oldalak bonyolultságát. Nézzük át van-e értelme OCR-ezni, gépiratról, nyomtatott anyagról vagy esetleg kéziratról van-e szó. Becsüljük meg az anyag oldalszámát (1 méter könyv, folyóirat mintegy 10-12.000 oldal, vékony lapú anyag, pl. napilap 10-15.000 oldal. Készítsünk egy munkalapot, pl. egy Excel fájlt, aminek minden egyes sora egy kötetnek felel meg. Ide vezessük be a feldolgozással kapcsolatos fontos elemeket, munkafázisokat (pl. cím, oldalszám, OCR, átnézés, PDF mentés, Könyvjelzőzés), akár azt is hogy ki, mikor végezte az adott folyamatot.
2. Szkennelés Válasszuk meg a megfelelő szkennert, lehetőség szerint (ha a kötetek lapra szedhetők) dokumentumszkennert használjunk. Ha ez nem lehetséges robotszkennert, vagy könyvszkennert használjunk. Szkennelési paraméterként 300 DPI felbontást, 24 bites színmélységet, 80%-os JPG tömörítést állítsunk be. Amennyiben nagyon apró (6-7 pontos) betűk nagy számban előfordulnak a szövegben használjunk (valódi) 400 DPI-t. Szkenneljük az oldalakat úgy, hogy az adott oldalszám a vele azonos nevű file-ba kerüljön (32. oldal 032.JPG), nullával töltsük fel a neveket annak érdekében,. hogy a numerikus sorrend rendben legyen. A számozatlan vagy eltérő számozású oldalakat az előtte lévő oldalak alapján nevezzük el (pl. 032_1.JPG, 032_2.JPG). A szkennelés végeztével ellenőrizzük le, hogy minden oldal szkennelésre került-e, ha a kötetből hiányoznak oldalak azt jegyezzük fel a munkalapon. Ha valamilyen oknál fogva nem sikerült mindent beszkennelni (szakadt oldal, túl nagy méret, stb.) igyekezzünk azonnal más eszközön (pl. térképszkenneren) megtenni és a helyére tenni. Ha ez csak később lehetséges, ugyancsak jelezzük a munkalapon.
3. Futtatás Lehetőség szerint éjszaka indítsuk el az OCR-ezést, a HotFolder program segítségével akár 3-5000 oldalnyit. Ha valamiért nem akarjuk a HotFolder igénybevételével futtatni, akkor ezt megtehetjük úgy is, hogy a FineReader programot 5-6 példányban elindítjuk (8 magos processzor esetén!) és mindegyikbe betöltünk egy-egy kötetet. Figyeljünk a beállításokra: ● ● ● ● ●
a felismerés pontosságát állítsuk a legnagyobbra nyelv beállítása: itt használjuk azt a 2-3 nyelvet, amelyek jellemzik a dokumentumot ha esetleg kétoldalasan szkenneltünk, engedélyezzük a dupla oldalak felosztását engedélyezzük a képfile műveleteket (pl. olvasási irány megtalálása, kép kiegyenesítése) mentsük el a köteg (batch) fájlt, hogy a későbbiekben javítani tudjuk az állományt. Nagyon extrém esetben (nagyon jó minőségű nagyon egyszerű szöveg, ábrák, képek nélkül) tudjuk csak elképzelni, hogy mindenféle ellenőrzés nélkül azonnal PDF állományt hozzunk létre.
4. Átnézés Az elkészült és kimentett köteg igen nagy méretű, elérheti a szkennelt, Jpeg fájlokba mentett képek mennyiségének 20-50-szeresét is. Ezért mindig ügyeljünk rá, hogy megfelelő méretű szabad tárhelyünk legyen. Egy 1000 oldalas
nagyméretű kötet JPG állománya 1,5-2 GByte, a köteg ennek megfelelően akár 50-100 GByte (!) is lehet. Az átnézés során kétféle módon cselekedhetünk vagy átnézzük oldalról-oldalra a kötetet, vagy csak a problémás eseteket vizsgáljuk meg. Minden oldal átnézése időigényesebb, de egyfajta biztonságot ad az anyag megítélését illetően. Az átnézés során néhány másodpercet töltsünk el egy-egy oldallal, és ha javítani szükséges, azt tegyük meg. A javítás után az adott oldalt újra ismertessük fel, ha sok ilyen van akkor csak egyszerre a végén. Az alábbiakra figyeljünk: ● képként ismert fel szöveget: javítsuk az adott keretet szövegesre vagy vegyük ki a képből a szöveges részt, ilyen lehet pl. a képaláírás ● hibás a szöveg olvasási iránya: adjuk meg a helyes irányt ● ferdén lett szkennelve a kép: használjuk a képkiegyenesítési funkciót ● ismeretlen nyelvet jelez a program: adjuk meg az adott olda(ak)nak a helyes nyelvet ● lapszéli jegyzet miatt rossz a felismerés: tegyük külön keretbe a főszöveget és lapszéli jegyzetet ● táblázat felismerési hibák: javíthatjuk a cellafelosztást (összevonás, megosztás), az olvasási irányt cellán belül. Sokat segíthet a felismerés pontosságán, ha a program nem táblázatként ismert fel egy táblázatot és ezt javítjuk. Néha a fordítottja is hasznos lehet: ha nem táblázatként, hanem csak szövegdobozként azonosítjuk, akkor ha a struktúrát nem is, de a benne lévő szövegeket néha biztosabban felismeri a program. ● a program jelzi, hogy nem elég nagy a felbontása a képnek. Ez általában azt jelzi, hogy rossz az olvasási irány beállítása, és ez jelentkezik ezzel a hibával. Általában a helyes olvasási irány beállításával az üzenet megszűnik. Ha mégsem, szkenneljük be az oldalt (szükség esetén az egészet) 400 DPI-vel. ● hibás hasábfelismerés. Elsősorban többhasábos, bonyolult szerkezetű napilapoknál fordul elő, hogy hibásan történik a hasábok elkülönítése. Ekkor ezek egymásba folynak, átfedik egymást, a szövegminőség igen gyenge. Amennyiben kézzel megjavítjuk ezeket a kereteket, sokkal jobb lesz a felismert szöveg. Amennyiben az anyag igen jónak bizonyul, elegendő csak a problémás oldalak áttekintése. Ehhez a program segítséget ad, lehetőségünk van a bizonytalan karakterek száma szerint rendezni az anyagot és csak ezeket megnézni. A bizonytalan karakterek aránya jó minőségű anyagok esetén 1 és 2% között van, amennyiben eléri az 5-10%-ot, érdemes javítást eszközölni (nyelvbeállítás, keretek). A hibás oldalakat a program grafikusan is jelzi (piros színnel jelzi a sok hibával terhelt oldalakat.) Ekkor csak ezeket az oldalakat vizsgáljuk meg, hogy elhárítható-e a hiba. Ebben az esetben is érdemes átnézni a képes oldalakat, igen gyakori lehet (és a bizonytalanul felismert karakterek között nem szerepel), ha képaláírást nem szövegként ismert fel. Különleges alkalmakkor lehetőségünk van további javításra: ● speciális betűk, betűformák megtanítása: nagyon nehéz, különböző mértekben, jellegben (italic, bold), környezetben ● saját szótárt készíteni, ami az adott szövegre jellemző: ilyen lehet pl. telefonkönyvek, névtárak esetén ha rendelkezünk egy jó minőségű vezetéknév, keresztnév adatbázissal, de jól jöhet egy földrajzi névállomány is ● tipikus félreolvasások esetén globális javítás cserével (ezt mindig nagyon óvatosan, nehogy nagyobb bajt okozzunk!) ● ha elég elszántak vagyunk és nagyon sok időnk van, szövegszerkesztő-szerűen javítsuk ki a szöveget. Ehhez a teljes szöveget alaposan végig kell olvasnunk és össze kell vetnünk az eredetivel. Nem javasolt módszer!
5. Mentés Mentsük el a felismert anyagot kétrétegű PDF-ként. Ennek beállításai: ●
Alapértelmezett papírméret: a mentett fájl oldalmérete; mivel éppen az eredeti hű visszaadása a cél, hát az eredeti képméret a megfelelő választás. ● Mentési mód: szöveg az oldalkép alatt. Ezzel jönnek létre a kétrétegű PDF oldalak: a teljes oldal képként a felső rétegben, a felismert szöveg pedig ez alá helyezve. Ilyenkor az eredmény-dokumentum ugyanúgy néz ki, mint az eredeti (a képmentési paraméterek függvényében, lásd lejjebb), ugyanakkor teljes mértékben kereshető. ● Fejlécek és lábjegyzetek megtartása: ha nem jelöljük be, akkor előfordulhat, hogy az ekként felismert elemek kimaradnak az outputból. ● A címkézett (tagged) PDF engedélyezése. ● Képbeállítások: beállíthatjuk a PDF fájl felső, kép rétegének paramétereit, melyek meghatározzák a vizuális minőséget és a fájlméretet. Amennyiben fekete-fehér könyvünk van mentsük el 1 bites TIFF G4-ben az anyagot.
A címlapot és a színes oldalakat színesben is mentsük el. Ebben az esetben az Adobe Acrobat Professional programmal cseréljük le a rossz minőségű fekete-fehér oldalakat a színesre. Színes vagy fekete-fehérben olvashatatlan anyagokat színesben mentsük el. Minden mentésnél az eredeti felbontást használjuk. ● Betűtípusok beállításai: megadhatjuk, hogy a Pdf fájl betűtípus-hivatkozásai mire mutassanak: a létrehozó számítógépen lévő betűtípusokra-e, avagy a standard Adobe-féle fontokra (alapbetűtípusok a font-mapping table szerint), valamint hogy csak hivatkozzon a betűtípusokra (és a megjelenítéskor rendelkezésre állókból töltse be őket), avagy beágyazza őket a PDF-dokumentumba. A legbiztonságosabb megjelenítést az alapbetűk beágyazott használata biztosítja. ● PDF biztonság: bizalmas tartalmú anyag esetén beállíthatjuk, hogy csak jelszó megadása esetén lehessen megnyitni a dokumentumot, ill. szabályozhatjuk, mit lehessen szabadon tenni a dokumentummal: vágólap használata, nyomtatás, módosítás, stb ● Vegyes raszter tartalom használata: nem minden esetben ad ez a módszer vizuálisan szép eredményt, ha fontos a kicsi méret, akkor érdemes vele egy próbát tenni, és csak ha kielégíti az igényeinket, akkor használni. A hosszú távú megőrzéshez egyelőre nem javasolt formátum.
6. PDF kezelés, title, könyvjelzők Az elkészült PDF fájlokat igyekezzünk úgy elnevezni, hogy a későbbiekben is egyértelműen azonosítani tudjuk. Ebben is jó szolgálatot tesz a gondosan vezetett munkalap. A kész PDF-ben töltsük ki a Title (Cím) és Author (Szerző) mezőket a kötet címlapjának megfelelően. A Cím döntésünk alapján tartalmazhat minden fontos adatot (alcím, párhuzamos cím, megjelenési adatok, oldalszám, stb.), illetve lehetőség van kulcsszavak és tárgy, téma megadására. Készítsünk emellett mindig oldalszám-bookmarkot is, ami lehetővé teszi az adott oldalszámra való ugrást. Fejezetből álló könyvek esetén helyezzünk el bookmarkot a fejezetek címével (amire kattintva az adott oldalra ugorhatunk), tanulmánykötetek esetén pedig a cikkek szerzőjét és címét helyezzük el könyvjelzőként. A későbbiekben a keresőprogram, pl. Acrobat keresőjének használatakor lehetőségünk lesz a könyvjelzőkre külön (is) keresni. A könyvjelzőket átemelhetjük az OCR-ezett szövegből vagy külön be is gépelhetjük. Mindkét esetben korrektúráztassuk meg egy hozzáértő szakemberrel.