Projekt címe
A levéltári anyagok digitalizálásával szemben támasztott követelmények
Verzió
3.0
Megrendelő
Budapest Főváros Levéltára
Megbízott vállalkozó
Arcanum Adatbázis Kft.
Készítették
Arcanum Adatbázis Kft. Ambrus Gábor Biszak Sándor Somfay Örs
A levéltári anyagok digitalizálásával szemben támasztott követelmények
Arcanum Adatbázis Kft. Budapest, 2012
Tartalom Bevezetés ........................................................................................................................................................... 9 A tanulmány célja felépítése.......................................................................................................................... 9 Közgyűjtemények: levéltár, könyvtár, múzeum. Közös elemek és a levéltári specialitások. ....................... 9 Cél: megőrzés, hozzáférhetővé tétel ............................................................................................................ 10 1. Nemzetközi áttekintés – egyes országok gyakorlata ................................................................................... 12 1.1. Németország ......................................................................................................................................... 12 1.1.1. Levéltárak ...................................................................................................................................... 12 1.1.2. Országos projektek ........................................................................................................................ 13 1.2. Svájc ..................................................................................................................................................... 16 1.2.1. Digi Center .................................................................................................................................... 16 1.2.2. Svájc Diplomáciai Iratai ................................................................................................................ 17 1.2.3. Svájci Nemzeti Könyvtár............................................................................................................... 17 1.2.4. Scriptorium .................................................................................................................................... 17 1.3. Svédország............................................................................................................................................ 17 1.3.1. Nemzeti Levéltár Adatbázis .......................................................................................................... 17 1.3.2. Svéd Média Adatbázis ................................................................................................................... 19 1.3.3. Svéd Nemzeti Könyvtár Adatbázisai ............................................................................................. 19 1.3.3. Svéd Természettudományi Múzeum digitalizációs projektje ........................................................ 19 1.4. Franciaország ........................................................................................................................................ 20 1.5. Nagy-Britannia és Észak-Írország Egyesült Királysága ....................................................................... 22 1.5.1. Nemzeti Levéltár ........................................................................................................................... 23 1.5.2. British Library ............................................................................................................................... 25 1.6. Hollandia .............................................................................................................................................. 26 2. Nemzetközi áttekintés – európai projektek.................................................................................................. 29 2.1. Europeana ............................................................................................................................................. 29 2.1.1. Az ESE elemkészlete ..................................................................................................................... 30 2.1.2. EDM .............................................................................................................................................. 31 2.1.3. Jogkezelési gyakorlat ..................................................................................................................... 32 2.2. Európai Levéltári Portál........................................................................................................................ 32 2.2.1. APEnet ........................................................................................................................................... 33 2.2.2. APEx.............................................................................................................................................. 33 2.2.3. Az Európai Levéltári Portál metaadat-standardjai ......................................................................... 35 2.3. ICARUS ............................................................................................................................................... 35 2.3.1. Monasterium .................................................................................................................................. 35 2.3.2. ICARUS ........................................................................................................................................ 36 2.3.3. ENArC ........................................................................................................................................... 38 2.4. Néhány korábbi Európai Uniós projekt ................................................................................................ 39 2.4.1. MINERVA .................................................................................................................................... 39 2.4.2. IMPACT ........................................................................................................................................ 40 2.4.3. Európai Digitális Megőrzési fórum (Digital Preservations Europe, DPE) .................................... 40 3. Hazai áttekintés ........................................................................................................................................... 41 3.1. Magyar Nemzeti Levéltár ..................................................................................................................... 41 3.1.1. Digitalizálási projektek .................................................................................................................. 41 3.1.2. Felkészülés és a projekt előképei ................................................................................................... 42 3.1.3. Digitalizálási projektek tervezése, középtávú digitalizálási terv kidolgozása ............................... 42 3.1.4. A digitális szolgáltatások célközönsége ........................................................................................ 43 3.1.5. A digitalizáláshoz kapcsolódó előkészítés és a szakmai munka menete ....................................... 44 3.1.6. A digitalizálási projektek finanszírozása, külső-belső munkaerő használata ................................ 45 3.1.7. A digitalizálás és publikálás eszközei, a projektek időbeni megvalósulása .................................. 46 3.1.8. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel ................... 48 3.1.9. Archiválás, állományvédelem, valamint állományrevízió és restaurálás ...................................... 49 3.1.10. Az MNL digitalizálási projektjeinek specialitásai, tapasztalatai ................................................. 50 3.2. A Magyar Nemzeti Levéltár állományaihoz kötődő digitalizálási projektek ....................................... 51 3.2.1. MTI hírarchívum ........................................................................................................................... 51 3.2.2. Középkori oklevelek ...................................................................................................................... 55 3.2.3. Kataszteri térképek ........................................................................................................................ 59
3.3. Budapest Főváros Levéltára ................................................................................................................. 64 3.3.1. Budapest Főváros Levéltára digitalizálási projektjei ..................................................................... 65 3.3.2. Felkészülés, a projektek előképei, megvalósulás időbeni keretei .................................................. 66 3.3.3. Projektek tervezése, középtávú digitalizálási terv ......................................................................... 66 3.3.4. A digitalizálás és a digitális szolgáltatás célközönsége ................................................................. 66 3.3.5. A digitalizáláshoz kapcsolódó előkészítés, állományrevízió és a szakmai munka menete ........... 68 3.3.6. A digitalizálási projektek finanszírozása, külső – belső munkaerő igénybevétele ........................ 68 3.3.7. A digitalizálás és publikálás eszközei, valamint a hazai és nemzetközi együttműködések ........... 69 3.3.8. A digitális tartalom archiválása ..................................................................................................... 70 3.3.9. Állományvédelem, restaurálás és állományrevízió ....................................................................... 71 3.3.10. A BFL digitalizációs és tartalomszolgáltatási projektjeinek specialitásai ................................... 71 3.3.11. A digitalizálási projektek tapasztalatai, tanulságai és legnagyobb nehézségei............................ 73 3.4. Állambiztonsági Szolgálatok Történeti Levéltára ................................................................................ 74 3.4.1. Digitalizálási projektek .................................................................................................................. 74 3.4.2. Felkészülés, a projekt előképei, valamint a középtávú digitalizálási terv kidolgozása ................. 75 3.4.3. A digitalizálás és a digitális szolgáltatás célközönsége ................................................................. 76 3.4.4. A digitalizáláshoz kapcsolódó előkészítés, állományrevízió és a szakmai munka menete ........... 76 3.4.5. A digitalizálási projektek finanszírozása, külső és belső munkaerő igénybevétele....................... 77 3.4.6. A digitalizálás és publikálás eszközei............................................................................................ 78 3.4.7. Restaurálás, a digitális tartalom archiválása és állományvédelme ................................................ 78 3.4.8. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel ................... 79 3.4.9. Az ÁBTL digitalizációs és tartalomszolgáltatási projektjének specialitásai ................................. 80 3.4.10. A digitalizálási projekt tapasztalatai, tanulságai és legnagyobb nehézségei ............................... 81 3.5. Kalocsai Főegyházmegyei Levéltár...................................................................................................... 81 3.5.1. Digitalizálási projektek .................................................................................................................. 81 3.5.2. Felkészülés és a projekt előképei ................................................................................................... 82 3.5.3. Digitalizálási projektek tervezése, középtávú digitalizálási terv kidolgozása ............................... 83 3.5.4. Az online szolgáltatások célközönsége ......................................................................................... 84 3.5.5. A digitalizáláshoz kapcsolódó előkészítés és a szakmai munka menete ....................................... 84 3.5.6. A digitalizálási projektek finanszírozása ....................................................................................... 86 3.5.7. A digitalizálás és publikálás eszközei............................................................................................ 87 3.5.8. A digitalizálási projektek idő és költségráfordítása ....................................................................... 88 3.5.9. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel ................... 88 3.5.10. A digitális tartalom archiválása, állományvédelem, állományrevízió és restaurálás az anyakönyvi digitalizálás során .................................................................................................................................... 88 3.5.11. A Matricula Historia Online projekt specialitásai, egyedi vonásai.............................................. 89 3.5.12. A projekt kapcsán szerzett tapasztalatok, tanulságok .................................................................. 90 3.5.13. A digitalizálási projekt legfőbb nehézségei ................................................................................. 90 3.6. Magyar Levéltári Portál (MLP) ............................................................................................................ 91 3.6.1. Összetett adatbázisok ..................................................................................................................... 95 3.6.2. Fond és állagjegyzék ..................................................................................................................... 96 3.6.3. MDP ÉS MSZMP IRATOK .......................................................................................................... 97 3.6.4. Archontológia ................................................................................................................................ 97 3.6.5. Települések és dűlőnevek .............................................................................................................. 98 3.6.6. Levéltári kiadványok ..................................................................................................................... 98 3.6.7. MOL DL/DF .................................................................................................................................. 99 3.6.8. Urbaria et Conscriptiones .............................................................................................................. 99 3.6.9. MOL Királyi Könyvek ................................................................................................................ 100 3.6.10. MOL Térképek .......................................................................................................................... 100 4. Állományvédelem – egy digitalizálási projekt tervezésével összefüggésben ........................................... 102 4.1. Állományvédelem-e a digitalizálás? ................................................................................................... 102 4.2 Állományvédelem kontra információ megőrzés .................................................................................. 103 4.3. Digitalizálási projektek előkészítése .................................................................................................. 104 4.4. Ár/érték arány, avagy a digitalizálás metódusának és technológiájának kiválasztása........................ 105 4.5. Anyagmozgatás és fizikai behatások a digitalizálás során ................................................................. 108 4.6. Restaurálás és egyszerűbb állagjavító intézkedések ........................................................................... 110 4.8. A digitális állományok védelme ......................................................................................................... 111
5. Digitalizálás ............................................................................................................................................... 112 5.1. A levéltári digitalizálás technikai feltételei ........................................................................................ 112 5.1.1. Bevezetés ..................................................................................................................................... 112 5.1.2. Tervezés ....................................................................................................................................... 112 5.2. Követelmények ................................................................................................................................... 114 5.2.1. Felbontás...................................................................................................................................... 114 5.2.2. Színreprezentáció......................................................................................................................... 117 5.2.3. Színhűség ..................................................................................................................................... 119 5.2.4. Tömörítés ..................................................................................................................................... 119 5.2.5. Követelmények állóképek esetén ................................................................................................ 127 5.2.6. Audiovizuális anyagok ................................................................................................................ 128 5.3. Formátumok ....................................................................................................................................... 130 5.3.1. TIFF ............................................................................................................................................. 130 5.3.2. RAW ............................................................................................................................................ 131 5.3.3. DNG ............................................................................................................................................ 131 5.3.4. JPEG ............................................................................................................................................ 131 5.3.5. JPEG2000 .................................................................................................................................... 132 5.3.6. ECW ............................................................................................................................................ 132 5.3.7. MrSid ........................................................................................................................................... 132 5.3.8. DjVu ............................................................................................................................................ 133 5.3.9. PDF .............................................................................................................................................. 133 5.3.10. WAV.......................................................................................................................................... 134 5.3.11. MP3 ........................................................................................................................................... 134 5.3.12. Video formátumok ..................................................................................................................... 135 5.4. Eszközök............................................................................................................................................. 136 5.4.1. Dokumentumszkenner ................................................................................................................. 136 5.4.2. Felsőfejes könyvszkenner ............................................................................................................ 143 5.4.3. Széles formátumú, avagy térképszkenner.................................................................................... 146 5.4.4. Mikrofilm szkenner ..................................................................................................................... 154 5.4.5. Digitális fényképezőgép .............................................................................................................. 156 5.4.6. Robotszkenner ............................................................................................................................. 162 5.4.7. Síkágyas szkenner........................................................................................................................ 170 5.4.8. Filmszkenner ............................................................................................................................... 172 5.4.9. Digitalizáló tárgyasztal alkalmazási lehetőségei ......................................................................... 176 5.5. Automatikus szövegfelismerés ........................................................................................................... 177 5.5.1. Alapfogalmak .............................................................................................................................. 178 5.5.2. Minőséget befolyásoló tényezők ................................................................................................. 180 5.5.3. Tanítás ......................................................................................................................................... 184 5.5.4. Szkennelés minősége ................................................................................................................... 184 5.5.5. Futtatás, a szükséges számítógép, teljesítmény ........................................................................... 185 5.5.6. Kötegelt feldolgozás .................................................................................................................... 185 5.5.7. Átnézés, javítás ............................................................................................................................ 185 5.5.8. Mentés, output ............................................................................................................................. 186 5.5.9. PDF kezelés ................................................................................................................................. 188 5.5.10. OCR kontra gépelés ................................................................................................................... 188 5.5.11. OCR – mikrofilmről .................................................................................................................. 190 6. Metaadatok ................................................................................................................................................ 196 6.1. A metaadatokról – általában ............................................................................................................... 196 6.2. A Dublin Core metaadatséma ............................................................................................................. 197 6.2.1. Létrejötte, alkalmazási területe, célja .......................................................................................... 197 6.2.2. Elemkészlet.................................................................................................................................. 199 6.2.3. Dublin Core sémák néhány konkrét levéltári gyűjteménytípus leírására .................................... 202 6.3. IPTC, EXIF, XMP .............................................................................................................................. 206 6.3.1. IPTC ............................................................................................................................................ 207 6.3.2. EXIF ............................................................................................................................................ 208 6.3.3. XMP ............................................................................................................................................ 208 6.4. A legfontosabb, a digitalizálás során rögzítendő metaadatok ............................................................ 209
6.4.1. Képek........................................................................................................................................... 209 6.4.2. Hanganyagok ............................................................................................................................... 209 6.4.3. Mozgóképek ................................................................................................................................ 210 6.5. Strukturális leíró metaadat-rendszer: EAD......................................................................................... 211 6.5.1. Az EAD, mint az Európai Levéltári Portál „hármas-réteg” megközelítése mögötti váz ............. 211 6.5.2. apeEAD definiálása és létrehozása .............................................................................................. 212 6.5.3. Információk az apeEAD használatához Fondjegyzék és Segédletek esetére ............................... 212 6.6. Néhány további fontos levéltári metaadatszabvány ........................................................................... 212 7. Archiválás .................................................................................................................................................. 214 7.1. Módszerek .......................................................................................................................................... 214 7.1.1. Napi mentés a digitalizálás során ................................................................................................ 214 7.1.2. Hosszú távú megőrzés ................................................................................................................. 215 7.1.3. Dinamikus adatszolgáltatás ......................................................................................................... 217 7.2. Eszközök............................................................................................................................................. 217 7.2.1. Hagyományos optikai hordozók .................................................................................................. 218 7.2.2. Merevlemezek ............................................................................................................................. 218 7.2.3. Szalagos tárolóeszközök .............................................................................................................. 222 7.2.4. Memória alapú tároló eszközök ................................................................................................... 222 7.2.5. Hálózatos tárolás.......................................................................................................................... 223 7.2.6. Felhő alapú adattárolás ................................................................................................................ 224 8. Jogi megfontolások .................................................................................................................................... 225 8.1. A nemzetközi gyakorlat áttekintése .................................................................................................... 225 8.1.1. A brit Könyvtárak és Levéltárak Szerzőjogi Szövetségének (LACA) állásfoglalása a szerzői jogokról (2012. március) ....................................................................................................................... 225 8.1.2. Az Európa Tanács ajánlásai a kulturális javak digitalizálására és online közzétételére (2011. október 27.)............................................................................................................................................ 225 8.1.3. Az Európai Parlament és a Tanács irányelve a közszféra információinak további felhasználásáról szóló 2003/98/EK irányelv módosításáról (2012. október 25.) ............................................................. 226 8.1.4. A szabályozási irányelvek rövid értékelése ................................................................................. 228 8.1.5. A magyar és a közösségi szabályozás ......................................................................................... 229 8.1.6. Az Europeana jogkezelési gyakorlata .......................................................................................... 230 8.2. A hazai jogkezelési gyakorlat áttekintése, javaslatok módosítására................................................... 232 8.2.1. Tulajdonjog.................................................................................................................................. 233 8.2.2. Közlési díj .................................................................................................................................... 234 8.2.3. Szerzői jog ................................................................................................................................... 236 8.2.4. Adatvédelem ................................................................................................................................ 239 9. Gyakorlati útmutató ................................................................................................................................... 241 9.1. Fájlelnevezés ...................................................................................................................................... 243 9.2. Papíralapú dokumentumok digitalizálása dokumentumszkennerrel................................................... 244 9.2.1. Előkészítés ................................................................................................................................... 244 9.2.2. A szkenner beállítása ................................................................................................................... 246 9.2.3. Szkennelés ................................................................................................................................... 248 9.2.4. Tippek, fogások, hibaelhárítás ..................................................................................................... 251 9.2.5. A szkennelés után ........................................................................................................................ 252 9.2.6. Karbantartás ................................................................................................................................. 252 9.3. Oklevelek digitalizálása felsőfejes könyvszkennerrel ........................................................................ 252 9.3.1. Használat ..................................................................................................................................... 253 9.4. Térképek, tervek, plakátok digitalizálása térképszkennerrel .............................................................. 255 9.4.1. Előkészítés ................................................................................................................................... 255 9.4.2. Szkennelés ................................................................................................................................... 256 9.4.3. Karbantartás ................................................................................................................................. 257 9.4.4. Szkennelés után ........................................................................................................................... 258 9.5. Mikrofilm digitalizálás ....................................................................................................................... 259 9.6. Digitális fényképezőgép használata.................................................................................................... 260 9.7. Bekötött dokumentumok digitalizálása robotszkennerrel .................................................................. 262 9.7.1. A robotszkenner használata ......................................................................................................... 262 9.7.2. Karbantartás ................................................................................................................................. 263
9.8. Gyors síkágyas (könyv)szkenner ........................................................................................................ 263 9.9. Diák, filmnegatívok szkennelése ........................................................................................................ 265 9.9.1. Előkészítés ................................................................................................................................... 265 9.9.2. Szkennelés ................................................................................................................................... 265 9.10. Audiovizuális anyagok digitalizálása ............................................................................................... 265 9.10.1. Mozgóképek .............................................................................................................................. 265 9.10.2. Hanganyagok ............................................................................................................................. 268 9.10.3. Beszédfelismerés audiovizuális tartalmakban ........................................................................... 272 9.10. OCR .................................................................................................................................................. 272 9.10.1. Az anyag felmérése, áttekintése ................................................................................................ 272 9.10.2. Szkennelés ................................................................................................................................. 272 9.10.3. Futtatás ...................................................................................................................................... 273 9.10.4. Átnézés ...................................................................................................................................... 273 9.10.5. Mentés ....................................................................................................................................... 274 9.10.6. PDF kezelés, title, könyvjelzők ................................................................................................. 275 9.11. Közbeszerzési útmutató .................................................................................................................... 275 10. Hivatkozások ........................................................................................................................................... 277
Bevezetés A tanulmány célja felépítése Jelen tanulmánnyal egy útmutatót kívánunk adni a levéltáraknak a digitalizálási projektek sikeres megvalósítása céljából, összhangban az iratképző szerveknél végzett digitalizálásra kidolgozott „A papír alapú dokumentumok megbízható elektronikus másolatával szemben támasztott technikai követelmények és gyakorlatban alkalmazható eljárásrend” című projekttermékben rögzített követelményekkel. Áttekintjük a tömeges digitalizálás általános kérdéseit, a rendelkezésre álló eszközöket, azok használatának gyakorlati tapasztalatait. Ismertetjük a legfontosabb hazai és külföldi alkalmazásokat, nagy projekteket. A tanulmány az ARCANUM Adatbázis Kft-nél az elmúlt években felhalmozott gyakorlati tapasztalatokra is épít, de természetesen széles körű adatgyűjtést is folytattunk, részben személyes interjúk révén, részben az Interneten fellelhető források alapján. Igyekeztünk a kezdő, gyakorlatlanabb felhasználóknak is érthetően fogalmazni, de reményeink szerint a tapasztaltabb szakemberek is találnak hasznosítható ötleteket, javaslatokat. A tanulmány végén gyakorlati útmutató szerepel, amelyben kézikönyvszerűen összefoglaljuk, hogy adott dokumentumtípust milyen eszközzel dolgozzunk fel, s az adott eszközzel hogyan bánjunk.
Közgyűjtemények: levéltár, könyvtár, múzeum. Közös elemek és a levéltári specialitások. A tanulmány elsősorban a tömeges levéltári digitalizálás kérdéseivel foglalkozik, de ezekben sok az átfedés a közgyűjteményi szféra egyes területei között. Az eszközök, a technológiák, a megoldások, de a rendelkezésre álló erőforrások és szakmai felkészültségben sincs jelentős különbség, így a tanulmány főbb megállapításai számos területen (OCR, jogi kérdések, digitális anyag rendszerezése, állományvédelem) mindhárom intézménytípus esetében érvényesek. Hangsúlyeltolódások természetesen lehetségesek, amelyek a digitalizálandó anyag jellegéből adódnak: a levéltári anyagok egyediségéből, adathordozóinak speciális jellegéből és sokféleségéből, a mindezekből következő speciális állományvédelmi követelményekből, a levéltári nyilvántartási rendszerekhez illeszkedő metaadat-szerkezet szükségességéből adódnak. Érdemesnek látszik néhány ilyen elemet külön számba venni. 1. A levéltárak anyagának jelentős része egyedi, nem sokszorosított dokumentum, melyek a könyvtárakban őrzött kéziratokkal, egyedi könyvritkaságokkal vannak rokonságban. Ezekben az esetekben különösen fontos az eredeti anyag védelme. A könyvtárak jórészt nyomtatott, akár nagy példányszámban létező anyagainál fontos kiemelni, hogy elengedhetetlen lenne az összefogás, a nagy sorozatok (folyóiratok, időszaki kiadványok) teljessé tétele érdekében. Míg egyedi példányok esetén a hiányok nem pótolhatók, komoly kihívást, és elmélyült kutató munkát igényel egy folyóirat teljes anyagának (melléklapjainak, különszámainak, mellékleteinek, de akár címlapjainak) feltárása és azok hiánytalan beszerzése. Különösen fontos lehet egy olyan sorozat “összevadászása”, amely lehetővé teszi a legjobb minőségű és leghatékonyabb digitalizálást (jellemzően dokumentumszkennerrel). 2. A múzeumok papíralapú dokumentumai lényegesen kisebb mennyiséget jelentenek, ezekben az intézményekben a fő irány a tárgyak digitalizálása. Bár megjelentek a viszonylag jó minőségű 3D szkennerek, ezek papírdokumentumokhoz hasonló tömeges digitalizálása még várat magára, és véleményünk szerint az elkövetkező néhány évben nem is várható áttörés ezen a téren. Addig is meg kell elégedni a kétdimenziós ábrázolással, a meglévő anyagokból kell minél többet kihozni, a tárgykartonok, fotók, múzeumi kiadványok, és az ezekből épített adatbázisok jelentik a szolgáltatások alapját.
Levéltári digitalizálás • Arcanum, 2012
Bevezetés
3. A közgyűjtemények eszközellátása változatos képet mutat, vannak jobban és kevésbé jól ellátott intézmények. A 2012-es évben, elsősorban az e-levéltár projektnek köszönhetően a levéltárak jelentős fejlesztéseket hajtottak (és jelenleg is hajtanak) végre. A Magyar Országos Levéltár (MOL, 2012. október 1-től Magyar Nemzeti Levéltár, MNL) és a Budapest Főváros Levéltár (BFL) e projekt keretében világszínvonalú eszközparkhoz jutott, így az mind azok minősége, mind mennyisége szempontjából kiemelkedik a közgyűjteményi szférában. A könyvtárak közül is vannak igen jól felszereltek (OSZK, egyetemi könyvtárak, stb.), sőt komoly fejlesztések vannak folyamatban (ELDORADO), és a MaNDA (Magyar Nemzeti Digitális Archívum és Filmintézet) is milliárdos eszközfejlesztést tervez. Bár a múzeumok eszközellátása gyengébbnek tűnik, azt kell mondanunk, hogy a közgyűjteményi szférában 1-2 éven belül már nem elsősorban az eszközellátottság, hanem inkább az eszközök mellé rendelt munkaerő, és az eszközök által termelt digitális anyag feldolgozására és publikálására fordított emberi erőforrás mennyisége fogja meghatározni az outputot. A kapacitás sem csak újabb gépek vásárlásával növelhető, hanem úgy is, hogy az adott eszközön több műszak beindításával több munkatárs dolgozik. A kérdés egyre inkább az lesz, hogy kivel (szakképzett munkaerő) és mit (milyen dokumentumot) digitalizáljunk, és egyre kevésbé a mivel (eszköz). A tanulmány megírásának pillanatában az egyik leginkább napirenden lévő kérdés, ígéretes lehetőség a közfoglalkozottak bevonása a közgyűjteményekben folyó digitalizálási munkába, ami a jelentős volumenű, olcsó, kvalifikált munkaerő révén nagyban segítheti ezt a hatalmas munkát. 4. Fontos és még nem pontosan belátható következményekkel járhat, hogy a levéltári intézményrendszer alapjaiban alakul át a tanulmány megírásának pillanatában. A levéltári rendszer egyik súlypontját jelentő megyei levéltárak beolvadtak a Magyar Nemzeti Levéltárba, így a megyei könyvtárakkal, illetve megyei múzeumokkal szemben egységes irányítás alá kerültek. Valószínűsíthető, hogy a digitalizálás terén is szorosabb lesz az együttműködés a levéltárak között, az MNL-ben létrejött hatalmas digitalizálási kapacitásból a megyék is profitálnak majd. Kívánatos lenne az ehhez hasonlatos szorosabb együttműködés a múzeumi és még inkább a könyvtári digitalizálás területén is, úgy technológiai, mint tartalmi kérdésekben.
Cél: megőrzés, hozzáférhetővé tétel A levéltári, és általában a közgyűjteményi digitalizálásnak számos célja lehet (állományvédelem, állagmegóvás, értékmentés, reprodukálás, szolgáltatás, jövedelemszerzés, helymegtakarítás, dokumentumcsere, publikáció, kereskedelmi érdek stb.), egyszerre általában több is, amely célok, szempontok súlya jelentős hatással van a digitalizálási prioritásokra, technikai megoldásokra. Ha kissé sarkítva akarunk fogalmazni, ezek a szempontok két pólus, két szélsőséges attitüd felé húznak: A megőrzés elsőbbségét sarkosan képviselők pénzt, energiát, technikát nem kímélve az egyetlen és utolsó lépésként tekintenek a digitalizálásra. Szerintük ez az örökkévalóságnak készül, és az a cél, hogy az adott dokumentumot soha, semmilyen körülmények között ne kelljen többé elővenni, a digitális másolat teljes egészében pótolja az eredetit. Ezzel részben szemben állnak a hozzáférhetőség elsőbbségének hívei, akik szerint a fő cél az anyagok hozzáférhetővé tétele, és egy digitalizálási projekt tervezésekor az észszerűséget, a rendelkezésre álló technikai-személyi körülményeket, és nem utolsó sorban az anyagi erőforrásokat is kellő súllyal kell figyelembe venni. Egy jellemző példával szeretnénk szemléltetni a fenti dilemmát. A középkori oklevelek digitalizálása során 108.000 oklevélről, mintegy félmillió felvételt kellett készíteni. A rendelkezésre álló mintegy 40 millió forint elegendő volt a teljes anyag digitalizálására (felvételenként 80 Ft), és így az Interneten jó minőségben közzétehető lett, kutathatóvá vált a teljes anyag. Ha viszont egy exkluzív nyomtatott kiadványhoz kell befotózni egy oklevelet, akkor akár hosszú órákat is igénybe vehet a helyes megvilágítás, háttér beállítása, a művészi igényű felvétel elkészítése, így a bekerülési ár sok ezer, akár tízezer forint is lehet. Egy másik – szintén az oklevelekkel kapcsolatos – érdekes példa: egy kutatócsoport az oklevelek vízjeleit kívánta tanulmányozni, amik a használt tömeges digitalizálási módszerekkel nem túl jól láthatók a felvételeken. Elképzelhető, hogy lehetne olyan szkennelési technikát alkalmazni, amely ezt is érzékeli és reprodukálja, de biztosan hatalmas - 10 -
Levéltári digitalizálás • Arcanum, 2012
Bevezetés
energia befektetésével és vállalhatatlan áron. Ilyen egyedi, speciális esetekben nincs más lehetőség, mint az eredeti dokumentum tanulmányozása, kézbe adása. Egy tömeges digitalizálásnak – épp a tömegesség érdekében – reális költségvetéssel, időráfordítással kell megvalósulnia. Ezzel nem pótolható és nem elkerülhető az eredeti dokumentum esetleges későbbi használata, nem kudarc és nem hibás működés, ha bizonyos célokra utóbb újra elő kell venni az eredetit. És valljuk be: a technológia is gyerekcipőben jár, és folyamatosan fejlődik. Néhány évvel ezelőtt még elképzelhetetlen volt a tömeges digitalizálás, fel sem vetődhetett az erre alkalmas professzionális eszközök hiányában, ma pedig sokan már a tökéletességet várnák el tőle. Nyilvánvaló, hogy a fejlődés folyamatos, nap mint nap új technológiák jönnek, és ahogy például a mikrofilmet leváltja a digitális másolat, ugyanúgy elkerülhetetlen a további fejlődés.
- 11 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1. Nemzetközi áttekintés – egyes országok gyakorlata A fejezetben röviden ismertetjük néhány Európai Uniós és azon kívüli ország konkrét digitalizálási projektjét, tartalomszolgáltatási megoldását, gyakorlatát, hozzáférhető ajánlásait, előiratait az interneten elérhető dokumentumok alapján.
1.1. Németország A Németországi Szövetségi Köztársaság erős tartományi szerkezete miatt a levéltárak is tartományonkénti önálló szervezeti egységekbe tagozódnak, nincs egy központi nemzeti alap a levéltári digitalizálási projektek finanszírozáshoz, azt az egyes tartományoknak kell fizetniük. Az intézményi célok között kiemelt jelentőséggel jelenik meg a digitalizálás és az online szolgáltatás. A publikálás tartományonként közös portálokon keresztül történik, de nagy hangsúlyt fektetnek a diverzifikált szolgáltatásra is. Ennek köszönhetően a gyűjteményi adatbázisokat a tartományi szint felett országos adatbázisokkal is igyekeznek közösen megjeleníteni. Ezen kívül folyamatos adatszolgáltatás folyik az európai közös kulturális portálok számára is, mint az EUROPEANA vagy a MICHAEL (http://www.michaelculture.org). Megjegyzendő, hogy Németországban több tartományi, illetve országos szintű közös közgyűjteményi online szolgáltató projekt fut párhuzamosan, ami azt sejteti, hogy több koncepció is jelentős támogatást kapott és ezek nemes versengéséből igyekeznek tapasztalatokat gyűjteni, illetve minél több felhasználóhoz eljutni. Ugyanakkor ez a párhuzamosság egyben a tartományok viszonylagos önállóságának, anyagi függetlenségüknek is betudható.
1.1.1. Levéltárak 1.1.1.1. A Német Nemzeti Levéltár http://www.bundesarchiv.de/index.html.en A Német Nemzeti Levéltár (Das Bundesarchiv) digitalizációs programját elsősorban a gyűjtemények tartalmi feldolgozásának adatbázisokban történő közzététele jellemzi. Az intézmény nemcsak saját gyűjteményeit digitalizálja, hanem bizonyos témakörökben, legfőbb gyűjteményei tekintetében, Németország egyéb intézményeinek digitális adatszolgáltatását is összefogja, sőt bizonyos esetekben nemzetközi együttműködés keretében igyekeztek a világban fellelhető témába vágó iratokat leírás szinten összegyűjteni. A digitalizálási célok között érezhetően a populárisabb témák mielőbbi publikálása játszott szerepet. Méretében kiemelkedő a fotó és a film adatbázis, ugyanakkor a jellemzően levéltári iratok inkább csak leírás szintjén kerültek feldolgozásra, az eredeti dokumentumokat kisebb számban tették közzé. A levéltári segédletek és a levéltári könyvtári katalógus mellett egy-egy népszerűbb témakört (holokauszt, kommunista periódus állampárti iratai) feldolgozó adatbázisok kerültek publikálásra. Az önálló adatbázisok mellett egy közös kereső is a kutatók rendelkezésére áll.
1.1.1.2. Baden-Württenberg http://www.archive-bw.de, http://www.landesarchiv-bw.de/web A levéltár elsősorban a tartományi intézmények által kezdeményezett BAM adatbázison keresztül publikálja digitális gyűjteményeit. A digitalizálási koncepció meghatározásánál a legfontosabb szempontok a következőek voltak: •
A legnagyobb érdeklődésre számot tartó gyűjtemények (fotó, térkép). - 12 -
Levéltári digitalizálás • Arcanum, 2012
• • •
1. Nemzetközi áttekintés – egyes országok gyakorlata
A történeti kutatások számára legfontosabb iratok. A közeljövő évfordulóival kapcsolatosan érdeklődésre számot tartó iratok. Vizuális anyagok közzététele, amiket nehezen lehet leírni (kép, fotó, stb.), ill. az állományvédelmi szempontból veszélyeztetett anyagok.
A legújabb digitalizálási tervet egy 10 éves akcióterv keretében határozták meg, amely időszakban 88 millió oldal feldolgozását tűzték ki célul. Ez a teljes gyűjtemény 7 százaléka. A tartományi levéltárak közösen vesznek részt a digitalizálási projektekben és közös adatbázisba szolgáltatnak, egységesen az EAD szabványos adatcsere formátumot alkalmazva.
1.1.2. Országos projektek 1.1.2.1. Német Digitális Könyvtár http://www.deutsche-digitale-bibliothek.de Német Digitális Könyvtár, azaz Deutsche Digitale Bibliothek (DDB) néven indult útjára Németország legnagyobb tartalomszolgáltatási projektje, mely nem kisebb célt tűzött ki maga elé, mint a teljes német kultúrkincs és tudásanyag online elérhetővé tételét. A német kulturális vezetés 2009-ben határozta el, hogy belevág a nagyszabású vállalkozásba. A projekt mögött neves intézmények állnak, az adatokat könyvtárak, levéltárak, múzeumok, tudományos és művészeti intézetek, kép- és mozgóképarchívumok szolgáltatják.
Az adatszolgáltatásban és digitalizálásban jelenleg 1842 német intézmény vesz részt, a szervezők azonban folyamatosan bővítik az együttműködők körét, a projekt célja ugyanis, hogy a Német Digitális Könyvtárat pár éven belül a legnagyobb hazai virtuális tudásbázissá és online gyűjteménnyé fejlesszék. A projektvezetők hangsúlyozzák, hogy német kultúrkincs feltérképezésénél a nemzeti gyűjtemények anyaga mellett a kisebb, unikális archívumok ritkaságaira is különös gondot fordítanak. - 13 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A Német Digitális Könyvtár – akárcsak a négy éve működő Europeana – nem válogat a kulturális területek és műfajok között: könyvek, képzőművészeti alkotások, iparművészeti tárgyak, antik régiségek, archív iratok, hang- és videofelvételek egyaránt megtalálhatók gyűjteményében.
Az oldal angolul és németül is olvasható, a múzeumok és archívumok közti eligazodást térkép és részletes keresés könnyíti, a széleskörű információgyűjtést pedig további linkek, hivatkozások segítik. Az Europeanahoz hasonlóan a portál alap leírásokat és mintaképeket ad, majd elirányít a dokumentumot őrző intézmény adatbázisához, ahol a dokumentumot teljes egészében meg lehet tekinteni, illetve további, részletes kereséseket lehet végezni. A DDB emellett kiemelt gyűjteményként minden hónapban bemutat egy múzeumot, egy különleges műtárgyat és egy kevéssé ismert archív történeti hagyatékot is. A Német Digitális Könyvtárat hivatalosan november végén indították útjára, de a portál egyelőre csak béta verzióban, azaz teszt üzemmódban fut. (forrás: http://www.museum.hu/h/Egyseges_portalon_a_nemet_kulturkincs, 2012. december 13.)
1.1.2.2. BAM Portal http://www.bam-portal.de Könyvtárak Levéltárak és Múzeumok Portál hivatalos nevén Bibliotheken Archiven Museen (BAM) 2001ben indult kezdeményezés, ami elsőként tett kísérletet arra, hogy az ország közgyűjteményeit közös keresőfelületen kapcsolja össze. Első fázisban néhány témakörre korlátozták az együttműködést, majd ennek ta- 14 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
pasztalatai alapján igyekeztek egy közös metaadatkereső rendszert kiépíteni. Elsősorban tehát gyűjteményi leírásokat és egyedi tárgyak képi megjelenítését kívánták e portál segítségével megvalósítani. Figyelmet fordítottak a különböző típusú kutatók igényeinek kielégítésére, ezért van egyszerű, általános kereső és öszszetett, mezős keresési lehetőség is. Igyekeztek tárgyszavazni a leírásokat és szinonimakeresőt is használ a keresőmotor. A projektet Baden-Württemberg Tartomány Könyvtára fogja össze és a tartományi intézmények kapcsolatain keresztül igyekszik országos szintű adatbázissá bővülni. Ez eddig korlátozott mértékben sikerült. A projekt indulását egy állami kutatási alapból finanszírozzák, jelenleg pedig az intézmények közösen adják össze a szükséges forrásokat az üzemeltetéshez.
1.1.2.3. Müncheni Digitalizáló Központ http://www.digital-collections.de A Müncheni Digitalizáló Központ, hivatalos nevén Münchener Digitalisierungs Zentrum (MDZ) Németország egyik vezető digitalizációs projektje, amelyet a Bajor Állami Könyvtár tart fenn. A rendkívül nagy ütemben bővülő és kiemelkedő minőségű digitalizálás keretében eddig több mint 800,000 kötet könyvet, folyóiratot, térképet, fotót, vagy egyéb dokumentumot digitalizáltak. Elsősorban a könyvtár egyedi gyűjteményeire (történelem, klasszika-filológia, Kelet-Európa, zene) valamint a régi kéziratos gyűjteményekre koncentrálnak. A projekt 1999-ben indult, de csupán az elmúlt egy-két évben gyorsult fel a digitalizációs folyamat, köszönhetően az automata könyvszkennerek (3 db Treventus gyártmányú készülék) üzembe helyezésének. A professzionális archiválási és szolgáltatási hátteret a Lipcsei Számítástechnikai Központ biztosítja, ahol jelenleg 45 terabyte tárhelyen, közel 22 millió digitális objektum került hosszú távú elhelyezésre. A digitalizáló labor szkennerek széles skálájával rendelkezik, és bár nem mindegyik eszköz nevezhető ma már professzionálisnak, érdekes kísérleti eszközöket, újdonságokat is alkalmaznak. Ilyen például a hőkamerás (thermografikus) szkenner, amivel az egyedi vízjeleket tudják digitalizálni. De rendelkeznek 3 dimenziós rögzítésre alkalmas berendezéssel is. http://www.digital-collections.de/index.html?c=digitalisierung-scanner&l=en
A digitalizálási program kapcsán számos intézménnyel és céggel kötöttek partneri megállapodást. A legnagyobb alprojekt a 16. századi német nyelvterületen kiadott összes könyv digitalizálása, amihez természetesen minden lehetséges gyűjtő intézménnyel felvették a kapcsolatot. A hosszú távú projekt anyagi hátterét a Német Kutatási Alapítvány biztosítja. A digitalizált állományok azon részét, ami nem esik szerzői jogi hatály alá, a Google Books-szal kötött megállapodás alapján a kereső óriás rendelkezésére bocsátják. Ennek célja, hogy minél jobban tudják a német kultúrát népszerűsíteni a világban, illetve hogy a legnépszerűbb kulturális tartalomszolgáltató oldalon jó minőségben szerepeljenek a német nyelvű könyvek, amit a Google nem tudna magától biztosítani. A Google mellett folyamatos adatszolgáltatást nyújtanak az európai projektek számára is, mint a MichaelPLUS, vagy az Europeana, és természetesen a hazai összefogásoknak is partnerei. - 15 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1.2. Svájc Svájc államigazgatási szinten már integrálta az online tartalomszolgáltatás és ügyintézés intézményét. A közgyűjteményei az elmúlt néhány évben kezdtek bele jelentősebb kulturális tartalomszolgáltatási projektekbe. A dinamikusan fejlődő online gyűjtemények elsősorban könyvtári szemléletű, egyelőre nehézkesen kezelhető és áttekinthető módon vannak közzétéve. A levéltárak még nem publikáltak tömegesen gyűjteményeket. Elkészítették ugyanakkor a digitalizálási elveket, szabványokat rögzítő Digital Archiving Policy dokumentumot, amely honlapjukról letölthető. Swiss Federal Archive: http://www.bar.admin.ch/dokumentation/00445/00527/index.html?lang=en
1.2.1. Digi Center Weblap: http://www.library.ethz.ch/en/Dienstleistungen/Digitalisieren-sichern-archivieren/DigiCenter A zürichi Állami Műszaki Főiskola Könyvtára, hivatalos nevén ETH Bibliothek által működtetett Digi Center projekt jelentős számú intézményt fog össze. A tartalmak kiválasztásánál elsődleges szempont a szerzői jogi szempontból szabadon publikálható művek közzététele. A hatékonyság okán először a nagyméretű gyűjteményeket digitalizálták, mint a régi könyvállomány, archív fényképek, grafikák, ügyelve a hosszú távú megőrzés biztosítására. Az intézmény profiljából adódóan elsősorban műszaki tárgyú gyűjteményeket dolgoztak fel. • • • • •
10,000 kötet könyv a XV. századtól a XVIII. századig: http://www.e-rara.ch Fotó gyűjtemény, 2 millió képi objektum: http://ba.e-pics.ethz.ch Festmény adatbázis 8,000 műalkotás és 160,000 kapcsolódó dokumentum: http://www.e-gs.ethz.ch Tudományos szakfolyóiratok 2,5 millió oldal terjedelemben: http://retro.seals.ch Hangzó és videó gyűjtemény
- 16 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A digitalizáláshoz elsősorban robot szkennereket, könyvszkennereket és 3D technológiát alkalmazó berendezéseket alkalmaznak. A gyűjtemények önálló adatbázisokban kerülnek ingyenesen publikálásra, de közös keresési lehetőség nincs.
1.2.2. Svájc Diplomáciai Iratai Weblap: http://www.dodis.ch Svájc 19-20. századi diplomáciai iratai a teljesség igényével lettek közzétéve a Dodis nevű portálon. Összetett keresést és online letöltést is biztosít az adatbázis, ahol az eligazodást tartalmi feldolgozások is segítik. Nem véletlen, hogy egy történész kutatócsoport építi és tartja fenn az oldalt.
1.2.3. Svájci Nemzeti Könyvtár Weblap: http://www.nb.admin.ch A Svájci Nemzeti Könyvtár legfőbb digitalizálási projektje jelenleg a napilapok teljes körű feldolgozása. A stratégiájuk egyrészt az, hogy az aktuális olvasói igények szerint digitalizálják az egyes lapszámokat, másrészt a savasodás miatt veszélyeztetett állományokat veszik előre a tömeges feldolgozásnál. A publikáláshoz együttműködési szerződéseket kötöttek a lapkiadó cégekkel. Meglepő ugyanakkor, hogy a digitalizálási stratégiájukban mindössze 3 millió oldal feldolgozását prognosztizálják a következő 7 évben!
1.2.4. Scriptorium Weblap: http://scriptorium.bcu-lausanne.ch A Lausanne-i Egyetemi Könyvtár legújabb projektjének keretében 1 millió oldalnyi napilapot digitalizáltak 1741 és 2001 között megjelent számokból. A lapszámok ingyenesen hozzáférhetőek, és teljes szövegű keresést biztosítanak. A tartalommegjelenítés ugyanakkor nem a legszerencsésebb, Flash technológiával történik, amitől picit lassú a rendszer.
1.3. Svédország 1.3.1. Nemzeti Levéltár Adatbázis Weblap: http://www.nad.riksarkivet.se, http://www.svar.ra.se A Svéd Nemzeti Levéltár Adatbázisa (NAD) közös keresést biztosít minden digitalizált gyűjteményben. Az adatbázis nem csupán a központi levéltár gyűjteményeit, hanem a megyei intézmények iratait is tartalmazza, mivel ezek a Nemzeti Levéltár szervezeti egységébe tartoznak. Legfőbb digitalizált gyűjtemények: • • • • • • • •
Okmánytár Kormányzati iratok Összeírások Születési, halálozási és házassági anyakönyvek 20. századi dokumentumok, fotótár Nemzeti bibliográfia Településnévtár, belterületi nevekkel bővítve Bírósági perek
- 17 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A találatok megjelenítése jól átgondolt, de a dokumentumokhoz csak jelszó birtokában lehet hozzáférni, amiért fizetni kell! A központi adatbázis nemcsak a digitalizált tartalmakat, hanem a mikrofilm gyűjteményeket is közös keresőben jeleníti meg, ahol – szintén térítés ellenében – lehetőség van digitális másolatok megrendelésére. Az előfizetéshez kedvcsinálónak demó adatbázisokat is közzétesznek a legfontosabb gyűjtemények esetében.
- 18 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A digitalizált gyűjtemények teljes szövegűen fel lettek dolgozva, vagy megfelelő segédletekkel látták el őket. Ki kell emelni, hogy gyűjteményi szintig angol nyelvű felületet is kínál a levéltár, ami külföldi kutatók számára nélkülözhetetlen az eligazodáshoz. Az adatbázisok publikálása párhuzamosan zajlik az interneten és offline kiadványokon keresztül, legutóbb az 1880-as népszámlálás adatbázisát tették közzé CD-ROM formájában.
1.3.2. Svéd Média Adatbázis Weblap: http://smdb.kb.se A Svéd Média Adatbázis – hivatalos nevén Svensk Mediedatabas (SMDB) – a Svéd Nemzeti Könyvtár égisze alatt működik. Elsősorban 1979 után megjelent média-tartalmak leírásait és a hozzájuk tartozó eredeti dokumentumokat tartalmazza (TV, rádió, mozifilm, videofilmek, színházi előadások, zenei és multimédiás CD-k), de archív felvételeket is nagy mennyiségben digitalizáltak. Jelenleg 8 millió órányi felvétel digitalizálása készült el. Ennek az adatbázisnak a használat is regisztrációhoz kötött. Az eredeti tartalmakat előzetes megrendelés alapján a könyvtárban, külön helyiségben lehet megtekinteni ill. meghallgatni hivatásos kutatóknak, újságíróknak, családkutatóknak és szakdolgozatíróknak.
1.3.3. Svéd Nemzeti Könyvtár Adatbázisai Weblap: http://www.kb.se/english/find/databases A Stokholmi székhelyű Nemzeti Könyvtár a média adatbázis mellett rengeteg önálló digitalizálási projekt gazdája. Meglepő módon azonban a több száz kisebb nagyobb projekt eredményeit nem lehet közösen keresni, mindegyik önálló adatbázisban lett publikálva. Így egy-egy témakör könyvei, vagy a jelentősebb lexikonok ugyanúgy egyedileg kereshetőek, mint például a Pravda napilap 1912-től megjelenő számai. Az adatbázisok között betűrendes mutató segít a tájékozódásban. Egy-egy gyűjteményre kattintva kiderül, hogy sok esetben a könyvtár más intézményekkel közösen, sőt kiemelt témáknál nemzetközi együttműködésben valósította meg saját gyűjteményének digitalizálását. Az adatbázisokat kizárólag a könyvtár beiratkozott olvasói használhatják a könyvtárjegy kódja alapján. Elszomorító, hogy ez még egy egyszerű bibliográfiai keresésre is igaz.
1.3.3. Svéd Természettudományi Múzeum digitalizációs projektje A Természettudományi múzeum egyedi módot választott legfontosabb gyűjteménye digitalizálásához és közzétételéhez. A Carl Linnaeus 4500 darabos egyedülálló herbárium gyűjteményét saját kollégáival digitalizálta, majd a JSTORE fizetős nemzetközi tudományos tartalomszolgáltató adatbázisába töltötte be. Így csupán az előfizető tudományos intézmények munkatársai, illetve egyetemek hallgatói férhetnek hozzá a gyűjteményhez, a múzeum presztízsét azonban ezzel bizonyos körökben biztosan sikerült erősíteni. A digitalizáláshoz egy ötletes, egyedileg készített szkennert használtak, ami egy oszlopon álló, fejjel lefele néző síkágyas hagyományos szkennerből, és egy alulról felemelhető tárgyasztalból áll, lásd az alábbi videót:
- 19 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1.4. Franciaország A francia levéltári rendszert két országos levéltár – az egyik a „hazai”, a másik a tengerentúli, gyarmati területek dokumentumait őrzi –, és mintegy száz regionális, megyei levéltár (franciául Archives départementales és Archives communales) alkotja. Franciaországban az elmúlt évtizedekben igen jelentős digitalizálás folyt, 2010 végére mintegy 170 millió (!) oldal volt hozzáférhető az Interneten. A teljes anyagról legjobban a http://www.archivesdefrance.culture.gouv.fr/ressources címen tájékozódhatunk. Levéltáranként és dokumentumtípusonként kaphatunk részletes információt a digitalizált anyagokról, illetve lehetőségünk van az adott adatbázishoz navigálni. Egy itt található kimutatás szerint 2010. április 3-án az alábbi dokumentumok voltak megtalálhatók a francia levéltárakban. (zárójelben a 2010. december 8-i állapotot láthatjuk, így a fejlődés dinamikájáról is képet kaphatunk): Az online elérhető oldalak száma: 146.907.470 (174.081.556) anyakönyv: 133.544.089 (150.072.443) egyéb névtárak (népszámlálás, összeírás, katonai számbavételek, választói névjegyzék, stb.): 7.096.037 (8.296.422) ingatlan-nyilvántartások: 1.462.772 (3.009.322) közjegyzői iratok: 976.632 (1.602.958) könyvek, folyóiratok: 1.033.599 (1.561.854) Az online elérhető képek száma: 679.185 térképek (különösen kataszter): 301.140 (415.458) ikonográfiai dokumentumok (fényképek, plakátok, képeslapok, stb.): 361.993 (440.016) 2009-ben 27 millió látogatást és 1,5 milliárd oldalletöltést regisztráltak.
- 20 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
Látható, hogy a teljes anyag mintegy 90%-át az anyakönyvek és egyéb névtárak teszik ki. A felvételeket a mormon mikrofilmek digitalizálásával állították elő. A fenti honlap egy egységes ugrópont, de minden egyes levéltár (majd 100) önállóan teszi közzé az adatait. Az egyes honlapokon eltérő szoftvereket és képmegjelenítést alkalmaznak, egységes felület nincs, így elég nehézkes a használatuk. Van néhány levéltár (pl. Aix-enProvance), ahol az eredeti köteteket digitalizálták, színesben. A mikrofilmek néha gyenge minőségűek. A képek mellett ritkán találunk adatbázist, jellemzően csak helységnév, időpont és az anyakönyv jellege alapján lehet keresni, illetve böngészni. Néhány helyen találhatunk csak adatbázisokat. A regionális levéltárak az anyakönyvek mellett jelentős mennyiségű kataszteri térképet (elsősorban Bonaparte Napóleon korából) dolgoznak fel és publikálnak. A publikálás kizárólag képként történt, semmiféle további feldolgozást (georeferálást) nem végeztek, keresni csak a helységnévre lehet. Jellemzésképpen két példát említünk: Isere megyében a 16. századtól 1896-ig (eddig nyilvánosak az anyakönyvi adatok) 4,5 millió felvétel van az anyakönyvekről és egyéb névösszeírásokról. A felvételek mikrofilmről készültek. Párizsban mintegy 5 millió oldal áll rendelkezésre. Párizs egyéb adatbázisai közül érdekes az árvagyerekek és a sorozott katonák nyilvántartása, melyek ábécébe rendezett képlisták, intervallumos névkeresési lehetőséggel. Említésre méltóan nagy gyűjtemény a 19. századi párizsi építészeti tervek is.
- 21 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A regionális levéltárak mellett két nemzeti levéltár létezik. A „hazai” levéltár (Archives nationales – Fontainebleau, Paris, Pierrefitte) sok adatbázissal rendelkezik. Ezek közül az alábbiakat érdemes kiemelni: Közjegyzői: Párizs hivatalos közjegyzői a 16. századtól napjainkig, mintegy 2 millió oldal dokumentum. ARCHIM adatbázis: A legkülönfélébb adatokat tartalmazza Franciaország történetéből, nagyon vegyes anyag. Pl. Robespierre kéziratok, Párizsi építési tervek, hajónaplók, 2. világháborús ellenállás, stb. Emellett számos egyedi adatbázis létezik, pl. Becsületrend adatbázis, Párizs régi térképei, Napóleon Archívum, stb.) Sajnos képet megjeleníteni egyetlen adatbázisban sem sikerült, az egyetlen böngészőn sem működött. A képmegjelenítés Adobe SVG viewer segítségével történik, amit az Adobe cég 2009 óta nem támogat, s így valószínű, hogy Windows7-en már nem működik megfelelően. A nemzeti levéltár adatbázisainak méretét nem sikerült igazán felmérni, az a benyomásunk, hogy itt nem a mennyiségre, hanem a fontosságra és a népszerűségre helyezték a hangsúlyt. Inkább kevés, de nagy érdeklődésre számot tartó dokumentumot dolgoztak fel. A tengerentúli levéltárban (Archives nationales d'Outre-mer) a tengerentúli gyarmatokra vonatkozó iratokat dolgoznak fel. Itt is nagyon jelentős az anyakönyvek feldolgozása. Magyarországról nézve nagyon egzotikus, hogy Szenegál, Algéria, Martinique, vagy akár Francia Szudán anyakönyvi adatait tanulmányozhatjuk. Az anyakönyvek mellett a gyarmati ügyek hatalmas adatbázisát is létrehozták, amelynek középpontjában egy nagy névadatbázis áll a gyarmatokra vonatkozó nevekkel. Az eredeti dokumentumok egy része, levelek, utasítások is megtekinthetők (a mintegy 100 fondból csak 3). Csak érdekességképpen: egyetlen magyar személyt találtunk (Drascowtsz, helyesen Drascowitsz Ignác, aki Guineában hunyt el 1786-ban), és az általa írt levél facsimilében megtalálható. A névadatbázis nagyon változatos, a gyarmati tisztviselőktől a gyarmati börtönök rabjaiig (az elítéltek száma mintegy 100.000). Az adatbázisokat nagyon részletes fondjegyzék egészíti ki.
1.5. Nagy-Britannia és Észak-Írország Egyesült Királysága A 2003-as „A magyar kulturális közvagyon feltérképezése” c. tanulmány Nagy-Britanniát ismertető fejezete még ezzel kezdődik: „Az Egyesült Királyságnak nincs és sohasem volt nemzeti információs politikája, noha sokan – intézmények is – szorgalmazták már a szükségességét. A központi információs politika hiánya megfelel egy olyan ország hagyományainak, amelynek nincsen írott alkotmánya, jogi rendszere pedig jelentős mértékben a pragmatikus eseti jogra támaszkodik.” Ugyan a tanulmány azután részletesen ismertet számos programot, kezdeményezést, intézményt, amely a digitális tartalom-előállításban és -szolgáltatásban aktív szerepet játszik, de kétségtelen, hogy csak a 21. század legelső éveiben alakították ki az Egyesült Királyság központi információs stratégiáját. Azóta eltelt csaknem egy évtized, és jelentős eredményeket hozott az elérhető digitális tartalmak tekintetében is. Egy hivatalosan közzétett tanulmány szerint, az elmúlt 15 évben közel 200 millió font közpénzt, vagyis közel 80 milliárd Ft-ot költöttek Nagy Britanniában különböző digitalizálási projektekre. A brit nemzeti digitalizációs projektekről a tömeges digitalizálás indulásakor, 2005-ben készült egy összefoglaló: http://www.jisc.ac.uk/uploaded_documents/JISC-Digi-in-UK-v1-final.pdf A közgyűjteményi szféra a digitalizálási projektekkel párhuzamosan meghonosította a nemzetközi szabványokat, így az adott szakterületeken nem okoz problémát a nemzetközi adatcsere, gyorsan és rugalmasan tudnak csatlakozni különböző EU-s kulturális projektekhez. A könyvtárak a DC, METS és MARC szabványokat, a levéltárak pedig az EAD és ISAD(G) szabványokat követik az iratleírásoknál, immár évek óta. A projekteket a kulturális tárca a nemzeti lottóból befolyó összegekből finanszírozza, illetve gyakori a magánszférával történő üzleti alapú együttműködés is. Utóbbit kifejezetten követendő példának gondolják a jövőre nézve.
- 22 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1.5.1. Nemzeti Levéltár Weblap: http://www.nationalarchives.gov.uk A Nemzeti Levéltár – hivatalos nevén The National Archives – digitális szolgáltatása két területre koncentrál. Egyrészt az e-kormányzattal kapcsolatos szolgáltatásokra, másrészt a hagyományos levéltári dokumentumok digitalizálására. Az elektronikus közigazgatás levéltárat érintő feladataira – külső szakértő partnerek bevonásával – 1999-óta szisztematikusan készül az intézmény. Az elmúlt 10 évben kidolgozásra kerültek az e-levéltár működéséhez elengedhetetlen szabványok, mechanizmusok. Nagy hangsúlyt fektettek a folyamatos dokumentumkezelésre, a jogosultsági rendszerek kidolgozására és naprakészen tartására (ezt dokumentum és tartalmi szinten is meg kell tenni). Folyamatosan gondozzák a digitális állományokat, figyelve az új kihívásokra, veszélyekre, programkörnyezeti változásokra. Igyekeznek megvalósítani a teljes intézményi integrációt, ami nagy kihívás, mivel jelentősen eltérő rendszerekből érkeznek adatok, vagy adatkérések. Az ügyviteli és szolgáltató rendszerük, a UNIX alapú PRONOM 800, különböző fájlformátumokat kezel. Ehhez társul a DROID fájl menedzser, ami az egyes digitális objektumokról szolgáltat részletes adatokat, verzió és formátum információkat, illetve naplózza, hogy ki, mikor, hogyan változtatta az adott dokumentumot. A Tessalla céggel építettek ki egy professzionális szerverközpontot, ami képes online fogadni, archiválni és szolgáltatni a számtalan közigazgatási szervtől érkező dokumentumokat. Aktuális céljuk, hogy az adatszolgáltatók körét minél teljesebbé tegyék. A már eleve digitálisan keletkező iratok mellett a levéltár a hagyományos gyűjteményeit is folyamatosan digitalizálja. Jelenleg a teljes iratállomány megközelítőleg 5%-a lett digitalizálva, amit elsősorban magáncégekkel, kiadókkal együttműködésben végeztek el, akik a finanszírozás fejében fizetős oldalakon keresztül szolgáltatják a tartalmakat. A levéltár honlapján közzé tették a fond és állagjegyzék digitális változatát, ami irategyüttesenként részletes leírást is ad, valamint elirányít az adott gyűjtemény önálló adatbázisához. Mivel a digitalizálást számos partner finanszírozta, így nemcsak a közös keresés lehetősége sincs meg, de ahány partner, annyi féle platformon futnak az adatbázisok. A levéltár inkább arra helyezte a hangsúlyt, hogy a kutatói igényeket vegye számba, és ezek alapján tematikusan csoportosította fő és altémák szerint az egyes gyűjteményeket. Külön csoportba kerültek a személyek, külön a helyek, külön a témakörök kereséséhez használható gyűjtemények, feltüntetve, hogy hol őrzik a dokumentumot és elérhető-e digitálisan.
- 23 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A családkutatáshoz használható anyakönyvi és összeírási iratokat az Ancestry nemzetközi családkutató portál szolgáltatja, itt csupán azt lehet ingyenesen megtudni, hogy konkrét személy esetén van-e dokumentum az adatbázisban. Ez a legfejlettebb szolgáltatás, amely képes a „saját” adatbázisai között a közös lekérdezésekre is. http://www.ancestry.co.uk A sok tucat digitális gyűjtemény közül érdemes még megemlíteni a térképszolgáltatásokat, amelyek ugyan technológiai szempontból elmaradnak a magyarországi fejlesztésektől, de mivel üzleti háttér épül rájuk, sok érdekes fizetős szolgáltatással párosulnak. Ezek elsősorban a nagyközönséget és nem a tudományos érdeklődésű kutatókat célozzák meg, így inkább egy múzeumi bolthoz hasonló a kínálat (pl. térképek egyedi nyomtatása választott területről és korszakból papírra, bögrére, stb.): http://www.cassinimaps.co.uk
- 24 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1.5.2. British Library Weblap: http://www.bl.uk A Nemzeti Könyvtár egyik vezető digitalizációs projektje a folyóirat-gyűjtemény feldolgozása. A közzétett részletes projektleírásból kiderül, hogy az utóbbi években gyorsult fel a feldolgozás üteme, és mára több mint 6 millió oldal digitalizálását valósították meg. A tartalmakat OCR technológiával kereshetővé tették, ám sajnos nem az eredeti, hanem a mikrofilm másolatokat használták-használják a projekthez. Az ebből adódó minőségi problémákat szoftveres utómunkálatokkal próbálják kezelni. Jelenleg több mint 100 folyóirat érhető el részben, vagy teljesen, de ahogy más brit intézménynél is láttuk, mindenért fizetni kell. A keresés és a nyomtatott másolatok megrendelése is csak az előfizetők számára érhető el: http://www.britishnewspaperarchive.co.uk
A könyvtár nemzetközi projektekben is részt vesz, illetve maga is generál különböző programokat. Ilyen például a Veszélyeztetett Gyűjtemények Digitalizálási Programja (Endangered Archives Programme), ahol levéltárak és múzeumok is tagjai a konzorciumnak. Magyarországról a Magyar Zsidó Levéltár az egyik partner. Kisebb gyűjtemények, mint a kódex, vagy reneszánsz gyűjtemény ingyenesen is elérhető. Az adatbázisokat publikáló szoftverek, és a digitalizálásnál használt technológiák magyar viszonylatban sem nevezhetőek kiemelkedő színvonalúnak. Egyedi jelenség, hogy bizonyos gyűjtemények kizárólag az országon belülről férhetőek hozzá ingyenesen. Európában egyedülálló kezdeményezés a közgyűjteményi szektorban a könyvtár Web-archiváló programja. Ennek keretében 2004 óta több ezer, ma már nem létező internetes oldalt archiváltak és tettek kereshetően újra elérhetővé: http://www.webarchive.org.uk
- 25 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
1.6. Hollandia A Holland Nemzeti Levéltár (Nationaal Archief http://www.nationaalarchief.nl) digitális szolgáltatása a www.gahetna.nl folyamatosan bővülő oldalán („A Nemzeti Levéltár Barátainak” weblapja) érhető el. A honlapon jelenleg két kollekció egy része hozzáférhető: a fotógyűjtemény és a térképtár. A fotográfiai anyag mintegy 140.000 fotót tesz elérhetővé. A metaadatok feldolgozásához a Dublin Core elemkészletét használják, a következő meta adatokat rögzítették (és ezekre kereshetünk): Leírás, Dátum, Nevek, Hely, Tárgyszó, Gyűjtemény, Készítő, Leltári szám. A képeket nagyfelbontásban tekinthetjük meg. A levéltárban egyébként összesen mintegy 14 millió fotót őriznek, tehát kb. a tizedét tették online hozzáférhetővé. Érdekességképpen a Magyarország (Hungarije) keresésre 1096, a magyar (hongaars) 694 találatot ad eredményül. A képek között nagy számban találhatunk 1956-os fotókat, illetve a sport tárgykörében keletkezett felvételeket. A digitális anyag létrehozása a Spaarnestad Photo nevű képarchívum (http://www.spaarnestadphoto.nl) közreműködésével jött létre. Ez egy képügynökség, amely legkülönfélébb források alapján szolgáltat térítés fejében képeket. A teljes 12 milliós kollekciója 2011-ben a Nemzeti Levéltárba került, de az üzemeltetésről továbbra is a Spaarnestad Photo gondoskodik.
- 26 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A másik gyűjtemény a történelmi térképeké. A levéltár mintegy 600.000 térképet őriz, hogy ebből mennyi a digitalizált azt sehol sem közlik. Különböző keresések révén vizsgálódva, a találati számokat összevetve, a rekordok számát 10.000 alá becsüljük (6-7000 db). Ezek nagy része Dél-Hollandia területeit ábrázolja, és azon belül is a legtöbb kataszteri térkép. A térképek kizárólag képként tekinthetők meg, semmiféle georeferálás, mozaikolás nincs.
- 27 -
Levéltári digitalizálás • Arcanum, 2012
1. Nemzetközi áttekintés – egyes országok gyakorlata
A fondjegyzékeket igen alaposan, talán a teljesség igényével dolgozták fel, a hierarchikus rendszert EAD szabvány szerint. Igen alapos összefoglalókat kapunk a fondok tartalmáról, méreteiről, a feltárt időszakról. Ha digitalizálták az adott fondot, az elvileg megjelenne az adatbázisban is, azonban egyetlen ilyet sem tudtunk találni, mindenhol azt az üzenetet kaptuk, hogy az adott fond nem érhető el digitálisan. Lehetőség van akár a fotó-, akár a térképgyűjtemény elemeiről fizetség ellenében különböző digitális és analóg másolatot rendelni. A szolgáltatáshoz részletes árlista tartozik (sajnos csak hollandul, az angol honlap árakat nem tartalmaz http://www.gahetna.nl/tarieven). Például egy A1-es térkép szkennelése TIFF állományba 42 EUR (Scanning of demand).
- 28 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
2. Nemzetközi áttekintés – európai projektek Az Európai Unió elkötelezett az európai kulturális értékek megőrzése és közzététele iránt, különböző alapjaiból – pályázati rendszerén keresztül – évtizedek óta finanszíroz ezzel összhangban lévő nemzeti projekteket, és maga is fenntart a kulturális örökség megőrzéséhez, megosztásához keretet, szakmai támogatást nyújtó portálokat, projekteket. Az elmúlt évtized ez irányú munkájának első eredményei immár „kézzelfogható” eredményekben öltöttek testet. Üzemel és folyamatosan bővülő tartalommal szolgáltat az Európai Könyvtár (The European Library, röviden TEL, http://www.theeuropeanlibrary.org), amely jelenleg 48 nemzeti és számos egyetemi könyvtár több mint 10 millió digitális objektumát és több mint 100 millió bibliográfiai rekordját teszi közös felületen kereshetővé és elérhetővé. Ugyancsak működik a levéltári területet összefogó portál (Archives Portal Europe, APE, http://www.archivesportaleurope.eu), amely közös felületén keresztül 2012 végén 63 intézmény több mint 60 millió digitális objektumának és közel 15 millió leíró adatának keresését és közzétételét teszi lehetővé, projektjei pedig további támogatást nyújtanak a digitalizáló és leíró, kutató, fejlesztő tevékenységnek Európa-szerte, amelynek révén a levéltári terület elérhető anyagai is rohamléptekkel bővülnek a közeljövőben. A fenti két szakterület mellett a múzeumi és az audiovizuális területek digitalizált anyagait is mindenkinek elérhetővé teszi az Európai Unió legnagyobb ez irányú projektje, az Europeana (http://www.europeana.eu), amely – az alárendelt alacsonyabb szintű aggregátorokon keresztül – lényegében a kulturális örökség megőrzésére hivatott valamennyi európai intézmény digitálisan hozzáférhető kincseit tárja elénk, egyetlen közös keresőfelületen (jelenleg 34 ország 2.200 intézményének több mint 23 millió objektum). Az európai közgyűjteményi területen belül a levéltári szakmai kompetencia alá (is) tartozó három fontos fórum az Europeana, az Archives Portal Europe és az ICARUS, ezeket ismertetjük részletesebben. Mindhárom jelent egyrészt egy felhasználói portált, amelyen keresztül – az egységesített, összegyűjtött metaadatok révén – az érdeklődők elérik a szakterületen létrejött digitális tartalmakat, másrészt egy ezek mögötti szakmai fórumot, ami összefogja, menedzseli a projekteket, szakmai útmutatókat, ajánlásokat, követelményeket dolgoz ki, konferenciákat szervez. Tevékenységük részben átfedő, részben hierarchikusan egymásra épülő. A feladatmegosztás – kissé leegyszerűsítve – a következő: az ICARUS országokon átívelő konkrét digitalizálási projekteket szervez, egy-egy részterületet, a felhasználható technológiai hátteret kutatja, az eredményeket publikálja, és elérhetővé teszi az európai levéltári portál számára. Az Archives Portal Europe összefogja az európai országok levéltári intézményeinek munkáját, összegyűjti és hozzáférhetővé teszi azok eredményeit. Az Europeana fogadja és integrálja a levéltári mellett a könyvtári, múzeumi területen keletkezett metaadatokat is, felületén keresztül lehet a legteljesebb keresztmetszetet, legmélyebb betekintést nyerni az európai kulturális örökség kincseibe.
2.1. Europeana Az Europeana – saját meghatározása szerint: ●
A felhasználók számára egyedülálló hozzáférési pont az Európa-szerte digitalizált milliónyi könyvhöz, festményhez, filmhez, múzeumi tárgyhoz, levéltári irathoz; az európai kulturális és tudományos intézményekből származó információk hiteles forrása.
●
Az európai kulturális örökséget gondozó intézmények számára jó lehetőség sokkal több felhasználó elérésére, a saját web-forgalmuk növelésére, látogatóik felhasználói élményének javítására, új kapcsolatok építésére.
●
Az örökség-ágazat szakembereinek egyedülálló platform az információcserére, ahol a könyvtárosok, levéltárosok, kurátorok, a kreatív ipar résztvevői megoszthatják tapasztalataikat. - 29 -
Levéltári digitalizálás • Arcanum, 2012
●
2. Nemzetközi áttekintés – európai projektek
A politikai döntéshozók és a finanszírozók számára az Europeana az Európai Bizottság rangos kezdeményezése, amely ösztönzi a kreatív gazdaságot és a kulturális turizmust.
Partnere, adatszolgáltatója számos nemzeti és nemzetközi intézmény Európa összes országából: jelenleg több mint 22 millió objektumot tartalmaz 34 ország több mint 2200 intézményéből. Magának az Europeana portálnak is több millió látogatója van, de elérhetősége a saját honlapba beépíthető Europeana API révén ennek akár sokszorosa is lehet: oktatási és kulturális szájtok, a közösségi média számos helyén elérhetőek az Europeana tartalmai. Az Europeana tartalma ún. cross-domain, tehát a legkülönbözőbb típusú kulturális intézményekből érkezik, amelyeknek a metaadatai azonban egy egységes adatmodellbe vannak konvertálva. Ez az adatmodell jelenleg az ESE (=Europeana’s Semamantic Elements). Az ESE alapvetően egy Dublin Core alapú elemkészletből áll, ami további 12 Europeana-specifikus elemmel bővült, biztosítva ezáltal az interoperabilitást. Ezidőtájt fokozatosan egy új adatmodell veszi át az ESE szerepét, az EDM (=Europeana Data Model). Ez elődjénél sokkal gazdagabb adatformátumot tesz lehetővé, és ezáltal szélesebb, kifinomultabb keresési lehetőségeket és több kontextuális információt biztosít a felhasználóknak. Visszafelé kompatibilis az ESE sémával, így az adatszolgáltatóknak nem kell a már egyszer közzétett adataikat újrakonvertálniuk. Az EDM továbbá kompatibilis egy sor széles körben használt szabványos adatmodellel is, közöttük a levéltári terület metaadatszabványával, az EAD-dal, a könyvtári területen már közel fél évszáda bizonyított MARC-kal, és az audiovizuális intézmények fő szabványaival. Az Europeana nem gyűjti össze fizikailag, nem tárolja magukat a digitalizált objektumokat – azok maradnak az őrző intézmények web-helyein –, hanem csak az egységesített adatszerkezetbe konvertált metaadatokat indexeli. Ahhoz, hogy egy közgyűjtemény digitális anyagai elérhetőek legyenek az Europeana portálon ill. API-n keresztül, a gyűjteménynek teljesítenie kell három egyszerű kritériumot: 1
A metaadatoknak meg kell felelniük az ESE sémának (DC + 12 Europeana-specifikus elem); számos eszköz áll rendelkezésre a megfelelő adatkonverzióhoz.
2
Állandó azonosító: az Europeana a saját indexállományaiból az adatszolgáltatók webhelyén lévő digitális objektumokra mutat, ezért annak fix URL-je sohasem változhat meg.
3
OAI-PMH: az Europeana metaadatbegyűjtő protokollja az Open Archive Initiative Protocol for Metadata Harvesting; következésképpen az adatokat szolgáltató rendszerbe be kell építeni ezt a funkcionalitást (ha ez nem megy valamiért, alternatívaként egy FTP hely is szóba jöhet: az oda feltöltött metaadatokat az Europeana szakértői már kezelni tudják)
2.1.1. Az ESE elemkészlete Mint föntebb már mondottuk, az ESE elemkészlete tartalmazza az alap 15 DC elemet, ezeket most nem ismertetjük, lásd a 6.2.2. fejezetet a DC elemkészletéről. Ehhez jön még egy utóbb felvett DC bővítés, és a 12 Europeana-specifikus elem. Ezeket röviden alább ismertetjük. Megnevezés
Elemnév
Meghatározás
Eredet (Proveniencia)
provenance
DC elem, az objektum élete során a birtokosokban, őrzőkben bekövetkezett bármilyen változás, amely jelentőséggel bír a hitelesség, integritás és értelmezhetőség szempontjából.
Ország
country
A tartalomszolgáltató országának neve, avagy össz-európai projekt esetén “Europe”.
Tartalomszolgáltató
dataProvider
Azon intézmény, szervezet neve vagy azonosítója, amely az adatokkal szolgáltatta az Europeana-nak; akkor van jelentősége, ha aggregátoron keresztül kerülnek az adatok az Europeana-ba: ez esetben a ‘provider’ az aggregátorra vonatkozik, és a ‘dataProvider’ adja meg az eredeti adatszolgáltatót; ha közvetlenül az adatszolgáltatótól kerülnek az elemek az Europeana-ba, akkor a két mező értéke megegyezik.
Nyelv
language*
A forrás eredeti nyelve, a ‘DC:language’-nak megfelelő, de normalizált, 3 karakteres kóddal. Tehát nem az adatszolgáltató ország nyelvét, hanem a
- 30 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek forrásdokumentum nyelvét adja meg.
Objektum
object
A tartalomszolgáltató web-oldalára mutató URL, ami az objektum lehető legjobb felbontású képére hivatkozik; ebből generálja az Europeana az objektum nézőképét, ami azután megjelenik az Europeana oldalán. Ha nincs ilyen, vagy nem lehet a nézőképet létrehozni, akkor egy alapértelmezett ikon fog megjelenni helyette.
Szolgáltató
provider
Az Europeana-nak az adatokat szolgáltató szervezet neve (aggregátor, vagy közvetlenül a tartalom birtokosa; az utóbbi esetben megegyezik a ‘dataProvider’ mező értékével.
Jogok
rights*
A digitális objektum jogtulajdonosára vonatkozó információk URL-je, az Europeana Jogi útmutatójában specifikált módon.
Típus
type*
Az Europeana által használt 5 dokumentumtípus valamelyike: szöveg (TEXT), kép (IMAGE), hanganyag (SOUND), mozgókép (VIDEO) vagy háromdimenziós objektum (3D); minden, az Europeana-nak szolgáltatott adatot be kell sorolni az öt típus valamelyikébe; ha nem áll rendelkezésre nézőkép előállításához forrás, akkor ezen típusok szerinti ikonok jelennek meg az Europeana felületén
Felhasználó generálta tartalom (user generated content)
UGC
Egy címke, ami azt adja meg, ha az illető tartalom valamilyen tömeges, (ellenőrizetlen) felhasználói aktivitás révén született.
Egyéb információk
unstored
Egy konténer elem, amelyben mindazt az információt lehet tárolni, amely az ESE más mezőjébe nem besorolható
URI (Uniform Resources Identifier=egységes erőforrás azonosító
uri
Az objektum egyértelmű rekord azonosítója az Europena rendszerében; az Europeana generálja a tartalomszolgáltató eredeti forrásmegjelölése alapján.
Felhasználói címke
userTag
A regisztrált Europeana felhasználók által létrehozott címkék (pl. “Ez a legszebb festmény a világon!”)
Év
year
A digitalizált (vagy eleve digitális) objektummal kapcsolatos eseményre utaló évszám; a ‘dc:date’ dátum elemből az Europeana származtatja, négyjegyű, a Gregoriánus naptár szerinti évszám
*A csillaggal jelölt elemek a Dublin Core készletében is szerepelnek, némiképpen eltérő formában, illetve felhasználással. Az elemek természetesen beépülnek a keresési lehetőségekbe, az Europeana felületén szűrőként használhatjuk őket, illetve a találatok megjelenítési módját szabhatjuk testre a segítségükkel (pl. idővonal, térkép).
2.1.2. EDM Az Europeana Data Model (EDM, http://pro.europeana.eu/edm-documentation) az Europeana által begyűjtött, menedzselt és publikált adatok strukturálásának új módszere, jelentős fejlesztés az eredetileg használt (ESE) adatmodellhez képest. Az Europeana-ban képviseltetett összes kulturális területnek megvan a saját, minden mástól különböző adatmodellje, az ESE ezeket redukálta egy közös nevezőre. Az EDM megfordítja ezt a reduktív megközelítést, és megpróbál túllépni az Europeana-ban szereplő egyes részterületek – múzeumok, levéltárak, audiovizuális gyűjtemények és könyvtárak – perspektíváján. Az EDM nem épül egyik szakterület sémájára sem, hanem inkább egy olyan nyitott, cross-domain, szemantikus-web alapú megközelítést alkalmaz, ami magába foglalja az egyedi területek standardjainak széles skáláját és gazdagságát, mint a LIDO a múzeumi gyűjtemények, az EAD a levéltárak, vagy a METS a digitális könyvtárak esetében. Az EDM nem csak hogy támogatja a tartalomszolgáltatók metaadatainak teljes gazdagságát, de lehetővé teszi azok bővítését harmadik féltől származó forrásokból. Például egy “A” szolgáltatótól származó digitális objektum kontextuálisan bővíthető a “B” szolgáltatótól származó metaadatokkal, pontosítható a “C” szolgáltató által kezelt névtér-adatokkal és finomítható a “D” kiadó által készített webes tezaurusszal. Az EDM támogatja a kapcsolatoknak ezt a gazdagságát, ugyanakkor világosan őrzi és mutatja a digitális objektumhoz kapcsolódó egyes adatok forrását. - 31 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
Az EDM kiküszöböli az ESE (és a DC) modell azon fogyatékosságát, hogy néha nehéz különbséget tenni: egy attribútum a valós objektumra, annak digitális reprezentációjára, avagy bármi más, az objektummal kapcsolatban álló entitásra vonatkozik-e? Az EDM sokkal komplexebb objektumok kezelését is lehetővé teszi, mint az ESE: egy digitalizált könyvben pl. az egyes fejezetek, illusztrációk, mutatók külön-külön entitásként is felfoghatók, meg együttesen is; ehhez hasonlóan egy levéltári segédlet vagy fond esetén az őket alkotó levelek, okiratok, kéziratok vagy egyéb elemek szintén kezelhetők egyedi objektumokként is meg egy egységként is. Az Europeana az EDM használatba vétele előtt, alatt és után is, továbbra is elfogadja a csak az ESE modellnek megfelelő adatokat. Az EDM felülről kompatibilis az ESE-vel, így nincs szükség semmilyen adatot újra elküldeni. Az Europeana elérhetővé tesz majd egy konvertert, és ha egy tartalomszolgáltató az Europeanaban elérhető gazdagabb adattartalom érdekében újra szeretné küldeni az adatait, megteheti, de minden kötelezettség nélkül. Az EDM az Europeana forradalmian új módon való böngészését teszi lehetővé: olyan kérdésekre fog tudni válaszolni, mint a “Ki?”, “Mit?”, “Mikor?”, “Hol?”, és a történetek hálójának olyan kapcsolatait hozza létre, ami életre kelti az Europeana hatalmas tartalmát. Az EDM nyitott szerkezete a motorja ennek az egyedülállóan gazdag kapcsolatrendszernek, révén az Europeana a szemantikus-web fejlesztések éllovasává válhat.
2.1.3. Jogkezelési gyakorlat Az Europeana – mint mondottuk – nem gyűjti, tárolja magukat a digitális objektumokat, csak a metaadataikat indexeli és szolgáltatja. A tartalomszolgáltatókkal olyan megállapodást (Data Exchange Agreement) köt, amelyben azok vállalják, hogy az Europeana-ba került metaadataik szabad felhasználás alá kerüljenek, harmadik fél szabadon, minden térítéstől mentesen felhasználhassa őket. Izgalmas kérdés azonban a digitális objektumok Europeana felületén megjelenő (vagy API-ján keresztül elérhető) előnézetének, illetve maguknak az objektumoknak a felhasználói jogi státusza, hiszen ezek az egyes intézmények tulajdonát képezik, a legkülönbözőbb jogállapotokkal. Az adatszolgáltatónak minden egyes objektum esetén meg kell adnia a ‘Jogok’ mezőben az illető objektum jogállását meghatározó URL-t. Ezt a státuszt azután – kis ikonok formájában – az Europeana feltünteti minden objektum megjelenítésekor, így a felhasználók egy kattintással tájékozódhatnak a jogkövető felhasználás lehetőségeiről. Szűrni is lehet a kereséseket, találatokat ezen szempont szerint, így egyszerűen szűkíthetünk pl. a szabad felhasználású elemekre. Az egyes kategóriák részletes leírását lásd a 8.1. fejezetben. Fontos megjegyezni, hogy az Europeana csak jelzi az egyes digitális objektumok jogállását a tartalomszolgáltatók adatközlése alapján, nem vizsgálja, nem ellenőrzi azokat; az Europeana címkéje nem jelent jogengedélyezést (szemben pl. a Creative Commons egyes kategóriáival).
2.2. Európai Levéltári Portál Az össz-európai kulturális örökségünk jelentős szeletét képviselik a levéltárakban őrzött anyagok. Az összes ország számos levéltárában folyik kiterjedt digitalizálási tevékenység, amelynek eredményeképpen ezek a kincsek a kutatók és a nagyközönség számára is egyre szélesebb körben válhatnak hozzáférhetővé. Az Európai Bizottság támogatásával (az eContentplus program keretében) ezen tartalmak közös felületen való közzétételére létrejött egy keresőportál (http://www.archivesportaleurope.eu), illetve a digitalizációs és publikációs tevékenység szakmai támogatására az APEnet- (http://www.apenet.eu), majd ennek folytatásaként 2012-től az APEx-project (http://www.apex-project.eu). A keresőportál összegyűjti, és a felhasználók számára egyetlen felületen hozzáférhetővé teszi a levéltári terület tartalmait, ugyanakkor aggregátorként maga is adatszolgáltatóként szerepel a nagy, közös európai projekt, az Europeana digitális könyvtárában.
- 32 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
2.2.1. APEnet A 2009-ben indult, 3 éves APEnet project a portál létrehozására, támogatására jött létre, folyamatosan gyarapodó számú (előbb 12, majd 17, jelenleg az utód APEx projektben 28) nemzeti levéltár konzorciumaként, amelyek maguk is külön-külön számos intézmény levéltári tartalmait gyűjtik össze, közvetítik a közös európai gyűjtőportálok felé. A projekt első, és legfontosabb célja az APEnet portál felépítése volt: létrehozni egy olyan webhelyet, ahol a felhasználók információkat találnak a milliónyi digitalizált és még nem digitalizált objektumról, ezek létrehozóiról, és az őket őrző európai levéltárakról. A másik cél az volt, hogy a 17 legjelentősebb nemzeti levéltár egységes holdingként mutatkozzon az Europeana felé. Olyan eszközöket fejlesszenek ki, amelyek támogatják, ösztönzik a levéltárakat abban, hogy anyagaik eljussanak a közös európai levéltári portálra, onnan pedig az Europeana-ba. Ma már elmondhatjuk, hogy a projekt betöltötte hivatását: elindult a közös portál, és a folyamatosan gyarapodó levéltári anyagok – digitalizált objektumok és leírások – elérhetőek az Europeanaban, a többi kulturális intézmény által szolgáltatott anyagok révén minden eddiginél gazdagabb kontextusban. A legjobb gyakorlatok közzétételével, ajánlások, szabványok, konvertáló motorok, segédletek, további hasznos dokumentáció kidolgozásával támogatta az egyes intézményekben folyó konkrét digitalizálási munkát.
2.2.2. APEx A 28 európai nemzeti levéltár, valamint az ICARUS (International Centre for Archival Research, http://icarus.eu) részvételével 2012-ben induló, hároméves APEx-projekt – amellett, hogy a lezárult APEnet-projekt kontinuitását biztosítja – feladata a már meglévő együttműködések kiszélesítése, a portál szolgáltatásainak továbbfejlesztése, és a meglévő anyagok, adatbázisok fenntarthatóságának biztosítása. A levéltári adatállomány kezdettől fogva az európai digitális kulturális örökség jelentős részét tette ki. Az APEx-projekt keretén belül folyamatosan hozzáférhetővé váló egyre több levéltári anyag révén a levéltári szakterület tovább növelheti jelenlétét az Europeana-ban. A konzorcium célja továbbra is az, hogy a levéltári kincsekhez egy közös európai portálon keresztül biztosítson hozzáférést, és tovább gazdagítsa az Europeana portál levéltári tartalmait. Az APEx az Europeana levéltári szakterületért felelős aggregátora. Mint ilyen, vele szorosan együttműködve aktívan részt vesz olyan metaadat-formátumok kidolgozásában és karbantartásában, olyan módszerek, ajánlások és szabványok kialakításában, amelyek biztosítják a levéltárak által feltöltött adatok kölcsönös átjárhatóságát, interoperabilitását, a levéltári adatállomány megfelelő jogkezelését. Az APEx céljai között ezek mellett szerepel a meglévő portál infrastrukturális fejlesztése, olyan új szoftver-eszközök, funkciók, valamint szabványok kifejlesztése is, amelyek megkönnyítik a levéltári adatok és adatállomány egységes leírását, adatcseréjét és közös internetes publikálását. Tervezi a Web 2.0 technológia alkalmazását, miáltal a portál a munka előrehaladtával egyre felhasználóbarátabbá válna, a felület interaktívabb lenne: lehetőség nyílna fórum kialakítására, a közösségi médiához való kapcsolódási pontok beépítésére (Wikipedia, FaceBook, Twitter, Youtube). A részt vevő országokból delegált szakemberek az alábbi munkacsomagok (Work Package) keretén belül, 3 éves időterv szerint végzik a munkájukat; az egyes részterületet a megadott intézmény koordinálja:
Projektmenedzsment (Project management): Nationaal Archief, Hollandia Fejlesztések az Europeana-projekttel való kölcsönös átjárhatóság biztosítása terén (Europeana Interoperability): Bundesarchiv, Németország Infrastruktúra- és szolgáltatásfejlesztés (Infrastructure Development & Hosting): Ministerio de Educación, Cultura y Deporte, Spanyolország Szabványok és Irányelvek (Standards & Guidelines): Bundesarchiv, Németország Eszközfejlesztés és -támogatás (Tools & Support): Service Interministériel des Archives de France, Franciaország Felhasználhatóság és Web 2.0 szolgáltatások (Usability & Web 2.0): Rahvusarhiiv, Észtország - 33 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
Közzététel és oktatás (Dissemination & Training): Riksarkivet, Svédország Fenntarthatóság (Sustainability): Nationaal Archief, Hollandia
A konzorciumot jelenleg alkotó intézmények: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29.
National Archives of the Netherlands – Nationaal Archief Austrian State Archives – Österreichisches Staatsarchiv National Archives of Belgium - Algemeen Rijksarchief en Rijksarchief in de Provinciën – Archives générales du Royaume et Archives de l'État dans les Provinces Archives State Agency Republic of Bulgaria – Държавна Агенция Арxиви Croatian State Archives – Hrvatski državni arhiv National Archives of Estonia – Rahvusarhiiv National Archives of Finland – Kansallisarkisto General Directorate for Cultural Heritage - Interdepartmental Service of Archives of France – Direction générale des patrimoines - Service interministériel des Archives de France Federal Archives of Germany – Bundesarchiv General State Archives of Greece – Γενικά αρχεία του κράτους National Archives of Hungary – Magyar Nemzeti Levéltár National Archives of Ireland – An Chartlann Náisiúnta Ministry of Cultural Assets and Activities. Directorate-General of Archives – Ministero per i Beni e le Attività Culturali. Direzione generale per gli archive – Italy National Archives of Latvia – Latvijas Nacionālais arhīvs National Archives of Liechtenstein – Liechtensteinisches Landesarchiv Lithuanian State Historical Archives – Lietuvos vyriausiojo archyvaro tarnyba National Archives of Luxemburg – Archives Nationales de Luxembourg National Archives of Malta – L-Arkivji Nazzjonali National Archives of Norway – Riksarkivet Head Office of Polish State Archives – Naczelna Dyrekcja Archiwow Panstwowych – Poland Ministry of Culture – Directorate-General of the Archives – Ministério da Cultura - Direcção-Geral de Arquivos - Portugal Department of Archives – Ministry of Interior of the Slovak Republic –Odbor archívov – Ministerstvo vnútra Slovenskej republiky – Slovakia Archives of the Republic of Slovenia – Arhiv Republike Slovenije Ministry of Education, Culture and Sports of Spain – Ministerio de Educación, Cultura y Deporte National Archives of Sweden – Riksarkivet International Centre for Archival Research Danish National Archives – Rigsarkivet Danmark National Archives of Iceland – Þjóðskjalasafn Íslands Federal Archives of Switzerland – Schweizerisches Bundesarchiv
Az APEx projekt a nemzeti levéltári intézmények számára három kulcs-feladatot jelöl meg: 1. 2. 3.
Bővítse a saját országában a résztvevő levéltári intézmények (az úgynevezett tartalomszolgáltatók) hálózatát Támogassa ezen intézmények kapcsolódását Alakítsa ki, fejlessze a nemzeti aggregátorok hálózatát, ami aztán a fenti tartalomszolgáltatók támogatását biztosítja (Egy aggregátor olyan intézmény, amely összegyűjti és standardizálja a tartalomszolgáltatók digitalizált objektumainak metaadatait, és szolgáltatja azokat harmadik fél, pl. jelen esetben az Európai Levéltári Portál, vagy az Europeana számára. Egy ilyen hálózat része lesz ezáltal a digitális kulturális aggregátorok egy nagyobb hálózatának.)
- 34 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
2.2.3. Az Európai Levéltári Portál metaadat-standardjai Az APEnet Európa-szerte bevezetett egy közös keretet, ami a globális levéltári standardokon alapul, és összeurópai kontextusba helyezi azokat. A transznacionális szabványok elfogadtatásával, népszerűsítésével elősegítette számos nemzeti és nemzetközi levéltári portál interoperabilitását. Az APEx folyatatja az APEnet projectben megkezdett munkát, továbbra is használja és továbbfejleszti az Európai Levéltári Portál számára kifejlesztett metaadatszabványokat. A megjelenési lehetőség az Európai Levéltári Portálon nyitva áll minden európai levéltári gyűjtemény számára, amely képes a metaadatait olyan formában közzétenni, ami megfelel a nemzetközi levéltári szabványoknak (vagy eleve az ilyen szabványok valamelyike szerint dolgozta fel a gyűjteménye adatait, vagy olyan formátumot használ, amely – esetleg éppen az APEx által rendelkezésre bocsátott eszközökkel – ilyen formába konvertálható): az EAD, EAC-CPF, EAG vagy METS metaadatsémák valamelyikének.
2.3. ICARUS 2.3.1. Monasterium Web-lapja: http://www.monasterium.net 2001-ben Sankt Pöltenben, a helyi egyházi levéltár vezetője, Thomas Aigner digitalizálni kezdte a környékbeli apátságok, egyházi levéltárak középkori okleveleit. A projekt gyorsan terebélyesedett, folyamatosan kapcsolódtak be az ausztriai egyházi levéltárak, majd a környékbeli országok egyházi levéltárai is. A projekt keretében egy mobil munkaállomással (BookEye szkenner) végezték el a helyszíni digitalizálásokat. Már a projekt kezdeti szakaszában, a kölni egyetem bölcsész-informatikai csoportjával karöltve, fontos volt az adatok Interneten történő publikálása, a metaadatok felvitele, illetve átvétele más forrásokból. A Monasterium projekt jelenleg mintegy 250.000 oklevelet tartalmaz, 13 ország 80 levéltára szolgáltat adatokat. A Monasterium projekt elsődleges célja, hogy összegyűjtse – elsősorban az Osztrák-Magyar Monarchia utódállamaiból – a középkori okleveleket, és azokat az Interneten korlátozás nélkül szolgáltassa. A projekt keretében elvégzik az anyagok szkennelését, gépeket bocsátanak rendelkezésre, illetve szakembereket biztosítanak a meglévő eszközök üzemeltetéséhez. Ezzel párhuzamosan folyik a szoftverfejlesztés, amely egyre fejlettebb metaadat- és képfelvitelt biztosít. A már meglévő metaadatok áttölthetők a rendszerbe, s mindez az Interneten egy közös adatbázisban egyesül. A résztvevő országok: Ausztria, Csehország, Horvátország, Lengyelország, Magyarország, Németország, Olaszország, Románia, Spanyolország, Svájc, Szerbia, Szlovákia, Szlovénia. Magyarországról az alábbi levéltárak szolgáltatnak adatot: • Pannonhalmi Bencés Főapátság: mintegy 1500 oklevél, regesztával, képpel (jelentős anyag a Capsarium 1000–1526) • Magyar Ferences Levéltár: 124 rekord képekkel (törökkori anyag) • Magyar Nemzeti Levéltár: 1 mintarekord képpel • Esztergomi Prímási Levéltár: 2 mintarekord képpel és latin nyelvű átírással • Budapest Főváros Levéltára: 20 mintarekord kép nélkül regesztával
- 35 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
Az oklevelek szkennelési paraméterei országonként és időszakonként nagyon különbözőek. Jellemzően 300 dpi felbontásban történik, melléhelyezett színmintával. Általában mindkét oldal felvételezésre kerül. A pecsétekről sokszor nincs külön felvétel, ezért ezek meglehetősen gyenge minőségűek. Az adatbázisban lévő metaadatok is igen nagy szórást mutatnak. Nagyon sokszor csak egy dátumot, egy őrzőhelyet és jelzetet találunk. Ritkábban regeszta és még ritkábban az oklevélszöveg, illetve a nyomtatott kiadások is rögzítésre kerültek. A metaadatok leírására a CEI (Charters Encoding Initiative) XML szabványt használják, amelyet a Ludwig-Maximilians Universität, München alakított ki és tart karban. Ez mintegy 150200 elemet tartalmazó készlet, amely minden apró részlet feltárására és leírására alkalmas. Valójában, mint láttuk, ebből csak 6-8 elem kerül felhasználásra. A honlap használata során lehetőségünk van az intézmények szerinti böngészésre, keresésre. Amennyiben több fondja van az adott intézménynek, azok közül választhatunk, majd időrend szerint kereshetünk. A rövid találati listán megkapjuk a legfontosabb adatokat (jelzet, keltezés, regeszta), és hogy létezik-e digitális felvétel a rekordhoz. A rekordra kattintva az összes adat megjelenik, és a képet is megtekinthetjük. A kép külön ablakba kerül, ezen belül tetszés szerint nagyíthatunk. A képre kattintva a böngésző JPG nézője mutatja meg a teljes méretű képet. Létezik egy harmadik megjelenítés is (AUGIAS-Data Image Viewer), amit a „Kép megnyitása” linkre kattintva kapunk meg. Ekkor lehetőségünk van a képet kicsinyíteni, nagyítani, forgatni illetve a kontrasztot és fényerőt is állíthatjuk. A szöveg szerinti keresésre egyetlen lehetőségünk van: egy összesített indexben kereshetünk. Sem dátum, sem jelzet szerint nem kereshetünk. A kereséshez semmilyen támogatást nem kapunk, nem nézhetjük meg a kereshető szavak listáját. A találati listán a találat kivilágítva jelenik meg. A keresés során szűkíthetünk a képpel ellátott találatokra, illetve dátum és relevancia szerint rendezhetünk. A Monasterium szoftver alapja az eXistdb nyílt forráskódú XML adatkezelő rendszer, amelyet Wolfgang Meier fejlesztett ki a 2000-es évek elején, és amelynek fejlesztése azóta is folyamatos.
2.3.2. ICARUS Weblapja: http://icar-us.eu A Monasterium projekt elterjedésén és sikerén felbuzdulva a szervezők létrehoztak egy egyesületet, amely az ICARUS (International Centre for Archival Research) nevet viseli. Jelenleg 23 országból 120 levéltár és tudományos intézmény csatlakozott a szervezethez. Az egyesület a levéltárak együttműködését, az Interneten - 36 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
való közös megjelenését, a levéltári információk szolgáltatását célozta meg. Elsősorban Európai Uniós pályázatokra alapozva élenjár a levéltári digitalizálás előmozdításában. Rendezvényeket szervez, amelyen a különböző országokból és különböző szakterületekről érkező szakemberek tapasztalatot cserélhetnek, bemutatják az újabb fejlesztéseket, ötletbörzét szerveznek az újabb ötletek, projektek feltárása érdekében. Nagy gondot fordítanak az oktatásra: tanfolyamokat, workshopokat rendeznek, ahol mindig nagy hangsúlyt kap a levéltárak, országok közötti együttműködés.
Az ICARUS magától értetődően magába olvasztotta a Monasterium projektet, amely mintegy zászlóshajóként mutatja a lehetőségeket, a kitűzhető célokat. A szervezet minden évben kétszer plenáris ülést szervez, amelyen az új fejlesztések, új tagok bemutatása történik meg. Az ICARUS a Monasterium projekt mellett elindította az egyházi anyakönyvek projektjét. A Matricula projekt Ausztria és Németország egyházi anyakönyveinek digitalizálást tűzte ki célul. Jelenleg mintegy 4,2 millió oldal található a honlapon (http://www.matricula-online.eu). A honlapon hierarchikus rendben (országonként, régiónként) tekinthetjük át és kereshetjük meg az adott anyakönyvet. A szolgáltatás, a FindbuchNet szoftver segítségével történik, amely az AUGIAS-Data terméke. A program képes a levéltárak és falvak hie- 37 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
rarchikus struktúráján mozogni, így az országon belül levéltáranként, azon belül helységenként haladhatunk. Az adott helységnél listát kapunk a létező anyakönyvekről (születési, házassági, illetve halálozási, illetve a régebbi időkben vegyes) mindezt időrendben. A könyv megmutatása az okleveleknél megismert AUGIASData Image Viewer program segítségével történik. Külső együttműködőként néhány cseh levéltár csatlakozott, ők a saját szolgáltatásukon keresztül teszik közzé az adatokat, itt csak egy linket találunk a honlapjukra. Tapasztalataink alapján a digitalizálás Németországban mikrofilmről történt, ezért viszonylag gyenge minőségű és szürke árnyalatú képeket tartalmaz. Az osztrák digitalizálás az eredeti anyakönyvről készült színesben, így a minősége lényegesen jobb. A cseh digitalizálások ugyancsak mikrofilmről készülhettek. A keresőprogram igen nehézkes, szinte csak a böngészés funkció működik.
2.3.3. ENArC Weblapja: http://enarc.icar-us.eu Az ICARUS egyesület egy konkrét EU-s pályázata az ENArC (European Network on Archival Cooperation), melyben 13 együttműködő partner vesz részt. A projekt 2010–2015-ig tart, fő céljai: • az ICARUS hálózat kiszélesítése, közös projektek indítása, közös stratégia kialakítása • a nemzetközi együttműködés erősítése, találkozók, konferenciák, oktatás, szakértők cseréje • közös fejlesztés, digitalizálás, a történeti források feldolgozásának és visszakereshetőségének fejlesztése • az eredmények mind szélesebb körben való terjesztése: TV, rádió, online platformok A program kiemelten támogatja a Monasterium projektet, elsősorban annak szoftverfejlesztési részét. A projekt koordinátora a St. Pölteni levéltár és az ICARUS egyesület; cseh, szlovák, szlovén, horvát nemzeti levéltárak mellett olasz, spanyol és német intézmények vesznek részt. Magyarországot a magyar Nemzeti - 38 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
Levéltár és Budapest Főváros Levéltára képviseli, elsősorban a digitális anyagok előállítása illetve publikálása terén.
2.4. Néhány korábbi Európai Uniós projekt 2.4.1. MINERVA Weblap: http://www.minervaeurope.org A MINERVA az Európai Uniós tagállamok kulturális minisztériumai közötti együttműködés volt, mely a kulturális és tudományos tartalmak digitalizálását hangolta össze. A program célja egy közösen elfogadott európai platform kialakítása a digitalizálásra, metaadatokra és a hosszú távú megőrzésre vonatkozó ajánlások és irányelvek megfogalmazása formájában. A nemzeti programok koordinálása mellett az európai országok, nemzetközi szervezetek és projektek közti kapcsolatok kiépítését is segítette. A program ezen felül tanácsadó szerepet látott el, mely a már működő jó példák összegyűjtését, valamint a lundi alapelvek elfogadását és terjesztését szorgalmazta. A program 2005-ig tartott, a 2006-2011-es időszakban a MINERVA eC (MInisterial NEtwoRk for Valorising Activities in digitisation, eContentplus) projektté terebélyesedett, - 39 -
Levéltári digitalizálás • Arcanum, 2012
2. Nemzetközi áttekintés – európai projektek
amely tovább fejlesztette a partneri együttműködést, és megalapozta az Európai Digitális könyvtárat. Ma már főleg az Europeana vette át a szerepét, de a honlapon továbbra is sok hasznos, a közgyűjteményi digitalizálással kapcsolatos forrás, dokumentum, „best practice” érhető el.
2.4.2. IMPACT Weblap: http://www.impact-project.eu Az IMPACT (Improving Access to Text) az Európai Bizottság által finanszírozott projekt, 2008 és 2011 közötti futamidővel. Célja a historikus szövegekhez való hozzáférés jelentős fejlesztése és az európai kulturális örökség tömeges digitalizálásának útjában álló gátak lebontása volt. Létrejöttét az a nagyszabású vízió vezette, hogy európai örökségünk nyomtatott része akkor válhat igazán univerzálisan használhatóvá, ha a tömeges digitalizálás révén előálló szkennelt oldalak szövegei automatikus optikai felismertetés révén teljes szövegükben kereshetővé válnak. A tömeges digitalizálás technikai feltételei lényegében ma már adottak, a világ minden táján szkennelt oldalak milliói születtek, de a teljes szövegű hozzáférés mennyisége és főleg minősége még jelentős fejlesztést igényelne. A digitalizálást végző intézményekben tapasztalható technológiai, tudás- és tapasztalatbéli, financiális okokból a digitalizált, eredendően nyomtatott anyag teljes szövegének csak csekély része hozzáférhető. Egy sor nagy könyvtár, egyetem, kutatóintézet, piaci, technológiai cég (pl. az OCR fejlesztésben élenjáró Abbyy) részvételével létrejött projekt az automatikus szövegfelismerés fejlesztését tűzte ki célul az OCR technológiai innováció, a történelmi szövegekre irányuló lingvisztikai kutatás és a legjobb tapasztalatok megosztásának támogatásával. Létrehoztak egy kompetencia központot (http://www.digitisation.eu), ahol a projekt során összegyűlt tapasztalatok és eszközök hozzáférhetők.
2.4.3. Európai Digitális Megőrzési fórum (Digital Preservations Europe, DPE) Weblap: http://www.digitalpreservationeurope.eu Az elektronikus források központi szerepet kaptak az elmúlt évtizedekben a kulturális és intellektuális örökségünkben, de ez a „matéria” meglehetős kockázatokat hordoz. A digitális emlékezet folyamatos törődést, állandóan új technikákat és eljárásokat igényel, ami a technológiai elavulás kockázatával jár – szemben mondjuk egy hagyományos könyvvel, amit ha leteszünk egy polcra, még száz év múlva is ugyanott lehet, és ha kinyitjuk, éppúgy olvasni tudjuk, mint most. A kockázat a digitális rekord létrejöttével kezdődik, és mindaddig tart, amíg a digitális objektumra egyáltalán szükségünk van. A digitális megőrzés problematikája olyan nagy és szerteágazó feladat, hogy az meghaladja az egyes intézmények, vagy akár egyes szektorok egyedi hatókörét, összehangolt nemzeti és nemzetközi szintű fellépésre van szükség. A DigitalPreservationEurope – a korábbi sikeres ERPANET (az Európai Bizottság által finanszírozott Electronic Resource Preservation and Access Network projekt, http://www.erpanet.org) munkájára alapozva – egyesíti az akadémiai, igazgatási, kulturális, üzleti szektorokban folyó párhuzamos kutatásokat és tapasztalatokat. Honlapjuk 2010 óta nem frissült ugyan, de a web oldalon számos hasznos tapasztalat, hivatkozás található a tárgykörben.
- 40 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3. Hazai áttekintés A fejezet az elmúlt évek néhány jelentős, megvalósult hazai levéltári digitalizációs projektjének legfontosabb tapasztalatait, valós problémáit és megoldásait, a fontos döntéseket és a mögöttük meghúzódó megfontolásokat ismerteti. Az esettanulmányok a konkrét projekten túlmutató módszertani tapasztalatokkal szolgálhatnak a jövőbeli digitalizációs programokhoz.
3.1. Magyar Nemzeti Levéltár A Szatucsek Zoltán megbízott főigazgató-helyettessel készült interjú alapján. Nemzeti intézményünk (http://mnl.gov.hu) őrzi a legnagyobb számban az ország történetének ezer éve alatt született alapvető okleveleket, iratok. Magyarország vezető levéltári intézményeként más területekhez hasonlóan a digitalizálásban és a tartalomszolgáltatásban is úttörő, utat mutató eljárásokat kell alkalmaznia.
3.1.1. Digitalizálási projektek A levéltár a 90-es évektől kezdve intenzív digitalizálási és publikálási tevékenységet folytatott. Az első évtizedben ezeket döntően külső vállalkozó bevonásával (jellemzően az Arcanum Adatbázis Kft.-vel, illetve az IDOM és GDL Kft-vel) készítette, majd fokozatosan, az anyagi lehetőségek alakulása szerint, kiépítette a saját digitalizáló kapacitását, amely 2012-ben érte el méreteiben a tervezett szintet. Mostanáig több mint 53 digitalizálási projekt fejeződött be, amelynek eredményeként a különböző szolgáltatásokon keresztül közel 6 millió oldal került közzétételre. Az első jelentős adatbázisok a középkori és kora újkori gyűjteményekről készültek (Királyi Könyvek, középkori oklevelek regesztái, stb.), mára viszont a huszadik századi gyűjtemények is megjelentek a digitálisan elérhető szolgáltatások között (MTI Kőnyomatos Hírei; MSZMP-MDP vezető testületeinek iratai és hanganyagai). Kiemelt cél az összeírások, oklevelek és testületi anyagok lehető legnagyobb részének digitális feldolgozása és közzététele.
Mint Magyarország legnagyobb levéltára, folyamatos cél és feladat volt a közgyűjteményi digitalizálásban irányt mutatni a többi intézmény számára, illetve a legfontosabb országos jelentőségű gyűjtemények esetén (lásd a középkori okleveleket) összefogni a többi levéltárat az egységes adatbázisban történő publikálás ér- 41 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
dekében. Ezt a törekvést jelentősen megkönnyíti az a szervezeti átalakulás, aminek következtében a megyei levéltárak 2012-től kezdve a Nemzeti Levéltár égisze alatt a MOL fennhatósága alá kerültek.
3.1.2. Felkészülés és a projekt előképei Magyarországon a levéltári gyűjtemények digitalizálása a MOL-ban indult el elsőként a kilencvenes évek közepén. A gyűjteményi segédletek, valamint a középkori oklevél-regeszták digitalizálása és kereshetővé tétele voltak az első projektek, amelyek méretüket tekintve még nem nevezhetőek tömeges feldolgozásnak. Az intézményben folyó digitalizálás az első 15 évben esetlegesen, elsősorban pályázati pénzekből valósult meg. Mivel Magyarországon a kilencvenes években még nem volt bevett gyakorlat és kidolgozott metódus a közgyűjteményi tartalmak digitalizálására, a MOL külső vállalkozót bízott meg az egyes feladatok végrehajtására. Ez a 15 év – amellett, hogy számos sikeresnek bizonyult projekt készült el – egy tanulási folyamatnak tekinthető. Az Arcanum Adatbázis Kft.-vel történet együttműködés során, az egyes projektek tapasztalataiból merítve alakultak ki a ma is alkalmazott digitalizálási szabványok, szabályok. Egy kölcsönös tanulási folyamatról beszélhetünk, hiszen a kivitelezőnek is meg kellett ismerkednie a levéltárak szabályaival, az állományvédelmi követelményekkel és a gyűjtemények kínálta publikációs lehetőségekkel. Ugyanígy a levéltári szakmának is fel kellett készülnie a digitális világ térhódításával keletkező új kihívásokra, el kellett sajátítani e terület alapvető informatikai és technológiai ismereteit, valamint a közgyűjteményi és tudományos adatbázis építéshez szükséges gondolkodásmódot. 2005-ig a levéltár projektjeit elsősorban a szövegalapú dokumentumok gépeléssel történő digitalizálása és adatbázisokkal összekapcsolt offline, vagyis lemezen történő publikálása jellemezte. Ennek köszönhetően a legnagyobb figyelem a közgyűjteményi adatbázisok szabályrendszerének kialakítására, illetve a leíró szabványokra koncentrált. Az elmúlt években a szkennertechnológiák fejlődésével és az online publikálás technikai lehetőségeinek létrejöttével párhuzamosan jelentősen megváltozott az intézmény digitalizálási stratégiája. Az egyedi forrásközléshez képest a tömeges feldolgozás és a korábban lefolytatott projektek publikációinak ismételt felhasználása, szolgáltatásépítés és közös keresést lehetővé tevő online adatbázis-publikáció került előtérbe, kiegészülve az eredeti dokumentumok képi megjelenítésével.
3.1.3. Digitalizálási projektek tervezése, középtávú digitalizálási terv kidolgozása A MOL legjelentősebb, nemzetközi szinten is egyedülálló vállalkozása a középkori magyar vonatkozású oklevelek digitális formában történő publikálása, a Collectio Diplomatica Hungarica adatbázis. Ennek elméleti és segédleti szintű előkészítése már több mint két évtizedre tekint vissza, a megvalósítás pedig több lépésben, több publikálási fázisban valósult meg. Ennek a projektnek a tapasztalatai több, azóta megvalósult digitalizálás szakmai alapját adta, és olyan tudással vértezte fel az intézmény munkatársait, aminek segítségével ma már önállóan is képesek digitalizálási projektek tervezésére és kivitelezésére. Az online publikálásra való fokozatos áttérés első éveiben számos önálló, nagyméretű adatbázis jött létre, amelyek az oklevelektől a nyomtatott iratokon keresztül egészen a térképekig, vagy hangzó anyagokig terjedtek. 2012-ig 53 digitalizálási projekt zárult a MOL gyűjteményeinek digitális feldolgozásával, amelyek kezelése, áttekintése és szolgáltatása új kihívások elé állította a levéltárat. Létre kellett hozni egy Objektumtárat, amely egy rendszerben képes kezelni a digitális állományokat, valamint lehetővé teszi a dokumentumokhoz történő gyors belső hozzáférést a milliós rekordszámú állományban. Középtávú célként azt tűzte ki maga elé a levéltár, hogy a dinamikusan fejlődő digitális tartalmait megfelelő módon tudja tárolni és lehetőleg egységes környezetben szolgáltatni. Szintén a célok között szerepelt, hogy a digitálisan érkező állományokat is folyamatosan és zökkenőmentesen fogadhassa, és szolgáltathassa. Ez egyben már nemcsak intézményi szinten, hanem államigazgatási szervezési igényként is jelentkezett. Ennek - 42 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
érdekében jött létre az E-levéltár projekt, ami komoly forrásokat és átalakulást hozott a levéltári világba. Jelenleg megvalósítás alatt áll a szoftverkörnyezet kialakítása és a projekt a digitalizálási kapacitás jelentős növelésére és korszerűsítésére is komoly forrásokat teremtett. A stratégiai célok tehát sokkal inkább egy rendszer kialakítására vonatkoztak, mint a konkrét digitalizálandó tartalmak megfogalmazására. Ettől függetlenül mindig volt és most is van rangsor a digitalizálás tekintetében, de mivel a MOL által őrzött gyűjtemények országos jellegükből adódóan hatalmas mennyiségűek, nem lehet előre pontosan tervezni a digitalizálásukat. Ez mindig az adott pénzügyi lehetőségektől és az aktuális pályázatok kínálta lehetőségektől függ. A tartalmak kiválasztásánál 5 fő szempontot vesznek alapvetően figyelembe. Legfőképpen a gyűjtemények kutatottsága, illetve kulturális értéke határozza meg a digitalizálás sorrendjét, de fontos szempont az aktuális közéleti igény, vagy évfordulók adta kötelezettség. Sokszor ehhez kapcsolódnak a pályázati lehetőségek is, de alapvetően is igaz, hogy a pályázati kiírásokhoz kell igazodni a digitalizálási témák, gyűjtemények kiválasztásánál. Ennek oka, hogy a feldolgozómunka forráshátterét jelentős részben ezek a külső pályázati források adják, és csak kisebb részben a saját költségvetésből adódó lehetőségek. Végezetül jelentős súllyal esik a latba az állományvédelem kérdése. Olyan gyűjtemények digitalizálása is prioritás lehet, amelyeket ugyan alig, vagy egyáltalán nem kutattak (például mert állományvédelmi szempontból nem volt közreadható), de a levéltár szakemberei érdemesnek látják megismertetni tartalmukat a kutatókkal. Ilyen volt az MSZMP vezető testületi üléseinek orsós szalagokon őrzött hanganyaga, vagy az MTI híranyaga. Vagyis a levéltár is tud kutatást élénkíteni azzal, hogy kevésbé ismert, de hasznosnak vélt forrásokat tesz közzé digitálisan.
3.1.4. A digitális szolgáltatások célközönsége Az offline forrásközlésekkel és a mostani online adatbázisokkal gyakorlatilag ugyanazt a célközönséget kívánják elérni, de egyre kifinomultabb formában. Azzal, hogy a digitális tartalmak publikálását diverzifikálták – vagyis a lemezes kiadványok mellett több portálon, honlapon keresztül is elérhetővé tették a gyűjteményeket –, egyre több kutatót tudnak elérni. A célközönséget alapvetően kétfelé lehet osztani és ez határozza meg az egyes gyűjtemények publikálási módját, feldolgozottságát is. Legnagyobb részüket az amatőr kutatók jelentik, akik elsősorban család- és helytörténeti kutatásokat végeznek a MOL-ban. Számukra legtöbb esetben elegendő a források áttekinthető struktúrába rendezett közreadása.
- 43 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A másik jelentős célcsoport a tudományos kutatók (egyetemisták, doktoranduszok, hivatásos kutatók), akik számára önmagában a források közreadása sok esetben nem elegendő. Számukra lehetőséget kell teremteni a különböző gyűjtemények összehasonlítására, közös megjelenítésére, illetve a számítástechnika adta többletfunkciók kiaknázására. Ilyen például a térképek geoinformatikai rendszerben történő közlése, vagy az oklevelek regesztaváltozatainak összehasonlítási lehetősége, illetve a gyűjteményekben történő globális közös keresés funkciója. A felhasználók harmadik csoportja a levéltár saját munkatársai, akiknek a feldolgozó munkáját sok esetben segíti az általuk kezelt gyűjtemények digitális változata nyújtotta áttekinthetőség. Ők azonban nem tekinthetők célcsoportnak, a rengeteg feladat miatt a tartalmak kiválasztásánál nem elsődleges szempont a belső feldolgozómunka ilyen jellegű támogatása, de a lehetőségeket természetesen kihasználják. A digitális publikálás és az intézmény irányába jelentkező igények még jobb harmonizációjának elősegítésére egyre több felhasználói statisztika készül. Az Arcanum által készített adatbázisok felhasználását már egy éve pontosan figyelik, és az E-levéltár keretében megvalósuló közös tartalomszolgáltatásnak is részét fogja képezni a kutatói aktivitás részletes elemzése.
3.1.5. A digitalizáláshoz kapcsolódó előkészítés és a szakmai munka menete A digitalizálással járó előkészítő munkák gyűjteményenként változnak. Mindig az adott iratanyag állaga, mennyisége, tartalma, a célközönsége, valamint a rendelkezésre álló források határozzák meg a szükséges előkészületek folyamatát. Általánosan elmondható, hogy minden digitalizálást megelőz egy konkrét állományfelmérés, valamint készül egy pontos digitalizálási útmutató. Ez utóbbi meghatározza a használható technológia és a digitalizálás paramétereit, az iratokkal való bánásmódot, a fájlelnevezéseket valamint a munka menetét. Publikálás esetén az adatbázis szerkezetét és a közzététel módját is. Amennyiben külső munkaerő bevonásával készül a digitalizálás, a vállalkozónak szorosan együtt kell működnie a levéltár munkatársaival, betartva az intézményi szabályokat. A zökkenőmentes munkavégzéshez ezért elvárás, hogy komoly szakmai múlttal rendelkezzenek a külső partnerek. Nem véletlen, hogy hosszú ideje csupán egy-két céggel dolgozik együtt az intézmény, velük viszont igyekszik folyamatos szakmai kapcsolatot fenntartani. Levéltári segédlet nem minden esetben készül a tartalmakhoz. Elsősorban a tömeges, de minőségi digitalizálás, és a minél előbb történő közreadás a fő szempont, míg a segédletek, vagy tartalmi feldolgozás elkészítésére kevesebb erőforrás jut. Olyan irategyütteseknél, mint például az MTI híranyaga vagy az összeírások, alap- és középszintű segédletek rendelkezésre állnak. A középkori oklevelek esetében, mivel a felhasználói kör kifejezetten tudományos érdeklődésű, egy sokkal bonyolultabb, több éves, sőt évtizedes előkészítő munkával létrejött segédlet teremtette meg a digitális publikálás lehetőségét. A Minisztertanácsi jegyzőkönyveknél a segédletek a digitalizálással párhuzamosan, a munkafolyamatok egymásra épülésével készültek. Megint más esetben, a gyűjtemény nagysága és fizikai állapotában áttekinthetetlen volta miatt (lásd kataszteri térképek), a digitalizálást követően készülhet csak el több lépcsőben a tartalmi feldolgozás. A nagyobb gyűjteményi feldolgozásokat megelőzi általában egy pilot projekt, amely során kialakítják a munkafolyamatokat, és felmérik a szükséges erőforrásokat. A tömeges mikrofilm digitalizálás előkészítése közben például kiderült, hogy a segédletek elkészítése olyan időigényes, hogy az adott keretek között kivitelezhetetlené tenné a projektet. A feladat modellezéséből kiderült, hogy a teljes - 44 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
gyűjteményt csupán 2118-ra, vagyis több mint 100 év alatt lehetne befejezni a rendelkezésre álló munkaerővel, miközben a hatalmas teljesítményű szkennerrel magát a digitalizálást néhány év alatt el lehet végezni. A digitalizálás relatív gyorsasága és a feldolgozó munka sok esetben évtizedet igénybe vevő feladata közötti gyakran áthidalhatatlan munkaszervezési nehézséget a levéltár a kutatói közösségek erejében rejlő lehetőségek kihasználásával igyekszik a jövőben enyhíteni. Az egyszerűbb tartalomleíró feladatokat WEB 2.0 alkalmazások segítségével a kutatókra szeretné bízni, akiknek munkáját a gyűjteménykezelő felügyelné. Egy ilyen típusú kísérleti jellegű munka elindítása a közeljövőben várható, sőt a Magyar Családkutatók Egyesületével (MACSE) – ha nem is online módon, de – elindult egy kísérleti együttműködés. Ennek keretében az egyesület tagjai a Belügyminisztérium Névváltoztatási kartonjait igyekeznek feldolgozni. A levéltár jelenlegi és közeljövőben várható humán erőforrás lehetőségeit figyelembe véve, egyedül az ilyen kooperatív munkának van realitása.
3.1.6. A digitalizálási projektek finanszírozása, külső-belső munkaerő használata A digitalizálással és adatbázis publikálással kapcsolatos feladatok financiális hátterét alapvetően három forrásból teremti elő a levéltár. Az intézményi költségvetés két digitalizálási műhely fenntartását biztosítja, amelyek a Reprográfiai Osztály keretén belül működnek, négy állandó munkatárssal. Ezek a kollégák teljes munkaidőben kizárólag a digitalizálással foglalkoznak. E mellett az Informatikai Osztály egy munkatársa biztosítja a szolgáltatások zavartalanságát, a szervezet többi munkatársa pedig a 6,4 millió digitális objektum tárolását, és kisebb fejlesztéseket is ők végeznek. A már említett 53 projekt keretében létrejött digitális tartalom több platformon keresztül kerül jelenleg szolgáltatásra (pl. digitarchiv.hu, mol.arcanum.hu, Batthyány-misszilisek, Egyesületi adatbázis). A cél az, hogy azokat, amelyek önálló fenntartása indokolatlan egy egységes rendszerrel váltsák ki, az adatbázisok közösen kereshetők legyenek, valamint hogy az intenzíven bővülő digitális tartalom archiválása, és egyszerű hozzáférhetővé tétele házon belül valósuljon meg. Ez a fő feladata az Informatikai Osztálynak, és ezért fejlesztették ki a képeket kezelő Objektumtárat, az adatbázisok keresésére szolgáló AdatbázisokOnline szolgáltatást (http://mnl.gov.hu/adatbazisokonline) és az iratok szövegében kereső IratokOnline szolgáltatást (http://mnl.gov.hu/iratokonline). Mivel a jelenleg zajló E-levéltár projekt alapvető változásokat hoz mind a digitalizálási kapacitás tekintetében, mind pedig a levéltár működésében, külön osztály jött létre a feladatok megoldására, itt három főállású munkatárs dolgozik. A munkabéreken és az eszközök karbantartási és üzemeltetési költségein túl egyéb belső forrás nem áll rendelkezésre. A nagyobb projekteket hazai és nemzetközi pályázati pénzekből valósítja meg a levéltár. Legfőbb pályázati források itthon az NKA kiírásai, míg nemzetközi szinten az ICARUS konzorcium tagjaként jut különböző programokon keresztül segítséghez az intézmény. Ilyen az európai levéltári összefogás program (EnArc), ami 2011-2015 között tervezhető költségvetési többletet jelent, vagy a Monasterium projekt, ami a középkori anyagok levéltári publikálását fogja össze Európában. A pályázati forrásokból többségében a külső munkaerő által történő digitalizálást és szolgáltatásfejlesztést finanszíroznak. A harmadik forrás-kiegészítő lehetőség a más intézményekkel vagy cégekkel történő kooperációban rejlik. Ennek jó példája az Arcanum Adatbázis Kiadóval történő együttműködés, amelynek keretében többször előfordult, hogy korlátozott publikálási jog fejében, a cég jelentős hozzáadott értékkel, vagy a teljes digitalizálási projekt finanszírozásával járult hozzá a digitális tartalombővítéshez. Erre - 45 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
jó példa a MOL Digitális Könyvtára (DigiLib) adatbázis, amely a levéltár egyedülálló könyvészeti gyűjteményét adja közre digitálisan. Hasonló módon más intézményekkel is történt együttműködés, amikor a másik fél finanszírozta egy teljes gyűjtemény digitalizálását (Dicalis jegyzékek), ellenszolgáltatásként a levéltár pedig más gyűjtemények digitális tartalmait bocsátotta rendelkezésre, részletes felhasználási megállapodás kíséretében. Az E-levéltár projekt eddig nem látott nagyságrendű forrást hozott a tartalomfejlesztés területén, de ezek a pénzek elsősorban a levéltár digitális szolgáltatását fejlesztik (digitális adatkezelés, egységes tartalomszolgáltatás), illetve eszközöket biztosítanak a digitális feldolgozásra. Magukat a munkafolyamatokat továbbra is az említett három forrásból kell finanszírozni. A gyűjtemények online szolgáltatása alapvetően ingyenes, és állami intézmény lévén a jövőben sem tervezik fizetőssé tenni. Pénzt csak pluszszolgáltatásokért, például digitális másolatokért kér eseti szinten a MOL, de ez nem befolyásolja érdemben a digitalizálásra fordítható összegeket.
3.1.7. A digitalizálás és publikálás eszközei, a projektek időbeni megvalósulása 3.1.7.1. Akárcsak más hasonló intézményben, a MOL-ban is a mikrofilmek digitalizálásával kezdődött a feldolgozás a 2000-es évek első felében. Az akkor korszerűnek számító manuális MINOLTA mikrofilm szkennereket 2012-ben váltotta fel a legmodernebb, hatalmas kapacitással rendelkező Zeutschel OM 1600-as automata szkenner. Az eredeti dokumentumok digitalizálása eleinte repró állványok segítségével indult, majd szintén a 2000-es években vásárolta az intézmény az akkori technikai csúcsot jelentő Suprascan 6002 típusú nagyméretű, pásztázó optikájú digitalizáló berendezését. Ez ma is használatban van, de teljesítmény és minőség terén már vannak modernebb ipari szkennerei is a levéltárnak. A levéltári dokumentumok digitális feldolgozásához legtöbb esetben az úgynevezett könyvszkennereket használja a Reprográfiai Osztály. Jelenleg 3 darab ilyen eszközzel rendelkezik a MOL: egy A1-es méretű BookEye A3, egy A2 méretű BookEye 2 plusz, valamint egy Zeutschel OM 14000, szintén A1 méretű típussal. A filmnegatívok eseti feldolgozásához Nikon 5000 típusú speciális, nagy felbontású szkennert alkalmaznak. A digitalizálási kapacitás igény szerinti növelését, illetve az egyedi dokumentumokhoz – mint a szálas iratok, vagy a nagyméretű térképek – külső vállalkozók szolgáltatását veszi igénybe a levéltár, amiket a már említett módon, pályázati forrásokból finanszíroz. 3.1.7.2. A tartalomszolgáltatás jelenleg több platformon keresztül történik, de a saját fejlesztésű AdatbázisokOnline és IratokOnline portál hátterét az ORACLE rendszere adja. Az e-Archivum adatbázis alapja a könyvtári világból ismert Corvina program, míg az Arcanum által publikált gyűjteményeket az általuk fejlesztett WARCTIS nevű adatbáziskezelő program szolgáltatja, aminek része az AAGISView képmegjelenítő és térinformatikai program. Ezeket a szolgáltatásokat kell az E-levéltár program keretében egységesítenie és saját üzemeltetés keretében szolgáltatnia az intézménynek. Az Objektumtár megmarad önálló modulként, ami kezeli és archiválja a több milliós digitális objektum-állományt. 3.1.7.3. A levéltár mai értelemben vett hivatalos digitalizálási és publikálási programja 1998-ban indult és az első évben 8000 dokumentum szkennelése történt meg. Az eddigiekből következően a levéltár digitalizálási tevékenysége nem tekinthető egyetlen egységes projektnek. Sokkal inkább egy folyamatosan változó, és az adott kor igényeinek megfelelő feladatrendszer keretei között meg- 46 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
valósult, 53 önálló projektről kell beszélnünk, amelyek létrejöttével párhuzamosan egy folyamatos integrációs törekvés is kimutatható a publikálás terén. A digitális feldolgozás üteme a tapasztalatok bővülésével és az eszközpark tudatos fejlesztésének köszönhetően folyamatosan gyorsul és válik egyre hatékonyabbá. 2000-ben már 66.000 digitális objektummal rendelkezett az intézmény, majd 2004-től – amikor az Urbáriumok és Összeírások program elindult – beszélhetünk mai értelemben vett tömeges digitalizálásról. Ehhez arra is szükség volt, hogy kialakuljon az online szolgáltatás kultúrája és technikai háttere, ami megszüntette a tartalomszolgáltatások méretbeli korlátait. Jelenleg 6,4 millió önálló digitális objektummal rendelkezik a MOL és ezek döntő többsége publikálásra is került.
- 47 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.1.8. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel A digitális gyűjteményi szolgáltatás esetében egyértelmű cél az egységes archívumon alapuló diverzifikált publikálás. Annak segítségével, hogy az adatbázisba épített tartalmakat különböző médiákon keresztül adja közre a levéltár, reményeik szerint a lehetséges felhasználók különböző igényeit tudják kielégíteni, egyúttal pedig erősíteni az intézmény társadalmi ismertségét, elfogadottságát. - 48 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Az offline kiadványok mellett a 2000-es évek végétől kezdve megjelentek az online adatbázis szolgáltatások. Ezeket először külső vállalkozó, az Arcanum segítségével publikálták, mivel ekkor még sem saját online adatbázis kezelő rendszer, sem pedig megfelelő szerver és tárhelykapacitás nem állt rendelkezésre. Miután egyre nagyobb számban készültek adatbázisok, ráadásul ezek különböző módon és forrásból keletkeztek, a MOL kifejlesztette a saját szolgáltató rendszerét az AdatbázisokOnline-t. Ez jelenleg párhuzamosan üzemel a korábban kifejlesztett rendszerekkel, mert azok már más szolgáltatók honlapjaiba, portáljaiba is beágyazódtak, és a felhasználók jelentős része azokon a csatornákon keresztül szokta meg a hozzáférést. Az elmúlt években egyértelműen beigazolódott, minél több, sűrűn látogatott webhelyen kerül közzétételre egy szolgáltatás, annál szélesebb rétegekhez lehet eljuttatni azt. Éppen ezért a MOL 2011-ben csatlakozott a Magyar Levéltári Portál tartalomszolgáltatásához is, ami hasonlóan nagy látogatói körrel rendelkezett, mint az intézmény saját honlapja. Itt ráadásul más levéltárak tartalmaival közösen is megjeleníthetőek a saját tartalmak, sőt, a közeljövőben közösen kereshetővé is válnak. A hazai felhasználók mellett több, országos méretű gyűjtemény esetén lehet jelentősebb érdeklődésre számítani a határon túli és külföldi kutatók körében. A nemzetközi tudományos életbe való intenzívebb bekapcsolódás minden szempontból hasznos és kívánatos lehet a levéltár számára, ezért a közeljövőben több digitális gyűjtemény is felkerül az európai közös levéltári és kulturális portálokra (Archives Portal Europe, Europeana) A publikálás diverzifikálásának másik aspektusát a szolgáltatás eltérő funkciói jelentik. A már említett két legfőbb felhasználói kör, a magánkutatók és a tudományos felhasználók eltérő mélységű adatbázisokat, különböző keresési szolgáltatásokat igényelnek. Az egyedi gyűjteményi forrásadatbázisok jellemzően elegendő információt szolgáltatnak a legtöbb felhasználó számára, míg a tudományos élet képviselőinek készülnek a bonyolult szerkezetű, összetett adatbázis-portálok. Ehhez egységes leíró és adatcsere szabványok kidolgozására és mélyebb tartalomfeltáró segédletek, leírások készítésére van szükség. Éppen ezért a két célközönség kiszolgálása nem azonos sebességgel történik. Elsődleges a forráspublikálás, majd a rendelkezésre álló humán és anyagi faktor lehetőségeihez mérten készülnek második ütemben a tartalom-feldolgozó és integráló munkák.
3.1.9. Archiválás, állományvédelem, valamint állományrevízió és restaurálás 3.1.9.1. Az elmúlt évtized legnagyobb kihívása a dinamikusan bővülő digitális állomány megfelelő tárolása és visszakereshetősége volt. Elegendő forrás híján eseti megoldások születtek, és nem volt biztosítva sem az egységes, egy helyen történő tárolás, sem pedig a biztonsági mentések kérdése. Az E-levéltár projekt keretében a MOL professzionális, saját kezelésű szerverparkot épített ki. Ennek köszönhetően a folyamatos online tartalomszolgáltatás, a digitális iratkezelés jövőben keletkező feladatai, valamint a biztonságos és automatikus archiválás hosszú távon megoldottá vált. A digitális tartalom-előállítás és a publikálás folyamatait nem lehet és jelenleg nem is cél teljesen egycsatornássá tenni, azonban a tárolás minden intézmény számára célszerű és hosszú távon költséghatékony is, ha egységesen saját kézben van megoldva. 3.1.9.2. Az állományvédelem nemzeti kincseket őrző közgyűjteményként minden más feladatnál fontosabb a MOL számára. Éppen ezért minden egyes digitalizálási projektet megelőz egy állapotfelmérés, ami alapján előírás készül az irat kezelésével, digitalizálásával, esetleges restaurálásával kapcsolatos feladatokról. A mikrofilmeknél a denzitás-mérés mellett befutókkal is ellátták a filme- 49 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
ket, így csak azokat digitalizálták, amiket károsodás nélkül lehetett feldolgozni, illetve az előzetes beavatkozásokkal igyekeztek a gyűjtemény minél nagyobb részét digitalizálható állapotba hozni. A digitalizálás bizonyos esetekben önmagában is állományvédelemnek számít, ha az állapotfelmérésből az derül ki, hogy az irat menthetetlen, vagy jelentős kutatói igénybevételnek van kitéve. Erre jó példa az MTI híranyagának digitalizálása, amit az állomány rendkívül rossz, szinte kutathatatlan állapota indukált és az a felmérés, amiből kiderült, hogy a savtalanítás és restaurálás költségei irreális nagyságúak és a gyűjtemény értékéhez képest aránytalanok lettek volna. A középkori oklevelek értékükből fakadóan pedig rendkívül korlátozottan voltak kutathatók a digitalizálást megelőzően, ma viszont az egyik legtöbb kutatót vonzó digitális gyűjteménnyé vált Magyarországon. 3.1.9.3. A digitális feldolgozás során nemcsak előzetes beavatkozások történnek, hanem szükség esetén változtatnak az iratok tárolásán, illetve utólagos restaurálási munkákat is elvégeznek. Mivel azonban a levéltár restaurálási kapacitásai erősen korlátozottak, ezért ezt csak a legindokoltabb esetekben tudják elvégezni. A mikrofilmek és a savasodásra hajlamos, elsősorban huszadik századi iratok esetében mindig palliumokba és savmentes dobozba kerülnek vissza a dokumentumok, és a digitalizálás után már csak a legritkább esetben adják ki őket a kutatóknak. A digitalizálási projektekkel a fenti folyamatok mellett természetes módon egy fajta tartalmi felmérés is jár. Mivel a MOL által őrzött gyűjteményekről korábban már készültek segédletek, ennek a munkafolyamatnak a keretében ezek pontosítása, esetleg tartalmi mélyítése történik. Minden egyes gyűjteménynél más a feladat és az alkalmazható munkamódszer. A gyűjtemény tartalma és méretei határozzák meg, hogy melyik munkafázisban foglalkoznak a tartalmi feldolgozással, vagy – ahogy a mikrofilmeknél láttuk – hagyják későbbre azt.
3.1.10. Az MNL digitalizálási projektjeinek specialitásai, tapasztalatai 3.1.10.1. A levéltári digitalizálás legfőbb specialitása az intézmény nemzeti közgyűjtemény jellegéből adódik. Hatalmas iratmennyiséget őriznek, sokféle jellegű, hordozójú, rendkívül változatos korokban készült dokumentumokat. Minden egyes gyűjteményt más eszközzel és más szabályrendszer szerint lehet csak digitalizálni. Ez jelentősen megdrágítja és bonyolítja is a feladatot. A huszadik századi dokumentumok esetében pedig gyakran a személyiségi jogokat is figyelembe kell venni az esetleges publikálásnál, ami rengeteg tartalmi feldolgozó munkával jár. A gyűjtemények sokszínűségéből fakad az egységes publikálás nehézsége is, valamint a már említett jelentős méretű informatikai rendszer kiépítése és üzemeltetése. A digitalizálási projektek tervezésénél és kivitelezésénél Nemzeti Levéltárként is kell gondolkodnia az intézménynek, hiszen projektjei a többi levéltár számára is iránymutatásul kell, hogy szolgáljanak. 3.1.10.2. A digitális szolgáltatások beindítása több jelentős átalakulással is járt az intézmény életében. Egyrészt a munkafolyamatok, az új tudás elsajátítása nem ment zökkenőmentesen, másrészt a napi feladatok is megváltoztak, kiegészültek. Bár a kutatótermi kiszolgálás háttérbe szorult, hiszen a legkeresettebb gyűjtemények immár elektronikusan is hozzáférhetőek, de a kutatókkal való kapcsolattartás megmaradt. Tapasztalható módon megnőtt a kutatók száma és ezzel párhuzamosan új társadalmi réteg is megjelent a felhasználók között. A korábbi időkre az volt jellemző, hogy elsősorban egy tudományos-kutató „elit” használta a levéltárat, akik részletes ismeretekkel rendelkeztek a levéltár gyűjteményeiről, az irattárolás szerkezetéről és a segédletekben való eligazodás módjáról. Az online szolgáltatások azonban olyan társadalmi rétegek számára is kinyitották a levéltárat, akik korábban még nem jártak levéltárban, nincsenek szakirányú ismereteik, így sokkal több segítségre - 50 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
szorulnak a boldoguláshoz. Vagyis a kutatók kiszolgálása egyáltalán nem szűnt meg, csupán átalakult és a kommunikáció személyes jellegét felváltotta az online adatszolgáltatás. Jelenleg, a gyűjteményi digitalizálás fázisában, a korábbiakhoz képest jóval kevesebb lehetősége van a levéltár munkatársainak az iratok tartalmi feldolgozására, idejük jelentős részét az előkészítés, a projektek felügyelete, illetve a kutatók kiszolgálása tölti ki. Anyagi megterhelést is jelent a MOL számára a kutatószolgálat helyett az új típusú infrastruktúra fenntartása, valamint ma már a digitális anyag mennyisége is elérte azt a kritikus méretet, hogy önállóan kell törzskönyvezni őket, vagyis teljes értékű gyűjteményként kell kezelni és tárolni. Az informatikai tudás mellett további új kompetenciák elsajátítását igényelte az online világ adta lehetőségek és kihívások kihasználása. Sokkal több energiát kell a külső kommunikációra, imázs építésre fordítani az intézmény presztízsének megőrzése érdekében. Új jelenség az is, hogy az intézmény fejlesztéséhez nélkülözhetetlen külső források is átstrukturálódtak az elmúlt évek során. Ma már nemcsak időből van kevesebb a klasszikus levéltári feladatok ellátására, de a pénzforrások is elapadtak ezen a területen. A pályázati pénzek egyre jelentősebb része az új feladatok, a digitális tartalomszolgáltatás ellátására áll rendelkezésre. Általános jelenség és egyben új nehézség az, hogy a források elsősorban az infrastruktúra kiépítésére állnak rendelkezésre, ezek üzemeltetését azonban az intézményeknek maguknak kell kigazdálkodni. Ez egy bizonyos szinten túl már jelentős kihívások elé állítja az intézményi vezetést.
3.2. A Magyar Nemzeti Levéltár állományaihoz kötődő digitalizálási projektek 3.2.1. MTI hírarchívum A Magyar Távirati Iroda 2009-ben digitalizálni kívánta az archívumát. A cél az volt, hogy lehetőség szerint a teljes, még fellelhető anyag feldolgozásra kerüljön, minél szélesebb keresési lehetőségekkel, méghozzá korlátozás nélkül. Ennek elvégzésére mintegy 40-50 millió forint állt rendelkezésre.
3.2.1.1. Az anyag felmérése Az eredeti tervek szerint a feldolgozás alapja az Országos Széchényi Könyvtárban található mikrofilm állomány lett volna. Hamar kiderült azonban, hogy a mikrofilmek, illetve az arról szkennelt képek rossz minősége lehetetlenné teszi az anyag OCR-ezését, így elveszett volna az anyag szöveges keresési lehetősége. Időközben kiderült, hogy a Magyar Országos Levéltár rendelkezik egy teljesnek tűnő nyomtatott állománnyal, amely felöleli a MTI „kőnyomatos” híreit 1920-tól a hatvanas évekig. Az iratállomány, mint levéltári anyag került folyamatosan átadásra és megőrzésre, az 1945 előtti anyag a K428, az 1945 utáni pedig a K612-es fondban. Az iratanyag több sorozatra (pl. Napi hírek, Budapesti Értesítő, Heti kiadás, Lapszemle, Magyar Országos Tudósító) és azon belül több alsorozatra (pl. a Napi híreken belül a Napi tudósítások, kül- és belpolitikai kiadás, Belföldi hírek, stb.) bomlik. Az egyes irategyüttesek eltérő minőségű anyagon, eltérő nyomatminőségben és eltérő állapotban álltak rendelkezésre, jellemzően keménytáblás kötésben, de szálas anyagok is előfordultak. A kezdeti öröm után, amelyet az okozott, hogy megvan az eredeti anyag és egy sokkal jobb minőségű feldolgozás készülhet, hamarosan kiderült, hogy a projekt sikeres végrehajtásához igen nagy erőfeszítésre és a különböző szakterületek szakembereinek összefogására lesz szükség, méghozzá – figyelembe véve, hogy a rendelkezésre álló idő igen rövid – azonnali döntések és lépések szükségesek.
3.2.1.2. Az anyag előkészítése, szkennelés Az előzetes kalkulációk azt mutatták, hogy az 1920-1949 közötti teljes anyag feldolgozása elvégezhető, a rendelkezésre álló összeg az erre az időszakra eső 7-8 százezernyi oldal komplett digitalizálását fedezi. Az - 51 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
anyag nagy része (800-900 kötet) keménytáblás, ún. Lengyel kötéssel (cérnával, de inkább madzaggal átfogva) volt nagyon szorosan kötve. A kötetek jó része szinte kinyithatatlan volt, az oldalak belső harmadába, negyedébe „belátni” nem lehetett. A papír minősége igen rossz, erősen savas, szélei szakadozottak, a példányokban gyakran a nyomási ív sem került felvágásra.
A felmérés egyértelműen jelezte, hogy az anyag papíron történő kutatása szinte lehetetlen, igen nagy eltökéltség szükséges a kutató részéről, ha kutatni kíván ebben az anyagban. A szoros kötés miatt semmilyen szkenner alkalmazása nem tűnt lehetségesnek: könyvszkenner, lapszkenner, robotszkenner (ez utóbbi akkor még ugyan nem állt rendelkezésre, de a mai tapasztalatok alapján az sem lett volna alkalmas). Kizárólag a kötetek lapra szedése látszott egyedül járható útnak. A projekt ezen állt vagy bukott: egyrészt a sok száz kötet lapra szedése igen komoly állományvédelmi kapacitást igényelt, másrészt igen nagy volt a kétség abban a tekintetben, hogy görgős dokumentumszkennerrel való feldolgozást elvisel-e az iratanyag? A külföldi és hazai szakirodalom és az akkori közvélekedés szerint a levéltári anyag (különösen ilyen rossz minőségű, savas papíroknál) áthúzós rendszerű, görgős dokumentumszkennerekben való feldolgozása nem megengedett. Zsákutcába látszott futni a projekt: hiába áll rendelkezésre áll az anyagi forrás a magyar múlt egy igen fontos szeletét nagyon részletesen leíró, a mostani állapotában igen nehezen kutatható iratanyag feldolgozásához (ami a levéltár szemszögéből nézve külső forrás ugyan, de igen jelentős), ha az állományvédelmi szabályok, az iratanyag megóvásának elsődleges szempontja ezt nem teszi lehetővé. A levéltár vezetése igen nehéz probléma előtt állt, és igen körültekintően kellett döntenie. A döntést megelőzően újra áttekintette a projekt teljességét, a lehetséges előnyöket, hátrányokat, nehézségeket. Ennek keretében mintafeldolgozások születtek, megtörtént egy-egy jól megválasztott kötet lapokra szedése, illetve az állományvédelmi osztály szoros felügyelete alatt a szkennelése is. Ennek során a rendelkezésre álló dokumentumszkennerek (pl. a nagy teljesítményű CANON X10C mellett az ejtős rendszerű, kíméletesebb, de lényegesen kisebb teljesítményű FUJITSU fi-6130 a gyakorlatban is kipróbálásra kerültek. A tapasztalatok azt mutatták, hogy a szkennerek nagyon kíméletesek, az iratanyag sérülése szinte kizárható. A közösen kialakított munkamódszer során az anyagokat három részre osztottuk: a jó minőségű oldalak feldolgozása nagy teljesítményű dokumentumszkenneren történhet, a közepes minőségűek a felülről ejtős kisebb teljesítményűn, a rossz minőségűek pedig síkágyas lapszkenneren, ami kizár bármiféle sérülést. A teszteredmények alapján megtörtént a döntés: szemben a szakirodalommal, a közkeletű vélekedéssel, igenis lehetséges az iratanyag dokumentumszkennerrel történő feldolgozása! A projekt zöld utat kapott, most már indulhatott a nagytömegű feldolgozás. A projekt végrehajtására 3 hónap maradt. A kötetek szétszedése 5-6 embert, a lapok leszámozása 4-5 embert igényelt a levéltár részéről. Először az oldalak leszámozása, a paginálás történt meg. A lapra szedés első lépése a kötéstáblából való óvatos kiemelés, majd – ha megfelelő margóval rendelkezett a kötet – a gerinc - 52 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
levágása volt. Vastag kötetek esetén ez akár 4-5 részben is történhetett, hogy véletlenül se essen le információt tartalmazó rész az oldalakról. Ha a margó kicsi volt, laponként, vágás nélkül történt a lapra bontás. Amennyiben az ívek egyben voltak, a gerinccel ellentétes oldalon is vágni kellett. A digitalizálás 2 nagy teljesítményű (CANON X10C) és egy kisebb teljesítményű, ejtős rendszerű (FUJITSU fi-6130) dokumentumszkenneren valamint egy hagyományos síkágyas lapszkenneren történt. A közel 800.000 oldal digitalizálása 40-45 munkanapot vett igénybe, melynek során összesen mintegy 30-40 lap sérült meg. A sérülés jellemzően a lapok összegyűrését jelentette, néhány esetben a behúzás során a lap elszakadt (az előbbiek vasalással, az utóbbiak megfelelő technikájú ragasztással, japán papír segítségével tökéletesen restaurálhatóak voltak). 2-3 esetben fordult elő, hogy az oldalak annyira megsérültek, hogy nem volt visszaállítható az eredeti állapot. Összességében elmondhatjuk, hogy minimális veszteséggel sikerült a teljes anyag digitalizálását elvégezni. Már a munka megkezdésekor, illetve a próba-szkenneléseknél fontos volt feltárni, hogy mitől sérülnek a lapok, mivel lehet minimalizálni a károsodást. A tapasztalat azt mutatta, hogy a legnagyobb veszélyt a már porladásnak induló oldalakról lepergő, leeső darabok jelentik. Ezek a szkenner belsejébe kerülve megakasztják a következő oldal áthúzását, beszorul a lap, és ekkor történik meg a sérülés. Különösen veszélyesek azok az oldalak, kötetek, amelyek nagyon kis margóval rendelkeznek, így nem lehetett levágni a gerincet, hanem gyakorlatilag laponként szálazva lehetett szétszedni a kötetet. Ebben az esetben a lapok szélén maradt, onnan szkennelés közben leeső ragasztómaradványok hasonló „eredményt” produkálnak, begyűrik a következő oldalt. Ugyancsak sérülhet az irat, ha nem sikerül tökéletesen a lapok szétválasztása, gyakran hiába a duplabehúzás érzékelés, a duplán behúzott oldalak könnyen elszakadhatnak (és sajnos nem a két oldal határán). Ezért a lapra szedés után (és a szkennelés előtt) figyelmesen átvizsgáltuk az anyagot, nincsenek-e összeragadt vagy nem elég jól szétvágott lapok. A ragasztómaradványokat kefével, kézzel ledörzsöltük, letakarítottuk, lehetőség szerint az elporladt lapszéleket eltávolítottuk, leporoltuk. A szkennelés során folyamatosan figyeltük és tisztán tartottuk a szkenner belsejét, az esetlegesen leeső darabokat eltávolítottuk, a szkennert porszívóztuk. Ezekkel a műveletekkel sikerült minimálisra csökkenteni a sérülést. A szkennelés 300 DPI felbontásban, 24 bit színmélységben, 80 százalékos tömörítésű JPG-ben történt. A CANON gépeken az anyag 85-90 százalékát dolgoztuk fel, egy műszakban gépenként 6-8000 oldal szkennelése történt meg, FUJITSU-n (a teljes anyag mintegy 10-15 százalékát dolgoztuk fel rajta), naponta3-4000 oldal. Lapszkenneren minimális szkennelés történt, kevesebb, mint az anyag 1 százaléka. A lapok 80 százalékban egyoldalasak voltak, igen ritkán fordult elő kétoldalas dokumentum. Különleges volt néhány évfolyam, ahol a szokásos A4-es (21x29 cm) mérethez képest hosszú lapok (21x40) voltak. Ezek szkennelése különös odafigyelést igényelt.
3.2.1.3. Az anyag OCR-ezése A projekt másik nagy kérdése az OCR-ezés volt. Mint a mellékelt kép is mutatja, az eredeti iratok zöme rossz minőségű papíron, rossz minőségű nyomat volt. A betűk nagyon sokszor hiányosak, rengeteg javítás található a szövegben, a betűközök egyenetlenek, a sorok nem egyenesek, ugrálnak, régies a helyesírás. stb. Sokszor előfordul, hogy a hajdani készítők is rosszul olvashatónak találták a nyomatot, és tintával „utánhúzták”: kézzel átírták, megerősítették a betűket. Az eredeti iratok szkennelésével és felismertetésével ugyanakkor még mindig messze jobb minőséget lehetett nyerni, mint a mikrofilmről készített szkenneléssel. A teszteredmények azt mutatták, hogy az OCR minősége általában nem haladja meg a 60-70%-ot, egyes oldalakon még ezt a minőséget sem éri el. Általános szabályként 90-95%-os minimális jóságot várunk el az OCR-ezés során (de elégedettek akkor vagyunk, ha ez eléri a 98-99%-ot). Ennek az elvárásnak ez az anyag nem felelt meg. Mivel sokszázezer oldalról van szó, az OCR-ezés költsége is jelentősnek mondható, így tehát joggal vetődött fel a kérdés, hogy nem kidobott pénzről van-e szó? Az alternatív megoldás szerint képként tárolnánk az anyagot és csak dátum szerint lehetne keresni, szövegesen nem. Így megspórolható egy nem jelentéktelen összeg, viszont az annyira áhított teljes szövegű keresésre nem lenne esélyünk.
- 53 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Hosszas elemzés és kétség után az a döntés született, hogy mégis legyen az anyag OCR-ezve, a lehetőségekhez képest a legjobb színvonalon. Az OCR az adott idői és pénzügyi keretek között természetesen automatikus volt, mindenféle javítás nélkül, manuálisan csak a szövegkeretek felismerésén lehetett javítani. A nagyon gyenge nyomat miatt az OCR program nagyon sokszor csak képként érzékelte az oldalak egy részét, ahol meg sem kísérelte a szövegfelismerést. A megoldás tehát az volt, hogy minden egyes oldal esetén manuálisan meg kellett adni, hogy a teljes oldal egyetlen szövegkeret, és így kényszeríteni a programot, hogy minél több szót ismerjen fel az oldalon. Csodát azonban így sem lehetett várni: az egy oldalon lévő 200-300 szóból általában száz hibás volt. Az általános vélekedés azonban az lett, hogy fogjuk fel úgy: nem vesztettünk száz szót, hanem nyertünk kétszázat az adott oldalon.
3.2.1.4. PDF készítés A feldolgozások során kétrétegű PDF jött létre (felső réteg az oldal képe, az alsó az OCR-ezett szöveg) és jellemzően egy kötet alkotott egy PDF-et. Az anyag rossz minősége miatt – bár egyszínű nyomatról van szó – nem lehetett bináris, (fekete-fehér) és ebből kifolyóan igen kisméretű PDF-eket készíteni. Ebben az esetben olvashatatlanná váltak volna egyes oldalak. A mentés tehát színesben történt, így igen nagy állományok jöttek létre, amelyek kezelése jelentős erőforrásokat igényel. A PDF Title (cím) mezője az adott kötetet azonosította (pl. MTI Napi Hírek 1921.), könyvjelzőként pedig a napi dátumok kerültek a fájlokba, így gyorsan kikereshető egy adott nap anyaga.
3.2.1.5. Szolgáltatás A létrejött szabványos PDF állományok alkalmas szoftverrel akár offline, akár online formában közzétehetők. Jelen esetben mind az MTI, mint a projekt finanszírozója és megrendelője, mind a Magyar Országos Levéltár, mint az anyag őrzője publikálta a teljes anyagot a saját honlapján, mindkét fél az általa már használt és jól bevált szoftverrel. Az adatbázisok az alábbi címeken érhetők el: Magyar Távirati Iroda (évkörökre bontva): - 54 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
http://archiv1887-1919.mti.hu http://archiv1920-1944.mti.hu http://archiv1945-1949.mti.hu http://archiv1956.mti.hu Magyar Országos Levéltár: http://mol.arcanum.hu/mti
3.2.2. Középkori oklevelek Magyarország középkori történelmének legfontosabb (szinte kizárólagos) forrása a Magyar Országos Levéltár Mohács előtti gyűjteménye, az ún. DL/DF gyűjtemény. Több mint 100 éve határozták el, hogy külön gyűjteményként, kiemelve az eredeti őrzési helyből (Kamara, hiteles helyek, családi fondok, stb.), építik fel a Mohács előtti gyűjteményt, amely minden 1526. augusztus 29 előtti oklevelet, iratot tartalmaz. A MOL-ban őrzött eredeti 108.000 oklevél (DL) mellett mintegy 90.000, más forrásból (hazai és külföldi levéltárakból, intézményekből) beszerzett, Magyarországra vonatkozó, fénykép (DF) alkotja a gyűjteményt. Írásbeli múltunk eme legfontosabb forrása alapvető jelentőségű a magyar és a környező országok történelmi múltjának megismerésében. A hatvanas években a teljes anyag mikrofilmezésre került, a szakemberek korábban ezt használhatták kutatásaik során. Az oklevelek adatainak feldolgozása már a gyűjtemény létrehozásakor megkezdődött, különféle segédletek készültek, amelyek a legfontosabb adatok szerinti (dátum, kibocsátó) keresést tettek lehetővé. A nyolcvanas években megkezdődött az adatok számítógépre vitele, az akkori szokásoknak megfelelően rendezett listák nyomtatása. A kilencvenes években már igazi kereshető ISIS alapú adatbázis készült, majd a teljes anyag CD-ROM lemezen is megjelent, amely áttörést és valódi sikert jelentett a hazai középkor kutatásában. Az időközben egyre tömegesebbé váló digitalizálási projektek, az egyre növekvő kapacitások, és persze az egyre növekvő felhasználói igények hatására egyre többször vetődött fel nemcsak a metaadatok, hanem a teljes anyag digitalizálása és közzététele. Ez a kétezres évek közepéig még csak hiú ábrándnak és álmodozásnak tűnt, az ekkoriban készült egyetlen komolyan vehető felmérés (amely a MOL digitalizálási és humán kapacitásait, erőforrásait vette figyelembe) mintegy 40 évre becsülte a feldolgozáshoz szükséges időt. Abban az időben azonban robbanásszerűen beindultak a technológiai fejlesztések: az újabb nagy teljesítményű gépek, és a hazai vállalkozói kapacitások megnövekedése egyre reálisabbá tette a projekt végrehajtását. Egy 2006-ban kiírt meghívásos NKA pályázat, mintegy kísérleti projektként, 15.000 eredeti oklevél digitalizálását és adatbázisba építését tűzte ki célul. A kísérlet annyira jól sikerült, hogy 2010-re a teljes anyag (200.000 oklevélről készült 1 millió kép a hozzá tartozó adatbázissal), felkerült az Internetre.
3.2.2.1. A dokumentumok Az oklevelek igen sokféle formában, különböző anyagokon maradtak fenn. A legrégebbi eredeti dokumentum majd 1000 éves, így az elmúlt évszázadok összes anyaga, írásmódja képviselve van. A dokumentumok az alábbi típusokba tartoznak: ●
egyszerű merített papír
●
többoldalas iratok
●
protokollumok, másolati könyvek, amelyek akár több száz oklevél másolatát, átiratát tartalmazzák.
●
pergamen oklevelek: hajtogatva, sok függő pecséttel, melyek nagysága meghaladhatja akár az A2-es méretet is. Gyakran találunk ún. plica felhajtást is, ebben az esetben a felhajtott és pecsétzsinórral összekötött oklevél belseje igen nehezen hozzáférhető
●
fényképfelvételek: az eredeti oklevelek között is előfordultak (ezek az iratanyag létrehozása után Jugoszláviának visszaszolgáltatott iratokról készültek), illetve a DF anyag teljes egészében 20. századi fotópapíron állt rendelkezésre.
- 55 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A dokumentumok borítékban, a borítékok vasládákban, a levéltár pincéjében a legbiztonságosabb helyen vannak tárolva. A legértékesebb oklevelek őrzésére páncélszekrény szolgál. Egy boríték egy „DL” számot tartalmaz, ami lehet egy oklevél (egy vagy több példányban), illetve egy kötet is (protokollum).
3.2.2.3. Előkészítés Az anyag feldolgozásának célja jó minőségű, a későbbiekben sokszorosításra is alkalmas digitális másolat készítése. Ugyanakkor elsődleges az anyag állapotának megőrzése, az esetleges károsodások minimalizálása. Ezért a munka megkezdése előtt kialakításra került a munkamódszer, amely szortírozta az egyes borítékokat aszerint, hogy mely szkenneren kerül digitalizálásra. A gyakorlatban az alábbi dolgok derültek ki: ●
nem tartható az az eredeti álláspont, hogy a vállalkozó nem érhet az anyaghoz, ez lehetetlenné tenné a munkát. Megfelelő oktatással megoldható volt a biztonságos szkennelés;
●
ugyancsak nem volt tartható a cérnakesztyűs kezelése az anyagnak, tiszta, száraz kézzel kellett és lehetett dolgozni;
●
a nagy tömegű digitalizálás miatt lehetetlen volt az anyagok minimális restaurálása is, abban az állapotban kellett a szkennelést végrehajtani, ahogy azok a borítékban megtalálhatók voltak.
A feladat a levéltáros dolgozók és a vállalkozó szoros együttműködésében valósulhatott meg. A levéltárosokra hárult a feladat logisztikai része: a raktárból felhozni, dobozból kivenni, szortírozni. A szkennelők vették ki a dobozból, hajtogatták szét, és végezték el az anyag digitalizálását. Jellemzően 2-3 levéltáros és 6-8 szkennelő dolgozott 3-4 fajta gépen. Ugyancsak a levéltárosokra maradt a borítékok visszadobozolása és a dobozok visszaszállítása a raktárba. Ugyancsak ők készítették el a DL számokat tartalmazó kartonlapokat, amelyeket ellenőrzési célból az oklevéllel egyszerre szkenneltek be.
3.2.2.4. Szkennelés A szkennelés, mentés minimális paraméterei az alábbiak: 300 DPI, 24 bites színes, tömörítetlen TIFF állományok. Egy oklevélről minimum 2 felvétel készült (előlap, hátlap), amennyiben pecsét is volt rajta, akkor annak az elő és hátoldala ugyancsak felvételezésre került. Plica felhajtás esetén zárt és nyitott állapotban is készült egy felvétel, ugyanígy a papírpecsétről is. Amennyiben egy borítékban több példány is volt, mindegyikről készült felvétel. A képek DL számonként kerültek egy mappába, nevük tartalmazta a DL számot, valamint a felvételre vonatkozó információkat: ●
eredeti: orig
●
másolat: copia
●
egyéb irat ceterat
●
előlap: r
●
hátlap r
●
pecsét: sigil (DL_001514_sigil_r_1.TIFF) - 56 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A fentiekből áll össze a végleges fájlnév, pl. DL_001514_orig_r.TIFF, DL_001514_sigil_r.TIFF. Amennyiben több felvétel készül, vagy több oldalas a dokumentum, a felvételek sorszámozásra kerülnek. A szkenneléshez az alábbi berendezések álltak rendelkezésre ●
Zeutschel A2, A1 könyvszkenner
●
BookEye A2, A1 könyvszkenner
●
Digitális kamera (10 MPixel) állvánnyal, lámpával
●
Pentacon Digitális hátfal (100 MPixel) állvánnyal, lámpával
●
Lapszkenner
●
CANON X10C nagyteljesítményű dokumentumszkenner
A szétválogatás eredményeképpen a dokumentumok a megfelelő géphez kerülnek szkennelésre. Az egyszerűnek mondható egy- vagy többlapos iratok A2-es könyvszkennerre kerültek, ezek digitalizálása különösebb problémát nem okozott. A nagyobb tempó érdekében síkágyas lapszkennert is bevontunk ezekhez. A protokollumok (másolati könyvek) szkennelése könyvbölcsővel rendelkező A2-es könyvszkennerrel történt. Itt különös figyelemmel kellett kezelni a sérült, illetve a vastag köteteket, hogy elkerüljük a kötetek sérülését, illetve, hogy a szoros kötéstábla esetén is jól lehessen látni a belső margónál lévő szövegeket. A legnagyobb figyelmet a hajtogatott, pergamen oklevelek igényelték. Ezek kiterítése, kihajtása és tárgyasztalra helyezése a legnagyobb óvatosságot igényelte, nem beszélve a legnehezebb műveletről. az üveglap lehajtásáról. Annak érdekében, hogy szép, sima képet kapjunk szükséges volt az üvegleszorítás, ez viszont a mindig összeugró dokumentum miatt igen nehezen volt lehetséges. Különböző „készségek” születtek a feladat megoldására, a legjobbnak a szilikongumival bevont vonalzó bizonyult, amivel leszorítható volt a dokumentum az üveg leérkezéséig, és utána óvatosan, és a sérülés veszélye nélkül kihúzható volt.
További megoldandó feladatnak bizonyult a pecsétek elhelyezése, az üveg lehajtásától mindenképpen meg kell óvni a pecséttől. A szkennelés során a könyvbölcsőt széthúztuk, a tárgyasztalra fekete szövet került, amely puhán megtartotta a pecséteket és így már lehajtható volt az üveglap a sérülés veszélye nélkül.
- 57 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A szkennelés során a tárgyasztalra (szkenerre) felkerült a DL szám (kartonon, hogy a papírlap nyitása, csukása során ne repüljön el), illetve szabványos (KODAK) színminta is. Ez utóbbi azt hivatott biztosítani, hogy a digitális állomány elválaszthatatlanul megőrizze a későbbi felhasználás számára a felvételezés precíz színviszonyait, fehéregyensúlyát. A digitális fényképezőgép a pecsétek külön történő fotózására szolgált. A könyvszkennerek mélységélessége, megvilágítása nem alkalmas arra, hogy a pecsétek domborulatait, bemélyedéseit jó színvonalon visszaadja. Miközben a teljes oklevél (pecséttel együtt) digitalizálásra került, külön felvételek készültek a pecsétekről. Ehhez egy jól felszerelt digitális fényképezőgép, tárgyasztal, lámpa volt szükséges, amelyek segítségével különböző beállításokkal a pecsétek elő és hátlapjáról is készült felvétel, szükség esetén akár több is. Egyes oklevelek meghaladták az A1-es méretet, így a könyvszkennerekkel nem lehetett teljesíteni azt az előírást, hogy egy felvétellel a teljes oklevél digitalizálható legyen. Egy lehetséges megoldásnak mutatkozott a 100 MPixeles Pentacon kamera, ami az ún. szkennelő digitális hátfal eszközkategóriába tartozik (az eszközről részletesebben lásd ott). Itt elsősorban az oklevél kifeszítésére és a megvilágítás jóságára kellett ügyelni. A kifeszítés részben vákuumos leszívatással, részben üveglapos leszorítással történt. Ez a technológia lehetővé tette, hogy teljes alakos kép készüljön, de a felvétel felbontása, illetve a kisimítás és ebből kifolyóan a minőség is kívánnivalót hagyott maga után. A hosszú exponálási idő és a nehezen bevilágítható hatalmas felület az élesség rovására is ment. Mivel a nagy alakú oklevelek száma 50-nél kevesebb volt, azért megoldható volt a feladat, ugyan akár fél nap is elment egy-egy használható felvétel elkészítésével. A DL sorozatban is előforduló fotók digitalizálása CANON X10C dokumentumszkennerrel történt. Ezeknél az a döntés született, hogy a 300 DPI felbontás biztosítása mellett szükségtelen TIFF állományt készíteni, elegendő a 80%-os tömörítésű JPG fájl. A DL projekttől függetlenül (azt követően), a teljes DF állomány is digitalizálásra került ezzel a módszerrel. A mintegy 90.000 oklevélről mintegy 300.000 lap készült (elő, hátlap, illetve, ha nem fért el egyben, több felvétel is készült annak idején), amelynek mindkét oldala digitalizálásra került, mivel a hátlapon fontos, a jelzetre, ill. a lelőhelyre vonatkozó információk találhatók. A digitalizálási processzus legnehezebb része az ellenőrzés volt: részben ellenőrizni kellett, hogy minden oklevél, minden felvétele elkészült-e, illetve amennyiben hiányzik, annak mi az oka. Ilyen ok lehetett, hogy az oklevél kiállításon van, mérete miatt nem lehet digitalizálni (a digitális szkennelő hátfallal rendelkező eszköz csak a projekt végén lett beállítva), és előfordultak a leltározással kapcsolatos okok, pl. az adott Dl szám megszűnt, az anyag átkerült egy másik borítékba. A digitalizálás – mint mindig – egy hallatlanul pontos és alapos állományrevízióval ért fel, hiszen minden egyes oklevél kézbe lett véve, fel lett mérve az állapota, a minősége, még akkor is, ha aztán ezek lejegyzésére, a hibák kijavítására már nem jutott idő. A DL projekt végrehajtása 3 részletben, 3 közbeszerzési eljárás keretében valósult meg, hozzávetőlegesen 3 év alatt. A kezdetben becsült 150 Ft-os oldalár a közbeszerzésben megvalósuló verseny hatására 90 Ft alá csökkent. Mintegy 500.000 felvétel készült a DF állományról (a projekt indulása előtt a becsült felvételszám 1 millió volt), így mintegy 50 millió forint nettó összegből a teljes digitalizálás elvégezhető volt. Ezt követően, mintegy 3 hónap alatt készült el a teljes DF felvételezés, oldalanként 6 Ft összegért, a mintegy 600.000 felvétel ára 3,6 millió forint volt. Időközben megindult a magyar levéltárakban található DF anyagok eredetiben történő digitalizálása is. Kezdetként a soproni, a veszprémi, a Vas megyei, a Zala megyei levéltárak mellett veszprémi és győri egyházi levéltárakban található eredeti oklevelek kerültek digitalizálásra, ezekben az esetekben tehát a hatvanas években készült fotók mellett a frissen készült digitális anyag is rendelkezésre áll. A teljes digitalizált állomány mintegy 10 terabájt helyet foglal el, őrzése két példányban, merevlemezeken történik. A felhasználáshoz JPG illetve ECW tömörítésű fájlok készültek, amelyek mérete tizede-huszada az eredetinek. A teljes anyag felvételezése után viszonylag gyorsan, még 2010 folyamán, a teljes anyag felkerült az Internetre. A keresőprogram lehetővé tette a legfontosabb adatok (kibocsátó, dátum, típus, stb.) alapján történő keresést, illetve, ha részletesebb adatok állnak rendelkezésre (pl. szöveges regeszta), akkor a részletesebbet is. A megjelenítő program pedig lehetővé teszi, hogy teljes felbontásban, korlátozás nélkül az összes felvétel - 58 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
megtekinthető legyen. A képmegjelenítés lehetővé teszi, hogy DL számonként böngésszünk az oklevelek között. Az adatbázis 2011-ben felkerült a MOL honlapjára (http://www.mol.gov.hu) illetve a hazai levéltárak közös portáljára is (http://www.archivportal.hu), így ma már bárki korlátozás nélkül hozzáférhet, kutathat ebben a páratlanul értékes és eddig nehezen hozzáférhető állományban. Az adatbázis közvetlen web-címe: http://mol.arcanum.hu/dldf Az oklevelek képei mellett egy külön projekt keretében a Magyarországon megjelent majd valamennyi oklevél-publikáció is digitalizálásra került. Ezek részben az eredeti oklevelek (többnyire latin nyelvű) szövegét tartalmazták (pl. Fejér: Codex Diplomaticus), vagy az oklevélről készült magyar nyelvű kivonatot (regesztát, pl. Zsigmond-kori okmánytár). A mintegy 140.000 oldalnyi anyag, kétrétegű PDF formátumban készült el, így lehetőség van a teljes szövegű keresésre a http://mol.arcanum.hu/medieval honlapon. Az publikációk jórészt a középkori oklevelekből készültek, bár előfordulhat bennük későbbi anyag is. Az is előfordul ugyanakkor, hogy a publikáció idején még létezett az eredeti oklevél, azóta azonban nyoma veszett, így ma már csak ezekből van tudomásunk az eredeti szövegről (pl. Fejér Codex Diplomaticusa 1820 körül született), így ezek az oklevélszövegek jól egészítik ki a DL/DF anyagát. A digitális állomány létrejötte és publikálása egy korszak lezárása, de egyben egy új korszak kezdete is. Azzal, hogy bárki számára hozzáférhető az anyag, és időközben kialakultak az együttműködő, web2-es alkalmazások, lehetővé vált, hogy minden eddiginél hatékonyabb és eredményesebb feldolgozás induljon el, ezzel segítve a korszak kutatóit.
3.2.3. Kataszteri térképek A történeti források egyik legizgalmasabb, legérdekesebb típusai a térképek. Az adatok képi ábrázolása, azok megjelenése nagyban segítik a múlt feltárását és megértését. Az átfogó térképezés Magyarországon 1780-ban indult. Az I. katonai felmérés során készített 1:28.800 léptékű térképek lefedték a teljes Osztrák Császárságot. A teljes Magyar Királyságot (Erdély és a Temesi Bánság nélkül) 980 színes, kézzel festett szelvény fedi le. A felmérés még igazi geodéziai alapok és tudás nélkül készült el, a távolságmérések javarészt lépéssel történtek, így a térképek hibái, a valóságtól való eltérései igen jelentősek. Viszont mivel igen régiek (pl. még a folyószabályozás előtti időkben készültek), és akkoriban a környezet változása igen lassú volt, akár több száz évet is „visszalátunk” a múltba e térképek segítségével. 1850 táján már megfelelő matematikai és geodéziai tudással felvértezve indult meg a II. felmérés készítése. A térkép léptéke, a szelvények nagysága, a kézzel történő rajzolás, festés egyezett az előzővel, a mérőműszerek fejlődése miatt azonban a térkép pontossága, jósága nagyságrendekkel javult. Ez a tudományos alaposság és pontosság teremtette meg az alapokat arra, hogy elinduljon a polgári térképezés is Magyarországon. A szabadságharc utáni jobbágyfelszabadítás szükségessé tette, hogy az egyes földterületeket, parcellákat ne csak szöveges körülírással, hanem pontos térképi ábrázolással jelenítsék meg, az hiteles jogforrásként álljon rendelkezésre. A cél elsősorban az adózás alapjának megteremtése volt: az adót a föld nagysága és értéke alapján kellett megfizetni, így elengedhetetlen volt a pontos és naprakész nyilvántartás. A kataszteri térképek elkészítése 1856-ban indult Magyarországon, előbb a nyugati országrészek, majd a Duna-Tisza köze, végül a Tiszántúl területén. A térképkészítés megyénként folyt, egy megye átlagosan 2500 térképszelvényből állt. A megyéken belül készültek el a falvak térképszelvényei. Egy falu egy „mozaikot” alkotott, amit a nagy méretarány miatt szinte lehetetlen volt összerakni és egyben megtekinteni, így mindig csak az egyes szelvények voltak használatban. A vármegye az egy mappába került, egy-egy faluról két példányba készült térképekből állt össze. A térképszelvények legjellemzőbb tulajdonságai: ●
Méretarány: 1:2880 (nagyságrenddel részletesebb a katonai felmérésnél, annak méretaránya 1:28.800). Sűrűbben települt városoknál 1:1440, Budapesten 1:720 méretarány is előfordul. - 59 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
●
Méret: 71 x 58 cm
●
Az egy szelvényen ábrázolt terület: 1000 bécsi öl (1896 m) x 800 bécsi öl (1516 m)
A térképszelvényekről két példány készült. Az egyik példányon csak a vizeket (kék), a kőházakat (piros), a faházakat (sárga) valamint a faluhatárokat (piros) jelölték, meg a parcellaszámokat, a tulajdonosok nevét nem. A másik példányon színekkel ábrázolták a művelési ágakat, és a parcellaszámok mellett a tulajdonosok nevét is rávezették a térképre. Ezek a térképszelvények a nem színezett szelvények négyfelé vágásával készültek (egy megye így mintegy 10.000 szelvényt tesz ki), amelyeket kartonra kasíroztak oly módon, hogy könnyen lehessen hajtogatni őket. Tehát négy darab kis szelvény került egy hajtogatható kartonra és ezek a lapok alkottak egy-egy falut. A színezett szelvényeket a megyei levéltárak őrzik, a nem színezett szelvényeket pedig a Magyar Országos Levéltár és a FÖMI, kb. fele-fele arányban. A történeti kataszteri térképek közül csak a mai Magyarország területét tartalmazó szelvények találhatók meg hazánkban, mivel a trianoni döntés után a joghatással rendelkező iratok átkerültek az utódállamokhoz, hiszen ez volt a földtulajdon egyetlen hiteles forrása. A kataszteri térképek fontossága okán az NKA Levéltári Kollégiuma támogatásával több pályázat valósult meg, amelynek célja a kataszteri térképek feltárása, digitalizálása, és publikálása. Már a kezdeteknél egyértelmű volt, hogy lehetőség szerint mindkét sorozatot digitalizálni kell, hiszen látszott, hogy igen hiányos megyék is vannak, így a különféle sorozatok kiegészíthetik egymást.
3.2.3.1. Szkennelés A sokszor gyenge minőségű, sérült, hiányos vagy megégett (MOL) térképek digitalizálását csak igen nagy gondossággal lehet végezni. Ezért a helyszín kizárólag a levéltár lehet, az anyagok mozgatása nem javasolt. A kétféle térképszelvény kétféle eszközt igényel: a négybe vágott szelvények nagy sebességű A3-as síkágyas szkenneren digitalizálhatók jól, a nagyobb méretű, nem felvágottak pedig térképszkenneren. A szkennelés paraméterei: ●
Felbontás: 300 DPI
●
Színmélység: 24 bit színes
●
Formátum: tömörítetlen TIFF
Az egyik legnagyobb nehézséget a fájlnevek precíz kiosztása, a szelvények megfelelő azonosítása jelentette. A szkennelés falvanként történt, egy falu szelvényei egy mappába kerültek, amelynek neve a falu térképen látható neve volt. Amennyiben egy faluról több eltérő sorozat állt rendelkezésre (pl. készült egy későbbi változat is, mivel újra felmérték a falut), azt a dátumával azonosítottuk. A fájlok elnevezési rendjének megértéséhez meg kell ismerkednünk a kataszteri térképek szelvényrendszerével! A monarchia területén mindenütt egységesen készültek a térképek, egy-egy terület térképezése egy kezdőpontból indult ki (Magyarországon ez a Gellérthegy). A kezdőponttól nyugatra római számokkal számozták a térképeket, és nyugatra nőttek az értékek, a keleti részen, ugyancsak római számozással, keletre nőtt az érték. A függőleges koordináta az ország legészakibb pontjától indult arab számozással és lefelé növekedett. Az így létrehozott szelvényhálózat alapja a négyzetmérföld, amely egy 4000 öl oldalhosszúságú négyzet, területe 10.000 kataszteri hold. Ezt a területet osztották 20 szelvényre, amelynek szélessége 1000 öl, magassága 800 öl, területe 500 kataszteri hold. A négyzetmérföldeken belül a szelvényeket betűkkel jelölik, keletről nyugatra haladva a, b, c, d, északról dél felé pedig e, f, g, h, i betűkkel. A szelvényezést az alábbi ábra szemlélteti (O pont a Gellért-hegy). Az ábrán árnyalással jelölt szelvény jelzése: K. o. II. 36. b.h.. Magyarországi szelvényeken is gyakran találkozunk a német megfelelővel: WC = Westliche Colon, OC = Ostliche Colon)
- 60 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A térképeken általában feltüntetik a szelvények azonosítóját, a nem felvágott szelvényeken a jobb felső sarokban látjuk a koordináta jelzését, a felvágott szelvényeken négylapos egység címlapján található ez az adat. A file-ok elnevezése, beazonosításának magától értetődő eszköze a koordináta lett, így a fenti szelvény fájlneve: KO_02_26_BH.TIFF (felvágott szelvények esetén még az egyes negyedeket számmal kellett jelölni, pl. KO_02_26_BH_1.TIFF). Ne feledjük el, hogy a szkennelés falvanként történik, így elválasztódnak egymástól az azonos nevű szelvények. Hiszen a határszelvények esetén az adott szelvény mindkét faluban megtalálható (és mindkettőnek azonos a neve), csak az egyikben az egyik, a másikban a másik fél van megrajzolva.
A feldolgozás során a teljes anyag digitalizálásra került, a MOL-ban mintegy 45.000 (nagyméretű) szelvény volt fellelhető, a megyei levéltárakban levéltáranként 10-15.000 (kisméretű) szelvény. A kataszteri szelvények mellett áttekintő térképek találhatók, amelyek megadták a falu szelvényrendszerét. További típusok az ún. krokik (croquis), kataszteri térképvázlatok, illetve dűlőjegyzékek, amely a térképlapok mellett találhatók. Meg kell még említeni a földmérési vázlatokat: ezek a helyszínen készültek, ezt tisztázták le, és ez alapján készült a térkép. Ezeket füzetbe kötve tárolják, így digitalizálásuk szinte lehetetlen. Az alábbi megyék digitalizálása készült el az elmúlt években: - 61 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
MOL-ban: Győr-Moson-Sopron, Veszprém, Vas, Tolna megyék Megyei levéltárak: Vas (eddig ez az egyetlen, amelyben mind a két verzió viszonylag teljes), Bács-Kiskun, Békés, Fejér, Heves, Nógrád (a megyei földhivatalban található anyag is elkészült, sajnos mindkettő elég hiányos), Somogy, Szabolcs, Szolnok, Tolna (itt is két verzió van) megyék. Sajnos meg kell állapítani, hogy az anyagok nagyon hiányosak mind a MOL-ban, mind a megyei levéltárakban. A hiány mértéke elérheti a 30-40%-ot. A legjobb állapotban lévő megyék: Vas (mindkét verzió viszonylag teljes), Veszprém, Győr-Moson-Sopron, Tolna. Az anyag teljessé tétele további kutatást igényel, illetve a FÖMI közreműködését. Bár nagy számban lettek digitalizálva a szelvények (MOL-ban 45.000) ezek nagy része gyenge minőségű, késői, adatszegény másolat, duplum, nehezen vagy egyáltalán nem azonosítható vázlat. A 45.000 szelvényből csak mintegy 12.000 szelvény összeillesztése, a megyei mozaik kirakása volt lehetséges (Vas, Veszprém, Tolna, Győr-Moson-Sopron).
3.2.3.2. Georeferálás A beszkennelt térképek, ellenőrzés és tömörítés után alkalmasak arra, hogy falvanként megjeleníthetők legyenek. A MOL esetében ez a publikálás el is készült, a teljes anyag (45.000 szelvény) szelvényenként publikálásra került. Így a felhasználóknak emiatt nem kell bemenni a levéltárba, otthonról is vizsgálhatják a képeket. Ennél azonban ezek a szelvények többet is kínálhatnak: a modern térinformatikai rendszereknek, szoftvereknek hála, lehetőség van valódi térképként megjeleníteni őket, ami jóval alaposabb, mélyebb feltárást tesz lehetővé. Ehhez azonban georeferálni kell a képeinket, ennek eredményeképpen válik térkép a képből. A georeferálás azt jelenti, hogy minden egyes képponthoz (pixelhez) megadjuk az ő földrajzi koordinátáit, azaz a GPS koordinátát, ahol az a Földön elhelyezkedik. Ezeket a koordinátákat az iskolai tanulmányaiból mindenki ismeri, nap mint nap használjuk is őket a GPS berendezésünkben és látjuk a “Google maps”en. Egy térkép lényegében a gömb (pontosabban ellipszoid) alakú Földről egy vetítési eljárással készített kétdimenziós kép. A Föld minden egyes pontjának a papíron egy-egy pont felel meg. A georeferálás a sík térkép visszaalakítása, visszavetítése a Földre: az eljárás során a térképkészítés eredményeként kapott kétdimenziós képet vetítjük vissza a háromdimenziós Földre. A feladat pontos elvégzéséhez alapos kutatómunkát, majd nagy mennyiségű manuális munkát kell elvégezni. A kutatómunka során az alábbi paramétereket kell meghatározni: 1
Azt az ellipszoidot, amelyet az eredeti térkép készítése során a régiek használtak, amely az átmérőjével és lapultságának mértékével jellemezhető.
2
A Föld középpontját hova helyezték, az mennyivel tér el a ma ismerttől (a Föld pontos középpontját 1984-ben sikerült műholdak segítségével megmérni)
3
A használt vetítés módszerét (vetületi rendszer). A kataszteri térképeknél ún. sztereografikus vetítési eljárást használtak, amelynek lényege, hogy a vetítési középpontból (Gellért-hegy) a Föld középpontján keresztül egyenest bocsátunk a Föld másik oldalára és a Föld másik oldalán található döféspontból bocsátunk ki egyeneseket, az origónál lévő síkra.
Ismerni kell még a fent leírt szelvényezési rendszert, s ekkor már minden készen áll a feladat megoldásához. A vetületi paramétereket a fejlett térinformatikai programok ismerik, a szabványostól eltérő paramétereket pedig manuálisan megadhatjuk. A georeferálás során ilyen mennyiségben (mintegy 100.000 szelvényről van szó!) hatékony és lényegében egyedül alkalmazható módszer egy-egy szelvény négy sarokpontjának azonosítása, az ún. “négypontozás” módszere. Ez úgy történik, hogy a megfelelő térinformatikai programban a lehető legpontosabban rámutatunk a térkép négy sarokpontjára az egérrel. Ezzel mintegy megadjuk az adott pontok GPS koordinátáit, hiszen ehhez minden elméleti paramétert ismerünk, azokat a programba “betápláltuk”. A szelvényhálózati koordinátából következik, hogy az adott pont méterben megadva milyen messze van a középpontból, ez az adott pont vetületi koordinátája. Ebből a vetületi paraméterek segítségével kiszámolható a földrajzi koordináta. A program (miután megadtuk a sarokpontokat) az adott szelvény mindegyik pontjára elvégzi a számításo- 62 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
kat, és meghatározza az adott szelvény (kép) összes pixelének GPS koordinátáit. A feladat optimális esetben eredményesen végezhető, amennyiben minden adat rendelkezésre áll. A problémás esetek a következők: ●
nincs meg a falu átnézeti képe, a koordinátákkal
●
a térképen nincs szelvényhálózati beosztás
●
hibás a szelvénybeosztás
●
nem szabályos a térkép, papírtakarékosságból nem teljes szelvényt használtak (csak felet vagy negyedet; ekkor csak 1 vagy 2 pontot tudunk meghatározni)
●
az egymás melletti szelvények nem azonos időpontban készültek
A szelvények georeferálása után a szelvényeket (megfelelő programmal) már egymás mellé helyezhetjük, összeállíthatjuk a falu mozaikját. Amennyiben megye (vagy ország) mozaikot szeretnénk készíteni, el kell végezni a falvak körbevágását.
A határos szelvények, mint már említettük, kétszer szerepelnek, az egyiknek az egyik, a másiknak a másik (értékes felét) kell a mozaiknak tartalmazni. Ha bejelöltük (körülvágtuk) a falu határát, akkor egymás mellé illeszthetjük a falvakat, és kirajzolódik a megye mozaikja. Ekkor derül ki, hogy hol vannak hiányok, mely falvak, mely szelvények hiányoznak.
A kataszteri térképek georeferálásának pontossága eléri a 15-20 métert, ami figyelembe véve a térképek korát, az akkori technikát, nagyon jónak mondható. Van ahol ez a pontosság jobb (10 méter alatt van), és van ahol rosszabb, meghaladja a 30-40 métert. A szórás okának tisztázása a jövő kutatásainak feladata.
3.2.3.3. Publikálás Amennyiben a georeferálást elvégeztük többféle lehetőségünk van a termék publikálására. Készíthetünk lokálisan futó verziót (DVD vagy merevlemez), amely offline üzemmódban, Internet nélkül használható, ráadásul gazdagabb funkcionalitás valósítható meg, mint online környezetben. - 63 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A lokális verzió fő előnyei az internetes publikálással szemben: ●
A térképszelvények teljes felülete megjeleníthető, nemcsak a közvetlen térképi tartalom. Ha Interneten publikálunk, akkor csak a mozaikolt anyag jelenik meg, ugyanakkor lehetnek fontos, értékes információk a kimaszkolt területen, azaz a faluhatároló kereteken kívül is.
●
Egyszerűbb nyomtatás.
●
Tetszőleges területek, szelvények fájlba exportálhatók, akár eltérő vetületi rendszerbe és fájlformátumba is, így térképeink más geoinformatikai rendszerbe is átemelhetők.
●
Az azonos területet ábrázoló különböző térképek szinkronizálva is megjeleníthetők, párhuzamosan tanulmányozhatók.
Az internetes publikálás révén viszont például a ma legnépszerűbb online térképes alkalmazásokkal (Google Maps vagy Google Earth) tud együttműködni térképünk: a történelmi térképet rávetíthetjük a mai térképre vagy műholdfelvételre, így összehasonlíthatóvá válnak az egyes elemek. A pontosság függvényében lehetővé válik a táj változásának áttekintése, az egyes műtárgyak azonosítása, stb. A beépített Google keresés segítségével igen kifinomult kereséseket is végezhetünk. A Google Earth segítségével akár háromdimenziós alkalmazásra is lehetőségünk van, ekkor a régi térképünk alá a digitális SRTM (az egész földre kiterjedő 90 méterenkénti magasságpontokat tartalmazó adatbázis) kerül, így akár repülhetünk is a régi térképünk felett.
Az internetes megjelenítés természetesen nem csak a Google alkalmazásaival lehetséges: egy megfelelő internetes térképszerver segítségével egyszerre több térképet tanulmányozhatunk, akár szinkronizálva. A jól megtervezett térképszerverek igen hatékonyan és gyorsan szolgáltatnak speciális, térképekre optimalizált formátumokat. Ezek lehetővé teszik, hogy akár több száz négyzetméteres térképeket egyben kezeljünk (egy óriási file-ban), amiből csak a megfelelő képrészletet kell megmutatni. A feladat egy másik lehetséges megoldása, hogy a nagy képeket apró darabokra, csempékre bontjuk, ezeket azután már villámgyorsan lehet küldeni az Interneten.
3.3. Budapest Főváros Levéltára A dr. Kenyeres Istvánnal, a BFL főigazgatójával készült interjú alapján. Budapest Főváros Levéltára Magyarország második legnagyobb és leglátogatottabb levéltári intézménye. Közel két évtizede folyik nagyszabású és rendkívül tervszerű digitalizálás valamint adatbázisépítés az intézményben. Mára a legfőbb intézményi integrátorrá vált a közgyűjteményi adatbázisok publikálása terén, és mivel magas digitális szolgáltatási kultúrával rendelkezik, eddig szerzett tapasztalatai iránymutatóak lehetnek más hasonló intézmények számára. - 64 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.3.1. Budapest Főváros Levéltára digitalizálási projektjei A tervszerű digitalizálást 1998-ban kezdte el a levéltár, amikor a fenntartója támogatásával megvásárolhatta első, professzionálisnak tekinthető digitalizáló eszközeit. Ekkor kezdődött el a térképtár teljes körű digitális feldolgozása egy nagyméretű (A0-ás), Angliából vásárolt szkenner segítségével.
A digitalizálás elsődleges oka akkor az volt, hogy a rossz állapotú térképgyűjteményt, ami folyamatos kutatói igénybevételnek volt kitéve, ne kelljen restaurálni, hanem digitálisan lehessen közreadni. A méretükből fakadóan amúgy is nehezen mozgatható és nagy mennyiségű térképek kutathatósága így jelentősen leegyszerűsödött. Ugyanezek a szempontok határozták meg az 1873 előtti tervek digitalizálását, illetve a szintén népszerű és informatív fotónegatív gyűjtemény szkennelését. E három gyűjteménytípushoz korábban nem készült digitális feldolgozás, így a kutatáshoz szükséges adatbázisokat a szkenneléssel párhuzamosan készítették el. Ezeknél a projekteknél fontos szempont volt még az előre tervezhetőség, mind a feladat nagysága, mind pedig az esetlegesen menet közben keletkező problémák megoldása tekintetében. A digitalizálási projektek másik felét azon gyűjtemények szkennelése adta, amelyek adatbázis szintű részletes feldolgozása már korábban elkezdődött. A levéltár számára a legfontosabb cél ugyanis az, hogy az általa őrzött gyűjtemények minél részletesebben feldolgozott adatbázisait tegye közzé, amivel a kutatók munkáját tudja leginkább segíteni és közelibbé hozni a társadalom szélesebb rétegei számára. Az ezekhez kapcsolódó digitális képi másolatok közreadása „csupán” másodlagos fontossággal bír és célja a fizikai kutatási alkalmak csökkentése, ill. az internetre történő áthelyezése. Mivel szinte minden gyűjtemény adatbázis szintű feldolgozása és publikálása folyamatosan zajlik a levéltárban, így ezek közül csak azokhoz készítenek digitális képi másolatokat, amely gyűjtemények előzetes felmérés után, könnyen és problémamentesen digitalizálhatónak lettek ítélve. Ilyen volt eddig a végrendeletek, közgyűlési iratok, tanácsülési jegyzőkönyvek gyűjteménye. Ezekről mind elmondható, hogy rendelkezésre állt megfelelő technológia a gyors, tömeges és olcsó feldolgozásra, valamint állaguknál fogva kevés állományvédelmi előkészítést igényeltek. Ahol az előzetes felmérés nehézségeket tárt fel, inkább későbbre ha- 65 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
lasztották a digitális feldolgozást. A saját erőből történő digitalizálás mellett pedig fokozatosan, egyre nagyobb arányban jelent meg a külső forrásból támogatott és külső munkaerő bevonásával végrehajtott projekt.
3.3.2. Felkészülés, a projektek előképei, megvalósulás időbeni keretei Magyarországon elsőként a BFL-ben indult el tömeges közgyűjteményi digitalizálás 1998-ban, így konkrét előképpel nem rendelkezett az intézmény vezetése. Az első projekt indulását a fenntartó által biztosított új eszközpark tette lehetővé, de a tapasztalatok hiánya nagyon sok problémát okozott és számos nehézség lassította a feldolgozó munkát. A 2000-es évek elején a tömeges digitalizálás terén még senkinek nem volt kellő tapasztalata, így külső segítséget sem volt érdemes igénybe venni, mivel drága volt és nem nyújtottak minőségileg magasabb szolgáltatást. 2006 tekinthető fordulópontnak, amikorra ár-érték arányban már jelentős javulás állt be a külső vállalkozók ajánlatában. Az azóta eltelt idő tapasztalatai azt mutatják, hogy az Arcanummal közösen készített digitalizálási projektek amellett, hogy sokkal kedvezőbb áron valósultak meg, mint a korábbi saját erőből készült feldolgozások, jóval kevesebb problémával jártak és nagyságrendekkel gyorsabb megvalósítást eredményeztek. Ráadásul gépeket sem kellett vásárolni és üzemben tartani, amire forrás sem állt volna feltétlenül rendelkezésre. A hazai pályázati források pedig a tartalmi feldolgozást támogatták, így egy-egy előre megtervezett projekt volt finanszírozható, lépésről lépésre haladva folyt a gyűjtemények digitalizálása. Míg saját erőből 8 év alatt sikerült a térképtár felét digitalizálni, az Arcanum kivitelezésében és pályázati finanszírozással 2 év alatt készült el a gyűjtemény másik felének feldolgozása. A külső segítség igénybevételével a tartalompublikálás is megoldódott és offline adatbázisok formájában számos levéltári kiadvány született, ami az intézmény ismertségét érezhetően növelte. A digitalizálási projektek jelentős része tehát már összekapcsolódott a publikálással is, és fél évnél egyik program sem tartott tovább. Ennek köszönhetően az elmúlt 8 évben számos kiadvány jelent meg időben előre jól és céltudatosan tervezhető módon. Az eredmények ennek hatására szintén gyorsan jelentkeztek, mivel az intézmény ismertsége és látogatottsága többszörösére nőtt.
3.3.3. Projektek tervezése, középtávú digitalizálási terv A BFl-ben kezdettől fogva tudatos és igen alapos tervezés alapján láttak neki a digitalizálási projekteknek. Egyrészt a legtöbb gyűjteménydigitalizálást megelőzte valamilyen szintű tartalmi feldolgozás, hiszen 2000től a levéltár legfontosabb feladata a tömeges metaadat készítés és adatbázis építés. Ennek köszönhetően eleve alapos ismeretanyag áll rendelkezésre, de minden esetben elvégzi az intézmény állományvédelmi osztálya az állagvizsgálatot. Ami problémás, vagy nem egyértelműen megoldható feladat, azt félreteszik későbbre, hogy a digitalizálási munka fennakadás nélkül legyen elvégezhető. Sokáig csupán a képi jellegű gyűjtemények (térkép, terv, fotó) digitalizálását lehetett tömegesen végezni, ám amikor az OCR technológia elérte az elvárt minőségi szintet, a szöveges dokumentumok digitális feldolgozása került előtérbe. A Budapest főváros közgyűlési jegyzőkönyvei 1873-1949 volt az első nagyméretű szöveges közgyűjteményi adatbázis, ami már nem manuális szövegbevitellel készült. A rendelkezésre álló metaadatok és a hozzájuk kapcsolódó hiteles képi másolatok immár egységes adatbázisban kerületek publikálásra. 2000-től kezdve létezik egy folyamatosan aktualizált középtávú digitalizálási és mikrofilmezési terv. A két feladatot azért kezelik közösen, mert ugyanolyan előkészítő munkát igényelnek, illetve a digitalizálás az intézményen belül fokozatosan felváltja a mikrofilmezést.
3.3.4. A digitalizálás és a digitális szolgáltatás célközönsége Már az első tömeges digitalizálási projektnél, a térképtár feldolgozásánál az alapvető cél a kutatók egyszerűbb, ugyanakkor magasabb szintű kiszolgálása volt, így nyilván a leginkább kutatott, legnépszerűbb és várhatóan legnagyobb visszhangot kiváltó gyűjteményt kellett digitálisan közzétenni. Ezután következett az - 66 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
intézmény legfontosabb, speciális célközönségeket érintő gyűjteményeinek feldolgozása, így a tervtár a művészettörténeti, illetve építész kutatóknak, vagy a közgyűlési jegyzőkönyvek, végrendeletek a családkutatók számára. A belső szakmai körök részére készült a levéltári korpusz, ami a belső levelezéseket, utasításokat, levéltárszakmai irányelveket tartalmazza történeti síkon. Ez a mindennapi szakmai munka mellett a jövő levéltáros generációinak oktatását is nagyban segíti.
A tömeges adatbázis publikálás önmagában is sokszorosára növelte a kutatók számát, a dokumentumdigitalizálás pedig ezt tovább erősítette. A népszerű gyűjtemények mellett előzetes szakmai koncepciók alapján olyan gyűjteményeket is digitalizált az intézmény, amelyeket eddig keveset, vagy egyáltalán nem kutattak, de fontos és hasznos forrásnak vélték. Erre volt jó példa a közjegyzői iratok, amiket a gyűjtemény mérete miatt manuálisan senki nem tudott korábban áttekinteni. Már az adatbázis feldolgozással is érezhető volt a kutatók körében az érdeklődés növekedése, a digitalizált tartalommal való összekapcsolás után pedig egyértelműen beigazolódott a prekoncepció helyessége, ma már ez az egyik legkutatottabb digitális gyűjtemény. - 67 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.3.5. A digitalizáláshoz kapcsolódó előkészítés, állományrevízió és a szakmai munka menete A projektek megvalósításához szükséges előkészületek gyakorlatilag már akkor megkezdődtek, amikor a levéltári segédleteket és egyes gyűjtemények részletesebb feldolgozásait elkezdték létrehozni, noha akkor még természetesen senki nem gondolt adatbázisokra. Ilyen feldolgozó munka volt a topográfiai jegyzék, amit az 1970-es évektől készítettek folyamatosan, és ami tartalmazza az összes helyrajzi szám, házszám, telekszám változást. Ezek az adatok azonban önmagukban csekély mértékben voltak használhatóak és áttekinthetőek, ám amikor lehetőség nyílt adatbázisba építeni őket és a várostérképekkel összekapcsolni egy geoinformatikai programban, ezeknek az adatoknak a használati értéke nagyságrendekkel megnőtt. Hasonló módon a térképeknek is készült korábban egy segédlete, ami jó és elegendő alapot adott az első digitális publikálási projekt megvalósításához. Arra is van példa, hogy a tartalmi feldolgozást megelőzi a digitalizálás fázisa, ám ezek a gyűjtemények addig nem kerültek/kerülnek publikálásra, amíg leíró adatbázis nem készül hozzájuk. Ilyen projekt a Budai Tervek, a Pest Város Szépítőbizottmányának tervei, vagy legutóbb a Tanácsülési jegyzőkönyvek digitalizálása. Ma már teljesen kialakult és kiforrott gyakorlat szerint készítik elő a digitalizálási projekteket. Alapvetően tehát a digitalizálási fázist megelőzi a tartalmi feldolgozás, ám ha van rá célzott forrás, vagy pedig állományvédelmi kérdéssé válik a digitalizálás, akkor adatbázis nélkül is hozzálátnak egy-egy projekthez. Ilyen esetben módosul az intézmény által elfogadott tartalmi feldolgozás előre megtervezett menete, és a digitálisan már rendelkezésre álló gyűjtemények kapnak elsőbbséget, illetve nagyobb figyelmet. Mivel a BFL-ben az adatbázisok építése a legfőbb feladat, így viszonylag könnyű átcsoportosítani kellő számú szakembert egyegy kiemelt feldolgozó projekt végrehajtására. A gondos előkészítés nemcsak állagfelmérésből, hanem tartalmi és a jogi háttér vizsgálatából is áll. Számos olyan gyűjteménye van a levéltárnak, amiben védett adatok szerepelnek, ám ezek előzetes vizsgálata után lehetőség van belső használatú adatbázisok létrehozására, vagyis az irategyüttes tartalmi feldolgozására, lásd büntető perek adatbázisa. Fontos ugyanakkor azt is kiemelni, hogy az adatbázis építések elsődleges célja a legfontosabb információkhoz való hozzáférhetőség elősegítése, nem pedig a digitalizálás előkészítése. Azonban mint láttuk, a két feladat gyakran találkozik.
3.3.6. A digitalizálási projektek finanszírozása, külső – belső munkaerő igénybevétele 1998 és 2006 között többségében saját erőből, illetve a fenntartó által biztosított eszközök segítségével történt a digitalizálás. A tapasztalatok hiánya miatt ebben az időszakban lassan és kevésbé költséghatékonyan haladt a gyűjteményi digitalizálás. 2006 és 2012 között fokozatosan áttért a levéltár a külső vállalkozóval történő együttműködésre, aminek köszönhetően több fokkal hatékonyabb lett a megvalósítás, mind minőség, mind a kivitelezés időtartama, mind pedig a költségek tekintetében. További pozitív hozadéka volt a szisztémaváltásnak az, hogy automatikusan publikálásra is kerültek a digitalizált tartalmak, illetve ezek jelentős része. Így nemcsak hatékonyabbá vált a munka, de számos egyéb, addig nehézségekbe ütköző feladat megoldásának terhétől szabadult meg az intézmény (publikálás, eszközbeszerzés és üzemeltetés). A digitalizálással kapcsolatos terhek csökkenése mellett jelentős hozadéka volt a külső vállalkozóval, többségében az Arcanummal történő együttműködésnek, hogy a levéltár szakemberei rengeteg tapasztalatot szereztek és egy új munkakultúrát és gondolkodásmódot sajátítottak el, ami alapjául szolgál a közeljövő terveinek megvalósításához. Az együttműködés abban is segített, hogy a BFL kialakítsa azt a digitalizálási standard szabályozást, amit most már minden új projekt esetében egységesen és rutinszerűen tudnak alkalmazni.
- 68 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Ennek a 6-7 éves ciklusnak a finanszírozási hátterét legnagyobb mértékben a Nemzeti Kulturális Alap Levéltári Kollégiumának pályázatai adták. Ezek a források egyedi jellegüknél fogva nem tették lehetővé a folyamatos munkát, sokkal inkább az egyedi, egymástól független projektek domináltak a megvalósításnál. Ugyanakkor pozitívum, hogy könnyebben és előre belátható módon váltak finanszírozhatóvá az egyes gyűjtemények digitális feldolgozásai. 2012 a digitalizálási stratégia tekintetében – mind a finanszírozás, mind pedig a kivitelezés szempontjából – egy újabb mérföldkőnek számított. Egyrészt megjelentek az intézményi finanszírozásban az Európai Uniós források, így a digitalizálási elképzeléseket az ICARUS nemzetközi levéltári szervezet ENArC 1 projektjének pályázati pénzei biztosítják. Ennek köszönhetően már több éven átnyúló elképzeléseket is megnyugtató módon lehet tervezni és megvalósítani. A másik jelentős változás, hogy az E-levéltár nagyszabású hazai levéltárfejlesztési projekt keretében nemcsak a BFL informatikai háttere újult meg, hanem lehetőség teremtődött széles digitalizálási eszközpark beszerzésére is. Ennek eredményeképpen a jövőben a digitalizálási feladatok döntő többségét ismét saját erőből fogja a levéltár megvalósítani, azzal a különbséggel, hogy most már rendelkezik azzal a szakmai háttértudással, amivel 2006 előtt még nem. Szintén változás lesz, hogy a digitalizálás ettől kezdve elsősorban állományvédelmi feladatnak fog számítani, és mivel az eddig nagy erőkkel zajló mikrofilmezést felváltja, jelentős intézményi humán erőforrás is átcsoportosíthatóvá válik ezen feladatok végrehajtására. A változások nem érintik viszont a publikálási feladatokat, mivel ezek programozási és szoftveres hátterét továbbra is részben külső segítséggel kívánja elvégezni a levéltár. Ennek oka egyrészt az, hogy az évek óta folyó szakmai publikációs és adatbázisintegráló munkát nem érdemes megszakítani, másrészt jelenleg az intézmény nem rendelkezik megfelelő humán erőforrással, kellő saját szakmai háttérrel, sem pedig a feladatok megvalósításához nélkülözhetetlen saját programkörnyezettel. Az E-levéltári projekt keretében az intézmény kap majd ilyen jellegű eszközöket, amelyek fokozatos bevezetésével a probléma elvben kezelhető. Az állandó digitalizáló munka ütemét továbbra is egyedi pályázatok segítségével fogják növelni, de ezekhez a feladatokhoz megtartják a külső, már bevált partnereket.
3.3.7. A digitalizálás és publikálás eszközei, valamint a hazai és nemzetközi együttműködések 3.3.7.1. A levéltár fenntartótól kapott digitalizálási eszközei a térképek és a fotónegatívok digitalizálását tették lehetővé egy 96cm széles, nagyformátumú szkenner és egy Polaroid fotónegatív szkenner segítségével. Saját erőből bérlésre került később egy használt A2 méretű Bookeye könyvszkenner, amivel a kisebb, aktuálisan jelentkező feladatokat látták el. A 2006 és 2012 közötti időszakban az Arcanum aktuális eszközparkjával történt a digitalizálás, így mindig a legújabb és az egyes gyűjteményekhez leginkább használható eszközökkel dolgoztak. A térképek-tervrajzok széles formátumú szkennerrel, a közgyűlési jegyzőkönyvek „robot szkennerrel” és könyvszkennerrel, a szálas irat jellegű pártanyagok pedig dokumentumszkennerrel kerültek digitális feldolgozásra. Az E-levéltár program keretében több modern eszközt is lehetősége volt megvásárolni a levéltárnak, ezek közül a legjelentősebb fejlesztésnek az automata mikrofilmszkenner (Zeutschel OM1600), A1 és A2 méretű könyvszkennerek (Zeutschel OS14000; OS12000), valamint egy professzionális hang és video digitalizáló rendszer (különböző típusú szalagos tárolású felvételek lejátszása, video vágó berendezés és a hozzájuk kapcsolódó Adobe Audition CS6 digitalizáló szoftver) tekinthető. Szintén beszerzés alatt van egy A3 méretű dokumentum szkenner és egy 134 cm szélességű nagyformátumú szkenner is. Ezzel az új eszközparkkal a remények szerint a digitalizálási feladatok legnagyobb részét már önállóan is képes lesz megoldani a levéltár.
1
European Network on Archival Cooperation
- 69 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.3.7.2. A tartalomszolgáltatást kezdetben offline módon, az Arcanum által biztosított Folio Views szoftverkörnyezet felhasználásával oldotta meg a BFL. Ezzel a technológiával 2006-tól kezdődően 9 nagy adatbázis jelent meg. Az elmúlt 3 évben a publikálás fokozatosan áttevődött az internetre, ahol önállóan és közösen kereshető módon is elérhetőek immár a levéltár legfontosabb digitális gyűjteményei.
Az intézmény nem csupán saját adatbázisait integrálta közös rendszerbe, de létrehozta és üzemelteti a Magyar Levéltári Portál (http://mlp.archivportal.hu) szolgáltatást is, aminek keretében majdnem minden levéltári intézmény legfontosabb tartalmai elérhetővé váltak. Az online tartalomfejlesztéseket szintén az Arcanummal közösen, de a cég által fejlesztett saját szoftverkörnyezetben valósították meg. Ennek a Magyarországon egyedülálló integrációs fejlesztésnek a szakmai alapjait legfőképpen a BFL munkatársai adták, akik jelentős szerepet játszottak a közös adatcsere-formátumok honosításában és gyakorlatba történő átültetésében. Bár több nemzetközi együttműködésben is részt vesz az intézmény, de konkrét tartalomszolgáltatást jelenleg még nem végez nemzetközi adatbázisokban. Cél ugyanakkor, hogy a közeljövőben mind az Europeana, mind pedig a közös európai levéltári adatbázisba az APEXnet-be felkerüljenek a legfontosabb digitális gyűjtemények.
3.3.8. A digitális tartalom archiválása A digitálisan létrejövő tartalmak archiválása sokáig súlyos és máig ható következményekkel járó probléma volt a BFL-ben. Ennek oka egyrészt a források hiánya, másrészt az, hogy kellő tapasztalat hiányában nem ismerték fel ennek a területnek a fontosságát, nem kapott kellő hangsúlyt ez a feladat. Ellenben a publikálás mindig kiemelten fontos cél volt, így az elmúlt években bekövetkezett részleges adatvesztések kizárólag az archiválásra szánt, eredeti méretű állományokat érintették, így „csupán” minőségvesztés történt, információveszteség nem. A tömeges intézményi digitalizálás első éveiben kizárólag CD lemezekre írták ki az archív állományokat. Bár a drágább, minőségibbnek mondott fajtákat vásárolták, ezek nem az aranyozott réteggel ellátott archiválásra szánt változatok voltak, ráadásul a gyártók által feltüntetett élettartam töredékét sem tudták elérni! Alig több mint 10 év eltelte után sok lemez már olvashatatlan. 2008-ban részlegesen megoldódott a probléma, amikor a levéltárnak lehetősége nyílt saját szerverpark felállítására. Ez a rendszer már rendelkezett szalagos mentési lehetőséggel is, ám tároló kapacitása kicsinek bizonyult az éppen ekkor felfutó tömeges digitalizálás kapcsán létrejött tartalmak tárolására. Mivel ekkor már lehetett tudni az E-levéltár megvalósulásáról, így nem volt célszerű bővíteni ezt a rendszert, átmeneti megoldásként külső merevlemezekkel oldották meg az archív tartalmak tárolását. - 70 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
2012-ben aztán az említett informatikai nagyberuházás keretében megfelelő, natív 70 TB kapacitású új szerverparkkal gazdagodott az intézmény és ezzel párhuzamosan létrehoztak egy archiválási protokollt, amivel a jövőben egyszer és mindenkorra ki lehet küszöbölni az adatvesztés lehetőségét. A digitális archív tartalmakat havi rendszerességgel mentik, míg a folyamatosan bővülő gyűjteményi adatbázisváltozatok minden nap mentésre kerülnek. Az egységes belső, de külső publikációs felülettel is rendelkező rendszer (LEAR), amibe minden gyűjtemény-feldolgozó munkatárs folyamatosan tölti fel az újonnan létrehozott gyűjteményi leíró adatokat. A LEAR elvben képes arra, hogy a metaadatokhoz tartozó digitalizált tartalmakat is megjelenítse, azonban alkalmazása során számos technikai akadály merült fel, így az intézmény a LEAR-ban rögzített adatait az MLP-n is publikálja, és ott rendeli hozzá tömegesen a digitális tartalmakat. Az E-levéltári projekt keretében bevezetendő Scope Archiv alkalmas a levéltári anyag nyilvántartása mellett a gyűjteményi egyedi adatbázisok építésére is és a képek hozzárendelésére, publikálására is. A digitális tartalmak hosszú távú, katasztrófatűrő tárolása pedig az E-levéltári projekt keretében létrehozandó Központi Archívumban kerül megvalósításra, ahol a Tessella SDB szoftvere garantálja az adatok megőrzését, hozzáférését. Így tehát a BFL digitális állományai hosszútávon is biztonságosan fenn kell hogy maradjanak.
3.3.9. Állományvédelem, restaurálás és állományrevízió Az állományvédelmi kérdések mindig kiemelt szerepet játszottak a levéltár digitalizálási gyakorlatában, sőt – mint azt korábban kifejtettük – magát a digitalizálást is sok esetben állományvédelemnek tekintik. Éppen ezért az állományvédelmen belül bevezettek egy önálló kategóriát illetve szempontrendszert, nevezetesen a „digitalizálásra történő előkészítés” gyakorlatát. Ennek célja az, hogy a lehető leghatékonyabban támogassa a digitális feldolgozás zavartalan végrehajtását, minél kevesebb probléma merüljön fel a feldolgozó munka során, ami lassíthatja, drágíthatja, illetve beláthatatlanná teszi egy projekt végrehajtását. A „digitalizálásra történő előkészítés” során fel kell mérni az adott gyűjtemény állagát, le kell válogatni a digitalizálásra alkalmatlan iratokat, továbbá olyan állagjavító, de nem restaurátori beavatkozásokat kell végrehajtani, amelyek gyorsan, olcsón kivitelezhetők és lehetővé teszik az adott irat sérülésmentes digitális feldolgozását. Az ilyen jellegű beavatkozások ugyanakkor nem helyettesíthetik a hosszú távú archiváláshoz szükséges restaurátori, vagy egyéb állományvédelmi eljárásokat. Azok a gyűjtemények, amelyeknél nem belátható időben és költség tekintetében az állagmegóvási feladat, nem kerülhetnek digitalizálásra. A gyűjtemények, illetve egyes iratok restaurálása és hosszú távú konzerválása önálló feladat és önálló munkaterv szerint történik a BFL-ben, elkülönülve a digitalizálási munkatervektől. Ennek az új szemléletű feladatmegoldási rendszernek köszönhetően, eddig nem volt olyan digitalizálási projekt, amit jelentősebb mértékben kellett volna módosítani, félbehagyni vagy felfüggeszteni. Az alapos tartalmi és állományvédelmi előkészítés fontosságát a gyakorlat igazolta. Állomány-revízióra a szó klasszikus értelmében a levéltárban nem kerül sor a digitalizálás kapcsán, mivel a legtöbb esetben a gyűjtemények csak akkor kerülnek szkennelésre, ha már létrejött hozzájuk egy leíró adatbázis. Az előzetes tartalmi feltárás során pedig gyakorlatilag megtörténik az egyes gyűjtemények, irategyüttesek darabszintű feltárása, állományrevíziója, a felvételezés során legfeljebb egy-egy hiánypótlásra, kisebb hibák javítására kerül sor. Mivel a digitális korszakot megelőzően a levéltár az esetek többségében nem rendelkezett darabszintű jegyzékkel, így azokban az esetekben, amikor a digitalizálás megelőzi az adatleíró fázist, a szkennelés során jön létre ez a szakmai segédlet az előre meghatározott fájlnév elnevezésekkel és adatstruktúrával.
3.3.10. A BFL digitalizációs és tartalomszolgáltatási projektjeinek specialitásai Mint a hazai közgyűjteményi digitalizálás és tartalomszolgáltatás egyik vezető intézménye, a BFL projektjeinek több speciális vonása is van. Egyrészt ki kell emelni, hogy az intézmény munkatársainak fő feladata a hozzájuk tartozó gyűjtemények folyamatos tartalmi feldolgozása. Ebből következően intézményi szinten is ez az elsődleges feladat, aminek megvalósulását jelentősen mértékben segíti az egységes belső használatú - 71 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
levéltári rendszer, a LEAR, ami majdnem minden gyűjteményleíró adatbázist együttesen kezel (pl. tervek, térképek adatbázisai Folio-ban találhatók). A bevezetendő Scope Archiv már képes lesz valamennyi adatbázisunk karbantartására, építésére, a digitális tartalom publikálására is. Abszolút egyedülálló vállalkozása a levéltárnak a tartalomintegrálás, amit a Magyar Levéltári Portál létrehozásával valósított meg, és aminek keretében mára szinte minden állami fenntartású levéltár legfontosabb digitális gyűjteménye együttesen érhető el. Ki kell még emelni azt, hogy a digitalizált gyűjtemények között vannak olyan iratok, amelyek védett adatokat tartalmaznak, és mivel az adatvédelmi szabályok erősebbek a publikálás fontosságánál, nem kerülnek nyilvánosságra. Pontosabban, az ilyen típusú irategyütteseknél egyedi adatkezelést alkalmaz az intézmény (MDP, MSZMP testületi iratai).
- 72 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.3.11. A digitalizálási projektek tapasztalatai, tanulságai és legnagyobb nehézségei 3.3.11.1. A kezdeti önálló próbálkozások, majd a professzionális külső szereplőkkel történő együttműködés, valamint az egyedülálló, intézményeken átívelő integrált tartalomszolgáltatás megvalósítása kapcsán sok értékes tapasztalatot szerzett a levéltár. Ennek köszönhető, hogy bizonyos területeken ismét elindulhat az önálló feladatmegvalósítás útján. Legfontosabb tapasztalásként ki kell emelni a digitalizálási projektek előzetes alapos és minden szempontra kiterjedő (megvalósítás, állományvédelem, adatbázisépítés, szolgáltatás) tervezésének fontosságát. Hasonlóan fontos, hogy meg kell tanulni a digitalizálás technikáját, módszertanát és a megszerzett ismereteket hozzá kell igazítani az adott intézmény jellegéhez, lehetőségeihez. Saját felismerés volt az, hogy folyamatos, tömeges digitális feldolgozás esetén célszerű külön választani a digitalizálás és az adatbázisépítés folyamatát, amelyek párhuzamosan zajlanak ugyan, de eltérő ütemezéssel és eltérő célok alapján. A BFL külön munkafázisnak és feladatnak tekinti az adatbázisok és a digitális másolatok állományainak összekapcsolását, ami ugyan célszerű, de nem az elsődleges feladat. Másrészt ez az a munkafázis, ami nagy valószínűséggel külső szakértő segítségével valósítható csak meg kellő színvonalon, mivel ilyen programozói, integrált rendszerépítői szaktudással jelenleg nem rendelkeznek a közgyűjtemények és nem is igazán ez a feladatuk. Az adatbázis-szintű tartalomszolgáltatás fontosságát jelzi az az adat, hogy 2008 óta, amikor elindult a levéltár online szolgáltatása, a fizikai látogatók száma éves szinten 800-ról 2500 főre nőtt. Ez majdnem háromszoros bővülést, ismertséget és presztízs-növekedést jelent, ami már vetekszik a MNL Országos Levéltára hasonló adataival. (A képet némileg árnyalja, hogy a MNL OL kutatói sokkal több kutatónapot töltenek az intézményben (20000 alkalom/év), mint a BFL-be látogatók (6-8000 alkalom/év), de ez elsősorban az őrzött iratok eltérő mivoltából és az azokat kutatók eltérő szakmai hovatartozásából adódik. A BFL-be egy-egy konkrét irat miatt jönnek, amivel aktuális ügyeket lehet elintézni, míg a MNL OL-ba többségében történészek és családkutatók járnak, akik összetett, hosszadalmas kutatásokat folytatnak.) Az adatbázisok eredeti dokumentumok digitális másolataival történő bővítése, integrálása ugyanakkor kettős hatást gyakorol az intézmény látogatottságára. Egyrészt a gyűjtemények helytől független teljes értékű hozzáférése csökkenti a levéltárba fizikailag is ellátogatók számát, ugyanakkor nagyságrendekkel növeli az online intézményi portál használóinak körét. A kutatási alkalmak száma az elmúlt két évben, amióta tömegesen hozzáférhetőek az eredeti dokumentumok digitális másolatai az interneten, évi 8000 alkalomról 6000-re csökkent. Ugyanakkor a Magyar Levéltári Portál, ami a BFL adatbázisait is tartalmazza, látogatottsága napi 300-ra bővült, ami éves szinten 90000 valós látogatót jelet. A digitális világot megelőző időszakhoz képest ez a látogatottsági szint összehasonlíthatatlanul nagyobb lett. Az online szolgáltatásnál előfordulnak olyan napok is, amikor egy-egy sajtóhír vagy egyéb esemény hatására a napi látogatottság az 1200 főt is eléri. Ez az adat azt bizonyítja, hogy bőven van még hova fejlődni, és ennek érdekében az eddigieknél sokkal jobban is ki lehet használni az intézményi marketingben és PR-ben rejlő lehetőségeket. A digitális szolgáltatások népszerűsítésére eddig a közgyűjtemények nem fordítottak kellő figyelmet, de ahogy ezen szolgáltatások súlya nő, annak arányában kell a népszerűsítésükkel is foglalkozni. 3.3.11.2. A digitális szolgáltatások elindítása kapcsán az elmúlt másfél évtized alatt számos problémával, nehézséggel kellett szembenézni és azokat megoldani. A projektek anyagi tervezhetősége eleinte jelentős nehézségeket okozott, de a tapasztalatok bővülésével és az EU-s források megjelenésével megteremtődött a hosszabb távú projektek tervezésének lehetősége. A saját digitalizálási képességek kiépítésével szintén csökkentek a projektek bizonytalansági tényezői, bár jelentős probléma ezen a területen eddig sem jelentkezett. A nehézség sokkal inkább szervezési oldalon adódott, mivel a digitalizálás folyamata a tervezéstől a publikálásig számos egyedi ismeretet és tudást igénylő munkafolyamatból áll. Ezek megvalósításához számos szakemberre van szükség, akik eddig több különböző cégtől, intézménytől lettek delegálva, az ő összehangolásuk a zavartalan feladatvégzés érdekében bonyolult feladat. Ezen a problémán jelentős mértékben segítenek az E-levéltár projekt fejlesztései, hiszen a digitalizálás és archiválás immár házon belül oldható meg. - 73 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.4. Állambiztonsági Szolgálatok Történeti Levéltára Az Informatikai, adatrögzítő és állományvédelmi osztály helyettes vezetőjével, dr. Cseh Gergő Bendegúzzal készült interjú alapján. Az Állambiztonsági Szolgálatok Történeti Levéltárát (http://www.abtl.hu), mint a Történeti Hivatal jogutódját a 2003. évi III. törvény hozta létre 2003. április 1-jei hatállyal. Állami szaklevéltárként önálló jogállású és gazdálkodási jogkörű intézmény, amelynek költségvetését az Országgyűlés költségvetési keretén belül, önálló, elkülönített keret adja. Működését az Országgyűlés elnöke felügyeli. Digitalizálási projektjeit saját költségvetési forrásból és hazai, valamint nemzetközi pályázati forrásokból finanszírozza. A gyűjtőkörébe tartozó speciális iratanyag egyedi, és más levéltáraknál szigorúbb iratkezelési és közzétételi szabályokat von maga után, amiket a digitalizálás és az online szolgáltatások mikéntjét is alapvetően meghatározza.
3.4.1. Digitalizálási projektek A levéltár által őrzött iratok digitalizálásának igénye az intézmény működésének kezdetétől fennállt. Egyrészt egy társadalmi és politikai nyomás volt a levéltáron, hogy minél hamarabb, minél több, előző rendszerben keletkezett, vagyis a mai társadalmat leginkább érintő dokumentumhoz hozzá lehessen férni, másrészt állományvédelmi szempontok is közre játszottak a tömeges digitalizálás elindításában.
- 74 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A 4 km iratanyagból, amit a levéltár őriz, a dokumentumok állapota, értéke, és az irántuk mutatkozó kutatói igény határozta meg, hogy mely gyűjteményrészekkel induljon a digitális feldolgozó munka 1997-ben. Ezek elsősorban az úgynevezett „dossziék” (1956-os, vizsgálati, operatív), egyházüldözéssel kapcsolatos iratok, valamint az 1970-es, 1980-as évek ellenzéki mozgalmairól készült jelentések voltak. Ezekről az ÁBTL 2003. évi évkönyvében lehet részletesen olvasni. Szintén jelentős digitalizálási projekt volt a levéltár mikrofilm és mikrofiche állományának feldolgozása, ahol a könnyebb hozzáférés, kutathatóság volt az elsődleges cél. A digitalizálási projekt tervezésének és folyamatos működtetésének megkönnyítésére létrehoztak egy központi adatbázist, amibe az aktuális feladatok és munkafolyamatok állapota mellett, a gyűjteményi vezetők tapasztalataik alapján beírhatják az általuk legfontosabbnak vélt digitalizálandó tartalmakat. Ezen információk mérlegelésével készül el minden évben a levéltár digitalizálási munkaterve, amit végül az informatikai osztályvezető határoz meg. Mivel az intézmény éves munkatervének mindig része – ha nem is részletezve – a digitalizálás, ezért az intézmény munkatársai közül 3-4 fő folyamatosan ezen a területen dolgozik.
3.4.2. Felkészülés, a projekt előképei, valamint a középtávú digitalizálási terv kidolgozása Mivel a levéltár megalakulásával párhuzamosan szinte azonnal el kellett kezdeni a digitalizálást, 1997-ben nem volt lehetőség alaposabb előkészítő munkára. Hasonló jellegű szolgáltatásra Magyarországon addig nem volt példa, de igyekeztek a közgyűjteményi digitalizáló piacot felmérni, más intézmények gyakorlatait megvizsgálni. Ez abban az időben még európai szinten is gyermekcipőben járt. A kezdetektől az határozta meg a digitalizálási koncepciót, hogy a digitalizált tartalmakat olyan integrált rendszerbe kellett beépíteni, ami azonnal képes támogatni a levéltári ügymenetet. Az intézmény ezért ORACLE alapú rendszer bevezetése mellett döntött (pontosabban a kezdetben egy házi fejlesztésű ACCESS adatbázist használtak, majd 2000-től tértek át az ORACLE-ra), amit azóta is folyamatosan fejlesztenek, alakítanak a kor mindenkori követelményeihez és az újonnan keletkező digitális tartalmakhoz. Az integrált ügyviteli rendszer egyben kezeli az iratok feldolgozásának menetét, tartalmazza az állományokra vonatkozó legfontosabb adatokat, a digitalizálás menetét, valamint követi a tartalomszolgáltatással kapcsolatos adatokat, vagyis az ügyfélkiszolgálás menetét is. Alapvető cél volt tehát, hogy egy egységes, minden munkafolyamatot magába foglaló, és modulárisan folyamatosan fejleszthető rendszer jöjjön létre.
- 75 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A digitalizáló eszközökkel kapcsolatban ugyanakkor széleskörű hazai és nemzetközi piaci felmérés történt 1998-ban. Első projektként a mikrofilm és mikrofiche állomány digitalizálását végezte el a levéltár és ehhez kellett megfelelő eszközöket beszerezni. Az eddigiekből következően, egy-két évnél hosszabb távú konkrét digitalizálási tervvel soha nem rendelkezett az intézmény, mivel a meglévő forrásokat mindig az aktuálisan legfontosabbnak vélt feldolgozásokra fordították. A témaköröket nagyjából már a kezdetekkor kijelölték az említett szempontok szerint, és a digitalizálás és szolgáltatás szabályait is meghatározták. Ezeket a folyamatosan aktualizált Informatikai stratégia és a Digitalizálási koncepció című hivatalos iratok tartalmazzák, amelyek azonban soha nem haladták meg az általános elvek szintjét. Az adott keretek és szabályok között pedig az aktuális lehetőségek, a kutatói igények tendenciája, valamint az iratanyagok feldolgozása során szerzett új ismeretek határozzák meg a konkrét cselekvési tervek tartalmát. Ez azért hangsúlyos, mivel a levéltár által 1997-ben átvett iratokról minimális előzetes információ állt rendelkezésre, ezeket mind a mai napig folyamatosan dolgozzák fel, látják el alapvető segédletekkel a levéltár munkatársai. Látható tehát, hogy az ÁBTL esetében a digitalizálással párhuzamosan folyik a levéltári anyag alapszintű feltárása is, ezért az informatikai rendszer megléte és működtetése még a digitalizálásnál is fontosabb feladat.
3.4.3. A digitalizálás és a digitális szolgáltatás célközönsége A levéltár számára a legfontosabb feladat az iratok előkészítése, segédletek létrehozása. Éppen ezért a digitalizálásnál az elsődleges cél a saját kollégák munkájának segítése, a kutatói kérések gyorsabb kiszolgálása érdekében. Szintén fontos cél volt, hogy az iratok minél kevésbé károsodjanak. A kutatók sok esetben másolatban is kérik az iratokat, ami jelentős másolási költséggel és anyagromlással is járhat. Ezt a problémát a digitális másolati példányokkal lehet a leghatékonyabban megoldani. 2012-ig tartott az informatikai koncepció által kitűzött feladatok megvalósításának első fázisa, vagyis a legfontosabb irat együttesek tömeges digitalizálása. A következő évtől indul be a kutatók részére a tartalmak online szolgáltatása, amelynek keretében az adatbázisban szereplő tartalmakat fokozatosan már csak és kizárólag elektronikus úton kutathatják. Az iratok gyakran kényes és máig ható tartalmára tekintettel ebbe a szolgáltatásba számos, más levéltárak esetében szokatlan biztonsági elemet kellett beépíteni. Ezek célja az, hogy az iratok valódisága, hiánytalansága és utólagos módosításuk kizárása megoldott legyen. Ezzel kapcsolatban ugyanis már voltak negatív tapasztalatok a közelmúltban Magyarországon. A digitálisan hozzáférhető iratok esetében szigorú protokoll szerint történik a szolgáltatás. Minden felhasználó – legyen az kutató, vagy a levéltár munkatársa – esetén meghatározásra kerül, hogy milyen típusú dokumentumokhoz és azon belül milyen típusú tartalmakhoz férhet hozzá. A rendszer csak azokat az iratokat engedi megnyitni, amikhez engedélyezett a felhasználó hozzáférése, az egyes dokumentumokon belül pedig a védett tartalmakat szoftveres úton kitakarják a szövegből. Ennek a bonyolult rendszernek a létrehozásához azonban rengeteg előkészítő és szövegszegmentáló feldolgozómunkára van szükség.
3.4.4. A digitalizáláshoz kapcsolódó előkészítés, állományrevízió és a szakmai munka menete A teljes levéltári rendszert az intézmény megalakulásakor 1997-ben kellett kialakítani. Vagyis a mai rendszer egyidős a levéltárral, hiszen az irategyüttes újonnan jött létre, semmilyen elektronikus segédlet nem állt rendelkezésre. A metaadatok fajtáit is ekkor kellett meghatározni, a tárgyszórendszerrel és a speciális decimális kódrendszerrel együtt, ami az iratok későbbi tematikus visszakeresését segíti elő. A gyűjteményleíró rendszer szabványát tehát előzetesen létre kellett hozni, de a konkrét segédletek és tartalmi leírások folyamatosan, párhuzamosan készülnek a digitális tartalom előállításával, illetve a levéltári adatbázis építésével. - 76 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A digitalizálásra szánt iratok minden esetben átesnek egy revízión, amelynek keretében a dokumentumok azonosítása, sorba rendezése, az esetleges hiányok, sérülések feltárása és javítása történik. Amióta a levéltár rendelkezik savtalanító berendezéssel, a digitalizálás a legtöbb esetben együtt jár az állagmegóvással és szükség esetén a restaurálással is. A digitalizált dokumentumokhoz készül egy nyomtatott és elektronikus formában is eltárolt leírás, amely tartalmazza a dokumentummal kapcsolatos összes fontos információt, továbbá a vele kapcsolatban elvégzett munkafolyamatok leírását is. A digitálisan létrejött állományokat a gyűjteményfelelősök szakmai és adatvédelmi szempontok szerint szegmentálják, így a szolgáltatás során nagyon pontosan meg lehet határozni, hogy mely felhasználó, milyen adatokhoz jogosult hozzáférni.
3.4.5. A digitalizálási projektek finanszírozása, külső és belső munkaerő igénybevétele 3.4.5.1. Egy másfél évtizedes digitalizálási program nem egy egységes finanszírozású, klasszikusan előre megtervezett folyamat volt, hanem több alprojektből tevődött össze. Ezen projektek az intézmény informatikai és digitalizálási koncepciója alapján valósultak meg, azonban a finanszírozási hátterük minden esetben egyedi volt. A levéltár saját költségvetéséből minden évben egy elkülönített részt az informatikai fejlesztésekre használ föl. Ez elsősorban eszközbeszerzést és üzemeltetést, kisebb részben egyedi, külső vállalkozóval történő informatikai fejlesztések finanszírozását jelenti. A digitalizálást végző 3-4 munkatárs munkabérét is értelemszerűen az intézményi bérkeretből fizetik. Az intézmény központi éves munkatervében nincsenek nevesítve a digitalizálással kapcsolatos feladatok, ezek meghatározása az informatikai főosztály hatáskörébe tartozik. A digitalizálásra „beállított” kollégák pedig más szakmai feladatokat is ellátnak, vagyis esetükben nem beszélhetünk teljes munkaidős digitalizáló tevékenységről. Ezen túl azonban nem áll rendelkezésre saját erő a projektek működtetésére, minden mást pályázati forrásból valósít meg a levéltár. A kisebb projektek költségeit az NKA-hoz benyújtott sikeres pályázatok fedezik. Ilyen volt az Arcanummal közösen készített DVD-ROM kiadvány (Állambiztonsági Szolgálatok Történeti Levéltára, 2007), vagy a legutóbb megnyert eredeti dokumentumok (Belügyi Parancs Gyűjtemény) digitalizálása, OCR-ezése és online publikálása (www.abparancsok.hu), amit saját munkatársaival készített az intézmény. Jelentősebb, éveken átnyúló volt a Norvég Alap által finanszírozott komplex levéltári program, aminek egyik eleme a tömeges digitalizálás volt, de ennek keretében került sor a veszélyeztetett állományok savtalanítására és restaurálására is. Ennek a pályázatnak a költségvetése messze túlmutat a többi financiális lehetőségen, ezért az intézmény is nagyobb humán erőforrást biztosított a projekt sikeres és határidőn belüli végrehajtásának érdekében. 3.4.5.2. Míg a digitalizálást eddig szinte kizárólag az intézmény saját munkatársaival oldotta meg, addig más kapcsolódó területeken javarészt külső munkaerőt foglalkoztat. A külső és belső adatszolgáltatást lebonyolító ORACLE rendszert Lux Zoltán tartja karban, aki szerződéses állandó tanácsadóként dolgozik a levéltárnak. Ezen felül, a jelentősebb volumenű fejlesztéseket egyedi szerződések alapján végzik el. Ezek financiális háttere legtöbb esetben az éves informatikai keret terhére valósul meg. Ilyen fontosabb fejlesztés volt az ORACLE rendszerre épülő kiszolgáló adatbázis, az ÁBTLINFO. Éves szinten az ÁBTL digitalizálásra és adatbázis építésre átlagosan 15 millió Ft-ot fordít a 700 milliót meghaladó teljes költségkeretéből. Ehhez jön még a 4 digitalizáló, valamint a rendszerbe esetenként adatokat töltő többi munkatárs bérköltsége. A digitalizáláshoz kapcsolódó eddigi legnagyobb önálló projektet a Norvég Alap finanszírozta az elmúlt években. Ennek keretében történt meg a digitális állomány legnagyobb részének elkészítése több 10 millió forint értékben. A teljes pályázati keret 120 millió forintjából 20 milliót fordítottak informatikai fejlesztésre és 50 millióból építettek ki és üzemeltettek egy ultramodern savtalanító állomást. Ennek üzemeltetését szin- 77 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
tén külső vállalkozóval oldották meg, és a projekt ideje alatt havi 90,000 oldalnyi dokumentum tisztítása történt meg. Ez heti 6 munkanapot és 12 órás dupla műszakot jelentett. A Norvég Alap által támogatott program lezárulta után a levéltár saját forrásainak terhére folytatja a komplex állományvédelmi programot, de értelemszerűen csökkentett intenzitással.
3.4.6. A digitalizálás és publikálás eszközei A levéltár alapvetően két típusú dokumentum digitalizálásával foglalkozott eddig. Először a már említett mikrofilmeket és mikroficheket kellett digitálisan elérhetővé tenni, amihez a kilencvenes években beszerezhető fekete-fehér MINOLTA MicroDax 3000 típusú szkennereket vásárolta meg. Ezzel a teljes állomány feldolgozása azóta megtörtént, és bár a technológia fejlődött, az alapvető igényeknek ma is megfelelnek az akkor létrejött digitális állományok. Az eseti feldolgozásokhoz sokáig kizárólag egyszerű síkágyas szkennereket használtak, amik a customer világ (vagyis a nem ipari teljesítményű) erősebb gépeit jelentették. Ez döntően EPSON A3 méretű szkennereket jelent. Az egyedi szálas dokumentumokhoz ez elegendő a tartalmi feltárást végző kollégák számára. 2008-tól üzembe állt a jóval nagyobb teljesítményű és méretű, közepesen gyors Zeutschel A2 könyvszkenner, ami a levéltári dokumentumok feldolgozásához ideálisnak nevezhető eszköz. Az integrált ügyviteli és szolgáltató ORACLE adatbázisba eddig 1,3 millió oldal tartalom került betöltésre és további 500,000 már digitalizált oldal áll rendelkezésre. Ezeket – elsősorban a humán erőforrások hiánya miatt – eddig még nem volt lehetőség integrálni. A felhasználók kiszolgálását a levéltár által fejlesztetett ÁBTLINFO adatbázis végzi. A külső felhasználók kiszolgálása már évek óta folyik, az adatbázis egyszerűsített verziója kb. három éve érhető el a kutatóknak az interneten keresztül. Hamarosan a digitalizált és anonimizált iratokat is elektronikus formában fogják tudni kutatni, egyelőre helyben, aztán fokozatosan az interneten is. Ebbe dolgoznak a levéltár munkatársai, ennek segítségével lehet nyomon követni az adatbázisban történt tartalmi változásokat, valamint a kutatói aktivitást is. Az interneten keresztül szolgáltatott tartalmak csupán egy részét képezik a teljes adatbázisnak és biztonsági okokból fizikailag is egy önálló szerveren vannak elhelyezve. Az ÁBTLINFO adatbázis jelenleg 800,000 nevet és a hozzájuk kapcsolódó 1,6 millió oldalkép-fájlt tartalmaz. Minden egyes oldalhoz hozzá van rendelve egy jogosultsági szint és a közeljövő feladata lesz, hogy az oldalakon belül található különböző információ típusok is önálló jogosultsági szinteket kapjanak. Így lehetőség lesz a felhasználó számára kizárólag azon szövegrészeket biztosítani, amelyek érdeklik, és amelyeket a mindenkori törvényi szabályozások szerint megtekinthet. Az integrált rendszer jelenleg az adatfeltöltésen, adatszolgáltatáson túl kezeli és dokumentálja a teljes levéltári ügymenetet. Az adatbázis verzióváltozásainak követése mellett azt is rögzíti, hogy ki, mikor, milyen dokumentumokhoz fért hozzá, azokkal mit csinált. A kutatók aktivitása esetén a fénymásolatok, vagy digitális másolatok igényét is rögzíti, így kerülve el az esetleges visszaéléseket, és ugyan a tartalomhamisítások lehetőségét nem is zárja ki teljesen, de legalább megbizonyosodhatnak róla, ha az történne.
3.4.7. Restaurálás, a digitális tartalom archiválása és állományvédelme 3.4.7.1. A digitális állományok archiválása a tartalom kényes volta miatt, szigorú szabályok szerint történik, a levéltár által üzemeltetett saját szerverek segítségével. A teljes ORACLE alapú adatbázis egy professzionális LINUX szerveren került elhelyezésre, ami semmilyen fizikai kapcsolatban nem áll a külvilággal. Ebből következőleg ehhez csak az intézményben dolgozó, megfelelő jogosultsággal rendelkező kollégák férhetnek hozzá. Mivel átlagosan negyvennél is többen dolgoznak egyszerre az adatbázissal, és minden egyes személy autentikációját minden dokumentum típusnál el kell végezni, a kiszolgálást egy tükörszerver, vagyis két szinkronizált gép látja el. Az adatokat továbbá duplikálva, RAID-be mentik, az esetleges meghibásodásból keletkező adatveszteség elkerülése érdekében. - 78 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Az adatbázisban történt módosításokról, valamint a felhasználók aktivitásáról automatikusan óránként készül inkrementális szalagos mentés. A munkahét végén pedig a teljes adatbázis tartalma mentésre kerül. Ehhez 12 darab, egyenként 400 GB-os szalagos egységet használnak. Az elkészült mentés a szerverektől elkülönítve, egy tűzbiztos páncélteremben kerül elhelyezésre. A mentéshez használt szalagokból 3 szortiment áll rendelkezésre, és felváltva használják őket, így legrosszabb esetben sem veszhet el egyhetinél több munka anyag. Azon tartalmak szolgáltatását, amelyekhez interneten keresztül, regisztráció után hozzáférhetnek az akkreditált kutatók, egy fizikailag elkülönített szervergép végzi. Ezt az adatbázist is frissítik, de nem olyan rendszerességgel, mint a központi rendszert. Az adatok átmásolása pedig a két szerver fizikai kapcsolata nélkül valósul meg. 3.4.7.2. A restaurálás és állományvédelem leglátványosabb eredménye a savtalanító állomás üzembe helyezése volt. Ezzel az eszközzel várhatóan 50 évre konzerválni lehet a megtisztított dokumentumokat. Ugyanakkor a művelet nem teljesen kockázat nélküli, ezért a dokumentumok savtalanítását minden esetben megelőzte a digitalizálás művelete, hogy semmiképpen se vesszen el semmilyen egyedi információ. A Norvég Alap által támogatott projekt keretében tömegesen valósult meg a dokumentumok savtalanítása, ehhez először a szakterületen nagy tapasztalattal rendelkező külső céget bíztak meg. Ma már a restaurátorok üzemeltetik a rendszert, míg a karbantartást továbbra is külsős szakemberekre bízzák. A restaurálás folyamatosan zajlik és mára minden digitalizált dokumentum esetében megtörténik. A digitalizálásra szánt iratok kiválasztásánál legalább 40%-ban az állagmegóvás a meghatározó, a már említett történeti érték és a kutatói igények mellett. A savtalanítást minden esetben megelőzi egy portalanítás és radíros tisztítási fázis is, hogy a szennyeződések ne rögzüljenek az eljárás során a papíron. Ugyanezen okból eltávolítják az esetleges ragasztószalagokat, értelemszerűen még a digitalizálás előtt kiszedik a gemkapcsokat, illetve a folyósnak ítélt tinta esetén a szöveget bekenik egy ciklododekán alapú fixáló anyaggal. Ez a „lakk”-szerű réteg ideiglenesen megvédi a veszélyeztetett szöveget a savtalanító lúgos folyadéktól, majd a papír száradása során fokozatosan elpárolog. Az említett állományvédelmi folyamaton átesett dokumentumok esetleges sérüléseit ezek után japán papírral megragasztják, majd az összetartozó iratokat lepréselik és cérna, illetve ragasztókötéssel kötetekbe rendezik. Ez utóbbi műveletre azért van szükség, hogy el lehessen kerülni a kutatók általi esetleges iratlopásokat, aminek veszélye a levéltár által őrzött tartalmak jellegéből következően fennáll. A teljes munkafolyamat költsége, illetve amennyiért a levéltár ezt a szolgáltatást más intézmények számára vállalja, nagyjából bruttó 200 Ft / lap. A könyvszkenner beszerzése is a digitalizálás kíméletességét javította, mivel ezek az eszközök speciális könyvbölcsővel és nyomásérzékelős leszorító technológiával rendelkeznek.
3.4.8. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel Az online tartalomszolgáltatás eddig nagyrészt a nem védett dokumentumokra koncentrált, illetve a védett dokumentumok adatleíró űrlapjait lehetett elérni interneten keresztül, megfelelő személyes regisztráció után. A következő évtől azonban jelentősen bővülni fog a szolgáltatott tartalmak mennyisége, köszönhetően annak, hogy a leíró adatlapokhoz kapcsolódó eredeti dokumentumok is bekerülnek a rendszerbe. Mivel minden egyes dokumentum minden egyes oldalát előzetesen szegmentálni kell adattípusok szerint, a tömeges digitális közzététel hosszabb időt vesz igénybe. Az elkövetkező évek során folyamatosan kívánja a levéltár az adatszolgáltatás bővítését elvégezni és ezzel párhuzamosan a személyes kutatási alkalmakat csökkenteni. Erre már csak azért is szükség van, mert az ÁBTL iratanyaga a leginkább igénybevett irategyüttes Magyarországon, a kutatóterem szinte mindig „teltházas”. Az ÁBTL Online összekapcsolása nemzetközi adatbázisokkal nem cél, mivel ezeknek a gyűjteményeknek a publikálása nagyon speciális követelményeket támaszt. Ebből következik, hogy a hazai nagyobb portálokhoz sem elsődleges cél a kapcsolódás, bár a szakmai oldalakkal, mint a Magyar Levéltári Portál, nem kizárt az - 79 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
együttműködés. Egy ilyen jellegű kooperációnál is csak a dokumentumleíró adatok esetében van realitása az adatcserének. Mint arról korábban már szó volt, a levéltár által őrzött dokumentumokhoz való hozzáférését szigorú szabályok határozzák meg, ugyanakkor törvényi kötelezettsége az intézménynek az általa őrzött iratok megismertetése az arra hivatott állampolgárokkal. Ezért a mindenkori tartalomszolgáltatást ingyenesen kell nyújtani, hiszen az ÁBTL gyakorlatilag egy információs kárpótlási hivatalnak számít.
3.4.9. Az ÁBTL digitalizációs és tartalomszolgáltatási projektjének specialitásai Más magyarországi közgyűjteményekhez képest alapvető különbségek az őrzött dokumentumok egyedi tartalmából és a rájuk vonatkozó törvényi szabályozásból ered. Alapvető elvárás ugyanis az ügykezelés és közzététel során az anonimizáció, valamint a dokumentumokhoz hozzáférő személyek autentikációja. Ehhez kapcsolódik a speciális szoftveres eljárás, amelynek segítségével csak azok a dokumentum-részek kerülnek megjelenítésre, amelyek hozzáféréséhez a felhasználó jogosult.
Az informatikai rendszer létrehozásakor teljesen egyedülálló volt közgyűjteményi szinten az a mérvű integrált rendszer, ami a tartalom előállítás mellett, az adatszolgáltatást és a mindennapi ügymenet és munkamenet dokumentálását is egyben képes tárolni valamint feldolgozni. Az őrzött tartalomtól függetlenül is egyedinek nevezhető az intézmény állományvédelmi programja, amit már a kezdetektől fogva szerves egységként kezeltek a digitalizálással. Ezt mindig az adott lehetőségek és a rendelkezésre álló eszközök segítségével valósították meg. Mivel azonban kiemelt feladatként tekintettek az állományvédelemre, a fejlesztési források jelentős részét erre a területre összpontosították. Ennek köszönhetően működik ma egyedüliként az ÁBTL-ben tömeges savtalanításra is alkalmas berendezés, ami mára már saját üzemeltetésben, más intézmények igényeit is ki tudja elégíteni. - 80 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.4.10. A digitalizálási projekt tapasztalatai, tanulságai és legnagyobb nehézségei Pozitív eredménye az ÁBTL digitalizálási projektjének, hogy zárt integrált rendszernek, a bonyolult autentikációnak és számos egyéb biztonsági „féknek” köszönhetően eddig sem adatvesztés, sem pedig adatlopás, vagy hamisítás nem történt. Ugyanakkor az ilyen összetett rendszerek csak nagyobb intézmények számára hozhatóak létre, mivel az üzemeltetésük nagyon megterhelő feladat, mind anyagi, mind munkaóra ráfordítás szempontjából. Az egész rendszer motorját jelentő ORACLE adatbázis licencdíjának milliós éves költsége már önmagában komoly teher, és akkor még nem beszéltünk a rendszer folyamatos fejlesztéséről, a mindennapi üzemeltetésről és főleg az adatbiztonság fenntartásáról. Az informatikai költségeket is meghaladja a dokumentumok digitalizálásra, majd szolgáltatásra történő előkészítése. Ezen feladatok elvégzéséhez kétszer annyi munkatársat kellett bevonni a munkába, mint a digitalizáláshoz. A Norvég Alap által támogatott projekt egyik legnagyobb tanulsága volt, hogy a digitális dokumentumok utómunkálatai (ellenőrzés, az eredeti levéltári rend visszaállítása, esetenkénti rendezés, stb.) is nagyságrendekkel nagyobb munkát jelentettek, mint ahogy előzetesen számolták, így az intézmény dolgozói közül a tervezettnél többeket kellett erre a munkára átirányítani a tervezett határidők betartásához. Vagyis egy digitális adatszolgáltatási rendszer kiépítése és üzemeltetése jelentős és folyamatos költségekkel jár. A tartalmi- és szoftverfejlesztéseknek pedig folyamatosan követniük kell a felhasználói igények és a jogszabályi előírások változásait, ugyanakkor harmóniában is kell lenniük az intézmény anyagi és emberi teljesítőképességével.
3.5. Kalocsai Főegyházmegyei Levéltár A levéltár vezetőjével, Lakatos Andorral készült interjú alapján. A Kalocsai Főegyházmegyei Levéltár (http://archivum.asztrik.hu) nyilvános magán levéltár, amelynek mindössze két állandó alkalmazottja van, a működési finanszírozást legfőképpen a Kalocsa-Kecskeméti Főegyházmegye adja, míg a digitalizálást külső forrásokból, támogatásokból és bevételt teremtő projektek létrehozásával biztosítja.
3.5.1. Digitalizálási projektek A Matricula Historia Online (http://archivum.asztrik.hu/?q=oldal/e-kutatas-matricula-historia), vagyis az egyházi anyakönyvek és egyedi helytörténeti kötetek digitalizálása és interneten történő publikálása a levéltár legfontosabb projektje. Emellett a levéltárban őrzött egyéb tartalmak, így a térképek, jegyzőkönyvek digitalizálása is megkezdődött, de ezek publikálása elkülönül az anyakönyvektől és önálló adatbázisként kerül közzétételre szintén az internet segítségével, ez a KFL Online (Kalocsai Főegyházmegyei Levéltár Online). A digitalizálásra szánt tartalmak kiválasztásánál elsődleges szempont a kutatók által legtöbbet használt gyűjteményrész közzététele volt. Mivel az anyakönyveket már hosszú idő óta kutatták, évtizedekkel ezelőtt megkezdődött a törzsanyag rendezése és mikrofilmezése. A kutatók elsősorban családtörténeti és sokszor ebből következőleg helytörténeti szempontból dolgozzák föl az anyakönyveket.
- 81 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Másrészt az anyakönyvek a levéltár számára tartalmi és mennyiségi szempontból is a legnagyobb és legfontosabb gyűjtemény, így esetünkben a szakmai szempontok egybeestek a kutatói igényekkel. A harmadik szempont, ami az anyakönyvek primátusát erősíti az, hogy az érsekség területére vonatkozó anyagok jelentős részét feltáratlanul az egyes egyházi parókiákon őrzik, előfordul, hogy elfogadhatatlan körülmények között (fészerben, sufniban, füstölőben, padláson), aminek legfőbb oka, hogy a jelenlegi plébánosok legtöbb esetben a létezésükről sem tudnak. Szintén fontos szempont volt, hogy az anyakönyvek fűzött, kötet formában őrzött, paginált dokumentumok, amelyeket más gyűjteményekhez viszonyítva kisebb munkaráfordítással is rendezni, egységesíteni lehet. Továbbá a tartalom struktúrája is viszonylag következetes és egységes elvekre épül, így a későbbi feldolgozó munka is aránylag egyszerűen tervezhető volt, és előzetesen tartalmi szempontból is könnyen meg lehetett határozni a projekt mérföldköveit.
3.5.2. Felkészülés és a projekt előképei A digitalizálási projektek előzetes megtervezésekor, vagyis 2007-ben az anyakönyvi digitalizálási projekt méretéhez képest nem volt hasonló előzmény, amihez viszonyulni lehetett volna. Más feladat néhány száz vagy ezer darabos gyűjtemények digitális feldolgozása és kezelése, és megint más feladattal jár a több százezer oldalas anyakönyvi gyűjtemények feldolgozása. Éppen ezért az anyakönyveknél kezdettől fogva az alapvető cél az egyszerűségre törekvés volt, hogy minél hamarabb digitálisan is szolgáltatni lehessen a gyűjteményt a kutatók számára. Vagyis a minőségi archiválást nem tekintette a levéltár prioritásnak, így az elkészült digitális tartalom szigorúan nem is felel meg ilyen téren a szakmai elvárásoknak.
- 82 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A digitális feldolgozásnál a minél nagyobb mennyiségű tartalom minél gyorsabban, olvasható formában történő digitalizálása volt az elsődleges cél. Ezért egyszerű és viszonylag olcsó berendezésekkel, tömörített, vagyis kis tárolókapacitást igénylő képfájlok előállítása volt a legfontosabb feladat. Az első lépés a létrejövő képállományok fájlelnevezésének kialakítása volt, aminél a gyűjtemény struktúráját kívánták leképezni (település, forrás típusa és évköre). Ugyanakkor a levéltár egyéb fontos, de ritkábban kutatott gyűjteményeinél, mint például a kéziratos térképek, nem elsődleges cél a gyors, tömeges online publikálás, így ezek feldolgozása pályázati projektekhez kötődve esetlegesebben, de mindig a szakmai minőségi elvárásoknak megfelelően történtek. Ez egyaránt vonatkozik a digitalizálás minőségére és a digitális másolatokhoz kapcsolódó leírások mélységére, igényességére.
3.5.3. Digitalizálási projektek tervezése, középtávú digitalizálási terv kidolgozása A levéltári tartalmak digitalizálására tudatosan készült az intézmény. 2008-ban az Arcanum Adatbázis Kft.vel közösen elkészítették azt a szakmai tanulmányt, ami megalapozta az anyakönyvi digitalizálási projektet és egyben biztosította, hogy a jövőben más intézmények által készítendő gyűjteményekkel is kompatibilis lehessen a kalocsai anyakönyvi adatbázis. Az NKA pályázati támogatásainak segítségével minta projektek készültek, amik kiterjedtek különböző dokumentum-típusokra és gyűjteményi egységekre. Ezeket a munkákat a közgyűjteményi digitalizálási piacon legnagyobb tapasztalattal rendelkező céggel készítette el a levéltár. Ezen pilot projektek során az Arcanum modellezte az egyes gyűjtemény típusokhoz kapcsolódó munkafolyamatokat, bemutatta a szükséges digitalizálási technológiákat és tanácsot adott a levéltár igényeinek megfelelő saját géppark kialakítására. Mivel - 83 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
egyes esetekben (kéziratos térképek) a digitalizálással együtt a publikálást is megoldotta a cég, így menet közben az adatbázisépítés legfőbb elveit, szabályait is elsajátíthatta a levéltár. A pilot projektek kapcsán hasznos tapasztalatokat sikerült szerezni a digitalizálás és publikálás költségeivel kapcsolatban, ez megalapozta egy folyamatosan működtethető, fenntartható anyakönyvi digitalizálási projekt tervezését. A középtávú szakmai terv a teljes anyakönyvi és kötetes helytörténeti állomány parókiákról történő begyűjtése, digitalizálása, rendszerezése és publikálása volt. Kapcsolódó feladat pedig a veszélyeztetett állományok restaurálása és az egyes parókiákon, a jövőbeni őrzési körülmények javítása volt. A keletkezett tapasztalatok alapján, a projekt kapcsán történt a külső források és támogatók felmérése, valamint az előzetes célokat figyelembe véve a digitalizálási eszközpark fokozatos beszerzése és a szolgáltatás beindítása. Az online szolgáltatás elindításához a pilot projektek kapcsán létrejött állományok adták az alapot. Így lehetővé vált, hogy 2009-től kezdve, a saját erőből történő digitalizálással párhuzamosan beinduljon az online szolgáltatás is.
3.5.4. Az online szolgáltatások célközönsége Az elsődleges célközönséget döntően a családkutatók adják. Ők már régóta jelen vannak az intézmény életében, de az online szolgáltatás beindításával számuk megháromszorozódott. Ennél is fontosabb és jelentősebb a növekedés a kutatás intenzitását illetően. Ahhoz, hogy egy ilyen jellegű projektet működtetni és előre tervezni lehessen, elengedhetetlenül fontos a kutatói aktivitásról részletes és folyamatos statisztikákat készíteni. Ezek alapján lehet meghatározni, hogy milyen tartalmakkal érdemes bővíteni a digitális szolgáltatásokat, és azokat milyen eszközökkel, mennyi időráfordítással, milyen részletességgel és feldolgozottsággal kell közzétenni. A statisztikák alapján kiderült, hogy az online szolgáltatás létrehozásával a korábbi évi 100 regisztrált kutatószám 300-ra nőtt. Az egyes kutatási alkalmak száma pedig a 300-ról évente 12000-re emelkedett. Mindez annak ellenére, hogy a korábbi ingyenes helyszíni kutatás helyett, a fizetős szolgáltatás került döntően előtérbe, már közvetlenül a szolgáltatás beindításától kezdve. Rendkívül örvendetes tény, hogy a kutatók korosztálya is kiteljesedett. Korábban szinte kizárólag a diákok és a nyugdíjasok, ill. a csekély számú hivatásos kutató használta a levéltár szolgáltatásait, ma viszont a dolgozó korosztály is ugyanolyan számban képviselteti magát a regisztrált felhasználók között. Szintén pozitív fejlemény, hogy a távolsági korlátok megszűnésével a határon túli kutatók is megjelentek (Közép-Amerika, Ausztrália is). Elsősorban Délvidékről vannak előfizetői az online anyakönyvi adatbázisnak, mivel ez a terület történetileg még a Kalocsai egyházmegye vonzáskörzetébe tartozik. Ez az adat egyben azt is mutatja, hogy a levéltárnak a jövőben szorosabb együttműködést kell kezdeményeznie a délvidéki levéltárakkal és célszerű lesz közös projekteket indítani. Illetve az ottani parókiákat is be kell vonni a digitális feldolgozásba. Így egy digitalizálási projekt kapcsán, a határokon átívelő kulturális együttműködések is új lendületet kaphatnak.
3.5.5. A digitalizáláshoz kapcsolódó előkészítés és a szakmai munka menete A pilot projektek alapján fel lehetett építeni a digitalizáló rendszert, ki lehetett alakítani a digitális tartalmak struktúráját, és a digitalizálás-publikálás módszertani részét. A digitális állományokhoz kapcsolódó metaadatok azonban csak menet közben készülhettek el, mivel az anyakönyvek esetében a digitalizálás egyben egy tartalomfeltáró munka is. Rengeteg helyről kellett az anyagokat begyűjteni, és ezeket át is kellett nézni, strukturálni, mivel előzetesen adat alig állt rendelkezésre. A kevés előzetes információ okán, a munka főleg feltáró jellegű volt. A 80-as évekbeli mormon mikrofilmezés kapcsán becsült oldalszámok is egy nagyságrenddel nagyobbak lettek, a kibővülő évköröknek és a tematikának is köszönhetően. - 84 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
A kötet jellegű tartalomnak köszönhetően az anyakönyvi iratok alapvető beazonosítása és azok strukturális rendezése minden esetben megoldható volt. Előzetesen felmerült, hogy az egyes plébániák teljes iratanyagát rendezni kellene, ha már egyszer átnézésre kerül az anyag. Ezt a munkát szintén modellezni kellett, így újabb pilot projektek készültek a plébánián őrzött iratok feldolgozására. A tapasztalatokból azt a következtetést kellett levonni, hogy a teljesség igényével történő feldolgozás évtizedekre kitolná az anyakönyvi projekt lebonyolítását, ami több szempontból is elfogadhatatlan és kivitelezhetetlen volt. Egyrészt a projekt egy dinamikusan bővülő, fizetős tartalomszolgáltatásra épített, ami így képes önmagát finanszírozni. Másrészt a jelenlegi magyarországi viszonyok között az intézmény számára (és valószínűleg ez bármely magyarországi intézményre igaz) financiálisan és strukturálisan is tervezhetetlen egy 4-5 évnél hosszabb projekt. Harmadrészt a digitális környezet folyamatos változása is oly mértékben intenzív, hogy évtizedekkel előre szintén nem lehet megmondani, hogy milyen igényeknek és feltételeknek kell majd megfelelnie egy ilyen jellegű szolgáltatásnak a távoli jövőben. Az iratrendezés és feldolgozás ezért kizárólag a gyorsan beazonosítható anyakönyvi és egyéb kötetes állományokra terjedt ki, és természetesen az iratok őrzésével kapcsolatos felvilágosításra, esetleges segítségnyújtásra. A digitalizáláshoz kapcsolódó metaadat készítés tehát párhuzamosan zajlik a feldolgozással. Minden digitális dokumentum egyedi fájlnevet kap, ami egyben megmutatja az adatbázis-struktúrában való elhelyezkedését. A kötetekhez önálló Excel tábla készül, amely 8-10 alapvetően fontos adatot tartalmaz, de ezen adatok egy része anyakönyvi típusonként eltérő. Minden esetben meghatározásra kerül viszont az őrzési hely, az eredetiségre vonatkozó adat, valamint hogy milyen irattípusba tartozik. Továbbá a településnév, évszám, egységesített címleírás, a kötethez tartozó felvételszám és esetlegesen egy speciális megjegyzés. Fontos kiemelni, hogy a tartalmak mutatókkal ellátva kerülnek publikálásra, de az egyes anyakönyvi bejegyzések nincsenek feldolgozva. Ez nem volt része az első középtávú tervnek, mivel szintén jelentős mértékben lassította volna a publikálás ütemét, a mutatók alapján pedig így is meg lehet találni minden fontos információt, legfeljebb nagyobb időráfordítást igényel.
- 85 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.5.6. A digitalizálási projektek finanszírozása 3.5.6.1. A szöveges adatbázisok már 1997-től kezdődően jöttek létre a levéltár gyűjteményi feldolgozása kapcsán. Ezt kezdetben Kalocsa Város Önkormányzata támogatta. Ez az együttműködés mind a mai napig fennáll, így a most készülő digitalizálást is segíti. 2007-2009 között a levéltár külső munkaerőt alkalmazott, a már említett pilot projektek és szakmai tanulmányok elkészítéséhez, amit döntően az NKA, kisebb részben támogatók finanszíroztak. A finanszírozásban a kivitelező cég, az Arcanum is segített korlátozott publikációs jog fejében, ami más hazai intézményeknél is bevett és jól működő finanszírozási forma. Ez utóbbi finanszírozás azonban nyilvános magán levéltár lévén, hosszútávon nem volt elfogadható, mivel az alapvető célkitűzés az, hogy az egyedi dokumentumok felett a tulajdonos rendelkezzen. Ez az elv érvényesül a plébániákkal szemben is, ezért kerül visszaszállításra az irategyüttes a digitalizálás végeztével. Az egyházi és magán intézmények esetében nem cél az “ingyen munka fejében – publikálás” elvét követni, mivel ezen intézményeket elsősorban nem az állam finanszírozza, költségvetésüket több forrásból kell előteremteni. Állami intézmények esetén, ahol adóforintokból történik a finanszírozás, ez az elv bevett és támogatható. A 2009-től induló, saját finanszírozásból és forrásokból megvalósított projekt financiális hátterét a 2008-ban készült tanulmány határozta meg. Alapvető cél az egyszerű, előre tervezhető és így fenntartható rendszer kialakítása volt. Mivel a témából adódóan nem támaszkodhatott a levéltár NKA által finanszírozott pályázatokra, ezért az egyszerűség és a felhasználói célközönséggel történő összefogásra kellett alapozni a digitalizálást. A projekt indulásához 2009-ben az alap informatikai és digitalizálási háttérrendelkezésre állt, amit azóta a bevételek arányában fokozatosan bővítettek, cseréltek le komolyabb tudású eszközökre. Kezdetben a működési költség financiális háttere több kisebb forrásból tevődött össze, amihez az online szolgáltatás beindításával további jelentős forrás kapcsolódott. 3.5.6.2. A szolgáltatáshoz szükséges szerver hátteret és annak üzemeltetési költségét a Paksi Atomerőmű Zrt. biztosítja. Az intézményi költségvetésből a két állandó levéltáros munkabére mellett évi egy-egy kisebb alprojekt finanszírozása biztosított. A Bács-Kiskun Megyei Közgyűlés szintén támogatta a levéltárat két éven át néhány százezer forint erejéig, a legfontosabb támogatást azonban a város közreműködésével kapja a levéltár, a közmunkaprogramon keresztül. 2009-ben 2 közmunkás bevonásával kezdődött a digitalizálás, ma pedig 4 fő dolgozik folyamatosan. Elengedhetetlenül fontos volt a sikerhez, hogy a feladathoz értő, megfelelő szaktudással és affinitással rendelkező közmunkásokat sikerült találni, így elhivatott és alapvetően hivatásszerűen dolgozó munkaerő segíti a projektet. Mivel tudatosították bennük a munkájuk fontosságát és értéket, szívesen végzik a sokszor monoton munkájukat, így a projektet hátráltató fluktuációt sikerült elkerülni. Ahhoz, hogy hosszú távon ugyanazok a munkavállalók maradhassanak a közmunka programban, szükséges volt, hogy az intézmény a helyi munkaügyi központtal is jó együttműködést alakítson ki. Mivel az értékteremtő közmunkát a megyei és városi vezetés is támogatta, ez viszonylag zökkenőmentesen sikerült. 3.5.6.3. A Matricula Historia Online adatbázis szolgáltatása a projekt indulása után egy évvel indult be, addig a tartalom-előállítás első fázisa zajlott. A kutatók számára leginkább informatív házassági anyakönyvekkel indult a tartalomszolgáltatás, aminek köszönhetően azonnal intenzív felhasználói aktivitás volt tapasztalható. Átlagosan napi egy új felhasználóval bővült a látogatók köre, és a napi látogatottság télen 40 fő/nap, nyáron 20 fő/nap aktivitásban állandósult. Mivel az adatbázis sok többlet feladatot és költséget ró a levéltárra, amit magán intézmény lévén magának kell előteremtenie, elkerülhetetlen volt az előfizetési díj bevezetése. Ez kezdetben 4000 Ft/negyedév költséggel járt a kutatóknak, 2012-ben pedig 5000 Ft/negyedévre emelkedett. Az összeg meghatározásánál igyekeztek figyelembe venni azt, hogy mennyi pénzt költ kultúrára a célközönség, így egy közepesen drága könyv árához igazították a regisztrációs díjat.
- 86 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Fontos megjegyezni, hogy a családkutatók speciális célközönség, akik egyébként is jelentős összeget költenek a kutatásaikra (utazás, szállás, szakirodalom, stb.), egy ilyen adatbázissal pedig spórolnak is a helyszíni kutatásokhoz képest. A regisztrációból származó milliós bevétel és az egyéb támogatói forrásokból befolyó hasonló összeg önmagában már elegendő a rendszer üzemeltetéséhez, a nem professzionális, de a célkitűzéseknek megfelelő eszközpark karbantartásához és szerény fejlesztéséhez. A karbantartás, naprakész adatkezelés, apróbb fejlesztések a szolgáltatásokban, valamint új adatok folyamatos feltöltése szintén fontos és költségigényes feladat, amihez külső rendszergazdát alkalmaz az intézmény évi 400,000 Ft költségkerettel. A közmunka programnak köszönhetően pedig folyamatosan, intenzíven bővült a szolgáltatott tartalom, amelynek köszönhetően 2012 végére az anyakönyvi digitalizálási program lényegében befejeződik.
3.5.7. A digitalizálás és publikálás eszközei A pilot projektek kapcsán készült tartalomdigitalizálásnál, mivel azt külső vállalkozóval végeztette a levéltár, minden esetben az adott kor legmodernebb eszközeit használták, amelyek egy-egy dokumentumtípusra voltak optimalizálva. Ezek publikálása egyrészt offline módon lett megoldva, hiszen 2008-2009-ben még ez volt az elfogadott norma. A kéziratos térképekből DVD-ROM kiadvány készült, ami az Arcanum által használt Folio Views programkörnyezetben jelent meg. Kisebb részben pedig fokozatosan kerültek fel tartalmak a KFL Online adatbázisba. Saját erőből tömegesen, idáig kizárólag az egyházi anyakönyvek és a helytörténeti kötetek digitalizálása történt meg. Ehhez a lehető legegyszerűbben és olcsóbban beszerezhető, valamint üzemeltethető eszközöket alkalmazta a levéltár. Jelenleg 4 munkaállomás van kialakítva, amelyek egy-egy kötetfotózásra alkalmas tárgyasztalból, a hozzá tartozó hideg fényű megvilágításból, valamint egy számítógépről vezérelhető tükörreflexes digitális fényképezőgépből állnak. A gépek Nikon és Canon gyártmányok, de miután fokozatosan lettek beszerezve, így nem egyforma típusúak. Jelenleg 2 db Nikon D90-es, 1 db Nikon D300-as és egy egyszerűbb, egyedi dokumentumok fényképezéséhez használatos Canon automata gépet üzemeltetnek. A gépekhez használt optikák Sigma gyártmányú, fix 24 illetve 28mm-es makro lencsék. Bár van némi torzításuk, széles látószögük miatt nagyobb kötetek digitalizálására is használhatóak. Ezek az eszközök nem alkalmasak a minőségi archiválásra, mivel nem minden esetben elegendő a felbontásuk, továbbá az eltérő gépek eltérő tulajdonságú digitális képeket hoznak létre, az alkalmazott objektívek sem biztosítják a torzításmentességet, valamint a kötetek digitalizálásához nem használnak leszorító üveget, így a kép nem mindig éles, az oldalak hullámosak lehetnek. Azonban – mint azt korábban leszögeztük – nem is ez a cél. Az egyszerű, de gyors módszer alkalmazása lehetővé tette, hogy napi több ezer oldal fényképezése készüljön el olyan minőségben, ami a kutatók számára elégséges az információszerzéshez. A felhasználói visszajelzések pedig igazolták e tekintetben a levéltár előzetes elképzeléseinek helyességét. A tartalomszolgáltatáshoz nyílt forráskódú, Linux alapú DRUPAL honlapkészítő platformon keresztül, SQL alapú adatbázist használ a levéltár, amit a levéltár rendszergazdája fejlesztett. Az adatbázishoz kapcsolódó flash alapú képmegjelenítő program szintén saját fejlesztés. Az üzemeltetéshez egy budapesti szerverparkban elhelyezett, saját tulajdonú net szervergépet, valamint egy úgynevezett árnyékszervert használnak. Utóbbi a zökkenőmentes üzemeltetés mellett arra is szolgál, hogy az új fejlesztéseket a szolgáltatás leállítása nélkül is tesztelhessék. A rendszergazda a szoftverek működési kereteit alakítja ki a fejlesztések során, azonban a tartalmak kezelése, szolgáltatása, adminisztrációja a levéltár feladata.
- 87 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.5.8. A digitalizálási projektek idő és költségráfordítása 2009-ben indult az anyakönyvek saját erőből történő digitalizálása, ami 2012-ben fejeződik be. Ez alatt az idő alatt sikerült az egyházi anyakönyveket az 1920-as évekig digitálisan feldolgozni, online kutathatóvá tenni. Egy-egy újabb keletű település anyakönyvei még hiányozhatnak, de ezek rövid időn belül pótolhatóak. Az anyakönyvekkel párhuzamosan a KFL Online, vagyis a levéltár törzsanyagát közzétevő adatbázis is fokozatosan bővült. Ezen tartalmak digitalizálása azonban eddig esetleges volt, a 2013-tól kezdődő új digitalizálási projekt részét képezi a levéltár egyéb fontos, kötet formában őrzött iratainak a digitális feldolgozása. Az elmúlt 3-4 évben 1 millió oldalnyi digitális kép jött létre, amelyek tartalmilag még nincsenek feldolgozva, nem kapcsolódik hozzájuk klasszikus értelembe vett tudományos adatbázis, csupán „önmutatós rendszerben” lettek közzétéve. A saját erőből készült digitalizálás teljes költsége nagyjából bruttó 18-20 millió Ft volt, amely összeg már tartalmazza a közmunkások állam által támogatott bérét is.
3.5.9. Online tartalomszolgáltatás és kooperáció más hazai vagy külföldi intézményekkel Magán levéltárról lévén szó, nem cél feltétlenül a pénzért szolgáltatott tartalom bekapcsolása más adatbázisokba, portálokba. Ezt az elvet erősíti az a tény is, hogy sok helyről adódott össze az anyag, akikkel az együttműködést alapvetően a bizalom határozza meg. Ők pedig a Főegyházmegye kérésére kizárólag a Kalocsai Főegyházmegyei Levéltár számára biztosítják az iratanyagaikat. A tartalomelőállítás finanszírozása is jelentős részben szponzori pénzekből adódott össze, ami megint csak nem teszi lehetővé az állami intézményekkel való közös publikálást. A határon túli területek esetében egyedül a délvidéki intézményekkel volna lehetőség együttműködni, mivel az egyházmegyére vonatkozó iratok vegyesen vannak Szerbiában és Magyarországon. Itt is őriz a levéltár délvidékre vonatkozó iratokat és fordítva. A délvidéki parókiák iratainak digitalizálásához biztos, hogy fizetni kell Szerbiának, ezért ehhez is szponzorokat kell majd találnia a levéltárnak. Mivel jelenleg Szerbiában nem prioritás még a digitalizálás, hiába őrzi a levéltár a Bács-Bodrog terület elmúlt 100 évének iratait, digitális iratcseréről nem nagyon lehet szó. Az ilyen jellegű feladatok finanszírozásában alapvetően a saját kutatóival kíván kooperálni a levéltár. A MACSE (Magyar Családkutatók Egyesülete), vagy a Magyar Örökös Kutató Iroda Kft. (utóbbi vállalkozás formájában hasznosítja a levéltári tartalmakat) már eddig is hajlandóságot mutatott arra, hogy anyagilag is támogassa az olyan tartalmak digitalizálását, amelyeket saját erőből nem vagy csak irreális ráfordítással lenne képes beszerezni. Más országok kulturális tartalomszolgáltatóival, ill. közgyűjteményeivel abban az esetben van értelme az együttműködésnek, közös publikálásnak, ha az együttes szolgáltatás által nyújtott szinergia elősegíti a kutatói szám növelését.
3.5.10. A digitális tartalom archiválása, állományvédelem, állományrevízió és restaurálás az anyakönyvi digitalizálás során 3.5.10.1. A saját digitalizálás során keletkezett képfájlok fizikailag három különböző helyen kerülnek archiválásra. Egyrészt a szerveren és az árnyékszerveren az adatparkban, másrészt egy külön merevlemezen, ami a levéltárban található, így földrajzilag is elkülönül a tárolása a szerverektől. A digitális képek három külön formátumban kerülnek mentésre. Az eredeti állományok a digitális fényképezők által készített legkisebb tömörítésű, 12 Mp méretű JPG fájlok. Ebből készül egy közepes tömörítésű, így fizikailag kisebb változat a publikáláshoz, amik már el vannak látva a levéltár vízjelével. Végezetül az adatbázis nézőképeihez készül egy tömörítésében és felbontásában is kisebb, 2 Mp-es JPG fájl. - 88 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Mindhárom képverzió archiválásra kerül mindhárom helyen. Ebből a diverzifikált mentésből adódik, hogy a tartalomváltozás követése bonyolult feladat. A kutatók által jelzett hibákat, oldalhiányokat pótolva, minden esetben, mind a 9 állományban meg kell tenni a szükséges módosításokat, ami komoly és időigényes feladat. 3.5.10.2. Az állományvédelem nem volt elsődleges célja az anyakönyvi projektnek, mivel a gyorsaság, egyszerűség és költséghatékonyság határozta meg a kivitelezést. További objektív okok is gátolták, hogy komolyabb energiákat lehessen az iratok minőségi állományvédelmére fordítani. Egyrészt bizonyos iratok eleve nagyon rossz állapotban voltak, elképesztő módon tárolták őket a plébániák (füstölőben, padláson stb.). Másrészt a megállapodás szerint a digitalizálást követően vissza kellet szolgáltatni az iratokat az őrző tulajdonosnak. Mivel a levéltárnak jelenleg nincs megfelelő tároló kapacitása ilyen mennyiségű irathoz, így elviekben sem merült fel az iratok bármilyen formájú átvétele (letét, őrzés stb.). Az állományvédelem a projekt során így abból állt, hogy felhívták a tulajdonosok figyelmét az iratok fontosságára, tanácsot adtak az őrzés helyes módjára, valamint minden esetben savmentes dobozokba csomagolták visszaszállítás előtt az iratokat. 3.5.10.3. Az anyakönyvek restaurálására még kevésbé volt lehetőség. Egyrészt ez megsokszorozta volna a projekt költségeit, másrészt időben is beláthatatlanná tette volna. Ennek ellenére a kifejezetten veszélyeztetett, kirívóan szennyezett állományok esetében szintén igyekeztek segíteni a plébániáknak. Miután az iratok tulajdonosai megértették a gyűjtemény nélkülözhetetlen voltát, sokszor maguk kerestek forrást arra, hogy fertőtlenítsék, vagy némileg restaurálják a rossz állapotban lévő anyakönyvi köteteket. Ehhez a levéltár szponzorain keresztül igyekezett alkalmanként forrást keresni, illetve az OSZK-Soros Könyvrestauráló Műhellyel meglévő jó kapcsolatokat sikerült felhasználni a költségek mérséklésére, mivel a munkálatokat itt végezték el. 3.5.10.4. A plébániákról digitalizálásra kerülő tartalmak bekerültek a levéltár fond- és állagjegyzékébe. Ezekről az iratokról korábban semmilyen konkrét információ nem állt rendelkezésre, így ez nem nevezhető állományrevíziónak, sokkal inkább iratfeltárásnak és rendszerezésnek. A szolgáltatás során tartalmilag is fokozatosan kiderülnek a hiányok, pontosabb lesz a segédlet. A levéltárban őrzött anyakönyvek és egyéb, a KFL Online-on közzétett tartalmak esetében történik a klasszikus értelemben vett revízió. Miután viszonylag rendezett a levéltár gyűjteménye, itt is legtöbb esetben inkább az adatok pontosítása történt meg. Bővült az állományok leírása, például a szövegnyelvi információkkal, továbbá a levéltári segédletek a digitalizálási programnak köszönhetően immár kötet szintűvé váltak. Minden anyakönyvi kötet esetében – legyen szó saját vagy parókiákról beszállított anyagról – készült egy kinyomtatott és behelyezett előzék-oldal, ami az adott kötetre vonatkozó legfontosabb információkat tartalmazza, kezdve a levéltári hierarchiában elfoglalt helyétől egészen a pontos oldalszámig, így segítve a későbbi irategyesítési és hiányfeltárási munkákat is.
3.5.11. A Matricula Historia Online projekt specialitásai, egyedi vonásai A Matricula Historia Online az első anyakönyvi szolgáltatás Magyarországon, amit ráadásul egy kisméretű, nagyon szűk anyagi és humán erőforrás-lehetőségekkel rendelkező, magánfinanszírozású levéltár hozott létre. Szintén egyedisége a projektnek, hogy gyakorlatilag saját forrás nélkül, szponzorok segítségével jött létre, és olyan modellt sikerült kialakítani, ami hosszabb távon is önfenntartóan tud működni. Az induláskor igyekeztek alaposan felmérni a kutatói igényeket és erre építették a programot. A magyarországi közgyűjteményi világban abszolút speciális, hogy járatlan úton, NKA támogatás nélkül indult el. Inkább sok apró forrásból gyűjtötték össze az induláshoz szükséges forrást, amivel lépésről lépésre haladtak, mint hogy egyben próbálták volna összeszedni a program nagyjából 20 milliós összköltségét. Ezt
- 89 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
senki nem támogatta volna. Megjegyzendő, hogy ez az utólag már sikeresnek nevezhető vállalkozás teljes egészében a gazdasági válság alatt zajlott le! A támogatói összegek hozzájárultak a tartalom dinamikus bővítéséhez, most pedig, hogy elkészült a teljes anyag, és van egy kialakult masszív felhasználói réteg, akik anyagilag is hajlandóak áldozni a kutatásra, a rendszer működése és további fejlődése önfenntartó módon megoldható.
3.5.12. A projekt kapcsán szerzett tapasztalatok, tanulságok A levéltár szempontjából a legfontosabb tapasztalat az volt, hogy egy ilyen mérvű digitalizálási projekt alapvetően átalakítja mind az intézmény életét, mind pedig a levéltárosok napi feladatait. Egy online szolgáltatással párosuló digitalizálás következményei visszafordíthatatlanok. Egy hasonlattal élve olyan ez, mint amikor gyermek születik a családban. Attól kezdve figyelni kell rá, gondozni kell, megváltozik az addigi fontossági sorrend, a napi rutin stb.. Egy adatbázis szolgáltatásával folyamatosan teljes embert kívánó feladatok vannak. Egy-egy kutató személyes kiszolgálása helyett jóval több emberrel kell tartani a kapcsolatot, kezelni kell a regisztrációkat, a pénzügyeket, az esetleges észrevételeket és azok megoldását, valamint folyamatosan menedzselni kell a digitalizálást és az adatbázis működését, bővítését. Szintén figyelmet kell fordítani a szolgáltatás színvonalának fenntartására, a szolgáltatás népszerűsítésére, új tagok toborzására. A másik érdekes és figyelemre méltó tapasztalat, hogy a kutatók milyen komoly áldozatkészséget mutatattak a közösnek érzett cél megvalósulásáért. Erre jó példa, hogy a regisztrációs díj mellett gyakran adakoztak is egy-egy felhívásra, hogy minél előbb online elérhetővé váljon az általuk igényelt tartalom, amiért aztán pluszban a regisztrációs díjat is hajlandóak voltak befizetni. A kutatók lelkesedése a tartalom előállítás területén is kezd megmutatkozni, ezért a következő középtávú terv már tartalmazza az online szolgáltatás WEB 2.0 szolgáltatásokkal történő kiegészítését. A jövőben a levéltár szeretne a közösségi erőben lévő lehetőségekre építeni, és lehetőséget adna a kutatóknak, hogy meghatározott elvek alapján tartalmilag is építsék az anyakönyvi adatbázist. Erre a kutatói szándékra utal Wéber György „Családfakutatás vagy településkönyv” című közelmúltban az AKUFF Hírmondóban (Magyarországi Németek Családkutató Egyesülete) megjelent cikke, amiben az egyéni családfakutatással párhuzamosan elkészíthető adatbázis-segédletek fontosságára hívja fel kutatótársai figyelmét. Az online szolgáltatás számos pozitív eredményt is hozott az intézmény életében. Már az első év után a MACSE, akik a levéltárat használók jelentős részét jelentik, az „év kutatóhelyének” választotta a Kalocsai Főegyházmegyei Levéltárat. 2012-ben a levéltár vezetője megkapta a Pauler díjat, ami a szakma legnagyobb elismerése. Emellett pedig érezhető mértékben nőtt az intézmény presztízse mind itthon, mind pedig külföldön.
3.5.13. A digitalizálási projekt legfőbb nehézségei A legfőbb nehézség az előzőekben már említett átalakulással járt. Rengeteg plusz adminisztrációs feladat keletkezett, ami háttérbe szorította a hagyományos levéltárosi munkát. Egyéb iratok rendezésére, vagy feldolgozására gyakorlatilag nem maradt kapacitás, mivel a keletkezett feladatok teljes embert igényeltek. Ezen új feladatok megoldása azért is nehéz feladat, mivel a magyar levéltáros szakmában nincsenek hagyományai az ilyen tevékenységnek. Teljesen más tudást, habitust igényel, amikor szervezni és irányítani kell 45 ember munkáját, informatikai kérdésekben kell elmélyedni, folyamatosan gyűjteni és biztosítani kell a digitalizálásra szánt anyagot. Utóbbi rengeteg utazással és folyamatos kapcsolatépítéssel jár. Ugyanígy szokatlan feladat a támogatók felkutatása és meggyőzése, valamint a projekt minél több fórumon történő népszerűsítése, hogy aztán legyen elég felhasználó, akik fenntartják a rendszert. Ezen kapcsolatrendszer bővülése aztán újabb kommunikációs feladatokat generál, és így tovább. Egy sikeres projekt azonban újabb lehetőségeket is nyit egy intézmény számára. Jelen esetben már több egyházi levéltár (Győr, Vác) is jelentkezett, hogy csatlakoznának a Kalocsán kiépített rendszerhez, ami bár rö- 90 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
vidtávon újabb feladatokat ró az intézményre, de később csökkentheti a finanszírozási költségeket és bizonyos szinten a rendszer fenntartásával járó feladatokat is meg lehet osztani.
3.6. Magyar Levéltári Portál (MLP) A tömeges levéltári digitalizálás gyümölcsei olyan integrált, aggregáló online alkalmazások, portálok révén válnak mindenki számára fogyaszthatóvá, mint a Magyar Levéltári Portál (http://archivportal.hu). A Portál beköszöntője így fogalmazza meg hivatását: „A magyar levéltári portált az önkormányzati levéltárak [ma már az MNL tagintézményei] együttműködése hozta létre. A közreműködő huszonnégy intézmény szükségét érezte annak, hogy a levéltárak tevékenysége és munkájuk eredménye iránt érdeklődő közönségnek olyan szolgáltatásokat nyújtson, amely megkönnyíti a tájékozódást, kutatást. A portál lehetővé teszi, hogy egy helyen, egy adatbázisból lekérdezhetően lehessen tájékozódni arról, hogy mely levéltárban találhatóak azok az iratanyagok, amelyek a kutatót érdeklik, "közös fondjegyzéket" kínálva. Az egyes levéltárakban létrehozott adatbázisok, amelyek közül sok nem jutott kellő nyilvánossághoz, a portálon keresztül elérhetővé vált. A portál támogatja az ország egészét átfogó dokumentumsorozatok digitalizálásának, az azonos elvek és gyakorlat alapján szerkesztett iratgyűjtemények adatbázisainak építését azzal, hogy magába fogadva azok tartalmát, felületén azonos szintű online hozzáférést biztosít, egyidejű keresést téve lehetővé a legkülönbözőbb forrástípusokban. Új technológiával szolgáltatja a nagy formátumú térképek, tervrajzok digitalizált anyagának közvetlen elérését, megoldva az interneten keresztül való kutatást. A portálon megtalálható 50 év levéltári kiadványainak teljes bibliográfiája, és ezen túlmenően jelentős mennyiségű kiadvány teljes szövege is olvasható oldalainkon, illetve érhető el a közös keresőnk segítségével. A levéltárak munkáját, tevékenységét szabályozó jogszabályok, rendelet, munkautasítások, több évtizedre visszamenő teljes gyűjteménye, a levéltári korpusz is hamarosan elérhetővé válik oldalainkon. A portál tartalmainak bővítése a levéltárak közös munkájának eredményeképpen folyamatosan történik, és már induló állapotában is gazdag forrást biztosít az érdeklődőknek, de reményeink szerint ez csak a kezdet, s kellő támogatás mellett egyre szélesebb merítést nyújt a magyar levéltárak anyagából. A magyar levéltári portált az Oktatási és Kulturális Minisztérium (ma Nemzeti Erőforrás Minisztérium) megbízásából, a Reneszánsz év 2008. évi program keretében Budapest Főváros Levéltára hozta létre és működteti. A portál jelenleg a Magyar Nemzeti Levéltár tagintézményeinek információit tartalmazza, de a szerkesztőség kívánatosnak tartja a nyilvános magánlevéltárak, szaklevéltárak és a felsőoktatási intézmények levéltárainak jövőbeni bevonását is a közreműködő intézmények körébe.”
- 91 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
Az MLP célja a fellelhető levéltári adatbázisok egységes szerkezetben, egységes keresőfelületen történő szolgáltatása. Jelenleg 12 adatbázis (alkalmazás), és egy mindegyiket összefogó közös adatbázis áll a kutatók rendelkezésére. Az egyes adatbázisok majd mindegyike több levéltár együttműködő munkájának eredménye. Az egyes alkalmazások vagy eltérő adatformátumúak, vagy teljesen eltérő adattartalmúak, esetleg önmagukban olyan óriási adatmennyiséget vagy olyan speciális adatszerkezetet jelentenek, amely értelmetlenné és lehetetlenné teszi a más adatbázissal való összekapcsolásukat. Egyes esetekben a történetiség miatt kerültek külön alkalmazásba: a Portálhoz később csatlakozó, ugyanakkor igen nagy adatmennyiségű és bonyolult szerkezetű MNL alkalmazások (DL/DF, Urbárium, stb.) már készen voltak, így csak a közös keresőben egyesültek a többi adatbázissal. Az egyes adatbázisok önálló adatstruktúrával, keresési lehetőségekkel rendelkeznek, így kifinomult, specifikus keresést tesznek lehetővé. Az összes adatbázis egy közös keresőben is egyesül, amely már nem tükrözi az egyes adatbázisok szerkezetét, általa csak a teljes szövegben (és ahol van, a jelzetben) lehet keresni, kifinomult (mezők szerinti) keresésre nincs lehetőség. Viszont minden általunk - 92 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
keresett tételt megtalálunk, nem kell adatbázisonként külön-külön a keresést végigfuttatnunk. Az egyes adatbázisok, alkalmazások az alábbiak: 1) Összetett adatbázisok: a metaadattárakat egyesíti, amelyek több adattípust tartalmaznak: közjegyzői adatok, végrendeletek, bírósági ügyek, jegyzőkönyvek, tervek, térképek. Közvetlen címe: http://www.archivportal.arcanum.hu/lear 2) Fond és állagjegyzék: a fondjegyzékeket tartalmazza, forrása a levéltárak hivatalosan vezetett earchívum adatbázisa, az önkormányzati levéltárak mellett az MNL és az ABTL adataival. Közvetlen címe: http://www.archivportal.arcanum.hu/earch 3) MDP és MSZMP iratok: az MDP és MSZMP vezető testületeinek jegyzőkönyveit tartalmazza; az eredeti iratanyagok kétrétegű PDF-ként kerültek feldolgozásra, melyeket a napirendi pontok feldolgozása tesz teljessé. Közvetlen címe: http://www.archivportal.arcanum.hu/mszmp 4) Kataszteri térképek: a georeferált kataszteri térképek tekinthetők meg, melyek a 2. katonai felmérés térképeivel szinkronizálhatók, metaadatok nincsenek (Győr-Moson-Sopron, Vas, Veszprém, Somogy, Tolna, Fejér, Békés, Bács-Kiskun, Nógrád, Szabolcs-Szatmár). Közvetlen címe: http://www.archivportal.arcanum.hu/kataszter 5) 2. katonai felmérés térképe: az 1850 körül született térképművet georeferált formában, „Google maps”-re illesztve tanulmányozhatjuk. Az egykori és a mai térképet nézhetjük egymás mellett illetve egymás alatt is (az átlátszóság állításával), és a Google helynévkeresőjét is használhatjuk. Közvetlen címe: http://archivportal.arcanum.hu/maps/html/katfelm2b_google.html 6) Archontológia: Személy-névtér jellegű adatbázis, Buda és Pest polgárait, Óbuda tisztségviselőit és Zala megye tisztségviselőit és nemesi kataszterét tartalmazza. Közvetlen címe: http://www.archivportal.arcanum.hu/archon 7) Települések és dűlőnevek: Földrajzi-névtér jellegű adatbázis. A kataszteri térképeken található dűlőnevek mellett Gyalay Mihály: Magyar igazgatástörténeti helységnévlexikon című munkájának helységnévanyagát is tartalmazza. Az adott névre kattintva a kataszteri térképek mellett a 2. katonai felmérés térképanyagát tekinthetjük meg, akár szinkronizált módban is. Közvetlen címe: http://www.archivportal.arcanum.hu/dulo 8) Levéltári kiadványok: a levéltárak kiadványai mellett az MLE kiadványait, valamint a Levéltári Szemlét és a Levéltári Közleményeket tartalmazza kétrétegű PDF formájában. Közvetlen címe: http://www.archivportal.arcanum.hu/mltk Méretükre, bonyolultságukra tekintettel a Magyar Nemzeti Levéltár adatbázisai önálló alkalmazásként használhatók: 9) DL/DF adatbázis: a Mohács előtti teljes oklevélanyagot tartalmazza. Az eredetiben létező mintegy 108.000 oklevélről nagyfelbontású, színes felvétel érhető el, míg a mintegy 90.000 fényképmásolatot szürke árnyalatú képek formájában tartalmazza. A képekhez tartozó adatbázis az oklevelek legfontosabb adatait teszi visszakereshetővé, számos esetben magyar nyelvű regesztával kiegészítve. Közvetlen címe: http://mol.arcanum.hu/dldf 10) Térképadatbázis: a teljes térképállomány mintegy 60.000 felvétel, amely magában foglalja a legnagyobb fondokat: S11 Kamarai, S12 Helytartótanácsi, családi fondok, vízügy, stb. A térképek a hozzá tartozó adatbázis segítségével kereshetők, a térképek pedig nagy felbontásban megtekinthetők. Közvetlen címe: http://mol.arcanum.hu/terkep 11) Királyi Könyvek: Az 1527 és 1867 között a Magyar Kancellárián, 1867 és 1918 között pedig a Király személye Körüli Minisztériumban vezetett Királyi könyvek (ún. Libri regii) az uralkodó nevében kiadott legfontosabb dokumentumok másolatát tartalmazzák. A 73 kötetben szereplő összesen mintegy 38 ezer bejegyzés a magyar múlt legfontosabb dokumentumai. Az adatbázis mellett a teljes iratanyag, mintegy 70.000 oldal is megtekinthető. Közvetlen címe: http://mol.arcanum.hu/digidat 12) Urbaria et Conscriptiones: Az iratanyag 1527 és a 19. század közötti időszakban keletkezett urbáriumokból, úrbéri összeírásokból, birtok- és vagyonbecslésekből áll. A Magyar Mezőgazdasági Múzeum 1963-tól Wellmann Imre akkori főigazgató-helyettes kezdeményezésére elkezdte az iratanyag feldolgozását, az adatbázis ennek anyagát tartalmazza. Az adatbázis mellett a teljes iratanyag is feldolgozásra került, a mintegy 350.000 oldalnyi iratanyag teljessége nagy felbontásban megtekinthető Közvetlen címe: http://mol.arcanum.hu/urbarium - 93 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
13) Közös kereső Egy külön alkalmazásnak tekinthető a közös kereső, amely a fenti alkalmazások közös kereső mezője. Ebben már csak az adatbázisok összes mezőinek szavai alapján kereshetünk, az egyes mezőkre való keresésre már nincs lehetőség. Viszont az intézményre, az adatbázisokra való szűkítéssel pontosíthatjuk a keresésünket. Közvetlen címe: http://www.archivportal.arcanum.hu/kozos
- 94 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.6.1. Összetett adatbázisok A levéltáraknál létrehozott metaadatok egységes szerkezetű adatbázisát tartalmazza. Az egységesítés során tekintetbe kellett venni az eredeti szerkezeteket, de fontos szempont volt az egységesítés is: bizonyos adatelemek egymásba olvadtak, elvesztették eredeti, részletes szerkezetüket, hiszen itt a kereshetőség, áttekinthetőség szempontjai is fontosak. Az alkalmazás az alábbi jellegű adatokat tartalmazza:
büntető ügyek árvaszéki ügyek hagyatéki ügyek közjegyzői okiratok kihirdetett végrendeletek polgári perek tanácsülések Budapest topográfiája Budapesti lakcímjegyzék fotók (Klösz gyűjtemény; ennek és a fentieknek a forrása a BFL) jegyzőkönyvek (feudális kori, Borsod, Fejér, Győr, Sopron, Jász-Nagykun, Komárom, Nógrád, Pest, Somogy, Tolna, Vas, Zala) térképek (BFL, Békés, Sopron, Heves, Pest, Somogy, Szabolcs-Szatmár, Tolna, Vas, Veszprém, Zala) tervek (BFL, Heves, Vas, Veszprém) bécsi segédletek (a Bécsi Levéltári Delegáció metaadatai) Nógrád Megyei Levéltár adatbázisai (pecsétek, Salgótarján kronológiája, tematikus iratgyűjtemények) cégbíróság (Zala)
Az adatbázisok alapos áttekintése alapján az alábbi adatszerkezet került kialakításra. (Az első elem a mező tag – azonosító, amennyiben a keresést mezőre akarjuk szűkíteni, ezt kell használnunk. A második elem a mező neve, majd a keresésre vonatkozó adat szerepel.)
3.6.1.1. Mezők
LEVE (Levéltár): szűkítőként kereshető (a keresőűrlapon beikszelhetjük) DB (adatbázis): szűkítőként kereshető (értéke a fenti lista) LEVJ (Levéltári jelzet, ismételhető): Jelzet indexben kereshető (kifejezéses) MEGJ (Irattári megjegyzés): nem kereshető EGYS (Levéltári egység): nem kereshető EVS (Év): Dátum index ((kifejezéses) DKMT (Dokumentum dátuma): Dátum index UGYS (Ügyszám) nem kereshető: LETR: (Létrehozó): nem kereshető: UGYT (Ügytípus): Ügytípus ÉS Leírás index UGYL (Ügyleírás, ismételhető): Leírás index TERJ (Terjedelem): nem kereshető: RSZT (Résztvevő): ismétlődő, almezős szerkezet az alábbi almezőkkel: NEV: Név: Név index (kifejezéses) ANY: Anyja neve: Név index (kifejezéses) SZHE: Születési hely: Hely index SZID: Születési idő: Dátum index KOR: Életkor: nem kereshető ESMI: Esemény ideje: Dátum index ELHI: Elhalálozás ideje: Dátum index SZRP: Szerepe az ügyben: Státusz index STAT: Státus (foglalkozás): Státusz index - 95 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
VALL: Vallás: Státusz index LAKH: Lakhely (telephely) (ismétlődő): Hely index TELK: Telekkönyvi adatok: nem kereshető KIEM: Kiemelt irattípusok: nem kereshető JOGC: Jogcím: Leírás index TEVK: Tevékenységi kör: nem kereshető CIM (Cím): Leírás index KODA (Közgyűlés dátuma, ismételhető): Dátum index URL: URL (a kép vagy rekord internetes elérhetősége): nem kereshető HELY: Hely (ismételhető): Hely index FORR: Forrás: nem kereshető MEG: Megjegyzés: nem kereshető KEP: (Kép): szűkítőként kereshető (Eredeti dokumentumokkal ellátott rekordok)
A fenti mezőknél is jeleztük a belőlük képzett keresőindexeket, itt felsoroljuk újra és azt, hogy mely mezők vannak bennük. Típusuk lehet kifejezéses illetve szavas. Előbbi esetben a mező teljes tartalma, utóbbiban az egyes szavai képezik az indexkifejezést (pl. KOVÁCSNÉ NAGY ETELKA kifejezés esetén ezen a módon kerül az indexbe, szavas esetén pedig a KOVÁCSNÉ, NAGY és ETELKA szavak lesznek kereshetők). Az almezők jelölése a mező és almező tag révén történik, köztük pont.
3.6.1.2. Indexek
LEVJ levéltári jelzet (LEVJ mező), kifejezéses LEIR Leírás (CIM, UGYT, UGYL, RSZT.JOGC mezők) NEV: Név (RSZT.NEV, RSZT.ANY) mezők, kifejezéses HELY Hely (HELY, RSZT.SZHE, RSZT.LAKH mezők) DAT Dátum (EVS, DKMT, RSZT.ESMI, RSZT.ELHI, RSZT.SZID, KODA mezők), kifejezéses STAT Státusz (RSZT.SZRP, RSZT.STAT, RSZT.VALL), kifejezéses UGYT Ügytípus (UGYT mező), kifejezéses WRD Szavak: az összes index együttesen, de szavasan indexelve.
3.6.2. Fond és állagjegyzék Az összes önkormányzati levéltár, MNL és az ÁBTL fondjegyzéke érhető el. Az adatbázis szerkezete a kötelezően vezetett e-archívum szerkezetét fedi le. Egy fond alkot egy rekordot, a hozzá tartozó állagok, sorozatok, alsorozatok pedig a hierarchiát is tükrözik. A H2-H4H5 mezők mindegyike almezős szerkezetű.
3.6.2.1. Mezők
LEVE (Levéltár): szűkítőként kereshető (a keresőűrlapon beikszelhetjük) DB (adatbázis): értéke EARCH H2: fondfőcsoport H3: fond H4H5: állag, sorozat, alsorozat
3.6.2.2. Almezők
LEV: szint KOD: törzsszám CIM megnevezés IDO: az irategyüttes időbeli terjedelme IFM: mérete iratfolyóméterben DB: mérete darabban TOL IG: az időtartam formalizálva (segédező az intervallumos kereséshez)
- 96 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.6.2.3. Indexek
CIM: a megnevezés szavas indexe KOD: a törzszám kifejezéses indexe LEV: a szint indexe TOL IG: ezen indexen intervallumos keresést végezhetünk
3.6.3. MDP ÉS MSZMP IRATOK Az adatbázis az MKP, MDP és MSZMP megyei (fővárosi) vezető testületeinek jegyzőkönyveit tartalmazza. Az eredeti iratanyagok OCR-ezésre kerültek és így teljes szövegű keresésre van lehetőség. Metaadatként az ülések dátumát és napirendi jegyzékeit találhatjuk meg.
3.6.3.1. Mezők, indexek
LEVE (Levéltár) ): szűkítőként kereshető DB (adatbázis): értéke PARTIRATOK WRD: a OCR-ezett szavak DAT: az ülésnap dátuma (ÉÉÉÉ.HH.NN.) formátumban, intervallumkeresést is lehetővé tesz REND: a napirendi jegyzék szavas indexe
3.6.4. Archontológia Névtér jellegű adatbázis, amely nem levéltári iratokat, hanem személyeket tartalmaz, melybe két levéltár szolgáltatott adatot, a BFL Pest Buda és polgárai valamint Óbuda tisztségviselőit, a Zala Megyei Levéltár pedig Zala megye tisztségviselőit és nemesi kataszterét.
3.6.4.1. Mezők
LEVE: Levéltár DB: adatbázis NEV: név VAL: vallás STAT:: status, foglalkozás SZHE: származási hely (almezős) TEL: település ORSZ: ország MEGYE: megye MA: mai név LEIR: a tisztség neve, leírása, illetve megjegyzés HIV: a viselt hivatal (almezős) EMGN: a hivatal/tisztség egységesített megnevezése MGN: megnevezés KOZ: Közigazgatási egység ESRV: Szerv/intézmény egységesített névalak EDAT: dátum (pl. adományozás) TOL IG: egységesített időtartam (segédadat) JOG: a nemes jogállása (almezős) EMGN: a hivatal/tisztség egységesített megnevezése MGN: megnevezés KOZ: Közigazgatási egység, az összeírás helye EDAT: dátum (összeírásé) TOL IG: egységesített időtartam (segédadat) CSAL: családi állapota
3.6.4.2. Indexek
NEV kifejezéses index (NEV mező) - 97 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
LEIR: leírás, megjegyzés (LEIR mező) VALL: vallás (VAL mező) kifejezéses STAT: státusz, foglalkozás (STAT mező), kifejezéses HELY: helység (HIV.KOZ, JOG.KOZ, SZHE összes almezeje) TSZT: tisztség/jogállás HIV ill. JOG mező MGN ill. EMGN mezői SZRV: Szerv/Intézmény HIV mező ESRV almezeje
3.6.5. Települések és dűlőnevek Az adatbázis a helységnevek mellett a kataszteri térképeken található dűlőneveket, és azok geokódjait is tartalmazza. Békés megye esetén minden egyes felirat (pl, árok, gémeskút, stb.) rögzítésre került a geokóddal. A nógrádi adatbázis a házszámot és a tulajdonos nevét is tartalmazza, így erre is kereshetünk. A fenti adatok mellett az adatbázis tartalmazza Gyalay Mihály: Magyar igazgatástörténeti helységnévlexikon című munkájának helységnévanyagát is. Az adott pontot a kataszteri térképeken és a 2. katonai felmérésen tekinthetjük meg, akár szinkronizált módban is.
3.6.5.1. Mezők
LEVE Levéltár DB Adatbázis (értéke: Dűlő, Gyalay, Házszám) MEGY: Megye (a kataszteri térkép megyéje + Gyalayból megye) FALU: település X Y: a falu geokoordinátái DULO Dűlő (ismétlődő almezős) NEV dűlőnév X Y a dűlő geokoordinátái TEXT leírás (csak Gyalay ) JRS Járás (csak Gyalay) KOZI közigazgatási egység (vármegye + járás) (csak Gyalay) HAZ Házszám (ismétlődő almezős, csak Nógrád) SZÁM Házszám TUL Tulajdonos X Y a ház geokoordinátái NOTE Lábjegyzetek (csak Nógrád)
3.6.5.3. Indexek
WRD: az összes szó az adatbázisban FALU: település DULO: dűlőnév (kifejezéses) MEGY: megye JRS Járás (csak Gyalay) KOZI Közigazgatási egység (megye+ járás kifejezéses) KOZI mező (csak Gyalay) SZAM Házszám (csak Nógrád, házszámadatbázis) TUL tulajdonos (csak Nógrád, házszámadatbázis)
3.6.6. Levéltári kiadványok Kétrétegű PDF-ek tartalmazzák a levéltárak (és az MLE) kiadványait, elsősorban könyveket, de a Levéltári Közlemények és a Levéltári Szemle valamennyi számát is. A PDF formátum csak nagyon egyszerű adatbázis elkészítését teszi lehetővé. Egyrészt a PDF-hez tartozik (tartozhat) egy PDF Title (cím) és Author (szerző) mező, valamint könyvjelzők helyezhetők el benne, pl. egy folyóiratban vagy gyűjteményes kötetben a szerző és a cím (egy adatmezőben), továbbá oldalanként a szavak. Az alkalmazásban egy oldal alkot egy rekordot, amely tartalmazza az adott oldal szavait, valamint a hozzá tartozó könyvjelzőket, ill. a PDF Title és Author mezőjét. Az adatbázist magát valójában nem látjuk, hiszen a megjelenítéskor a kétrétegű PDF-et (annak is a kép rétegét) láthatjuk. - 98 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.6.6.1. Indexek
WRD Szavak: az oldal összes szava AUT1 Cím, szerző: a PDF Title és Author indexe közösen. Csak itt keresve az adott szerző (vagy az adott című) könyv első oldalát kapjuk találatul. Ha a WRD mezőbe is írunk kifejezést, akkor az adott szerző (cím) műveiből azokat az oldalakat kapjuk, amelyeken az adott szó előfordul. BMK1 tartalomjegyzék: a könyvjelzőket kereshetjük; ha csak itt keresünk, az adott könyvjelzővel jelzett első oldalt találjuk meg, ha a WRD mezőbe is írunk kifejezést, akkor az adott könyvjelzővel jelzett rész (pl. cikk szerzője, címe egy tanulmánykötetben vagy folyóiratban) azon oldalait kapjuk, amelyeken az adott szó előfordul.
3.6.7. MOL DL/DF Az adatbázis a Mohács előtti okleveleket tartalmazza, az MNL-ben találhatókat eredetiben, a többieket fotómásolatban. Néhány hazai levéltár anyaga a fotómásolat mellett eredetiben is hozzáférhető (pl. Vas, Zala, Veszprém megye)
3.6.7.1. Mezők, indexek
JELZ jelzet (DL/DF szám) JELZ index KELT Keltezés (ÉÉÉÉ-HH-NN formátum) KELT index KHELY a keltezés helye (KHLY index) KIAD az oklevél kibocsátója (KIAD index) FEFO fennmaradási forma (pl. eredeti, átírt) FEFO index (kifejezéses) RJEL régi jelzet almezős RJEL törzsszám (RJEL index kifejezéses) TEXT szöveg (WJEL index RJEL almezőt is tartalmazza szavasan) ATIR az átírás dátuma és személye (ATIR index kifejezéses) NYLV nyelv (NYLV index) TIP irattípus (TIP index) REGE regeszta, magyar nyelvű ismertető (REGE index) PECS pecsétek száma, jellege, esetleg szövege (PECS index) MEGJ megjegyzés (MEGJ index) ALTK alternatív keltezés (becsült időszak) TRGY tárgymutató (TRGY index) NEV névmutató (NEV index)
3.6.8. Urbaria et Conscriptiones Az adatbázis az 1527 utáni úrbéri iratok adatait tartalmazza, az eredeti, mintegy 350.000 oldalnyi irattal.
3.6.8.1. Mezők, indexek
LEVE: Levéltár: mindig MOL (szűkítésre, a közös keresőben használható) DB adatbázis: mindig UC (szűkítésre, a közös keresőben használható) LEVJ Levéltári jelzet: HU MOL – E 156 (IR)REGESTRATA Facsiculus : numerus AZO Azonosító (Fasciculus : numerus alakban) indexes TEXT szöveges mező, a rekord teljes tartalma ebben a mezőben található. A struktúrát a mezőben elhelyezett kijelölések (TAG-ek) jelölik. Az alábbi alosztásokat találjuk (amelyek egyben külön indexeket is jelentenek) DAT Dátum: az irat keletkezése (pl. 1958. február 21.) JELLEG Az irat jellege (nyelve, oldalszáma, másolat vagy eredeti, stb.) TUL Birtokos BRTK Birtok EGYB Egyéb személynév
- 99 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
3.6.9. MOL Királyi Könyvek 1527-1918-ig a Királyi Kancellária, illetve a Király Személye Körüli Minisztérium által vezetett másolati könyvek az eredeti dokumentum képével. Tartalmazza tovább az erről készült Illésy-cédulák adatbázisát és egy céhnyilvántartást is.
3.6.9.1. Mezők
LEVE Levéltár mindig MOL DB adatbázis Királyi Könyvek TIP Típus (C Céhes, I Illésy, K Királyi Könyvek) (szűkítési lehetőség) NEV Név (NEV index) LEVJ Levéltári jelzet (almezős) ALLG Állag MEGN állag megnevezése OL2-OL9 a levéltári jelzet további elemei (csomó, fasc, old, numerus, doboz, stb.) KIA a oklevél kibocsátója (almezős) NEV név (KIAD index, kifejezéses) HELY hely (HELY index, kifejezéses) EVSZ dátum (KEV Kiadás éve index) MINO az irat minősítése, pár szavas összefoglaló (KMIN index, kifejezéses) ADR címzett, aki az adományt kapja HON Honos, hol és mikor honosították az adományt (almezős) HELY Helység (HHELY index) EVSZ dátum BRTK Birtok az adományozott birtok adatai (almezős) MEGY megye (HHELY index) HELY helység UTL Utalás rokon családokra vagy adományostársakra (NEV index) HAT Birtokszomszédok adatai (NEV index) TSZ az oklevélben említett további tisztségek (NEV index) MEGJ megjegyzés (MGJW index) SO sorszám (SO index) CMRK tartalmaz-e címerképet a bejegyzés
3.6.10. MOL Térképek A Nemzeti Levéltár Országos Levéltárának majd teljes térképállománya, a szkennelt képekkel.
3.6.10.1. Mezők, indexek
LEVE Levéltár: mindig MOL (közös keresőben szűkítőként használható) DB Adatbázis: mindig MOL térkép (közös keresőben szűkítőként használható) LEVJ Levéltári jelzet (pl. HU MOL – S 11 No 0004) TRGY a térkép rövid leírása (TRGY index) CIM a térképen található eredeti cím (CIM index) KELT Keltezés (DAT index) DMAS másolat dátuma (DAT index) DHIT hitelesítés dátuma (DAT index) DFEL felújítás dátuma (DAT index) SZER a térkép készítői (SZEM index) RAJZ rajzolta (SZEM index) MAS másolta (SZEM index) HITE hitelesítette (SZEM index) FELU felújította (SZEM index) - 100 -
Levéltári digitalizálás • Arcanum, 2012
3. Hazai áttekintés
KIAD Kiadó (SZEM index) HELY Kiadás helye DMEG megjelenési idő (DAT index) TTIP Típus ERED eredeti vagy másolat EGYE kéziratos vagy nyomtatott (indexes) NYEL nyelv SZEL szelvények száma MERE mérete MERA méretarány (MERA index) FOND a fond törzsszáma (kifejezéses indexes JELZ index) NAME a fond neve (kifejezéses indexes FOND index)
- 101 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
4. Állományvédelem – egy digitalizálási projekt tervezésével összefüggésben Az állományvédelmi szempontok figyelmen kívül hagyása egy digitalizálási projekt tervezésénél súlyos hiba, de hasonlóan nagy gondot okozhat a kivitelezésnél azok mindenek fölé helyezése is. Az alábbi fejezetben azokat a szempontokat járjuk körül, amik segítenek egy tömeges digitalizálással járó projekt megtervezésében és az esetleges kellemetlenségek, nem várt problémák elkerülésében. Konkrét állományvédelmi, technikai kérdésekre csupán érintőlegesen térünk ki, mivel ennek a témának komoly önálló szakirodalma van. Fontosabbnak tartjuk a tömeges digitalizálás során alkalmazandó elvek és szemlélet hangsúlyozását, valamint az egyes digitalizáló eszközök és eljárások állományvédelemmel kapcsolatos hatásainak bemutatását.
4.1. Állományvédelem-e a digitalizálás? Talán a legtöbbször feltett és egyben legvitatottabb kérdés, hogy célja-e a digitalizálásnak az állományvédelem? Kell-e, és ha igen, miért kell digitalizálni? A helyes válaszhoz számos szempontot kell figyelembe venni, és gyűjteményenként egyedileg értékelni. A digitális világ és az online kommunikáció alapvető változást hozott az emberiség életében. Ez az életünket átalakító folyamat megfordíthatatlannak látszik, és ezzel párhuzamosan az infokommunikáció színtere és formája is a digitális világba tevődik át. Az online kommunikáció terjedésével együtt növekszik az állampolgárok igénye az iránt, hogy minél többféle információhoz juthassanak hozzá kényelmesen, és lehetőleg azonnal. A levéltárak kutató közönsége is átalakult ennek hatására, ma már nemcsak professzionális kutatók akarnak hozzáférni a gyűjteményekhez, hanem a társadalom széles rétegei is kezdik felfedezni maguknak a levéltárak világát. Szintén újdonság, hogy a közgyűjtemények – és ez fokozottan igaz a levéltárakra – fokozatosan kénytelenek átállni a digitálisan érkező dokumentumok őrzésére és szolgáltatására. Új kihívás számukra, hogy a „régi” papír alapú irataikat közös platformon tudják megjeleníteni és szolgáltatni a már eleve digitálisan érkező dokumentumokkal. Ebből a szempontból tehát a gyűjteményi digitalizálás nem állományvédelmi kérdés, hanem cél, sőt egyre inkább feladat. Az iratok szolgáltatása mellett ugyanakkor a levéltárak másik legfontosabb feladata a hosszú távú megőrzés biztosítása. Az iratok élettartama – függően a tárolásuktól, a kutatottságuktól és az információt hordozó anyag összetételétől, kémiai tulajdonságaitól – nagyjából előre látható, bizonyos állományvédelmi beavatkozásokkal időről időre növelhető. A tömeges digitalizálás viszont, a jelenleg rendelkezésre álló technológiákkal minden esetben fizikai behatással jár, aminek az iratok állagára nézve következményei lehetnek. Míg a hagyományos tartalomhordozók (papír, film, hangszalag, üvegnegatív) esetében jelentős tapasztalattal rendelkezünk az élettartamra vonatkozóan, addig a digitális állományok tárolása jóval bonyolultabb, több változós kérdés, ráadásul a tapasztalataink is maximum 50 évre mennek vissza. Tovább bonyolítja a problémát, hogy jelenleg is zajlik a digitális forradalom, aminek következtében rendkívül gyorsan változik a technológiai környezet, és megjósolhatatlan a jelenleg végbemenő folyamatok eredménye. Az ma már nem lehet kérdés, hogy a digitális állományainkat képesek vagyunk a technológiai környezet változásainak függvényében évtizedeken keresztül megőrizni. A nehezebb kérdés az, hogy ezt a megőrzést milyen költségek és munkaráfordítás árán tudjuk megtenni. Arról pedig kevés információnk van, hogy hányféle, és milyen típusú lehetséges veszélyektől lehet és kell megóvni a jövőben a digitálisan tárolt információkat. A digitalizálás, mint állományvédelem elsősorban abban az esetben az elsődleges cél, ha az eredeti tartalomhordozó élettartama a végéhez közeledik és nincs más költséghatékony mód az irat megmentésére. Például a Magyar Nemzeti Levéltárban őrzött 50-es évekbeli orsós hangszalagoknál az információ megmentését jelen- 102 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
tette a digitalizálás, mivel voltak olyan szalagok, amelyeknél az egyszeri lejátszás az emulzió leválását, az eredeti információhordozó végleges megsemmisülését eredményezte. Egy másik esetben, a középkori oklevelek digitalizálását követően – bár maguk az oklevelek továbbra is jó állapotban vannak – a levéltári anyag teljes egészében kikerült a kutatóforgalomból, aminek állományvédelmi jelentősége egyértelmű: a megfelelő tárolás mellett a pótolhatatlan értékű oklevelek hosszú távú megőrzése biztosított. Ez esetben a digitalizálás fő célja és eredménye – a kutathatóság biztosítása mellett – az állagmegóvás volt. Egy harmadik eset, a Királyi Könyvek digitalizálása tovább árnyalja a kérdést: az irategyüttes 2013-ban várhatóan harmadszor is digitalizálásra kerül az MNL-ben. Hajdanán egyszer mikrofilmre rögzítették a teljes anyagot, első alkalommal ezekről készültek a másolatok, amelyek nem elégítették ki a kutatói igényeket. Második alkalommal rossz minőségű másolatok készültek, amely után a publikáláshoz használt, ismét az eredetiből készölő másolatokra vonatkozó igény továbbra is jelentős maradt. Ennek kiváltására az eredetiről jó minőségű archív másolat fog készülni. A háromszoros fizikai és fényterhelés nyilvánvalóan károsítja ezt az igen értékes irategyüttest, de a kutatói igények szükségessé teszik az újabb szkennelést – a technológia fejlődésének köszönhetően ez után már remélhetőleg az oklevelekhez hasonlóan kikerülhet a használati forgalomból a gyűjtemény. Ha viszont az irategyüttes jó minőségű, savasodásra nem hajlamos papír alapú, megfelelő tárolási környezetben, megfelelő módon lett elhelyezve, keveset kutatott, és az általa hordozott információtartalom nem tart igényt számottevő érdeklődésre, a digitális feldolgozása mellett kevesebb érv szól. Ellenben, ha a fent felsoroltak közül egy vagy több tényező nem biztosított, a digitalizálásnak – az őrzési kondíciók függvényében – állományvédelmi szempontból is létjogosultsága van.
4.2 Állományvédelem kontra információ megőrzés Egy közgyűjtemény működése során három alapvető igény kielégítésére kell törekedni, amelyek megvalósítása gyakran ellentmondásos helyzetet teremt. Ezek között kell megtalálni minden esetben az optimális középutat. E három alapvető igény az irat fizikai megőrzése, az irat által hordozott információ megőrzése, és előbbi kettő szolgáltatása az arra jogosult felhasználók számára. Az ellentmondás alapja egyrészt az, hogy a szolgáltatás intenzitásával egyenes arányban csökken az irat és a tartalom megőrzésének képessége. Másrészt az irat hosszú távú fizikai megőrzéséhez is időről időre beavatkozásokat kell végrehajtani, amivel szintén csökken, vagy sérül a hordozott információ teljessége. Gyakori eset, hogy szálas iratokat kötetekbe kötöttek a hosszú távú megőrzés céljából, ám így a papír tartalmának egy része a bekötés következtében eltűnt, vagy olvashatatlanná vált. Ha ez az irat intenzív kutatásnak volt kitéve, akkor időről időre meg kellett újítani a kötést is, ami további tartalomroncsolódással járt. Az elektronikus tartalomszolgáltatással hosszútávon elkerülhető az iratanyag használatból adódó állag- és tartalomromlás, ezzel szemben viszont a tömeges digitalizálás – a szükségszerűen jelentkező mechanikai igénybevétel miatt – a tartalom és az irat állagában okozhat egyszeri állagromlást, illetve tartalomvesztést. A cél mégsem lehet az, hogy semmilyen fizikai behatás ne érje az állományokat – akár az állományvédelem, akár a digitális feldolgozás kapcsán –, hiszen akkor a hosszú távú megőrzés és a hozzáférhetővé tétel biztosítása szenvedne csorbát. A jelen kor követelményei szerint az ideális állapot a teljes levéltári iratanyag digitális feldolgozása és szolgáltatása lenne. Ám a feladat jelentős költségvonzata, és egyes gyűjtemények veszélyeztetett volta miatt alapos mérlegelés tárgyát képezi a digitalizálható iratok fontosság szerinti sorba rendezése. Egy digitalizálási projekt tervezésénél két alapvető szempontot minden esetben figyelembe kell venni. ●
Rendelkezésre áll-e megfelelő technológia a feladat végrehajtására, amivel elkerülhető az iratanyag maradandó és/vagy aránytalan mérvű károsodása? Ezt soha ne szkenner-prospektusok alapján, ha-
- 103 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
nem gyakorlati próbával állapítsuk meg: egy eszköz vagy technológia alkalmasságát, illetve korábbi projektek eredményeit vonjuk vizsgálat alá. ●
Ár-érték szempontjából van-e realitása a projektnek? Itt egyrészt vizsgálni kell a digitalizálás költségeit és a várható társadalmi hasznosulást. Másrészt figyelembe kell venni a projekt szakmai és állományvédelmi előkészítésének anyagi és humán erőforrás igényét, szintén a társadalmi hasznosulással való összevetés alapján.
4.3. Digitalizálási projektek előkészítése 4.3.1. Egy digitalizálási projektre több szempontból is fel kell készülni, és alaposan elő kell készíteni. ●
Meg kell határozni a szakmai célokat: mit akarok kezdeni a digitalizált állománnyal, azt milyen felhasználói réteg számára kívánom elérhetővé tenni.
●
Elemezni kell, hogy az adott célcsoportnak milyen minőségi feltételekkel, szolgáltatási környezetben kívánok tartalmakat közölni, és azt milyen médium vagy médiumok segítségével célszerű megtenni.
●
Fel kell mérni, hogy a létrejövő digitális állomány hosszú távú megőrzése milyen infrastruktúrát igényel. Rendelkezik-e az intézmény ilyen kapacitással, illetve milyen induló és folyamatosan fennmaradó költségekkel kell számolni?
●
Vizsgálni kell, hogy vannak-e tapasztalatok hasonló irategyüttesek digitalizálásával kapcsolatban. Az intézmény eddigi digitalizálási projektek kapcsán felhalmozódott tapasztalatait is érdemes minden projekt esetében újra és újra számba venni. Ezek alapján lehet meghatározni a kívánt digitalizálási technológiát és a szolgáltatási, valamint archiválási környeztet.
Néhány speciális esettől eltekintve, általános szabály, hogy egy gyűjtemény teljes iratállományát célszerű egy projekt keretében digitalizálni. Ezzel elkerülhetőek a minőségbeli különbségek, csökkenthető a hibák és hiányok száma, valamint jelentős idő, pénz és energia takarítható meg. Állományvédelmi szempontból is előnyös, ha csupán egyszer kell mozgatni a gyűjteményt. Ahhoz, hogy a digitalizálási projekt minden munkafázisát, továbbá a költség, munkaerő és idő ráfordítást, valamint az elvárható minőségi követelményeket pontosan meg lehessen határozni, a nagyobb gyűjtemények esetében ajánlott pilot-projektet végrehajtani. Ezt mindig az adott gyűjtemény egy jellemző részével kell elvégezni. Így képet kaphatunk a feladat nehézségeiről, módosítani lehet a prekoncepción, ha szükséges, és meg tudjuk szabni a már említett szempontok szerint a feladat kereteit. 4.3.2. A minta-projekt kapcsán szerzett konkrét tapasztalatok alapján lehet elkészíteni az állományvédelmi előírást is. Ennek meghatározásánál nagyon fontos, hogy figyelembe vegyük a korábban említett hármas intézményi érdeket (iratmegőrzés, tartalommegőrzés, tartalomszolgáltatás), és ezek között az adott helyzetnek megfelelően történjen a súlyozás. Éppen ezért, nem szabad a digitalizálási munkautasítás elkészítését kizárólag egy személyre hagyni, hanem a restaurátornak, a gyűjteménykezelőnek és a projekt vagy az intézmény vezetőjének kell együttesen összeállítani a követelményrendszert. Egy tömeges digitalizálási projekt csak akkor valósítható meg, ha az említett állományvédelmi előírások nem gátolják a folyamatos és ár/érték arányban elfogadható költségekkel járó munkavégzést. Amennyiben e három szakmai szempont között áthidalhatatlannak tűnik az ellentét, akkor érdemes a digitalizálási projektet elhalasztani addig, amíg új technológia nem jelenik meg a piacon. 4.3.3. Az eltérő szakmai ethoszokból fakadóan előfordulhat, hogy az állományvédelmi és digitalizáló szakemberek eltérő súllyal érvényesítenék a megóvás–közzététel esetleg ellentétes szempontjait a tömeges digitalizálás során. Ezt a problémát bizonyos mértékben enyhítheti az említett módon előre elkészített szabályleírás. A digitális világ létrejöttének és rohamos terjedésének köszönhetően az intézmények sok területen alap- 104 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
vető szemléletváltozáson voltak kénytelenek keresztülmenni, nem lehet ez máshogy az állományvédelmi szakmán belül sem. A digitális világ előtti korban a közgyűjtemények számára a tartalomszolgáltatás lehetősége a maihoz képest rendkívül korlátozott volt, az állományvédelem így gyakran a legfőbb szempontként jelentkezett. A mai kor kihívásainak egy kiegyensúlyozottabb, a megnövekedett publikációs lehetőségeket és igényeket messzemenően támogató tartalomszakmai döntéshozatali mechanizmus felel meg, az állományvédelmi megfontolásoknak hangsúlyozottabban kell figyelembe vennie a digitalizálási lehetőségek hosszú távú állományvédelmi hasznait. Ez a megállapítás semmiképpen nem azt jelenti, hogy az állományvédelem primátusán változtatni kellene, az azonban kijelenthető, hogy az eddig alkalmazott állományvédelmi szempontokat a változó intézményi feladatok, a jelen társadalmi igények, valamint a fejlődő technológia nyújtotta lehetőségek alapján folyamatosan figyelni kell, időről időre szükséges azokat felülvizsgálni!
4.4. Ár/érték arány, avagy a digitalizálás metódusának és technológiájának kiválasztása 4.4.1. A digitalizálásra szánt gyűjtemény kiválasztásánál a társadalmi igények és az esetlegesen azonnali értékmentést igénylő állagmegóvás mellett a legfontosabb szempont, hogy minél egyszerűbben, kíméletesebben, ugyanakkor gyorsabban lehessen feldolgozni a kívánt irategyüttest. Vagyis a projekt ár/érték aránya a legfőbb szempontok között kell, hogy szerepeljen. Mivel ma még a magyar levéltári tartalmak jelentős része nem került digitalizálásra, széleskörű tartalomból lehet választani, és célszerű ezt az arányossági elvet középtávon is követni. A digitalizálási projekt költségeit több tényező befolyásolja, amikről a fentiekben már szót ejtettünk, de érdemes összefoglalni. ●
Tartalmi és állományi előkészítés időszükséglete;
●
megfelelő digitalizálási eszköz kiválasztása (az állományvédelmi szempontok figyelembe vételével);
●
digitális tartalomszolgáltatás és állományarchiválás;
●
járulékos feladatok, mint például a restaurálás, digitalizálásra való előkészítés.
A digitalizálási eszköz kiválasztása és az állomány-előkészítés kérdése szorosan összefügg egymással. Meg kell határozni, hogy a digitalizálandó irategyüttes milyen formában dolgozható fel (kötetben, lapra szedve, minimális fizikai behatással vagy annak teljes kizárásával). Meg kell vizsgálni, hogy milyen munkafázisok előzik meg az iratanyag digitalizálását. Ez lehet tartalmi feldolgozás is, és fizikai előkészítés is (rendezés, portalanítás, gémkapocs-eltávolítás, ragasztás, stb.; a restaurálást csak szakképzett restaurátor végezheti el). 4.4.2. Az A3 méretűnél kisebb, papír alapú dokumentumok esetében, a tömeges digitalizálás legkisebb költséggel akkor jár, ha szálas anyagokat dolgozunk fel, úgynevezett automata lapadagolós szkennerek segítségével. Ez nemcsak gyors és olcsó, de jelenleg minőség szempontjából is a legjobb, így a leghatékonyabb eszköztípus. Kétségtelen, hogy ezzel az eljárással kétoldali mechanikai kontaktus lép fel a dokumentum és a gép között, azonban a mai ipari eszközök iratvédelmi mechanizmusa az esetek döntő többségében biztonságos feldolgozást biztosít. Kizáró vagy megfontolás tárgyát képező kritérium lehet, amennyiben az irat állaga erősen szakadozott vagy roncsolódott; ha a papír jelentős savasodást mutat és erősen töredezik; illetve amennyiben a papírhoz valami illesztésre került (domború viaszpecsét, gémkapocs, ragasztott cérna, stb.). Amennyiben van rá lehetőség, célszerű a kötet formájában tárolt iratok lapra szedésének lehetőségét megvizsgálni, mivel sok esetben ez az eljárás nem befolyásolja érdemben az állomány megóvását, ugyanakkor nagyságrendekkel csökkenti a feldolgozás költségeit (még a digitalizálás utáni kötészeti munkák árát is beleszámítva).
- 105 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
A kötet formájában történő tárolás – abban az esetben, ha a dokumentumot nem kell a jövőben gyakran mozgatni, illetve a kutatóknak odaadni – nem feltétlenül a legcélszerűbb megoldás. Bizonyos szempontokat érdemes itt is mérlegelni. ●
A bekötéssel információ veszhet el, aminek mértéke a visszakötés kapcsán tovább nő.
●
A kötészeti eljárás során használt anyagok és módszerek révén romlik az irat állaga, minősége (ragasztó, cérnafűzés, ami használat közben szakítja a papírt, stb.).
●
A szűk belső margóval rendelkező iratok esetében nem olvasható kötött állapotban az információ, és a digitalizálás során sem lehet reprodukálni a teljes tartalmat.
●
A lapra szedés kapcsán, 20. századi iratok esetében, eltávolításra kerülnek a gémkapcsok, amik már középtávon is jelentős állagromlást okoznak a papírban és a tartalomban egyaránt.
●
A lapra szedett irategyüttes savmentes dobozban kerül tárolásra, ami nagyságrendekkel jobb védelmet biztosít, mint más tárolási forma.
●
Amennyiben bármi okból felmerül az irat újbóli digitalizálása, vagy egyéb eljárás alá vetése (például savtalanítása), újból meg kell bontani a kötést, ami megint csak nemkívánatos veszteségeket eredményezhet.
A lapra szedést kizáró ok lehet, ha a kötet önmagában is műtárgynak minősül, vagy ha a kötet megbontásával sérül a dokumentum, illetve nem lehet érdemi tartalombővülést elérni. Ezen szempontok eldöntése néha szubjektív kérdés, általános irányelvet nem minden esetben lehet adni, érdemes állományvédelmi szakembert bevonni a döntésbe. Az automata lapadagolós szkennerek egyes típusai között jelentős eltérés lehet a különböző paraméterek tekintetében, ezért állományvédelmi szempontból fontos minden esetben próbaszkenneléseket végezni. A piacvezető termékek rendelkeznek extra kíméletes üzemmóddal, duplalap detektálással, egyes típusok pedig nem hajlítják meg a dokumentumot feldolgozás közben. Ezért ezek az eszközök alkalmasak lehetnek a normál papír mellett stencil- vagy pauszpapírok, illetve fotó pozitívok digitális feldolgozására is. 4.4.3. A kötet formában tárolt és lapra nem bontható iratok esetén alapvetően két szempont határozza meg az alkalmazott digitalizáló technológia kiválasztását. Alapvető cél ilyen esetben, hogy a védett dokumentumot minél kisebb és kíméletesebb fizikai behatás érje. Ugyanakkor nem lehet figyelmen kívül hagyni a tartalom digitális reprodukciójánál az információ-teljességre törekvést sem. E két szempontot gyakorlatilag kötetenként kell mérlegelni, és adott esetben más-más eszközt alkalmazni a feldolgozáshoz. Ennek az eljárásnak a hátulütője lehet az eltérő technológiából eredő képminőség és megjelenés különbözősége, ám az ilyen esetekben az állományvédelem primátusa a döntő szempont. A kötet alapú dokumentumok legkíméletesebb digitalizálását jelenleg az úgynevezett automata könyvszkennerek, más néven robot szkennerek segítségével lehet megvalósítani. Bár ezek a gépek képesek bizonyos dokumentumok esetén az automata munkavégzésre, a gyakorlati tapasztalatok azt mutatják, hogy csak kézi lapozással, „félautomata” üzemmódban lehet velük közgyűjteményi tartalmakat biztonságosan és hatékonyan feldolgozni. Fontos kiemelni, hogy ebben a szkenner kategóriában – mivel új technológiáról van szó – a különböző gyártók jelentősen eltérő technológiai megoldásokat alkalmaznak mind a lapozásra, mind a dokumentum síkban történő leszorítására. Megint csak a gyakorlati tapasztalatokból kiindulva állapítható meg, hogy jelenleg a leginkább alkalmazható technológiai megoldás az, ha a gép üveglap segítségével egyenesíti ki a dokumentumoldalt, akár síkban, akár “V” lakban. A digitalizálást ezek az eszközök nem a hagyományos szkenner technológiával, hanem hideg fényű megvilágítás mellett működő tükörreflexes fényképezőgépek segítségével végzik. A megvilágítás technológiája állományvédelmi szempontból kíméletesnek mondható. Ennek a technológiának a legfőbb előnye az, hogy nem kell a köteteket 90 foknál nagyobb mértékben kihajtani, így a kötetek gerince nem sérül. Ugyanezen tulajdonságukból fakad ugyanakkor a legnagyobb hátrá- 106 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
nyuk is: a nem teljes kihajtás miatt a kötetlapok belső részét nem látják megfelelően a felvételt készítő kamerák. A szűk belső margóval rendelkező kötetek esetében nincs más megoldás, mint a könyvbölcsővel rendelkező, de 180 fokos kihajtást igénylő „hagyományos” könyvszkennerek alkalmazása. Ezek a szkennerek szintén üvegleszorításos módszerrel dolgozzák fel a köteteket, de hagyományos, pásztázó szkenner technológiát alkalmaznak. Ennek előnye az egyenletesebb fényeloszlásban, hátránya pedig a lassabb és így drágább üzemeltetésben rejlik. A könyvbölcsőjük a digitalizálandó kötethez igazodik, így a 180 fokos kihajtáshoz képest kíméletes feldolgozást tesz lehetővé, és kellően alátámasztja a kötetek gerincét. További előnyük ezeknek a szkennereknek, hogy több méretben állnak rendelkezésre, így akár a nagyobb méretű, A1-es iratokat is be lehet szkennelni a nagyobb eszközök segítségével. Ebben a kategóriában is több gyártó készít eszközöket, de ezek között jóval kisebb a technológiai eltérés, mint a robot szkennerek esetén. 4.4.4. A nagyméretű szálas iratok – amilyenek a térképek, tervrajzok, plakátok – tömeges digitalizálásához úgynevezett széles formátumú szkennerek a legalkalmasabbak. Ezeknek az eszközöknek a működése, és így a velük kapcsolatos mechanikai behatás hasonló az automata lapadagolós szkennerekéhez. Görgős finommechanika húzza be az iratot és hajlítás nélkül engedi át a gépen. A tapasztalatok rendkívül kedvezőek állományvédelmi szempontból, mivel nagyon kíméletes, kifinomult technológiáról van szó, ami a pausz vékonyságú papírokkal is megbirkózik. A különösen veszélyeztetett iratok esetén pedig speciális védőfólia tasakot is lehet alkalmazni, ami a közvetlen mechanikai behatást gátolja. Arra is volt már példa (még ha nem is ez a jellemző), hogy nem töredezett, jó állapotú viaszpecséttel ellátott térképeket is sérülésmentesen sikerült digitalizálni ilyen módon. Állományvédelmi szempontból azonban több előkészítő munkafolyamat is felmerülhet az ilyen típusú eszközök használata előtt. Egyrészt minden esetben portalanítani kell a dokumentumokat, amelyek a nagy méretük miatt jelentős kvarckristályos porszennyeződést hordozhatnak – amennyiben nincs megoldva a megfelelő tárolásuk. Ezek a kvarckristályok a szkennerrel érintkezve sérülést okozhatnak az iratban és a szkenner üvegében egyaránt. Előbbi nyilván állományvédelmi, utóbbi viszont anyagi szempontból fontos, mivel ezen gépek üvegalkatrészei rendkívül drágák. A karcos üveggel pedig nem lehet jó minőségű digitális másolatot készíteni. A porréteg továbbá rontja a kép élességét és a helyes színvisszaadást is csökkenti. A portalanítás után, de még a szkennelés előtt célszerű az esetleges restaurálási munkák elvégzése, mivel ez a fajta eszköz csak a szakadozott papírban tud esetlegesen további kárt tenni, a jó állagú iratra teljesen veszélytelen. Ugyanakkor a digitalizálási munka sebességét is jelentősen javítja, ha az irat állagvédelmével nem a szkennelő szakembernek kell foglalkoznia, hanem folyamatosan tudja végezni a munkáját, a tartalom szerinti helyes iránynak megfelelően tudja behelyezni a szkennerbe a dokumentumot, nem kell vizsgálgatnia melyik oldal sérült, melyik jobb állapotú. 4.4.5. A mikrofilmszkennerek mechanikai szempontból megegyeznek a mikrofilmolvasó berendezésekkel, állományvédelmi szempontból nincs köztük lényegi különbség. A digitalizálás előtti állapotfelmérés, denzitás mérés, illetve az esetleges restaurálási feladatok, mint például a szakadt filmek előkével való ellátása, mára már kialakult rutin eljárásnak számít, ezért ezzel részletesebben jelen tanulmány keretein belül nem foglalkozunk. 4.4.6. A film alapú iratoknál a digitalizálás sokkal inkább tekinthető állományvédelmi szempontnak, mint más információt hordozó iratok esetén. Ennek oka a filmek (különösen a rossz minőségű alapanyagok esetén) élettartamának végessége, ami szakszerűtlen tárolás esetén jelentősen lerövidül. Éppen ezért az előkészítő fázisra még nagyobb és hangsúlyosabb szerepe jut a filmeknél. Digitalizálás előtt alapvető feladat az állagmegőrzés biztosítása, másrészt a filmeket alkalmassá kell tenni jó minőségű digitalizálásra. - 107 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
A mozgófilmek esetében az előzetes állapotvizsgálatnak választ kell adni arra a kérdésre, hogy normál szkenneren végezhető a digitalizálás, vagy speciális berendezés szükséges pl. a túlságosan zsugorodott filmekhez. Ez utóbbi természetesen jelentősen emeli a költségeket és növeli a feladat végrehajtásának idejét. Az előkészítés fontos része a tisztítás és a ragasztások rendbehozatala. A kisfelbontású előszkennelés lehetővé teszi a hagyományos mozgó filmek időkóddal való ellátását, a jelenetek elhatárolását, a referencia képek kiválasztását és a hang leolvasását. A nagy felbontású referencia képek vizsgálata segít a szükséges felbontás, és a várható korrekciók meghatározásában. A jelenetek fényelése (digitális színkorrekció) a digitalizálás expozíciós viszonyait állítja be az optimális értékre, ami a minőséget javítja jelentősen. A leolvasott, és digitálisan tárolt hang elemzése eldöntheti, hogy csak egyszerű hangfeldolgozásra, vagy digitális restaurálásra van szükség. Vagyis a mozgófilmek esetében állományvédelmi és restaurálási feladatok nemcsak az eredeti dokumentummal kapcsolatban merülnek fel, hanem a digitálisan létrejövő állományok minőségét is lehet és esetenként érdemes javítani. Amíg a papír alapú közgyűjteményi dokumentumoknál az utólagos szoftveres korrekció általában kizárt, addig hanganyag és mozgókép esetében kívánatos feladat. A feldolgozás célja a lehető legjobb, az eredetihez közelálló digitális kópia létrehozása és a megfelelő felbontású digitális példányok kódolása. A szkennelt anyagon a következő szoftveres utómunkák végezhetőek el: karc eltávolítás; piszok eltávolítás; zajszűrés; szín helyreállítás; villódzás megszüntetés; remegés megszüntetés; kép hiánypótlás; időalap korrekció; hangszinkronizálás, zajszűrés; kódolás, tömörítés. A különböző típusú és állagú mozgófilmek digitális másolatkészítése igen összetett és speciális munka, egyedi digitalizáló eszközöket és különleges szakmai felkészültséget igényelnek (összehasonlíthatatlanul komplexebb a papíralapú iratok digitalizálásánál), amire csak jól felszerelt, megfelelő filmes szakmai háttértudással rendelkező célintézmény vállalkozhat, amely korábban már jelentős tapasztalatot szerzett ezen a területen. Magyarországon két ilyen van: a Magyar Televízió Filmarchívuma és a Magyar Nemzeti Filmarchívum. Egy biztonságos és szakszerű mozgófilm-digitalizálást Magyarországon csak e két intézmény valamelyikével lehet elvégeztetni.
4.5. Anyagmozgatás és fizikai behatások a digitalizálás során 4.5.1. Állományvédelmi szempontból nyilvánvalóan az az ideális, ha az iratokat minél ritkábban mozgatjuk, és lehetőleg nem kerülnek ki az intézmény falai közül. A másik fontos elv, hogy olyan technológiát válaszszunk, amellyel minimálisra csökkenthető a mechanikai behatás és az iratok rongálódásának esélye. A tömeges közgyűjteményi digitalizálás – ahogy az eddigiekből is kiderült – speciális, sokszor drága, ipari feldolgozásra kitalált, nagyméretű eszközöket igényel. Mivel ilyen eszközökkel nem rendelkezhet minden intézmény, aki digitalizáltatni kívánja gyűjteményeit, felmerül a kérdés, hogy milyen kompromisszumos megoldásokat szabad alkalmazni? Már a digitalizálási projekt tervezési fázisában gondolni kell a megvalósítás megfelelő körülményeinek biztosítására. Amennyiben van rá lehetőség, célszerű a digitalizálási műhelyt a gyűjtemény őrzési helyével egyező épületben kialakítani, hogy minél egyszerűbb legyen az anyagmozgatás, a dokumentumok őrzése, valamint a munkavégzés felügyelete. A helyiség megvilágításának kialakításánál – különösen veszélyeztetett iratok esetén – figyelni kell a fényterhelés minimalizálására. Ugyanakkor a külső megvilágítással működő szkennereknél is fontos szempont, hogy a helyiségben egyenletes fényviszonyok uralkodjanak, ne vetüljön erős fény a digitalizáló berendezés munkafelületére. Amennyiben nincs mód a digitalizáló műhely kialakítására, úgy célszerű lehet a feldolgozást egy másik közgyűjteményben elvégeztetni, amelyik vállalja az iratok ideiglenes befogadását és őrzését. 4.5.2. A digitalizálás során ugyanazokat az állományvédelmi szabályokat kell betartani, mint a hagyományos iratkezelés esetében, de mivel egyszerre több dokumentumot is el kell helyezni a helyiségben, az anyagmozgatást még körültekintőbben kell végezni. Minden esetben ki kell alakítani egy-egy tároló helyet az előkészí- 108 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
tett és a már feldolgozott iratok számára. Fontos, hogy ne keveredjenek össze a dokumentumok és legyen kellő hely a nagyobb méretű iratok (mint például térképek, oklevelek, tervrajzok) kihajtásához és szkennerbe helyezéséhez. Célszerű a munka és állományvédelmi utasítás elkészítése mellett, elméleti és gyakorlati állományvédelmi oktatásban részesíteni a digitalizálást végző személyzetet. Meg kell határozni előre írásban, hogy mi és milyen mértékben minősül állagromlásnak. Szintén javasolt a munkavégzés során irategységenként, vagy időszakosan felvételeket készíteni a dokumentumok digitalizálás előtti és utáni állapotáról. Így még időben fel lehet fedezni az esetleges hibás gyakorlatokat. Alapvető szabály, hogy a digitalizáló helyiségben sem ételt, sem folyadékot nem lehet tárolni. A cérna kesztyű használata, bár ajánlatos lehet bizonyos iratok esetében, a digitalizálás menetét jelentősen lassítja, illetve néha a finom érzékelés elvesztésével több kárt okoz, mint amennyit véd. A szabad kézzel történő munkavégzés esetén nemcsak az iratot kell védeni a zsírosodástól, hanem a digitalizáló személyt is az esetleges fertőzésektől. Nagyobb méretű vagy sérülésveszélyes dokumentumok esetén több személy helyezze a szkennerbe és/vagy egyidejűleg támassza alá az iratot, áthúzós szkennernél figyelve a kivezetett irat biztosítására is. Kötet alapú iratok szkennelésénél legfőbb veszély a gerinc sérülékenységéből adódik. Az ilyen dokumentumoknál legfontosabb szempont, hogy mindig kellően alá legyen támasztva a kötet gerince és borítója. Ezt a könyvbölcsővel ellátott, illetve automata könyvszkennerek viszonylag jól megoldják, de ezeknél sem árt néhány közepesen kemény (pl. hungarocell, vagy karton lap) segéd-támasztékkal kiegészíteni a rendszert. Általános alapelvnek tekinthető a tömeges digitalizálásnál, hogy amennyiben fenn áll egy konkrét irat sérülésének veszélye, inkább félre kell tenni és az állományvédelmi felelős bevonásával egyedileg kell digitalizálni, esetleg más technológia alkalmazásával. Javasolt továbbá, hogy külső munkaerővel végzett digitalizálás esetén, a szkennelés kivételével az iratok mozgatását lehetőleg levéltáros végezze. 4.5.3. A digitalizálás során, amennyiben minden állományvédelmi előírás betartásra kerül, háromféle fizikai behatás érheti az iratokat, amik nem megfelelő technológia megválasztása esetén fizikai sérülést, vagy nem kívánt kémiai folyamatok beindulását eredményezheti. ●
Egyrészt az emberi tényező okozta hatásokra kell felhívni a figyelmet, ami a zsíros kézzel történő iratmozgatástól a nem megfelelő anyagmozgatásból eredő sérülésekig terjedhet. Előfordulásuk gyakorisága annyival nagyobb a kutatókéhoz képest, hogy a digitalizáló szakember a teljes iratgyűjteménnyel kapcsolatba kerül. Ezek a veszélyek a legtöbb esetben kellő odafigyelés és szabálykövetéssel kiküszöbölhetőek.
●
Második potenciális veszélyforrás az iratok digitalizálás kapcsán történő fényterhelése. Ez egyrészt az anyagmozgatás során történik a helyiségek természetes vagy mesterséges megvilágításának hatására, ami csak speciálisan veszélyeztetett iratok esetén lehet probléma (több száz éves iratok, filmek, filmnegatívok stb.). Ennél jelentősebb problémát okozhat, és visszafordíthatatlan kémiai változásokat indíthat el a nem megfelelő megvilágítást használó szkenner-technológia. A mai modern, ipari feldolgozásra használt eszközök fénytechnikai megoldásai már figyelembe veszik az állományvédelmi szempontokat, de néhány „kommersz” eszköz esetében nem lehet előzetes információt szerezni az alkalmazott fénytechnikáról. Általános szabály, hogy hideg fényű, nagy frekvenciás fénycsöveket, vagy speciális LED megvilágítást kell alkalmazni, ami sem hő, sem intenzív fényhatásával nem károsítja a dokumentumokat. A konkrét értékeket a mai állományvédelmi szabályzatok dokumentumtípusonként részletesen tartalmazzák.
●
A fizikai behatás harmadik forrása a digitalizáláshoz használt eszköz mechanikája. Ez szkennerenként és eszközönként változik, minden alkatrészre itt nem érdemes kitérni. A legfontosabb szempontok, amiket a technológia kiválasztásánál állományvédelmi oldalról érdemes lehet figyelembe venni, a következők: - 109 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
○
A dokumentummal mechanikai kölcsönhatásba kerülő alkatrészek pozíciója és/vagy erőssége állítható-e?
○
Görgős, vagy olvasófej technológiát alkalmazó eszközök esetében az adagolás-továbbítás sebessége állítható-e?
○
Görgős, vagy olvasófej technológiát alkalmazó eszközök esetében automatikusan érzékelje a becsípődést, de minimum meg lehessen manuálisan szakítani a folyamatot.
○
Lapadagolós szkenner esetében érzékelje a dokumentumoldalhoz kapcsolódó tárgyakat (pl. gémkapocs, ragasztott papír, stb.)
○
Kötet formájú iratokat feldolgozó technológia esetén, a dokumentum minden esetben kellő alátámasztást kapjon, a könyvbölcső precízen állítható legyen.
4.6. Restaurálás és egyszerűbb állagjavító intézkedések 4.6.1. A gyűjtemények digitalizálásával kapcsolatban esetenként több feladatot is el kell végezni. Ilyen az iratok tisztítása, alapvető gyűjteményi leírások, segédletek elkészítése, a hiányok feltárása és pótlása. Az iratrestaurálás összekapcsolása a digitalizálás műveletével szakmai és állományvédelmi szempontból is mindenképpen hasznos lehet. Más kérdés, hogy ennek anyagi vonzata, illetve időigényessége alapvetően befolyásolhatja a digitalizálási projekt kimenetelét. Sérült iratok esetében, az egyedi jelleggel történő restaurálás sok esetben nélkülözhetetlen, hiszen például egy szakadozott papírban nagyobb kár is keletkezhet szkennelés közben. Az azonban nem igaz, hogy a restaurálást minden esetben szkennelés előtt kell elvégezni. Ennek eldöntése iratonként változó, és költséghatékonysági szempontokat is figyelembe kell venni. Tömeges iratrestaurálás a digitalizálással párhuzamosan csak akkor végezhető, ha automatizált folyamatról van szó, mint a savtalanítás, mivel jóval több időt vesz igénybe. Amennyiben lehetőség adódik a restaurálási és digitalizálási feladatok egy projektben történő megvalósítására, úgy a tervezési fázisban szükséges, hogy a pilot-projekt erre a munkafolyamatra is kiterjedjen. Ahhoz, hogy sikeres és előre tervezhető maradjon a digitalizálási projekt, a restaurálással kapcsolatos folyamatokat is igyekezni kell univerzálni a folyamatos munkavégzés érdekében. Így az idő- és költségráfordítás tervezhetővé válik. A mindenre kiterjedő állagvédelem ugyanakkor egyedi beavatkozásokat igényel, amit nagyobb tételben már célszerű önálló projektként tervezni. 4.6.2. Míg a restaurálás művelete minden esetben professzionális szakmai tudást igényel, és így kizárólag restaurátor végezheti, addig egy tömeges digitalizálási projekt során több olyan egyszerűbb beavatkozást igénylő részfeladat is adódhat, amit nem feltétlenül szükséges az állományvédelmi szakembereknek végeznie (pl. egy egyszerű papírszakadás, amit – betanítás után – japán papírral a digitalizálást végző munkatárs is orvosolhat). Ezek a részfeladatok egyrészt ad hoc jelleggel keletkezhetnek, másrészt hatékony megoldásuk esetenként más szemléletet igényel, mint ahonnan egy restaurátor megközelítené a problémát. Amennyiben döntés születik arról, hogy egy kötetes, vagy fűzött formában tárolt irategyüttest lapokra kell bontani a digitalizáláshoz, az elvégzendő feladat nem tartalmaz olyan elemeket, amit ne lehetne megtanítani egy kellő affinitással rendelkező, de nem szakember munkatársnak is. A tapasztalatok azt mutatják, hogy egy restaurátor – a szakmai ethoszából adódóan – lassan, rendkívüli körültekintéssel, ugyanakkor elsősorban a tárgy állagára és nem feltétlenül az információ megőrzésére koncentrálva oldja meg a feladatot. Ezzel szemben egy betanított digitalizáló szakember, az alapvető állagvédelmi elvárásokat figyelembe véve, hatékonyan, gyorsan és a számára fontos, információ-reprodukciós szempontokat szem előtt tartva oldja meg a feladatot. A tömeges digitalizálás egyik alapvető kritériuma az állományvédelem mellett a hatékonyság. A tapasztalatok szintén megerősítik azt az elvet, hogy a digitalizálás közben keletkező kisebb mérvű, univerzális elvek alapján kezelhető sérülések javítását, előzetes betanítás után, ugyancsak rá lehet fokozatosan bízni - 110 -
Levéltári digitalizálás • Arcanum, 2012
4. Állományvédelem
a digitalizálást végző szakemberekre. Ennek nagy előnye, hogy nem akad meg a projekt végrehajtása, akkor és ott kezelik a problémákat, ahol keletkezik, valamint nem okoz plusz terhet az intézmény számára, nem vonja el a restaurátorokat a saját munkatervük végrehajtásától. A fent leírtak első hallásra talán merésznek tűnhetnek, és nem alkalmazhatóak természetesen univerzális elvként, azonban érdemes minden egyes projekt tervezésénél megvizsgálni alkalmazásuk lehetőségét. A pilot-projekt végrehajtása többek között ennek mérlegelésében is hasznos lehet.
4.8. A digitális állományok védelme Az a kérdés, hogy a digitálisan létrejött másolatok egy közgyűjtemény törzsanyagát képezik-e, szakmai körökben jelenleg vita tárgya. Az azonban nem kérdés, hogy a jelentős költség- és munkaráfordítás árán létrejött digitális állományokat is érdemes védeni, és erre szabályokat felállítani, akár csak az eredeti iratok esetében. Erre a kérdéskörre jelen tanulmány keretei között önálló fejezetet szentelünk (lásd a 7. fejezetet), ezért itt csupán az alapelvek felsorolására szorítkozunk. Az alább felsorolt szabályok betartásával jelen ismereteink szerint minimalizálható a digitális tartalomvesztés kockázata: ●
Digitális állományainkat több fizikai hordozón tároljuk.
●
A fizikai hordozókat ne egy helyen tároljuk.
●
Fizikai hordozó lehet optikai lemez, merevlemez és mágnesszalagos kazetta is. Ma már célszerű az optikai lemezek kerülése, a nehézkes adathozzáférés és a változó olvasó technológiák miatt. Hosszú távú mentéshez szalagos egységet alkalmazzunk. Érdemes különböző típusú hordozókra menteni azokat az állományokat, amik tartalmát ritkán változtatjuk meg.
●
Szerveren történő tárolás esetén, a szerver ne kapcsolódjon közvetlenül külső hálózathoz, vagy az Internethez. Így elkerülhető a külső elektronikus támadás, adatlopás, törlés vagy módosítás.
●
A digitális állományokhoz készüljön digitális leírás, ami tartalmazza az adatszerkezetet, a legfontosabb paramétereket, alkalmazott szabványokat és formátumokat, valamint az adattárolás fizikai helyét/helyeit és az elérési utat.
●
Amennyiben módosítás történhet a digitális állományban, vagy a hozzá esetlegesen kapcsolódó adatbázisban, fontos, hogy kapcsolódjon a mentéshez egy verziókövetésre alkalmas adatbázis vagy leírás (mit, mikor, ki cserélt, pótolt, változtatott az állományban, vagy az adatbázis rekordokban).
●
A digitális állományokat ugyanúgy gondozni kell, mint más gyűjteményeket. A hosszú távú állományvédelem ebben az esetben a platform, a fájlformátum, a hordozó anyag elöregedése és az adathordozó típusának változásaiból eredő, idővel jelentkező kompatibilitási problémák kiküszöbölését jelenti, amit időszakos konverziók és adatmásolások segítségével előzhetünk meg.
- 111 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5. Digitalizálás 5.1. A levéltári digitalizálás technikai feltételei 5.1.1. Bevezetés Az eszközválasztás az anyag fizikai természete, terjedelme, hordozója, állapota szerint történik. A tervezéskor számba vett anyag és a digitalizálás célja, valamint a mozgósítható források, eszközök együtt határozzák meg a konkrét körülményeket. Ezekkel ebben a fejezetben most nem foglalkozunk, hanem az elméleti, ideális körülményeket feltételezve áttekintjük a használatos digitalizálási technikákat, eljárásokat, formátumokat, eszközöket. A legalapvetőbb fizikai “megtestesülésük” szerint a digitalizálandó objektumok lehetnek tárgyak, épületek, audiovizuális objektumok, vagy állóképek. Ez utóbbi alatt az összes olyan iratot, könyvet, térképet, plakátot, tervrajzot, oklevelet értjük, aminek információtartalma és fizikai megjelenése kétdimenziós állóképek formájában lényegében a maga teljességében visszaadható, reprodukálható. Nem tartozik tehát ide maga a háromdimenziós tárgy, de pl. a róla készült fotó már igen. A levéltárakban őrzött kulturális közvagyon jellemzően ebbe a kategóriába tartozik, tehát a levéltári digitalizálás döntően különböző digitális formátumú állóképek készítését jelenti. Az audiovizuális anyagokra röviden külön kitérünk. Az állóképeket azok fizikai jellemzői szerint egy sor különböző szempont szerint kategorizálhatjuk: hordozóanyag ( papír, fém, kő, fal, fa, bőr, textil, üveg, celluloid, stb.), anyaguk kémiai összetétele (tinta, festék, ceruza, kréta) hordózó anyag optikai tulajdonságai (átlátszó, áttetsző, nem átlátszó), méret (néhány mm-től akár a több méterig), példányszám (egyedi vagy sokszorosított), stb., stb. A levéltári dokumentumok ebből a sokféleségből azért nagyobb mennyiségben csak néhány jellemző típust tartalmaznak: különböző méretű és állagú papír alapú dokumentumokat (iratok, kötetek, tervek, plakátok, térképek), pergamen alapú dokumentumokat (oklevelek), mikrofilmeket. Az állóképeket az információtartalmuk típusa szerint is csoportosíthatjuk: főleg szöveges vagy képi (esetleg mindkettő) információhordozók-e? Fontos, a digitalizálás tervezésekor megfontolandó és eldöntendő kérdés, hogy annak révén mit akarunk reprodukálni: pusztán az információtartalmát-e, avagy többé-kevésbé a fizikai megjelenését is? Ha pl. a fizikai állapot reprodukálásának csak annyiban van jelentősége, hogy az irat eredetiségét szavatolja, de különben csak a rajta lévő szöveg információtartalmát akarjuk megőrizni, akkor ennek megfelelő metódust és formátumot kell választanunk.
5.1.2. Tervezés A digitalizálás megkezdése előtt – az adott intézmény dokumentumkezelési szabályzatával, digitalizálási tervezetével összhangban – számba kell venni, fel kell mérni a digitalizálandó anyagot. Minél pontosabban sikerül az alábbi szempontokból előzetesen feltárni az anyagot, annál jobban optimalizálhatók a szükséges erőforrások, annál kevesebb lesz a tényleges digitalizálás során az üresjárat. A levéltári anyagok természete folytán – és gyakran dokumentáltságuk szegényessége okán – ugyanakkor sokszor lehetetlen előre precíz válaszokat találni, ilyenkor érdemes jól megválasztott, reprezentatív mintavételezéssel az anyag egy részét “kézbe venni”, azon próbadigitalizálást végezni, végigfuttatni a tervezett teljes folyamaton, és az így szerzett tapasztalatokat vetíteni a teljes anyagra. Minél nagyobbnak tűnik a bizonytalanság, annál több tartalékot, rugalmas változtatási lehetőséget érdemes bekalkulálni a projektbe. - 112 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.1.2.1. A digitalizálás lehetséges céljai A skála két végén az eredeti tökéletes reprodukálását is lehetővé tévő archív példány létrehozása és mondjuk az interneten is elfogadható sebességgel működő, kutatható állomány előállítása állhat. A két eltérő célhoz különböző paraméterű képeket kell létrehozni. Lehetőség van a szkennelés során eleve mindkettőt előállítani, ám ez esetben megvan annak a veszélye, hogy a két állomány elválik egymástól, és az utóbb végrehajtott műveleteket (pl. képkorrekció, fájlátnevezés, metaadatok hozzárendelése) kétszer kell végrehajtani, ráadásul azt is menedzselni kell ebben az esetben, mi történt meg az egyik és a másik sorozattal. A nagyobb felbontású, több színinformációt hordozó állományból később is előállíthatjuk a további, a felhasználáshoz “lebutított”, könnyebben kezelhető fájlokat.
5.1.2.2. Méret Az egyik legalapvetőbb paraméter. A különböző szkennereknek fizikai kialakításuknál fogva van egy maximálisan feldolgozható dokumentum méretük, ezt kell figyelembe venni az eszközválasztásnál. A ma kapható ún. nagyformátumú térképszkennerek 1 méternél valamivel szélesebb (A0) és tetszőleges hosszúságú dokumentumot tudnak bevenni. Ha ennél nagyobb eredetink van, akkor esetleg több részletben, digitális fényképezőgéppel lehet felvételezni, majd a digitális fájlokat manuálisan vagy alkalmas szoftver futtatásával montírozni. A síkágyas szkennerek általában A3-as (esetleg maximum A2-es) méretig tudnak dolgozni. A dokumentumszkennerek A3-as, a könyvszkennerek pedig A2-A1 méretűek.
5.1.2.3. Mennyiség Külön-külön kell számba venni az egyes eszköztípusokon szkennelendő dokumentumok darabszámát. Érdemes figyelni arra, hogy egy-egy tékában, tasakban, borítékban, dossziéban, dobozban gyakran több dokumentum van, nem ritkán különböző méretűek. Ebben a tanulmányban elsősorban a tömeges levéltári digitalizálásról beszélünk. Az ezzel szembeállítható egyedi digitalizálás – akár csúcsminőségű művészi célú reprodukcióról, akár az egy-egy érdeklődő kérésére készített, pár oldalas digitális másolatról van szó – nem tartozik a tárgyába. Annyit azért elmondhatunk erről a szegmensről, hogy egy oldal digitalizálása esetén is ugyanazok a konkrét lépések és problémák, amik a tömeges esetben jelentkeznek. Egyedi esetben nem fontos drága eszközökbe beruháznunk, hatékony digitalizálási technológiát kialakítanunk, hiszen a szkennelendő anyag elővétele, előkészítése sokkal tovább tart, mint maga a szkennelés. Inkább fontos egy jó nyilvántartás, hogy ha ilyen igény merül fel, akkor a kívánt anyagot gyorsan rendelkezésre tudjuk bocsátani.
5.1.2.4. Hordozó anyaga, állapota Az eredeti hordozó anyaga, annak állapota, az ezzel kapcsolatos állományvédelmi előírások jelentősen korlátozzák, behatárolják, meghatározzák a digitalizálás eszközválasztását, a szükséges munkamenet kialakítását. Hiába lehetne elvben pl. dokumentumszkenneren, nagy sebességgel beszkennelni egy irategyüttest, ha olyan savas, törékeny papíron van, ami elemeire hullik a görgők között. Ilyenkor esetleg előzetes állagmegóvó, restauráló munkafolyamatokat kell közbeiktatnunk, vagy más, kíméletesebb eszközt kell választanunk. Sokszor csak a próba szkennelés során derül ki, hogy olyan, előre nem látható akadályok merülnek fel a nyersanyaggal kapcsolatban, amik az egész digitalizálási folyamat újratervezését igénylik.
5.1.2.5. Felbontás és színmélység Állóképek esetén a fizikai objektumok leképezésének két független paramétere határozza meg, hogy a reprodukció mennyire “valósághű”: ez a felbontás és a színmélység, a színreprezentáció. Első megközelítésben azt mondhatnánk, hogy minél nagyobb felbontású és minél nagyobb színmélységű a létrehozott digitális állományunk, annál jobban visszaadja az eredetit. Viszont ez esetben a mérete is a legnagyobb lesz, annak minden problémájával együtt (erre később még visszatérünk). Egy gépelt papírról nyilván nem érdemes mikroszkopikus felvételt készíteni, hanem az értelmes, reális felhasználási célokhoz kell a felbontást igazítani.
- 113 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.1.2.6. Eszközválasztás Az eredeti anyag fizikai hordozója, állapota, mérete, az anyag mennyisége és a digitalizálás célja, minőségi követelményei határozzák meg azt, hogy milyen eszközt használjunk. Az eszközöket is jellemezhetjük ugyanis a fenti paraméterekkel: nekik is van felbontásuk, színmélységük. Fontos paraméterük még az általuk digitalizálható méret, valamint a sebességük is. A különböző gyártók eszközei eltérő metódussal, minőségben és költséggel végezhetik el a digitális képalkotást, körültekintő választással sok későbbi bosszúságtól menekülhetünk meg. Nem hagyhatjuk figyelmen kívül természetesen az árukat sem, a digitalizálási egységre jutó fajlagos költséggel mindenképpen kalkulálnunk kell. A digitalizálási folyamat eszközei közé kell sorolnunk a berendezéseket vezérlő, az átalakításokat végző számítógépeket és háttértárakat is. Ezek teljesítménye is jelentősen befolyásolhatja az egész munka hatékonyságát, árukkal, várható élettartamukkal pedig a költségoldalon kell számolnunk.
5.1.2.7. Metaadatok, visszakereső rendszer A digitalizálás gyümölcseinek felhasználásához a kívánt állományokat meg kell találnunk. Ehhez értelmes mélységű adatleírásra van szükség. Ennek előállítása, a képállományokhoz való rendelése, és megfelelő navigációt, keresést biztosító rendszerbe való betöltése nélkül a digitalizálás semmit nem ér. Itt is meg kell találnunk az egyensúlyt: a reális felhasználási célokhoz elégséges metaadatot kell hozzárendelnünk. A túl sok, túlságosan szétaprózott adat a felhasználást is nehézkessé teszi, és az előállítást is megnehezíti, megdrágítja. A világban elterjedő mai tendencia az, hogy még ha a háttérben vannak is bonyolultabb, kifinomultabb adatleírást, formázást, keresést támogató adatelemek, a szem előtt lévő, fő eszköz szinte csak egyetlen keresőablak. Lásd akár az Europeana-t, akár a Google-t.
5.2. Követelmények Mielőtt megfogalmaznánk a levéltári anyagok digitalizálásakor elvárható követelményeket, ismerkedjünk meg kicsit részletesebben a két legfontosabb paraméter, valamint az adatok tömörítésének és a használt fájlformátumnak a jelentőségével!
5.2.1. Felbontás Egy digitális képet úgy képzelhetünk el, mintha a valóságot egy ablakra feszített szúnyoghálón át néznénk: egyrészt kivágunk belőle egy téglalap alakú szeletet, másrészt csak a rács „lyukain” keresztül látjuk a valóságot. (Az egyszerűség kedvéért tekintsük most úgy, hogy egy lukon “átnézve” csak egyetlen dolgot tudunk megkülönböztetni: van-e ott valami, vagy nincs.) A keretnek van egy befoglaló mérete, ami meghatározza, hogy a valóság mely és mekkora szeletét látjuk. A rácsnak pedig van egy sűrűsége, ami azt határozza meg, milyen finomsággal látjuk a mögötte lévő dolgokat: egy finom szúnyoghálót távolabbról nézve esetleg észre sem veszünk, míg egy sűrű ablakrács erősen “bezavar a képbe”. A képalkotó eszközök is ezen az elven működnek: a leképezés (input) és a megjelenítés (output) oldalán is egy téglalap alakú mátrixot képzelhetünk el, amiben meghatározott finomsággal optikailag aktív, fényt érzékelő vagy fény kibocsátására képes elemek sorakoznak. Őket pedig átlátszatlan, optikai szempontból semleges elemek keretezik. Egy ilyen egységet nevezünk pixelnek (Picture element = pixel). Ha színes reprezentációról van szó, akkor egy pixel nem pusztán “van/nincs” információt (geometriai adatot) tartalmaz, hanem ún. szubpixelekben egy-egy képpont színinformációját is. Hogy precízek legyünk, egy digitális kép csak a leképezéskor és a megjelenítéskor tekinthető ilyennek, a tárolt képállomány csak bizonyos speciális esetben ilyen, a pixel információt általában valamilyen kódolt formában, a hatékonyabb helykihasználás végett gyakran speciális tömörítési algoritmusokkal összecsomagolva tárolja. - 114 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Az emberi szem is egy képalkotó eszköz, és még ha a fejlettebb látás magasabb agyi folyamatok eredménye is, azért az elemi információt ennek a feldolgozási folyamatnak a kiindulópontjai, a retinánkon elhelyezkedő érzékelő sejtek adják. A szemünknek is van optikai felbontása: azt a legkisebb szöget szokás ennek mértékéül megadni, amekkora eltéréssel elkülönültnek látunk két pontszerű elemet. Ez az érték az átlagos emberi szem esetén kb. 1 ívperc, 1° 60-ad része. Ez a meghatározás kiküszöböli a nézés távolságából adódó változót: ha mondjuk az elkülöníthető pontok távolságával jellemeznénk a felbontást, akkor mindig hozzá kellene tenni, hogy milyen messze vannak. Ennek jelentősége nyilvánvalóvá válik, ha arra gondolunk, mit látunk a tűből és a befűzendő cérnából, ha az a mi kezünkben van, és mit, ha az utca túloldalán lévő varróműhely ablakán lesünk be. A valóságban, alapesetben, a puszta szemünkkel nézzük a külvilági objektumokat, pl. olvasunk egy kezünkben tartott újságot. Ez esetben a legjobb szemű emberek kb. 300 dpi (dot-per-inch, azaz 300 képpont 2.54 cm-enként) “felbontó képességűek”, az ennél finomabb részleteket már nem tudják megkülönböztetni. Ezért vált a 300 dpi a legáltalánosabban elterjedt kimeneti felbontássá Köznapi értelemben egy sor – némiképpen eltérő mérőszámokkal jellemezhető – különböző dolgot is felbontásnak nevezünk. Beszélünk egy lézernyomtató felbontásáról, egy szkenner felbontásáról, egy digitális kamera felbontásáról, egy projektor felbontásáról, egy monitor felbontásáról. Szokás megadni ezeket a pixelek abszolút számában (pl. 10,2 MP=megapixel), a sorok és oszlopok abszolút számában (pl. 1024x768), az egy hosszegységre jutó pixelek számában (pixelsűrűség, pixel/inch=ppi) nyomtatott vonalak száma hosszegységenként (line/inch=lpi), valamely szabványra való hivatkozással (pl. VGA, full HD), egy hosszmértékben (ti. hogy pl. egy térképállományban két pixel között a valóságban mekkora a távolság), stb. Ezek mindegyike lényegében ugyanazt mondja meg: hogy hány elkülönült egység lehetséges az adott eszközön. Azt ugyanakkor sokszor elmossák, hogy a különböző eszközökön ez mást jelent. Nézzük meg sematikusan, hogyan is jön létre egy digitalizált kép látványa, amit a számítógépünk monitorán szemlélünk! 1
Eredeti objektum
2
Optikai leképezés. A képi információ egy meghatározott látószögű analóg valóságszeletből a képalkotó eszköz egy fix területére vetül. Vannak kontakteszközök (síkágyas szkenner, dokumentum szkenner, térképszkenner), ahol nincs optikai konverzió, egy az egyben az eredeti kép kerül az érzékelőre, és vannak valamilyen vetítést, optikai transzformációt alkalmazó eszközök (felsőfejes, könyvszkenner, digitális fényképezőgép), ahol valamilyen kicsinyítés vagy nagyítás történhet.
3
Digitális átalakítás. A képalkotó bizonyos felbontással (finomsággal, gyakorisággal) mintát vesz a valóság vetületéből, előállnak a pixelek.
4
Kódolás, tömörítés, tárolás. Valamilyen algoritmus szerint képfájlba rögzül az infó. Tömörítetlen formátum használata esetén egy képi pixel egyenértékű egy képfájl pixellel. Veszteségmentes tömörítés használata mellett úgy van kódolva egy-egy képi pixel, hogy annak teljes információtartalma veszteség nélkül kerül bele a képfájlba. Veszteséges tömörítés esetén csak valamilyen közelítő algoritmussal állítható helyre az eredetihez hasonló pixelinfó; pixelnél nagyobb egységek információtartalma egyben kódolódik.
5
Dekódolás. A képfájl kiolvasása, a pixelenkénti infó reprodukálása
6
Küldés a megjelenítőre. Az eszköz tulajdonságaihoz kell alakítani a képfájlból kiolvasott, pixelekké alakított felbontás (és szín) információkat. Nagyítás és kicsinyítés, részletmegjelenítés is lehetséges.
7
Látás. A megjelenítőnek a befogadóhoz viszonyított elhelyezkedése szerint újabb optikai transzformáció történik, és érvényesül az emberi szem felbontóképessége.
Láthatjuk tehát, hogy a folyamat számos pontján történik olyan átalakítás, ami a felbontást is befolyásolja. Gyakorlati szempontból mégis az elsődleges képalkotó eszköz felbontása a leglényegesebb elem. Ez határozza meg leginkább, hogy milyen részletességgel, finomsággal tudjuk a képállományban eltárolni az eredeti dokumentum digitális leképezését. Az elemi képérzékelő elemek valamilyen fényérzékeny elektronikus esz- 115 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
közök (CCD vagy CMOS szenzorok), amik a rájuk eső fény intenzitásával arányos feszültséget képesek generálni, ráadásul még mindegyikük a három alapszín valamelyikére szenzitív. Az eszközök egyik felében az érzékelő elemek egy (vagy egymáshoz közeli néhány) sorban helyezkednek el, sűrűségük adja a vízszintes felbontást. A függőleges letapogatás úgy történik, hogy vagy az érzékelősor mozog a digitalizálandó objektum felett (síkágyas szkenner, felsőfejes könyvszkenner), vagy az érzékelő sor rögzített, és a szkennelendő anyag mozog alatta (pl. térképszkenner, dokumentumszkenner). Könnyen beláthatjuk, hogy a konstans felbontás biztosításához végtelenül precíz szabályozás szükséges: mindkét esetben precíziós, elektronikusan vezérelt motorok mozgatják a kívánt alkatrészeket. Ez esetben a felbontást a léptető motorok pozícionálásának pontossága, finomsága határozza meg. Főleg az olcsóbb eszközök között találunk olyanokat, amelyek vízszintes és függőleges felbontása eltér (pl. 600 dpi vízszintes és 1200 dpi függőleges felbontás). Ennek az az oka, hogy vagy a képérzékelők sűrűsége, vagy a mozgató motorok léptetési finomsága limitált. Maga a szkennelés addig tart, amíg a teljes felület végighalad az érzékelők előtt. Az eszközök másik felében az érzékelők egy mátrixban helyezkednek el, kitöltve egy téglalap alakú felületet. Ilyenek a digitális fényképezőgépek. Szemben az előző, soronkénti letapogatást végző eszközökkel, itt egy felvétel készítése csak az expozíciós idő tartamáig tart (illetve praktikusan ehhez még hozzáadódik a kép tömörítésének, letárolásának, továbbításának időtartama is). A digitális fényképezőgépek mindenképpen igényelnek valamilyen optikai átalakítót, objektívet, hogy a külső kép a kisméretű érzékelő felületre kerüljön. Az objektíveknek is van felbontásuk, azonban ez még a mai, egyre nagyobb felbontású digitális lapkák idején sem jelent szűk keresztmetszetet, itt inkább az optikai torzítás veszélye nagy. Az optikai transzformációt involváló eszközök használata esetén fontos tudnunk, kiszámolnunk az adott beállítások mellett létrejövő képfelbontást! Azok a kontakteszközök, ahol nincs ilyen leképezés, ott biztosak lehetünk benne, hogy a képfelbontás megegyezik a felvételezéskor beállított felbontással. Ahol azonban egy objektív (pláne egy zoom-objektív!) vetíti a képet az érzékelőre, nem lehetünk biztosak az eredményben. A legegyszerűbb módszer a valós képfelbontás meghatározására, ha rögzítjük a beállításainkat, majd egy ismert hosszúságú tárgyról (pl. egy nagypontosságú kalibráló léc, ábra, vagy ha az nincs, akár egy jobb minőségű vonalzó) próbafelvételt készítünk. Ezt nyissuk meg valamilyen képszerkesztő programban, ahol a kívánt pontossággal leolvashatjuk, hogy 30 cm-es vonalzónk 3544 pixel, tehát a felvételezés felbontása éppen 300 dpi. Gyakori zavart jelent az eredeti dokumentum mérete, a digitális állomány vízszintes és függőleges pixeleinek számából adódó méret, valamint a képfájlok fejlécében tárolt felbontás- és méretadatok értelmezése. A szkennelő programok, képfeldolgozó alkalmazások által létrehozott képfájlok a pixelenkénti képinformációkon kívül egy sor egyéb adatot is tartalmazhatnak. Ezek a fájlok ún. fejlécében lévő metaadatok egy sor információt tartalmaznak a kép létrejöttének körülményeivel kapcsolatban (pl. digitális fényképezőgép esetén az objektív, a rekesz beállításai, az ISO fényérzékenység-érték, copyright adatok, stb.). Nem minden képformátum tartalmazza ugyanazokat az adatokat, és nem minden alkalmazás tölti fel az összes lehetséges adatot a fájlok fejlécébe. Ha használni akarjuk a digitális állományt, megnyitjuk azt bármilyen alkalmazásban, a megjelenítő a fájltípus azonosítása után először a fejlécadatokat olvassa ki, amelyeket azután felhasználhat a megjelenítés során is. Hogy hogyan kezeli őket (avagy kezeli-e egyáltalán), az az alkalmazástól függ. Az biztos, hogy két adatot mindig meglelünk bennük: a képfájl pixelben megadott méreteit és a kép felbontását (pl. 3000x2000 pixel, 300 dpi). Ha olyan programba töltjük be a fájlunkat, ami “érti” a felbontás adatot (pl. egy tördelő programba, vagy egy PDF fájlt hozunk létre az Adobe Acrobat Professional programmal), akkor az eredetivel megegyező 25,4 cm x 16,9 cm-es méretben jeleníti meg, avagy nyomtatja ki a képünket. Ha az alkalmazás “nem érti” a felbontás adatot, akkor negligálja, ez esetben a 3000x2000 pixeles képünket nagy valószínűséggel a megjelenítő eszköznek (pl. monitor), vagy magának a programnak az alapértelmezett felbontása szerint kezeli (pl. 72 dpi), és 1:1 megjelenítést választva 105,8 cm x 70,6 cm méretben jeleníti meg. A három adatból kettő mindig egyértelműen meghatározza a harmadikat: így ha el is veszítjük valamiért a képekben tárolt eredeti felbontás adatot, utólag a dokumentum valóságos fizikai méreteinek lemérésével és a pixel-mérettel való arányítással újra meghatározhatjuk azt. - 116 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.2.2. Színreprezentáció A külvilágból származó vizuális információ jelentős része színes. Az emberi szem ennek érzékelésére több millió különböző szín, színárnyalat megkülönböztetésével képes. A természetben léteznek fénykibocsátásra képes objektumok (elsősorban a csillagok, a nap, bizonyos élőlények), és az emberi technika is számos ilyen eszközt hozott létre (világítótestek, monitorok). A napunk egy széles frekvenciatartományban sugároz, ennek bizonyos határok közé eső része a látható fény tartománya, a vöröstől az ibolyáig. A hullámhossz függvényében (a hullámhossz és a frekvencia egymással fordítottan arányos, mindkettőt szokás használni a fény jellemzésére) a szemünk a tartomány egyes részeit bizonyos színűnek látja. Mivel a napfény minden hullámhossztartományban sugároz, ezek összeadódva jutnak a szemünkbe, és mi ezen hullámok keverékét, (egy kissé sárgás) fehér fényt látunk. Az önálló fény kibocsátására nem képes dolgok a rájuk eső fényt fizikai tulajdonságaik függvényében részben elnyelik, részben visszaverik. A látható fény teljes spektrumából elnyelt hullámhosszak kivonódnak a visszavert fényből, a “maradék” jut csak a szemünkbe, annak összességét látjuk a benne lévő frekvenciatartományok függvényében valamilyen színűnek. A színes objektumok megjelenítésére használatos ember alkotta dolgok is e két elv valamelyikének alapján működnek: vagy az elnyelt – és ezen keresztül a visszavert – fény spektrumát befolyásolják különböző technikákkal immár sok ezer esztendeje (nyomdafestékkel, tintával, tussal, színes festékkel, fényezéssel), vagy a fénykibocsátó elemek által emittált spektrum szabályozásával (színes monitor). A konkrét technikai megvalósítás mindkét esetben, elvben, nagyon sokféle lehet. A színek megbízható leírása, átvitele a két különböző eszköztípus között éppen az alapvetően eltérő fizikai megvalósulás miatt nem egyszerű és nem kompromisszum-mentes: az egyikben megadott színinformáció csak bizonyos közelítéssel és bizonyos tartományban feleltethető meg a másiknak. Az ilyen konverzióra számos modell, eljárás, szabvány született, ezen színterek következetes használata minimalizálja a színrendszerek közötti átjárás során fellépő színmódosulást. Az optikailag aktív elemeket két csoportba sorolhatjuk: az egyik fényt bocsát ki, megjelenítésre alkalmas (tipikusan pl. egy monitor), a másik pedig a rájuk eső fényre érzékeny, annak intenzitását, hullámhosszát képes érzékelni. Régóta tudjuk, hogy a látható fény teljes tartományát három alapszín komponenseinek megfelelő keverékével elő lehet állítani. A vörös (R=red), zöld (G=green) és kék (B=blue) színkomponensek intenzitásának szabályozásával minden szín előállítható, amit szemünk érzékelni képes. Látószervünkben ugyanis – kissé leegyszerűsítve – éppen e három alapszínre érzékeny elemek vannak, és az emberi szem “kiszolgálására” kifejlesztett technikai eszközök, megjelenítők is e három alapelemet használják. Ha rögzíteni akarjuk a külvilág színinformációit, akkor egy lehetséges módszer, hogy szintén ezt a modellt követve, a három alapszínre érzékeny fotoaktív elemeket építünk rendszerbe. A ma használatos szkennerek, digitális fényképezőgépek CCD vagy CMOS érzékelői ilyenek. Minden egyes téri képpont elem a színinformációt hordozó 3 szubpixelből áll. Hogy hány színárnyalatot képesek rögzíteni (avagy az output oldalon megjeleníteni, illetőleg a képfájlban tárolni), az attól függ, hogy az egyes komponenseket milyen finomsággal, felbontással képesek azonosítani. Ennek mértéke a színmélység. A technikában bitekben szokás megadni, azt adjuk meg vele, hogy az adott modellben, eszközzel elérhető összes színárnyalatot pixelenként hány bitnyi helyen lehet leírni. A színinformációt is tároló képfájl mérete arányos a pixelenként felhasznált bitek számával. Minél nagyobb a színmélység, annál nagyobb a fájlméret. Az 1 bites színmélység azt jelenti, hogy minden egyes pixel csak egyetlen bitnyi, “0” vagy “1” értéket vehet fel, csak azt tárolja, hogy adott pixelen van-e valami, vagy sem (praktikusan fekete vagy fehér). Nyilván ennek a legkisebb a mérete, de csak olyan esetekben használható, ha nincs szükség semmilyen szín információra. - 117 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A 8 bites színmélység 28 = 256 fokozatot képes tárolni. Ha ez a fekete árnyalatait jelenti, akkor ún. szürkeárnyalatos (grayscale) képről beszélhetünk. Gyakori megoldás a színpalettás 8 bites színmélység. Ilyenkor nem egy szín 256 árnyalata tárolódik, hanem pl. az adott képben leggyakoribb 256 színárnyalat, vagy egy standard, egyenletes skála, ami mindenféle színt kiegyensúlyozottan tartalmaz. Csak korlátozott színvisszaadásra képes, de ahol ez elégséges, a kisebb mérete miatt használatos. A leggyakoribb modell a 24 bites RGB színfelbontás, amely mindhárom alapszínt 8 biten tárolja, így mindegyikben 256 árnyalat, összesen 16777216 szín lehetséges benne. Ez nagyjából megfelel az emberi szem színfelbontó képességének is, így megjelenítési oldalon is kielégítő eredményt ad. Egyes berendezések, alkalmazások ennél nagyobb színmélység előállítására, kezelésére képesek, pl. alapszínenként és pixelenként 16 bit, összesen 48 bit. Bizonyos speciális esetekben, ha a kép tartalmaz valamely színből egészen finom tónuseloszlást, a nagyobb színmélység révén még szebb, valósághűbb, dinamikusabb képet kapunk. A finom árnyalatú képekkel végzett műveletek is szebb eredményt adhatnak nagyobb színfelbontás esetén. Gyakori megoldás – különösen a jó minőségű, korszerű, drága berendezések esetén –, hogy az érzékelő maga 24 bitesnél nagyobb színmélységben dolgozik, és csak a képfájl mentésekor konvertál 24 bitesre. Elterjedtsége okán még egy színreprezentáció típusról kell szót ejtenünk, ez az ún. CMYK modell. Itt minden pixelhez nem három, hanem négy szubpixel tartozik a négy használt alapszínnek megfelelően, így ez 32 bites színmélységet jelent. A nyomtatásban a színinformáció úgy áll elő, hogy a beeső teljes spektrumú fényből a papír, ill. a nyomdafesték bizonyos komponenseket elnyel, “kivon”, és a maradék visszavert fényt érzékeljük. Ezért nevezzük ezt szubtraktív modellnek is. Az – offset – színes nyomdatechnikában három alapszínt (C=Cyan=ciánkék, M=Magenta=bíbor, Y=Yellow=sárga) használnak, elvben ezekkel is le lehetne írni a teljes spektrumot. A festékek fizikai-kémiai tulajdonságai miatt azonban ez csak tökéletlenül lehetséges, egy csomó színárnyalatot nem lehet kikeverni (pl. elméletileg ha ezen három alapszínt összekeverjük, feketét kellene kapnunk, ehelyett azonban valójában egy sötét barnás szín az eredmény), így – gyakorlati tapasztalatok alapján – egy negyedik színt, a feketét (K=Key=kulcs összetevő) is bevontak a modellbe. Ennek a “kulcs-összetevőnek” a használatával, a három alapszínhez való adagolásával már kellően finom tónusvisszaadás érhető el.
Éppen csak megjegyezzük, hogy van még egy harmadik színreprezentációs metódus is, az ún. Lab modell (L=Lightness=fényesség, “a” és “b” színcsatorna), ahol egy színt a fényesség komponens mellett két színcsatornán való elhelyezkedése szerint ábrázolnak: “a”=zöld-bíbor, “b”=kék-sárga. A fejlett képkezelő, feldolgozó programok (pl. Adobe PhotoShop) egyaránt képesek kezelni bármelyik színmodellt, a képeket egyikből a másikba átalakítani. Képfeldolgozási szempontból mindegyiknek meglehet a maga előnye (pl. a legtöbb ember számára sokkal egyszerűbb, természetesebb CMYK módban végezni tónuskorrekciókat: ha egy kép túlságosan kékesnek tűnik, csökkentvén a ciánkék összetevők intenzitását, az elvárt módon változik a kép), de a digitalizálás kapcsán sosem szabad elfeledkezni arról, hogy a kezdeteknél (az érzékelőknél) és a végén (monitor, ill. az emberi szem) az RGB mód érvényesül. Minden más, közbülső reprezentáció csak több-kevesebb jósággal megvalósuló szimuláció. - 118 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.2.3. Színhűség Természetes elvárásnak gondolnánk, hogy a digitalizálás eredményeképpen az eredetivel megegyező színeket kapjunk. De hol, milyen eszközön, milyen körülmények között? és mit is jelent a színazonosság? Mint föntebb már láttuk, a színreprezentáció módja, fizikai alapja a digitalizálási munkamenet számos pontján átalakul. Egy dolog színe eleve függ a hordozó fizikai tulajdonságaitól (fényes, tükröződő, áttetsző, sima, érdes, matt, stb.) a külső fényviszonyoktól, a megvilágítás módjától, színhőmérsékletétől. Az átalakulás egyik ponton sem tökéletes, a színek szükségképpen több-kevesebb módosulást szenvednek el az eltérő fizikai elvek szerint való megvalósítás miatt. Ugyanakkor a munkamenet számos pontján van lehetőségünk beavatkozni, korrigálni a színeket: a szkennelő szoftverben, a képfeldolgozó programban, az egyes fájltípusokba való mentéskor, a megjelenítéskor, stb. A színek megbízható kezeléséhez hagyatkozhatunk a szemünkre: a különböző pontokon tapasztalt színeket összehasonlítjuk az eredetivel, és úgy korrigáljuk a szoftverek beállításait, hogy kielégítő azonosságot kapjunk. Törekedjünk az egész workflow-ban részt vevő elemek összekalibrálására (az eszközök vezérlő programjaiban van erre általában lehetőség: szkenner, monitor, nyomtató), a külső fényviszonyok standardizálásra! Ennek a módszernek az a veszélye, hogy a látszólag jól beállított, az eredetivel megegyezőnek tetsző színvilág egy másik megjelenítő eszközön, más körülmények között meglehetősen eltérő eredményt adhat. Ennél egzaktabb módszer, ha valamilyen színmintát használunk, és azt végigvisszük az egész digitalizálási menet során. Számos cég készít ilyen ábrákat, a Kodak Color Target talán a legelterjedtebb. Ezek színes papírcsíkok, amik meghatározott rendben mindenféle színárnyalatból, telítettségből tartalmaznak általában négyzetes foltokat. Ha az adott beállítások mellett beszkenneljük, akkor az eredményfájlban – egy profi képszerkesztő programban megnyitva – megmérhetjük, hogy az egyes, elméletileg ismert színösszetevőjű foltok milyenek is lettek valójában a szkennelés eredményeképpen, és a minta eltérésének megfelelően korrigálhatunk a beállításokon. Ha különösen fontos a színhűség (pl. középkori oklevelek esetén), és nem lehet az eszközön megbízhatóan beállítani a megfelelő színeket, akár azt is meg lehet tenni, hogy minden egyes digitalizálandó objektum mellé odatesszük a színmintát. Így ugyan jelentősen nagyobb lesz a fájlméretünk, és ha csak a képet akarjuk használni, mindig le kell vágni róla a target képét, de minden egyes felvételen kontrollálni tudjuk a valós színeket. Harmadik lehetőségünk valamilyen szabványos színteret végigvinni a munkamenet során, pl. sRGB vagy Adobe RGB. Ezek minden lehetséges ponton való következetes alkalmazása minimalizálja a színek módosulását a folyamat során. A színterekről annyit érdemes tudni, hogy ezek a színek ábrázolására használható virtuális koordinátarendszerek, amelyben az egyes konkrét színek tulajdonságait a koordináták mentén megadott értékekkel fejezik ki. Különböző elvi megfontolások, paraméterek (pl. világosság, színárnyalat, telítettség) alapján határozták meg ezeket a koordináta tengelyeket, a gyakorlatban számos színtér-modell jött létre. Az informatikai eszközökben a leggyakrabban az sRGB színteret használják. Mindegyik színtérnek van “értelmezési tartománya”, azaz jellemző rá a modellben ábrázolható színek spektruma, ami a koordinátarendszerében egy szabálytalan, “krumpli” alakú térrész, ezt nevezzük gamutnak. A különböző színterek gamutja nem tökéletesen egybevágó. A legjobb színhűséget az összes módszer együttes használatával érhetjük el: alakítsunk ki standard, kalibrált hardver eszközökből álló környezetet, a képfeldolgozásban jártas, tapasztalt munkatárs folyamatosan ellenőrizze vizuálisan a digitalizálás eredményét, igény szerint használjunk alkalmas színmintát és használjunk sRGB színteret az egész folyamat során!
5.2.4. Tömörítés A digitalizálás során előálló nyers szenzor-adatok mennyisége a digitalizált objektum fizikai méretei, a felbontás és a színmélység függvénye. Vegyünk például egy 80 x 60 cm-es térképet, amit 300 dpi felbontással, 24 bites színmélységben beszkennelünk! Az eredményül kapott fájl (80 x 300)/2,54 x (60 x 300)/2,54 = 9449 x 7087 pixelt, azaz 66.965.063 pixelt tartalmaz. Pixelenként 24 bit tartalmazza a színinformációt, így össze- 119 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
sen 1.607.161.512 biten, megközelítőleg 200 MB-on tárolhatjuk a kép teljes információ tartalmát. Ez hatalmas mennyiség, ennek tárolása, mozgatása sok erőforrást emészt fel. Szerencsére számos módszer létezik a nyers adatok tömörítésére, miáltal jóval hatékonyabb felhasználás, olcsóbb archiválás válik elérhetővé. Képtömörítésnek azt az eljárást nevezhetjük, amelyben különféle technikákkal csökkentjük a digitális képfájl méretét. Ilyen lehet pl. a redundáns információ azonosítása és hatékonyabb tárolása (pl. az azonos színinformációt tartalmazó pixelek), vagy az emberi látás szempontjából kevéssé szembetűnő információk kisebbnagyobb mértékben való figyelmen kívül hagyása. A tömörítési algoritmusok, vagy más szóval kodekek (codec = compressor/decompressor) sokfélék, bonyolult matematikai formulákat használnak ugyan, de alapvetően mindegyiknek két lényeges, számba veendő faktora van: a tömörítés mértéke és a tárolt információ megőrzésének foka az eredetiből történő újabb és újabb leszármaztatások (dekódolások és újra kódolások) során. A tömörítési arány a tömörített képfájl méretét viszonyítja az eredeti képmérethez (ahol az eredeti képméret a fenti módon számított nyers szenzorméret). Jó néhány különböző formában is szokás megadni, az egyes formátumok, alkalmazások más és más alakban használják, álljon itt ízelítőül néhány lehetőség. Tömörítési arány
Jelentése
4:1
az eredeti fájl négyszer akkora, mint a tömörített; a tömörített fájl mérete negyedrésze az eredetinek
4
az eredeti fájl négyszer akkora, mint a tömörített; a tömörített fájl mérete negyedrésze az eredetinek
4
egy 0-12 skálán “4”-es tömörítési fokozat, ahol a “0” jelenti a legrosszabb minőséget, de a legkisebb fájlméretet, “12” a legjobb minőséget, de a legnagyobbat (pl. PhotoShop)
25%
a tömörített fájl mérete 25 százaléka az eredeti méretének
25
egy 0-100 skálán “25”-ös tömörítési fokozat, ahol a “0” jelenti a legkisebb fájlméretet, “100” a legnagyobbat (pl. IrfanView)
0,25
egy 0-1 skálán “0,25”-os tömörítési fokozat, ahol a “0” jelenti a legrosszabb minőséget, de a legkisebb fájlméretet, “1” a maximális minőséget és méretet
Azokat a tömörítési eljárásokat, amelyek elméletileg végtelen számú kompresszió és dekompresszió után is megőrzik az eredeti információ teljességét, veszteségmentes tömörítésnek nevezzük, amelyek pedig az újabb és újabb másolat-generációk előállítása során információt veszítenek, értelemszerűen a veszteséges tömörítések. Vannak ingyenesen használható, nyílt szabvánnyá vált eljárások, amiket a legtöbb képelőállító, képkezelő alkalmazás képes kezelni, és vannak, lehetnek olyanok is, amelyek jogdíjasok, vagy kevéssé elterjedtek, egy-egy cég termékéhez kötődnek. Ez utóbbiak használatával bánjunk óvatosan, a hosszú távú megőrzés, archiválás céljára válasszunk az első típusból! A veszteségmentes tömörítési arány fix, nem skálázható, az algoritmustól függ, mértéke általában 40-50%, és minden egyes pixel minden adata változatlan marad a kitömörítés és a megjelenítés során. A legelterjedtebb ilyen algoritmusok a CCITT (eredetileg a faxdokumentumok átvitelére kidolgozott tömörítési módszer, 1 bites, fekete-fehér képek kompresszálásának mindmáig a leghatékonyabb módszere), és az LZW, mindkettő számos fájlformátumban megjelenik. A veszteséges tömörítés kissé bonyolultabb téma. Ezek éppen azáltal tömörítenek hatékonyan, hogy különböző pszichovizuális megfontolásokat követve kihagyják az eredeti képinformáció egy részét. Az eredeti nyers adatokhoz (vagy egy veszteségmentesen tömörített mesterfájlból kicsomagolthoz) képest igen nagy- 120 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
mértékű tömörítési arányt, átviteli sávszélesség csökkenést lehet velük elérni. Jól skálázhatóak a tekintetben, hogy a felhasználó szabályozhatja a tömörítés mértékét. Ennek ugyanakkor a tömörítés mértékével növekvő információvesztés az ára: minél nagyobb a tömörítési arány, annál nagyobb a summa eltérés az eredeti adatokhoz képest. Ezek az eltérések ráadásul minden egyes kompressziós/dekompressziós lépésben összeadódnak. Aki találkozott már a neten ezerszer agyontömörített képpel, az tudja, mit jelent ez. Ugyanakkor egy kellő gonddal megválasztott algoritmussal végrehajtott optimális tömörítés első lépésben még nem jelent feltétlenül vizuálisan is érzékelhető adatvesztést, viszont a digitalizálás, feldolgozás, archiválás (és esetleg a publikálás) során a nagyobb sebesség, kisebb tárhely és sávszélesség igény révén bőven kifizetődik. Egy 1012%-os tömörítés általában még jó eredményt ad, és a maximum 40 százalékos veszteségmentes tömörítéshez képest további négyszeres méretcsökkenést jelent. Érdekességképpen megjegyezzük, hogy a felbontás illetve a színmélység csökkentése is veszteséges tömörítésnek tekinthető: a pixelek egy részének elhagyása, a színinformáció csökkentése vagy törlése jelentős méretcsökkenést eredményez. Nem minden képtípus reagál egyformán a veszteséges tömörítésre. A tömörítés során bizonyos képelemek (pl. finom tónusváltozások) artefaktumokat (az eredeti képen nem jelenlévő műtermék) vagy nem várt vizuális hatást eredményeznek. Ha a kép sok véletlenszerű, vagy folytonosan változó elemet tartalmaz (pl. egy természetes fotó), akkor ezeket a zavaró melléktermékeket szemünk hajlamos figyelmen kívül hagyni. De ha pl. fehér papírra nyomott szöveges oldalakról, vagy vékony vonalakat tartalmazó illusztrációról, tervről, térképről van szó, a tömörítés okozta zajok szembeszökően zavarók lehetnek. Ezek a zavarok ráadásul kumulálódhatnak az újbóli ki-be tömörítések, transzformációk, képmanipulációk során. Lehetnek olyan képműveletek, amik újabb veszteségtől mentesen végrehajthatók. A JPEG algoritmusa pl. tipikusan 8x8 pixeles blokkokra bontja a képet, és ezen belül illetve ezek között végez bizonyos transzformációkat a tömörítés során. Ha a végrehajtandó képművelet nem érinti, nem változtatja meg az egyes blokkok határát, tartalmát, akkor azok újratömörítése nélkül elvégezhető a művelet. Ilyenek lehetnek pl. a 90 fokonkénti elforgatás, a vízszintes és függőleges tükrözés, a bal felső sarokból kiinduló (avagy a blokkhatárokra eső) vágás. Általában minél nagyobb tömörítési arányt választunk, annál több mesterséges zajra számíthatunk. Érdemes az adott képtípusnál néhány próbát végeznünk különböző arányokkal, hogy az optimális tömörítést meghatározhassuk! Megvizsgáltuk, hogy két azonos méretű, különböző jellegű kép (egy arckép és egy tervrajz) esetén, különböző “jóságú” újratömörítések sorát végrehajtva milyen vizuálisan érzékelhető minőségromlást tapasztalunk.
- 121 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Az alábbi táblázatban a fenti képek egy-egy kis részletének adatain keresztül láthatjuk, hogy a tömörítés mértéke hogyan hat a fájlméretre! [PhotoShop, 1=legkisebb/legrosszabb minőség, 12=legnagyobb/legjobb minőség] Tömörítés mértéke
Méret (byte) Tömörítési arány
Fotó Tömörítetlen
1702112
100%
Veszteségmentes tömörítés (LZW)
854084
50%
Veszteséges tömörítés, “12”-es
346626
20%
Veszteséges tömörítés, “7”-es
75465
4%
Veszteséges tömörítés, “2”-es
36410
2%
1702192
100%
Veszteségmentes tömörítés (LZW)
929856
55%
Veszteséges tömörítés, “12”-es
484144
28%
Veszteséges tömörítés, “7”-es
74936
4%
Veszteséges tömörítés, “2”-es
34345
2%
Tervrajz Tömörítetlen
Az alábbi két képrészleten négyszeres nagyításban azt láthatjuk, hogy maximális minőségű tömörítés esetén még a 10. generációs mentés után sem jelentkezik érzékelhető minőségromlása. A fölső kép az eredeti, tömörítetlen kép részlete, alatta pedig ugyanannak a képrészletnek a 10. generációja látható. Ezt úgy kaptuk, hogy az eredeti képet elmentettük “12”-es JPG fájlba, majd azt becsukva és újból megnyitva ismét elmentettük “12”-es JPG fájlba, és így tovább, tízszer.
Az alábbi két kép a tervrajz egy részletével végrehajtott hasonló műveletsor eredményét mutatja négyszeres nagyításban. Fölül az eredeti tömörítetlen képrészlet, alatta a 10. generációs “12”-es JPG látható. - 122 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A minták tanulmányozásából azt a következtetést lehet levonni, hogy a legkevésbé tömörített, legjobb minőségű fájlból készült 10. generációs mentés esetén sem lehet észlelhető vizuális minőségromlást tapasztalni. Az alábbi két képen azt figyelhetjük meg, hogy a nagymértékű tömörítés viszont már az első generációban jól látható minőségromlást eredményez. A fölső képen az eredeti tömörítetlen kép részlete látható háromszoros nagyításban, alatta pedig ugyanezen részlet “2”-es tömörítésű JPG-ben. Az alsón jól látható a jellegzetes “blokkosodás” és a zaj megjelenése.
- 123 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Ugyanez a tervrajzon demonstrálva:
- 124 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Nézzünk most egy olyan próbát, ahol nem pusztán “elővesszük” a fájlt, hanem valamilyen képműveletet végzünk vele (ebben a példában 1 fokkal elforgatjuk, majd a következő lépésben 1 fokkal visszaforgatjuk), minden menet után közepes (“7”) minőségben elmentjük és a következő művelet kiindulópontja ez a transzformált fájl! Mindkét esetben fölül az eredeti, alul a transzformált fájl látható.
- 125 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
- 126 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Ebben a példában bizony jól megfigyelhető a generatív minőségromlás: megjelennek a jellegzetes blokkok és egyéb artefaktumok. Ez irányú vizsgálódásunk konklúziója tehát az, hogy jó minőségű tömörítést választva a JPEG formátum használata esetén sincs észlelhető minőségromlás mindaddig, amíg nem történik a felvételen utólagos transzformáció. Ha viszont számolnunk kell ezzel, akkor szükséges lehet tömörítetlen fájlformátumot, TIFF fájlt előállítani a digitalizálás során, vagy ha tömörítjük is a fájlt, az veszteségmentes legyen (LZW).
5.2.5. Követelmények állóképek esetén Foglaljuk össze ezek után, hogy a tömeges levéltári digitalizálásban milyen követelmények érvényesítése javasolt! Archív példány: 24 bites színes RGB, legalább 10-12 tömörítésű JPEG, 300 dpi natív kimeneti felbontás (tehát nem interpolált, és nem a szkennelés felbontása a mérvadó, hanem a tárolt fájl felbontása), oldalanként egy fájl (a több oldalt tartalmazó fájlformátumok használata problematikus lehet a képkezelés, metaadatok hozzárendelése esetén, ezért ezt nem javasoljuk; ilyen formátum lehet pl. PDF, TIFF). Ha az OCR is része a feldolgozásnak, és az oldalakon jelentősebb mennyiségű apró (8 pontosnál kisebb méretű) betű szerepel, legyen 400 dpi a felbontás. Ha az eredeti objektum kisméretű, ugyanakkor részletgazdag, valószínűsíthető a nagyítás igénye, a felbontás 400-600 dpi lehet (például kisméretű képeslapok, bélyegek, finom rajzolatú, részletgazdag metszetek esetén). Ha a digitalizálás céljai között reálisan szerepel az eredetiknek a digitális kópiából való reprodukálhatósága (pl. nyomdai kivitelű reprint kiadás), illetve várhatók a digitális állományon végzett utómunkák (vágás, kiegyenesítés, szín és tónuskorrekció, stb.), indokolt a veszteségmentesen tömörített, vagy tömörítés nélküli TIFF formátum. Publikálás céljára az archív példányból állítsuk elő az aktuális igényekhez degradált állományt: csökkenthetjük a színmélységet, a felbontást, a méretet, növelhetjük a tömörítési arányt, más formátumokba konvertálhatunk (pl. PDF, JPEG, JPEG2000, ECW). - 127 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Tömeges digitalizáláskor egy projekt állományaival hosszabb időn keresztül, számos különböző munkafolyamatot elvégezve kell dolgozni. Amíg az állományok ellenőrzése, javítása, pótlása, a szükséges korrekciók elvégzése, a beágyazandó metaadatokkal való feltöltése be nem fejeződik, addig nem érdemes az archív példányból származtatott kópiát készíteni, hiszen az esetben az utólagos változtatásokat immár két sorozaton is végre kell hajtani. (Biztonsági másolatot természetesen lehet, sőt kell készíteni!)
5.2.6. Audiovizuális anyagok Audiovizuális anyagok esetén a digitalizálás célja – csakúgy, mint az állóképi információt tartalmazó hordozók esetén – a filmen, hangszalagon rögzített alkotás hozzáférhetővé tétele, megtekinthető, meghallgatható, feldolgozható és közreadható digitális példányának előállítása, illetve sok esetben az analóg hordozó elöregedése miatt halaszthatatlan digitális archiválás, illetve ennek kapcsán – immár a digitális állományon végzett – restaurálás, minőségjavítás. A levéltárak által őrzött audiovizuális anyagok leggyakrabban testületi ülések felvételei, illetve (kor)dokumentum értékű interjúk; a hagyományos módon sugárzott rádiós és televíziós felvételek, valamint a rádiók, televíziók, filmszínházak számára forgatott audiovizuális anyagok őrzése más intézményekben történik. A Magyar Nemzeti Levéltár őrzi például az 1950-es évek végétől készült MSZMP-ülések felvételeit, közel 700 régi, orsós magnetofonszalagon. Ennek digitalizálása éppen jelenleg folyik.
5.2.6.1. Film Az eredeti film hordozó anyaga lehet tűzveszélyes nitrocellulóz, vagy biztonságos acetát, esetleg poliészter. A filmszalag szélessége 8-70 mm között lehet, különböző kockaméretekben. Lehet negatív vagy pozitív, fekete-fehér vagy színes, néma vagy hangos. A digitalizáláshoz speciális eszközök és szakértelem szükséges. Egy-egy képkocka digitalizálása ugyanazokat a problémákat és megoldásokat veti fel, mint az állóképek szkennelése, ugyanakkor a másodpercenként 24 kockányi hatalmas adatfolyam kezelése, tárolása, megosztása újabb nagyságrendet jelent. Éppen a méretek miatt még manapság is a filmek archív példányának magát az analóg kópiát tekintik. Hozzávetőlegesen meg lehet becsülni a hordozó anyagának és a használt optikai elemeknek a felbontóképességét, tehát hogy kb. milyen felbontást és színmélységet képesek visszaadni az analóg leképezés során. Magának a film anyagának a textúrája, illetve az információt hordozó emulzió szemcsemérete kb. 0,2-8 mikrométer (1 mikrométer a milliméter ezredrésze). A leképezésben szerepet játszó legjobb lencsék, tükrök optikai feloldóképessége 80-100 vonalpár/mm, ez kb. 5-6 mikrométert jelent a képen. Mivel ezek a paraméterek a képen véletlenszerű eloszlásban jelennek meg, a leképezéshez szükséges rács sűrűségét kb. 3 mikrométeresre kell választani. Ez – egy 24x18 mm-es, fekete-fehér filmet véve alapul – másodpercenként 8000 pixel x 6000 pixel x 8 bit x 24 kocka = 9,216 GB információt jelent, tehát egy ilyen film egyetlen másodpercének teljes információtartalma nagyságrendileg közel 10 GB! Tehát a ma kereskedelmi forgalomban lévő legnagyobb kapacitású, 3 TBos merevlemezre mindössze egy 5 perces film férne el (ha színes filmről van szó, akkor még háromszor ekkora kapacitás kell, ha pedig hanganyag is szerepel a filmen, az még további tárhelyet igényel; arról nem is beszélve, hogy a mai merevlemezek írási-olvasási sebessége is messze alatta van a kívántnak). A digitális videotechnikában ezért nem ezt a felbontást igyekeznek megcélozni, hanem a néző pszichovizuális tulajdonságait maximálisan kihasználva a megfigyelő számára elégséges felbontást, és azt is megfelelő tömörítési eljárásokkal kódolva. Így nagyságrendekkel kisebb tud lenni a sávszélesség igény. A képi információt tömöríteni lehet egyrészt kockánként, az állóképeknél használatos módszerekkel, másrészt az egymás után következő képkockákban lévő redundáns információ kiszűrésével. Gondoljunk pl. egy olyan filmrészletre, amelyben egy adott háttér előtt elmegy egy autó: a mondjuk 3 másodperc alatt a teljes képnek csak maximum a 10%-a változik meg (az autó mit takar ki a változatlan háttérből), a képi információ
- 128 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
nagy részét elég csak egyszer tárolni, szemben a másodpercenkénti 25 teljes képkockányi információtömeggel. A gyakorlatban általában minden 10-12 képkockára jut egy-egy ilyen kulcs kocka (I-Frame). Az olyan tömörítési eljárásoknál, amik csak a kockánkénti tömörítést használják (ilyen pl. a DV vagy a MJPEG AVI), minden egyes képkocka egyenértékű, teljes (ugyan tömörített) információtartalommal bír, így lehetőséget biztosít a digitális utómunkálatokra, precíz vágásra is. Méretük ugyanakkor jelentős. A képkockák közötti viszonyokat is elemző, kihasználó tömörítési eljárások sokkal kisebb helyigényűek, ám itt csak a kulcskockák mentén van lehetőség a vágásra, utómunkákra ezek nem alkalmasak. A kisebb sávszélességigény azonban lehetővé teszi nemcsak a hatékony tárolást, hanem a nézőkhöz való akár online eljuttatást is. A legelterjedtebb ilyen tömörítési metódusok az MPEG, a DivX és a WMV.
5.2.6.2. Hanganyag Levéltári őrzésbe a videó anyagoknál gyakrabban kerülhetnek hanganyagok: gondoljunk pl. szalagokon, kazettákon rögzített közgyűlési ülésekre. A digitalizálásukhoz olyan lejátszó eszköz kell, ami alkalmas kimenettel rendelkezik az analóg jel digitalizálását végző számítógép számára. Az analóg hangrögzítő eszközök a térben nyomásváltozásként terjedő hanghullámokat elektromos jel (feszültségváltozás) formájában rögzítik, és általában valamilyen mágneses elven működő szalagon tárolják. A lejátszó eszköz a tárolt jelet újra feszültséggé alakítja, és az eszköz kimenetére küldi. Ezt a jelet kell a digitalizáló eszköz (pl. egy személyi számítógép hangkártyája) bemenetére vezetni. A digitalizáló eszköz a jelből bizonyos gyakorisággal, és finomsággal mintát vesz, a mért értéket számmá, majd bináris kóddá alakítja, és ezt a kódolt adatfolyamot tárolja a megfelelő formátumú hangfájlban. Az analóg-digitális konverziónak ez a két legfontosabb paramétere: ●
a mintavételezés gyakorisága: a frekvenciaadatot Hz-ben (vagy még inkább ennek ezerszeresében, kHz-ben) szokás megadni, ami az egy másodperc alatti mintavételi gyakoriságot adja meg. Minél nagyobb a gyakoriság, annál precízebben tudja leírni az adatfolyam az eredeti folytonos, analóg hangot. Tipikusan használt értékek a 22,05 kHz, 44,1 kHz
●
a mintavételezés felbontása, vagy bitráta: bitekben szokás kifejezni, azt adja meg, hogy a digitalizáló eszköz a minimális és a maximális befogadható feszültségérték között hány fokozatot képes megkülönböztetni, milyen finomsággal, felbontással képes a jelet számokká alakítani. A leggyakoribb használt felbontások a 8 és a 16 bites ráta.
Minél nagyobb a frekvencia és a bitráta, annál jobb a minőség, ám annál nagyobb a fájl. Vannak olyan fájlformátumok, amelyek a digitalizálás során keletkezett adatokat tömörítés nélkül tárolják. A legelterjedtebb ezek közül a WAV. Ez további minőségvesztés nélkül tárolja az eredeti hangból nyert digitális adatfolyamot. - 129 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Az audio CD-k például ehhez hasonló formátumban, 16 bites, 2 csatornás (sztereo), 44,1 kHz-es mintavételi frekvenciájú digitális állományt tárolnak. Elsősorban az internet megjelenése, a kis sávszélességen való adattovábbítás igénye a hanganyagok világának is “kitermelte” a maga tömörített állományformátumait. Ezek legnépszerűbbike az MP3. Ezek az emberi hallás jellegzetességeit használják ki a jobb tömörítés érdekében. A tömörítők különböző pszichoakusztikai modelleket használva elnyomnak, kevésbé reprezentálnak a digitális állományban az emberi hallás számára kevéssé észrevehető, kevésbé kiugró frekvencia-összetevőket. Ez mindenképpen adatvesztést jelent az eredeti, tömörítetlen digitális állományhoz képest, de egy megfelelően megválasztott adatsűrűség nem okoz érzékelhető minőségromlást. A tömörített hangfájlok minőségét gyakran immár a sávszélesség igényük mértékében szokták megadni: pl. 128 kbs (128 kilobit másodpercenként), vagy 256 kbs. Eredendően ez az adat is a mintavételi frekvenciától és a mintavételezés felbontásától függ, de a tömörítés mértékét is tükrözi.
5.3. Formátumok A fájlformátumok olyan szabványos számítógépes állománytípusok, amelyek a különböző operációs rendszerek, programok számára egyértelműen meghatározott szerkezetben tárolnak bizonyos információkat (végső soron bináris nullákat és egyeket). Gyakran tartozik hozzájuk rögzített fájlnév-konvenció, amit kiterjesztésnek nevezünk. A fájlnév-kiterjesztések használata nem okvetlenül szükséges, vannak olyan operációs rendszerek (pl. régebbi MacIntosh), amik más megoldást használnak az egyes fájltípusok azonosítására. Ami a fontos, az az adott fájl belső szerkezete, illetve maga az az információ, hogy milyen fájltípusról van szó. Ez kell a rendszereknek, alkalmazásoknak ahhoz, hogy adekvát módon kezelhessék az állományokat. A fájlok általában tartalmaznak egy kezdeti, ún. fejléc mezőt, amiben az adatok típusára, az adattárolás módjára vonatkozó információk vannak. Az állományokkal találkozó alkalmazás legelőször ezt a részt olvassa ki a fájlból, és az ebben lévő információ interpretálásának megfelelően “bánik” az adatokkal. A szabványos kiterjesztések használata ugyanakkor (különösen Windows rendszerek esetén) a legtöbb program számára alapvető jelentőségű a megfelelő fájlkezeléshez. Különbséget kell tennünk a fájltípus (ezt nevezzük szorosabban véve formátumnak) és a benne használt kódolási, tömörítési metódus között. Fájlformátum például a PDF, de hogy egy konkrét PDF fájlban milyen típusú adatok vannak, és azok milyen tömörítéssel tárolódnak, az másik kérdés. Vagy: egy TIFF fájl tartalmazhat 1 bites, fekete-fehér, CCIT4 tömörítéssel tárolt adatokat, veszteségmentes LZW tömörítéssel kódolt CMYK színes képpontokat, vagy akár veszteséges JPEG tömörítésű RGB adatokat is! Még egy példa: a digitális videók elterjedt formátuma az AVI (Audio Video Interleave), de a konkrét kodek, amivel a mozgóképadatokat és a hangsávot tárolja, az sokféle lehet (MJPEG, DV, MP4, ill. PCM, MP3). Mint föntebb láttuk, a képi információk tárolására számos különböző módszer lehetséges, az informatika története során egy sor állománytípust fejlesztettek ki erre a célra. Vannak nyers, tömörítetlen adatleírást alkalmazóak, veszteségmentes és veszteséges tömörítést használóak. Alább röviden ismertetjük a digitalizálással kapcsolatban jelentőséggel bíró, elterjedt, néha kvázi-szabvánnyá vált raszteres képformátumokat, majd kitérünk az audiovizuális információk tárolásának leggyakoribb típusaira is.
5.3.1. TIFF Tagged Image File Format (TIFF). Kiterjesztése: tif. Az egyik legelterjedtebb raszteres képformátum, melyet képek, fotók, és rajzok tárolására fejlesztett ki az Aldus Corporation. Az Adobe Systems 1994-ben megvásárolta az Aldust, így ez a cég szerezte meg és gyakorolja a formátum tulajdonjogát. Jelenlegi verziója a 6.0 számot viseli, mely 1992-ben jelent meg, tehát már 2 évtizede használjuk. A hosszú távú megőrzés szempontjából a TIFF legfontosabb tulajdonsága az információveszteség nélküli tárolás lehetősége, ami különösen alkalmassá teszi az eredeti dokumentumok hiteles képi formájának eltárolására. A formátum számos tömörítési lehetőséget kínál (a veszteségmentes LZW, RLE, CCITT Group3 és Group4; a veszteséges JPEG, JBIG, stb.). Meghatározható a színmélység is az 1 - 130 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
bitestől a 32 bitesig, illetve többcsatornás képek is létrehozhatóak. A formátum lehetővé teszi az egy fájlon belüli több kép tárolását is. A TIFF képek használata általánosan elterjedt, gyakorlatilag minden képszerkesztő és megjelenítő szoftverrel kompatibilis, 2004. óta nemzetközi ISO szabvány is. A képformátum – különösen a tömörítés nélküli verzió - hátránya ugyanakkor a fájlok viszonylag nagy mérete, ami a tömörítetlen TIFF-képeket alkalmatlanná teszi a gyors adatcserére vagy internetes publikálásra.
5.3.2. RAW Elsősorban a digitális tükörreflexes fényképezőgépek (DSLR) – és néhány felsőkategóriás szkenner – natív képformátuma, amely formátummal az ilyen eszközök mind nagyobb térhódításával egyre többet találkozhatunk. Tömörítetlen, nyers, minden további képfeldolgozás, beavatkozás nélküli adatokat tartalmaz, ahogyan azok az adott eszköz érzékelőin előállnak, ezenkívül a felvétel összes paraméterét metaadatként tartalmazzák. Mivel a konkrét adatszerkezetük gyártóról gyártóra, készülékről készülékre eltérő, a cégek által levédett, ezért speciális egyedi szoftver, modul kell a megnyitásukhoz, feldolgozásukhoz. Emiatt a tömeges digitalizálásban szerepük nem lehet jelentős: mindenképpen át kell őket valami nyílt szabványú képformátumra konvertálni, ami egy plusz (a legtöbb esetben fölösleges) lépést jelent a digitalizálási munkamenetben. A RAW fájlok ugyan a profi fotósoknak kifinomult lehetőségeket biztosítanak az utómunkálatokra, viszont ezek kihasználása nélkül nincs értelme használatuknak.
5.3.3. DNG A RAW fájlok fenti hátrányainak kiküszöbölésére, előnyeinek megtartására az Adobe bevezette a Digitális NeGatív formátumot. Egyre több kamera- és szoftvergyártó támogatja, akik mindent megtesznek azért, hogy idővel ISO szabvánnyá válhasson. Már most is rendelkezésre szabadon felhasználható konverter, ami rengeteg különböző típusú RAW fájlból képes szabványos DNG fájlokat csinálni. A DNG fájlok nyers (érzékelő) kép adatokat, metaadatokat és egy JPEG nézőképet tartalmaznak, éppúgy lehetőséget adnak a legteljesebb körű utólagos képkorrekcióra, mint az eredeti RAW fájlok. A metaadatokat a képkezelő alkalmazások közvetlenül kiolvashatják, a beépített JPEG állomány révén pedig magát a képet is képesek megjeleníteni. A DNG állományok a tipikus veszteségmentes fájlokhoz képest kb. ⅓ méretűek. Ha a digitalizálás DSLR kamerával történik, és a célok között a művészi igényű reprodukció is számításba jöhet, a formátum használata megfontolandó, amennyiben valóban ISO szabvánnyá válik.
5.3.4. JPEG A JPEG – a Joint Photographic Experts Group terméke - az egyik legáltalánosabban elterjedt, képek tárolására szolgáló fájlformátum, különös tekintettel az interneten való publikálás és információ-megosztás területére. Kiterjesztése: jpg, kezelt színmódok: szürke árnyalatos, RGB. A JPEG fájlformátum veszteséges JPEG tömörítést használ (8x8-as pixel-blokkokra bontja, majd ún. diszkrét cosinus transzformációt alkalmaz, részletesen lásd: http://en.wikipedia.org/wiki/JPEG) Népszerűségét elsősorban hatékony tömörítési eljárásának köszönheti, melynek révén a tömörítetlen, raszteres képek fájlméretéhez képest akár századrészére csökkenthetők a fájlméretek. A tömörítési arány igény szerint skálázható, így kialakítható a szükséges kompromisszum a fájlméret, a minőség és a felhasználhatóság között. Létezik egy ún. progresszív JPEG formátum is, ahol úgy vannak tárolva az adatok, hogy betöltéskor gyorsan hozzáférhető, megjeleníthető egy kisebb felbontás, majd fokozatosan a mind nagyobb felbontású változat, legvégül a teljes felbontás. Ez főleg nagy fájlok kis sávszélességen való megjelenítéskor lehet hasznos, de nem minden program, megjelenítő képes kezelni az ilyen fájlokat. A formátum jellemzően 24 bites színmélységet, 16,7 millió színt tárol. A JPEG formátum alkalmazásának egyes aspektusait több ISO szabvány is rögzítette. Az eljárás veszteségesen tömörít, ezért nem őrzi meg az eredeti képpontok, s így a tárolt információk összességét. A vonatkozó szakirodalomban sokszor az van leírva, hogy a papír alapú dokumentumokról készülő elektronikus másolatok készítése során a JPEG formátum - 131 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
használata eredeti (mester) példányok készítése során, illetve hosszú távú levéltári megőrzésre a veszteséges tömörítés miatt nem alkalmazható. A mi tapasztalataink némileg ennek ellentmondanak. Egy nem túlságosan nagy tömörítési aránnyal készült fájl még a sokadik másolás, újratömörítés után sem mutat érzékelhető minőségvesztést (lásd az előző, tömörítésről szóló fejezetet). Az elkészült digitális képek használati példányaként vagy publikációs és adatcsere eszközként rugalmassága és elterjedtsége okán viszont mindenképpen nagymértékben alkalmas.
5.3.5. JPEG2000 A JPEG2000 formátumot szintén a Joint Photographic Experts Group hozta létre 2000-ben azzal a céllal, hogy felváltsa a JPEG formátumot kiküszöbölve annak több hiányosságát. 2004-ben ISO nemzetközi szabvánnyá vált. Kiterjesztése: jp2, jpx, j2k, j2c. Fejlettebb kódolási technológiájának köszönhetően (a diszkrét cosinus transzformáció helyett Wavelet transzformáció, lásd http://en.wikipedia.org/wiki/JPEG_2000 és http://en.wikipedia.org/wiki/Wavelet) azonos tömörítési arány mellett valamivel jobb vizuális minőséget ad: itt is megjelenhetnek ugyan artefaktumok, de a “blokkosodásra” nem hajlamos. Megfelelő, nem túl nagy tömörítési arányt választva elérhető a “vizuálisan veszteségmentes” tömörítés, a tömörítetlen TIFF fájlhoz képest egy nagyságrenddel kisebb méretet eredményezve. A JPEG2000 formátum már képes a fájlon belül tárolni a legfontosabb leíró metaadatokat vagy a szerzői jogokkal kapcsolatos információkat, ugyanakkor a nagyméretű képek gyorsabb megjelenítésére és kezelésére is képes. Egyaránt képes veszteséges és veszteségmentes tömörítésre is. A JPEG2000 formátum egyelőre a korábbi verzióhoz képest összehasonlíthatatlanul kevéssé terjedt el, nem mindegyik böngésző verzió támogatja. Használata a JPEG formátumhoz hasonló körben ajánlott. A formátumról részletesen kérdés-felelet formájában: http://www.jpeg.org/.demo/FAQJpeg2k/index.htm
5.3.6. ECW Az ECW (Enhanced Compression Wavelet) formátumot eredetileg térképes alkalmazások számára fejlesztették ki, hogy a hatalmas méretű légi és műholdas felvételsorozatokat hatékonyan lehessen tárolni, kezelni. A ma az ERDAS térinformatikai cég tulajdonában lévő, eredetileg ausztrál Earth Resource Mapping fejlesztése. A veszteséges tömörítési módszer igen hatékonyan képes tömöríteni finoman változó tónusú, nagyon nagy képeket. A használt diszkrét wavelet transzformáció viszonylag kevés memóriát használva is nagyon gyorsan fut, még igen nagy fájlokon is. A betömörítés ezzel együtt idő- és erőforrás-igényes, a kitömörítés, megjelenítés azonban nagyon gyors, köszönhetően a formátumban eltárolt különböző felbontású részképeknek: csak azt kell elővenni, ami az adott szituációban szükséges, pl. a térképnek csak azt a szeletét, ami a monitoron éppen létszik. A térinformatikai alkalmazásokhoz szükséges térképi projekciós információkat is tárolja a fájl, így nagy térképmozaikok készíthetők vele. A technológiához tartozik még egy hatékony streaming protokoll is, ami az ECW fájlokat az interneten képes szolgáltatni. Maga a formátum ugyan védett, de a megvásárolt eszközzel korlátlanul lehet ECW fájlokat előállítani, a megjelenítéshez szükséges eszközök pedig ingyenesen és szabadon elérhetők, használhatók.
5.3.7. MrSid MrSID ("Mister Sid") a Multiresolution Seamless Image Database (= kb. Többféle-felbontású Folyamatos Átmenetű Képadatbázis) rövidítése, a LizardTech Inc. által kifejlesztett és birtokolt veszteségmentes és veszteséges tömörítési módszer, ill. fájlformátum, elsősorban georeferált raszterképek tárolására GIS alkalmazások számára. A wavelet technika segítségével 1:20, 1:50-es jó minőségű képtömörítés válik lehetővé. Bizonyos tömörítési mértékig csak veszteségmentes algoritmust használ. A folyamatos képátmenet lehetőségét kihasználva a megjelenítő programokkal csak a kiválasztott részt kell kitömöríteni, a memóriába tölteni, így lehetővé válik sok gigabájtos fájlok gyors megjelenítése is. A kívánt felbontás a képnagyság függvényében változtatható. Az egyik fő hátránya, hogy a betömörítés meglehetősen lassú és erőforrás-igényes folyamat. A másik pedig a szabadalombirtokos cég licencpolitikája: a tömörítő korlátlan használatát biztosító licenc meg- 132 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
lehetősen drága, az olcsóbb verziókban pedig maximálva van az évente betömöríthető adatmennyiség. Ennek ellenére – főleg az Egyesült Államokban – számos cég és intézmény használja (csak az érdekesség kedvéért jegyezzük meg, hogy pl. az FBI ebben a formátumban tárolja az ujjlenyomat adatokat).
5.3.8. DjVu A "déja vu" egy PDF-hez hasonló fájlformátum, elsősorban szkennelt szöveges, képes dokumentumok tárolására, interneten való közzétételére. Azonos vizuális minőség mellett a PDF-hez képest általában kisebb fájlméretű. A PDF-hez hasonlóan a DjVu is képes szöveges réteget tárolni a dokumentumban, ezzel lehetővé teszi a keresést és a vágólapra másolást. A DjVu formátum a tömörítés megkezdése előtt – a PDF-ben is megjelenő MRC technológiához hasonlóan (lásd az OCR fejezetet) – a képeket először felbontja három összetevőre: háttér képre, előtér képre és maszk képre. Az első kettőt ezután kisebb felbontásban, IW44 nevű Wavelet algoritmussal tömöríti, míg a maszk réteget, amely általában a szöveget tartalmazó képelemeket jelenti, JB2 algoritmussal. Ezzel a módszerrel hatékony tömörítés érhető el, de a vizuális minőség nem tökéletes, és a szövegek újrafelhasználhatósági lehetőségei is elmaradnak a PDF-hez képest. Internetes publikálásra, ahol a sávszélesség döntő, esetleg megfontolható a használata, és az interneten találkozhatunk is ebben a formában közzétett nagy projektekkel (pl. Million Books Project)
5.3.9. PDF A Portable Document Format (PDF) az Adobe Systems által kifejlesztett bináris fájlformátum. Ebben a formátumban egy vagy több oldalas dokumentumok tárolhatók, amelyek különböző platformokon, szoftverekkel és hardverekkel is létrehozhatók és olvashatók. A PDF alkalmas szöveget, ábrát és képeket tartalmazó dokumentum leírására eszköz-független és felbontás-független formában. Az egyes elemek tárolása történhet szöveges, vektoros és raszteres formában is. A képállományokat egy sor tömörített (veszteséges és veszteségmentes egyaránt) vagy tömörítetlen eljárással kódolhatja (LZW, JPEG, ZIP, CCITT, RLE, stb.), színmélysége 1 bitestől a 32 bitesig terjedhet. Igazából a formátumot úgy tekinthetjük, mint egy konténert, egy tárolót, amiben az alapvető egység az egy dokumentumoldal. Egy-egy oldalon belül az egyes elemtípusok a létrehozó alkalmazásban szabályozható módon, a számukra adekvát formában tárolódnak. A konténerbe bele lehet csomagolni akár multimédia elemeket is. A formátum történetileg a PostScript formátumból jött létre, amely eredetileg egy oldal precíz, eszköz-független leírására szolgált, elsősorban a kiadványszerkesztés, a digitális nyomdai megvalósítás céljára. A PDF nyílt szabvány, bárki jogdíjmentesen írhat alkalmazásokat, amelyek olvasnak vagy írnak PDF formátumot. Kezeléséhez mégis a legfontosabb eszköz a formátum megalkotójának programja, az Adobe Acrobat Professional. A PDF/A-1 formátum a PDF 1.4 verziójának egy változata, melyet kifejezetten a dokumentumok hosszú távú megőrzése érdekében alakítottak ki. Az ISO szabvánnyá vált formátum hivatalos elnevezése is ezt a szándékot tükrözi: “Electronic document file format for long-term preservation”. A fejlesztő cég a hosszú távú megőrzés érdekében a PDF/A formátum kialakításakor minden olyan funkciót eltávolított az 1.4-es verzióból, melyek az elektronikus iratok hosszú távú biztonságos őrzését és kezelését veszélyeztethetik. Ennek megfelelően ez a formátum megfelel a hosszú távú megőrzés szempontjainak: az elterjedtségen kívül öndokumentáló, egyszerű, nagymértékben eszköz-független. Nem tartalmaz külső adatokra való hivatkozást (a használt betűtípusokra, színekre vonatkozó információkat a fájlon belül tárolja, emiatt kicsit nagyobb méretűek, mint egyébként lennének), nem rendelkezik jelszavas védelmi lehetőséggel vagy titkosítási módszerrel, nincsenek benne végrehajtható programkódok, Java-scriptek vagy multimédiás tartalmak. A PDF/A-1 formátumnak két alváltozata van: a PDF/A-1a, illetve a PDF/A-1b, melyek egymástól alapvetően a szövegek újrahasznosíthatóságának támogatásában, a szöveges keresési lehetőségekben térnek el. Az 1b verzió az - 133 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
adott dokumentum eredetivel megegyező vizuális megjelenítését kell, hogy biztosítsa (praktikusan csak az oldal képe tárolódik), míg az 1a altípus ennek teljes szövegű tárolását és kereshetőségét, a hierarchikus elemleírást is biztosítja (kétrétegű, kereshető, “tagged” PDF, részletesebben lásd az OCR-ről szóló fejezetben). A hosszú távú megőrzés tekintetében mindkét verzió elfogadható, de különösen szöveges levéltári iratok esetén a PDF/A-1a típusú dokumentumok a későbbi felhasználási lehetőségeket nagymértékben bővítik.
5.3.10. WAV Az egyik legrégebben használt, mindmáig elterjedt, egyszerű szerkezetű, tömörítetlen digitális hangfájlformátum. A hang analóg elektromos jelét egy AD konverter alakítja digitális jel-folyammá, ezt az adatsort tárolja a WAV fájl. Az AD konverzió két legfontosabb paramétere a mintavételi gyakoriság (frekvencia) és a bitmélység (hogy az amplitúdó hány értéket vehet fel), a fájl mérete egyenesen arányos ezekkel az értékekkel. Az a tapasztalat alakult ki, hogy egy adott frekvenciájú (magasságú) hang digitális visszaadásához kétszer akkora mintavételezési gyakoriság kell. Az emberi fül kb. 20 és 20.000 Hz közötti tartományban hall, ennek visszaadásához illeszkedik az audio CD-k 44,1 kHz-es mintavételi frekvenciája. Az átlagos emberi beszéd nagyjából 300 és 4000 Hz közötti magasságú hangokból áll, ennek reprodukálásához minimum 11 kHz-es mintavétel szükséges. Megfelelő zenei hangminőséghez 16 bites, a még éppen elfogadható (emberi) hangrögzítéshez 8 bites mintavétel kell. Ha két csatornás, sztereo hangot tartalmaz a Wav fájl, annak értelemszerűen kétszeres a mérete. A természetes környezetben (nem stúdióban) rögzített hangok a felvétel körülményei, a használt eszközök gyengéi miatt gyakran zajosak, recsegősek, érdektelen részeket tartalmazhatnak. A WAV formátumban digitalizált hangfájlokat minden – egyszerűbb és kifinomultabb – hangszerkesztő program meg tudja nyitni, segítségükkel számos szűrő, javító, vágó művelettel tudjuk feljavítani az eredeti felvételt.
5.3.11. MP3 A legnépszerűbb, veszteséges tömörítésen alapuló digitális hangfájl-formátum. Népszerűségét elsősorban annak köszönhette, hogy kellően kisméretűre, ugyanakkor elfogadható minőségűre tömörítve már az internet hőskorában, a lassú modemek idején is remekül lehetett zeneszámokat továbbítani a segítségével. A veszteséges tömörítéskor az eredeti hangmintából a kódoló kiemeli az emberi fül által jól hallható frekvenciaösszetevőket és főleg ezeket tömöríti be az output fájlba, míg a többit jelentős mértékben elhanyagolja. A kitömörítés utáni visszajátszáskor a dekódoló igyekszik visszaállítani a teljes hangzás-élményt, de mivel a lényegtelennek ítélt tartományokból alig van adat, ezért ez a művelet csak korlátozottan lehetséges. A tömörítés jellemzője a bitráta, amely meghatározza, hogy a tömörítetlen forrásfájlból másodpercenként hány kilobit kerül tömörítésre. A nagyobb bitráta nagyobb fájlméretet és jobb minőséget eredményez. A túl alacsony bitráta nem képes hűen reprodukálni az eredeti hangmintát, és tömörítési hibákat is generálhat: olyan hangok is bekerülhetnek az outputba, amik az eredeti fájlban nem voltak hallhatóak. A legegyszerűbb, leggyorsabb kódolási módszer az állandó bitrátájú kódolás (Constant bitrate = CBR), melynek során a teljes hangminta folyamán konstans a mintavétel, a tartalomtól függetlenül. A levéltári anyagok esetén általában a 128 kBit/sec bitráta optimális lehet, ez jó minőségben visszaadja a beszédet, ugyanakkor nem túl nagyméretű, így helytakarékos. Az AD konverzió (a felvétel készítése) 22,05 kHz-es, 16 bites mintavétellel történhet. Az MP3 szabvány lehetővé teszi ugyanakkor a változó bitrátájú kódolást is (Variable bitrate = VBR). Az alapvető elgondolás ennél az eljárásnál, hogy a hangminta egyes részei kevés kódolandó információt tartalmaznak (például ilyen lehet a zenében egy dobszóló, vagy interjúban a csend), míg más részek sokat (például amikor a teljes nagyzenekar minden hangszere egyszerre játszik). A sok információt tartalmazó rész kódolása nagy bitrátával, a kevés infót tartalmazó részé kicsi bitrátával történhet, így nem sérül jelentősen a pszichoakusztikus élmény, ugyanakkor a fájlméret optimálisan kicsi tud maradni, a tömörítetlen WAV fájlhoz képest kb. az 1/10-e. Az MP3 fájlok a szorosan vett hangminta mellett rengeteg információt, metaadatot is tartalmaz(hat)nak. Ezek az ún. ID3-tagek. Ilyen lehet például a zeneszám címe, előadója, műfaja, hossza, zeneszerzője, az al- 134 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
bum neve, kiadója, a kiadás éve, a kódoláskor használt bitráta, a kódolt fájl mérete, valamint számtalan egyéb adat. Ezek a bejegyzések fizikailag az MP3 fájlok elején vagy a legvégén vannak, elválasztva az MP3as zenei adatoktól. Az MP3 dekóderek többségükben kiolvassák az ID3-tageket. A lejátszó és szerkesztő szoftverek gyakran tartalmaznak ID3-tag szerkesztési funkciókat is, de léteznek kifejezetten erre a célra kifejlesztett alkalmazások is. Egyes MP3-fájlok képesek DRM-információkat is tárolni (Digital Rights Management = Digitális jogkezelés).
5.3.12. Video formátumok Egy video fájl felépítését a legkönnyebben úgy képzelhetjük el, mintha az egy konténer lenne, amelybe különböző tartalmakat tehetnénk, kisebb dobozokba csomagolva. Ilyen konténer például az AVI (vagy az MPEG, MKV, és még jó néhány más), a kis dobozok virtuális megfelelői pedig az adatfolyamok (streamek), amelyek a kép- vagy hanganyagot, feliratokat tartalmazzák. Ez utóbbiaknak szintén megvan a saját formátuma. Egy-egy konténerbe több dolgot is belepakolhatunk, azaz többféle stream befogadására képesek. Egy video fájl például tipikusan tartalmaz legalább egy videosávot és egy hangsávot, de egyes konténerekbe több videosáv és több hangsáv is pakolható (egy film esetén például eredeti hang és szinkron), akár többféle felirat és egyéb kiegészítő adat (például jelenetinformációk) társaságában. A számítógép lejátszó programja akkor tud lejátszani egy fájlt, ha felismeri az adott konténerformátumot, és a benne lévő streamek formátumát is. Az adatfolyamok feldolgozásához megfelelő kodekre van szükség. A tárolók és a bennük található adatfolyamok formátuma egymástól teljesen független: egy-egy konténerben adott esetben szinte bármilyen formátumú adatsávval találkozhatunk, egy adott stream pedig sokféle konténerbe bepakolható. Tekintsük át ezek után röviden a legfontosabb, videó tárolására alkalmas konténerformátumokat! AVI – az AVI a Microsoft (nyílt) video formátuma, amely 1992-től használatos. Az AVI több kép- és hangsáv tárolására alkalmas, sőt, akár feliratot is tartalmazhat. AVI-val számos helyen találkozhatunk, a Windowsnak hála gyakorlatilag szabványként terjedt el, és a legtöbb normál felbontású video fájl még ma is ezt a konténert használja. Emellett az AVI egy speciális változatát használták az első, szalagra rögzítő digitális videokamerák is. Az AVI fájlok kiterjesztése AVI. Az AVI-t gyakorlatilag minden program és minden hardver kezeli. MPEG – az MPEG-1, MPEG-2 és MPEG-4 tartalmak tárolására használják, fejlesztője a Moving Picture Experts Group konzorcium. Az évek során számos módosított verziója terjedt el. Legelőször MPG kiterjesztéssel találkozhattunk vele számítógépes videókon, majd picit módosított adatstruktúrával, DAT kiterjesztéssel a Video CD-ken. Később jelent meg a DVD lemezek VOB-ja, amely már több kép-, hang- és feliratsáv tárolására is alkalmassá vált. Az MPEG Program Stream ezen kívül a normál felbontású digitális kameráknál is használatos, szalagra, merevlemezre és memóriakártyára rögzítő kameráknál egyaránt. Kissé módosított változatát, az MPEG Transport Streamet használják digitális tévéadások továbbításához (MTS vagy M2TS), Blu-ray lemezeken (M2TS) illetve használták a HD DVD korongokon is (EVO). MP4 – hasonlóan az MPEG Program Streamhez, az MP4 konténerformátumot is a Moving Picture Experts Group fejlesztette ki. A modern formátum több kép- és hangsáv tárolása mellett feliratokat, képeket, metaadatokat is képes tárolni, valamint DRM-mel (Digital Rights Management), tehát másolásvédelemmel is ellátható. Kiterjesztése leggyakrabban MP4, de találkozhatunk vele M4A, M4V, M4B és M4R-ként is. Ezt a formátumot használja többek között az Apple az iTunes DRM-mel védett fájljainál, illetve egy sor hordozható médialejátszó is kezeli ezt a formátumot. Flash – Az FLV az Adobe konténerformátuma, amelyet interneten streamelt multimédiás tartalmakhoz optimalizáltak. Ennek megfelelően a videomegosztók használják ezt a konténert, többek között a YouTube is. MOV – az Apple saját fejlesztésű, de nyílt forráskódú fájlformátuma, amely több video-, kép- és feliratsáv tárolására is alkalmas, kiterjesztése MOV vagy QT.
- 135 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Matroska – nyílt forráskódú, az AVI leváltására készült korszerű formátum, elsősorban nagyfelbontású letölthető HD filmeknél találkozhatunk vele. A fájlok kiterjesztése MKV, esetleg MKA/MKS, ha az adott állomány csak hangsávot/feliratot tartalmaz. 3GP – ezzel a kevés kodek használatát támogató formátummal főleg videofelvétel készítésére alkalmas mobiltelefonokon találkozhatunk. Nézzük ezek után a konténerekben tárolt leggyakoribb adatfolyam formátumokat (tömörítési formátumok, kodekek)! MPEG-1 – a Movie Picture Experts Group fejlesztése, amely 1991-ben készült el. A formátum megalkotásakor az elsődleges cél az volt, hogy egy film VHS minőségben CD lemezre írható legyen; ez teljesült is, az MPEG-1 így a Video CD-k szabványává vált, ma már ritkán találkozunk vele. MPEG-2 – az MPEG-1 továbbfejlesztéseként 1994-ben jelent meg, nagyobb felbontást és jobb minőséget kínál elődjénél. Ezt a formátumot először a DVD lemezeken használták, de a digitális tévéadások kódolása számos országban szintén MPEG-2-ben történik, sőt, a formátum a Blu-ray/HD DVD lemezek szabványába is belekerült. Emellett a digitális videokamerák is használják az MPEG-2 tömörítést, s a számítógépet alkalmazások is támogatják, mint felvételi formátum, mert alacsony CPU-terhelés mellett tökéletes normál felbontású videók kifogástalan minőségben történő rögzítésére. MPEG-4 – Az MPEG-2 továbbfejlesztéseként az MPEG-4 jobb tömörítést és jobb minőséget nyújt. A szabványt még most is fejlesztik. Két fő verziója ismert, az MPEG-4 ASP (ez valójában az MPEG-4 Part 2) illetve az MPEG-4 AVC (MPEG-4 Part 10). Nevük hasonlósága ellenére a két formátum teljesen eltérő, egyáltalán nem kompatibilisek egymással. Az MPEG-4 ASP – ilyen néven talán kevesen ismerik, de különféle implementációi, főleg a DivX (3/5/6-os verziók) és az XviD annál népszerűbbek. Az MPEG-4 ASP kodekek ideálisak normál felbontású tartalom kódolására, 1 Gbájtos méretben már egy 100 perces film is a DVD lemezekéhez közeli minőséget tud nyújtani. A DivX és XviD formátumokkal a leggyakrabban AVI fájlokban találkozhatunk. MPEG-4 AVC – az MPEG-4 AVC, amely H.264 néven is ismert, ma talán ez a legszélesebb spektrumban használt video formátum. A leghatékonyabb tömörítés mellett a legjobb minőséget nyújtja, így nagyfelbontású tartalmakhoz éppúgy ideális, mint internetes videókhoz. H.264 néven a Blu-ray szabvány része, de használják (például Magyarországon is) a digitális televíziózásban is. Kisteljesítményű processzorokhoz optimalizált verzióját, az AVCHD-t használják a nagyfelbontású digitális videokamerák a képanyag tömörítéséhez, valamint ilyen tömörítést használ az Apple is az iTunesban elérhető videóknál, legyen szó akár megvásárolható filmekről, sorozatokról, akár ingyenes filmelőzetesekről. A Nero Digital megjelenése óta, a DivX pedig a 7-es verziótól kezdve szintén MPEG-4 AVC alapú, s ezt a formátumot használják a video megosztók oldalak, így például a YouTube is. Az MKV fájlok 99%-a szintén MPEG-4 AVC kódolású videosávot tartalmaz. WMV – a Windows Media Video a Microsoft saját kodek formátuma. Habár a WMV fejlesztésekor az alapot szintén az MPEG-4 adta, a WMV nem kompatibilis egyetlen más MPEG-4 formátummal sem. Legutóbbi verziója a VC-1 szintén belekerült a Blu-ray szabványba, de a filmstúdiók nem használják. WMV formátumú videókkal főleg az interneten, DRM-mel ellátott állományok esetén találkozhatunk.
5.4. Eszközök Az alábbiakban áttekintjük a levéltári digitalizálás során napjainkban szóba jöhető legfontosabb eszköztípusokat, működésük alapelveit.
5.4.1. Dokumentumszkenner A levéltárak legnagyobb mennyiségben őrzött dokumentumai az iratok, akták (a 2003-as „A magyar kulturális közvagyon feltérképezése” c. tanulmány a levéltárakban fellelhető, digitalizálandó, mintegy 200 millió oldalnyi teljes anyag 67%-ára, 130 millió oldalra teszi ezt a dokumentumtípust!). A tárolási módjuk szerint - 136 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
ezek lehetnek dobozokban, mappákban, dossziékban, önálló lapokként vagy különböző eljárással kisebbnagyobb egységekben összefűzve: összetűzve, iratkapcsozva, varrva, lukasztva és lefűzve, vagy akár kötetekbe bekötve. Ha valamilyen eljárással – az adott intézmény állományvédelmi szempontjaival, előírásaival összhangban – önálló lapokra lehet szedni őket, nem túlságosan sérülékenyek, nem nagyobbak jellemzően A3 méretnél, papírvastagságuk nem haladja meg a 0,5 mm-t (kb. 250 g/m2) – a levéltári iratok döntő többsége “belefér” ebbe a kategóriába –, akkor a digitalizálásukra a legmegfelelőbb eszköz a dokumentumszkenner. Ezen eszközkategória egyik legfontosabb jellemzője az igen nagy feldolgozási sebesség (50-150 lap/perc) és a nagy napi terhelhetőség (50-100 ezer oldal naponta), így ezek a levéltári tömeges digitalizálás leghatékonyabb eszközei. A piacon 4-5 olyan megbízható cég termékeit találjuk meg ebben a kategóriában, akik már hosszabb ideje bizonyítottak ezen a területen. A konkurens eszközök legtöbb lényegi jellemzője nagyon hasonló, valamelyik termék kiválasztásakor az ár-érték arány, a megbízható szerviz dönthet. Az eszközkategória meghatározó közös tulajdonsága, hogy az egyik (szimplex) vagy mindkét oldalon (duplex) elhelyezkedő lineáris CCD érzékelő tömb rögzített pozícióban áll a szkennelés során, és megfelelően kialakított görgősor és vezető mechanizmus segítségével alatta/fölötte/közöttük mozog nagy sebességgel a digitalizálandó eredeti. A hatalmas sebesség miatt felbontásuk általában maximum 600 dpi. Az alábbiakban a Canon DR-X10C típusú eszköz használatán keresztül vesszük végig az irat szkennelés legfontosabb lépéseit, műhelytitkait!
5.4.1.1. A Canon DR-X10C dokumentumszkenner legfontosabb jellemzői A DR-X10C A3-as lapolvasó percenként 100 lap kezelésére képes, fekete-fehér, szürkeárnyalatos és színes formátumban egyaránt. Ezen felül a sebesség 200 dpi és 300 dpi felbontáson ugyanaz, fekvő elrendezésben, A4-es méretben való beolvasásnál pedig 128 lap/perces hihetetlen sebesség érhető el. Az automatikus színfelismerés, a szövegelrendezés felismerése és az üres oldalak kihagyása funkció tovább javítja a feldolgozás sebességét. A készülék kiugró képminőségnél teljesít a legjobban a 600 dpi optikai felbontás és a számos képjavítási lehetőség jóvoltából. A szövegjavítás, a hátoldal láthatóságának kiküszöbölése, a moaré hatás megszüntetése és a színkiejtés funkció biztosítja a beolvasott dokumentumok még jobb olvashatóságát. A por felgyűlése és a képromlás megelőzése érdekében célzott befúvókkal és egy különleges kialakítású törlőlapáttal tisztítja meg az üveget minden dokumentumbeolvasás után. A pormentes beolvasó rendszer kiváló képminőséget jelent, csökkenti a tisztításra vesztegetett időt, és javítja a teljes rendszer hatékonyságát. Külön érzékelővel követi az oldalméretet és végzi a kiegyenesítést. Az aktív nyomatékhatárolt leválogatás-vezérlés jóvoltából számos típusú hordozó betöltése és szeparálása lehetséges: a szeparátorgörgő nyomatéka elektronikusan beállítható, hogy a legfinomabb, vékony dokumentumok leválasztása is megfelelő szinten történjék. A három egymástól függetlenül vezérelhető ultrahangos érzékelő pontos duplaadagolás-érzékelést jelent minimális adatvesztési kockázat mellett. Az újszerű duplaadagolás-kezelő rendszer pedig automatikusan újra beadagolja a dokumentumokat anélkül, hogy a kezelőnek közbe kellene lépnie. Kiemelkedő tartósság, terhelhetőség (60.000 beolvasás naponta), jó szervízellátás jellemzi. Az eszköz vezérlése a CapturePerfect szoftver révén történik, ami a készülék tartozéka. További opcionális tartozékok vásárolhatók hozzá: elő- és utónyomtató egység, vonalkód modul, dokumentumazonosító-olvasó és választható Kofax interfészmodul. Alább megadjuk a Canon X10C szkenner műszaki paramétereit. Elsősorban azért, hogy láthassuk, milyen paraméterek vannak egyáltalán, mely tényezők a lényegesek az eszközválasztás szempontjából. Műszaki adatok Típus: Asztali lapadagolós lapolvasó Lapolvasó egység érzékelője: 3 soros CMOS CIS-érzékelő Optikai felbontás: 600 dpi Fényforrás: RGB LED Beolvasási sebesség Álló A4, kétoldalas F-F / szürkeárnyalatos: 200/300 dpi, 200 kép/perc; Színes: 200 dpi, 200 kép/perc;
- 137 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Színes: 300 dpi, 170 kép/perc Fekvő A4, kétoldalas: F-F / szürkeárnyalatos: 200/300 dpi, 256 kép/perc; Színes: 200 dpi, 256 kép/perc; Színes: 300 dpi, 170 kép/perc DOKUMENTUM MÉRETE Szélesség: 50,8 – 305 mm Hosszúság: 70 – 432 mm Vastagság Automatikus lapadagolás: 52 – 123 g/m2 (0,06 – 0,15 mm) Megkerülő mód: 40 – 255 g/m2 (0,05 – 0,30 mm) Hosszú dokumentum üzemmód: legfeljebb 1000 mm Lapok elválasztása: Görgős visszatartó Lapadagoló kapacitása: 500 lap (80 g/m2) Választható 500, 300, 100 lap és KÉZI/MEGKERÜLŐ adagolási mód Ofszet adagolás lezárható oldalsó vezetőkkel Kimeneti felbontás: 100 x 100 dpi, 150 x 150 dpi, 200 x 200 dpi, 240 x 240 dpi, 300 x 300 dpi, 400 x 400 dpi, 600 x 600 dpi KIMENETI ÜZEMMÓD Kétszínes Fekete-fehér / hibaeloszlás / fejlett szövegjavítás I.-II. Szürkeárnyalatos: 8 bites (256 szintű) szürkeárnyalat Színes: 24 bites színmélység KÉPFELDOLGOZÁS Képfeldolgozás: Automatikus oldalméret-felismerés és kiegyenesítés Üres oldal eldobása Szövegtájolás felismerése Automatikus színfelismerés Színkiejtés (R/G/B/egyéni) Színjavítás (R/G/B/egyéni) Fejlett szövegjavítás (I.-II.) Moaré hatás csökkentése A hátoldal láthatóságának kiküszöbölése / Háttér eltávolítása Kötegleválasztás Fűzésnyom eltávolítása Beolvasott terület beállítása ESZKÖZÖK Tűzőkapocs felismerés Ultrahangos kettősbehúzás-felismerés Kézi/megkerülő adagolás Aktív nyomatékhatárolt leválogatás-vezérlés Duplaadagolás-kezelő rendszer Beolvasás hitelesítése/csak számláló mód Váltható háttér (fehér/fekete) Csatolófelület: Dupla felület (nagysebességű USB 2.0 és SCSI-3) Méretek (mm): Csukott tálcával: 528 (szélesség) x 563 (mélység) x 375 (magasság) mm; Nyitott tálcával: 528 (szélesség) x 861 (mélység) x 432 (magasság) mm; Súly: kb. 39 kg Mellékelt szoftverek: ISIS/ TWAIN illesztő programok (Windows 2000/ XP Pro/ XP Home/ Vista), Capture Perfect 3.0 Választható elemek Előnyomtató egység Utónyomtató egység Dokumentumazonosító-kódoló III. vonalkód modul FOGYÓANYAG Tartalékgörgő-készlet Tisztítólapok Tintakazetták Napi munkaciklus: Kb. 60 000 beolvasás naponta
- 138 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.1.2. Előkészítés A berendezés nyitott, üzemkész állapotban kb. 60x90 cm vízszintes, sík asztalfelületet igényel. Mivel a tömege közel 40 kg, és nagy sebességgel működvén jelentős rezgés is fellép, a munkaasztalnak masszívnak kell lennie, és jó, ha kényelmesen jut rajta hely a számítógép perifériáinak (monitor, billentyűzet, egér) és esetleg a munkában lévő iratanyagnak is. Az iratanyag előkészítése egyrészt a tartalmi feltárást, a digitalizálási célok meghatározását, másrészt a fizikai előkészítését jelenti. Ki kell venni a tároló mappából, dobozból, lehetőség szerint portalanítani, majd több szempontból alaposan átvizsgálni, és ennek kapcsán a digitalizálás módszerére vonatkozó fontos döntéseket kell hozni: Tartalmaz-e tűzött, kapcsolt részeket; tartalmaz-e összehajtott lapokat; vannak-e benne olyan sérült, érzékeny lapok, amik ebben a formában ezen az eszközön nem szkennelhetők; vannak-e benne A3-nál nagyobb lapok; vannak-e benne egyoldalas és kétoldalas lapok is; vannak-e benne eltérő méretű lapok; vannak-e benne színesben szkennelendő lapok; paginálva van-e az anyag; milyen legyen a fájl elnevezési rendszer; milyen felbontásban kell digitalizálni; milyen fájlformátumot, tömörítést akarunk használni; van-e igény imprinter használatára? A fenti kérdések többé-kevésbé természetesen bármilyen eszközön való digitalizálás előtt feltehetők, megválaszolásuk az eszközválasztást, a konkrét munkamódszert nagyban meghatározzák. Ha egy mód van rá, végezzünk próba szkennelést: a legjobban a konkrét tapasztalatok segítenek kialakítani a végső metodikát. Az átvizsgálás során tapasztaltak, és a digitalizálási cél függvényében állítsuk be a Capture Perfect szkennervezérlő szoftverben a szükséges paramétereket!
5.4.1.3. Szkennelés A megfelelően előkészített iratköteget tegyük az automatikus lapadagolóba, arccal fölfelé, az oldalak teteje nézzen a szkenner belseje felé. Állítsuk be a papírvezető csúszkákat a bemeneti és a kimeneti oldalon is. Akár a szkenner kezelőpaneljének megfelelő gombjával, akár a vezérlőprogrammal indíthatjuk a szkennelést. Ha valamilyen okból nem lehet az automatikus lapadagolást használnunk, lehetőség van kézi, egyesével történő lapadagolásra is. A szkenneren áthaladó papírok 180 fokban átfordulnak, a legelőször behúzott papír fejjel lefelé, a kijövő köteg legaljára kerül, így az iratok sorrendje nem változik. Vannak ún. átmenő rendszerű szkennerek is, ezeknél a dokumentumok útja egyenes, nem fordulnak át, így a köteg szkennelése során az iratok eredeti sorrendjének visszaállításához vagy újra át kell küldeni a szkenneren az anyagot, vagy manuálisan helyreállítani a rendet.
- 139 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Egy másik megoldást alkalmaz pl. a Fujitsu 6130-6140Z: ezeknél az eszközöknél a bemeneti papíradagoló fölül helyezkedik el, onnan a gravitációt is kihasználva finoman kerül, szinte esik a továbbító görgők közé, még nagyon vékony, szakadós hártyapapírokkal is megbirkózik az iratok sérülése nélkül. A papír útja itt is csaknem egyenes, ráadásul a folyamat során az iratok eredeti sorrendje is megmarad. Ez egy kategóriával lassabb (maximum 50-60 lap/perc), és csak maximum A4 méretű dokumentumot tud szkennelni, de ha igen kíméletes digitalizálásra van szükség, jó választás lehet. Az X10C esetén a nagy sebességgel a fölső gyűjtőtálcára érkező papírok néha hajlamosak visszahajolni, összezilálódni (leginkább vékony, könnyű, fényes, elektrosztatikus feltöltődésre hajlamos papírok esetén), érdemes ezért rajtuk tartani a szemünket, különben esetleg az iratok sorrendje összekeveredhet. A beszkennelt iratköteget érdemes ismét kiütni, összerendezni, és ezután visszatenni az eredeti tárolójába. ●
●
dupla lap behúzás Az ultrahangos duplalap-érzékelő nagy biztonsággal detektálja az összetapadó lapokat. Ilyenkor a szkenner néhányszor megpróbálja visszatekerés után újra behúzni a lapokat, ha nem sikerül neki, akkor egy hangjelzést követően a szkennelés megáll. Vegyük ki, válasszuk szét a lapokat, majd azokat visszahelyezve folytathatjuk a szkennelést. Ez esetben az automatikus számláló onnan folytatja a számozást, ahol az elakadás előtt abbahagyta. A kettős lapbehúzás leggyakoribb okai lehetnek: az érdes, tapadós papír, az elektrosztatikus feltöltődés, az egyik papírra ragasztott másik (pl. ragasztós jegyzetlap), az eredetileg ragasztott kötésű könyv szétszedése után a lapok között maradt, befolyt ragasztó, a lefűzéshez használt perforáció, a szárazpecsét kidomborodásai. papírelakadás Ha valamiért nem tudja behúzni a papírt a lapadagoló (ezt is újra próbálja néhányszor), vagy az út közben elakad valahol a szkenner belsejében, hasonlóan járjunk el, mint a kettős lapbehúzás esetén: nyissuk fel a fedelet, igazítsuk meg, üssük ki, fújkáljuk meg, lazítsuk fel a köteget, majd próbáljuk újra.
A lapbehúzás kritikus elemei a fenti ábrán látható görgők. Ezek speciálisan kialakított, érdes felületű szilikon gumiból készültek, finom rugók szorítják őket a papírhoz a megfelelő erővel. Előfordulhat ugyanakkor, ha túlságosan érdesek a lapok, szinte smirgliszerűen tapadnak egymáshoz, avagy éppen hogy teljesen simák, fényesek, csúszósak, esetleg a görgők szennyezettek vagy kopottak, hogy nem tudják szétválasztani, továbbítani a lapokat. A görgőket ki lehet venni és megfelelően megtisztítani, illetve ki lehet őket újakra cserélni. Ha ez sem hoz eredményt, akkor más eszközt kell választanunk a kérdéses anyag digitalizálására. - 140 -
Levéltári digitalizálás • Arcanum, 2012
●
5. Digitalizálás
begyűrődés, szakítás Az eszköz belső elrendezése, laptovábbító mechanizmusa úgy lett kifejlesztve, hogy minimalizálja a dokumentumok szkennelés során való sérülésének kockázatát. Ennek ellenére előfordulhat, hogy a leggondosabb ellenőrzés mellett is olyan lap kerül bele, ami már eleve sérült, töredezett, beszakadt szélű. Ilyenkor a lap összegyűrődhet, elakadhat, esetleg el is szakadhat. A szkenner felső részét felemelve távolítsuk el gondosan a beakadt, összegyűrődött, elszakadt papír minden egyes kis darabkáját. Dokumentáljuk a károsodást, a sérült lapo(ka)t tegyük lezárható irattartóba, majd vigyük a restaurátorhoz.
5.4.1.4. A szkennelés után Ha végeztünk egy iratköteg digitalizálásával, mielőtt elcsomagolnánk, érdemes néhány egyszerű, globális ellenőrzést elvégezni. Ha észreveszünk valamilyen hibát, általában sokkal egyszerűbb akár egy egész kupacot is teljesen újra beszkennelni, mint a már összecsomagolt, az őrzési helyre visszapakolt iratot újra elővenni. ●
Az eltervezett paraméterekkel szkenneltük-e be az anyagot
●
A fájlok elnevezése megfelel-e a meghatározott konvenciónak
●
Ha lehetséges, hasonlítsuk össze az elméleti oldalszámot (pl. a pagináció segítségével) a létrejött fájlok valós darabszámával
●
Nézzünk rá a mappa fájljainak listájára: nagyjából egyforma méretűek-e a benne lévő fájlok? Ha az eredeti dokumentumoldalak hasonló méretűek, akkor a képméretek is nagyjából hasonlóak kell, hogy legyenek. Ha kiugró eltérést látunk, az gyakran valami szkennelési anomáliára utal.
●
Szúrópróbaszerűen ellenőrizzük a képminőséget: szín, tónus, kontraszt, oldalszélek megléte (nincs-e valahol belevágva) szempontjából.
5.4.1.5. Karbantartás Egy nagyteljesítményű dokumentumszkenner drága berendezés, ugyanakkor hatalmas igénybevételre tervezték. A puszta teljesítmény mellett részben éppen az különbözteti meg az egyszerűbb, irodai, otthoni felhasználásra készült eszközöktől, hogy ipari, üzemszerű használatra képes. Robusztus felépítése, a mechanikus alkatrészek tartós kivitele csak a rendszeres karbantartás, a kopó alkatrészek szisztematikus cseréje mellett szavatolja a hosszú távú kifogástalan működést. A gyártók előírják, hogy mely alkatrészeket milyen időközönként, mennyi lap beszkennelése után kell kicserélni, csak ennek betartása esetén vállalnak rá garanciát. Elsősorban azok a forgó, mozgó, súrlódó alkatrészek szorulnak időközönként cserére, amik közvetlenül a papírral érintkeznek. A digitalizálás eredménye szempontjából különösen fontos az érzékelők, az őket védő üvegfelületek tisztasága, sértetlensége: minden itt jelentkező szennyeződés megjelenik a beszkennelt állományon is különböző csíkok, foltok, elszíneződések formájában, többé-kevésbé használhatatlanná téve a képeinket. Vannak olyan karbantartó műveletek, amit a felhasználónak lehet (kell) elvégeznie rendszeresen, avagy igény szerint, és vannak olyanok, amiket csak a szakszerviz erre képesített munkatársa végezhet. Az eszköz megvásárlásakor fontos szempont annak figyelembe vétele, hogy várható élettartama alatt mennyi is lesz az előírt, kalkulálható cserealkatrész-költség, az esetleg szintén előírt kötelező szerviz díja, illetve a karbantartás a mi telephelyünkön történhet-e avagy a szakszervizbe kell szállítani hozzá? A kieső időre biztosítanak-e esetleg cserekészüléket? Tegyük fel, hogy vásárolunk egy napi 50 ezer oldalas igénybevételre tervezett berendezést 5 millió forintért, amiben a görgőkészletet 500.000 oldal digitalizálása után kell kicserélni, és egy ilyen szett ára 40.000 Ft. Ha folyamatosan üzemeltetjük a szkennert, akkor egy év alatt (250 munkanappal és 80%-os kihasználtsággal számolva) 10 millió oldalt lehet vele digitalizálni, ehhez legalább hússzor kell görgőkészletet cserélni. Tehát egy évben közel 1 millió forintot kell költenünk erre a célra! A levéltári iratok gyakran igen porosak, szennyezettek, így még ha a digitalizálás megkezdése előtt igyekeztünk is alaposan portalanítani őket, biztosan bőven marad rajtuk. A szennyezett anyagok szkennelése erősen - 141 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
igénybe veszi a berendezés forgó, súrlódó alkatrészeit, gyorsítva elhasználódásukat. Ha a lapbehúzásért, továbbításért felelős felületek, görgők szennyeződnek, akkor nehezen vagy egyáltalán nem sikerül adagolni a lapokat, lehetetlenné teszik a folyamatos munkát. Ha ilyet tapasztalunk (papírelakadást, begyűrődést, indokolatlanul gyakori dupla lapbehúzást), állítsuk le a szkennelést, és az eszköz kézikönyvében leírt módon a megfelelő helyeken felnyitva a berendezést, bizonyos alkatrészeket a helyükről kiemelve alaposan tisztítsuk meg őket! Amennyiben a magunk által elvégezhető karbantartás után is fennáll valamilyen probléma, hívjuk a szakszervizt! Ha nem észlelünk problémát, akkor is legalább naponta távolítsuk el a port, az összegyűlt papírtörmeléket, tisztítsuk meg a görgőket, az érzékelők előtti üvegfelületet.
5.4.1.6. Fujitsu fi-6130 Kedvező ára és bizonyos szituációkban való jó használhatósága miatt egy másik típusú dokumentumszkenner specifikumairól is érdemes néhány szót ejteni. A kisvállalatoknak és munkacsoportoknak szánt Fujitsu fi6130 szkenner ára egy nagyságrenddel kisebb, mint a nagyteljesítményű dokumentumszkennereké. Teljesítménye, robusztus kialakítása ugyanakkor alkalmassá teszik – kisebb volumenű – tömeges digitalizálásra is. A nagyobb testvéreivel szemben a korlátait a maximum A4-es mérete, a maximum 50 lapos lapadagoló kapacitása, maximum 40 lap/perc szkennelési sebessége, és a maximum napi 4 ezer oldalas terhelhetősége jelentik. Ugyanakkor számos előnyös tulajdonsága révén néha olyan digitalizálási szituációkban is jól használható, ahol a nagyteljesítményű eszközök használatára nincs mód. ●
Kisebb fizikai mérete, súlya (30x16x16 cm, 4,5 kg) lehetővé teszi, hogy egy hordozható számítógéppel összekötve mobil munkaállomásként a digitalizálandó objektumok szállítása nélkül, azok őrzési helyén végezzük a szkennelést.
●
A lapadagolója fölül helyezkedik el, a precíziós továbbító és szétválasztó görgők a gravitációt is kihasználva nagyon kíméletesen adagolják a lapokat, azok szinte maguktól csusszannak a szkenner nyílásába. Ez – és a kicsit lassabb sebesség – olyan vékony, sérülékeny, szakadós eredetik digitalizálását is lehetővé teszik, amik a nagyobb teljesítményű eszközökön azok sérülése nélkül nem volnának biztonságosan lehetségesek.
●
Egészen kicsi (Akár A8-as, 52x74 mm, névjegykártya méret) eredetik elakadás mentes kezelése.
●
Az egyenes vonalú papírvezetésnek köszönhetően viszonylag kemény (210 g/m2) kartonokkal is megbirkózik.
●
Szintén az egyenes papírvezetésnek köszönhetően hosszú, akár 3 méteres dokumentumokat is képes szkennelni.
Magas műszaki tartalma megfelel a dokumentumszkennerektől elvárható mai csúcstechnikának: ●
egyoldalas vagy kétoldalas szkennelés
●
színes, szürkeárnyalatos vagy fekete-fehér színmélység
●
színes CCD érzékelő, hidegfényű katódcsöves megvilágítás
●
600 dpi optikai felbontás
●
ultrahangos duplalap behúzás érzékelő
●
szoftveresen változtatható fekete vagy fehér háttér
●
Kofax VRS intelligens képjavító program, automatikus oldalméret érzékelés, kiegyenesítés
●
TWAIN, ISIS driver, USB 2.0 csatoló
●
cserélhető görgők
●
imprinter beépítési lehetőség
- 142 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.2. Felsőfejes könyvszkenner A felsőfejes könyvszkennerek (Overhead scanner) sokoldalúan használható, a legkíméletesebb digitalizálást lehetővé tévő eszközök. Minden olyan esetben remekül használhatóak, ha a szkennelendő könyvet nem lehet lapokra szedni, illetve kíméletes bánásmódra van szükség. Képminőségük kiváló, ám viszonylag fáradságos és nem igazán termelékeny a vele való munka (legalább is a dokumentumszkennerekhez, robotszkennerekhez képest), de a nagyméretű és különösen védett dokumentumok kiváló minőségű digitalizálásához ez a legjobb eszköz: oklevelek (akár függő pecséttel!), régi, értékes könyvek, újságok, metszetek, térképek, aprónyomtatványok mind digitalizálhatók vele. A dokumentum szkennelése mechanikai behatás nélkül történhet, a megvilágítás egyedülállóan kíméletes, UV-mentes, nagyfrekvenciás hidegfényű lámpákkal, ami a viszonylag gyors szkennelésnek köszönhetően csupán néhány másodpercig világítja meg a felületet. A legújabb típusok korszerű és hatékony LED világítást használnak. A szkennerek precízen állítható könyvbölcsői bizonyos határok között lehetővé teszik a vastag, rossz állapotban lévő könyvek sérülésmentes digitalizálását is. A legkorszerűbb típusok már V-alakú könyvbölcsővel is rendelkeznek, így a sérülékeny gerincű, szorosan kötött könyvek szkennelése is lehetővé válik. Hatalmas, akár A0 méretű eredetik digitalizálására is alkalmasak. Hátrányuk a viszonylag magas áruk mellett a számottevő szkennelési idő. Összességében talán nem tűnik soknak az oldalpáronkénti néhány másodperc, de sok oldal esetén – a dokumentumszkennerekhez, robotszkennerekhez viszonyítva – amazoknál jelentősen lassabb ütemű digitalizálást tesz lehetővé. A csak vízszintes könyvbölcsővel rendelkező modellek további hátránya, hogy az alapvetően kétdimenziós oldalak korrekt geometriai leképezéséhez alaposan le kell szorítani a bekötött eredetit (és szoros kötés, szűk margó estén a képminőség még akkor sem lesz tökéletes), ami nem tesz jót a könyv gerincének, és/vagy szoftveres görbület-korrekciót kell igénybe venni. A Zeutschel cég OmniScan és az Image Access cég BookEye termékcsaládja a legnépszerűbbek, működési elveik, szolgáltatásaik megközelítőleg hasonlóak: négy lineáris CCD kamera (22,800 pixel), 36-bites színmélység, optikai felbontás maximum 600 DPI. A szkennelés ideje: kb. 1 mp szürke, 4 mp színes. A könyvtartó kb. 100 mm-es könyvgerinc vastagságig használható. A megvilágítást UV és IR mentes, LED-es fényforrás biztosítja, a dokumentumot csak a szkennelés ideje alatt éri megvilágítás, az operátort zavaró fényhatás nincs. Automatikus oldal szétválasztás, oldalhajlások automatikus kiegyenlítése. Jellemzően, ha megjelenik valami szolgáltatás az egyik cég csúcsmodelljében, azt hamarosan viszontláthatjuk a konkurencia termékében is (most éppen ilyen a V-alakú könyvbölcső).
- 143 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.2.1. Működési elvek A felsőfejes könyvszkennerek a síkágyas szkennerek egy speciális típusának tekinthetők. Ugyanúgy lineáris CCD érzékelő-tömb végzi a megvilágított objektumok letapogatását. A szkennelés során az érzékelő mozdul el, pásztázza végig az eredetit. A különbség, hogy itt az érzékelő és a megvilágítás a tárgyhoz képest fölül helyezkedik el, és nem egy síkban mozdul el, hanem egy tengely vagy ív mentén elfordul. Ez lehetővé teszi, hogy a kényes eredetik a természetes, “háton fekvő” helyzetükben maradhassanak, minimalizálva a mechanikai sérülés veszélyét. A könyvbölcső (akár motoros vezérléssel) pedig a változó vastagság és a kiemelkedő kötés-gerinc okozta problémákat orvosolja.
A megvilágítási rendszer úgy van kialakítva, hogy csak az éppen érzékelés alatt lévő sávot érje mindkét oldalról teljes megvilágítás, a megvilágított sáv az érzékelővel szinkron pásztázza végig a szkennelendő felületet (a BookEye két oldalról, a Zeutschel hátulról-fölülről világítja meg és tapogatja le az objektumot). Ez nagyrészt kiküszöböli az oldalhajlásból, apró gyűrődésekből keletkező árnyékot, és minimalizálja az érzékeny eredeti fényterhelését. Az alábbi ábra jól szemlélteti a szkennelési helyzet bonyolultságát: egy háromdimenziós objektumról (a görbült oldalpár) – ami ráadásul a lapozás előrehaladtával folytonosan változik – kell fix felbontású, korrekt geometriájú, színhű kétdimenziós képet készíteni.
- 144 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Bonyolult lencse- és tükör-rendszer vetíti az objektum képét az érzékelő kamerára. Kifinomult szoftveres vezérlés szinkronizálja a CCD fő motorját a lámpa-motorokkal, így biztosítva a kamera centrális pozícióját a horizontális tengelyhez képest, és hogy a lehető legpontosabban kövesse a megvilágított sávot. Egy külön lézeres letapogató mechanizmus gondoskodik a helyes fókuszról és detektálja a szkennelt dokumentum dimenzióit, pozícióját. Egyes Zeutschel modellekhez kapható olyan modul (PerfectBook), ami a különálló mátrix-kamera és a CCD-sor által szolgáltatott kép térbeli koordinátáit a megfelelő algoritmussal kezelve – 3-D modellt készítve és arra a képet ráhúzva – minden korábbi szoftveres eljárásnál jobb minőségű 3D-s könyvgerincgörbület-korrekciót tesz lehetővé. Ez a szoftver ráadásul képes az oldalból kilógó (pl. „Post-it” öntapadós jegyzetlapok) és abba belógó (pl. az oldalakat lefogva tartó ujjak képe) objektumok kimaszkolására (lásd az alábbi képsorozatot).
Más szoftveres megoldásokat (pl. dinamikus digitális zoomot) használ a BookEye, de sose felejtsük el, hogy minden beavatkozás az eredeti dokumentumban lévő információ módosulásával jár (a veszteséges tömörítésekhez hasonlóan), akármilyen jó minőségű, kifinomult programról van is szó. Éppen a bonyolult optikai leképezési mechanizmus miatt a valós felbontás meghatározása nem is olyan egyszerű. A legpontosabb, legmegbízhatóbb eredményt valamilyen ismert geometriájú objektum (a megfelelő kalibrációs mintalap, mérőrúd, vagy egy vonalzó) adott beállítások melletti beszkennelése és a létrejött digitális állományban való visszaellenőrzése adja.
5.4.2.2. Használat (BookEye 3-2) A megfelelő képminőség garantálásához elengedhetetlen az eszköz vízszintes, stabil, rázkódásmentes elhelyezése. A helyiség, a környezet kiegyensúlyozott, kontrollált megvilágítása szintén nagyon fontos tényező. Kerülni kell a direkt napfényt, a világítótestekből, fénycsövekből származó rávetülő fénysugarakat, egyáltalán minden olyan fényhatást, ami túl erős, vagy éles árnyékot vetít a szkennelő felületre, vagy esetleg változékony. Ezek a szkennerek önálló világítással rendelkező nyitott eszközök, a CCD kamera a saját fényforrásuk és a környezet fényét összegezve érzékeli. Egyenletes, a tárgyfelület síkjában kb. 300 lux fényerejű, a szkennelő területen 20%-nál nagyobb eltérést nem mutató mennyezetvilágítást kell használni. Az elektronikus előtét (ballaszt) nélküli fluorescens fénycsővilágítás a hálózati feszültség frekvenciájának kétszeresét produkáló - 145 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
villogást produkál. Ha ez a világítás túl erős, akkor ez 8-12 pixelenkénti csíkokat eredményezhet a szkennelt képen. Ha ezzel a jelenséggel találkozunk, csökkentsük a mennyezeti világítás fényerejét, vagy cseréljük ki, esetleg építtessünk be megfelelő elektronikus ballasztot a világítórendszerbe. Bizonyos világítótestek a látható fény tartományán kívül az infravörös tartományban is sugároznak. Ezt a szemünk nem érzékeli, de a CCD kamera igen, a túl sok ilyen fény túlexponálást eredményez. A szkenner saját világítása mentes az IR tartománytól, ezért nincsenek is a mechanizmusban IR-szűrő elemek (amik egyébként rontanák a képminőséget). Használjunk hideg fényű, 4000 K körüli világítást a helyiségben. A szkenner rendelkezik beépített fehéregyensúly beállító funkcióval, ami kiküszöböli a külső megvilágítás színegyensúlyt befolyásoló hatását. Bekapcsolás után az eszköz elvégez egy sor önellenőrzést, majd néhány másodperc után készen áll a szkennelésre. Végezzük el a szükséges beállításokat: szkennelési mód, minőség, képforgatás, tükrözés, színprofil beágyazása, metaadatok, színmélység, fájlformátum, fájlelnevezési séma, méret, felbontás. Beállíthatjuk a képfelvételezés néhány paraméterét is: fényerő, kontraszt, képélesség, expozíció, gamma érték, színcsatornánkénti (RGB) színegyensúly-korrekció. Levéltári digitalizálás esetén a leggyakoribb szituáció, hogy az output egy merevlemez, esetleg egy hálózati meghajtó mappája. Lehetőség van ugyanakkor a szkennelés eredményét közvetlenül nyomtatóra, e-mailbe, vagy FTP-helyre küldeni. Tömeges digitalizálás esetén érdemes megfontolni az opcionális lábpedálok csatlakoztatását, amikkel még hatékonyabb, ergonomikusabb a munkavégzés: a kezek ez esetben felszabadulnak és rendelkezésre állnak, pl. ha manuális rásegítés kell a dokumentum tartásához.
5.4.3. Széles formátumú, avagy térképszkenner A tervrajzok, plakátok és a térképek a szkennelés szempontjából hasonlónak tekinthetők, így indokolt digitalizálásukról együtt beszélni: jellemzően nagyméretűek, papír alapúak, legtöbbször a hordozó egyik oldalán tartalmaznak képi információt. Időnként tartozhat hozzájuk velük együtt őrzött egyéb iratanyag is, amelyek formátumuk, méretük, fizikai állapotuk szerint különböző eszközökkel digitalizálhatók hatékonyan (síkágyas szkenner, dokumentum szkenner, digitális kamera, stb.). Ezek feldolgozását lásd az egyes eszköztípusoknál. A külön munkamenetben, más eszközzel végzett szkennelés során különösen ügyelni kell arra, hogy a tartalmilag összetartozó dokumentumok megőrizzék egymással való kapcsolatukat. Helyes munkaszervezéssel, a meghatározott fájlelnevezési rendszer következetes betartásával, rendszeres ellenőrzéssel kell gondoskodni arról, hogy az összetartozó anyag digitalizált állománya is megőrizze integritását. A térkép- vagy tervszkennerek (angolul Wide Format Scanners) elsősorban nagyméretű térképek, tervrajzok, plakátok nagytömegű, kiváló minőségű digitalizálásához használatosak, de a könyvekben is gyakran előfordulnak kihajtható kép- és táblázat-mellékletek, amelyek – ha szétszedhető a kötet – szintén ezzel az eszközzel digitalizálhatók. Egyedülálló képminőségüknek köszönhetően a nagyon apró méretű szövegeket is élesen jelenítik meg. Kíméletes, precíziós görgő-mechanizmus segítségével még a pausz-vékonyságú dokumentumokat is sérülésmentesen szkennelik be. A görgősorok közötti áthaladáskor a hajtások, kisebb gyűrődések is kisimulnak. Mivel a szenzorsor áll, és azzal párhuzamosan, hozzá nagyon közel maga a dokumentum mozog egy tökéletesen sík felületen a precíziós görgősor révén, így nem lép fel geometriai torzulás a digitális leképezés során. Viszont a szkennelés során mozgó eredeti miatt a munkaterület kialakítására, az egyes darabok kezelésére nagy gondot kell fordítani, hogy biztonságosan elkerülhessük az esetleg ritka, pótolhatatlan példányok akaratlan sérülését. Ha esetleg szakadozott, sérülékeny az eredeti, akkor megfelelő előkészítő megerősítéssel, restaurálással, illetve átlátszó műanyagkapszulában való szkenneléssel előzhetjük meg a károsodásokat. A térképszkennerek megvilágítási technikáját úgy alakították ki, hogy a dokumentumokat nem éri káros folyamatokat elindító fényhatás, és a megvilágítás is rendkívül rövid ideig tart a gyors képalkotó szenzoroknak köszönhetően. A dokumentum a szkennelés során nem hajlik meg, vízszintesen mozog, de a moz- 146 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
gató gumigörgősor érintkezik vele. Ezért ha valamilyen sérülékeny elem (pl. pecsét) van rajta, akkor azt nem szabad ebben az eszközben digitalizálni. A piacon jelenleg ebben a kategóriában mindössze néhány cég termékeit találjuk: Contex-Vidar, Colortrac, Graphtec, Image Acces. Az egyes típusok jellemzően a következő paraméterekben térnek el egymástól: ●
szkennelhető maximális szélesség: 24 és 56 hüvelyk, azaz 61 cm és 142 cm közötti szélességet kezelő eszközök kaphatók
●
beszkennelhető hordozó maximális vastagsága: 1-2 millimétertől 2 centiméterig
●
szkennelés sebessége: 1-6 hüvelyk (kb. 2-15 cm)/másodperc színes, maximum kb. 30 cm/sec feketefehér módban
●
optikai felbontás: 500-1200 dpi
●
színmélység: 1 bites (csak vonalas tervek, műszaki rajzok szkenneléséhez alkalmas), 8 bites szürke, 16 bites szürke, 24 bites színes, 48 bites színes szkennerek; némely eszköz több színmódban is tud működni
●
érzékelő rendszer típusa
●
○
CIS (Contact Image Sensor) előnyei: nagyon kicsi geometriai torzítás, stabil megvilágítás, kevesebb kalibrációs igény, kisebb és olcsóbb eszközök lehetősége; hátrányai: kisebb mélységélesség (az érzékelőt gyakorlatilag rá kell szorítani az eredetire, miáltal a karcok, por hátrányos hatása fokozódik), szegényesebb színreprezentáció
○
CCD (Charge Coupled Device) előnyei: kiváló színvisszaadás, nagyobb mélységélesség, nagy sebesség; hátrányai: gyakori kalibrációt igényel a megvilágítási erősség változása és a geometriai torzulás, élesség változása miatt, drágább a szükséges csúcsminőségű optikai elemek, kameralencsék miatt
nyomott oldallal felfelé vagy lefelé szkennelők: a legtöbb eszköz esetén az írott oldalt lefelé kell fordítani; állományvédelmi és ergonómiai szempontból jobb megoldás lehet az “arccal felfelé” dolgozni képes szkenner
A konkrét eszköz kiválasztásában a digitalizálandó dokumentumok alapvető paraméterei (szélesség, vastagság, színek), mennyiségük, a rendelkezésre álló büdzsé figyelembe vétele mellett fontos szempont a szerviz biztosítottsága, esetleges cserekészülék, a kopó, cserélhető/cserélendő alkatrészek ára, hosszú távú és igény esetén gyors biztosítása: ahhoz, hogy a drága berendezéseket hatékony kihasználhassuk, azoknak gyakorlatilag folyamatosan kell működniük. Az eszközök kezelése, a velük való munka problémái igen hasonlóak, ezért úgy véljük, ha egy berendezést alaposabban megvizsgálunk, az eszköztípus egészét jól megismerjük. Nézzük meg hát egy konkrét típus paramétereit!
5.4.3.1. A Vidar HD 4250 plus szkenner főbb paraméterei ●
600 dpi optikai fölbontás - 147 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
●
48 bit színes, 16 bit szürkeárnyalatos beolvasási mélység
●
4 csatornás csúcsminőségű CCD (R, G, B, + pankromatikus szürke)
●
Ultra gyors USB 2.0 DTR (Extended Data Transfer Rate) interfész, 400 megabit/sec adatátviteli sebesség
●
Nagyon gyors szkennelés: ○
monokróm fekete-fehér: 30 cm/sec
○
színes RGB:
8 cm/sec
●
106,7cm (42”) beolvasási szélesség, korlátlan hosszúság
●
15 mm maximális dokumentum vastagság, automatikus vastagságállítás
●
“arccal le” = érzékelő alul mód
●
megvilágítás nagyfrekvenciás hideg fénycsővel
●
számítógép által folyamatosan kontrollált kíméletes görgő mechanizmus
●
precíz színkalibrálás, tökéletes színhűség, sRGB színtér
●
geometriai torzítástól mentes kép
●
beépített képjavító algoritmusok (pl. élesítés, rácsmentesítés)
●
csúcsminőségű kamera lencsék, optikai zajtól mentes kép
A fenti kép csak illusztráció, nem szerepel rajta a dokumentum sima, vízszintes ki- és bevezetését biztosító tartó, és úgy mutatja, mintha “arccal föl” lehetne vele szkennelni, ez valójában csak lefelé fordítva lehetséges!
- 148 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.3.2. Előkészítés A munkahelyet úgy kell kialakítani, hogy a meglehetősen nagyméretű berendezést kényelmesen körül lehessen járni, plusz elől és hátul maradjon annyi hely, hogy a szkennelendő dokumentumot kényelmesen, akadálymentesen, “megtörés-biztosan” lehessen bevezetni a gépbe, valamint a kifutása is zavartalan lehessen. A gyárilag hozzá tartozó dokumentumtartó állványt szükség esetén alkalmas állványzattal, megfelelő magasságú asztallal kell kiegészíteni. A nagyobb méretű térképeket a levéltárakban általában tékában, vagy tekercsben tárolják. Biztosítani kell egy alkalmas méretű asztalt vagy szilárd pultot, ahol kényelmesen, sérülés biztosan ki lehet csomagolni, ki lehet hengergetni az egyes dokumentumokat. A nagyméretű papírdokumentumok mozgatása általában is különös gondosságot igényel, a szakadást, “betörést” elkerülendő lehetőleg mindig két kézzel, szükség esetén másik ember segítségét igénybe véve kell mozgatni őket. A térképek, tervrajzok gyakran fényre érzékeny, fény hatására halványuló festékkel készültek, ezért a digitalizálás folyamán ügyelni kell a káros fényterhelés elkerülésére. A hidegfényű fénycsöves megvilágításnak köszönhetően a szkennelés során nem éri ilyen a dokumentumokat, viszont a tárolás, mozgatás során lehetőleg óvni, takarni kell őket. Fontos művelet az előkészítés során a portalanítás: az eredeti dokumentumoké és a digitalizáló eszközé is. A technológiából adódóan a térkép végigcsúszik a szkenner üveglapján, és a por beszennyezi, megkarcolhatja az eszközt és az eredeti dokumentumot is, ráadásul ezek a sérülések megjelennek a digitalizált állományon is, ahonnan csak nagy munkával lehet őket kiretusálni (a képi tartalom sérülése nélkül gyakran nem is lehet). A szkennelendő dokumentumok portalanítása mellett a munkavégzés során rendszeres időközönként meg kell tisztítani a berendezést is, és szennyeződés észlelésekor ezen kívül is. Fontos az előzetesen alaposan átgondolt, következetesen alkalmazott fájlelnevezési rendszer kialakítása. Az ellenőrzés, az archiválás, a hiányok dokumentálása, pótlása, metaadatok hozzárendelése, a későbbi felhasználás mind lehetetlen e nélkül.
5.4.3.3. Szkennelés Az eszköz USB-porton kapcsolódik a számítógéphez. Vezérlése, beállítása történhet a szkennelő szoftver felületén, ill. a berendezés kezelőpaneljén lévő gombok segítségével. A szkenner bekapcsolása után bizonyos ideig várni kell, hogy a megvilágító fénycső elérje üzemi hőmérsékletét – ezáltal a megfelelő színhőmérsékletet, illetve lefuthassanak a bekapcsoláskor elinduló automatikus önellenőrző műveletek: fény-profil, részkép összeillesztés (lásd részletesebben a kalibrálásról szóló részben) és fehéregyensúly (fehér és fekete pont) beállítása. Ha a szkenner üzemkész, azt a kezelő panelen a megfelelő LED jelzi. A szkennelés megkezdése előtt a következő paramétereket kell beállítanunk, ill. kiválasztanunk: ●
felbontás: maximum 600 dpi; a legtöbb esetben a 300 dpi kielégítő eredményt ad
●
színmélység: a tipikus levéltári anyagok archiválásakor a 24 bites RGB mód az általánosan elfogadott. Az időnként egészen nagyméretű eredetik miatt számolni kell azonban a hatalmas fájlméretekkel. Ha olyan terveket, plakátokat, térképeket szkennelünk, amik eredetije csökkentett színmélységű, megfontolható a 8 bites (szürke vagy adaptív palettás színes) színmélység is, így a tömörítetlen fájlméret sokkal kisebb lehet.
●
egyenkénti vagy batch szkennelés: az utóbbit akkor válasszuk, ha számos hasonló jellegű, méretű eredetit akarunk digitalizálni azonos beállításokkal
●
automatikus vagy manuális dokumentum betöltés: az automatikus betöltés esetén a dokumentum bevezető nyílásba illesztett papírt a szkenner automatikusan “elkapja”, és beszkenneli; ezen a módon – a batch móddal együtt használva – anélkül szkennelhetünk be sok dokumentumot, hogy akár a vezérlő szoftvert, akár a kezelőpanelt használnunk kellene; mindkét kezünket használva csak a dokumentum stabil bevezetésére kell ügyelnünk. - 149 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
●
szélesség: automatikus lapméret-érzékelést választhatunk, vagy standard papírméreteket, illetve tetszőleges szélességet.
●
vastagság: az 1-2 mm-nél vastagabb kartonra, egyéb táblára kasírozott dokumentumok szkenneléséhez nagyobbra kell állítani a bevezető rést az automatikus vastagságállítási funkció segítségével (a szkenner kezelőpaneljén); kézzel kell segíteni a szkennert az esetleg merev, hajlott, nehéz eredetik megfelelő, sima mozgatásában; a mozgatási sebességet automatikusan csökkenti a szkenner vastag eredetik digitalizálásakor; ha nem fekszik fel jól a szkennelés során az eredeti az üvegre, öszszeillesztési hibák jelentkezhetnek (hiányzó vagy átfedő pixelek, lásd lejjebb): állítsunk a “stitching” paramétereken és próbáljuk újra
●
fájlformátum: válasszunk a digitalizálás céljaival összhangban lévő fájlformátumot és tömörítést! Ha térképek esetén a digitalizált állományokon további geoinformatikai műveleteket szándékozunk végezni, akkor ahhoz speciális képformátum szükséges, amelyet általában nem közvetlenül a szkennelés eredményeképpen, hanem egy későbbi munkafázisban állítunk elő.
A beállítások elvégzése után a szkenneléshez az eredeti dokumentumot írott felével lefelé, vízszintesen tartva, horizontálisan középre igazítva a papírbevezető nyílásba illesztjük finom ütközésig. Automatikus papírbetöltést választva a beállított késleltetési idő után a szkenner “elkapja” és a vezető görgői révén behúzza kissé, majd a start pozícióba visszaengedi a dokumentumot, majd elindul a szkennelés. A munkahely elrendezésének függvényében a szkennelés végeztével elől vagy hátul vehetjük ki a papírt. Ha egy mód van rá (ha állományvédelmi megfontolások nem szólnak ellene: pl. ha az egyik szél sokkal jobb állapotú, mint a többi, akkor nyilván azt kell először bevezetni), érdemes a helyes olvasási irányba beforgatva a szkennerbe tenni az anyagot. Ugyanígy a dokumentumméretet is érdemes gondosan beállítani, mivel a hatalmas fájlok utólagos megnyitása valamilyen képszerkesztő programban, ott a fölösleges részek levágása, az elforgatás meglehetősen idő- és erőforrás-igényes művelet.
5.4.3.4. Kalibrálás A széles formátumú szkennerek megfelelő karbantartás és kalibrálás nélkül nem adnak megfelelő eredményt. Legalább négy kritikus terület van, ahol hibák jelentkezhetnek: 1
szín egységesség
2
szín hitelesség
3
rész-kép összeillesztés [angolul “Stitch” = kb. (össze)öltés]
4
méretpontosság
5.4.3.4.1. Szín egységesség A legtöbb széles formátumú szkenner 3-4 kamerát (CCD szkennerek) vagy kontakt képérzékelő tömböket (CIS szkennerek) használ a nagyméretű dokumentumok szkenneléséhez. Mivel minden egyes kamera vagy érzékelő tömb kicsit különbözik a többitől, ezért nincs olyan berendezés, amely teljes szélességében tökéletesen egységes lenne. Ráadásul a berendezés belsejében fellépő, a megvilágítási rendszer okozta csekély hőmérsékletkülönbségek is eltéréseket okoznak az egyes érzékelők teljesítményében. Ennek kiküszöbölésére a szkennereket ellátják valamilyen kalibráló vagy beállító programmal, ami normalizálja a szkenner színreprezentációját, illetve beállítja a fehéregyensúlyt. Ez a program kiméri a belső eltéréseket és annak megfelelően korrigálja a soron következő szkennelések outputját. Szintén ez biztosítja, hogy a szkennelt objektum fehér felületei az eredményfájlban is megbízhatóan fehérek legyenek, mentesek a rájuk eső fény elszínező hatásától. Ez a normalizáló processzus pár percig tart, és egy erre a célra rendszeresített kalibrációs mintalap, vagy a szkennerbe beépített fehér műanyag lemez, esetleg egy teljes szélességű fehér papírcsík beszkennelését jelenti.
- 150 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.3.4.2. Szín hitelesség Mint korábban már láttuk, a különböző eszközök színreprezentációja eltérő metódusok szerint történik. Ahhoz, hogy a teljes digitalizálási folyamat egyes lépései során hiteles színinformáció átadás történhessen – hogy a “piros” minden részt vevő eszközön “piros” maradjon –, valamilyen ismert színösszetevőkből álló mintához szokták hasonlítani a konkrét színeket, és ha eltérés van, ennek alapján, ehhez képest lehet a színeket korrigálni. Kaphatók olyan színprofilok, amelyek a fehértől a feketéig, a szürke árnyalataitól egy sor különböző színig tartalmaz foltokat. Ennek a beszkennelése az eszköz kalibráló programjával egy olyan színprofilt hoz létre, amely az eszközre jellemzően megadja az elméleti színektől való eltéréseket a spektrum teljes tartományában, így az eszköz az outputban eszerint korrigálja a tónusokat.
5.4.3.4.3. Rész-kép összeillesztés A különböző kamerák vagy szenzor-tömbök által szkennelt rész-képek összeillesztésének hibáit nevezi a szakirodalom “stitching error”-nak, a következőkben mi nevezzük ezt összeillesztési hibának. Ezek megjelenésének két fő oka lehet: a kamerák vagy érzékelők eltolódása, “illesztetlensége”, illetve a dokumentum transzportjának hibája a szkennelés során.
- 151 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Hogy a kamerák vagy a szenzorok nem illeszkednek megfelelően, annak legtöbbször a szkenner mozgatása, meglökése folytán vagy a hőmérsékletkülönbség miatt előálló minimális belső mechanikai torzulás az oka. Mindkét típusú szkennerben előfordulhat (CIS és CCD), de a CCD eszközök sokkal érzékenyebbek rá a megvilágítás módja és az optikai elemek nagyító hatása miatt. Erre a hibára való kalibrálás történhet hajszálvékony vízszintes és függőleges vonalakat tartalmazó kalibráló mintaábra, vagy hasonló funkciójú, az eszközbe beépített elemek révén. Amennyiben a dokumentum transzportban van a hiba, pl. nem simán, egyenletesen halad a térkép a szkennelés során, vagy a vezető görgősor nem szorítja oda kellően az üveglaphoz, akkor szintén illesztési hibák jelentkezhetnek. A gyártók igyekeznek olyan papírtovábbító mechanizmusokat alkalmazni, amelyek minimalizálják az ilyen hibák valószínűségét.
5.4.3.4.4. Méretpontosság Az összeillesztési hibák is nyilvánvalóan rontják a téri pontosságot, de ezeken kívül más tényezők is befolyásolhatják azt. Oldal irányban például a használt lencsék szférikus optikai torzítása okozhat eltérést az egy kamera szélein és közepén szkennelt, különben azonos méretű elemek digitalizált méretében. A kalibrálás során, ismert méretű elemeket beszkennelve meg lehet mérni az esetleges torzításokat, és ezekkel korrigálni a soron következő szkennelések eredményét. A hosszirányban való pontosság a szkenner motorsebességének, illetve annak precíz szabályozhatóságának a függvénye. A dokumentum haladási sebessége kissé eltérhet a különböző anyagú hordozóknál, illetve ahogy fokozatosan elhasználódnak a továbbító görgők, azok is deformálódhatnak, átmérőjük megváltozik, ezzel a precíz haladási sebesség is módosul. Ezen a motor sebességének finom állításával, illetve a görgők cseréjével segíthetünk.
5.4.3.5. Karbantartás A berendezés rendszeres karbantartása meghosszabbítja a nagy értékű eszköz élettartamát, és szavatolja az egyenletes, megbízhatóan jó minőségű outputot. Három alapvető tevékenységtípussal jár: ●
tisztítás
●
kalibrálás és kameraigazítás
●
alkatrész csere
5.4.3.5.1. Tisztítás A levéltári dokumentumok szkennelése általában meglehetősen sok piszokkal jár: a régi iratokon összegyűlt por, a morzsolódó papírfoszlányok nagy terhelést jelentenek ebből a szempontból a munkakörnyezetnek és a berendezéseknek egyaránt (még ha igyekszünk gondosan portalanítani is a munka előtt őket). A finom törmelék, por nem csak az eszköz külső felületein telepszik meg, hanem hajlamos minden lehetséges résen behatolni. Mivel ennél az eszköztípusnál a szkennelés során az eredeti dokumentum végig súrlódik a szkenner üvegfelületével, érintkezik a görgőivel, így a szennyeződés kárt tehet az eredetiben, megjelenhet a digitalizá- 152 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
lás eredményén, elrontja a színhűséget és elhasználja, esetleg tönkre is teheti a berendezést. Nagyon fontos ezért a rendszeres tisztítás, kívül és belül egyaránt.
5.4.3.5.2. Kalibrálás Futtassuk le naponta és igény szerint a karbantartó programot, ez gondoskodik a kalibrálásról és a kamerák beigazításáról. Nem kell mást tennünk, csak bekapcsolni a szkennert, megvárni a bemelegedési időt, majd elindítani a szkenner meghajtó programjával együtt telepített karbantartót! Amikor a program kéri, helyezzük be a szabványos kalibrációs lapot. A tisztítást mindig kössük össze a kalibrálással: a tisztítás megköveteli az újrakalibrálást, és a kalibrálás csak a szkenner megtisztított állapotában ad kielégítő eredményt. Folyamatosan ellenőrizni kell a létrejött digitális állományokat, és ha gyanús szín-eltolódást észlelünk, tisztítani és újra kalibrálni kell, a hibás állományt pedig újradigitalizálni.
5.4.3.5.3. Alkatrész csere A legnagyobb körültekintés, tisztaság mellett is elhasználódnak a térképet továbbító görgők, megkarcolódik a szenzorokat védő üveglap. A komoly, ipari berendezéseken természetesen cserélhetők ezek, a folyamatos munkavégzés érdekében előre kell gondoskodni cserealkatrészekről. Különösen az üveg állapota kritikus, mivel a rajta lévő legapróbb sérülés, szennyeződés is mind felnagyítva megjelenik a digitális állományon is. Az alkatrészcsere szükségességére figyelmeztet a meghajtó programmal telepített rendszerfigyelő alkalmazás, de ha mi észreveszünk a minőséget károsan befolyásoló tényezőt, ettől függetlenül is cserélhetünk. Cserélendő alkatrészek: ●
üveglap
●
fehér háttérlap
●
lámpa
Alkatrész csere után újra kalibrálni kell az eszközt!
5.4.3.6. Szkennelés után A digitalizált képállományokat ellenőrizni kell, ha szükséges és lehetséges, korrigálni. Ezt célszerű még azelőtt megtenni, mielőtt az eredeti dokumentumokat visszacsomagolnánk és elpakolnánk őrzési helyükre. Ha a később kiderülő hibák miatt újra elő kell venni az anyagot, az újra számottevő idő és energia ráfordítást igényel, és nem tesz jót a gyakran nagyméretű, sérülékeny eredetiknek. A legfontosabb ellenőrzési szempontok: ●
Beszkenneltünk-e minden dokumentumot?
●
Az van-e a képen, aminek lennie kell?
Ha következetesen használtuk a fájlelnevezési rendszerünket, akkor egy sor durva ellenőrzést az állományok megnyitása nélkül, pusztán a fájlok számbavétele, a mappák valamilyen fájlkezelővel (pl. Total Commander) történő áttekintése révén elvégezhetünk. ●
Megfelelő-e a kép minősége? Színhűség, karcok, szakadások, egyéb torzulások, megcsúszás, kalibrációs hibák ellenőrzése.
●
Szükséges-e körülvágni, elforgatni az állományokat? Ha igen, egyedileg megnyitva kell ezt végrehajtani, avagy sok fájlt egységesen lehet módosítani valamilyen automatikus képfeldolgozó algoritmussal?
Ha az ellenőrzés kielégítő eredményt ad, illetve végrehajtottuk a szükséges korrekciókat, akkor az ellenőrzött állományokat archiválhatjuk, illetve előállíthatjuk a felhasználás céljának megfelelő felbontású, formátumú, tömörítésű digitális kópiákat. - 153 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A digitalizált térképállományokat egyszerű képként tanulmányozva is számos kiváló kutakodási lehetőséget biztosítanak. Ám a térképekben rejlő teljes funkcionalitás akkor tud igazán kibontakozni, ha georeferálással bármely térképpel összevethetővé tesszük. Lehetőség van ezáltal egyrészt különböző idősíkok térképeinek egymásra vetítésére, szinkronizált tanulmányozására, másrészt a különböző szelvényeken ábrázolt szomszédos területek összeillesztésére, melynek révén nagyobb területegységek kezelhetők egyben, harmadrészt a térkép egyes pontjaihoz, objektumaihoz más, külső forrásból, adatbázisból származó információkat (pl. névtér adatokat) rendelhetünk. A hatalmas méretű térkép-mozaikok gyors megjelenítéséhez speciális képformátum szükséges. Az egyik jól bevált ilyen formátum az ECW (Enhanced Compression Wavelet). Ez egy szabadalmaztatott, tömörített képformátum, amit a légi és műholdas felvételek kezelésére optimalizáltak. Tartalmazza a GIS programoknak szükséges korrekt geoinformatikai információkat (vetületi rendszer, koordináták), a veszteséges tömörítési formátum hatékonyan csökkenti a nagyon nagy területű képek méretét is, megőrizve ugyanakkor a finom kontrasztot, részleteket. Ezzel a megoldással még az interneten is villámgyorsan lehet megjeleníteni nagyméretű képeket.
5.4.4. Mikrofilm szkenner A mikrofilm készítés technikájával, eszközeivel jelen tanulmány nem foglalkozik, alább éppen csak röviden áttekintjük a médiumról szóló legalapvetőbb információkat. A mikrofilm az eredeti dokumentumokról optikai (analóg) kicsinyítéssel, fototechnikai módszerrel, hagyományos fotokémiai hordozóra készült monokróm (szürke árnyalatos) másolat. Mikrofilm esetén az egyes oldalak felvételei egy 16 vagy 35 mm széles filmen követik egymást (egy tekercsen maximum 2400, ill. 600 felvétel), míg az ún. microfiche hordozó esetén egy betokozott, A6-os méretű síkfilmen, mátrix elrendezésben helyezkednek el az egyes felvételek, amelyek lehetnek negatív vagy pozitív kópiák. A technika a 20. század első évtizedeitől terjedt el, amerikai és európai közgyűjtemények széles körben kezdték használni tervek, könyv-, kézirat-, újságoldalak millióinak megőrzésére, és az azóta eltelt évtizedekben a dokumentumarchiválás minden területén széles teret nyert a könyvtáraktól a levéltárakig, a lap- és könyvkiadóktól a tervezőintézeteken át az akadémiai szféráig. A digitális korszak előtt ez volt a legjobban bevált eszköz nagymennyiségű dokumentum könnyű hozzáférhetőségének biztosítására. Lehetővé tette, hogy az eredetik sérülésének veszélye nélkül újságokat, kéziratok, hatalmas iratmennyiséget lehessen széles körben tanulmányozni, a papírmásolatnál sokkal kisebb helyen, olcsóbban tárolni. A jó minőségű, helyesen feldolgozott ezüst-halogenid hordozó megfelelő körülmények között tárolva akár 500 évig megőrzi információtartalmát. Az analóg leképezés miatt az eredeti adatok visszanyeréséhez egyszerűen csak nagyítani kell, nem szükséges különleges átalakító eljárás, szoftver hozzá, így nincs kitéve azok elavulásából adódó veszélyeknek. A mikrofilmet valószínűleg évszázadok múlva is el lehet majd olvasni. Ugyanakkor szabad szemmel nem lehet olvasni őket, speciális olvasókészüléket igényelnek. A lényegileg bitónusos, fekete-fehér információt rögzítő technológia fotók, gazdag árnyalattartományú képek esetén nem ad túl jó eredményt ilyen kis méretben, és az analóg másolatkészítés is generációs adatvesztést eredményez. A színes mikrofilm technológia nem terjedt el, mivel nagyon drága, és a hosszú távú megőrzésre kevéssé alkalmas a színek idővel történő degradációja miatt. A filmkészítés fontos paramétere a kicsinyítés pontos aránya, ennek ismeretében lehet a nyomtatás vagy a digitalizálás során a precíz eredeti méretet visszanyerni. A komolyabb mikrofilmező készülékek képesek az egyes felvételeket a filmen elhelyezett optikai markerek (“blip” kódok) segítségével tagolni, ami a későbbi feldolgozás során azonosítja az egyes kereteket, illetve akár nagyobb tartalmi egységeket is. Léteznek ma már számítógéppel összekötött, onnan digitális állományt fogadni, azt mikrofilmre kiírni képes berendezések is. A mikrofilm digitalizálás ún. mikrofilm szkenneren történik. Az ilyen eszköznek biztosítania kell a filmkockák pozícionálását, gyors továbbítását, megfelelő fényerejű átvilágítását. Általában egy CCD tömb érzékeli a precíziós motor által folyamatosan mozgó film átvilágítása révén előálló fényt, majd azt a megfelelő AD - 154 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
átalakító elektronika 8 bites színmélységű szürkeárnyalatos képállománnyá formálja. Ebből állítja azután elő a szkenner kezelőszoftvere opcionális szűrés, vágás után a kívánalmaknak megfelelő formátumú képfájlokat. A megfelelő számítógéphez csatlakoztatott korszerű berendezések nagy sebességgel képesek a folyamatos digitalizálásra különböző szélességű filmek esetén is.
Előkészítésül elő kell venni őrzési helyéről a filmeket, át kell tanulmányozni a felvételezéskor létrejött technikai leírást, ami egy sor előzetes információt tartalmaz a tekercsről: kicsinyítési arány, felvételszám, a tartalmazott anyag leírása, azonosítói, esetleges leírásra való hivatkozás, felvételi körülmények, ismert hibák, stb. Ha nincs elég hosszú filmrész az első érvényes kocka előtt a megfelelő befűzéshez, akkor azt elé kell ragasztani ragasztás. Ha szükséges – az intézmény állományvédelmi szabályzatának megfelelő módon – portalanítani kell a filmet, majd befűzni, és pár tucat kockányi próbafelvételt készíteni. Egyrészt találhatunk az első dokumentumkocka előtt néhány információs oldalt, ami további felvilágosítást ad a felvétel specifikumairól, másrészt nagyjából beállíthatjuk a próba alapján a keretérzékelés és a képkorrekció paramétereit. Ezután a beállított visszanagyítási faktornak, a kívánt kimeneti felbontásnak megfelelően “nyersen” beszkenneljük a teljes tekercset. Az így keletkezett digitális állomány mint azonos hosszúságú darabokra szabdalt egyetlen virtuális filmcsík jelenik meg. Ezen a filmcsíkon a kezelőprogram az érzékelt “blip” jeleknek, a beállított méretnek megfelelően definiálja az egyes felvételek kockáit, “kivágatait”. Mód van az automatikus keretérzékelés paramétereit módosítani, a létrejött kereteket manuálisan korrigálni. Egy sor tónuskorrekciós lehetőséget érvényesíthetünk egyes vagy akár az összes keretre (fényerő, kontraszt, gamma érték). A beállítások eredményét a teljes felbontású eredeti nyers képpel együtt létrehozott kis felbontású nézőképen azonnal láthatjuk is. Az összes beállítás, módosítás paramétereit egy külön szövegfájlban tárolja a program, és csak a megfelelő parancs kiadása után hajtja azokat végre az exportált eredményfájlok létrehozásával. Az eredeti állomány érintetlen marad, így később bármikor lehetőség van más paraméterek szerint, más képformátukban újabb exportálásokat végrehajtani. A nyers képadatok meglehetősen nagy helyet foglalnak el, így ha eljutottunk a megfelelőnek ítélt kimeneti állományokhoz, érdemes őket letörölni a munkaállomásról, vagy esetleg archiválni őket, de csak akkor, ha már ellenőriztük az állományt! A legtöbb manuális munkát az automatikus keretérzékelés hibáinak kijavítása jelenti. Az egyes keretek pozícióját a “blip” infó, a megadott legkisebb és legnagyobb keretméret és követési köz, valamint a fekete háttér és az irat világosabb tónusa közötti kontraszt érzékelése együttesen határozzák meg. - 155 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Ha a felvétel fekete háttéren történt, a filmtovábbításban, az eredeti pozícionálásában nem történt hiba és az oldalak egyforma méretűek, akkor az automatikus érzékelés elméletileg hibátlan eredményt ad: minden egyes felvétel korrekt azonosítása megtörténik. Ha azonban pl. fehér háttér előtt történt a felvétel készítése, vagy a fentiekben hiba van, illetve nem megfelelően állítottuk be a paramétereket, akkor egyes keretek “öszszeragadnak”, mások esetleg kimaradnak, vagy több darabra vágódnak, esetleg eltérő méretűek lesznek, vagy akár a dokumentumlap szélén jelentkező árnyékot is keretszélnek érzékeli a program. Ha általános, sok keretet érint a dolog, akkor a beállítások finomításával segítsünk rajta! Ha csak néhány kereten kell módosítanunk, akkor a keretek megragadható füleit mozgatva tetszőlegesen beállíthatjuk a megfelelő kivágatot. Ugyan egy sor funkció támogatja ezt a munkát, azért ez egy több ezer felvételt tartalmazó tekercsnél még így is meglehetősen időigényes tevékenység. Ha a felvétel tartalmazott következetesen használt “blip” jeleket, és ahhoz előzetesen sikerült megfelelő fájlelnevezési rendszert kialakítanunk, akkor a létrejött állományok elnevezése megfelel a célzott archiválási, publikálási céloknak. Ha nem, akkor utólag kell tömegesen átneveznünk őket, ami szintén meglehetősen munkaigényes feladat. Mindenesetre ezenközben az előállott digitális állományokat a szokásos módon, minőségi szempontok szerint ellenőrizhetjük is. Ha olyan hibát találunk, ami a képfájlokon nem javítható, akkor újra kell szkennelnünk a tekercset. A digitalizálás végeztével vissza kell csévéltetni a szkennerrel a tekercset az eredeti tároló dobjára.
5.4.5. Digitális fényképezőgép 5.4.5.1. Bevezetés Az elmúlt évtizedben a fotoelektronika, a digitális képalkotás, miniatürizálás hatalmas fejlődésének köszönhetően olyan eszközök születtek, amelyek elérhető áron teszik hozzáférhetővé a nagyfelbontású, jó minőségű digitalizáló eszközöket, akár a kommerciális, hétköznapi használatra szánt termékekben is. Egy mai egyszerű telefon kamerája nagyobb felbontású képet tud készíteni, mint a közelmúlt sokmilliós csúcskategóriás készülékei. Az érzékelő lapkák fejlődésével egyre nagyobb felbontás válik elérhetővé, de a geometriai torzítástól mentes, megbízható, jó színreprezentációs képességű, nagy denzitású optikai elemek ugyanakkor továbbra is csak a felsőkategóriás készülékekben elérhetőek. A legegyszerűbb, kompakt eszközök kisméretű, fix gyújtótávolságú, fixen beépített lencséket és fizikailag kisméretű, a hagyományos 35 mm-es filmnél 4-6 x kisebb érzékelő lapkákat használnak (minél nagyobb az érzékelő mérete, annál több fény eshet rá és annál kevesebb zaj keletkezik rajta). Ezen eszközök igen olcsók, de fényérzékenységük kicsi, képük optikai zajjal, geometriai torzításokkal, szín aberrációkkal terhelt, objek- 156 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
tívjük nem cserélhető. Tudásuk folyamatosan fejlődik ugyan, de komolyabb digitalizálási munkára nem alkalmasak. A dSLR (digital Single Lens Reflex, digitális tükörreflexes) gépek már nagyobb méretű érzékelő lapkával rendelkeznek: ma tipikusan 1,5-2 x kisebbek (APS méret: 22 x 15 mm) a 35 mm-es film méreténél, de már megjelentek ebben a kategóriában is az első teljes méretű (full frame) érzékelővel rendelkező gépek. Precíz manuális optikai beállítási lehetőségeket tesznek lehetővé, masszív vázuk állványra rögzíthető, objektívjük cserélhető, zárszerkezetük ipari igénybevételre méretezett. Távkioldóval, számítógéppel vezérelhetők, veszteségesen tömörített JPEG mellett igény szerint veszteségmentes RAW fájlt is képesek rögzíteni, az adatokat közvetlenül a komputerre továbbíthatják. A piacon lévő gépek felbontása, ár/érték aránya folyamatosan nő, ez a kategória lehet a leggyakrabban használt kamera a közgyűjteményi digitalizálásban (pl. ilyen gépek dolgoznak a robotszkennerekben is, lásd ott). Alább ezért részletesebben is szólunk használatukról. A digitális fotózáshoz kapcsolódó szoftverek is folyamatosan fejlődnek, itt most csak egy területet említenénk meg: ma már egészen kiváló eredményt produkálnak azok a programok, amik az egy témáról készült számos rész-kép mozaikját egyetlen állományba egyesítik. Jó példája ennek a Google Art projektje (http://www.googleartproject.com), amelyben egy sor kisebb és nagyobb múzeum rengeteg műalkotását digitalizálták nagy felbontásban ezzel a módszerrel. A Google Street View során használt, 360°-ban körbe fotózó, panorámaképet készítő fényképező eszköz beltéri verziójával végigfotóztak számos nagy galériát, majd a pozíció- és látószög-adatok segítségével korrigálva a perspektivikus torzulást, összefűzték a részképeket. Az eredmény lenyűgöző. Egy másik eszköz arra képes, hogy a panoráma-fotózással egyidejűleg egy lézeres letapogató rendszerrel a környezet 3D modelljét rögzíti, majd erre a háromdimenziós vázra képes “ráhúzni” a nagyfelbontású digitális fotókat (Egy példa a közelmúltból: http://szime3dar.com/projekt/gyordunakapu-ter). Olyan objektumok digitalizálása válik így lehetővé (akár egész épületek, tárgyak, utcák, terek), amikre korábban gondolni sem lehetett.
5.4.5.2. Digitális hátfalak Egy másik kategóriát képviselnek a közép- (6x6 vagy 6x9 cm) és nagyformátumú (102x127 mm vagy nagyobb) gépek. Ezek a hagyományos (nem digitális, filmes) fotótechnikában már régóta jelen vannak (a kezdetekben a mainál jóval nagyobb filmeket, lemezeket használtak), ám mára már fényérzékeny anyagok fejlődése miatt gyakorlatilag csak a csúcskategóriájú stúdiófotózásban, légi- és űrfotózásban, tudományos vizsgálatokban maradtak piacon. Minden olyan szituációban használják őket, ahol részlet gazdag képre, nagy nagyítási arányra, részletek felnagyítására lehet szükség. Legfontosabb különbségük a kisformátumhoz képest a jelentősen nagyobb felbontás, akár filmes, akár digitális eszközökre gondolunk. (A nagyformátumú kameráknak a szerkezete is eltér némiképpen a tükörreflexes gépekétől, a digitális világban nem terjedtek el, ezekkel most nem foglalkozunk). A legismertebb gyártók ezen a területen a Mamiya, a Hasselblad és mindenek előtt a Phase One. Már a filmes időszakban általánossá vált a filmtekercset tartalmazó, cserélhető hátfal, kazetta alkalmazása. Később a digitális érzékelők is ilyen hátfalba kerültek, ezeket nevezzük digitális hátfalnak. A dSLR gépekkel szemben (ahol az objektív cserélhető, de az érzékelő fix) a digitális középformátumú gépeknél tovább fokozódott a modularitás: ezeknél már három különálló egységből tevődik össze a gép: az alapot maga a váz alkotja, ennek elülső foglalatára illeszkedik a cserélhető objektív, hátuljára pedig a szintén cserélhető hátfal, akár hagyományos filmes, akár digitális. A digitális hátfal általában az elkészült felvétel megjelenítésére szolgáló monitort is tartalmazza. A különböző gyártók középformátumú gépeihez különböző típusú hátfalak illeszthetők, így a már meglevő rendszereket ki lehet egészíteni a (meglehetősen költséges) digitális hátfallal, nem kell az összes optikai eszközt kicserélni hozzá. A digitális hátfalak gyártásában fokozatosan vezető szerepre tett szert a dán Phase One. Hátfalait szinte minden számottevő középformátumú géphez lehet illeszteni. Jelenlegi hátfal-kínálatának csúcsa az érintőképernyős kijelzőt is tartalmazó IQ180 modell, ami a világ első full frames 80 megapixel felbontású digitális hátfala. Érzékelője 53,7 x 40,4 milliméter, és 1 képet képes rögzíteni másodpercenként, a számítógéphez nagysebességű USB 3.0 vagy FireWire felületen csatlakozik, ezáltal biztosított a folyamatos adattovábbítás. Ára közel 10 millió forint. Ehhez jön még egy kb. 1,5 millió forintos alapgép (váz), meg egy hozzá illő profi objektív (500 ezer forint), - 157 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
lámpák, állvány, feldolgozó számítógép munkaállomás, szoftver (még 1 millió). Tehát egy ilyen eszközön alapuló digitalizáló munkahely kialakítása nagyjából 12-13 millió forint. Vannak persze kisebb felbontású, olcsóbb digitális hátfalak is, pl. egy 30 megapixeles Phase One P30+ ára “csak” 2,5 millió forint, vagy időnként lehet komplett kitet (objektív+váz+hátfal) akciós áron beszerezni, ez esetben csökkennek a beruházási költségek. A nyereség viszont az a nagyfelbontású, nagyméretű, színenként 16 bites érzékelőnek köszönhető egyedülálló részletgazdagság, hatalmas dinamikatartomány (több részlet rögzítésének képessége egyszerre a világos és a sötét részeken), zajmentes kép, amit a dSLR kategóriájú gépek (egyelőre) nem képesek produkálni. Ha a levéltárakban talán kevésbé is, de más közgyűjteményekben (múzeum, könyvtár) szép számmal lehetnek olyan objektumok, műtárgyak, amik felvételezésében a digitális hátfallal felszerelt középformátumú kamera a megfelelő eszköz.
5.4.5.3. Szkennelő digitális hátfalú kamerák Egy másik megoldást alkalmaznak a szkennelő digitális hátfalú kamerák. A fentebb ismertetett eszközökben az érzékelő elemek egy mátrixba rendeződve egyszerre rögzítik az objektíven keresztül rájuk eső teljes képet, míg ezen kamerákban az érzékelők egyetlen függőleges sorban vannak elhelyezve (trilineáris CCD), és a felvétel úgy készül, hogy ez a tömb vízszintesen végighalad a hátfalra vetülő képen, és a síkágyas szkennerekhez hasonlóan mintegy beszkenneli azt. Ezzel a módszerrel hatalmas felbontás érhető el: már évekkel ezelőtt 100 megapixeles kamerát dobott piacra a német Pentacon (Pentacon Scan 5000, 8192 x 12000 pixel), vagy 2000-ben a Phase One (PowerPhase FX+, 12600 x 10500 pixel, 132 megapixel). A mai legnagyobb felbontású eszköz a Pentacon Scan7000 400 megapixeles (20000x20000 pixel) felbontású, színenként 14 bites mélységű. Még térképszkennerben sem digitalizálható méretű, bekeretezett, vagy helyéről el nem mozdítható (pl. egy freskó, épület) eredetik szkennelése lehetséges vele. Nagy hátránya viszont a számottevő ideig tartó felvételezés: egy-egy kép elkészítése akár egy percig is tarthat. Ez nem pusztán a termelékenység miatt jelent problémát, hanem a képminőséget illetően is: a mechanikai rezgések, a megvilágítás minimális ingadozásai számottevő zajként jelentkezhetnek a felvételen. Pl. egy épület emeletén végzett digitalizálás során a ház előtt elhaladó gépjármű okozta rezgés érzékelhetően rontja a kép élességét. Mivel vaku nem használható, az eredetik korrekt bevilágítása is gondot okozhat. A digitális hátfalak, a dSLR kamerák fejlődése, felbontásuk növekedése, valamint a részképek precíz, automatikus összeillesztésére szolgáló programok kifejlesztése együttesen a hatalmas felbontást igénylő szituációkban is visszaszorítják a szkennelő digitális hátfalú gépek használatát.
- 158 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.5.4. Digitális tükörreflexes kamerák A dSLR kamerák a profi, félprofi fényképezés területén hihetetlen karriert futottak be az elmúlt évtizedben. Kényelmes használatuk, rendkívüli sokoldalúságuk, a cserélhető objektívek nagy választéka, az egyre növekvő felbontással párosuló képminőségük, kiváló ár/érték arányuk immár a legigényesebb hivatásos fotósok kívánalmainak is megfelel. Önálló eszközként és pl. nagyteljesítményű robotszkennerbe beépítve jól használható a levéltári digitalizálás minden olyan területén, ahol állóképeket kell készíteni.
5.4.5.4.1. Működési elvek A fény elemi érzékelését a három alapszínre érzékeny analóg félvezető alkatrészekből álló egységek végzik, melyeken a beeső fény intenzitásával arányos mennyiségű töltés keletkezik. Ezeket az áramokat különböző elektronikák közreműködésével feldolgozzák, bizonyos felbontással (8 vagy 16 bit) digitalizálják, és ez az adathalmaz adja a digitális képinformációt. Napjaink DSLR gépeiben két érzékelő típust használnak: a CCD és a CMOS szenzort. Azonos fizikai alapelv szerint működnek, csak a felépítésükben, elektronikájukban van különbség. A CMOS egyszerűbb szerkezetű, olcsóbban előállítható, kisebb áramfogyasztású, és mivel ma már lényegében azonos minőséget produkálnak, az utóbbi időben inkább ez látszik elterjedni.
- 159 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A föntebbi ábrán egy valóságos gép keresztmetszete, alatta a digitális tükörreflexes gépek működésének leegyszerűsített sémája látható. A névadó elem, ami megkülönbözteti a más típusú kameráktól, az az exponáláskor felcsapódó tükör. Ez teszi lehetővé, hogy ugyanazt a képet láthassuk a keresőben, mint amit a szenzor rögzíteni fog. A gyors és precíz autófókusz, a tipikus fényképezési szituációkhoz optimalizált automata programok az amatőrök számára is megadják a sokoldalú, magas színvonalú fotózás lehetőségét. A teljes körű manuális beállítási opciók (rekesz, zársebesség, fókusz, stb.) ugyanakkor a profik kreatív lehetőségeit szinte végtelenre növelik.
5.4.5.4.2. Használatuk a levéltári digitalizálásban A levéltári digitalizálásban nagyon sokoldalúan használhatóak a digitális kamerák. Néhány fontos kiegészítő használatával szinte minden hordozótípus, szituáció megoldható velük: háromdimenziós objektumok (pl. függő pecsétek, egyéb tárgyak) könyvoldalak, íratok, oklevelek, térképek. Ami behatárolja a használatot, az igazából csak a méret és a szükséges felbontás: egy adott felbontású kamerával csak egy meghatározott mérettartományban lévő tárgyat lehet megfelelő felbontásban felvételezni. A használható objektívek optikai tulajdonságaiból adódik egy látószög-tartomány, amelyben a fényképezőgép dolgozni képes. Bizonyos határon túl nem növelhető a látószög jelentős optikai torzítás nélkül, illetve a másik oldalról a látószög csökkenésével nő a korrekt élességállításhoz szükséges fókusztávolság és értelemszerűen csökken az átfogható méret. Mivel digitalizálás esetén általánosságban minimum 300 dpi az elvárt felbontás, mindezek a geometriai viszonyok behatárolják a használhatósági tartományt. A pixelszám, optikai felbontás mértékegységeként a MP-t (megapixelt) szokás használni, ami azt adja meg, hány elemi fényérzékeny elemet tartalmaz az érzékelő lapka (sorok és oszlopok pixelszámának szorzata, millióval osztva). Tehát ha azt látjuk pl., hogy egy gép, vagy egy kép felbontása 20 MP, az azt jelenti, hogy (kerekítve) 20 millió képpontot tartalmaz. Kisebb különbség lehet az érzékelő névlegesen megadott pixelszáma és a valójában elkészíthető legnagyobb felbontású kép pixelszámában: a gyártók marketing szempontokból gyakran inkább az előző, valamivel nagyobb számot emelik ki. A nagyobb felbontás nem jelent jobb képminőséget, csak nagyobb fájlméretet. Egy adott méretű érzékelő lapkán minél több képpont van, annál kisebb az elemek felülete (tehát annál kevesebb fény jut rájuk), és annál közelebb vannak egymáshoz. Mindez fokozódó képzajt eredményez. Olyan minimális felbontású gépet - 160 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
érdemes ezért választani, ami még éppen kielégíti a digitalizálandó objektumok méretéből, a felhasználás céljából adódó felbontás igényt. A mai korszerű dSLR gépek jellemzően 16-20 MP felbontásúak (létezik már 36 megapixeles, teljes méretű, 36 x 24 mm-es érzékelővel rendelkező gép is), a képek oldalaránya általában 3:2. Egy 20 megapixeles gép képmérete 3680 x 5520 pixel (sor x oszlop). A 300 dpi felbontás azt jelenti, hogy 300 képpont (dot, pixel) esik 1 hüvelykre, azaz 2,54 cm-re. A 3680 x 5520 pixel ezzel a felbontással 31,2 cm x 46,7 cm méretű objektumhoz “elég”, azaz kis ráhagyással egy A3 méretű iratot lehet a gépünkkel digitalizálni (a mai legnagyobb felbontású dSLR géppel pedig kb. A2-eset). Ügyelni kell arra, hogy a papírdokumentumok világában elterjedt szabványos méretek oldalaránya (a “B”-s és “A”-s méretek) nem egyezik meg a fotótechnika megszokott 3:2-es oldalarányával, így felvételezendő dokumentumunk semmiképpen nem fogja tudni “hús” nélkül kitölteni a rendelkezésre álló teret. Olyan objektívet kell választanunk, amelynek látószöge, mélységélessége, fényérzékenysége megfelel a digitalizálási szituációnak: a rendelkezésünkre álló megvilágítás fényerejét figyelembe véve át tudja fogni a fotózandó objektumot. Ha túl kicsi a látószöge, akkor esetleg olyan messze kellene a gépet elhelyeznünk a tárgytól, hogy nem tudjuk kellően bevilágítani azt, illetve nem elég hosszú az állványunk. A nem kellően jó fényerejű objektív esetleg hosszabb záridőt kíván, vagy az ISO fényérzékenység növelését (az analóg filmes időszakban ez a paraméter a befűzött film sajátsága volt, ma már ez is elektronikusan állítható: az elemi fényérzékelőkön keletkező, a beeső fotonok mennyiségével arányos feszültséget lehet erősíteni), amelyek zajosodást, életlenedést eredményezhetnek. Egy nem tökéletesen síkban lévő objektum fotózásakor (pecsét, érme, kunkorodó pergamen-oklevél, a gerincnél behajló könyvoldalak), vagy ha apró tárgyat akarunk fényképezni nagy felbontásban, akkor szükséges valamelyes mélységélesség, hogy a különböző távolságra lévő részletek is élesek lehessenek. Minél kisebb a zár nyílása (a blende), annál nagyobb a mélységélesség, viszont annál kevesebb fény jut a gép belsejébe. Ezt hosszabb záridővel kompenzálhatjuk, de ez meg az élesség rovására mehet. Az emberi látás egy izgalmas tulajdonsága, hogy az ismert tárgyak színét eltérő megvilágítási körülmények között is képes azonosnak látni. Egy sima fehér papírlap színe objektíve más és más egy neonvilágítású szobában, déli vagy esti napfénynél vagy gyertyafénynél, mégis, minden körülmények között fehérnek látjuk. A látás idegi mechanizmusai gondoskodnak róla, hogy a környezet ilyen általános fényhatásait mintegy kivonják a tárgy látványából a konstans színérzet biztosításához. Egy kész fotót szemlélve azonban ez a kompenzáció nem működik: a sárga fényben készült felvételen a fehér papírlap bizony sárga lesz. Ennek kiküszöbölésére szolgál az ún. fehéregyensúly (WB = white balance) beállítása, amely vagy automatikusan, vagy előre megadott megvilágítási körülményekhez “belőtt” fix választékok formájában, esetleg valamilyen mérő, kalibráló módszerrel eltolja az eredménykép színegyensúlyát (színhőmérsékletnek is nevezik; a semleges fehér fény színhőmérséklete pl. kb. 5000-5500 °K.) a kívánt irányba. Ettől függetlenül, ha egy mód van rá, használjunk semleges fényű, konstans megvilágítást, vagy vakut. A levéltári digitalizálásnál a cél az eredeti írat, tárgy hű reprodukciója, színeinek és téri megjelenésének korrekt leképezése. A téri leképezéshez mérethelyes, torzulástól, bemozdulástól mentes képet kell készítenünk. Használjunk jó minőségű, fix gyújtótávolságú (nem zoom!), nagy fényerejű, a képszéleken sem torzító objektívet. Állítsunk be stabil reprodukciós állványt, amelyen az iratok vízszintes, centrális elhelyezése, a kamera fokozatmentes pozicionálása, az árnyék- és tükröződésmentes, kellő fényerejű megvilágítás biztosítható. A bemozdulások elkerülésére az expozícióhoz használjunk távkioldót vagy távirányítót. A folyamatos munkavégzés érdekében megfelelő adatkábellel kössük össze a kamerát a számítógépen futó vezérlőszoftverrel. Ez esetben nem csak a képfájlok folyamatos tárolása megoldott, hanem a fényképezőgép egy sor beállítását, az exponálást is végezhetjük a vezérlőprogramból. Az eredményfájl valós felbontásának meghatározásához fotózzunk be szabványos mérőlécet, vagy legalább egy vonalzót. Ha a színreprezentációt is rögzíteni akarjuk, készítsünk felvételt kalibrációs mintaábráról. A méret és szín kalibrációt végezzük el minden olyan esetben újra, amikor a felvételezés bármely paraméterén változtattunk (zoom, a kamera távolsága, megvilágí-
- 161 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
tás, fehéregyensúly, záridő és blende, stb.). Ha állományvédelmi okokból nem tehetjük ki az eredeti dokumentumot jelentősebb fényterhelésnek, akkor használjunk hidegfényű lámpákat. Jól látható, hogy a fotózás során egy sor tényezőt kell egyszerre figyelembe venni, optimalizálni, nincs egyetlen jó recept. Az elvileg jónak gondolt beállításokkal készítsünk próbafelvételeket, majd egyszerre csak egy paramétert változtatva, lépésenként korrigáljuk azokat a kívánt képminőség eléréséig!
5.4.5.4.3. Karbantartás A dSLR kamerák nagy igénybevételre tervezettek, masszív fém házuk strapabíró, és mivel használatuk során nem érintkeznek az eredetikkel, lényegében nincsenek cserélendő, karbantartást igénylő alkatrészeik. Egyetlen jelentősebb károsító tényező van, mégpedig a por. Objektívjük cserélhető, és éppen a csere rövid ideje alatt a legsérülékenyebbek: az éppen leszerelt objektív helyén por kerülhet a gép belsejébe, akár az érzékelőre is, meg az objektív lencséi is porosodhatnak, megkarcolódhatnak. Ezek a szennyeződések, sérülések azután az összes soron következő felvételen rajta lesznek. Vannak olyan gépházak, amikben az objektív eltávolításakor egy kis fedél óvja a gép belsőbb részeit, és némelyekben vannak különböző érzékelő tisztító megoldások: mechanikai, ultrahangos (létezik szoftveres megoldás is: valamilyen referenciaképhez képest elemzi a program a szennyeződések, porszemek által okozott, a különböző képeken ugyanott jelentkező foltokat, és ezeket szoftveresen, automatikusan kiretusálja). Manuálisan különböző erre a célra gyártott finom ecsetek, pumpák használatával lehet a port eltávolítani róluk. Vannak erre a célra készült vegyszerek, törlők is, de a drága gép belsejébe inkább ne nyúljunk, bízzuk inkább szakszervizre a dolgot. A lencséket is speciális törlőanyaggal, ecsettel és vegyszerrel tisztíthatjuk. A kamera mechanikus alkatrészei, főleg zárszerkezete többszázezer ciklusra méretezettek, ha valami elromlik, forduljunk a szakszervizhez.
5.4.6. Robotszkenner A digitalizálási eszköztár zászlóshajói napjainkban a különböző robotszkennerek, könyvszkennelő robotok. Közös jellemzőjük, hogy – a sima könyvszkennertől eltérően – minimális emberi beavatkozással, a lapozás valamilyen módszerrel történő automatizálásával képesek a könyvek szkennelésére anélkül, hogy a gerincünknél sérülékeny könyveket teljesen ki kellene nyitni. Vannak vákuumos, elektrosztatikus, mechanikus módszert használó gépek. A használatukkal kapcsolatban az a tapasztalat alakult ki, hogy a teljesen automatikus lapozó megoldások nem minden esetben használhatók hatékonyan: általában a kötetek első és utolsó pár tucat oldalánál, bizonyos papírtípusoknál manuális beavatkozást igényelnek, így viszont a gyárilag megadott digitalizálási tempónál jóval kisebb teljesítmény érhető el. Egy másik fontos gyakorlati tapasztalat, hogy az ék alakú leszorító üveg nélküli modellek (Kirtas, Treventus) nem képesek kisimítani a gyakran gyűrött, “ráncos” lapokat, így ezen esetekben a képminőség, és ennek következtében az OCR minősége elmarad az üveglapos megoldások színvonalától. Magát a felvételezést nagyteljesítményű professzionális digitális fényképezőgépek végzik, a két szembenéző könyvoldalt általában egyszerre. Az előző fejezetben a dSLR gépekkel kapcsolatban a digitális fotózásról leírtak itt is érvényesek, azokra nem térünk ki még egyszer. Egy-egy ilyen berendezés több tízmillió forint, beszerzése alapos mérlegelést igényel. A piacon számos cég kínál könyvszkennelésre valamilyen megoldást (http://www.bookscanners.biz), de ezek közül jelenleg háromnak vannak komoly referenciái a robotszkennerek területén.
5.4.6.1. Treventus A Treventus bécsi székhelyű cég ScanRobot 2.0 MDS eszköze vákuumos lapozó rendszert használ, a könyveket mindössze 60°-ban kell kinyitni a működéshez (60 és 100 fok között állítható). A rendszerhez kapcsolt síkágyas szkennerrel digitalizálhatók a borítólapok. 300 és 400 dpi optikai felbontással rendelkezik, 30 bites színmélység mellett. Maximum 2500 oldal/óra sebességet kínál (Az automatikus módra gyárilag megadott maximális érték; a valós teljesítmény a tapasztalatok szerint messze van ettől!). - 162 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.6.2. Kirtas A Kirtas amerikai cég KABIS III berendezése 2 Canon digitális fényképezőgépet használ a felvételezéshez (21,1 megapixel), ami a könyvmérettől és a használt objektívtől függően 325, 400, 500, 600 dpi optikai felbontást, 24 bites színmélységet biztosít és maximum 28x35 cm-es oldalméretet. Mintegy 110°-os kinyitási szöget kíván, szintén kíméletes vákuumos lapozó megoldást használ, maximum 2900 oldal/óra sebességgel. kínál (Csakúgy, mint az előzőleg ismertetett modellnél, ez az adat szintén az automatikus módra, gyárilag megadott maximális érték – a valós teljesítmény a tapasztalatok szerint messze van ettől!) Kezelőszoftverébe integrálva megadhatjuk a kívánt metaadatokat is.
- 163 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.6.3. Quidenus Ár/érték aránya, a viszonylag közeli (bécsi) szervizlehetőség miatt a Quidenus osztrák cég RBS (RBS = Robotic Book Scenner) Pro TT robotszkennerére esett a választásunk, az alábbiakban ezt a modellt mutatjuk be részletesebben.
Ezt az eszköztípust akkor érdemes használni, ha nagymennyiségű a digitalizálandó anyag, de nem szedhető lapokra és kíméletes bánásmódra van szükség. Segítségével még a régi, veszélyeztetett könyvritkaságok is biztonságosan szkennelhetők. A robotszkennerben csupán mintegy 90 fokban kell kihajtani a könyveket, azokat – megfelelő beállítás mellett – nem éri sem mechanikus, sem fényterhelés, ráadásul akár a működtető operátor, akár a bionikus ujjal ellátott lapozó kar segítségével folyamatos, gyors és nagyon kíméletes a lapozás is.
5.4.6.3.1. Az RBS Pro TT robotszkenner legfontosabb jellemzői Könyvszkennelő robot a minőségi nagytömegű digitalizáláshoz. Teljesen automata mód (2000 oldal/óra teljesítmény), manuális, félautomata mód (900 oldal/óra). Szabadalmaztatott lapozó megoldása a bionikus ujj. Gyökeresen új könyvtartó rendszer. Hatékony dupla-lapozás ellenőrzés. Kimeneti fájlformátumok: JPEG, JPEG2000, TIFF, TIFF G4, GIF, PDF, PDF layered OCR, XML, RAW. Színmélység: 24bit színes / 8bit szürke / 1bit fekete-fehér. A legújabb Canon DSLR kamerák használata, 300-400 dpi felbontás (CANON EOS 500D – 15.1 Mp = 300 dpi; EOS 5D Mark II – 21.1 Mp = 400 dpi). 2 csúcskategóriás PC fogadja és dolgozza fel a kamerák adatait. A borítólapok, a kötésből kiszakadt oldalak digitalizálása. QiSoft programcsomag: képfeldolgozás, minőségellenőrzés, formátum-konverzió, munkafolyamat irányítás, OCR, metaadatok. Asztali kivitel: viszonylag kompakt, hordozható, gazdaságos. Méretek: 70 cm x 100 cm x 120 cm, Súly: 65 kg
- 164 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A milliónyi beszkennelt oldal számos tapasztalattal gazdagította a felhasználókat. Az üzemszerű működtetéssel kapcsolatban az egyik legfontosabb, hogy a napi gyakorlatban, valós, ipari terhelés esetén a teljesen automatikus működésmóddal szemben a félautomata működés hatékonyabbnak bizonyult.
A Quidenus automatikus lapozó megoldása a bionikus ujj. Az emberi ujjbegyhez hasonló kiképzésű, tapadós gumiborítású, érzékeny, lézeres visszacsatolással kontrollált szervomechanizmus vezérletével dolgozik. Az olyan emberhez hasonlatos mozdulatot végez, aki, megnedvesítvén ujjhegyét, az összetapadt könyvlap sarkát “feltolja” kissé, hogy azután az így keletkező öblöcskébe dugva ujjait, lapozzon. A bionikus ujj feltolja a lapot a sarkánál, majd egy másik karocska becsusszan a résbe és áthajtja a lapot. A megbízható működés precíz beállításához számos próbát kell végezni, állítgatni a szoftveren, ami összességében néha annyi ideig tart, mint a fél könyv beszkennelése. A következő kötetnél meg gyakran lehet újra kezdeni az egészet.
- 165 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
- 166 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A félautomatikus mód esetén az operátor behelyezi a kötetet, lapoz, minden mást a berendezés magától végez: finoman beállítja a könyvtartót, a gerincközepet folyamatosan középre igazítja, érzékeli, mikor húzza vissza a kezét az operátor a lapozás után, exponál, majd vár a következő lapozásra. Ezzel a módszerrel óránként kb. 6-800 oldalt lehet digitalizálni.
5.4.6.3.2. A robotszkenner használata Az effektív digitalizálás megkezdése előtt itt is először magát az anyagot, a kötete(ke)t kell számba venni: méret, gerincvastagság, állapot, belső margók, vannak-e benne kiszakadt, kihajtható, a standard oldalméretnél nagyobb lapok, mellékletek, vannak-e benne olyan méretű oldalak, amik ezzel az eszközzel nem felvételezhetőek, milyen az oldalszámozási rendszer a kötetben. Ezután az RBS vezérlőszoftverében létre kell hozni a projekthez egy ún. JOB-ot, amely a digitalizálás összes paraméterét tartalmazza a felvételezés (fotókészítés) paramétereitől az utólagos feldolgozás paraméterezéséig. A kötet mérete, gerincvastagsága, belső margója, a lapok “simasága” figyelembevételével be kell állítani a könyvtartó mechanizmust: meg kell határozni a pozícióját, nyílásszögét, azt, hogy milyen erővel kell az oldalakat kisimító, felülről leereszkedő, ék alakú üveglapoknak a nyitott könyvhöz feszülniük a kellő kisimítás eléréséhez. A szoftver lelke egy SQL adatbázis, ebben tárolja a program a projekt előre megadott metaadatait, fájlelnevezési szabályait, a létrehozandó fájltípusok paramétereit, a mappák elérési útvonalait. A felvételezés során a kamerából a nyers RAW fájl kerül az adatbázisba, ahonnan azután a háttérben, párhuzamosan futó műveletek a JOB-ban megadott utasításoknak megfelelően feldolgozzák: kivágják, elforgatják, képjavító, tónuskorrekciós algoritmusokat futtatnak, elnevezik, a megfelelő formátumba konvertálják, mentik az eredményfájlokat. Az operátor a kezelőfelületen folyamatosan látja az éppen beszkennelt oldalpár képét, rajta a vágókeretekkel, így módja van közbeavatkozni, ha kell. A már lefutott és a még éppen feldolgozás alatt lévő JOB-ok a programban utólag is áttekinthetők, ellenőrizhetők, ha esetleg az exportált végeredményfájlokkal nem vagyunk elégedettek, más paraméterekkel újra futtathatjuk. A teljes nyers állomány meglehetősen nagy tárhelyet foglal, ha már leellenőriztük a végeredményt, érdemes kitörölni őket, de csak akkor! - 167 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A felvételezés történhet teljesen automatikus módban, ekkor a bionikus ujj segítségével maga a robot lapoz. Ehhez gondos beállítás szükséges (lásd fentebb). A félautomata módban az operátor lapoz, minden más automatikus, míg a manuális módban az operátor lapoz, ha kell, igazít, majd gombnyomásra történik az expozíció. Ez utóbbi talán kicsit lassabb az előző módszereknél, de ez adja a legbiztosabb kontrollt a végeredményt illetően. Ahogy halad előre egy vaskos kötet szkennelése, a könyvnyílás pozíciója – aminek a kamerákhoz képest centrális tengelyen kell lenniük – folyamatosan vándorol balról jobbra: a kezdetekben a baloldalon csak kevés oldal van, míg az utolsó oldalnál már az egész kötet a baloldalon van. Ez több centiméteres változást eredményez. Az RBS könyvtartó mechanizmusa automatikusan, folyamatosan “után szabályoz”, de ha valamiért ez nem sikerül tökéletesen, akkor a vágókeret pozíciója elcsúszik a beállított optimumhoz képest (valahol belevág a hasznos tartalomba, máshol meg fölös részeket vesz bele), vagy ha a felvételezett oldal síkja kicsúszik az objektív mélységélességi tartományából, akkor életlen felvétel keletkezhet, vagy esetleg az eltérő megvilágítás miatt a szemben lévő oldalak színe, színhőmérséklete eltérő lehet. Ha az operátor erre utaló jeleket fedez fel, korrigálhat, és a hibás oldalakat törölve azokat újra felvételezheti. A digitalizálás során előforduló leggyakoribb hibák egy részét az állomány átnevezése kapcsán kiszűrhetjük. Ezek a dupla lapozás, vagy amikor egy oldalpár kétszer is felvételezésre került. Az exportált állományneveket valamilyen alkalmas szoftverrel, fájlkezelővel (akár Total Commanderrel) érdemes olyan alakra hozni, hogy tükrözzék az eredeti oldalszámokat, így a lapozási hibák, illetve az eredetiben lévő oldalhiányok, elszámozási hibák nagy biztonsággal feltárhatók, korrigálhatók. Azt már nehezebb észrevenni, ha esetleg valamilyen eredetileg nem beszámozott melléklet, tábla hiányzik, vagy egy kihajtható lap nincs kihajtva. Ezeket teljes biztonsággal csak az eredeti kötet átlapozásával, vagy a digitalizált állomány alapos végignézésével szűrhetjük ki. Az olyan hibákat, mint a vágókeret elcsúszása, vagy a szemben lévő oldalak eltérése (színhűség, esetleg élesség szempontjából), szintén az alapos, szisztematikus ellenőrzés tárhatja fel. Néha ezeket észre lehet venni az adott mappa képeinek bélyegkép (thumbnail) nézetében is, érdemes mindenképpen ilyen módon is vetni egy pillantást minden folderre.
5.4.6.3.3. Karbantartás Az oldalakat szétválasztó, kisimító, ék alakban rögzített (összeragasztott) két üveglap találkozásánál van néhány milliméter, az üveglapok vastagságának megfelelő “vak” sáv, ami kimarad a felvételből. Az üvegnek ez az alsó területe – ha kíméletesen is, de – hozzáér az eredetihez, a rajta lévő por az üveget megkarcolja, ettől az “bemattul”, illetve tükröződik. Az üveglapokat időnként ki kell cserélni. Az üveglapot egyébként is rendszeresen tisztítani kell. Az RBS precíziós mechanikus alkatrészeket (tengelyek, csapágyak, szervo-motorok) tartalmaz, ezek megfelelő kenéséről, és mindenekelőtt a rendszeres portalanításról gondoskodni kell. A kamerák fényérzékelői hosszú idő után veszíthetnek érzékenységükből, ha erre gyanakszunk, új kamerákat kell a rendszerbe illesztenünk. A gyártó a megjelenő újabb kameratípusokhoz is készít meghajtó szoftvert, így esetleg nagyobb felbontású eszközre válthatunk az egész rendszer kicserélése nélkül. A megvilágításról gondoskodó hidegfényű csövek hosszú élettartamúak ugyan, de ha kiégnek, cserélni kell őket.
- 168 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.6.4. Atiz BookDrive Pro Egy érdekes és meglehetősen költséghatékony megoldás az Atiz cég BookDrive termékcsaládja.
Ez a megoldás lényegében megegyezik a robotszkennerek módszerével, leszámítva, hogy nem tartalmaz automatikus, robotikusan mozgatott elemeket, hanem az operátor kézzel működteti. Egy V-alakú könyvbölcső tartja a csak kb. 100°-ban kinyitott könyvet, az operátor erre ereszti le a V-alakú leszorító üveget, finoman szabályozhatja így a szükséges, de még nem károsító leszorító erőt. Lézeres érzékelő rendszer biztosítja a pontos fókuszbeállítást, LED lámpák gondoskodnak a megfelelő bevilágításról.
- 169 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Két csúcsminőségű (vagy igényeink szerinti) Canon dSLR kamera rögzíti a szembenéző oldalakat, az expozíció automatikusan történik. A képfeldolgozó szoftverben a szokásos lehetőségekkel élhetünk: vágókeret beállítása, tónuskorrekció, mentési formátum, név és útvonal. Az intenzív használat során szerzett tapasztalatok szerint a többi ismertetett modellnél jobban teljesít ez a készülék nagy oldalméretű és vastag gerincű kötetek esetén.
Kevésbé termelékeny, kifinomult, mint a robotszkennerek, de töredék ára és egyszerű használhatósága miatt jó megoldás lehet.
5.4.7. Síkágyas szkenner Sokszor előfordulhat, hogy egy kisebb közgyűjteményben, vagy egy kisebb projektben nincs szükség és pénzügyi lehetőség valami “komoly” digitalizáló eszköz hadrendbe állítására, avagy esetleg egy nagyobb irategyüttes tartalmaz olyan eredetiket is, amelyek hordozó anyaguknál fogva (nem lapokra szedhető, sérülékeny, kemény kötéstáblákkal rendelkező, stb.) az egyéb eszközeinkkel biztonságosan nem digitalizálhatóak. Ilyenkor tehet jó szolgálatot valamilyen síkágyas szkenner, amely, ha megfelelő típust választunk, nagyon sokoldalúan kihasználható. Az irodai eszközök között már régóta szerepelnek ezek az eszközök, egy nyomtatóval összekötve ellátják a hivatali iratmásolás, -archiválás szükségleteit. Vannak olyan komolyabb berendezések, amelyek kiváló minőségben, színhűségben, dia-feltéttel, hatalmas felbontással még az igényes sajtó- 170 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
és könyv-reprográfiai igényeket is kielégítik. Ez utóbbi eszközök persze már drágábbak, és általában nem éppen a gyorsaságukról híresek. Előnyük a kiváló képminőség mellett az, hogy az eredetiket nem éri káros hő- vagy fényhatás, és ha “szálas” dokumentumokról van szó, akkor mechanikai sem. Egy bekötött könyvet viszont nem képesek megfelelően, a könyv gerincének sérülése nélkül beszkennelni: bizonyára mindenki látott már fénymásolt könyvoldalakat, ahol a belső margónál jellegzetes sötét sáv keletkezik, mivel nem tud a síkfelületre jól rásimulni a bekötött anyag. Ezt a problémát küszöbölik ki a Plustek cég OpticBook síkágyas könyvszkennerei.
Az OpticBook nagysebességű könyvszkennerek sajátos, innovatív kialakításukkal szükségtelenné teszik a könyvek erőltetett, 180°-os kihajtását, így az állományvédelem maximális figyelembevételével, kíméletes módon teszik lehetővé a digitalizálást, egyszersmind kiküszöbölik a szkennelt könyvoldalak közepén a beárnyékolódást és a sorok torzulását, jó minőségű oldalképet és OCR-t téve lehetővé. A síkágyas szkennelő felület úgy van kialakítva, hogy a csak kis szögben kinyitott, lefelé fordított könyv kényelmesen hozzáilleszthető, egészen a legszéléig “látja” az oldalt, belül, középen, a könyv gerincénél, csak kb. két mm holt tér marad.
A kezelőszoftverben beállítható a páros és páratlan oldalak megfelelő irányba való automatikus forgatása, így nincs más dolgunk, mint lapozni, odailleszteni és megnyomni a gombot. Kezelőszoftverében tipikus szkennelési szituációkat lehet definiálni, megadva a szükséges beállításokat: színmélység, felbontás, fájlelnevezési séma, forgatás, célmappa, stb. Ezeket a nagy, kényelmes kezelőgombokhoz társítva a szkenneléskor már nem kell a programmal törődnünk, nyugodtan ügyelhetünk a dokumentum biztonságos és kényelmes tartására.
- 171 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A4-es és A3-as méretben készül, a két típus a méretén kívül csak a sebességében különbözik: a kisebbik kb. 4 másodperc alatt vesz be egy A4-es oldalt 300 dpi, 24 bit színes módban, míg a nagyobbik testvérének mindössze 2,5 sec (!) kell egy A3-as, 300 dpi-s, 24 bites színes oldal szkenneléséhez. Álljanak itt a nagyobbik eszköz, a Plustek OpticBook A300 szkenner tulajdonságai: Síkágyas, A3-as (304.8mm x 431.8mm) könyvszkenner USB 2.0 fizikai csatoló felülettel, TWAIN kompatibilis szoftveres felülettel. 4-soros színes CCD képérzékelő (R, G, B és szürke), optikai felbontás: 600 dpi. Szkennelési módok: színes (48-bit input, 24-bit output); szürke (16-bit input, 8-bit output); B/W: 1-bit. Sebessége 2.48sec (300dpi, A3, színes); 2.10sec (300dpi, A3, szürke / B/W mód. Javasolt terhelhetőség: 5000 oldal naponta, ára megközelítőleg 500 ezer forint. Az A4-es OpticBook 4800 napi 2.500 oldalas átlagos terhelésre “méretezett”, ára mindössze, 150 ezer forint.
5.4.8. Filmszkenner Az archívumok gyakran őriznek átvilágítható (transzparens) hordozón képanyagot: diapozitíveket és negatívokat, film- és üvegnegatívokat, vagy akár röntgenfelvételeket. Ezek nem szkennelhetők a reflektív hordozóknál bevált eszközökkel, léteznek viszont direkt erre a célra kialakított speciális filmszkennerek, és a komolyabb síkágyas szkennerek közül is soknak tartozéka az ún. diafeltét. Rengeteg cég kínál ilyen eszközt, alább röviden ismertetünk néhány fontos szempontot, ami segíthet a választásban! (A http://www.filmscanner.info honlapon német és angol nyelven számos modellről találunk információt, tesztet. Ezenkívül a digitális képalkotással kapcsolatban számos hasznos tudnivalóról találunk itt cikkeket.)
5.4.8.1. Optikai felbontás A diák szkennelése meglehetősen nagy felbontást igényel: ha egy 36x24 mm-es filmfelületről kell egy 300 dpi felbontású, A4-es képet előállítani, ahhoz közel 2500 dpi felbontásban kell digitalizálnunk. Ha ugyanezt a képet 400 dpi-ben akarjuk előállítani, ahhoz már több mint 3200 dpi szükséges. Ha A3 méretben van szükségünk egy normál dián lévő képre, ahhoz 300 dpi-s felbontás esetén kell 3500 dpi-s, 400 dpi-s felbontás esetén pedig 4600 dpi-s szkennelés! A dia- és filmszkennerek papíron megadott optikai felbontása elérheti akár a 9600 dpi-t is, kezeljük azonban ezt az adatot óvatosan! Még ha a használt érzékelő / léptető motor felbontása névlegesen el is éri a megadott értéket, akkor is könnyen lehet, hogy a szkenner optikai elemeinek (lencsék, tükrök, üveglapok) torzító hatása miatt a valós elérhető felbontás ennek csak töredéke. Legbiztosabban úgy ellenőrizhetjük a tényleges felbontást, hogy egy speciálisan erre a célra készült tesztábrát digitalizálunk a megadott legnagyobb felbontásban. Az USAF 1951 test target egy speciális üvegdia, amin egymással párhuzamos vonalak helyezkednek el különböző méretekben. A szkennelés után meg lehet vizsgálni, melyik az a vonalpár, ami egybemosódik, tehát ott van a szkenner felbontó képességének a határa.
- 172 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Mindig a szkennelés célja szerint válasszuk meg a felbontást, és e tekintetben az eredeti tárgy, irat mérete a mérvadó, nem pedig a dián, filmen lévő méret. Ha a dia nem tartalmaz valami kalibrálásra alkalmas mérhető adatot (pl. lehet tudni, hogy a rajta szereplő papírlap A4-es), akkor az eredményfájlban elért valós felbontás nem adható meg pontosan, mivel nem tudjuk meghatározni a felvételezés nagyítási/kicsinyítési arányát.
5.4.8.2. Sebesség Tömeges digitalizálás esetén ez az egyik kulcs paraméter. A nagyfelbontású szkennelés nagyon hosszú ideig is tarthat, minél nagyobb a felbontás, annál tovább. A lenti táblázat az alábbi képen látható Plustek OpticFilm 8200i filmszkenner néhány szkennelési időadatát tartalmazza:
Folyamat
Időtartam képjavítás nélkül
Időtartam képjavítással
Időtartam képjavítással + multiexpozícióval*
Előnézet
0:16 min
0:16 min
0:16 min
35mm-es kép szkennelése: 2400 dpi 0:36 min
1:22 min
3:02 min
35mm-es kép szkennelése: 3600 dpi 1:27 min
3:06 min
5:25 min
35mm-es kép szkennelése: 7200 dpi 3:59 min
09:16 min
13:36 min
* Lásd az 5.4.8.4. Szoftver fejezetnél
Jól látható, hogy – különösen, ha képjavító, karc és por eltávolító algoritmusokat is igénybe veszünk a feldolgozás során – a digitalizálás időtartama fél perc és 15 perc között változik. Lehetnek ugyan gyorsabb szkennerek is a piacon, de a tendencia azoknál is hasonló. Ha egy mód van rá, itt is érdemes a tömegesen digitalizálandó anyag egy kisebb mintáján valós próbát végezni, hogy reális képet kapjunk az időszükségletről.
5.4.8.3. Képminőség: élesség, színhűség, denzitás Valószínűleg ezek a tényezők azok, amiben a leginkább különböznek egymástól a drága és az olcsóbb eszközök.
- 173 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Szubjektív szemrevételezéskor ez a három tényező határozza meg, elégedettek vagyunk-e a szkennelt képpel (a karcok, koszok mellett): a pengeéles, természetes színvilágú, a világos és sötét részeken is részletgazdag kép a “jó kép”. Az élesség általában az eszköz optikai elemeinek minőségével függ össze, bár például az érzékelő elemeiben keletkező melegedés is okozhat életlenedést kiváltó zajt. Szoftveresen némiképpen javíthatunk rajta (unsharp mask). A transzparens hordozók anyaga (gyártmánya), tárolásuk időtartama, körülményei folytán jelentős színhőmérsékletbeli eltéréseket tapasztalhatunk, megfelelő szoftveres korrekcióval orvosolhatjuk őket. A denzitás kissé leegyszerűsítve azt jelenti, hogy mekkora az a maximális világosságkülönbség, amit az adott eszköz még felismerni képes, avagy máshogy megfogalmazva mennyire sok fokozatot tud megkülönböztetni a legvilágosabb és a legsötétebb rész között, tehát hogy mennyire lát még részleteket a legsötétebb és a legvilágosabb képelemekben. A transzparens hordozójú fotóanyagok (filmek) potenciális árnyalatterjedelme sokkal nagyobb a reflexiós hordozójúakénak (fotópapírok), ezért filmszkennereknél a négyes vagy ennél magasabb érték az elfogadható. Ne feledjük azonban, hogy általában egy kicsi minőségjavulásért jelentős ártöbbletet kell fizetni: csak annyit érdemes költeni erre, amennyit a megcélzott eredetik minősége és tervezett felhasználásuk igényel. Feketefehér gépelt papírok esetén sem a kiváló színhűségnek, sem pedig a 4 fölötti denzitásnak nincs jelentősége.
5.4.8.4. Szoftver Az eszközökhöz adott szkennervezérlő szoftverek az alapfunkciókat minden esetben tartalmazzák, tehát szkennelni biztosan lehet velük, és egyszerűbb képjavító, retusáló műveleteket, tónuskorrekciókat is általában lehetővé tesznek. A drágább eszközök szofisztikált programjai ugyanakkor az egyes, esetenként nagyon fáradságos, ismétlődő műveletek automatizálásában nyújtanak segítséget, jobb eredményt adó, kifinomultabb tisztító-javító algoritmusokat tartalmaznak. A por eltávolítás különösen kritikus eleme a szkennelt filmek feldolgozásának, mivel az érzékeny celluloid anyag hajlamos minden szennyeződést begyűjteni, megkarcolódni, és a jelentős nagyítási faktor miatt az apró szennyeződések is hatalmassá válnak az eredményfájlban, eltávolításuk pedig nagyon fáradságos. Az egyik legjobb, leggyakrabban használt program a SilverFast AI, amely a legtöbb gyártó szkennereihez használható. Segítségével pl. a Plustek OpticFilm 8200i szkenner képes arra, hogy egy kockáról több, eltérő expozícióval készült felvételt készítsen, majd ezeket intelligensen úgy kombinálja egyetlen output képbe, hogy a világos és sötét részek denzitását is maximalizálja.
5.4.8.5. Digitalizálható hordozók Fontos tényező, hiszen a digitalizálandó gyűjtemény számos méretben, formában tartalmazhat transzparens anyagokat: pozitív és negatív, kisfilmes, középformátumú, nagyformátumú, keretezetlen kocka, filmcsík, roll film, keretezett szóló dia, keretezett csík, stb.
5.4.8.6. Ár Természetesen az árak is jelentős szórást mutatnak, többé-kevésbé összefüggésben a márkával, a képminőséggel, sebességgel, szolgáltatásokkal. A legolcsóbb, inkább csak a nem túl igényes otthoni felhasználásra szánt eszközöket leszámítva nagyjából 100-150 ezer forinttól kaphatók elfogadható film szkennerek, a csúcskategóriás modellek (pl. Nikon Super CoolScan 9000) szoftverestől akár 2 millió forintba is kerülhetnek.
5.4.8.7. Ipari film szkennerek Az eddig bemutatott filmszkennerek teljesítményükből adódóan nem alkalmasak nagy mennyiségű film – legyen az negatív vagy pozitív, esetleg dia – digitalizálására. Ezek az eszközök a „customer” világból nőttek ki, és bár minőség és szoftveres szolgáltatások terén professzionálisnak mondhatók, rendkívül lassúak és a régi, vagy zsugorodott alapanyagok esetén állományvédelmi szempontból korlátozottan használhatóak. Az ipari filmszkennerek egy másik célcsoport, a digitális filmlaborok üzemeltetői számára lettek kifejlesztve, ahol a professzionális minőség mellett hasonlóan fontos szempont a gyors feldolgozás. Ezek az eszközök ugyanúgy tartalmazzák a legfejlettebb képjavító technológiákat, mint pl. a Digitali Ice 3, aminek segítségével az utómunkálatok során a karcok eltüntethetőek, az eredeti, de mára fakult színek visszaállíthatóak, és az - 174 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
esetleges képzajok is jelentősen csökkenthetőek. Mindezek mellett ezeknek a szkennereknek a feldolgozó egysége eleve a lehető legpontosabb színvisszaadást és élességet produkálja. Az adagoló mechanizmus széles tartományban szabályozható, így különböző feltétek segítségével minden típusú és formátumú filmet képes fogadni. Az üzemeltetőnek számos beállítási és beavatkozási lehetősége van, így egy ilyen eszközzel az állományvédelmi szempontoknak is jobban meg lehet felelni. Ezen a területen is több gyártó készít szkennereket, amelyek általában egy modulját képezik egy komplett filmlabornak. A legjelentősebb cégek többféle kapacitású készüléket is forgalomban tartanak, amelyek ára ehhez viszonyítva változik, de mindenképpen egy nagyságrenddel magasabb, mint a korábban tárgyalt eszközöké. Az árak a szükséges kiegészítőkkel, adapterekkel együtt 10-40,000 EUR között változnak, teljesítmény és gyártó függvényében. Magyarországon jelenleg a NORITSU cég termékeit lehet megrendelni, ezek közül a legnagyobb teljesítményt a HS 1800-as nyújtja.
A katalógusban szereplő számok és a gyakorlati használat között itt is jelentős a teljesítménybeli különbség, de a hagyományos szkennerek teljesítményéhez képest tizedannyi időt vesz igénybe a szkennelés (35 mm-es, 24 kockás roll filmnél 4-500 felvétel / óra) és az utófeldolgozás is jelentősen gyorsabb, miközben felbontásban ugyanazokat a paramétereket adja, mint egy NIKON 9000. Az alábbi képek még ebben a kis felbontásban is jól láthatóan mutatják a két eszközkategória képminőségének eltérését (baloldalon a Noritsu készülékével, míg jobboldalon a Nikon eszközével készült képrészletet láthatjuk; a baloldali jóval élesebb, zajmentesebb).
- 175 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.4.9. Digitalizáló tárgyasztal alkalmazási lehetőségei 3.1.1. Speciális dokumentumok digitalizálásához sokszor nem alkalmas, vagy rendkívül lassú és így költséges a szkenner-technológia. Ilyen esetekben egyedi megoldásokat kell találni, ami kielégíti mind az állományvédelem, mind pedig a tömeges digitalizálás igényeit. Ezen iratok specialitását adhatja formájuk, az információt hordozó matéria egyedisége, valamint a rendkívül védett, mechanikai behatást meg nem engedő állományvédelmi besorolásuk. A digitalizáló tárgyasztal lehetőséget teremt arra, hogy domború, mechanikai behatásra rongálódó tárgyakat tudjunk viszonylag nagy sebességgel, univerzálható technika és munkafolyamat segítségével digitalizálni. Ilyen speciális dokumentumok lehetnek a pecsétek, érmék, botanikai gyűjtemények – ahol a tárgy mélységét is érzékeltetni kell, ráadásul minél nagyobb mélységélességgel –, de a technológia alkalmas dia, roll filmek vagy üvegnegatívok, illetve ehhez hasonló műtárgyak, iratok digitalizálására egyaránt. A tárgyasztal előnye, hogy több, széles skálán variálható komponensből állítható össze, igazodva a digitalizálandó objektum típusához, formájához, méretéhez, anyagához. A tárgyasztalok formája és összetevői széles skálán változtathatók, az alábbiakban azon változatokat mutatjuk be részletesebben, amik elsősorban levéltári típusú iratok digitalizálásához használható. 3.1.2. A komponensek között megtalálható egy digitális kamera, amivel a felvétel, vagy felvételek készülnek. Hagyományos kétdimenziós, vagy a síkból 1-2 cm-nél nem jobban kiemelkedő tárgyak képi digitalizálása esetén, célszerű minél nagyobb felbontású, professzionális minőségű digitális tükörreflexes fényképezőgépet alkalmazni. Mivel a tárgyasztali digitalizálás kizárólag A2-nél kisebb alapterületű dokumentumok esetén alkalmazható, fontos, hogy minél nagyobb felbontású és fényerejű, továbbá a lehető legkisebb torzítást adó makro- vagy mikro-objektívet párosítsunk a fényképezőgéphez. A torzítás csökkentése érdekében 50-es, a fényerő növelése miatt pedig fix fókuszú objektív használata javasolt. A fényképezőgép az ilyen típusú feldolgozás esetén, egy állványon helyezkedik el, ami a tárgyasztalhoz van rögzítve. A gépet az állvány segítségével lehet közelíteni vagy távolítani a dokumentumhoz úgy, hogy látószögébe lehetőleg csak a digitalizálandó terület kerüljön, azt minél teljesebben kitöltse. Minél kisebb a tárgy, annál közelebb kell hozzá állítani a kamerát. A makro, illetve mikro objektívek segítségével ez a távolság akár az egy cm-t is megközelítheti. Ilyen közelről egy hagyományos 35 mm-es filmnegatívot már 6-8000 dpi-s felbontásban lehet digitalizálni, ami mind a megőrzés, mind pedig a későbbi reprodukciók számára megfelelő minőséget biztosít. A ma kapható full frame-es (vagyis 35 mm-es negatív film nagyságú) érzékelővel rendelkező fényképezőgépek felbontása elérte a 36 megapixelt, a digitális hátfalaké pedig itt kezdődik. Ennek a felbontás növekedésnek köszönhetően, ma már egy A2 területméretű dokumentumot is a szkennerekhez hasonló felbontásban lehet digitalizálni fényképezési technológiával. A tárgyasztal technológia nagy előnye, hogy a rendelkezésre álló anyagi forrásokhoz mérten lehet a fényképezőgépet és a hozzá kapcsolódó objektívet kiválasztani, így némi minőségi kompromisszum árán kisebb intézmények számára is elérhetővé válik a technológia. 3.1.3. A tárgyasztali digitalizálás másik fontos komponense a megfelelő megvilágítás kialakítása. Minél nagyobb a megvilágítandó felületünk, értelemszerűen annál nagyobb teljesítményű fényforrásokat kell alkalmazni, amelyek paraméterei azonban nem változhatnak a színhőmérséklet és a hőhatás minimalizálása tekintetében. Ennek a technológiának a legnagyobb nehézsége a megvilágítás egyenletességének beállítása. A kamera felbontása mellett ez a másik paraméter, amiben ez a technológia jelenleg még elmarad a szkennerek nyújtotta teljesítménytől, ugyanakkor állományvédelmi szempontból nem különbözik tőlük. A megvilágítást adó fényforrások elhelyezése a digitalizálandó dokumentum, vagy tárgy méretétől, formájától és nem utolsó sorban anyagától is függ. Állványról, felülről történő digitalizálás esetén a fényforrások a - 176 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
tárgyasztal két oldalán kerülnek elhelyezésre oly módon, hogy az egyenletes fényerőeloszlás mellett – különösen a mélységgel rendelkező tárgyak esetén – az árnyékvetést is kiküszöböljék, illetve optimalizálják: hiszen pl. egy érme vagy pecsét finom rajzolatát éppen a megfelelő árnyékhatás képes láthatóvá tenni a sík felvételen. Filmek, vagy üvegnegatívok digitalizálásához a teljes dokumentumfelületet alulról kell megvilágítani. Ehhez egyenletes fényerőeloszlást biztosító átvilágító tárgyasztallapot kell alkalmazni. 3.1.4. A digitalizálandó irat megfelelő módú rögzítéséhez dokumentum- illetve tárgytípusonként egyedi megoldásokat kell alkalmazni. Erre nincsenek professzionális minőségű, előre gyártott komponensek. Az alkalmazandó technológia esetleges, a pénztárca és a kreativitás szab csupán határt. Mint arról a fejezet bevezetőjében szó volt, bizonyos iratok vagy tárgyak esetében nem szabad mechanikai hatásnak kitenni a dokumentumokat, ugyanakkor biztosítani kell azt, hogy teljes valójukban, az információ teljességével lehessen digitális másolatot készíteni róluk. Abban az esetben, ha a tárgyasztal-technológiát költséghatékonyság miatt alkalmazzuk, és nem állományvédelmi szempontok játsszák a fő szerepet, egyedi tárgyasztal-feltétekkel kell törekedni az irat minél hatékonyabb rögzítésére, a kamerával párhuzamos síkba hozatalára. Ez különösen fontos a papír és film alapú iratok esetén, amikhez ugyanúgy meg kell oldani a leszorítást, mint ahogy a drágább szkennerek teszik ezt. A feltétek kialakításánál a két legfontosabb szempont a hatékony munkavégzés és az állományvédelmi szempontok biztosítása.
5.5. Automatikus szövegfelismerés A fizikai hordozó digitális reprezentációjához különböző módokon lehet az információtartalmat illetően digitális tartalmat hozzáadni. Ez lehet egyszerűen egy jelentés teli, következetesen használt fájlelnevezési séma, vagy bibliográfiai leírás, mutató, stb. Amikor olyan dokumentumokkal van dolgunk, amelyeknél az információtartalom hordozója alapvetően szöveg, akkor annak teljes digitális reprodukálása adja vissza a legteljesebben az eredeti információ tartalmat. Ez történhet gépeléssel, illetve OCR (Optical Character Recognition) révén. A rendkívül időigényes és emiatt igen drága manuális adatfelvitel (gépelés, korrektúra, visszajavítás) alkalmazása a tömeges digitalizálásban lehetetlen. Ennek kiváltására olyan programokat használhatunk, amelyek képesek a szkennelt kép-állományokból szöveget előállítani. OCR-nek tehát azt az eljárást nevezzük, amelynek során a képi állományunkból egy program segítségével szöveg képződik. Ennek legnagyobb előnye a hagyományos kézi adatbevitellel szemben a vonzóan alacsony ár, a nagy feldolgozási sebesség, az egyre javuló minőség és a sokféle output lehetőség (Word, PDF, TXT, stb.). A mai OCR programok a minél hatékonyabb szövegfelismeréshez kifinomult eljárások egész tárházát integrálják: képtisztító, képjavító algoritmusok, alak-, mintafelismerés, szótárak, nyelvi szabályok használata, struktúra elemzés, mindez egy soklépcsős, sok szempontos döntési fába rendezve. Az egyes pontokon nem feltétlenül abszolút “igen-nem” döntések születnek, hanem válasz-valószínűségek, amelyek összességének végső komplex kiértékelése adja a felismert szöveget. A programfejlesztők a sok szempontot igyekeznek optimalizálni a tipikus felhasználói igényekhez, és az annak megfelelő legjobb eredményt adó eljárást beépíteni a rendszerükbe. Vannak, lehetnek olyan, a tipikustól eltérő attribútumokkal rendelkező szövegek, amik esetén ez a “gyári” felismerés nem ad kielégítő eredményt. Az OCR programok ezekre az esetekre általában rendelkeznek valamilyen tanító eszköztárral, amelynek segítségével speciális betűk, karaktercsoportok felismerésére lehet “megtanítani” a programot. Az OCR jelenleg elsősorban nyomtatott vagy írógéppel, számítógépes nyomtatóval előállított szövegek felismerésére használható, a kézírásos szövegek automatikus felismerése jelenleg nem ad kielégítő eredményt. Napjainkban már vannak ugyan egészen jó eredményt adó folyó kézírást felismerő alkalmazások, ám ezek nem tudnak szkennelt képekből dolgozni, hanem csak valamilyen tableten, PDA-n bevitt írásból. Ennek az az oka, hogy ezek rögzítik, a felismerendő elemek szegmentálásában felhasználhatóvá teszik a kézírás jellegzetes dinamikáját, idői ‘lefolyását’, csak így tudnak elfogadható eredményt produkálni. - 177 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A piacon komolyan számba vehető program 3-4 van, mi ezek közül jelenleg (2012) az Abbyy FineReader Corporate Edition 10 verziót használjuk. A karakterfelismerés folyamatának lényeges elemei nagyon hasonlóak, az elvi megfontolások megegyeznek, így a többi programra külön nem térünk ki, azok részletes ismertetése meghaladja jelen tanulmány kereteit. OCR programok: http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software Az a tapasztalat egyébként, hogy a kereskedelmi forgalomban lévő OCR programok elsősorban az irodai felhasználókat tekintik célközönségnek, a nagytömegű digitalizálás igényeit kielégítik ugyan, de nem túlzottan támogatják: egy sor finomabb beállítás nem kellően dokumentált, néha kisebb-nagyobb hibák is előfordulnak bennük. Mindegyiknek van SDK-ja (Software Development Kit), amivel saját OCR-alkalmazást lehet felépíteni, természetesen a legfontosabb rutinok, maga az OCR-motor zárt, csak magát a felhasználói felületet, az esetleges plusz funkciókat lehet (és kell!) beprogramozni. Az SDK általában viszonylag drága, és speciális és mély programozói (C/C++) tudás kell a használatához, így az egyszerű digitalizálónak kevéssé ajánlott a használatuk. Akkor lehetne érdemes ilyen alkalmazás fejlesztésébe belefogni, ha igen nagy tömegű, speciális, egy kaptafára menő dokumentumunk van, amik esetén az asztali programverzió nem ad kielégítő eredményt (pl. ipari mennyiségű űrlap, számla feldolgozása esetén). A levéltári területen, egyáltalán, a kulturális területen nem igazán ez a jellemző, hanem inkább az, hogy sokféle dokumentum-típust kell digitalizálni, a legkülönbözőbb méretű, nyomdai kivitelű, hordozójú, állapotú, nyelvezetű szövegeket. Érdemes ugyanakkor időről-időre nyomon követni, tesztelni a megjelenő újabb programokat, verziókat, mert a fejlődés folyamatos, és főleg a nyelvészeti eszközök, a mesterséges intelligencia fejlődésével még további OCR-teljesítmény javulás várható. Ígéretes kezdeményezés lehet pl. az Európa Tanács IMPACT (IMProve ACcess to historical Text) projektje, amely többek mellett az Abbyy OCR fejlesztő céggel együttműködve folytat kutatásokat a történelmi szövegek gépi feldolgozásához szükséges minél jobb informatikai, nyelvészeti eszköztár kifejlesztéséhez. Az Abbyy már korábban is piacra dobott egy gót betűvel készült nyomtatványok feldolgozásához használható OCR eszközt, amellyel sikerrel digitalizálhatók 19. századi, fraktúra betűs anyagok (Az önálló termék forgalmazása időközben megszűnt, viszont tudása beépült a cég Recognition Serverébe).
5.5.1. Alapfogalmak A OCR során az első lépés az oldalak elemzése, melynek során a program felismeri az adott oldalon található elemeket. Igazából ebben a fázisban történik még egy, a szövegminőség szempontjából nagyon fontos folyamat, a kép előfeldolgozása: kiegyenesíti az oldalt, a sorokat, képtisztító algoritmusokkal kiszűri az oldalképből a felismerést zavaró apróbb koszokat, kiemeli a felismerendő szöveget. Az egyes feldolgozandó elemek egy-egy keretet alkotnak, melyek az alábbi típusba sorolhatók: ●
szöveg
●
kép
●
táblázat
●
(vonalkód)
Egy oldal igen bonyolult szerkezetű lehet (gondoljunk csak egy napilapra): több szöveghasáb, 2-3 hasábos cím, képek, illetve akár több hasábon áthúzódó táblázatok, különböző olvasásirányú blokkok. A keretek felismerésében természetesen lehetnek hibák. Manuális javítással, egy keret típusának megváltoztatásával vagy a keretvonalak javításával, “kézi” megrajzolásával sokat lehet segíteni a későbbi felismerési pontosságon. Egy adott kerethez hozzátartozik az írás iránya. Különösen táblázatokban gyakran előfordul, hogy bizonyos cellákban függőleges irányú írás található. Ha ezeket rosszul azonosítja automatikusan a program, ezen is manuálisan javíthatunk. - 178 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Az OCR programok nem kizárólag karaktereket ismernek fel, igen fejlett nyelvi háttérrel, támogatással rendelkeznek. A legegyszerűbb esetben csak az adott nyelv karakterkészletét ismeri a program, fejlettebb esetekben az adott nyelv teljes szókincsét és nyelvtanát is ismeri és ezt a felismerés során alkalmazza is. Egy adott dokumentumban többnyelvű szövegrészek is előfordulhatnak, így a szövegfelismeréshez szükség lehet egyszerre több nyelv megadására. Ekkor az adott szót a legvalószínűbb nyelvűnek tekinti a program. Például ha egy jellemzően magyar nyelvű szövegben az “in memoriam” latin kifejezés szerepel, akkor azt hajlamos az OCR program “in memóriám”-ként felismerni. Avagy az alábbi példán látható oldalon szerepel a Mohamet szó, amit a program eredetileg ebben a formában nem ismer: a számára értelemmel bíró “Mohámét” alakot ismeri fel helyette. Az adott nyelv szavai bővíthetők, saját szótárakat építhetünk (jellemzően pl. tulajdonnevekből), és ezzel segíthetjük a programot a helyes alak felismerésében. Ugyancsak lehetőségünk van speciális jelek, karakterek beépítésére egy adott nyelvbe (pl. a magyar nyelvet bővíthetjük az umlautos e betűvel (ë), amit nyelvészeti, néprajzi szövegekben gyakran használnak tájnyelvi szavak leírásában). A lenti példában megfigyelhetjük, hogy a felhasználói szótárba felvett tulajdonnevek hogyan hatnak a felismerésükre: Beriszló, Both, Mohamet. A fölső kép szótárhasználat nélkül, az alsó kép szótárhasználattal mutatja ugyanazon oldal OCR-ét, a baloldalon az oldal képével, a jobb oldalon pedig a felismert szöveggel.
- 179 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A túl sok felismerési nyelv (3-4-nél több) használata viszont már rontja a felismerés minőségét. Az OCR futtatása után létrejön az ún. köteg (vagy batch) állapot. Ez az OCR program saját formátuma, lényegében egy speciális, az OCR program által kezelt hierarchikus mappastruktúra, amely tartalmazza az oldalak képállományát, a felismert szerkezeti elemeket, kereteket, és az ebből előállított, felismert, formázott szöveget is. Mérete rendkívül nagy, akár 10-20-szorosa is lehet a szkennelt oldalak helyigényének (főleg azért, mert az oldalképeket tömörítetlen TIFF formátumban tárolja). Ebben a fázisban nagyon szoros kapcsolat van a kép pontjai és a szöveg betűi között, tizedmilliméteres pontossággal tudja a program, hogy mely képpontokhoz milyen karaktert rendelt, annak minden tulajdonságával: betűtípus, betűméret, betűszélesség, stb. Ez az az állapot, ahol az OCR program felületén belül lehetőségünk van a szöveg javítására.
5.5.2. Minőséget befolyásoló tényezők Egy jó minőségű könyvet, vagy egy lézernyomtatóval kinyomtatott mai szöveget bármely OCR program 99,99%-os pontossággal reprodukál. A gyakorlatban azonban ennél általában rosszabb minőségű eredetikkel találkozunk. Mi az, ami alapvetően befolyásolja a felismerés minőségét? 1
Kézírásos szöveg nem felismerhető.
2
A nyomás minősége alapvetően meghatározó. Nagyon gyenge eredményt lehet elérni a rossz minőségű, stencilezett (elsősorban 1950-es 1960-as években keletkezett) gépiratokkal.
3
Meglepően gyenge OCR eredményt adnak a 1980-as évek vége 1990-es évek eleji, már számítógéppel, elektronikus írógéppel készült szövegek, amelyeknél hiányoztak a hosszú ékezetes betűk, nem volt stabil a betűk alapvonala (ugrált az írógépfej, pontozott a mátrixnyomató).
4
Főleg gépirat esetén az igen gyakran előforduló aláhúzással jelzett vagy szóközök beütésével ritkított kiemelések teljesen elrontják az eredményt.
5
A szöveg összefirkálását, aláhúzását, áthúzását, az egyes elemek kipipálását egy bizonyos szintig a programok tolerálják (ha ceruzával és halványan történtek), de a filctollas, golyóstollas jelöléseket már nem.
6
Semmilyen nyelven sem értelmes szövegek. Ilyenek lehetnek például régies nyelven írt szövegek, pl. 15-18. századi könyvek vagy azok betűhív átírásai.
- 180 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
7
Meglepően gyenge az OCR minősége dőlt (italic) betűtípusoknál. Ez függ az alapbetűtípustól is, minél speciálisabb, díszesebb a betű, annál gyengébb a dőlt verzió felismerhetősége is.
8
Nyomtatott anyagok esetén is meghatározó a nyomás minősége. Az emberi szem számára nem zavaró hibák (maszatos nyomat, kopott nyomóforma) is jelentősen ronthatják az OCR minőségét. Nagyon jellemző az é-ó, ó-á, c-e, stb. tévesztése, ami elsősorban a tisztátalan, avagy kopott nyomóformának tudható be. A fenti oldal-példa egy kinagyított részletén a “mentén” szóban az “e”, “é” és “n” betűk bizonyos részei annyira elvékonyodtak a nyomaton, hogy a program “mcntcu”-nak azonosította őket (fölül a felismert szöveg, alatta a kinagyított oldalkép-részlet látható).
9
Furcsa eredményeket adnak a régies helyesírású szövegek. Mivel a program a mai nyelveket ismeri, hajlamos a régies helyesírást (különösen a következetlen ékezethasználatot, pl. tanit – tanít) a maival helyettesíteni. Ebből azonban számos furcsa eredmény születik, pl. a régies írású vajjon szó vájjon lesz (mint vájjon valamit), merthogy így van a program számára értelme.
10 Amennyiben rosszul állítjuk be a nyelvet, hibás eredményt kapunk. Pl. egy magyar nyelvű szöveget véletlenül angol nyelvbeállítással futtatva az összes ékezet eltűnik a szövegből. 11 Soknyelvű oldalak, pl. bibliográfiák, ahol akár 6-8 nyelv is előfordul egyetlen oldalon, nehezítve értelmetlen (folyóirat, intézmény) rövidítésekkel, ismeretlen tulajdonnevekkel. 12 Számos speciális esetben a gép képtelen a képet és a szöveget helyesen értékelni az oldalon. Ennek jellemző példája a kottás könyvek, ahol lehetetlen elkülöníteni a képet a szövegtől, így a kottákat is szövegként próbálja értékelni, illetve a szöveg elválasztójelekkel jelenik meg, itt nem is igen értelmezhető a szövegfelismerés. 13 Különleges eset (de akár gépiratban, akár nyomtatva is gyakran használatos) a ritkított írásmód. Itt számos esetben hiába ismeri fel a betűket a program, azokat csak kis százalékban tudja értelmes (ritkított) szavakká összerakni. Egyrészről örülhetünk, hogy mintegy 50%-ban sikerül a felismerés, de sajnálhatjuk a kimaradó 50%-ot. - 181 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
14 Nem képes a program felismerni az alapvonalból kiugró szövegeket (az alsó-felső indexek nem ebbe a kategóriába tartoznak, azokat általában jól kezelik a programok), melynek jellegzetes példája a soron belüli törtvonalas ábrázolás. Ez igen gyakran fordul elő 2. világháború előtti rendeletszámok esetén. 15 Fenti esethez hasonló a nyomtatott lapszéli jegyzetek problémája. Ezt is igen nagy előszeretettel használták a 19-20. század fordulóján. A felismerés problémája abból származik, hogy a jegyzeteket két sor közé írták, így a fővonalban történő olvasás ezeket a betűket nem tudja értelmezni. A helyzetet megoldja, ha két külön keretbe tesszük a főszöveget és a lapszéli jegyzetet. Alább a 14. és 15. pontokban jelzett hibákra láthatunk jellegzetes példát. Fölül az OCR program által automatikusan létrehozott keretek esetén, alul a manuálisan megjavított keretek esetén figyelhetjük meg a felismerés eredményét. Mindkettőben baloldalon az oldalkép látható a zöld színű felismerési keretekkel, jobb oldalon pedig a felismert szöveg.
- 182 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
16 A program kizárólag egyenes írású szöveget ismer fel (vízszintes vagy függőleges irányban), ferde, hajlított szövegeket nem. 17 Szinte használhatatlan az eredmény az újságokban, könyvekben gyakran előforduló hirdetések esetén. A bonyolult szerkezetű, speciális méretű, formájú betűtípusokat, logókat, képeket tartalmazó oldalak esetén egy-egy normálisan álló szövegrész felismerését már jó eredménynek tekinthetjük. - 183 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.5.3. Tanítás Minden OCR program egyik fontosnak tűnő alapfunkciója, hogy a számára ismeretlen betűk, illetve betűtípusok megtaníthatók számára, ez a “Felhasználói minta tanítása” funkció. A minta tanítása hasznos lehet díszes, cirkalmas betűkkel nyomtatott szövegek, speciális karaktereket (pl. matematikai jeleket, fonetikai jelöléseket, ligatúrákat) tartalmazó szövegek esetén, vagy ha rossz nyomtatási minőségű a dokumentum (pl. ha az írógéppel írt szövegben sérült valamelyik betű). A funkció bekapcsolásakor, ha a program a felismerés során ismeretlen, vagy bizonytalanul felismert karakterhez ér, megáll, és a felbukkanó panelen megadhatjuk a kívánt betűt. Ügyelni kell arra, hogy a dőlt és kövér alakok, alsó és felső indexek külön-külön megtanítandók! Egy másik betűtípussal, másik betűmérettel, esetleg eltérő felbontással szkennelt oldalkép esetén a tanított minta nem fog jól működni, annál újabb mintát kell tanítani! Amikor valamennyi kívánt betűre megtanítottuk a programot, kiléphetünk a tanítási módból, és a soron következő felismertetésekben használhatjuk a betanított mintát. A tanítással kapcsolatban az a gyakorlati tapasztalat, hogy általában csak akkor éri meg a befektetett munkát, ha ugyanaz a specialitás nagy mennyiségű szövegben (több száz oldalon) következetesen fordul elő, különben ritkán lesz jelentősen jobb az így nyert szöveg. A felismerési karakterkészlet (az ábécé) precíz beállítása és a megfelelő szótár kialakítása gyakran elégséges az elfogadható eredmény eléréséhez. Kisebb mennyiségű hibás szöveget meg esetleg érdemes egyszerűen manuálisan vagy Keresés/Csere módszerrel kijavítani.
5.5.4. Szkennelés minősége A szövegfelismerést természetesen befolyásolja a szkennelés minősége, bár a szkennelési paraméterek viszonylag tág határai között is képes az OCR program elfogadható eredményre. Normál szövegek feldolgozásához 300 DPI, JPG tömörítésű képek elegendőek (a tömörítési arány 80% körül határozzuk meg, ahol a 100% a legjobb minőségű, legkevésbé tömörített fájlt jelenti). Apró betűs (6-7 pontos) szövegek esetén javíthat a felismerésen a 400 DPI-s szkennelés (valós, optikai felbontás). Egyszerű képek esetén elegendő a fekete-fehér (egy bites) TIFF G4 formátum. Ez igen tömör tárolású és a feldolgozás során sem nő meg a szükséges tárolókapacitás. Egy átlagos (A4-es) oldal tárigénye (300 DPI, 80%-os JPG), 1,5-2 Mbyte, ugyanez fekete-fehérben (300 DPI, TIFF G4 tömörítéssel) 100-150 KByte, a különbség 15-szörös. Érdekes és nem egészen triviális tapasztalat, hogy árnyalatos (szürke vagy színes) képek esetén a külső képszerkesztő programmal végzett tónuskorrekció számos esetben inkább ront, mint javít az OCR minőségén! Maga az OCR a programokban 1 bitessé alakított, fekete-fehér állományon történik, de nem mindegy, hogy ezt mi állítjuk elő valami külső programmal (a szkennelő szoftverrel, esetleg képszerkesztővel), avagy az OCR programra bízzuk ezt. Jó minőségű 1 bites képet, ahol az egyenetlen tónusú oldalak halvány és kontrasztosabb részei egyaránt használhatóak maradnak, nem egyszerű előállítani: az a tapasztalat, hogy éppen az OCR program csinálja ezt a legjobban! Akármit is módosítunk az eredeti képen – feltételezve, hogy a szkennelő szoftver jól végzi a dolgát, nem állítottunk el rajta valamit végletesen –, beavatkozásunk az eredeti, lehető leggazdagabb tónusinformációból elvesz, nem pedig hozzátesz. Még ha szemre esetleg azt gondolnánk, hogy a korrekció nyomán tetszetősebb, kontrasztosabb képeket kaptunk, akkor is általában rosszabb lesz a szövegfelismerés minősége, mintha semmit sem csináltunk volna. Érdemes egy kötetet egy mappába szkennelni, a fájlok elnevezésénél pedig ragaszkodni ahhoz, hogy a fájlnév feleljen meg az oldalszámnak. A 34. oldalt a 034.JPG file-ba szkenneljük, így a későbbiekben minden alkalommal könnyen tudjuk azonosítani a fájlokat. Fontos, hogy a számozatlan (pl. képmellékletek), illetve az eltérő számozású (tartalomjegyzék, külön számozott mellékletek, stb.) oldalak elnevezését egységesítsük, és az adott számozott oldal mellé rendeljük, pl. a 34. oldal utáni képmelléklet kapja a 34_1.JPG, 34_2.JPG fájlnevet. Így biztosíthatjuk, hogy a digitális képek sorrendje jól áttekinthetően megegyezzen az eredeti dokumentum oldalainak sorrendjével. Szkennelés után ellenőrizzük, egyeztessük az oldalszámokat és a fájlneveket, így könnyen kideríthető, ha valamely oldalt nem szkenneltük be: vagy azért mert hiányzik az eredetiből, vagy azért mert átsiklottunk rajta. Ezzel az egyéb hibákat is kiszűrhetjük (hibás oldalszámozás az eredetiben, esetleg duplán szereplő oldalak). - 184 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.5.5. Futtatás, a szükséges számítógép, teljesítmény Ha rendelkezésre állnak a digitális állományok, kezdődhet a szövegfelismerés, a futtatás. A hatékonyság érdekében ez jellemzően éjszaka végzett művelet, ebben a munkafázisban nincs szükség emberi beavatkozásra. Ugyanakkor a számítógép erőforrásait meglehetősen igénybe veszi, így nem érdemes futtatás közben mást is csinálni ugyanazzal a géppel. A helyesen beállított paraméterek (a dokumentum nyelve, nyelvei, esetleg páros oldalak felosztása, kép elforgatása a helyes olvasási irány megtalálásához, stb.) mellett akár sok kötet felismerését végezhetjük el. A szövegfelismerés igen nagy számítási kapacitást igényel, ami erősen függ a dokumentum jellegétől, minőségétől. Biztosan lassan fut a nagy alakú, bonyolult szerkezetű, rossz minőségű szövegek felismerése, míg a kis alakú, egyszerű szerkezetű, jó minőségű szövegek sokkal gyorsabbak. Jelentős a különbség a színes és a fekete-fehér képek futtatási idejében is: utóbbiak lényegesen gyorsabban lefutnak. Nagy tömegű feldolgozáshoz nagy teljesítményű, nagy memóriájú és nagy háttértárral rendelkező gépek szükségesek. A megfelelő hatékonysághoz többmagos processzorral rendelkező gépeket használjunk (4-8 mag), mivel a programok képesek több szálon futni, s így olyan teljesítményt érhetünk el, mint 2-4 önálló gépen. Egy éjszaka alatt egy megfelelő gépen 4-5000 átlagos oldal OCR-ezése biztosan elvégezhető.
5.5.6. Kötegelt feldolgozás A tömeges digitalizálás hatékony fegyvere az OCR programok azon funkciója, amit kötegelt feldolgozásnak nevezhetünk. Megadhatjuk előre a képeket tartalmazó forrás-mappákat, beállíthatjuk a megnyitás, felismerés összes fontos paraméterét, beállíthatjuk a kimeneti formátumot (egy menetben akár többet is), az elmentendő elemek helyét. Ha mindent beállítottunk, akkor akár azonnal, vagy ha úgy tetszik, akár időzítve egy későbbi, alkalmas időpontban (pl. éjszaka vagy hétvégén) elindíthatjuk a feldolgozást, és a program automatikusan elkezdi az első input mappa feldolgozását, majd ha végez, folytatja a következővel, egészen az utolsóig. A futást bármikor megszakíthatjuk és egy későbbi időpontban újraindíthatjuk. Ha esetleg szükséges az egyes kötegek ellenőrzése, akkor is érdemes a képbetöltés, elemzés, felismertetés időigényes folyamatát ezen a módon automatizálni, és az operátori ellenőrzés után már csak a végső formátumban való mentést kell (újra) végrehajtanunk, a munka időigényes dandárja emberi beavatkozás nélkül tud történni.
5.5.7. Átnézés, javítás Miután lefutott az OCR, létrejöttek a megfelelő köteg-fájlok. Ezután van lehetőségünk arra, hogy átnézzük az eredményeket és szükség esetén megtegyük a legfontosabb változtatásokat. Itt is hangsúlyozzuk, hogy automatikus szövegfelismerésről van szó, tökéletes szöveg-előállítás ezen a módon nem lehetséges (nem érdemes), itt egy “elég jó” eredményt szeretnénk elérni, a lehetséges maximumot kihozni, figyelembe véve a ráfordításokat. A köteg átnézése során ne vállalkozzunk a teljes szöveg szisztematikus kijavítására, ennek időigénye vállalhatatlanul nagy! Kizárólag egy-egy oldal egészére vonatkozó hibajavításokra hagyatkozhatunk. Ezek az alábbiak lehetnek: 1
Olyan ferdén történt az oldal szkennelése, hogy manuálisan kell kiegyenesíteni a képet.
2
Szöveget is képként ismert fel a program. Ennek jellegzetes esete, hogy amikor sok kép és képaláírás van egy oldalon, bizonyos képaláírások részéve válnak a képnek. Külön keretezzük meg a képaláírást önálló szövegdobozként.
3
A program nem ismerte fel helyesen a hasábokat, a hasábok egymásba folynak. Ekkor manuálisan meghúzva a helyes hasábbeosztást, jelentősen javul a szövegfelismerés.
4
Helytelen nyelvbeállítást alkalmaztunk. Ha nagyon sok oldalnál jelentkezik a hiba, érdemes az egészet újrafuttatni a helyes nyelv(ek) megadásával, ha csak néhány oldalon, akkor ezekre megadhatjuk oldalanként a helyes nyelvbeállítást és csak ezekre futtatjuk újra felismerést. - 185 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5
A program nem ismerte fel helyesen a szöveg olvasási irányát, ezért ezt manuálisan meg kell adnunk.
6
Lapszéli jegyzeteket tartalmaz a kötet és a főszöveggel azonos keretbe került. Manuálisan javítsuk, tegyük másik keretbe a jegyzetet.
Külön kell beszélnünk a táblázatokról. A gyakorlatban a táblázatok igen nagyméretűek, bonyolultak lehetnek. Már az is igen sokat javít a felismerésen, ha rásegítünk a programnak, megadjuk (ha rosszul ismerte fel), hogy táblázatról van szó. Ekkor hihetetlen intelligenciával kielemzi az oszlopokat, sorokat és megpróbálja megtalálni a legjobb cellabeosztást. Fontos, értékes, sok szöveget tartalmazó táblázatoknál érdemes ezt ellenőrizni, a javításra az alábbi lehetőségeink vannak: 1
Cellák összevonása, szétválasztása.
2
Cellaméretek változtatása.
3
Olvasási irány meghatározása akár cellánként külön-külön. Igen gyakori a nagyméretű táblázatoknál, hogy függőleges írásirányt alkalmaznak, amit nem mindig ismer fel a program. Ezt manuálisan javíthatjuk.
Ügyeljünk azonban arra, hogy az elért eredmény és a ráfordított munka arányban álljon egymással! Az OCR program felületén egyszerre láthatjuk az oldalak képét a felismerési keretekkel és egy szövegszerkesztő-szerű felületen a felismert, a kimenetnek megfelelően formázott szöveget. Az előbbin lehet az oldalés keretszintű javításokat eszközölni, az utóbbin pedig a szövegszintűeket. A program vizuálisan kiemeli az általa bizonytalan felismerésűnek vélt betűket, és a felismerési szótárában nem szereplő szavakat is. Ezeken könnyen végiglépdelhetünk, és eldönthetjük, javítjuk-e őket vagy sem. Nem ritkán ugyanis a bizonytalannak jelölt szavakat ennek ellenére helyesen ismeri fel a program. Ha egy oldalon bizonyos százaléknál több a bizonytalan karakter (mert például olyan nyelvű szöveg van rajta, amit nem állítottunk be felismerési nyelvnek), arra további, az egész oldalra vonatkozó vizuális figyelmeztetést ad. Sokszor elegendő csak az így megjelölt oldalakat alaposabban ellenőrizni. A szövegjavítás során használhatunk globális cseréket is: amennyiben tipikus félreolvasások vannak, megkockáztathatjuk egységesen kijavítani őket. Javíthatjuk a felismerést hozzáadott szótárral, jellemzően tulajdonnevekkel, az adott szakterület speciális szavaival. Fejleszthetjük a programot a nem jól felismert karakterek megtanításával. A gyakorlati tapasztalatunk azonban az, hogy ezen lehetőségek használatával csak korlátozott eredményeket tudunk elérni. Egy szótár összeállítása, egy betűcsomag megtanítása igen jelentős ráfordítást igényel; nagyon ritkán fordul elő, hogy a befektetés megtérüljön és jelentősen javuljon az eredmény.
5.5.8. Mentés, output A felismert szövegünket egy sor formátumban menthetjük, a beállítható paraméterek az adott fájltípusnak megfelelőek. Fontossága okán itt most csak a három leggyakrabban használt formátumról beszélünk.
5.5.8.1. RTF/DOC/DOCX A legnépszerűbb szövegszerkesztők formátumának előnyei a szövegesen mentett dokumentum kis mérete, az eredetit hűen tükröző formázás, a további szerkeszthetőség, képek beágyazásának lehetősége. Képesek a fejlécként, lábjegyzetként, tartalomjegyzékként, címfokozatokként azonosított elemek átvitelére ebben a formátumban, így a szöveg további használatát jelentősen megkönnyíti. A szerkeszthetőség illetve az eredeti formázás pontos megőrzése két egymással ellentétes követelmény, annak tükrében, hogy melyik funkcionalitás kerül túlsúlyba menthetünk akár formázatlan, nyers szöveget, de másik végletként, szövegdobozokkal precízen formázott, ám emiatt nehezebben újraformázható elrendezést is. A felhasználás szándéka szerint válasszunk!
- 186 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.5.8.2. PDF, PDF/A Az Adobe évek során fokozatosan ipari szabvánnyá vált formátuma abban a legerősebb, amit a neve sugall: Portable Document Format, azaz hordozható dokumentum formátum. Szöveget és képet is tartalmazhat, kompakt, jól tömöríthető, platformtól függetlenül az eredetivel megegyezően képes megjelenni, beágyazva tartalmazhatja a változatlan megjelenéshez szükséges betűtípusokat, belső navigációs, annotáló eszköztárral, akár még multimédia elemek beágyazásával is rendelkezik. A PDF/A ennek az ISO által elfogadott, szabványosított speciális esete a hosszú távú megőrzés céljaira. Kötelezően beágyazott betűtípusokat tartalmaz, tilos benne egy sor esetleges inkompatibilitást okozó eszköz használata: audio és video elemek, Javascriptek, bizonyos tömörítés fajták. A felismert szöveget elmenthetjük szöveges PDF-ként, ami igen kisméretű, és reprodukálja az eredeti dokumentum összes elemét (betűtípusát, betűméretét, keretbeállításait, táblázatait, stb.). Hátránya, hogy az összes OCR hibát megtartja, így a hitelesség elvész.
5.5.8.3. Kereshető PDF Az automatikus OCR eredményeképpen létrejött anyagok legelterjedtebben használt formátuma a kereshető, vagy más néven kétrétegű PDF (angolul leginkább a ‘searchable PDF’ kifejezést használják). Szöveges dokumentumok tömeges digitalizálása céljára jó megoldásnak tűnik minden oldalról: a hiteles reprodukció, a hosszú távú megőrzés, az interoperabilitás, a kereshetőség és az előállítási ár szempontjából egyaránt. A világban egyre szélesebb körben terjedő technológia lényege, hogy az eredeti dokumentum (könyv, irat, folyóirat, stb.) képként kerül digitalizálásra, azaz beszkenneljük, majd az automatikus karakterfelismerés segítségével a képből szöveget állítunk elő. Az előállított, mentett dokumentum felső, látható rétegét a kép alkotja, az alsó, láthatatlan rétegét pedig a szöveg. A szöveg és a kép teljesen fedésben van egymással, a szavak – a betűk képe, és alatta a szöveg milliméterre pontosan ugyanazon a helyen találhatók. Az így létrehozott állományok egyrészt alkalmasak a dokumentum hiteles megjelenítésére, hiszen az eredeti dokumentum képét látjuk (facsimile), másrészt lehetővé teszik a szöveges kezelést, keresést is. Ez utóbbi legfontosabb eleme a teljes szövegű keresőrendszer, amely lehetővé teszi, hogy tetszőleges szóra, kifejezésre kereshessünk. A másik fontos haszna, hogy lehetőségünk van a szöveg kiemelésére, azt szövegszerkesztőnkbe beilleszthetjük, átemelhetjük. A puszta szövegen kívül a PDF fájlok további információt tartalmazhatnak a dokumentum szerkezetéről, például logikai részeiről, a képekről, táblázatokról, bekezdésekről. Ez az információ a PDF-címkékben kerül kódolásra, és a szöveg további felhasználásakor nyer különös jelentőséget. Ha pl. egy “tagged” (=cimkézett) PDF fájlból a kijelölt szöveget a vágólapon át egy szövegszerkesztőbe illesztjük, vagy exportáljuk az oldal/fájl szövegét valamilyen szövegformátumba, az megőrzi az eredeti bekezdések tagolását, a sorvégi elválasztott szavakat pedig összevonja. Enélkül minden sor végén kemény sortörés szerepel, ami nagyon megnehezíti a további munkát. A kétrétegű formátumnak lényegesen nagyobb a tárhely igénye, mint a szöveges PDF vagy WORD állományoké, hiszen a szöveg mellett a képet is tartalmazza. Nagyon nehéz döntést jelent a felső réteget alkotó kép mentési paramétereinek meghatározása. Ha az eredeti szkennelt képpel megegyezőre állítjuk be (300-400 DPI színes JPG), egy sok oldalas dokumentum esetén igen nagy PDF fájlok jöhetnek létre. Ha fekete-fehérben mentjük, lényegesen kisebb méretet kapunk, viszont az előforduló színes vagy szürke képek élvezhetetlenek lesznek. Sajnos az OCR programok nem adnak jó automatikus lehetőséget a vegyes mentésre. A gyakorlatban fekete-fehér mentést követően a színes (az eredeti dokumentum rossz minősége miatt fekete-fehérben esetleg olvashatatlan) oldalakat színesben mentjük ki, majd a megfelelő oldalakat az Acrobat Professional program segítségével színesre cseréljük a teljes fekete-fehér állományban. A legújabb programverziók egyik újítása a vegyes raszter tartalom használata (MRC, Mixed raster content) a kimeneti PDF fájlban. Azon a tapasztalaton alapul, hogy a tipikus szöveges oldalak képe egy halvány tónusú, finom átmenetű, további információt nem tartalmazó háttérre, és a szöveges illetve képi információt tartalmazó “előtérre” szeparálható, amely két réteg eltérő algoritmussal tömöríthető igazán hatékonyan. Az ered- 187 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
mény egy színvilágában az eredetihez közelítő, ám az eredeti színes képhez viszonyítva töredék méretű állomány. Megjegyezzük, hogy nem minden esetben ad ez a módszer vizuálisan szép eredményt, ha fontos a kicsi méret, akkor érdemes vele egy próbát tenni, és csak ha kielégíti az igényeinket, akkor használni. A hosszú távú megőrzéshez egyelőre nem javasolt formátum. Ugyancsak nagyon nehezen eldönthető kérdés, hogy mi legyen egy PDF fájlban. A mi javaslatunk, jól bevált gyakorlatunk az, hogy egy fizikai kötet, mappa alkosson egy PDF fájlt. Kétségtelen, hogy ez időnként igen nagyméretű, emiatt időnként nehezen állítható elő és a kezelése sem egyszerű. Az ettől eltérő más módszerek (oldalanként, cikkenként, fejezetenként egy PDF) kétségtelenül kisebbek, viszont igen nagy számuk miatt ugyancsak nehezen kezelhetők. Szükség esetén el lehet térni az egy kötet = egy PDF szabálytól. Például előfordulhat, hogy egy folyóirat egy évfolyamát két kötetbe kötötték, de ettől függetlenül folyamatos oldalszámozású. Ekkor, ha a fájl méretei ezt lehetővé teszik, érdemes lehet összevonni a két kötetet egy PDF fájlba. Egy kötet több részre osztása akkor indokolt, ha kezelhetetlenül nagyméretű az állomány (nagy alakú, színes), ekkor kénytelenek vagyunk 2 vagy több részre osztani, két vagy több PDF-be menteni az anyagot.
5.5.9. PDF kezelés Miután előállítottuk a végleges (fekete-fehér és színes) PDF állományokat, számos egyéb teendőnk van. Egyrészt a PDF fájl tulajdonságaiban a Title (Cím) és az Author (Szerző) mezőben adjuk meg a kötet azonosító adatait! Ez lehet egy könyv címe, és szerzője, de egy folyóirat neve, évfolyama is. A későbbiekben a PDF megjelenítésekor, azonosításakor (a beállításoktól függően) vagy ez a szöveg, vagy a PDF file neve fog szerepelni. Amennyiben a kötetünknek értelmes belső szerkezete van, helyezzünk el benne könyvjelzőket (bookmark), hogy jobban tudjunk navigálni a kötetben. Jellemző könyvjelzők: ●
könyv fejezetcímei (pl. 1. fejezet. Magyarország története)
●
folyóirat lapszámok (pl. 51. szám 1895. december 23.)
●
jegyzőkönyv esetén az ülésnap dátuma, témája
●
Cikkszerző, cím: tanulmányköteteknél fontos felvenni az adott cikk adatait (pl. Borsa Iván: Középkori oklevelek)
●
oldalszám: annak érdekében, hogy adott oldalra gyorsan elnavigálhassunk a fentiek mellett érdemes egy oldalszám könyvjelzőt használni, ami a PDF fájlban az eredeti könyv adott oldalszámú lapjára mutat. Csak ezzel tudunk gyorsan, könnyen adott oldalra ugrani (a számozatlan mellékletek, számozott mellékletek miatt a PDF fizikai oldalszáma erre nem használható). Például a kötetekben gyakori mutatókat csak az oldalszám-bookmarkok révén tudjuk hatékony navigálásra használni.
A könyvjelzők a szöveg mellett az oldal linkjét tartalmazzák, segítségükkel egy konkrét oldalra (az adott lapszámhoz, egy cikk kezdetéhez, valamelyik oldalra) ugorhatunk. Hátránya ugyanakkor, hogy csak adott oldalra tudunk ugrani a segítségével, az oldalon belüli tartalmi elemeket nem tudjuk belinkelni vele. Nem teszi lehetővé például, hogy egy oldalon több cikket különböztessünk meg, illetve, hogy pontosan jelezzük, hogy hol kezdődik, és hol végződik egy adott cikk. A könyvjelző egy oldalra hivatkozó mutató, nem pedig az oldalon szereplő hierarchikus cím-elem. A könyvjelzőknek (cikkek, fejezetek) igen jó szövegminőségűnek kell lenniük (99,99%), ezért, bár célszerűnek látszik az esetleg a kötetben meglévő tartalomjegyzék OCR-jének felhasználása, a tapasztalat azt mutatja, hogy (különösen régebbi szövegek esetén) jobb manuálisan rögzíteni, korrektúrázni a szöveget.
5.5.10. OCR kontra gépelés Bár a világban egyre elterjedtebb az automatikus szövegfelismerés (gondoljunk csak a Google Books projektre, amiben mintegy 15-20 millió könyvet dolgoznak/dolgoztak fel), érdemes értékelni ennek előnyeit illetve hátrányait. Első és legfontosabb megállapításunk, hogy gyors, olcsó és “elég jó” szöveg-előállítást csak ezen a módon lehet előállítani. Több millió oldal digitalizálása, ésszerű költségekkel való feldolgozása csak ezen a módon lehetséges. Ugyanakkor ez a technológia alkalmatlan nyomtatott vagy e-könyvek készíté- 188 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
sére, a nyomdai minőségű szöveg előállítására. Utóbbi esetben mindenképpen szükség van egy nagyon alapos korrektúrára, annak a visszavezetésére, és itt nem csak a szövegről, hanem nyomdai jelekről (gondolatjel, idézőjel, vessző, pontosvessző, elválasztásról) is szó van. Egy nyomdakész anyag előállítása négy részből áll: szövegszedés, korrektúra, visszajavítás, tördelés. Ebből a szövegszedés (szöveg-előállítás) a teljes ráfordításból maximum 30%-ot tesz ki. Az OCR technológia ennek a lépésnek egy részét váltaná ki, ha tökéletesen működne. Ebben az ideális esetben is kell költséggel számolnunk (ha csak 30-50%-kal is), viszont biztosan állíthatjuk, hogy a szövegkorrektúra és a többi hiba kijavítása, az újratördelés időigénye jelentősen megnő, így a költségek megnövekednek. A következőkben megpróbáljuk néhány számmal jellemezni az eltérő munkafolyamatokat! A szöveg-előállítás költsége a közbeszerzési adatok alapján: 250-300 Ft + áfa / 1000 karakter. (Ilyen jellegű közbeszerzés néhány évvel ezelőtt gyakoribb volt, ma már szinte sosem fordul elő, tehát az adatok 2-3 évesek.) Egy átlagos könyvoldal 2500-3000 karakter, tehát a digitalizálás ára 600-900 Ft. Az ennél nagyobb méretű (pl. napilapok, közlönyök), átlagos karakterszáma 10-15.000, melynek költsége 3000-5000 Ft. Egy átlagos szedő (és korrektor is) naponta 80-100.000 karakternyi szöveget képes feldolgozni. Egy képzett szedő esetén a szedés minősége, minimum 99,8%. Ebben benne van az anyag bizonyos szintű strukturálása is: lábjegyzetek, alsó, felső index, speciális nyomdai jelek, a szükséges tag-ek elhelyezése, mint pl. szerző, cím, illetve a szöveg hierarchikus strukturálása, mint pl. címsorok. A korrektornak a már igen jó minőségű szövegben kell megtalálni azt a néhány hibát, ami persze nem egyszerű (és igen időigényes) feladat. Kétszer kell elolvasnia a szöveget, egyszer az eredetit, egyszer pedig a digitálisat és az eltéréseket azonosítani. A nagytömegű gépi szövegfelismerést tartalmazó feldolgozások átlagáráról, mivel ez mostanában felfutó terület, nem sok információ van. A jelenlegi adatok alapján 50-120 Ft + áfa / oldal között szórnak a vállalási árak attól függően, hogy milyen minőségű a forrás, milyen szkennerrel (dokumentum- vagy robot-) lehet digitalizálni, illetve milyen nehézségű a feldolgozandó szöveg, illetve ennek alapján milyenek a megbízó elvárásai. Hadd jegyezzük itt meg, hogy igen gyakran találkozunk kevéssé (vagy egyáltalán nem) definiált minőségi előírással, illetve a másik véglet is gyakori, hogy olyan irreális elvárásokat támaszt a szövegminőséget illetően a megbízó, amelyeket nyilvánvalóan nem lehet teljesíteni. Fontos lenne tehát, hogy a megbízók is tisztában legyenek a lehetőségekkel, a korlátokkal. A fenti számok alapján elmondhatjuk, hogy kisebb alakú könyvek esetén 15-20, nagyobb méretűeknél akár 40-50-szeres különbség van a kétfajta feldolgozási mód között. Nagy tömegű feldolgozás (különösen nagy alakú kötetek esetén) kizárólag így lehetséges. Nem mindegy, hogy egy adott anyag feldolgozása 1 millió vagy 50 millió forintba kerül, még ha ez a szövegminőség terén kompromisszummal jár is. Átlagos (akár 19. századi) könyvek, folyóiratok esetén 98-99%-os szövegjóságot lehet elérni, jobb minőségű kötetek esetén 99,5% körüli arány is elérhető. Hogy ezt megfelelően értékeljük, vessük össze a szedő 99,8%-ával (1000 karakterből 2 hiba, 98% esetén ez 20 hiba, 99,5% esetén 5). Egy 15.000 karaktert tartalmazó (nagy alakú) 19. századi lap estén a 98% azt jelenti, hogy egy oldalon biztosan találunk 300 (!) hibát, míg a gyakorlott szedő maximum 30 hibát követ el. Ugyanakkor hiába vannak magas elvárásaink, ha elképzelhetetlenül magas összeg egy adott anyag “tökéletes” feldolgozása. Hadd említsük példaképpen a Magyar Távirati Iroda 1920-40 közötti teljes archívumának feldolgozását! A mintegy 1 millió oldalnyi anyagról – feldolgozhatóság szempontjából – minden rossz elmondható: nagyon gyenge minőség, savas papíron, igen rossz minőségű stencilezett, kopott, egyenetlenül nyomott szöveg, sok javítással, sőt, mivel az eredeti nyomat gyakran kopott volt, az idők során tollal lettek “megerősítve” a betűk. Szóval nyilvánvalóan alkalmatlan mindenféle OCR-ezésre. Adatrögzítéssel a feldolgozás ára (most ne számoljunk korrektúra költséget, fogadjuk el a 99,8%-os eredményt; legyen 150 Ft / 1000 karakter), figyelembe véve, hogy egy oldalon átlagosan 3000 karakter van, mintegy 450 millió forint és mintegy 30.000 nap / 100 év (persze, ha 10 ember dolgozik elég 10 év is). Ehhez képest még egy bármilyen rossz OCR is jobb a semminél, eredményeképpen a keresett szavak 30-50%-át azért megtalálhatjuk, maga a hiteles szöveg pedig a kép-réteg folytán elolvasható.
- 189 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
5.5.11. OCR – mikrofilmről A tömeges digitalizálásról szóló tanulmány keretében megvizsgáltuk, összehasonlítottuk a BFL-ben kétféle forráskép OCR eredményét. Arra a kérdésre kerestük a választ, hogy ha kereshetővé akarjuk tenni az intézményben meglévő jelentős mennyiségű iratanyagnak azt a részét, amiről mikrofilm felvétel készült (kb. 14 ezer tekercs) és ami nyomtatott vagy gépelt szöveget tartalmaz (tehát a teljes szövegű keresés szempontjából relevanciával bír), akkor érdemes-e a digitalizálást a mikrofilmtekercsek szkennelésével végezni, avagy a papír eredetiket kell használni erre a célra. A próbához a kiinduló anyag az MDP pártülések jegyzőkönyveinek 41 oldalas mintája volt. Az eredeti anyag 1952-es, viszonylag vékony, silány minőségű papírra készült, írógépeléssel, változó minőségben: egyes oldalakon elmosódott, egyenetlen erősségű (egyes betűk halványak), időnként kissé "ugráló" sorok (egyes betűk lejjebb, mások kicsit feljebb). - 190 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
A papír eredetiket beszkenneltük 300 dpi 24 bites színes formátumban az A1 Zeutschel könyvszkenneren, valamint az ugyanezen papírállományról készült mikrofilmet szintén 300 dpi 8 bites szürke árnyalatban. Mindkét esetben kb. azonos, “80%-os” JPEG formátumban mentettünk. Az OCR-t Abbyy FineReader 11 programmal végeztük. A program beállításai azonosak voltak mindkét esetben. Az Abbyy kötegbe úgy töltöttük be a képeket, hogy ugyanazon oldal két verzióval készült felvétele egymás után következzen a könnyebb összehasonlíthatóság érdekében. Az OCR “jóságát” ugyan nem egyszerű egzakt módon megítélni (lásd az OCR-ről szóló fejezetet), de azért az OCR program által adott “bizonytalansági százalék” a tapasztalatok szerint jó közelítéssel arányos a felismerés jóságával. Az alábbi táblázat a vizsgált 41 oldalra tartalmazza az összes azonosított és a bizonytalan felismerésűnek ítélt karakterek számát és százalékos arányukat:
Az összehasonlítás eredményeképpen azt láthatjuk, hogy a közvetlenül a papíreredetiből végzett OCR is meglehetősen gyenge, 22%-os bizonytalansági mutatót produkált, de a mikrofilmről készült még ennél is szignifikánsan rosszabb, 28%-os mutatóval rendelkezik. Hogy ezt a különbséget jelentősnek tekintjük-e, az a megítéléstől függ: mindkettő jóval alatta van a szokásosan elfogadhatónak minősített, 98%-os jóságnak. Talán egy jó minőségű OCR-t lehetővé tevő eredeti anyagon végzett próba döntőbb lehetne. Vajon mi lehet a különbség oka? Az alábbi ábrán egymás mellett láthatjuk ugyanannak az oldalnak a kétféle forrásképét. A baloldali 21%-os, a jobboldali 33%-os bizonytalanságot adott. - 191 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Valahogy az a benyomásunk, hogy a jobboldali, mikrofilmről készült felvétel keményebb, nagyobb a kontraszt az erőteljes és a halovány betűk között, a szemünk is jobban olvassa a baloldali, simább érzetet keltő betűket.
Ha a két kép hisztogramját (tónuseloszlását) megnézzük, benyomásunk igazolódni látszik. Nézzük meg ugyanezt kissé nagyítva is:
- 192 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Így felnagyítva már elbizonytalanodunk: ugyan a jobboldalin a halvány részletek néha szinte eltűnnek, mégis, a baloldaliban valahogy összemosódni látszik a betű és a háttér. Ebben a nézetben a jobboldali tűnik olvashatóbbnak. Azt tudjuk, hogy az OCR program az input képet fekete-fehérré alakítja, és azon végzi a felismerést (lásd az OCR-ről szóló részt), nézzük meg, melyikből mit is csinál! Itt már elég látványos a különbség: a baloldalin (ami Zeutschellel készült) telt, néha összefolyó, bezáródó betűalakot láthatunk, míg a jobboldalin (ami mikrofilmről készült) számos szakadt, hiányos betűalak látható, és ez utóbbi jóval gyengébb OCR-t eredményezett.
- 193 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Még egy tényezőt kell figyelembe venni a kiinduló kérdés megválaszolásához: mennyi időbe-pénzbe kerül az OCR-re bocsátható állományok előállítása az egyik illetve a másik módszerrel? Ha az eredeti iratokat akarjuk beszkennelni, akkor általában két eszköztípussal számolhatunk: ●
önálló lapokból álló vagy lapokra szedhető anyag esetén dokumentumszkenner
●
bekötött vagy sérülékenysége miatt az előző eszközzel nem digitalizálható anyag esetén könyvszkenner
Az OCR-en kívül az alábbi feladatokkal kell számolni: ●
raktárból való kihordás
●
előkészítés: portalanítás, kapcsok, egyebek eltávolítása
●
lapokra bontás, vágás (ha szükséges és lehetséges)
●
digitalizálás
●
ellenőrzés
●
fájlátnevezés, metaadatok
●
elpakolás, újrakötés (ha szükséges)
●
archiválás
●
publikálás (adatbázis)
Lapra szedett anyag esetén kb. 3000 lap/óra (duplex) tempóval lehet számolni, míg könyvszkennerrel egy nagyságrenddel kisebb, kb. 300 lap/óra (1 lap = 2 oldal) sebességgel. Az egyszerűbb kalkuláció kedvéért tekintsük úgy, mintha fele-fele arányban lehetne a két eszköztípust használni, így a digitalizálás tempóját átlagosan óránként 1500 lapra tehetjük. Mikrofilm digitalizálás esetén: ●
előkészítés: ragasztás, tekercselés
●
digitalizálás: szkennelés, szerkesztés (keretezés), mentés
●
ellenőrzés
●
fájlátnevezés, metaadatok
●
archiválás
●
publikálás (adatbázis) - 194 -
Levéltári digitalizálás • Arcanum, 2012
5. Digitalizálás
Mikrofilm feldolgozása esetén idő és költségnövelő tényező még a szükséges nagy temporális tárhely biztosítása. A tapasztalatok szerint 1 tekercs feldolgozása kb. egy órát vesz igénybe (Zeutschel OM 1600 mikrofilmszkenner, 16 mm-es film, 2500 felvétel/tekercs, egy felvétel = 2 oldal), tehát a tempó óránként 2500 lap. A konklúzió: ha állományvédelmi megfontolások nem kényszerítenek másra, akkor OCR céljaira valószínűleg érdemesebb a mikrofilmek digitalizálása helyett az eredeti papírdokumentumokat beszkennelni. Megjegyezzük ugyanakkor, hogy ha a mikrofilm digitalizálásnak nem célja az OCR kiszolgálása, akkor az elfogadható olvashatósághoz kisebb felbontású képek előállítása is elégséges lehet, amely jelentősen növelheti a feldolgozás hatékonyságát. Másik megjegyzésünk, hogy mivel megfelelő körülmények között tárolva a mikrofilmek akár több száz évig (!) megőrzik a tárolt információt, a hosszú távú megőrzésben a szerepük továbbra is jelentős lehet.
- 195 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
6. Metaadatok 6.1. A metaadatokról – általában A hétköznapi életben számos olyan alkalommal készítünk, használunk metaadatokat, amikor talán nem is vagyunk ennek tudatában. Például amikor beírjuk egy elektronikus levél tárgyát, vagy dátumot írunk egy feljegyzésre, vagy fájlnevet adunk egy szkennelt képnek, akkor metaadatot hozunk létre. Strukturált metaadatokat használunk, amikor egy elektronikus katalógusban cím, szerző vagy dátum alapján keresünk rekordokat. Ha megtalálunk valamilyen információt, metaadatok segítenek megérteni a kontextust, esetleg további információkhoz vezető linkeket kínálnak. Az információkat, rekordokat úgy kell leírni, hogy mások is megérthessék, miről szólnak, milyen kontextusban és céllal jöttek létre, és hogy könnyen megtalálhassák azokat, ha szükségük van rá. Ezeket a leíró adatokat nevezzük metaadatnak. A metaadatokat arra használjuk, hogy azonosítsuk, hitelesítsük, megfelelő kontextusba helyezzük az információkat, és olyan rendszereket alkossunk, amelyek lehetővé teszik az ilyen adatok létrehozását, menedzselését, felhasználását. A metaadatok – a közkeletű, leegyszerűsített meghatározás szerint – adatok az adatokról. Egy kissé konkrétabb, részletesebb meghatározás szerint egy levéltári, közgyűjteményi közegben a metaadatok az őrzött, vagy katalogizált objektumok tartalmi és formai leírásai valamilyen strukturált, szabványos séma szerint, amelyek interoperabilitást lehetővé tevő módon megmutatják az objektum helyét a gyűjtemény struktúrájában, tartalmilag feltárják és formailag leírják (az interoperabilitás együttműködési képességet jelent, tehát hogy a metaadatok olyan szabvány szerint készülnek, hogy más rendszerekkel, platformokkal kompatibilisek, átjárhatók legyenek, lehetővé tegyék az adatcserét, a közös keresést). A különböző tudományterületek és célok igényeinek kiszolgálására számos metaadatséma jött létre az idők során könyvtári és levéltári területen is. Egy-egy séma több célt is szolgálhat, illetve azonos célra több séma is használható. Ezek gyakran kisebb-nagyobb mértékben átfedő elemekből állnak. Fontos ugyanakkor legalább egy területen belül a standard sémák kialakítása és használata, ilyenek biztosíthatják a különböző környezetek és közösségek közötti átjárhatóságot. A metaadatsémák fizikailag leggyakrabban XML formátumú hierarchikus listák, minden egyes elemükre megadott leírás- és szabályrendszerrel. Ez a forma lehetővé teszi az automatizálható, programozható adatcímkézést, az egyes elemek szerinti indexelést, keresést, a formázott megjelenítést, és a különböző metaadatsémák egymásba való konverziójának lehetőségét. Ez utóbbi különösen fontos az interoperabilitás biztosítása szempontjából, hiszen nagyon gyakori szituáció, hogy eredetileg eltérő sémák szerint címkézett adatbázisokat akarunk együtt kezelni: ilyenkor a két állomány elemeit meg kell feleltetnünk egymásnak, elviselhető kompromisszummal “közös nevezőre” kell hozni őket. Például a könyvtári rendszerekben használatos MARC séma és a Dublin Core adatelemei kölcsönösen megfeleltethetők egymásnak. (Természetesen súlyos kompromisszumok árán, de ha nagyon különböző szerkezetű anyagokat akarunk együtt kezelni, egyben keresni bennük, akkor nincs más választásunk, mint ez a megfeleltetés: http://www.loc.gov/marc/marc2dc.html). Szerencsés már eleve valamilyen standard szabvány szerint dolgozni, azoknak valahol a világban valószínűleg már rendelkezésre áll a konvertálásukhoz szükséges kölcsönös megfeleltetés. Ha azonban “történeti” vagy egyéb technikai okokból mégsem szabványos a sémánk, a korrekt XML szerkezet lehetővé teszi az átalakítást. A digtalizált objektumok rendezése már a fájlnév, illetve az azokat tároló könyvtárstruktúra kialakításával elkezdődik. A fájlnév minden egyes felvételnél egyedi, és akár metaadatokat is tartalmazhat, hiszen a fájl elnevezésében szerepelhet például az oklevél kibocsátásának dátuma is. A mappastruktúra pedig leképezheti a gyűjtemény hierarchikus szerkezetét, tartalmi információ sokszor csak ezekhez a mappa-szintű elemekhez társítható, az állomány legalsó szintű elemeinek metaadatai már megegyeznek: pl. egy adott napi közgyűlési jegyzőkönyv oldalai (ha nincs bennük további tartalmi feltárás) a puszta oldalszámon kívül – leíró - 196 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
metaadatszinten – már nem különböznek egymástól. Ezen nem szabványos metaadatok kezelhetők a dokumentumoktól külön álló egyszerű adatbázis-kezelő szoftverrel, pl. Excellel is. Bizonyos speciális gyűjtemények esetén előfordulhat, hogy annyira egyedi az anyag szerkezete, hogy nem találunk alkalmasnak tűnő szabványos metaadatsémát, illetve ha olyan adatokat is rögzíteni kell, melyet a különböző metaadatszabványok nem tesznek lehetővé. Ilyenkor esetleg indokolt lehet, hogy saját, jól átgondolt adatstruktúra alapján tároljuk a leíró adatokat, illetve külön az adott gyűjtemény számára kifejlesztett szoftverrel tegyük lehetővé a keresést és megjelenítést. A manapság is használatos nemzetközi levéltári szabványokat az 1990-es évek elején kezdték el kidolgozni. A munka hajtóerejét az adta, hogy a számítógépek, a számítógépes hálózatok, elsősorban az internet rohamléptű elterjedésével, illetve az elosztott forrásmegosztási és keresési technológia fejlődése következtében kicserélhetővé és a felhasználók számára is könnyebben kereshetővé, összevethetővé váltak a levéltári leírások. Ezek után természetes felhasználói igény is keletkezett az ilyen megoldásokra, hiszen így lehetségessé vált egyben lehetett látni a szétszórtan létező, de logikailag összetartozó iratokat és rekordokat. Ehhez viszont elengedhetetlen, hogy ezek a rekordok hasonló szerkezetűek legyenek. Az első lépés tehát a rekordok leírásának egységesítése volt. Az első szabványok egymástól többé-kevésbé függetlenül keletkeztek és elsősorban a levéltári segédleteket, a levéltári anyag leírását célozták meg. Az első két, általánosan elterjedt séma az EAD (= Encoded Archival Description) és az ISAD G (= General International Standard Archival Description) volt. A következő lépés az iratokban szereplő vagy azokat létrehozó entitások összevetése, öszszekapcsolása. A digitális objektumok kereshetőségét, az adatbázisok összekapcsolását és az adatok cseréjét szabványos protokollok és szolgáltató rendszerek biztosítják, számos területen de facto szabványnak tekinthető az Open Archives Initiative (OAI). A levéltári felhasználók leghőbb vágya, és mára már egyre inkább jogos elvárása, hogy elektronikus formában is hozzá tudjanak férni a legfontosabb levéltári gyűjteményekhez. Ennek egyik előfeltétele, hogy az anyagokról szóló metaadatok legyenek elektronikus formában elérhetőek. A felhasználó ezáltal pontos, naprakész és kereshető képet kap az állományról. Ezután következhet maguknak a – digitalizált – objektumoknak a tömeges elérhetővé tétele. Ezzel elérkeztünk a mához: a digitalizáló, tároló és megosztó (hardver és szoftver) eszközök, erőforrások újabb generációi immár költséghatékonyan teszik lehetővé a nagy volumenű levéltári digitalizálást és online közzétételt. Lehetőség van intézményi, nemzeti és nemzetközi szinten is nagy adatbázisok összekapcsolására, a közös keresésre, leíró és objektum rekordok egységes felületen való megjelenítésére. Ehhez egységes metaadatsémák, azok következetes használata és őket hatékonyan kezelni képes eszközök kellenek. A hazai levéltári területen, az egyedi leírást igénylő objektumok (térképek, tervek, oklevelek, fotók, stb.) esetén a Dublin Core metaadatséma, míg a csak csoportos leírást igénylő illetve lehetővé tevő objektumok és a fölsőbb hierarchia (teljes fond- és állagleírások) leírására az EAD szabvány tűnik a megfelelőnek. Az előbbi használatára már vannak jó gyakorlatok, viszont az EAD megfelelő implementálása még várat magára. Ezt nehezíti kissé a meglehetősen nagy elemszám (141 szemben a DC alapesetben 15 elemével). Az alábbi fejezetekben a digitalizált objektumokhoz közvetlenül kötődő – azokba bizonyos formátumok estén akár be is ágyazható – leíró és formai, technikai metaadatsémákat mutatjuk be részletesebben, míg azokról a strukturális és tartalmi leírást támogató sémákról, amik a magasabb hierarchikus szinten lévő információkat fogják egységes rendszerbe, csak röviden szólunk.
6.2. A Dublin Core metaadatséma 6.2.1. Létrejötte, alkalmazási területe, célja A Dublin Core Metaadat Kezdeményezés (The Dublin Core Metadata Initiative, DCMI) a Dublinban (USA, Ohio) 1995-ben tartott meghívásos workshopon született. Itt néhány tucat könyvtáros, digitális-könyvtár szakértő, tartalomszolgáltató és jelölőnyelv-szakértő találkozott abból a célból, hogy egy minden tudományterületen használható, könnyen érthető és alkalmazható forrás-leíró szabályzatot alakítsanak ki. Az alapadatelemek áttekinthető, kis csoportját tartalmazó eredeti Dublin Core metaadat elemkészlet hamarosan - 197 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
nemzetközi szinten is jelentős érdeklődést keltett a kultúra, a tudomány, a gazdaság, a jog, az államigazgatás és az információtechnológia számos területén. Megnőtt az érdeklődés az információforrások olyan leírásai iránt, amelyek könnyen elkészíthetők és szinte bárki számára megérthetők. Igen vonzónak tűnt a DC által biztosított lehetőség, hogy a legkülönbözőbb ágazatok és szakterületek szétszórt gyűjteményeinek információihoz való hozzáférés egy kis költségű megoldással jelentősen növelhető. Az egyes területek specifikus, részletesen strukturált leírásai továbbra is használatban maradnának, de a szakterületeken átnyúló, valamenynyi területen egyformán érthető, egyszerű és egyetemes forrásleírások alapján végezhető keresés nagyon kívánatos cél mindenki számára. Az internetet böngésző, az adott részterületen nem feltétlenül szakember felhasználók a Dublin Core limitált elemkészlete segítségével a számukra szükséges mélységben tájékozódhatnak a rendelkezésre álló információforrások között. A szakterületeken túlnyúló keresési lehetőségek iránti érdeklődés következtében egyre többen vettek részt a későbbi DCMI munkaértekezleteken, a széles körű interdiszciplináris és nemzetközi megegyezés eredményeként kialakult a Dublin Core 15 alap-adatból álló elemkészlete. Gondozását és fejlesztését a Dublin Core Metadata Initiative (http://dublincore.org/) végzi. A Dublin Core-t egy sor nemzeti és nemzetközi szabványügyi szervezet, kormányszervezet is elfogadta, és számos nyelven áll rendelkezésre (2003-ra ISO szabvány lett, az elkészült magyar fordítás 2004-ben magyar szabvánnyá vált – MSZ ISO 15836:2004). A DC nem arra való, hogy helyettesítsen bármely más, specifikus metaadat-szabványt, hanem inkább az a szerepe, hogy azokkal párhuzamosan használják: különböző területek “legkisebb közös többszöröseként”, vagy kiindulási alapként egyes szakterületek (könyvtárak, levéltárak, oktatási és kormányzati alkalmazások) szakmai közösségének testre szabott metaadataihoz. Az egyszerűség a DC erőssége és gyengesége: az egyszerűség egyrészt csökkenti a metaadatok előállításának költségeit és elősegíti távoli területek funkcionális együttműködését, másrészt viszont ez az egyszerűség nem képes visszaadni azt a jelentés- és formabeli, funkcionális kifinomultságot, amelyet az egyes szakterületek igényelnének, és a specifikus, összetett metaadatformátumok támogatnak. Néha kifejezetten zavarkeltő lehet a nem kellő részletezettség: például a ‘Dátum’ mező a digitalizálás időpontjára vagy az eredeti mű elkészítésére is vonatkozhat! A DC limitált elemkészlete a hozzáférhetőségért cserébe lényegében feláldozza a gazdag részletezettséget. A DC ugyanakkor kellően rugalmas ahhoz, hogy elemkészletének finomításával, egyes szakterületek “szókincséhez” való igazításával, pontosításával elfogadható mélységben képes legyen leírni különböző területeket is. Erre dolgozták ki az ún. minősítőket (qualifier), illetve a minősítőket tartalmazó sémát (Qualified Dublin Core, qDC) amellyel az egyes elemek jelentését pontosítani lehet. Például ha a ‘Dátum’ elemet minősítjük, akkor az lehet a készítés, a publikálás vagy a módosítás dátuma is. Az egyes elemek (pl. nevek, dátumok, helyszínek) tartalmának ábrázolását pedig különböző szótárak, értékkészletek, névterek használatával lehet egységesíteni. A gazdagabb elemkészletű formátumok – némi kompromisszum árán – konvertálhatók a Dublin Core formátumra az egységes keresés, vagy más rendszer számára szolgáló exportálás érdekében, az egyszerű DC rekordok pedig kiindulópontként szolgálhatnak összetettebb forrásleírások készítéséhez. A DCMI sok útmutatót és magyarázatot is kiad a Dublin Core elemkészletekhez, összegyűjti az egyes elemek használatával kapcsolatos legjobb gyakorlatokat, és segít a Dublin Core metaadatok különböző reprezentációinak kidolgozásában (pl. hogyan írjunk le DC metaadatokat XML-ben, vagy hogyan társítsuk ezeket weblapokkal). A Dublin Core használata rohamosan terjed, mivel bebizonyosodott, hogy egészen különböző területeken is alkalmazható. Létrejött egy globális konszenzus, miszerint a dokumentumok leíró metaadatai globálisan összekapcsolhatók, még ha ez az összekapcsolás szükségszerűen leegyszerűsítéseket, kompromisszumokat is tartalmaz. Nem szabad elfeledkeznünk arról, hogy a Dublin Core a dokumentumokhoz rendelhető metaadatoknak csak az egyik fajtája – ún. leíró metaadat –, amely a keresés és böngészés során a könyvtári katalóguscédulához hasonlóan segít abban, hogy hozzávetőleges elképzelésünk legyen a dokumentum tartalmáról. A metaadatoknak ezenkívül még rengeteg más szerepük is lehet, amelyeket a DC egyáltalán nem, vagy csak részben fed le. Ide tartoznak például a dokumentum belső struktúráját, külső, fölöttes hierarchiáját leíró, a karbantartását, a megőrzését segítő metaadatok, az objektum részletes fizikai tulajdonságait vagy a dokumentumhoz kapcsolódó jogosultságokat megadó metaadatok. - 198 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
A Dublin Core-nak tehát egyszerre vannak erősségei és gyenge pontjai. A metaadatok létrehozásának egyszerűsége csökkenti a költségeket és elősegíti az együttműködést, de nem jelent megoldást minden jelentésbeli és funkcionális követelmény kielégítésére. Ugyanakkor mindezekkel kiegészíthető és összeegyeztethető, azaz kiinduló alapként szolgálhat a teljesebb körű leírások elkészítéséhez. A minősítők használatával pontosítani lehet az adott mező jelentését, ezek használatával azonban veszít a Dublin Core az egyszerűségéből. Cserébe alkalmasabb lehet bonyolultabb, pl. könyvtári gyűjtemények feltárására is, a minősítők révén több eleme feleltethető meg a könyvtári gyakorlatban csaknem fél évszázada használt MARC mezőknek. A minősítők használatával kapcsolatban még az a probléma merülhet fel, hogy alkalmazásukkal a különböző gyűjtemények az erre vonatkozó szabvány hiányában önkényesen járhatnak el, különböző DC-alapú sémák kidolgozása lehetséges különböző alkalmazási területekre illetve eltérő gyűjtemények számára. A közös kezeléshez szükséges szintaktikai és tartalmi konverzióhoz meg kell feleltetni egymásnak a mezőket, ami ha formálisan egyszerű is, tartalmi szempontból nehezebb lehet, hiszen előfordulhat, hogy a katalogizálást végzők mást értenek egy-egy adatelem alatt, így más tartalom kerül az egymásnak formailag megfeleltethető mezőkbe. Foglaljuk össze ezek után a DC lényegét, majd ismertessük elemkészletét (a leíró szabvány alapján)! A Dublin Core metaadat elemkészlet információforrások szakterületeken átnyúló leírási szabványa. A Dublin Core alkalmazások számára tipikus információforrások az elektronikus dokumentumok. E szabvány csak azt az elemkészletet határozza meg, amelyet általában valamely feladat vagy alkalmazás összefüggésében használnak. Adott helyen vagy közösségben érvényesülő követelmények és szempontok kiegészítő korlátozásokat, szabályozásokat és értelmezéseket tehetnek szükségessé. E szabványnak nem célja olyan részletes ismérvek meghatározása, amelyekkel az elemkészletet speciális feladatokra vagy alkalmazásokra használják. A DC HTML-ben és XML-ben egyaránt címkézhető 15 adatelemet tartalmaz. Az elemek mindegyike szabadon válaszható és ismételhető, sorrendjük nem meghatározott, de az általános érthetőség céljából kötött szókészlet alkalmazása szükséges. Az elemek jelentését minősítőkkel lehet finomítani.
6.2.2. Elemkészlet Az elemek alábbi leírásában minden egyes elemhez, jelentésének egyértelmű meghatározása érdekében, leíró megnevezés tartozik, továbbá egyedi, gép által értelmezhető egyetlen, egybeírt szóból álló név, amelynek célja, hogy az elemek kódolási sémák szerinti leírását egyszerűbbé tegye. Bár bizonyos környezetek, mint amilyen a HTML, érzéketlenek a kis- és nagybetűkre, legjobb megoldásként ajánlatos következetesen ragaszkodni a következőkben megadott elemnevek írásmódjához, hogy elkerüljék a konfliktusokat arra az esetre, amikor metaadatokat később kivonatolnak vagy olyan, kis- és nagybetűkre érzékeny környezetbe konvertálnak, mint az XML. Valamennyi elem szabadon választható és ismételhető. A metaadatelemek tetszőleges sorrendben tüntethetők fel. Ugyanazon elemnek (pl. Létrehozó) többszöri előfordulása esetén a szolgáltató fontossági sorrendet határozhat meg, de ennek a sorrendnek a betartását nem minden rendszer szavatolja. A világméretű együttműködés elősegítése érdekében számos elem értékének megadására szabályozott szótár használata ajánlatos. Feltételezhető, hogy egyéb szabályozott szótárakat is létrehoznak az együttműködés érdekében meghatározott helyi alkalmazási területeken. Megnevezés Cím
Elemnév Title
Téma, tárgy- és Subject kulcsszavak, jelze-
Meghatározás Magyarázat / Értelmezést segítő magyarázat Az információforrásnak adott A cím – jellemzően – az a megnevezés, amenév. lyen az információforrás általában ismert. A dokumentumban szereplő szó, kifejezés vagy egyéb jelcsoport, amely a dokumentum megnevezésére szolgál. Az információforrás tárgyá- A tárgy jellemzően kulcsszavakkal, tárgyi nak megadása. kifejezésekkel vagy osztályozási jelzetekkel - 199 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
tek
Kiadó
Publisher
Az információforrás nyilvánossághoz közvetítéséért felelős entitás.
Dátum
Date
Az információforrás létezése során előforduló esemény időpontja (dátuma).
Típus
Type
Az információforrás tartalmának jellege, vagy fajtája.
Formátum
Format
Az információforrás fizikai vagy digitális megjelenési formája.
Azonosító Forrásazonosító
Identifier
Az információforrásra való, adott környezeten belüli egyértelmű hivatkozás. - 200 -
fejezendő ki, amelyek az információforrás témáját adják meg. Legjobb eljárásként szabályozott tárgyszójegyzékek elemeinek vagy rendszerbe foglalt osztályozási jelzetek használata ajánlatos. A dokumentum tartalmát leíró tárgyszavak, illetve kifejezések vagy osztályozási jelzetek. Példák a kiadóra: személy, testület vagy szolgáltató. Az entitás megadásakor jellemzően a kiadó nevét kell feltüntetni. Az a természetes vagy jogi személy, vagy jogi személyiséggel nem rendelkező gazdasági társaság, aki/amely anyagi és/vagy irányítási, igazgatási felelősséget vállal a dokumentum nyilvánossághoz közvetítéséért. Jellemzően az információforrás létrehozásával vagy hozzáférhetővé tételével kapcsolatos dátum. Legjobb eljárásként az ISO 8601 [W3CDTF] szerint meghatározott, kódolt formájú közlés ajánlatos, amely (többek között) az ÉÉÉÉ-HH-NN (YYYY-MM-DD) formában tartalmazza a dátumot. A dokumentumhoz kapcsolódó események dátuma. Az információforrás típusára vonatkozó, általános kategóriákat, funkciókat, fajtákat vagy a tartalom összetettségének szintjeit leíró kifejezések. Legjobb eljárásként ajánlatos szabályozott szótárban (például a forrástípusok DCMI szótárában [DCMI Type Vocabulary: DCT]) található kifejezések közül választani. Az információforrás fizikai vagy digitális megjelenési formájának leírására a – Format – elemet kell használni. A dokumentum típusát, műfaját, általánosabb sajátosságait jelölő kifejezés. Jellemzően az információforrás hordozójának típusát vagy terjedelmét tartalmazza. A formátum a szoftver, a hardver vagy más, az információforrás megjelenítéséhez, vagy működtetéséhez szükséges eszközök megnevezésére is használható. Példák a terjedelemre: méret és időtartam. Legjobb eljárásként ajánlatos szabályozott szótárban (például a számítógéppel olvasható adathordozótípusokat tartalmazó internetes információhordozó-típusok jegyzékében [Internet Media Types = MIME]) lévő kifejezések közül választani. A dokumentum megjelenésének formája és megjelenítésének módja, eszköze. Legjobb eljárásként ajánlatos az információforrás azonosítására szolgáló, szabványos azonosító rendszernek megfelelő jelsorozat használata. Hivatalos azonosító rendszerek, a
Levéltári digitalizálás • Arcanum, 2012
Létrehozó
Forrás Eredeti információforrás
Nyelv
Jogok
Tartalmi leírás
6. Metaadatok
teljesség igénye nélkül az egységesített forrásazonosító (Uniform Resource Indentifier = URI) (beleértve az egységes helymeghatározót, az URL-t = Uniform Resource Locator), a digitálisobjektum-azonosító (Digital Object Identifier = DOI) és a nemzetközi szabványos könyvazonosító szám (International Standard Book Number = ISBN). A dokumentumot egyértelműen azonosító kód. Creator Az információforrás tartal- A létrehozó lehet személy, szervezet vagy mának létrehozásáért első- szolgáltató. Az entitás megadásakor jellemsorban felelős entitás. zően a létrehozó nevét kell feltüntetni. Az a természetes vagy jogi személy, vagy jogi személyiséggel nem rendelkező gazdasági társaság, aki/amely a dokumentum vagy annak fő része szellemi tartalmának alkotója, aki/amely e tartalomért felelős. Source Hivatkozás arra az eredeti A jelen információforrás részben vagy információforrásra, amelyből egészben eredeti forrásanyagból származtata jelen információforrás ható. Legjobb eljárásként ajánlatos a hivatszármazik. kozott információforrás azonosítására szabványos azonosító rendszer megfelelő jelsorozatának használata. Hivatkozás a leírt dokumentum forrásául szolgáló dokumentumra. Language Az információforrás intellek- Legjobb eljárásként ajánlatos az RFC 3066 tuális tartalmának nyelve. [RFC3066] használata, amely az ISO 639 szabvánnyal [ISO639] együtt tartalmazza a két- vagy hárombetűs nyelvkódokat és a tetszőlegesen alkalmazható alkódokat. Példák: "en" vagy "eng" használata az angol nyelvre, "akk" az akkádra, és "en-GB" az Egyesült Királyságban használt angolra. A dokumentumban előforduló szövegek nyelve. Rights Információk az információ- A jogok jellemzően az információforrások forrással kapcsolatos jogok- jogkezelésére vonatkozó adatokat vagy az ról. olyan szolgáltatásra vonatkozó hivatkozást tartalmaznak, amelyek erre vonatkozó információkat szolgáltatnak. A jogkezelésre vonatkozó információk gyakran magukban foglalják a szellemi tulajdon védelmére vonatkozó jogokat (Intellectual Property Rights, IPR), a szerzői vagy kiadói jogfenntartásokat (copyright) és a különböző vagyoni jogokat. Ha a jogokra vonatkozó elem hiányzik, nem feltételezhető, hogy bármely jog kapcsolódik az információforráshoz. Adatok a dokumentum felhasználásával kapcsolatos jogokról és a hungarikum fajtájáról (területi, személyi, nyelvi, tartalmi). Description Az információforrás tartal- a tartalmi leírásra, a teljesség igénye nélkül mának ismertetése. példa a referátum, a tartalomjegyzék, a hivatkozás a tartalom grafikus megjelenítésére - 201 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
Közreműködő
Contributor Az információforrás tartalmához készült hozzájárulás létrehozásáért felelős entitás.
Kapcsolat
Relation
Tér-idő vonatkozás Coverage
Hivatkozás az információforrással kapcsolatban lévő másik információforrásra.
Az információforrás tartalma vagy alkalmazási területe térben vagy időben (kiterjedés).
vagy a tartalom szabadon megfogalmazott leírása. A dokumentum tartalmának összegző leírása Példák a közreműködőre: személy, testület vagy szolgáltató. Az entitás megadásakor jellemzően a közreműködő nevét kell feltüntetni. Az a természetes vagy jogi személy, vagy jogi személyiséggel nem rendelkező gazdasági társaság, aki/amely a dokumentum szellemi tartalmának alkotásában részt vesz, és a létrehozóhoz képest alárendelt, illetve járulékos szerepet tölt be, illetve aki/amely a dokumentum valamely járulékos részének létrehozója. Legjobb eljárásként ajánlatos a hivatkozott információforrás azonosítására hivatalos azonosító rendszer megfelelő jelsorozatának/értékének használata. Hivatkozás a dokumentummal kapcsolatos másik dokumentumra. A kiterjedés jellemzően térbeli hely (helynév vagy földrajzi koordináták), idő (idő megnevezése, dátum vagy időintervallum) vagy hatáskör (mint amilyen egy megnevezett igazgatási egység). Legjobb eljárásként ajánlatos szabályozott szótárban (például földrajzi tezauruszban [Thesaurus of Geographic Names = TGN]) található kifejezést választani, és ahol lehetséges, a számszerű értékek – mint például koordináták vagy időintervallumok – helyett megnevezett helyeket és időszakokat használni. A dokumentum tartalmának térbeli vagy időbeli vonatkozásai.
6.2.3. Dublin Core sémák néhány konkrét levéltári gyűjteménytípus leírására Mivel a levéltári anyagokra különösen is jellemző a sokféleség, minden gyűjtemény más és más szerkezetű, első pillantásra nehéznek tűnhet a konkrét adatok besorolása a DC elemkészletébe. Ha már rendelkezünk valamilyen listával, állagjegyzékkel, vagy a DC-szabványtól eltérő adatbázissal, akkor sokszor nehezen tudunk elszakadni annak a szerkezetétől, elemeitől. Álljon itt ezért néhány konkrét példa, gyakorlati megvalósítás a meglévő adatszerkezetek DC-kompatibilissé konvertálására! Az alábbi DC megfeleltetések alapjait a BFL munkatársai dolgozták ki a LEAR projekt keretében. Az NKA Adatbázis-bizottság számára felülvizsgálta Kenyeres István. Megjelent: “Levéltári adatbázisok összefoglaló elemzése” – Az NKA Levéltári Kollégium 2006. évi meghívásos pályázata keretében – „A közlevéltárakban és a nyilvános magánlevéltárakban őrzött anyagokhoz eddig elkészült adatbázisok összefoglaló elemzésére” alakult munkabizottság jelentése / Budapest, 2007 (Utolsó módosítások: 2008. február), Függelék 2.: Dublin Core sémák tervek, térképek, oklevelek, fotók, testületi iratok és személyek leírására
- 202 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
6.2.3.1. Tervek Dublin Core Mezőnév Cím Létrehozó Tárgy Tárgy Leírás Kiadó Közreműködő Közreműködő Dátum Típus Formátum Formátum Formátum Azonosító Nyelv Kapcsolat Tér-idő vonatkozás Tér-idő vonatkozás Tér-idő vonatkozás Tér-idő vonatkozás Tér-idő vonatkozás Tér-idő vonatkozás Jogok Kapcsolat Azonosító
Tartalma/Felületen megjelenő szöveg Iratanyag (Fond/Állag/Sorozat) Megnevezése Tervező Épület Korabeli Megnevezése Épület Mai Megnevezése Téma Kiadó Építtető Kivitelező Keletkezés Éve Tervtípus, Rajzok Tervek Darabszáma Terv Állapota Terv Anyaga Jelzet Nyelv Kapcsolódó Anyagok (Irat, Fotó, stb.) Épület Korabeli Kerület Épület Korabeli Utca Épület Korabeli Házszám Épület Mai Címe (Kerület) Épület Mai Címe (Utca) Épület Mai Címe (Házszám) Kutatási Korlátozás Digitális Fénykép Egyedi Azonosító (Rekordazonosító)
6.2.3.2. Térképek Dublin Core elem Cím Létrehozó Tárgy Tárgy Tárgy Tárgy Tárgy Tárgy Tárgy Tárgy Tárgy Tárgy Leírás Leírás Leírás Leírás Leírás Kiadó Kiadó Közreműködő Dátum Dátum Típus Formátum Formátum Formátum
Tartalma/Felületen megjelenő szöveg Tárgy Készítők Hegyrajz Vízrajz Művelési ág Topográfia Utcahálózat Telkek Épület Közlekedés Infrastruktúra Egyéb Leírás Mellékábra Mellékszöveg Melléktérkép Megjegyzés Kiadó Nyomda Egyéb közreműködők Keletkezés ideje Kiadás éve Térkép típusa Recto-verso Méret Méretcsoport - 203 -
Levéltári digitalizálás • Arcanum, 2012
Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Azonosító Nyelv Tér-idő vonatkozás Tér-idő vonatkozás Kapcsolat Azonosító
6. Metaadatok
Méretarány Tájolás Fokbeosztás Szelvényháló Anyag Technika (kivitel.) Színezés Díszítettség Raktári hely Tárolási mód Állapot Restaurálásra vonatkozó információk Teljesség Biztonsági másolat Példányszám Jelzet, ISBN Nyelvek Terület Közigazg. Egység Digitális fénykép Egyedi azonosító (rekordazonosító)
6.2.3.3. Oklevelek Dublin Core Cím Azonosító Azonosító Azonosító Létrehozó Dátum Leírás Nyelv Leírás Kiterjedés Kapcsolat Kapcsolat Formátum Formátum Leírás Formátum Formátum Formátum Formátum Leírás Kapcsolat Forrás Kapcsolat Kapcsolat Azonosító
Tartalma/Felületen megjelenő szöveg Főcím Mai jelzet MOL DF szám Régi jelzet Kibocsátó Keletkezés dátuma Regeszta (Tartalom) Iratanyag nyelve Fennmaradási forma 2 Helység Helynév megfeleltetés Szövegkiadás Fennmaradási forma Technikai Megjegyzések Megjegyzés 1. Az oklevél mérete (Képméret) Anyaga Állapota Hitelesítés módja Pecsét leírása Pecsét fényképe Átnézett adatbázisok További példányok (Kapcsolódó rekord) Digitális fénykép Egyedi azonosító (rekordazonosító)
6.2.3.4. Fotók Dublin Core elem Azonosító Létrehozó Cím Azonosító Azonosító
Tartalma/Felületen megjelenő szöveg Egyedi azonosító (rekordazonosító) Létrehozó neve Főcím Felvételszám Jelzet - 204 -
Levéltári digitalizálás • Arcanum, 2012
Cím Cím Kiadó Jogok Dátum Dátum Leírás Típus Tárgy Tárgy Nyelv Tárgy Leírás Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Formátum Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Kapcsolat Közreműködő Közreműködő Kiterjedés Tárgy Tárgy Kiterjedés Kiterjedés Kiterjedés Kiterjedés Kiterjedés Forrás Kapcsolat
Egységesített cím Alternatív cím Kiadó neve Jogtulajdonos Keletkezés dátuma Publikálás dátuma Tartalom Műfaj Tematikus osztályozás Épületen kívüli/belüli Iratanyag nyelve Tárgyszavak Jegyzetek Eredetiség Típus Retusálás Képméret (cm) Anyag Beállítás Keretes képméret (cm) Színesség Rész Képen levő beazonosítható személy Képen levő anonim személy Közterületi tárgyak Járművek Műalkotások Eszközök Egyéb tárgyak Kulturális események Közéleti események Társadalmi események Gazdasági események Magánjellegű események Egyéb események Építész neve Építtető vagy tulajdonos neve Épület építési időpontja Épülettípus Építészeti stílus Helység Városrész Helyrajzi szám Utca Település részlet Levéltári egység hivatkozás Leírás dokumentuma / Digitális fénylép
6.2.3.5. Testületi iratok Dublin Core elem Cím Cím Dátum Leírás Közreműködő Kiterjedés
Tartalma/Felületen megjelenő szöveg Főcím Alcím Keletkezés dátuma Tartalom / Regeszta Személy Helyek - 205 -
6. Metaadatok
Levéltári digitalizálás • Arcanum, 2012
Tárgy Kapcsolat Azonosító
6. Metaadatok
Tárgyszavak Leírás dokumentuma / Digitális fénykép Egyedi azonosító (rekordazonosító)
6.2.3.6. Személyek, ISAAR (CPF) 2nd szabvány alapján Dublin Core elem Cím Cím Cím Kiterjedés Kiterjedés Kiterjedés Leírás Kiterjedés Kiterjedés Kiterjedés Leírás Tárgy Leírás Közreműködő Kapcsolat Kapcsolat Forrás Kapcsolat Azonosító
Tartalma/Felületen megjelenő szöveg Kitüntetett névalak (Főcím) Idegen nyelvű névalak(ok) Egyéb névalak(ok) Születés időpontja Halálozás időpontja Egyéb időpontok Életrajz (Tartalom) Születés helye Halálozás helye Egyéb helyek (Helyek) Foglalkozás/társadalmi státusz (Tevékenység) Vallás Genealógia (Felépítés) Anyja neve A kapcsolódó személy, vagy család, A kapcsolat leírása, A kapcsolat időpontjai A kapcsolódó szervezet megnevezése, A kapcsolat leírása, A kapcsolat időpontjai A leírás forrásai Kapcsolódó források jelzete és megnevezése, Kapcsolódó források jellege típusa, Kapcsolatok jellege, Kapcsolódó források évköre Egyedi azonosító (rekordazonosító)
6.3. IPTC, EXIF, XMP Ebben a fejezetben a számos funkciójú (leíró, technikai, strukturális, adminisztratív) metaadatok, metaadatsémák közül azokról beszélünk, amik közvetlenül a digitalizált objektumhoz kötődő, illetve annak a digitalizálás során létrejövő attribútumait tartalmazzák. Olyan adatokat értünk ez alatt, mint egy kép fotósa, témája, felbontása, színmélysége, a létrehozó program neve, egy hanganyag bitmélysége, hossza, vagy egy videó állomány tömörítésének kodek-típusa. A legfontosabb adatokat tárolhatjuk egy külső fájlban is, de egy részük a különböző formátumokba beágyazhatók, onnan kiolvashatók (számos technikai metaadat automatikusan is kinyerhető a dokumentumból: a kép felbontása, színmélysége, mérete, formátuma). Képek esetén pl. a legtöbb képszerkesztő szoftver kezeli őket, de maga az operációs rendszer is kiolvashat bizonyos adatokat, és természetesen szép számmal vannak kifejezetten a metaadatok kezelésére, egyedi vagy tömeges módosítására szolgáló programok is. A digitális állományok létrejöttekor egy sor felvétel-specifikus, gyártóhoz kötődő adat automatikusan belekerül a fájlok fejlécébe (gyújtótávolság, expozíció, a felvételezés ideje, GPS vevővel ellátott készülék esetén a készítés pontos koordinátái, stb. – hogy milyen adatok, az gyártótól és beállításoktól függ), másokat igény szerint nekünk kell rögzítenünk a felvételezés során, avagy az után, egy külön munkamenet során (copyright adatok, tárgyszavak, stb.). Nem kötelező megadni az összes lehetséges adatot. A fájlba beágyazott adatok erőssége, hogy nem tudnak elveszni a fájlok mozgatása során: amíg a fájl létezik, a beleírt adat megmarad. A digitális fájlba beágyazott adatok egyszerre több szabványnak is megfelelhetnek: az XMP, EXIF, IPTC sémáknak számos átfedő, közös mezője van (történetileg is egymásra épülnek).
- 206 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
6.3.1. IPTC A tárgyalt metaadatsémák közül a legrégibb az IPTC IIM (International Press Telecommunications Council Information Inrechange Model) modell. Az 1980-as évek végétől kialakított, 1995-re véglegessé vált standard eredetileg a nemzetközi sajtó adatcseréjét támogató, szövegek, képek, egyéb médiafájlok leírását szolgáló séma volt. Ugyan 1995 óta nem fejlesztik tovább, de azért mindmáig széles körben használatos maradt főleg a képállományokhoz társuló adatok tárolására, a legtöbb platform és alkalmazás kezeli őket. Röviden egyszerűen IPTC adatoknak szokták nevezni őket. Elemei megjelennek az EXIF és az XMP sémákban is, azok alapjául szolgáltak. Technikai adatot a séma egyáltalán nem tartalmaz, tehát gyártó-specifikus kameraadatokat, színprofilt, pozíció adatokat nem találunk bennük. Az alábbi lista bemutatja a legtipikusabb IPTC mezőket. A séma teljes elemkészletének leírását lásd: http://www.iptc.org/std/photometadata/specification/IPTC-PhotoMetadata-201007.pdf A ma használatos IPTC megoldásokban (pl. PhotoShop) az elemek négy fő csoportba rendezve jelennek meg: 1. Contact / a kép készítőjének adatai Creator / a kép létrehozójának neve Creator’s job title / a kép létrehozójának munkaköre Address / a kép létrehozójának címe (utca, házszám) City / város State/Province / állam, tartomány Postal code / postai irányítószám County / megye Phone(s) / a kép létrehozójának telefonszáma(i) E-mail(s) / a kép létrehozójának e-mail címe(i) Website(s) / a kép létrehozójának honlapja(i) 2. Content / a kép tartalmát illető alapinformációk Headline / rövid tartalmi összefoglaló a kép tartalmáról (nem keverendő össze a Title mezővel!) Description / azt írja le, mi, ki, miért van a képen, mi történik rajta; gyakran képaláírásnak (Caption) is nevezik Keywords / tárgyszavak; lehet szabadszavas vagy egy névtérből származó IPTC subject code / témakód az IPTC rögzített elemlistája szerint Description writer / a képhez tartozó, az IPTC mezőkben szereplő leírások szerzője 3. Image / a képpel kapcsolatos további leíró adatok Date created / a kép készítésének ideje; nem a kép digitalizálásának dátuma! Intellectual genre / a kép felhasználási célja szerinti kategória (pl. egy újság esetén: összefoglaló, interjú, gyászjelentés, sajtóközlemény, stb. IPTC scene / az IPTC által definiált szituáció (pl. panoráma kép, hátulnézet, pár, légi felvétel, stb. Location / a képen látható helyszín megjelölése City / a város, ahol a kép készült State/Province / az állam, tartomány, ahol a kép készült Country / az ország, ahol a kép készült; az ország neve teljesen kiírva, nem kód vagy rövidítés ISO country code / az ország 2 vagy 3 betűs ISO-kódja (csupa nagybetű) 4. Status / copyright, képkezelési információk Title / a kép vagy fotó rövid neve, ahogyan azonosítási célból hivatkozhatunk rá Job identifier / a munkamenet szempontjából jól használható szám vagy azonosító Instructions / tetszőleges, a kép készítőjétől, kiadójától a felhasználónak, feldolgozó operátornak szóló információ Provider / a kép szolgáltatója; lehet a felvétel készítője is, de inkább az intézmény vagy szervezet Source / az eredeti tulajdonos, a szerzői jogok birtokosának meghatározása Copyright notice / a kép szerzői jogainak birtokosa (pl. ©2012 Ambrus Gábor) Rights usage terms / szöveges instrukció a kép jogszerű felhasználásának módjáról - 207 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
6.3.2. EXIF Az EXIF séma a JPEG és TIFF formátumú képfájlok, valamint a WAV típusú hangfájlok készítésének körülményeit, technikai paramétereit írja le, tehát főleg éppen azokat az adatokat tartalmazza, amelyeket az IPTC modell nem ábrázol (vannak átfedő elemeik is). 1998-ban jött létre, és ugyan nincs egy hivatalos szervezet, amely karbantartaná, mégis meglehetősen széles körben használják, főleg a digitális fényképezőgépek gyártói, de az egyéb képalkotó eszközök, szkennerek vezérlőprogramjai is általában hsználják ezeket az output fájlok fejlécében. Elemkészlete tartalmazza a dátum- és időadatokat, a fényképezőgép beállításait a kép készítésekor. Ez utóbbiak között vannak adott eszköz esetén konstans adatok (például kamera típusa), és a konkrét felvétel fotográfiai beállításai: rekesznyílás, záridő, fókusztávolság, ISO érték, stb. Szerepelhet benne a kép orientációja (fekvő, vagy álló kép), a kép készítésének földrajzi koordinátái (GPS-szel felszerelt készülékeken). Benne van a kép bélyegméretű mása, amiket a fényképezőgép monitora, vagy a külső képnéző. rendszerező programok villámgyorsan meg tudnak jeleníteni. Szerepelnek az elemek között ezeken kívül leíró adatok és szerzői jogi információk is. Az adatokat általában elsődlegesen a felvételt generáló eszköz hozza létre, és nagyrészt maga az operációs rendszer is képes megjeleníteni őket, de utóbb egy sor programmal lehet írni/olvasni, módosítani, kiegészíteni őket. Az EXIF adatok ugyan – mint mondottuk – széles körben használatosak, ám a modell számos fogyatékossága (csak kevés támogatott fájlformátum, nincs mögötte egységesítő, karbantartó szervezet, stb.) miatt mégsem ez az optimális séma a digitális felvételek metaadatainak kezelésére.
6.3.3. XMP Az Extensible Metadata Platform (XMP, Bővíthető Metaadat Platform) eredetileg az Adobe Systems Inc. által kidolgozott, ma már ISO szabvány, amely létrehozásának kifejezett szándéka szerint a legkülönbözőbb források metaadatainak generálására, kezelésére és cseréjére jött létre. Az XMP – amellett, hogy meghatározta az adatmodellt, az alap definíciókat – iránymutatást adott ezeknek a metaadatoknak a legelterjedtebb kép-, videó- és dokumentum-formátumokba való beágyazását illetően is (pl. JPEG és PDF), vigyázva arra, hogy a metaadatok beillesztése ne gátolja az XMP adatokkal törődni nem képes alkalmazásokat a fájlok korrekt kezelésében. Ennek révén az XMP metaadatok mintegy összefésülődnek a nem-XMP metaadatokkal (pl. egy JPEG fájlban az XMP adatok az Exif adatokkal párhuzamosan jelennek meg). A metaadatok beágyazása a fájlokba megold egy sor problémát, ami azok külső állományban való tárolásából keletkezik, ugyanakkor azért megmarad a lehetőség őket a dokumentum-fájlon kívül tartani. A metaadatok beágyazása könnyebbé és biztosabbá teszi a fájlok megosztását és átvitelét különböző platformok és alkalmazások között: nem tud “elveszni” a fontos adat a fájl átvitele során. Segítségével olyan munkamenetet lehet kialakítani, amelyben a szkenneléstől a publikálásig minden szóba jöhető metaadatot létrehozhatunk, a képbe beágyazva vagy azon kívül tárolhatunk, és az állomány minden lényeges állapotát nyomon követhetjük: szkennelés, kivágás, tónuskorrekció, copyright adatok beillesztése, stb. Az XMP sémát nagyon sok fájl-formátumban lehet használni: PDF, JPEG, JPEG2000, GIF, PNG, HTML, TIFF, Adobe Illustrator, PSD, MP3, MP4, AVI, WAV, AIFF, PostScript, EPS (javaslat létezik már a DjVu formátumhoz is). Az XMP metaadatok Dublin Core kompatibilisek is, a technológiával DC adatokat is beágyazhatunk a fájlokba. Lehetőség van egyéni metaadatokkal, csoportokkal bővíteni az alapsémát, szabványos és egyedi névtereket használhatunk benne. Leírása XML sémákkal történik. Az Adobe szabadon felhasználható programozói eszköztárat bocsát a fejlesztők részére, így tetszésünk szerinti megoldásokat fejleszthetünk és építhetünk be a munkamenetbe az XMP adatok létrehozására és manipulációjára. A mainál nagyobb elterjedésének az egyik gátja, hogy az eszközgyártók közvetlenül még ma sem használják széles körben a modellt, ezért valamilyen külső eszközzel kell karbantartanunk őket. Rengeteg felhasználói program képes írni/olvasni az XMP - 208 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
adatokat, csak ízelítőül néhány: ACDSee Pro, Adobe Acrobat, CC PDF Converter, digiKam, FastPictureViewer, F-Spot, MetadataTouch, Windows Live Photo Gallery, XnView, Zoner Photo Studio. A http://www.adobe.com/products/xmp illetve a http://www.adobe.com/devnet/xmp.html weblapokon minden információt megtalálhatunk a metaadat sémáról, a használható mezőkről, a beágyazás módozatairól.
6.4. A legfontosabb, a digitalizálás során rögzítendő metaadatok Az alábbiakban röviden áttekintjük azokat a legfontosabb javasolt adatokat, amiket egy tömeges levéltári digitalizálás során a létrejövő felvételekhez rögzíteni kell. Ezt tehetjük a megfelelő metaadatsémával – a digitalizált állományba ágyazva vagy azon kívül, avagy egyszerűen egy szövegfájlba, Excel táblába rögzítve, és az állományokhoz elhelyezve. A lényeg, hogy a fontos információkat megőrizzük, hogy olyan munkamenetet, archiválási szisztémát alakítsunk ki, hogy azok a digitalizált állományoktól ne szakadhassanak el. Egy sor adat a fájlokból közvetlenül kinyerhető, de még ezek esetén is sok esetben kényelmesebb, ha az eredeti állományok megnyitása nélkül hozzájuthatunk a kérdéses információkhoz.
6.4.1. Képek ●
Fájlnév (célszerű, ha a fájlnév konvenció tartalmazza a fölöttes hierarchiában elfoglalt helyzetet; lásd a Fájlelnevezés c. fejezetet a gyakorlati kézikönyvben: 9. rész)
●
A gyűjtemény és az állomány tartalmi leírása, “címe”
●
A létrehozó eszköz típusa, beállításai
●
Színmélység
●
Vízszintes és függőleges felbontás (ha egyforma, csak egyszer kell megadni, minden további jelzés nélkül)
●
Vízszintes és függőleges pixelméret
●
Kép-pozíció (orientáció): nézet, illetve olvasási irány szerint álló, avagy 180°-kal, óramutató járása szerint vagy azzal ellentétesen elforgatva
●
Színprofil (ha van)
●
A kép feldolgozottságára vonatkozó információk: metaadatok beágyazva, kivágás, tónuskorrekció, élesítés, stb.
●
A digitalizálás dátuma
●
A digitalizálást végző személy neve
●
Fájlméret
●
A digitális fájl szerzői jogainak birtokosa, általában az intézmény
●
A publikációra vonatkozó restrikciók: személyiségi vagy szerzői jogi okokból
6.4.2. Hanganyagok ●
Fájlnév (célszerű, ha a fájlnév konvenció tartalmazza a fölöttes hierarchiában elfoglalt helyzetet; lásd a Fájlelnevezés c. fejezetet a gyakorlati kézikönyvben: 9. rész)
●
A gyűjtemény és az állomány tartalmi leírása, “címe”
●
Ha vannak az állományon belül tartalmi vagy technikai egységek, azok tartalmi leírása, “címe”
●
A létrehozó eszköz típusa, lényeges beállításai
●
Az eredeti felvétel paraméterei - 209 -
Levéltári digitalizálás • Arcanum, 2012
●
6. Metaadatok
○
Fájltípus (kodek)
○
Csatornák száma: sztereó vagy monó
○
Bitmélység: a digitalizálás hány bites mélységgel történt: jellemzően 8 vagy 16 bit
○
Mintavételi frekvencia: hány kHz, jellemzően 22 kHz, vagy 44 kHz, vagy 48 kHz
○
Bitráta: az előző két adatból következik ugyan, de mégis (máshogyan) informatív, egyben megadja az online átvitelhez szükséges sávszélességet; kBs-ban szokás megadni (=kilobit per szekundum) jellemzően 128 kBs, vagy 256 kBs
Tömörítés paraméterei (ha tömörített fájlról van szó) ○
Kodek
○
Bitmélység
○
Mintavételi frekvencia
○
Bitráta
●
A felvétel időtartama
●
Ha vannak az állományon belül tartalmi vagy technikai egységek, akkor azok kezdési időpontjai, hosszuk
●
A hangállomány feldolgozottságára vonatkozó információk: metaadatok beágyazva, vágás, zajszűrés, effektek, stb.
●
A digitalizálás dátuma
●
A digitalizálást végző személy neve
●
Fájlméret
●
A digitális fájl szerzői jogainak birtokosa, általában az intézmény
●
A publikációra vonatkozó restrikciók: személyiségi vagy szerzői jogi okokból
6.4.3. Mozgóképek ●
Fájlnév (célszerű, ha a fájlnév konvenció tartalmazza a fölöttes hierarchiában elfoglalt helyzetet; lásd a Fájlelnevezés c. fejezetet a gyakorlati kézikönyvben: 9. rész)
●
A gyűjtemény és az állomány tartalmi leírása, “címe”
●
Ha vannak az állományon belül tartalmi vagy technikai egységek, azok tartalmi leírása, “címe”
●
A létrehozó eszköz típusa, lényeges beállításai
●
Az eredeti felvétel paraméterei
●
A videó sávra vonatkozó paraméterek
●
○
Kodek: pl. MPEG2, vagy MP4
○
Kockák száma másodpercenként: jellemzően 24 fps
○
Adatsűrűség: pl. 3000 Kbits
○
Képoldal arány: pl. 4:3
○
Kockaméret pixelben: pl. 720 x 576 px
Az audio sávra vonatkozó paraméterek ○
Kodek: pl. PCM vagy MP3
○
Csatornák: sztereó vagy monó
○
Bitmélység: pl. 16 bit - 210 -
Levéltári digitalizálás • Arcanum, 2012
○
6. Metaadatok
Adatsűrűség: pl. 128 Kbits
●
A felvétel időtartama
●
Ha vannak az állományon belül tartalmi vagy technikai egységek, akkor azok kezdési időpontjai, hosszuk
●
A videó állomány feldolgozottságára vonatkozó információk: metaadatok beágyazva, vágás, zajszűrés, fényelés, effektek, stb.
●
A digitalizálás dátuma
●
A digitalizálást végző személy neve
●
Fájlméret
●
A digitális fájl szerzői jogainak birtokosa, általában az intézmény
●
A publikációra vonatkozó restrikciók: személyiségi vagy szerzői jogi okokból
6.5. Strukturális leíró metaadat-rendszer: EAD Az EAD (Encoded Archival Description = Kódolt Levéltári Leírás) egy XML formában rögzített standard, amely eredetileg levéltári segédletek leírására jött létre. Az Amerikai Levéltárosok Egyesületének munkabizottsága (http://www2.archivists.org) és a Kongresszusi Könyvtár gondozza, a hiteles és teljes dokumentációja az utóbbi honlapján érhető el (http://www.loc.gov/ead), az aktuális, 2002-es verzió elemkészletének magyar fordítása is elkészült (http://www3.arcanum.hu/LDT/EAD tag library.pdf), jelen tanulmány keretei között csak az általános elveinek ismertetésére szorítkozunk. Kifejlesztése a Kaliforniai Egyetem Berkeley Könyvtára által kezdeményezett projekt keretében indult 1993ban. A standarddal szemben előzetesen támasztott követelmények – melyek még ma is helytállóak – a következők voltak:
képes legyen a levéltári segédletek kiterjedt és összefüggő információtartalmát bemutatni képes legyen a leírásokban lévő szintek hierarchikus összefüggéseit megőrizni képes legyen reprezentálni azt a leíró információt, amit az egyik hierarchikus szint egy másiktól örökölt navigálni lehessen a hierarchikus információs struktúrában támogassa az elemspecifikus indexelést és visszakeresést.
Az EAD napjainkra világszerte széles körben elterjedt a levéltárak közötti adatcserében és a levéltári leíró adatok internetes publikálásában, különösen az olyan intézmény- és nemzetközi projektekben, mint az Archives Portal Europe.
6.5.1. Az EAD, mint az Európai Levéltári Portál „hármas-réteg” megközelítése mögötti váz A Portálon az EAD-ot használják a leírások három, egymással összefüggő és egymáshoz kapcsolódó fogalmi rétegének leírására. Mindegyik az EAD szintjei által belülről strukturált egyedi dokumentumokból áll. Az első réteg, a Levéltárak áttekintése (Archival Landscape), egyetlen EAD dokumentumból áll, egyfajta ernyőként az egész adatbázis fölött. A portál jövőbeli felhasználói számára kiindulópontként szolgál ez a réteg a navigációs jellegű kutatáshoz az összes résztvevő intézmény strukturált listája (pl. országok szerint rendezve) által. Minden elemtől link vezet egy következő, alacsonyabb szintre, ahol a részletesebb leírásukat találjuk, illetve hozzáférést biztosít az EAG formátumban az adott intézmény által saját magáról megadott még részletesebb adatokhoz (pl. kontaktinformációk, nyitva tartás, stb.) A második réteg a Fondjegyzék (Holdings Guide). Ez egy sor EAD fájlból áll, melyek mindegyike a fondok és őrzési egységek strukturált, hierarchikus listáját tartalmazza, minden egyes intézményre. - 211 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
Célja, hogy • • •
áttekintést biztosítson minden levéltári intézmény gyűjteményei és fondjai fölött (lehetőleg minden rekord létrehozóhoz legyen csatolt szabványos EAC-CPF fájl) adjon valami rövid, tömör információt a fondokról és gyűjteményekről (pl. a felhasználás feltételeiről) kapcsolódjon hozzá részletesebb leíró információ a következő, alsóbb szinten.
A harmadik réteg a Segédletek (Finding Aids). Ez EAD dokumentumokból áll, amelyek részletes adatokat tartalmaznak a sorozatok vagy rendezési csoportok szerint strukturált egyes fondokról és őrzési egységekről. A segédletek részletes információval szolgálnak a levéltári anyagról a gyűjteményi szinttől lefelé egészen a legkisebb elemi egységekig (iratokig), megadva a kikereséshez szükséges levéltári jelzeteket, és elérhetővé teszik a digitalizált anyagokat (amennyiben adott esetben léteznek).
6.5.2. apeEAD definiálása és létrehozása A közös felületen való elérés előkészítéseként létrehoztak egy ún. APEnet EAD sémát, amelyet a továbbiakban apeEAD-nak nevezünk. Ez a séma a projekt előrehaladása során folyamatos fejlődik és egyre javul. A teljes apeEAD-ot az EAD 2002 séma egy részhalmazaként definiálták olyan módon, hogy kielégítse levéltári segédletek egyesített, közös felületen való közzétételének szükségleteit. Az egyesített segédletek belsejében való használatra optimalizálták, és az EAD azon elemeit tartalmazza, amik a közös megjelenítéshez, a megfelelő linkeléshez és azonosításhoz szükségesek. Az EAD profilok és a projektben résztvevő nemzeti levéltárak gyakorlatának összevetése alapján lett kidolgozva. Ha egy-egy esetben több lehetőség merült fel, akkor a legáltalánosabban használt elemeket és attribútumokat tartották meg, és megadták a használatuk módját. A konvertálás és adatmegfeleltetés kérdéseiben segítséggel szolgálhat APEnet projekt „Legjobb gyakorlatok” gyűjteménye.
6.5.3. Információk az apeEAD használatához Fondjegyzék és Segédletek esetére A folyamatosan fejlődő apeEAD aktuális állapotáról többféle módon is tájékozódhatunk. Az apeEAD tábla táblázatos formában tartalmazza a segédletekben definiált elemek nevét, leírását és attribútumait Az apeEAD kalauz teljes szövegű leírás az apeEAD elemekről és attribútumokról, számos példával a lehetséges tartalmakat illetően. Bemutatja az elemek EAD XML formában való kódolását, példaként bemutat néhány komplett, apeEAD-ban kódolt levéltári segédletet. Az apeEAD séma a profil technikai implementációját tartalmazza. Ezt használhatjuk a tartalomszolgáltató elemeinek apeEAD formátumra való konvertálására; a lokális EAD dokumentumok konverziójának ellenőrzésére; általános keresés céljára történő indexelésre; levéltári anyagok megjelenítésére HTML-ben a jövendőbeli Európai Levéltári Portálon; más portálokkal (pl. Europeana) való adatcserére. Ezek a dokumentumok – bár folyamatos fejlesztés alatt állnak – valószínűleg már nem fognak túl nagymértékben megváltozni: az apeEAD elemkészlete és attribútumai várhatóan már nem szűkülnek (inkább kissé bővülhetnek), és az elemek általános struktúrája is megmarad.
6.6. Néhány további fontos levéltári metaadatszabvány A fordításukat megtalálhatjuk az archivportal.hu lapon:
- 212 -
Levéltári digitalizálás • Arcanum, 2012
6. Metaadatok
ISAD(G) Genearal International Standard Archival Description. Az Általános Levéltári Leírás Nemzetközi Szabványa. Második kiadás 2000. http://archivportal.hu/data/files/153021420.pdf ISAAR(CPF) International Standard Archival Authority Record for Corporate Bodies, Persons and Families 2nd edition, Szervezetek/testületek, személyek és családok levéltári azonosító leírásának nemzetközi szabványa. 2004. http://archivportal.hu/data/files/153021363.pdf ISDF International Standard for Describing Functions. A Funkciók Leírásának Nemzetközi Szabványa. Első kiadás. 2007. http://archivportal.hu/data/files/153021467.pdf ISDIAH International Standard for Describing Institutions with Archival Holdings. Levéltári anyagot kezelő intézmények leírásának nemzetközi szabványa. 2008. http://archivportal.hu/data/files/153021494.pdf
- 213 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
7. Archiválás A digitalizált állományok biztonságos tárolása, áttekinthető rendszerezése, egyértelmű azonosíthatósága, nyilvántartása, visszakereshetősége alapvető követelmény. Ezek az állomány együttesek létrejöttük és utóéletük során folyamatosan változhatnak: újabb elemekkel bővülnek, módosulnak, megváltoznak a metaadataik, stb. Egy jó archiválási rendszernek nem csak a statikus tárolást, hanem az állományok, adatok természetes életciklusához kapcsolódó dinamizmust is le kell tudni kezelnie. A korrekt archiválás állagmegóvást is jelent egyben: a digitalizált vagy az eleve digitálisan született állományok hosszú távú megóvásának záloga a megfelelő archiválási szisztéma. A tárolásra használt hordozók fizikai és szellemi elöregedése, a visszakereső rendszerek elavulása miatt ügyelni kell a megfelelő rendszeres adatmigrációra: a régi hordozóról újra, az elavult szoftverből a naprakészbe. A tömeges levéltári digitalizálással kapcsolatban legalább háromféle szintű, időtávú archiválásról beszélhetünk, amelyeknek eltérő metodológiai- és médium-vonzata van: ●
A digitalizálási munka folyamata alatti napi mentés.
●
A hosszú távú “szuper biztos” megőrzést szolgáló archiválás.
●
A már végleges, teljes, ugyanakkor aktívan használt, esetleg dinamikusan szolgáltatott állományok biztonságos tárolása.
7.1. Módszerek 7.1.1. Napi mentés a digitalizálás során A kérdés mindig úgy vetődik fel, hogy mit mentsünk, milyen gyakran, és milyen módon? A mentés idő- és erőforrás-igényes művelet. A mentés, másolás ideje alatt gyakran nem lehet, vagy nem érdemes az adott géppel más műveletet végezni, ugyanakkor nyilván el akarjuk kerülni az adatvesztést, így a napi adatmentési stratégia kialakításánál a két, ellentétes irányú szempontot kell optimalizálni. Ehhez az esetleg elvesző adatok újraelőállításának költségét, lehetségességét (be lehet-e tenni még egyszer a szkennerbe a kényes eredetit?) és a mentés ráfordításigényét (idő és hordozó) kell összevetni. A nagy volumenű digitalizálás során folyamatosan keletkezhetnek igen nagy tömegű adathalmazok. Például egy nagysebességű duplex dokumentumszkenner egy 8 órás műszak alatt akár teljesen megtölthet egy 2 terabájtos merevlemezt! [100 lap/perc, 200 oldal/perc, 300 dpi, 24 bit színes, tömörítetlen TIFF, A4 méret; 1 fájl kb. 27 MB, 1 perc alatt kb. 5 GB keletkezik, 8 óra alatt 8x60x5 GB = több mint 2 TB] (Ez az adat természetesen elméleti: maximális tempójú, folyamatos, szünet nélküli munkavégzést feltételez. Reális körülmények között, a levéltári gyakorlatban egy munkaállomáson 1-2 hét alatt keletkezik ennyi adat.) Magának a feldolgozó számítógépnek képesnek kell lenni fogadni ezt az adatfolyamot. A mai korszerű, de átlagos gépekben használt merevlemezek kapacitása leggyakrabban 2 TB, tehát ha a lokális feldolgozó gépen tároljuk az adatainkat, akkor a következő napi “termeléshez” már nem lesz hely. Ha a munkakörnyezet rendelkezik alkalmas nagysebességű helyi hálózattal, akkor – amennyiben az eszköz, illetve a vezérlőszoftvere megengedi – lehet eleve hálózati tárolóra dolgozni, annak architektúrája rövidtávon gondoskodik az adatok biztonságáról. Ha napközben a generált jelentős, folyamatos hálózati forgalom nem javallott, esetleg nem elég gyors a helyi hálózat, avagy az eszköz csak a lokális meghajtóra történő közvetlen digitalizálást támogatja, akkor érdemes a napi munka végeztével elindítani a hálózati tárolóra a másolást. Ha nincs alkalmas hálózat az intézményben, akkor lokális megoldást kell találnunk. Ennek legegyszerűbb módja a ma már egyre olcsóbb, gyorsabb, és nagyobb kapacitású külső merevlemezek használata. Az USB 3.0 vagy eSATA csatoló felülettel ellátott meghajtók gond nélkül képesek nagy sebességgel fogadni az ada- 214 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
tokat, de a legáltalánosabban elterjedt, gyakorlatilag minden számítógépben megtalálható USB 2.0 csatlakozás is elviselhető sebességű másolást tesz lehetővé. Vannak 2,5 inch és 3,5 inch átmérőjű lemezek, a kapacitásuk a néhányszáz gigabájttól a 2-3 terabájtig terjedhet. Ha ilyen eszközre mentünk, akkor – az eszköz szakszerű leválasztása után – egyszerűen kihúzhatjuk a csatlakozót, és egy másik gépbe dugva azon folytathatjuk a munkát. A kisebb méretű (2,5 inch) lemezek általában még külön áramforrást sem igényelnek. Egy másik jól bevált módszer az ún. dokkoló egységek használata. Ezek szintén USB vagy SATA csatoló felülettel rendelkező perifériák, általában mindkét méretszabványú merevlemezt képesek magukba fogadni. Közvetlenül a “csupasz” HDD-t lehet hozzájuk csatlakoztatni anélkül, hogy a lemezeket dobozba kellene építeni. Ez által megtakaríthatjuk a nem jelentéktelen doboz-költséget. A külső merevlemezes megoldások természetesen sokkal érzékenyebbek a mechanikai behatásokra, különösen működésük közben kell nagyon vigyázni rájuk, hogy ne essenek le, ne ütődjön hozzájuk semmi. Ilyen esetben ugyanis a lemezben lévő fej fizikai sérülést okoz a felületén, adatvesztést és az eszköz használhatatlanná válását eredményezve. Ezekben az egyszerű külső eszközökben általában nincs külön hűtés, így a folyamatos működéssel járó felmelegedés szintén veszélyeztetheti az eszközt és az adatainkat. Ha mozgatni szükséges ezeket a tárolóeszközöket (ez a legveszélyesebb az adatok sérülése szempontjából), akkor a szállítás ideje alatt lehetőleg ne csak rajtuk legyen egyetlen példányban a digitalizált anyag. A közvetlen digitalizáláson kívül, az állomány létrejötte után, általában még további munkafolyamatokat kell végezni: ellenőrzés, hiánypótlás, kivágás, korrekciók, átnevezés, metaadatok hozzáfűzése, formátum konverzió, stb. Amíg ezek a folyamatok be nem fejeződnek, addig az érintett munkatársak számára hozzáférhető helyen és módon kell tárolni az adatokat. Az utómunkálatok is huzamosabb ideig tarthatnak, esetenként nagy ráfordítást jelentenek, tehát ebben a fázisban is szükséges az adatok mentése. Különösen kell ügyelni ebben a szakaszban az egyes állományállapotok gondos adminisztrálására, főleg ha több munkatárs több, egymásra épülő lépést hajt végre a kollekción. A túl gyakori mentés, a túl sok mentett verzió nehéz kézbentartása ugyanolyan kockázatos lehet, mint az elégtelen, túl ritka mentés. Adatvesztés szempontjából ez a második legveszélyesebb állapot: ilyenkor szokott előfordulni, hogy pont a legjobb verziót töröljük le, vagy írjuk fölül egy régebbi állománnyal. Olyan projekt tervet, munkautasítást kell kialakítanunk, amely a mentési szabályokról is gondoskodik. A digitalizáláshoz használt, minden részvevő munkatárs számára hozzáférhető munkalapon folyamatosan legyen nyomon követhető az egyes mentett állományverziók állapota és elérhetősége.
7.1.2. Hosszú távú megőrzés A közgyűjteményi digitalizálás egyik fontos célja általában az őrzött objektumok információtartalmának hosszú távú megőrzése. A digitális állományok végtelenül sokszorozhatók megváltozásuk nélkül, információtartalmukat ily módon elvileg örökké megőrizhetnék. Két tényező mégis komoly kihívást jelent a hosszú távú megőrzés számára: a fizikai hordozó és az információ kódolt volta. Alább kicsit részletesebben bemutatjuk a két szempont következményeit az archiválás gyakorlatára.
7.1.2.1. Fizikai hordozók A digitális információt nem lehet elválasztani a hordozójától, a tárolási megoldás fizikai karakterisztikájától (nevezhetjük ezt a tárolás “hardverének”). A médium élettartama viszont jelen pillanatban semmilyen technika esetén sem végtelen. A mágneses elven működő merevlemezek hatalmas kapacitásuknál és nagy írási-olvasási sebességüknek köszönhetően a legelterjedtebb tárolóeszköznek számítanak. Mivel bennük hatalmas sebességgel mozgó, nagyon finom mechanikus alkatrészek vannak, nagyon érzékenyek mindenféle mechanikai behatásra, rezgésre, belsejükbe kerülő porra, hőtágulásra, a használat során egy idő után elkopnak, meghibásodnak. A gyártók általában néhány év garanciát vállalnak termékeikre. Egy archiválásra használt merevlemez nem működik folyamatosan, többnyire csak “ül” egy biztonságos szekrényben, így akár évtizedekig is megőrizheti adatainkat, de erre nincs garancia. Az önálló HDD-n tárolt adatokat időről-időre át kell másolni. - 215 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
Az optikai elven működő CD, DVD és Blu-Ray lemezek nem tartalmaznak ugyan mechanikus alkatrészeket, ám a hordozó anyaguk a levegő gázainak, sugárzások hatására pusztul, és helyrehozhatatlan adatvesztést eredményezhet. Vannak olyan, hosszú távú tárolásra kifejlesztett, arany tükröző réteget tartalmazó lemezek, amik élettartamára 100 év garanciát vállalnak a gyártók. Ezek már alkalmasak lehetnek archiválási célra, áruk a normál lemezek 5-6-szorosa. Ugyanakkor a CD-ROM 700 MB-os illetve a DVD-ROM 4,5 GB-os kapacitása egy komolyabb digitalizációs projekt esetén kezelhetetlenül sok lemezt igényelne, lassú írásiolvasási tempójával együtt a mentett adatokhoz való hozzáférés is nehézkes. Létezik ugyan kétrétegű, 8,5 GB kapacitású DVD-ROM, illetve 25 és 50 GB kapacitású Blu-Ray, de ezek számos inkompatibilitási veszélyt hordoznak magukban (sok meghajtó nem olvassa őket biztonságosan), ezért nem terjedtek el, nem javasoltak az archiválásban. A mágnesszalagos hordozók biztonságos és nagy kapacitású eszközök, élettartamukat a szakemberek 50100 évre teszik, azaz közel annyi ideig tudhatjuk biztonságban adatainkat rajtuk, mint a legjobb minőségű optikai lemezen. Egy-egy szalag már ma is 2-3 terabájtot képes tárolni, a közelmúlt fejlesztései révén előálló nagysűrűségű mágnesszalagos kazetták révén ez hamarosan még két nagyságrenddel bővül majd. A fő hátrányuk az adatok viszonylag lassú elérése: mivel nem véletlenelérésűek, mint pl. a HDD, hanem lineárisan tárolják az adatokat, ezért egy konkrét elem kiolvasásához előbb a megfelelő pozícióba kell csévélni a szalagot. Ezért legtöbbször merevlemezes tároló rendszerek háttértáraként állítják őket rendszerbe. Jelenleg még inkább a rövidtávú tárolásban, adatmozgatásban van jelentőségük a kölönböző memória alapú tárolóknak (USB-drive, memóriakártya, SSD), de a közeljövőben fokozódhat a szerepük az archiválásban is.
7.1.2.2. Szoftver A másik problémaforrás a hosszú távú megőrzés szempontjából az a tény, hogy a digitális állomány az eredeti objektum információtartalmát és a hozzá kapcsolódó metaadatokat valamilyen eljárás szerint kódolva tartalmazza, a hozzáférés nem választható el a kódolási mechanizmustól, a tárolás “szoftverétől”, legyen szó akár kép-, szöveg-, vagy hangfájlról, avagy leíró metaadatokról. Ez a szoftver a tárolásra használt formátumokból, illetve a formátumok kiolvasására, kezelésére alkalmas programokból áll. A nagy tömegben használt, nyílt szabvánnyá vált (tehát nem egy-egy cég speciális, esetleg fizetős licencével védett) megoldásoknak van meg leginkább az esélyük arra, hogy hosszú távon is fennmaradjanak: pusztán a tömegük, az adott formátumban tárolt hatalmas adatmennyiség értéke miatt bízhatunk benne, hogy mindig lesznek olyan cégek, szervezetek, intézmények, amik elvégzik a formátum migrálását a jövőbeni újabb és újabb szoftver és hardver platformokra (TIFF, WAV, TXT, stb.). Visszatekintve a legfontosabb formátumok történetére, gyakori az a “forgatókönyv”, hogy egy cég kitalált egy formátumot, azt fokozatosan elkezdték egyre többen használni, a nyilvánossá tett forráskódot közzétéve különböző cégek – esetleg közös konzorciumot alkotva – továbbfejlesztették, majd valamilyen nemzetközi szabványügyi szervezet felkarolva hivatalos szabvánnyá nyilvánította (pl. PDF). Vannak olyan esetek is, amikor kifejezetten azzal a céllal jön létre egy bizottság, szervezet, hogy kialakítson valamilyen szabványos megoldást (pl. MPEG. = Moving Picture Experts Group). A lényeg tehát az, hogy olyan formátumokat (lásd az 5.3. fejezetben) és metaadatstruktúrát (6. fejezet) érdemes használni, amik nyílt szabványok és platform függetlenek.
7.1.2.3. Az adatvirtualizáció felé A különböző nemzetek intézményeiben az esztendők során különböző konvenciók alakultak ki arra vonatkozólag, hogyan, milyen hordozón és hány példányban tárolják a hosszú távú megőrzésre szánt állományokat. Ezen a területen is sok tévhit él a mai napig a biztonságos archiválás legüdvözítőbb módját illetően hazánkban is. Például sokáig tartotta magát az a nézet, hogy a legjobb megoldást a speciális CD lemezek jelentik, a DVD nem alkalmas hosszú távú megőrzésre. A kezdeti, silány minőségű lemezek esetén ez igaz is lehetett, azonban már régóta kaphatók olyan írható DVD lemezek, amelyek élettartama semmivel sem marad el a CD lemezek élettartamától. - 216 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
Az is általánosan elfogadott elvnek tűnt, hogy a digitalizálás eredményeként készíteni kell egy minél nagyobb felbontású, tömörítetlen fájlformátumban tárolt mesterpéldányt (archív példány), azt legalább két független hordozón (pl. egy sorozat optikai hordozón, egy sorozat merevlemezen) és helyszínen, elzárva kell tárolni, egy harmadik példányt pedig hozzáférhető helyen (leginkább merevlemezen, aktív hálózati meghajtón), amiből igény szerinti derivatív sorozatokat lehet készíteni a különböző célzott felhasználásokhoz. Az elv helyes, ugyanakkor a gyakorlatban a tömörítetlen formátumban való tárolás, illetve az optikai lemezeken való archiválás olyan logisztikai és anyagi terhet jelentett egy projekt, egy intézmény számára, ami néha magát a projektet, illetve magukat az adatokat veszélyeztette. Mára kialakultak azok a hardver és szoftver megoldások, amik egyre inkább lehetővé teszik egy intézmény számára, hogy digitalizált adatait abszolút biztonságban, ugyanakkor dinamikusan hozzáférhetően, aktívan használható helyen tartsa. Kialakult és hozzáférhető az elosztott hálózati erőforrások olyan infrastruktúrája, ami akár egy külső adatparkban, akár az intézmény saját belső hálózatán kialakított Storage rendszeren, vagy akár egy erre szakosodott nagy szolgáltató által biztosított adatfelhőben is elhelyezkedhet, és megfelelően redundáns tárolással, szisztematikus és folyamatos backup megoldással, automatikus hardver meghibásodás jelzéssel és kezeléssel, verziókövetéssel, jogosultság kezeléssel, távfelügyelettel, mindenre kiterjedő adminisztrációval rendelkezik. Ebben a környezetben a digitális adataink valójában virtualizálódnak, függetlenné válnak a fizikai hordozójuktól, azok egyikének-másikjának kiesése, sérülése nem érinti digitalizált értékeinket. Maga az infrastruktúra lényegében független az adatok típusától, természetétől. Ehhez természetesen elengedhetetlen a megfelelő sebességű és stabilitású hálózati (internetes és belső) kapcsolat léte. Ez esetben az ilyen módon tárolt állomány mellett még egy sorozat merevlemezes (esetleg mágnesszalagos) mentés a saját “széfben” (“biztos, ami biztos” alapon) elegendőnek látszik. A hosszútávú megőrzéssel kapcsolatban talán úgy összegezhetnénk tapasztalatainkat, hogy – talán paradox módon – nem az az igazán hosszútávon megmaradó adat, amit jó alaposan elrejtünk, archiválunk, hanem az, amit aktívan használunk.
7.1.3. Dinamikus adatszolgáltatás A levéltári digitalizálás – megítélésünk szerint – legfontosabb célja az adatok megfelelő körben való hozzáférhetőségének biztosítása. Ehhez a digitalizált fájlokat megfelelő metaadatokkal kell ellátni, és olyan szoftverkörnyezetbe helyezni – adatbázisba tölteni, és publikálni –, ami lehetővé teszi az egyes elemek azonosítását, megtalálását, a keresést, és képes a digitalizált objektum megjelenítésére az adataival egyetemben. Ez régebben elsősorban offline hordozón volt lehetséges: előbb CD-n, majd DVD-n. Az ilyen lemezek kapacitáskorlátai, gyártásuk költségei, terjesztésük nehézségei azonban behatárolták használhatóságukat. Az internet, a hálózati infrastruktúra fejlődésével az utóbbi évekre az online közzététel vált jellemzővé: az elérhető sávszélesség növekedésével, árának csökkenésével ma és a jövőben ez a mód látszik egyeduralkodónak: olcsóbb, gyorsabb, rugalmasabb minden eddigi médiumnál. (Ma még azért van szerepe a merevlemezen, USB meghajtón való publikálásnak is, elsősorban a nagyméretű állományok és a – jelenleg még – kifinomultabb programlehetőségek miatt.) Az online környezet más archiválási módszereket és eszközöket igényel, mint a hagyományos, ahogy ezt a 7.1.2.3. pontban már ismertettük. Ebben a szcenárióban az adatmentés, archiválás infrastruktúrájának menedzselése már nem a levéltáros feladata, hanem a házon belüli, vagy a külső szolgáltató IT szakemberéé. Az adatok menedzselése (digitalizálás, metaadatok, keresőrendszer, karbantartás) viszont továbbra is a digitalizálást irányító, végző levéltári szakember kompetenciájába tartozik.
7.2. Eszközök Ebben a fejezetben röviden áttekintjük az archiválásban szerepet játszó eszközök, különböző fizikai hordozók legfontosabb jellegzetességeit.
- 217 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
7.2.1. Hagyományos optikai hordozók A hétköznapi életben a legszélesebb körben elterjedt lemezes adathordozók – a CD, a DVD és a Blu-Ray – mindegyike azonos alapelven működik. A 120 mm átmérőjű polikarbonát hordozókorong alatti speciális rétegbe nagy adatsűrűséggel lézersugár égeti be az információt apró mélyedések formájában. A kiolvasás is ugyanilyen, csak kisebb energiájú lézersugárral történik: a mélyedésekből gyengébben, szórtan, a “sima” részekről pedig erősebben visszaverődő fény különbségét alakítja az olvasó digitális “1” és “0” kódokká. A háromféle hordozó elsősorban a használt lézer hullámhosszában (CD=infravörös, DVD=vörös és BluRay=kék), ezáltal az elérhető adatsűrűségben, az ebből következő kapacitásban különbözik. A CD lemez alapesetben 650 MB, a DVD 4,7 GB, a Blu-Ray 25 GB adatot képes tárolni. A DVD-ből és a Blu-Ray-ből létezik kétrétegű változat, ezek kapacitása 8,5 GB illetve 50 GB. Mindhárom fajta lemez előállítható egyedi írással, ehhez ún. írható lemezt és írásra képes meghajtót kell használni. Létezik olyan nyersanyag, aminek tartalmát törölni majd újraírni is lehet, ezeket újraírható lemezeknek nevezik. Az írás megfelelő égető programmal történik, a talán legelterjedtebb a Nero. Egy-egy írási menetet le kell zárni ahhoz, hogy tetszőleges meghajtó olvasni tudja az adatokat. Ez után, feltéve, hogy van még szabad hely a lemezen, további adatokat lehet ráírni, tehát több írásmenet is lehetséges. Amennyiben az aktuális menet végén a programmal lezárjuk az egész lemezt, akkor már nem lehet további információt elhelyezni rajta. A lemezek egy írott mesterlemez alapján, megfelelő gyártó gépeken préseléses sokszorosítással is előállíthatók, ezek természetesen csak olvashatók, az archiválásban nem, csak az adatok terjesztésében van szerepük. Az egyrétegű lemezek általában gond nélkül olvashatók minden meghajtón, a kétrétegű lemezek inkompatibilitásával, lassú olvasási teljesítményével viszont gyakran találkozhatunk. A háromféle lemezt kezelni képes meghajtók felülről kompatibilisek, tehát pl. a Blu-Ray író-olvasó mindhárom lemeztípussal elboldogul. Az írási-olvasási teljesítményben jelentős különbségek lehetnek az egyes meghajtó- és lemeztípusok között. Ennek meghatározására olyan értékekkel találkozhatunk, hogy “2x-es”, vagy “8x-os”. Ezek az adatok lényegében viszonyszámok, az alap, adott típusban legelőször megjelent hordozók/meghajtók sebességteljesítményéhez képest adják meg az illető lemez vagy meghajtó teljesítményét: a “2x” kétszer gyorsabb, a “8x” nyolcszor. A közönséges optikai lemezek várható élettartama néhány év, archiválási célra a sokkal drágább, aranyréteget tartalmazó lemezeket ajánlatos használni, ezek élettartama több évtized, ára ugyanakkor többszöröse a sima írható lemezeknek. Az optikai elven működő adathordozók fejlesztése nem állt meg. Könnyen lehetséges, hogy a közeljövőben egyszer csak megjelenik a holografikus lemez prototípusa, ami nem egy-két síkban, hanem térben tárolná az adatokat, nagyságrenddel nagyobb, akár 500 GB-os kapacitást biztosítva.
7.2.2. Merevlemezek A legelterjedtebb, nagykapacitású, nagysebességű, mágneses elven működő adattárolók a HDD-k (Hard Disk Drive=merevlemez, winchesternek is szokták hívni). A bináris adatokat folyamatosan nagy sebességgel forgó, egyik vagy mindkét oldalán mágnesezhető réteggel bevont korongokon tárolja, a lemez kikapcsolása után is megőrzi azokat. Az adatok írását-olvasását a korongok sugara mentén elmozdulni képes, azokhoz nagyon közel elhelyezkedő fej végzi. A légmentesen lezárt házban több korong van párhuzamosan, pl. 4 lemez, 8 réteggel. Minden mágnesezhető réteghez egy fej tartozik. A merevlemezek két tipikus paramétere a kapacitásuk és a fordulatszámuk. A kapacitás pillanatnyilag a néhány száz GB-tól a 4 TB-ig terjed. A fordulatszámot RPM-ben (Rotations per Minute=fordulat/perc) szokás megadni, a mai winchesterek 5400 és 15000 rpm között teljesítenek. Az előbbi az olcsóbb az utóbbi a drágább, szerverekbe való, nagyteljesítményű lemezekre jellemző. Egy tipikus, asztali gépbe beépíthető HDD 7200 rpm-mel forog. A kapacitás jelentősége egyértelmű, a fordulatszám fontossága abban áll, hogy a HDD írási-olvasási sebessége ezzel arányos: könnyen belátható, hogy minél gyorsabban forog a korong, egy tetszőleges pontja annál hamarabb kerül a fej alá. Nem pusztán ettől függ a winchester sebessége, de ez az egyik legfontosabb paramétere. Ami még fontos lehet ebben, az a hozzáépített gyorsítótár (cache) mérete és sebessége (minél nagyobb és gyorsabb, annál jobb), - 218 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
valamint a számítógéphez való csatlakozás módja. Ez utóbbi szerint lehet belső (a számítógépházba beépített, belső csatolóval ellátott) és külső (a számítógéphez valamilyen szabványos kábellel ideiglenesen csatlakoztatott). Mind a belső (ATA, SATA, SCSI, SAS), mind a külső csatolók (USB, SCSI, FireWire, eSATA) többfélék lehetnek, az egyes típusoknak további altípusai, generációi vannak, sebességük között jelentős eltérések vannak. Egy számítógépbe több merevlemezt is be lehet építeni, a gép házától (hogy fizikailag mennyinek van benne hely) és alaplapjától (hány HDD csatolására van benne mód) függ, hogy mennyit. A kapacitást ezen felül külső winchesterek használatával növelhetjük, bár ezek általában lassabbak, jellemzően kisebb kapacitásúak beépítésre szánt társaiknál, inkább az adatok mozgatásakor praktikusak. Kisebb hálózatok esetén egy másik lehetőség a kapacitásbővítésre az ún. NAS (Network Attached Storage=hálózati háttértár) eszközök használata. Ezek olyan önálló mini operációs rendszerrel (általában valamilyen Linux-félével) rendelkező perifériák, amelyekbe egy vagy több merevlemez illeszthető, és önálló, közvetlen hálózati csatlakozásra képesek. Tehát nem egy meghatározott számítógéphez kell őket kötni, hanem a hálózatra, és megfelelő engedélyek birtokában a hálózat felhasználói közösen használhatják azokat. A merevlemezek nagysebességű, precíziós mozgó alkatrészeket tartalmaznak, így meglehetősen kényesek a mechanikai behatásokra. Működésük közben hőt is termelnek, alkatrészeik elöregednek, egyszóval előbbutóbb meghibásodnak. Ez a meghibásodás általában nem egyik pillanatról a másikra következik be (kivéve, ha valami egyszeri, durva hatás éri az eszközt: villámcsapás, leesés az emeletről), hanem fokozatosan (bár általában gyorsuló tempóban). A mai winchesterek mindegyike rendelkezik ún. S.M.A.R.T. (SelfMonitoring Analysis and Reporting Technology = önellenőrző elemző és nyilvántartó technológia) funkcióval. Ez abból áll, hogy a rendszer egy sor, a lemezek állapotával összefüggő paramétert monitoroz folyamatosan (hőmérséklet, fordulatszám, bekapcsolva töltött idő, írási és olvasási hibák száma, stb.), és ezeket intelligensen összesítve előre jelzi a lemez pillanatnyi várható élettartamát. Ha ez elér egy előre meghatározott kritikus értéket, a S.M.A.R.T. figyelmeztetést ad. A gond az, hogy ennek a jelzésnek a kezelése nem szabványosított: bizonyos alaplapok pl. valami hangjelzéssel figyelmeztetik a felhasználót ilyenkor, míg mások nem. Léteznek direkt erre a célra szolgáló diagnosztikai programok, amelyek futtatásával meggyőződhetünk lemezeink állapotáról. Mindenesetre, ha nincs is semmilyen jelzés, de bármiért gyanakodni kezdünk merevlemezünk állapotát illetően (furcsa hangok, kattogás, indokolatlanul lassú működés), akkor ne folytassuk a munkát, hanem szóljunk a rendszergazdának, és gondoskodjunk a lemezen lévő adatok másik, új lemezre való másolásáról! Ne várjuk meg, míg egyáltalán nem működik a lemez, mert akkor már nem, vagy csak igen költségesen, külső adatmentő céget igénybe véve fogjuk tudni megmenteni a pótolhatatlan adatainkat. A merevlemezen tárolt adatok biztonságát szavatolja az ún. RAID technológia. A mozaikszó jelentése – Redundant Array of Independent (vagy Inexpensive) Disks = független (vagy olcsó) lemezek redundáns tömbje – jól mutatja, miről is van szó: több egyszerű merevlemezt fűz egy logikai egységbe olyan módon, hogy az adatokat valamilyen rendszer szerint elosztja, duplikálja közöttük. A megosztás révén az adatok elérési sebessége is jelentősen növekedhet: egy nagyobb állományt nem egyetlen lemezről kell kiolvasni, hanem az elosztott elemeket párhuzamosan, egyidejűleg több lemezről olvasva az egyes lemezek olvasási sebességét jóval meghaladó tempóban lehet hozzájuk férni. További előnye a fizikai lemezegységek nagyobb logikai egységgé fűzésének a hatalmas, egybefüggően használható tárterület, nem kell az egyes lemezek méretkorlátaihoz alkalmazkodni. A logikai egységek kezelését RAID kontrollerek végzik. Ezek lehetnek hardveres megoldások: akár eleve a számítógép alaplapjának tartozékai, de bővítő kártya formájában utóbb is beszerelhetők, és olyan eszközök is vannak szép számmal, ahol a RAID-es tárolóegység önálló elemként, külön dobozban kap helyet. Vannak emellett szoftveres megoldások is, ezek azonban a számítógép erőforrásait használják, és így csökkentik az elérhető teljesítményt. A RAID-használat veszélye abból adódik, hogy az összefűzött elemek csak együttesen működve tárolják értelmezhető, kiolvasható módon az adatainkat, egyik fizikai egység sem rendelkezik az adatok teljességével, - 219 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
és a kiolvasás nem választható el az összefűzésről gondoskodó RAID vezérlőtől. Egy-egy lemezegység meghibásodása – megfelelően redundáns RAID elrendezés használata esetén, lásd lejjebb – nem okoz adatvesztést, de ha valamiért egyszerre több lemez hibásodna meg, vagy maga a kontroller, akkor igen nehézzé és költségessé válhat az eredeti adatok helyreállítása. Ha az adataink biztonsága kiemelt jelentőségű, akkor válasszunk olyan eszközöket és megoldásokat, amiknek a hibatűrése magas szintű, és kombináljuk más típusú, például mágnesszalagos archiválással is. A redundanciának ugyanakkor természetesen ára van: a fizikai hordozók összkapacitásának csak egy részét használhatjuk adattárolásra. A különböző RAID szabványok (ún. RAID szintek) szerencsére jól skálázhatóvá teszik a három különböző szempont – az adatok biztonsága, a kapacitás, az adatelérés sebessége – eltérő súlyú figyelembe vételével kialakítható tároló rendszerünket. Ennek alapján jó néhány RAID szint létezik, RAID 0-tól a RAID 6-ig, ráadásul némelyeket kombinálni is lehet egymással. Alább a leggyakrabban használt néhány elrendezést ismertetjük röviden. A RAID 0 a résztvevő elemeket egyszerűen összefűzi, semmilyen redundanciát nem tartalmaz. A lemezeket definiálható méretű sávokra, avagy csíkokra (stripes) osztja, egy-egy adathalmaz írásakor úgy bontja azokat blokkokra, hogy mindegyik lemezre szét tudja osztani őket. Ez teszi lehetővé a leggyorsabb írást-olvasást, de adatbiztonság szempontjából ez a leggyengébb: bármelyik egység meghibásodik, az az összes adat elvesztését jelenti.
A RAID 1 az adatokat tükrözi a lemezeken, minden adat két lemezen szerepel, így az egyik kiesése esetén a másikról teljes mértékben visszaállítható. Az olvasás nagy sebességű, mivel mindkét meghajtóról párhuzamosan történik. A részvevő lemezek kapacitásának a fele a hasznos adatterület.
- 220 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
A RAID 0+1 (RAID 01-nek is szokás jelölni) és a RAID 1+0 (RAID 10) a fenti két megoldás előnyeit ötvözi: olyan hibrid megoldások, amelyek a RAID 0 sebességét a RAID 1 biztonságával ötvözik. Minimálisan 4 lemezegységre van szükség hozzájuk, melyekből 1-1-et összefűzve és páronként tükrözve épül fel a tömb, ezért az elemek összes kapacitásnak mindössze a felét lehet kihasználni. RAID 01-nél a tükrözés (RAID 1) a két összefűzött (RAID 0) tömbre épül, ezért egy lemez meghibásodása esetén az egyik összefűzött tömb mindenképp kiesik, így a tükrözés is megszűnik. A RAID 10 annyiban különbözik a RAID 01-től, hogy itt a lemezeket először tükrözik majd a kapott tömböket fűzik össze. Ez biztonság szempontjából jobb megoldás, mint a RAID 01, mivel egy lemez kiesése csak az adott tükrözött tömböt érinti, a rá épült RAID 0-t nem; sebességben pedig megegyezik vele. A RAID 5 ún. paritás információt (ennek matematikájába most nem mennénk bele) használ az esetlegesen elveszett adatok pótlására. Ezt nem egy kitüntetett meghajtón tárolja, hanem egyenletesen az összes meghajtón elosztva, kiküszöbölve így a más RAID megoldásokban jelentkező paritás-meghajtó jelentette szűk keresztmetszetet (azoknál, ha a redundáns információt tartalmazó kitüntetett meghajtó “elszáll”, az adatvesztést eredményez). Mind az írási, mind az olvasási műveletek párhuzamosan végezhetőek. Egy meghajtó meghibásodása esetén az adatok sértetlenül visszaolvashatóak: a RAID 5 vezérlő a hibás meghajtó helyére betett új, üres meghajtót automatikusan fel tudja tölteni az eredeti adatokkal, a hibás meghajtó adatait a többi meghajtóról ki tudja számolni. Két meghajtó meghibásodása esetén viszont az adatok elvesznek, ezért fontos, hogy ilyen rendszer esetén haladéktalanul kicseréljük az egységet, ha bármelyik meghajtó meghibásodásának előjeleit érzékeljük. Ez a módszer a tükrözésnél jóval takarékosabban bánik a rendelkezésre álló hellyel: például ha 4 db, egyenként 1 TB-os lemezt RAID 5-be fűzünk, eredményként egy 3 TB kapacitású logikai meghajtót látunk.
A RAID 6 tekinthető a RAID 5 kibővítésének, megkettőzött paritás adatokkal: nemcsak soronként, hanem oszloponként is kiszámítják a paritást, egyébként hasonlóan működik. A módszer segítségével kétszeres meghajtómeghibásodás is kiküszöbölhetővé válik. A paritásadatokat itt is az egyes meghajtók között, egyenletesen elosztva tárolják, de ezek természetesen kétszer annyi helyet foglalnak el, mint a RAID 5 esetében. A RAID 6 megvalósítása többletköltséget jelent, ám ennek révén fokozódik az adatbiztonság is. Főleg nagyméretű, nagy rendelkezésre állási megbízhatóságot megkövetelő rendszerek esetén használatos.
- 221 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
7.2.3. Szalagos tárolóeszközök A mágneses elvű szalagos tárolás mindmáig az egyik legolcsóbb, legbiztonságosabb módszer nagy tömegű digitális adat archiválására. A jelenleg 2,5 TB kapacitást is elérő, nyílt szabványú LTO (Linear Tape-Open) technológiát használó kazetták 4-5-ször olcsóbb tárolást biztosítanak a merevlemezeknél (egységnyi adatmennyiségre vetítve; léteznek más rendszerű, ennél még jóval nagyobb kapacitású mágnesszalagok is). Mivel csak a konkrét adatíráskor-olvasáskor fogyasztanak áramot, energiatakarékos megoldást jelentenek. Élettartamuk több évtizedes és több száz teljes újraírást biztosítanak. Lineáris módon írják-olvassák az adatokat (szemben a véletlen elérésű HDD-kel vagy optikai lemezekkel), ezért egy-egy konkrét adat hozzáférési ideje nagy, így közvetlen dinamikus adatszolgáltatásra kevéssé alkalmasak. Ideálisak viszont biztonsági mentések, archiválás céljaira. A megfelelő szerverhez csatlakoztatott automatikus, robotvezérelt szalagkönyvtárak, cartridge-betöltő mechanizmusok emberi beavatkozás nélkül képesek hatalmas, akár petabájtos nagyságrendű adatmennyiséget kezelni. Az ilyen volumenű eszközök általában nagyobb hálózatok, adatparkok háttértáraiként szolgálnak, de az egyszerű, egy cartridge-ot kezelni képes asztali verziók akár egy lokális géphez, vagy a helyi hálózatba illesztve egy kisebb intézmény adatmentési igényeit is költséghatékonyan szolgálhatják.
7.2.4. Memória alapú tároló eszközök Az utóbbi esztendőkben rohamosan terjednek a különböző flash memórialapkákat használó tárolók. Számos gyártó állítja elő őket a legkülönbözőbb formában: Pendrive, SD (Secure Digital) kártya, CF (Compact Flash) kártya, Memory Stick, xD kártya. Egy sor hordozható eszközben – telefonban, zenelejátszóban, kamerában – találkozhatunk velük. Közös jellemzőjük, hogy a beléjük írott információt tápfeszültség nélkül is megőrzik (szemben a számítógépek memóriájaként szolgáló RAM-mal), és hogy a lapkák korlátozott számú újraírást tesznek lehetővé (az olcsóbb típusok néhány ezret, a drágábbak akár több milliót). A RAM-nál valamivel lassabb, de még mindig igen gyors írási és főleg olvasási sebességgel rendelkeznek. Mechanikus alkatrész nincs bennük, így a HDD-kre jellemző „felpörgési” késlekedéssel nem kell számolnunk, így bizonyos helyzetekben gyorsabb adatelérést tesznek lehetővé amazoknál. Egyre nagyobb kapacitásúak: a minap jelentette be az egyik gyártó az 1 TB kapacitású, USB 3 csatolójú pendrive-ját. Egységnyi tárhelyre jutó áruk folyamatosan csökken. Sok ilyen flash lapkát a merevlemezekéhez hasonló (pl. SATA) csatolóval ellátott meghajtóvá egybeépítve jön létre az SSD drive, ami a közeljövőben a merevlemezek vetélytársává válik. 2012 végén a legnagyobb meghajtók kapacitása elérte a 2 TB-ot. A hosszú távú megőrzésre ezek a hordozók egyelőre nem ajánlottak, de rövid távú megőrzésre, munkatárolónak, adatmozgatásra, avagy dinamikus tárolórendszerek elemeiként egyre nagyobb szerephez jutnak. - 222 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
7.2.5. Hálózatos tárolás Ma már egy számítógép a legritkább esetben áll egymagában: szinte mindig számítógépek garmadával van összeköttetésben, vagy a helyi hálózaton keresztül, vagy az internet révén. A hálózatot felügyelő protokollokon keresztül, és a hálózat szabályrendszere által megadott lehetőségek között használhatja a vele összekötött gépek erőforrásait, egyebek mellett tárolóeszközeit, illetve a rajtuk lévő állományokat. Az archiválás szempontjából a hálózatos környezet már alapesetben is számos rugalmas lehetőséget biztosít, hiszen könynyen megtalálhatjuk és használhatjuk a hálózat szabad tároló kapacitásait, nem csak a saját gépünk lokális táraira dolgozhatunk, menthetünk adatokat. Egy komolyabb intézményi hálózat ennél még sokkal több lehetőséget kínál. Megfelelő architektúra kialakításával egy tároló hálózatot lehet kialakítani, illeszteni a szerver(ek)hez, ami mind a dinamikus helyigényszükségletet, mind pedig az archiválás, biztonsági mentés kívánalmait teljesíteni képes. A tároló hálózat (SAN=Storage Area Network) egy speciális hálózat szerverek, tároló- és mentő-rendszerek összekötésére. Célja a szerver és tároló/mentő-rendszerek, valamint a tároló és tároló közötti kapcsolat biztosítása. A hálózat tagjai között blokkos adatkommunikáció folyik (tehát nem fájl alapú). A szerverek normál lemezeknek látják a SAN által biztosított tárterületet, mely a megszokott módon használható. Valójában egy logikai lemez a legritkább esetben felel meg egy fizikai eszköznek valamelyik tárolóban. A diszkek nem közvetlenül a szerverhez vannak kapcsolva, tág határok között adhatunk hozzá új elemeket, a többi elem megzavarása nélkül változtatható a konfiguráció. A fizikai és a logikai kapcsolat elválik egymástól, a SAN révén megvalósítható a teljes tároló kapacitás konszolidációja, így az jobban kihasználható, a szabad kapacitás hozzárendelhető azokhoz a szerverekhez, munkaállomásokhoz, ahol igény van rá.
Maguk a tárolók fizikailag általában RAID tömbök, a mentő-egységek pedig szalag-könyvtárak. Úgy lehet megépíteni, konfigurálni a rendszert, hogy az automatikusan gondoskodjon a lemezek biztonsági felügyeletéről, észlelje és jelezze a meghibásodni készülő diszkeket, hogy időben gondoskodhassunk a cseréjükről. Biztosítja az automatikus, rendszeres adatmentést a szalagos háttértárakra (pl. éjszakánként a gyarapodás, havonta egy teljes mentés). A különböző elven működő tárolóeszközöket kombinálva, előnyeiket kihasználva gyors, megbízható, nagy kapacitású, költséghatékony tárolórendszerek építhetők. Budapest Főváros Levéltárában például egy olyan 80 TB kapacitású rendszert alakítottak ki, amely három különböző típusú elemből áll: gyors SSD, gyors HDD és közepes sebességű HDD. Kifelé nem mutatja az összetevőit a rendszer, egységes tárolófelületként jelenik meg, de intelligens vezérlője a használat gyakoriságának megfelelően osztja ki, tárolja rajtuk az állo- 223 -
Levéltári digitalizálás • Arcanum, 2012
7. Archiválás
mányokat: a leggyakrabban használtakat a leggyorsabb SSD-n, a kevésbé gyakran használtakat a gyors HDD-ken, míg a legritkábban igénybevett adatok a közepes sebességű HDD-ken „laknak”. Egy ilyen tároló rendszer kiépítése, üzemeltetése sok-sok millió forint, nyilvánvalóan csak a legnagyobb intézmények számára lehet elérhető. Semmi elvi akadálya nincs azonban annak, hogy erőforrásaikat külső partnerek (pl. a kisebb levéltárak) felé online megosszák, így azok is profitálhatnak a kialakult fejlett infrastruktúrából. Az utóbbi években egyébként létrejöttek a piaci alapon hasonló lehetőségeket kínáló szolgáltatások is, ahol egy adatparkban, előre kalkulálható költségért juthatunk igényeinknek megfelelő tárhelyhez. Lehet, hogy ma még túl drágának, nehézkesnek látszik egy ilyen szolgáltatás igénybevétele egy államiönkormányzati finanszírozású közgyűjteménynek, de az egyre nagyobb sávszélességet egyre olcsóbban kínáló internet-hozzáférés, és az adatparki szolgáltatások csökkenő ára következtében a közeljövőben reális alternatívát jelenthet a legkisebb intézmény számára is.
7.2.6. Felhő alapú adattárolás Technikailag és fizikailag lényegében az előző pontokban vázolt megoldásokon alapulnak a ma oly divatos kifejezéssel “felhő alapú” szolgáltatásnak (cloud storage, cloud computing) nevezett adattárolási, adatszolgáltatási modellek, amelyek még egy további lépést jelentenek az adatvirtualizáció útján. Leegyszerűsítve egyszerűen arról van szó, hogy a hálózatos szolgáltatások evolúciója elért arra a szintre, hogy nagy szolgáltatók képesek óriási méretű, egymástól fizikailag akár nagy távolságban lévő hálózatokat úgy összekapcsolni, hogy az a felhasználók számára egyetlen, igénybe vehető, hatalmas tárterületnek mutatkozzék, természetesen megfelelő szolgáltatásokkal, adatbiztonsággal, adminisztrációs lehetőségekkel. Ezeket először nagy cégek a saját szolgáltatásaikhoz alakították ki, de a szabad kapacitásokat, infrastruktúrát azután mint önálló profitábilis terméket piacra dobták. Ma már kifejezetten erre a célra létrejött cégek adják-veszik a világ adatparkjaiban, szolgáltatóinál fellelhető szabad helyet, sávszélességet, az igénybe vehető biztonságos tárkapacitás mint önálló piaci termék létezik. A Google Cloud Storage szolgáltatása (https://cloud.google.com/products/cloud-storage) például tetszőleges adatmennyiség tárolását, hozzáférés-menedzsmentet, kifinomult adatelemző eszközöket, egyedi alkalmazásfejlesztéshez megfelelő programozói felületet, fejlett tűzfalakkal és magas szintű titkosítással védett, a globális szintű redundancia révén biztosított, katasztrófa estén is szavatolt adat helyreállítást kínál a saját kialakítású és üzemeltetésű storage költségeinél kedvezőbb, a tárolt adatmennyiséggel és a felhasználás intenzitásával arányos áron (https://cloud.google.com/pricing/cloud-storage; jelenleg nagyságrendileg kb. 30-40 Ft/GB/hó az ár, tehát mondjuk egy 5 TB-os adatmennyiség tárolása ugyanekkora hálózatos adatforgalommal havonta kb. 200.000 forint körüli összegbe kerül).
- 224 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
8. Jogi megfontolások 8.1. A nemzetközi gyakorlat áttekintése Az Európai Unió különböző intézményei által a közelmúltban készített elemzések egyértelműen bizonyították, hogy a kulturális tartalmakhoz történő minél szélesebb körű és egyszerűbb hozzáférés gazdasági szempontból is rendkívül kifizetődő. Az ilyen jellegű kulturális tartalomfejlesztések várható gazdasági eredményeit modellezték és számszerűsítették is. Ezen elemzések arra is rámutattak, hogy a kulturális tartalomfejlesztés legfőbb gátja jelenleg a szerzői jogi kérdések és felhasználási lehetőségek nem kellő mértékű tisztázottsága. Ezen belül is a legnagyobb probléma a feltáratlan tulajdoni hátterű művekkel van, amik mennyisége egyre dinamikusabban nő. A legtöbb közgyűjtemény számára az úgynevezett árva művek publikálása jelenti a legtöbb problémát, mivel az általuk őrzött szellemi és kulturális tartalmak igen jelentős része ebbe a kategóriába tartozik. A 2012-es évben az európai döntéshozatali szervek kiemelten foglalkoztak ezzel a témával, aminek hatására a leginkább érintett közgyűjteményi szféra szakmai szervezetei is jelentős aktivitást és háttér előkészítő munkát végeztek.
8.1.1. A brit Könyvtárak és Levéltárak Szerzőjogi Szövetségének (LACA) állásfoglalása a szerzői jogokról (2012. március) A LACA 2009-ben felmérést készített a levéltárakban és könyvtárakban található árva művekről és a publikálásukkal kapcsolatos problémákról. Kiderült, hogy a könyvtári állományok 5-10%-a, míg a levéltári állományok jóval nagyobb hányada, közel 40%-a tekinthető ismeretlen tulajdoni háttérrel rendelkező műnek. A jelenlegi bonyolult és rendkívül szigorú szabályozások mellett, az összes ilyen jellegű mű legális publikálásához 16,000 évnyi munkaóra ráfordításra lenne szükség. Ráadásul a közgyűjtemények jelentős összegeket költenek ezen művek megfelelő módú tárolására és restaurálására, miközben a kívánt hasznosulásuk nem valósítható meg megfelelően. A brit nemzeti levéltár 5 millió Ł-ra becsüli az ilyen jellegű költségeit. Ezek a számok mindennél jobban érzékeltetik a jelenlegi helyzet tarthatatlanságát. Az eddigi európai szabályozások amellett, hogy rendkívül szigorú publikálási feltételeket szabtak, nem terjedtek ki számos fontos gyűjteménytípussal kapcsolatos joggyakorlatra. Elsősorban a szépirodalmi, hangzó és videó felvételeket nevesítették. Szintén problémát vet fel az a kérdés, hogy a mai nyitottabb világban a kulturális művek is szabadabban áramolhatnak, így sok külhoni műtárgy, irat, szellemi termék kerül át másik országba. Az egyes országok szerzői jogi szabályozása eltér a tulajdonosi háttér feltárását illetően. Nagy Britanniában kizárólag az országon belül kell keresni a jogtulajdonost, ami nem nevezhető feltétlenül alapos kutatásnak (diligent search), amit az uniós irányelvek előírnak.
8.1.2. Az Európa Tanács ajánlásai a kulturális javak digitalizálására és online közzétételére (2011. október 27.) Az Európai Közkincs Szerződés értelmében, a kulturális javak digitalizálása nem teremt új szerzői jogokat, csupán a formátum analógról digitálisra változik. Szabad felhasználású tartalmat a digitalizálás kapcsán sem lehet korlátozott felhasználásúvá tenni. Ugyanakkor különböző digitális tartalmak kimutatható szerkesztői elvek alapján történő összeépítése, vagy adatbázisban történő strukturált publikálása szomszédos jogokat alkothat. Az Unió kiemelt célnak tekinti a szabad felhasználású kulturális tartalmak minél szélesebb körben történő digitális közzétételét, mind a non-profit, az oktatási, a tudományos közéletben, mind pedig az üzleti felhasználók számára. Ezen tartalmak elsődleges hozzáférése mellett fontos és támogatandó szempont az újra, illet- 225 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
ve tovább hasznosításuk is. A szabad hozzáférésű gyűjteményeket az ajánlás szerint ingyenesen kell közzétenni a nem kereskedelmi célú felhasználók számára. A kulturális javakról szóló alapvető leíró információk, vagyis meta adatok minden esetben közkincsnek minősülnek, ezekre nem vonatkozhat szerzői jogvédelem. Ebből következően, a közgyűjteményekben őrzött tartalmak leírásait szabadon hozzáférhető módon közzé kell tenni.
8.1.3. Az Európai Parlament és a Tanács irányelve2 a közszféra információinak további felhasználásáról szóló 2003/98/EK irányelv módosításáról (2012. október 25.) Az eddig alkalmazott irányelv felülvizsgálata így az európai digitális menetrend és az intelligens, fenntartható és inkluzív növekedést célzó Európa 2020 stratégia részét képezi. A felülvizsgálat voltaképpen a digitális menetrend egyik kulcsintézkedése (1c. kulcsintézkedés).3 A módosított irányelvben megfogalmazottak szerint: „A kulturális gyűjtemények digitalizálása előmozdítja a kultúrához való hozzáférést azzal, hogy az európai kulturális intézmények által őrzött európai kulturális örökséget – könyveket, térképeket, hanganyagokat, filmeket, kéziratokat, múzeumi tárgyakat – könnyebben hozzáférhetővé teszi mindenki számára munka, tanulás vagy kikapcsolódás céljából. Ezzel párhuzamosan a digitalizálás az említett forrásokat a digitális gazdaság által alkalmazható tartós eszközökké alakítja, ami számos innovációs lehetőséget teremt, noha a digitális kulturális eszközök teljes kiaknázása még gyerekcipőben jár. Az üzleti modellek kidolgozása folyamatban van és a kereskedelmi tevékenységek éppen csak megkezdődtek. A közszféra által birtokolt információk széles körű elérhetővé tételének (a közszféra információinak további felhasználásáról szóló irányelv), valamint a digitalizált kulturális anyagok kreatív és innovatív iparágak számára történő rendelkezésre bocsátásának céljai teljes mértékben összeegyeztethetők és kölcsönösen erősítik egymást, valamint összhangban állnak az európai kulturális menetrenddel és a kulturális munkatervvel.” Fontosabb részletek a módosított EP és ET irányelvből: „(9) A további felhasználás céljából hozzáférhetővé tett dokumentumok esetében az érintett közigazgatási szervnek célszerű fenntartania a dokumentum felhasználására vonatkozó jogát. Gyakorlati intézkedések A tagállamok biztosítják, hogy a felhasználókat a további felhasználásra rendelkezésre álló dokumentumok nyelvek közötti keresésében olyan gyakorlati megoldások segítsék, mint a fő dokumentumokat metaadataikkal együtt tartalmazó, lehetőleg online módon és számítógéppel olvasható formátumban elérhető jegyzékek, illetve a decentralizált jegyzékekkel összekapcsolt internetes portálok.” (10) Az irányelv alkalmazási körét ki kell terjeszteni a könyvtárakra (ideértve az egyetemi könyvtárakat is), a múzeumokra és a levéltárakra is. (…) (11) A további felhasználás megkönnyítése érdekében a közigazgatási szerveknek – ha ez lehetséges és észszerű – a dokumentumokat a hozzájuk tartozó metaadatokkal együtt, számítógéppel olvasható formátumban kell elérhetővé tenniük olyan formátumban, amely biztosítja az interoperabilitást, például az Európai Közösségen belüli térinformációs infrastruktúra (INSPIRE) kialakításáról szóló, 2007. március 14-i 2007/2/EK
2 3
http://ec.europa.eu/internal_market/copyright/orphan_works/index_en.htm http://ec.europa.eu/information_society/digital-agenda/index_en.htm
- 226 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
európai parlamenti és tanácsi irányelvben a térinformációk tekintetében előírt összeegyeztethetőségi és felhasználhatósági követelményeket szabályozó elvek szerinti feldolgozásuk révén. (12) Azokban az esetekben, amikor a dokumentumok további felhasználására díjat számolnak fel, a díjnak elvben a dokumentumok feldolgozásának és terjesztésének határköltségeire kell korlátozódnia, kivéve az objektív, átlátható és ellenőrizhető kritériumok alapján kivételesen indokolt eseteket. Különösen célszerű figyelembe venni annak szükségességét, hogy az irányelv rendelkezései ne akadályozzák az olyan közigazgatási szervek rendes ügyvitelét, amelyek a rájuk bízott közfeladatok végzése során felmerülő működési költségeik jelentős részét a birtokukban lévő szellemi tulajdonjogok kiaknázásával fedezik. Annak bizonyítása, hogy a díjak költségorientáltak és megfelelnek a vonatkozó korlátozásoknak, a dokumentumok további felhasználásáért díjat felszámoló közigazgatási szervet terheli. (13) A közigazgatási szerv a hozzáférhetővé tett dokumentumok további felhasználásával kapcsolatban szükség esetén feltételeket szabhat a felhasználó számára, így például előírhatja a forrás megjelölését. A közszféra információinak további felhasználására vonatkozó engedélyeknek minden esetben csak a lehető legkisebb mértékben szabad korlátozniuk a további felhasználást. Az online elérhető nyílt engedélyek, amelyek szélesebb körű további felhasználási jogot biztosítanak technológiai, pénzügyi vagy földrajzi korlátozások nélkül, valamint a nyílt adatformátumok használata szintén fontos szerepet tölthet be e tekintetben. Ezért a tagállamoknak a nyílt közigazgatási engedélyek használatát kell előmozdítaniuk.” „A tervezet az „Infosoc-irányelv” 5. cikkében felsorolt kivételeken és korlátozásokon túl állapít meg – azok sértetlensége mellett – további kivételt és korlátozást. A tagállamoknak a tanulás és a kultúra népszerűsítésének előmozdítása érdekében lehetővé kell tenniük meghatározott intézmények számára az árva művek többszörözését és a nyilvánosság számára hozzáférhetővé tételét. A kivétel feltétele az, hogy ezen felhasználások a kedvezményezett intézmények közérdekű feladatainak ellátását, különösen gyűjteményeik, többek között digitális gyűjteményeik megőrzését és helyreállítását, valamint művelődési és oktatási célú hozzáférhetőségét szolgálják. Ennek megfelelően a tervezetben szereplő mechanizmus nem köti engedélyadáshoz a felhasználást. Az árva mű jogállás megváltoztatásáig történt felhasználásért az előkerült szerző méltányos díjazásra jogosult, a jövőre nézve pedig élhet az őt illető kizárólagos engedélyadási lehetőséggel; téves minősítés esetén a jogosult rendelkezésére állnak a tagállami és uniós jogorvoslati lehetőségek. Árva művek vagy produktumok esetében a jogosultak műveinek és egyéb, védelem alatt álló produktumainak többszörözésére és nyilvánosság számára történő hozzáférhetővé tételére vonatkozó kizárólagos és előzetes hozzájárulás nem szerezhető meg. Ezért a tervezet célkitűzése az, hogy Európa-szerte szabályozza egy kölcsönösen elismert árva mű jogállást, illetve e művek kölcsönös hozzáférhetővé tételét. A tanulás és a kultúra népszerűsítésének előmozdítása érdekében az irányelv tárgyi hatálya azon könyv, folyóirat, hírlap, magazin vagy egyéb írásmű formájában kiadott művekre, filmművészeti vagy audiovizuális művekre és hangfelvételekre, valamint közszolgálati műsorszolgáltatók által 2002. december 31-ig előállított és azok archívumaiban található filmművészeti vagy audiovizuális művekre és hangfelvételekre terjed ki, amelyek az intézmények gyűjteményében találhatók, szerzői vagy szomszédos jogi oltalom alatt állnak, és amelyeket egy tagállamban adnak ki először, vagy kiadás hiányában sugároznak először. Az árva mű státusz megszerzéséhez indokolt a nyilvánosan hozzáférhető könyvtárak, oktatási intézmények vagy múzeumok, archívumok, valamint a nonprofit alapon működő mozgóképörökségvédelmi vagy hangzóörökségvédelmi intézmények és a közszolgálati műsorszolgáltatók (kedvezményezett intézmények) vagy egyéb szervezetek által a tagállamok előírása szerinti gondos jogosultkutatás lefolytatása. E kutatás forrásait ugyancsak a tagállamok határozhatják meg az irányelv melléklete szerinti minimumok alapján.” A közintézményeknek a kutatások módjáról és lefolyásáról nyilvántartást kell vezetniük. Az árvaműnyilvántartásnak négy lényeges információt kell tartalmaznia: az intézmények által elvégzett gondos jogo- 227 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
sultkutatások eredményeit, amelyek alapján arra a következtetésre jutottak, hogy egy mű vagy hangfelvétel árva műnek minősül; az árva művek e szervezetek általi, ezen irányelvvel összhangban végzett felhasználását; a felhasznált művek és hangfelvételek jogállásában bekövetkezett változást, ha az érintett jogosult előkerül; végül az intézmény releváns kapcsolattartási információit. Az írásmű formájában kiadott művek gondos jogosultkutatását az adott tagállam(ok) kötelespéldányállományaiban, a könyvtári állományok és gyűjtemények indexeiben és katalógusaiban, a kiadók, szerzők, illetve újságírók szövetségeiben, az érintett közös jogkezelő szervezetek adatbázisaiban, továbbá meglévő adatbázisokban és nyilvántartásokban, mint amilyen a WATCH, az ISBN és az ISSN, a nyomtatásban lévő könyvek adatbázisában (Books In Print), valamint a többféle adatbázist és nyilvántartást egyesítő források, köztük a VIAF-ban és az ARROW-ban kell lefolytatni. Az e művekbe foglalt vizuális alkotások gondos keresését az előbb említett forrásokon túl közös jogkezelő és többszörözési jogokat kezelő szervezetek, valamint képügynökségek adatbázisaiban is el kell végezni. 4
8.1.4. A szabályozási irányelvek rövid értékelése A fenti tartalommal elfogadott egységes európai jogi szabályozás a nemzetközi szakmai szervezetek – European Bureau of Library, Information and Documentation Associations (EBLIDA) International Federation of Library Associations and Institutions (IFLA) – véleménye szerint, többszöri átdolgozás ellenére az árva művek tekintetében még mindig nem alkalmas a digitális publikálás elősegítésére, nem képes megfelelő támogatást biztosítani a közgyűjtemények számára. Ennek fő oka, hogy a szellemi tulajdonjogokra vonatkozó uniós megállapodásban foglaltakat érintetlenül hagyták (TRIPS-megállapodás), ezek továbbra is a kulturális, oktatási és tudományos társadalmi igények felett állnak. Az előírt kutatási minimum pedig még mindig az utópia határát súrolja. Legkritikusabb példa erre a több tíz évfolyamnyi intézményi szakfolyóiratok digitalizálása. A fenti irányelvek nemzeti szabályozásba való átültetésére, illetve a jogharmonizációra 2014. október 29-ig van lehetősége a tagállamoknak. Az Európai Parlament és Tanács 2015-ig folyamatosan vizsgálja az árva művekkel kapcsolatos szabályozás gyakorlati megvalósulását és szükség esetén további módosításokat fog javasolni, illetve figyelembe veszi a tagállamok konkrét bizonyítékokkal alátámasztott panaszait, ha és amennyiben az egyes tagállam esetében a jogharmonizáció nem lehetséges. Megítélésünk szerint, jelen szabályozás megalkotásakor a döntéshozók elsősorban a már létező jogszabályokból, kiemelten a szerzői jogot védő szabályozásból indultak ki. Kevés figyelmet fordítottak a digitális világ fejlődéséből adódó konkrét élethelyzetekre, problémákra, sokkal inkább az EU által elfogadott digitalizálási stratégia jogi körítését kívánták elkészíteni, továbbfejleszteni. Ebből következően, a közgyűjtemények számára támogatás helyett sokkal inkább egy lehetséges veszélyforrást jelent az általuk őrzött kulturális javak digitalizálása és szolgáltatása terén ez a szabályozás, ezért a korábbiaknál is nagyobb körültekintéssel kell eljárni a publikálások során. Külön ki kell emelni, hogy az árva művek szabályozása nem terjed ki a képek és önálló fotográfiák jogkezelésére. Más gyűjteményi és műtárgy típusoknál az árva mű státuszát megalapozó megelőző „alapos vizsgálat” mértéke, az egyes művek szerzői jogának megállapításánál nincs kellően meghatározva. Ugyanakkor, ha utólag jelentkezik egy jogtulajdonos, akkor az intézményt is vizsgálat alá lehet vonni, hogy mennyire körültekintően járt el az árva mű státusz meghatározása során. Bírósági elmarasztalás esetén pedig visszamenőlegesen is megállapítható a szerzői jogsértés, annak minden anyagi következményével.
4
Legeza Dénes István: „Segítsük az árvákat” – útmutató az árva művek egyes felhasználásaihoz in. Iparjogvédelmi és
Szerzői Jogi Szemle 117. évf. 5. szám, 2012. október, 51-54. p.
- 228 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
Az ajánlás elvárja továbbá, hogy amennyiben az intézmény jóhiszeműen járt el a publikálás során, de jelentkezik a jogtulajdonos, akkor őt anyagilag kompenzálni kell, figyelembe véve az össztársadalmi érdekből történő ingyenes publikálás díjmérséklő tényezőjét.5 A direktíva hangsúlyozza, hogy az árva művek esetében a közgyűjteményeknek törekedniük kell az ingyenes digitális közzétételre, akkor is, ha a publikálást külső szereplővel, piaci alapon működő céggel közösen végzi. Ennek elemeit azonban nem részletezi az ajánlás.
8.1.5. A magyar és a közösségi szabályozás6 Árvamű-eljárás
Magyar szabályozás
Közösségi szabályozás
felhasználás módja
online
többszörözés
online
többszörözés*
felhasználója
bárki
bárki
intézmény
intézmény
Felhasználandó műtípus
nem saját
nem saját
saját gyűjteményben
felhasználandó mű
bármilyen származású
először tagállamban kiadott vagy sugárzott
célja
ingyenes / kereskedelmi
a tanulás és a kultúra népszerűsítésének előmozdítása érdekében
terjedelme
nem kizárólagos
nem kizárólagos
területi hatálya
Magyarország
kölcsönös elismerés (EU 27)
időbeli hatálya
max. 5 év
nincs korlátozás
díjazás
megfelelő díjazás
méltányos díjazás
díjazás mértéke
SZTNH döntése alapján
tagállami megoldás szerint
gondos keresés
választás szerinti
meghatározott minimumok
keresés lefolytatása
az érintett országban
az első kiadás tagállamában
eljárási díj
van
n. a.
árvamű-nyilvántartás
országos
árva mű
online
többszörözés
online
többszörözés*
nem nyilvánosirodalmi mű
SZTNH
SZTNH
–
–
könyv
SZTNH
SZTNH
intézmény
intézmény
nem nyilvános nagyjogos zenei
SZTNH
SZTNH
–
–
nyilvános zenei
nagyjogos
SZTNH
SZTNH
intézmény
intézmény
nem nyilvános kisjogos zenei
SZTNH
SZTNH
–
–
nyilvános zenei
KJK
KJK
KJK
KJK
nem nyilvános vizuális művek
SZTNH
SZTNH
–
–
nyilvános
KJK
KJK
KJK
KJK
a felhasználás
kisjogos
vizuális
van
n. a.
uniós
5
Ezen esetekben a „méltányos” díjmeghatározás mértékét az adott tagállam törvényileg is szabályozhatja, illeszkedve a nemzeti joggyakorlathoz. 6 Legeza im. 56. p.
- 229 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
művek hangfelvétel
KJK
KJK / előállító
filmalkotás
SZTNH / filmeá./ KJK
SZTNH filmeá./ KJK
/
KJK
KJK / előállító
intézmény/ filmeá./KJK
intézmény/ filmeá./KJK
*melynek célja digitalizálás, hozzáférhetővé tétel, indexelés, katalogizálás, megőrzés vagy helyreállítás
8.1.6. Az Europeana jogkezelési gyakorlata Az olyan aggregát portál, mint az Europeana, különös kihívással néz szembe a jogi vonatkozásokat illetően: Európa-szerte rengeteg forrásból, a legváltozatosabb formátumú anyagok hatalmas tömegét teszi közzé – metaadatokat és digitális objektumokat egyaránt –, esélye sem lehet arra, hogy ezek jogállását ő maga tisztázza, rendezze. A tartalomszolgáltatókkal ezért megállapodást köt, amelyben azok vállalják, hogy az Europeana-ba került metaadataik szabad felhasználás alá kerüljenek, harmadik fél szabadon, minden térítéstől mentesen felhasználhassa őket. Izgalmas kérdés azonban a digitális objektumok Europeana felületén megjelenő (vagy API-ján keresztül elérhető) előnézetének, illetve maguknak az objektumoknak a felhasználói jogi státusza, hiszen ezek az egyes intézmények tulajdonát képezik, a legkülönbözőbb jogállapotokkal. Az adatszolgáltatónak minden egyes objektum esetén meg kell adnia a ‘Jogok’ mezőben az illető objektum jogállását meghatározó URL-t. (pl. ESE használata esetén, <europeana:rights>http://a.rights.statement/) Ezt a státuszt azután – kis ikonok formájában – az Europeana feltünteti minden objektum megjelenítésekor, így a felhasználók egy kattintással tájékozódhatnak a jogkövető felhasználás lehetőségeiről. Szűrni is lehet a kereséseket, találatokat ezen szempont szerint, így egyszerűen szűkíthetünk pl. a szabad felhasználású elemekre. Az Europeana az objektumok jogállása szerint négy fő kategóriát (ezeken belül összesen 12 különböző státuszt, jelzést) határoz meg: ●
Public Domain: jogvédelem alatt nem álló, következésképpen szabadon felhasználható objektumok (az alábbi 1. pont).
●
Creative Commons Licence: az adatszolgáltató egyben a jogtulajdonos (vagy a jogtulajdonostól ilyen értelmű engedéllyel rendelkezik), és azt szeretné, hogy az objektum bizonyos feltételek mellett felhasználható legyen (2-8. pont). A Creative Commons licenc-lehetőségei a “mindent szabad” és a “semmit sem szabad” közötti felhasználási spektrumot fedik le négy feltétel (kettő engedély, kettő kötelezettség jellegű) variációinak felhasználásával; az egyes szinteket jellegzetes logókkal illetve az angol nevükből képzett kétbetűs rövidítésekkel szokták jelölni. ○
"Nevezd meg": Attribution (BY) - szabadon másolható, terjeszthető, megjelentethető és előadható, illetve módosítható, de csak az eredeti szerző nevének (esetleg nickjének) megadásával
○
"Ne add el": Noncommercial (NC) - szabadon másolható, terjeszthető, megjelentethető és előadható, illetve módosítható, de kizárólag nem kereskedelmi célokra
○
"Ne változtasd": No Derivative Works (ND) - szabadon másolható, terjeszthető, megjelentethető és előadható, de nem módosítható
○
"Így add tovább": Share Alike (SA) - szabadon módosítható, és felhasználható más művekben, de azok ugyanazon licenc alatt kell, hogy megjelenjenek, mint az eredeti A Creativ Commonsról részletesebben lásd http://creativecommons.org
- 230 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
●
Copyright: az adatszolgáltató egyben a jogtulajdonos (vagy a jogtulajdonostól ilyen értelmű engedéllyel rendelkezik), és tiltani akarja a harmadik fél által való felhasználást; választhat az Europeana három standard jognyilatkozata illetve státusza között (9-11. pont). Ezek azt jelentik, hogy a tartalomszolgáltatók a birtokukban lévő digitális állományokat illető jogukat fenntartják, és csak kifejezett engedélyük birtokában lehet őket felhasználni.
●
“Ismeretlen” státusz: tisztázatlan jogi helyzetű, ismeretlen jogtulajdonosú objektumok (12. pont)
Nézzük meg most röviden az Europeana objektumaiban lehetséges 12 féle jogállást! 1
Public Domain (PD) http://creativecommons.org/publicdomain/mark/1.0 A szabad felhasználás alá sorolt művek minden korlátozás nélkül szabadon felhasználhatók.
2
Creative Commons CC0 1.0 Universal Public Domain Dedication (CC0) http://creativecommons.org/publicdomain/zero/1.0 A jogtulajdonos lemond a digitális objektummal kapcsolatban minden jogáról, erről nyilatkozik, így az szabadon, korlátozás nélkül felhasználható.
3
Creative Commons - Attribution (BY) - "Nevezd meg!" http://creativecommons.org/licenses/by/3.0 A jogtulajdonos korrekt feltűntetésével lényegében szabadon felhasználható, üzleti célból is.
4
Creative Commons - Attribution, ShareAlike (BY-SA) - "Nevezd meg!-Így add tovább!" http://creativecommons.org/licenses/by-sa/3.0 A jogtulajdonos korrekt feltűntetésével szabadon felhasználható akár üzleti célból is, de a felhasználásával létrejött produktumnak ugyanilyen jogállásúnak kell maradnia.
5
Creative Commons - Attribution, No Derivatives (BY-ND) - "Nevezd meg!-Ne változtasd!" http://creativecommons.org/licenses/by-nd/3.0 A jogtulajdonos korrekt feltűntetésével és bárminemű változtatás nélkül szabadon felhasználható, akár üzleti célból is.
6
Creative Commons - Attribution, Non-Commercial (BY-NC) - "Nevezd meg!-Ne add el!" http://creativecommons.org/licenses/by-nc/3.0 Csak nem üzleti célból használható fel, a jogtulajdonos feltüntetésével, a létrejött produktumnak nem kell örökölnie ugyanezt a jogállást.
7
Creative Commons - Attribution, Non-Commercial, ShareAlike (BY-NC-SA) - "Nevezd meg!-Ne add el!-Így add tovább!" http://creativecommons.org/licenses/by-nc-sa/3.0 Csak nem üzleti célból használható fel – a jogtulajdonos feltüntetésével –, és a létrejött produktumnak ugyanilyen jogállásúnak kell lennie.
8
Creative Commons - Attribution, Non-Commercial, No Derivatives (BY-NC-ND) - "Nevezd meg!Ne add el!-Ne változtasd!" http://creativecommons.org/licenses/by-nc-nd/3.0 Ez a legkorlátozóbb az Europeana által használt Creative Commons licencek közül: lényegében csak letölteni és megosztani lehet, bármilyen változtatás vagy haszonszerzés nélkül.
9
Rights Reserved – Free Access - Jog fenntartással - szabad hozzáférés http://www.europeana.eu/rights/rr-f A jogok fenntartása mellett a tartalomszolgáltató – mintegy grátisz – lehetővé teszi a felhasználók számára az adott tartalmakhoz való teljes és közvetlen hozzáférést.
10 Rights Reserved – Paid Access - Jog fenntartással - fizetős hozzáférés - 231 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
http://www.europeana.eu/rights/rr-p Azon esetben alkalmazható ez a státusz, amikor a tartalomszolgáltató csak fizetség ellenében engedi a felhasználóknak a saját weboldalán lévő tartalmak megtekintését. Többnyire csak valamilyen előnézet látható közvetlenül, csak regisztráció és fizetés után lehet a teljes értékű digitális objektumhoz hozzáférni. Ilyenkor az Europeana csak a metaadatokat és esetleg kisfelbontású előnézetet mutat, nem irányít közvetlenül a fizetős oldalra. 11 Rights Reserved – Restricted Access - Jog fenntartással - tiltott hozzáférés http://www.europeana.eu/rights/rr-r Ha a cél-weboldal a fizetési kötelezettségtől eltérő korlátokat állít a digitalizált objektumok elérése elé: pl. regisztrációs kötelezettség, vagy csak kisebb részletek, bélyegképek megjelenítése. Ilyenkor az Europeana csak a metaadatokat és optimális esetben egy kisfelbontású előnézetet tesz elérhetővé, nem irányít közvetlenül egy regisztrációs oldalra. 12 Unknown – Ismeretlen http://www.europeana.eu/rights/unknown Ez a státusz akkor alkalmazható, ha a tartalomszolgáltató nem rendelkezik perdöntő információval a digitális objektum jogi helyzetére vonatkozóan (pl. árva művek esetén). Az ilyen módon jelölt objektumokat az Europeana kizárhatja a megjelenítésből, ezért csak a legvégső esetben, az Europeana szakembereivel való konzultációt követően használjuk. Fontos megjegyezni, hogy az Europeana csak jelzi az egyes digitális objektumok jogállását a tartalomszolgáltatók adatközlése alapján, nem vizsgálja, nem ellenőrzi azokat; az Europeana címkéje nem jelent jogengedélyezést (szemben pl. a Creative Commons egyes kategóriáival).
8.2. A hazai jogkezelési gyakorlat áttekintése, javaslatok módosítására „A papír alapú dokumentumok megbízható elektronikus másolatával szemben támasztott technikai követelmények és gyakorlatban alkalmazható eljárásrend” c. projekttermék (Flexus, 2011) 2. fejezete röviden áttekinti a téma hazai környezetét, a vonatkozó jogszabályokat és rendeleteket, és felveti a törvényalkotás egy sor hiátusát a digitális levéltári iratkezeléssel kapcsolatban. Mivel nincs a levéltárosi szakma által általánosan elfogadott, egységes, mindenki számára érhető, minden lényeges kérdésben eligazítást adó jogi útmutató, úgy véljük, az alábbi fejezet jó kiindulási alap a szakmai vitákhoz, amelyek során megformálódhat a levéltári közgyűjteményi terület mindenki számára követendő jogkezelési modellje. A fejezet alapja a dr. Reisz T. Csaba c. főigazgatóval (Magyar Nemzeti Levéltár, levéltáros, történész, jogász) készült interjú. Az egyetemi oktatásban is általánosan elterjedt, hagyományos felosztás szerint a tárgyi emlékanyag őrzőhelye a múzeum, a nyomtatásban megjelent vagy a megjelentetés szándékával készült, kéziratban maradt írásos emlékanyagé a könyvtár, míg a hivatali és magán-írásbeliség – vagyis az olyan anyagok, amik nem a nyilvánosságra hozás szándékával készültek – emlékanyagáé a levéltár. Ez a tiszta felosztás azonban nem érvényesül a gyakorlatban, ezért átfedések lehetségesek az intézménytípusok között, megnehezítve ezáltal a múlt forrásainak kutatását. A kutatás nehézségei és az információvesztés leküzdésére a nyilvántartások, a kutatási segédletek és adatbázisok minél szélesebb körű közzététele szükséges – végső soron az emlékanyag teljes szövegű, információtartalmú, térben, időben és hozzáférési jogosultságban minél teljesebb körű közzététele. Ezt a közzétételt (publikációt) az őrző intézmények számos – szervezeti, személyzeti, technikai, pénzügyi – okból nem vagy nem maradéktalanul tudják megvalósítani, emiatt a külső szereplők közreműködése nemcsak szükségszerű, de indokolt és pótolhatatlan. - 232 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
Az intézmények önálló publikálási gyakorlata is számos jogi kérdést vet fel, amelyek körét a külső felek bekapcsolódása növeli, és a jogi bizonytalanság sok esetben lelassítja, vagy éppen megakadályozza a közzétételi folyamatokat, és ezek végső vesztese az információt igénylő felhasználó. A szolgáltatások minőségének javítását célzó (köz)gyűjteményi stratégiák számára és a külső partnerek transzparens és versenytisztaságot nyújtó közreműködése érdekében a releváns jogi kérdések áttekintése szükséges. Jelen összefoglaló a köz- és magánlevéltári gyűjteményeket illetően tesz megállapításokat, de azok mutatis mutandis a múzeumi, könyvtári és egyéb gyűjteménytípusoknál is figyelembe vehetők. A levéltárban őrzött iratanyag digitalizálásakor és hozzáférhetővé tételekor több jogterület szempontjaira is figyelemmel kell lenni. A legfontosabb a tulajdonjog kérdése, vagyis hogy kié az iratanyag és kinek milyen jogosultsága van afelett, továbbá hogy ki, hogyan és miként állapíthatja meg a felhasználás díját és kereteit? A levéltári anyag esetében a könyvtárakéhoz hasonló mértékben nem kell a szerzői jogokkal foglalkozni, de – különösen könyvészeti anyagok esetében – ez a terület sem hagyható figyelmen kívül. A levéltári anyag tartalmát illetően elengedhetetlen vizsgálati szempont az adatvédelem, a digitalizálás mennyiségi paraméterei alapján pedig a közbeszerzés szabályaira is tekintettel kell lenni. A hivatkozott jogszabályok fejezetben használt rövidítései
8.2.1. Tulajdonjog A magyar tulajdonjog fogalma a római jog azonos fogalmára vezethető vissza, amely szerint „a tulajdonjog (dominium, proprietas) az a dologi jog, melynél fogva a tulajdonos (dominus) a tulajdonjog tárgyául szolgáló dologra bárki jogosulatlan behatását kizárhatja és dolgában mindazt megteheti, ami más jogait nem sérti. … A tulajdonost e szerint a dologgal való tényleges rendelkezés körében megilleti a bírhatás (bírlalás) és a birtoklás joga (ius habendi, possidendi), a használat és gyümölcsöztetés joga (ius utendi et fruendi), elhasználás vagy éppen a megsemmisítés joga (ius abutendi, annihilandi); a jogi rendelkezés körében az élők közti vagy halálesetre szóló ügylettel való elidegenítés joga (ius distrahendi) és az idegen dologbeli jogokkal való megterhelés joga (ius onerandi).”[1] [1 Erre ld.: http://jog.unideb.hu/documents/tanszekek/jogtorteneti/romai-jogi-anyagok/rmaijogi-anyagok-2011/romaijog-17-print.pdf]
A magyar polgári jog szerint a tulajdonjog részjogosítványai a birtoklás (possidere), a használat (uti) és hasznok szedésének (frui) joga és a rendelkezési jog (Ptk. X. fejezet, 98-116. §§). Fontos és elsődleges kérdés (lenne) tehát annak tisztázása, hogy a levéltárak őrizetében található iratok kinek a tulajdonát képezik, vagyis ki az, aki a tulajdonjogot, annak részjogosítványait érvényesítheti? A szakiroda- 233 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
lom a kérdéssel („Kinek a tulajdona a közgyűjteményekben őrzött történeti emlékanyag?”) viszonylag keveset foglalkozott.[2] [2 Ezt a kérdést érinti Reisz T. Csaba: A közlési jog (szabályozási hatásvizsgálat megalapozása) c. szakdolgozata: http://www.reisztcsaba.hu/doc/essays/Szakdolgozat_ELTE_AJK_2010.pdf]
Egyértelműen más az iratanyag tulajdonosa abban az esetben, amikor a tulajdonjog fenntartásával kerülnek iratok a levéltár őrizetébe. Ennek jellemző jogi formája a letét (Ptk. XXXIX. fejezet, 462–473. §§), amikor letéti szerződéssel a letevő a letéteményes (levéltár) őrizetébe adja iratait. A letéti szerződésben szabályozhatók azok a jogosultságok, amelyeket a levéltár gyakorolhat (pl. kutatható-e az anyag, készíthető-e róla másolat és az felhasználható-e más műben, nyilvánosságra hozható-e, kell-e a letevőt előzetesen értesíteni, kell-e tőle engedélyt kérni stb.). Letétek digitalizálása/publikálása esetén a jogosultságokat a letéteményesnek különösképpen vizsgálnia kell. Az Ltv. 7. §-a szerint „a levéltári anyag közlevéltárban történő elhelyezése – ajándék, adásvétel, csereszerződés kivételével – a levéltári anyag tulajdonjogi helyzetét nem érinti”. Levéltári anyag alatt ugyanezen törvény szerint „az irattári anyagnak, továbbá a természetes személyek iratainak levéltárban őrzött maradandó értékű része, valamint a védetté nyilvánított maradandó értékű magánirat” tekintendő (Lt.v 3. § k/ pont), a maradandó értékű irat definíciója pedig: „a gazdasági, társadalmi, politikai, jogi, honvédelmi, nemzetbiztonsági, tudományos, művelődési, műszaki vagy egyéb szempontból jelentős, a történelmi múlt kutatásához, megismeréséhez, megértéséhez, a közfeladatok folyamatos ellátásához és az állampolgári jogok érvényesítéséhez nélkülözhetetlen, más forrásból nem vagy csak részlegesen megismerhető adatot tartalmazó irat” (Ltv. 3. § j/ pont). Ez tehát azt jelenti, hogy a levéltárakban őrzött köz- és magániratoknak nem tulajdonosa a levéltár, hiszen nem érinti a levéltárba kerülés a tulajdonjogi helyzetet. Ezek szerint tehát az iratképzők volnának a tulajdonosok és ők gyakorolnák a tulajdonjogot (és részjogosítványait)? Itt ugyanakkor megjegyzendő, hogy álláspontunk szerint a köziratképzők a közirat vonatkozásában nem saját tulajdonjogot szereznek az iratanyag felett, hanem az végső soron állami tulajdon lesz (Vö. Vtv. 2. § /2/ bekezdés). Tehát amikor a közirat az iratképzőtől a levéltárhoz kerül, valóban nem változik meg a tulajdonjog, mert az folyamatosan és kizárólag állami és önkormányzati tulajdon! Az idézett törvényhely szerint az ajándék, az adásvétel és a csereszerződés útján levéltárba kerülő iratanyagnak megváltozhat a tulajdonjogi helyzete. Ez azonban nem azt jelenti, hogy lenne a levéltárak őrizetében olyan iratanyag, amelynek tulajdonosa maga a levéltár. A levéltár, ha szerez, azt fenntartója, tulajdonosa számára szerzi (pl. az állam javára, vö. Vtv. 2. § /2/ bekezdés). A levéltár tehát nem egy olyan intézmény, amely önálló tulajdonjoggal rendelkezik, hanem tulajdonosának „megbízottjaként” tevékenykedik (vö. a Ptk. megbízásról szóló XL. fejezetét). Összességében tehát elmondható, hogy a levéltárakban őrzött iratanyag tulajdonjoga nem a levéltáraké, legfeljebb a tulajdonos megbízásából gyakorolhatják az egyes részjogosítványokat. (Hogy ez a jogosultság nem teljes körű, azt jól jellemzi az elidegenítési tilalom: „Köziratot, valamint közlevéltárban őrzött, köziratnak nem minősülő levéltári anyagot elidegeníteni, megrongálni vagy egyéb módon használhatatlanná tenni, továbbá – a szabályosan lefolytatott selejtezési eljárást kivéve – megsemmisíteni tilos.” Ltv. 5. § /1/ bekezdés). Kérdés viszont, hogy rendelkezik-e a levéltár azzal az általános megbízással, hogy a tulajdonjog egyéb részeiben teljes jogkörrel eljárjon (mintegy a haszonélvezeti jog analógiájára – lásd a PTK 157. §.) A fent elmondottak jól jelzik, hogy szükséges lenne a levéltárakban őrzött iratanyag tulajdonjogi kérdését olyan módon tárgyalni, hogy az vezérfonalul szolgáljon az intézményvezetők számára, akik döntést hoznak pl. abban a kérdésben, hogy megengedjék-e valamely irategyüttes digitalizálását, publikálását.
8.2.2. Közlési díj A tulajdonjog kérdésének tisztázása azért is elengedhetetlen, mert ebből további kérdések megválaszolása is fakadhat. Ilyen fontos kérdés az, hogy milyen jogon és milyen módon állapíthatja meg egy levéltár az őrizetében lévő iratanyag digitalizálásának és közzétételének technikai és pénzügyi feltételeit. Jogosult-e, és ha igen, mi alapján és milyen mértékben közlési díjat megállapítani? - 234 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
Ebből a szempontból elgondolkodtató Reisz T. Csaba felfogása a közlési díjról. Álláspontja szerint a „közlési díj” jogalapját a tulajdonjog egyik részjogosítványából, a hasznok szedéséből lehet levezetni, de figyelembe kell venni az állami tulajdon kezelésére vonatkozó további előírásokat is (azért, mert a közlevéltárakban található iratanyag jó része közirat, és mint ilyen, állami tulajdon). A dokumentumok képének közlése értéknövelő lehet, vagyis a dokumentumnak mérhető haszna is van. A hasznok szedésére a tulajdonos jogosult, vagy az, akinek ezt a jogot átengedi. Az állami tulajdon feletti jogosultságokat a Magyar Nemzeti Vagyonkezelő Zrt. közvetlenül vagy szerződések útján hasznosítja (itt szükséges megjegyezni, hogy a szakdolgozat elkészítését követően a Vtv. változott, így a megállapítások a hatályos jogszabályi előírások alapján finomítandóak). Reisz konklúziója szerint: „Összességében megállapítható, hogy a közgyűjteményekben őrzött, állami tulajdonban lévő ingó dolgok (itt: írott kulturális örökség) felett a tulajdonosi jogok gyakorlását az MNV Zrt. vagyonkezelési szerződés keretében átadhatja pl. a közgyűjteményeknek, akik ennek alapján – és elméletileg, vagyis jogszabályi keretek között csak és kizárólag ennek alapján – a hasznok szedését is végezhetik.” Reisz arra is kitér, hogy a nyilvánosságra hozásért kért díjat miért „közlési díjnak” kellene nevezni: „… a »közlési díj« a jogi szabályozás területén nem más, mint az állami tulajdonban álló, közgyűjtemények kezelésében lévő (írott) kulturális örökség nyilvánosságra hozataláért jogszabály szerint megállapított pénzbeli hozzájárulás a közgyűjtemények alapfeladatainak ellátásához. Tekintettel arra, hogy »közlési díjat« nem csak e fogalmi keretekben állapíthatnak meg (pl. egy magánintézmény is így nevezheti a tulajdonában, őrizetében lévő dokumentumok nyilvánosságra hozásáért kért vagyoni ellenszolgáltatást), ezért a jelentés bővülése bizonyosan várható.”[3] [3 Reisz T. Cs.: i. m. 8-9. p.]
Álláspontunk szerint a „közlési díj” lehetőleg jogi, de mindenképpen transzparens szabályozására az őrző intézmények és a másik fél szempontjából is szükség van, hogy az intézményi önkényes ármegállapítások, „testre szabott” kedvezmények vagy éppen közlést akadályozó díjmegállapítások gyakorlata véget érjen. Megfontolásra javasoljuk Reisz szabályozási hatásvizsgálati felvetéseit és a kérdés jogszabályi rendezésére vonatkozó javaslatát. Itt jegyezzük meg, hogy német nyelvterületen a közlési díjat rendeleti úton pontosan szabályozzák, így pl. Szászországban a belügyminisztérium rendeletével (Sächsische Archivgebührenverordnung – SächsArchivGebVO).[4] [4 Ld.: http://www.revosax.sachsen.de/Details.do?sid=49042699574]
A Szász Állami Levéltár díjszedési gyakorlatát 2006-ban a Pénzügyminisztérium jóváhagyásával a Szász Belügyminisztérium szabályozta. A rendelet kijelenti, hogy az Állami Levéltár az eszközei használatáért és szolgáltatásaiért díjat szedhet. Ezzel a díjjal a szolgáltatás létrehozásához szükséges, azzal összefüggő tevékenységet kompenzálnak. A díjak és költségek a levéltár szolgáltatásainak az igénybevételével vagy eszközeinek használata által keletkeznek. Definiálják, hogy annak kell fizetni, aki a szolgáltatást igénybe veszi, vagy akinek az érdekében igénybe veszik. Ha több felhasználó van, akkor közöttük a felhasználás arányában oszlik meg a díj. A levéltár bizonyos esetekben előleget is kérhet. Egyes felhasználók díjmentességet élveznek: hatósági szervek, a bíróságok, ügyészségek, önkormányzatok, egyéb állami szervezetek, valamint azok az intézmények, amelyek adatokat szolgáltatnak a levéltárnak. Díjmentes a tudományos vagy helytörténeti kutatás és publikálás, ha semmilyen üzleti haszonszerzés nem kapcsolódik hozzá. Az ilyen jellegű felhasználás, ha nem meghatározó mértékben kapcsolódik hozzá üzleti haszonszerzés, 50% kedvezményt kaphat. Egyedi elbírálás alapján a Levéltár eltekinthet a díjfizetéstől. Néhány példa a különböző szolgáltatások díjaira (2013. januárjában):
- 235 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
Ugyancsak itt kell tárgyalni azt a kérdést, hogy a digitális felvételekhez milyen felhasználási jogosultságok kapcsolódnak? Ezen a területen a közlési díjnál mondott szabályozási elégtelenség ugyancsak fennáll, a probléma azzal együtt orvosolható. A kérdést úgy tehetjük fel, hogy ha valaki digitális képet szerzett (megrendelte vagy maga készítette el) egy levéltári dokumentumról, akkor azt milyen jogosultságokkal és/vagy korlátozásokkal hasznosíthatja? Önálló tulajdonjogi életet élhet-e a digitális felvétel vagy mindig az eredeti dokumentumhoz kapcsolódik? A kérdés megválaszolása nemcsak e tanulmány kereteit és kapacitásait feszítené szét, de meggyőződésünk, hogy az egész közgyűjteményi intézményrendszer jogi kapacitását is, bár éppen a fenti hivatkozott szászországi rendelet erre is kézenfekvő megoldást kínál, ami azt jelzi, hogy a probléma nem megoldhatatlan.
8.2.3. Szerzői jog A levéltárakban őrzött iratanyag (hivatali és magán-írásbeliség) jelentős része nem esik a szerzői jogi védelem hatálya alá. Az Szjt. is kizárja a védelem köréből az ilyen iratanyagot („Nem tartoznak e törvény védelme alá a jogszabályok, az állami irányítás egyéb jogi eszközei, a bírósági vagy hatósági határozatok, a hatósági vagy más hivatalos közlemények és az ügyiratok, valamint a jogszabállyal kötelezővé tett szabványok és - 236 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
más hasonló rendelkezések. A szerzői jogi védelem nem terjed ki a sajtótermékek közleményeinek alapjául szolgáló tényekre vagy napi hírekre.” Szjt. 1. § /4/–/5/ bekezdés). Ugyanakkor nem elképzelhetetlen, hogy a levéltári iratanyagban (különösen a magániratok között, családi fondokban) akadnak olyan irodalmi, tudományos vagy művészeti alkotások, amelyek a szerzői jogi védelem hatálya alá esnek. Megjegyzendő, hogy a szerzői jogi védelemmel kapcsolatos előírások elsősorban a könyvtári anyag digitalizálása és hozzáférhetővé tétele esetén merülnek fel akut problémaként, és ezért a kérdés tárgyalása is elsősorban a könyvtári közeg fórumain történik.[5] [5 Az egyik legújabb összefoglaló a Digitalizált Törvényhozási Tudástár honlapján: http://dtt.ogyk.hu/hu/hatterinformaciok/szerzoijogi-kerdesek; továbbá http://dtt.ogyk.hu/images/sajtokozlemenyek/DTT_TE.pdf]
Tekintettel arra, hogy a levéltárakban őrzött könyvészeti anyag digitalizálása és hozzáférhetővé tétele részben eddigi eredményként (el)ismert, részben pedig további feladatként napirenden van, szükséges legalább fő vonalaiban ismerni a vonatkozó jogi szabályozást. Ismernie kell a döntéshozóknak a szerzői jogi védelem személyi, területi, tárgyi és időbeli hatályát, valamint azokat a kivételeket, amelyek lehetőséget adnak a szigorú korlátoktól való eltérésre. (Tudatosan nem foglalkozunk a szerzői jog megsértésének polgári jogi és büntetőjogi szankcióival, de jelezzük, hogy azok is léteznek.) Az Szjt. az irodalmi, tudományos vagy művészeti alkotásokat – mennyiségi, minőségi és esztétikai jellemzőktől függetlenül – védi, de ezek teljes körű felsorolására nem vállalkozik, csak példálózó felsorolást ad: ide tartozik mások mellett az irodalmi mű, a nyilvános beszéd, a számítógépes szoftver, a térképmű és más térképészeti alkotás, az építészeti terv, műszaki létesítmény terve, a gyűjteményes műnek minősülő adatbázis is (Szjt. 1. §). E felsorolásból is látható, hogy a levéltári anyagban is bizonyosan van olyan alkotás, amelynél e törvény előírásait figyelembe kell venni. Egy adatbázis pl. ilyen értelemben önálló terméknek, feldolgozásnak tekinthető. A szerzői jog két nagy részből áll, az ún. személyhez fűződő jogokból és a vagyoni jogokból. A személyhez fűződő jogok nem átruházhatók, nem szállhatnak át és nem lehet lemondani azokról, a vagyoni jogokra hasonló előírás vonatkozik, de örökölhetők, végrendeletileg örökíthetők, örökösök egymás javára rendelkezhetnek azokról. A személyhez fűződő jogok a nyilvánosságra hozatal joga (de szolgálati mű esetén nem lehet megtiltani a munkáltatónak, hogy az átadott művet nyilvánosságra hozza!), a név feltüntetésének joga és a mű egységének védelme (tilos torzítani, csonkítani). A vagyoni jogok körébe tartozik a felhasználás joga és annak engedélyezése (cím, jellegzetes, eredeti alak kereskedelmi hasznosítása vonatkozásában is), az engedélyezésért járó díjazás igénye (a törvény szerint ennek a felhasználáshoz kapcsolódó bevétellel kell arányban állnia), továbbá a felhasználó köteles a szerzőt/jogutódját/közös jogkezelő szervezetet a felhasználás módjáról és mértékéről tájékoztatni. A levéltári területen folyó digitalizálási tevékenységek tapasztalatai alapján kijelenthető, hogy azok a személyhez fűződő jogokat betartják, a vagyoni jogok vonatkozásában pedig elsősorban a felhasználás engedélyezésének beszerzése, valamint ezzel összefüggésben a díjfizetés ténye/mikéntje jelent fejlesztésre szoruló területet. Megjegyzendő ugyanakkor, hogy az évtizedekkel ezelőtt készült felhasználási szerződések nem voltak tekintettel – mert nem is képzelték, milyen nagy változások jönnek – az informatikai, publikálási fejlődésre, így ma egy internetes publikálás esetén új felhasználási szerződést kell(ene) kötni a szerzőkkel. Az utóbbi években egyre többször olyan felhasználási szerződéseket kötnek a kiadók, publikálással foglalkozó szervezetek, hogy abban nemcsak a jelenleg ismert, de a későbbiekben feltalált közvetítőeszközökre is jogosultságot kérnek a szerzőktől. Ez jó megoldás a jövőre nézve, de nem rendezi az elmúlt évtizedek jogi hiányosságait. Az Szjt. pontosan meghatározza a felhasználás (17. §) eseteit: ilyen a többszörözés (szerző kizárólagos joga vagy erre engedély adása), a mű anyagi hordozón történő ideiglenes vagy végleges rögzítése, egy vagy több másolat készítése, terjesztés (nyilvánosság számára hozzáférhetővé tétel), nyilvános előadás, nyilvánossághoz közvetítés-sugárzással vagy másként, átdolgozás, kiállítás. E jogszabályhely alapján már akár az ideiglenes rögzítés is felhasználásnak, így engedélykötelesnek minősül. - 237 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
A szerzői joggal kapcsolatban fontosnak tartjuk megjegyezni, hogy a szabályok mérhetetlenül individualisták, amelyek a közösségi célokat és érdekeket is háttérbe szorítják. Vajon mihez fűződik nagyobb érdek: hogy József Attila azon szerzői jogi örökösei részesüljenek jogdíjban, akik (felmenői) éppen nem sokat tettek azért, hogy a költő életkörülményei jobbak legyenek, vagy hogy bárki szabadon elérhesse az interneten keresztül József Attila verseit? A szerzői jogra hivatkozó díjigény egészen 1997-ig megakadályozta, hogy József Attila valamennyi verse elérhető legyen, de mindez 1998. január 1-jétől már nem akadály.[6] [6 József Attila összes költeménye. http://www.mek.oszk.hu/00700/00708/html/]
Az individualizmus egyébként nem magyar, hanem inkább európai léptékben gátja a közösségi érdekeknek, mert a korábbi 50 éves magyar védelmi időt az európai jogharmonizáció érdekében emelték fel 70 évre. A szerzői jogi védelem alá eső alkotások egyik sajátos formája az ún. szolgálati mű („munkaviszonyban vagy más hasonló jogviszonyban létrehozott mű”, Szjt. 30. §). A munkaidőben, munkafeladatként, esetenként a munkáltató által biztosított eszközökkel létrehozott mű átadásakor a vagyoni jogokat a munkáltató szerzi meg, aki még akkor is jogosult a mű nyilvánosságra hozatalára (név nélkül), ha a szerző később viszszavonja a nyilvánosságra-hozatalra vonatkozó hozzájárulását. Az Szjt. a védelmi időt a szerző halála évét követő 70 évben állapítja meg, de a védelmi idő lejártát követően első alkalommal nyilvánosságra hozott művek esetében további 25 év védelmi időt állapít meg a törvény. A szerzői jogi védelem hatálya alá tartozó művek esetében is van arra lehetőség, hogy a műveket egyes célokra díjtalanul és előzetes engedély nélkül felhasználják. Ezek az ún. szabad felhasználás esetei (Szjt. 33. §). Ilyen szabad felhasználás az idézés (forrás és szerző megnevezésével); a szemléltetés érdekében történő felhasználás iskolai oktatási célra, tudományos kutatás céljára; természetes személy által magáncélra készített másolat (szoftver: nem). Teljes könyv, folyóirat vagy napilap egésze magáncélra is csak kézírással vagy írógéppel másolható. Vannak olyan kedvezményezett intézmények, amelyek bizonyos célból készíthetnek másolatot a művekről (Szjt. 34. §). Ilyen intézmények: a nyilvános szolgáltatásokat nyújtó könyvtár, az iskolai oktatás célját szolgáló intézmény, a muzeális intézmény, a levéltár, valamint a közgyűjteménynek minősülő kép-, illetve hangarchívum. A másolatkészítés feltétele, hogy az „jövedelemszerzés vagy jövedelemfokozás célját közvetve sem szolgálja, és tudományos kutatáshoz vagy archiváláshoz szükséges, nyilvános könyvtári ellátás vagy a [z Szjt.] 38. § (5) bekezdésében meghatározott felhasználás céljára készül, megjelent mű kisebb részéről, illetve újság- vagy folyóiratcikkről belső intézményi célra készül, vagy külön törvény azt kivételes esetben, meghatározott feltételekkel megengedi.” A kedvezményezett intézmények számára a szabad felhasználás keretében biztosított hozzáférés módját részletesen szabályozza az Szfr. A kormányrendelet szerint csak a tudományos kutatás vagy az egyéni tanulás céljából lehet hozzáférést biztosítani a szerzői jogi védelem alatt álló művekhez, mégpedig oly módon, hogy olyan műszaki megoldást alkalmaznak, amely megakadályozza, hogy a hozzáférhetővé tett műveket módosítsák, többszörözzék (letöltsék, másolják), továbbá hogy az igénybevevőkön kívül mások is hozzáférhessenek a művekhez. Az igénybevevőket tájékoztatni kell arról, hogy a felhasználás csak tudományos kutatás vagy egyéni tanulás céljából vehető igénybe, és az igénybevétel ezen célját az igénybevevőnek is ki kell jelentenie. A kedvezményezett intézmények gyűjteményei összekapcsolhatók és egymás számára elérhetők, de a technikai feltételrendszert minden résztvevőnek teljesítenie kell (biztonságos hálózat, nyilatkozatok). 2009. február 1-jétől szerepel az Szjt-ben az ún. árva művek felhasználásának eljárásrendje (Szjt. 57/A. § „A felhasználás engedélyezése ismeretlen vagy ismeretlen helyen tartózkodó szerző alkotása (árva mű) esetén”. Ez a jogi szabályozás azt igyekszik elősegíteni, hogy ha egy szerzői jogi védelem alá eső mű szerzője nem ismert vagy nem elérhető, az ne legyen akadálya a felhasználásnak, de tegye lehetővé a szerző későbbi felkutatását, azonosítását, esetleges anyagi juttatását (díjigényének kielégítését).[7] [7 Vö. a Szellemi Tulajdon Nemzeti Hivatala (www.sztnh.gov.hu) honlapját.]
Az árva művekre vonatkozó európai uniós jogi szabályozás (irányelv formájában) jelenleg készül, a kérdéssel a szerzői jogi szakértők is foglalkoznak.[8] - 238 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
[8 Legeza Dénes István: „Segítsük az árvákat”. Útmutató az árva művek egyes felhasználásához. Iparijogvédelmi és Szerzői Jogi Szemle, 7. (117.) (2012) 5: 23–58. (http://www.sztnh.gov.hu/kiadv/ipsz/201205-pdf/02.pdf Letöltés időpontja: 2012. december 9.)]
8.2.4. Adatvédelem A dokumentumok tartalmi vonatkozásait (információtartalmát) illetően szem előtt tartandó szempont, hogy van-e azokban olyan jellegű adat, amelynek bárki általi vagy azonosítás nélküli megismerhetősége korlátokba és tilalmakba ütközik. Ilyen korlátozást csak törvény írhat elő, a védendő adatok köre pedig két csoportra bontható: természetes személyekre vonatkozó személyes adatokra, továbbá az állam- és közigazgatás szerveinek működése során keletkeztetett, a nyilvánosságtól elzártan kezelendő, ún. minősített adatokra. A levéltárakban őrzött dokumentumok mindkettő adattípust tartalmazhatják, ezért fokozott figyelem szükséges az iratanyag hozzáférhetőségének biztosításakor. A személyes adatokat korábban az Atv. védte (hatályon kívül: 2012. I. 1.), ma pedig az e törvényt felváltó Infotv.[9] írja elő a védendő adatok körét és a nyilvánosságra hozásuk szabályait. [9 http://net.jogtar.hu/jr/gen/hjegy_doc.cgi?docid=A1100112.TV]
Nem mindenki előtt ismert pontosan, hogy e törvény az élő ember személyes adatait védi. Ez abban is megnyilvánul, hogy a személyes adatok kezelésével kapcsolatos problémák esetén csak az érintett léphet fel azok elhárítása, megoldása érdekében („érintett: bármely meghatározott, személyes adat alapján azonosított vagy – közvetlenül vagy közvetve – azonosítható természetes személy /Infotv. 3. §/). Az elhunyt személyes adatait a kegyeleti jog keretében, korlátozásokkal védheti a hozzátartozó, a végrendeleti örökös vagy az ügyész („Ptk. 85. § /3/ Meghalt személy emlékének megsértése miatt bírósághoz fordulhat a hozzátartozó, továbbá az a személy, akit az elhunyt végrendeleti juttatásban részesített. Ha a meghalt személy /megszűnt jogi személy/ jó hírnevét sértő magatartás közérdekbe ütközik, a személyhez fűződő jog érvényesítésére az ügyész is jogosult.”). A személyes adatokat az érintett életén túl is védi a Levéltári törvény (Ltv.), amikor kimondja: „Ha törvény másként nem rendelkezik, a személyes adatot tartalmazó levéltári anyag az érintett halálozási évét követő harminc év után válik bárki számára kutathatóvá. A védelmi idő, ha a halálozás éve nem ismert, az érintett születés[é]től számított kilencven év, ha pedig a születés és a halálozás időpontja sem ismert, a levéltári anyag keletkezésétől számított hatvan év.” (Ltv. 24. § /1/ bekezdés). Ezzel kapcsolatban szükséges jelezni, hogy nincs sem jogszabályi, sem szakmai definíciója annak, hogy mit jelent a születés vagy a halálozás évének „ismertsége”. Kádár János (1912–1989) adatait nem azért ismerjük, mert a levéltári iratanyagban nevének, személyének előfordulásakor zárójelben mindig megadták volna azokat. Az időpontokat tehát nem maga az iratanyag őrzi, hanem más forrásokból állapíthatók meg. De vajon hogyan állapítható meg Nagy György, Kovács János vagy éppen Szabó Péter halálozási vagy születési időpontja, ha további természetes azonosítójuk (születési adatok, anyjuk neve) sem megismerhető a dokumentumból? (A levéltári gyakorlatban, ha nem derül ki az iratból a pontos dátum, általában a levéltári anyag keletkezésének idejétől számított hatvan évet tartják be.) Mennyi és melyik adattárban kell ellenőrizni az adatokat, hogy kijelenthető legyen valamelyik adat ismeretlensége? Hibázik-e a levéltáros, ha valahol nem nézett utána az adatnak? Nyugodtan kijelenthető, hogy a személyes adatok jó része nem a levéltári iratanyagból lenne megállapítható, vagyis néhány „szakmai kör” után az irat keletkezésének időpontja határozza majd meg, hogy védeni kell-e a dokumentumot a megismerhetőségtől. Tehát vagy a törvény megváltoztatása, vagy a szakmai gyakorlat definitív meghatározása volna szükséges. (Megjegyzendő ugyanakkor az a következetlenség, hogy míg a halálozás esetében a halálozás évéhez kell 30 évet hozzáadni, tehát egy január 2-án elhunyt személynek majdnem 31 évig védik még személyes adatait, addig a születés és az iratkeletkezés esetén már nem az évhez, hanem a dátumhoz kell a 90/60 évet hozzászámítani. Jogszabály-módosításkor ez a pontatlanság is kiküszöbölendő lehet.) Azért is nagy felelősség a személyes adatok védelmének biztosítása, mert az Ltv. szerint bármely természetes személy ingyen kutathat „időbeli korlátozás nélkül abban a levéltári anyagban, amelyet már nyilvánosságra hoztak” (Ltv. 22. § /1/ bekezdés). Az anyakönyvek kutathatóságáról, védelméről, levéltári anyag jelle- 239 -
Levéltári digitalizálás • Arcanum, 2012
8. Jogi megfontolások
géről napjainkban is eltérő felfogás és gyakorlat van az egyes levéltárak között, sőt, számos – parázs – vita folyik a kérdéskörben, ezért tartózkodunk is bármilyen állásfoglalástól. Az 1990-es években a Tolna Megyei Levéltárban mikrofilmre vették a mormonok számára a polgári anyakönyvek megyei levéltárakban őrzött másodpéldányait, amelyek ma szabadon elérhetőek a www.familysearch.org, továbbá a www.macse.org oldalán. Ezek a felvételek már nyilvánosságra kerültek, tehát a hozzáférés további korlátozása értelmetlen, hiszen a törvény szerint is kutathatóvá váltak. Ezen a területen ugyancsak szükséges a jogi helyzet és a szakmai álláspontok pontosítása, egységesítése. Az iratképzők által (1990. május 1. után) keletkeztetett iratanyagot egyrészt egy általános, a keletkezéstől számított 30 éves védelmi időben részesíti az Ltv. (Ltv. 22. §), másrészt a minősített iratok hozzáférését további korlátozásokkal gátolják az adatvédelmi törvények. Korábban az 1995. évi LXV. törvény az államtitokról és a szolgálati titokról (hatályon kívül: 2010. április 1.), majd ezt felváltva a 2009. évi CLV. törvény a minősített adatok védelméről tartalmaz korlátozó előírásokat. A védendő adatok törvények által rögzített megismerhetőségi korlátait oldják az egyes kivételek. Így például a személyes adatok vonatkozásában a tudományos kutatás nyit kiskaput a megismerhetőség számára, míg az iratképzők által termelt dokumentumok megismerhetőségét a közérdekű adatok megismerhetőségének joga (Infotv.) segíti elő. A tilalmak ismerete és betart(at)ása az iratanyagot őrző intézmény feladata, azt a digitalizálást (adatbázisba rendezést, publikálást stb.) végzőre nem háríthatja át. Ha fennáll a lehetősége annak, hogy a korlátozás alá eső adat feldolgozása megtörténik, azt célszerű a feldolgozóval is közölni és felkészíteni az ilyen jellegű adat észlelésekor követendő eljárásrendre.
- 240 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9. Gyakorlati útmutató Az alábbi fejezetekben tömören összefoglaljuk a levéltárakban előforduló, egy-egy adott eszköztípushoz köthető legtipikusabb digitalizálási szituációkat. Egy állományformátum digitalizálása sokszor többféle eszközön is lehetséges, a megfelelő konkrét eszköz kiválasztása az anyag fizikai paramétereinek (hordozó anyaga, állapota, mérete), tárolásuk jellegzetességeinek (önálló lapok, tűzött, fűzött, kötött, ragasztott kötetek), a digitalizálás céljának és a projektbe bevonható erőforrásoknak a figyelembe vételével történhet. Az alábbi táblázatban felsoroljuk a levéltárakban előforduló anyagtípusokat és a digitalizálásukhoz használható eszközöket.
papíralapú iratok
dokumentum szkenner
síkágyas szkenner
felsőfejes könyv szkenner
térkép szkenner
papíralapú kötetek
robot szkenner
felsőfejes könyv szkenner
síkágyas szkenner
digitális fényképezőgép
pergamenalapú oklevelek
felsőfejes könyv szkenner
digitális fényképezőgép
síkágyas szkenner
térképek, építészeti tervek, plakátok
térkép szkenner
felsőfejes könyv szkenner
síkágyas szkenner
digitális fényképezőgép
fotók
síkágyas szkenner
dokumentum szkenner
digitális fényképezőgép
felsőfejes könyv szkenner
diák, negatív filmek
film szkenner
síkágyas dob szkenner szkenner (diafeltéttel)
mikrofilmek
mikrofilm szkenner
hanganyagok
hangdigitalizáló kártya
videó anyagok
videó digitalizáló kártya
háromdimenziós objektumok
digitális fényképezőgép
digitális fényképezőgép
A következő táblázat azt foglalja össze, hogy az egyes szkennertípusok milyen anyagok digitalizálása esetén használatosak elsősorban, illetve mik a legfontosabb előnyös tulajdonságaik és hátrányaik.
dokumentum szkenner
papíralapú „szálas” iratok
nagy sebesség, duplex
max. A3 méret, csak önálló, vékony lapok, kényes anyagok nem
robot szkenner
bekötött anyagok
gyors, kíméletes
drága, max kb. A3 méret
síkágyas szkenner
egy oldalas irat
mindenféle irattípus,
lassú, bekötött anyagok esetén
- 241 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató kíméletes, nagy felbontás
kevéssé alkalmas, tömeges digitalizálásra nem használható
kíméletes
drága, kissé lassú
felsőfejes könyv szkenner
pótolhatatlan könyvek, oklevelek
térkép szkenner
térképek, tervrajzok, plakátok hatalmas méretű eredetik lassú
digitális fényképezőgép
3 dimenziós tárgyak, minden, bármit tud digitalizálni, ami mással nem megy gyors felvételezés
mikrofilm szkenner
mikrofilm
csak mikrofilm digitalizálásra alkalmas céleszköz
dob szkenner
nagyméretű dia
hatalmas felbontás, drága, lassú egyedülálló képminőség
film szkenner
dia-, filmnegatív-tekercs
nagy felbontás
külön állvány és megfelelő világítás szükséges, pontos, konzekvens dpi meghatározás körülményes
lassú
Az egyes hordozótípusokhaz elsősorban a következő esetekben érdemes az adott eszközt használni: 1
2
3
4
5
papíralapú iratok a
dokumentum szkenner: ha nagy mennyiségről van szó, és az anyag nem különösebben sérülékeny
b
síkágyas szkenner: ha kis mennyiség van / nagy felbontásra van szükség / sérülékeny a papír / merev a hordozó
c
felsőfejes könyvszkenner: ha sérülékeny az eredeti / A3-nál nagyobb méretű / merev a hordozó
d
térkép szkenner: ha nagyméretű lapokról van szó
e
ha nincs más eszköz kéznél
papíralapú kötetek a
robot szkenner: ha nagy mennyiségről van szó / nem nagyobb, mint A3
b
felsőfejes könyvszkenner: ha nagyméretű / ha vastag a gerinc
c
síkágyas szkenner: ha nem különösebben sérülékeny / kisebb mennyiség / nagy felbontás kell
d
digitális fényképezőgép: ha nincs más eszköz kéznél
pergamenalapú oklevelek a
felsőfejes könyvszkenner:
b
digitális fényképezőgép: ha pecsét van rajta, plica, ha nagyon pöndörödött
c
síkágyas szkenner: ha viszonylag sík és jó állapotú az oklevél / nagy felbontásra van szükség
térképek, építészeti tervek, plakátok a
térkép szkenner: ha nagyméretű, vékony hordozón van
b
felsőfejes könyvszkenner: ha merev a hordozó / nem fontos a precíz geometria
c
síkágyas szkenner: ha kis méretről van szó / nagy felbontás kell
d
digitális fényképezőgép: ha a legnagyobb egyéb eszközben sem lehet digitalizálni (több részletben) / ha nem mozdítható a helyéről (keretezve a falon)
fotók - 242 -
Levéltári digitalizálás • Arcanum, 2012
6
9. Gyakorlati útmutató
a
síkágyas szkenner: ha nagy felbontás kell / kivételes minőségre van szükség
b
dokumentum szkenner: ha nagy mennyiségről van szó / ha imprintelni kell
c
digitális fényképezőgép: ha nem mozdítható a helyéről (keretezve a falon) / tökéletesen sík hordozó
d
felsőfejes könyv szkenner: nagy méret / kis mennyiség
diák, negatív filmek a
film szkenner: standard méretű roll film hordozó
b
síkágyas szkenner (diafeltéttel): nagyméretű diák, negatívok / keretezett diák
c
dob szkenner: ha nagy felbontás kell / kivételes képminőség / kis mennyiség
7
mikrofilmek: csak mikrofilm szkennerrel lehet digitalizálni őket
8
hanganyagok: csak hangkártyával lehet digitalizálni őket; az analóg hordozó lejátszásához megfelelő eszköz (magnó) szükséges
9
videó anyagok: csak videó kártyával lehet digitalizálni őket; az analóg hordozó lejátszásához megfelelő eszköz (videó magnó) szükséges
10 Háromdimenziós objektumok: digitális fényképezőgép minden olyan esetben használható, amikor más eszköz nem jöhet szóba
9.1. Fájlelnevezés Fontos az előzetesen alaposan átgondolt, következetesen alkalmazott fájlelnevezési rendszer kialakítása. Az ellenőrzés, az archiválás, a hiányok dokumentálása, pótlása, metaadatok hozzárendelése, a későbbi felhasználás mind lehetetlen e nélkül. A jó rendszernek három célt is ki kell szolgálnia: 1
Biztosítsa a dokumentum tartalmi azonosítását. A közgyűjteményekben őrzött anyagok leltározására a kezdetektől használnak valamilyen azonosító rendszert, a levéltárakban jelzetet. Az intézmény őrzési gyakorlatát, a tárolás rendjét, szerkezetét, a gyűjtemény múltját, a gyarapodás történetét tükröző azonosító sokszor esetleges rövidítésekből, betűkből, számokból áll, ám a különböző nyilvántartások, adatbázisok, publikációk és a raktárban őrzött eredeti dokumentumok közötti egyértelmű megfeleltetést ez biztosítja, így használata a digitalizált állományok nevében kézenfekvő és célszerű. El lehetne ugyan hagyni őket a fájlelnevezésből (technikailag ez néha egyszerűsítené a dolgunkat) és valamilyen külső metaadat-rendszerrel, leíró fájllal helyettesíteni, ám biztonságosabb megoldás az ilyen fontos adatot a digitális állománytól elválaszthatatlanul a fájlnévben, vagy a fájlba beágyazott metaadatként tárolni (lásd erről részletesebben a metaadatokról szóló fejezetet).
2
Egy dokumentum formai szempontból számos elemből állhat. Például egy falu kataszteri térképe fizikailag nem egyetlen elemből áll, hanem számos szelvényt, előzéklapot, elülső és hátulsó borítót tartalmaz, egyes lapoknak a hátoldalukon is lehet lényeges információ, stb. A térképsorozatnak egy közös jelzete van, az egyes elemeket további azonosítók használatával kell megkülönböztetnünk. A jó fájlelnevezési rendszer egyértelműen rögzíti, azonosíthatóvá teszi ezeket a jellemzőket.
3
Ha csak a fenti két szempontot érvényesítenénk a fájlnevekben, sokszor ütköznénk technikai problémákba az állományok kezelése során. A számítógépes fájlkezelő rendszerek a fájlnév alapján rendezik egy-egy mappa elemeit. Az első két szempont okán a fájlnévbe kerülő római számok, különböző fajta kötőjelek, betűkombinációk és az eltérő helyértékű sorszámok használata alaposan összekavarhatja az állományok sorrendjét. Ennek kiküszöbölésére hasznos lehet egy technikai azonosítót használni a fájlnevek elején, amely helyértékhelyesen használt számokból (a szükséges mértékig nullákkal feltöltve) és betűkből álljon.
- 243 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.2. Papíralapú dokumentumok digitalizálása dokumentumszkennerrel Akkor használjuk ezt az eszközt, ha valamilyen eljárással – az adott intézmény állományvédelmi szempontjaival, előírásaival összhangban – önálló lapokra lehet szedni őket, vagy már eleve “szálas” anyagról van szó, nem túlságosan sérülékenyek, nem nagyobbak A3 méretnél, papírvastagságuk nem haladja meg a 0,5 mm-t (kb. 250 g/m2).
9.2.1. Előkészítés Egy átlagos dokumentumszkenner nyitott, üzemkész állapotban kb. 60x90 cm vízszintes, sík asztalfelületet igényel. Mivel a tömege közel 40 kg, és nagy sebességű működése közben jelentős rezgés is fellép, a munkaasztalnak masszívnak kell lennie, és jó, ha kényelmesen jut rajta hely a számítógép perifériáinak (monitor, billentyűzet, egér) és esetleg a munkában lévő iratanyagnak is. Az iratanyag előkészítése egyrészt a tartalmi feltárást, a digitalizálási célok meghatározását, másrészt a fizikai előkészítését jelenti. Ki kell venni a tároló mappából, dobozból, lehetőség szerint portalanítani, majd több szempontból alaposan átvizsgálni, és ennek kapcsán bizonyos döntéseket hozni. 1
Tartalmaz-e tűzött, kapcsolt részeket? Ha igen, ezeket el kell távolítani.
2
Tartalmaz-e összehajtott lapokat? Ki kell hajtani őket.
3
Vannak-e benne olyan sérült, érzékeny lapok, amik ebben a formában ezen az eszközön nem szkennelhetők? Ki kell őket venni, ha javíthatóak (pl. fátyolpapírral), akkor az intézmény restaurátora, vagy ha ez nem megoldható, akkor a megfelelően kiképzett operátor megjavítja őket. Ha nem javíthatók, vagy hosszabb restaurátori tevékenységet igényelnek, akkor megfelelően dokumentálni kell ennek tényét. A szkennerbe csak olyan lapokat szabad betenni, amik biztonságos, sérülésmentes szkenneléséről meggyőződtünk. A vélhetően sérülékenyebb lapok szkenneléséhez használhatjuk az eszköz nagyobb felbontásbeállítását, pl. a 600 dpi színes módot: ilyenkor sokkal lassabban továbbítja a görgőmechanizmus a dokumentumot, így kisebb az esélye a sérülésnek. Avagy a szintén kíméletesebb bánásmódot jelentő ByPass móddal szkennelhetünk: ilyenkor egyesével, kézzel adagoljuk a lapokat, kíméletesen bevezetve, kézzel terelgetve azokat.
4
Vannak-e benne A3-nál nagyobb lapok? Ezeket ki kell venni az iratkötegből, és alkalmas nagyobb eszközön (térképszkenner, könyvszkenner, síkágyas szkenner, digitális kamera) digitalizálni.
5
Vannak-e benne egyoldalas és kétoldalas lapok is? a
Vagy azt tesszük, hogy szétválogatjuk, és a megfelelő módban külön-külön szkenneljük őket, majd az iratokat és a digitális állományokat is az eredeti sorrendbe összerendezzük,
b
vagy pedig úgy döntünk, hogy a teljes köteget kétoldalas módban beszkenneljük, és ha nem okoz pl. a nagyobb tárhelyigény miatt problémát, akkor benne hagyjuk őket, vagy ha nem szeretnénk azokat megőrizni, akkor a feldolgozásba egy erre vonatkozó ellenőrzést is be kell iktatnunk, és manuálisan törölni az üres oldalakat. Vannak olyan szoftveres eszközök (pl. némelyik szkennervezérlő szoftverben), amik kiejtik az üres lapokat. Az a tapasztalat azonban, hogy nem működnek ezek annyira megbízhatóan, hogy manuális ellenőrzés nélkül rábízhatnánk az üres oldalak szelektálását: óhatatlanul ki- 244 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
dobnak értékes információt tartalmazó oldalakat is, és néha benne hagynak ilyet nem tartalmazó oldalakat is. Tehát az ilyen funkció használata átlagos oldalak esetén inkább kerülendő! 6
Vannak-e benne eltérő méretű lapok? Ki kell ütni a papírköteget, lehetőleg ahhoz az oldalhoz rendezni őket, ami a legépebbnek látszik, hogy azzal a széllel találkozzon először a szkenner lapbehúzó mechanizmusa. Érdemes átpörgetni, átfújogatni is a köteget, hogy az elektrosztatikus feltöltődés miatt esetleg összetapadt, összeragadt lapok szétválhassanak. A kötegben egyébként nem kell, hogy egyforma méretűek legyenek a lapok. A kisebb-nagyobb méreteket az automatikus lapméret érzékelő kiválóan kezeli.
7
8
Vannak-e benne színesben szkennelendő lapok? a
Lehet az egész köteget színesben szkennelni, és a feldolgozás egy későbbi fázisában dönteni az esetleges szürke vagy fekete-fehér átalakításról,
b
avagy már eleve abban a színmélységben szkennelni, amit a digitalizálás célja szükségessé tesz.
Paginálva van-e az anyag? Az iratanyag egy őrzési egységben valamilyen belső logika szerint van rendezve, ennek megfelelően a levéltáros ceruzával egy futó sorszámmal látja el az egymás után következő oldalakat, paginálja őket. A fölsőbb szintű azonosítók után ez jelenti az adott dokumentum jelzetét, és egyben ez az iratcsomag integritásának egyik biztosítéka. Ha készült az irathoz mutató, annak is általában ez lehet az alapja. Ha tehát egy sok oldalas levéltári dokumentum-kupac nincs ezzel ellátva, akkor azt érdemes a digitalizálás előtt megtenni. Ha kivettünk az eredeti kötegből lapokat (pl. nagy méret miatt térképszkenneren kellett digitalizálni, vagy a szakadt lapot csak síkágyas lapolvasóval lehetett szkennelni), különösen kell ügyelni arra, hogy a fájlelnevezési konvenció ezeknél se sérüljön, és persze hogy a digitalizálás után az eredeti irat kivett lapjai a megfelelő helyre kerüljenek vissza.
9
Alakítsuk ki a fájlelnevezési rendszerünket! a
Az őrzési egységet (dosszié, kötet, stb.) egy mappába akarjuk-e szkennelni?
b
Folyamatos sorszámozással akarjuk-e ellátni, avagy kisebb egységenként újraindulna a számozás?
c
A levéltári jelzetet, vagy annak egy értelmes részét beépítjük-e a digitális állománynevekbe?
d
A fájlnevek futó szám részének hány helyértékűnek kell lenniük?
10 Van-e benne a tipikus írógép betűméreténél jelentősen kisebb méretű szöveg? Ha nincs, elégséges 300 dpi-ben szkennelnünk, ha van, érdemes lehet 400 dpi-re beállítani. Ha eleve fekete-fehér a kitűzött cél, akkor a 400-600 dpi is szóba jöhet. Ettől ugyan az OCR nem lesz jobb, de az oldalkép “csinosabb”, a betűk kontúrja simább. 11 Határozzuk meg a képek fájlformátumát, tömörítését! 12 Van-e igény imprinter használatára? Úgy nevezett pre és post imprintert használhatunk. Ezek a szkennerhez megvásárolható, abba beépíthető egyszerű nyomtatófejek, amikkel a szkennelés előtt vagy a szkennelés után a dokumentumra tudunk nyomtatni azonosító jelzéseket: néhány karaktert, számlálót. Az előbbi esetben a digitális állományon is szerepelni fog ez a jel, hiszen a szkennelés előtt rákerül, azzal együtt történik a digitalizálás, a második esetben csak a papír eredetin. Pozícióját a lapszélhez képest lehet megadni. 13 Ha egy mód van rá, végezzünk próba szkennelést: a legjobban a konkrét tapasztalatok segítenek kialakítani a végső metodikát.
- 245 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.2.2. A szkenner beállítása A tipikus szkennelési munkamenet során egyszerre egy kötegnyi előkészített iratot akarunk egy mappába beszkennelni, a CapturePerfect szóhasználatával ez “Scan Batch to File”, válasszuk ezt a menüpontot! Az átvizsgálás során tapasztaltak, és a digitalizálási cél függvényében állítsuk be a Capture Perfect szkennervezérlő szoftverben a szükséges paramétereket! ●
Válasszuk ki a célmappát!
●
Adjuk meg a fájlelnevezési sémát! Ez, a legegyszerűbb esetben áll egy konstans részből (pl. a fond, az őrzési egység nevéből), meg egy számlálóból. (Pl. BFL_MSZMPiratok_1984_001.jpg) Beállíthatjuk, hány jegyű legyen a szám, és hogy honnan induljon a számlálás. A szkennelést megállítva később is elérhetjük ezt a panelt, így lehetőségünk van pl. újra kezdődő sorszámokat beállítani, avagy egy másik sorszámtól folytatni a digitalizálást. Ha igényünk van rá, más sémákat is használhatunk, és ezeket kombinálhatjuk is: napi dátum, recto-verso, az imprinter aktuális értéke, stb.
●
Adjuk meg a színmélységet, a képformátumot, felbontást: javasolt a színes JPG, 80%-os tömörítés, 300 dpi. Lehetőség van egy szkennelési menet során két eltérő formátumú, paraméterű képfájl mentésére is.
●
Állítsuk be, hogy egyoldalasan, avagy kétoldalasan akarunk-e szkennelni (szimplex vs. duplex), esetleg megpróbáljuk-e a programra bízva kihagyni az üres lapokat.
●
Oldalméret automatikus érzékelése, vagy fix. oldalméretek beállítása. Ha az iratkötegben eltérő méretű lapok vannak vegyesen, akkor igen jó szolgálatot tesz az automatikus beállítás, megbízhatóan működik. Olyan esetben okozhat gondot, ha a szkennelés háttérszínét feketére állítottuk, és vannak olyan sötét tónusú elemek az oldalon, amik “kifutnak” a lapszélig. Ilyenkor néha “eltéved” az automatikus érzékelés, és levág a lapból. Ha ilyet észlelünk, akkor ezeket az oldalakat újra be kell szkennelni vagy fix papírméret megadásával, vagy fehér hátteret választva, vagy másik eszközön, amelyik az egyszerűbb adott esetben.
●
Ferde behúzás korrekció: kiegyenesítés. Ennek a funkciónak köszönhetően nem muszáj túlságosan precízen egyenesre beállítanunk a lapadagolóba töltött papírköteget. Többféle papírméretű, lazán összerendezett kupac esetén ez nem is volna túl egyszerű feladat. A program azonosítja a papír széleit, és – bizonyos határok között – szoftveresen kiegyenesíti őket.
●
Moaré csökkentés. Nyomatok szkennelésekor gyakran jelentkező, az eredeti nyomat rácssűrűsége és a szkennelési felbontás közötti, sajátos mintázatokban megjelenő interferenciajelenség csökkentésére való.
●
Képminőség: sebesség vagy képminőség prioritás. Akkor van jelentősége ennek a lehetőségnek, ha a képfelbontást 400 vagy 600 dpi-nek választjuk. Ilyenkor, ha a sebesség elsőbbséget választjuk, akkor a szkenner igazából 300 dpi felbontásban szkennel, és szoftveresen “húzza fel” a képet a kívánt felbontásra. A szkennelés ilyenkor nagyon gyors, de a kapott képminőség esetleg nem megfelelő (“recés”, pixeles kontúrok). Ha képminőség elsőbbséget választunk, akkor a szkennelés 600 dpi-ben történik, az esetleges kisebb képfelbontást ebből állítja elő az eszköz. Ilyenkor lassabb a szkennelés, de a képminőség kifogástalan.
●
Fényerő és kontraszt, gamma érték, a hátoldal fényerő-kontrasztjának kompenzálása. Ha túl világos vagy túl sötét, esetleg kevéssé kontrasztos a szkennelt kép, avagy átüt a hátoldalon lévő szöveg, vagy az elülső és a hátulsó oldal fényereje, kontrasztja eltér, akkor ezen paraméterek módosításával javíthatjuk a szkennelés minőségét. Tömeges digitalizálásról, nagysebességű dokumen- 246 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
tum-szkennelésről lévén szó, itt a művészi reprodukciónál elvárható színhűség, dinamika másodlagos. Minden dokumentumoldal más és más, nincs mód mindegyiket optimalizálni. Érdemes csak ritkán, nagyon indokolt esetben módosítgatni őket: ha egy dokumentumtípusnál (hasonló papír, nyomás, hasonló életkor, tárolási körülmények) sikerül elfogadhatóra beállítanunk az értékeket, akkor mentsük el a beállításokat, és használjuk minden ilyen típusnál. Néhány ilyen elmentett beállítással az előforduló legtöbb levéltári dokumentumot elfogadható minőségben beszkennelhetjük. ●
Kontúrok erősítése: élesebbé tehetjük a kép kontúrjait.
●
Írásirány felismerés: függetlenül attól, hogyan került a szkennerbe az oldal, beforgatja a helyes olvasási irányba a szkennelt képet.
●
Fekete keret eltüntetése: a szkennelt oldalkép körül mutatkozó fekete keretet tünteti el. Csak abban az esetben működik, ha a szkennelés háttérszínét feketére állítottuk.
●
Lyukasztás eltüntetése: az iratok lefűzésekor keletkező lyukakat tünteti el, szintén csak abban az esetben használható, ha a szkennelés háttérszinét feketére állítottuk.
●
Összetűzött oldalak detektálása: érzékeli a gép, ha valamelyik sarkán két vagy több oldal össze van tűzve, ilyenkor nem húzza be az oldalakat, így módunk van a tűzőgép kapcsot eltávolítani, és ezután folytatni a feldolgozást
●
Folio szkennelés Ha olyan nagy dokumentumot kell szkennelnünk, ami már nem fér be a papírvezetők közé, ezzel az egyedülálló funkcióval esetleg mégis sikerülhet a digitalizálás. Hosszában ketté kell hajtani a lapot, majd ún. hosszú dokumentum szkennelési módot választva kell manuálisan bevezetnünk a papírt. Mindkét oldalát beszkenneli, majd az így keletkezett két képet egyesíti. Ezzel a módszerrel 594x841 mm-es (A1) lapot is beszkennelhetünk.
●
Dupla lapbehúzás észlelése, kezelése. A hatékony és megbízható szkenneléshez elengedhetetlen, hogy az esetleges duplán behúzott lapokat érzékelje a gép, és így ne maradhassanak ki a digitalizálásból az összeragadt oldalak. Erre két módszer közül választhatunk: Dokumentumhossz alapján: akkor érdemes használni, ha egyformák a lapok a kötegben. Az először beszkennelt oldalt veszi mintának, és a következő lapokat ehhez hasonlítja. Ha jelentősen eltér a hossza, annak oka a lapok összetapadása (az összeragadás a legritkábban történik teljes felületen, tökéletesen egybevágóan, legtöbbször a két lap elcsúszik egymáshoz képest). Utrahangos érzékelés alapján: akkor válasszuk, ha eltérőek a lapméretek a kötegben. Ha jogosan van dupla lap (pl. ráragasztott címke), akkor ezt a funkciót ki kell kapcsolnunk. Ha akármilyen módon dupla lapbehúzást érzékel a szkenner, a vezetőgörgőket visszafelé forgatva visszahúzza a kérdéses lapokat, majd újra megpróbálja beszkennelni őket. Ha néhány próbálkozás után sem jár automatikusan eredménnyel, akkor hangjelzést adva megáll, lehetőséget adva a manuális beavatkozásra.
●
Háttérszín beállítás. Megválaszthatjuk, hogy milyen legyen a szkennelt kép mögötti háttér színe: fekete vagy fehér. Ilyenkor a háttérül szolgáló henger a szkennerben a megfelelő pozícióba fordulva biztosítja a kívánt színt. Ha fehérre állítjuk, akkor a szkennelt kép körüli, azon kívüli részek fehérek lesznek. Ha feketére állítjuk a hátteret, akkor meg fekete. Ilyenkor a szkennelt képen alapesetben jól láthatóak az eredeti dokumentum körvonalai. Fekete háttér esetén használhatjuk a lyukasztási foltok eltüntetése funkciót (ezek a szkennelt képen fekete körként jelennének meg), és a fekete keret eltűntetése funkciót is.
●
Lapadagolás módja.
- 247 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
Automatikus: a megfelelő beállítások elvégzése után, a nagykapacitású lapadagolóba téve az iratköteget ideális esetben további emberi beavatkozás nélkül szkennelhetünk be egy menetben akár több száz oldalt. Ha valamiért be kell avatkoznunk (elakadó lapok, kettős behúzás miatt), arra a gép hangjelzéssel figyelmeztet. Manuális: lehetnek olyan szituációk, amikor valamiért nem tudjuk, nem akarjuk az automatikus lapadagolóra bízni a szkennelendő anyagunkat. Például régi, értékes képeslapokat akarunk digitalizálni. Ezek viszonylag kemény, vastag papírja a hosszú tárolás ideje alatt ívesre görbült, ráadásul eltérő méretű és eltérő pozíciójú (álló, fekvő, leporellósan hajtogatott) darabokból áll egy-egy köteg. Ilyenkor érdemes lehet egyesével, kíméletesen, a megfelelő irányba forgatva kézzel adagolni a szkennerbe a lapokat. ●
Imprinter beállításai. Ha a szkennerbe installáltunk pre vagy post imprintert, akkor beállíthatjuk a dokumentum-oldalakra a szkennelés során nyomtatott jeleket (konstans szövegek és számlálók), és azok pozícióját.
●
Batch szeparálás. Ha installáltunk a szkennerhez opcionális patchcode dekódert, akkor a patchcode lapok használatával automatikusan részekre bonthatjuk a beszkennelt köteget. Pl. közgyűlési jegyzőkönyveket akarunk digitalizálni, egy mappában több ülés jegyzőkönyvei vannak. Mindegyik kezdete elé beillesztünk a papírkötegbe egy kinyomtatott kód lapot. Elindítjuk az automatikus szkennelést. Ahol a gép kódlapot érzékel, onnantól kezdve egy másik fájlba kerülnek a képek.
●
Elforgatott képek mentése. A digitalizálás végeredményeképpen általában az eredeti dokumentum pozíciójának megfelelő képekre van szükségünk. Különböző megfontolásokból azonban néha célszerű ettől eltérő pozícióban adagolni a szkennernek (pl. a lapok valamelyik széle sokkal jobb állapotban van, kevésbé sérülékeny, mint a többi). Ilyenkor beállíthatjuk, hogy a beolvasási irányhoz képest a mentett képeket milyen pozícióba forgassa be a program.
●
Képek felosztása. Ha a beszkennelendő anyag egy lapján valójában két oldal van (pl. egy eredetileg tűzött brosúrát a digitalizáláshoz szét lehet ugyan szedni, de a lapokat felvágni nem), akkor lehetőségünk van a beszkennelt oldalt vízszintesen vagy függőlegesen két részre osztani.
●
Több képformátum mentése egy menetben (multistream). A közgyűjteményi digitalizálás célja gyakran kettős: szeretnénk megőrizni az utókornak a pusztulófélben lévő iratanyagot, a tartalmát pedig a kutatók és a nagyközönség számára is könnyen hozzáférhetővé tenni. A két feladathoz eltérő eszközök és eltérő paraméterekkel bíró digitális állomány szükségeltetik. Pl. a hosszú távú megőrzéshez egy (esetleg tömörítetlen) színes kép az ideális, míg az interneten közzétenni szándékozott kutatható, kereshető állományhoz meg egy tömörített 1 bites kép kell. A CapturePerfect lehetővé teszi, hogy egy szkennelési menet révén előálljon két teljesen különböző paraméterekkel bíró képfájl.
●
Különálló, avagy többoldalas fájlok (pl. Pdf, TIF). Néhány fájlformátum támogatja azt a lehetőséget, hogy egyetlen állományban több oldal képe szerepeljen. Ilyenek pl. a TIFF és a PDF fájlok. A felhasználáshoz, a jobb munkaszervezéshez alkalmasabb formát válasszuk.
9.2.3. Szkennelés ●
Automatikus lapadagolással.
- 248 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
A megfelelően előkészített, kiütött, átpörgetett iratköteget tegyük az automatikus lapadagolóba, arccal fölfelé, az oldalak teteje nézzen a szkenner belseje felé. Állítsuk be a papírvezető csúszkákat a bemeneti és a kimeneti oldalon is. Akár a szkenner kezelőpaneljének megfelelő gombjával, akár a vezérlőprogrammal indíthatjuk a szkennelést. ●
Kézi lapadagolással. A szkenner kezelőpaneljének megfelelő gombjával helyezzük a szkennert ún. Bypass módba. A papírtálca felemelkedik a papírbevezető görgő síkjába. Finoman illesszük a papír szélét a görgők közé. Annyira kell betolni a papírt, hogy a laptovábbító görgők elkaphassák. Ha már behúzta a papírt a szkenner, odakészíthetjük a következő lapot. Ügyeljünk a helyes időzítésre: ha az előző lap után túl hamar dugjuk be a következő lapot, akkor az hozzáragadhat ahhoz, a szkenner kettős lapbehúzásnak érzékeli és leáll. Ha pedig túl sokat várunk, akkor nem lesz elég hatékony a munkavégzés. Kis gyakorlattal könnyen kialakítható a megfelelő tempó, és a szkenner szünet nélkül, optimális sebességgel tud dolgozni.
●
Kijövő papírok A szkenneren áthaladó papírok 180 fokban átfordulnak, a legelőször behúzott papír fejjel lefelé, a kijövő köteg legaljára kerül, így az iratok sorrendje nem változik. A nagy sebességgel a fölső gyűjtőtálcára érkező papírok néha hajlamosak visszahajolni, összezilálódni (leginkább vékony, könnyű, fényes, elektrosztatikus feltöltődésre hajlamos papírok esetén), érdemes ezért rajtuk tartani a szemünket, különben esetleg az iratok sorrendje összekeveredhet. A beszkennelt iratköteget érdemes ismét kiütni, összerendezni, és ezután visszatenni az eredeti tárolójába.
●
Dupla lap behúzás. Az ultrahangos duplalap-érzékelő nagy biztonsággal detektálja az összetapadó lapokat. Ilyenkor a szkenner néhányszor megpróbálja visszatekerés után újra behúzni a lapokat, ha nem sikerül neki, akkor egy hangjelzést követően a szkennelés megáll. Hajtsuk fel a szkenner felső részét, és vegyük ki, válasszuk szét a lapokat, majd azokat visszahelyezve, a fedelet lehajtva folytathatjuk a szkennelést. Ez esetben az automatikus számláló onnan folytatja a számozást, ahol az elakadás előtt abbahagyta. Ha meg akarjuk állítani a szkennelést, válasszuk azt az opciót, de figyeljünk ilyenkor arra, hogy a szkennelés újbóli indításakor a fájlelnevező számlálóját helyesen állítsuk be újra! A kettős lapbehúzás leggyakoribb okai lehetnek: az érdes, tapadós papír, az elektrosztatikus feltöltődés, az egyik papírra ragasztott másik (pl. ragasztós jegyzetlap), az eredetileg ragasztott kötésű könyv szétszedése után a lapok között maradt, befolyt ragasztó, a lefűzéshez használt perforáció, a szárazpecsét kidomborodásai.
- 249 -
Levéltári digitalizálás • Arcanum, 2012
●
9. Gyakorlati útmutató
Papírelakadás. Ha valamiért nem tudja behúzni a papírt a lapadagoló (ezt is újra próbálja néhányszor), vagy az út közben elakad valahol a szkenner belsejében, hasonlóan járjunk el, mint a kettős lapbehúzás esetén: nyissuk fel a fedelet, igazítsuk meg, üssük ki, fújkáljuk meg, lazítsuk fel a köteget, majd próbáljuk újra.
A lapbehúzás kritikus elemei a lenti ábrán látható görgők. Ezek speciálisan kialakított, érdes felületű szilikon gumiból készültek, finom rugók szorítják őket a papírhoz a megfelelő erővel. Ugyanakkor, ha túlságosan érdesek a lapok, szinte smirgliszerűen tapadnak egymáshoz, avagy éppen hogy teljesen simák, fényesek, csúszósak, esetleg a görgők szennyezettek vagy kopottak, előfordulhat, hogy nem tudják szétválasztani, továbbítani a lapokat. A görgőket ki lehet venni és megfelelően megtisztí- 250 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
tani, illetve ki lehet őket újakra cserélni. Ha ez sem hoz eredményt, akkor más eszközt kell választanunk a kérdéses anyag digitalizálására.
●
Begyűrődés, szakítás. Az eszköz belső elrendezése, laptovábbító mechanizmusa úgy lett kifejlesztve, hogy minimalizálja a dokumentumok szkennelés során való sérülésének kockázatát. Ennek ellenére előfordulhat, hogy a leggondosabb ellenőrzés mellett is olyan lap kerül bele, ami már eleve sérült, töredezett, beszakadt szélű. Ilyenkor a lap összegyűrődhet, elakadhat, esetleg el is szakadhat. A szkenner felső részét felemelve távolítsuk el gondosan a beakadt, összegyűrődött, elszakadt papír minden egyes kis darabkáját. Dokumentáljuk a károsodásokat, a sérült lapo(ka)t tegyük lezárható irattartóba, majd vigyük a restaurátorhoz.
9.2.4. Tippek, fogások, hibaelhárítás ●
Csíkos a létrejött kép: valószínűleg ragasztó került az üvegre. Alaposan tisztítsuk meg az üveget, használjunk bátran ablaktisztítót!
●
Szivárványszínű csík jelenik meg a képen: porszem kerülhetett az üveg alá, közvetlenül az érzékelőre. A hibát csak szakember háríthatja el, az üveglapot le kell szerelni és a szenzort óvatosan meg kell tisztítani.
●
Túlságosan széles (fekete hátterű) kép készül az oldalakról: minden bizonnyal egy papírdarab került az üveglapra, és emiatt az automatikus papírméret érzékelő összezavarodik, a valóságosnál sokkal nagyobbat érzékel. Távolítsuk el a papírlapot!
●
A szkenner nem tudja szétválasztani a lapokat. Minden bizonnyal a görgők állapota nem megfelelő. Ez javítható a görgők alapos letakarításával: vegyük ki és alaposan mossuk meg vízzel az összes görgőt, szárítsuk meg, majd helyezzük őket vissza. Ha ez sem használ, valószínűleg elkoptak a görgők, cseréljük a használt görgősort újra. Bizonyos esetekben (merített, puha, tapadós papír, fényes papír) ez sem használ, ekkor nem tudunk mást tenni, mint hogy bypass módban egyesével adogatjuk a lapokat.
●
Nagyobb sebességet érhetünk el a szkennelésnél, ha elforgatjuk a kötetet, az álló formátumot is fektetve adagoljuk az eszközbe. A rövidebb oldal sokkal kevesebb idő alatt halad át a szkenneren, s mivel ebben az esetben a sebességet ez az idő határozza meg, akár kétszeres sebességet is elérhetünk.
- 251 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
●
Mindig a legjobb minőségű oldalszél kerüljön be először a szkennerbe, ekkor a legkisebb a sérülés veszélye. Forgassuk bátran a dokumentumot (a szoftver képes helyes irányba forgatni az oldalakat), gyakran, pl. régi napilapoknál, a felső és jobb oldali (ahol lapoznak) oldalak a legrosszabbak, ezért gyakran sokat segíthet, ha fejjel lefelé adagoljuk az oldalakat, az alsó lapszél viszonylag ép lehet.
●
A border removal művelet, azaz a nem pontosan egyenes oldalak mögötti fekete terület fehérre alakítása fekete színű (jellemzően címlapon vagy fekete kifutóval készült képek esetén) oldalakon nem jól működik, azt a gép háttérnek érzékeli. Használjunk fehér hátteret vagy kapcsoljuk ki az opciót!
9.2.5. A szkennelés után Ha végeztünk egy iratköteg digitalizálásával, mielőtt elcsomagolnánk, érdemes néhány egyszerű, globális ellenőrzést elvégezni. Ha észreveszünk valamilyen hibát, általában sokkal egyszerűbb akár egy egész kupacot is teljesen újra beszkennelni, mint a már összecsomagolt, az őrzési helyre visszapakolt iratot újra elővenni. ●
Az eltervezett paraméterekkel szkenneltük-e be az anyagot
●
A fájlok elnevezése megfelel-e a meghatározott konvenciónak
●
Ha lehetséges, hasonlítsuk össze az elméleti oldalszámot (pl. a pagináció segítségével) a létrejött fájlok valós darabszámával
●
Nézzünk rá a mappa fájljainak listájára: nagyjából egyforma méretűek-e a benne lévő fájlok? Ha az eredeti dokumentumoldalak hasonló méretűek, akkor a képméretek is nagyjából hasonlóak kell, hogy legyenek. Ha kiugró eltérést látunk, az gyakran valami szkennelési anomáliára utal.
●
Szúrópróbaszerűen ellenőrizzük a képminőséget: szín, tónus, kontraszt, oldalszélek megléte (nincs-e valahol belevágva) szempontjából.
9.2.6. Karbantartás Elsősorban azok a forgó, mozgó, súrlódó alkatrészek szorulnak időközönként cserére, amik közvetlenül a papírral érintkeznek. A digitalizálás eredménye szempontjából különösen fontos az érzékelők, az őket védő üvegfelületek tisztasága, sértetlensége: minden itt jelentkező szennyeződés megjelenik a beszkennelt állományon is különböző csíkok, foltok, elszíneződések formájában, többé-kevésbé használhatatlanná téve a képeinket. Vannak olyan karbantartó műveletek, amit a felhasználónak lehet (kell) elvégeznie rendszeresen, avagy igény szerint, és vannak olyanok, amiket csak a szakszervíz erre képesített munkatársa végezhet. A levéltári iratok gyakran igen porosak, szennyezettek, így még ha a digitalizálás megkezdése előtt igyekeztünk is alaposan portalanítani őket, biztosan bőven marad rajtuk. A szennyezett anyagok szkennelése erősen igénybe veszi a berendezés forgó, súrlódó alkatrészeit, gyorsítva elhasználódásukat. Ha a lapbehúzásért, továbbításért felelős felületek, görgők szennyeződnek, akkor nehezen vagy egyáltalán nem sikerül adagolni a lapokat, lehetetlenné teszik a folyamatos munkát. Ha ilyet tapasztalunk (papírelakadást, begyűrődést, indokolatlanul gyakori dupla lapbehúzást), állítsuk le a szkennelést, és az eszköz kézikönyvében leírt módon a megfelelő helyeken felnyitva a berendezést, bizonyos alkatrészeket a helyükről kiemelve alaposan tisztítsuk meg őket! Amennyiben a magunk által elvégezhető karbantartás után is fennáll valamilyen probléma, hívjuk a szakszervizt! Ha nem észlelünk problémát, akkor is legalább naponta távolítsuk el a port, az összegyűlt papírtörmeléket, tisztítsuk meg a görgőket, az érzékelők előtti üvegfelületet.
9.3. Oklevelek digitalizálása felsőfejes könyvszkennerrel A felsőfejes könyvszkennerek (Overhead scanner) sokoldalúan használható, a legkíméletesebb digitalizálást lehetővé tévő eszközök. Minden olyan esetben remekül használhatóak, ha a szkennelendő könyvet nem lehet - 252 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
lapokra szedni, illetve kíméletes bánásmódra van szükség. Képminőségük kiváló, ám viszonylag fáradságos és nem igazán termelékeny a vele való munka (legalább is a dokumentumszkennerekhez, robotszkennerekhez képest), de a nagyméretű és különösen védett dokumentumok kiváló minőségű digitalizálásához ez a legjobb eszköz: oklevelek (akár függő pecséttel!), régi, értékes könyvek, újságok, metszetek, térképek, aprónyomtatványok mind digitalizálhatók vele. A szkennerek precízen állítható könyvbölcsői bizonyos határok között lehetővé teszik a vastag, rossz állapotban lévő könyvek sérülésmentes digitalizálását is. A legkorszerűbb típusok már V-alakú könyvbölcsővel is rendelkeznek, így a sérülékeny gerincű, szorosan kötött könyvek szkennelése is lehetővé válik. Hatalmas, akár A0 méretű eredetik digitalizálására is alkalmasak.
9.3.1. Használat A megfelelő képminőség garantálásához elengedhetetlen az eszköz vízszintes, stabil, rázkódásmentes elhelyezése. Ehhez válasszunk olyan asztalt, pultot vagy állványt, amely a berendezés tömegének legalább háromszorosát képes bemozdulás, behajlás nélkül megtartani. Mivel tömeges digitalizálás esetén az operátor egész napját azonos pozícióban a szkenner mellett tölti, úgy kell az asztal magasságát, mélységét, az ülőalkalmatosságot megválasztani, hogy az a lehető legkényelmesebb munkavégzést tegye lehetővé. A helyiség, a környezet kiegyensúlyozott, kontrollált megvilágítása szintén nagyon fontos tényező. Kerülni kell a direkt napfényt, a világítótestekből, fénycsövekből származó rávetülő fénysugarakat, egyáltalán minden olyan fényhatást, ami túl erős, vagy éles árnyékot vetít a szkennelő felületre, vagy esetleg változékony. Ezek a szkennerek önálló világítással rendelkező nyitott eszközök, a CCD kamera a saját fényforrásuk és a környezet fényét összegezve érzékeli. Egyenletes, a tárgyfelület síkjában kb. 300 lux fényerejű, a szkennelő területen 20%-nál nagyobb eltérést nem mutató mennyezetvilágítást kell használni. Az elektronikus előtét (ballaszt) nélküli fluorescens fénycsővilágítás a hálózati feszültség frekvenciájának kétszeresét produkáló villogást produkál. Ha ez a világítás túl erős, akkor ez 8-12 pixelenkénti csíkokat eredményezhet a szkennelt képen. Ha ezzel a jelenséggel találkozunk, csökkentsük a mennyezeti világítás fényerejét, vagy cseréljük ki, esetleg építtessünk be megfelelő elektronikus ballasztot a világítórendszerbe. Bizonyos világítótestek a látható fény tartományán kívül az infravörös tartományban is sugároznak. Ezt a szemünk nem érzékeli, de a CCD kamera igen, a túl sok ilyen fény túlexponálást eredményez. A szkenner saját világítása mentes az IR tartománytól, ezért nincsenek is a mechanizmusban IR-szűrő elemek (amik egyébként rontanák a képminőséget). Használjunk hideg fényű, 4000 K körüli világítást a helyiségben. A szkenner rendelkezik beépített fehéregyensúly beállító funkcióval, ami kiküszöböli a külső megvilágítás színegyensúlyt befolyásoló hatását. A kalibrálás szokásos módon egy megfelelő fehér mintalap beszkennelésével történik, a beállító program a rajta mért értéket referenciának tekintve módosítja a digitalizált állomány színhőmérsékletét. A tökéletes színhűség fenntartásához illesszük be a mindennapi munkamenetbe a kalibrálást, illetve végezzük el minden olyan alkalommal, amikor a (világítási) rendszerben bármi változás történik. Ehhez hasonlóan végezzük a szín kalibrációt is, az arra rendelt mintalappal. Bekapcsolás után az eszköz elvégez egy sor önellenőrzést, majd néhány másodperc után készen áll a szkennelésre. Végezzük el a szükséges beállításokat! A megfelelő gombokkal állítsuk be a motoros könyvbölcsőt a szkennelni kívánt könyvnek megfelelően: helyezzük a könyvet a jobb oldali tartóra, csak a fedőlapot áthajtva a baloldalra; állítsuk a két oldalt azonos szintre (ez lesz a referenciasík a szkennelés során); a szkennelés (lapozás) előrehaladtával ezután már csak a bal-jobb kompenzáló gombokkal igazítsuk igény szerint a két oldalt, ezzel biztosítva az azonos képméretet és felbontást. Válasszuk ki a dokumentum típusának, a szkennelési szituációnak megfelelő módot: ●
sík mód: a legáltalánosabb, a teljes felületet, dokumentumot egy síkban lévőnek tekinti, a dokumentum valós alakjától független fix fókuszbeállítással
- 253 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
●
könyvhajlat korrekciós mód: a fókusz követi a könyv felszínét és a geometriai torzulásokat kompenzálja (az optimális eredményhez a könyvet a lézervonalhoz képest egyenesre kell igazítani), egy sor opción keresztül finomhangolhatjuk az alapértelmezett beállításokat
●
iratgyűjtő mód: a bal- és jobboldali fókusz egymástól független
●
fix fókusz mód: egy előre rögzített, eltárolt fókuszértéket használ, a programban manuálisan állítható
●
üveglap mód: a fókusz a lehajtott üveglap síkjához igazodik
Válasszuk ki, adjuk meg az egyéb opciókat: minőség, képforgatás, tükrözés, színprofil beágyazása, metaadatok (XMP/RDF). Határozzuk meg a színmélységet (24 bit színes, 8 bit színes, 8 bit szürke, bináris FF), a menteni kívánt fájlformátumot. Adjuk meg a dokumentum méretet! Az alapértelmezett – és a legtöbb esetben legalkalmasabb – opció az automatikus oldalméret érzékelés. Ilyenkor a teljes szkennelési felület letapogatásra kerül, majd a tényleges dokumentum méretére vágva kerül az output fájlba. Az érzékelés a – szintén finomhangolható – világos-sötét különbség detektálásán alapul: a beállított küszöbértéknél sötétebb részeket háttérnek tekinti és levágja a program. Megadható még, hogy az érzékelt határhoz képest növelje vagy csökkentse valahány pixellel a ténylegesen kivágott területet. Ha kétoldalas formátumot (könyvet, újságot) digitalizálunk, a megfelelő opció kiválasztásával a szkennelés után középen kettévágva a képet, két fájlba kerül a két oldal. Beállíthatjuk, hogy a kezdő oldal a jobb oldali legyen-e (pl. ha a könyvborítót is be akarjuk szkennelni), avagy a baloldali. Adjuk meg a kívánt felbontást! Kiválaszthatjuk a legördülő listában megadott fix értékekből, vagy megadhatjuk manuálisan. Van egy ún. “true DPI” opció, egyedül ez adja a kamera optikai felbontásából és az objektum hozzá viszonyított geometriai helyzetéből következő natív felbontást. Minden más opció kisebb szoftveres igazítást (digitális zoom), interpolációt is használ. Állíthatjuk a képfelvételezés néhány paraméterét: fényerő, kontraszt, képélesség, expozíció, gamma érték, színcsatornánkénti (RGB) színegyensúly-korrekció. Végül pedig beállíthatjuk a digitalizálási menetre érvényes keret-elrendezést. Ez úgy történik, hogy készítünk egy előzetes szkennelést a teljes felületről (Preview), majd a megjelenő oldalképen bejelöljük a szkennelendő területeket. Levéltári digitalizálás esetén a leggyakoribb szituáció, hogy az output egy merevlemez, esetleg egy hálózati meghajtó mappája. Lehetőség van ugyanakkor a szkennelés eredményét közvetlenül nyomtatóra, e-mailbe, vagy FTP-helyre küldeni. Tömeges digitalizálás esetén érdemes megfontolni az opcionális lábpedálok csatlakoztatását, amikkel még hatékonyabb, ergonomikusabb a munkavégzés: a kezek ez esetben felszabadulnak és rendelkezésre állnak, pl. ha manuális rásegítés kell a dokumentum tartásához. - 254 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.4. Térképek, tervek, plakátok digitalizálása térképszkennerrel A tervrajzok, plakátok és a térképek a szkennelés szempontjából hasonlónak tekinthetők, így indokolt digitalizálásukról együtt beszélni: jellemzően nagyméretűek, papír alapúak, legtöbbször a hordozó egyik oldalán tartalmaznak képi információt. Időnként tartozhat hozzájuk velük együtt őrzött egyéb iratanyag is, amelyek formátumuk, méretük, fizikai állapotuk szerint különböző eszközökkel digitalizálhatók hatékonyan (síkágyas szkenner, dokumentum szkenner, digitális kamera, stb.). Ezek feldolgozásáról lásd az egyes eszköztípusoknál. A külön munkamenetben, más eszközzel végzett szkennelés során különösen ügyelni kell arra, hogy a tartalmilag összetartozó dokumentumok megőrizzék egymással való kapcsolatukat. Helyes munkaszervezéssel, a meghatározott fájlelnevezési rendszer következetes betartásával, rendszeres ellenőrzéssel kell gondoskodni arról, hogy az összetartozó anyag digitalizált állománya is megőrizze integritását. A térkép- vagy tervszkennerek (angolul Wide Format Scanners) elsősorban nagyméretű térképek, tervrajzok, plakátok nagytömegű, kiváló minőségű digitalizálásához használatosak, de a könyvekben is gyakran előfordulnak kihajtható kép- és táblázat-mellékletek, amelyek – ha szétszedhető a kötet – szintén ezzel az eszközzel digitalizálhatók. A szkennelés során mozgó eredeti miatt a munkaterület kialakítására, az egyes darabok kezelésére nagy gondot kell fordítani, hogy biztonságosan elkerülhessük az esetleg ritka, pótolhatatlan példányok akaratlan sérülését. Ha esetleg szakadozott, sérülékeny az eredeti, akkor megfelelő előkészítő megerősítéssel, restaurálással, illetve átlátszó műanyagkapszulában való szkenneléssel előzhetjük meg a károsodásokat. A dokumentum a szkennelés során nem hajlik meg, vízszintesen mozog, de a mozgató gumigörgősor érintkezik vele. Ezért ha valamilyen sérülékeny elem (pl. pecsét) van rajta, akkor azt nem szabad ebben az eszközben digitalizálni.
9.4.1. Előkészítés A munkahelyet úgy kell kialakítani, hogy a meglehetősen nagyméretű berendezést kényelmesen körül lehessen járni, plusz elől és hátul maradjon annyi hely, hogy a szkennelendő dokumentumot kényelmesen, akadálymentesen, “megtörés-biztosan” lehessen bevezetni a gépbe, valamint a kifutása is zavartalan lehessen. A gyárilag hozzá tartozó dokumentumtartó állványt szükség esetén alkalmas állványzattal, megfelelő magasságú asztallal kell kiegészíteni. A nagyobb méretű térképeket a levéltárakban általában tékában, vagy tekercsben tárolják. Biztosítani kell egy alkalmas méretű asztalt vagy szilárd pultot, ahol kényelmesen, sérülés biztosan ki lehet csomagolni, ki lehet hengergetni az egyes dokumentumokat. A nagyméretű papírdokumentumok mozgatása általában is különös gondosságot igényel, a szakadást, “betörést” elkerülendő lehetőleg mindig két kézzel, szükség esetén másik ember segítségét igénybe véve kell mozgatni őket. A térképek, tervrajzok gyakran fényre érzékeny, fény hatására halványuló festékkel készültek, ezért a digitalizálás folyamán ügyelni kell a káros fényterhelés elkerülésére. A hidegfényű fénycsöves megvilágításnak köszönhetően a szkennelés során nem éri ilyen a dokumentumokat, viszont a tárolás, mozgatás során lehetőleg óvni, takarni kell őket. Fontos művelet az előkészítés során a portalanítás: az eredeti dokumentumoké és a digitalizáló eszközé is. A technológiából adódóan a térkép végigcsúszik a szkenner üveglapján, és a por beszennyezi, megkarcolhatja az eszközt és az eredeti dokumentumot is, ráadásul ezek a sérülések megjelennek a digitalizált állományon is, ahonnan csak nagy munkával lehet őket kiretusálni (a képi tartalom sérülése nélkül gyakran nem is lehet). A szkennelendő dokumentumok portalanítása mellett a munkavégzés során rendszeres időközönként meg kell tisztítani a berendezést is, és szennyeződés észlelésekor ezen kívül is. Puha textillel, ecsettel, esetleg kíméletes porszívózással távolítsunk el minden szennyeződést a szkenner felületéről, különösen az érzékelők előtt lévő üveglapról. Ez utóbbihoz erre a célra alkalmas mikro szálas textilt és ablaktisztító folyadékot használhatunk. - 255 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.4.2. Szkennelés Az eszköz USB-porton kapcsolódik a számítógéphez. Vezérlése, beállítása történhet a szkennelő szoftver felületén, ill. a berendezés kezelőpaneljén lévő gombok segítségével. A szkenner bekapcsolása után bizonyos ideig várni kell, hogy a megvilágító fénycső elérje üzemi hőmérsékletét – ezáltal a megfelelő színhőmérsékletet, illetve lefuthassanak a bekapcsoláskor elinduló automatikus önellenőrző műveletek: fény-profil, részkép összeillesztés (lásd részletesebben a kalibrálásról szóló részben) és fehéregyensúly (fehér és fekete pont) beállítása. Ha a szkenner üzemkész, azt a kezelő panelen a megfelelő LED jelzi. A szkennelés megkezdése előtt a következő paramétereket kell beállítanunk, ill. kiválasztanunk: ●
felbontás: maximum 600 dpi; a legtöbb esetben a 300 dpi kielégítő eredményt ad
●
színmélység: a tipikus levéltári anyagok archiválásakor a 24 bites RGB mód az általánosan elfogadott. Az időnként egészen nagyméretű eredetik miatt számolni kell azonban a hatalmas fájlméretekkel. Ha olyan terveket, plakátokat, térképeket szkennelünk, amik eredetije csökkentett színmélységű, megfontolható a 8 bites (szürke vagy adaptív palettás színes) színmélység is, így a tömörítetlen fájlméret sokkal kisebb lehet.
●
egyenkénti vagy batch szkennelés: az utóbbit akkor válasszuk, ha számos hasonló jellegű, méretű eredetit akarunk digitalizálni azonos beállításokkal
●
automatikus vagy manuális dokumentum betöltés: az automatikus betöltés esetén a dokumentum bevezető nyílásba illesztett papírt a szkenner automatikusan “elkapja”, és beszkenneli; ezen a módon – a batch móddal együtt használva – anélkül szkennelhetünk be sok dokumentumot, hogy akár a vezérlő szoftvert, akár a kezelőpanelt használnunk kellene; mindkét kezünket használva csak a dokumentum stabil bevezetésére kell ügyelnünk.
●
szélesség: automatikus lapméret-érzékelést választhatunk, vagy standard papírméreteket, illetve tetszőleges szélességet. A dokumentum valós szélességének megállapításához használhatjuk a szkenner felületén lévő pontos vonalzót! A túl nagyra, a valós szélességnél jelentősen nagyobbra állított méret esetén beszkennelünk egy csomó értéktelen hátteret is, fölösleges fájlméret növekedést okozva. A túl kicsi méret esetén pedig esetleg levághatunk értékes tartalmat is.
●
vastagság: az 1-2 mm-nél vastagabb kartonra, egyéb táblára kasírozott dokumentumok szkenneléséhez nagyobbra kell állítani a bevezető rést az automatikus vastagságállítási funkció segítségével (a szkenner kezelőpaneljén); kézzel kell segíteni a szkennert az esetleg merev, hajlott, nehéz eredetik megfelelő, sima mozgatásában; a mozgatási sebességet automatikusan csökkenti a szkenner vastag eredetik digitalizálásakor; ha nem fekszik fel jól a szkennelés során az eredeti az üvegre, öszszeillesztési hibák jelentkezhetnek (hiányzó vagy átfedő pixelek, lásd lejjebb): állítsunk a “stitching” paramétereken és próbáljuk újra
●
fájlformátum: válasszunk a digitalizálás céljaival összhangban lévő fájlformátumot és tömörítést! Ha térképek esetén a digitalizált állományokon további geoinformatikai műveleteket szándékozunk végezni, akkor ahhoz speciális képformátum szükséges, amelyet általában nem közvetlenül a szkennelés eredményeképpen, hanem egy későbbi munkafázisban állítunk elő.
A beállítások elvégzése után a szkenneléshez az eredeti dokumentumot írott felével lefelé, vízszintesen tartva, horizontálisan középre igazítva a papírbevezető nyílásba illesztjük finom ütközésig. Automatikus papírbetöltést választva a beállított késleltetési idő után a szkenner “elkapja” és a vezető görgői révén behúzza kissé, majd a start pozícióba visszaengedi a dokumentumot, majd elindul a szkennelés. A munkahely elrendezésének függvényében a szkennelés végeztével elől vagy hátul vehetjük ki a papírt. Ha egy mód van rá (ha állományvédelmi megfontolások nem szólnak ellene: pl. ha az egyik szél sokkal jobb állapotú, mint a többi, akkor nyilván azt kell először bevezetni), érdemes a helyes olvasási irányba beforgatva a szkennerbe tenni az anyagot. Ugyanígy a dokumentumméretet is érdemes gondosan beállítani, mivel a
- 256 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
hatalmas fájlok utólagos megnyitása valamilyen képszerkesztő programban, ott a fölösleges részek levágása, az elforgatás meglehetősen idő- és erőforrás-igényes művelet.
9.4.3. Karbantartás A berendezés rendszeres karbantartása meghosszabbítja a nagy értékű eszköz élettartamát, és szavatolja az egyenletes, megbízhatóan jó minőségű outputot. Három alapvető tevékenységtípussal jár: ●
tisztítás
●
kalibrálás és kameraigazítás
●
alkatrész csere
9.4.3.1. Tisztítás A levéltári dokumentumok szkennelése általában meglehetősen sok piszokkal jár: a régi iratokon összegyűlt por, a morzsolódó papírfoszlányok nagy terhelést jelentenek ebből a szempontból a munkakörnyezetnek és a berendezéseknek egyaránt (még ha igyekszünk gondosan portalanítani is a munka előtt őket). A finom törmelék, por nem csak az eszköz külső felületein telepszik meg, hanem hajlamos minden lehetséges résen behatolni. Mivel ennél az eszköztípusnál a szkennelés során az eredeti dokumentum végig súrlódik a szkenner üvegfelületével, érintkezik a görgőivel, így a szennyeződés kárt tehet az eredetiben, megjelenhet a digitalizálás eredményén, elrontja a színhűséget és elhasználja, esetleg tönkre is teheti a berendezést. Nagyon fontos ezért a rendszeres tisztítás, kívül és belül egyaránt. A tisztítás előtt kapcsoljuk ki az eszközt, majd nyissuk fel a szkennelő terület tetejét a szkenner kézikönyvében leírt módon! A leglényegesebb tisztítandó elemek: a szkenner felülete, az üveglap, a fehér háttér-lap és az alsó és felső továbbító görgők. A fehér lap biztosítja minden egyes szkennelés előtt a fehéregyensúlyt: ha bekoszolódik, elszürkül, akkor az output fehéregyensúlya nem lehet jó! A tisztításhoz használjunk puha, mikro szálas textilt, agresszív oldószert (aceton, benzin) nem tartalmazó tisztítófolyadékot, amit mindig a törlőrongyra vigyünk fel, ne permetezzük a szkenner belsejébe!
9.4.3.2. Kalibrálás A széles formátumú szkennerek – technológiájukból adódóan – megfelelő karbantartás és kalibrálás nélkül nem adnak megfelelő eredményt. A szkenner minden bekapcsoláskor elvégez egy sor önellenőrzést és kalibrációt. Ha ennek során valamit nem talál rendben, arra a megfelelő LED-del figyelmeztet. Ilyenkor járjunk el a kézikönyvében leírt módon. Ha az önteszt rendben lefut, ám később mégis valami problémát észlelünk a szkennelés során vagy a digitalizált outputban, akkor távolítsuk el az esetleg a gépben lévő dokumentumot, kapcsoljuk ki, majd kis idő múlva kapcsoljuk be újra. Az ismételt önkalibrálás gyakran orvosolja a problémákat. Ha a szkennelés eredménye ezek után sem kielégítő, akkor futtassuk le a teljes karbantartó programot a szkennerhez mellékelt (és mivel egy idő után ez is elhasználódik, így külön is megvásárolható) kalibrációs lap felhasználásával! Ez az összes fentebb említett problémaforrás kiküszöbölésére tartalmaz eljárásokat, és automatikusan lefut (ki lehet választani, hogy az egyes lépések közül melyeket hajtsa végre). Futtassuk le naponta és igény szerint a karbantartó programot, ez gondoskodik a kalibrálásról és a kamerák beigazításáról. Nem kell mást tennünk, csak bekapcsolni a szkennert, megvárni a bemelegedési időt, majd elindítani a szkenner meghajtó programjával együtt telepített karbantartót! Amikor a program kéri, helyezzük be a szabványos kalibrációs lapot. A tisztítást mindig kössük össze a kalibrálással: a tisztítás megköveteli az újrakalibrálást, és a kalibrálás csak a szkenner megtisztított állapotában ad kielégítő eredményt. Folyamatosan ellenőrizni kell a létrejött digitális állományokat, és ha gyanús szín-eltolódást észlelünk, tisztítani és újra kalibrálni kell, a hibás állományt pedig újradigitalizálni.
- 257 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.4.3.3. Alkatrész csere A legnagyobb körültekintés, tisztaság mellett is elhasználódnak a térképet továbbító görgők, megkarcolódik a szenzorokat védő üveglap. A komoly, ipari berendezéseken természetesen cserélhetők ezek, a folyamatos munkavégzés érdekében előre kell gondoskodni cserealkatrészekről. Különösen az üveg állapota kritikus, mivel a rajta lévő legapróbb sérülés, szennyeződés is mind felnagyítva megjelenik a digitális állományon is. Az alkatrészcsere szükségességére figyelmeztet a meghajtó programmal telepített rendszerfigyelő alkalmazás, de ha mi észreveszünk a minőséget károsan befolyásoló tényezőt, ettől függetlenül is cserélhetünk. Cserélendő alkatrészek: ●
Üveglap
●
fehér háttér lap
●
lámpa
Alkatrész csere után újra kalibrálni kell az eszközt!
9.4.4. Szkennelés után A digitalizált képállományokat ellenőrizni kell, ha szükséges és lehetséges, korrigálni. Ezt célszerű még azelőtt megtenni, mielőtt az eredeti dokumentumokat visszacsomagolnánk és elpakolnánk őrzési helyükre. Ha a később kiderülő hibák miatt újra elő kell venni az anyagot, az újra számottevő idő és energia ráfordítást igényel, és nem tesz jót a gyakran nagyméretű, sérülékeny eredetiknek. A legfontosabb ellenőrzési szempontok: ●
Beszkenneltünk-e minden dokumentumot? (figyelni kell az esetlegesen mindkét oldalukon digitalizálandó információt tartalmazó eredetikre). Ha kimaradt valami, akkor azt pótoljuk, ügyelve a helyes fájlelnevezésre. Ha az eredetik sorában észlelünk hiányt, dokumentáljuk, és ügyeljünk a helyes fájlelnevezésre! A hiánynak ezer oka lehet. Például kölcsönzés, restaurálás miatt éppen nem áll rendelkezésre egy térképsorozat egy vagy több tagja, esetleg hiányos az intézményi állomány, vagy csak összekeveredtek a dokumentumok, és a hiányzó darab egy másik tékában van.
●
Az van-e a képen, aminek lennie kell?
Ha következetesen használtuk a fájlelnevezési rendszerünket, akkor egy sor durva ellenőrzést az állományok megnyitása nélkül, pusztán a fájlok számbavétele, a mappák valamilyen fájlkezelővel (pl. Total Commander) történő áttekintése révén elvégezhetünk. ●
Megfelelő-e a kép minősége? Színhűség, karcok, szakadások, egyéb torzulások, megcsúszás, kalibrációs hibák ellenőrzése. Ha nem megfelelő a minőség, meg kell vizsgálni, el kell dönteni, hogy korrigálható-e digitálisan (pl. tónuskorrekció), avagy érdemes újraszkennelni. Mivel esetenként igen nagy állományokról van szó, amelyek megnyitása lassú, szóba jöhet az a módszer, hogy automatikusan készítünk belőlük egy kisebb méretű/felbontású tömörített verziót, azt ellenőrizzük, és csak a korrigálandó eredeti fájlokat nyitjuk meg. Avagy szisztematikus mintavételezéssel, mondjuk minden tizedik, vagy csak a kritikus fájlok megnyitásával is gyorsíthatjuk az ellenőrzés menetét.
●
Szükséges-e körülvágni, elforgatni az állományokat? Ha igen, egyedileg megnyitva kell ezt végrehajtani, avagy sok fájlt egységesen lehet módosítani valamilyen automatikus képfeldolgozó algoritmussal?
Ha az ellenőrzés kielégítő eredményt ad, illetve végrehajtottuk a szükséges korrekciókat, akkor az ellenőrzött állományokat archiválhatjuk, illetve előállíthatjuk a felhasználás céljának megfelelő felbontású, formátumú, tömörítésű digitális kópiákat.
- 258 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.5. Mikrofilm digitalizálás A mikrofilm digitalizálás speciális mikrofilm szkenneren történik. Az ilyen eszköznek biztosítania kell a filmkockák pozícionálását, gyors továbbítását, megfelelő fényerejű átvilágítását, digitalizálását, a digitális állományok kezelését. A szkennelés előkészítéseként először is elő kell venni őrzési helyéről a filmeket, és át kell tanulmányozni a felvételezéskor létrejött technikai leírást, ami egy sor előzetes információt tartalmaz a tekercsről: kicsinyítési arány, felvételszám, a tartalmazott anyag leírása, azonosítói, esetleges leírásra való hivatkozás, felvételi körülmények, ismert hibák, stb. Ha nincs elég hosszú filmrész az első érvényes kocka előtt a megfelelő befűzéshez, akkor azt elé kell ragasztani. Ha szükséges – az intézmény állományvédelmi szabályzatának megfelelő módon – portalanítani kell a filmet, majd befűzni, és pár tucat kockányi próbafelvételt készíteni. Egyrészt találhatunk az első dokumentumkocka előtt néhány információs oldalt, ami további felvilágosítást ad a felvétel specifikumairól, másrészt nagyjából beállíthatjuk a próba alapján a keretérzékelés és a képkorrekció paramétereit. Ezután a beállított visszanagyítási faktornak, a kívánt kimeneti felbontásnak megfelelően “nyersen” beszkenneljük a teljes tekercset. Az így keletkezett digitális állomány, mint azonos hosszúságú darabokra szabdalt egyetlen virtuális filmcsík jelenik meg. Ezen a filmcsíkon a kezelőprogram az érzékelt “blip” jeleknek, a beállított méretnek megfelelően definiálja az egyes felvételek kockáit, “kivágatait”. Mód van az automatikus keretérzékelés paramétereit módosítani, a létrejött kereteket manuálisan korrigálni. Egy sor tónuskorrekciós lehetőséget érvényesíthetünk egyes vagy akár az összes keretre (fényerő, kontraszt, gamma érték). A beállítások eredményét a teljes felbontású eredeti nyers képpel együtt létrehozott kis felbontású nézőképen azonnal láthatjuk is. Az összes beállítás, módosítás paramétereit egy külön szövegfájlban tárolja a program, és csak a megfelelő parancs kiadása után hajtja azokat végre az exportált eredményfájlok létrehozásával. Az eredeti állomány érintetlen marad, így később bármikor lehetőség van más paraméterek szerint, más képformátumokban újabb exportálásokat végrehajtani. A nyers képadatok meglehetősen nagy helyet foglalnak el, így ha eljutottunk a megfelelőnek ítélt kimeneti állományokhoz, érdemes őket letörölni a munkaállomásról, vagy esetleg archiválni őket, de csak akkor, ha már ellenőriztük az állományt! A legtöbb manuális munkát az automatikus keretérzékelés hibáinak kijavítása jelenti. Az egyes keretek pozícióját a “blip” info, a megadott legkisebb és legnagyobb keretméret és követési köz, valamint a fekete háttér és az irat világosabb tónusa közötti kontraszt érzékelése együttesen határozzák meg.
- 259 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
Ha a felvétel fekete háttéren történt, a filmtovábbításban, az eredeti pozícionálásában nem történt hiba és az oldalak egyforma méretűek, akkor az automatikus érzékelés elméletileg hibátlan eredményt ad: minden egyes felvétel korrekt azonosítása megtörténik. Ha azonban pl. fehér háttér előtt történt a felvétel készítése, vagy a fentiekben hiba van, illetve nem megfelelően állítottuk be a paramétereket, akkor egyes keretek “öszszeragadnak”, mások esetleg kimaradnak, vagy több darabra vágódnak, esetleg eltérő méretűek lesznek, vagy akár a dokumentumlap szélén jelentkező árnyékot is keretszélnek érzékeli a program. Ha általános, sok keretet érint a dolog, akkor a beállítások finomításával segítsünk rajta! Ha csak néhány kereten kell módosítanunk, akkor a keretek megragadható füleit mozgatva tetszőlegesen beállíthatjuk a megfelelő kivágatot. Ugyan egy sor funkció támogatja ezt a munkát, azért ez egy több ezer felvételt tartalmazó tekercsnél még így is meglehetősen időigényes tevékenység. Ha a felvétel tartalmazott következetesen használt “blip” jeleket, és ahhoz előzetesen sikerült megfelelő fájlelnevezési rendszert kialakítanunk, akkor a létrejött állományok elnevezése megfelel a célzott archiválási, publikálási céloknak. Ha nem, akkor utólag kell tömegesen átneveznünk őket, ami szintén meglehetősen munkaigényes feladat. Mindenesetre ezenközben az előállott digitális állományokat a szokásos módon, minőségi szempontok szerint ellenőrizhetjük is. Ha olyan hibát találunk, ami a képfájlokon nem javítható, akkor újra kell szkennelnünk a tekercset. A digitalizálás végeztével vissza kell csévéltetni a szkennerrel a tekercset az eredeti tároló dobjára.
9.6. Digitális fényképezőgép használata A piacon lévő gépek felbontása, ár/érték aránya folyamatosan nő, ez a kategória lehet a leggyakrabban használt kamera a közgyűjteményi digitalizálásban (pl. ilyen gépek dolgoznak a robotszkennerekben is). A dSLR kamerák a profi, félprofi fényképezés területén hihetetlen karriert futottak be az elmúlt évtizedben. Kényelmes használatuk, rendkívüli sokoldalúságuk, a cserélhető objektívek nagy választéka, az egyre növekvő felbontással párosuló képminőségük, kiváló ár/érték arányuk immár a legigényesebb hivatásos fotósok kívánalmainak is megfelel. Önálló eszközként és pl. nagyteljesítményű robotszkennerbe beépítve jól használható a levéltári digitalizálás minden olyan területén, ahol állóképeket kell készíteni.
9.6.1. Használatuk a levéltári digitalizálásban A levéltári digitalizálásban nagyon sokoldalúan használhatóak a digitális kamerák. Néhány fontos kiegészítő használatával szinte minden hordozótípus, szituáció megoldható velük: háromdimenziós objektumok (pl. függő pecsétek, egyéb tárgyak) könyvoldalak, íratok, oklevelek, térképek. Ami behatárolja a használatot, az igazából csak a méret és a szükséges felbontás: egy adott felbontású kamerával csak egy meghatározott mérettartományban lévő tárgyat lehet megfelelő felbontásban felvételezni. A használható objektívek optikai tulajdonságaiból adódik egy látószög-tartomány, amelyben a fényképezőgép dolgozni képes. Bizonyos határon túl nem növelhető a látószög jelentős optikai torzítás nélkül, illetve a másik oldalról a látószög csökkenésével nő a korrekt élességállításhoz szükséges fókusztávolság és értelemszerűen csökken az átfogható méret. Mivel digitalizálás esetén általánosságban minimum 300 dpi az elvárt felbontás, mindezek a geometriai viszonyok behatárolják a használhatósági tartományt. A mai korszerű dSLR gépek jellemzően 16-20 MP felbontásúak (létezik már 36 megapixeles, teljes méretű, 36 x 24 mm-es érzékelővel rendelkező gép is), a képek oldalaránya általában 3:2. Egy 20 megapixeles gép képmérete 3680 x 5520 pixel (sor x oszlop). A 300 dpi felbontás azt jelenti, hogy 300 képpont (dot, pixel) esik 1 hüvelykre, azaz 2,54 cm-re. A 3680 x 5520 pixel ezzel a felbontással 31,2 cm x 46,7 cm méretű objektumhoz “elég”, azaz kis ráhagyással egy A3 méretű iratot lehet a gépünkkel digitalizálni (a mai legnagyobb felbontású dSLR géppel pedig kb. A2-eset). Ügyelni kell arra, hogy a papírdokumentumok világában elterjedt szabványos méretek oldalaránya (a “B”-s és “A”-s méretek) nem egyezik meg a fotótechnika megszokott 3:2-es oldalarányával, így felvételezendő dokumentumunk semmiképpen nem fogja tudni “hús” nélkül kitölteni a rendelkezésre álló teret. - 260 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
Olyan objektívet kell választanunk, amelynek látószöge, mélységélessége, fényérzékenysége megfelel a digitalizálási szituációnak: a rendelkezésünkre álló megvilágítás fényerejét figyelembe véve át tudja fogni a fotózandó objektumot. Ha túl kicsi a látószöge, akkor esetleg olyan messze kellene a gépet elhelyeznünk a tárgytól, hogy nem tudjuk kellően bevilágítani azt, illetve nem elég hosszú az állványunk. A nem kellően jó fényerejű objektív esetleg hosszabb záridőt kíván, vagy a fényérzékenység növelését, amelyek zajosodást, életlenedést eredményezhetnek. Egy nem tökéletesen síkban lévő objektum fotózásakor (pecsét, érme, kunkorodó pergamen-oklevél, a gerincnél behajló könyvoldalak), vagy ha apró tárgyat akarunk fényképezni nagy felbontásban, akkor szükséges valamelyes mélységélesség, hogy a különböző távolságra lévő részletek is élesek lehessenek. Minél kisebb a zár nyílása (a blende), annál nagyobb a mélységélesség, viszont annál kevesebb fény jut a gép belsejébe. Ezt hosszabb záridővel kompenzálhatjuk, de ez meg az élesség rovására mehet. A külső környezet általános fényhatásainak kiküszöbölésére szolgál az ún. fehéregyensúly (WB = white balance) beállítása, amely vagy automatikusan, vagy előre megadott megvilágítási körülményekhez “belőtt” fix választékok formájában, esetleg valamilyen mérő, kalibráló módszerrel eltolja az eredménykép színegyensúlyát, színhőmérsékletét a kívánt irányba. Ettől függetlenül, ha egy mód van rá, használjunk semleges fényű, konstans megvilágítást, vagy vakut. A levéltári digitalizálásnál a cél az eredeti írat, tárgy hű reprodukciója, színeinek és téri megjelenésének korrekt leképezése. A téri leképezéshez mérethelyes, torzulástól, bemozdulástól mentes képet kell készítenünk. Használjunk jó minőségű, fix gyújtótávolságú (nem zoom!), nagy fényerejű, a képszéleken sem torzító objektívet. Állítsunk be stabil reprodukciós állványt, amelyen az iratok vízszintes, centrális elhelyezése, a kamera fokozatmentes pozicionálása, az árnyék- és tükröződésmentes, kellő fényerejű megvilágítás biztosítható. A bemozdulások elkerülésére az expozícióhoz használjunk távkioldót vagy távirányítót. A folyamatos munkavégzés érdekében megfelelő adatkábellel kössük össze a kamerát a számítógépen futó vezérlőszoftverrel. Ez esetben nem csak a képfájlok folyamatos tárolása megoldott, hanem a fényképezőgép egy sor beállítását, az exponálást is végezhetjük a vezérlőprogramból. Az eredményfájl valós felbontásának meghatározásához fotózzunk be szabványos mérőlécet, vagy legalább egy vonalzót. Ha a színreprezentációt is rögzíteni akarjuk, készítsünk felvételt kalibrációs mintaábráról. A méret- és szín kalibrációt végezzük el minden olyan esetben újra, amikor a felvételezés bármely paraméterén változtattunk (zoom, a kamera távolsága, megvilágítás, fehéregyensúly, záridő és blende, stb.). Ha állományvédelmi okokból nem tehetjük ki az eredeti dokumentumot jelentősebb fényterhelésnek, akkor használjunk hidegfényű lámpákat. Jól látható, hogy a fotózás során egy sor tényezőt kell egyszerre figyelembe venni, optimalizálni, nincs egyetlen jó recept. Az elvileg jónak gondolt beállításokkal készítsünk próbafelvételeket, majd egyszerre csak egy paramétert változtatva, lépésenként korrigáljuk azokat a kívánt képminőség eléréséig!
9.6.2. Karbantartás A dSLR kamerák nagy igénybevételre tervezettek, masszív fém házuk strapabíró, és mivel használatuk során nem érintkeznek az eredetikkel, lényegében nincsenek cserélendő, karbantartást igénylő alkatrészeik. Egyetlen jelentősebb károsító tényező van, mégpedig a por. Objektívjük cserélhető, és éppen a csere rövid ideje alatt a legsérülékenyebbek: az éppen leszerelt objektív helyén por kerülhet a gép belsejébe, akár az érzékelőre is, meg az objektív lencséi is porosodhatnak, megkarcolódhatnak. Ezek a szennyeződések, sérülések azután az összes soron következő felvételen rajta lesznek. Vannak olyan gépházak, amikben az objektív eltávolításakor egy kis fedél óvja a gép belsőbb részeit, és némelyekben vannak különböző érzékelő tisztító megoldások: mechanikai, ultrahangos (létezik szoftveres megoldás is: valamilyen referenciaképhez képest elemzi a program a szennyeződések, porszemek által okozott, a különböző képeken ugyanott jelentkező foltokat, és ezeket szoftveresen, automatikusan kiretusálja). Manuálisan különböző erre a célra gyártott finom ecsetek, pumpák használatával lehet a port eltávolítani róluk. Vannak erre a célra készült vegyszerek, törlők is, de a drága gép belsejébe inkább ne nyúljunk, bízzuk inkább szakszervizre a dolgot. A lencséket is speciális törlőanyaggal, ecsettel és vegyszerrel tisztíthatjuk. A kamera mechanikus alkatrészei, főleg zárszerkezete többszázezer ciklusra méretezettek, ha valami elromlik, forduljunk a szakszervizhez. - 261 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.7. Bekötött dokumentumok digitalizálása robotszkennerrel A robotszkennerek közös jellemzője, hogy minimális emberi beavatkozással, a lapozás valamilyen módszerrel történő automatizálásával képesek a könyvek szkennelésére anélkül, hogy a gerincünknél sérülékeny könyveket teljesen ki kellene nyitni. Magát a felvételezést nagyteljesítményű professzionális digitális fényképezőgépek végzik, a két szembenéző könyvoldalt általában egyszerre. Ezt az eszköztípust akkor érdemes használni, ha nagymennyiségű a digitalizálandó anyag, de nem szedhető lapokra és kíméletes bánásmódra van szükség. Segítségével még a régi, veszélyeztetett könyvritkaságok is biztonságosan szkennelhetők. A robotszkennerben csupán mintegy 90 fokban kell kihajtani a könyveket, azokat – megfelelő beállítás mellett – nem éri sem mechanikus, sem fényterhelés, ráadásul akár a működtető operátor, akár a bionikus ujjal ellátott lapozó kar segítségével folyamatos, gyors és nagyon kíméletes a lapozás is. A milliónyi beszkennelt oldal számos tapasztalattal gazdagította a felhasználókat. Az üzemszerű működtetéssel kapcsolatban az egyik legfontosabb, hogy a napi gyakorlatban, valós, ipari terhelés esetén a teljesen automatikus működésmóddal szemben a félautomata működés hatékonyabbnak bizonyult. A Quidenus lapozó megoldása a bionikus ujj az emberi ujjbegyhez hasonló kiképzésű, tapadós gumiborítású, érzékeny, lézeres visszacsatolással kontrollált szervomechanizmus vezérletével dolgozik. Az olyan emberhez hasonlatos mozdulatot végez, aki, megnedvesítvén ujjhegyét, az összetapadt könyvlap sarkát “feltolja” kissé, hogy azután az így keletkező öblöcskébe dugva ujjait, lapozzon. A bionikus ujj feltolja a lapot a sarkánál, majd egy másik karocska becsusszan a résbe és áthajtja a lapot. A megbízható működés precíz beállításához számos próbát kell végezni, állítgatni a szoftveren, ami összességében néha annyi ideig tart, mint a fél könyv beszkennelése. A következő kötetnél meg gyakran lehet újra kezdeni az egészet. A félautomatikus mód esetén az operátor behelyezi a kötetet, lapoz, minden mást a berendezés magától végez: finoman beállítja a könyvtartót, a gerincközepet folyamatosan középre igazítja, érzékeli, mikor húzza vissza a kezét az operátor a lapozás után, exponál, majd vár a következő lapozásra. Ezzel a módszerrel óránként kb. 6-800 oldalt lehet digitalizálni.
9.7.1. A robotszkenner használata Az effektív digitalizálás megkezdése előtt itt is először magát az anyagot, a kötete(ke)t kell számba venni: méret, gerincvastagság, állapot, belső margók, vannak-e benne kiszakadt, kihajtható, a standard oldalméretnél nagyobb lapok, mellékletek, vannak-e benne olyan méretű oldalak, amik ezzel az eszközzel nem felvételezhetőek, milyen az oldalszámozási rendszer a kötetben. Ezután az RBS vezérlőszoftverében létre kell hozni a projekthez egy ún. JOB-ot, amely a digitalizálás összes paraméterét tartalmazza a felvételezés (fotókészítés) paramétereitől az utólagos feldolgozás paraméterezéséig. A kötet mérete, gerincvastagsága, belső margója, a lapok “simasága” figyelembevételével be kell állítani a könyvtartó mechanizmust: meg kell határozni a pozícióját, nyílásszögét, azt, hogy milyen erővel kell az oldalakat kisimító, felülről leereszkedő, ék alakú üveglapoknak a nyitott könyvhöz feszülniük a kellő kisimítás eléréséhez. A szoftver lelke egy SQL adatbázis, ebben tárolja a program a projekt előre megadott metaadatait, fájlelnevezési szabályait, a létrehozandó fájltípusok paramétereit, a mappák elérési útvonalait. A felvételezés során a kamerából a nyers RAW fájl kerül az adatbázisba, ahonnan azután a háttérben, párhuzamosan futó műveletek a JOB-ban megadott utasításoknak megfelelően feldolgozzák: kivágják, elforgatják, képjavító, tónuskorrekciós algoritmusokat futtatnak, elnevezik, a megfelelő formátumba konvertálják, mentik az eredményfájlokat. Az operátor a kezelőfelületen folyamatosan látja az éppen beszkennelt oldalpár képét, rajta a vágókeretekkel, így módja van közbeavatkozni, ha kell. A már lefutott és a még éppen feldolgozás alatt lévő JOB-ok a programban utólag is áttekinthetők, ellenőrizhetők, ha esetleg az exportált végeredményfájlokkal nem va- 262 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
gyunk elégedettek, más paraméterekkel újra futtathatjuk. A teljes nyers állomány meglehetősen nagy tárhelyet foglal, ha már leellenőriztük a végeredményt, érdemes kitörölni őket, de csak akkor! A felvételezés történhet teljesen automatikus módban, ekkor a bionikus ujj segítségével maga a robot lapoz. Ehhez gondos beállítás szükséges. A félautomata módban az operátor lapoz, minden más automatikus, míg a manuális módban az operátor lapoz, ha kell, igazít, majd gombnyomásra történik az expozíció. Ez utóbbi talán kicsit lassabb az előző módszereknél, de ez adja a legbiztosabb kontrollt a végeredményt illetően. Ahogy halad előre egy vaskos kötet szkennelése, a könyvnyílás pozíciója – aminek a kamerákhoz képest centrális tengelyen kell lenniük – folyamatosan vándorol balról jobbra: a kezdetekben a baloldalon csak kevés oldal van, míg az utolsó oldalnál már az egész kötet a baloldalon van. Ez több centiméteres változást eredményez. Az RBS könyvtartó mechanizmusa automatikusan, folyamatosan “utánszabályoz”, de ha valamiért ez nem sikerül tökéletesen, akkor a vágókeret pozíciója elcsúszik a beállított optimumhoz képest (valahol belevág a hasznos tartalomba, máshol meg fölös részeket vesz bele), vagy ha a felvételezett oldal síkja kicsúszik az objektív mélységélességi tartományából, akkor életlen felvétel keletkezhet, vagy esetleg az eltérő megvilágítás miatt a szemben lévő oldalak színe, színhőmérséklete eltérő lehet. Ha az operátor erre utaló jeleket fedez fel, korrigálhat, és a hibás oldalakat törölve azokat újra felvételezheti. A digitalizálás során előforduló leggyakoribb hibák egy részét az állomány átnevezése kapcsán kiszűrhetjük. Ezek a dupla lapozás, vagy amikor egy oldalpár kétszer is felvételezésre került. Az exportált állományneveket valamilyen alkalmas szoftverrel, fájlkezelővel (akár Total Commanderrel) érdemes olyan alakra hozni, hogy tükrözzék az eredeti oldalszámokat, így a lapozási hibák, illetve az eredetiben lévő oldalhiányok, elszámozási hibák nagy biztonsággal feltárhatók, korrigálhatók. Azt már nehezebb észrevenni, ha esetleg valamilyen eredetileg nem beszámozott melléklet, tábla hiányzik, vagy egy kihajtható lap nincs kihajtva. Ezeket teljes biztonsággal csak az eredeti kötet átlapozásával, vagy a digitalizált állomány alapos végignézésével szűrhetjük ki. Az olyan hibákat, mint a vágókeret elcsúszása, vagy a szemben lévő oldalak eltérése (színhűség, esetleg élesség szempontjából), szintén az alapos, szisztematikus ellenőrzés tárhatja fel. Néha ezeket észre lehet venni az adott mappa képeinek bélyegkép (thumbnail) nézetében is, érdemes mindenképpen ilyen módon is vetni egy pillantást minden folderre.
9.7.2. Karbantartás Az oldalakat szétválasztó, kisimító, ék alakban rögzített (összeragasztott) két üveglap találkozásánál van néhány milliméter, az üveglapok vastagságának megfelelő “vak” sáv, ami kimarad a felvételből. Az üvegnek ez az alsó területe – ha kíméletesen is, de – hozzáér az eredetihez, a rajta lévő por az üveget megkarcolja, ettől az “bemattul”, illetve tükröződik. Az üveglapokat időnként ki kell cserélni. Az üveglapot egyébként is rendszeresen tisztítani kell. Az RBS precíziós mechanikus alkatrészeket (tengelyek, csapágyak, szervo-motorok) tartalmaz, ezek megfelelő kenéséről, és mindenekelőtt a rendszeres portalanításról gondoskodni kell. A kamerák fényérzékelői hosszú idő után veszíthetnek érzékenységükből, ha erre gyanakszunk, új kamerákat kell a rendszerbe illesztenünk. A gyártó a megjelenő újabb kameratípusokhoz is készít meghajtó szoftvert, így esetleg nagyobb felbontású eszközre válthatunk az egész rendszer kicserélése nélkül. A megvilágításról gondoskodó hidegfényű csövek hosszú élettartamúak ugyan, de ha kiégnek, cserélni kell őket.
9.8. Gyors síkágyas (könyv)szkenner Sokszor előfordulhat, hogy egy kisebb közgyűjteményben, vagy egy kisebb projektben nincs szükség és pénzügyi lehetőség valami “komoly” digitalizáló eszköz hadrendbe állítására, avagy esetleg egy nagyobb irategyüttes tartalmaz olyan eredetiket is, amelyek hordozó anyaguknál fogva (nem lapokra szedhető, sérülé- 263 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
keny, kemény kötéstáblákkal rendelkező, stb.) az egyéb eszközeinkkel biztonságosan nem digitalizálhatóak. Ilyenkor tehet jó szolgálatot egy síkágyas szkenner. Vannak olyan komolyabb berendezések, amelyek kiváló minőségben, színhűségben, dia-feltéttel, hatalmas felbontással még az igényes sajtó- és könyv-reprográfiai igényeket is kielégítik. Előnyük a kiváló képminőség mellett az, hogy az eredetiket nem éri káros hő- vagy fényhatás, és ha “szálas” dokumentumokról van szó, akkor mechanikai sem. Egy bekötött könyvet viszont nem képesek korrekt módon, a könyv gerincének sérülése nélkül beszkennelni: bizonyára mindenki látott már fénymásolt könyvoldalakat, ahol a belső margónál jellegzetes sötét sáv keletkezik, mivel nem tud a síkfelületre jól rásimulni a bekötött anyag. Ezt a problémát küszöbölik ki a Plustek cég OpticBook síkágyas könyvszkennerei. Az OpticBook nagysebességű könyvszkennerek sajátos, innovatív kialakításukkal szükségtelenné teszik a könyvek erőltetett, 180°-os kihajtását, így az állományvédelem maximális figyelembevételével, kíméletes módon teszik lehetővé a digitalizálást, egyszersmind kiküszöbölik a szkennelt könyvoldalak közepén a beárnyékolódást és a sorok torzulását, jó minőségű oldalképet és OCR-t téve lehetővé. A síkágyas szkennelő felület úgy van kialakítva, hogy a csak kis szögben kinyitott, lefelé fordított könyv kényelmesen hozzáilleszthető, egészen a legszéléig “látja” az oldalt, belül, középen, a könyv gerincénél, csak kb. két mm holt tér marad.
A kezelőszoftverben beállítható a páros és páratlan oldalak megfelelő irányba való automatikus forgatása, így nincs más dolgunk, mint lapozni, odailleszteni és megnyomni a gombot. Kezelőszoftverében tipikus szkennelési szituációkat lehet definiálni, megadva a szükséges beállításokat: színmélység, felbontás, fájlelnevezési séma, forgatás, célmappa, stb. Ezeket a nagy, kényelmes kezelőgombokhoz társítva a szkenneléskor már nem kell a programmal törődnünk, nyugodtan ügyelhetünk a dokumentum biztonságos és kényelmes tartására. A4-es és A3-as méretben készül, a két típus a méretén kívül csak a sebességében különbözik: a kisebbik kb. 4 másodperc alatt vesz be egy A4-es oldalt 300 dpi, 24 bit színes módban, míg a nagyobbik testvérének mindössze 2,5 sec (!) kell egy A3-as, 300 dpi, 24 bites színes oldal szkenneléséhez.
- 264 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.9. Diák, filmnegatívok szkennelése Az archívumok gyakran őriznek átvilágítható (transzparens) hordozón képanyagot: diapozitíveket és negatívokat, film- és üvegnegatívokat, vagy akár röntgenfelvételeket. Ezek nem szkennelhetők a reflektív hordozóknál bevált eszközökkel, léteznek viszont direkt erre a célra kialakított speciális filmszkennerek, és a komolyabb síkágyas szkennerek közül is soknak tartozéka az ún. diafeltét.
9.9.1. Előkészítés A (dia)filmszkennelés, utófeldolgozás meglehetősen időigényes művelet – ami ráadásul a felbontás növekedésével jelentősen lassul –, ezért érdemes alaposan végiggondolni, végigszámolni a digitalizálandó gyűjtemény felbontás igényét. Mindig a szkennelés célja szerint válasszuk meg a felbontást, és e tekintetben az eredeti tárgy, irat mérete a mérvadó, nem pedig a dián, filmen lévő méret. Azzal a minimális felbontással szkenneljünk, ami feltétlenül szükséges! Ha a dia nem tartalmaz valami kalibrálásra alkalmas mérhető adatot (pl. lehet tudni, hogy a rajta szereplő papírlap A4-es), akkor az eredményfájlban elért valós felbontás nem adható meg pontosan, mivel nem tudjuk meghatározni a felvételezés nagyítási/kicsinyítési arányát. Határozzuk meg a szükséges színmélységet: ez legtöbbször 24 bit színes, esetleg fekete-fehér anyagok esetén 8 bites szürkeárnyalatos. Alakítsuk ki a fájlelnevezési rendszert! Szükség esetén tisztítsuk meg a filmeket! Az eredetin lévő por, karc, ujjlenyomat a szkennelés során jelentősen felnagyítva használhatatlanná teszi a felvételt. Csak erre a célra rendszeresített folyadékot, törlőkendőt, ecsetet használjunk, a nem megfelelő eszköz és anyag használata tönkre teheti az esetleg pótolhatatlan eredetit. Ha a szkennerünk igényli, keretezzük be a diákat! Használjunk cérnakesztyűt, ha a filmhez kell érnünk!
9.9.2. Szkennelés Helyezzük óvatosan a szkennelendő hordozót a szkennerbe! Diafeltét esetén a síkágyas szkenner felületére helyezendő, speciálisan erre a célra tervezett műanyag keretbe kell illeszteni a szkennelendő diá(ka)t, dedikált filmszkennernél a megfelelő nyílásba kell helyezni a keretbe tett diát, avagy befűzni a filmtekercset. Készítsünk egy előnézeti szkennelést, finomhangoljuk a szoftver lehetőségei szerint a paramétereket (karc eltávolítás, élesítés, színegyensúly), jelöljük ki manuálisan a kereteket, ha az automatikus keretezés nem adott kielégítő eredményt, vagy ahhoz képest vágni szeretnénk. Az elkészült képeket ellenőrizzük, ha szükséges, utólag korrigáljuk, forgassuk a kívánt állásba, retusáljuk! Ha valami nem javítható problémát észlelünk, azt dokumentáljuk! Ezután archiválhatjuk a digitális állományokat. A beszkennelt eredetiket gondosan helyezzük vissza a tárolójukba, és juttassuk vissza őrzési helyükre.
9.10. Audiovizuális anyagok digitalizálása 9.10.1. Mozgóképek Mozgóképi anyagok esetén a digitalizálás célja a filmen vagy video szalagon rögzített alkotás hozzáférhetővé tétele, megtekinthető, meghallgatható, feldolgozható és közreadható digitális példányának előállítása, illetve sok esetben az analóg hordozó elöregedése miatt halaszthatatlan digitális archiválás, illetve ennek kapcsán – immár a digitális állományon végzett – restaurálás, minőségjavítás. - 265 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
A modernebb kamerák immár valamilyen digitális formában rögzítik a mozgóképet, így ezek feldolgozásánál hagyományos értelemben nem beszélhetünk digitalizálásról: az eszközön (szalagon, memóriakártyán, esetleg beépített merevlemezen) tárolt videó fájlt be kell másolni a számítógépbe, megfelelő videó editáló program segítségével elvégezni a szükséges változtatásokat (vágás, szűrés, tónuskorrekció, effektek), majd – megfelelő metaadatokkal ellátva – a kívánt formátumban elmenteni.
9.10.1.1. VHS szalag A legszélesebb körben elterjedt hagyományos kazettás videoszalag (elsősorban a VHS-család – VHS, SVHS, VHSc, Betamax) sajátsága, hogy minősége minden lejátszás során romlik, ráadásul az „állás során”, lejátszás nélkül is veszít információtartalmából. A lejátszás illetve a felvétel során viszonylag lassan mozgó szalag speciális vezető mechanika segítségével egy gyorsan forgó fej körül, azzal érintkezve halad, a fejbe épített egy vagy több fej-egység végzi a letapogatást a felvétel és a lejátszás alatt. Az alábbi ábrán látható vázlatosan a VHS kazetta illetve magnó speciális mechanikai elrendezése.
Maga a szalag többször újraírható, de a törlések-újraírások során jelentősen romolhat a mágneses hordozóréteg tulajdonsága, így a már többször használt szalag minősége tovább romlik. Mivel a vékony szalag a használat (lejátszás, tekercselés) során jelentős mechanikai igénybevételnek is ki van téve (nyúlhat, gyűrődhet), ez további veszélyt jelent az őrzött felvétel állagára nézve. Amennyiben az intézményben van ilyen videó kazettán tárolt anyag, annak digitalizálása halaszthatatlan feladat! A VHS-szalag a mozgókép videó jelét (fényesség és szín komponensek) képkockánként 576 soros függőleges felbontásban képes rögzíteni, analóg sorfelbontása 240 körül van (valójában ferde sávokban, digitálisan tárolja az analóg információt; ennek részletei meghaladják jelen tanulmány kereteit). A hang rögzítése a mágnesszalag szélén, folytonos sáv formájában történik, a magnetofonhoz hasonlóan. Fontos paramétere ezeknek a felvételeknek a sebesség: ún. Standard Play (SP, kb. 2.5 cm/sec lejátszási sebesség), Long Play - 266 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
(LP) és Extended Play (EP). A szalag mozgatási sebességére vonatkozik ez a paraméter, minél kisebb ez a sebesség, annál hosszabb felvétel készíthető egy kazettára, de annál rosszabb a felvétel minősége. Fontos, hogy a digitalizáláskor a lejátszás ugyanazzal a sebességgel történjen, mint ahogy az eredeti felvétel készült. Az ilyen formátumban tárolt mozgókép digitalizálásához viszonylag egyszerű digitalizáló eszközök, a számítógépbe illeszthető speciális kártyák léteznek, amelyek bemenetein a megfelelő módon csatlakoztatott lejátszó eszköz (videomagnó) jeleit (video és hang) képesek fogadni. Léteznek a számítógéphez valamilyen szabványos felületen csatlakoztatható (pl. USB, FireWire), külső eszközök is, ezek használata nem különbözik a beépíthető kártyákétól, csak esetleg kényelmesebb lehet a kábelek csatlakoztatása.
A kártyákhoz, külső eszközökhöz általában mellékelik a szükséges kábeleket, átalakítókat, és digitalizáló szoftvert is adnak mellé, amely az alaptevékenységekhez általában elegendő tudású. Egy professzionális video vágó és -utómunka szoftver akár milliós nagyságrendű is lehet. Mivel a VHS felvétel nem különösebben jelent nagy felbontást vagy jó minőséget, ezért ma már az egyszerű kommerciális digitalizáló kártyák is jó eredménnyel visszaadják a szalagon tárolt információt. Néhány tízezer forintért megfelelő eszközt kaphatunk (AverMedia, Pinnacle, Leadtek, ATI, Hauppauge). A felvételt fölösleges a standard PAL 768x576 pixelnél nagyobb felbontásban rögzíteni, mivel az eredeti szalag még ennél is kevesebb információt tartalmaz. A hangsáv rögzítésénél – hasonló megfontolásból – a 16 bites, 22 kHz-es felbontás bőségesen elegendő. Első lépésben olyan formátumban érdemes digitálisan rögzíteni az anyagot, amely minden egyes képkockát teljes értékű kockaként tartalmaz – pl. DV AVI –, mivel ez jó lehetőséget biztosít a szükséges utómunkálatokra: vágás, tónuskorrekció, hangsáv szűrése, stb. Érdemes próbafelvételt készíteni, ahol a bemenő torzításmentes hangszintet, az esetleges hardveres tónuskorrekciókat beállíthatjuk, majd ezekkel a beállításokkal végezzük a teljes felvétel digitalizálását. A felvétel lineárisan, „real time” történik, annyi ideig tart, mint maga a felvétel. Közben az adott számítógépen nem érdemes más tevékenységet is végezni, mivel az esetleg adatvesztést, ugrásokat („dropped frames”) eredményez a digitalizált felvételben. A rögzítés alatt viszont fel lehet jegyezni pl. az egyes megjelölendő részletekhez tartozó időkódot, amelyekhez később metaadatot rendelhetünk (pl. adott személy felszólalása, témaváltás, stb.). A digitális fájlon végezzük el a szükséges beavatkozásokat, igény szerint: vágás, feliratozás, tónuskorrekció, zajszűrés, hangsáv normalizálás, stb. Az elkészült fájlt ezután a hosszú távú megőrzésre szánt formátumba konvertáljuk (pl. MPEG2). A DV AVI formátum tetemes helyigényű (egy 720x576 pixeles DV AVI percenként kb. 220 MB helyet igényel), használata a munka során indokolt, de a kész állományok végső tárolására nem alkalmas.
9.10.1.2. Film A film alapú felvételeknél a digitalizálás sokkal inkább tekinthető állományvédelmi szempontnak, mint más információt hordozó iratok esetén. Ennek oka a filmek (különösen a rossz minőségű alapanyagok esetén) élettartamának végessége, ami szakszerűtlen tárolás esetén jelentősen lerövidül. Éppen ezért az előkészítés- 267 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
nek még nagyobb és hangsúlyosabb szerepe van a filmeknél. Digitalizálás előtt alapvető feladat az állagmegőrzés biztosítása, másrészt a filmeket alkalmassá kell tenni jó minőségű digitalizálásra. A mozgófilmek esetében az előzetes állapotvizsgálatnak választ kell adni arra a kérdésre, hogy normál szkenneren végezhető a digitalizálás, vagy speciális berendezés szükséges pl. a túlságosan zsugorodott filmekhez. Ez utóbbi természetesen jelentősen emeli a költségeket és növeli a feladat végrehajtásának idejét. Az előkészítés fontos része a tisztítás és a ragasztások rendbehozatala. A kisfelbontású elő-szkennelés lehetővé teszi a hagyományos mozgó filmek időkóddal való ellátását, a jelenetek elhatárolását, a referencia képek kiválasztását és a hang leolvasását. A nagy felbontású referencia képek vizsgálata segít a szükséges felbontás, és a várható korrekciók meghatározásában. A jelenetek fényelése (digitális színkorrekció) a digitalizálás expozíciós viszonyait állítja be az optimális értékre, ami a minőséget javítja jelentősen. A leolvasott, és digitálisan tárolt hang elemzése eldöntheti, hogy csak egyszerű hangfeldolgozásra, vagy digitális restaurálásra van szükség. Vagyis a mozgófilmek esetében állományvédelmi és restaurálási feladatok nemcsak az eredeti dokumentummal kapcsolatban merülnek fel, hanem a digitálisan létrejövő állományok minőségét is lehet és esetenként érdemes javítani. Amíg a papír alapú közgyűjteményi dokumentumoknál az utólagos szoftveres korrekció általában kizárt, addig hanganyag és mozgókép esetében kívánatos feladat. A feldolgozás célja a lehető legjobb, az eredetihez közelálló digitális kópia létrehozása és a megfelelő felbontású digitális példányok kódolása. A szkennelt anyagon a következő szoftveres utómunkák végezhetőek el: karc eltávolítás; piszok eltávolítás; zajszűrés; szín helyreállítás; villódzás megszüntetés; remegés megszüntetés; kép hiánypótlás; időalap korrekció; hangszinkronizálás, zajszűrés; kódolás, tömörítés. A különböző típusú és állagú filmek mind egyedi digitalizáló eszközt és speciális szakmai felkészültséget igényelnek. Ilyen típusú gyűjtemények esetén különösen ajánlott digitalizálás előtt olyan intézményekkel felvenni a kapcsolatot, akik korábban már jelentős tapasztalatot szereztek ezen a területen (pl. Magyar Televízió Filmarchívuma vagy Magyar Nemzeti Filmarchívum
9.10.2. Hanganyagok A levéltárakban őrzött hangzó anyagok tipikusan nem művészi igényű hangfelvételek, hanem leggyakrabban köztestületek, bizottságok üléseinek hangzó jegyzőkönyvei, esetleg interjúk, amelyek egyrészt meglehetősen hosszúak is lehetnek, másrészt ahol elsősorban a hangzó anyag szöveges információtartalma bír értékkel a megőrzés szempontjából. Ezek hordozó formátuma jellemzően orsós vagy kazettás magnetofonszalag. A digitalizálási projekt első lépéseként ki kell alakítani a szükséges eszközparkot. Rendelkeznünk kell a szükséges formátumokat (orsó és kazetta) lejátszani képes magnetofon készülékre. Mivel ezeket az eszközöket manapság már nem igen használják, a gyártásuk is megszűnt, így ha nincs saját készülékünk, akkor vagy használtan kell őket beszerezni, vagy olyan céghez, intézményhez fordulni, amely rendelkezik vele. (Csak érdekességképpen: az USA Kongresszusi Könyvtára minden általa őrzött médiához elraktároz hozzá való működőképes lejátszó eszközt is.)
- 268 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
Szükség van egy átlagos teljesítményű számítógépre, megfelelő bemenetekkel rendelkező, céljainkra alkalmas hangkártyával, ami leggyakrabban PCI felületen csatlakozik a számítógép alaplapjára. A digitalizálásra alkalmas hangkártyák ára a pár ezer forinttól a többszázezer forintig terjedhet, egy néhány tízezer forintos eszközzel a levéltárakban előforduló anyagokat a céljainknak kiválóan megfelelő minőségben tudjuk digitalizálni (pl. a Creative Labs cég Sound Blaster Live!, vagy Sound Blaster Audigy kártyái). Sose felejtsük el, hogy az elérhető hangminőséget illetően nagy valószínűséggel az eredeti felvétel minősége, körülményei jelentik a szűk keresztmetszetet: egy visszhangos, zajos teremben, egy nem túl jó minőségű, távoli mikrofonnal készült felvétel a világ legjobb hangkártyájával digitalizálva sem lesz stúdióminőségű! Olyat érdemes választani, ami a céljainknak még éppen megfelel. Mivel tipikusan beszédfelvételekről van szó, a mai, ebben a kategóriában is általánosnak mondható 24 bites A/D-D/A konverter, 96 kHz-es mintavétel tökéletesen elegendő. Ezzel együtt a digitalizálási célú kártya kiválasztásánál a következő két paraméter a legfontosabb:
Legnagyobb bemenő szint: a kártya analóg-digitális átalakítójának egy fontos mérőszáma, azt mutatja meg, hogy a hangkártya bemenete milyen szintű, azaz milyen hangos jelet tud fogadni anélkül, hogy túlvezérlés, kellemetlen torzítás lépne fel. A nagyobb értékek a jobbak. (A legnagyobb kimenő szint értelemszerűen azt méri, hogy a hangkártya kimenete milyen szintű, azaz milyen hangos jelet tud kiadni anélkül, hogy torzítást okozó túlvezérlés lépne fel. Itt is a nagyobb értékek a jobbak.) Jel/zaj viszony 20 Hz-20 kHz között: a hangkártyák dobozán is gyakran megadott paraméter (a gyártók gyakran meglehetősen lazán, sokszor a valós adatnál jobbat feltűntetve adják meg). Ez az érték határozza meg, mennyi zajt tesz hozzá a kártya a jelhez. Minél nagyobb ez az érték, annál jobb az eszköz.
Össze kell állítani a megfelelő csatlakoztatást lehetővé tévő kábel- illetve átalakító kollekciót. A régi magnetofonoknak gyakran nem a ma legelterjedtebb „jack” típusú kimenete van, hanem pl. ötpólusú DIN csatlakozója („tuchel” néven is ismeretes), vagy ún. RCA kimenete.
A csatlakozókkal, átalakítókkal kapcsolatban még annyit érdemes megjegyezni, hogy lehetőleg minél rövidebb, jó minőségű, kellően szigetelt alkatrészeket használjunk, hogy a felvétel készítése során minimalizálhassuk a külső elektromos zajok zavaró hatását. Egy kontakthibás, zárlatos kábellel, csatlakozóval lehetetlen jó felvételt készíteni. Miután csatlakoztattuk a magnetofont a számítógép hangkártyájához, szükségünk van egy programra, ami a digitalizálást, felvételt vezérli. Rengeteg ilyen szoftver van, általában a hangkártyához adott tökéletesen megfelel a célnak. A lényeges paraméterek ugyanazok (az alábbi kép az Adobe Soundbooth programjának digitalizáló modulját mutatja): - 269 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
ki kell választani az eszközt (Sound Blaster Live); a mintavételezés gyakoriságát (44100 Hz); a csatornákat (sztereo v. mono); a bemenetet (Line in); meg kell adni a fájlnevet (Tanacsules_2012-12-17); a célmappát (d:\Celmappa);
Ezután elindíthatjuk a próbafelvételt. A jobb oldali monitor sávjain nyomon követhetjük a bemeneti, ill. felvételi jelszinteket, láthatjuk, ha esetleg túlvezéreltük volna (piros sáv). Ilyenkor keressük meg a leghangosabb részt a felvételen, és annak szintjéhez állítsuk be a magnetofon hangerejét. Ezután keressünk egy halk részt, és itt is készítsünk próbafelvételt: ha jól hallható ez is, akkor készen állunk az igazi felvétel elindítására. Először mindig a számítógépes programon indítsuk el a felvételt, majd ezt követően a magnetofont, így nem marad le értékes tartalom (a fölösleges részt az elejéről a digitális állományban utóbb könnyen levághatjuk). Az ügyesebb programokban (mint a képen látható) lehetőség van a felvétel közben, egy gyorsbillentyű lenyomásával markert adni egyes pozíciókhoz, így például megjelölhetjük az egyes felszólalások kezdeteit. Ha végeztünk, a megfelelő gombbal állítsuk le a felvételt. Az elkészült felvételt töltsük be a hangszerkesztő programba (ha azzal készítettük a felvételt, akkor annak végeztével automatikusan meg is nyílik ott), az adott program lehetőségeitől függően az alábbihoz valami hasonló képet láthatunk:
- 270 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
Egy kifinomult editor végtelen lehetőségeket biztosít a hangfájl manipulálására, ezeket a tanulmány keretei között nem részletezzük, néhány olyan műveletet említünk csak, amivel mindenképpen dolgunk lesz egy levéltári anyag digitalizálása kapcsán. kivághatjuk a fölös részeket: az elején és a végén szinte mindig vannak, de időnként a felvétel közben is lehetnek nem megőrzendő részek; feldarabolhatjuk a teljes felvételt: kisebb, értelmes egységekre bonthatjuk, fájl-szinten is; globálisan normalizálhatjuk a hangerőt; ha ingadozó hangerejű a felvétel, szakaszonként is normalizálhatunk, növelhetjük vagy csökkenthetjük a felvétel dinamikáját (pl. egyetlen mikrofonnal rögzítettek egy teremben egy ülést, egyes felszólalók közelebb vannak hozzá, ezek hangosabban hallhatók, mások meg távolabb, ezek halkabbak); generális zajszűrést végezhetünk: a jobb programokban beépített algoritmusok vannak erre a feladatra, de általában külön cél-plugineket is lehet vásárolni hozzájuk (a zajszűréssel bánjunk óvatosan, ritka az a szituáció, hogy a szűrés ne vágna jelentősen az értékes tartalomból is; néhány próbát azért sokszor érdemes végezni); kiiktathatjuk a felvétel közben keletkezett kattanásokat, reccsenéseket (erre is vannak automatikus, szűrő-szerű eszközök, de manuálisan, vágással is eltávolíthatjuk őket, ha nem „lógnak bele” hasznos tartalomba). Amíg a szűrt, normalizált, vágott – tehát véglegesnek szánt – állomány nem áll elő, addig tömörítetlen PCM kódolású WAV fájlba mentsük a felvételt. Ha van rá tárolókapacitás, akkor archiválás céljára is használhatjuk ezt az állományt (a WAV formátumú tömörítetlen hangfájl helyigénye közel tízszerese a hasonló akusztikus élményt nyújtó MP3 fájlnak). Ezután állítsuk elő belőle a publikálásra szánt formátumú, tömörített fájlt! Ez leggyakrabban a rendelkezésre álló tárhely, internetes sávszélesség, a felvett anyag jellege szerint meghatározott bitrátájú (szöveges anyag esetén pl. 128 Kbs) Mp3 fájl. A szükséges kodek általában a hangkártyával, az editor programmal felkerül a gépre, de ha esetleg nem, akkor ingyenesen számos helyről letölthető (pl. http://www.free-codecs.com/download/lame_encoder.htm). - 271 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
9.10.3. Beszédfelismerés audiovizuális tartalmakban Egy érdekes lehetőség az audiovizuális tartalmakban való navigálásra az automatikus beszédfelismerés fejlődésével válik elérhetővé. Mostanáig az ilyen típusú anyagokban keresni csak a metaadataik révén tudtunk: amit metaadat szinten feltárt valaki, arra, és csak arra lehet keresni. Az intelligens szövegfelismerés, nyelvészet, lingvisztika, fonetika, mesterséges intelligencia fejlődésével azonban már ma is, magyar nyelven is hozzáférhetőek olyan eszközök, amik képesek a beszélt szöveget karakteresen kódolt, ezáltal kereshető szöveggé alakítani. A felismerés jósága még messze van a tökéletestől, de ezek az első eredmények is már biztató jövőt ígérnek: http://www.mindroom.hu; http://www.mindroom.hu/hogyan-mukodik Egy másik alkalmazás a Nuance cég Dragon termékcsaládja (http://www.nuance.com/dragon/index.htm), egyebek mellett magyar nyelvű diktálási lehetőséget kínál. Egy újabb példa: a Google beépítette a Translate szolgáltatásába az angol nyelvet „megértő”, hangról karakterré alakító szolgáltatását: http://translate.google.com.
9.10. OCR Jelen kézikönyv célja, hogy gyakorlati útmutatóként szolgáljon egy adott dokumentum Abbyy FineReader 10.0 verziójával történő OCR-ezéséhez. A megértéshez szükséges fogalmak a fő részben találhatók, itt azokra, mint ismert anyagra hivatkozunk.
9.10.1. Az anyag felmérése, áttekintése Először is tekintsük át a feldolgozandó anyagot, a kötetek méretét, az oldalak bonyolultságát. Nézzük át vane értelme OCR-ezni, gépiratról, nyomtatott anyagról vagy esetleg kéziratról van-e szó. Becsüljük meg az anyag oldalszámát (1 méter könyv, folyóirat mintegy 10-12.000 oldal, vékony lapú anyag, pl. napilap 1015.000 oldal. Készítsünk egy munkalapot, pl. egy Excel fájlt, aminek minden egyes sora egy kötetnek felel meg. Ide vezessük be a feldolgozással kapcsolatos fontos elemeket, munkafázisokat (pl. cím, oldalszám, OCR, átnézés, PDF mentés, Könyvjelzőzés), akár azt is, hogy ki, mikor végezte az adott folyamatot.
9.10.2. Szkennelés Válasszuk meg a megfelelő szkennert, lehetőség szerint (ha a kötetek lapra szedhetők) dokumentumszkennert használjunk. Ha ez nem lehetséges robotszkennert, vagy könyvszkennert használjunk. Szkennelési paraméterként 300 DPI felbontást, 24 bites színmélységet, 80%-os JPG tömörítést állítsunk be. Amennyiben nagyon apró (6-7 pontos) betűk nagy számban előfordulnak a szövegben használjunk (valódi) 400 DPI-t. Szkenneljük az oldalakat úgy, hogy az adott oldalszám a vele azonos nevű file-ba kerüljön (32. oldal 032.JPG), nullával töltsük fel a neveket annak érdekében,. hogy a numerikus sorrend rendben legyen. A számozatlan vagy eltérő számozású oldalakat az előtte lévő oldalak alapján nevezzük el (pl. 032_1.JPG, - 272 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
032_2.JPG). A szkennelés végeztével ellenőrizzük le, hogy minden oldal szkennelésre került-e, ha a kötetből hiányoznak oldalak azt jegyezzük fel a munkalapon. Ha valamilyen oknál fogva nem sikerült mindent beszkennelni (szakadt oldal, túl nagy méret, stb.) igyekezzünk azonnal más eszközön (pl. térképszkenneren) megtenni és a helyére tenni. Ha ez csak később lehetséges, ugyancsak jelezzük a munkalapon.
9.10.3. Futtatás Lehetőség szerint éjszaka indítsuk el az OCR-ezést, a HotFolder program segítségével akár 3-5000 oldalnyit. Ha valamiért nem akarjuk a HotFolder igénybevételével futtatni, akkor ezt megtehetjük úgy is, hogy a FineReader programot 5-6 példányban elindítjuk (8 magos processzor esetén!) és mindegyikbe betöltünk egy-egy kötetet. Figyeljünk a beállításokra: ●
a felismerés pontosságát állítsuk a legnagyobbra
●
nyelv beállítása: itt használjuk azt a 2-3 nyelvet, amelyek jellemzik a dokumentumot
●
ha esetleg kétoldalasan szkenneltünk, engedélyezzük a dupla oldalak felosztását
●
engedélyezzük a képfájl műveleteket (pl. olvasási irány megtalálása, kép kiegyenesítése)
●
mentsük el a köteg (batch) fájlt, hogy a későbbiekben javítani tudjuk az állományt. Nagyon extrém esetben (nagyon jó minőségű nagyon egyszerű szöveg, ábrák, képek nélkül) tudjuk csak elképzelni, hogy mindenféle ellenőrzés nélkül azonnal PDF állományt hozzunk létre.
9.10.4. Átnézés Az elkészült és kimentett köteg igen nagyméretű, elérheti a szkennelt, Jpeg fájlokba mentett képek mennyiségének 20-50-szeresét is. Ezért mindig ügyeljünk rá, hogy megfelelő méretű szabad tárhelyünk legyen. Egy 1000 oldalas nagyméretű kötet JPG állománya 1,5-2 GByte, a köteg ennek megfelelően akár 50-100 GByte (!) is lehet. Az átnézés során kétféle módon cselekedhetünk vagy átnézzük oldalról-oldalra a kötetet, vagy csak a problémás eseteket vizsgáljuk meg. Minden oldal átnézése időigényesebb, de egyfajta biztonságot ad az anyag megítélését illetően. Az átnézés során néhány másodpercet töltsünk el egy-egy oldallal, és ha javítani szükséges, azt tegyük meg. A javítás után az adott oldalt újra ismertessük fel, ha sok ilyen van, akkor csak egyszerre a végén. Az alábbiakra figyeljünk: ●
képként ismert fel szöveget: javítsuk az adott keretet szövegesre vagy vegyük ki a képből a szöveges részt, ilyen lehet pl. a képaláírás
●
hibás a szöveg olvasási iránya: adjuk meg a helyes irányt
●
ferdén lett szkennelve a kép: használjuk a képkiegyenesítési funkciót
●
ismeretlen nyelvet jelez a program: adjuk meg az adott olda(ak)nak a helyes nyelvet
●
lapszéli jegyzet miatt rossz a felismerés: tegyük külön keretbe a főszöveget és lapszéli jegyzetet
●
táblázat felismerési hibák: javíthatjuk a cellafelosztást (összevonás, megosztás), az olvasási irányt cellán belül. Sokat segíthet a felismerés pontosságán, ha a program nem táblázatként ismert fel egy táblázatot és ezt javítjuk. Néha a fordítottja is hasznos lehet: ha nem táblázatként, hanem csak szövegdobozként azonosítjuk, akkor, ha a struktúrát nem is, de a benne lévő szövegeket néha biztosabban felismeri a program.
●
a program jelzi, hogy nem elég nagy a felbontása a képnek. Ez általában azt jelzi, hogy rossz az olvasási irány beállítása, és ez jelentkezik ezzel a hibával. Általában a helyes olvasási irány beállításával az üzenet megszűnik. Ha mégsem, szkenneljük be az oldalt (szükség esetén az egészet) 400 DPIvel.
●
hibás hasábfelismerés. Elsősorban többhasábos, bonyolult szerkezetű napilapoknál fordul elő, hogy hibásan történik a hasábok elkülönítése. Ekkor ezek egymásba folynak, átfedik egymást, a szöveg- 273 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
minőség igen gyenge. Amennyiben kézzel megjavítjuk ezeket a kereteket, sokkal jobb lesz a felismert szöveg. Amennyiben az anyag igen jónak bizonyul, elegendő csak a problémás oldalak áttekintése. Ehhez a program segítséget ad, lehetőségünk van a bizonytalan karakterek száma szerint rendezni az anyagot és csak ezeket megnézni. A bizonytalan karakterek aránya jó minőségű anyagok esetén 1 és 2% között van, amennyiben eléri az 5-10%-ot, érdemes javítani (nyelvbeállítás, keretek). A hibás oldalakat a program grafikusan is jelzi (piros színnel jelzi a sok hibával terhelt oldalakat.) Ekkor csak ezeket az oldalakat vizsgáljuk meg, hogy elhárítható-e a hiba. Ebben az esetben is érdemes átnézni a képes oldalakat, igen gyakori lehet (és a bizonytalanul felismert karakterek között nem szerepel), ha képaláírást nem szövegként ismert fel. Különleges alkalmakkor lehetőségünk van további javításra: ●
speciális betűk, betűformák megtanítása: nagyon nehéz, különböző mértekben, jellegben (italic, bold), környezetben
●
saját szótárt készíteni, ami az adott szövegre jellemző: ilyen lehet pl. telefonkönyvek, névtárak esetén, ha rendelkezünk egy jó minőségű vezetéknév, keresztnév adatbázissal, de jól jöhet egy földrajzi névállomány is
●
tipikus félreolvasások esetén globális javítás cserével (ezt mindig nagyon óvatosan, nehogy nagyobb bajt okozzunk!)
●
ha elég elszántak vagyunk és nagyon sok időnk van, szövegszerkesztő-szerűen javítsuk ki a szöveget. Ehhez a teljes szöveget alaposan végig kell olvasnunk és össze kell vetnünk az eredetivel. Nem javasolt módszer!
9.10.5. Mentés Mentsük el a felismert anyagot kétrétegű PDF-ként. Ennek beállításai: ●
Alapértelmezett papírméret: a mentett fájl oldalmérete; mivel éppen az eredeti hű visszaadása a cél, hát az eredeti képméret a megfelelő választás.
●
Mentési mód: szöveg az oldalkép alatt. Ezzel jönnek létre a kétrétegű PDF oldalak: a teljes oldal képként a felső rétegben, a felismert szöveg pedig ez alá helyezve. Ilyenkor az eredménydokumentum ugyanúgy néz ki, mint az eredeti (a képmentési paraméterek függvényében, lásd lejjebb), ugyanakkor teljes mértékben kereshető.
●
Fejlécek és lábjegyzetek megtartása: ha nem jelöljük be, akkor előfordulhat, hogy az ekként felismert elemek kimaradnak az outputból.
●
A címkézett (tagged) PDF engedélyezése.
●
Képbeállítások: beállíthatjuk a PDF fájl felső, kép rétegének paramétereit, melyek meghatározzák a vizuális minőséget és a fájlméretet. Amennyiben fekete-fehér könyvünk van, mentsük el 1 bites TIFF G4-ben az anyagot. A címlapot és a színes oldalakat színesben is mentsük el. Ebben az esetben az Adobe Acrobat Professional programmal cseréljük le a rossz minőségű fekete-fehér oldalakat a színesre. Színes vagy fekete-fehérben olvashatatlan anyagokat színesben mentsük el. Minden mentésnél az eredeti felbontást használjuk.
●
Betűtípusok beállításai: megadhatjuk, hogy a Pdf fájl betűtípus-hivatkozásai mire mutassanak: a létrehozó számítógépen lévő betűtípusokra-e, avagy a standard Adobe-féle fontokra (alapbetűtípusok a font-mapping table szerint), valamint hogy csak hivatkozzon a betűtípusokra (és a megjelenítéskor rendelkezésre állókból töltse be őket), avagy beágyazza őket a PDF-dokumentumba. A legbiztonságosabb megjelenítést az alapbetűk beágyazott használata biztosítja.
●
PDF biztonság: bizalmas tartalmú anyag esetén beállíthatjuk, hogy csak jelszó megadása esetén lehessen megnyitni a dokumentumot, ill. szabályozhatjuk, mit lehessen szabadon tenni a dokumentummal: vágólap használata, nyomtatás, módosítás, stb. - 274 -
Levéltári digitalizálás • Arcanum, 2012
●
9. Gyakorlati útmutató
Vegyes raszter tartalom használata: nem minden esetben ad ez a módszer vizuálisan szép eredményt, ha fontos a kicsi méret, akkor érdemes vele egy próbát tenni, és csak ha kielégíti az igényeinket, akkor használni. A hosszú távú megőrzéshez egyelőre nem javasolt formátum.
9.10.6. PDF kezelés, title, könyvjelzők Az elkészült PDF fájlokat igyekezzünk úgy elnevezni, hogy a későbbiekben is egyértelműen azonosítani tudjuk. Ebben is jó szolgálatot tesz a gondosan vezetett munkalap. A kész PDF-ben töltsük ki a Title (Cím) és Author (Szerző) mezőket a kötet címlapjának megfelelően. A Cím döntésünk alapján tartalmazhat minden fontos adatot (alcím, párhuzamos cím, megjelenési adatok, oldalszám, stb.), illetve lehetőség van kulcsszavak és tárgy, téma megadására. Készítsünk emellett mindig oldalszám-bookmarkot is, ami lehetővé teszi az adott oldalszámra való ugrást. Fejezetből álló könyvek esetén helyezzünk el bookmarkot a fejezetek címével (amire kattintva az adott oldalra ugorhatunk), tanulmánykötetek esetén pedig a cikkek szerzőjét és címét helyezzük el könyvjelzőként. A későbbiekben a keresőprogram, pl. Acrobat keresőjének használatakor lehetőségünk lesz a könyvjelzőkre külön (is) keresni. A könyvjelzőket átemelhetjük az OCR-ezett szövegből vagy külön be is gépelhetjük. Mindkét esetben korrektúráztassuk meg egy hozzáértő szakemberrel.
9.11. Közbeszerzési útmutató A tömeges digitalizálás végrehajtásához forrásokra van szükségünk, mely jelenti egyrészt a technikai erőforrásokat, a gépeket, valamint az ezt működtető embereket. Ha nem rendelkezik az intézmény kellő kapacitással (gépekkel, munkaerővel, szakértelemmel) a projekthez, és nincs mód, vagy nem érdemes saját fejlesztéssel ezt megoldani, akkor külső forrást kell bevonni a cél eléréséhez: amennyiben külső vállalkozót veszünk igénybe a tömeges digitalizáláshoz, a digitalizálás értékétől függően és a jogszabályi előírások szerinti időszakos egybeszámításokra tekintettel közbeszerzési eljárást kell lefolytatni. A közbeszerzésnek a minőségben, árban, egyéb paraméterben leghatékonyabb teljesítést kell kiválasztania. A közbeszerzés legfontosabb és legnehezebben elkészíthető része a műszaki dokumentáció, amely pontosan rögzíti az elvégzendő feladatokat és elvárt teljesítményeket. Sok éves közbeszerzési tapasztalat alapján kijelenthető, hogy a közbeszerzési eljárások szabályozásában bőven van még fejleszthető terület. Különösen a közbeszerzéseknél fontos elvárása a piaci szereplőknek, hogy versenysemlegesen, transzparens módon és tisztességesen folytassák le az eljárásokat. A közbeszerzés részletes szabályaival itt természetesen nem foglalkozhatunk, de néhány fontos alapelvet érdemes számba venni. A ma érvényes szabályozás szerint 25 millió forint a nyilvános közbeszerzés alsó határa, az ezt meghaladó összegű szerződések esetén a Közbeszerzési Értesítőben kell meghirdetni a projektet. Ez alatt elegendő több (jellemzően legalább három) árajánlatot bekérnünk a potenciális vállalkozóktól. A sikeres megvalósítás legfontosabb lépése a feladat pontos definiálása. Ennek keretében kiválasztjuk a digitalizálandó anyagot, felmérjük annak állapotát, mennyiségét, a lehetséges digitalizálási módokat. Semmiképpen sem szükséges a teljes anyag laponkénti számbavétele, az a digitalizálás feladata, elegendő mintavételezéssel megismerni az anyagot, feltárni a problémás pontokat, részeket. Ugyanilyen fontos a vállalkozók megismerése, a potenciális partnerek felmérése. Kövessük folyamatosan a piaci szereplőket, ismerkedjünk meg gépparkjukkal, eddigi munkáikkal, referenciáikkal! Tekintsük meg a gépeket és az embereket munka közben, ne várjuk azt, hogy majd egy általunk nem ismert cég valami általunk nem ismert szuper megvalósítással fog előrukkolni! Ha ez így lenne, akkor az azt jelentené, hogy nem ismerjük eléggé a piacot, és ez semmiképpen sem jó és kívánatos helyzet. Amennyiben megvan a feladat és a potenciális jelöltek, akkor az eljárás során, az eredményhirdetést megelőzően végeztessünk velük próbamunkát! A feladat 0,5-1%-át próbamunka keretében dolgoztassuk fel annak érdekében, hogy a megvalósítás lehetséges módozatai, a problémák felszínre jöjjenek. Egy ekkora valós min- 275 -
Levéltári digitalizálás • Arcanum, 2012
9. Gyakorlati útmutató
ta elégséges a feladat megnyugtató felméréséhez, és biztosítja, hogy a kivitelezés zökkenőmentes legyen. Ennek során összehasonlíthatjuk a versenytársak megoldásait, olyan ötletek, javaslatok kerülhetnek a felszínre, amikre nem is gondoltunk, és így jobb, színvonalasabb eredmény születhet. A közbeszerzés kiértékelésénél igyekezzünk az ár mellett a megvalósítás színvonalát is értékelni, próbáljunk az előzetes tapasztalatok birtokában plusz pontokat adni a jobb megoldásnak, illetve a kiírásban foglalt alapkövetelményeknél jobb megoldásokat áraztassuk be, így azonos lehet a mérce. A minőség értékelésénél legyen a legfontosabb szempont a próbamunka kivitelezési minősége, de vegyük figyelembe a pályázók eddigi tapasztalatait, referenciáit is. Érdemes ügyelni arra, hogy a vállalkozó által megadott referencia ne csak névleges legyen (különösen, ha alvállalkozó is bevonásra kerül!), hanem az aktuális projektben ténylegesen részt venni kívánók valós tapasztalatát, infrastruktúráját mutassa, különösen a kapacitások tekintetében. Meg lehessen ítélni, hogy valóban felkészült-e, rendelkezik-e megfelelő kapacitással még arra az esetre is, ha meghibásodnak a gépek; akkor is tudja-e teljesíteni a feladatot határidőre, ha beüt a krach? A próbamunka menynyisége és a rendelkezésre álló határidő álljon arányban a teljes munkával, így valós környezetben tudjuk tesztelni a vállalkozókat. Igyekezzünk az adott keretösszegbe minél több szolgáltatást belefoglalni: pl. ne csak a digitalizálás, hanem a képek adatbázissal való összekapcsolása, a publikálás is legyen része a feladatnak. Ugyanakkor ügyeljünk arra, hogy igényeink ne legyenek irreálisak, teljesíthetetlenek. Egy nyílt közbeszerzési eljárásban nem könnyű a fentieket követni a közbeszerzések törvényi szabályozottsága miatt (sok közbeszerzési tanácsadó szerint kivitelezhetetlen ez az módszer), de amennyire a keretek engedik, legyünk határozottak! Ne szoríthassák háttérbe a jogi megfontolások a szakmai szempontokat! Figyelembe véve a közgyűjteményi digitalizálás specialitásait, szükséges és lehetséges metódusról van szó, a törvények lehetővé teszik ezt az eljárási módot. Ha nem nyílt közbeszerzési eljárásról van szó, természetesen sokkal szabadabb a kezünk, ott még sokkal inkább magunk határozhatjuk meg a versenyszituációt.
- 276 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
10. Hivatkozások A Creative Commons licenc az Egyesült Államok és Magyarország jogrendszerének fényében : Szakdolgozat : Nagy Dániel : Szeged, 2009 http://mek.oszk.hu/08100/08112/08112.pdf A digitalizálás és a digitális közzététel szerzői jogi vonatkozásai : Tóth Péter Benjamin : 2004 http://www.artisjus.hu/_userfiles/file/szerzoijogrol/digitalizalas.pdf A digitalizálás és a szerzői jogok : Tószegi Zsuzsanna : TMT 51. évfolyam (2004) 2. szám http://tmt.omikk.bme.hu/show_news.html?id=3510&issue_id=448 A Guide to the Description of Architectural Drawings / Vicki Porter and Robin Thornes, Updated by Patricia Harpring (2000) http://www.getty.edu/research/publications/electronic_publications/fda/index.html A Kódolt levéltári leírás (EAD 2002) elemkönyvtára : fordította Király Péter : kéz-irat http://www3.arcanum.hu/LDT/EAD tag library.pdf A magyar kulturális közvagyon feltérképezése : Őrzési helyek, típusok, mennyiségek, digitalizálhatóság, ütemezhetőség, költségigény : 2003 http://ki.oszk.hu/sites/ki.oszk.hu/files/dokumentumok/digitaliskozvagyonfelmeres.pdf A Magyar Országos Levéltár - Arcanum Adatbázis Kft. adatbázisai http://mol.arcanum.hu A MAGYARORSZÁGI LEVÉLTÁRAK NYILVÁNTARTÁSA : 2012 http://mnl.gov.hu/letoltes.php?d_id=356 A papír alapú dokumentumok megbízható elektronikus másolatával szemben támasztott technikai követelmények és gyakorlatban alkalmazható eljárásrend : Flexus : 2011 http://www.eleveltar.gov.hu/download/599/file/szabalyozas_papir_alapu_dokumentumok.pdf A tömeges digitalizálás (szerzői jogi) útvesztői : dr. Legeza Dénes : 2012 http://nws.niif.hu/ncd2012/docs/ehu/109.pdf Amerikai Levéltárosok Egyesülete http://www2.archivists.org Ancestry.co.uk, UK’s favourite family history website http://www.ancestry.co.uk APEnet (Archives Portal Europe network, Best Practice Network project) http://www.apenet.eu APEx (Archives Portal Europe network of excellence, Best Practice Network project) http://www.apex-project.eu Archival processing of born digital material and digitization of archival documents in Germany : Robert Kretzschmar : Fulda, 2010 http://www.ica2012.com/files/data/Full%20papers%20upload/ica12Final00422.pdf Archives de France (Francia Nemzeti Levéltár) http://www.archivesdefrance.culture.gouv.fr/ressources Archives in Baden-Württenberg http://www.archive-bw.de Archives Portal Europe (APE) http://www.archivesportaleurope.eu
- 277 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
Az elektronikus levéltári iratok hosszú távú megőrzésével szemben támasztott követelmények : Flexus : 2011 http://www.eleveltar.gov.hu/download/596/file/szabalyozas_elektronikus_leveltari_iratok_hosszu_tavu_meg orzese.pdf AZ ORSZÁGOS LEVÉLTÁR CÍMERESLEVÉL-GYŰJTEMÉNYÉNEK FELDOLGOZÁSA ÉS DIGITALIZÁLÁSA : Módszertani tanulmány : Avar Anton : 2012 http://mnl.gov.hu/letoltes.php?d_id=1734 Az Általános Levéltári Leírás Nemzetközi Szabványa : Második kiadás : Ottava, 2000 http://archivportal.hu/data/files/153021420.pdf Állambiztonsági Szolgálatok Történeti Levéltára http://www.abtl.hu ÁLLOMÁNYVÉDELMI CÉLÚ MIKROFILMEZÉS - a mikrofilmek állományvédelme - Czikkely Tibor : Balatonfüred, 2011 http://www.leveltaros.hu/sites/default/files/allomanyvedelmi_mikrofilmezes_czikkely_0.ppt Állókép-dokumentumok digitalizálásának technikai, technológiai kérdései : Mihalik József, 2003 http://mek.oszk.hu/minerva/html/digkonf200411/dok/mihalik_allokepek_digi_eload.doc Basic Guidelines for Minimal Descriptive Embedded Metadata in Digital Images : 2010 http://www.digitizationguidelines.gov/guidelines/GuidelinesEmbeddedMetadata.pdf Bibliotheken Archiven Museen (BAM) Portal http://www.bam-portal.de Bibliotheque cantonale et universitaire – Lausanne, Scriptorum http://scriptorium.bcu-lausanne.ch BookEye 3 Version R2 Operation Manual http://www.imageaccess.com/pdfs/be3-r2_operationmanual.pdf BookEye 3 Version R2 Setup and Assembly Manual http://support.imageaccess.de/downloads/product_manuals/scanner/BE3-R2_SetupAndAssembly.pdf British Library http://www.bl.uk Budapest Főváros Levéltára http://bfl.archivportal.hu Canon DR-X10C Reference Guide http://downloads.canon.com/cpr/software/scanners/X10C_RG.pdf Canon DR-X10C User Manual http://downloads.canon.com/cpr/software/scanners/X10C_UM.pdf Capturing Analog Sound for Digital Preservation : The National Recording Preservation Board, Library of Congress, 2006 http://www.loc.gov/rr/record/nrpb/pub137.pdf Categories for the Description of Works of Art / Edited by Murtha Baca and Patricia Harpring (2009) http://www.getty.edu/research/publications/electronic_publications/cdwa/index.html Contex Nextimage Wide-format Scanning http://www.contex.com/Admin/Public/DWSDownload.aspx?File=%2fFiles%2fFiler%2fproducts%2fnextimage% 2fdatasheets%2flow%2fContexDatasheet_Nextimage_ENG-lowres.pdf Creativ Commons http://creativecommons.org Digi posters: At-a-glance guide to all the digitisation projects : JISC http://www.jisc.ac.uk/media/documents/programmes/digitisation/digiposters.pdf Digital Continuity Principles. Ensuring that your business information remains accessible and usable for as long as it is needed : Australian Government, National Archives of Australia
- 278 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
http://www.naa.gov.au/Images/12.02.04%20Digital%20Continuity%20Principles%20B5%20web_tcm1652025.pdf Digital Imaging Best Practices Version 2.0 : 2008 http://mwdl.org/docs/digital-imaging-bp_2.0.pdf Digital Preservations Europe (DPE) http://www.digitalpreservationeurope.eu Digitalizálz Törvényhozási Tudástár, Szerzői-jogi kérdések http://dtt.ogyk.hu/hu/hatterinformaciok/szerzoi-jogi-kerdesek Digitisation in the UK : The case for a UK framework : JISC http://www.jisc.ac.uk/uploaded_documents/JISC-Digi-in-UK-v1-final.pdf Digitising 2d : Digitally preserving cultural heritage : Picturae http://picturae.com/download/dc6de8d9-a7d6-8783-d2ed-9fde92badb2a Digitization Centre at Eidgenössische Technische Hochschule Zü-rich http://www.library.ethz.ch/en/Dienstleistungen/Digitalisieren-sichern-archivieren/DigiCenter Digitization Procedures Guideline:Integrated Operation Procedures : Taiwan e-Learning and Digital Archives Program : Taiwan Digital Archives Expansion Pro-ject http://culture.teldap.tw/culture/images/collection/20120820/Integrated%20.Operation%20Procedures.pdf Digitizing Microfilm and Optical Character Recognition (OCR) http://www.loc.gov/ndnp/guidelines/digitizing.html Digitális könyvtári képgyűjtemények és metaadataik : Szakdolgozat : Bor Balázs : Debrecen, 2010 http://mek.oszk.hu/08300/08348/08348.pdf Digitális tartalom: kultúra, oktatás, egészség : A Magyar Digitális Stratégia 2010-2015. elkészítéséhez már meglévő hazai jó digitalizálási példák, amelyre a Hungariana digitális kulturális örökség programot építeni lehet : 2010 http://www.matisz.hu/fileadmin/template/dokumentumok/matisz/palyazat/MATISZ_projektjei/eKozszolgaltat as-LathatoMo/Hungariana_digitalis_strategia_jo_peldak0810_v1.pdf Diplomatische Dokumente der Schweiz (Svájc Diplomáciai Iratai) http://www.dodis.ch Dublin Core Metadata Initiative http://dublincore.org Electronic Resource Preservation and Access Network http://www.erpanet.org ENArC http://enarc.icar-us.eu Europeana Data Model (EDM) http://pro.europeana.eu/edm-documentation Europeana http://www.europeana.eu Extensible Metadata Platform (XMP) http://www.adobe.com/products/xmp http://www.adobe.com/devnet/xmp.html Filmszkennerek http://www.filmscanner.info Friends of the Nationaal Archief weblap, Hollandia http://www.gahetna.nl Going Grey? Comparing the OCR Accuracy Levels of Bitonal and Greyscale Images : D-Lib Magazine March/April 2009 http://www.dlib.org/dlib/march09/powell/03powell.html
- 279 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
Good practices handbook, version 1.3 : edited by the Minerva Working Group 6 : Identification of good practices : and competence centres : 3 March 2004 http://www.minervaeurope.org/structure/workinggroups/goodpract/document/goodpractices1_3.pdf Google Art projekt http://www.googleartproject.com Google Cloud Storage – a simple way to store, protect, and share data https://cloud.google.com/files/CloudStorage.pdf Google Cloud Storage https://cloud.google.com/products/cloud-storage Guidelines for Newspaper Preservation Microfilming : 1996 http://archive.ifla.org/VII/s39/broch/pr49-e.pdf HANDBOOK FOR DIGITAL PROJECTS: A Management Tool for Preservation and Access : 2000 http://www.nedcc.org/resources/digitalhandbook/dman.pdf Historical maps, Cassini, UK http://www.cassinimaps.co.uk Holland Nemzeti Levéltár http://www.nationaalarchief.nl IMPACT (Improving Access to Text) http://www.impact-project.eu IMPACT Strategic FAQ – Answers http://www.impact-project.eu/faqs/impact-strategic-faq-answers/?type=98 Improving Access to Text, Centre of Competence http://www.digitisation.eu International Centre for Archival Research (ICARUS) http://icar-us.eu INTERNATIONAL COUNCIL ON ARCHIVES : ISAD(G): General International Standard Archival Description : Second Edition : 1999 http://www.icacds.org.uk/eng/ISAD(G).pdf Introduction to Art Image Access: Issues, Tools, Standards, and Strategies / Edited by Murtha Baca (2002) http://www.getty.edu/research/publications/electronic_publications/intro_aia/index.html Introduction to Controlled Vocabularies: Terminology for Art, Architecture, and Other Cultural Works / Patricia Harpring (2010) http://www.getty.edu/research/publications/electronic_publications/intro_controlled_vocab/index.html Introduction to Imaging / Howard Besser with revisions by Sally Hubbard and Deborah Lenert (2003) http://www.getty.edu/research/publications/electronic_publications/introimages/index.html Introduction to Metadata, Version 3.0 by Tony Gill, Anne J. Gilliland, Maureen Whalen, and Mary S. Woodley / Edited by Murtha Baca (2008) http://www.getty.edu/research/publications/electronic_publications/intrometadata/index.html IPTC Core Schema for XMP Version 1.0 Custom Panels User Guide http://www.iptc.org/std/Iptc4xmpCore/1.0/documentation/Iptc4xmpCore_1.0-doc-CpanelsUserGuide_13.pdf IPTC http://www.iptc.org ISAAR (CPF) : SZERVEZETEK/TESTÜLETEK, SZEMÉLYEK ÉS CSALÁDOK LEVÉLTÁRI AZONOSÍTÓ LEÍRÁSÁNAK (AUTHORITY RECORD) NEMZETKÖZI SZABVÁNYA. MÁSODIK KIADÁS : Írta: Leírási Szabványok Bizottsága, 2003 http://bfl.archivportal.hu/id-1037-isaar_cpf_szervezetek_testuletek.html
- 280 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
Javaslatok a kulturális örökség megőrzése érdekében digitalizálandó dokumentumok körére, a digitalizálás országos összehangolására és a projektek nyilvántartására : Országos Széchényi Könyvtár Könyvtári Intézet : Neumann János Digitális Könyvtár és Multimédia Kht. : 2005 http://mekosztaly.oszk.hu/limbo/egyeb/oszkdb/anyagok/Altalanos/NOKIujkesz.doc JISC Digitization http://www.jisc.ac.uk/whatwedo/topics/digitisation.aspx Joint Information Systems Committee, UK http://www.jisc.ac.uk Kalocsai Főegyházmegyei Levéltár http://archivum.asztrik.hu Kataszteri térképek tömeges digitalizálása http://mnl.gov.hu/letoltes.php?d_id=393 Knowing the past to understand the present Save your Databases Digital Archiving Policy : Swiss Federal Archives : 2009 http://www.bar.admin.ch/dokumentation/00445/00527/index.html?lang=en Kongresszusi Könyvtár, EAD http://www.loc.gov/ead KÉZIKÖNYV A MINŐSÉGI ELVEKRŐL : Quality Principles for cultural Web Sites: a handbook : Fordította: Bárány Barbara : Budapest, 2004 http://www.mek.oszk.hu/minerva/html/dok/minoseg-10elv.htm Könyvszkennerek http://www.bookscanners.biz Középkori oklevelek tömeges digitalizálása http://mnl.gov.hu/letoltes.php?d_id=534 Landesarchiv Baden-Württemberg http://www.landesarchiv-bw.de/web Levéltári adatbázisok összefoglaló elemzése : Budapest, 2008 http://bfl.archivportal.hu/data/files/184017691.pdf Levéltári mikrofilmezés : Módszertani ajánlás : Magyar Országos Levéltár : Budapest, 2000 http://mnl.gov.hu/letoltes.php?d_id=230 LEVÉLTÁRI ÁLLOMÁNYVÉDELMI AJÁNLÁS : Budapest, 2005 http://mnl.gov.hu/letoltes.php?d_id=229 Magyar Levéltári Portál http://archivportal.hu Magyar Nemzeti Levéltár http://www.mnl.gov.hu Magyar Országos Levéltár http://www.mol.gov.hu Managing text digitisation (A szövegdigitalizálás menedzselése) : CHAPMAN, Stephen : TMT, 50. évfolyam (2003) 8. szám http://tmt.omikk.bme.hu/show_news.html?id=2271&issue_id=78 MARC to Dublin Core http://www.loc.gov/marc/marc2dc.html Matricula (Church registers of the individual religious communities) http://www.matricula-online.eu
- 281 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
Microfilm, Paper, and OCR: Issues in Newspaper Digitization http://digitalnewspapers.org/public/pdf/MicroFilmArticle.pdf MINERVA http://www.minervaeurope.org Monasterium http://www.monasterium.net Multilingual Inventory of Cultural Heritage in Europe (MICHAEL) http://www.michael-culture.org Münchener Digitalisierungszentrum/Referat Digitale Bibliothek, MDZ (Müncheni Digitalizáló Köz-pont) http://www.digital-collections.de National Archives and Records Administration : Plan for Digitizing Archival Materials for Public Access 2007-2016 http://www.archives.gov/comment/nara-digitizing-plan.pdf Nationell Arkiv Databas (Svéd Nemzeti Levéltár Adatbázis) http://www.nad.riksarkivet.se Német Digitális Könyvtár http://www.deutsche-digitale-bibliothek.de Német Nemzeti Levéltár http://www.bundesarchiv.de/index.html.en Official site of the Joint Photographic Experts Group http://www.jpeg.org Preliminary Results of Investigation to Optimize Microfilm for Digitization : 2007 http://www.advantage-companies.com/sites/www.advantagecompanies.com/files/whitepapers/microfilm_for_digitization_0.pdf Records managements : National Archives of Australia http://www.naa.gov.au/records-management Riksarkivet SVAR – Svensk arkivinformation http://www.svar.ra.se RLG Guidelines for Microfilming to Support Digitization : 2003 http://www.oclc.org/resources/research/publications/library/Pres_Micro_Supplement.pdf „SEGÍTSÜK AZ ÁRVÁKAT” : ÚTMUTATÓ AZ ÁRVA MŰVEK EGYES FELHASZNÁLÁSAIHOZ : Legeza Dénes István : 2012 http://www.sztnh.gov.hu/kiadv/ipsz/201205-pdf/02.pdf Sikeres digitalizálás lépésről lépésre 1.2 : Gyakorlati útmutató : Minerva Working Group 6 : 2003 http://www.mek.oszk.hu/minerva/html/dok/goodpractice_hun.htm Spaarnestad Photo képarchívum, Hollandia http://www.spaarnestadphoto.nl Svájci Nemzeti Könyvtár http://www.nb.admin.ch Svéd Média Adatbázis http://smdb.kb.se Svéd Nemzeti Könyvtár Adatbázisai http://www.kb.se/english/find/databases Swiss Federal Archive http://www.bar.admin.ch/dokumentation/00445/00527/index.html?lang=en
- 282 -
Levéltári digitalizálás • Arcanum, 2012
10. Hivatkozások
Szerzői jog, szerzői jogi törvény, digitalizálás : Szakdolgozat : Fazekas-Paragh Judit Éva : Debrecen, 2010 http://ganymedes.lib.unideb.hu:8080/dea/bitstream/2437/101402/1/Szakdolgozat_Paragh_Judit_titkositott.p df Szerzői jogi problémák a könyvtárban a Debreceni Egyetem Egyetemi és Nemzeti Könyvtár példáján keresztül bemutatva : Novák Csaba : Debrecen, 2008 http://ganymedes.lib.unideb.hu:8080/dea/bitstream/2437/44398/1/szakdolgozat.pdf Technical Guidelines for Digital Cultural Content Creation Programmes : Version 2.0: September 2008 : MINERVA eC Project http://www.minervaeurope.org/publications/MINERVA%20TG%202.0.pdf Technical Guidelines for Digitizing Cultural Heritage Materials: Creation of Raster Image Master Files : FADGI : 2010 http://www.digitizationguidelines.gov/guidelines/FADGI_Still_Image-Tech_Guidelines_2010-08-24.pdf Technical Report: Archival Digital Object Ingestion into Europeana (ESE-EAD harmonisation) : Version 1.0, 07/08/2009 : Europeana v1.0 http://pro.europeana.eu/c/document_library/get_file?uuid=a2a94cb0-509a-4460-add15bea1c1bb361&groupId=10602 The British Newspaper Archive http://www.britishnewspaperarchive.co.uk The European Library (TEL) http://www.theeuropeanlibrary.org The Europeana Licensing Framework: Europeana, 2011 http://pro.europeana.eu/documents/858566/7f14c82a-f76c-4f4f-b8a7-600d2168a73d The Library of Congress : Technical Standards for Digital Conversion Of Text and Graphic Materials : 2007 http://memory.loc.gov/ammem/about/techStandards.pdf The National Archives, UK (Nemzeti Levéltár) http://www.nationalarchives.gov.uk The National Digital Newspaper Program (NDNP) Technical Guidelines for Applicants : 2011 http://www.loc.gov/ndnp/guidelines/archive/NDNP_201113TechNotes.pdf The Swedish National Archives http://www.riksarkivet.se/Sve/Publikationer/Filer/Bochure-on-Swedish-National-Archives.pdf UK Web Archive http://www.webarchive.org.uk XMP SPECIFICATION, 2012 http://www.adobe.com/devnet/xmp.html Your XXL : digitised and presented online : Picturae http://picturae.com/download/d7f7ef2d-f9d2-aa27-164a-de9df11c547b
- 283 -