Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam
Datum: 8 december 2008 Versie: 0.2 Status: Concept
Inhoudsopgave Inhoudsopgave .......................................................................................................................1 Versiegeschiedenis .................................................................................................................2 Inleiding .................................................................................................................................3 Doel van dit document ........................................................................................................3 Opzet van dit document ......................................................................................................3 Doelgroep...........................................................................................................................3 Herzieningstermijn van dit document..................................................................................3 Gerelateerde documenten....................................................................................................3 Met dank aan… ..................................................................................................................3 Vervolgonderzoek ..............................................................................................................3 1. Afbakening.........................................................................................................................4 1.1 Uitsluiting documentsoorten .........................................................................................4 1.2 Geen aanbevelingen migratie van PDF naar PDF/A ......................................................4 2. Migratiescenario’s ..............................................................................................................5 3. Migratietools ......................................................................................................................6 3.1 Server-side migratie tools..............................................................................................6 3.1.1 Voorbeeldtools.......................................................................................................6 3.2 Desktop migratie tools ..................................................................................................7 3.2.1 Voorbeeldtools.......................................................................................................7 3.3 Image migratie tools .....................................................................................................9 3.3.1 Voorbeeldtools.....................................................................................................10 4. Selectie van een migratie tool ...........................................................................................11 4.1 PDF/A validatie ..........................................................................................................11 4.2 Weergave significant properties ..................................................................................12 5. Literatuur- en internetbronnenlijst.....................................................................................14
1
Versiegeschiedenis
Versie 0.1 0.2
Versie datum 8 december 22 december
Belangrijkste wijzigingen Eerste conceptversie, auteur: Robèrt Gillesse • Tekstuele wijzigingen • Aanpassing tekst pdf naar PDF/A conversie
2
Inleiding Doel van dit document Dit document behelst een set aanbevelingen voor de migratie naar PDF/A van elektronisch geboren en gedigitaliseerde tekstdocumenten.
Opzet van dit document Dit document kent de volgende opzet: • Afbakening • Migratiescenario’s • Overzicht van migratietools • Selectie van een migratietool
Doelgroep I&A en DIV hoofden binnen het concern Amsterdam.
Herzieningstermijn van dit document Gezien de snelle ontwikkeling van migratie tools zal dit document regelmatig worden aangepast. Eerst voorziene update zal na een jaar plaatsvinden
Gerelateerde documenten Richtlijn standaard bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008. Digitaliseringsaanbevelingen tekstdocumenten SAA ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (in bewerking). Stadsarchief Amsterdam. Standaard metadata voor digitaal informatiebeheer. Stadsarchief Amsterdam 2008.
Met dank aan… Wouter Kool, R&D onderzoeker en migratiespecialist van de Koninklijke Bibliotheek.
Vervolgonderzoek • • •
Onderzoek naar nieuwe en nieuwere versies van migratietools Onderzoek naar PDF naar PDF/A conversie Onderzoek naar “torture files” voor het testen van PDF/A migratie tools
3
1. Afbakening 1.1 Uitsluiting documentsoorten In deze aanbevelingen gaat het exclusief om de migratie naar PDF/A voor twee documentsoorten: 1. Elektronisch geboren tekstdocumenten (gecreëerd in tekstverwerkingssoftware) 2. Van papier gedigitaliseerde tekstdocumenten Alle andere documentsoorten worden in deze aanbevelingen niet behandeld.
1.2 Geen aanbevelingen migratie van PDF naar PDF/A Migratie van het reguliere PDF formaat naar PDF/A maakt geen deel uit van deze aanbevelingen. Gezien de uiterst moeizame conversie van PDF naar PDF/A (ongeveer 50% van alle PDF naar PDF/A conversies op basis van digitaal geboren documenten mislukt)1, de daarmee samenhangende kosten en het feit dat het reguliere PDF formaat ook een ISO norm is geworden (ISO 19005: 2008) maken dat op dit moment de migratie van bestaande reguliere PDF bestanden naar PDF/A niet verstandig. Al heeft PDF/A duidelijk de voorkeur wanneer het gaat om lange termijn archivering, ook het reguliere PDF bestand is geschikt voor lange termijn archivering. Zie hiervoor de Stadsarchief publicatie Richtlijn standaard bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam.
1
Franks L.Walker ea, PDF File Migration To PDF/A: Technical Considerations IS&T Conference 2007. http://lhncbc.nlm.nih.gov/lhc/docs/published/2007/pub2007020.pdf. Daarbij is de validatie van PDF/A – de eisen waar een PDF/A precies aan moet voldoen - nog niet volledig uitgekristalliseerd. Zie ook paragraaf 4.1
4
2. Migratiescenario’s In de gemeentelijke context kan de migratie van brondocument naar PDF/A op verschillende manieren verlopen. De volgende scenario’s zijn mogelijk: 1. Migratie in het DMS: de conversie naar PDF/A gebeurt op gecontroleerde manier in het DMS. De gebruiker geeft aan dat het document is afgerond, waarna de omzetting in PDF/A plaatsvindt. 2. Server-side migratie: Gebruikers hebben de beschikking over een gestandaardiseerde webtool (PDF/A converter die draait op een server) die de PDF/A conversie gecontroleerd uitvoert. Voorbeeld van een online PDF converter: http://www.freepdfconvert.com/ 3. Client-side migratie: Gebruikers hebben beschikking over een gestandaardiseerde PDF/A conversie desktop tool. 4. Migratie vanuit een scan- en eventuele OCR workflow. Hierbij gaat het om de digitalisering van bestaand archief of de verwerking van nieuw materiaal (bijvoorbeeld postverwerking). Voor de verschillende scenario’s zullen in het onderstaande geschikte PDF/A creatie tools worden besproken.
5
3. Migratietools Scenario een en twee zullen in de praktijk gebruik maken van dezelfde soort tools: server-side PDF creators (voor scenario één geldt dat de migratie tool een onderdeel zal zijn van het DMS en voor scenario twee zal een webapplicatie moeten worden ontwikkeld). In scenario drie wordt gebruik gemaakt van desktop PDF creators. Deze tweedeling zal in het onderstaande worden aangehouden. In scenario vier (een scan- en een eventuele ocr workflow) zal gebruik worden gemaakt van tools die afbeeldingen kunnen verwerken tot PDF/A. Deze vormen een aparte categorie die ook in het onderstaande zal worden behandeld. Bij de selectie van de in het onderstaande genoemde tools is gebruik gemaakt van de productenlijst die is gepubliceerd op de PDF/A Competence Center website: http://www.pdfa.org/doku.php?id=pdfa:en:products. Gezien de dynamische aard van de software markt kan deze lijst onmogelijk compleet en altijd up-to-date zijn2. De tools die hier zijn genoemd hebben daarom absoluut geen pretentie van exclusiviteit. Belangrijk in de selectie van een tool zijn de twee zogenaamde conformance levels : 1. PDF/A-1a voldoet aan alle eisen van de PDF/A standaard en heeft als belangrijkste eigenschap dat de interne structuur van het brondocument (in zoverre aanwezig) in het PDF/A bestand is vastgelegd. Dit gebeurd in op XML gelijkende tags. Er is daarom sprake van een tagged PDF/A. 2. PDF/A-1b voldoet aan de minimum eisen van de PDF/A standaard. Het uiterlijk en opmaak worden hierbij goed weergegeven maar, de interne structuur van het brondocument gaat verloren3.
3.1 Server-side migratie tools Servers-side tools draaien vanaf een server en kunnen over het algemeen grote aantallen documenten op hoge snelheid converteren. Deze software tools variëren van software die allerlei input aankunnen en meervoudige output kunnen genereren (waaronder PDF/A), tot tools die exclusief PDF(/A) bestanden creëren. Server-side tools creëren meestal PDF/A-1b bestanden. 3.1.1 Voorbeeldtools • Compart DocBridge Mill4: dit is een voorbeeld van een meervoudige input en output tool. PDF/A conversie is slechts één van mogelijkheden. • Adobe LiveCycle PDF Generator ES5: deze server gebaseerde tool kan van allerlei formaten PDF(/A) bestanden maken. De PDF Generator is deel van de Adobe LifeCycle (DMS) productenlijn. Als enigste van de hier genoemde tools kan de PDF Generator wel batchmatig PDF/A-1a bestanden creëren.
2
Voor deze lijst kunnen software bouwers zichzelf aanmelden. Het PDF/A Competence Center geeft er dit als waarschuwing bij: “Important: Product information on this website is based solely on information provided by the product manufacturer and has not been verified by the PDF/A Competence Center.” 3 Meer uitleg over het verschil tussen PDF/A-1a en 1b: http://www.pdfa.org/doku.php?id=artikel:en:pdfa_a_look_at_the_technical-side#pdf_a1_levelsa_and_b_accessible_and_basic 4 http://www.compart.net/ 5 http://www.adobe.com/products/livecycle/pdfgenerator/
6
•
•
Jaws PDF Server Suite in combinatie met de Actino pdfaModul6: De Jaws PDF Server Suite converteert documenten naar PDF en de pdfaModule werkt als PDF/A plugin binnen Jaws. Solid Documents Solid PDF Framework7: dit is de server versie van de Solid PDF Tool waarvan één onderdeel de PDF/A conversie is.
3.2 Desktop migratie tools Deze tools bevinden zich op de desktop van de medewerker. Er zijn ontelbare gratis en nietgratis tools om PDF’s mee te creëren. De kwaliteitsverschillen zijn groot. In het geval van te archiveren PDF/A bestanden is het gebruik van een goede tool daarom belangrijk (zie onderstaande hoofdstuk over selectie van een migratie tool). Desktop tools kunnen vaak op twee manieren werken: 1. Via de lokale printer functie 2. Via de bewaar of export functie van MS Word (of een ander tekstverwerkingsprogramma) Voor de eerste methode geldt dat er altijd PDF/A-1b bestanden worden geproduceerd. Via de tweede methode is ook de creatie van PDF/A-1a bestanden mogelijk. Sommige tools zijn geschikt om bestanden tegelijk (in batch) naar PDF/A te converteren. 3.2.1 Voorbeeldtools • Adobe Acrobat8: dit is natuurlijk de meest bekende PDF desktop tool. Acrobat kan enerzijds bestanden creëren vanuit de desktop applicaties als MsWord. In MS Word kunnen PDF/A bestanden via de exportfunctie (de Acrobat PDFMaker) of de printfunctie (Acrobat Destiller) worden gemaakt. Via de PDFMaker is de creatie van PDF/A-1a bestanden mogelijk.
De Acrobat export functie (PDFMaker) in MsWord
6
http://www.jawspdf.com/serversuite/index.html en http://www.actino.de/pluginsh/actino_pdfamodul.htm http://www.soliddocuments.com/products.htm?product=SolidFramework 8 http://www.adobe.com/products/acrobat/. Vergelijking tussen verschillende versies van Acrobat: http://www.adobe.com/products/acrobat/matrix.html 7
7
De Acrobat printfunctie (Destiller) vanuit MS Word met selectie van de PDF/A instelling
Ook kunnen PDF/A bestanden via het programma Acrobat zelf worden gemaakt. Daarbij is het belangrijk om in het voorkeuren menu PDF/A te selecteren:
Het instellen van PDF/A in het Acrobat 9.0 voorkeuren menu
Het is ook mogelijk meerdere bestanden in batch naar PDF/A om te zetten. Dit laatste is ook direct mogelijk vanuit de Windows Verkenner:
8
De Acrobat printfunctie (Destiller) vanuit de Windows Verkenner
•
•
• •
PDF/A bestanden die direct via Acrobat of via de Destiller worden gemaakt zijn altijd PDF/A-1b. Het creëren van PDF/A bestanden kan met de standaard versie van Acrobat 9. Voor PDF/A validatie (zie onderstaande) is de Acrobat Pro versie nodig. Open Office Writer9: deze open source tekstverwerkingssoftware kan documenten naar PDF/A-1a exporteren. Het is op dit moment (december 2008) echter niet verstandig MsWord bestanden naar Writer te migreren. Daarbij gaat teveel van de opmaak verloren. Aanbevolen wordt alleen in Writer gecreëerde teksten (ODF formaat) op deze manier naar PDF/A om te zetten. PDFCreator van pdforge.org10. Dit is een open-source (dus gratis) PDF creatie desktop tool die ook de mogelijkheid heeft PDF/A-1b te creëren. Dit kan via de printer driver van desktop applicaties of via het programma zelf. In het laatste geval is het ook mogelijk PDF/A bestanden in batch te creëren. 3-Heights PDF producer11: deze PDF printer driver tool is beschikbaar via standaard desktop applicaties. Daarbij kan voor PDF/A-1b creatie worden gekozen. Solid Documents PDF Tools12: deze PDF toolset biedt onder andere de mogelijkheid PDF/A-1b bestanden te creëren. Dit kan vanuit de printer driver van desktop applicaties of via het Solid Documents PDF programma zelf.
3.3 Image migratie tools Met deze tools is het mogelijk afbeeldingen (TIFF, JPEG, JPEG 2000, PNG etc) te migreren naar PDF/A. Soms is deze software een onderdeel van de software die de hele scan- en eventuele OCR workflow regelt. Daarnaast is er ook weer de keuze tussen desktop applicaties voor de migratie van kleine hoeveelheden en al dan niet server-side applicaties voor massale verwerking. Belangrijk bij de migratie naar PDF(/A) van afbeeldingen zijn de keuzes die kunnen worden gemaakt betreffende de compressie en downsampling (het omlaag brengen van de resolutie). 9
Open Office: http://nl.openoffice.org/ Pdfforge.org: http://www.pdfforge.org/products/pdfcreator 11 Pdf-tools.com: http://www.pdf-tools.com/asp/products.asp?name=pdf-producer-printer-driver-create-pdfpdfa&type=gui 12 Solid Documents: http://www.soliddocuments.com/
10
9
Om de leesbaarheid te waarborgen dienen zowel de compressie als de downsampling met de nodige voorzichtigheid te worden toegepast. Daarnaast zijn er in de PDF/A-1 standaard de nodige beperkingen aangebracht betreft toegestane compressie methodes. Exclusief toegestaan zijn: Voor grijswaarden- en kleurenafbeeldingen: • JPEG • MRC (Mixed Raster Content) met JPEG compressie • ZIP Voor bitonale afbeeldingen: • CITT Group 3 en 4 • JBIG2 lossy of lossless • ZIP Wanneer de originele afbeeldingen in een “verboden” compressieformaat zijn opgeslagen, migreert de PDF/A tool meestal naar een toegestaan formaat. Een speciale vermelding verdient de MRC compressie methode. Deze methode scheidt in het document de voorgrond van de achtergrond en comprimeert beiden verschillend. Dit maakt voor kleur- en grijswaardenbeelden grote opslagwinst mogelijk. Onder andere in de Luratech software is het gebruik van deze compressie methode mogelijk. PDF/A bestanden gemaakt van afbeeldingen zijn altijd PDF/A-1b. 3.3.1 Voorbeeldtools • Adobe Acrobat: met Acrobat kunnen naast digitaal geboren documenten ook gescande documenten naar PDF/A worden geconverteerd. • Solid Documents PDF Tools: ook met deze tool kunnen naast digitaal geboren documenten, gescande documenten naar PDF/A worden geconverteerd. • Luratech LuraDocument PDF Compressor13: deze tool is exclusief gemaakt voor het converteren van afbeeldingen naar PDF(/A). Er is zowel een desktop als een server versie van deze tool verkrijgbaar. De Luratech PDF Compressor gebruikt daarbij de (bovengenoemde) MRC compressietechniek. • 3 Heights Image to PDF converter14: dit is een server tool waarmee afbeeldingen naar PDF(/A) kunnen worden geconverteerd.
13
Luratech PDF compressor: https://www.luratech.com/products/document-conversion-solutions/luradocumentpdf-compressor.html 14 Pdf-tools.com: http://www.pdf-tools.com/asp/products.asp?name=I2PA
10
4. Selectie van een migratie tool Bij de selectie van een geschikte PDF/A migratietool gaat het om twee zaken (naast eventuele eisen betreffende de performance): 1. Is de geselecteerde tool in staat valide PDF/A bestanden te produceren? Dat wil zeggen: voldoet de gemaakte PDF/A precies aan de eisen waaraan een PDF/A volgens de specificaties aan moet voldoen. 2. Is de geselecteerde tool in staat in staat inhoud, uiterlijk, eventuele aanwezige structuur en gedrag (de zogenaamde significant properties15) goed weer te geven?
4.1 PDF/A validatie De validiteit van een tool kan worden getest door gebruik te maken van PDF/A validators. De meest betrouwbare validator lijkt op dit moment (eind 2008) de pdfaPilot van Callas sofware te zijn16. De pdfaPilot werkt binnen Adobe Acrobat als een plugin. Binnen de Preflight functionaliteit van Adobe Acrobat Pro 9.0 wordt de laatste versie van de Callas validator gebruikt. Alleen als er dus een oudere versie van Acrobat (versie 8.0 of eerder) wordt gebruikt is het nodig de Callas plugin apart te installeren.
Links de Callas PDF/A validator, rechts de Acrobat validator in de Preflight functionaliteit.
15
Waarbij context – de metadata die het object identificeren - even buiten beschouwing is gelaten. http://www.callassoftware.com/callas/doku.php/en:products:pdfapilot. Het PDF/A Competence Center heeft recent (augustus 2008) een test omgeving (Isartor test suite) ontwikkeld waarmee PDF/A validators kunnen worden getest. Het zou prettig zijn als het center de op de site genoemde validators zou testen maar dit helaas nog niet gebeurd.
16
11
Een groot probleem op dit moment is het gebrek aan eenheid aan welke precieze eisen een PDF/A nu precies moet voldoen. Daarom kan het voorkomen dat ene tool aangeeft dat een bestand PDF/A valide is en andere tool deze afkeurt. Een overzicht van alle beschikbare PDF/A validators wordt gegeven door het PDF Competence Center: http://pdfa.org/doku.php?id=pdfa:en:products:validate Alle in het bovenstaande genoemde desktop en image PDF/A tools zijn getest en produceren allen valide PDF/A bestanden.
4.2 Weergave significant properties Het vaststellen van de juiste weergave van de significant properties is een stuk lastiger. In het onderstaande worden de verschillende properties langsgelopen: Inhoud De inhoud van het brondocument zal bij conversie naar PDF/A bijna altijd foutloos worden omgezet. In zeer zeldzame gevallen kan het voorkomen dat een tool machine leesbare tekst in afbeeldingen omzet (waardoor de tekst niet meer doorzoekbaar is). Uiterlijk In sommige complex opgemaakte bronbestanden kan het voorkomen dat de uiterlijke kenmerken van het bronbestand niet geheel foutloos worden weergegeven. Hierbij moeten gedacht aan verspringende regeleindes, verkeerd geplaatste tabellen of illustraties en kleuren die verkeerd worden weergegeven. Structuur Wanneer structuur aanwezig is (altijd afwezig in gescande documenten en in documenten die zonder sjabloon zijn opgemaakt) kan dit alleen worden bewaard als het bestand als PDF/A-1a is opgeslagen. Bij conversie naar PDF/A-1b – en dat doet de overgrote meerderheid van de PDF/A tools – gaat de interne structuur van het brondocument altijd verloren. Dit kan bezwaarlijk zijn als het document moet worden geëxporteerd naar een ander gestructureerd formaat (als bijvoorbeeld XML). Gedrag Bij gedrag gaat het om interactiviteit in een bestand. Nu zijn interactieve elementen in PDF/A ernstig aan restricties onderworpen. Niet toegestaan zijn onder andere: multimedia, actieve formulieren, ingebedde bestanden en actieve hyperlinks (wel aanwezig, maar niet aanklikbaar). Wanneer eventueel aanwezig interactieve elementen van essentieel belang zijn is conversie naar PDF/A dus niet verstandig. Het reguliere PDF bestand ligt dan meer voor de hand. Kijken we naar het belang van de bovenstaande significant properties in het zicht van lange termijnbewaring van archiefdocumenten, dan lijken met name de eerste twee – inhoud en uiterlijk – van groot belang en zijn structuur en gedrag dit in minder mate. Uit het bovenstaande kan worden opgemaakt dat het met name zaak is, gespitst te zijn op uiterlijke kenmerken. De aanbeveling is een aantal complex opgemaakte bestanden – zogenaamde torture files (met kolommen, kaders, tabellen, secties etc) - door een testversie van de software te laten converteren naar PDF/A. Vervolgens kunnen de PDF/A bestanden
12
worden vergeleken met de bronbestanden. Overigens is hierbij wel de vraag of “slecht” opgemaakte bestanden (zonder gebruikmaking van sjablonen) überhaupt goed kunnen worden omgezet. Er zijn helaas geen standaard torture files aanwezig waarmee de tools kunnen worden getest.
13
5. Literatuur- en internetbronnenlijst • •
• •
• •
Wouter Kool, Office to PDF/A. Migration Sofware. Implementing a long-term Preservation Solution. Presentatie op PDF/A Conference april 2008. Judith Rog, Robert Gillesse, Judith Rog en Robert Gillesse, Alternative File Formats for Storing Master Images of Digitisation Projects, Koninklijke Bibliotheek, 2007. http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/Alternative%20File%20 Formats%20for%20Storing%20Masters%202%201.pdf Franks L.Walker ea, PDF File Migration To PDF/A: Technical Considerations IS&T Conference 2007. http://lhncbc.nlm.nih.gov/lhc/docs/published/2007/pub2007020.pdf Caroline Van Wijk en Judith Rog Evaluating File Formats for Long-term Preservation (2007 http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluati on_method_27022008.pdf PDF-A Competence Centre website http://www.pdfa.org/ Congresbundel First International PDF/A Conference 2008
14