Kleurrijk versus Grijswaarden : Op zoek naar een compromis voor comprimeren
1/5
Is kwaliteitsverlies van kleurenscans door JPEG-compressie acceptabel in vergelijking tot het alternatief: verliesvrij comprimeren van grijswaarden? Dit artikel werd door ons gepubliceerd in het Archievenblad 113/8 (Oktober 2009).
Het is verbijsterend dat beperkt kwaliteitsverlies door lossy compressie, zoals bijvoorbeeld JPEG, onacceptabel is volgens richtlijnen en ministeriële regelingen en dat grijswaarden en zelfs bitonale conversie zonder compressie wel geaccepteerd worden. Beide opties worden ingegeven door de behoefte de bestanden zo klein mogelijk te houden in verband met de kosten van data-opslag. Of dat werkelijk relevant is, moet worden bezien omdat elke twee jaar de capaciteit van opslag verdubbeld maar de kosten per GB halveren. Daarom heeft het Regionaal Historisch Centrum Eindhoven, het streekarchief voor de regio Zuid-Oost Brabant, een normatief onderzoek gedaan om te bepalen wat mogelijke alternatieven zijn. In dit artikel treft u de resultaten en de conclusie van dit onderzoek aan.
Uitgangspunt Het streven is een zo goed mogelijke digitale reproductie van het gescande origineel. Het doel is niet om mooie plaatjes te verkrijgen, maar zo exact mogelijk het origineel. Daarom is structurele softwarematige verbetering ongewenst. Te meer omdat verwacht mag worden dat in de toekomst de benodigde software verbeterd zal worden. Voor een optimaal resultaat moet de scanner een grote kleurruimte en een hoog oplossend vermogen hebben om alle kleuren en nuances waar te nemen en is van de gebruikte scanner een goed ICC-profiel nodig om de relatie vast te leggen tussen de waarden van pixels in RGB en de werkelijke kleuren.
Waarom de nadruk op de originele kleur? De originele kleur is belangrijk, omdat we een reproductie conform origineel willen, zodat generaties na ons digitaal materiaal krijgen wat maximaal overeenkomt met het origineel. De toegestane afwijkingen zullen overigens voor standaard archiefmateriaal wel groter zijn dan voor museaal materiaal.
Wat is een grote kleurruimte en een hoog oplossend vermogen? Het kleurbereik van een scanner wordt bepaald door het aantal nuances dat de scanner kan waarnemen en het totale bereik waarbinnen die scanner nog kleurverschillen kan onderscheiden. Deze moet groter zijn dan het kleurruimte van elk te scannen document om alle kleuren vast te kunnen leggen. Matige scanners registreren bij het scannen van een akte bijvoorbeeld 2000 verschillende kleuren. Een goede scanner registreert dan bijvoorbeeld wel 5000 verschillende kleuren. In combinatie met een ICC-profiel is hieruit veel nauwkeuriger het origineel te herleiden.
Wat doet een ICC-profiel? Eenzelfde origineel levert op verschillende scanners verschillende RGB-waarden op, dat wil zeggen dat er voor dezelfde origineelkleuren verschillende kleurwaarden worden opgeslagen. Zonder profielen zal dit ook verschillende kleuren op het scherm veroorzaken. Door metingen kan per scanner een ICC-profiel worden vastgelegd. Dit ICC-profiel legt de koppeling tussen de RGB-waarden van de pixels en de werkelijke kleuren, gemeten in golflengten. Daarmee worden de kleuren van verschillende scanners weer gelijk gemaakt. Ook bij beeldschermen werkt dat zo.
© MMIX Regionaal Historisch Centrum Eindhoven, afdeling Informatiebeheer, team Auditing
Kleurrijk versus Grijswaarden : Op zoek naar een compromis voor comprimeren
2/5
Momenteel is het voorgeschreven 1 dat compressie geen verlies in kwaliteit mag opleveren. Wat daarmee exact bedoeld wordt is niet geheel duidelijk: zichtbaar verlies of meetbaar verlies? Daarom is in dit artikel een aantal opties op een rijtje gezet om zo de pro’s en contra’s kwantitatief te kunnen afwegen. Voor de goede orde: één ΔE is precies het kleinste kleurverschil dat het menselijk oog kan waarnemen. En om een praktische relatie uit de praktijk aan te geven: volgens de ISO-norm 12647-5 mag drukwerk niet meer dan 5 ΔE afwijken.
Vergelijkingsbestanden Om de verschillende bestandsformaten en parameters te kunnen vergelijken, is een archiefstuk gescand in het Tiff bestandsformaat op een kwalitatief goede scanner. Dit bestand is omgezet naar de bestandsformaten die we willen vergelijken.
Basisscan archiefstuk Tiff ongecomprimeerd, ingezoomd tot op pixelniveau
Dit bestand is gekozen omdat het kleur bevat zodat het ten minste het gemiddelde document (archiefstukken zoals bouwtekeningen, realisatietekeningen en vergunningen) goed representeert. Het bestand is bijgesneden tot een grootte van 100 MB om de vergelijking te vergemakkelijken. De resultaten van de omzetting zijn opgenomen in de onderstaande tabel. Grootte 100 MB 64.7 MB
Type Tiff ongecomprimeerd Tiff LZW-gecomprimeerd (verliesvrij)
Gemiddeld ΔE 0 0
Max. ΔE 0 0
90% binnen ΔE 0 0
48.9 MB 48.9 MB
JPEG2000 lossless JPEG2000 maximaal (kwaliteit 100 op schaal van 1-100) JPEG2000 hoog (kwaliteit 95) JPEG2000 hoog (kwaliteit 65) JPEG2000 gemiddeld (kwaliteit 50) JPEG2000 minimum (kwaliteit 10)
0 0
0 0
0 0
0.26 2.53 3.30 7.87
1.73 15.00 21.19 45.99
1.73 4.69 5.74 13.75
2.07
11.06
3.32
5.25 7.64
21.24 41.09
8.60 12.96
48.0 31.9 25.1 5.1
MB MB MB MB
32.6 MB 10.1 MB 3.6 MB
JPEG maximale (kwaliteit 12 op schaal van 1-12) JPEG hoge kwaliteit (kwaliteit 10) JPEG medium kwaliteit (kwaliteit 6)
1
Voor blijvend te bewaren digitale archiefbescheiden gezien art. 6 Regeling geordende en toegankelijke staat archiefbescheiden; de Archiefregeling 2008, zoals deze in concept heeft gecirculeerd, verbiedt toepassing van lossy compressie.
© MMIX Regionaal Historisch Centrum Eindhoven, afdeling Informatiebeheer, team Auditing
Kleurrijk versus Grijswaarden : Op zoek naar een compromis voor comprimeren
Grootte
Type
20.9 MB
Tiff LZW-gecomprimeerd Grijswaarden
Gemiddeld ΔE 218.47
3/5
Max. ΔE 286.07
90% binnen ΔE 262.48
Grafische weergave van de verschillen De 90%-norm wordt algemeen gebruikt om de gemiddelde kwaliteit van een scan aan te duiden, waarbij piekwaarden het resultaat niet onevenredig mogen beïnvloeden. De slechtste 10% worden genegeerd.
JPEG2000 kwaliteit hoog (65), de gele pixels zijn buiten de 90%-norm, ΔE >4.69
JPEG2000 kwaliteit minimum (10), de gele pixels zijn buiten de 90%-norm, ΔE >6.65
JPEG kwaliteit maximaal (12), de gele pixels zijn buiten de 90%-norm, ΔE >3.32
© MMIX Regionaal Historisch Centrum Eindhoven, afdeling Informatiebeheer, team Auditing
Kleurrijk versus Grijswaarden : Op zoek naar een compromis voor comprimeren
4/5
JPEG kwaliteit hoog (10), de gele pixels zijn buiten de 90%-norm, ΔE >8.60
JPEG kwaliteit medium (6), de gele pixels zijn buiten de 90%-norm, ΔE >12.69
Grijswaarden Tiff, verliesvrij gecomprimeerd. Geen gele pixels omdat alle pixels een ΔE hebben > 218.47, vrijwel het hele plaatje zou geel zijn. Merk op dat de rode informatie niet meer te onderscheiden valt als later toegevoegd.
Voor- en nadelen Tiff bestanden hebben het voordeel dat zij op iedere computer te gebruiken zijn, ook in office-pakketten. Ongecomprimeerde Tiff bestanden zijn verliesvrij. Ook wanneer LZW of ZIP compressie wordt toegepast, gebeurt dit verliesvrij. Maar Tiff bestanden hebben als nadeel dat zij, eventueel lossless gecomprimeerd, nog steeds relatief zwaar zijn. Deze bestandsomvang zal leiden tot trager netwerkverkeer en meer benodigde opslagcapaciteit. Het comprimeren en decomprimeren van Tiff bestanden verloopt iets trager dan bij JPEG compressie. Daarbij is maar weinig, 40-60%, compressie mogelijk. JPEG bestanden zijn een de facto standaard bewaarformaat voor afbeeldingen. Er is geen extra software voor benodigd op eender welk platform. JPEG compressie maakt fors kleinere
© MMIX Regionaal Historisch Centrum Eindhoven, afdeling Informatiebeheer, team Auditing
Kleurrijk versus Grijswaarden : Op zoek naar een compromis voor comprimeren
5/5
bestanden mogelijk (70-95% compressie). Een nadeel van JPEG bestanden is dat compressie nooit verliesvrij is. Bij forse compressie als ook bij herhaaldelijk comprimeren treden artefacten op in de vorm van ruis en blokvorming. JPEG2000 bestanden kennen een moderner compressiealgoritme dan standaard JPEG. Deze technisch bestere compressie is desgewenst zelfs verliesvrij. Nadeel van JPEG2000 is dat het enkel alleen standaard wordt ondersteund binnen PDF-bestanden en niet binnen officebestanden. Om JPEG2000 bestanden te openen is het zelfs in Adobe Photoshop noodzakelijk de gratis bijgeleverde plug-in apart te installeren om deze bestanden toch te kunnen openen. JPEG2000 is in ieder geval nauwelijks gangbaar bij eindgebruikers. Ook is JPEG2000 beduidend trager bij het bewaren door het comprimeren. Het valt niet te verwachten dat dit bestandsformaat op redelijke termijn alsnog een standaard zal worden.
Conclusie Uit de voorgaande metingen blijkt dat een grijswaardenbestand dat weliswaar verliesvrij is gecomprimeerd een verlies aan informatie laat zien van meer dan een factor 65 ten opzichte van het origineel. Een grijswaardenbestand is daarom per definitie geen goede weergave van een origineel bijvoorbeeld een witte sticker op wit papier is wel informatie maar is niet zichtbaar in een grijswaardenscan. Alles in kleur scannen en opslaan heeft als kostenbesparend voordeel dat er geen selectie hoeft plaats te vinden. Bedenk dat vrijwel alle scanners tegenwoordig in kleur scannen, zelfs de scanners die grijswaarden- of bitonale scans opleveren. Hardwarematig is de scan steeds in kleur. JPEG2000 is een volwaardig alternatief voor standaard JPEG compressie, maar heeft als nadeel dat het geen standaard bestandsformaat is, waardoor vaak additionele software nodig is. In Adobe Acrobat of Adobe Reader (denk aan PDF/A-bestanden) is het overigens zonder meer bruikbaar. Het alternatief, een JPEG-compressie met een beperkt verlies, dus hoge of maximale kwaliteit, blijkt veel meer informatie te behouden. Dit is binnen algemeen geaccepteerde normen in de office, grafische en museale wereld. JPEG is universeel te gebruiken zonder additionele sofware en moet daarom zonder meer als standaard worden toegelaten.
Over de auteurs Guido Dorssers is auditor voor de digitale archiefvorming bij het Regionaal Historisch Centrum Eindhoven en wordt vanuit de toezichthoudende rol betrokken bij digitaliseringprojecten die bij de deelnemende gemeenten plaatsvinden alsmede de kwaliteit voor de interne digitalisering. Johan Kerver is directeur van The Result Builders te Eindhoven en is als externe kleurenspecialist betrokken bij de vaststelling van de eisen voor scanning en substitutie. Johan is auteur van het boek ‘Colormanagement – voorspelbare kleuren’ uitgegeven bij Pearson Education Benelux te Amsterdam.
© MMIX Regionaal Historisch Centrum Eindhoven, afdeling Informatiebeheer, team Auditing