Menasseh Ben Israel: eindverslag
8.4 OCR op Zecher raw (Bibl.Ros.20D3) Kenmerken:
• Hebreeuws met punten • Grote letter, ca 45 pixels hoog, interlinie ca 50 pixels waar de stokken en staarten met ca. 35 pixels insteken. De punten zijn ca 10 pixels hoog en staan in de interlinie, onder elkaar of naast elkaar, vrij van de letters, maar vaak niet los van elkaar. • Incidenteel komen nog grotere letters voor, die wel op de regel blijven. • Uitvullen van de tekst gebeurt door wit tussen woorden en vaak door oprekken van letters. • Regelmatig tekst in de marges in een kleine letter • Wisselende bladspiegel, soms scheef, soms is door het binden geen marge meer in het midden. Drie afbeeldingen waren in een kleiner formaat. Resultaat:
Omdat de punten goed los van de letters staan onderscheidt ProLector aparte regels voor letters en punten. De letters (medeklinkers) werden goed herkend. De punten varieren te sterk, vooral omdat ze regelmatig in elkaar overgaan. Omdat we (nog) niet in staat zijn Hebreeuws gepunctueerd op het scherm weer te geven en te printen, kunnen de punten in het OCR-resultaat net zo goed weggelaten worden. Men kan prima ongepunctueerd zoeken als men daarna maar over het plaatje met punten kan beschikken. Besloten is dan ook om de punten niet te trainen. Bij dit boek is ook gebleken dat goed instellen van de zones (gebied waarin proLector regels onderscheidt) in proLector heel belangrijk is. Bij de proeven is besloten om de tekst in de kantlijnen weg te laten en de afbeelding in één zone met drie kolommen aan te bieden, de linker en de rechter pagina en daar tussen een kolom voor de zwarte lijn van de binding. Er is niet voor een zone per pagina gekozen omdat de marges in het midden nogal erg varieren, waardoor batchverwerking wel heel slechte resultaten oplevert en men bij handmatige verwerking steeds opnieuw zones moet definiëren. Toch lijken de resultaten slecht, 30 - 60% van de tekens bestaat uit ¥. Dit wordt echter niet door de punten maar door vervuiling zoals spikkels en vlekken veroorzaakt en door de scheefheid van de pagina's en ten onrecht meenemen van tekst (in ongetrainde kleine letters) uit de marge. Opvallend is ook dat er meer ¥'s worden neergezet dan strikt genomen nodig is. Het drukwerk heeft nogal 'brosse' letters, ze zijn niet volledig zwart. Als een letter niet herkend wordt splitst proLector hem soms op in vele smalle, al naar gelang de 'brosheid'. Deze delen worden alle niet herkend en krijgen een ¥. Ter illustratie: op opening 4 werden door proLector 1056 tekens (excl. punten) gesignaleerd, waarvan 462 ¥ en 594 letters; na menselijke telling bleken er slechts 544 echte letters op de pagina's voor te komen.
34
Bibliotheek van de Universiteit van Amsterdam
sept.1997
Menasseh Ben Israel: eindverslag
Een resultaat van 006.tif
Instelling van proLector: dirt size=5 (maximaal), accuracy=2, trainingsset van 445 patronen Een afbeelding van de originele tekst is te vinden op pagina 36 Het resultaat van automatisch herkennen is te zien op pagina 37. Opvallend zijn de regels met alleen ¥. Hier staan in het origineel de punten. In de andere regels komt ¥ 216 keer voor en zijn er 427 andere tekens. Om de pagina helemaal goed te krijgen moeten nog 123 patronen getraind worden (12 minuten werk). Het resultaat is te zien op pagina 38. Ook dan ontstaan aparte regels voor de punten, dit keer met één ¥ omdat de rest genegeerd wordt. In totaal zijn er 590 tekens exclusief ¥. De accuracy lijkt voldoende. Als er al foute letters voorkomen zijn die veroorzaakt door verkeerde training. Aan de hand van alle resultaten met dit boek is de schatting dat het volledige boek (39 openingen) in ca. 10 uur in goed leesbare tekst is om te zetten.
sept.1997
Bibliotheek van de Universiteit van Amsterdam
35
Menasseh Ben Israel: eindverslag
Afb. 9: GIF image van de tekst uit 20D3
36
Bibliotheek van de Universiteit van Amsterdam
sept.1997
Menasseh Ben Israel: eindverslag
Afb. 10: Resultaat van OCR, automatisch, batchverwerking
sept.1997
Bibliotheek van de Universiteit van Amsterdam
37
Menasseh Ben Israel: eindverslag
Afb. 11: Resultaat van OCR, interactief
38
Bibliotheek van de Universiteit van Amsterdam
sept.1997