OPTICAL CHARACTER RECOGNITION (OCR)
MTSO-INFO 21
DIMITRI MORTELMANS 2001
Faculteit PSW – Universiteit Antwerpen Contact: prof. dr. Dimitri Mortelmans (
[email protected]) Tel : +32 (03) 820.28.53 - Fax : +32 (03) 820.28.82
MTSO-INFO Documenten in de reeks MTSO-INFO werden geschreven door leden van de vakgroep MTSO (Methoden en Technieken van het Sociaal-Wetenschappelijk Onderzoek) met als doel op een heldere en eenvoudige manier bepaalde thema's van onderzoeksmethoden en computergebruik uit te leggen. De thema’s sluiten aan bij analysetechnieken of softwareprogramma’s die gebruikt worden aan de Faculteit PSW van de Universiteit Antwerpen. Vermits sommige documenten door andere leden van de Universiteit Antwerpen of daarbuiten nuttig kunnen zijn, worden deze gratis online aangeboden op http://www.ua.ac.be/mtso. Het downloaden en verspreiden van deze documenten is toegestaan mits correcte bronvermelding.
WAARSCHUWING: De documenten worden slechts sporadisch bijgewerkt. Dit heeft repercussies voor die documenten die slaan op software. De auteurs hebben niet de bedoeling om bij het uitkomen van nieuwe versies van programma’s steeds het hele document te herschrijven. Daarom dient de lezer er rekening mee te houden dat het document steeds slaat op de softwareversie zoals deze bij het uitkomen van het MTSO-INFO document gangbaar was.
OPTICAL CHARACTER RECOGNITION (OCR) Inhoud
1 TEKSTEN SCANNEN................................................................................................................................. 2 1.1 HET SCAN-PROGRAMMA OPENEN ............................................................................................................. 2 1.2 DE BLADZIJDE INSCANNEN ...................................................................................................................... 2 2 OPTICAL CHARACTER RECOGNITION (OCR)................................................................................. 3 2.1 INLEIDING ................................................................................................................................................ 3 2.2 OCR-TEKSTEN VERBETEREN ................................................................................................................... 4 2.3 DE HERKENDE PAGINA’S OPSLAAN .......................................................................................................... 6 3 EXCURSUS: BEELDEN SCANNEN ......................................................................................................... 7
© MTSO – INFO / UA - FPSW
2
1 Teksten scannen 1.1 Het scan-programma openen De faculteit PSW beschikt over twee afzonderlijke programma’s om te scannen. Enerzijds is er het HP-scan programma ‘HP Picturescan’. Hiermee kan je zowel tekst als afbeeldingen inscannen. Dit programma stuurt ook rechtstreeks de scanner bij de PC aan. Om echter tekstherkenning te doen is er een tweede programma ‘Omnipage Pro’. Dit is speciaal ontworpen om op ingescande beelden te zoeken naar lettertekens die in een tekstformaat kunnen opgeslagen worden. Dit procédé heet Optical Character Recognition of kortweg OCR. Na het opstarten van het programma krijgt de gebruiker volgend scherm te zien.
In principe heeft de gebruiker van het programma slechts twee knoppen nodig om teksten naar behoren in te scannen en te laten herkennen: 1.2 De bladzijde inscannen De eerste stap in het procédé bestaat uit het inscannen van de pagina die op de scanner ligt.
Hiervoor volstaat het om de pagina aan de groene pijl op de scanner te leggen en op de knop ‘Scan Image’ te klikken (Let op dat onder de knop ‘Scan Image staat en niet ‘Load Image). Automatisch wordt nu de HP Picturescan gestart en kan de gebruiker kiezen welke soort beeld er ingescand moet worden. In principe is het mogelijk om het
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
3 programma op ‘Beelden’ te laten staan. Beter is echter om de optie te veranderen in ‘OCR / Tekst’ om het scannen te optimaliseren.
Om het scannen te starten druk je rechts op de knop ‘Scannen’. Het programma geeft nu aan dat het scannen begonnen is.
Op de achtergrond is in het programma Omnipage Pro een vorderingsklok te zien. Als het hele blad ingescand is, volstaat het om opnieuw op Omnipage te klikken (of even te wachten) om het gescande blad te zien in het programma.
2 Optical Character Recognition (OCR) 2.1 Inleiding Voor men aan de tekstherkenning van de eerste pagina kan beginnen, dient eerst en vooral de juiste taal ingesteld te worden. OCR werkt aan de hand van een taalpatroon. Als je een Engelse tekst tegenkomt dan is het voorkomingspatroon van bepaalde tekens anders dan bij een Nederlandse tekst (bv. accenten op letters). Je selecteert de juiste taal in het Menu Settings waar je de optie Select languages neemt. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
4
Het programma geeft een grote groep mogelijke talen aan de hand waarvan de tekstherkenning zal gebeuren. Als de juiste taal ingesteld is (best Engels ook laten aanstaan), volstaat het om op de knop Perform OCR te klikken om de tekstherkenning te laten gebeuren.
Omnipage volgt daarbij een vast patroon. Vooreerst gaat het na in welke richting de tekst zich bevindt en draait desgewenst de pagina 90°. Vervolgens verdeelt het programma het ingescande beeld automatisch in zones waarna het in laatste instantie zone per zone tekst zal proberen te ontwaren.
Na dit proces zie je links het ingescande beeld en rechts de tekstpagina van dit beeld in een apart deelvenster. 2.2 OCR-teksten verbeteren Scannen is een vér gevorderde techniek maar het is en blijft een mechanisch proces. Dat wil zeggen dat niet alle tekens uit de teksten herkend zullen worden. Daarom is het noodzakelijk om de teksten die je laat herkennen nadien ook te verbeteren. Het is natuurlijk mogelijk om de teksten over te brengen naar Word en daar de spellingscontrole te laten lopen. Het programma Omnipage zelf laat echter ook toe om teksten te verbeteren. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
5
In het tekstvenster van Omnipage Pro (rechts) staat de herkende tekst. In de tekst zullen echter rode en groene fragmenten aangeduid zijn. Dat zijn tekstfragmenten waar het OCR-programma zelf geen raad mee wist en die verbeterd dienen te worden. Je kan nu op twee manieren de tekst gaan verbeteren: manueel en met behulp van het programma. 1. MANUELE VERBETERING: Dit is een langdurige operatie. Je dient alle groene en rode woorden aan te klikken en te verbeteren. Als je op een groene of een rode aanduiding dubbel klikt dan zal Omnipage Pro jou het fragment aangeven waar dit woord vandaan komt. 2. AUTOMATISCHE GECONTROLEERDE VERBETERING: Deze verbetering verdient de aanbeveling. Het programma zal jou nu zelf stuk voor stuk de groene of rode fragmenten aanreiken en je vragen deze te verbeteren. Bovendien leert het programma een heleboel nieuwe ingescande woorden bij die de volgende keer niet meer aangegeven zullen worden. Je start de automatische verbeteringmodule door op de Check Recognition knop te klikken:
Er opent een nieuw scherm dat gelijkenissen vertoont met de spellingscontrole van Word:
Omnipage Pro zal twee soorten suggesties doen. Ofwel meent het programma dat het woord perfect herkend is maar bestaat het woord nog niet in de spellingsbibliotheek van deze taal. Dan geeft het programma bovenstaande mededeling: “Not in dictionary’. Als het woord dat er achter verschijnt inderdaad het correcte woord is kan je op ‘ADD’ klikken om het woord in de bibliotheek toe te voegen. Is het woord niet helemaal correct dan kan je het links onderaan wijzigen en op ‘change’ klikken.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
6 De tweede mogelijke situatie die voorkomt is dat Omnipage zelf al weet dat het bepaalde woorden niet helemaal heeft kunnen herkennen. Op dat moment geeft het programma de boodschap ‘Suspect word’. Meestal zal dit woord niet kloppen en dien je onderaan opnieuw de juiste schrijfwijze in te tikken en op ‘Change’ te klikken.
Deze procedure gaat voort tot het einde van het blad bereikt is. Je kan dan naar de volgende pagina gaan of gewoon een nieuwe pagina inscannen en laten herkennen. 2.3 De herkende pagina’s opslaan Je kan in Omnipage al je pagina’s na elkaar inscannen. Dat wil zeggen dat je niet elke pagina opnieuw zult moeten opslaan voor je aan een andere begint. Je hoeft ook niet elke pagina opnieuw na te kijken voor je een andere opent. Je kan gewoon eerst al je bladen inscannen, dan al je pagina’s laten herkennen en tot slot al die pagina’s verbeteren voor je ze in een document opslaat. Met de volgende knop kan je bladeren doorheen de verschillende pagina’s die je hebt ingescand:
Als je klaar bent met inscannen, herkennen én verbeteren dien je je document nog op te slaan. Omnipage kent een heleboel formaten waarin je teksten kan opslaan. Normaal gezien zal je je document in Word 6.0 willen opslaan om er voor te zorgen dat je je tekst nadien kan layouten in de tekstverwerker. Voor sommige gevallen (bv. om Primary Texts voor ATLAS/ti te maken) kan het nodig zijn om ‘ASCII Standard (*.txt)’ als formaat te kiezen. Onderaan dit scherm kan je ok kiezen hoe je je teksten wenst op te slaan. Standaard kies je ervoor om alle ingescande pagina’s in één document onder te brengen.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
7
Als je vervolgens het programma wil afsluiten zal Omnipage nog het volgende venster geven:
Het Caere Document waarvan sprake is het beeld dat je oorspronkelijk hebt ingescand. Je hebt de mogelijkheid om ook dat te bewaren. Indien je tekstherkenning goed afgelopen is, heeft dit echter geen enkele zin meer en kan je gerust ‘nee’ antwoorden. 3 Excursus: Beelden scannen Om beelden te scannen gebruik je niet het programma ‘Omnipage Pro’ maar klik je het scan programma van HP aan: ‘HP Picturescan’. Je krijgt dan het volgende beeld te zien:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
8 Als je een beeld (kleur of zwart-wit) wil inscannen volstaat het om op ‘Scannen’ te klikken om de scanner in werking te stellen. Er opent zich dan een nieuw venster:
In eerste instantie zal het programma een voorscan van je afbeelding maken. Aan de hand daarvan kan je dan fijner bepalen wat er daadwerkelijk ingescand moet worden.
De volgende stap die je moet nemen, is het afbakenen van het gebied dat de scanner daadwerkelijk in je figuur moet opnemen. Je kan ook de voorscan onmiddellijk accepteren maar dan bevat de tekening waarschijnlijk vervelende randen. Volgende knop laat je toe om een bepaald gebied te selecteren:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
9
Als je het gewenste gebied hebt aangeduid dan doe je er best aan om tussentijds nog eens in te zoomen op het geselecteerde gebied (het programma is niet steeds heel accuraat als je een gebied selecteert). Inzoomen gebeurt door op de zoomknop te klikken:
Het beeld dat ingescand moet worden, komt nu duidelijker in zicht en je kan evalueren of het gebied nu exact overeenkomt met wat je wil inscannen. Als de scherpte te wensen overlaat, kan je met behulp van het kompas je beeld verscherpen.
Als je helemaal tevreden bent met het resultaat op scherm kan je de tekening ‘Accepteren’. Het programma vraagt dan om een bestandsnaam en een grafisch formaat om naar toe te scannen.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
10
Als het programma opnieuw overschakelt naar het oorspronkelijk scherm (met de papegaai) is het scannen afgelopen en kan je met een grafisch programma de afbeelding bijwerken of rechtstreeks invoegen in je tekstverwerking of DTPprogramma.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/