Computer leest giro's Classificeren van hanepoten
research neher laboratorium
•
•
I
•
•
•
©
PTT Neher Laboratorium
Behoudens
uitzonderingen
toestemming
Leidschendam.
door de Wet gesteld
van de rechthebbende
niets hieruit worden
verveelvoudigd
van druk. fotokopie.
microfilm
toepassing
op de çehele
en/of poeneaar
of anderszins:
ol gedeeltelijke
met uitsluiting
van ieder ander gerechtigd
vergoedingen
van kopiëren.
en
In
mag
als bedoeld
Copyright
het vorengezegde
bewerking.
'on microfilm
is ook van
De rechthebbende
de door derden in artikel
door middel
is
verschuldigde
17 lid 2, Auteurswet 16 b Auteurswet
1912 1912.
in en buiten rechte op Ie treden.
reserved. Subject
this publication
van deze uitgave
gemaakt
het K.B. van 20 Juni t 974 (Stb 351) ex artikel
Ie innen en/ot daartoe
zonder scnr.tteuike
op het auteursrecht
la the exceptions
may be reproduced
anc/er
or in any other way without
provided
pubfisried
lor by taw, na part of
in print, by photocopying.
tt-e written consent
the same applies to whole ör partlal adaptations.
of the copyrightowner:
The copyrighlowner
retains
Ihe sole nght 10 coneet Irom Ihird parties lees payable in respect ol copying and/or 10 take legal or ether act ion lor Ihis purpose.
Classificeren van hanepoten 0
,
11
f
0
:t t
f)
1 2
3 If J' !i J -I 5 4
~
3
'I
S
"l' r 0
,; I
1 ~
3
1 ó'
5
,f
If
I ~
f
8
7
dl q ~
.r
/;
Cl .I
r
6
IJ
i r
t
~
/"
(,
~
4 ( /; / S'
p
6
).
8
r: 6 T s IJ s
1
iJ'
9 ~
~
J
COMPUTER
LEEST GIRO'S
Classificeren van hanepoten
Auteur:
H.P.M. Essink
D N L-monografie 8704
©
Or. Neher Laboratorium,
ISBN 90-72125-08-8
1987
COMPUTER
LEEST GIRO'S
VOORWOORD Het Dr. Neher Laboratorium begon in 1968 met herkenning van handgeschreven cijfers voor de toenmalige Postcheque- en Girodienst. Het onderzoek resulteerde in 1975 in een Ie generatie machines voor het automatisch controleren van ponskaarten. Gezien het succes van deze leesmachines werd in 1982 een 2e generatie, sterk verbeterde machines voor de huidige 'slappe' formulieren afgeleverd. Na privatisering van de Postcheque- en Girodienst sloot de Postbank N.V. een meerjarencontract met het Dr. Neher Laboratorium voor het ontwikkelen van een ae generatie machines en tevens voor onderzoek naar een volledig automatisch coderen de in plaats van controlerende machine. Deze monografie, verschenen als artikel in Natuur & Techniek, oktober 1986, geeft inzicht in het gebruikte cijferherkenningsprincipe en de toepassing daarvan bij de Postbank.
Harry Essink
Leidschendam, december 1987
5
INHOUD
1. Inleiding
9
2. Computers controleren codering
11
3. Opbouw van de controlemachines
13
4. Beeldopname en voorbewerking
15
5. Classificatie
17
6. Resultaten
21
Intermezzo
23
De auteur
27
7
1
INLEIDING
De Postbank verwerkt dagelijks ruim 600.000, grotendeels met de hand ingevulde overboekingsformulieren. Het eigenlijke boekingsproces gebeurt met computers. De handgeschreven informatie -bedrag en gironummer van bijschrijving- moet dus eerst in een voor de computer leesbare vorm worden gebracht. Dit gebeurt door de handgeschreven informatie over te nemen in een goed gedefinieerd typeschrift, de OCR-B code. Dit is te zien op de voorkant onderaan op overschrijvingsformulieren, betaalcheques en acceptgiroformulieren. De boekingscomputer is in staat deze OCR-B regel feilloos te lezen, waarna de boeking verder automatisch verloopt. Tegenwoordig helpen cijferherkenningsmachines bij het controleren van de omzetting naar de OCR-B code. Deze machines zijn ontwikkeld op het Dr. Neher Laboratorium van de PTT. In deze monografie wordt uiteengezet, hoe die machine de kriebels of hanepoten op de Postbankformulieren toch bijna foutloos kan ontcijferen. Om geld over te boeken van een gironummer naar een ander gironummer, zijn technisch gezien drie gegevens nodig: het bedrag, het gironummer van afschrijving en het gironummer van bijschrijving. Het bedrag en het gironummer van bijschrijving zijn meestal met de hand ingevuld in de bekende rode vakjes op de giroformulieren. Het eigen gironummer van afschrijving is reeds voorgedrukt in een voor de computer leesbare vorm, links op de strook onderaan het giroforrnulier. Op deze nog bijna lege strook staat rechtsonder nog een code, die aangeeft welk soort formulier het betreft. Overschrijvingsformulieren hebben bijvoorbeeld code 60, girobetaalkaarten code 21. Deze coderegel dient nog aangevuld te worden met het bedrag en het tweede gironummer om de boeking automatisch te kunnen uitvoeren. Het aanvullen van de coderegel gebeurt op zes codeercentra van de Postbank in Den Haag, Amsterdam, Arnhem, Nijmegen, Zwolle en Gouda. Op de codeercentra wordt van ieder document de handgeschreven informatie twee keer gecodeerd, waarbij de tweede codeergang gebruikt wordt om fouten uit de eerste codeergang te verbeteren. Deze tweede codeergang wordt daarom de controlegang genoemd. Bij de Postbank wordt de codeergang handmatig uitgevoerd, terwijl de controlegang automatisch, door middel van cijferherkenningsmachines plaatsvindt. Is de cijferherkenningsmachine het eens met de handmatige codering, dan kan het document verder automatisch verwerkt worden. De cijferherkenningsmachine is in staat 98,5 procent van alle handgeschreven cijfers correct te herkennen. Het is momenteel nog niet mogelijk om de handgeschreven informatie in de rode invulvakjes volledig automatisch foutloos te interpreteren en in de coderegel over te nemen. Ook mensen doen dit niet helemaal foutloos, maar wel veel beter dan computers. Tijdens het handmatig coderen worden slordigheidsfoutjes gemaakt, zoals een verwisseling van twee cijfers, het weglaten van een enkel cijfer of het teveel aanslaan van een cijfer. Ongeveer één procent van alle documenten wordt foutief gecodeerd, zodat een controle op de codering noodzakelijk is, voordat de werkelijke afboeking plaatsvindt. Het gaat hier nog steeds om 6000 fout gecodeerde formulieren per dag. Vroeger vond bij de giro de controle ook handmatig plaats. De handgeschreven informatie werd voor een tweede keer, door een andere codeergroep, ingetoetst en vergeleken met het resultaat
9
van de eerste codering. Was het resultaat van eerste en tweede codering gelijk, dan nam men aan dat de codering voldoende betrouwbaar was en kon automatische boeking per computer volgen. Was het resultaat van de controle-codering ongelijk aan de eerste codering, dan moest een beslissing geforceerd worden of moest het formulier als onleesbaar aan de klant worden teruggestuurd. Dit handmatige controleproces is behalve arbeidsintensief en traag ook niet al te betrouwbaar, omdat mensen de neiging hebben dezelfde soort fouten te maken, die bij menselijke controle dan dus niet ontdekt worden. Tegenwoordig gebeurt de controle op de codering automatisch met behulp van speciaal voor de Postbank ontwikkelde cijferherkenningsmachines.
10
2
COMPUTERS CONTROLEREN CODERING
Bij de Postbank, vroeger de postgiro, wordt reeds een tiental jaren het handmatige coderingsproces automatisch gecontroleerd met behulp van computers, die redelijk goed in staat zijn handgeschreven cijfers te herkennen. Deze manier van controle is sneller en van betere kwaliteit dan menselijke controle omdat een computer niet dezelfde fouten maakt als de mens. Een computer verwisselt geen cijfers onderling, laat ook geen cijfers weg of verzint er geen extra cijfers bij, wat mensen wel blijken te doen. De controle bestaat uit het vergelijken van de reeds aanwezige menselijke codering (in OCR-B code onderop het formulier aangebracht) met de computerinterpretatie van het handgeschreven bedrag en het gironummer in de rode invulvakjes. De computerinterpretaties zijn niet geheel foutloos. Dat betekent dat de computerinterpretatie van het handschrift soms niet in overeenstemming is met de correcte menselijke interpretatie in de coderegel. Dit is voor een controleproces niet erg, het betekent dat niet alleen de foutief gecodeerde documenten (1 procent van het totaal) afgekeurd worden, maar ook een deel van de goed gecodeerde documenten (19 procent van het totaal). Voor overschrijvingsformulieren vindt de computer in 80 procent van de aangeboden documenten overeenstemming tussen de menselijke en de computerinterpretatie. Dat wil zeggen dat 80 procent van alle documenten hierna volledig automatisch verwerkt kan worden door de boekingscomputer. Tussen deze goedgekeurde documenten zitten bij zeer hoge uitzondering -enige per 100 000 documenten- fouten die ontstaan als computer en mens dezelfde fout hebben gemaakt. In de resterende 20 procent afgekeurde documenten zitten alle menselijke codeerfouten. Deze documenten dienen op de ouderwetse manier met de hand gecontroleerd te worden. Er zijn 16 controlemachines in gebruik bij de Postbank die elk vijf documenten per seconde kunnen controleren.
11
3
OPBOUW VAN DE CONTROLEMACHINES
Om automatisch te kunnen controleren hebben we nodig: een beeldopnamesysteem voor handgeschreven bedrag en gironummer, een computer om de opname te interpreteren en een OCR-B lezer die de coderegelleest. Deze drie eenheden vinden we terug in het overziehtsschema van de controlemachine in figuur 1.
Computer
Beeld
Menselijke interpretatie
Hand! typeschriftsignaal
Okaysignaal
Patronen
Kenmerken
Schematische
Computerinterpretatie
figuur 1 weergave van de CODAL-machine
De werkelijke machine is een standaard transportmeubel voor documenten met een OCR-B lezer, uitgebreid met een opnamesysteem en een computer voor de cijferherkenning. Handmatig gecodeerde documenten gaan links in de transportbaan en komen er zonder te stoppen rechts weer uit, gesorteerd naar goed en fout. Goed wil zeggen dat er overeenstemming bestaat tussen de computerinterpretatie en de menselijke interpretatie, fout betekent: geen overeenstemming. Terwijl het document door het transport loopt wordt er een opname gemaakt van de informatie in de rode invulvakjes. Deze opname gaat als zwart-wit beeld ter interpretatie naar de computer. Even verder in het transport wordt de OCR-B coderegel gelezen en eveneens naar de computer gestuurd. Ondertussen is de computer klaar met de interpretatie van het handschrift en wordt de computerinterpretatie vergeleken met de menselijke interpretatie. Is er overeenstemming dan wordt het document gemerkt met een zogenaamd okay-teken in de coderegel en afgelegd in een van de goedvakken. Is er geen overeenstemming dan wordt het document niet gemerkt en afgelegd in het foutvak
.
13
De CODAL-machine bestaat uit een computer, de twee hoge kasten link«; een laserlezer staat onder de grijze kap in het midden; rechts daarnaast zit de OCR-B-lezer. De te lezen formulieren worden door de twee lees eenheden getransporteerd en eindigen hun gang rechts in de bakjes 'goedgekeurd' en 'afgekeurd'.
14
4
BEELD OPNAME EN VOORBEWERKING
Terwijl het document door het transport zwart-wit-opname van de rode invulvakjes
loopt, wordt met behulp van een laser-scanner gemaakt (zie figuur 2).
een
Lijnfotocel voor synchronisatie
Zwart-wit-beetd naar computer
Girodocument 18-vlaksspieget (10000 scans per s)-Spiegelmotor (555,5 toeren per s)
figuur Een klein document
2
(0,1 mm) laser-lichtpuntje wordt repeterend zeer snel van boven naar beneden geprojecteerd met behulp van een ronddraaiende spiegelschiJf.
op het
De spiegelschijf bevat 18 vlakken en wordt aangedreven door een motor met een toerental van 555,5 omwentelingen per seconde. Elke seconde wordt het document dus langs 18x555,5 = 10000 lijnen afgetast. Omdat de snelheid in dit deel van het transport exact lm.s-1 is, zijn er dus 10000 aftastlijnen per meter ofwel de resolutie is 0,1 mmo Het door het document gereflecteerde licht wordt opgevangen door een lichtgevoelige cel (fotomultiplier) .De donkere cijferpatronen op het document reflecteren weinig licht, de onbeschreven gedeeltes reflecteren relatief veel licht. Als we nu bijhouden van welke plek op het document dit gereflecteerde licht afkomstig is, kunnen we het als' l' (donker) of als '0' (licht) geordend in het computergeheugen opbergen. Het hele proces lijkt een beetje op het 's nachts lezen van een groot onverlicht reclamebord door het af te tasten met een kleine zaklantaarn: we zien dan steeds een klein gedeelte van het grote bord en registreren dit in ons geheugen totdat we een 15
compleet beeld opgebouwd hebben. In figuur 3 zien we een opname gemaakt met behulp van de laser-scanner,
,
/ J/
f
If1I f t_ /
in pseudo-kleur.
t::J ~
figuur
3
De patroonscheider plaatst ieder waargenomen cijfer voor één aan patroonherkenning worden onderworpen.
in een apart hokje,
waarna
de cijfers
één
Elk vakje bevat 64x64 beeldpunten. Merk op dat in de opname de rode kadertjes van het document verdwenen zijn. Dit komt doordat de rode kleur van de kaderlijnen zo gekozen is dat die overeenkomt met de rode kleur van de laser. De intensiteit van het gereflecteerde licht van het onbeschreven document (wit) en van de kaderlijnen (rood) is praktisch gelijk; met andere woorden, de laser-scanner is blind voor de kleur rood! Zit de opname eenmaal binair in het computergeheugen dan kunnen we het beeld laten interpreteren (zie figuur 3). De cijferherkenner kan slechts afzonderlijke cijferpatronen classificeren en niet het gehele beeld tegelijk. Eerst laten we daarom als voorbewerking de patroon scheider de afzonderlijke cijferpatronen isoleren. Na de scheiding staan de afzonderlijke cijferpatronen keurig, linksboven aangeschoven tegen een denkbeeldige kaderlijn, in aparte hokjes. Met name voor documenten die geheel of gedeeltelijk met typeschrift ingevuld zijn, is dit scheiden van belang, omdat hierbij vaak meerdere patronen in één rood invulvakje staan. Ook handschrift staat echter lang niet altijd keurig in de vakjes en moet eveneens gescheiden worden. De cijferherkenner krijgt vervolgens zeer snel achter elkaar alle gescheiden cijferpatronen één voor één ter classificatie aangeboden. De machine verwerkt 5 documenten per seconde en gemiddeld bevat een document 10 cijferpatronen. In 200 milliseconde worden alle 10 cijferpatronen geclassificeerd, per cijferpatroon is dus slechts 20 ms beschikbaar.
16
5
CLASSIFICATIE
leder geïsoleerd cijferpatroon moet nu geclassificeerd worden. We onderscheiden de klassen 0, 1, 2 tlm 9 en nog één extra klasse voor strepen, kruizen en dergelijke. Strepen en kruizen worden meestal gebruikt als voorloopnullen of als nullen in de twee centenhokjes. Een bekende manier van machinaal classificeren is het één op één vergelijken van de punten in het beeldraster van het onbekende cijferpatroon met tien voorbeeldcijfers. Het onbekende patroon krijgt de klassen van het voorbeeldcijfer dat er het meest op lijkt. Als vergelijkingsmaat kan bijvoorbeeld het aantal overeenkomstige zwarte of witte beeldelementen tussen voorbeeldcijfer en onbekend cijferpatroon genomen worden. Dit werkt zeer goed als we te maken hebben met slechts één soort goed gedefinieerd typeschrift, bijvoorbeeld het OCR-B schrift dat speciaal voor deze toepassing internationaal is gestandaardiseerd. Voor handschrift is deze methode echter ongeschikt omdat de verscheidenheid naar vorm en grootte van het cijferpatroon te groot is. Daarom werken we bij handschriften niet met de beelden, maar met een beschrijving van die beelden op een hoger niveau. We bepalen kenmerkende eigenschappen in het beeld, die ongevoelig zijn voor kleine verschillen in vorm en afmetingen, en proberen het patroon hiermee te classificeren. Kenmerkende, bruikbare eigenschappen zijn bijvoorbeeld' eilanden', 'eindpunten' en het' hol/bol zijn van een aanzicht'. Heeft een onbekend cijferpatroon bijvoorbeeld de volgende eigenschappen: • één eiland in het beeld • alleen boven een eindpunt • linkeraanzicht
bolvormig
• onderaanzicht
bolvormig
• rechter aanzicht boven hol en onder bol dan kan het statistisch gezien eigenlijk alleen nog maar het cijfer zes zijn, omdat de kans dat deze eigenschappen optreden bij een andere cijferklasse zeer klein is. Dit is exact het principe dat gebruikt wordt. Kenmerken moeten het liefst goed discriminerend tussen verschillende cijferklassen en tevens redelijk frequent voorkomen. Ideaal is een kenmerk dat bijvoorbeeld alleen bij een acht en wel bij elke acht voorkomt en nooit bij een ander cijfer. Het kenmerk 'twee eilanden' voldoet daar vrij goed aan, maar niet helemaal, want een twee zoals er op de openingspagina één staat, heeft ook twee eilanden. We gebruiken in de praktijk twaalf kenmerken per aanzicht, die elk gemiddeld tien waarden kunnen aannemen (zie tabel 1).
17
~,'I! '···::1::········ ._._~
c
B
A
TABEL
1. De 16 waarden binnen 'sprongen in aanzicht'.
het kenmerk
Betekenis
Waarde
Geen sprongen
0
aanwezig
Eén positieve
sprong (+)
3
Eén negatieve
sprong (-)
4
Een positieve sprong gevolgd negatieve sprong (+ - )
5
Een negatieve sprong gevolgd een positieve sprong (- +)
1
I1
6
,. Twee negatieve
7
Drie positieve
8 II
sprongen
door een door
( - -)
(+ + + )
sprongen
Twee positieve sprongen, gatieve sprong ( + + - )
dan een ne-
9
Drie sprongen in de volgorde negatief, positief (+ - + )
positief,
10
Een positieve sprong gevolgd twee negatieve ( + - -)
11
Een negatieve twee positieve
12
Drie sprongen in de volgorde positief, negatief ( - + -)
13
Twee negatieve sprongen, gevolgd door een positieve (- - + )
14
Drie negatieve
15
Meer dan drie sprongen zicht aanwezig
door
sprong gevolgd (- + + )
sprongen
figuur
(-
door negatief,
- - )
in het aan-
4
De voorbeelden van de twaalf kenmerken die de patroonherkenner gen [C] en eindpunten (E) spreken voor zich. Een sprong (A) wordt dat steeds
vanuit
begint van bovenaf.
één richting
Op de plaats
lijn die hij eerst volgde:
wordt gekeken.
van de pijl vindt
dat classificeert
nagaat. De kenmerken is begrijpelijk wanneer
hellinbedacht
De twee in A is van links bekeken,
de scan
de computer
hij als een sprong.
18
een lijn op enige afstand
van de
Doordat we het patroon van vier kanten bekijken (links, rechts, boven en onder) hebben we dus 4x12 = 48 kengetallen, die het beeld eenduidig beschrijven. Dat wil zeggen er zijn geen patronen gevonden van verschillende cijferklasse (bijvoorbeeld 4 en 9) die exact dezelfde 48 kengetallen opleveren. Wel hebben vele patronen van dezelfde cijferklassen (bijvoorbeeld énen) dezelfde 48 kengetallen. Op zich zijn de kenmerken niet zo krachtig, gezamenlijk wel. Om met behulp van deze kenmerkwaarden te kunnen classificeren, moeten we de kansen weten dat deze kenmerkwaarden voorkomen bij een bepaalde cijferklasse. Het kenmerk' twee eilanden' komt bijvoorbeeld 92 procent voor bij de cijferklasse '8', maar slechts 0,2 procent bij de cijferklasse '1'. De cijferherkenner kent al deze, in totaal 48xl0xll = 5280 kansen. Zijn nu de kenmerken van een onbekend cijferpatroon afgeleid, dan kan met behulp van deze kansen berekend worden wat de totaalkans is dat dit onbekende patroon behoort tot een bepaalde cijferklasse. We berekenen dus de totaalkans dat dit onbekende patroon behoort tot de klasse 0, 1, 2 tjm 9, of die van de strepen en kruizen. En de grootste totaalkans bepaalt de klasse.
19
6
RESULTATEN
In de praktijk classificeert de cijferherkenner 98,5 procent van alle cijfers correct. Niet alle cijferklassen worden echter even goed herkend. Tabel 2 laat voor alle cijferklassen zien hoe de menselijke classificatie gemiddeld overeenkomt met de machinale classificatie, deze percentages staan op de diagonaal. Ook is te zien hoe vaak een bepaalde cijferklasse gemiddeld foutief geclassificeerd wordt als een andere cijferklasse. De cijferherkenning is nog lang niet geschikt om geheel zelfstandig, zonder tussenkomst van de mens, te kunnen coderen. Voor controle is de cijferherkenner wel geschikt, en zelfs beter in kwaliteit dan menselijke controle. Toch denken we dat de cijferherkenningsmachine in de nabije toekomst ingezet zou kunnen worden voor volledig automatisch coderen. Een gedeelte van de girokaarten is namelijk zo duidelijk ingevuld dat alle cijfers op die kaart met hoge betrouwbaarheid geclassificeerd kunnen worden. Uit voorlopige proeven blijkt dat ± 25 procent van alle documenten automatisch foutloos kan worden gecodeerd. De andere 75 procent wordt dan niet door de machine gecodeerd, omdat de betrouwbaarheid van de classificatie van één of meer cijfers op het document te laag is. Een haalbaarheidsstudie zal moeten uitwijzen of automatisch coderen technisch, economisch en sociaal verantwoord is.
van mensen en van de patroonherkenner. Wanneer aan mensen een 2. Classificatieresultaten 4 wordt voorgelegd is in de ver~icale kol?m de kans af te lezen hoe vaak hij inderdaad als een 4 wordt gelezen, op de horizontale ruen hetzelfde voor de automatische patroonherkenner.
TABEL
0
1
2
3
4
5
6
7
8
9
10
°
99,1
0,0
0,1
0,0
0,1
0,0
0,1
0,0
0,5
0,1
0,0
1
0,0
98,6
0,4
0,0
0,2
0,2
0,0
0,5
0,1
0,0
0,2
2
0,0
0,2
99,1
0,2
0,2
0,0
0,0
0,1
0,1
0,3
0,0
3
0,0
0,0
0,2
98,3
0,0
0,3
0,0
0,3
0,2
0,6
0,0
4
0,1
0,2
0,0
0,1
98,4
0,1
0,1
0,3
0,1
0,4
0,0
5
0,2
0,4
0,0
0,7
0,2
98,0
0,2
0,2
0,2
0,0
0,0
6
0,4
0,0
0,0
0,0
0,3
0,0
98,9
0,1
0,3
0,0
0,0
Cijferklasse
7
0,0
0,1
0,1
0,3
0,0
0,1
0,0
98,9
0,3
0,1
0,0
8
0,7
0,0
0,1
0,3
0,0
0,0
0,0
0,0
98,9
0,0
0,0
9
0,0
0,0
0,1
0,5
0,7
0,3
0,0
0,4
0,5
97,5
0,0
10
0,9
1,9
0,0
0,3
0,0
0,3
0,3
0,0
0,0
0,0
96,3
21
INTERMEZZO A utomatische
cijferherkenning
Om een onbekend cijferpatroon te classificeren, bepalen we voor twaalf groepen met kenmerken in iedere groep één kenmerk. Dat doen we in vier aanzichtrichtingen. Totaal wordt een cijferpatroon dus met 48 kenmerken gekarakteriseerd. Die 48 zijn te kiezen uit ongeveer 480 mogelijke kenmerken. Iedere groep van kenmerken bevat dus gemiddeld tien waarden. Dat voor ieder cijferpatroon steeds 48 kenmerken aanwezig zijn, betekent ook dat er 480-48 = 432 kenmerken afwezig zijn. De kans van voorkomen van elk kenmerk per cijferklasse (0, 1, 2 t/m 9 en strepen/kruizen) is eenmalig aan de hand van een grote set praktijkcijfers bepaald. Deze deelkansen, in totaal 480x11 = 5280, zijn in de machine opgeslagen in een grote tabel van 480 rijen en 11 kolommen.
Kenmerkenafleider I
Kanstabel met logaritmische waarden (480 x 10)
Waarde: 2
,.-+
cl
Kenmerk 1
Kenmerk 2
0,1 0,8
°
~ ~ ~
cf
~
:::: ~'"
"--t
Waarde: 3
~ ~ ~ ~
°
1,6
1
2
3
4
5
0,1
0,1
0,1
0,2
0,6
1,2 0,5 0,3
1,8 0,3 0,2
0,2
8
9
1/
0,8
1,5
0,3
0,6
1,4 0,2 0,8 1,1
0,4 0,3
1,1 0,1
0,9
Kenmerk 48 Waarde:5
1,7
0,5
0,4
0,3
1,5
0,4
0,3
0,2
0,5 1,2 1,4 0,3 0,2 1,4 0,2 0,3 0,6 0,1
0,4 0,9
0,6 0,7
0,7 0,1
1,4 0,9 0,9
1,0 0,2
0,1 1,6 1,2 0,3
0,4 1,1
0,4
1,5 0,2
1,1
1,6 0,6
0,2
0,9
1,7
1,0 0,9
1,2 0,3
0,8 0,7
1,0 0,1
0,3
0,2
0,1
0,4
1,0
0,3
0,8
0,1 0,2
1,6
0,3 0,2
1,0 0,4
0,6
0,7
~ ~ ~ ~1
0,3 1,7 0,2 0,8
0,3 0,1 1,1 1,3 1,1 0,2
1,0 1,7 0,1 0,1 0,7 0,4 0,5 0,1 0,8 0,2 0,6 0,7 0,2 0,3 0,2 0,8
1,2 1,3 0,2 0,6
0,2 1,0 1,3 1,5 0,2 0,3
0,2 0,6
0,3 0,2
1,3
0,1
1,2
0,2
1,1
0,1 0,5
0,3
0,2
0,1
1,9 2,7
1,7
4,6
1,1 2,5
1,9 1,7
2,2
1,4
2,0
0,3
'" '"
'" + + + + + _i_ 4,6
geeft een deel van de kansverdeling
_i__i_
Maximumselector
~ Klasse:
in een kenmerk
0,3
=0,2 0,7 0,8 0,2
Optellen per kolom van de aangewezen rijen
Iedere waarde
1,7 0,3 0,2 1,4 0,4
0,8
1,5 0,8
_Lo:
á.
7
1,6 0,2
0,1 0,2
1,0
6
3
voor een ciJferclassificatie.
Na
aan 48 kenmerken een waarde toe te kennen en de bijbehorende kansen erbij te zoeken, volgt een totale kansocrdelinç. Het cijfer dat bij de grootste kans hoort wordt aan het gelezen symbool toegewezen.
23
De aanwezige kenmerken in een onbekend cijferpatroon wijzen steeds exact 48 rijen in de tabel aan. Per kolom in de tabel bepalen we nu het produkt van de aangewezen rijen. We krijgen dan elf totaalkansen, die een relatieve maat zijn voor de kans dat het onbekende patroon tot die kolom of cijferklasse behoort. De grootste van deze elf kansen bepaalt de klasse. Om snelheidstechnische redenen staan in de tabel de kansen niet in procenten, maar in de logaritme hiervan. In plaats van de aangewezen deel kansen per kolom met elkaar te vermenigvuldigen, mogen we ze dan optellen hetgeen veel sneller gaat. Deze classificatiemethode is ook goed bruikbaar voor het herkennen van alle mogelijke soorten typeschrift door elkaar. Wel is het zo, dat de inhoud van de tabel voor typeschrift anders is dan de inhoud van de tabel voor handschrift. In de praktijk verwerkt de machine hand- en typeschrift door elkaar. De patroonscheider geeft aan welke tabel gebruikt moet worden .
...''".
!
-1&"'<..1 / "p :r
Het display
van de CODAL-machine
patroonherkenning.
Rechts
J~.
'Y
,"?
toont
het gelezen
is de, in dit geval geslaagde,
beeld dat de computer computerinterpretatie
gebruikt
voor de
te zien.
De computer die de patroonherkenning uitvoert, is geheel uit hardware opgebouwd. Verwerking op een standaard-machine met software zou te langzaam gaan. De computer bestaat nu uit vele printboards met IC's die ieder een bewerking uitvoeren. De boards zijn onderling verbonden met de draden modernere
die op de foto technologie.
te zien
zijn.
Deze
computer
24
wordt
op dit moment
vervangen
door
Het hart van de cijferherkenningsmachine is de af taster die met een laserstraal de ciJferpatronen van Langs flitsende giroformulieren opneemt. De rode laserstraal komt van midden-onder, kaatst tegen roterende spiegeltjes en valt daarna razendsnel van onder naar boven flitsend op het langskomend formulier. De fotomultiplier vangt de reflectie op, het is de koker linksboven in beeld. Deze lichtdetector stuurt een signaal naar de verwerkende computer.
25
DE AUTEUR Harry Essink werd geboren te Oldenzaal op 13 februari 1947. Na zijn studie aan de HTS Enschede studeerde hij van 1969 tot 1976 Elektrotechniek aan de TH Twente. Vervolgens werkte hij vijf jaar op de afdeling oogheelkunde van het Academisch Ziekenhuis van de Katholieke Universiteit te Nijmegen. Sinds 1981 verricht hij toegepast. onderzoek op het Dr. Neher Laboratorium van de PTT te Leidschendam, op het gebied van patroonherkenning.
27
In de DNL-monografieënreeks • DNL-Monografie 8501 W. van Eck Electromagnetic radiation ISBN 90-72125-01-0
zijn reeds verschenen:
from video display units. An eavesdropping
risk?
• DNL-Monografie 8502 N.H.G. Baken Geïntegreerde optica Nieuwe perspectieven in optische communicatiesystemen ISBN 90-72125-02-9 • DNL-Monografie 8503 A. Diekema Ontwikkeling van nieuwe optische technieken ISBN 90-72125-03-7
voor telecommunicatie
• DNL-Monografie 8601 F. Booman; R.H.J.M. Plompen; J. van Helden Broncodering Het gereedschap voor efficiënt gebruik van een digitaal net voor videotransmissie ISBN 90-72125-04-5 • D'Nl.-Monografie 8602 H. W.J. Duynisveld Glasvezelkabels. De invloed van waterstof ISBN 90-72125-05-3 • DNL-Monografie 8701 DIVAC 11 (Digitale Verbinding tussen Abonnee Netstructuur ISBN 90-72125-06-1 • DNL-Monografie 8702 J. van Rees Narrow- and wide-band ISBN 90-72125-10-X
propagation
op glasvezel
en Centrale
experiments
• DNL-Monografie 8703 J.C.M. den Reijer IMPLOSIE Implementation of an OSI environment ISBN 90-72125-09-6
29
via glasvezel)
in the land-mobile
bands below 1 GHz
• DNL-Monografie 8705 leden werkgroep DTS-90 van de BECOM DTS-90 (Digitale telecommunicatiestelseis voor de 90-er jaren) ISBN 90-72125-07~X • DNL-Monografie 8706 M. Bogers, Th. Goumans, N. de Beer VIDEOTEX GRATIS, INTERWORKING, VAKIR ISBN 90-72125-13-7 • DNL-Monografie 8707 G. Aartsen, F. Booman, R. Plompen Redundancy reduction for the ISDN Videophone ISBN 90-72125-11-8
Service
• DNL-Monografie 8708 Department of Applied Mathematics and Signal Processing MPSN; a powerful tool for the planning of telecommunications ISBN 90-72125-12-6 • DNL-Monografie 8709 J.R. Schmidt A Multi-frequency feed for 12.5, 20 and 30 GHz propagation ISBN 90-72125-17-7 • DNL-Monografie.8710 KE. Zwartenkot Semi-permanent digital circuits ISBN 90-72125-18-5
30
networks
experiments