Megjelent: Zsengellér József (szerk.): A pergamentől a számítógépig. Acta theologica Papensia 8. Pápa, Pápai Református Teológiai Akadémia 2004. 109119.o. Kodácsy Tamás:
Héber kéziratok a bitek világában 1. Bevezetés Ma már a számítástechnika nem csak a természettudományok és a matematika világában van jelen, hanem mindennapos eszközzé vált a teológiai munkában is, különösen a bibliai szövegek elemzése és az elektronikus konkordancia használata kapcsán. Tapasztalatom szerint a teológusok alapvetően kétféle módon viszonyulnak az elektronikus bibliai szövegek használatához: merev elutasítással, vagy feltétlen bizalommal. Mindkét hozzáállás veszélyes. Akik elutasítják ezeknek a használatát, olyan eszközöktől fosztják meg magukat, amelyeket hagyományos módszerekkel csak évekig, vagy évtizedekig tartó szorgalmas munkával lehetne pótolni. Egy elektronikus konkordancia, amely az igényeknek megfelelő mintakeresést pillanatok alatt képes végrehajtani egy több kötetes szövegen, messze hatékonyabb, mint bármilyen nyomtatott konkordancia. Hiába idegenkednek némelyek a számítógép használatától, előbb-utóbb úgy is rá lesznek kényszerítve arra, hogy használják ezeket a szöveg-feldolgozó alkalmazásokat. Ez a cikk nem azért íródott, hogy őket meggyőzze, hanem azért, hogy vázlatosan bemutassa azt a folyamatot és annak buktatóit, hogy mi módon kerül egy kézirat a számítógépre. Mai világunkban két alapvető módon továbbítjuk az információt: hang és kép formátumban. E két információhordozó közül informatikai szempontból a hang az, ami bizonytalanabb és kényesebb. Vegyünk szemügyre egy számítógépes hálózatot, ahol az összekötött számítógépek pillanatok alatt képesek egy több ezer oldalas könyvet file-ként az egyik gépről a másikra szállítani. Azonban ha hangról van szó, akkor mintha azt tapasztalnánk, hogy a gép legbelül összerezzen, a futó alkalmazásai esetleg lefagynak, és minden idegszála arra összpontosít, hogy a kívánt hangot kipréselje a hangszórókon. Az ok a hang természetében rejlik: ahhoz, hogy a hang valóban információ legyen, nem elég, hogy a hangot tartalmazó információt gyorsan az egyik helyről a másikra lehessen szállítani, hanem mindezt folyamatosan kell szállítani. A hang, hullám természete miatt csak akkor információ, ha folyamatosan, megszakítatlanul érkezik. Összefoglalva: amíg van értelme álló képről beszélni, addig nincs értelme az álló hangnak. Megjegyzem, csodálatos módon az Isten mégis a kényesebb információhordozó, a hangot választotta ki arra, hogy a legfontosabb üzenetet, az evangéliumot továbbadjuk. „Azért a hit hallásból van, a hallás pedig Isten Igéje által” (Róm. 10:17)
„A szó elszáll az írás marad” szólás azt sugallja, hogy a leírt szöveg biztonságos, abban meg lehet bízni. Tudnunk kell azonban, hogy azok a szövegek, amelyeket számítógépen használunk egy hosszú munkafolyamat eredményeként jöttek létre. Akármilyen szövegről is legyen szó, azt a szöveget valahogyan kódolni kellett ahhoz, hogy a számítógép memóriájába kerülhessen. A számítógép memóriája csak azokat
az információkat rögzíti és onnantól kezdve csak azok elérhetőek, amelyekről a szöveg kódolója úgy döntött, hogy értékes információ, és rögzíteni kell. A szöveg számítógépre vitele tehát döntések sorozata, amelyeket emberek hoznak.
2. Szöveg-feldolgozási projektek A teológusok által használt bibliai segédprogramok (Bible Works, Logos) elkészítésse mögött több olyan csoport áll, amelyek a bibliai szövegeket feldolgozták. Néhányat felsorolok a legfontosabbak közül: • Werkgroep Informatica, 1977-ben alapították az amszterdami Vrije Egyetem Teológiai Fakultásán, ószövetségi szövegek feldolgozásával foglalkozik. Nem csak a szövegek számítógépre vitelével, hanem az egyes alakok analizálásával is foglalkozott. Sőt, itt jelenik meg a szöveg analizálásának egy magasabb szintje, a szöveg klózokra (több szóból álló egység) bontása, és az ezek közötti viszony implementálása. Együtt dolgoztak az amszterdami Katolikus Egyetem Teológiai Fakultásán alapított Ézsaiás Projekt csoporttal, illetve a bielefeldi főiskola munkatársaival együtt készítették a PC-s adatbázis keretet. • Maredsous, a Maredsous Apátság (Belgium) keretén belül működő csoport, akik a kódolás során az egységet egy héber szóban határozták meg, így 257 byte egy héber szóról minden információt tartalmazott a szövegbeli pozíciójától (könyv, fejezet, vers, stb.) a szó nyelvtani meghatározásáig. • Westminster (Philadelphia, USA), akik elsősorban a meglévő szövegfeldolgozásokat uniformizálták, összehasonlították, elemezték és a hibákat javították. A Westminster által kidolgozott egységes kódolási rendszer majdnem mindenben azonos a Bible Works által használt kódrendszerrel. • CATSS (Computer Assisted Tools for Septuagint Studies), 1981-ben kezdték munkájukat a jeruzsálemi Héber Egyetem és a philadelphiai Westminster csoport közös projektje. Célja a héber és a görög Ószövetség összehangolása, a párhuzamos szöveg kódolása. Azt figyelhetjük meg, hogy a Biblia elektronikus feldolgozása során a héber nyelvű szövegek kódolása lendületesebb volt, mint a görög vagy más nyelvű szövegek kódolása. Azt hiszem, ez azzal is magyarázható, hogy egyrészt a fordított írásmód és a pontozás reprezentálása az informatikusok számára eleve nagy kihívás volt, másrészt a kódoláshoz elengedhetetlenül szükséges absztrakció, és az ezzel járó fantázia itt kézenfekvőbb, harmadrészt a héber kvadrát írásmód a maga „négyzetességével” szinte önként kínálja magát informatikai feldolgozásra. A cikk további részében a héber szövegek feldolgozására szorítkozom, ezen belül is három nagy fázisát mutatom be a feldolgozásnak: hogyan kerül a kézirat a képernyőre, hogyan állnak össze a betűk szavakká, és hogyan lesznek a szavakból klózok és mondatok.
3. Hogyan kerül a kézirat a képernyőre? Két válasz adható erre a kérdésre: valaki begépeli, vagy valaki lapolvasóval beviszi a szöveget. A két mód között nagy különbség van, nem csak a munkaigényre
nézve, hanem a kódolt tartalom szöveghűsége, tárigénye és hordozhatósága (kompatibilitása) szempontjából is. A képernyőn megjelenő betűk képpontokból állnak. Miként tárolódik ez a számítógép memóriájában? A bitképes szövegben minden egyes betűről minden képpont, a kódolt szövegnél pedig egy betűt egy kód azonosít. Az alábbi ábra bitekre és bájtokra (8 bit) lebontva mutatja be azt, ahogyan egy betű, nevezetesen az alef megjelenik a képernyőn. [ALEF] 1 2 3 4 5 6 7 8 9 10 11 12 13
0123456789ABCDEF ....##......###. -> 24+25+212+213+213+214 = 28720 ...###......###. -> 23+24+25+212+213+213+214 = 28728 .#####.....###.. stb. ....##....###... ...##....###.... ...##...###..... ....##.######... ....#####...##.. .....###....##.. ....###.....##.. ...###......##.. ..###......##... .####.....####..
Az eredmény egy 13 tagú számsorozat: [28720, 28728, …]. A bitképes szövegnél közvetlenül ez a számsorozat tárolódik a memóriában is. A begépelt szöveg betűihez nem számsorozat, hanem csak egy szám tartozik, például az alábbi módon: [ALEF] -> a héber ABC első betűje, ezért legyen a kódja: 1. [BÉTH] -> a héber ABC második betűje, kód: 2. stb. A betűkhöz jeleket is rendelünk, pl.: [ALEF] -> A [BÉTH] -> B stb. 3. A bitképes szöveg A lapolvasóval bekerült szöveg bevitele teljesen mechanikus, a bevitelkor nem igényel döntést az embertől. A beolvasott szöveget a számítógép kvázi-fényképként kezeli, alapértelmezésben egyáltalán nincs meg a lapon található jelek szétválasztása és csoportosítása. Azt a döntési folyamatot, hogy egy képponthalmaz éppen milyen karakter a szövegben, egy intelligens algoritmus végzi el helyettünk. A szöveg alapvetően úgy tárolódik, mint egy fekete-fehér fénykép. A szöveg területe apró kis rácsokra (képpontokra) osztódik, és attól függően, hogy a kéziratban éppen az adott pontban írtak-e vagy sem, a képpont értéke 1 vagy 0 lesz
(bit), ezért nevezzük ezt a formátumot bitképes szövegnek.1 Képfelbontásnak nevezzük egy adott szakaszban a képpontok sűrűségét, mértékenysége: DPI (= dot per inch). A képfelbontások tekintetében számunkra az a lényeges, hogy a felbontási minőség legalább megközelítse a szabad szemmel látható szöveg felbontási minőségét, hiszen a kódexmásolók is szabad szemmel dolgoztak. A mai képolvasók teljesítménye messze kielégíti ezt a követelményt. A bitképes szöveg tárigénye messze nagyobb, mint a begépelt szövegé, hiszen itt a kódexlapról minden egyes képpontot tárolni kell.2 Természetesen léteznek tömörített képek (jpg,gif), amelyek kisebb helyen képesek az adott képet rögzíteni, némi adatveszteséggel, ám ez az adatveszteség a „szabad szemmel látható” minőséget nem veszélyezteti. Ahhoz, hogy egy bitképes szövegben keressünk, egy képmintában kell megfogalmaznunk azt, amit keresni szeretnénk. Hiába keresnénk egy betűt, ha nem tudnánk lerajzolni, milyen az a betű pontosan. Nagyon sokszor azonban nem minden betű pontosan egyforma, arról nem is szólva, hogy kisebb-nagyobb szennyeződések (hibák) kerülhetnek a bitképes szövegbe. Tudnunk kell azt is, hogy hol állnak a sorok a bitképen, és azt is, hogy a soron belül hol kezdődik egy betű, és hol van vége. A bitképes szöveg felismerése rendkívül bonyolult és időigényes folyamat3, egyrészt az illesztés és felismerési algoritmus összetettsége miatt, másrészt a feldolgozandó információ nagysága miatt. A felismerés hatékonyságára nagymértékben befolyással van a feldolgozandó szövegkép tisztasága és rendezettsége. 4. A kódolt szöveg Amikor valaki begépeli a szöveget, akkor a kritikus döntés, hogy a kéziratban egy bizonyos jel milyen betű vagy írásjel, annak a kezében van, aki a gépelést végzi. Az emberi agyban történik meg a felismerés, a memóriába már csak a felismert kód kerül. De vajon milyen kód legyen az? A kód kérdése a felhasználókat vajmi kevéssé érdekli. A fontos az, ahogyan a szöveg megjelenik a képernyőn és a nyomtatón. Amikor meglátnak egy héber fontkészletet, akkor elsősorban az alapján osztályozzák, hogy mennyire szép a megjelenése, mennyire fedi le azokat a jeleket, amelyeket használni akarnak, és mennyire könnyű a kezelése. Ám informatikai szempontból sokkal fontosabb az, hogy a fontkészlet mennyire hordozható, mennyire alakítható át más fontkészletté, egyszóval mennyire világos és következetes a kódolása. A felhasználóknak talán érdemesebb lenne abban megállapodni, hogy milyen egységes kódolást használnak a karakterek tárolására, így egy konverter segítségével az egyértelmű kódokat később mindenki tetszőleges betűkészlethez rendelheti. Az alábbi táblázat egy Általában ezt a formátumot bmp (= bitmap) kiterjesztéssel jelöljük a számítástechnikában. A Révay Lexikon számítógépes változatát (CyberstonE Entertainment, 1996.) bitképes tárolással készítették el. A kiadás hűen tükrözi a lexikon kinézetét, mondhatjuk, hogy egy elektonikus facsimile kiadást nyertünk. Ám az elektronikus változat 4 CD-ből áll, mintegy 2600 Mbyte-ot foglal el, ráadásul úgy, hogy a bitképeket tömörítették. Ugyanez a mű karakteres tárolása (21 kötet, kötetenként átlagosan 800 oldal, oldalanként két hasáb, egy hasáb 67 sor és átlagosan 40 leütés) megközelítőleg 86 Mbyte-ot foglalna el tömörítés nélkül, ami kb. 3%-a a bitképes tárolási területnek. 3 Az ilyen szoftverek gyártása nagy szaktudást és ötletességet igényel, az ágazat egyik vezető szoftvere a nemzetközileg is elismert és használt magyar Recognita rendszer.
1
2
nemzetközileg elfogadott átírást mutat be, amelyet többek közt a Bible Works program is használ.4 5. Michigan-Claremont átírás Mássalhangzók Álef Bét Gímel Dálet Hé Váv Zajin Hét Tét Jód Kaf Lámed Mém Nún Számek Ájin Pé Cádé Qóf Rés Szín/Sín Szín Sín Táv
) B G D H W Z X + Y K L M N S ( P C Q R # (pont nélkül) & $ T
Magánhangzók Patah Qámec Szegól Céré Híreq Hólem Qámec hatúf Qibbúc Súreq Sheva Hatéf-patah Hatéf-szegól Hatéf-qámec
A F E " I OW F U W. : :A :E :F Egyéb jelek
Maqqef Ketiv Qere Dáges Hangsúlyjel
* ** . ^
6. UDCH Projekt A bitképes és a kódolt szöveget összehasonlítva világos, hogy a kódolt szöveget sokkal könnyebb tárolni és kezelni. Mindez lehet, hogy a pontosság és szöveghűség rovására megy, hiszen a kódolás után már nincs módunkban egy bevitt kódot felülbírálni, hacsak nem kódoljuk a felülbírálási lehetőségeket is. A bitképes szövegnek viszont az a vitathatatlan előnye, hogy maximálisan hűséges a kézirathoz. Az Utrechti Egyetem Teológiai Fakultánsán 2000-ben kísérletet tettek arra, hogy egy olyan kódolási mechanizmust vezessenek be, amivel a kéziratokban az eltéréseket és variációs lehetőségeket is tárolni lehet. Ez a szöveghűség tekintetében óriási lépés lett volna, ugyanakkor a kódolási technikával pedig megmaradt volna a könnyen kezelhetőség és tárolás lehetősége. A projekt neve: Unit Delimination in Classical Hebrew (UDCH) volt, de tudomásom szerint sajnos anyagi támogatás hiányában nem indulhatott be. A. Groves: On Computers and Hebrew Morphology, in: Computer Assisted Analysis of Biblical Texts, editor: E. Taltsra, Free University Press 1989.
4
Az UDCH az alábbi hat alapelvet fogalmazta meg a kódolt szöveggel kapcsolatban:5 1. Minden felhasználó számára áttekinthető legyen. 2. Minden lehetséges határolójelet tartalmazzon, ami a héber, görög és szír bibliai kéziratokban előfordulhat. 3. Bármilyen számítógépes felületen működjön (platformfüggetlenség). 4. Ne legyen szükség hozzá semmilyen drága vagy bonyolult alkalmazáshoz. 5. A file-ok cseréje e-mail útján lehetséges legyen. 6. A formátum specifikációja olyan legyen, hogy a tartalom a világhálón keresztül könnyen elérhető legyen. Az UDHC egy rekordja egy szót ír le, amely a szövegben betöltött pozícióját, a környezetét, és lehetséges olvasatát tartalmazza.
4. Hogyan állnak össze a betűk szavakká? A legegyszerűbb módon úgy tudunk szavakat kódolni, hogy nem vesszük figyelembe azt, hogy a szó tulajdonképpen betűkből áll. Ez azt jelenti, hogy a szövegben nem a betűket kódoljuk, hanem a szavakat. A héber Ószövetség és a görög Újszövetség bármennyire is nagy mennyiségű szövegnek látszik, mégis csak véges számú szóból áll, így megtehetjük azt, hogy egyszerűen megszámozzuk a szavakat. Így egy szóra hivatkozhatunk úgy, hogy a hozzárendelt számot adjuk meg. Ez a kódolási technika nem a számítástechnika vívmánya, hanem jóval előbb, 1890ben Dr. James Strong és munkatársai 35 évnyi munka után készítették el konkordanciájukat, amely azóta többszöri revízión esett át. A mai elektronikus konkordanciák is úgy ismerik a szavakhoz rendelt számkódokat mint a Strong's number. A szavak egyszerűen egy számot kapnak pl: [ [ALEF][MÉM][RÉS] ] -> A héber nyelvben egy szó, kódja: 559. (Strong’s number).
Az így lekódolt szöveg ugyan irodalmilag kiábrándító, de keresésre és a szó ismételt előfordulásainak megjelölésére remekül alkalmazható. A Strong's number legnagyobb hátránya az, hogy a kódon kívül nem tartalmaz információt a szó szemantikai és szintaktikai állapotáról. Ehhez egy sokkal összetettebb és árnyaltabb jelölésrendszerre volt szükség, amely már az informatikai korszakban alakult ki. A különböző szöveg-feldolgozási projektek különböző formátumot használtak a szavak lekódolására. A héber szavak kódolására többszöri átdolgozás után az ún. Westminster kódrendszer vált be a legjobban, pl. a Bible Works is ezt a kódrendszert használja. Ez a kódrendszer a következő:6 A WESTMINSTER adatformátumban egy rekord felosztásban (# számot jelent): fejezet#
5 6
vers#
szó#
UDCH, 2000. Utrecht. Bible Works, 1995. Michael S. Bushell
morféma#
7 mezőből áll az alábbi morféma
lemma/ gyök
@analízis
Pl. a Genesis 1:1 második rekordja az alábbi módon kódolható: 1
1
1
2
R”)$I^YT
R”)$IYT
@ncfs
A morféma és a gyök a fenn leírt Michigan-Claremont átírással alapján kódolt, az @analízis mező kódolása pedig a következő: A @ lemmákat vagy gyököket választ el egymástól. @x @x
#1 Kategória Paragrafus jel Paragrafus jel /Nun (P@x, S@x, N@x csak)
@P-
#2 Kategória Kisebb egységek
@Pa @Pc @Pd @Pg @Pi @Pn @Po @Pp @Pr @pi-
= = = = = = = = =
névelő (elválaszthatatlan elöljáróval = @Pp+Pa) kötőszó határozószó kérdőszó indulatszó tagadószó közvetlen tárgy elöljárószó viszonyszó #3 Kategória Névmás
@pii = kérdőnévmás @pi[pg#]* = önálló (p személy, g nem, # szám) @ps[pg#]* = suffixumos (p személy, g nem, # szám) (pl. 'pi3ms' = egyes szám 3. személyű masculinum önálló személyes névmás) @n-
#4 Kategória
Főnév
@np = tulajdonnév @ng = nem héber (csak az arámban fordul elő) @nc[g#s]* = köznév (p nem, # szám, s státusz) (pl. 'ncmpc' = többesszámú masculinum köznév status constructus-ban) @a-
#5 Kategória Melléknév/Számnév
@a[g#s]* = melléknév (p nem, # szám, s státusz) (p.l. 'afs' = femininum egyesszámú melléknév) @-X-
#6 Kategória
Suffixumok
@[szó_analízis]Xh = paragogikus heh (Westminster: @sh) @[szó_analízis]Xd = iránymutató heh (Westminster: @sd) @[szó_analízis]Xn = paragogikus nun (Westminster: @sn) @[szó_analízis]X[pg#]* = névmási suffixum (főnevek) / tárgy suffixum (igék) (pl. 'ncfpcX2mp' = egy pluralis femininum főnév constructus-ban, egy pluralis 2. személyű masculinum suffixummal) @v-
#7 Kategória Igék
@vsapg#s** = ige (az igegyök pontozatlanul) (s igetörzs, a igeidő, p személy, g nem, # szám, s status) (e.g. 'vqi3ms' = qal imperfect third person masculine singular) Pl: (minden példa Qal igetörzsben van)
vqp3ms = sing. 3. szem. perf. masc. vqi3ms = sing. 3. szem. imperf. masc. vqi3msj = sing. 3. szem. imperf. masc. apokopált vqvms = sing. masc. imperativus vqa = infinitivus absolutus vqc = infinitivus constructus vqPms = sing. masc. participium vqPmsc = sing. masc. participium constructus vqsms = sing. masc. passiv participium vqsmsc = sing. masc. passiv participium constructus *Személy/nem/szám névmások, köznevek, igék és határozószók számára: (pg# = személy, nem, szám; g#s = nem, szám, alak) A p = személy g = nem # = szám s = státusz absulutus-hoz m = hímnem (masc.) s = egyes szám 1 = első személy nincs jelölés (sing.) f = nőnem (fem.) 2 = második c = constructus p = többesszám b = mindkettő személy d = meghatározott (plur.) (főnév) 3 = harmadik (arám) d = duális c = közös (ige) személy **Igéknél: (sapg#s = igetörzs/igeidő/személy/nem/szám/státusz. ld. fenn: pg#s.) s q n p P t h H Q
= = = = = = = = =
igetörzs Qal Nifal Piél Pual Hitpaél Hifíl Hofal valódi Qal passzív
Az arám igetörzsek: A B C D E F G H I J K L M N O P Q R S
aph haph heph hoph htap htpe htpo hish ish ith itpa itpe pael peal peil pol saph shap htpa
a = igeidő / aspektus p = perfectum i = imperfectum v = imperativus c = infinitivus constructus a = infinitivus absolutus p = participium s = Qal passiv participium
egyéb j = apokopált forma h = cohortativus
5. Hogyan állnak össze a szavak mondatokká? A Biblia szövege versekre, fejezetekre és könyvekre van osztva, ezek jelölése nem okoz különösebb problémát, az ismert módon hivatkozunk rá az elektronikus szövegben is, pl. Deut. 1,1 a Deuteronomium első fejezetének első verséről van szó. Ugyanakkor felmerül az a kérdés, hogy lehetséges-e más elemi egységekre bontani a szöveget mint vers? A Werkgroep Informatica csoport kisebb egységekre, klózokra bontotta a héber Biblia szövegét, azaz néhány szóból álló, szintaktikailag összetartozó mondat-egységeket. Nem csak a klózokra tagolást végezték el, hanem a klózok közötti kapcsolatot is ábrázolták. A kapcsolatoknak számokat adtak az alábbi típusok szerint: Szabályos kódok: 200: kötőszóval és igével összekapcsolt formálisan identikus klózok 201: ua. mint a 200 csak kötőszó nélkül 220: klóz H-relativummal 222: második része a klóznak, egy beágyazott klóz által elválasztva az elsőtől Rendhagyó klózok: 161: ipf. - partic. 113: imp. - ipf. + L) 130: W(TH - imp. 123: imp. - perf. 62: -- inf.cs. + L Kötőszótól függő kapcsolatok: 10: -- klóz H-relativummal 12: -- )#R + perf. 16: -- )#R + partic. 321: ipf.- - W + perf. 306: ptv.- - W + nom. klóz 526: ptc.- KY + prf. 713: imp.- LM(N + ipf. Az alábbi részlet a Deut. 4:1-2 verseit bontja klózokra és a klózok közötti kapcsolatot vonallal és a kapcsolat kódokkal ábrázolja.7
E.Talstra, F. Postma: A short history of "Werkgroep Informatica" in: Computer Assisted Analysis of Biblical Texts, editor: E. Taltsra, Free University Press 1989.
7