PAJZS JÚLIA Frazeológiai egységek a Nagyszótárban Az Akadémiai Nagyszótár feladatának tartja a frazeológiai egységek bizonyos szintű reprezentálását. Ehhez a számítógéppel gyűjtött szövegkropuszt és az archivális cédulákon található példákat használják fel. Dolgozatomban a szókapcsolatok, szólások (idiómák) azonosításának, kiválasztásának és a szótárban való ábrázolásának problémáival foglalkozom. E kérdésekkel akkor szembesültem, amikor – egy meglehetősen bonyolult próbaszócikkben (ld. 1. ábra) – azt vizsgáltam, milyen szerkezeti egységeket kell definiálnom a programkészítés során a szótári adatbázisban. A szócikk áttekintése közben a következő kérdések merültek fel bennem: – Hogyan különítjük el az értelmezendő szókapcsolatokat, szólásokat, melyeket kell feldolgoznia a Nagyszótárnak? – Hogy találhatnánk meg őket a korpuszban? Egyáltalán benne vannak-e a korpuszban, ha nem, mi a teendő? (Az idézetek bibliográfiai adatai elején szereplő # azt jelenti, hogy a cédulás gyűjtésből származik. Mint látjuk, a példák túlnyomó többsége innen van.) – Van-e olyan automatikus módszer, amivel megkönnyíthető a szókapcsolatok felismerése? Az angol korpuszalapú lexikográfiában igen sok statisztikai eljárást alkalmaznak az ilyen jellegű feladatokra, vajon lehetséges-e a magyar korpuszra is valamilyen statisztikai módszert használni? – Ha megtaláljuk és a szócikkbe illesztjük a frazeológiai egységeket, hogyan ábrázoljuk? Úgy-e, ahogyan itt látjuk, rendkívül precíz, egyszersmind takarékos formában, vagy valami könnyebben olvasható módon? – Részben függetlenül a nyomtatott változattól, hogyan tárolhatjuk úgy a szótár adatbázis változatában ezeket, hogy a lehető leghatékonyabban kereshessük őket később? Részlet a Nagyszótár árnyék próbaszócikkéből. A szócikket készítette: Ittzés Nóra ♦Árnyék után árnyékon. [a világ árnyékán] kapdos [ kapkod] / Árnyékot kerget 'hiú ábrándok után fut': a' valóság helyett árnyékon kapkodni nem szoktak (#1783 Győrfi: Klimius, 2) A' világ árnyékán kapdosott. A' szeleket horgászta (#1791 Noszkó: Virág szó-tár, 133) valóság hellyett árnyékot kergettem (#1804 Molnár Borb.: Bar.vet., 211) Árnyék után kapdos (#1851 Erdélyi: Közmond.,21) ♦Maga árnyéka ellen se vitéz 'nagyon gyáva': Maga árnyéka ellen se vitéz (#1820 Dugonics: Példabesz. 1, 142) ♦Ma is (csak) akkora árnyéka (van), mint tegnap / Most is akkora az árnyéka, mint tavaly ilyenkor volt a) 'az, hogy most jobb sora van, nem jogosítja fel arra, hogy másokat lenézzen': Ma is akkora árnyéka, mint tegnap (#1820 Dugonics: Példabesz. 2, 68) sok emberről mondják: most is akkora az árnyéka, mint tavaly ilyenkor volt (#1867/1897 Vas G.: 9, 107) b) 'szegény, nem gazdagodott meg': Ma is csak akkora árnyéka, mint tegnap (#1820 Dugonics: Példabesz. 2, 242) ♦Nem fér(het) hozzá (még csak) az árnyéka (sem) vminek / Vminek még (csak) az árnyéka sem közelítheti [eshet rá] 'még csak gyanúsítani sem lehet vmivel': [Jézushoz] a' haragnak, dühösködésnek ... még tsak árnyéka sem közelíthet (#1793 Mátyus I.: Ó és új Diaet. 6, 742) Még árnyéka sem eshetik rájuk a gyanúnak (# 1875 Salamon: Tört. dolg., 57) Daróczy István egyike a legbecsületesebb ifjaknak, kihez meg árnyéka sem fér a bűnnek (#1883 Mikszáth K.: Kav., 98) a lapokban terjesztett álhirek czáfolásához kijelented, hogy meggyőződésed szerint a gyanu árnyéka sem férhet a miniszter jelleméhez (#1890 Herczeg F.: Fenn 2, 83) ♦Nem férkőzik hozzá vminek az árnyéka 'még csak a gyanúja sem támad benne vminek': Annyira bizott Louiseban, hogy soha a gyanu árnyéka nem férkőzött hozzá (#1894 Tóth B.-Ohnet: Gyermekek 1, 42) ♦Az övé bizony az árnyéka! / Az árnyéka az övé 'ahhoz ugyan nem jut hozzá, semmit sem kap belőle': Így kiáltott örömében [Pál]: »Istenem uram, Beh szépen Fütyöl ez az én madaram!« »Kendé bizony az árnyéka! Mert olyat mondok, hogy még« Hangzik átal a sövényen Egy goromba szó keményen (1854/1951 Arany J.: 1900014061, 221 ) átvevé Azt, a minek árnyéka az övé (#1861/1902 Arany J.: Kk. 2, 118) ♦Attól is fél, hogy árnyékában megbotlik 'igen vén': Attúl is fél; hogy árnyékában megbotlik (#1820 Dugonics: Példabesz. 2, 329) ♦Az árnyékból is alig ehet vmit 'szegény, nincstelen': Az árnyékbúl is alig ehet valamit (#1820
1
Dugonics: Példabesz. 2:, 248) ♦Árnyékon a legyet csapja 'dologidőben lustálkodik, lopja a napot': Árnyékon a legyet csapja (#1848/1902 Arany J.: Kk. 1, 59) ♦Árnyékának se vétettem 'semmit sem vétettem neki': Árnyékának se vétettem (#1851 Erdélyi: Közmond., 21) ♦Az árnyéknak se árt 'békes, jámbor ember': Az árnyéknak se árt (#1820 Dugonics: Példabesz. 1, 5) ♦Maga árnyékának is köszön 'olyan vén, hogy a feje is reszket': Arra jutott: hogy maga árnyékának is köszön (#1820 Dugonics: Példabesz. 2, 330) Az árnyék próbaszócikkében található szókapcsolatok, szólások * vminek az árnyéka ráesik vkire, vmire * előreveti az árnyékát vmi * ráveti (az) árnyékát vkire, vmire * árnyékot vet vkire, vmire vminek az árnyéka alatt beleveti az árnyékát vmibe * árnyékba borít Fordul, mint az árnyék Kioson, mint az árnyék Olyan, mint az árnyék Olyan, mint a nyári árnyék Sötét, mint az árnyék Úgy lézeng, mint az árnyék Árnyéka árnyéka (Még csak) árnyéka se(m) lehet [Még csak árnyékában sem áll; Árnyékába sem léphet; Árnyékához se(m) közelít] Árnyék után árnyékon [ a világ árnyékán] kapdos [kapkod] / Árnyékot kerget * Maga árnyéka ellen se vitéz Ma is (csak) akkora árnyéka (van), mint tegnap / Most is akkora az árnyéka, mint tavaly ilyenkor volt * Nem fér(het) hozzá (még csak) az árnyéka (sem) vminek / Vminek még (csak) az árnyéka sem közelítheti [eshet rá] Nem férkőzik hozzá vminek az árnyéka Az övé bizony az árnyéka! / Az árnyéka az övé Attól is fél, hogy árnyékában megbotlik Az árnyékból is alig ehet vmit Árnyékon a legyet csapja Árnyékának se vétettem Az árnyéknak se árt Maga árnyékának is köszön Nagyobb árnyékokra veti szemeit * Árnyékot ölel / Árnyékkal ölelkezik össze Árnyékot se(m) vet / (Olyan) sovány v. vékony, hogy árnyékot se vet (Még) (az) árnyék(á)tól saját [maga árnyékától] is fél [megijed] v. [tart] / Minden árnyéktól megijed * Nem (egyhamar) [Sohasem] ijed meg [fél] (a) (maga) árnyékától / Az ördög nagyapjának árnyékától sem ijed meg Árnyékkal ijeszti az oroszlánt / Az oroszlánt árnyékával ijeszti / Oroszlánt ijesztget árnyékkal Árnyékával [árnyékkal] vív
1. ábra A frazémák felismerése, meghatározása A lehetséges meghatározások áttekintésében nagy segítségemre volt Bánki Judit kézirata, amelyet a lexikográfiai szeminárium keretében „Állandósult szókapcsolatok az egynyelvű szótárakban” címmel készített, valamint Ittzés Nóra befejezés előtt álló munkája, „Az Akadémiai Nagyszótár szerkesztési szabályzata”. Bánki Judit idézi O. Nagy Gábor meghatározását: „Állandósult szókapcsolatoknak, frazeológiai egységeknek tekintjük azokat a kötött szerkezeteket, amelyekben az egyes elemek részben vagy teljesen elvesztik önálló jelentéstartalmukat, új lexémát hoznak létre, új jelentéssel”. A szabad szintagmákkal szemben a részek nem cserélhetők fel, teszi még hozzá Bánki. Ittzés Nóra a szerkesztési szabályzatban így határozza meg: „Állandósult szókapcsolatoknak a több szóból álló, de lexémaszerűen összeforrt, lexémaszerűen viselkedő, külön értelmezésre szoruló nyelvi elemeket tekintjük.”
2
Javaslata alapján a nagyszótárban két lényeges típust különítünk el: az értelmezett szókapcsolatokat és a szólásokat . „Értelmezett szókapcsolatnak a lexémaszerűen összeforrt szintagmát tekintjük, amelynek elemei – de legalább egyik elemük – még őrzik eredeti konkrét jelentésüket. Az állandósult szókapcsolat lehet jelzős szerkezet, illetve igéből és névszóból álló kapcsolat.” Ezekből az. 1. ábra második felének elején láthatunk példákat. Formailag itt azzal különülnek el, hogy kisbetűvel kezdődnek. Az értelmezett szókapcsolatokon kívül a Nagyszótár a fontosabb szólásokat kívánja még feldolgozni, de nem kerülnek bele a szójárások, szóláshasonlatok, közmondások szitkozódások, legfeljebb a példamondatok között. Az angol lexikográfiai szakirodalomban néhány igen fontos észrevételt találtam a frazeológiai egységekkel kapcsolatosan. Michael Rundell (1998) azt írja, hogy az utóbbi évtizedben forradalmi mértékben átalakult angol, egynyelvű, nyelvtanulóknak szánt szótárak gyökeresen eltérően kezelik a szókapcsolatokat, mint azelőtt szokás volt. E „forradalom” elindítója a COBUILD szótár volt, amely elsőként használt számítógépes korpuszt a szótár forrásanyagául. A szerkesztők, élükön a főszerkesztő John Sinclairrel, hagyták hogy a korpuszban talált tények alakítsák a szócikkek struktúráját. Eközben bátran „leölték” a lexikográfia néhány „szent tehenét”. Az általuk használt eljárások összességét „corpus driven” megközelítésnek nevezik, szembeállítva a „corpus based” módszerekkel. A különbség lényegét egy egyszerű példával illusztrálhatjuk: míg minden korábbi szótárban a long szó első jelentése a nagy távolság, a COBUILD-ben az első jelentéscsoportban az idő hosszúságára vontakozó kifejezések szerepelnek, mivel ezek lényegesen gyakoribbak a korpuszban. A korpusz használatának következtében a szókapcsolatok bősége is szembeszökő. Ezek ugyanúgy vastagon vannak szedve, mint az egyelemű címszavak. Kiválasztásukhoz azt sem tartják feltétlenül szükséges kritériumnak, hogy a szókapcsolat önálló, az elemeiből ki nem következtethető jelentéssel bírjon. Sinclair a „Lexical item” című tanulmányában (Sinclair, 1997) kifejti, hogy a több szóból álló, rendszeresen együttesen előforduló szókapcsolatok teljesen egyenrangúak a címszavakkal. Mivel a szavak sohasem önmagukban, hanem mindig valamilyen szövegkörnyezetben jelennek meg, Sinclair célszerűnek tartja, hogy a szótárak is minél inkább a kollokációk értelmezésére törekedjenek. A COBUILD szótár olyan elsöprően sikeres volt a nyelvtanulók körében, hogy azóta minden fontosabb angol kiadó COBUILD-szerű szótárakat ír. A Longman 1978-as és 1995-ös kiadásából láthatunk itt egy szócikket, amellyel Michael Rundell fent említett tanulmányában illusztrálja a változás jellegét. Míg a korábbi szótárakban, a magyar szótárakhoz hasonlóan, először a szó konkrét jelentéseit sorolták fel, és vagy valamelyik jelentés végén, vagy az egész szócikk végén álltak a szókapcsolatok, közülük is elsősorban azok, amelyek valódi idiómák, azaz jelentésük nem következtethető ki az összetevőikből, az új változatban első helyen találjuk a be on the lookout for szókapcsolatot, és csupán a 3., 4. pontban láthatjuk a szó eredeti jelentéseit. Ezt a megoldást azzal indokolják, hogy a nyelvtanulók akkor járnak legjobban, ha a gyakrabban előforduló elemek kerülnek az első helyekre. Külön kiemelendőnek tartom az új változat szókapcsolat-variánsainak áttekinthető elrendezését. A keep a lookout kifejezést először önmagában értelmezik, majd ezt követi ennek két alakváltozata, szintén vastagon szedve, de már értelmezés nélkül, csupán egy példamondattal illusztrálva. A Nagyszótár műfaja ugyan jelentősen eltér a nyelvtanuló szótárakétól, mégis úgy gondolom, több vonatkozásban is okulhatunk az modern, korpuszvezérelt angol lexikográfiából.
3
lookout .. n 1 a future possibility: It’s not a good lookout for his family if he’s going to work abroad 2 the act of keeping watch 3 a place to watch from 4 a person who keeps watch 5 one’s own lookout a state of affairs one must take care of oneself, without others’ help: If you want to go that lion’s cage, it’s your own lookout 6 on the lookout for searching for (LDOCE1 1978) lookout ..n 1 be on the lookout for to watch a place or situation continuously in order to find something you want or be ready for problems or opportunities Police were on the lookout for anyone behaving suspiciously. | We’re always on the lookout for new business opportunities. 2 keep a lookout to keep watching carefully for something or someone, especially for danger: keep a sharp/special lookout When you’re driving keep a sharp lookout for cyclists. 3 ... someone whose duty is to watch carefully for something, especially for danger: A lookout reported an enemy plane approaching. 4...a place for a lookout to watch from: a coastguard lookout on the clifftop. 5 it’s your/their own lookout: BrE spoken used to say that what someone has chosen to do is their own problem or risk, and no-one else’s: If he wants to ruin his health with all these drugs, that’s his own lookout. 6 be a poor/bad lookout for sb BrE spoken used to say that something bad or unsatisfactory is likely to happen: It’ll be a poor lookout for James if she finds that letter. (LDOCE3 1995)
Visszatérve a magyar szótárakhoz, először a Szókincstárban (Kiss G., 1998) néztem meg az árnyék szót tartalmazó szókapcsolatokat, mivel jelenleg ez az egyetlen olyan magyar egynyelvű szótár, amely számítógépen is hozzáférhető, ráadásul egyidejűleg két, kifejezetten nyelvi szoftverekre specializálódott magyar cég kiadásában is megjelent (MorphoLogic és Scriptum). Mindkettőnek más-más rokonszenves tulajdonsága van. A Scriptum változatával a nyelvészek többsége valószínűleg elégedettebb lesz, mivel a hagyományos szótári struktúrában való keresés sokkal áttekinthetőbben, precízebben megoldott. A Morphologic által készített programnak viszont az az óriási előnye, hogy a CD-re csak telepítéskor van szükségünk, ezután a merevlemezről gyorsan, egyszerűen kereshetünk a szótár minden fontosabb mezőjében, szerkezeti elemében, ráadásul egyszerre több szótárban is kereshetjük egyidejűleg a szavakat. E lehetőség előnyeit persze főként akkor tudnánk kihasználni, ha nem ez lenne az egyetlen egynyelvű magyar szótár, amely számítógépen elérhető. Az árnyék szót tartalmazó szókapcsolatok, szólások a Szókincstárban alázatos árnyékol árnyas bátor csontváz elszánt erőtlen gyáva gyenge követ1 (ige) nyuszi öreg sovány
a maga árnyékának is köszön árnyékba borít, árnyékba von, árnyékot vet
árnyékot adó nem ijed meg a maga árnyékától saját maga árnyéka nem ijed meg az árnyékától árnyékból gyúrt a maga árnyékától is megijed; árnyékától is fél; az árnyékától is megijed; maga árnyéka ellen sem vitéz olyan, mint az árnyékon nőtt bodza; önmaga árnyéka kísér, mint az árnyék megijed a saját árnyékától attól is fél, hogy az árnyékban megbotlik árnyékot se vet 3. ábra
A kurzivált alakok, a korábban idézett rendkívül részletes árnyék szócikkben nem fordulnak elő, mert nem volt rájuk adat sem a korpuszban, sem a cédulák között. Mindenestre, érdemes ebből a forrásból is ellenőrizni, találtunk-e adatot minden fontosnak tartott szólásra. A bátor és elszánt szinonimájaként megadott két szókapcsolat valószínűleg nem tudatosan tér el. A gyáva szócikkben felsorolt a maga árnyékától is megijed; az árnyékától is megijed forma, főként az előbb látott nagyszótári szócikkhez képest redundánsnak tűnik, a szótárban nem is közvetlenül egymás után vannak, így egy kicsit gyanús, hogy csak véletlenül került be
4
mindkettő. Ugyanezeknek egy másik változata a nyuszi alatt található megijed a saját árnyékától. Egyébként, redundanciája ellenére, a szótárfelhasználó szempontjából jónak tartom ezt a kifejtő megoldást, különösen az ilyen népszerűnek szánt művekben, mint a Szókincstár. Az hétkötetes Értelmező szótárban (ÉrtSz.) és a Kéziszótárban (ÉKsz.) sajnos nem tudjuk az összes olyan szókapcsolatot könnyedén kikeresni, amiben az árnyék szó előfordul, mivel egyik sincs meg számítógépes változatban. Így csak az árnyék szócikkben előforduló adatokat néztem meg. Az ÉrtSz.-ban a fontosabb, közkeletű szólásokat találjuk meg: (önmaga árnyéka,árnyékot vet vkire vmire, Szh: követi mint az árnyéka, olyan mint az árnyék, v. saját magának az árnyéka, vminek az árnyékában, előreveti az árnyékát valami, Nem fér hozzá vminek az árnyéka sem, Sz: nem ijed meg a maga árnyékától, K: árnyékáért becsüljük a vén fát) A Kéziszótár ezek számát még tovább csökkenti, nyilván elsősorban helytakarékossági okokból. Nem közöl például közmondást. A vizsgált szótárak közül kétségkívül a Nagyszótár lenne a leggazdagabb. Az O. Nagy Gábor szerkesztette szólásgyűjteménnyel azonban nem kíván versenyre kelni, mivel szándéka szerint elsősorban adatközlő, értelmező szótár. A Szókincstár anyaga is feltűnően bőséges ahhoz képest, hogy alapvetően szinonimaszótár jellegű, és mindössze egy kötet. De gazdagsága annak is köszönhető, hogy nem tartalmaz sem értelmezést, sem példát, ezért a hellyel nem kellett úgy takarékoskodnia, mint a Kéziszótárnak. Frazémák a korpuszban A frazémák elméleti vizsgálata után adjunk számot arról, hogyan is találhatjuk meg őket a korpuszban. Ehhez térjünk vissza az 1. ábrához. Csillaggal jelöltem azokat, amelyekre találtam adatot a korpuszban. Megállapíthatjuk, hogy a felsoroltak többsége egyáltalán nem fordul elő a számítógépes gyűjtésben. A találatok egy része pedig nem használható fel idézetként: például az árnyékba borít szókapcsolat előfordul ugyan, de többnyire nem átvitt jelentésben. A ráesik vminek az árnyéka szintén csak részben átvitt jelentésben fordult elő. A Nagyszótár szerkesztési utasítása szerint azonban a szókapcsolatokat csak akkor kell értelmeznünk, ha valamilyen sajátos jelentéssel bírnak . A megijed a saját árnyékától különféle alakjaira találtam ugyan adatokat, de erre is mindössze csak 11-et, amelyek közül néhány megint csak nem megfelelő példa a keresett szólásra. Mivel a szókapcsolatokat a gépen úgy tudjuk legkönyebben keresni, ha két legjellemzőbb szavuk együttes előfordulását keressük, például az árnyék és ijed szavak együttes előfordulásának keresésekor a program egyebek közt „a mint hogy gyermektiszta lelkéhez a gyanunak árnyéka sem fért; de Ilus szivében ujra az ijedelmes sejtelem boritotta ki sötét szárnyát,” mondattöredéket is megtalálta. Helykimélési okokból itt nem sorolnám fel a megtalált idézeteket és a kudarcról árulkodó lekérdezési kísérleteket, inkább arra bátorítanám az olvasókat, aki teheti, nézze meg a korpuszt (www.nytud.hu/hhc). Itt a felsorolt szókapcsolatokon kívül számos érdekes nyelvi adatot találhat. Elgondolkoztatott, hogy míg néhány közkeletűbb szókapcsolatra egyáltalán nem, vagy alig találtam példát, a számomra eddig ismeretlen Maga árnyéka ellen se vitéz; Árnyékot ölel szólásokra akadt példa a korpuszban. Ez a kettősség arra hívja fel a figyelmet, hogy a korpusz egyfelől rendkívül kicsi a kitűzött feladathoz képest, másfelől teljesen esetleges, hogy végül is mire találunk benne egy-két adatot, mire nem.
5
E kísérletezés legfontosabb tanulsága, hogy még azokat a szókapcsolatokat sem könnyű megtalálni a korpuszban, amelyeknek a létezéséről már tudunk. A lekérdezéskor csupán két szó együttes előfordulását kérdezhetjük, de sokszor hasznos volna, ha három, négy kulcsszót is megadhatnánk együttesen. A jelenlegi lekérdezési felület cseppet sem könnyíti meg az állandósult szókapcsolatok felismerését. Mivel a szótár történeti jellegű, a program tervezésekor azt tartottuk elsődlegesnek, hogy időrendben lássuk a megtalált adatokat. A szókapcsolatok könnyebb felismeréséhez azonban hasznos volna, ha a szó jobb és bal oldalán előforduló egy-két szóra is rendezhetnénk a konkordancia listát. Ez elsősorban a több száz vagy több ezer előfordulású szavak esetén jelenthet nagy segítséget. Eljárások a frazémák felismerésének megkönnyítésére Mint a bevezetőben említettem, az angol nyelvű korpusznyelvészeti, korpuszlexikográfiai szakirodalom több statisztikai módszert is ismertet e feladat megoldására. (Clear 1994, Biber – Conrad – Reppen 1998, Ooi 1998) A T-próba és a Z-próba a legelterjedtebb statisztikai eljárás szavak együttes előfordulásának vizsgálatára. A matematikai formulák ismertetése helyett itt csak a gondolat lényegét foglalom össze: Ha tudjuk, hogy két szó milyen gyakori egy adott korpuszban, együttes előfordulásuk valószínűsége kiszámítható. Amennyiben a ténylegesen észlelt együttes előfordulás száma magasabb, mint a kiszámított várható együttes előfordulás, akkor valószínűsíthető, hogy a két vizsgált szó valamilyen szókapcsolatot alkot. A gyakori együttes előfordulás még természetesen nem feltétlenül jelenti azt, hogy a szókapcsolatot önállóan értelmeznünk kell. A puszta statisztikai mutatók csak segíthetnek a gyakoribb kollokációk felismerésében, az pedig elsősorban a szótár koncepcióján múlik, vajon csak a sajátos értelemmel bíró frazémákat emeli-e ki és értelmezi, vagy mindent, ami gyakran, együttesen előfordul. A magyar korpusz esetében a helyes statisztikai eljárás elkészítése is bonyolultabb az angolnál, mivel a magyar szórend, ha nem is szabad, de a számítógépes feldogozás szempontjából sokkal kevésbé kötött, mint az angol. Másfelől valószínű, hogy éppen a frazémék szórendileg is viszonylag kötöttek. A korpuszok lekérdezésére használt programok többségében van lehetőségünk egy szó legjellemzőbb kollokációinak lekérdezésére. Általában a T-próba vagy a Z-próba módszerét alkalmazzák. A COBUILD lekérdező programjában ezt kollokációs fának nevezik. E lehetőség választása után megtekinthetjük, mely szavak fordultak elő leggyakrabban közvetlenül a szó előtt és után, kettővel a szó előtt és után, és így tovább öt-öt szónyi távolságban. Az egyes pozíciókban az előfordult szavakat a T-próba alapján számított mutatóra rendezve láthatjuk. Ha valamelyik kollokáció konkordanciáját szeretnénk megnézni, csupán rá kell kattintanunk a táblázat megfelelő sorára. Nagy segítséget jelent az is, hogy a konkordanciákat szintén egy-egy kattintással rendezhetjük a szó jobb vagy bal oldali környezetére, így könnyebben szemünkbe ötlik egyegy jellemzőbb szókapcsolat. Mindezek a módszerek azonban elsősorban akkor használhatók hatékonyan, ha kellő méretű korpuszon végezzük e keresést. Mint az árnyék szó esetében láttuk, bár ez a szó a gyakoribbak közé tartozik (több mint kétezerszer fordult elő a korpuszban), még az ismertebb szókapcsolatokra is alig-alig találtunk példát. A korpusz szavainak nagy része alig néhány előfordulással van reprezentálva a jelenlegi, 17 millió szövegszót tartalmazó anyagban. (A mintegy 180.000 lehetséges címszóból kb. 120.000 ötnél kevesebbszer fordul elő!) Ennek ellenére, mivel a túl gyakori szavak nagyszótári feldolgozása legalább akkora problémát
6
jelent, mint a ritka szavaké, feltétlenül érdemes kísérleteznünk különféle statisztikai eljárásokkal. Ezek nem csupán a szókapcsolatok azonosításában segíthetnek, hanem szintén az angol korpusznyelvészeti tapasztalatok szerint (Clear 1994) az új jelentések felismerésében is, éppen ugyanebből a gondolatból kiindulva: ha azt tapasztaljuk, hogy egy új kollokáció bukkan fel, ami még eddig sosem fordult elő a szó környezetében, gyanítható, hogy valamilyen új jelentés vagy kifejezés bukkant fel. Természetesen ehhez megint csak nagyságrendekkel nagyobb korpusz kell, és olyan programok, amelyekkel a korpusz bővítésekor keletkező listákat összevethetjük az előző állapot hasonló listáival. A szókapcsolatok megjelenítése A megtalált és felismert szókapcsolatokat a szócikkben többféleképpen tüntethetjük fel. Mint az LDOCE példájából láthattuk, a szócikkben való elhelyezés lehetősége is többféle lehet, a szótár céljától függően. Míg a hagyományos szótárakban első helyen rendszerint a lexéma konkrét jelentései állhatnak, a szókapcsolatok az egyes jelentések végén, a szólások, szóláshasonlatok, esetleg közmondások pedig rendszerint a szócikk végén, az LDOCE új változatában a leggyakoribb szókapcsolat került az első helyre, és az eredeti konkrét jelentések háttérbe szorultak. A Nagyszótár a hagyományos szemléletet követi. A szólások különféle változatainak megjelenítésekor választhatunk teljesen redundáns megoldást, ahogy a Szókincstárnál láttuk, vagy átmeneti megoldást, ahogy az LDOCE 1995-ös változatában láttuk. A Nagyszótár – O. Nagy Gábor hagyományát követve – egy igen helytakarékos, ugyanakkor pontos, valamennyi észlelt változatról számot adó leírási módot választott. Nézzünk meg egyet a bonyolultabbak közül: Nem fér(het) hozzá (még csak) az árnyéka (sem) vminek / Vminek még (csak) az árnyéka sem közelítheti [eshet rá]. Itt egyidejűleg számos változatot látunk, a teljesség kedvéért ezúttal soroljuk fel őket: Nem fér hozzá az árnyéka vminek; Nem férhet hozzá az árnyéka vminek; Nem fér hozzá az árnyéka sem vminek; Nem férhet hozzá az árnyéka sem vminek; Nem fér hozzá még csak az árnyéka sem vminek; Nem férhet hozzá még csak az árnyéka sem vminek; Vminek még az árnyéka sem közelítheti; Vminek még csak az árnyéka sem közelítheti; Vminek még az árnyéka sem eshet rá; Vminek még csak az árnyéka sem eshet rá Azaz ez esetben 10 változat van összefoglalva ebben az egy „képletben”. Azért nevezem képletnek, mert megjelenésében és feldolgozásának módjában elsősorban egy matematikai képletre, esetleg egy programsorra (ún. reguláris kifejezésre) emlékeztet. A kerek zárójelek a tetszőlegesen elhagyható elemeket jelölik, a szögletes zárójel a szólás részeinek vagylagosságára utal, „/”-jel pedig a teljes szólás vagylagosságára. Az összes változat explicit leírása azért is tanulságos, mert közben észrevehetjük, hogy a kerek zárójelben levő részek nem egészen tetszőlegesen hagyhatók el. Formálisan úgy tűnne, a Nem fér hozzá még csak az árnyéka vminek szókapcsolat is lehetséges, csak nyelvérzékünk tudatja velünk, nem így van. Az igazán precíz megoldáshoz azt is fel kellene tüntetnünk, hogy a még csak beszúrása esetén kötelező a sem-et is beszúrni. Tovább fokozva a matematikai formula-jelleget, a zárójeleket indexekkel láthatjuk el például így: Nem fér(het)1 hozzá (még csak)23 az árnyéka (sem)3 vminek. Az indexben látható 23-al azt kívántam jelölni, hogy a 2. zárójelben található elem beszúrásakor a 3. zárójelben lévőt is be kell szúrnunk. A kérdés már csak az, vajon hány olyan szócikkíró van, vagy lehet, aki miután a szókapcsolat felismerésének és megtalálásának nem kis szellemi erőfeszítést és munkaidőt követelő feladatán átesett, azt még a megfelelő formulával igazán korrekten le is tudja írni. Ha mindezeken mégis sikeresen átküzdötte magát, és egyszer megjelenik a szótár nyomtatott formában, vajon hány olyan olvasó lesz, aki ezt a formulát képes megfelelően feldolgozni? Jó lenne, ha a leendő Nagyszótár nem csak a „beavatottak” számára lenne könnyen használható, értelmezhető. Az átlagos olvasók többsége mindössze annyit ért
7
meg egy ilyen formulával találkozva, hogy van valamilyen szólás, amiben az árnyék meg a fér együtt szerepel, a példamondatokat megnézve, vagy már előbb eszébe is jut a szólás leggyakrabban használt formája: a gyanú árnyéka sem férhet hozzá. Mi lenne a jó megoldás? A teljesen redundáns, azaz az összes változat teljes felsorolása nyilván felesleges, helypazarló, és ha egymás után vannak feltüntetve legalább olyan bosszantó az olvasásuk, mint a bonyolult matematikai formuláé. Valószínűleg – az angol példaszócikkből is okulva – valamilyen átmeneti megoldás volna a legkedvezőbb. A fenti példánál maradva, nem tüntetném külön föl, hogy a fér ige ható alakját is használhatjuk, ha a példamondatok közt ilyen előfordul, úgy is látjuk. Sem az első sem a második változatban nem tüntetném fel a (még) csakot mint a változat elemét. Esetleg a példák között sorolnám fel. Arra törekednék, hogy csak a szólás legjellemzőbb, legállandóbb elemeit emeljem ki, és, ha kell, inkább kissé redundánsan, mint túlságosan komplexen. Amennyiben azonban a szólás jellege feltétlenül szükségessé teszi, hogy számos egyenrangú zárójelet használjunk, legalábbis a gépi változatban megkülönböztetném, melyek azok az opcionálisan elhagyható elemek, amelyeknek viszont a másik függvényében kötelezően elő kell fordulniuk. Erre azért van szükség, mert a gépi változatban lehetővé kell tennünk, hogy a szólás összes lehetséges alakjai, de csak azok, automatikusan generálhatók legyenek. Ennek érdekében a szócikk SGML változatában külön mezőnevet (“tag”-et) kapnak a kerek zárójellel jelölt részek (), a szókapcsolat egy részére vonatkozó variánsok, amelyet a nyomtatásban szögletes zárójellel jelölünk (), és a teljes szókapcsolat változatai (). Mint említettem, az opcionálisan elhagyható elemek esetleg összefügghetnek egymással, az összefüggést a tag attributumában adnám meg. A fenti példa az adatbázisban így kerülne ábrázolásra: Nem férhet hozzá még csak az árnyéka sem vminek Vminek még csak az árnyéka sem közelítheti eshet rá . A figyelmes olvasónak feltűnhet, hogy bár a közelíthet [eshet rá] lehetőségek közül csak a második van a nyomtatott változatban szögletes zárójelben, az adatbázisban feltétlenül szükségesnek tartanám az elsőként előforduló változat határának jelölését is, éppen a szókapcsolat változatainak automatikus előállíthatósága érdekében. Enélkül ugyanis nem lenne egyértelmű, hogy a szögletes zárójelben található kifejezés csupán az utolsó szót helyettesíti, vagy esetleg többet. E rendkívül precíz, ámde körülményes ábrázolási módnál jobbnak tartanám, ha a Nagyszótárban elsődlegesen a leggyakrabban előforduló formá(ka)t emelnénk ki, és a példamondatokban előforduló variációkkal mutatnánk be a többi változatot. Mindenestre megírni és olvasni is könnyebb lenne egy ilyen szótárt. Végezetül hangsúlyozni szeretném, hogy a bemutatott próbaszócikk valóban csak próba, amely nagy segítséget jelentett a szerkesztési utasítás kidolgozásában, és az ennek alapján készülő, a szócikkírást támogató program elkészítésében, egyfajta „állatorvosi lóként”. A szerkesztési szabályzat már az itt tapasztalt maximalizmust nem javasolja a kidolgozandó szócikkekben, inkább csak a valóban jellemző, gyakrabban használt szókapcsolatok felvételére ösztönöz.
Irodalom BÁNKI Judit (1991) Állandósult szókapcsolatok az egynyelvű szótárakban. Kézirat. MTA Nyelvtudományi Intézet.
8
BIBER, Douglas – CONRAD, Susan – REPPEN, Randi (1998) Corpus Linguistics Cambridge University Press, Cambridge. CERMAK, Frantisek (1994) Idiomatics The Prague School of Structural and Functional Linguistics. John Benjamins, Amsterdam/Philadelphia. p. 185-195. CLEAR, Jeremy (1994) I Can’t See the Sense in a Large Corpus COMPLEX ’94 Proceedings Research Institute for Linguistics, HAS, Budapest. p. 33-48. ITTZÉS Nóra (1999) A Nagyszótár szerkesztési szabályzata. Kézirat. MTA Nyelvtudományi Intézet. RUNDELL, Michael (1998) Recent Trends in English Pedagogical Lexicography Intertanional Journal of Lexicography OUP Vol. II. N. 4. p. 315-342. Oxford. OOI, Vincent B.Y. (1998) Computer Corpus Lexicography. Edinburgh University Press, Edinburgh O. NAGY Gábor (1982) Magyar szólások és közmondások Gondolat, Budapest ORSZÁGH László (1966) Szótártani tanulmányok Tankönykiadó, Budapest. SINCLAIR John (1997) The Lexical Item The Tuscan Word Centre
Felhasznált szótárak COBUILD: Collins COBUILD English Dictionary (Sinclar, J. & Hanks, P. & all.) 1987 Harper Collins Publishers, London ÉKsz.: Magyar értelmező kéziszótár (Juhász J. & all.) 1972, Akadémiai Kiadó, Budapest ÉrtSz.: A magyar nyelv értelmező szótára (Bárczi - Országh & all.) 1959-1962, Akadémiai Kiadó, Budapest LDOCE1: (főszerk: PROCTER Paul) Longman Dictionary of Contemporary English, 1978, Longman, London. LDOCE3: (főszerk: SUMMERS, Della) Longman Dictionary of Contemporary English, 1995, Longman, London. Szókincstár: (főszerk: KISS Gábor) Magyar szókincstár. Rokonértelmű szavak, szólások és ellentétek szótára. 1998, Tinta Könykiadó, Budapest.
9