Na počátku tvorby nového všeobecného výkladového slovníku současné češtiny Pavla Kochová, Zdeňka Opavská
1. Cílem příspěvku je představit nový lexikografický projekt, který se v současné době realizuje v Ústavu pro jazyk český Akademie věd ČR (ÚJČ). Od r. 2012 vzniká v lexikografickém oddělení ÚJČ nový výkladový slovník současné češtiny středního rozsahu s pracovním názvem Akademický slovník současné češtiny. Tento slovník navazuje na tradici všeobecných výkladových slovníků, které byly vytvořeny v průběhu 20. století na půdě ÚJČ. Tato tradice se rozvíjí od rozsahově největšího Příručního slovníku jazyka českého (PSJČ, 1935–1957), pokračuje k rozsahem střednímu Slovníku spisovného jazyka českého (SSJČ, 1960–1971) a dále k jednosvazkovému Slovníku spisovné češtiny pro školu a veřejnost (SSČ, 1. vydání 1978; 2., opravené a doplněné vydání 1994, 3., opravené vydání 2003). Každý z těchto slovníků představuje jeden z typů jednojazyčného výkladového slovníku1. Výčet synchronních jednojazyčných slovníků doplňme ještě o komerční projekt nakladatelství Lingea Slovník současné češtiny (2011, 30 000 hesel).2 Od vydání slovníku většího rozsahu, tj. Slovníku spisovného jazyka českého, uplynulo více než 40 let (od vydání prvního dílu dokonce let 50)3 a to je z hlediska dynamiky slovní
1
PSJČ je vědecký deskriptivní slovník velkého rozsahu (devítisvazkový, cca 250 000 hesel), popisuje českou slovní zásobu od r. 1880, nevyužívá hnízdování, exemplifikace je založena na citátových dokladech. SSJČ představuje slovník středního rozsahu (1. vydání čtyřsvazkové, 2., nezměněné vydání osmisvazkové, 192 908 hesel), zachycuje tehdejší spisovnou lexikální normu, ale rozsahem hesláře ji zároveň přesahuje (zařazováním slov zastaralých, řídkých ap.), popisuje slovní zásobu soudobé češtiny (přibližně od 30. let 20. st., výběrově od r. 1880); SSJČ využívá hnízdování a k exemplifikaci zejména minimální typické kontexty. SSČ je slovník menšího rozsahu (2. vyd. 45 366 hesel), je zaměřen na nejširší vrstvy uživatelů, popisuje centrální slovní zásobu současné češtiny (zejména od r. 1945) s přesahem k slovům různě příznakovým; má normativní charakter, exemplifikace je velmi omezená a využívají se minimální typické kontexty. K historii a charakteristice novodobé české lexikografie viz zejména podrobnou studii Z. Hladké (2007), tam bohaté odkazy na další literaturu. 2 Jde o slovník uživatelsky přátelský a atraktivní, ale s mnohými lexikograficky spornými řešeními, srov. Čermáková (2013). 3 Akademická lexikografie se v tomto období soustřeďovala na vydání a přepracování jednosvazkového výkladového slovníku (SSČ, viz výše), mimo to vznikla řada výkladových slovníků speciálních, např. slovníky cizích slov Akademický slovník cizích slov (1995), Nový akademický slovník cizích slov (2005), slovníky neologismů Nová slova v češtině 1, 2 (1998, 2004), valenční slovníky Slovesa pro praxi (1997), Slovník slovesných, substantivních a adjektivních vazeb (2005). Pracovníci lexikografického oddělení se dále podíleli na rozsáhlém a unikátním Slovníku české frazeologie a idiomatiky (zejména na 1. vyd. 1983–1994). Období čekání
zásoby, metodologie lingvistiky4, z hlediska platformy pro vytváření slovníku i z hlediska média použitého pro jeho publikování velmi dlouhé období. V důsledku toho se při přípravě nového slovníku a při stanovení jeho koncepce může vycházet z předcházejících výkladových slovníků, avšak některé aspekty (týkající se makrostruktury i mikrostruktury slovníku, materiálových zdrojů, způsobů lexikografické práce, viz dále) je třeba řešit nově nebo odlišně.
2. Základní charakteristika nově vznikajícího slovníku 2.1 Akademický slovník současné češtiny je slovník středního až velkého rozsahu, s předpokládaným počtem 120–150 tisíc lexikálních jednotek. Slovník se rozsahem i způsobem zpracování řadí k akademickým slovníkům, tj. k slovníkům s propracovaným, typizovaným a strukturovaným výkladem významu lexikálních jednotek, s přiměřeně bohatou exemplifikací dokumentující typická užití lexikálních jednotek, s dostatečně propracovaným popisem základních sémantických vztahů, zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností lexikálních jednotek a s popisem příznakovosti lexikálních jednotek z hlediska stylového, časového, prostorového, frekvenčního a pragmatického (tj. postojově-hodnotícího).5 2.2 Jeho cílem je popsat slovní zásobu současné češtiny (tj. od r. 1945), a to všeobecně rozšířenou, užívanou ve veřejné oficiální a polooficiální komunikaci i v komunikaci běžné (tj. neveřejné, neoficiální). Samozřejmou součástí popisovaného lexika jsou terminologické
na nový výkladový slovník češtiny většího rozsahu bylo prodlouženo i v důsledku extralingvistických faktorů – vítaná společenská proměna na přelomu 80. a 90. let měla v některých oblastech i negativní dopady. Finanční a personální restrikce v ÚJČ způsobily v daném období nedostatek mladších lexikografických pracovníků; to se v současnosti projevuje jako přerušení generační kontinuity. 4 Ve vztahu k lexikografii a lexikologii jde zejména o vznik a rozvoj komputační a korpusové lingvistiky a korpusové lexikografie (jazykové korpusy, excerpční databáze, elektronické archivy, speciální softwarové nástroje, zejm. nástroj Word Sketch aplikace The Sketch Engine – Kilgarriff, Rychlý, Smrž a Tugwell 2004)). Srov. Čermák, Blatná a kol. 1995, Čermák 2010. 5 Zdůrazněme, že vznikající slovník nemá charakter lexikální databáze. Vztah mezi lexikální databází a výkladovým slovníkem chápeme v souladu s P. Hanksem (2010, s. 581): „A lexical database is a fundamental background resource for use in the creation of many important linguistic artefacts dictionaries, course books, computer programs for natural language processing among them. A great monolingual dictionary has a different function: it brings together speakers of a language, it has a socially integrative function, making explicit the basis of words and meanings and usage, which all uses of the language rely on.“
jednotky, nikoli však termíny úzce specializované. Lexikální jednotky užívané v profesní a zájmové komunikaci jsou ve slovníku zachycovány v omezeném rozsahu, a to tehdy, pokud se užívají mimo své profesní, zájmové prostředí. Z nářečních výrazů se uvádějí ty, které mají širší územní platnost a užívají se především v mluvené komunikaci, příp. i v literatuře. 2.3 Předpokládaným uživatelem slovníku je středoškolsky vzdělaný rodilý mluvčí, na pozadí se však počítá i se zájemci o češtinu jako cizí jazyk. (Vzhledem k tomu, že čeština patří k jazykům malých národů, specializované jednojazyčné slovníky většího rozsahu pro nerodilé mluvčí nevznikají.) 2.4 Připravovaný slovník bude průběžně uveřejňován na Internetu (na webových stránkách ÚJČ), ale struktura a grafická podoba hesel odpovídají výstupu tištěnému. Po ukončení práce na slovníku tak bude možnost uveřejnit toto dílo jako celek i v knižní podobě.
3. Způsob zpracování slovníku: vybrané aspekty 3.1 Materiálové zdroje. Na rozdíl od předcházejících slovníků PSJČ, SSJČ a SSČ nevychází připravovaný slovník primárně z cílené excerpce, ale především z korpusových zdrojů. Základní materiálovou základnou je synchronní korpus psaných textů SYN ÚČNK o rozsahu 1,3 miliardy slov. V případě nedostatečnosti korpusového materiálu se dále čerpá z elektronického archivu společnosti Newton Media, a. s. (archivu celostátních i regionálních tištěných periodik a přepisů publicistických pořadů z televize a rozhlasu), v nezbytných případech se dohledává na internetu. Dalšími materiálovými zdroji jsou databáze ÚJČ: 1) neologická excerpční databáze (zaměřená na nové lexikální jevy), 2) databáze odborné slovní zásoby, 3) přípravná lexikální databáze Pralex6. K dispozici je také novočeský lexikální archiv vytvářený v letech 1911–1991.
6
Databáze Pralex (databáze slov, slovních tvarů a slovních spojení), zaměřená na popis lexikální, sémantické a syntaktické spojitelnosti heslových slov, vznikla v oddělení současné lexikologie a lexikografie v letech 2005– 2011 v rámci výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století (AV0Z90610521). Pro zápis a zpracování dat byl ve spolupráci s Centrem zpracování přirozeného jazyka FI MU
3.2 Makrostruktura slovníku 3.2.1 Heslář připravovaného slovníku je vystavěn na základě odlišné lexikografické techniky než v dřívějších slovnících7. Pro jeho sestavení se využívá soubor tří vyvážených korpusů SYN 2000, SYN 2005 a SYN 2010 s celkovým objemem 300 milionů slov. Hesla se vybírají z automaticky vygenerovaného hesláře zejména na základě frekvenčního kritéria a kritéria rozšíření v úzu (tj. zařazují se jen všeobecně rozšířené lexikální jednotky; termíny, profesionalismy, slangismy ap. se zařazují jen výběrově). Heslář se naopak rozšiřuje na základě slovotvorných vztahů (doplňují se členy slovotvorných hnízd) a na základě kohyponymických aj. vztahů (doplňují se členy lexikálně-sémantických tříd). 3.2.2 Ve srovnání s dřívějšími slovníky (SSJČ, SSČ) se jako samostatná hesla zpracovávají deriváty (vztahová adjektiva, příslovce, názvy vlastností), které se podávaly jako hnízdované jednotky v rámci heslového odstavce základového slova. Nový způsob zpracování (včetně výkladu významu a exemplifikace)8 umožňuje podat adekvátní lexikografický popis, který však vyžaduje provést detailní, často náročnou analýzu, bez opory v dřívějších pracích, srov. výklad významu u adjektiva badatelský: badatelský příd. vztahující se k badateli, k badatelství • složený z badatelů • určený pro badatele, pro badatelství: … Formou hnízdování se zpracovávají jen některé lexikální typy – přechýlené názvy (badatelka ← badatel), zdrobněliny (bambulka ← bambule) a opakovací slovesa (balívat ← balit), a to ty, u nichž se významová struktura derivátu neliší od základového slova.
v Brně vyvinut lexikografický software Praled. K vývoji Praledu/Pralexu viz Světlá 2012 (tam odkazy na další literaturu); Horák a Rambousek 2013. 7 Heslář PSJČ se opíral o rozsáhlou a promyšlenou excerpci 5 milionů excerpt. Heslář SSJČ vycházel z hesláře slovníku předcházejícího, tj. PSJČ, a vlastní – navazující – excerpce, a obdobně nejmladší z těchto tří novodobých slovníků, jednosvazkový SSČ, vycházel z hesláře SSJČ a vlastní excerpce. 8 Formálně se tak navazuje na PSJČ, který rovněž nevyužíval hnízdování, avšak způsob zpracovávání v připravovaném slovníku je oproti tomuto slovníku mnohem prohloubenější.
3.2.3 Větší autonomnost mají v novém slovníku rovněž víceslovné lexikální jednotky. Při zpracovávání se rozlišují: frazeologické jednotky (balit si kufry) a nefrazeologické jednotky (terminologické – akciová společnost; neterminologické – bílá technika; verbonominální spojení s abstraktem – provést analýzu; gramatické víceslovné lexikální jednotky – bez ohledu na předložka, i když spojka aj.).Ve slovníku jsou víceslovné lexikální jednotky uvedeny v heslové stati jednoslovného hesla. Při zpracování se však zohledňuje skutečnost, že jde o samostatné formálně-významové jednotky slovní zásoby, a proto se u velké části z nich podává výklad významu včetně exemplifikace (u frazémů vždy; u nefrazeologických jednotek se výklad významu uvádí v případech, kdy význam celku nevyplývá z významů jeho složek). Na samostatnost víceslovných lexikálních jednotek se upozorňuje také způsobem podání v heslové stati (zvýrazněné víceslovné lemma, označováni speciálními znaky).
3.3 Mikrostruktura hesla. Heslo v připravovaném slovníku se skládá z následujících částí: lemma (včetně variant), označení homonymie, výslovnost, původ lexikální jednotky, gramatická charakteristika (slovnědruhový údaj, tvaroslovné údaje, valence), stylistická charakteristika, obor/oblast užití, výklad významu (včetně synonym a antonym), exemplifikace, poznámkový aparát (např. encyklopedické informace, rozšiřující etymologické informace)9 a odkazy na (sémanticky, gramaticky) souvztažná hesla. 3.3.1 Oproti předchozím výkladovým slovníkům se detailněji zpracovávají gramatické údaje. Z určitého hlediska se tím překračuje žánr všeobecného výkladového slovníku, na druhou stranu se vychází vstříc uživatelům, kteří ve slovníku tento druh informací očekávají.10 Soubor morfologických údajů v heslech zahrnuje zejména dubletní tvary a tvary,
9
K využití poznámky srov. např. New Oxford Dictionary of English (Soanes a Stevenson 2005), v české lexikografii slovníky Nová slova v češtině 1, 2 (Martincová a kol. 1998, 2004). 10 V 90. letech byl v ÚJČ proveden menší sociolingvistický průzkum týkající se cílového uživatele slovníku a nároků kladených na všeobecné výkladové slovníky běžnými uživateli v rámci grantového projektu Sociolingvistické aspekty výkladového slovníku (GA AV ČR A0061702) – Opavská 2002; Rangelova 2002;
při jejichž užívání mohou uživatelé váhat. Valenční údaje se systematicky uvádějí u sloves, a to pravá i levá valence, výběrově také u substantiv a adjektiv. Sémantické upřesnění valenčních údajů se realizuje, pokud je to potřebné, v rámci výkladu významu, resp. v exemplifikačních dokladech. bafat (3. j. bafá, bafe, rozk. bafej!, čin. bafal, podst. jm. bafání) ned. expr. 4. (kdo || ~) (zprav. o psu nebo jiné psovité šelmě) vydávat jednotlivě vyrážené zvuky baf, haf; syn. štěkat
3.3.2 Při podání lexikálního významu se v novém slovníku vychází ze základního konceptu určení druhového zařazení – genus proximum – a určení diferenčních významových prvků – differentia specifica (se zřetelem k tomu, že vedle prvků nocionálních je třeba popsat i prvky pragmatické). Za součást lexikálního významu se však považují také ty významové prvky, které sice není možno hodnotit jako nutné distinktivní rysy, ale které odrážejí komplex vědomostí, jež o označované mimojazykové skutečnosti mají uživatelé jazyka na úrovni běžného poznání. V určité míře se tedy při výkladu významu připouštějí „encyklopedické“ údaje (zejména ty, které se objektivně odrážejí v slovotvorné struktuře slova, v ustálených přirovnáních a dalších frazémech a v sémanticky odvozených významech, na základě metafory11). buk buku (6. j. buku, 6. mn. bucích) m. než. 1. statný listnatý strom s hladkou bělošedou kůrou, přímým kmenem, lesklými vejčitými listy a plody bukvicemi: vzrostlý buk; malebnost místa podtrhují staleté buky a duby; bot. buk lesní Fagus sylvatica
2. dřevo z tohoto stromu: nábytek z tmavě mořeného buku 3. (plastová) dýha barvou a strukturou podobná tomuto dřevu: psací PC stůl je vyroben z lamina v barevném provedení buk ◊ (být) zdravý jak(o) buk expr. (být) naprosto zdravý a obvykle ještě fyzicky statný a čilý: potápěč musí být zdravý jako buk; zase jsem se cítil zdravý jako buk ◊ (to je) kluk jak(o) buk expr. (malý) chlapec je pěkně rostlý, zdravý a silný: syna zvážili a zjistili, že je to kluk jako buk – tři kila osmdesát; včera se mi narodil kluk jak buk Výklady synonymy se kvůli eliminaci výkladu kruhem využívají jen minimálně, a to v případě některých slov slangových, expresivních, případně nářečních. Tichá 2002. V tomto dotazníkovém průzkumu byla nejčastější odpověď na otázku „Co vám v slovníku chybí“ právě „gramatické informace“. Srov. také Šimandl 1995. 11 Dolník 2012, s. 45.
3.3.3 V exemplifikační části heslového odstavce se podávají jak typické doklady, které ilustrují typický úzus, tak doklady rozšířené, které ukazují méně obvyklé, neotřelé, někdy dokonce autorské užití slova (zejména u slov méně frekventovaných a náležejících k periferním oblastem slovní zásoby). Exemplifikační doklady mají navíc konkretizovat informace gramatické povahy (zejména údaje o valenci) a ilustrovat sémantickou spojitelnost. V exemplifikaci mohou být dále ilustrovány ty konotace, které nejsou zahrnuty ve výkladu významu, ale uživatel si je s danou jednotkou (proto)typicky spojuje.
4. Software. Na rozdíl od předcházejících výkladových slovníků, které v ÚJČ vznikly, je Akademický slovník současné češtiny od počátku vytvářen a zpracováván prostřednictvím specializovaného lexikografického softwaru pro tvorbu slovníku (DWS). Po zvážení různých možností byla kvůli výrazným specifikům tvorby a potřebě flexibility programu zvolena příprava vlastního softwaru. Vývoj softwaru získal grantovou podporu MK ČR v rámci programu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI). (O softwaru více v příspěvku Barbierik a kol. 2013).
5. Závěrem. Při tvorbě našeho slovníku hledáme nové cesty pro řešení otázek, které jsou před lexikografy odedávna, i takových, které s sebou nese moderní přítomnost. Přestože vytvořit dobrý výkladový slovník je sisyfovský úkol, je nutné se o to pokoušet. „Slovník národního jazyka náleží mezi první potřebnosti vzdělaného člověka.“ (J. Jungmann, předmluva k Českoněmeckému slovníku).
Bibliografie A. Slovníky a korpusy Akademický slovník cizích slov 1995. Praha: Academia. Čermák, F., J. Hronek a J. Machač (eds.) 1983–1994. Slovník české frazeologie a idiomatiky. (4 díly) (1. vydání) Praha: Academia.
Jungmann, J. 1835 (1834) – 1839. Slovník česko-německý. (5 dílů) Praha: Knížecí arcibiskupská knihtiskárna. Martincová, O. a kol. 1998. Nová slova v češtině. Slovník neologizmů 1. Praha: Academia. Martincová, O. a kol. 2004. Nová slova v češtině. Slovník neologizmů 2. Praha: Academia. Nový akademický slovník cizích slov 2005. Praha: Academia. Příruční slovník jazyka českého 1935–1957. Praha: Státní pedagogické nakladatelství / SPN. Slovník současné češtiny 2011. Praha: Lingea. Slovník spisovné češtiny pro školu a veřejnost 1978. (2., upravené vyd. 1994; 3., upravené vydání 2003.) Praha: Academia. Slovník spisovného jazyka českého 1960–1971. (1. vyd.) Praha: Nakladatelství ČSAV. Soanes, C. a A. Stevenson (eds.) 2005. Oxford Dictionary of English (Second, revised edition.) Oxford: Oxford University Press. Svozilová, N., H. Prouzová a A. Jirsová 1997. Slovesa pro praxi. Valenční slovník nejčastějších českých sloves. Praha: Academia. Svozilová, N., H. Prouzová a A. Jirsová 2005. Slovník slovesných, substantivních a adjektivních vazeb a spojení. Praha: Academia. Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW:
. Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: . Český národní korpus – SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: . Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: . B. Další literatura Barbierik, K. a kol. 2013. ‘A New Path to a Modern Monolingual Dictionary of Contemporary Czech: the Structure of Data in the New Dictionary Writing System.’ In K. Gajdošová a A. Žáková (eds.), Natural Language Processing, Corpus Linguistics, Elearning. Lüdenscheid: RAM-Verlag, s. 9–26. Čermák, F. 2010. ‘Notes on Compiling a Corpus-Based Dictionary.’ Lexikos 20 (AFRILEXreeks/series 20): 559–579. Čermák, F., R. Blatná a kol. (eds.) 1995. Manuál lexikografie. Jinočany: H & H. Čermáková, A. 2013. ‘Jaký slovník uživatelé češtiny potřebují? O Slovníku současné češtiny nakladatatelství Lingea.’ Slovo a slovesnost 74: 195–210. Dolník, J. 2012. ‘Lexikálna pragmatika.’ In K. Buzássyová, B. Chocholová a N. Janočková (eds.), Slovo v slovníku. Aspekty lexikálnej sémantiky – gramatika – štylistika (pragmatika). Na počesť Alexandry Jarošovej. Bratislava: Veda, 41–49. Hanks, P. 2010. ‘Compiling a Monolingual Dictionary for Native Speakers.’ Lexikos 20 (AFRILEX-reeks/series 20): 580–598. Hladká, Z. 2007. ‘Lexikografie.’ In Pleskalová, Jana a kol. (eds.), Kapitoly z dějin české jazykovědné bohemistiky. Praha: Academia, 164–198. Horák, A. a A. Rambousek 2013. ‘PRALED – A New Kind of Lexicographic Workstation.’ In A. Przepiórkowski, M. Piasecki, K. Jassem a P. Fuglewicz (eds.), Computational Linguistics Studies in Computational Intelligence, vol. 458. Berlin: Springer, 131–141. Kilgarriff, A., P. Rychlý, P. Smrž a D. Tugwell 2004. ‘The Sketch Engine.’ In G. Williams a S. Vessier (eds.), Proceedings of the eleventh EURALEX International Congress EURALEX 2004 Lorient, France, July 6–10, 2004. Lorient: Université de Bretagne-Sud, 105–116.
Opavská, Z. 2002. ‘Postoje a preference uživatelů slovníku. K jednomu aspektu dotazníkového průzkumu.’ In M. Nábělková a M. Šimková (eds.), Varia 9: zborník materiálov z IX. kolokvia mladých jazykovedcov: Modra–Piesok, 1.–3. 12. 1999. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 87–96. Rangelova, A. 2002. ‘Výkladové slovníky a uživatelská praxe.’ In M. Nábělková a M. Šimková (eds.), Varia 9: zborník materiálov z IX. kolokvia mladých jazykovedcov: Modra–Piesok, 1.–3. 12. 1999. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 79– 86. Světlá, J. 2012. ‘Lexikální databáze Pralex – nástroj a základna pro výzkum a popis slovní zásoby současné češtiny.’ In S. Čmejrková, J. Hoffmannová a J. Klímová (eds.), Čeština v pohledu synchronním a diachronním. Stoleté kořeny Ústavu pro jazyk český. Praha: Karolinum, 403–408. Šimandl, J. 1995. ‘Nad 2. vydáním SSČ, zejména o tvarosloví.’ Naše řeč 78: 18–25. Tichá, Z. 2002. ‘Řekni mi, co ti ve slovníku chybí, a já ti povím, jaký jsi uživatel. K otevřeným otázkám dotazníkového průzkumu.’ In M. Nábělková a M. Šimková (eds.), Varia 9: zborník materiálov z IX. kolokvia mladých jazykovedcov: Modra–Piesok, 1.–3. 12. 1999. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 97–101.